vpbjacobi/cuda/vpbjacobi_cuda.cu

0e6b6b59SJacob Faibussowitsch#include <petscdevice_cuda.h>
f1be3500SJunchao Zhang#include <../src/ksp/pc/impls/vpbjacobi/vpbjacobi.h>
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang/* A class that manages helper arrays assisting parallel PCApply() with CUDA */
f1be3500SJunchao Zhangstruct PC_VPBJacobi_CUDA {
f1be3500SJunchao Zhang  /* Cache the old sizes to check if we need realloc */
f1be3500SJunchao Zhang  PetscInt n;       /* number of rows of the local matrix */
f1be3500SJunchao Zhang  PetscInt nblocks; /* number of point blocks */
f1be3500SJunchao Zhang  PetscInt nsize;   /* sum of sizes of the point blocks */
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  /* Helper arrays that are pre-computed on host and then copied to device.
f1be3500SJunchao Zhang    bs:     [nblocks+1], "csr" version of bsizes[], with bs[0] = 0, bs[nblocks] = n.
9a56b474SJunchao Zhang    bs2:    [nblocks+1], "csr" version of squares of bsizes[], with bs2[0] = 0, bs2[nblocks] = nsize.
f1be3500SJunchao Zhang    matIdx: [n], row i of the local matrix belongs to the matIdx_d[i] block
f1be3500SJunchao Zhang  */
f1be3500SJunchao Zhang  PetscInt *bs_h, *bs2_h, *matIdx_h;
f1be3500SJunchao Zhang  PetscInt *bs_d, *bs2_d, *matIdx_d;
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  MatScalar *diag_d; /* [nsize], store inverse of the point blocks on device */
f1be3500SJunchao Zhang
d71ae5a4SJacob Faibussowitsch  PC_VPBJacobi_CUDA(PetscInt n, PetscInt nblocks, PetscInt nsize, const PetscInt *bsizes, MatScalar *diag_h) : n(n), nblocks(nblocks), nsize(nsize)
d71ae5a4SJacob Faibussowitsch  {
f1be3500SJunchao Zhang    /* malloc memory on host and device, and then update */
f1be3500SJunchao Zhang    PetscCallVoid(PetscMalloc3(nblocks + 1, &bs_h, nblocks + 1, &bs2_h, n, &matIdx_h));
f1be3500SJunchao Zhang    PetscCallCUDAVoid(cudaMalloc(&bs_d, sizeof(PetscInt) * (nblocks + 1)));
f1be3500SJunchao Zhang    PetscCallCUDAVoid(cudaMalloc(&bs2_d, sizeof(PetscInt) * (nblocks + 1)));
f1be3500SJunchao Zhang    PetscCallCUDAVoid(cudaMalloc(&matIdx_d, sizeof(PetscInt) * n));
f1be3500SJunchao Zhang    PetscCallCUDAVoid(cudaMalloc(&diag_d, sizeof(MatScalar) * nsize));
f1be3500SJunchao Zhang    PetscCallVoid(UpdateOffsetsOnDevice(bsizes, diag_h));
f1be3500SJunchao Zhang  }
f1be3500SJunchao Zhang
d71ae5a4SJacob Faibussowitsch  PetscErrorCode UpdateOffsetsOnDevice(const PetscInt *bsizes, MatScalar *diag_h)
d71ae5a4SJacob Faibussowitsch  {
f1be3500SJunchao Zhang    PetscFunctionBegin;
f1be3500SJunchao Zhang    PetscCall(ComputeOffsetsOnHost(bsizes));
f1be3500SJunchao Zhang    PetscCallCUDA(cudaMemcpy(bs_d, bs_h, sizeof(PetscInt) * (nblocks + 1), cudaMemcpyHostToDevice));
f1be3500SJunchao Zhang    PetscCallCUDA(cudaMemcpy(bs2_d, bs2_h, sizeof(PetscInt) * (nblocks + 1), cudaMemcpyHostToDevice));
f1be3500SJunchao Zhang    PetscCallCUDA(cudaMemcpy(matIdx_d, matIdx_h, sizeof(PetscInt) * n, cudaMemcpyHostToDevice));
f1be3500SJunchao Zhang    PetscCallCUDA(cudaMemcpy(diag_d, diag_h, sizeof(MatScalar) * nsize, cudaMemcpyHostToDevice));
9a56b474SJunchao Zhang    PetscCall(PetscLogCpuToGpu(sizeof(PetscInt) * (2 * nblocks + 2 + n) + sizeof(MatScalar) * nsize));
f1be3500SJunchao Zhang    PetscFunctionReturn(0);
f1be3500SJunchao Zhang  }
f1be3500SJunchao Zhang
d71ae5a4SJacob Faibussowitsch  ~PC_VPBJacobi_CUDA()
d71ae5a4SJacob Faibussowitsch  {
f1be3500SJunchao Zhang    PetscCallVoid(PetscFree3(bs_h, bs2_h, matIdx_h));
f1be3500SJunchao Zhang    PetscCallCUDAVoid(cudaFree(bs_d));
f1be3500SJunchao Zhang    PetscCallCUDAVoid(cudaFree(bs2_d));
f1be3500SJunchao Zhang    PetscCallCUDAVoid(cudaFree(matIdx_d));
f1be3500SJunchao Zhang    PetscCallCUDAVoid(cudaFree(diag_d));
f1be3500SJunchao Zhang  }
f1be3500SJunchao Zhang
f1be3500SJunchao Zhangprivate:
d71ae5a4SJacob Faibussowitsch  PetscErrorCode ComputeOffsetsOnHost(const PetscInt *bsizes)
d71ae5a4SJacob Faibussowitsch  {
f1be3500SJunchao Zhang    PetscFunctionBegin;
f1be3500SJunchao Zhang    bs_h[0] = bs2_h[0] = 0;
f1be3500SJunchao Zhang    for (PetscInt i = 0; i < nblocks; i++) {
f1be3500SJunchao Zhang      bs_h[i + 1]  = bs_h[i] + bsizes[i];
f1be3500SJunchao Zhang      bs2_h[i + 1] = bs2_h[i] + bsizes[i] * bsizes[i];
f1be3500SJunchao Zhang      for (PetscInt j = 0; j < bsizes[i]; j++) matIdx_h[bs_h[i] + j] = i;
f1be3500SJunchao Zhang    }
f1be3500SJunchao Zhang    PetscFunctionReturn(0);
f1be3500SJunchao Zhang  }
f1be3500SJunchao Zhang};
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang/* Like cublasDgemvBatched() but with variable-sized blocks
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  Input Parameters:
f1be3500SJunchao Zhang+ n       - number of rows of the local matrix
f1be3500SJunchao Zhang. bs      - [nblocks+1], prefix sum of bsizes[]
f1be3500SJunchao Zhang. bs2     - [nblocks+1], prefix sum of squares of bsizes[]
f1be3500SJunchao Zhang. matIdx  - [n], store block/matrix index for each row
f1be3500SJunchao Zhang. A       - blocks of the matrix back to back in column-major order
*69eda9daSJed Brown. x       - the input vector
*69eda9daSJed Brown- transpose - whether it is MatMult for Ax (false) or MatMultTranspose for A^Tx (true)
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  Output Parameter:
f1be3500SJunchao Zhang. y - the output vector
f1be3500SJunchao Zhang*/
*69eda9daSJed Brown__global__ static void MatMultBatched(PetscInt n, const PetscInt *bs, const PetscInt *bs2, const PetscInt *matIdx, const MatScalar *A, const PetscScalar *x, PetscScalar *y, PetscBool transpose)
d71ae5a4SJacob Faibussowitsch{
f1be3500SJunchao Zhang  const PetscInt gridSize = gridDim.x * blockDim.x;
f1be3500SJunchao Zhang  PetscInt       tid      = blockIdx.x * blockDim.x + threadIdx.x;
f1be3500SJunchao Zhang  PetscInt       i, j, k, m;
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  /* One row per thread. The blocks/matrices are stored in column-major order */
f1be3500SJunchao Zhang  for (; tid < n; tid += gridSize) {
f1be3500SJunchao Zhang    k = matIdx[tid];                       /* k-th block */
f1be3500SJunchao Zhang    m = bs[k + 1] - bs[k];                 /* block size of the k-th block */
f1be3500SJunchao Zhang    i = tid - bs[k];                       /* i-th row of the block */
*69eda9daSJed Brown    A += bs2[k] + i * (transpose ? m : 1); /* advance A to the first entry of i-th row */
f1be3500SJunchao Zhang    x += bs[k];
f1be3500SJunchao Zhang    y += bs[k];
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang    y[i] = 0.0;
9371c9d4SSatish Balay    for (j = 0; j < m; j++) {
9371c9d4SSatish Balay      y[i] += A[0] * x[j];
*69eda9daSJed Brown      A += (transpose ? 1 : m);
9371c9d4SSatish Balay    }
f1be3500SJunchao Zhang  }
f1be3500SJunchao Zhang}
f1be3500SJunchao Zhang
*69eda9daSJed Brownstatic PetscErrorCode PCApplyOrTranspose_VPBJacobi_CUDA(PC pc, Vec x, Vec y, PetscBool transpose)
d71ae5a4SJacob Faibussowitsch{
f1be3500SJunchao Zhang  PC_VPBJacobi      *jac   = (PC_VPBJacobi *)pc->data;
f1be3500SJunchao Zhang  PC_VPBJacobi_CUDA *pcuda = static_cast<PC_VPBJacobi_CUDA *>(jac->spptr);
f1be3500SJunchao Zhang  const PetscScalar *xx;
f1be3500SJunchao Zhang  PetscScalar       *yy;
f1be3500SJunchao Zhang  PetscInt           n;
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  PetscFunctionBegin;
9a56b474SJunchao Zhang  PetscCall(PetscLogGpuTimeBegin());
f1be3500SJunchao Zhang  if (PetscDefined(USE_DEBUG)) {
f1be3500SJunchao Zhang    PetscBool isCuda;
f1be3500SJunchao Zhang    PetscCall(PetscObjectTypeCompareAny((PetscObject)x, &isCuda, VECSEQCUDA, VECMPICUDA, ""));
f1be3500SJunchao Zhang    if (isCuda) PetscCall(PetscObjectTypeCompareAny((PetscObject)y, &isCuda, VECSEQCUDA, VECMPICUDA, ""));
f1be3500SJunchao Zhang    PetscCheck(isCuda, PETSC_COMM_SELF, PETSC_ERR_SUP, "PC: applying a CUDA pmat to non-cuda vectors");
f1be3500SJunchao Zhang  }
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  PetscCall(MatGetLocalSize(pc->pmat, &n, NULL));
f1be3500SJunchao Zhang  if (n) {
f1be3500SJunchao Zhang    PetscInt gridSize = PetscMin((n + 255) / 256, 2147483647); /* <= 2^31-1 */
f1be3500SJunchao Zhang    PetscCall(VecCUDAGetArrayRead(x, &xx));
f1be3500SJunchao Zhang    PetscCall(VecCUDAGetArrayWrite(y, &yy));
*69eda9daSJed Brown    MatMultBatched<<<gridSize, 256>>>(n, pcuda->bs_d, pcuda->bs2_d, pcuda->matIdx_d, pcuda->diag_d, xx, yy, transpose);
f1be3500SJunchao Zhang    PetscCallCUDA(cudaGetLastError());
f1be3500SJunchao Zhang    PetscCall(VecCUDARestoreArrayRead(x, &xx));
f1be3500SJunchao Zhang    PetscCall(VecCUDARestoreArrayWrite(y, &yy));
f1be3500SJunchao Zhang  }
9a56b474SJunchao Zhang  PetscCall(PetscLogGpuFlops(pcuda->nsize * 2)); /* FMA on entries in all blocks */
9a56b474SJunchao Zhang  PetscCall(PetscLogGpuTimeEnd());
f1be3500SJunchao Zhang  PetscFunctionReturn(0);
f1be3500SJunchao Zhang}
f1be3500SJunchao Zhang
*69eda9daSJed Brownstatic PetscErrorCode PCApply_VPBJacobi_CUDA(PC pc, Vec x, Vec y)
*69eda9daSJed Brown{
*69eda9daSJed Brown  PetscFunctionBegin;
*69eda9daSJed Brown  PetscCall(PCApplyOrTranspose_VPBJacobi_CUDA(pc, x, y, PETSC_FALSE));
*69eda9daSJed Brown  PetscFunctionReturn(0);
*69eda9daSJed Brown}
*69eda9daSJed Brown
*69eda9daSJed Brownstatic PetscErrorCode PCApplyTranspose_VPBJacobi_CUDA(PC pc, Vec x, Vec y)
*69eda9daSJed Brown{
*69eda9daSJed Brown  PetscFunctionBegin;
*69eda9daSJed Brown  PetscCall(PCApplyOrTranspose_VPBJacobi_CUDA(pc, x, y, PETSC_TRUE));
*69eda9daSJed Brown  PetscFunctionReturn(0);
*69eda9daSJed Brown}
*69eda9daSJed Brown
d71ae5a4SJacob Faibussowitschstatic PetscErrorCode PCDestroy_VPBJacobi_CUDA(PC pc)
d71ae5a4SJacob Faibussowitsch{
f1be3500SJunchao Zhang  PC_VPBJacobi *jac = (PC_VPBJacobi *)pc->data;
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  PetscFunctionBegin;
f1be3500SJunchao Zhang  PetscCallCXX(delete static_cast<PC_VPBJacobi_CUDA *>(jac->spptr));
f1be3500SJunchao Zhang  PCDestroy_VPBJacobi(pc);
f1be3500SJunchao Zhang  PetscFunctionReturn(0);
f1be3500SJunchao Zhang}
f1be3500SJunchao Zhang
d71ae5a4SJacob FaibussowitschPETSC_INTERN PetscErrorCode PCSetUp_VPBJacobi_CUDA(PC pc)
d71ae5a4SJacob Faibussowitsch{
f1be3500SJunchao Zhang  PC_VPBJacobi      *jac   = (PC_VPBJacobi *)pc->data;
f1be3500SJunchao Zhang  PC_VPBJacobi_CUDA *pcuda = static_cast<PC_VPBJacobi_CUDA *>(jac->spptr);
f1be3500SJunchao Zhang  PetscInt           i, n, nblocks, nsize = 0;
f1be3500SJunchao Zhang  const PetscInt    *bsizes;
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  PetscFunctionBegin;
f1be3500SJunchao Zhang  PetscCall(PCSetUp_VPBJacobi_Host(pc)); /* Compute the inverse on host now. Might worth doing it on device directly */
f1be3500SJunchao Zhang  PetscCall(MatGetVariableBlockSizes(pc->pmat, &nblocks, &bsizes));
f1be3500SJunchao Zhang  for (i = 0; i < nblocks; i++) nsize += bsizes[i] * bsizes[i];
f1be3500SJunchao Zhang  PetscCall(MatGetLocalSize(pc->pmat, &n, NULL));
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  /* If one calls MatSetVariableBlockSizes() multiple times and sizes have been changed (is it allowed?), we delete the old and rebuild anyway */
f1be3500SJunchao Zhang  if (pcuda && (pcuda->n != n || pcuda->nblocks != nblocks || pcuda->nsize != nsize)) {
f1be3500SJunchao Zhang    PetscCallCXX(delete pcuda);
f1be3500SJunchao Zhang    pcuda = nullptr;
f1be3500SJunchao Zhang  }
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  if (!pcuda) { /* allocate the struct along with the helper arrays from the scatch */
f1be3500SJunchao Zhang    PetscCallCXX(jac->spptr = new PC_VPBJacobi_CUDA(n, nblocks, nsize, bsizes, jac->diag));
f1be3500SJunchao Zhang  } else { /* update the value only */
f1be3500SJunchao Zhang    PetscCall(pcuda->UpdateOffsetsOnDevice(bsizes, jac->diag));
f1be3500SJunchao Zhang  }
f1be3500SJunchao Zhang
f1be3500SJunchao Zhang  pc->ops->apply          = PCApply_VPBJacobi_CUDA;
*69eda9daSJed Brown  pc->ops->applytranspose = PCApplyTranspose_VPBJacobi_CUDA;
f1be3500SJunchao Zhang  pc->ops->destroy        = PCDestroy_VPBJacobi_CUDA;
f1be3500SJunchao Zhang  PetscFunctionReturn(0);
f1be3500SJunchao Zhang}