pbjacobi/cuda/pbjacobi_cuda.cu

*12facf1bSJunchao Zhang#include <petscdevice_cuda.h>
*12facf1bSJunchao Zhang#include <petsc/private/petsclegacycupmblas.h>
*12facf1bSJunchao Zhang#include <../src/ksp/pc/impls/pbjacobi/pbjacobi.h>
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang#if PETSC_PKG_CUDA_VERSION_LT(11, 7, 0)
*12facf1bSJunchao Zhang__global__ static void MatMultBatched(PetscInt bs, PetscInt mbs, const PetscScalar *A, const PetscScalar *x, PetscScalar *y, PetscBool transpose)
*12facf1bSJunchao Zhang{
*12facf1bSJunchao Zhang  const PetscInt gridSize = gridDim.x * blockDim.x;
*12facf1bSJunchao Zhang  PetscInt       row      = blockIdx.x * blockDim.x + threadIdx.x;
*12facf1bSJunchao Zhang  const PetscInt bs2      = bs * bs;
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang  /* One row per thread. The blocks are stored in column-major order */
*12facf1bSJunchao Zhang  for (; row < bs * mbs; row += gridSize) {
*12facf1bSJunchao Zhang    const PetscScalar *Ap, *xp;
*12facf1bSJunchao Zhang    PetscScalar       *yp;
*12facf1bSJunchao Zhang    PetscInt           i, j, k;
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang    k  = row / bs;                               /* k-th block */
*12facf1bSJunchao Zhang    i  = row % bs;                               /* this thread deals with i-th row of the block */
*12facf1bSJunchao Zhang    Ap = &A[bs2 * k + i * (transpose ? bs : 1)]; /* Ap points to the first entry of i-th row */
*12facf1bSJunchao Zhang    xp = &x[bs * k];
*12facf1bSJunchao Zhang    yp = &y[bs * k];
*12facf1bSJunchao Zhang    /* multiply i-th row (column) with x */
*12facf1bSJunchao Zhang    yp[i] = 0.0;
*12facf1bSJunchao Zhang    for (j = 0; j < bs; j++) {
*12facf1bSJunchao Zhang      yp[i] += Ap[0] * xp[j];
*12facf1bSJunchao Zhang      Ap += (transpose ? 1 : bs); /* block is in column major order */
*12facf1bSJunchao Zhang    }
*12facf1bSJunchao Zhang  }
*12facf1bSJunchao Zhang}
*12facf1bSJunchao Zhang#endif
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhangstatic PetscErrorCode PCApplyOrTranspose_PBJacobi_CUDA(PC pc, Vec x, Vec y, cublasOperation_t op)
*12facf1bSJunchao Zhang{
*12facf1bSJunchao Zhang  const PetscScalar *xx;
*12facf1bSJunchao Zhang  PetscScalar       *yy;
*12facf1bSJunchao Zhang  cublasHandle_t     handle;
*12facf1bSJunchao Zhang  PC_PBJacobi       *jac = (PC_PBJacobi *)pc->data;
*12facf1bSJunchao Zhang  const PetscScalar *A   = (const PetscScalar *)jac->spptr;
*12facf1bSJunchao Zhang  const PetscInt     bs = jac->bs, mbs = jac->mbs;
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang  PetscFunctionBegin;
*12facf1bSJunchao Zhang  PetscCall(VecCUDAGetArrayRead(x, &xx));
*12facf1bSJunchao Zhang  PetscCall(VecCUDAGetArrayWrite(y, &yy));
*12facf1bSJunchao Zhang  PetscCall(PetscCUBLASGetHandle(&handle));
*12facf1bSJunchao Zhang  PetscCallCUBLAS(cublasSetPointerMode(handle, CUBLAS_POINTER_MODE_HOST)); /* alpha, beta are on host */
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang#if PETSC_PKG_CUDA_VERSION_GE(11, 7, 0)
*12facf1bSJunchao Zhang  /* y = alpha op(A) x + beta y */
*12facf1bSJunchao Zhang  const PetscScalar alpha = 1.0, beta = 0.0;
*12facf1bSJunchao Zhang  PetscCallCUBLAS(cublasXgemvStridedBatched(handle, op, bs, bs, &alpha, A, bs, bs * bs, xx, 1, bs, &beta, yy, 1, bs, mbs));
*12facf1bSJunchao Zhang#else
*12facf1bSJunchao Zhang  PetscInt gridSize = PetscMin((bs * mbs + 255) / 256, 2147483647); /* <= 2^31-1 */
*12facf1bSJunchao Zhang  MatMultBatched<<<gridSize, 256>>>(bs, mbs, A, xx, yy, (op == CUBLAS_OP_T ? PETSC_TRUE : PETSC_FALSE));
*12facf1bSJunchao Zhang  PetscCallCUDA(cudaGetLastError());
*12facf1bSJunchao Zhang#endif
*12facf1bSJunchao Zhang  PetscCall(VecCUDARestoreArrayRead(x, &xx));
*12facf1bSJunchao Zhang  PetscCall(VecCUDARestoreArrayWrite(y, &yy));
*12facf1bSJunchao Zhang  PetscCall(PetscLogGpuFlops(bs * bs * mbs * 2));
*12facf1bSJunchao Zhang  PetscFunctionReturn(0);
*12facf1bSJunchao Zhang}
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhangstatic PetscErrorCode PCApply_PBJacobi_CUDA(PC pc, Vec x, Vec y)
*12facf1bSJunchao Zhang{
*12facf1bSJunchao Zhang  PetscFunctionBegin;
*12facf1bSJunchao Zhang  PetscCall(PCApplyOrTranspose_PBJacobi_CUDA(pc, x, y, CUBLAS_OP_N)); // No transpose
*12facf1bSJunchao Zhang  PetscFunctionReturn(0);
*12facf1bSJunchao Zhang}
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhangstatic PetscErrorCode PCApplyTranspose_PBJacobi_CUDA(PC pc, Vec x, Vec y)
*12facf1bSJunchao Zhang{
*12facf1bSJunchao Zhang  PetscFunctionBegin;
*12facf1bSJunchao Zhang  PetscCall(PCApplyOrTranspose_PBJacobi_CUDA(pc, x, y, CUBLAS_OP_T)); // Transpose
*12facf1bSJunchao Zhang  PetscFunctionReturn(0);
*12facf1bSJunchao Zhang}
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhangstatic PetscErrorCode PCDestroy_PBJacobi_CUDA(PC pc)
*12facf1bSJunchao Zhang{
*12facf1bSJunchao Zhang  PC_PBJacobi *jac = (PC_PBJacobi *)pc->data;
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang  PetscFunctionBegin;
*12facf1bSJunchao Zhang  PetscCallCUDA(cudaFree(jac->spptr));
*12facf1bSJunchao Zhang  PetscCall(PCDestroy_PBJacobi(pc));
*12facf1bSJunchao Zhang  PetscFunctionReturn(0);
*12facf1bSJunchao Zhang}
*12facf1bSJunchao Zhang
*12facf1bSJunchao ZhangPETSC_INTERN PetscErrorCode PCSetUp_PBJacobi_CUDA(PC pc)
*12facf1bSJunchao Zhang{
*12facf1bSJunchao Zhang  PC_PBJacobi *jac = (PC_PBJacobi *)pc->data;
*12facf1bSJunchao Zhang  size_t       size;
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang  PetscFunctionBegin;
*12facf1bSJunchao Zhang  PetscCall(PCSetUp_PBJacobi_Host(pc)); /* Compute the inverse on host now. Might worth doing it on device directly */
*12facf1bSJunchao Zhang  size = sizeof(PetscScalar) * jac->bs * jac->bs * jac->mbs;
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang  /* PBJacobi_CUDA is simple so that we use jac->spptr as if it is diag_d */
*12facf1bSJunchao Zhang  if (!jac->spptr) PetscCallCUDAVoid(cudaMalloc(&jac->spptr, size));
*12facf1bSJunchao Zhang  PetscCallCUDAVoid(cudaMemcpy(jac->spptr, jac->diag, size, cudaMemcpyHostToDevice));
*12facf1bSJunchao Zhang  PetscCall(PetscLogCpuToGpu(size));
*12facf1bSJunchao Zhang
*12facf1bSJunchao Zhang  pc->ops->apply          = PCApply_PBJacobi_CUDA;
*12facf1bSJunchao Zhang  pc->ops->applytranspose = PCApplyTranspose_PBJacobi_CUDA;
*12facf1bSJunchao Zhang  pc->ops->destroy        = PCDestroy_PBJacobi_CUDA;
*12facf1bSJunchao Zhang  PetscFunctionReturn(0);
*12facf1bSJunchao Zhang}