seq/seqcuda/sellcuda.cu

*2d1451d4SHong Zhang#include <cuda_runtime.h>
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang#include <petscdevice_cuda.h>
*2d1451d4SHong Zhang#include <../src/mat/impls/sell/seq/sell.h> /*I   "petscmat.h"  I*/
*2d1451d4SHong Zhang
*2d1451d4SHong Zhangtypedef struct {
*2d1451d4SHong Zhang  PetscInt  *colidx; /* column index */
*2d1451d4SHong Zhang  MatScalar *val;
*2d1451d4SHong Zhang  PetscInt  *sliidx;
*2d1451d4SHong Zhang  PetscInt   nonzerostate;
*2d1451d4SHong Zhang} Mat_SeqSELLCUDA;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhangstatic PetscErrorCode MatSeqSELLCUDA_Destroy(Mat_SeqSELLCUDA **cudastruct)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  if (*cudastruct) {
*2d1451d4SHong Zhang    if ((*cudastruct)->colidx) { PetscCallCUDA(cudaFree((*cudastruct)->colidx)); }
*2d1451d4SHong Zhang    if ((*cudastruct)->val) { PetscCallCUDA(cudaFree((*cudastruct)->val)); }
*2d1451d4SHong Zhang    if ((*cudastruct)->sliidx) { PetscCallCUDA(cudaFree((*cudastruct)->sliidx)); }
*2d1451d4SHong Zhang    PetscCall(PetscFree(*cudastruct));
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhangstatic PetscErrorCode MatSeqSELLCUDACopyToGPU(Mat A)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_SeqSELLCUDA *cudastruct = (Mat_SeqSELLCUDA *)A->spptr;
*2d1451d4SHong Zhang  Mat_SeqSELL     *a          = (Mat_SeqSELL *)A->data;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  if (A->offloadmask == PETSC_OFFLOAD_UNALLOCATED || A->offloadmask == PETSC_OFFLOAD_CPU) {
*2d1451d4SHong Zhang    PetscCall(PetscLogEventBegin(MAT_CUDACopyToGPU, A, 0, 0, 0));
*2d1451d4SHong Zhang    if (A->assembled && A->nonzerostate == cudastruct->nonzerostate) {
*2d1451d4SHong Zhang      /* copy values only */
*2d1451d4SHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->val, a->val, a->sliidx[a->totalslices] * sizeof(MatScalar), cudaMemcpyHostToDevice));
*2d1451d4SHong Zhang      PetscCall(PetscLogCpuToGpu(a->sliidx[a->totalslices] * (sizeof(MatScalar))));
*2d1451d4SHong Zhang    } else {
*2d1451d4SHong Zhang      if (cudastruct->colidx) { PetscCallCUDA(cudaFree(cudastruct->colidx)); }
*2d1451d4SHong Zhang      if (cudastruct->val) { PetscCallCUDA(cudaFree(cudastruct->val)); }
*2d1451d4SHong Zhang      if (cudastruct->sliidx) { PetscCallCUDA(cudaFree(cudastruct->sliidx)); }
*2d1451d4SHong Zhang      PetscCallCUDA(cudaMalloc((void **)&(cudastruct->sliidx), (a->totalslices + 1) * sizeof(PetscInt)));
*2d1451d4SHong Zhang      PetscCallCUDA(cudaMalloc((void **)&(cudastruct->colidx), a->maxallocmat * sizeof(PetscInt)));
*2d1451d4SHong Zhang      PetscCallCUDA(cudaMalloc((void **)&(cudastruct->val), a->maxallocmat * sizeof(MatScalar)));
*2d1451d4SHong Zhang      /* copy values, nz or maxallocmat? */
*2d1451d4SHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->sliidx, a->sliidx, (a->totalslices + 1) * sizeof(PetscInt), cudaMemcpyHostToDevice));
*2d1451d4SHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->colidx, a->colidx, a->sliidx[a->totalslices] * sizeof(PetscInt), cudaMemcpyHostToDevice));
*2d1451d4SHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->val, a->val, a->sliidx[a->totalslices] * sizeof(MatScalar), cudaMemcpyHostToDevice));
*2d1451d4SHong Zhang      PetscCall(PetscLogCpuToGpu(a->sliidx[a->totalslices] * (sizeof(MatScalar) + sizeof(PetscInt)) + (a->totalslices + 1) * sizeof(PetscInt)));
*2d1451d4SHong Zhang      cudastruct->nonzerostate = A->nonzerostate;
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang    PetscCallCUDA(WaitForCUDA());
*2d1451d4SHong Zhang    PetscCall(PetscLogEventEnd(MAT_CUDACopyToGPU, A, 0, 0, 0));
*2d1451d4SHong Zhang    A->offloadmask = PETSC_OFFLOAD_BOTH;
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang__global__ void matmult_seqsell_basic_kernel(PetscInt nrows, PetscInt totalslices, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscInt  i, row, slice_id, row_in_slice;
*2d1451d4SHong Zhang  MatScalar sum;
*2d1451d4SHong Zhang  /* one thread per row. */
*2d1451d4SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*2d1451d4SHong Zhang  if (row < nrows) {
*2d1451d4SHong Zhang    slice_id     = row / SLICE_HEIGHT;
*2d1451d4SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
*2d1451d4SHong Zhang    if (slice_id < totalslices) {
*2d1451d4SHong Zhang      sum = 0.0;
*2d1451d4SHong Zhang      for (i = sliidx[slice_id] + row_in_slice; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT) sum += aval[i] * x[acolidx[i]];
*2d1451d4SHong Zhang      if (slice_id == totalslices - 1 && nrows % SLICE_HEIGHT) { /* if last slice has padding rows */
*2d1451d4SHong Zhang        if (row_in_slice < (nrows % SLICE_HEIGHT)) y[row] = sum;
*2d1451d4SHong Zhang      } else {
*2d1451d4SHong Zhang        y[row] = sum;
*2d1451d4SHong Zhang      }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang__global__ void matmultadd_seqsell_basic_kernel(PetscInt nrows, PetscInt totalslices, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscInt  i, row, slice_id, row_in_slice;
*2d1451d4SHong Zhang  MatScalar sum;
*2d1451d4SHong Zhang  /* one thread per row. */
*2d1451d4SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*2d1451d4SHong Zhang  if (row < nrows) {
*2d1451d4SHong Zhang    slice_id     = row / SLICE_HEIGHT;
*2d1451d4SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
*2d1451d4SHong Zhang    if (slice_id < totalslices) {
*2d1451d4SHong Zhang      sum = 0.0;
*2d1451d4SHong Zhang      for (i = sliidx[slice_id] + row_in_slice; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT) sum += aval[i] * x[acolidx[i]];
*2d1451d4SHong Zhang      if (slice_id == totalslices - 1 && nrows % SLICE_HEIGHT) { /* if last slice has padding rows */
*2d1451d4SHong Zhang        if (row_in_slice < (nrows % SLICE_HEIGHT)) z[row] = y[row] + sum;
*2d1451d4SHong Zhang      } else {
*2d1451d4SHong Zhang        z[row] = y[row] + sum;
*2d1451d4SHong Zhang      }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang__global__ void matmult_seqsell_tiled_kernel(PetscInt nrows, PetscInt totalslices, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  __shared__ MatScalar shared[256];
*2d1451d4SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
*2d1451d4SHong Zhang  /* one thread per row. */
*2d1451d4SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*2d1451d4SHong Zhang  if (row < nrows) {
*2d1451d4SHong Zhang    slice_id     = row / SLICE_HEIGHT;
*2d1451d4SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*2d1451d4SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*2d1451d4SHong Zhang    if (blockDim.y > 4) {
*2d1451d4SHong Zhang      __syncthreads();
*2d1451d4SHong Zhang      if (threadIdx.y < 4) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x]; }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang    if (blockDim.y > 2) {
*2d1451d4SHong Zhang      __syncthreads();
*2d1451d4SHong Zhang      if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang    if (blockDim.y > 1) {
*2d1451d4SHong Zhang      __syncthreads();
*2d1451d4SHong Zhang      if (threadIdx.y < 1) { shared[threadIdx.x] += shared[blockDim.x + threadIdx.x]; }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang    if (threadIdx.y < 1) {
*2d1451d4SHong Zhang      if (slice_id == totalslices - 1 && nrows % SLICE_HEIGHT) { /* if last slice has padding rows */
*2d1451d4SHong Zhang        if (row_in_slice < (nrows % SLICE_HEIGHT)) y[row] = shared[threadIdx.x];
*2d1451d4SHong Zhang      } else {
*2d1451d4SHong Zhang        y[row] = shared[threadIdx.x];
*2d1451d4SHong Zhang      }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang__global__ void matmultadd_seqsell_tiled_kernel(PetscInt nrows, PetscInt totalslices, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  __shared__ MatScalar shared[256];
*2d1451d4SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
*2d1451d4SHong Zhang  /* one thread per row. */
*2d1451d4SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*2d1451d4SHong Zhang  if (row < nrows) {
*2d1451d4SHong Zhang    slice_id     = row / SLICE_HEIGHT;
*2d1451d4SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*2d1451d4SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*2d1451d4SHong Zhang    if (blockDim.y > 4) {
*2d1451d4SHong Zhang      __syncthreads();
*2d1451d4SHong Zhang      if (threadIdx.y < 4) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x]; }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang    if (blockDim.y > 2) {
*2d1451d4SHong Zhang      __syncthreads();
*2d1451d4SHong Zhang      if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang    if (blockDim.y > 1) {
*2d1451d4SHong Zhang      __syncthreads();
*2d1451d4SHong Zhang      if (threadIdx.y < 1) { shared[threadIdx.x] += shared[blockDim.x + threadIdx.x]; }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang    if (threadIdx.y < 1) {
*2d1451d4SHong Zhang      if (slice_id == totalslices - 1 && nrows % SLICE_HEIGHT) { /* if last slice has padding rows */
*2d1451d4SHong Zhang        if (row_in_slice < (nrows % SLICE_HEIGHT)) z[row] = y[row] + shared[threadIdx.x];
*2d1451d4SHong Zhang      } else {
*2d1451d4SHong Zhang        z[row] = y[row] + shared[threadIdx.x];
*2d1451d4SHong Zhang      }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatMult_SeqSELLCUDA(Mat A, Vec xx, Vec yy)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_SeqSELL       *a          = (Mat_SeqSELL *)A->data;
*2d1451d4SHong Zhang  Mat_SeqSELLCUDA   *cudastruct = (Mat_SeqSELLCUDA *)A->spptr;
*2d1451d4SHong Zhang  PetscScalar       *y;
*2d1451d4SHong Zhang  const PetscScalar *x;
*2d1451d4SHong Zhang  PetscInt           totalslices = a->totalslices, nrows = A->rmap->n;
*2d1451d4SHong Zhang  MatScalar         *aval;
*2d1451d4SHong Zhang  PetscInt          *acolidx;
*2d1451d4SHong Zhang  PetscInt          *sliidx;
*2d1451d4SHong Zhang  PetscInt           nblocks, blocksize = 256;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(MatSeqSELLCUDACopyToGPU(A));
*2d1451d4SHong Zhang  /* cudastruct may not be available until MatSeqSELLCUDACopyToGPU() is called */
*2d1451d4SHong Zhang  aval    = cudastruct->val;
*2d1451d4SHong Zhang  acolidx = cudastruct->colidx;
*2d1451d4SHong Zhang  sliidx  = cudastruct->sliidx;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscCall(VecCUDAGetArrayRead(xx, &x));
*2d1451d4SHong Zhang  PetscCall(VecCUDAGetArrayWrite(yy, &y));
*2d1451d4SHong Zhang  PetscCall(PetscLogGpuTimeBegin());
*2d1451d4SHong Zhang  nblocks = (nrows + blocksize - 1) / blocksize;
*2d1451d4SHong Zhang  if (nblocks >= 80) {
*2d1451d4SHong Zhang    matmult_seqsell_basic_kernel<<<nblocks, blocksize>>>(nrows, totalslices, acolidx, aval, sliidx, x, y);
*2d1451d4SHong Zhang  } else {
*2d1451d4SHong Zhang    PetscInt avg_width;
*2d1451d4SHong Zhang    dim3     block1(256, 1), block2(128, 2), block4(64, 4), block8(32, 8);
*2d1451d4SHong Zhang    avg_width = a->sliidx[a->totalslices] / (SLICE_HEIGHT * a->totalslices);
*2d1451d4SHong Zhang    if (avg_width > 64) {
*2d1451d4SHong Zhang      matmult_seqsell_tiled_kernel<<<nblocks * 8, block8>>>(nrows, totalslices, acolidx, aval, sliidx, x, y);
*2d1451d4SHong Zhang    } else if (avg_width > 32) {
*2d1451d4SHong Zhang      matmult_seqsell_tiled_kernel<<<nblocks * 4, block4>>>(nrows, totalslices, acolidx, aval, sliidx, x, y);
*2d1451d4SHong Zhang    } else if (avg_width > 16) {
*2d1451d4SHong Zhang      matmult_seqsell_tiled_kernel<<<nblocks * 2, block2>>>(nrows, totalslices, acolidx, aval, sliidx, x, y);
*2d1451d4SHong Zhang    } else {
*2d1451d4SHong Zhang      matmult_seqsell_tiled_kernel<<<nblocks, block1>>>(nrows, totalslices, acolidx, aval, sliidx, x, y);
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang  PetscCallCUDA(WaitForCUDA());
*2d1451d4SHong Zhang  PetscCall(PetscLogGpuTimeEnd());
*2d1451d4SHong Zhang  PetscCall(VecCUDARestoreArrayRead(xx, &x));
*2d1451d4SHong Zhang  PetscCall(VecCUDARestoreArrayWrite(yy, &y));
*2d1451d4SHong Zhang  PetscCall(PetscLogGpuFlops(2.0 * a->nz - a->nonzerorowcnt));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatMultAdd_SeqSELLCUDA(Mat A, Vec xx, Vec yy, Vec zz)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_SeqSELL       *a          = (Mat_SeqSELL *)A->data;
*2d1451d4SHong Zhang  Mat_SeqSELLCUDA   *cudastruct = (Mat_SeqSELLCUDA *)A->spptr;
*2d1451d4SHong Zhang  PetscScalar       *z;
*2d1451d4SHong Zhang  const PetscScalar *y, *x;
*2d1451d4SHong Zhang  PetscInt           totalslices = a->totalslices, nrows = A->rmap->n;
*2d1451d4SHong Zhang  MatScalar         *aval    = cudastruct->val;
*2d1451d4SHong Zhang  PetscInt          *acolidx = cudastruct->colidx;
*2d1451d4SHong Zhang  PetscInt          *sliidx  = cudastruct->sliidx;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(MatSeqSELLCUDACopyToGPU(A));
*2d1451d4SHong Zhang  if (a->nz) {
*2d1451d4SHong Zhang    PetscInt nblocks, blocksize = 256;
*2d1451d4SHong Zhang    PetscCall(VecCUDAGetArrayRead(xx, &x));
*2d1451d4SHong Zhang    PetscCall(VecCUDAGetArrayRead(yy, &y));
*2d1451d4SHong Zhang    PetscCall(VecCUDAGetArrayWrite(zz, &z));
*2d1451d4SHong Zhang    PetscCall(PetscLogGpuTimeBegin());
*2d1451d4SHong Zhang    nblocks = (nrows + blocksize - 1) / blocksize;
*2d1451d4SHong Zhang    if (nblocks >= 80) {
*2d1451d4SHong Zhang      matmultadd_seqsell_basic_kernel<<<nblocks, blocksize>>>(nrows, totalslices, acolidx, aval, sliidx, x, y, z);
*2d1451d4SHong Zhang    } else {
*2d1451d4SHong Zhang      PetscInt avg_width;
*2d1451d4SHong Zhang      dim3     block1(256, 1), block2(128, 2), block4(64, 4), block8(32, 8);
*2d1451d4SHong Zhang      avg_width = a->sliidx[a->totalslices] / (SLICE_HEIGHT * a->totalslices);
*2d1451d4SHong Zhang      if (avg_width > 64) {
*2d1451d4SHong Zhang        matmultadd_seqsell_tiled_kernel<<<nblocks * 8, block8>>>(nrows, totalslices, acolidx, aval, sliidx, x, y, z);
*2d1451d4SHong Zhang      } else if (avg_width > 32) {
*2d1451d4SHong Zhang        matmultadd_seqsell_tiled_kernel<<<nblocks * 4, block4>>>(nrows, totalslices, acolidx, aval, sliidx, x, y, z);
*2d1451d4SHong Zhang      } else if (avg_width > 16) {
*2d1451d4SHong Zhang        matmultadd_seqsell_tiled_kernel<<<nblocks * 2, block2>>>(nrows, totalslices, acolidx, aval, sliidx, x, y, z);
*2d1451d4SHong Zhang      } else {
*2d1451d4SHong Zhang        matmultadd_seqsell_tiled_kernel<<<nblocks, block1>>>(nrows, totalslices, acolidx, aval, sliidx, x, y, z);
*2d1451d4SHong Zhang      }
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang    PetscCallCUDA(WaitForCUDA());
*2d1451d4SHong Zhang    PetscCall(PetscLogGpuTimeEnd());
*2d1451d4SHong Zhang    PetscCall(VecCUDARestoreArrayRead(xx, &x));
*2d1451d4SHong Zhang    PetscCall(VecCUDARestoreArrayRead(yy, &y));
*2d1451d4SHong Zhang    PetscCall(VecCUDARestoreArrayWrite(zz, &z));
*2d1451d4SHong Zhang    PetscCall(PetscLogGpuFlops(2.0 * a->nz));
*2d1451d4SHong Zhang  } else {
*2d1451d4SHong Zhang    PetscCall(VecCopy(yy, zz));
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhangstatic PetscErrorCode MatSetFromOptions_SeqSELLCUDA(Mat A, PetscOptionItems *PetscOptionsObject)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscOptionsHeadBegin(PetscOptionsObject, "SeqSELLCUDA options");
*2d1451d4SHong Zhang  PetscOptionsHeadEnd();
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhangstatic PetscErrorCode MatAssemblyEnd_SeqSELLCUDA(Mat A, MatAssemblyType mode)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(MatAssemblyEnd_SeqSELL(A, mode));
*2d1451d4SHong Zhang  if (mode == MAT_FLUSH_ASSEMBLY) PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang  if (A->factortype == MAT_FACTOR_NONE) { PetscCall(MatSeqSELLCUDACopyToGPU(A)); }
*2d1451d4SHong Zhang  A->ops->mult    = MatMult_SeqSELLCUDA;
*2d1451d4SHong Zhang  A->ops->multadd = MatMultAdd_SeqSELLCUDA;
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhangstatic PetscErrorCode MatDestroy_SeqSELLCUDA(Mat A)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  if (A->factortype == MAT_FACTOR_NONE) {
*2d1451d4SHong Zhang    if (A->offloadmask != PETSC_OFFLOAD_UNALLOCATED) { PetscCall(MatSeqSELLCUDA_Destroy((Mat_SeqSELLCUDA **)&A->spptr)); }
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang  PetscCall(MatDestroy_SeqSELL(A));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPETSC_INTERN PetscErrorCode MatConvert_SeqSELL_SeqSELLCUDA(Mat);
*2d1451d4SHong Zhangstatic PetscErrorCode       MatDuplicate_SeqSELLCUDA(Mat A, MatDuplicateOption cpvalues, Mat *B)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(MatDuplicate_SeqSELL(A, cpvalues, B));
*2d1451d4SHong Zhang  PetscCall(MatConvert_SeqSELL_SeqSELLCUDA(*B));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPETSC_EXTERN PetscErrorCode MatConvert_SeqSELL_SeqSELLCUDA(Mat B)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_SeqSELLCUDA *cudastruct;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(PetscFree(B->defaultvectype));
*2d1451d4SHong Zhang  PetscCall(PetscStrallocpy(VECCUDA, &B->defaultvectype));
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  if (!B->spptr) {
*2d1451d4SHong Zhang    if (B->factortype == MAT_FACTOR_NONE) {
*2d1451d4SHong Zhang      PetscCall(PetscNew(&cudastruct));
*2d1451d4SHong Zhang      B->spptr = cudastruct;
*2d1451d4SHong Zhang    }
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  B->ops->assemblyend    = MatAssemblyEnd_SeqSELLCUDA;
*2d1451d4SHong Zhang  B->ops->destroy        = MatDestroy_SeqSELLCUDA;
*2d1451d4SHong Zhang  B->ops->setfromoptions = MatSetFromOptions_SeqSELLCUDA;
*2d1451d4SHong Zhang  B->ops->mult           = MatMult_SeqSELLCUDA;
*2d1451d4SHong Zhang  B->ops->multadd        = MatMultAdd_SeqSELLCUDA;
*2d1451d4SHong Zhang  B->ops->duplicate      = MatDuplicate_SeqSELLCUDA;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscCall(PetscObjectChangeTypeName((PetscObject)B, MATSEQSELLCUDA));
*2d1451d4SHong Zhang  B->offloadmask = PETSC_OFFLOAD_UNALLOCATED;
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPETSC_EXTERN PetscErrorCode MatCreate_SeqSELLCUDA(Mat B)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(MatCreate_SeqSELL(B));
*2d1451d4SHong Zhang  PetscCall(MatConvert_SeqSELL_SeqSELLCUDA(B));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}