seq/seqcuda/sellcuda.cu

2d1451d4SHong Zhang#include <cuda_runtime.h>
2d1451d4SHong Zhang
2d1451d4SHong Zhang#include <petscdevice_cuda.h>
2d1451d4SHong Zhang#include <../src/mat/impls/sell/seq/sell.h> /*I   "petscmat.h"  I*/
2d1451d4SHong Zhang
07e43b41SHong Zhang#define SLICE_HEIGHT 16
07e43b41SHong Zhang
2d1451d4SHong Zhangtypedef struct {
*90d2215bSHong Zhang  PetscInt   maxallocmat;
*90d2215bSHong Zhang  PetscInt   totalentries;
*90d2215bSHong Zhang  PetscInt  *colidx; /* column index array, device pointer */
*90d2215bSHong Zhang  MatScalar *val;    /* value array, device pointer */
*90d2215bSHong Zhang  PetscInt   totalslices;
*90d2215bSHong Zhang  PetscInt  *sliidx; /* slice index array, device pointer */
2d1451d4SHong Zhang  PetscInt   nonzerostate;
07e43b41SHong Zhang  PetscInt   kernelchoice;
4e58db63SHong Zhang  PetscInt   blocky;
*90d2215bSHong Zhang  PetscInt   chunksperblock;
*90d2215bSHong Zhang  PetscInt   totalchunks;
*90d2215bSHong Zhang  PetscInt  *chunk_slice_map; /* starting slice for each chunk, device pointer */
2d1451d4SHong Zhang} Mat_SeqSELLCUDA;
2d1451d4SHong Zhang
2d1451d4SHong Zhangstatic PetscErrorCode MatSeqSELLCUDA_Destroy(Mat_SeqSELLCUDA **cudastruct)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  PetscFunctionBegin;
2d1451d4SHong Zhang  if (*cudastruct) {
2d1451d4SHong Zhang    if ((*cudastruct)->colidx) { PetscCallCUDA(cudaFree((*cudastruct)->colidx)); }
2d1451d4SHong Zhang    if ((*cudastruct)->val) { PetscCallCUDA(cudaFree((*cudastruct)->val)); }
2d1451d4SHong Zhang    if ((*cudastruct)->sliidx) { PetscCallCUDA(cudaFree((*cudastruct)->sliidx)); }
*90d2215bSHong Zhang    if ((*cudastruct)->chunk_slice_map) { PetscCallCUDA(cudaFree((*cudastruct)->chunk_slice_map)); }
2d1451d4SHong Zhang    PetscCall(PetscFree(*cudastruct));
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
2d1451d4SHong Zhangstatic PetscErrorCode MatSeqSELLCUDACopyToGPU(Mat A)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  Mat_SeqSELLCUDA *cudastruct = (Mat_SeqSELLCUDA *)A->spptr;
2d1451d4SHong Zhang  Mat_SeqSELL     *a          = (Mat_SeqSELL *)A->data;
2d1451d4SHong Zhang
2d1451d4SHong Zhang  PetscFunctionBegin;
2d1451d4SHong Zhang  if (A->offloadmask == PETSC_OFFLOAD_UNALLOCATED || A->offloadmask == PETSC_OFFLOAD_CPU) {
2d1451d4SHong Zhang    PetscCall(PetscLogEventBegin(MAT_CUDACopyToGPU, A, 0, 0, 0));
2d1451d4SHong Zhang    if (A->assembled && A->nonzerostate == cudastruct->nonzerostate) {
2d1451d4SHong Zhang      /* copy values only */
2d1451d4SHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->val, a->val, a->sliidx[a->totalslices] * sizeof(MatScalar), cudaMemcpyHostToDevice));
2d1451d4SHong Zhang      PetscCall(PetscLogCpuToGpu(a->sliidx[a->totalslices] * (sizeof(MatScalar))));
2d1451d4SHong Zhang    } else {
2d1451d4SHong Zhang      if (cudastruct->colidx) { PetscCallCUDA(cudaFree(cudastruct->colidx)); }
2d1451d4SHong Zhang      if (cudastruct->val) { PetscCallCUDA(cudaFree(cudastruct->val)); }
2d1451d4SHong Zhang      if (cudastruct->sliidx) { PetscCallCUDA(cudaFree(cudastruct->sliidx)); }
*90d2215bSHong Zhang      if (cudastruct->chunk_slice_map) { PetscCallCUDA(cudaFree(cudastruct->chunk_slice_map)); }
*90d2215bSHong Zhang      cudastruct->maxallocmat  = a->maxallocmat;
*90d2215bSHong Zhang      cudastruct->totalentries = a->sliidx[a->totalslices];
*90d2215bSHong Zhang      cudastruct->totalslices  = a->totalslices;
*90d2215bSHong Zhang      cudastruct->totalchunks  = a->totalchunks;
2d1451d4SHong Zhang      PetscCallCUDA(cudaMalloc((void **)&(cudastruct->colidx), a->maxallocmat * sizeof(PetscInt)));
2d1451d4SHong Zhang      PetscCallCUDA(cudaMalloc((void **)&(cudastruct->val), a->maxallocmat * sizeof(MatScalar)));
2d1451d4SHong Zhang      /* copy values, nz or maxallocmat? */
2d1451d4SHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->colidx, a->colidx, a->sliidx[a->totalslices] * sizeof(PetscInt), cudaMemcpyHostToDevice));
2d1451d4SHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->val, a->val, a->sliidx[a->totalslices] * sizeof(MatScalar), cudaMemcpyHostToDevice));
07e43b41SHong Zhang
07e43b41SHong Zhang      PetscCallCUDA(cudaMalloc((void **)&(cudastruct->sliidx), (a->totalslices + 1) * sizeof(PetscInt)));
07e43b41SHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->sliidx, a->sliidx, (a->totalslices + 1) * sizeof(PetscInt), cudaMemcpyHostToDevice));
*90d2215bSHong Zhang      PetscCallCUDA(cudaMalloc((void **)&(cudastruct->chunk_slice_map), a->totalchunks * sizeof(PetscInt)));
*90d2215bSHong Zhang      PetscCallCUDA(cudaMemcpy(cudastruct->chunk_slice_map, a->chunk_slice_map, a->totalchunks * sizeof(PetscInt), cudaMemcpyHostToDevice));
*90d2215bSHong Zhang      PetscCall(PetscLogCpuToGpu(a->sliidx[a->totalslices] * (sizeof(MatScalar) + sizeof(PetscInt)) + (a->totalslices + 1 + a->totalchunks) * sizeof(PetscInt)));
2d1451d4SHong Zhang    }
2d1451d4SHong Zhang    PetscCallCUDA(WaitForCUDA());
2d1451d4SHong Zhang    PetscCall(PetscLogEventEnd(MAT_CUDACopyToGPU, A, 0, 0, 0));
2d1451d4SHong Zhang    A->offloadmask = PETSC_OFFLOAD_BOTH;
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
4e58db63SHong Zhang__global__ void matmult_seqsell_basic_kernel(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  PetscInt  i, row, slice_id, row_in_slice;
2d1451d4SHong Zhang  MatScalar sum;
2d1451d4SHong Zhang  /* one thread per row. */
2d1451d4SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
2d1451d4SHong Zhang  if (row < nrows) {
4e58db63SHong Zhang    slice_id     = row / sliceheight;
4e58db63SHong Zhang    row_in_slice = row % sliceheight;
2d1451d4SHong Zhang    sum          = 0.0;
4e58db63SHong Zhang    for (i = sliidx[slice_id] + row_in_slice; i < sliidx[slice_id + 1]; i += sliceheight) sum += aval[i] * x[acolidx[i]];
2d1451d4SHong Zhang    y[row] = sum;
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
4e58db63SHong Zhang__global__ void matmultadd_seqsell_basic_kernel(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  PetscInt  i, row, slice_id, row_in_slice;
2d1451d4SHong Zhang  MatScalar sum;
2d1451d4SHong Zhang  /* one thread per row. */
2d1451d4SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
2d1451d4SHong Zhang  if (row < nrows) {
4e58db63SHong Zhang    slice_id     = row / sliceheight;
4e58db63SHong Zhang    row_in_slice = row % sliceheight;
2d1451d4SHong Zhang    sum          = 0.0;
4e58db63SHong Zhang    for (i = sliidx[slice_id] + row_in_slice; i < sliidx[slice_id + 1]; i += sliceheight) sum += aval[i] * x[acolidx[i]];
2d1451d4SHong Zhang    z[row] = y[row] + sum;
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang}
07e43b41SHong Zhang
07e43b41SHong Zhang/* use 1 block per slice, suitable for large slice width */
07e43b41SHong Zhangtemplate <int BLOCKY>
4e58db63SHong Zhang__global__ void matmult_seqsell_tiled_kernel9(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
07e43b41SHong Zhang{
4e58db63SHong Zhang  __shared__ MatScalar shared[32][BLOCKY];
4e58db63SHong Zhang  PetscInt             i, row, slice_id = blockIdx.x;
4e58db63SHong Zhang  int                  tid = threadIdx.x + threadIdx.y * 32;
07e43b41SHong Zhang  /* transposed index */
07e43b41SHong Zhang  int         tidx = tid % BLOCKY;
07e43b41SHong Zhang  int         tidy = tid / BLOCKY;
07e43b41SHong Zhang  PetscScalar t    = 0.0;
4e58db63SHong Zhang
4e58db63SHong Zhang  row = slice_id * sliceheight + threadIdx.x % sliceheight;
07e43b41SHong Zhang  if (row < nrows) {
4e58db63SHong Zhang    for (i = sliidx[slice_id] + threadIdx.x + 32 * threadIdx.y; i < sliidx[slice_id + 1]; i += 32 * BLOCKY) t += aval[i] * x[acolidx[i]];
2d1451d4SHong Zhang  }
4e58db63SHong Zhang#pragma unroll
4e58db63SHong Zhang  for (int offset = 16; offset >= sliceheight; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset); }
07e43b41SHong Zhang  /* transpose layout to reduce each row using warp shfl */
1f0d1278SHong Zhang  if (threadIdx.x < sliceheight) shared[threadIdx.x][threadIdx.y] = t;
07e43b41SHong Zhang  __syncthreads();
1f0d1278SHong Zhang  if (tidy < sliceheight) t = shared[tidy][tidx];
07e43b41SHong Zhang#pragma unroll
07e43b41SHong Zhang  for (int offset = BLOCKY / 2; offset > 0; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset, BLOCKY); }
4e58db63SHong Zhang  if (tidx == 0 && tidy < sliceheight) { shared[0][tidy] = t; }
07e43b41SHong Zhang  __syncthreads();
4e58db63SHong Zhang  if (row < nrows && threadIdx.y == 0 && threadIdx.x < sliceheight) { y[row] = shared[0][threadIdx.x]; }
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
cca9ff8bSHong Zhang/* use 1 block per slice, suitable for large slice width */
cca9ff8bSHong Zhangtemplate <int BLOCKY>
cca9ff8bSHong Zhang__global__ void matmultadd_seqsell_tiled_kernel9(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
cca9ff8bSHong Zhang{
cca9ff8bSHong Zhang  __shared__ MatScalar shared[32][BLOCKY];
cca9ff8bSHong Zhang  PetscInt             i, row, slice_id = blockIdx.x;
cca9ff8bSHong Zhang  int                  tid = threadIdx.x + threadIdx.y * 32;
cca9ff8bSHong Zhang  /* transposed index */
cca9ff8bSHong Zhang  int         tidx = tid % BLOCKY;
cca9ff8bSHong Zhang  int         tidy = tid / BLOCKY;
cca9ff8bSHong Zhang  PetscScalar t    = 0.0;
cca9ff8bSHong Zhang
cca9ff8bSHong Zhang  row = slice_id * sliceheight + threadIdx.x % sliceheight;
cca9ff8bSHong Zhang  if (row < nrows) {
cca9ff8bSHong Zhang    for (i = sliidx[slice_id] + threadIdx.x + 32 * threadIdx.y; i < sliidx[slice_id + 1]; i += 32 * BLOCKY) t += aval[i] * x[acolidx[i]];
cca9ff8bSHong Zhang  }
cca9ff8bSHong Zhang#pragma unroll
cca9ff8bSHong Zhang  for (int offset = 16; offset >= sliceheight; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset); }
cca9ff8bSHong Zhang  /* transpose layout to reduce each row using warp shfl */
1f0d1278SHong Zhang  if (threadIdx.x < sliceheight) shared[threadIdx.x][threadIdx.y] = t;
cca9ff8bSHong Zhang  __syncthreads();
1f0d1278SHong Zhang  if (tidy < sliceheight) t = shared[tidy][tidx];
cca9ff8bSHong Zhang#pragma unroll
cca9ff8bSHong Zhang  for (int offset = BLOCKY / 2; offset > 0; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset, BLOCKY); }
cca9ff8bSHong Zhang  if (tidx == 0 && tidy < sliceheight) { shared[0][tidy] = t; }
cca9ff8bSHong Zhang  __syncthreads();
cca9ff8bSHong Zhang  if (row < nrows && threadIdx.y == 0 && threadIdx.x < sliceheight) { z[row] = y[row] + shared[0][threadIdx.x]; }
cca9ff8bSHong Zhang}
cca9ff8bSHong Zhang
*90d2215bSHong Zhangtemplate <int BLOCKY>
*90d2215bSHong Zhang__device__ __forceinline__ bool segment_scan(PetscInt flag[], MatScalar shared[], PetscScalar *val)
*90d2215bSHong Zhang{
*90d2215bSHong Zhang  bool head = true;
*90d2215bSHong Zhang#pragma unroll
*90d2215bSHong Zhang  for (int i = 1; i < BLOCKY * 2; i <<= 1) {
*90d2215bSHong Zhang    int halfwarpid                         = threadIdx.y * 2 + threadIdx.x / 16;
*90d2215bSHong Zhang    shared[threadIdx.x + threadIdx.y * 32] = 0;
*90d2215bSHong Zhang    if (halfwarpid >= i && flag[halfwarpid - i] == flag[halfwarpid]) {
*90d2215bSHong Zhang      shared[threadIdx.x + threadIdx.y * 32] = *val;
*90d2215bSHong Zhang      if (i == 1) head = false;
*90d2215bSHong Zhang    }
*90d2215bSHong Zhang    __syncthreads();
*90d2215bSHong Zhang    if (halfwarpid < BLOCKY * 2 - i) *val += shared[threadIdx.x + threadIdx.y * 32 + i * 16];
*90d2215bSHong Zhang    __syncthreads();
*90d2215bSHong Zhang  }
*90d2215bSHong Zhang  return head;
*90d2215bSHong Zhang}
*90d2215bSHong Zhang
*90d2215bSHong Zhang/* load-balancing version. Chunksize is equal to the number of threads per block */
*90d2215bSHong Zhangtemplate <int BLOCKY>
*90d2215bSHong Zhang__global__ void matmult_seqsell_tiled_kernel8(PetscInt nrows, PetscInt sliceheight, PetscInt chunksperblock, PetscInt totalchunks, const PetscInt *chunk_slice_map, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*90d2215bSHong Zhang{
*90d2215bSHong Zhang  __shared__ MatScalar shared[BLOCKY * 32];
*90d2215bSHong Zhang  PetscInt             gid, row, start_slice, cid;
*90d2215bSHong Zhang  PetscScalar          t = 0.0;
*90d2215bSHong Zhang  /* zero out y */
*90d2215bSHong Zhang  for (int iter = 0; iter < 1 + (nrows - 1) / (gridDim.x * 32 * BLOCKY); iter++) {
*90d2215bSHong Zhang    gid = gridDim.x * 32 * BLOCKY * iter + blockIdx.x * BLOCKY * 32 + threadIdx.y * 32 + threadIdx.x;
*90d2215bSHong Zhang    if (gid < nrows) y[gid] = 0.0;
*90d2215bSHong Zhang  }
*90d2215bSHong Zhang  for (int iter = 0; iter < chunksperblock; iter++) {
*90d2215bSHong Zhang    cid = blockIdx.x * chunksperblock + iter; /* chunk id */
*90d2215bSHong Zhang    if (cid < totalchunks) {
*90d2215bSHong Zhang      start_slice = chunk_slice_map[cid]; /* starting slice at each iteration */
*90d2215bSHong Zhang      gid         = cid * BLOCKY * 32 + threadIdx.y * 32 + threadIdx.x;
*90d2215bSHong Zhang      if ((cid + 1) * BLOCKY * 32 > sliidx[start_slice + 1]) { /* this iteration covers more than one slice */
*90d2215bSHong Zhang        __shared__ PetscInt flag[BLOCKY * 2];
*90d2215bSHong Zhang        bool                write;
*90d2215bSHong Zhang        PetscInt            slice_id = start_slice, totalslices = PetscCeilInt(nrows, sliceheight), totalentries = sliidx[totalslices];
*90d2215bSHong Zhang        /* find out the slice that this element belongs to */
*90d2215bSHong Zhang        while (gid < totalentries && gid >= sliidx[slice_id + 1]) slice_id++;
*90d2215bSHong Zhang        if (threadIdx.x % 16 == 0) flag[threadIdx.y * 2 + threadIdx.x / 16] = slice_id;
*90d2215bSHong Zhang        row = slice_id * sliceheight + threadIdx.x % sliceheight;
*90d2215bSHong Zhang        if (row < nrows && gid < totalentries) t = aval[gid] * x[acolidx[gid]];
*90d2215bSHong Zhang        __syncthreads();
*90d2215bSHong Zhang        write = segment_scan<BLOCKY>(flag, shared, &t);
*90d2215bSHong Zhang        if (row < nrows && gid < totalentries && write) atomicAdd(&y[row], t);
*90d2215bSHong Zhang        t = 0.0;
*90d2215bSHong Zhang      } else { /* this iteration covers only one slice */
*90d2215bSHong Zhang        row = start_slice * sliceheight + threadIdx.x % sliceheight;
*90d2215bSHong Zhang        if (row < nrows) t += aval[gid] * x[acolidx[gid]];
*90d2215bSHong Zhang        if (iter == chunksperblock - 1 || (cid + 2) * BLOCKY * 32 > sliidx[start_slice + 1]) { /* last iteration or next iteration covers more than one slice */
*90d2215bSHong Zhang          int tid = threadIdx.x + threadIdx.y * 32, tidx = tid % BLOCKY, tidy = tid / BLOCKY;
*90d2215bSHong Zhang/* reduction and write to output vector */
*90d2215bSHong Zhang#pragma unroll
*90d2215bSHong Zhang          for (int offset = 16; offset >= sliceheight; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset); }
*90d2215bSHong Zhang          /* transpose layout to reduce each row using warp shfl */
*90d2215bSHong Zhang          if (threadIdx.x < sliceheight) shared[threadIdx.x * BLOCKY + threadIdx.y] = t; /* shared[threadIdx.x][threadIdx.y] = t */
*90d2215bSHong Zhang          __syncthreads();
*90d2215bSHong Zhang          if (tidy < sliceheight) t = shared[tidy * BLOCKY + tidx]; /* shared[tidy][tidx] */
*90d2215bSHong Zhang#pragma unroll
*90d2215bSHong Zhang          for (int offset = BLOCKY / 2; offset > 0; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset, BLOCKY); }
*90d2215bSHong Zhang          if (tidx == 0 && tidy < sliceheight) { shared[tidy] = t; /* shared[0][tidy] = t */ }
*90d2215bSHong Zhang          __syncthreads();
*90d2215bSHong Zhang          if (row < nrows && threadIdx.y == 0 && threadIdx.x < sliceheight) atomicAdd(&y[row], shared[threadIdx.x]); /* shared[0][threadIdx.x] */
*90d2215bSHong Zhang          t = 0.0;
*90d2215bSHong Zhang        }
*90d2215bSHong Zhang      }
*90d2215bSHong Zhang    }
*90d2215bSHong Zhang  }
*90d2215bSHong Zhang}
*90d2215bSHong Zhang
*90d2215bSHong Zhang/* load-balancing version. Chunksize is equal to the number of threads per block */
*90d2215bSHong Zhangtemplate <int BLOCKY>
*90d2215bSHong Zhang__global__ void matmultadd_seqsell_tiled_kernel8(PetscInt nrows, PetscInt sliceheight, PetscInt chunksperblock, PetscInt totalchunks, const PetscInt *chunk_slice_map, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*90d2215bSHong Zhang{
*90d2215bSHong Zhang  __shared__ MatScalar shared[BLOCKY * 32];
*90d2215bSHong Zhang  PetscInt             gid, row, start_slice, cid;
*90d2215bSHong Zhang  PetscScalar          t = 0.0;
*90d2215bSHong Zhang  /* copy y to z */
*90d2215bSHong Zhang  for (int iter = 0; iter < 1 + (nrows - 1) / (gridDim.x * 32 * BLOCKY); iter++) {
*90d2215bSHong Zhang    gid = gridDim.x * 32 * BLOCKY * iter + blockIdx.x * BLOCKY * 32 + threadIdx.y * 32 + threadIdx.x;
*90d2215bSHong Zhang    if (gid < nrows) z[gid] = y[gid];
*90d2215bSHong Zhang  }
*90d2215bSHong Zhang  for (int iter = 0; iter < chunksperblock; iter++) {
*90d2215bSHong Zhang    cid = blockIdx.x * chunksperblock + iter; /* chunk id */
*90d2215bSHong Zhang    if (cid < totalchunks) {
*90d2215bSHong Zhang      start_slice = chunk_slice_map[cid]; /* starting slice at each iteration */
*90d2215bSHong Zhang      gid         = cid * BLOCKY * 32 + threadIdx.y * 32 + threadIdx.x;
*90d2215bSHong Zhang      if ((cid + 1) * BLOCKY * 32 > sliidx[start_slice + 1]) { /* this iteration covers more than one slice */
*90d2215bSHong Zhang        __shared__ PetscInt flag[BLOCKY * 2];
*90d2215bSHong Zhang        bool                write;
*90d2215bSHong Zhang        PetscInt            slice_id = start_slice, totalslices = PetscCeilInt(nrows, sliceheight), totalentries = sliidx[totalslices];
*90d2215bSHong Zhang        /* find out the slice that this element belongs to */
*90d2215bSHong Zhang        while (gid < totalentries && gid >= sliidx[slice_id + 1]) slice_id++;
*90d2215bSHong Zhang        if (threadIdx.x % 16 == 0) flag[threadIdx.y * 2 + threadIdx.x / 16] = slice_id;
*90d2215bSHong Zhang        row = slice_id * sliceheight + threadIdx.x % sliceheight;
*90d2215bSHong Zhang        if (row < nrows && gid < totalentries) t = aval[gid] * x[acolidx[gid]];
*90d2215bSHong Zhang        __syncthreads();
*90d2215bSHong Zhang        write = segment_scan<BLOCKY>(flag, shared, &t);
*90d2215bSHong Zhang        if (row < nrows && gid < totalentries && write) atomicAdd(&z[row], t);
*90d2215bSHong Zhang        t = 0.0;
*90d2215bSHong Zhang      } else { /* this iteration covers only one slice */
*90d2215bSHong Zhang        row = start_slice * sliceheight + threadIdx.x % sliceheight;
*90d2215bSHong Zhang        if (row < nrows) t += aval[gid] * x[acolidx[gid]];
*90d2215bSHong Zhang        if (iter == chunksperblock - 1 || (cid + 2) * BLOCKY * 32 > sliidx[start_slice + 1]) { /* last iteration or next iteration covers more than one slice */
*90d2215bSHong Zhang          int tid = threadIdx.x + threadIdx.y * 32, tidx = tid % BLOCKY, tidy = tid / BLOCKY;
*90d2215bSHong Zhang/* reduction and write to output vector */
*90d2215bSHong Zhang#pragma unroll
*90d2215bSHong Zhang          for (int offset = 16; offset >= sliceheight; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset); }
*90d2215bSHong Zhang          /* transpose layout to reduce each row using warp shfl */
*90d2215bSHong Zhang          if (threadIdx.x < sliceheight) shared[threadIdx.x * BLOCKY + threadIdx.y] = t; /* shared[threadIdx.x][threadIdx.y] = t */
*90d2215bSHong Zhang          __syncthreads();
*90d2215bSHong Zhang          if (tidy < sliceheight) t = shared[tidy * BLOCKY + tidx]; /* shared[tidy][tidx] */
*90d2215bSHong Zhang#pragma unroll
*90d2215bSHong Zhang          for (int offset = BLOCKY / 2; offset > 0; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset, BLOCKY); }
*90d2215bSHong Zhang          if (tidx == 0 && tidy < sliceheight) { shared[tidy] = t; /* shared[0][tidy] = t */ }
*90d2215bSHong Zhang          __syncthreads();
*90d2215bSHong Zhang          if (row < nrows && threadIdx.y == 0 && threadIdx.x < sliceheight) atomicAdd(&z[row], shared[threadIdx.x]); /* shared[0][threadIdx.x] */
*90d2215bSHong Zhang          t = 0.0;
*90d2215bSHong Zhang        }
*90d2215bSHong Zhang      }
*90d2215bSHong Zhang    }
*90d2215bSHong Zhang  }
*90d2215bSHong Zhang}
*90d2215bSHong Zhang
07e43b41SHong Zhang/* use 1 warp per slice, suitable for small slice width */
4e58db63SHong Zhang__global__ void matmult_seqsell_tiled_kernel7(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
2d1451d4SHong Zhang{
07e43b41SHong Zhang  PetscInt i, row, slice_id;
07e43b41SHong Zhang  slice_id = blockIdx.x * blockDim.y + threadIdx.y;
4e58db63SHong Zhang  row      = slice_id * sliceheight + threadIdx.x % sliceheight;
07e43b41SHong Zhang  double t = 0.0;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    for (i = sliidx[slice_id] + threadIdx.x; i < sliidx[slice_id + 1]; i += 32) t += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang  }
4e58db63SHong Zhang#pragma unroll
4e58db63SHong Zhang  for (int offset = 16; offset >= sliceheight; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset); }
4e58db63SHong Zhang  if (row < nrows && threadIdx.x < sliceheight) { y[row] = t; }
07e43b41SHong Zhang}
07e43b41SHong Zhang
cca9ff8bSHong Zhang/* use 1 warp per slice, suitable for small slice width */
cca9ff8bSHong Zhang__global__ void matmultadd_seqsell_tiled_kernel7(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
cca9ff8bSHong Zhang{
cca9ff8bSHong Zhang  PetscInt i, row, slice_id;
cca9ff8bSHong Zhang  slice_id = blockIdx.x * blockDim.y + threadIdx.y;
cca9ff8bSHong Zhang  row      = slice_id * sliceheight + threadIdx.x % sliceheight;
cca9ff8bSHong Zhang  double t = 0.0;
cca9ff8bSHong Zhang  if (row < nrows) {
cca9ff8bSHong Zhang    for (i = sliidx[slice_id] + threadIdx.x; i < sliidx[slice_id + 1]; i += 32) t += aval[i] * x[acolidx[i]];
cca9ff8bSHong Zhang  }
cca9ff8bSHong Zhang#pragma unroll
cca9ff8bSHong Zhang  for (int offset = 16; offset >= sliceheight; offset /= 2) { t += __shfl_down_sync(0xffffffff, t, offset); }
cca9ff8bSHong Zhang  if (row < nrows && threadIdx.x < sliceheight) { z[row] = y[row] + t; }
cca9ff8bSHong Zhang}
cca9ff8bSHong Zhang
a9dd396cSHong Zhang/***********  Kernel 2-6  are tied to slice height 16. They are kept only for performance comparison  **********/
a9dd396cSHong Zhang
a9dd396cSHong Zhang__global__ void matmult_seqsell_tiled_kernel6(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
2d1451d4SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
2d1451d4SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
2d1451d4SHong Zhang  if (row < nrows) {
2d1451d4SHong Zhang    slice_id     = row / SLICE_HEIGHT;
2d1451d4SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
2d1451d4SHong Zhang
2d1451d4SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
2d1451d4SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 16) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 16) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 8) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 8) * blockDim.x + threadIdx.x]; }
2d1451d4SHong Zhang    __syncthreads();
2d1451d4SHong Zhang    if (threadIdx.y < 4) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x]; }
2d1451d4SHong Zhang    __syncthreads();
2d1451d4SHong Zhang    if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
2d1451d4SHong Zhang    __syncthreads();
2d1451d4SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
2d1451d4SHong Zhang      y[row] = shared[threadIdx.x];
2d1451d4SHong Zhang    }
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
a9dd396cSHong Zhang__global__ void matmult_seqsell_tiled_kernel5(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
2d1451d4SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
2d1451d4SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
2d1451d4SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
2d1451d4SHong Zhang  if (row < nrows) {
2d1451d4SHong Zhang    slice_id     = row / SLICE_HEIGHT;
2d1451d4SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
2d1451d4SHong Zhang
2d1451d4SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
2d1451d4SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 8) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 8) * blockDim.x + threadIdx.x]; }
2d1451d4SHong Zhang    __syncthreads();
2d1451d4SHong Zhang    if (threadIdx.y < 4) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x]; }
2d1451d4SHong Zhang    __syncthreads();
2d1451d4SHong Zhang    if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
2d1451d4SHong Zhang    __syncthreads();
2d1451d4SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
07e43b41SHong Zhang      y[row] = shared[threadIdx.x];
07e43b41SHong Zhang    }
07e43b41SHong Zhang  }
07e43b41SHong Zhang}
07e43b41SHong Zhang
a9dd396cSHong Zhang__global__ void matmult_seqsell_tiled_kernel4(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
07e43b41SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
07e43b41SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    slice_id     = row / SLICE_HEIGHT;
07e43b41SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
07e43b41SHong Zhang
07e43b41SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
07e43b41SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 4) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
07e43b41SHong Zhang      y[row] = shared[threadIdx.x];
07e43b41SHong Zhang    }
07e43b41SHong Zhang  }
07e43b41SHong Zhang}
07e43b41SHong Zhang
a9dd396cSHong Zhang__global__ void matmult_seqsell_tiled_kernel3(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
07e43b41SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
07e43b41SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    slice_id     = row / SLICE_HEIGHT;
07e43b41SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
07e43b41SHong Zhang
07e43b41SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
07e43b41SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
07e43b41SHong Zhang      y[row] = shared[threadIdx.x];
07e43b41SHong Zhang    }
07e43b41SHong Zhang  }
07e43b41SHong Zhang}
07e43b41SHong Zhang
a9dd396cSHong Zhang__global__ void matmult_seqsell_tiled_kernel2(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
07e43b41SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
07e43b41SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    slice_id     = row / SLICE_HEIGHT;
07e43b41SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
07e43b41SHong Zhang
07e43b41SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
07e43b41SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
07e43b41SHong Zhang      y[row] = shared[threadIdx.x];
07e43b41SHong Zhang    }
07e43b41SHong Zhang  }
07e43b41SHong Zhang}
07e43b41SHong Zhang
a9dd396cSHong Zhang__global__ void matmultadd_seqsell_tiled_kernel6(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
07e43b41SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
07e43b41SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    slice_id     = row / SLICE_HEIGHT;
07e43b41SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
07e43b41SHong Zhang
07e43b41SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
07e43b41SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 16) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 16) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 8) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 8) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 4) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
2d1451d4SHong Zhang      z[row] = y[row] + shared[threadIdx.x];
2d1451d4SHong Zhang    }
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang}
07e43b41SHong Zhang
a9dd396cSHong Zhang__global__ void matmultadd_seqsell_tiled_kernel5(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
07e43b41SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
07e43b41SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    slice_id     = row / SLICE_HEIGHT;
07e43b41SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
07e43b41SHong Zhang
07e43b41SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
07e43b41SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 8) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 8) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 4) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
07e43b41SHong Zhang      z[row] = y[row] + shared[threadIdx.x];
07e43b41SHong Zhang    }
07e43b41SHong Zhang  }
07e43b41SHong Zhang}
07e43b41SHong Zhang
a9dd396cSHong Zhang__global__ void matmultadd_seqsell_tiled_kernel4(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
07e43b41SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
07e43b41SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    slice_id     = row / SLICE_HEIGHT;
07e43b41SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
07e43b41SHong Zhang
07e43b41SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
07e43b41SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 4) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
07e43b41SHong Zhang      z[row] = y[row] + shared[threadIdx.x];
07e43b41SHong Zhang    }
07e43b41SHong Zhang  }
07e43b41SHong Zhang}
07e43b41SHong Zhang
a9dd396cSHong Zhang__global__ void matmultadd_seqsell_tiled_kernel3(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
07e43b41SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
07e43b41SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    slice_id     = row / SLICE_HEIGHT;
07e43b41SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
07e43b41SHong Zhang
07e43b41SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
07e43b41SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 2) { shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x]; }
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
07e43b41SHong Zhang      z[row] = y[row] + shared[threadIdx.x];
07e43b41SHong Zhang    }
07e43b41SHong Zhang  }
07e43b41SHong Zhang}
07e43b41SHong Zhang
a9dd396cSHong Zhang__global__ void matmultadd_seqsell_tiled_kernel2(PetscInt nrows, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
07e43b41SHong Zhang{
07e43b41SHong Zhang  __shared__ MatScalar shared[512];
07e43b41SHong Zhang  PetscInt             i, row, slice_id, row_in_slice;
07e43b41SHong Zhang  /* multiple threads per row. */
07e43b41SHong Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
07e43b41SHong Zhang  if (row < nrows) {
07e43b41SHong Zhang    slice_id     = row / SLICE_HEIGHT;
07e43b41SHong Zhang    row_in_slice = row % SLICE_HEIGHT;
07e43b41SHong Zhang
07e43b41SHong Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
07e43b41SHong Zhang    for (i = sliidx[slice_id] + row_in_slice + SLICE_HEIGHT * threadIdx.y; i < sliidx[slice_id + 1]; i += SLICE_HEIGHT * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
07e43b41SHong Zhang    __syncthreads();
07e43b41SHong Zhang    if (threadIdx.y < 1) {
07e43b41SHong Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
07e43b41SHong Zhang      z[row] = y[row] + shared[threadIdx.x];
07e43b41SHong Zhang    }
07e43b41SHong Zhang  }
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
2d1451d4SHong ZhangPetscErrorCode MatMult_SeqSELLCUDA(Mat A, Vec xx, Vec yy)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  Mat_SeqSELL       *a          = (Mat_SeqSELL *)A->data;
2d1451d4SHong Zhang  Mat_SeqSELLCUDA   *cudastruct = (Mat_SeqSELLCUDA *)A->spptr;
2d1451d4SHong Zhang  PetscScalar       *y;
2d1451d4SHong Zhang  const PetscScalar *x;
a9dd396cSHong Zhang  PetscInt           nrows = A->rmap->n, sliceheight = a->sliceheight;
*90d2215bSHong Zhang  PetscInt           chunksperblock, nchunks, *chunk_slice_map;
2d1451d4SHong Zhang  MatScalar         *aval;
2d1451d4SHong Zhang  PetscInt          *acolidx;
2d1451d4SHong Zhang  PetscInt          *sliidx;
07e43b41SHong Zhang  PetscInt           nblocks, blocksize = 512; /* blocksize must be multiple of SLICE_HEIGHT*32 */
07e43b41SHong Zhang  dim3               block2(256, 2), block4(128, 4), block8(64, 8), block16(32, 16), block32(16, 32);
2d1451d4SHong Zhang
2d1451d4SHong Zhang  PetscFunctionBegin;
4e58db63SHong Zhang  PetscCheck(32 % sliceheight == 0, PETSC_COMM_SELF, PETSC_ERR_SUP, "The kernel requires a slice height be a divisor of 32, but the input matrix has a slice height of %" PetscInt_FMT, sliceheight);
*90d2215bSHong Zhang  PetscCheck(!(cudastruct->kernelchoice >= 2 && cudastruct->kernelchoice <= 6 && sliceheight != SLICE_HEIGHT), PETSC_COMM_SELF, PETSC_ERR_ARG_OUTOFRANGE, "Kernel choices {2-6} requires the slice height of the matrix be 16, but the current slice height is %" PetscInt_FMT, sliceheight);
2d1451d4SHong Zhang  PetscCall(MatSeqSELLCUDACopyToGPU(A));
2d1451d4SHong Zhang  /* cudastruct may not be available until MatSeqSELLCUDACopyToGPU() is called */
2d1451d4SHong Zhang  aval    = cudastruct->val;
2d1451d4SHong Zhang  acolidx = cudastruct->colidx;
2d1451d4SHong Zhang  sliidx  = cudastruct->sliidx;
2d1451d4SHong Zhang
2d1451d4SHong Zhang  PetscCall(VecCUDAGetArrayRead(xx, &x));
2d1451d4SHong Zhang  PetscCall(VecCUDAGetArrayWrite(yy, &y));
2d1451d4SHong Zhang  PetscCall(PetscLogGpuTimeBegin());
07e43b41SHong Zhang
07e43b41SHong Zhang  switch (cudastruct->kernelchoice) {
07e43b41SHong Zhang  case 9:
4e58db63SHong Zhang    nblocks = 1 + (nrows - 1) / sliceheight;
4e58db63SHong Zhang    if (cudastruct->blocky == 2) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel9<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else if (cudastruct->blocky == 4) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel9<4><<<nblocks, dim3(32, 4)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else if (cudastruct->blocky == 8) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel9<8><<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else if (cudastruct->blocky == 16) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel9<16><<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else if (cudastruct->blocky == 32) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel9<32><<<nblocks, dim3(32, 32)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
cca9ff8bSHong Zhang    } else {
cca9ff8bSHong Zhang      matmult_seqsell_tiled_kernel9<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
07e43b41SHong Zhang    }
07e43b41SHong Zhang    break;
07e43b41SHong Zhang  case 7:
4e58db63SHong Zhang    nblocks = 1 + (nrows - 1) / (2 * sliceheight);
4e58db63SHong Zhang    if (cudastruct->blocky == 2) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else if (cudastruct->blocky == 4) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(32, 4)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else if (cudastruct->blocky == 8) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else if (cudastruct->blocky == 16) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else if (cudastruct->blocky == 32) {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(32, 32)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    } else {
4e58db63SHong Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
4e58db63SHong Zhang    }
07e43b41SHong Zhang    break;
07e43b41SHong Zhang  case 6:
07e43b41SHong Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 32); /* 1 slice per block if blocksize=512 */
a9dd396cSHong Zhang    matmult_seqsell_tiled_kernel6<<<nblocks, block32>>>(nrows, acolidx, aval, sliidx, x, y);
07e43b41SHong Zhang    break;
07e43b41SHong Zhang  case 5:
07e43b41SHong Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 16); /* 2 slices per block if blocksize=512*/
a9dd396cSHong Zhang    matmult_seqsell_tiled_kernel5<<<nblocks, block16>>>(nrows, acolidx, aval, sliidx, x, y);
07e43b41SHong Zhang    break;
07e43b41SHong Zhang  case 4:
07e43b41SHong Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 8); /* 4 slices per block if blocksize=512 */
a9dd396cSHong Zhang    matmult_seqsell_tiled_kernel4<<<nblocks, block8>>>(nrows, acolidx, aval, sliidx, x, y);
07e43b41SHong Zhang    break;
07e43b41SHong Zhang  case 3:
07e43b41SHong Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 4); /* 8 slices per block if blocksize=512 */
a9dd396cSHong Zhang    matmult_seqsell_tiled_kernel3<<<nblocks, block4>>>(nrows, acolidx, aval, sliidx, x, y);
07e43b41SHong Zhang    break;
07e43b41SHong Zhang  case 2: /* 16 slices per block if blocksize=512 */
07e43b41SHong Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 2);
a9dd396cSHong Zhang    matmult_seqsell_tiled_kernel2<<<nblocks, block2>>>(nrows, acolidx, aval, sliidx, x, y);
07e43b41SHong Zhang    break;
07e43b41SHong Zhang  case 1: /* 32 slices per block if blocksize=512 */
07e43b41SHong Zhang    nblocks = 1 + (nrows - 1) / blocksize;
4e58db63SHong Zhang    matmult_seqsell_basic_kernel<<<nblocks, blocksize>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
07e43b41SHong Zhang    break;
07e43b41SHong Zhang  case 0:
*90d2215bSHong Zhang    maxoveravg = a->maxslicewidth / a->avgslicewidth;
*90d2215bSHong Zhang    if (maxoveravg > 12.0 && maxoveravg / nrows > 0.001) { /* important threshold */
*90d2215bSHong Zhang      /* each block handles approximately one slice */
*90d2215bSHong Zhang      PetscInt blocky = a->chunksize / 32;
*90d2215bSHong Zhang      nchunks         = cudastruct->totalchunks;
*90d2215bSHong Zhang      chunksperblock  = cudastruct->chunksperblock ? cudastruct->chunksperblock : 1 + (cudastruct->totalentries / cudastruct->totalslices - 1) / a->chunksize;
*90d2215bSHong Zhang      nblocks         = 1 + (nchunks - 1) / chunksperblock;
*90d2215bSHong Zhang      chunk_slice_map = cudastruct->chunk_slice_map;
*90d2215bSHong Zhang      if (blocky == 2) {
*90d2215bSHong Zhang        matmult_seqsell_tiled_kernel8<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*90d2215bSHong Zhang      } else if (blocky == 4) {
*90d2215bSHong Zhang        matmult_seqsell_tiled_kernel8<4><<<nblocks, dim3(32, 4)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*90d2215bSHong Zhang      } else if (blocky == 8) {
*90d2215bSHong Zhang        matmult_seqsell_tiled_kernel8<8><<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*90d2215bSHong Zhang      } else if (blocky == 16) {
*90d2215bSHong Zhang        matmult_seqsell_tiled_kernel8<16><<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*90d2215bSHong Zhang      } else if (blocky == 32) {
*90d2215bSHong Zhang        matmult_seqsell_tiled_kernel8<32><<<nblocks, dim3(32, 32)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*90d2215bSHong Zhang      } else {
*90d2215bSHong Zhang        matmult_seqsell_tiled_kernel8<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*90d2215bSHong Zhang      }
2d1451d4SHong Zhang    } else {
cca9ff8bSHong Zhang      PetscInt avgslicesize = sliceheight * a->avgslicewidth;
*90d2215bSHong Zhang      if (avgslicesize <= 432) {
*90d2215bSHong Zhang        if (sliceheight * a->maxslicewidth < 2048 && nrows > 100000) {
cca9ff8bSHong Zhang          nblocks = 1 + (nrows - 1) / (2 * sliceheight); /* two slices per block */
cca9ff8bSHong Zhang          matmult_seqsell_tiled_kernel7<<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*90d2215bSHong Zhang        } else {
cca9ff8bSHong Zhang          nblocks = 1 + (nrows - 1) / sliceheight;
cca9ff8bSHong Zhang          matmult_seqsell_tiled_kernel9<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*90d2215bSHong Zhang        }
cca9ff8bSHong Zhang      } else if (avgslicesize <= 2400) {
cca9ff8bSHong Zhang        nblocks = 1 + (nrows - 1) / sliceheight;
cca9ff8bSHong Zhang        matmult_seqsell_tiled_kernel9<8><<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
cca9ff8bSHong Zhang      } else {
4e58db63SHong Zhang        nblocks = 1 + (nrows - 1) / sliceheight;
4e58db63SHong Zhang        matmult_seqsell_tiled_kernel9<16><<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
2d1451d4SHong Zhang      }
2d1451d4SHong Zhang    }
cca9ff8bSHong Zhang    break;
cca9ff8bSHong Zhang  }
2d1451d4SHong Zhang  PetscCall(PetscLogGpuTimeEnd());
2d1451d4SHong Zhang  PetscCall(VecCUDARestoreArrayRead(xx, &x));
2d1451d4SHong Zhang  PetscCall(VecCUDARestoreArrayWrite(yy, &y));
2d1451d4SHong Zhang  PetscCall(PetscLogGpuFlops(2.0 * a->nz - a->nonzerorowcnt));
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
2d1451d4SHong ZhangPetscErrorCode MatMultAdd_SeqSELLCUDA(Mat A, Vec xx, Vec yy, Vec zz)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  Mat_SeqSELL       *a          = (Mat_SeqSELL *)A->data;
2d1451d4SHong Zhang  Mat_SeqSELLCUDA   *cudastruct = (Mat_SeqSELLCUDA *)A->spptr;
2d1451d4SHong Zhang  PetscScalar       *z;
2d1451d4SHong Zhang  const PetscScalar *y, *x;
a9dd396cSHong Zhang  PetscInt           nrows = A->rmap->n, sliceheight = a->sliceheight;
*90d2215bSHong Zhang  PetscInt           chunksperblock, nchunks, *chunk_slice_map;
2d1451d4SHong Zhang  MatScalar         *aval    = cudastruct->val;
2d1451d4SHong Zhang  PetscInt          *acolidx = cudastruct->colidx;
2d1451d4SHong Zhang  PetscInt          *sliidx  = cudastruct->sliidx;
*90d2215bSHong Zhang  PetscReal          maxoveravg;
2d1451d4SHong Zhang
2d1451d4SHong Zhang  PetscFunctionBegin;
*90d2215bSHong Zhang  PetscCheck(32 % sliceheight == 0, PETSC_COMM_SELF, PETSC_ERR_SUP, "The kernel requires a slice height be a divisor of 32, but the input matrix has a slice height of %" PetscInt_FMT, sliceheight);
*90d2215bSHong Zhang  PetscCheck(!(cudastruct->kernelchoice >= 2 && cudastruct->kernelchoice <= 6 && sliceheight != SLICE_HEIGHT), PETSC_COMM_SELF, PETSC_ERR_ARG_OUTOFRANGE, "Kernel choices {2-6} requires the slice height of the matrix be 16, but the current slice height is %" PetscInt_FMT, sliceheight);
2d1451d4SHong Zhang  PetscCall(MatSeqSELLCUDACopyToGPU(A));
2d1451d4SHong Zhang  if (a->nz) {
*90d2215bSHong Zhang    PetscInt blocky = cudastruct->blocky, nblocks, blocksize = 512;
07e43b41SHong Zhang    dim3     block2(256, 2), block4(128, 4), block8(64, 8), block16(32, 16), block32(16, 32);
2d1451d4SHong Zhang    PetscCall(VecCUDAGetArrayRead(xx, &x));
2d1451d4SHong Zhang    PetscCall(VecCUDAGetArrayRead(yy, &y));
2d1451d4SHong Zhang    PetscCall(VecCUDAGetArrayWrite(zz, &z));
2d1451d4SHong Zhang    PetscCall(PetscLogGpuTimeBegin());
07e43b41SHong Zhang
07e43b41SHong Zhang    switch (cudastruct->kernelchoice) {
cca9ff8bSHong Zhang    case 9:
cca9ff8bSHong Zhang      nblocks = 1 + (nrows - 1) / sliceheight;
*90d2215bSHong Zhang      if (blocky == 2) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel9<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 4) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel9<4><<<nblocks, dim3(32, 4)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 8) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel9<8><<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 16) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel9<16><<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 32) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel9<32><<<nblocks, dim3(32, 32)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
cca9ff8bSHong Zhang      } else {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel9<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
cca9ff8bSHong Zhang      }
cca9ff8bSHong Zhang      break;
*90d2215bSHong Zhang    case 8:
*90d2215bSHong Zhang      /* each block handles approximately one slice */
*90d2215bSHong Zhang      nchunks         = cudastruct->totalchunks;
*90d2215bSHong Zhang      blocky          = a->chunksize / 32;
*90d2215bSHong Zhang      chunksperblock  = cudastruct->chunksperblock ? cudastruct->chunksperblock : 1 + (cudastruct->totalentries / cudastruct->totalslices - 1) / a->chunksize;
*90d2215bSHong Zhang      nblocks         = 1 + (nchunks - 1) / chunksperblock;
*90d2215bSHong Zhang      chunk_slice_map = cudastruct->chunk_slice_map;
*90d2215bSHong Zhang      if (blocky == 2) {
*90d2215bSHong Zhang        matmultadd_seqsell_tiled_kernel8<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 4) {
*90d2215bSHong Zhang        matmultadd_seqsell_tiled_kernel8<4><<<nblocks, dim3(32, 4)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 8) {
*90d2215bSHong Zhang        matmultadd_seqsell_tiled_kernel8<8><<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 16) {
*90d2215bSHong Zhang        matmultadd_seqsell_tiled_kernel8<16><<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 32) {
*90d2215bSHong Zhang        matmultadd_seqsell_tiled_kernel8<32><<<nblocks, dim3(32, 32)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else {
*90d2215bSHong Zhang        matmultadd_seqsell_tiled_kernel8<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      }
*90d2215bSHong Zhang      break;
cca9ff8bSHong Zhang    case 7:
cca9ff8bSHong Zhang      nblocks = 1 + (nrows - 1) / (2 * sliceheight);
*90d2215bSHong Zhang      if (blocky == 2) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 4) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(32, 4)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 8) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 16) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang      } else if (blocky == 32) {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(32, 32)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
cca9ff8bSHong Zhang      } else {
cca9ff8bSHong Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
cca9ff8bSHong Zhang      }
cca9ff8bSHong Zhang      break;
07e43b41SHong Zhang    case 6:
07e43b41SHong Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 32);
a9dd396cSHong Zhang      matmultadd_seqsell_tiled_kernel6<<<nblocks, block32>>>(nrows, acolidx, aval, sliidx, x, y, z);
07e43b41SHong Zhang      break;
07e43b41SHong Zhang    case 5:
07e43b41SHong Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 16);
a9dd396cSHong Zhang      matmultadd_seqsell_tiled_kernel5<<<nblocks, block16>>>(nrows, acolidx, aval, sliidx, x, y, z);
07e43b41SHong Zhang      break;
07e43b41SHong Zhang    case 4:
07e43b41SHong Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 8);
a9dd396cSHong Zhang      matmultadd_seqsell_tiled_kernel4<<<nblocks, block8>>>(nrows, acolidx, aval, sliidx, x, y, z);
07e43b41SHong Zhang      break;
07e43b41SHong Zhang    case 3:
07e43b41SHong Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 4);
a9dd396cSHong Zhang      matmultadd_seqsell_tiled_kernel3<<<nblocks, block4>>>(nrows, acolidx, aval, sliidx, x, y, z);
07e43b41SHong Zhang      break;
07e43b41SHong Zhang    case 2:
07e43b41SHong Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 2);
a9dd396cSHong Zhang      matmultadd_seqsell_tiled_kernel2<<<nblocks, block2>>>(nrows, acolidx, aval, sliidx, x, y, z);
07e43b41SHong Zhang      break;
07e43b41SHong Zhang    case 1:
07e43b41SHong Zhang      nblocks = 1 + (nrows - 1) / blocksize;
4e58db63SHong Zhang      matmultadd_seqsell_basic_kernel<<<nblocks, blocksize>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
07e43b41SHong Zhang      break;
cca9ff8bSHong Zhang    case 0:
*90d2215bSHong Zhang      maxoveravg = a->maxslicewidth / a->avgslicewidth;
*90d2215bSHong Zhang      if (maxoveravg > 12.0 && maxoveravg / nrows > 0.001) { /* important threshold */
*90d2215bSHong Zhang        /* each block handles approximately one slice */
*90d2215bSHong Zhang        nchunks         = cudastruct->totalchunks;
*90d2215bSHong Zhang        blocky          = a->chunksize / 32;
*90d2215bSHong Zhang        chunksperblock  = cudastruct->chunksperblock ? cudastruct->chunksperblock : 1 + (cudastruct->totalentries / cudastruct->totalslices - 1) / a->chunksize;
*90d2215bSHong Zhang        nblocks         = 1 + (nchunks - 1) / chunksperblock;
*90d2215bSHong Zhang        chunk_slice_map = cudastruct->chunk_slice_map;
*90d2215bSHong Zhang        if (blocky == 2) {
*90d2215bSHong Zhang          matmultadd_seqsell_tiled_kernel8<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang        } else if (blocky == 4) {
*90d2215bSHong Zhang          matmultadd_seqsell_tiled_kernel8<4><<<nblocks, dim3(32, 4)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang        } else if (blocky == 8) {
*90d2215bSHong Zhang          matmultadd_seqsell_tiled_kernel8<8><<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang        } else if (blocky == 16) {
*90d2215bSHong Zhang          matmultadd_seqsell_tiled_kernel8<16><<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang        } else if (blocky == 32) {
*90d2215bSHong Zhang          matmultadd_seqsell_tiled_kernel8<32><<<nblocks, dim3(32, 32)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang        } else {
*90d2215bSHong Zhang          matmultadd_seqsell_tiled_kernel8<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang        }
cca9ff8bSHong Zhang      } else {
cca9ff8bSHong Zhang        PetscInt avgslicesize = sliceheight * a->avgslicewidth;
*90d2215bSHong Zhang        if (avgslicesize <= 432) {
*90d2215bSHong Zhang          if (sliceheight * a->maxslicewidth < 2048 && nrows > 100000) {
cca9ff8bSHong Zhang            nblocks = 1 + (nrows - 1) / (2 * sliceheight); /* two slices per block */
cca9ff8bSHong Zhang            matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang          } else {
cca9ff8bSHong Zhang            nblocks = 1 + (nrows - 1) / sliceheight;
cca9ff8bSHong Zhang            matmultadd_seqsell_tiled_kernel9<2><<<nblocks, dim3(32, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*90d2215bSHong Zhang          }
cca9ff8bSHong Zhang        } else if (avgslicesize <= 2400) {
cca9ff8bSHong Zhang          nblocks = 1 + (nrows - 1) / sliceheight;
cca9ff8bSHong Zhang          matmultadd_seqsell_tiled_kernel9<8><<<nblocks, dim3(32, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
cca9ff8bSHong Zhang        } else {
cca9ff8bSHong Zhang          nblocks = 1 + (nrows - 1) / sliceheight;
cca9ff8bSHong Zhang          matmultadd_seqsell_tiled_kernel9<16><<<nblocks, dim3(32, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
cca9ff8bSHong Zhang        }
cca9ff8bSHong Zhang      }
07e43b41SHong Zhang      break;
2d1451d4SHong Zhang    }
2d1451d4SHong Zhang    PetscCall(PetscLogGpuTimeEnd());
2d1451d4SHong Zhang    PetscCall(VecCUDARestoreArrayRead(xx, &x));
2d1451d4SHong Zhang    PetscCall(VecCUDARestoreArrayRead(yy, &y));
2d1451d4SHong Zhang    PetscCall(VecCUDARestoreArrayWrite(zz, &z));
2d1451d4SHong Zhang    PetscCall(PetscLogGpuFlops(2.0 * a->nz));
2d1451d4SHong Zhang  } else {
2d1451d4SHong Zhang    PetscCall(VecCopy(yy, zz));
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
2d1451d4SHong Zhangstatic PetscErrorCode MatSetFromOptions_SeqSELLCUDA(Mat A, PetscOptionItems *PetscOptionsObject)
2d1451d4SHong Zhang{
07e43b41SHong Zhang  Mat_SeqSELLCUDA *cudastruct = (Mat_SeqSELLCUDA *)A->spptr;
4e58db63SHong Zhang  PetscInt         kernel, blocky;
07e43b41SHong Zhang  PetscBool        flg;
07e43b41SHong Zhang
2d1451d4SHong Zhang  PetscFunctionBegin;
2d1451d4SHong Zhang  PetscOptionsHeadBegin(PetscOptionsObject, "SeqSELLCUDA options");
*90d2215bSHong Zhang  PetscCall(PetscOptionsGetInt(NULL, NULL, "-mat_sell_spmv_cuda_blocky", &blocky, &flg));
*90d2215bSHong Zhang  if (flg) {
*90d2215bSHong Zhang    PetscCheck(blocky == 2 || blocky == 4 || blocky == 8 || blocky == 16 || blocky == 32, PETSC_COMM_SELF, PETSC_ERR_ARG_OUTOFRANGE, "Unsupported blocky: %" PetscInt_FMT " it should be in {2,4,8,16,32}", blocky);
*90d2215bSHong Zhang    cudastruct->blocky = blocky;
*90d2215bSHong Zhang  }
07e43b41SHong Zhang  PetscCall(PetscOptionsGetInt(NULL, NULL, "-mat_sell_spmv_cuda_kernel", &kernel, &flg));
07e43b41SHong Zhang  if (flg) {
07e43b41SHong Zhang    PetscCheck(kernel >= 0 && kernel <= 9, PETSC_COMM_SELF, PETSC_ERR_ARG_OUTOFRANGE, "Wrong kernel choice: %" PetscInt_FMT " it should be in [0,9]", kernel);
07e43b41SHong Zhang    cudastruct->kernelchoice = kernel;
*90d2215bSHong Zhang    if (kernel == 8) { PetscCall(PetscOptionsGetInt(NULL, NULL, "-mat_sell_spmv_cuda_chunksperblock", &cudastruct->chunksperblock, &flg)); }
4e58db63SHong Zhang  }
2d1451d4SHong Zhang  PetscOptionsHeadEnd();
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
07e43b41SHong ZhangPETSC_INTERN PetscErrorCode MatAssemblyEnd_SpMV_Preprocessing_Private(Mat A)
07e43b41SHong Zhang{
07e43b41SHong Zhang  Mat_SeqSELL *a = (Mat_SeqSELL *)A->data;
07e43b41SHong Zhang
*90d2215bSHong Zhang  PetscFunctionBegin;
07e43b41SHong Zhang  PetscCall(MatSeqSELLGetAvgSliceWidth(A, &a->avgslicewidth));
07e43b41SHong Zhang  PetscCall(MatSeqSELLGetMaxSliceWidth(A, &a->maxslicewidth));
07e43b41SHong Zhang  PetscCall(MatSeqSELLGetFillRatio(A, &a->fillratio));
07e43b41SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
07e43b41SHong Zhang}
07e43b41SHong Zhang
2d1451d4SHong Zhangstatic PetscErrorCode MatAssemblyEnd_SeqSELLCUDA(Mat A, MatAssemblyType mode)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  PetscFunctionBegin;
2d1451d4SHong Zhang  PetscCall(MatAssemblyEnd_SeqSELL(A, mode));
07e43b41SHong Zhang  PetscCall(MatAssemblyEnd_SpMV_Preprocessing_Private(A));
2d1451d4SHong Zhang  if (mode == MAT_FLUSH_ASSEMBLY) PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang  if (A->factortype == MAT_FACTOR_NONE) { PetscCall(MatSeqSELLCUDACopyToGPU(A)); }
2d1451d4SHong Zhang  A->ops->mult    = MatMult_SeqSELLCUDA;
2d1451d4SHong Zhang  A->ops->multadd = MatMultAdd_SeqSELLCUDA;
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
2d1451d4SHong Zhangstatic PetscErrorCode MatDestroy_SeqSELLCUDA(Mat A)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  PetscFunctionBegin;
2d1451d4SHong Zhang  if (A->factortype == MAT_FACTOR_NONE) {
2d1451d4SHong Zhang    if (A->offloadmask != PETSC_OFFLOAD_UNALLOCATED) { PetscCall(MatSeqSELLCUDA_Destroy((Mat_SeqSELLCUDA **)&A->spptr)); }
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang  PetscCall(MatDestroy_SeqSELL(A));
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
2d1451d4SHong ZhangPETSC_INTERN PetscErrorCode MatConvert_SeqSELL_SeqSELLCUDA(Mat);
2d1451d4SHong Zhangstatic PetscErrorCode       MatDuplicate_SeqSELLCUDA(Mat A, MatDuplicateOption cpvalues, Mat *B)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  PetscFunctionBegin;
2d1451d4SHong Zhang  PetscCall(MatDuplicate_SeqSELL(A, cpvalues, B));
2d1451d4SHong Zhang  PetscCall(MatConvert_SeqSELL_SeqSELLCUDA(*B));
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
2d1451d4SHong ZhangPETSC_EXTERN PetscErrorCode MatConvert_SeqSELL_SeqSELLCUDA(Mat B)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  Mat_SeqSELLCUDA *cudastruct;
2d1451d4SHong Zhang
2d1451d4SHong Zhang  PetscFunctionBegin;
2d1451d4SHong Zhang  PetscCall(PetscFree(B->defaultvectype));
2d1451d4SHong Zhang  PetscCall(PetscStrallocpy(VECCUDA, &B->defaultvectype));
2d1451d4SHong Zhang
2d1451d4SHong Zhang  if (!B->spptr) {
2d1451d4SHong Zhang    if (B->factortype == MAT_FACTOR_NONE) {
2d1451d4SHong Zhang      PetscCall(PetscNew(&cudastruct));
2d1451d4SHong Zhang      B->spptr = cudastruct;
2d1451d4SHong Zhang    }
2d1451d4SHong Zhang  }
2d1451d4SHong Zhang
2d1451d4SHong Zhang  B->ops->assemblyend    = MatAssemblyEnd_SeqSELLCUDA;
2d1451d4SHong Zhang  B->ops->destroy        = MatDestroy_SeqSELLCUDA;
2d1451d4SHong Zhang  B->ops->setfromoptions = MatSetFromOptions_SeqSELLCUDA;
2d1451d4SHong Zhang  B->ops->mult           = MatMult_SeqSELLCUDA;
2d1451d4SHong Zhang  B->ops->multadd        = MatMultAdd_SeqSELLCUDA;
2d1451d4SHong Zhang  B->ops->duplicate      = MatDuplicate_SeqSELLCUDA;
2d1451d4SHong Zhang
07e43b41SHong Zhang  /* No need to assemble SeqSELL, but need to do the preprocessing for SpMV */
07e43b41SHong Zhang  PetscCall(MatAssemblyEnd_SpMV_Preprocessing_Private(B));
07e43b41SHong Zhang
2d1451d4SHong Zhang  PetscCall(PetscObjectChangeTypeName((PetscObject)B, MATSEQSELLCUDA));
2d1451d4SHong Zhang  B->offloadmask = PETSC_OFFLOAD_UNALLOCATED;
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}
2d1451d4SHong Zhang
2d1451d4SHong ZhangPETSC_EXTERN PetscErrorCode MatCreate_SeqSELLCUDA(Mat B)
2d1451d4SHong Zhang{
2d1451d4SHong Zhang  PetscFunctionBegin;
2d1451d4SHong Zhang  PetscCall(MatCreate_SeqSELL(B));
2d1451d4SHong Zhang  PetscCall(MatConvert_SeqSELL_SeqSELLCUDA(B));
2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
2d1451d4SHong Zhang}