jit-source/magma/magma-common-tensor.h

*f80f4a74SSebastian Grimberg// Copyright (c) 2017-2022, Lawrence Livermore National Security, LLC and other CEED contributors.
*f80f4a74SSebastian Grimberg// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
*f80f4a74SSebastian Grimberg//
*f80f4a74SSebastian Grimberg// SPDX-License-Identifier: BSD-2-Clause
*f80f4a74SSebastian Grimberg//
*f80f4a74SSebastian Grimberg// This file is part of CEED:  http://github.com/ceed
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#ifndef CEED_MAGMA_COMMON_TENSOR_H
*f80f4a74SSebastian Grimberg#define CEED_MAGMA_COMMON_TENSOR_H
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#define MAGMA_MAXTHREADS_1D 128
*f80f4a74SSebastian Grimberg#define MAGMA_MAXTHREADS_2D 128
*f80f4a74SSebastian Grimberg#define MAGMA_MAXTHREADS_3D 64
*f80f4a74SSebastian Grimberg// Define macro for determining number of threads in y-direction
*f80f4a74SSebastian Grimberg// for basis kernels
*f80f4a74SSebastian Grimberg#define MAGMA_BASIS_NTCOL(x, maxt) (((maxt) < (x)) ? 1 : ((maxt) / (x)))
*f80f4a74SSebastian Grimberg// Define macro for computing the total threads in a block
*f80f4a74SSebastian Grimberg// for use with __launch_bounds__()
*f80f4a74SSebastian Grimberg#define MAGMA_BASIS_BOUNDS(x, maxt) (x * MAGMA_BASIS_NTCOL(x, maxt))
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read U or V of a 1D element into shared memory sU[][] or sV[][] --  for all components
*f80f4a74SSebastian Grimberg// the devptr is assumed to point directly to the element
*f80f4a74SSebastian Grimberg// must sync after call
*f80f4a74SSebastian Grimbergtemplate <typename T, int LENGTH, int NCOMP_>
*f80f4a74SSebastian Grimberg__device__ __inline__ void read_1d(const T *devptr, const int compstride, T *sBuffer[NCOMP_], const int tx) {
*f80f4a74SSebastian Grimberg  if (tx < LENGTH) {
*f80f4a74SSebastian Grimberg    for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg      sBuffer[icomp][tx] = devptr[icomp * compstride + tx];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// write V of a 1D element into global memory from sV[][] --  for all components
*f80f4a74SSebastian Grimberg// the devptr is assumed to point directly to the element
*f80f4a74SSebastian Grimbergtemplate <typename T, int LENGTH, int NCOMP_>
*f80f4a74SSebastian Grimberg__device__ __inline__ void write_1d(T *sBuffer[NCOMP_], T *devptr, const int compstride, const int tx) {
*f80f4a74SSebastian Grimberg  if (tx < LENGTH) {
*f80f4a74SSebastian Grimberg    for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg      devptr[icomp * compstride + tx] = sBuffer[icomp][tx];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read U of a 2D element into registers rU[][][] --  for all components of a single dim
*f80f4a74SSebastian Grimberg// dU is assumed to be offset by elem-stride and dim-stride
*f80f4a74SSebastian Grimberg// register is assumed to be rU[DIMU][NCOMP_][rUsize]
*f80f4a74SSebastian Grimberg// iDIM specifies which dimension is being read into in rU
*f80f4a74SSebastian Grimberg// rUsize can be different from P_ (e.g. MAXP_Q)
*f80f4a74SSebastian Grimberg// sTmp is a shared memory workspace of size P_^2
*f80f4a74SSebastian Grimbergtemplate <typename T, int P_, int DIMU, int NCOMP_, int rUsize, int iDIM>
*f80f4a74SSebastian Grimberg__device__ __inline__ void readU_2d(const T *dU, const int compstride, T rU[DIMU][NCOMP_][rUsize], T *sTmp, const int tx) {
*f80f4a74SSebastian Grimberg  // read U as a batch P_ of (1xP_) vectors
*f80f4a74SSebastian Grimberg  // vec 0  : [u0, u1, u2, ... u_(P_-1)] -- contiguous in memory
*f80f4a74SSebastian Grimberg  // vec 1  : [u0, u1, u2, ... u_(P_-1)] -- contiguous in memory
*f80f4a74SSebastian Grimberg  // ...
*f80f4a74SSebastian Grimberg  // vec P_-1: [u0, u1, u2, ... u_(P_-1)] -- contiguous in memory
*f80f4a74SSebastian Grimberg  // threads collaboratively read vec0 and then vec1 and so on
*f80f4a74SSebastian Grimberg  // but for the kernel, we want
*f80f4a74SSebastian Grimberg  // thread 0 to hold all of vec0 in registers, and
*f80f4a74SSebastian Grimberg  // thread 1 to hold all of vec1 in registers, and and so on
*f80f4a74SSebastian Grimberg  // so we need to transpose
*f80f4a74SSebastian Grimberg  for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg    // read from global memory into shared memory
*f80f4a74SSebastian Grimberg    if (tx < P_) {
*f80f4a74SSebastian Grimberg      for (int i = 0; i < P_; i++) {
*f80f4a74SSebastian Grimberg        sTmp[i * P_ + tx] = dU[icomp * compstride + i * P_ + tx];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg    __syncthreads();
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg    if (tx < P_) {
*f80f4a74SSebastian Grimberg      for (int i = 0; i < P_; i++) {
*f80f4a74SSebastian Grimberg        rU[iDIM][icomp][i] = sTmp[tx * P_ + i];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg    __syncthreads();
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read V of a 2D element into registers rV[][][] --  for all components of a single dim
*f80f4a74SSebastian Grimberg// dV is assumed to be offset by elem-stride and dim-stride
*f80f4a74SSebastian Grimberg// register is assumed to be rV[DIMV][NCOMP_][rVsize]
*f80f4a74SSebastian Grimberg// iDIM specifies which dimension is being read into in rV
*f80f4a74SSebastian Grimberg// rVsize can be different from P_ (e.g. MAXP_Q)
*f80f4a74SSebastian Grimbergtemplate <typename T, int Q_, int DIMV, int NCOMP_, int rVsize, int iDIM>
*f80f4a74SSebastian Grimberg__device__ __inline__ void readV_2d(const T *dV, const int compstride, T rV[DIMV][NCOMP_][rVsize], const int tx) {
*f80f4a74SSebastian Grimberg  if (tx < Q_) {
*f80f4a74SSebastian Grimberg    for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg      for (int j = 0; j < Q_; j++) {
*f80f4a74SSebastian Grimberg        rV[iDIM][icomp][j] = dV[icomp * compstride + j * Q_ + tx];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// write V of a 2D element from registers rV[][][] to global memory --  for all components of a single dim
*f80f4a74SSebastian Grimberg// dV is assumed to be offset by elem-stride and dim-stride
*f80f4a74SSebastian Grimberg// register is assumed to be rV[DIMV][NCOMP_][rVsize]
*f80f4a74SSebastian Grimberg// iDIM specifies which dimension is being read from in rV
*f80f4a74SSebastian Grimberg// idim specifies which dimension is being written to in dV
*f80f4a74SSebastian Grimberg// rVsize can be different from P_ (e.g. MAXP_Q)
*f80f4a74SSebastian Grimbergtemplate <typename T, int Q_, int DIMV, int NCOMP_, int rVsize, int iDIM>
*f80f4a74SSebastian Grimberg__device__ __inline__ void writeV_2d(T *dV, const int compstride, T rV[DIMV][NCOMP_][rVsize], const int tx) {
*f80f4a74SSebastian Grimberg  if (tx < Q_) {
*f80f4a74SSebastian Grimberg    for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg      for (int j = 0; j < Q_; j++) {
*f80f4a74SSebastian Grimberg        dV[icomp * compstride + j * Q_ + tx] = rV[iDIM][icomp][j];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read U of a 3D element into registers rU[][][] --  for all components of a single dim
*f80f4a74SSebastian Grimberg// dU is assumed to be offset by elem-stride and dim-stride
*f80f4a74SSebastian Grimberg// register is assumed to be rU[DIMU][NCOMP_][rUsize]
*f80f4a74SSebastian Grimberg// iDIM specifies which dimension is being read into in rU
*f80f4a74SSebastian Grimberg// rUsize can be different from P_ (e.g. MAXP_Q)
*f80f4a74SSebastian Grimberg// sTmp is a shared memory workspace of size P_^3
*f80f4a74SSebastian Grimbergtemplate <typename T, int P_, int DIMU, int NCOMP_, int rUsize, int iDIM>
*f80f4a74SSebastian Grimberg__device__ __inline__ void readU_3d(const T *dU, const int compstride, T rU[DIMU][NCOMP_][rUsize], T *sTmp, const int tx) {
*f80f4a74SSebastian Grimberg  // read U as a batch P_^2 of (1xP_) vectors
*f80f4a74SSebastian Grimberg  // vec 0    : [u0, u1, u2, ... u_(P_-1)] -- contiguous in memory
*f80f4a74SSebastian Grimberg  // vec 1    : [u0, u1, u2, ... u_(P_-1)] -- contiguous in memory
*f80f4a74SSebastian Grimberg  // ...
*f80f4a74SSebastian Grimberg  // vec P_^2-1: [u0, u1, u2, ... u_(P_-1)] -- contiguous in memory
*f80f4a74SSebastian Grimberg  // threads collaboratively read vec0 and then vec1 and so on
*f80f4a74SSebastian Grimberg  // but for the kernel, we want
*f80f4a74SSebastian Grimberg  // thread 0 to hold all of vec0 in registers, and
*f80f4a74SSebastian Grimberg  // thread 1 to hold all of vec1 in registers, and and so on
*f80f4a74SSebastian Grimberg  // so we need to transpose
*f80f4a74SSebastian Grimberg  for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg    // read from global memory into shared memory
*f80f4a74SSebastian Grimberg    if (tx < P_ * P_) {
*f80f4a74SSebastian Grimberg      for (int i = 0; i < P_; i++) {
*f80f4a74SSebastian Grimberg        sTmp[i * P_ * P_ + tx] = dU[icomp * compstride + i * P_ * P_ + tx];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg    __syncthreads();
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg    if (tx < P_ * P_) {
*f80f4a74SSebastian Grimberg      for (int i = 0; i < P_; i++) {
*f80f4a74SSebastian Grimberg        rU[iDIM][icomp][i] = sTmp[tx * P_ + i];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg    __syncthreads();
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read V of a 3D element into registers rV[][][] --  for all components of a single dim
*f80f4a74SSebastian Grimberg// dV is assumed to be offset by elem-stride and dim-stride
*f80f4a74SSebastian Grimberg// register is assumed to be rV[DIMV][NCOMP_][rVsize]
*f80f4a74SSebastian Grimberg// iDIM specifies which dimension is being read into in rV
*f80f4a74SSebastian Grimberg// rVsize can be different from P_ (e.g. MAXP_Q)
*f80f4a74SSebastian Grimbergtemplate <typename T, int Q_, int DIMV, int NCOMP_, int rVsize, int iDIM>
*f80f4a74SSebastian Grimberg__device__ __inline__ void readV_3d(const T *dV, const int compstride, T rV[DIMV][NCOMP_][rVsize], const int tx) {
*f80f4a74SSebastian Grimberg  if (tx < Q_ * Q_) {
*f80f4a74SSebastian Grimberg    for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg      for (int j = 0; j < Q_; j++) {
*f80f4a74SSebastian Grimberg        rV[iDIM][icomp][j] = dV[icomp * compstride + j * (Q_ * Q_) + tx];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// write V of a 3D element from registers rV[][][] to global memory --  for all components of a single dim
*f80f4a74SSebastian Grimberg// dV is assumed to point directly to the element (i.e. already offset by elem-stride)
*f80f4a74SSebastian Grimberg// register is assumed to be rV[DIMV][NCOMP_][rVsize]
*f80f4a74SSebastian Grimberg// iDIM specifies which dimension is being read from in rV
*f80f4a74SSebastian Grimberg// idim specifies which dimension is being written to in dV
*f80f4a74SSebastian Grimberg// rVsize can be different from P_ (e.g. MAXP_Q)
*f80f4a74SSebastian Grimbergtemplate <typename T, int Q_, int DIMV, int NCOMP_, int rVsize, int iDIM>
*f80f4a74SSebastian Grimberg__device__ __inline__ void writeV_3d(T *dV, const int compstride, T rV[DIMV][NCOMP_][rVsize], const int tx) {
*f80f4a74SSebastian Grimberg  if (tx < (Q_ * Q_)) {
*f80f4a74SSebastian Grimberg    for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg      for (int j = 0; j < Q_; j++) {
*f80f4a74SSebastian Grimberg        dV[icomp * compstride + j * (Q_ * Q_) + tx] = rV[iDIM][icomp][j];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// reads T into shared memory
*f80f4a74SSebastian Grimberg// must sync after call
*f80f4a74SSebastian Grimbergtemplate <int B, int J>
*f80f4a74SSebastian Grimberg__device__ __inline__ void dread_T_gm2sm(const int tx, const magma_trans_t transT, const CeedScalar *dT, CeedScalar *sT) {
*f80f4a74SSebastian Grimberg  if (transT == MagmaNoTrans) {
*f80f4a74SSebastian Grimberg    // T is B x J
*f80f4a74SSebastian Grimberg    if (tx < B) {
*f80f4a74SSebastian Grimberg      for (int i = 0; i < J; i++) {
*f80f4a74SSebastian Grimberg        sT[i * B + tx] = dT[i * B + tx];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  } else {
*f80f4a74SSebastian Grimberg    // T is J x B
*f80f4a74SSebastian Grimberg    if (tx < J) {
*f80f4a74SSebastian Grimberg      for (int i = 0; i < B; i++) {
*f80f4a74SSebastian Grimberg        sT[tx * B + i] = dT[i * J + tx];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg  // must sync after call
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// reads a slice of U from shared/global memory into registers
*f80f4a74SSebastian Grimberg// the correct pointer U must be precomputed
*f80f4a74SSebastian Grimbergtemplate <int B>
*f80f4a74SSebastian Grimberg__device__ __inline__ void dread_U_gsm2reg(const int C, const int tx_, const CeedScalar *U, CeedScalar rU[B]) {
*f80f4a74SSebastian Grimberg  for (int i = 0; i < B; i++) {
*f80f4a74SSebastian Grimberg    rU[i] = U[i * C + tx_];
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// reads a slice of V from shared/global memory into registers with scaling
*f80f4a74SSebastian Grimberg// the correct pointer V must be precomputed
*f80f4a74SSebastian Grimbergtemplate <int J>
*f80f4a74SSebastian Grimberg__device__ __inline__ void dread_V_gsm2reg(const int C, const int tx_, const CeedScalar *V, CeedScalar rV[J]) {
*f80f4a74SSebastian Grimberg  for (int i = 0; i < J; i++) {
*f80f4a74SSebastian Grimberg    rV[i] = V[i * C + tx_];
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// writes a slice of V from reg to shared/global memory
*f80f4a74SSebastian Grimberg// the correct pointer V must be precomputed
*f80f4a74SSebastian Grimbergtemplate <int J>
*f80f4a74SSebastian Grimberg__device__ __inline__ void dwrite_V_reg2gsm(const int C, const int tx_, CeedScalar rV[J], CeedScalar *V) {
*f80f4a74SSebastian Grimberg  for (int i = 0; i < J; i++) {
*f80f4a74SSebastian Grimberg    V[i * C + tx_] = rV[i];
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// multiply a slice of U times T to produce a slice of V
*f80f4a74SSebastian Grimbergtemplate <int B, int J>
*f80f4a74SSebastian Grimberg__device__ __inline__ void dgemm_slice(CeedScalar alpha, CeedScalar *sT, CeedScalar rU[B], CeedScalar beta, CeedScalar rV[J]) {
*f80f4a74SSebastian Grimberg  CeedScalar rTmp;
*f80f4a74SSebastian Grimberg  for (int j = 0; j < J; j++) {
*f80f4a74SSebastian Grimberg    rTmp = 0.0;
*f80f4a74SSebastian Grimberg    for (int b = 0; b < B; b++) {
*f80f4a74SSebastian Grimberg      rTmp += rU[b] * sT[j * B + b];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg    rV[j] *= beta;
*f80f4a74SSebastian Grimberg    rV[j] += alpha * rTmp;
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimbergtemplate <int B, int J>
*f80f4a74SSebastian Grimberg__device__ __inline__ void dgemm_ceed_device(const int tx, const int A, const int C, magma_trans_t transT, CeedScalar *sT, const CeedScalar alpha,
*f80f4a74SSebastian Grimberg                                             const CeedScalar beta, const CeedScalar *dU, CeedScalar *dV, CeedScalar rU[B], CeedScalar rV[J]) {
*f80f4a74SSebastian Grimberg  const int tx_      = tx % C;
*f80f4a74SSebastian Grimberg  const int slice_id = tx / C;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // advance pointers for U and V
*f80f4a74SSebastian Grimberg  dU += slice_id * C * B;
*f80f4a74SSebastian Grimberg  dV += slice_id * C * J;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // read V if beta is non-zero
*f80f4a74SSebastian Grimberg  if (beta != 0.0) {
*f80f4a74SSebastian Grimberg    dread_V_gsm2reg<J>(C, tx_, (const CeedScalar *)dV, rV);
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // read U
*f80f4a74SSebastian Grimberg  dread_U_gsm2reg<B>(C, tx_, dU, rU);
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // multiply
*f80f4a74SSebastian Grimberg  dgemm_slice<B, J>(alpha, sT, rU, beta, rV);
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // write V back
*f80f4a74SSebastian Grimberg  dwrite_V_reg2gsm<J>(C, tx_, rV, dV);
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#endif  // CEED_MAGMA_COMMON_TENSOR_H