jit-source/magma/magma-common-nontensor.h

*f80f4a74SSebastian Grimberg// Copyright (c) 2017-2022, Lawrence Livermore National Security, LLC and other CEED contributors.
*f80f4a74SSebastian Grimberg// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
*f80f4a74SSebastian Grimberg//
*f80f4a74SSebastian Grimberg// SPDX-License-Identifier: BSD-2-Clause
*f80f4a74SSebastian Grimberg//
*f80f4a74SSebastian Grimberg// This file is part of CEED:  http://github.com/ceed
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#ifndef CEED_MAGMA_COMMON_NONTENSOR_H
*f80f4a74SSebastian Grimberg#define CEED_MAGMA_COMMON_NONTENSOR_H
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#define NONTENSOR_MAX_THREADS (128)
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#ifndef MAGMA_DEVICE_SHARED
*f80f4a74SSebastian Grimberg#define MAGMA_DEVICE_SHARED
*f80f4a74SSebastian Grimberg#ifdef CEED_MAGMA_USE_HIP
*f80f4a74SSebastian Grimberg#define MAGMA_DEVICE_SHARED(type, name) HIP_DYNAMIC_SHARED(type, name)
*f80f4a74SSebastian Grimberg#else
*f80f4a74SSebastian Grimberg#define MAGMA_DEVICE_SHARED(type, name) extern __shared__ type name[];
*f80f4a74SSebastian Grimberg#endif  // CEED_MAGMA_USE_HIP
*f80f4a74SSebastian Grimberg#endif  // MAGMA_DEVICE_SHARED
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#define MAGMA_NONTENSOR_BASIS_NTCOL(N) (MAGMA_MAX(1, (NONTENSOR_MAX_THREADS / (N))))
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#define dA(i, j) dA[(j)*ldda + (i)]
*f80f4a74SSebastian Grimberg#define sA(i, j) sA[(j)*slda + (i)]
*f80f4a74SSebastian Grimberg#define dB(i, j) dB[(j)*lddb + (i)]
*f80f4a74SSebastian Grimberg#define sB(i, j) sB[(j)*sldb + (i)]
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read C from global to reg.
*f80f4a74SSebastian Grimberg// C is (P_ x NB_)
*f80f4a74SSebastian Grimberg// 1D thread config. with (Mx1) threads
*f80f4a74SSebastian Grimberg// no sync at the end of the function
*f80f4a74SSebastian Grimbergtemplate <typename T, int P_, int NB_, int Q_>
*f80f4a74SSebastian Grimbergstatic __device__ __inline__ void read_C_g2r_1D_nosync(const int tx, const int n, T *dC, int lddc, const T &beta, T rC[NB_]) {
*f80f4a74SSebastian Grimberg  if (n != NB_) {
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg    for (int j = 0; j < NB_; j++) {
*f80f4a74SSebastian Grimberg      rC[j] = (j < n) ? beta * dC[j * lddc + tx] : 0;
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  } else {
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg    for (int j = 0; j < NB_; j++) {
*f80f4a74SSebastian Grimberg      rC[j] = beta * dC[j * lddc + tx];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// write C from reg. to global
*f80f4a74SSebastian Grimberg// C is (P_ x NB_)
*f80f4a74SSebastian Grimberg// 1D thread config. with (Mx1) threads
*f80f4a74SSebastian Grimberg// no sync at the end of the function
*f80f4a74SSebastian Grimbergtemplate <typename T, int P_, int NB_, int Q_>
*f80f4a74SSebastian Grimbergstatic __device__ __inline__ void write_C_r2g_1D_nosync(const int tx, const int n, T rC[NB_], T *dC, int lddc) {
*f80f4a74SSebastian Grimberg  if (n != NB_) {
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg    for (int j = 0; j < NB_; j++) {
*f80f4a74SSebastian Grimberg      if (j < n) {
*f80f4a74SSebastian Grimberg        dC[j * lddc + tx] = rC[j];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  } else {
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg    for (int j = 0; j < NB_; j++) {
*f80f4a74SSebastian Grimberg      dC[j * lddc + tx] = rC[j];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read A (no-trans) from global to reg.
*f80f4a74SSebastian Grimberg// A is (P_ x Q_)
*f80f4a74SSebastian Grimberg// 1D thread config. with (Mx1) threads
*f80f4a74SSebastian Grimberg// no sync at the end of the function
*f80f4a74SSebastian Grimbergtemplate <typename T, int P_, int NB_, int Q_>
*f80f4a74SSebastian Grimbergstatic __device__ __inline__ void read_A_notrans_g2r_1D_nosync(const int tx, const T *dA, int ldda, T *sA, int slda, T rA[Q_]) {
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg  for (int j = 0; j < Q_; j++) {
*f80f4a74SSebastian Grimberg    rA[j] = dA(tx, j);
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read A (no-trans) from global to reg.
*f80f4a74SSebastian Grimberg// A is (P_ x Q_)
*f80f4a74SSebastian Grimberg// 1D thread config. with (Mx1) threads
*f80f4a74SSebastian Grimberg// no sync at the end of the function
*f80f4a74SSebastian Grimbergtemplate <typename T, int P_, int NB_, int Q_>
*f80f4a74SSebastian Grimbergstatic __device__ __inline__ void read_A_trans_g2r_1D_nosync(const int tx, const int ty, const T *dA, int ldda, T *sA, int slda, T rA[Q_]) {
*f80f4a74SSebastian Grimberg  int       ix  = 0;
*f80f4a74SSebastian Grimberg  const int nTH = P_ * MAGMA_NONTENSOR_BASIS_NTCOL(P_);
*f80f4a74SSebastian Grimberg  const int tid = ty * blockDim.x + tx;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg  for (ix = 0; ix < (Q_ * P_) - nTH; ix += nTH) {
*f80f4a74SSebastian Grimberg    sA[ix + tid] = dA[ix + tid];
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  if (tid < ((Q_ * P_) - ix)) {
*f80f4a74SSebastian Grimberg    sA[ix + tid] = dA[ix + tid];
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg  __syncthreads();
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg  for (int j = 0; j < Q_; j++) {
*f80f4a74SSebastian Grimberg    rA[j] = sA[tx * slda + j];
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// read B from global to shared
*f80f4a74SSebastian Grimberg// B is (Q_ x NB_)
*f80f4a74SSebastian Grimberg// 1D thread config. with (Mx1) threads
*f80f4a74SSebastian Grimberg// no sync at the end of the function
*f80f4a74SSebastian Grimbergtemplate <typename T, int P_, int NB_, int Q_>
*f80f4a74SSebastian Grimbergstatic __device__ __inline__ void read_B_g2s_1D_nosync(const int tx, int n, const T *dB, int lddb, T *sB, int sldb) {
*f80f4a74SSebastian Grimberg  if (n != NB_) {
*f80f4a74SSebastian Grimberg    for (int i = 0; i < (Q_ * n) - P_; i += P_) {
*f80f4a74SSebastian Grimberg      sB[i + tx] = dB[i + tx];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  } else {
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg    for (int i = 0; i < (Q_ * NB_) - P_; i += P_) {
*f80f4a74SSebastian Grimberg      sB[i + tx] = dB[i + tx];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // cleanup for B
*f80f4a74SSebastian Grimberg  const int stride = MAGMA_ROUNDUP(Q_ * n - P_, P_);
*f80f4a74SSebastian Grimberg  if (tx < (Q_ * n) - stride) {
*f80f4a74SSebastian Grimberg    sB[stride + tx] = dB[stride + tx];
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// multiply C = AxB using 1D threads in Mx1 config
*f80f4a74SSebastian Grimberg// A (MxK)  in reg., one row per thread
*f80f4a74SSebastian Grimberg// B (KxNB) in shared memory
*f80f4a74SSebastian Grimberg// C in registers -- one row per thread
*f80f4a74SSebastian Grimberg// no sync at the end of the function
*f80f4a74SSebastian Grimbergtemplate <typename T, int P_, int NB_, int Q_>
*f80f4a74SSebastian Grimbergstatic __device__ __inline__ void mul_rAsBrC_1D_nosync(const int tx, const T &alpha, T rA[Q_], T *sB, int sldb, T rC[NB_]) {
*f80f4a74SSebastian Grimberg  T rB[Q_] = {0};
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg  for (int i = 0; i < NB_; i++) {
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg    for (int k = 0; k < Q_; k++) {
*f80f4a74SSebastian Grimberg      rB[k] = sB[i * sldb + k];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg    T rTmp = 0;
*f80f4a74SSebastian Grimberg#pragma unroll
*f80f4a74SSebastian Grimberg    for (int k = 0; k < Q_; k++) {
*f80f4a74SSebastian Grimberg      rTmp += rA[k] * rB[k];
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg    rC[i] += alpha * rTmp;
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#undef dA
*f80f4a74SSebastian Grimberg#undef sA
*f80f4a74SSebastian Grimberg#undef dB
*f80f4a74SSebastian Grimberg#undef sB
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg#endif  // CEED_MAGMA_COMMON_NONTENSOR_H