jit-source/magma/magma-basis-interp-1d.h

*f80f4a74SSebastian Grimberg// Copyright (c) 2017-2022, Lawrence Livermore National Security, LLC and other CEED contributors.
*f80f4a74SSebastian Grimberg// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
*f80f4a74SSebastian Grimberg//
*f80f4a74SSebastian Grimberg// SPDX-License-Identifier: BSD-2-Clause
*f80f4a74SSebastian Grimberg//
*f80f4a74SSebastian Grimberg// This file is part of CEED:  http://github.com/ceed
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg// macros to abstract access of shared memory and reg. file
*f80f4a74SSebastian Grimberg#define sT(i, j) sT[(j)*P_ + (i)]
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimberg// interp basis action (1D)
*f80f4a74SSebastian Grimbergtemplate <typename T, int DIM_, int NCOMP_, int P_, int Q_>
*f80f4a74SSebastian Grimbergstatic __device__ __inline__ void magma_interp_1d_device(const T *sT, magma_trans_t transT, T *sU[NCOMP_], T *sV[NCOMP_], const int tx) {
*f80f4a74SSebastian Grimberg  // Assumptions
*f80f4a74SSebastian Grimberg  // 1. 1D threads of size max(P_,Q_)
*f80f4a74SSebastian Grimberg  // 2. sU[i] is 1xP_: in shared memory
*f80f4a74SSebastian Grimberg  // 3. sV[i] is 1xQ_: in shared memory
*f80f4a74SSebastian Grimberg  // 4. P_roduct per component is one row (1xP_) times T matrix (P_xQ_) => one row (1xQ_)
*f80f4a74SSebastian Grimberg  // 5. Each thread computes one entry in sV[i]
*f80f4a74SSebastian Grimberg  // 6. Must sync before and after call
*f80f4a74SSebastian Grimberg  // 7. Note that the layout for U and V is different from 2D/3D problem
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  T rv;
*f80f4a74SSebastian Grimberg  if (tx < Q_) {
*f80f4a74SSebastian Grimberg    for (int icomp = 0; icomp < NCOMP_; icomp++) {
*f80f4a74SSebastian Grimberg      rv = (transT == MagmaTrans) ? sV[icomp][tx] : 0.0;
*f80f4a74SSebastian Grimberg      for (int i = 0; i < P_; i++) {
*f80f4a74SSebastian Grimberg        rv += sU[icomp][i] * sT(i, tx);  // sT[tx * P_ + i];
*f80f4a74SSebastian Grimberg      }
*f80f4a74SSebastian Grimberg      sV[icomp][tx] = rv;
*f80f4a74SSebastian Grimberg    }
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimbergextern "C" __launch_bounds__(MAGMA_BASIS_BOUNDS(MAXPQ, MAGMA_MAXTHREADS_1D)) __global__
*f80f4a74SSebastian Grimberg    void magma_interpn_1d_kernel(const CeedScalar *dT, const CeedScalar *dU, const int estrdU, const int cstrdU, CeedScalar *dV, const int estrdV,
*f80f4a74SSebastian Grimberg                                 const int cstrdV, const int nelem) {
*f80f4a74SSebastian Grimberg  MAGMA_DEVICE_SHARED(CeedScalar, shared_data)
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  const int     tx      = threadIdx.x;
*f80f4a74SSebastian Grimberg  const int     ty      = threadIdx.y;
*f80f4a74SSebastian Grimberg  const int     elem_id = (blockIdx.x * blockDim.y) + ty;
*f80f4a74SSebastian Grimberg  magma_trans_t transT  = MagmaNoTrans;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  if (elem_id >= nelem) return;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  CeedScalar *sU[NCOMP];
*f80f4a74SSebastian Grimberg  CeedScalar *sV[NCOMP];
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // shift global memory pointers by elem stride
*f80f4a74SSebastian Grimberg  dU += elem_id * estrdU;
*f80f4a74SSebastian Grimberg  dV += elem_id * estrdV;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // assign shared memory pointers
*f80f4a74SSebastian Grimberg  CeedScalar *sT = (CeedScalar *)(shared_data);
*f80f4a74SSebastian Grimberg  CeedScalar *sW = sT + P * Q;
*f80f4a74SSebastian Grimberg  sU[0]          = sW + ty * NCOMP * (P + Q);
*f80f4a74SSebastian Grimberg  sV[0]          = sU[0] + (NCOMP * 1 * P);
*f80f4a74SSebastian Grimberg  for (int icomp = 1; icomp < NCOMP; icomp++) {
*f80f4a74SSebastian Grimberg    sU[icomp] = sU[icomp - 1] + (1 * P);
*f80f4a74SSebastian Grimberg    sV[icomp] = sV[icomp - 1] + (1 * Q);
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // read T
*f80f4a74SSebastian Grimberg  if (ty == 0) {
*f80f4a74SSebastian Grimberg    dread_T_gm2sm<P, Q>(tx, transT, dT, sT);
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // read U
*f80f4a74SSebastian Grimberg  read_1d<CeedScalar, P, NCOMP>(dU, cstrdU, sU, tx);
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  __syncthreads();
*f80f4a74SSebastian Grimberg  magma_interp_1d_device<CeedScalar, DIM, NCOMP, P, Q>(sT, transT, sU, sV, tx);
*f80f4a74SSebastian Grimberg  __syncthreads();
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // write V
*f80f4a74SSebastian Grimberg  write_1d<CeedScalar, Q, NCOMP>(sV, dV, cstrdV, tx);
*f80f4a74SSebastian Grimberg}
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg//////////////////////////////////////////////////////////////////////////////////////////
*f80f4a74SSebastian Grimbergextern "C" __launch_bounds__(MAGMA_BASIS_BOUNDS(MAXPQ, MAGMA_MAXTHREADS_1D)) __global__
*f80f4a74SSebastian Grimberg    void magma_interpt_1d_kernel(const CeedScalar *dT, const CeedScalar *dU, const int estrdU, const int cstrdU, CeedScalar *dV, const int estrdV,
*f80f4a74SSebastian Grimberg                                 const int cstrdV, const int nelem) {
*f80f4a74SSebastian Grimberg  MAGMA_DEVICE_SHARED(CeedScalar, shared_data)
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  const int     tx      = threadIdx.x;
*f80f4a74SSebastian Grimberg  const int     ty      = threadIdx.y;
*f80f4a74SSebastian Grimberg  const int     elem_id = (blockIdx.x * blockDim.y) + ty;
*f80f4a74SSebastian Grimberg  magma_trans_t transT  = MagmaTrans;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  if (elem_id >= nelem) return;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  CeedScalar *sU[NCOMP];
*f80f4a74SSebastian Grimberg  CeedScalar *sV[NCOMP];
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // shift global memory pointers by elem stride
*f80f4a74SSebastian Grimberg  dU += elem_id * estrdU;
*f80f4a74SSebastian Grimberg  dV += elem_id * estrdV;
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // assign shared memory pointers
*f80f4a74SSebastian Grimberg  CeedScalar *sT = (CeedScalar *)(shared_data);
*f80f4a74SSebastian Grimberg  CeedScalar *sW = sT + Q * P;
*f80f4a74SSebastian Grimberg  sU[0]          = sW + ty * NCOMP * (Q + P);
*f80f4a74SSebastian Grimberg  sV[0]          = sU[0] + (NCOMP * 1 * Q);
*f80f4a74SSebastian Grimberg  for (int icomp = 1; icomp < NCOMP; icomp++) {
*f80f4a74SSebastian Grimberg    sU[icomp] = sU[icomp - 1] + (1 * Q);
*f80f4a74SSebastian Grimberg    sV[icomp] = sV[icomp - 1] + (1 * P);
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // read T
*f80f4a74SSebastian Grimberg  if (ty == 0) {
*f80f4a74SSebastian Grimberg    dread_T_gm2sm<Q, P>(tx, transT, dT, sT);
*f80f4a74SSebastian Grimberg  }
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // read U
*f80f4a74SSebastian Grimberg  read_1d<CeedScalar, Q, NCOMP>(dU, cstrdU, sU, tx);
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // read V
*f80f4a74SSebastian Grimberg  read_1d<CeedScalar, P, NCOMP>(dV, cstrdV, sV, tx);
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  __syncthreads();
*f80f4a74SSebastian Grimberg  magma_interp_1d_device<CeedScalar, DIM, NCOMP, Q, P>(sT, transT, sU, sV, tx);
*f80f4a74SSebastian Grimberg  __syncthreads();
*f80f4a74SSebastian Grimberg
*f80f4a74SSebastian Grimberg  // write V
*f80f4a74SSebastian Grimberg  write_1d<CeedScalar, P, NCOMP>(sV, dV, cstrdV, tx);
*f80f4a74SSebastian Grimberg}