jit-source/cuda/cuda-shared-basis-tensor-templates.h

*9e201c85SYohann// Copyright (c) 2017-2022, Lawrence Livermore National Security, LLC and other CEED contributors.
*9e201c85SYohann// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
*9e201c85SYohann//
*9e201c85SYohann// SPDX-License-Identifier: BSD-2-Clause
*9e201c85SYohann//
*9e201c85SYohann// This file is part of CEED:  http://github.com/ceed
*9e201c85SYohann
*9e201c85SYohann/// @file
*9e201c85SYohann/// Internal header for CUDA shared memory tensor product basis templates
*9e201c85SYohann#ifndef _ceed_cuda_shared_basis_tensor_templates_h
*9e201c85SYohann#define _ceed_cuda_shared_basis_tensor_templates_h
*9e201c85SYohann
*9e201c85SYohann#include <ceed.h>
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 1D
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 1D tensor contraction x
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractX1d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  data.slice[data.t_id_x] = *U;
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann  *V = 0.0;
*9e201c85SYohann  if (data.t_id_x < Q_1D) {
*9e201c85SYohann    for (CeedInt i = 0; i < P_1D; i++) {
*9e201c85SYohann      *V += B[i + data.t_id_x * P_1D] * data.slice[i]; // Contract x direction
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 1D transpose tensor contraction x
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeX1d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  data.slice[data.t_id_x] = *U;
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann  *V = 0.0;
*9e201c85SYohann  if (data.t_id_x < P_1D) {
*9e201c85SYohann    for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann      *V += B[data.t_id_x + i * P_1D] * data.slice[i]; // Contract x direction
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 1D interpolate to quadrature points
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void Interp1d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractX1d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp, c_B, r_V + comp);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 1D interpolate transpose
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void InterpTranspose1d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractTransposeX1d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp, c_B, r_V + comp);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 1D derivatives at quadrature points
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void Grad1d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractX1d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp, c_G, r_V + comp);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 1D derivatives transpose
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void GradTranspose1d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractTransposeX1d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp, c_G, r_V + comp);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 1D quadrature weights
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int Q_1D>
*9e201c85SYohanninline __device__ void Weight1d(SharedData_Cuda &data, const CeedScalar *__restrict__ q_weight_1d, CeedScalar *w) {
*9e201c85SYohann  *w = (data.t_id_x < Q_1D) ? q_weight_1d[data.t_id_x] : 0.0;
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D tensor contraction x
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractX2d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  data.slice[data.t_id_x+data.t_id_y*T_1D] = *U;
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann  *V = 0.0;
*9e201c85SYohann  if (data.t_id_x < Q_1D && data.t_id_y < P_1D) {
*9e201c85SYohann    for (CeedInt i = 0; i < P_1D; i++) {
*9e201c85SYohann      *V += B[i + data.t_id_x*P_1D] * data.slice[i + data.t_id_y*T_1D]; // Contract x direction
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D tensor contract y
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractY2d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  data.slice[data.t_id_x+data.t_id_y*T_1D] = *U;
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann  *V = 0.0;
*9e201c85SYohann  if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) {
*9e201c85SYohann    for (CeedInt i = 0; i < P_1D; i++) {
*9e201c85SYohann      *V += B[i + data.t_id_y*P_1D] * data.slice[data.t_id_x + i*T_1D]; // Contract y direction
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D transpose tensor contract y
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeY2d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  data.slice[data.t_id_x+data.t_id_y*T_1D] = *U;
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann  *V = 0.0;
*9e201c85SYohann  if (data.t_id_x < Q_1D && data.t_id_y < P_1D) {
*9e201c85SYohann    for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann      *V += B[data.t_id_y + i*P_1D] * data.slice[data.t_id_x + i*T_1D]; // Contract y direction
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D transpose tensor contract x
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeX2d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  data.slice[data.t_id_x+data.t_id_y*T_1D] = *U;
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann  *V = 0.0;
*9e201c85SYohann  if (data.t_id_x < P_1D && data.t_id_y < P_1D) {
*9e201c85SYohann    for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann      *V += B[data.t_id_x + i*P_1D] * data.slice[i + data.t_id_y*T_1D]; // Contract x direction
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D transpose tensor contract and add x
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeAddX2d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  data.slice[data.t_id_x+data.t_id_y*T_1D] = *U;
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann  if (data.t_id_x < P_1D && data.t_id_y < P_1D) {
*9e201c85SYohann    for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann      *V += B[data.t_id_x + i*P_1D] * data.slice[i + data.t_id_y*T_1D]; // Contract x direction
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann  __syncthreads();
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D interpolate to quadrature points
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void InterpTensor2d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t[1];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractX2d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp, c_B, r_t);
*9e201c85SYohann    ContractY2d<NUM_COMP, P_1D, Q_1D>(data, r_t, c_B, r_V + comp);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D interpolate transpose
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void InterpTransposeTensor2d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t[1];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractTransposeY2d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp, c_B, r_t);
*9e201c85SYohann    ContractTransposeX2d<NUM_COMP, P_1D, Q_1D>(data, r_t, c_B, r_V + comp);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D derivatives at quadrature points
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void GradTensor2d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t[1];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractX2d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp, c_G, r_t);
*9e201c85SYohann    ContractY2d<NUM_COMP, P_1D, Q_1D>(data, r_t, c_B, r_V + comp + 0*NUM_COMP);
*9e201c85SYohann    ContractX2d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp, c_B, r_t);
*9e201c85SYohann    ContractY2d<NUM_COMP, P_1D, Q_1D>(data, r_t, c_G, r_V + comp + 1*NUM_COMP);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D derivatives transpose
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void GradTransposeTensor2d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t[1];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractTransposeY2d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp + 0*NUM_COMP, c_B, r_t);
*9e201c85SYohann    ContractTransposeX2d<NUM_COMP, P_1D, Q_1D>(data, r_t, c_G, r_V + comp);
*9e201c85SYohann    ContractTransposeY2d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp + 1*NUM_COMP, c_G, r_t);
*9e201c85SYohann    ContractTransposeAddX2d<NUM_COMP, P_1D, Q_1D>(data, r_t, c_B, r_V + comp);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 2D quadrature weights
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int Q_1D>
*9e201c85SYohanninline __device__ void WeightTensor2d(SharedData_Cuda &data, const CeedScalar *__restrict__ q_weight_1d, CeedScalar *w) {
*9e201c85SYohann  *w = (data.t_id_x < Q_1D && data.t_id_y < Q_1D) ?
*9e201c85SYohann        q_weight_1d[data.t_id_x]*q_weight_1d[data.t_id_y] : 0.0;
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D tensor contract x
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractX3d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  CeedScalar r_B[P_1D];
*9e201c85SYohann  for (CeedInt i = 0; i < P_1D; i++) {
*9e201c85SYohann    r_B[i] = B[i + data.t_id_x*P_1D];
*9e201c85SYohann  }
*9e201c85SYohann
*9e201c85SYohann  for (CeedInt k = 0; k < P_1D; k++) {
*9e201c85SYohann    data.slice[data.t_id_x+data.t_id_y*T_1D] = U[k];
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann    V[k] = 0.0;
*9e201c85SYohann    if (data.t_id_x < Q_1D && data.t_id_y < P_1D) {
*9e201c85SYohann      for (CeedInt i = 0; i < P_1D; i++) {
*9e201c85SYohann        V[k] += r_B[i] * data.slice[i + data.t_id_y*T_1D]; // Contract x direction
*9e201c85SYohann      }
*9e201c85SYohann    }
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D tensor contract y
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractY3d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  CeedScalar r_B[P_1D];
*9e201c85SYohann  for (CeedInt i = 0; i < P_1D; i++) {
*9e201c85SYohann    r_B[i] = B[i + data.t_id_y*P_1D];
*9e201c85SYohann  }
*9e201c85SYohann
*9e201c85SYohann  for (CeedInt k = 0; k < P_1D; k++) {
*9e201c85SYohann    data.slice[data.t_id_x+data.t_id_y*T_1D] = U[k];
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann    V[k] = 0.0;
*9e201c85SYohann    if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) {
*9e201c85SYohann      for (CeedInt i = 0; i < P_1D; i++) {
*9e201c85SYohann        V[k] += r_B[i] * data.slice[data.t_id_x + i*T_1D]; // Contract y direction
*9e201c85SYohann      }
*9e201c85SYohann    }
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D tensor contract z
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractZ3d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  for (CeedInt k = 0; k < Q_1D; k++) {
*9e201c85SYohann    V[k] = 0.0;
*9e201c85SYohann    if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) {
*9e201c85SYohann      for (CeedInt i = 0; i < P_1D; i++) {
*9e201c85SYohann        V[k] += B[i + k*P_1D] * U[i]; // Contract z direction
*9e201c85SYohann      }
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D transpose tensor contract z
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeZ3d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  for (CeedInt k = 0; k < P_1D; k++) {
*9e201c85SYohann    V[k] = 0.0;
*9e201c85SYohann    if (data.t_id_x < Q_1D && data.t_id_y < Q_1D) {
*9e201c85SYohann      for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann        V[k] += B[k + i*P_1D] * U[i]; // Contract z direction
*9e201c85SYohann      }
*9e201c85SYohann    }
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D transpose tensor contract y
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeY3d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  CeedScalar r_B[Q_1D];
*9e201c85SYohann  for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann    r_B[i] = B[data.t_id_y + i*P_1D];
*9e201c85SYohann  }
*9e201c85SYohann
*9e201c85SYohann  for (CeedInt k = 0; k < P_1D; k++) {
*9e201c85SYohann    data.slice[data.t_id_x+data.t_id_y*T_1D] = U[k];
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann    V[k] = 0.0;
*9e201c85SYohann    if (data.t_id_x < Q_1D && data.t_id_y < P_1D) {
*9e201c85SYohann      for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann        V[k] += r_B[i] * data.slice[data.t_id_x + i*T_1D]; // Contract y direction
*9e201c85SYohann      }
*9e201c85SYohann    }
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D transpose tensor contract y
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeAddY3d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  CeedScalar r_B[Q_1D];
*9e201c85SYohann  for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann    r_B[i] = B[data.t_id_y + i*P_1D];
*9e201c85SYohann  }
*9e201c85SYohann
*9e201c85SYohann  for (CeedInt k = 0; k < P_1D; k++) {
*9e201c85SYohann    data.slice[data.t_id_x+data.t_id_y*T_1D] = U[k];
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann    if (data.t_id_x < Q_1D && data.t_id_y < P_1D) {
*9e201c85SYohann      for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann        V[k] += r_B[i] * data.slice[data.t_id_x + i*T_1D]; // Contract y direction
*9e201c85SYohann      }
*9e201c85SYohann    }
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D transpose tensor contract x
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeX3d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  CeedScalar r_B[Q_1D];
*9e201c85SYohann  for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann    r_B[i] = B[data.t_id_x + i*P_1D];
*9e201c85SYohann  }
*9e201c85SYohann
*9e201c85SYohann  for (CeedInt k = 0; k < P_1D; k++) {
*9e201c85SYohann    data.slice[data.t_id_x+data.t_id_y*T_1D] = U[k];
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann    V[k] = 0.0;
*9e201c85SYohann    if (data.t_id_x < P_1D && data.t_id_y < P_1D) {
*9e201c85SYohann      for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann        V[k] += r_B[i] * data.slice[i + data.t_id_y*T_1D]; // Contract x direction
*9e201c85SYohann      }
*9e201c85SYohann    }
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D transpose tensor contract add x
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void ContractTransposeAddX3d(SharedData_Cuda &data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*9e201c85SYohann  CeedScalar r_B[Q_1D];
*9e201c85SYohann  for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann    r_B[i] = B[data.t_id_x + i*P_1D];
*9e201c85SYohann  }
*9e201c85SYohann
*9e201c85SYohann  for (CeedInt k = 0; k < P_1D; k++) {
*9e201c85SYohann    data.slice[data.t_id_x+data.t_id_y*T_1D] = U[k];
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann    if (data.t_id_x < P_1D && data.t_id_y < P_1D) {
*9e201c85SYohann      for (CeedInt i = 0; i < Q_1D; i++) {
*9e201c85SYohann        V[k] += r_B[i] * data.slice[i + data.t_id_y*T_1D]; // Contract x direction
*9e201c85SYohann      }
*9e201c85SYohann    }
*9e201c85SYohann    __syncthreads();
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D interpolate to quadrature points
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void InterpTensor3d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t1[T_1D];
*9e201c85SYohann  CeedScalar r_t2[T_1D];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractX3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*P_1D, c_B, r_t1);
*9e201c85SYohann    ContractY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_B, r_t2);
*9e201c85SYohann    ContractZ3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_B, r_V + comp*Q_1D);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D interpolate transpose
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void InterpTransposeTensor3d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t1[T_1D];
*9e201c85SYohann  CeedScalar r_t2[T_1D];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractTransposeZ3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*Q_1D, c_B, r_t1);
*9e201c85SYohann    ContractTransposeY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_B, r_t2);
*9e201c85SYohann    ContractTransposeX3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_B, r_V + comp*P_1D);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D derivatives at quadrature points
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void GradTensor3d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t1[T_1D];
*9e201c85SYohann  CeedScalar r_t2[T_1D];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractX3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*P_1D, c_G, r_t1);
*9e201c85SYohann    ContractY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_B, r_t2);
*9e201c85SYohann    ContractZ3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_B, r_V + comp*Q_1D + 0*NUM_COMP*Q_1D);
*9e201c85SYohann    ContractX3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*P_1D, c_B, r_t1);
*9e201c85SYohann    ContractY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_G, r_t2);
*9e201c85SYohann    ContractZ3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_B, r_V + comp*Q_1D + 1*NUM_COMP*Q_1D);
*9e201c85SYohann    ContractX3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*P_1D, c_B, r_t1);
*9e201c85SYohann    ContractY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_B, r_t2);
*9e201c85SYohann    ContractZ3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_G, r_V + comp*Q_1D + 2*NUM_COMP*Q_1D);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D derivatives transpose
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void GradTransposeTensor3d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t1[T_1D];
*9e201c85SYohann  CeedScalar r_t2[T_1D];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractTransposeZ3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*Q_1D + 0*NUM_COMP*Q_1D, c_B, r_t1);
*9e201c85SYohann    ContractTransposeY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_B, r_t2);
*9e201c85SYohann    ContractTransposeX3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_G, r_V + comp*P_1D);
*9e201c85SYohann    ContractTransposeZ3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*Q_1D + 1*NUM_COMP*Q_1D, c_B, r_t1);
*9e201c85SYohann    ContractTransposeY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_G, r_t2);
*9e201c85SYohann    ContractTransposeAddX3d<NUM_COMP,P_1D, Q_1D>(data, r_t2, c_B, r_V + comp*P_1D);
*9e201c85SYohann    ContractTransposeZ3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*Q_1D + 2*NUM_COMP*Q_1D, c_G, r_t1);
*9e201c85SYohann    ContractTransposeY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_B, r_t2);
*9e201c85SYohann    ContractTransposeAddX3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_B, r_V + comp*P_1D);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D derivatives at quadrature points
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void GradTensorCollocated3d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t1[T_1D];
*9e201c85SYohann  CeedScalar r_t2[T_1D];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractX3d<NUM_COMP, P_1D, Q_1D>(data, r_U + comp*P_1D, c_B, r_t1);
*9e201c85SYohann    ContractY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_B, r_t2);
*9e201c85SYohann    ContractZ3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_B, r_t1);
*9e201c85SYohann    ContractX3d<NUM_COMP, Q_1D, Q_1D>(data, r_t1, c_G, r_V + comp*Q_1D + 0*NUM_COMP*Q_1D);
*9e201c85SYohann    ContractY3d<NUM_COMP, Q_1D, Q_1D>(data, r_t1, c_G, r_V + comp*Q_1D + 1*NUM_COMP*Q_1D);
*9e201c85SYohann    ContractZ3d<NUM_COMP, Q_1D, Q_1D>(data, r_t1, c_G, r_V + comp*Q_1D + 2*NUM_COMP*Q_1D);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D derivatives transpose
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int NUM_COMP, int P_1D, int Q_1D>
*9e201c85SYohanninline __device__ void GradTransposeTensorCollocated3d(SharedData_Cuda &data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*9e201c85SYohann  CeedScalar r_t1[T_1D];
*9e201c85SYohann  CeedScalar r_t2[T_1D];
*9e201c85SYohann  for (CeedInt comp = 0; comp < NUM_COMP; comp++) {
*9e201c85SYohann    ContractTransposeZ3d<NUM_COMP, Q_1D, Q_1D>(data, r_U + comp*Q_1D + 2*NUM_COMP*Q_1D, c_G, r_t2);
*9e201c85SYohann    ContractTransposeAddY3d<NUM_COMP, Q_1D, Q_1D>(data, r_U + comp*Q_1D + 1*NUM_COMP*Q_1D, c_G, r_t2);
*9e201c85SYohann    ContractTransposeAddX3d<NUM_COMP, Q_1D, Q_1D>(data, r_U + comp*Q_1D + 0*NUM_COMP*Q_1D, c_G, r_t2);
*9e201c85SYohann    ContractTransposeZ3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_B, r_t1);
*9e201c85SYohann    ContractTransposeY3d<NUM_COMP, P_1D, Q_1D>(data, r_t1, c_B, r_t2);
*9e201c85SYohann    ContractTransposeX3d<NUM_COMP, P_1D, Q_1D>(data, r_t2, c_B, r_V + comp*P_1D);
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann// 3D quadrature weights
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohanntemplate <int Q_1D>
*9e201c85SYohanninline __device__ void WeightTensor3d(SharedData_Cuda &data, const CeedScalar *__restrict__ q_weight_1d, CeedScalar *w) {
*9e201c85SYohann  const bool quad = (data.t_id_x < Q_1D && data.t_id_y < Q_1D);
*9e201c85SYohann  const CeedScalar pw = quad ? q_weight_1d[data.t_id_x]*q_weight_1d[data.t_id_y] : 0.0;
*9e201c85SYohann  for (CeedInt q = 0; q < Q_1D; q++) {
*9e201c85SYohann    w[q] = quad ? pw*q_weight_1d[q] : 0.0;
*9e201c85SYohann  }
*9e201c85SYohann}
*9e201c85SYohann
*9e201c85SYohann//------------------------------------------------------------------------------
*9e201c85SYohann
*9e201c85SYohann#endif