mpi/mpicuda/mpisellcuda.cu

*2d1451d4SHong Zhang#include <petscconf.h>
*2d1451d4SHong Zhang#include <../src/mat/impls/sell/mpi/mpisell.h> /*I "petscmat.h" I*/
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatMPISELLSetPreallocation_MPISELLCUDA(Mat B, PetscInt d_rlenmax, const PetscInt d_rlen[], PetscInt o_rlenmax, const PetscInt o_rlen[])
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_MPISELL *b = (Mat_MPISELL *)B->data;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(PetscLayoutSetUp(B->rmap));
*2d1451d4SHong Zhang  PetscCall(PetscLayoutSetUp(B->cmap));
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  if (!B->preallocated) {
*2d1451d4SHong Zhang    /* Explicitly create 2 MATSEQSELLCUDA matrices. */
*2d1451d4SHong Zhang    PetscCall(MatCreate(PETSC_COMM_SELF, &b->A));
*2d1451d4SHong Zhang    PetscCall(MatBindToCPU(b->A, B->boundtocpu));
*2d1451d4SHong Zhang    PetscCall(MatSetSizes(b->A, B->rmap->n, B->cmap->n, B->rmap->n, B->cmap->n));
*2d1451d4SHong Zhang    PetscCall(MatSetType(b->A, MATSEQSELLCUDA));
*2d1451d4SHong Zhang    PetscCall(MatCreate(PETSC_COMM_SELF, &b->B));
*2d1451d4SHong Zhang    PetscCall(MatBindToCPU(b->B, B->boundtocpu));
*2d1451d4SHong Zhang    PetscCall(MatSetSizes(b->B, B->rmap->n, B->cmap->N, B->rmap->n, B->cmap->N));
*2d1451d4SHong Zhang    PetscCall(MatSetType(b->B, MATSEQSELLCUDA));
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang  PetscCall(MatSeqSELLSetPreallocation(b->A, d_rlenmax, d_rlen));
*2d1451d4SHong Zhang  PetscCall(MatSeqSELLSetPreallocation(b->B, o_rlenmax, o_rlen));
*2d1451d4SHong Zhang  B->preallocated  = PETSC_TRUE;
*2d1451d4SHong Zhang  B->was_assembled = PETSC_FALSE;
*2d1451d4SHong Zhang  B->assembled     = PETSC_FALSE;
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatMult_MPISELLCUDA(Mat A, Vec xx, Vec yy)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_MPISELL *a = (Mat_MPISELL *)A->data;
*2d1451d4SHong Zhang  PetscInt     nt;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(VecGetLocalSize(xx, &nt));
*2d1451d4SHong Zhang  PetscCheck(nt == A->cmap->n, PETSC_COMM_SELF, PETSC_ERR_ARG_SIZ, "Incompatible partition of A (%" PetscInt_FMT ") and xx (%" PetscInt_FMT ")", A->cmap->n, nt);
*2d1451d4SHong Zhang  PetscCall(VecScatterBegin(a->Mvctx, xx, a->lvec, INSERT_VALUES, SCATTER_FORWARD));
*2d1451d4SHong Zhang  PetscCall((*a->A->ops->mult)(a->A, xx, yy));
*2d1451d4SHong Zhang  PetscCall(VecScatterEnd(a->Mvctx, xx, a->lvec, INSERT_VALUES, SCATTER_FORWARD));
*2d1451d4SHong Zhang  PetscCall((*a->B->ops->multadd)(a->B, a->lvec, yy, yy));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatMultAdd_MPISELLCUDA(Mat A, Vec xx, Vec yy, Vec zz)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_MPISELL *a = (Mat_MPISELL *)A->data;
*2d1451d4SHong Zhang  PetscInt     nt;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(VecGetLocalSize(xx, &nt));
*2d1451d4SHong Zhang  PetscCheck(nt == A->cmap->n, PETSC_COMM_SELF, PETSC_ERR_ARG_SIZ, "Incompatible partition of A (%" PetscInt_FMT ") and xx (%" PetscInt_FMT ")", A->cmap->n, nt);
*2d1451d4SHong Zhang  PetscCall(VecScatterBegin(a->Mvctx, xx, a->lvec, INSERT_VALUES, SCATTER_FORWARD));
*2d1451d4SHong Zhang  PetscCall((*a->A->ops->multadd)(a->A, xx, yy, zz));
*2d1451d4SHong Zhang  PetscCall(VecScatterEnd(a->Mvctx, xx, a->lvec, INSERT_VALUES, SCATTER_FORWARD));
*2d1451d4SHong Zhang  PetscCall((*a->B->ops->multadd)(a->B, a->lvec, zz, zz));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatMultTranspose_MPISELLCUDA(Mat A, Vec xx, Vec yy)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_MPISELL *a = (Mat_MPISELL *)A->data;
*2d1451d4SHong Zhang  PetscInt     nt;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(VecGetLocalSize(xx, &nt));
*2d1451d4SHong Zhang  PetscCheck(nt == A->rmap->n, PETSC_COMM_SELF, PETSC_ERR_ARG_SIZ, "Incompatible partition of A (%" PetscInt_FMT ") and xx (%" PetscInt_FMT ")", A->rmap->n, nt);
*2d1451d4SHong Zhang  PetscCall((*a->B->ops->multtranspose)(a->B, xx, a->lvec));
*2d1451d4SHong Zhang  PetscCall((*a->A->ops->multtranspose)(a->A, xx, yy));
*2d1451d4SHong Zhang  PetscCall(VecScatterBegin(a->Mvctx, a->lvec, yy, ADD_VALUES, SCATTER_REVERSE));
*2d1451d4SHong Zhang  PetscCall(VecScatterEnd(a->Mvctx, a->lvec, yy, ADD_VALUES, SCATTER_REVERSE));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatSetFromOptions_MPISELLCUDA(PetscOptionItems *PetscOptionsObject, Mat A)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscOptionsHeadBegin(PetscOptionsObject, "MPISELLCUDA options");
*2d1451d4SHong Zhang  if (A->factortype == MAT_FACTOR_NONE) { }
*2d1451d4SHong Zhang  PetscOptionsHeadEnd();
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatAssemblyEnd_MPISELLCUDA(Mat A, MatAssemblyType mode)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  Mat_MPISELL *mpisell;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  mpisell = (Mat_MPISELL *)A->data;
*2d1451d4SHong Zhang  PetscCall(MatAssemblyEnd_MPISELL(A, mode));
*2d1451d4SHong Zhang  if (!A->was_assembled && mode == MAT_FINAL_ASSEMBLY) { PetscCall(VecSetType(mpisell->lvec, VECSEQCUDA)); }
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPetscErrorCode MatDestroy_MPISELLCUDA(Mat A)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(MatDestroy_MPISELL(A));
*2d1451d4SHong Zhang  PetscCall(PetscObjectComposeFunction((PetscObject)A, "MatConvert_mpisellcuda_mpiaij_C", NULL));
*2d1451d4SHong Zhang  PetscCall(PetscObjectComposeFunction((PetscObject)A, "MatMPISELLSetPreallocation_C", NULL));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong ZhangPETSC_EXTERN PetscErrorCode MatCreate_MPISELLCUDA(Mat A)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(MatCreate_MPISELL(A));
*2d1451d4SHong Zhang  PetscCall(PetscObjectComposeFunction((PetscObject)A, "MatMPISELLSetPreallocation_C", MatMPISELLSetPreallocation_MPISELLCUDA));
*2d1451d4SHong Zhang  PetscCall(PetscFree(A->defaultvectype));
*2d1451d4SHong Zhang  PetscCall(PetscStrallocpy(VECCUDA, &A->defaultvectype));
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  A->ops->assemblyend   = MatAssemblyEnd_MPISELLCUDA;
*2d1451d4SHong Zhang  A->ops->mult          = MatMult_MPISELLCUDA;
*2d1451d4SHong Zhang  A->ops->multadd       = MatMultAdd_MPISELLCUDA;
*2d1451d4SHong Zhang  A->ops->multtranspose = MatMultTranspose_MPISELLCUDA;
*2d1451d4SHong Zhang  A->ops->destroy       = MatDestroy_MPISELLCUDA;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscCall(PetscObjectChangeTypeName((PetscObject)A, MATMPISELLCUDA));
*2d1451d4SHong Zhang  PetscCall(PetscObjectComposeFunction((PetscObject)A, "MatConvert_mpisellcuda_mpiaij_C", MatConvert_MPISELL_MPIAIJ));
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang/*@
*2d1451d4SHong Zhang   MatCreateSELLCUDA - Creates a sparse matrix in SELL format.
*2d1451d4SHong Zhang   This matrix will ultimately pushed down to NVIDIA GPUs.
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   Collective
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   Input Parameters:
*2d1451d4SHong Zhang+  comm - MPI communicator, set to `PETSC_COMM_SELF`
*2d1451d4SHong Zhang.  m - number of local rows (or `PETSC_DECIDE` to have calculated if `M` is given)
*2d1451d4SHong Zhang           This value should be the same as the local size used in creating the
*2d1451d4SHong Zhang           y vector for the matrix-vector product y = Ax.
*2d1451d4SHong Zhang.  n - This value should be the same as the local size used in creating the
*2d1451d4SHong Zhang       x vector for the matrix-vector product y = Ax. (or PETSC_DECIDE to have
*2d1451d4SHong Zhang       calculated if `N` is given) For square matrices `n` is almost always `m`.
*2d1451d4SHong Zhang.  M - number of global rows (or `PETSC_DETERMINE` to have calculated if `m` is given)
*2d1451d4SHong Zhang.  N - number of global columns (or `PETSC_DETERMINE` to have calculated if `n` is given)
*2d1451d4SHong Zhang.  d_nz  - number of nonzeros per row in DIAGONAL portion of local submatrix
*2d1451d4SHong Zhang           (same value is used for all local rows)
*2d1451d4SHong Zhang.  d_nnz - array containing the number of nonzeros in the various rows of the
*2d1451d4SHong Zhang           DIAGONAL portion of the local submatrix (possibly different for each row)
*2d1451d4SHong Zhang           or `NULL`, if `d_nz` is used to specify the nonzero structure.
*2d1451d4SHong Zhang           The size of this array is equal to the number of local rows, i.e `m`.
*2d1451d4SHong Zhang           For matrices you plan to factor you must leave room for the diagonal entry and
*2d1451d4SHong Zhang           put in the entry even if it is zero.
*2d1451d4SHong Zhang.  o_nz  - number of nonzeros per row in the OFF-DIAGONAL portion of local
*2d1451d4SHong Zhang           submatrix (same value is used for all local rows).
*2d1451d4SHong Zhang-  o_nnz - array containing the number of nonzeros in the various rows of the
*2d1451d4SHong Zhang           OFF-DIAGONAL portion of the local submatrix (possibly different for
*2d1451d4SHong Zhang           each row) or `NULL`, if `o_nz` is used to specify the nonzero
*2d1451d4SHong Zhang           structure. The size of this array is equal to the number
*2d1451d4SHong Zhang           of local rows, i.e `m`.
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   Output Parameter:
*2d1451d4SHong Zhang.  A - the matrix
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   Level: intermediate
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   Notes:
*2d1451d4SHong Zhang   If `nnz` is given then `nz` is ignored
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   Specify the preallocated storage with either `nz` or `nnz` (not both).
*2d1451d4SHong Zhang   Set `nz` = `PETSC_DEFAULT` and `nnz` = `NULL` for PETSc to control dynamic memory
*2d1451d4SHong Zhang   allocation.
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang.seealso: [](chapter_matrices), `Mat`, `MatCreate()`, `MatCreateSELL()`, `MatSetValues()`, `MATMPISELLCUDA`, `MATSELLCUDA`
*2d1451d4SHong Zhang@*/
*2d1451d4SHong ZhangPetscErrorCode MatCreateSELLCUDA(MPI_Comm comm, PetscInt m, PetscInt n, PetscInt M, PetscInt N, PetscInt d_nz, const PetscInt d_nnz[], PetscInt o_nz, const PetscInt o_nnz[], Mat *A)
*2d1451d4SHong Zhang{
*2d1451d4SHong Zhang  PetscMPIInt size;
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  PetscFunctionBegin;
*2d1451d4SHong Zhang  PetscCall(MatCreate(comm, A));
*2d1451d4SHong Zhang  PetscCall(MatSetSizes(*A, m, n, M, N));
*2d1451d4SHong Zhang  PetscCallMPI(MPI_Comm_size(comm, &size));
*2d1451d4SHong Zhang  if (size > 1) {
*2d1451d4SHong Zhang    PetscCall(MatSetType(*A, MATMPISELLCUDA));
*2d1451d4SHong Zhang    PetscCall(MatMPISELLSetPreallocation(*A, d_nz, d_nnz, o_nz, o_nnz));
*2d1451d4SHong Zhang  } else {
*2d1451d4SHong Zhang    PetscCall(MatSetType(*A, MATSEQSELLCUDA));
*2d1451d4SHong Zhang    PetscCall(MatSeqSELLSetPreallocation(*A, d_nz, d_nnz));
*2d1451d4SHong Zhang  }
*2d1451d4SHong Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*2d1451d4SHong Zhang}
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang/*MC
*2d1451d4SHong Zhang   MATSELLCUDA - "sellcuda" = "mpisellcuda" - A matrix type to be used for sparse matrices.
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   Sliced ELLPACK matrix type whose data resides on NVIDIA GPUs.
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   This matrix type is identical to `MATSEQSELLCUDA` when constructed with a single process communicator,
*2d1451d4SHong Zhang   and `MATMPISELLCUDA` otherwise.  As a result, for single process communicators,
*2d1451d4SHong Zhang   `MatSeqSELLSetPreallocation()` is supported, and similarly `MatMPISELLSetPreallocation()` is supported
*2d1451d4SHong Zhang   for communicators controlling multiple processes.  It is recommended that you call both of
*2d1451d4SHong Zhang   the above preallocation routines for simplicity.
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang   Options Database Key:
*2d1451d4SHong Zhang.  -mat_type mpisellcuda - sets the matrix type to `MATMPISELLCUDA` during a call to MatSetFromOptions()
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang  Level: beginner
*2d1451d4SHong Zhang
*2d1451d4SHong Zhang .seealso: `MatCreateSELLCUDA()`, `MATSEQSELLCUDA`, `MatCreateSeqSELLCUDA()`, `MatCUDAFormatOperation()`
*2d1451d4SHong ZhangM*/