sf/tests/ex2.c

4a314419SJunchao Zhangstatic char help[]= "Test SF cuda stream synchronization in device to host communication\n\n";
4a314419SJunchao Zhang/*
4a314419SJunchao Zhang  SF uses asynchronous operations internally. When destination data is on GPU, it does asynchronous
4a314419SJunchao Zhang  operations in the default stream and does not sync these operations since it assumes routines consume
4a314419SJunchao Zhang  the destination data are also on the default stream. However, when destination data in on CPU,
4a314419SJunchao Zhang  SF must guarentee the data is ready to use on CPU after PetscSFXxxEnd().
4a314419SJunchao Zhang */
4a314419SJunchao Zhang
4a314419SJunchao Zhang#include <petscvec.h>
4a314419SJunchao Zhangint main(int argc,char **argv)
4a314419SJunchao Zhang{
4a314419SJunchao Zhang  PetscInt           i,n=100000; /* Big enough to make the asynchronous copy meaningful */
4a314419SJunchao Zhang  PetscScalar        *val;
4a314419SJunchao Zhang  const PetscScalar  *yval;
4a314419SJunchao Zhang  Vec                x,y;
4a314419SJunchao Zhang  PetscMPIInt        size;
4a314419SJunchao Zhang  IS                 ix,iy;
4a314419SJunchao Zhang  VecScatter         vscat;
4a314419SJunchao Zhang
4a314419SJunchao Zhang  PetscFunctionBegin;
*b122ec5aSJacob Faibussowitsch  CHKERRQ(PetscInitialize(&argc,&argv,(char*)0,help));
5f80ce2aSJacob Faibussowitsch  CHKERRMPI(MPI_Comm_size(PETSC_COMM_WORLD,&size));
2c71b3e2SJacob Faibussowitsch  PetscCheckFalse(size != 1,PETSC_COMM_WORLD,PETSC_ERR_WRONG_MPI_SIZE,"This is a uni-processor test");
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* Create two CUDA vectors x, y. Though we only care y's memory on host, we make y a CUDA vector,
4a314419SJunchao Zhang     since we want to have y's memory on host pinned (i.e.,non-pagable), to really trigger asynchronous
4a314419SJunchao Zhang     cudaMemcpyDeviceToHost.
4a314419SJunchao Zhang   */
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecCreateSeq(PETSC_COMM_WORLD,n,&x));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecSetFromOptions(x));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecCreateSeq(PETSC_COMM_WORLD,n,&y));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecSetFromOptions(y));
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* Init x, y, and push them to GPU (their offloadmask = PETSC_OFFLOAD_GPU) */
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecGetArray(x,&val));
4a314419SJunchao Zhang  for (i=0; i<n; i++) val[i] = i/2.0;
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecRestoreArray(x,&val));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecScale(x,2.0));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecSet(y,314));
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* Pull y to CPU (make its offloadmask = PETSC_OFFLOAD_CPU) */
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecGetArray(y,&val));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecRestoreArray(y,&val));
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* The vscat is simply a vector copy */
5f80ce2aSJacob Faibussowitsch  CHKERRQ(ISCreateStride(PETSC_COMM_SELF,n,0,1,&ix));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(ISCreateStride(PETSC_COMM_SELF,n,0,1,&iy));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecScatterCreate(x,ix,y,iy,&vscat));
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* Do device to host vecscatter and then immediately use y on host. VecScat/SF may use asynchronous
4a314419SJunchao Zhang     cudaMemcpy or kernels, but it must guarentee y is ready to use on host. Otherwise, wrong data will be displayed.
4a314419SJunchao Zhang   */
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecScatterBegin(vscat,x,y,INSERT_VALUES,SCATTER_FORWARD));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecScatterEnd(vscat,x,y,INSERT_VALUES,SCATTER_FORWARD));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecGetArrayRead(y,&yval));
4a314419SJunchao Zhang  /* Display the first and the last entries of y to see if it is valid on host */
5f80ce2aSJacob Faibussowitsch  CHKERRQ(PetscPrintf(PETSC_COMM_SELF,"y[0]=%.f, y[%" PetscInt_FMT "] = %.f\n",(float)PetscRealPart(yval[0]),n-1,(float)PetscRealPart(yval[n-1])));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecRestoreArrayRead(y,&yval));
4a314419SJunchao Zhang
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecDestroy(&x));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecDestroy(&y));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(ISDestroy(&ix));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(ISDestroy(&iy));
5f80ce2aSJacob Faibussowitsch  CHKERRQ(VecScatterDestroy(&vscat));
*b122ec5aSJacob Faibussowitsch  CHKERRQ(PetscFinalize());
*b122ec5aSJacob Faibussowitsch  return 0;
4a314419SJunchao Zhang}
4a314419SJunchao Zhang
4a314419SJunchao Zhang/*TEST
4a314419SJunchao Zhang
4a314419SJunchao Zhang   test:
4a314419SJunchao Zhang    requires: cuda
328e583dSStefano Zampini    diff_args: -j
4a314419SJunchao Zhang    #make sure the host memory is pinned
26e8e884SScott Kruger    # sf_backend cuda is not needed if compiling only with cuda
26e8e884SScott Kruger    args: -vec_type cuda -sf_backend cuda -vec_pinned_memory_min 0
26e8e884SScott Kruger
26e8e884SScott Kruger   test:
26e8e884SScott Kruger    suffix: hip
26e8e884SScott Kruger    requires: hip
328e583dSStefano Zampini    diff_args: -j
26e8e884SScott Kruger    output_file: output/ex2_1.out
26e8e884SScott Kruger    #make sure the host memory is pinned
26e8e884SScott Kruger    # sf_backend hip is not needed if compiling only with hip
26e8e884SScott Kruger    args:  -vec_type hip -sf_backend hip -vec_pinned_memory_min 0
4a314419SJunchao Zhang
4a314419SJunchao ZhangTEST*/