sf/tests/ex2.c

*4a314419SJunchao Zhangstatic char help[]= "Test SF cuda stream synchronization in device to host communication\n\n";
*4a314419SJunchao Zhang/*
*4a314419SJunchao Zhang  SF uses asynchronous operations internally. When destination data is on GPU, it does asynchronous
*4a314419SJunchao Zhang  operations in the default stream and does not sync these operations since it assumes routines consume
*4a314419SJunchao Zhang  the destination data are also on the default stream. However, when destination data in on CPU,
*4a314419SJunchao Zhang  SF must guarentee the data is ready to use on CPU after PetscSFXxxEnd().
*4a314419SJunchao Zhang */
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang#include <petscvec.h>
*4a314419SJunchao Zhangint main(int argc,char **argv)
*4a314419SJunchao Zhang{
*4a314419SJunchao Zhang  PetscErrorCode     ierr;
*4a314419SJunchao Zhang  PetscInt           i,n=100000; /* Big enough to make the asynchronous copy meaningful */
*4a314419SJunchao Zhang  PetscScalar        *val;
*4a314419SJunchao Zhang  const PetscScalar  *yval;
*4a314419SJunchao Zhang  Vec                x,y;
*4a314419SJunchao Zhang  PetscMPIInt        size;
*4a314419SJunchao Zhang  IS                 ix,iy;
*4a314419SJunchao Zhang  VecScatter         vscat;
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang  PetscFunctionBegin;
*4a314419SJunchao Zhang  ierr = PetscInitialize(&argc,&argv,(char*)0,help);if (ierr) return ierr;
*4a314419SJunchao Zhang  ierr = MPI_Comm_size(PETSC_COMM_WORLD,&size);CHKERRQ(ierr);
*4a314419SJunchao Zhang  if (size != 1) SETERRQ(PETSC_COMM_WORLD,PETSC_ERR_WRONG_MPI_SIZE,"This is a uni-processor test\n");
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang  /* Create two CUDA vectors x, y. Though we only care y's memory on host, we make y a CUDA vector,
*4a314419SJunchao Zhang     since we want to have y's memory on host pinned (i.e.,non-pagable), to really trigger asynchronous
*4a314419SJunchao Zhang     cudaMemcpyDeviceToHost.
*4a314419SJunchao Zhang   */
*4a314419SJunchao Zhang  ierr = VecCreateSeq(PETSC_COMM_SELF,n,&x);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecSetType(x,VECSEQCUDA);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecCreateSeq(PETSC_COMM_SELF,n,&y);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecSetType(y,VECSEQCUDA);CHKERRQ(ierr);
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang  /* Init x, y, and push them to GPU (their offloadmask = PETSC_OFFLOAD_GPU) */
*4a314419SJunchao Zhang  ierr = VecGetArray(x,&val);CHKERRQ(ierr);
*4a314419SJunchao Zhang  for (i=0; i<n; i++) val[i] = i/2.0;
*4a314419SJunchao Zhang  ierr = VecRestoreArray(x,&val);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecScale(x,2.0);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecSet(y,314);CHKERRQ(ierr);
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang  /* Pull y to CPU (make its offloadmask = PETSC_OFFLOAD_CPU) */
*4a314419SJunchao Zhang  ierr = VecGetArray(y,&val);
*4a314419SJunchao Zhang  ierr = VecRestoreArray(y,&val);CHKERRQ(ierr);
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang  /* The vscat is simply a vector copy */
*4a314419SJunchao Zhang  ierr = ISCreateStride(PETSC_COMM_SELF,n,0,1,&ix);
*4a314419SJunchao Zhang  ierr = ISCreateStride(PETSC_COMM_SELF,n,0,1,&iy);
*4a314419SJunchao Zhang  ierr = VecScatterCreate(x,ix,y,iy,&vscat);CHKERRQ(ierr);
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang  /* Do device to host vecscatter and then immediately use y on host. VecScat/SF may use asynchronous
*4a314419SJunchao Zhang     cudaMemcpy or kernels, but it must guarentee y is ready to use on host. Otherwise, wrong data will be displayed.
*4a314419SJunchao Zhang   */
*4a314419SJunchao Zhang  ierr = VecScatterBegin(vscat,x,y,INSERT_VALUES,SCATTER_FORWARD);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecScatterEnd(vscat,x,y,INSERT_VALUES,SCATTER_FORWARD);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecGetArrayRead(y,&yval);CHKERRQ(ierr);
*4a314419SJunchao Zhang  /* Display the first and the last entries of y to see if it is valid on host */
*4a314419SJunchao Zhang  ierr = PetscPrintf(PETSC_COMM_SELF,"y[0]=%.f, y[%D] = %.f\n",(float)PetscRealPart(yval[0]),n-1,(float)PetscRealPart(yval[n-1]));CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecRestoreArrayRead(y,&yval);CHKERRQ(ierr);
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang  ierr = VecDestroy(&x);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecDestroy(&y);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = ISDestroy(&ix);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = ISDestroy(&iy);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = VecScatterDestroy(&vscat);CHKERRQ(ierr);
*4a314419SJunchao Zhang  ierr = PetscFinalize();
*4a314419SJunchao Zhang  return ierr;
*4a314419SJunchao Zhang}
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang/*TEST
*4a314419SJunchao Zhang
*4a314419SJunchao Zhang   test:
*4a314419SJunchao Zhang    requires: cuda
*4a314419SJunchao Zhang    #make sure the host memory is pinned
*4a314419SJunchao Zhang    args: -vec_pinned_memory_min 0
*4a314419SJunchao Zhang
*4a314419SJunchao ZhangTEST*/