sf/tests/ex2.c

4a314419SJunchao Zhangstatic char help[]= "Test SF cuda stream synchronization in device to host communication\n\n";
4a314419SJunchao Zhang/*
4a314419SJunchao Zhang  SF uses asynchronous operations internally. When destination data is on GPU, it does asynchronous
4a314419SJunchao Zhang  operations in the default stream and does not sync these operations since it assumes routines consume
4a314419SJunchao Zhang  the destination data are also on the default stream. However, when destination data in on CPU,
4a314419SJunchao Zhang  SF must guarentee the data is ready to use on CPU after PetscSFXxxEnd().
4a314419SJunchao Zhang */
4a314419SJunchao Zhang
4a314419SJunchao Zhang#include <petscvec.h>
4a314419SJunchao Zhangint main(int argc,char **argv)
4a314419SJunchao Zhang{
4a314419SJunchao Zhang  PetscErrorCode     ierr;
4a314419SJunchao Zhang  PetscInt           i,n=100000; /* Big enough to make the asynchronous copy meaningful */
4a314419SJunchao Zhang  PetscScalar        *val;
4a314419SJunchao Zhang  const PetscScalar  *yval;
4a314419SJunchao Zhang  Vec                x,y;
4a314419SJunchao Zhang  PetscMPIInt        size;
4a314419SJunchao Zhang  IS                 ix,iy;
4a314419SJunchao Zhang  VecScatter         vscat;
4a314419SJunchao Zhang
4a314419SJunchao Zhang  PetscFunctionBegin;
4a314419SJunchao Zhang  ierr = PetscInitialize(&argc,&argv,(char*)0,help);if (ierr) return ierr;
ffc4695bSBarry Smith  ierr = MPI_Comm_size(PETSC_COMM_WORLD,&size);CHKERRMPI(ierr);
4a314419SJunchao Zhang  if (size != 1) SETERRQ(PETSC_COMM_WORLD,PETSC_ERR_WRONG_MPI_SIZE,"This is a uni-processor test\n");
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* Create two CUDA vectors x, y. Though we only care y's memory on host, we make y a CUDA vector,
4a314419SJunchao Zhang     since we want to have y's memory on host pinned (i.e.,non-pagable), to really trigger asynchronous
4a314419SJunchao Zhang     cudaMemcpyDeviceToHost.
4a314419SJunchao Zhang   */
*26e8e884SScott Kruger  ierr = VecCreateSeq(PETSC_COMM_WORLD,n,&x);CHKERRQ(ierr);
*26e8e884SScott Kruger  ierr = VecSetFromOptions(x);CHKERRQ(ierr);
*26e8e884SScott Kruger  ierr = VecCreateSeq(PETSC_COMM_WORLD,n,&y);CHKERRQ(ierr);
*26e8e884SScott Kruger  ierr = VecSetFromOptions(y);CHKERRQ(ierr);
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* Init x, y, and push them to GPU (their offloadmask = PETSC_OFFLOAD_GPU) */
4a314419SJunchao Zhang  ierr = VecGetArray(x,&val);CHKERRQ(ierr);
4a314419SJunchao Zhang  for (i=0; i<n; i++) val[i] = i/2.0;
4a314419SJunchao Zhang  ierr = VecRestoreArray(x,&val);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = VecScale(x,2.0);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = VecSet(y,314);CHKERRQ(ierr);
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* Pull y to CPU (make its offloadmask = PETSC_OFFLOAD_CPU) */
4a314419SJunchao Zhang  ierr = VecGetArray(y,&val);
4a314419SJunchao Zhang  ierr = VecRestoreArray(y,&val);CHKERRQ(ierr);
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* The vscat is simply a vector copy */
4a314419SJunchao Zhang  ierr = ISCreateStride(PETSC_COMM_SELF,n,0,1,&ix);
4a314419SJunchao Zhang  ierr = ISCreateStride(PETSC_COMM_SELF,n,0,1,&iy);
4a314419SJunchao Zhang  ierr = VecScatterCreate(x,ix,y,iy,&vscat);CHKERRQ(ierr);
4a314419SJunchao Zhang
4a314419SJunchao Zhang  /* Do device to host vecscatter and then immediately use y on host. VecScat/SF may use asynchronous
4a314419SJunchao Zhang     cudaMemcpy or kernels, but it must guarentee y is ready to use on host. Otherwise, wrong data will be displayed.
4a314419SJunchao Zhang   */
4a314419SJunchao Zhang  ierr = VecScatterBegin(vscat,x,y,INSERT_VALUES,SCATTER_FORWARD);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = VecScatterEnd(vscat,x,y,INSERT_VALUES,SCATTER_FORWARD);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = VecGetArrayRead(y,&yval);CHKERRQ(ierr);
4a314419SJunchao Zhang  /* Display the first and the last entries of y to see if it is valid on host */
4a314419SJunchao Zhang  ierr = PetscPrintf(PETSC_COMM_SELF,"y[0]=%.f, y[%D] = %.f\n",(float)PetscRealPart(yval[0]),n-1,(float)PetscRealPart(yval[n-1]));CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = VecRestoreArrayRead(y,&yval);CHKERRQ(ierr);
4a314419SJunchao Zhang
4a314419SJunchao Zhang  ierr = VecDestroy(&x);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = VecDestroy(&y);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = ISDestroy(&ix);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = ISDestroy(&iy);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = VecScatterDestroy(&vscat);CHKERRQ(ierr);
4a314419SJunchao Zhang  ierr = PetscFinalize();
4a314419SJunchao Zhang  return ierr;
4a314419SJunchao Zhang}
4a314419SJunchao Zhang
4a314419SJunchao Zhang/*TEST
4a314419SJunchao Zhang
4a314419SJunchao Zhang   test:
4a314419SJunchao Zhang    requires: cuda
4a314419SJunchao Zhang    #make sure the host memory is pinned
*26e8e884SScott Kruger    # sf_backend cuda is not needed if compiling only with cuda
*26e8e884SScott Kruger    args: -vec_type cuda -sf_backend cuda -vec_pinned_memory_min 0
*26e8e884SScott Kruger
*26e8e884SScott Kruger   test:
*26e8e884SScott Kruger    suffix: hip
*26e8e884SScott Kruger    requires: hip
*26e8e884SScott Kruger    output_file: output/ex2_1.out
*26e8e884SScott Kruger    #make sure the host memory is pinned
*26e8e884SScott Kruger    # sf_backend hip is not needed if compiling only with hip
*26e8e884SScott Kruger    args:  -vec_type hip -sf_backend hip -vec_pinned_memory_min 0
4a314419SJunchao Zhang
4a314419SJunchao ZhangTEST*/