aij/mpi/mpiaij.c

8a729477SBarry Smith
*1eb62cbbSBarry Smith#include "mpiaij.h"
8a729477SBarry Smith#include "vec/vecimpl.h"
8a729477SBarry Smith
8a729477SBarry Smith
*1eb62cbbSBarry Smith#define CHUNCKSIZE   100
*1eb62cbbSBarry Smith/*
*1eb62cbbSBarry Smith   This is a simple minded stash. Do a linear search to determine if
*1eb62cbbSBarry Smith in stash, if not add to end.
*1eb62cbbSBarry Smith*/
*1eb62cbbSBarry Smithstatic int StashValues(Stash *stash,int row,int n, int *idxn,
*1eb62cbbSBarry Smith                       Scalar *values,InsertMode addv)
8a729477SBarry Smith{
*1eb62cbbSBarry Smith  int    i,j,N = stash->n,found,*n_idx, *n_idy;
*1eb62cbbSBarry Smith  Scalar val,*n_array;
8a729477SBarry Smith
*1eb62cbbSBarry Smith  for ( i=0; i<n; i++ ) {
*1eb62cbbSBarry Smith    found = 0;
*1eb62cbbSBarry Smith    val = *values++;
8a729477SBarry Smith    for ( j=0; j<N; j++ ) {
*1eb62cbbSBarry Smith      if ( stash->idx[j] == row && stash->idy[j] == idxn[i]) {
*1eb62cbbSBarry Smith        /* found a match */
*1eb62cbbSBarry Smith        if (addv == AddValues) stash->array[j] += val;
*1eb62cbbSBarry Smith        else stash->array[j] = val;
*1eb62cbbSBarry Smith        found = 1;
8a729477SBarry Smith        break;
8a729477SBarry Smith      }
8a729477SBarry Smith    }
*1eb62cbbSBarry Smith    if (!found) { /* not found so add to end */
*1eb62cbbSBarry Smith      if ( stash->n == stash->nmax ) {
*1eb62cbbSBarry Smith        /* allocate a larger stash */
*1eb62cbbSBarry Smith        n_array = (Scalar *) MALLOC( (stash->nmax + CHUNCKSIZE)*(
*1eb62cbbSBarry Smith                                     2*sizeof(int) + sizeof(Scalar)));
*1eb62cbbSBarry Smith        CHKPTR(n_array);
*1eb62cbbSBarry Smith        n_idx = (int *) (n_array + stash->nmax + CHUNCKSIZE);
*1eb62cbbSBarry Smith        n_idy = (int *) (n_idx + stash->nmax + CHUNCKSIZE);
*1eb62cbbSBarry Smith        MEMCPY(n_array,stash->array,stash->nmax*sizeof(Scalar));
*1eb62cbbSBarry Smith        MEMCPY(n_idx,stash->idx,stash->nmax*sizeof(int));
*1eb62cbbSBarry Smith        MEMCPY(n_idy,stash->idy,stash->nmax*sizeof(int));
*1eb62cbbSBarry Smith        if (stash->array) FREE(stash->array);
*1eb62cbbSBarry Smith        stash->array = n_array; stash->idx = n_idx; stash->idy = n_idy;
*1eb62cbbSBarry Smith        stash->nmax += CHUNCKSIZE;
*1eb62cbbSBarry Smith      }
*1eb62cbbSBarry Smith      stash->array[stash->n]   = val;
*1eb62cbbSBarry Smith      stash->idx[stash->n]     = row;
*1eb62cbbSBarry Smith      stash->idy[stash->n++]   = idxn[i];
*1eb62cbbSBarry Smith    }
8a729477SBarry Smith  }
8a729477SBarry Smith  return 0;
8a729477SBarry Smith}
8a729477SBarry Smith
*1eb62cbbSBarry Smithstatic int MatiAIJInsertValues(Mat mat,int m,int *idxm,int n,
*1eb62cbbSBarry Smith                            int *idxn,Scalar *v,InsertMode addv)
8a729477SBarry Smith{
*1eb62cbbSBarry Smith  Matimpiaij *aij = (Matimpiaij *) mat->data;
*1eb62cbbSBarry Smith  int        ierr,i,j, rstart = aij->rstart, rend = aij->rend;
*1eb62cbbSBarry Smith  int        cstart = aij->cstart, cend = aij->cend,row,col;
8a729477SBarry Smith
*1eb62cbbSBarry Smith  if (aij->insertmode != NotSetValues && aij->insertmode != addv) {
*1eb62cbbSBarry Smith    SETERR(1,"You cannot mix inserts and adds");
8a729477SBarry Smith  }
*1eb62cbbSBarry Smith  aij->insertmode = addv;
8a729477SBarry Smith  for ( i=0; i<m; i++ ) {
*1eb62cbbSBarry Smith    if (idxm[i] >= rstart && idxm[i] < rend) {
*1eb62cbbSBarry Smith      row = idxm[i] - rstart;
*1eb62cbbSBarry Smith      for ( j=0; j<n; j++ ) {
*1eb62cbbSBarry Smith        if (idxn[j] >= cstart && idxn[j] < cend){
*1eb62cbbSBarry Smith          col = idxn[j] - cstart;
*1eb62cbbSBarry Smith          ierr = MatSetValues(aij->A,1,&row,1,&col,v+i*n+j,addv);CHKERR(ierr);
*1eb62cbbSBarry Smith        }
*1eb62cbbSBarry Smith        else {
*1eb62cbbSBarry Smith          col = idxn[j];
*1eb62cbbSBarry Smith          ierr = MatSetValues(aij->B,1,&row,1,&col,v+i*n+j,addv);CHKERR(ierr);
*1eb62cbbSBarry Smith        }
*1eb62cbbSBarry Smith      }
*1eb62cbbSBarry Smith    }
*1eb62cbbSBarry Smith    else {
*1eb62cbbSBarry Smith      ierr = StashValues(&aij->stash,idxm[i],n,idxn,v+i*n,addv);CHKERR(ierr);
*1eb62cbbSBarry Smith    }
8a729477SBarry Smith  }
8a729477SBarry Smith  return 0;
8a729477SBarry Smith}
8a729477SBarry Smith
8a729477SBarry Smith/*
*1eb62cbbSBarry Smith    the assembly code is alot like the code for vectors, we should
*1eb62cbbSBarry Smith    sometime derive a single assembly code that can be used for
*1eb62cbbSBarry Smith    either case.
8a729477SBarry Smith*/
8a729477SBarry Smith
*1eb62cbbSBarry Smithstatic int MatiAIJBeginAssemble(Mat mat)
8a729477SBarry Smith{
*1eb62cbbSBarry Smith  Matimpiaij  *aij = (Matimpiaij *) mat->data;
*1eb62cbbSBarry Smith  MPI_Comm    comm = aij->comm;
*1eb62cbbSBarry Smith  int         ierr, numtids = aij->numtids, *owners = aij->rowners;
*1eb62cbbSBarry Smith  int         mytid = aij->mytid;
*1eb62cbbSBarry Smith  MPI_Request *send_waits,*recv_waits;
*1eb62cbbSBarry Smith  int         *nprocs,i,j,n,idx,*procs,nsends,nreceives,nmax,*work;
*1eb62cbbSBarry Smith  int         tag = 50, *owner,*starts,count;
*1eb62cbbSBarry Smith  InsertMode  addv;
*1eb62cbbSBarry Smith  Scalar      *rvalues,*svalues;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* make sure all processors are either in INSERTMODE or ADDMODE */
*1eb62cbbSBarry Smith  MPI_Allreduce((void *) &aij->insertmode,(void *) &addv,numtids,MPI_INT,
*1eb62cbbSBarry Smith                MPI_BOR,comm);
*1eb62cbbSBarry Smith  if (addv == (AddValues|InsertValues)) {
*1eb62cbbSBarry Smith    SETERR(1,"Some processors have inserted while others have added");
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  aij->insertmode = addv; /* in case this processor had no cache */
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /*  first count number of contributors to each processor */
*1eb62cbbSBarry Smith  nprocs = (int *) MALLOC( 2*numtids*sizeof(int) ); CHKPTR(nprocs);
*1eb62cbbSBarry Smith  MEMSET(nprocs,0,2*numtids*sizeof(int)); procs = nprocs + numtids;
*1eb62cbbSBarry Smith  owner = (int *) MALLOC( (aij->stash.n+1)*sizeof(int) ); CHKPTR(owner);
*1eb62cbbSBarry Smith  for ( i=0; i<aij->stash.n; i++ ) {
*1eb62cbbSBarry Smith    idx = aij->stash.idx[i];
*1eb62cbbSBarry Smith    for ( j=0; j<numtids; j++ ) {
*1eb62cbbSBarry Smith      if (idx >= owners[j] && idx < owners[j+1]) {
*1eb62cbbSBarry Smith        nprocs[j]++; procs[j] = 1; owner[i] = j; break;
8a729477SBarry Smith      }
8a729477SBarry Smith    }
8a729477SBarry Smith  }
*1eb62cbbSBarry Smith  nsends = 0;  for ( i=0; i<numtids; i++ ) { nsends += procs[i];}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* inform other processors of number of messages and max length*/
*1eb62cbbSBarry Smith  work = (int *) MALLOC( numtids*sizeof(int) ); CHKPTR(work);
*1eb62cbbSBarry Smith  MPI_Allreduce((void *) procs,(void *) work,numtids,MPI_INT,MPI_SUM,comm);
*1eb62cbbSBarry Smith  nreceives = work[mytid];
*1eb62cbbSBarry Smith  MPI_Allreduce((void *) nprocs,(void *) work,numtids,MPI_INT,MPI_MAX,comm);
*1eb62cbbSBarry Smith  nmax = work[mytid];
*1eb62cbbSBarry Smith  FREE(work);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* post receives:
*1eb62cbbSBarry Smith       1) each message will consist of ordered pairs
*1eb62cbbSBarry Smith     (global index,value) we store the global index as a double
*1eb62cbbSBarry Smith     to simply the message passing.
*1eb62cbbSBarry Smith       2) since we don't know how long each individual message is we
*1eb62cbbSBarry Smith     allocate the largest needed buffer for each receive. Potentially
*1eb62cbbSBarry Smith     this is a lot of wasted space.
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith       This could be done better.
*1eb62cbbSBarry Smith  */
*1eb62cbbSBarry Smith  rvalues = (Scalar *) MALLOC(3*(nreceives+1)*nmax*sizeof(Scalar));
*1eb62cbbSBarry Smith  CHKPTR(rvalues);
*1eb62cbbSBarry Smith  recv_waits = (MPI_Request *) MALLOC((nreceives+1)*sizeof(MPI_Request));
*1eb62cbbSBarry Smith  CHKPTR(recv_waits);
*1eb62cbbSBarry Smith  for ( i=0; i<nreceives; i++ ) {
*1eb62cbbSBarry Smith    MPI_Irecv((void *)(rvalues+3*nmax*i),3*nmax,MPI_SCALAR,MPI_ANY_SOURCE,tag,
*1eb62cbbSBarry Smith              comm,recv_waits+i);
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* do sends:
*1eb62cbbSBarry Smith      1) starts[i] gives the starting index in svalues for stuff going to
*1eb62cbbSBarry Smith         the ith processor
*1eb62cbbSBarry Smith  */
*1eb62cbbSBarry Smith  svalues = (Scalar *) MALLOC( 3*(aij->stash.n+1)*sizeof(Scalar) );
*1eb62cbbSBarry Smith  CHKPTR(svalues);
*1eb62cbbSBarry Smith  send_waits = (MPI_Request *) MALLOC( (nsends+1)*sizeof(MPI_Request));
*1eb62cbbSBarry Smith  CHKPTR(send_waits);
*1eb62cbbSBarry Smith  starts = (int *) MALLOC( numtids*sizeof(int) ); CHKPTR(starts);
*1eb62cbbSBarry Smith  starts[0] = 0;
*1eb62cbbSBarry Smith  for ( i=1; i<numtids; i++ ) { starts[i] = starts[i-1] + nprocs[i-1];}
*1eb62cbbSBarry Smith  for ( i=0; i<aij->stash.n; i++ ) {
*1eb62cbbSBarry Smith    svalues[3*starts[owner[i]]]       = (Scalar)  aij->stash.idx[i];
*1eb62cbbSBarry Smith    svalues[3*starts[owner[i]]+1]     = (Scalar)  aij->stash.idy[i];
*1eb62cbbSBarry Smith    svalues[3*(starts[owner[i]]++)+2] =  aij->stash.array[i];
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  FREE(owner);
*1eb62cbbSBarry Smith  starts[0] = 0;
*1eb62cbbSBarry Smith  for ( i=1; i<numtids; i++ ) { starts[i] = starts[i-1] + nprocs[i-1];}
*1eb62cbbSBarry Smith  count = 0;
*1eb62cbbSBarry Smith  for ( i=0; i<numtids; i++ ) {
*1eb62cbbSBarry Smith    if (procs[i]) {
*1eb62cbbSBarry Smith      MPI_Isend((void*)(svalues+3*starts[i]),3*nprocs[i],MPI_SCALAR,i,tag,
*1eb62cbbSBarry Smith                comm,send_waits+count++);
*1eb62cbbSBarry Smith    }
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  FREE(starts); FREE(nprocs);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* Free cache space */
*1eb62cbbSBarry Smith  aij->stash.nmax = aij->stash.n = 0;
*1eb62cbbSBarry Smith  if (aij->stash.array){ FREE(aij->stash.array); aij->stash.array = 0;}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  aij->svalues    = svalues;       aij->rvalues = rvalues;
*1eb62cbbSBarry Smith  aij->nsends     = nsends;         aij->nrecvs = nreceives;
*1eb62cbbSBarry Smith  aij->send_waits = send_waits; aij->recv_waits = recv_waits;
*1eb62cbbSBarry Smith  aij->rmax       = nmax;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  return 0;
*1eb62cbbSBarry Smith}
*1eb62cbbSBarry Smithextern int MPIAIJSetUpMultiply(Mat);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smithstatic int MatiAIJEndAssemble(Mat mat)
*1eb62cbbSBarry Smith{
*1eb62cbbSBarry Smith  int        ierr;
*1eb62cbbSBarry Smith  Matimpiaij *aij = (Matimpiaij *) mat->data;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  MPI_Status  *send_status,recv_status;
*1eb62cbbSBarry Smith  int         index,idx,nrecvs = aij->nrecvs, count = nrecvs, i, n;
*1eb62cbbSBarry Smith  int         row,col;
*1eb62cbbSBarry Smith  Scalar      *values,val;
*1eb62cbbSBarry Smith  InsertMode  addv = aij->insertmode;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /*  wait on receives */
*1eb62cbbSBarry Smith  while (count) {
*1eb62cbbSBarry Smith    MPI_Waitany(nrecvs,aij->recv_waits,&index,&recv_status);
*1eb62cbbSBarry Smith    /* unpack receives into our local space */
*1eb62cbbSBarry Smith    values = aij->rvalues + 3*index*aij->rmax;
*1eb62cbbSBarry Smith    MPI_Get_count(&recv_status,MPI_SCALAR,&n);
*1eb62cbbSBarry Smith    n = n/3;
*1eb62cbbSBarry Smith    for ( i=0; i<n; i++ ) {
*1eb62cbbSBarry Smith      row = (int) PETSCREAL(values[3*i]) - aij->rstart;
*1eb62cbbSBarry Smith      col = (int) PETSCREAL(values[3*i+1]);
*1eb62cbbSBarry Smith      val = values[3*i+2];
*1eb62cbbSBarry Smith      if (col >= aij->cstart && col < aij->cend) {
*1eb62cbbSBarry Smith          col -= aij->cstart;
*1eb62cbbSBarry Smith        MatSetValues(aij->A,1,&row,1,&col,&val,addv);
*1eb62cbbSBarry Smith      }
*1eb62cbbSBarry Smith      else {
*1eb62cbbSBarry Smith        MatSetValues(aij->B,1,&row,1,&col,&val,addv);
*1eb62cbbSBarry Smith      }
*1eb62cbbSBarry Smith    }
*1eb62cbbSBarry Smith    count--;
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  FREE(aij->recv_waits); FREE(aij->rvalues);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* wait on sends */
*1eb62cbbSBarry Smith  if (aij->nsends) {
*1eb62cbbSBarry Smith    send_status = (MPI_Status *) MALLOC( aij->nsends*sizeof(MPI_Status) );
*1eb62cbbSBarry Smith    CHKPTR(send_status);
*1eb62cbbSBarry Smith    MPI_Waitall(aij->nsends,aij->send_waits,send_status);
*1eb62cbbSBarry Smith    FREE(send_status);
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  FREE(aij->send_waits); FREE(aij->svalues);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  aij->insertmode = NotSetValues;
*1eb62cbbSBarry Smith  ierr = MatBeginAssembly(aij->A); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatEndAssembly(aij->A); CHKERR(ierr);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  ierr = MPIAIJSetUpMultiply(mat); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatBeginAssembly(aij->B); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatEndAssembly(aij->B); CHKERR(ierr);
8a729477SBarry Smith  return 0;
8a729477SBarry Smith}
8a729477SBarry Smith
*1eb62cbbSBarry Smithstatic int MatiZero(Mat A)
*1eb62cbbSBarry Smith{
*1eb62cbbSBarry Smith  Matimpiaij *l = (Matimpiaij *) A->data;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  MatZeroEntries(l->A); MatZeroEntries(l->B);
*1eb62cbbSBarry Smith  return 0;
*1eb62cbbSBarry Smith}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith/* again this uses the same basic stratagy as in the assembly and
*1eb62cbbSBarry Smith   scatter create routines, we should try to do it systemamatically
*1eb62cbbSBarry Smith   if we can figure out the proper level of generality. */
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith/* the code does not do the diagonal entries correctly unless the
*1eb62cbbSBarry Smith   matrix is square and the column and row owerships are identical.
*1eb62cbbSBarry Smith   This is a BUG. The only way to fix it seems to be to access
*1eb62cbbSBarry Smith   aij->A and aij->B directly and not through the MatZeroRows()
*1eb62cbbSBarry Smith   routine.
*1eb62cbbSBarry Smith*/
*1eb62cbbSBarry Smithstatic int MatiZerorows(Mat A,IS is,Scalar *diag)
*1eb62cbbSBarry Smith{
*1eb62cbbSBarry Smith  Matimpiaij     *l = (Matimpiaij *) A->data;
*1eb62cbbSBarry Smith  int            i,ierr,N, *rows,*owners = l->rowners,numtids = l->numtids;
*1eb62cbbSBarry Smith  int            *localrows,*procs,*nprocs,j,found,idx,nsends,*work;
*1eb62cbbSBarry Smith  int            nmax,*svalues,*starts,*owner,nrecvs,mytid = l->mytid;
*1eb62cbbSBarry Smith  int            *rvalues,tag = 67,count,base,slen,n,len,*source;
*1eb62cbbSBarry Smith  int            *lens,index,*lrows,*values;
*1eb62cbbSBarry Smith  MPI_Comm       comm = l->comm;
*1eb62cbbSBarry Smith  MPI_Request    *send_waits,*recv_waits;
*1eb62cbbSBarry Smith  MPI_Status     recv_status,*send_status;
*1eb62cbbSBarry Smith  IS             istmp;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  ierr = ISGetLocalSize(is,&N); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = ISGetIndices(is,&rows); CHKERR(ierr);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /*  first count number of contributors to each processor */
*1eb62cbbSBarry Smith  nprocs = (int *) MALLOC( 2*numtids*sizeof(int) ); CHKPTR(nprocs);
*1eb62cbbSBarry Smith  MEMSET(nprocs,0,2*numtids*sizeof(int)); procs = nprocs + numtids;
*1eb62cbbSBarry Smith  owner = (int *) MALLOC((N+1)*sizeof(int)); CHKPTR(owner); /* see note*/
*1eb62cbbSBarry Smith  for ( i=0; i<N; i++ ) {
*1eb62cbbSBarry Smith    idx = rows[i];
*1eb62cbbSBarry Smith    found = 0;
*1eb62cbbSBarry Smith    for ( j=0; j<numtids; j++ ) {
*1eb62cbbSBarry Smith      if (idx >= owners[j] && idx < owners[j+1]) {
*1eb62cbbSBarry Smith        nprocs[j]++; procs[j] = 1; owner[i] = j; found = 1; break;
*1eb62cbbSBarry Smith      }
*1eb62cbbSBarry Smith    }
*1eb62cbbSBarry Smith    if (!found) SETERR(1,"Index out of range");
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  nsends = 0;  for ( i=0; i<numtids; i++ ) { nsends += procs[i];}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* inform other processors of number of messages and max length*/
*1eb62cbbSBarry Smith  work = (int *) MALLOC( numtids*sizeof(int) ); CHKPTR(work);
*1eb62cbbSBarry Smith  MPI_Allreduce((void *) procs,(void *) work,numtids,MPI_INT,MPI_SUM,comm);
*1eb62cbbSBarry Smith  nrecvs = work[mytid];
*1eb62cbbSBarry Smith  MPI_Allreduce((void *) nprocs,(void *) work,numtids,MPI_INT,MPI_MAX,comm);
*1eb62cbbSBarry Smith  nmax = work[mytid];
*1eb62cbbSBarry Smith  FREE(work);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* post receives:   */
*1eb62cbbSBarry Smith  rvalues = (int *) MALLOC((nrecvs+1)*nmax*sizeof(int)); /*see note */
*1eb62cbbSBarry Smith  CHKPTR(rvalues);
*1eb62cbbSBarry Smith  recv_waits = (MPI_Request *) MALLOC((nrecvs+1)*sizeof(MPI_Request));
*1eb62cbbSBarry Smith  CHKPTR(recv_waits);
*1eb62cbbSBarry Smith  for ( i=0; i<nrecvs; i++ ) {
*1eb62cbbSBarry Smith    MPI_Irecv((void *)(rvalues+nmax*i),nmax,MPI_INT,MPI_ANY_SOURCE,tag,
*1eb62cbbSBarry Smith              comm,recv_waits+i);
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* do sends:
*1eb62cbbSBarry Smith      1) starts[i] gives the starting index in svalues for stuff going to
*1eb62cbbSBarry Smith         the ith processor
*1eb62cbbSBarry Smith  */
*1eb62cbbSBarry Smith  svalues = (int *) MALLOC( (N+1)*sizeof(int) ); CHKPTR(svalues);
*1eb62cbbSBarry Smith  send_waits = (MPI_Request *) MALLOC( (nsends+1)*sizeof(MPI_Request));
*1eb62cbbSBarry Smith  CHKPTR(send_waits);
*1eb62cbbSBarry Smith  starts = (int *) MALLOC( (numtids+1)*sizeof(int) ); CHKPTR(starts);
*1eb62cbbSBarry Smith  starts[0] = 0;
*1eb62cbbSBarry Smith  for ( i=1; i<numtids; i++ ) { starts[i] = starts[i-1] + nprocs[i-1];}
*1eb62cbbSBarry Smith  for ( i=0; i<N; i++ ) {
*1eb62cbbSBarry Smith    svalues[starts[owner[i]]++] = rows[i];
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  ISRestoreIndices(is,&rows);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  starts[0] = 0;
*1eb62cbbSBarry Smith  for ( i=1; i<numtids+1; i++ ) { starts[i] = starts[i-1] + nprocs[i-1];}
*1eb62cbbSBarry Smith  count = 0;
*1eb62cbbSBarry Smith  for ( i=0; i<numtids; i++ ) {
*1eb62cbbSBarry Smith    if (procs[i]) {
*1eb62cbbSBarry Smith      MPI_Isend((void*)(svalues+starts[i]),nprocs[i],MPI_INT,i,tag,
*1eb62cbbSBarry Smith                comm,send_waits+count++);
*1eb62cbbSBarry Smith    }
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  FREE(starts);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  base = owners[mytid];
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /*  wait on receives */
*1eb62cbbSBarry Smith  lens = (int *) MALLOC( 2*(nrecvs+1)*sizeof(int) ); CHKPTR(lens);
*1eb62cbbSBarry Smith  source = lens + nrecvs;
*1eb62cbbSBarry Smith  count = nrecvs; slen = 0;
*1eb62cbbSBarry Smith  while (count) {
*1eb62cbbSBarry Smith    MPI_Waitany(nrecvs,recv_waits,&index,&recv_status);
*1eb62cbbSBarry Smith    /* unpack receives into our local space */
*1eb62cbbSBarry Smith    MPI_Get_count(&recv_status,MPI_INT,&n);
*1eb62cbbSBarry Smith    source[index]  = recv_status.MPI_SOURCE;
*1eb62cbbSBarry Smith    lens[index]  = n;
*1eb62cbbSBarry Smith    slen += n;
*1eb62cbbSBarry Smith    count--;
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  FREE(recv_waits);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* move the data into the send scatter */
*1eb62cbbSBarry Smith  lrows = (int *) MALLOC( slen*sizeof(int) ); CHKPTR(lrows);
*1eb62cbbSBarry Smith  count = 0;
*1eb62cbbSBarry Smith  for ( i=0; i<nrecvs; i++ ) {
*1eb62cbbSBarry Smith    values = rvalues + i*nmax;
*1eb62cbbSBarry Smith    for ( j=0; j<lens[i]; j++ ) {
*1eb62cbbSBarry Smith      lrows[count++] = values[j] - base;
*1eb62cbbSBarry Smith    }
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  FREE(rvalues); FREE(lens);
*1eb62cbbSBarry Smith  FREE(owner); FREE(nprocs);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* actually zap the local rows */
*1eb62cbbSBarry Smith  ierr = ISCreateSequential(slen,lrows,&istmp); CHKERR(ierr);  FREE(lrows);
*1eb62cbbSBarry Smith  ierr = MatZeroRows(l->A,istmp,diag); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatZeroRows(l->B,istmp,0); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = ISDestroy(istmp); CHKERR(ierr);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* wait on sends */
*1eb62cbbSBarry Smith  if (nsends) {
*1eb62cbbSBarry Smith    send_status = (MPI_Status *) MALLOC( nsends*sizeof(MPI_Status) );
*1eb62cbbSBarry Smith    CHKPTR(send_status);
*1eb62cbbSBarry Smith    MPI_Waitall(nsends,send_waits,send_status);
*1eb62cbbSBarry Smith    FREE(send_status);
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  FREE(send_waits); FREE(svalues);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  return 0;
*1eb62cbbSBarry Smith}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smithstatic int MatiAIJMult(Mat aijin,Vec xx,Vec yy)
*1eb62cbbSBarry Smith{
*1eb62cbbSBarry Smith  Matimpiaij *aij = (Matimpiaij *) aijin->data;
*1eb62cbbSBarry Smith  int        ierr;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  ierr = VecScatterBegin(xx,0,aij->lvec,0,InsertValues,&aij->Mvctx);
*1eb62cbbSBarry Smith  CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatMult(aij->A,xx,yy); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = VecScatterEnd(xx,0,aij->lvec,0,InsertValues,&aij->Mvctx); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatMultAdd(aij->B,aij->lvec,yy,yy); CHKERR(ierr);
*1eb62cbbSBarry Smith  return 0;
*1eb62cbbSBarry Smith}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith/*
*1eb62cbbSBarry Smith  This only works correctly for square matrices where the subblock A->A is the
*1eb62cbbSBarry Smith   diagonal block
*1eb62cbbSBarry Smith*/
*1eb62cbbSBarry Smithstatic int MatiAIJgetdiag(Mat Ain,Vec v)
*1eb62cbbSBarry Smith{
*1eb62cbbSBarry Smith  Matimpiaij *A = (Matimpiaij *) Ain->data;
*1eb62cbbSBarry Smith  return MatGetDiagonal(A->A,v);
*1eb62cbbSBarry Smith}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smithstatic int MatiAIJdestroy(PetscObject obj)
*1eb62cbbSBarry Smith{
*1eb62cbbSBarry Smith  Mat        mat = (Mat) obj;
*1eb62cbbSBarry Smith  Matimpiaij *aij = (Matimpiaij *) mat->data;
*1eb62cbbSBarry Smith  int        ierr;
*1eb62cbbSBarry Smith  FREE(aij->rowners);
*1eb62cbbSBarry Smith  ierr = MatDestroy(aij->A); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatDestroy(aij->B); CHKERR(ierr);
*1eb62cbbSBarry Smith  FREE(aij); FREE(mat);
*1eb62cbbSBarry Smith  if (aij->lvec) VecDestroy(aij->lvec);
*1eb62cbbSBarry Smith  if (aij->Mvctx) VecScatterCtxDestroy(aij->Mvctx);
*1eb62cbbSBarry Smith  return 0;
*1eb62cbbSBarry Smith}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smithstatic int MatiView(PetscObject obj,Viewer viewer)
*1eb62cbbSBarry Smith{
*1eb62cbbSBarry Smith  Mat        mat = (Mat) obj;
*1eb62cbbSBarry Smith  Matimpiaij *aij = (Matimpiaij *) mat->data;
*1eb62cbbSBarry Smith  int        ierr;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  MPE_Seq_begin(aij->comm,1);
*1eb62cbbSBarry Smith  printf("[%d] rows %d starts %d ends %d cols %d starts %d ends %d\n",
*1eb62cbbSBarry Smith          aij->mytid,aij->m,aij->rstart,aij->rend,aij->n,aij->cstart,
*1eb62cbbSBarry Smith          aij->cend);
*1eb62cbbSBarry Smith  ierr = MatView(aij->A,viewer); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatView(aij->B,viewer); CHKERR(ierr);
*1eb62cbbSBarry Smith  MPE_Seq_end(aij->comm,1);
*1eb62cbbSBarry Smith  return 0;
*1eb62cbbSBarry Smith}
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith/*
*1eb62cbbSBarry Smith    This has to provide several versions.
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith     1) per sequential
*1eb62cbbSBarry Smith     2) a) use only local smoothing updating outer values only once.
*1eb62cbbSBarry Smith        b) local smoothing updating outer values each inner iteration
*1eb62cbbSBarry Smith     3) color updating out values betwen colors. (this imples an
*1eb62cbbSBarry Smith        ordering that is sort of related to the IS argument, it
*1eb62cbbSBarry Smith        is not clear a IS argument makes the most sense perhaps it
*1eb62cbbSBarry Smith        should be dropped.
*1eb62cbbSBarry Smith*/
8a729477SBarry Smithstatic int MatiAIJrelax(Mat matin,Vec bb,double omega,int flag,IS is,
8a729477SBarry Smith                        int its,Vec xx)
8a729477SBarry Smith{
*1eb62cbbSBarry Smith  Matimpiaij *mat = (Matimpiaij *) matin->data;
*1eb62cbbSBarry Smith  Scalar     zero = 0.0;
8a729477SBarry Smith  int        ierr,one = 1, tmp, *idx, *diag;
8a729477SBarry Smith  int        n = mat->n, m = mat->m, i, j;
8a729477SBarry Smith
8a729477SBarry Smith  if (is) SETERR(1,"No support for ordering in relaxation");
8a729477SBarry Smith  if (flag & SOR_ZERO_INITIAL_GUESS) {
8a729477SBarry Smith    if (ierr = VecSet(&zero,xx)) return ierr;
8a729477SBarry Smith  }
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* update outer values from other processors*/
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* smooth locally */
8a729477SBarry Smith  return 0;
8a729477SBarry Smith}
8a729477SBarry Smith/* -------------------------------------------------------------------*/
*1eb62cbbSBarry Smithstatic struct _MatOps MatOps = {MatiAIJInsertValues,
8a729477SBarry Smith       0, 0,
*1eb62cbbSBarry Smith       MatiAIJMult,0,0,0,
*1eb62cbbSBarry Smith       0,0,0,0,
8a729477SBarry Smith       0,0,
8a729477SBarry Smith       MatiAIJrelax,
8a729477SBarry Smith       0,
*1eb62cbbSBarry Smith       0,0,0,
8a729477SBarry Smith       0,
8a729477SBarry Smith       MatiAIJgetdiag,0,0,
*1eb62cbbSBarry Smith       MatiAIJBeginAssemble,MatiAIJEndAssemble,
*1eb62cbbSBarry Smith       0,
*1eb62cbbSBarry Smith       0,MatiZero,MatiZerorows,0,
*1eb62cbbSBarry Smith       0,0,0,0 };
8a729477SBarry Smith
8a729477SBarry Smith
8a729477SBarry Smith
8a729477SBarry Smith/*@
8a729477SBarry Smith
*1eb62cbbSBarry Smith      MatCreateMPIAIJ - Creates a sparse parallel matrix
*1eb62cbbSBarry Smith                                 in AIJ format.
8a729477SBarry Smith
8a729477SBarry Smith  Input Parameters:
*1eb62cbbSBarry Smith.   comm - MPI communicator
*1eb62cbbSBarry Smith.   m,n - number of local rows and columns (or -1 to have calculated)
*1eb62cbbSBarry Smith.   M,N - global rows and columns (or -1 to have calculated)
*1eb62cbbSBarry Smith.   d_nz - total number nonzeros in diagonal portion of matrix
*1eb62cbbSBarry Smith.   d_nzz - number of nonzeros per row in diagonal portion of matrix or null
8a729477SBarry Smith.           You must leave room for the diagonal entry even if it is zero.
*1eb62cbbSBarry Smith.   o_nz - total number nonzeros in off-diagonal portion of matrix
*1eb62cbbSBarry Smith.   o_nzz - number of nonzeros per row in off-diagonal portion of matrix
*1eb62cbbSBarry Smith.           or null. You must have at least one nonzero per row.
8a729477SBarry Smith
8a729477SBarry Smith  Output parameters:
8a729477SBarry Smith.  newmat - the matrix
8a729477SBarry Smith
*1eb62cbbSBarry Smith  Keywords: matrix, aij, compressed row, sparse, parallel
8a729477SBarry Smith@*/
*1eb62cbbSBarry Smithint MatCreateMPIAIJ(MPI_Comm comm,int m,int n,int M,int N,
*1eb62cbbSBarry Smith                 int d_nz,int *d_nnz, int o_nz,int *o_nnz,Mat *newmat)
8a729477SBarry Smith{
8a729477SBarry Smith  Mat          mat;
*1eb62cbbSBarry Smith  Matimpiaij   *aij;
*1eb62cbbSBarry Smith  int          ierr, i,rl,len,sum[2],work[2];
8a729477SBarry Smith  *newmat         = 0;
8a729477SBarry Smith  CREATEHEADER(mat,_Mat);
*1eb62cbbSBarry Smith  mat->data       = (void *) (aij = NEW(Matimpiaij)); CHKPTR(aij);
8a729477SBarry Smith  mat->cookie     = MAT_COOKIE;
8a729477SBarry Smith  mat->ops        = &MatOps;
8a729477SBarry Smith  mat->destroy    = MatiAIJdestroy;
*1eb62cbbSBarry Smith  mat->view       = MatiView;
*1eb62cbbSBarry Smith  mat->type       = MATAIJMPI;
8a729477SBarry Smith  mat->factor     = 0;
8a729477SBarry Smith  mat->row        = 0;
8a729477SBarry Smith  mat->col        = 0;
*1eb62cbbSBarry Smith  aij->comm       = comm;
*1eb62cbbSBarry Smith  aij->insertmode = NotSetValues;
*1eb62cbbSBarry Smith  MPI_Comm_rank(comm,&aij->mytid);
*1eb62cbbSBarry Smith  MPI_Comm_size(comm,&aij->numtids);
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  if (M == -1 || N == -1) {
*1eb62cbbSBarry Smith    work[0] = m; work[1] = n;
*1eb62cbbSBarry Smith    MPI_Allreduce((void *) work,(void *) sum,1,MPI_INT,MPI_SUM,comm );
*1eb62cbbSBarry Smith    if (M == -1) M = sum[0];
*1eb62cbbSBarry Smith    if (N == -1) N = sum[1];
*1eb62cbbSBarry Smith  }
*1eb62cbbSBarry Smith  if (m == -1) {m = M/aij->numtids + ((M % aij->numtids) > aij->mytid);}
*1eb62cbbSBarry Smith  if (n == -1) {n = N/aij->numtids + ((N % aij->numtids) > aij->mytid);}
8a729477SBarry Smith  aij->m       = m;
8a729477SBarry Smith  aij->n       = n;
*1eb62cbbSBarry Smith  aij->N       = N;
*1eb62cbbSBarry Smith  aij->M       = M;
*1eb62cbbSBarry Smith
*1eb62cbbSBarry Smith  /* build local table of row and column ownerships */
*1eb62cbbSBarry Smith  aij->rowners = (int *) MALLOC(2*(aij->numtids+2)*sizeof(int));
*1eb62cbbSBarry Smith  CHKPTR(aij->rowners);
*1eb62cbbSBarry Smith  aij->cowners = aij->rowners + aij->numtids + 1;
*1eb62cbbSBarry Smith  MPI_Allgather(&m,1,MPI_INT,aij->rowners+1,1,MPI_INT,comm);
*1eb62cbbSBarry Smith  aij->rowners[0] = 0;
*1eb62cbbSBarry Smith  for ( i=2; i<=aij->numtids; i++ ) {
*1eb62cbbSBarry Smith    aij->rowners[i] += aij->rowners[i-1];
8a729477SBarry Smith  }
*1eb62cbbSBarry Smith  aij->rstart = aij->rowners[aij->mytid];
*1eb62cbbSBarry Smith  aij->rend   = aij->rowners[aij->mytid+1];
*1eb62cbbSBarry Smith  MPI_Allgather(&n,1,MPI_INT,aij->cowners+1,1,MPI_INT,comm);
*1eb62cbbSBarry Smith  aij->cowners[0] = 0;
*1eb62cbbSBarry Smith  for ( i=2; i<=aij->numtids; i++ ) {
*1eb62cbbSBarry Smith    aij->cowners[i] += aij->cowners[i-1];
8a729477SBarry Smith  }
*1eb62cbbSBarry Smith  aij->cstart = aij->cowners[aij->mytid];
*1eb62cbbSBarry Smith  aij->cend   = aij->cowners[aij->mytid+1];
8a729477SBarry Smith
8a729477SBarry Smith
*1eb62cbbSBarry Smith  ierr = MatCreateSequentialAIJ(m,n,d_nz,d_nnz,&aij->A); CHKERR(ierr);
*1eb62cbbSBarry Smith  ierr = MatCreateSequentialAIJ(m,N,o_nz,o_nnz,&aij->B); CHKERR(ierr);
8a729477SBarry Smith
*1eb62cbbSBarry Smith  /* build cache for off array entries formed */
*1eb62cbbSBarry Smith  aij->stash.nmax = CHUNCKSIZE; /* completely arbratray number */
*1eb62cbbSBarry Smith  aij->stash.n    = 0;
*1eb62cbbSBarry Smith  aij->stash.array = (Scalar *) MALLOC( aij->stash.nmax*(2*sizeof(int) +
*1eb62cbbSBarry Smith                            sizeof(Scalar))); CHKPTR(aij->stash.array);
*1eb62cbbSBarry Smith  aij->stash.idx = (int *) (aij->stash.array + aij->stash.nmax);
*1eb62cbbSBarry Smith  aij->stash.idy = (int *) (aij->stash.idx + aij->stash.nmax);
8a729477SBarry Smith
*1eb62cbbSBarry Smith  /* stuff used for matrix vector multiply */
*1eb62cbbSBarry Smith  aij->lvec      = 0;
*1eb62cbbSBarry Smith  aij->Mvctx     = 0;
8a729477SBarry Smith
8a729477SBarry Smith  *newmat = mat;
8a729477SBarry Smith  return 0;
8a729477SBarry Smith}