并行矩阵乘法（C++ mpi 并行实现）-蒲公英云

矩阵乘法有2种思路，我最先想到的是第一种思路，但是时间、空间复杂度都比较高。后面参考了一些资料，实现了第二种思路。

一、思路1：按行、列分块

矩阵乘法有一个很好的性质，就是结果矩阵的每个元素是不互相依赖的，因此我们可以很好地实现并行。

假如想要计算的矩阵如下：

在这里插入图片描述

如果有8个进程，0号进程用于数据分发，其它进程用于计算，具体的分块如下图所示：

在这里插入图片描述

但是这种思路实现后会报错 Out of memory，具体原因后面分析。

在这里插入图片描述

思路1因为只传递了单行的数组，而二维vector单行数组是连续的，因此这里直接用二维vector表示矩阵就可以，代码如下：

#include <stdio.h>
#include <mpi.h>
#include<iostream>
#include<vector>
#include <cstdlib>
using namespace std;
int main(int argc, char* argv[])
{
    int myrank, processNum; // myrank: 进程号; processNum: 进程总数
    char processor_name[MPI_MAX_PROCESSOR_NAME];
    int namelen;
    MPI_Init(&argc, &argv);
    MPI_Comm_rank(MPI_COMM_WORLD, &myrank);
    MPI_Comm_size(MPI_COMM_WORLD, &processNum);
    MPI_Get_processor_name(processor_name, &namelen); // 获取处理器名称
    double startTime, endTime; // 开始时间和结束时间
    // 如果是 0 号进程，随机初始化矩阵数据
    int row = 3000, middleColumn = 200, column = 300; // 矩阵 A 的行数、矩阵 A 的列数和 B 的行数、矩阵 B 的行数
    if (myrank == 0) {
     // 地主进程
        vector<vector<int>> A(row, vector<int>(middleColumn));
        vector<vector<int>> B(middleColumn, vector<int>(column));
        // 随机初始化矩阵 A 和 B
        for (int i = 0; i < row; i++) {
            for (int j = 0; j < middleColumn; j++) {
                A[i][j] = rand() % 10;
            }
        }
        for (int i = 0; i < middleColumn; i++) {
            for (int j = 0; j < column; j++) {
                B[i][j] = rand() % 10;
            }
        }
        // 打印矩阵 A 和 B
  //      cout << "A:" << endl;
  //      for (int i = 0; i < row; i++) {
        //    cout << "    ";
  //          for (int j = 0; j < middleColumn; j++) {
        //        cout << A[i][j] << " ";
        //    }
        //    cout << endl;
        //}
  //      cout << "B:" << endl;
  //      for (int i = 0; i < middleColumn; i++) {
  //          cout << "    ";
  //          for (int j = 0; j < column; j++) {
        //        cout << B[i][j] << " ";
        //    }
  //          cout << endl;
  //      }
        startTime = MPI_Wtime(); // 开始计时
        int farmersProcessNum = processNum - 1; // 农民进程数
        // 分发矩阵 A 和 B
        for (int i = 0; i < row; i++) {
            for (int j = 0; j < column; j++) {
                int destProcess = (i * row + j) % farmersProcessNum + 1; // 目标进程号
                MPI_Send(A[i].data(), middleColumn, MPI_INT, destProcess, 0, MPI_COMM_WORLD);
                vector<int> BColumn(middleColumn);
                for (int k = 0; k < middleColumn; k++) {
                    BColumn[k] = B[k][j];
                }
                MPI_Send(BColumn.data(), middleColumn, MPI_INT, destProcess, 0, MPI_COMM_WORLD);
            }
        }
    }
    else {
     // 农民进程 (进程号 > 0 的进程)
        int count = (row * column) / (processNum - 1);      // 每个进程计算的数量
        int remainder = (row * column) % (processNum - 1);  // 均分后多出来的待计算数
        if (myrank <= remainder) {
            count++;
        }
        for (int i = 0; i < count; i++) {
            // 接收矩阵 ARow 和 BColumn
            vector<int> ARow(middleColumn);
            vector<int> BColumn(middleColumn);
            MPI_Recv(ARow.data(), middleColumn, MPI_INT, 0, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
            MPI_Recv(BColumn.data(), middleColumn, MPI_INT, 0, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
            // 计算矩阵乘法
            int result = 0;
            for (int j = 0; j < middleColumn; j++) {
                result += ARow[j] * BColumn[j];
            }
            // 发送计算结果
            MPI_Send(&result, 1, MPI_INT, 0, 0, MPI_COMM_WORLD);
        }
    }
    // 收集计算结果
    if (myrank == 0) {
        vector<vector<int>> C(row, vector<int>(column));
        for (int i = 0; i < row; i++) {
            for (int j = 0; j < column; j++) {
                // 计算农民进程的数量
                int farmersProcessNum = processNum - 1;
                // 计算接收的进程号
                int sourceProcess = (i * row + j) % farmersProcessNum + 1;
                MPI_Recv(&C[i][j], 1, MPI_INT, sourceProcess, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
            }
        }
        endTime = MPI_Wtime(); // 结束计时
        // 打印矩阵 C
        //cout << "C:" << endl;
        //for (int i = 0; i < row; i++) {
        //    cout << "    ";
        //    for (int j = 0; j < column; j++) {
        //        cout << C[i][j] << " ";
        //    }
        //    cout << endl;
        //}
        // 打印计算时间
        cout << "Time: " << endTime - startTime << "s" << endl;
    }
    MPI_Finalize();
    return 0;
}

二、思路2：矩阵分块乘法

如果我们想要计算的矩阵如下：

在这里插入图片描述

同时，如果我们采用4个进程来计算这个矩阵乘法，0号进程用于数据分发，其它进程用于计算，如图：

在这里插入图片描述

1维数组表示2维数组

思路2的算法实现，由于我们进行MPI_Send发送数组的时候，必须提供一个连续地址的数组的首地址，而思路2不同于思路1只发送1行数据，它是要发送多行的。

这就要求我们不可以使用二维数组来实现，因为二维数组不同行的首尾地址并不是连续的。具体见这篇文章：https://blog.csdn.net/weixin_44560698/article/details/120566680.

所以，这里我们使用1维数组，表示2维数组，代码如下：

#include<iostream>
#include<vector>
#include<mpi.h>
using namespace std;
// 输入：两个一维vector，表示矩阵，输出矩阵的row，middleColumn，column
// 输出：一维vector，表示两个输入vector的乘积
vector<int> matrixMultiplication(vector<int> A, vector<int> B, int row, int middleColumn, int column) {
    vector<int> res(row * column);
    for (int i = 0; i < row; i++) {
        for (int j = 0; j < column; j++) {
            int tmp = 0;
            for (int k = 0; k < middleColumn; k++) {
                // A[i][k] * B[k][j]
                tmp += A[i * middleColumn + k] * B[k * column + j];
            }
            // res[i][j] = tmp
            res[i * column + j] = tmp;
        }
    }
    return res;
}
int main(int argc, char* argv[])
{
    int myrank, processNum;
    char processor_name[MPI_MAX_PROCESSOR_NAME];
    int namelen;
    MPI_Init(&argc, &argv);
    MPI_Comm_rank(MPI_COMM_WORLD, &myrank);
    MPI_Comm_size(MPI_COMM_WORLD, &processNum);
    MPI_Get_processor_name(processor_name, &namelen);
    // 如果是 0 号进程，随机初始化矩阵数据
    int row = 3000, middleColumn = 2000, column = 3000;
    int farmerProcessNum = processNum - 1; // farmer 进程的数量
    int chunkSize = row / farmerProcessNum; // 每个 farmer 进程处理的行数
    int chunkSizeRemainder = row % farmerProcessNum; // 均分后的余数
    double startTime, endTime; // 记录开始和结束时间
    if (myrank == 0) {
     // 地主进程
        vector<int> A(row * middleColumn);
        vector<int> B(middleColumn * column);
        // 随机初始化矩阵 A 和 B
        for (int i = 0; i < row * middleColumn; i++) {
            A[i] = rand() % 10;
        }
        for (int i = 0; i < middleColumn * column; i++) {
            B[i] = rand() % 10;
        }
        // 打印矩阵 A 和 B
        //cout << "A:" << endl;
        //for (int i = 0; i < row; i++) {
        //    cout << "    ";
        //    for (int j = 0; j < middleColumn; j++) {
        //        cout << A[i * middleColumn + j] << " ";
        //    }
        //    cout << endl;
        //}
        //cout << "B:" << endl;
        //for (int i = 0; i < middleColumn; i++) {
        //    cout << "    ";
        //    for (int j = 0; j < column; j++) {
        //        cout << B[i * column + j] << " ";
        //    }
        //    cout << endl;
        //}
        // 记录程序开始时间
        startTime = MPI_Wtime();
        int startRow = 0, endRow = 0; // 每个 farmer 进程处理的起始行和结束行
        // 将矩阵 A 和 B 分发给其他进程
        for (int i = 1; i < processNum; i++) {
            // 计算下一个进程处理的结束行
            endRow = startRow + chunkSize - 1;
            if (i <= chunkSizeRemainder) {
                endRow++;
            }
            int tmpRow = endRow - startRow + 1;
            // 将矩阵 A 部分的数据分发给其他进程
            MPI_Send(A.data() + startRow * middleColumn, tmpRow * middleColumn, MPI_INT, i, 0, MPI_COMM_WORLD);
            // 将矩阵 B 所有的数据分发给其他进程
            MPI_Send(B.data(), middleColumn * column, MPI_INT, i, 0, MPI_COMM_WORLD);
            // 更新下一个进程处理的起始行
            startRow = endRow + 1;
        }
    }
    else {
     // 农民进程 (进程号 >= 1)
        // 计算行数
        int tmpRow = chunkSize;
        if (myrank <= chunkSizeRemainder) {
            tmpRow++;
        }
        // 计算列数
        int tmpColumn = column;
        // 计算中间列数
        int tmpMiddleColumn = middleColumn;
        // 接收矩阵 A 的数据
        vector<int> A(tmpRow * tmpMiddleColumn);
        MPI_Recv(A.data(), tmpRow * tmpMiddleColumn, MPI_INT, 0, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
        // 接收矩阵 B 的数据
        vector<int> B(tmpMiddleColumn * tmpColumn);
        MPI_Recv(B.data(), tmpMiddleColumn * tmpColumn, MPI_INT, 0, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
        // 计算矩阵乘法
        vector<int> res = matrixMultiplication(A, B, tmpRow, tmpMiddleColumn, tmpColumn);
        // 将计算结果返回给 0 号进程
        MPI_Send(res.data(), tmpRow * tmpColumn, MPI_INT, 0, 0, MPI_COMM_WORLD);
    }
    // 0 号进程接收其他进程的计算结果
    if (myrank == 0) {
        vector<int> res(row * column);
        int startRow = 0, endRow = 0; // 每个 farmer 进程处理的起始行和结束行
        for (int i = 1; i < processNum; i++) {
            // 计算下一个进程处理的结束行
            endRow = startRow + chunkSize - 1;
            if (i <= chunkSizeRemainder) {
                endRow++;
            }
            int tmpRow = endRow - startRow + 1;
            // 将矩阵 A 部分的数据分发给其他进程
            MPI_Recv(res.data() + startRow * column, tmpRow * column, MPI_INT, i, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
            // 更新下一个进程处理的起始行
            startRow = endRow + 1;
        }
        // 记录程序结束时间
        endTime = MPI_Wtime();
        // 打印计算结果
        //cout << "res:" << endl;
        //for (int i = 0; i < row; i++) {
        //    cout << "    ";
        //    for (int j = 0; j < column; j++) {
        //        cout << res[i * column + j] << " ";
        //    }
        //    cout << endl;
        //}
        // 打印计算时间
        cout << "Time: " << endTime - startTime << "s" << endl;
    }
    MPI_Finalize();
    return 0;
}

三、算法性能对比

1. 时间复杂度

思路一 300 × 200 300\times 200 300×200 和 200 × 300 200 \times 300 200×300 相乘所耗费的时间为8.83s。

在这里插入图片描述

相同规模的矩阵相乘，思路2的时间是0.07s。

在这里插入图片描述

可以看到差距还是很大的。

我们再来看一下串行程序的运行时间：

在这里插入图片描述
串行程序的运行时间是0.321s，看来如果我们采用思路一的并行方法就真有点得不偿失了。

这里给出我写的串行代码：

#include<iostream>
#include<vector>
using namespace std;
// 输入：两个一维vector，表示矩阵，输出矩阵的row，middleColumn，column
// 输出：一维vector，表示两个输入vector的乘积
vector<int> matrixMultiplication(vector<int> A, vector<int> B, int row, int middleColumn, int column) {
    vector<int> res(row * column);
    for (int i = 0; i < row; i++) {
        for (int j = 0; j < column; j++) {
            int tmp = 0;
            for (int k = 0; k < middleColumn; k++) {
                // A[i][k] * B[k][j]
                tmp += A[i * middleColumn + k] * B[k * column + j];
            }
            // res[i][j] = tmp
            res[i * column + j] = tmp;
        }
    }
    return res;
}
int main() {
    // 矩阵 A 的行数、矩阵 A 的列数和 B 的行数、矩阵 B 的行数
    int row = 300, middleColumn = 200, column = 300;
    vector<int> A(row * middleColumn);
    vector<int> B(middleColumn * column);
    // 随机初始化矩阵 A 和 B
    for (int i = 0; i < row * middleColumn; i++) {
        A[i] = rand() % 10;
    }
    for (int i = 0; i < middleColumn * column; i++) {
        B[i] = rand() % 10;
    }
    // 记录开始和结束时间
    double startTime, endTime;
    startTime = clock();
    vector<int> res = matrixMultiplication(A, B, row, middleColumn, column);
    endTime = clock();
    cout << "Time: " << (endTime - startTime) / CLOCKS_PER_SEC << "s" << endl;
    // 输出 res
    //for (int i = 0; i < row; i++) {
    //    for (int j = 0; j < column; j++) {
    //        cout << res[i * column + j] << " ";
    //    }
    //    cout << endl;
    //}
    //cout << endl;
}

我们将矩阵的大小扩大10倍，再来看：

思路1运行时间：

在这里插入图片描述

可以看到思路1直接out of memory了，其实是在意料之中的，具体原因可以看文章最后一部分 四、复杂度分析 。

思路2运行时间：

在这里插入图片描述

串行运行时间：

在这里插入图片描述

2. 空间复杂度

四、复杂度分析

首先，我们设：

r o w : 矩阵 A 行数 row:矩阵A行数 row:矩阵A行数

m i d d l e C o l u m n : 矩阵 A 列数和矩阵 B 行数 middleColumn:矩阵A列数和矩阵B行数 middleColumn:矩阵A列数和矩阵B行数

c o l u m n : 矩阵 B 列数 column:矩阵B列数 column:矩阵B列数

f a r m e r P r o c e s s N u m : 农民进程数 farmerProcessNum:农民进程数 farmerProcessNum:农民进程数

由于mpi主要是在并行程序之间进行通信。

对于思路1，是每次计算结果矩阵的一个元素，因此，它的总发送的数据量如下：

r o w × c o l u m n × m i d d l e C o l u m n 2 ( i n t ) row\times column \times middleColumn^2\quad (int) row×column×middleColumn2(int)

对于思路2，总发送的是A矩阵的所有+B矩阵的全部乘以进程数(因为每次都要发送B矩阵)，如下：

r o w × m i d d l e C o l u m n + f a r m e r P r o c e s s N u m × m i d d l e C o l u m n × c o l u m n row\times middleColumn+farmerProcessNum\times middleColumn\times column row×middleColumn+farmerProcessNum×middleColumn×column

我们带入 r o w = 3000 , m i d d l e C o l u m n = 2000 , c o l u m n = 3000 row=3000,middleColumn=2000,column=3000 row=3000,middleColumn=2000,column=3000来计算一下上述思路1需要传输的内存：
r o w × c o l u m n × m i d d l e C o l u m n 2 ( i n t ) = 3000 × 3000 × 2000 × 2000 ( i n t ) = 36 0000 0000 0000 ( i n t ) = 4 × 36 0000 0000 0000 ( B y t e ) ≈ 131 ( T B ) \begin{aligned} &row\times column \times middleColumn^2\quad (int) \\ =&3000\times 3000 \times 2000\times 2000\quad (int) \\ =&36\quad 0000\quad 0000\quad 0000\quad (int) \\ =&4\times 36 \quad 0000\quad 0000\quad 0000\quad (Byte)\\ \approx&131 \quad (TB) \end{aligned} ===≈row×column×middleColumn2(int)3000×3000×2000×2000(int)36000000000000(int)4×36000000000000(Byte)131(TB)

具体转化结果如下：
在这里插入图片描述

传输的数据不管是传给哪个进程都是要放在内存里的，因此这种方式的空间数量级根本不可取= =。

再来看下思路2：

r o w × m i d d l e C o l u m n + f a r m e r P r o c e s s N u m × m i d d l e C o l u m n × c o l u m n ( i n t ) = 3000 × 2000 + 7 × 2000 × 3000 ( i n t ) = 4800 0000 ( i n t ) = 19200 0000 ( B y t e ) \begin{aligned} &row\times middleColumn+farmerProcessNum\times middleColumn\times column \quad (int) \\ =&3000\times 2000+7 \times 2000 \times 3000 \quad (int) \\ =&4800\quad 0000 \quad (int) \\ =&19200 \quad 0000 \quad (Byte) \end{aligned} ===row×middleColumn+farmerProcessNum×middleColumn×column(int)3000×2000+7×2000×3000(int)48000000(int)192000000(Byte)

在这里插入图片描述