Cómo: Escribir un bucle parallel_for

En este ejemplo se muestra cómo utilizar concurrency::parallel_for para calcular el producto de dos matrices.


En el siguiente ejemplo se muestra la función matrix_multiply, que calcula el producto de dos matrices cuadradas.

// Computes the product of two square matrices.
void matrix_multiply(double** m1, double** m2, double** result, size_t size)
   for (size_t i = 0; i < size; i++) 
      for (size_t j = 0; j < size; j++)
         double temp = 0;
         for (int k = 0; k < size; k++)
            temp += m1[i][k] * m2[k][j];
         result[i][j] = temp;

En el siguiente ejemplo se muestra la función parallel_matrix_multiply, que utiliza el algoritmo parallel_for para realizar el bucle exterior en paralelo.

// Computes the product of two square matrices in parallel.
void parallel_matrix_multiply(double** m1, double** m2, double** result, size_t size)
   parallel_for (size_t(0), size, [&](size_t i)
      for (size_t j = 0; j < size; j++)
         double temp = 0;
         for (int k = 0; k < size; k++)
            temp += m1[i][k] * m2[k][j];
         result[i][j] = temp;

En este ejemplo solo se paraleliza el bucle exterior porque hace bastante trabajo para beneficiarse de la sobrecarga para el procesamiento paralelo.Si paraleliza el bucle interno, no se tendrá un aumento de rendimiento porque la cantidad de trabajo pequeña que el bucle interno realiza no supera la sobrecarga para el procesamiento paralelo.Por consiguiente, paralelizar el bucle exterior solo es la mejor manera de maximizar las ventajas de simultaneidad en la mayoría de los sistemas.

El siguiente ejemplo completo compara el rendimiento de la función matrix_multiply frente a la función parallel_matrix_multiply.

// parallel-matrix-multiply.cpp
// compile with: /EHsc
#include <windows.h>
#include <ppl.h>
#include <iostream>
#include <random>

using namespace concurrency;
using namespace std;

// Calls the provided work function and returns the number of milliseconds 
// that it takes to call that function.
template <class Function>
__int64 time_call(Function&& f)
   __int64 begin = GetTickCount();
   return GetTickCount() - begin;

// Creates a square matrix with the given number of rows and columns.
double** create_matrix(size_t size);

// Frees the memory that was allocated for the given square matrix.
void destroy_matrix(double** m, size_t size);

// Initializes the given square matrix with values that are generated
// by the given generator function.
template <class Generator>
double** initialize_matrix(double** m, size_t size, Generator& gen);

// Computes the product of two square matrices.
void matrix_multiply(double** m1, double** m2, double** result, size_t size)
   for (size_t i = 0; i < size; i++) 
      for (size_t j = 0; j < size; j++)
         double temp = 0;
         for (int k = 0; k < size; k++)
            temp += m1[i][k] * m2[k][j];
         result[i][j] = temp;

// Computes the product of two square matrices in parallel.
void parallel_matrix_multiply(double** m1, double** m2, double** result, size_t size)
   parallel_for (size_t(0), size, [&](size_t i)
      for (size_t j = 0; j < size; j++)
         double temp = 0;
         for (int k = 0; k < size; k++)
            temp += m1[i][k] * m2[k][j];
         result[i][j] = temp;

int wmain()
   // The number of rows and columns in each matrix.
   // TODO: Change this value to experiment with serial 
   // versus parallel performance. 
   const size_t size = 750;

   // Create a random number generator.
   mt19937 gen(42);

   // Create and initialize the input matrices and the matrix that
   // holds the result.
   double** m1 = initialize_matrix(create_matrix(size), size, gen);
   double** m2 = initialize_matrix(create_matrix(size), size, gen);
   double** result = create_matrix(size);

   // Print to the console the time it takes to multiply the 
   // matrices serially.
   wcout << L"serial: " << time_call([&] {
      matrix_multiply(m1, m2, result, size);
   }) << endl;

   // Print to the console the time it takes to multiply the 
   // matrices in parallel.
   wcout << L"parallel: " << time_call([&] {
      parallel_matrix_multiply(m1, m2, result, size);
   }) << endl;

   // Free the memory that was allocated for the matrices.
   destroy_matrix(m1, size);
   destroy_matrix(m2, size);
   destroy_matrix(result, size);

// Creates a square matrix with the given number of rows and columns.
double** create_matrix(size_t size)
   double** m = new double*[size];
   for (size_t i = 0; i < size; ++i)
      m[i] = new double[size];
   return m;

// Frees the memory that was allocated for the given square matrix.
void destroy_matrix(double** m, size_t size)
   for (size_t i = 0; i < size; ++i)
      delete[] m[i];
   delete m;

// Initializes the given square matrix with values that are generated
// by the given generator function.
template <class Generator>
double** initialize_matrix(double** m, size_t size, Generator& gen)
   for (size_t i = 0; i < size; ++i)
      for (size_t j = 0; j < size; ++j)
         m[i][j] = static_cast<double>(gen());
   return m;

La siguiente salida de ejemplo corresponde a un equipo con cuatro procesadores.

serial: 3853
parallel: 1311

Compilar el código

Para compilar el código, copiarlo y, a continuación, péguelo en un proyecto de Visual Studio o lo pega en un archivo denominado paralelo-matriz-multiply.cpp y, a continuación, ejecute el siguiente comando en una ventana de símbolo del sistema de Visual Studio.

cl.exe /EHsc parallel-matrix-multiply.cpp

