4.3.4 Discusión de resultados

Next: 4.4 Uso del cluster Up: 4.3 Benchmark HPL Previous: 4.3.3.2 Ejecución Índice General

4.3.4 Discusión de resultados

El archivo de configuración HPL permite especificar distintos parámetros para el cálculo, el más importante de los cuales es el arreglo de procesos. El manual de HPL [20] indica que, para arreglos de comunicaciones punto a punto, lo cual incluye redes que emplean switches para segmentar el tráfico, el mejor tipo de arreglo es lo más cuadrado posible (como un ejemplo, distribuir 16 nodos en un arreglo de $4 \times 4$ ), mientras que en un esquema de comunicaciones por bus, como el que se utiliza en este caso, se prefiere un arreglo plano (un arreglo de $8 \times 2$ se considera más ``plano''). Por ello es que se especificaron estas dos combinaciones al utilizar 16 nodos. En el caso de 17 nodos, se tiene únicamente una posibilidad de organización, el arreglo de $1 \times 17$ .

Para cada tamaño de problema se tienen, entonces, 4 juegos de resultados, indicando tiempo de resolución y desempeño en GFLOPS.

Para la matriz de coeficientes de $650\times 650$ , se aprecia que el mejor tiempo y mejor desempeño se obtienen con un solo procesador. Esto sugiere, nuevamente, que la complejidad de la realización del cálculo a este tamaño de problema niega la ventaja de utilizar más nodos. El mejor desempeño para este tamaño de problema es de 36.98 MFLOPS. Nótese que, entre las soluciones que emplearon 16 y 17 nodos, la más rápida fue la que utiliza una matriz de procesos de $8 \times 2$ , siendo incluso más rápida que emplear 17 nodos. Esto permite ver que la correcta organización de la matriz de procesos es importante para tener un mejor desempeño, y da la idea de que, para esta configuración particular, la matriz de $8 \times 2$ es la que dará mejor rendimiento.

Con una matriz de coeficientes de $1000\times1000$ , la situación cambia radicalmente. En este caso la solución con un procesador es la más lenta y la que reporta menor rendimiento, y el mejor resultado se obtiene con 16 nodos en matriz de $8 \times 2$ , alcanzando para este problema un rendimiento de 14.84 MFLOPS. Este rendimiento es casi 3 veces superior al alcanzado con un solo procesador, que es de 5.23 MFLOPS.

Cabe mencionar nuevamente que utilizando 17 nodos, debido a la organización menos eficiente de la matriz de procesos, el rendimiento fue menor, únicamente de 9.12 MFLOPS.

En este momento resulta de interés comentar que, comparando el desempeño de la computadora más rápida del mundo, a 7226 GFLOPS, contra el mejor resultado obtenido por el cluster, de 14.84 MFLOPS, resulta que el cluster es 486927 veces más lento que la computadora ASCI White. Esta comparación se realizó utilizando el tamaño de matriz de $1000\times1000$ , que es el utilizado en http://www.top500.org para comparar el desempeño de las supercomputadoras más rápidas.

Si bien la diferencia de desempeño es casi cómica, es también de interés el hecho de que efectivamente la solución se obtiene más rápidamente usando todo el cluster que utilizando sólo un nodo. Esto sugiere, nuevamente, que el uso del cluster proporciona un rendimiento mejor para problemas relativamente grandes.

Next: 4.4 Uso del cluster Up: 4.3 Benchmark HPL Previous: 4.3.3.2 Ejecución Índice General

2002-05-15