next up previous contents
Next: 3.3 Resumen Up: 3.2.12 Instalación y configuración Previous: 3.2.12.1 Configuración   Índice General

3.2.12.2 Comprobación de funcionamiento

MPICH provee un script llamado tstmachines que verifica el funcionamiento correcto de todos los nodos descritos en el archivo machines.LINUX. Este script realiza pruebas completas de ejecución remota con rsh en todos los nodos, además de compilar y ejecutar un programa de prueba para verificar que todos los ejecutables estén accesibles. La prueba se debe realizar como un usuario normal, y ya que el script requiere permisos de escritura en el directorio actual, es conveniente cambiar al directorio /tmp antes de su ejecución. Los pasos necesarios para cambiar de directorio y realizar la prueba son como sigue:

$ cd /tmp
$ /usr/share/mpi/sbin/tstmachines -v

Nótese el parámetro -v que indica al script informar sobre los pasos que va realizando. De otra manera, se espera que, si no hay problemas, no se reciba ningún mensaje.

El script realiza su prueba nodo por nodo, y para los nodos donde el funcionamiento es correcto se tiene el siguiente despliegue:

Trying true on tornado68 ...
Trying ls on tornado68 ...
Trying user program on tornado68 ...

Si ocurre algún problema, el mensaje de diagnóstico indicará detalles sobre el mismo, así como posibles soluciones. Como un ejemplo, un nodo que no permita la ejecución por rsh presentará el siguiente diagnóstico:

Trying true on tornado75 ...
Errors while trying to run true
Unexpected response from tornado75:
--> Permission denied.
If your .cshrc, login, .bashrc, or other startup file
contains a command that generates any output when
logging in, such as fortune or hostname or even echo,
you should modify that startup file to only print such
a message when the process is attached to a terminal.
Examples of how to do this are in the Users Manual.  If
you do not do this, MPICH will still work, but this
script and the test programs will report problems
because they compare expected output from what the
programs produce.

    The test of rsh <machine> true failed on some
    machines.  This may be due to problems in your
    .login or .cshrc files; some common problems are
    described when detected.  Look at the output above
    to see what the problem is.

    If the problem is something like 'permission
    denied', then the remote shell command rsh does not
    allow you to run programs.  See the documentation
    about remote shell and rhosts. 

1 errors were encountered while testing the machines
list for LINUX
Como se aprecia, el diagnóstico es bastante completo, y al final se presenta un resumen de la cantidad de nodos con error que se detectó. Al igual que con PVM, quizá los problemas más comunes son fallas en la configuración de rsh y de la ruta de búsqueda. Revisando que esta configuración se haya realizado correctamente en cada nodo que reporte error, se deben poder resolver los problemas rápidamente.

Una vez que todos los nodos se encuentran adecuadamente configurados, el script de prueba no reporta ningún error y el cluster queda listo para la ejecución de programas con MPI.


next up previous contents
Next: 3.3 Resumen Up: 3.2.12 Instalación y configuración Previous: 3.2.12.1 Configuración   Índice General
2002-05-15