Boa Tarde pessoal,
Estou configurando um cluster onde desejo que as duas maquina processem em pararelo, e estou tendo algumas dificuldades.
vou detalhar minha estrutura para facilitar o entendimento:
Tenho duas maquinas:
Maquina 01 host: mestre
Maquina 02 host: escravo
Não sei se estou startando o serviço da forma correta, estou fazendo da seguinte forma:
Na Maquina mestre executo
[cluster@mestre ~]$ mpdboot -r rsh -n 2
[cluster@mestre ~]$ mpdtrace -l
mestre_59813 (192.168.0.200)
escravo_42494 (192.168.0.201)
Quando executo um teste mpiexec apartir da maquina mestre ele me retorna esse erro:
[cluster@mestre ~]$ mpiexec -n 2 /usr/local/mpich2-1.2/examples/cpi
rank 1 in job 1 mestre_59813 caused collective abort of all ranks
exit status of rank 1: killed by signal 9
Na maquina escravo tem um processo rodando que veio do host mestre
[cluster@escravo ~]$ ps -xaf |grep mpd
2165 ? S 0:00 python2.4 /usr/local/bin/mpd.py -h mestre -p 59813 --ncpus=1 -e -d
Quando executo na maquina escravo o comando:
[cluster@escravo ~]$ mpdboot
o processso é modificado para:
[cluster@escravo ~]$ ps -xaf |grep mpd
2177 ? S 0:00 python2.4 /usr/local/bin/mpd.py --ncpus=1 -e -d
voltando na maquina mestre para executa o teste novamente a menssagem de erro modifica:
[cluster@mestre ~]$ mpiexec -n 2 /usr/local/mpich2-1.2/examples/cpi
rank 1 in job 1 mestre_59813 caused collective abort of all ranks
exit status of rank 1: killed by signal 9
[cluster@mestre ~]$ mpiexec -n 2 /usr/local/mpich2-1.2/examples/cpi
mpiexec_mestre: cannot connect to local mpd (/tmp/mpd2.console_cluster); possible causes:
1. no mpd is running on this host
2. an mpd is running but was started without a "console" (-n option)
In case 1, you can start an mpd on this host with:
mpd &
and you will be able to run jobs just on this host.
For more details on starting mpds on a set of hosts, see
the MPICH2 Installation Guide.
Se executo o mpd & ele roda so local.
[cluster@mestre ~]$ mpd &
[1] 2414
[cluster@mestre ~]$ mpiexec -n 2 /usr/local/mpich2-1.2/examples/cpi
Process 0 of 2 is on mestre
Process 1 of 2 is on mestre
pi is approximately 3.1415926544231318, Error is 0.0000000008333387
wall clock time = 0.001224
A menssagem de erro solicita que execute o mpd utilizando o parametro -n , mas não encontrei nada na net explicando a forma correta de executa-lo.
Dei uma olhada no guia de instalação do MPICH e não consegui.
Se alguem poder me ajudar ficarei muitissimo agradeço.
Abraços
WASLEY