+ Responder ao Tópico



  1. #1

    Unhappy Processamento paralelo MPICH2

    Boa Tarde pessoal,

    Estou configurando um cluster onde desejo que as duas maquina processem em pararelo, e estou tendo algumas dificuldades.

    vou detalhar minha estrutura para facilitar o entendimento:

    Tenho duas maquinas:

    Maquina 01 host: mestre
    Maquina 02 host: escravo

    Não sei se estou startando o serviço da forma correta, estou fazendo da seguinte forma:

    Na Maquina mestre executo

    [cluster@mestre ~]$ mpdboot -r rsh -n 2
    [cluster@mestre ~]$ mpdtrace -l
    mestre_59813 (192.168.0.200)
    escravo_42494 (192.168.0.201)

    Quando executo um teste mpiexec apartir da maquina mestre ele me retorna esse erro:
    [cluster@mestre ~]$ mpiexec -n 2 /usr/local/mpich2-1.2/examples/cpi
    rank 1 in job 1 mestre_59813 caused collective abort of all ranks
    exit status of rank 1: killed by signal 9

    Na maquina escravo tem um processo rodando que veio do host mestre
    [cluster@escravo ~]$ ps -xaf |grep mpd
    2165 ? S 0:00 python2.4 /usr/local/bin/mpd.py -h mestre -p 59813 --ncpus=1 -e -d

    Quando executo na maquina escravo o comando:
    [cluster@escravo ~]$ mpdboot

    o processso é modificado para:
    [cluster@escravo ~]$ ps -xaf |grep mpd
    2177 ? S 0:00 python2.4 /usr/local/bin/mpd.py --ncpus=1 -e -d

    voltando na maquina mestre para executa o teste novamente a menssagem de erro modifica:
    [cluster@mestre ~]$ mpiexec -n 2 /usr/local/mpich2-1.2/examples/cpi
    rank 1 in job 1 mestre_59813 caused collective abort of all ranks
    exit status of rank 1: killed by signal 9
    [cluster@mestre ~]$ mpiexec -n 2 /usr/local/mpich2-1.2/examples/cpi
    mpiexec_mestre: cannot connect to local mpd (/tmp/mpd2.console_cluster); possible causes:
    1. no mpd is running on this host
    2. an mpd is running but was started without a "console" (-n option)
    In case 1, you can start an mpd on this host with:
    mpd &
    and you will be able to run jobs just on this host.
    For more details on starting mpds on a set of hosts, see
    the MPICH2 Installation Guide.

    Se executo o mpd & ele roda so local.
    [cluster@mestre ~]$ mpd &
    [1] 2414

    [cluster@mestre ~]$ mpiexec -n 2 /usr/local/mpich2-1.2/examples/cpi
    Process 0 of 2 is on mestre
    Process 1 of 2 is on mestre
    pi is approximately 3.1415926544231318, Error is 0.0000000008333387
    wall clock time = 0.001224

    A menssagem de erro solicita que execute o mpd utilizando o parametro -n , mas não encontrei nada na net explicando a forma correta de executa-lo.

    Dei uma olhada no guia de instalação do MPICH e não consegui.

    Se alguem poder me ajudar ficarei muitissimo agradeço.

    Abraços
    WASLEY

  2. #2

    Padrão

    Use o MVAPICH2 e não use o mpiexec.

    []'s