はじめに
1ヶ月前のこの投稿で、姫野ベンチマークによるOpenMPIの性能を測定した。その記事を見た先輩からhostfileの順番について改善点を指摘していただいた。この投稿では、hostfileを修正して再度性能測定した結果をまとめた。
変更点
hostfileの記述順序でプロセスが割り当てられるので、性能の良いノード順にしたほうが良い、との指摘を受け、次のようにhostfileを記載した。
# cat myhosts
saisei slots=4
jupiter slots=4
mokusei slots=8
ganymede slots=6
europe slots=4
測定結果
起動プロセス数とslot無し/有りのMFLOPS値は以下の通りの結果であった。
np | MFLOPS(slot指定なし) | MFLOPS(slot指定あり) |
---|---|---|
2 | 9,141 | 9,098 |
4 | 11,258 | 11,262 |
8 | 20,468 | 20,354 |
16 | 34,813 | 34,751 |
32 | 20,994 | 13,336 |
64 | 9,006 | 9,002 |
上記の測定結果をグラフにすると次のとおり。
前回の測定結果(slot指定有の場合)を対比したグラフは次のとおり。 ここで、前回の測定結果をhostfileの順番のホスト名(europe/jupiter/ganymede/saisei/mokusei)の頭の文字をつなげてejgsmとし、今回の測定結果を同様にsjmgeとする。
トラブル
今回測定しようとして、次のようメッセージが表示された。
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!
Someone could be eavesdropping on you right now (man-in-the-middle attack)!
It is also possible that a host key has just been changed.
The fingerprint for the ED25519 key sent by the remote host is
SHA256:lrDSjoBAl2Eu4nm3LqaR/tdFVYuYh/v16Q+OwWN3Icg.
Please contact your system administrator.
Add correct host key in /root/.ssh/known_hosts to get rid of this message.
Offending ECDSA key in /root/.ssh/known_hosts:3
remove with:
ssh-keygen -f "/root/.ssh/known_hosts" -R "[jupiter]:12345"
Password authentication is disabled to avoid man-in-the-middle attacks.
Keyboard-interactive authentication is disabled to avoid man-in-the-middle attacks.
UpdateHostkeys is disabled because the host key is not trusted.
・・・
再度、ssh-keygenで公開鍵、秘密鍵を再作成する必要があるかと思いながら、ネットで検索すると、known_hostsで該当ホストのエントリーを削除すれば良いとあった。自分は、known_hostsをファイルごと削除した。それにより解決した。
まとめ
グラフからは、ピーク時(16プロセス時)の性能の向上が見られる。ただ20%未満の差異なので測定誤差(バラツキ)とも考えたが、np=16以外の部分は数%程度の差異なので、ピーク時には効果があったと判断している。