モチベーション
以前このポストで述べたように、Athena++をマルチノードで動かすことをゴールに進めている。その前段階として、OpenMPIを設定したDockerコンテナを複数ノードで実行させることを試みた。自分としては、少し苦労した点もあり、他の方にも参考になるかもしれないので、今回実施したことをまとめ投稿する。
[続きを読む]自分の興味ある分野について、調べたり、実際に手を動かしたり、分かったことをここにまとめている。
以前から宇宙物理関連のシミュレーションを試してみたいと思っていて、enzo、gadget、gizmo等を調べていた。たまたまAthenaを知り、調べてみると東北大学の富田賢吾准教授が日本語のページを管理されており、日本語の情報もあるので、試してみることにした。
ここでは、インストールしてチュートリアルを実行するところまでをまとめたのでポストする。
[続きを読む]2023年を振り返ってみると、多くの日本語LLM(Large Language Models)がリリースされた一年だった。自分もいくつかの日本語LLMを自宅の環境で動作させてみたので、ここにまとめる。
[続きを読む]Horovod in Dockerを試すで、自分の環境(オンプレミス)で、Docker環境下でHorovodを使えるようになった。次にやるべきことは、一台のサーバで動作する学習コードをHorovodを使った分散学習に適用するように変更することだ!手始めに比較的簡単なCNNコードをHorovodを使って分散学習できるように変更したので、以下記事にまとめる。
[続きを読む]一年ぐらい前から分散学習(Distributed Training)に興味を持っていた。そのため複数のTITAN-Vが使えるマシンを用意し、Horovodという分散学習フレームワークを試していた。この度ようやく分散学習サンプルを動かすことが出来たので、ここに投稿する。
[続きを読む]今年5月にRootless Dockerを構築という記事を投稿したが、とある事情でrootless dockerをアンインストールすることにした。以下にアンインストールの手順をまとめた。 rootless dockerをアンインストールするに至るとある事情については、後日改めて投稿する。
[続きを読む]1ヶ月以上前に、受講した「AIサロゲートモデルでシミュレーションを高速化する方法とは?」セミナーで、NVIDIA Modulusに興味を持ったので、書籍を買って勉強を始めた。 Modulusを今後勉強する前提として、自分の環境にModulusをインストールしたので、「PINNsことはじめ」としてインストール回りのことをまとめた。
[続きを読む]日本語に大規模言語モデル(LLM)を試してみたくて、5月にリリースされたrinnaを使ってみた。インストールの手間を省くため、dockerコンテナ環境下でrinnaを実行した。
その際にハマったこともあったので以下にまとめる。
[続きを読む]