概要

自分の興味ある分野について、調べたり、実際に手を動かしたり、分かったことをここにまとめている。

日本語LLMをオンプレミス環境で実行する

モチベーション

2023年を振り返ってみると、多くの日本語LLM(Large Language Models)がリリースされた一年だった。自分もいくつかの日本語LLMを自宅の環境で動作させてみたので、ここにまとめる。

[続きを読む]

CNN訓練コードをHorovodで使えるように変更する

はじめに

Horovod in Dockerを試すで、自分の環境(オンプレミス)で、Docker環境下でHorovodを使えるようになった。次にやるべきことは、一台のサーバで動作する学習コードをHorovodを使った分散学習に適用するように変更することだ!手始めに比較的簡単なCNNコードをHorovodを使って分散学習できるように変更したので、以下記事にまとめる。

[続きを読む]

Horovod in Dockerを試す

モチベーション

一年ぐらい前から分散学習(Distributed Training)に興味を持っていた。そのため複数のTITAN-Vが使えるマシンを用意し、Horovodという分散学習フレームワークを試していた。この度ようやく分散学習サンプルを動かすことが出来たので、ここに投稿する。

[続きを読む]

Rootless dockerをアンインストール

はじめに

今年5月にRootless Dockerを構築という記事を投稿したが、とある事情でrootless dockerをアンインストールすることにした。以下にアンインストールの手順をまとめた。 rootless dockerをアンインストールするに至るとある事情については、後日改めて投稿する。

[続きを読む]

NVIDIA Modulusを試す 〜 PINNsことはじめ

はじめに

1ヶ月以上前に、受講した「AIサロゲートモデルでシミュレーションを高速化する方法とは?」セミナーで、NVIDIA Modulusに興味を持ったので、書籍を買って勉強を始めた。 Modulusを今後勉強する前提として、自分の環境にModulusをインストールしたので、「PINNsことはじめ」としてインストール回りのことをまとめた。

[続きを読む]

rinna 3.6bをdockerから使う

モチベーション

日本語に大規模言語モデル(LLM)を試してみたくて、5月にリリースされたrinnaを使ってみた。インストールの手間を省くため、dockerコンテナ環境下でrinnaを実行した。

その際にハマったこともあったので以下にまとめる。

[続きを読む]

ubuntu 22.04 LTSをインストール

はじめに

Ubuntu 22.04 LTS Jammy Jellyfishがリリースされて一年を経過しており、様々なソフトウェアも含めてこなれて来ているだろうと考え、これまで使っていた20.04から22.04に乗り換えることにした。

自分は日本語を簡単に使えるようにするため、ubuntu 22.04 日本語Remixを複数のワークステーションにインストールした。NVIDIA GPU搭載のワークステーションにubuntu 22.04をインストールしようとして、少しはまったことがあるので、以下にその状況と対応を紹介する。

[続きを読む]

プライベートなdockerレジストリを構築

モチベーション

以前の投稿でユーザモードでdockerコンテナを起動する方法をまとめた。

複数のPC(WorkStation、以下WS)を使う場合、複数WS間でコンテナを共有する仕組みをどう実現するかを考える必要がある。singularityの場合には、sifファイルをNFSサーバに格納し、それを他のWSから使えば良かった。

dockerの場合には、自宅のネットワーク内にプライベートなレジストリを立てて、運用すれば良いと考え、レジストリ・サーバを構築することにした。

[続きを読む]

Rootless Dockerを構築

モチベーション

これまで、dockerではなくsingularityコンテナを使っていた。dockerの利用を避けていたのは、コンテナ起動にroot権限が必要となるから。自宅での運用なので気にすることはないのだけど。

きっかけは忘れてのだけど、dockerに通常のユーザモードで実行できるrootlessモードというのがあることを知ったので、今回試してみることにする。

[続きを読む]

Pytorchでの学習/推論の高速化について

モチベーション

JupyterLabのnotebookの格納先をNFSとしている自宅の環境で、NFSサーバをRaspberryPiもしくはHP Z240とした際の性能測定していて、学習ループ(epochを重ねている状態)では、NBの格納先がNFSサーバ、ローカルでも大差ないことが分かった。

そこで、学習を高速化することにチャレンジしたので、その経過/結果をここにまとめた。

[続きを読む]