Codexを使って日本語音声合成AI「irodori-tts-v3」の環境を構築してみた

AI（Codex）との対話を通じて、最新の日本語音声合成AI「irodori-tts-v3」の環境を構築してみました。

1. まずは環境を構築できそうか確認

まず、今の環境で構築できそうかCodexで確認してみます。

irodori-tts-v3を使うことができる環境を整えてください。
実際にやる前に環境を整えることができるか確認してからにしてください。

約2分後、こんな感じの結果が返ってきました。

結論: 環境は整えられます。ただし、実行前に確認した範囲では次の注意点があります。

h:\Python\irodori-tts は現在空で、Gitリポジトリではありません。
Git: あり
Python: 3.10.11 あり。公式要件は >=3.10 なのでOKです。
uv: 未インストール。pip はあるので導入可能です。
GPU: RTX 3060 12GB あり。ただし現在 Ollama がGPUメモリを多く使っていて、空きが少ないです。推論時は止めた方が安全です。
空き容量: Hドライブに約 357GB あり、依存関係とモデル配置には十分そうです。
GitHub / Hugging Face への接続: 確認OKです。

環境が整えられそうなので、実際にやってもらいました。

2. irodori-tts-v3のセットアップ

では環境を整えましょう。

Codexにこれだけ指示して、約20分ほど待ったら完了していました。😲

※途中で何度か承認しましたが、設定次第ではノンストップでいけるはずです。

環境構築できました。
h:\Python\irodori-tts に公式 Irodori-TTS を clone し、uv sync --extra cu128 で CUDA 版依存関係まで入りました。
確認結果は torch==2.10.0+cu128、torch.cuda.is_available() == True、GPU は NVIDIA GeForce RTX 3060 です。

Web UI も起動済みです。

自分で行うとPython、torch、CUDAのバージョンを合わせるのがとても大変なのですが、Codexがちゃんと合わせてくれました。（スゴイ👍）

3. 起動用バッチファイルの作成

せっかくなので、実行用のバッチも用意してもらいました。

実行するためのバッチとかありますか？
なければ用意してください。

※約1分後

既存のバッチはなかったので、用意しました。
起動: start_irodori_tts_v3.bat
停止: stop_irodori_tts_v3.bat
start_irodori_tts_v3.bat をダブルクリックすれば http://127.0.0.1:7860 でWeb UIを起動します。
既に起動中なら、新しくサーバーを立てずにブラウザだけ開くようにしてあります。
止めたいときは stop_irodori_tts_v3.bat を実行してください。

正直ここまで簡単に環境構築できるとは思っていませんでした。
Codex、すごいですね！🥰🥰🥰