fish-speech/docs/ja/inference.md
Whale and Dolphin 75d7ecb5b5
Optimize documents (#994)
* [feature]add dataset classs

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* [dev]combine agent and tts infer

* [feature]:update inference

* [feature]:update uv.lock

* [Merge]:merge upstream/main

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* [fix]:remove unused files

* [fix]:remove unused files

* [fix]:remove unused files

* [fix]:fix infer bugs

* [docs]:update introduction and optinize front appearence

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

---------

Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
2025-06-03 06:05:14 -07:00

3.7 KiB
Raw Blame History

推論

ボコーダーモデルが変更されたため、以前よりも多くのVRAMが必要です。スムーズな推論には12GBを推奨します。

推論には、コマンドライン、HTTP API、WebUIをサポートしており、お好きな方法を選択できます。

重みのダウンロード

まず、モデルの重みをダウンロードする必要があります:

huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini

コマンドライン推論

!!! note モデルにランダムに音色を選択させる場合は、この手順をスキップできます。

1. 参照音声からVQトークンを取得

python fish_speech/models/dac/inference.py \
    -i "ref_audio_name.wav" \
    --checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth"

fake.npyfake.wav が得られるはずです。

2. テキストからセマンティックトークンを生成:

python fish_speech/models/text2semantic/inference.py \
    --text "変換したいテキスト" \
    --prompt-text "参照テキスト" \
    --prompt-tokens "fake.npy" \
    --compile

このコマンドは、作業ディレクトリに codes_N ファイルを作成しますNは0から始まる整数

!!! note より高速な推論のために --compile を使用してCUDAカーネルを融合することができます約30トークン/秒 -> 約500トークン/秒)。 対応して、加速を使用しない場合は、--compile パラメータをコメントアウトできます。

!!! info bf16をサポートしないGPUの場合、--half パラメータの使用が必要かもしれません。

3. セマンティックトークンから音声を生成:

!!! warning "将来の警告" 元のパスtools/vqgan/inference.pyからアクセス可能なインターフェースを維持していますが、このインターフェースは後続のリリースで削除される可能性があるため、できるだけ早くコードを変更してください。

python fish_speech/models/dac/inference.py \
    -i "codes_0.npy"

HTTP API推論

推論用のHTTP APIを提供しています。以下のコマンドでサーバーを開始できます

python -m tools.api_server \
    --listen 0.0.0.0:8080 \
    --llama-checkpoint-path "checkpoints/openaudio-s1-mini" \
    --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" \
    --decoder-config-name modded_dac_vq

推論を高速化したい場合は、--compile パラメータを追加できます。

その後、http://127.0.0.1:8080/ でAPIを表示・テストできます。

GUI推論

クライアントをダウンロード

WebUI推論

以下のコマンドでWebUIを開始できます

python -m tools.run_webui \
    --llama-checkpoint-path "checkpoints/openaudio-s1-mini" \
    --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" \
    --decoder-config-name modded_dac_vq

または単純に

python -m tools.run_webui

推論を高速化したい場合は、--compile パラメータを追加できます。

!!! note ラベルファイルと参照音声ファイルをメインディレクトリの references フォルダに事前に保存することができます自分で作成する必要があります。これにより、WebUIで直接呼び出すことができます。

!!! note GRADIO_SHAREGRADIO_SERVER_PORTGRADIO_SERVER_NAME などのGradio環境変数を使用してWebUIを設定できます。