fish-speech/docs/zh/inference.md
Whale and Dolphin 75d7ecb5b5
Optimize documents (#994)
* [feature]add dataset classs

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* [dev]combine agent and tts infer

* [feature]:update inference

* [feature]:update uv.lock

* [Merge]:merge upstream/main

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* [fix]:remove unused files

* [fix]:remove unused files

* [fix]:remove unused files

* [fix]:fix infer bugs

* [docs]:update introduction and optinize front appearence

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

---------

Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
2025-06-03 06:05:14 -07:00

2.9 KiB
Raw Blame History

推理

由于声码器模型已更改,您需要比以前更多的 VRAM建议使用 12GB 进行流畅推理。

我们支持命令行、HTTP API 和 WebUI 进行推理,您可以选择任何您喜欢的方法。

下载权重

首先您需要下载模型权重:

huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini

命令行推理

!!! note 如果您计划让模型随机选择音色,可以跳过此步骤。

1. 从参考音频获取 VQ 令牌

python fish_speech/models/dac/inference.py \
    -i "ref_audio_name.wav" \
    --checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth"

您应该会得到一个 fake.npy 和一个 fake.wav

2. 从文本生成语义令牌:

python fish_speech/models/text2semantic/inference.py \
    --text "您想要转换的文本" \
    --prompt-text "您的参考文本" \
    --prompt-tokens "fake.npy" \
    --compile

此命令将在工作目录中创建一个 codes_N 文件,其中 N 是从 0 开始的整数。

!!! note 您可能希望使用 --compile 来融合 CUDA 内核以实现更快的推理(~30 令牌/秒 -> ~500 令牌/秒)。 相应地,如果您不计划使用加速,可以注释掉 --compile 参数。

!!! info 对于不支持 bf16 的 GPU您可能需要使用 --half 参数。

3. 从语义令牌生成声音:

!!! warning "未来警告" 我们保留了从原始路径tools/vqgan/inference.py访问接口的能力但此接口可能在后续版本中被删除因此请尽快更改您的代码。

python fish_speech/models/dac/inference.py \
    -i "codes_0.npy" \

HTTP API 推理

我们提供HTTP API进行推理。您可以使用以下命令启动服务器

python -m tools.api_server \
    --listen 0.0.0.0:8080 \
    --llama-checkpoint-path "checkpoints/openaudio-s1-mini" \
    --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" \
    --decoder-config-name modded_dac_vq

如果您想要加速推理,可以添加 --compile 参数。

之后,您可以在 http://127.0.0.1:8080/ 查看和测试API。

GUI 推理

下载客户端

WebUI 推理

您可以使用以下命令启动WebUI

python -m tools.run_webui \
    --llama-checkpoint-path "checkpoints/openaudio-s1-mini" \
    --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" \
    --decoder-config-name modded_dac_vq

或者简单地

python -m tools.run_webui

如果您想要加速推理,可以添加 --compile 参数。

!!! note 您可以提前将标签文件和参考音频文件保存到主目录的 references 文件夹中需要自己创建这样就可以在WebUI中直接调用它们。

!!! note 您可以使用Gradio环境变量GRADIO_SHAREGRADIO_SERVER_PORTGRADIO_SERVER_NAME 来配置WebUI。

尽情享受吧!