Update README about RTF. (#1034)

* Update inference.md * Update index.md * Update index.md * Update inference.md * Update index.md * Update inference.md * Update index.md * Update inference.md * Update index.md * Update index.md * Update inference.md
2025-06-12 17:37:22 +08:00 · 2025-06-12 17:37:22 +08:00 · 0473ec7038
commit 0473ec7038
parent 6945784348
8 changed files with 8 additions and 8 deletions
--- a/docs/en/index.md
+++ b/docs/en/index.md
@ -116,7 +116,7 @@ Both S1 and S1-mini incorporate online Reinforcement Learning from Human Feedbac

 4. **Highly Accurate:** Achieves a low CER (Character Error Rate) of around 0.4% and WER (Word Error Rate) of around 0.8% for Seed-TTS Eval.

-5. **Fast:** With fish-tech acceleration, the real-time factor is approximately 1:5 on an Nvidia RTX 4060 laptop and 1:15 on an Nvidia RTX 4090.
+5. **Fast:** Accelerated by torch compile, the real-time factor is approximately 1:7 on an Nvidia RTX 4090 GPU.

 6. **WebUI Inference:** Features an easy-to-use, Gradio-based web UI compatible with Chrome, Firefox, Edge, and other browsers.

--- a/docs/en/inference.md
+++ b/docs/en/inference.md
@ -40,7 +40,7 @@ python fish_speech/models/text2semantic/inference.py \
 This command will create a `codes_N` file in the working directory, where N is an integer starting from 0.

 !!! note
-    You may want to use `--compile` to fuse CUDA kernels for faster inference (~30 tokens/second -> ~500 tokens/second).
+    You may want to use `--compile` to fuse CUDA kernels for faster inference (~15 tokens/second -> ~150 tokens/second, on RTX 4090 GPU).
    Correspondingly, if you do not plan to use acceleration, you can comment out the `--compile` parameter.

 !!! info
--- a/docs/ja/index.md
+++ b/docs/ja/index.md
@ -116,7 +116,7 @@ S1とS1-miniの両方にオンライン人間フィードバック強化学習

 4. **高精度：** Seed-TTS Evalで低い文字誤り率（CER）約0.4%と単語誤り率（WER）約0.8%を達成します。

-5. **高速：** fish-tech加速により、Nvidia RTX 4060ラップトップでリアルタイム係数約1:5、Nvidia RTX 4090で約1:15を実現します。
+5. **高速：** torch compile加速により、Nvidia RTX 4090でリアルタイム係数約1:7。

 6. **WebUI推論：** Chrome、Firefox、Edge、その他のブラウザと互換性のあるGradioベースの使いやすいWebUIを備えています。

--- a/docs/ja/inference.md
+++ b/docs/ja/inference.md
@ -40,7 +40,7 @@ python fish_speech/models/text2semantic/inference.py \
 このコマンドは、作業ディレクトリに `codes_N` ファイルを作成します（Nは0から始まる整数）。

 !!! note
-    より高速な推論のために `--compile` を使用してCUDAカーネルを融合することができます（約30トークン/秒 -> 約500トークン/秒）。
+    より高速な推論のために `--compile` を使用してCUDAカーネルを融合することができます（約15トークン/秒 -> 約150トークン/秒, RTX 4090 GPU）。
    対応して、加速を使用しない場合は、`--compile` パラメータをコメントアウトできます。

 !!! info
--- a/docs/ko/index.md
+++ b/docs/ko/index.md
@ -127,7 +127,7 @@ S1과 S1-mini 모두 온라인 인간 피드백 강화 학습(RLHF)이 통합되

 4. **높은 정확도:** Seed-TTS Eval에서 약 0.4%의 낮은 문자 오류율(CER)과 약 0.8%의 단어 오류율(WER)을 달성합니다.

-5. **빠른 속도:** fish-tech 가속을 통해 Nvidia RTX 4060 노트북에서 실시간 계수 약 1:5, Nvidia RTX 4090에서 약 1:15를 달성합니다.
+5. **빠른 속도:** torch compile 가속을 통해 Nvidia RTX 4090 실시간 계수 약 1:7.

 6. **WebUI 추론:** Chrome, Firefox, Edge 및 기타 브라우저와 호환되는 사용하기 쉬운 Gradio 기반 웹 UI를 제공합니다.

--- a/docs/ko/inference.md
+++ b/docs/ko/inference.md
@ -40,7 +40,7 @@ python fish_speech/models/text2semantic/inference.py \
 이 명령은 작업 디렉토리에 `codes_N` 파일을 생성합니다. 여기서 N은 0부터 시작하는 정수입니다.

 !!! note
-    더 빠른 추론을 위해 `--compile`을 사용하여 CUDA 커널을 융합할 수 있습니다(약 30 토큰/초 -> 약 500 토큰/초).
+    더 빠른 추론을 위해 `--compile`을 사용하여 CUDA 커널을 융합할 수 있습니다(약 15 토큰/초 -> 약 150 토큰/초, RTX 4090 GPU).
    이에 따라 가속을 사용하지 않으려면 `--compile` 매개변수를 주석 처리할 수 있습니다.

 !!! info
--- a/docs/zh/index.md
+++ b/docs/zh/index.md
@ -116,7 +116,7 @@ S1 和 S1-mini 都集成了在线人类反馈强化学习 (RLHF)。

 4. **高度准确：** 在 Seed-TTS Eval 中实现低字符错误率 (CER) 约 0.4% 和词错误率 (WER) 约 0.8%。

-5. **快速：** 通过 fish-tech 加速，在 Nvidia RTX 4060 笔记本电脑上实时因子约为 1:5，在 Nvidia RTX 4090 上约为 1:15。
+5. **快速：** 通过 torch compile 加速，在 Nvidia RTX 4090 GPU 上实时因子 (RTF) 约为 1:7。

 6. **WebUI 推理：** 具有易于使用的基于 Gradio 的网络界面，兼容 Chrome、Firefox、Edge 和其他浏览器。

--- a/docs/zh/inference.md
+++ b/docs/zh/inference.md
@ -40,7 +40,7 @@ python fish_speech/models/text2semantic/inference.py \
 此命令将在工作目录中创建一个 `codes_N` 文件，其中 N 是从 0 开始的整数。

 !!! note
-    您可能希望使用 `--compile` 来融合 CUDA 内核以实现更快的推理（~30 令牌/秒 -> ~500 令牌/秒）。
+    您可能希望使用 `--compile` 来融合 CUDA 内核以实现更快的推理（~15 token/秒 -> ~150 token/秒，在RTX 4090 GPU上）。
    相应地，如果您不计划使用加速，可以注释掉 `--compile` 参数。

 !!! info