Stardust·减 0473ec7038
Update README about RTF. (#1034)
* Update inference.md

* Update index.md

* Update index.md

* Update inference.md

* Update index.md

* Update inference.md

* Update index.md

* Update inference.md

* Update index.md

* Update index.md

* Update inference.md
2025-06-12 17:37:22 +08:00
..
2025-06-12 17:37:22 +08:00
2025-06-12 17:37:22 +08:00
2025-06-12 17:37:22 +08:00
2025-06-12 17:13:02 +08:00
2023-12-21 02:33:48 +00:00
2025-06-12 17:37:22 +08:00
2023-12-20 05:53:30 +00:00
2025-06-07 00:18:11 +08:00
2025-06-07 00:18:11 +08:00
2025-06-07 00:18:11 +08:00
2025-06-07 00:18:11 +08:00
2023-12-21 02:33:48 +00:00

Fish Speech

English | 简体中文 | Portuguese | 日本語 | 한국어

Fish Speech 1.4 - Open-Source Multilingual Text-to-Speech with Voice Cloning | Product Hunt fishaudio%2Ffish-speech | Trendshift



Important

许可证声明
此代码库在 Apache License 下发布,所有模型权重在 CC-BY-NC-SA-4.0 License 下发布。更多详情请参考 LICENSE

Warning

法律免责声明
我们不对代码库的任何非法使用承担责任。请参考您当地关于 DMCA 和其他相关法律的法规。


🎉 公告

我们很高兴地宣布,我们已将品牌重塑为 OpenAudio —— 推出基于 Fish-Speech 基础构建的革命性新一代高级文本转语音模型系列。

我们自豪地发布 OpenAudio-S1 作为该系列的第一个模型,在质量、性能和功能方面都有显著改进。

OpenAudio-S1 提供两个版本:OpenAudio-S1OpenAudio-S1-mini。两个模型现在都可以在 Fish Audio PlaygroundOpenAudio-S1)和 Hugging FaceOpenAudio-S1-mini)上使用。

请访问 OpenAudio 网站 获取博客和技术报告。

亮点

出色的 TTS 质量

我们使用 Seed TTS 评估指标来评估模型性能,结果显示 OpenAudio S1 在英语文本上达到了 0.008 WER0.004 CER,这比以前的模型显著更好。(英语,自动评估,基于 OpenAI gpt-4o-transcribe使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM 进行说话人距离计算)

模型 词错误率 (WER) 字符错误率 (CER) 说话人距离
S1 0.008 0.004 0.332
S1-mini 0.011 0.005 0.380

TTS-Arena2 最佳模型 🏆

OpenAudio S1 在 TTS-Arena2 上取得了 第一名,这是文本转语音评估的基准:

TTS-Arena2 排名

语音控制

OpenAudio S1 支持多种情感、语调和特殊标记 来增强语音合成:

  • 基础情感
(生气) (伤心) (兴奋) (惊讶) (满意) (高兴) 
(害怕) (担心) (沮丧) (紧张) (挫败) (郁闷)
(同情) (尴尬) (厌恶) (感动) (自豪) (放松)
(感激) (自信) (感兴趣) (好奇) (困惑) (快乐)
  • 高级情感
(鄙视) (不开心) (焦虑) (歇斯底里) (冷漠) 
(不耐烦) (内疚) (轻蔑) (恐慌) (愤怒) (不情愿)
(热衷) (不赞成) (消极) (否认) (震惊) (严肃)
(讽刺) (安抚) (安慰) (真诚) (冷笑)
(犹豫) (屈服) (痛苦) (尴尬) (觉得有趣)
  • 语调标记
(急促的语调) (喊叫) (尖叫) (耳语) (柔和的语调)
  • 特殊音频效果
(笑声) (轻笑) (抽泣) (大声哭泣) (叹息) (喘息)
(呻吟) (人群笑声) (背景笑声) (观众笑声)

您也可以使用 哈,哈,哈 来控制,还有许多其他情况等待您自己探索。

(目前支持英语、中文和日语,更多语言即将推出!)

两种类型的模型

模型 大小 可用性 特性
S1 4B 参数 fish.audio 上可用 功能齐全的旗舰模型
S1-mini 0.5B 参数 在 Hugging Face hf space 上可用 具有核心功能的精简版本

S1 和 S1-mini 都集成了在线人类反馈强化学习RLHF

功能

  1. 零样本和少样本 TTS 输入 10 到 30 秒的语音样本以生成高质量的 TTS 输出。详细指南请参见 语音克隆最佳实践

  2. 多语言和跨语言支持: 只需将多语言文本复制并粘贴到输入框中——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

  3. 无音素依赖: 模型具有强大的泛化能力,不依赖音素进行 TTS。它可以处理任何语言脚本的文本。

  4. 高准确性: 在 Seed-TTS Eval 上实现约 0.4% 的低 CER字符错误率和约 0.8% 的 WER词错误率

  5. 快速: 通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本电脑上实时因子约为 1:5在 Nvidia RTX 4090 上为 1:15。

  6. WebUI 推理: 具有易于使用的基于 Gradio 的 Web UI兼容 Chrome、Firefox、Edge 和其他浏览器。

  7. GUI 推理: 提供与 API 服务器无缝配合的 PyQt6 图形界面。支持 Linux、Windows 和 macOS。查看 GUI

  8. 部署友好: 通过对 Linux、WindowsmacOS 即将推出)的原生支持,轻松设置推理服务器,最小化速度损失。

媒体和演示

社交媒体

X 上的最新演示

交互式演示

试用 OpenAudio S1 试用 S1 Mini

视频展示

OpenAudio S1 Video

音频样本

展示我们跨不同语言和情感的多语言 TTS 功能的高质量音频样本即将推出。

文档

致谢

技术报告 (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}