* fix torch compile

* delete performance warning

* delete performance warning

* delete performance warning

* delete performance warning

* delete performance warning

2025-06-07 00:18:11 +08:00

8.9 KiB

Raw Permalink Blame History

Fish Speech

English | 简体中文 | Portuguese | 日本語 | 한국어

Important

许可证声明
此代码库在 Apache License 下发布，所有模型权重在 CC-BY-NC-SA-4.0 License 下发布。更多详情请参考 LICENSE。

Warning

法律免责声明
我们不对代码库的任何非法使用承担责任。请参考您当地关于 DMCA 和其他相关法律的法规。

🎉 公告

我们很高兴地宣布，我们已将品牌重塑为 OpenAudio —— 推出基于 Fish-Speech 基础构建的革命性新一代高级文本转语音模型系列。

我们自豪地发布 OpenAudio-S1 作为该系列的第一个模型，在质量、性能和功能方面都有显著改进。

OpenAudio-S1 提供两个版本：OpenAudio-S1 和 OpenAudio-S1-mini。两个模型现在都可以在 Fish Audio Playground（OpenAudio-S1）和 Hugging Face（OpenAudio-S1-mini）上使用。

请访问 OpenAudio 网站获取博客和技术报告。

亮点 ✨

出色的 TTS 质量

我们使用 Seed TTS 评估指标来评估模型性能，结果显示 OpenAudio S1 在英语文本上达到了 0.008 WER 和 0.004 CER，这比以前的模型显著更好。（英语，自动评估，基于 OpenAI gpt-4o-transcribe，使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM 进行说话人距离计算）

模型	词错误率 (WER)	字符错误率 (CER)	说话人距离
S1	0.008	0.004	0.332
S1-mini	0.011	0.005	0.380

TTS-Arena2 最佳模型 🏆

OpenAudio S1 在 TTS-Arena2 上取得了 第一名，这是文本转语音评估的基准：

语音控制

OpenAudio S1 支持多种情感、语调和特殊标记 来增强语音合成：

基础情感：

(生气) (伤心) (兴奋) (惊讶) (满意) (高兴) 
(害怕) (担心) (沮丧) (紧张) (挫败) (郁闷)
(同情) (尴尬) (厌恶) (感动) (自豪) (放松)
(感激) (自信) (感兴趣) (好奇) (困惑) (快乐)

高级情感：

(鄙视) (不开心) (焦虑) (歇斯底里) (冷漠) 
(不耐烦) (内疚) (轻蔑) (恐慌) (愤怒) (不情愿)
(热衷) (不赞成) (消极) (否认) (震惊) (严肃)
(讽刺) (安抚) (安慰) (真诚) (冷笑)
(犹豫) (屈服) (痛苦) (尴尬) (觉得有趣)

语调标记：

(急促的语调) (喊叫) (尖叫) (耳语) (柔和的语调)

特殊音频效果：

(笑声) (轻笑) (抽泣) (大声哭泣) (叹息) (喘息)
(呻吟) (人群笑声) (背景笑声) (观众笑声)

您也可以使用哈,哈,哈来控制，还有许多其他情况等待您自己探索。

(目前支持英语、中文和日语，更多语言即将推出！)

两种类型的模型

模型	大小	可用性	特性
S1	4B 参数	在 fish.audio 上可用	功能齐全的旗舰模型
S1-mini	0.5B 参数	在 Hugging Face hf space 上可用	具有核心功能的精简版本

S1 和 S1-mini 都集成了在线人类反馈强化学习（RLHF）。

功能

零样本和少样本 TTS： 输入 10 到 30 秒的语音样本以生成高质量的 TTS 输出。详细指南请参见语音克隆最佳实践。
多语言和跨语言支持： 只需将多语言文本复制并粘贴到输入框中——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖： 模型具有强大的泛化能力，不依赖音素进行 TTS。它可以处理任何语言脚本的文本。
高准确性： 在 Seed-TTS Eval 上实现约 0.4% 的低 CER（字符错误率）和约 0.8% 的 WER（词错误率）。
快速： 通过 fish-tech 加速，在 Nvidia RTX 4060 笔记本电脑上实时因子约为 1:5，在 Nvidia RTX 4090 上为 1:15。
WebUI 推理： 具有易于使用的基于 Gradio 的 Web UI，兼容 Chrome、Firefox、Edge 和其他浏览器。
GUI 推理： 提供与 API 服务器无缝配合的 PyQt6 图形界面。支持 Linux、Windows 和 macOS。查看 GUI。
部署友好： 通过对 Linux、Windows（macOS 即将推出）的原生支持，轻松设置推理服务器，最小化速度损失。

媒体和演示

社交媒体

交互式演示

视频展示

音频样本

展示我们跨不同语言和情感的多语言 TTS 功能的高质量音频样本即将推出。

文档

致谢

技术报告 (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

8.9 KiB Raw Permalink Blame History Unescape Escape