* [feature]add dataset classs * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [dev]combine agent and tts infer * [feature]:update inference * [feature]:update uv.lock * [Merge]:merge upstream/main * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * [fix]:remove unused files * [fix]:remove unused files * [fix]:remove unused files * [fix]:fix infer bugs * [docs]:update introduction and optinize front appearence * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
5.9 KiB
OpenAudio (原 Fish-Speech)
!!! warning "法律声明" 我们不对代码库的任何非法使用承担责任。请参考您所在地区有关 DMCA(数字千年版权法)和其他相关法律的规定。
**许可证:** 此代码库在 Apache 2.0 许可证下发布,所有模型在 CC-BY-NC-SA-4.0 许可证下发布。
介绍
我们很高兴地宣布,我们已经更名为 OpenAudio - 推出全新的先进文字转语音模型系列,在 Fish-Speech 的基础上进行了重大改进并增加了新功能。
Openaudio-S1-mini: 视频; Hugging Face;
Fish-Speech v1.5: 视频; Hugging Face;
亮点 ✨
情感控制
OpenAudio S1 支持多种情感、语调和特殊标记来增强语音合成效果:
- 基础情感:
(angry) (sad) (excited) (surprised) (satisfied) (delighted)
(scared) (worried) (upset) (nervous) (frustrated) (depressed)
(empathetic) (embarrassed) (disgusted) (moved) (proud) (relaxed)
(grateful) (confident) (interested) (curious) (confused) (joyful)
- 高级情感:
(disdainful) (unhappy) (anxious) (hysterical) (indifferent)
(impatient) (guilty) (scornful) (panicked) (furious) (reluctant)
(keen) (disapproving) (negative) (denying) (astonished) (serious)
(sarcastic) (conciliative) (comforting) (sincere) (sneering)
(hesitating) (yielding) (painful) (awkward) (amused)
- 语调标记:
(in a hurry tone) (shouting) (screaming) (whispering) (soft tone)
- 特殊音效:
(laughing) (chuckling) (sobbing) (crying loudly) (sighing) (panting)
(groaning) (crowd laughing) (background laughter) (audience laughing)
您还可以使用 Ha,ha,ha 来控制,还有许多其他用法等待您自己探索。
卓越的 TTS 质量
我们使用 Seed TTS 评估指标来评估模型性能,结果显示 OpenAudio S1 在英文文本上达到了 0.008 WER 和 0.004 CER,明显优于以前的模型。(英语,自动评估,基于 OpenAI gpt-4o-转录,说话人距离使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
模型 | 词错误率 (WER) | 字符错误率 (CER) | 说话人距离 |
---|---|---|---|
S1 | 0.008 | 0.004 | 0.332 |
S1-mini | 0.011 | 0.005 | 0.380 |
两种模型类型
模型 | 规模 | 可用性 | 特性 |
---|---|---|---|
S1 | 40亿参数 | 在 fish.audio 上可用 | 功能齐全的旗舰模型 |
S1-mini | 5亿参数 | 在 huggingface hf space 上可用 | 具有核心功能的蒸馏版本 |
S1 和 S1-mini 都集成了在线人类反馈强化学习 (RLHF)。
功能特性
-
零样本和少样本 TTS: 输入 10 到 30 秒的语音样本即可生成高质量的 TTS 输出。详细指南请参见 语音克隆最佳实践。
-
多语言和跨语言支持: 只需复制粘贴多语言文本到输入框即可——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
-
无音素依赖: 该模型具有强大的泛化能力,不依赖音素进行 TTS。它可以处理任何语言文字的文本。
-
高度准确: 在 Seed-TTS Eval 中实现低字符错误率 (CER) 约 0.4% 和词错误率 (WER) 约 0.8%。
-
快速: 通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本电脑上实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
-
WebUI 推理: 具有易于使用的基于 Gradio 的网络界面,兼容 Chrome、Firefox、Edge 和其他浏览器。
-
GUI 推理: 提供与 API 服务器无缝配合的 PyQt6 图形界面。支持 Linux、Windows 和 macOS。查看 GUI。
-
部署友好: 轻松设置推理服务器,原生支持 Linux、Windows 和 MacOS,最小化速度损失。
免责声明
我们不对代码库的任何非法使用承担责任。请参考您当地关于 DMCA 和其他相关法律的规定。
媒体和演示
🚧 即将推出
视频演示和教程正在开发中。
文档
快速开始
社区和支持
- Discord: 加入我们的 Discord 社区
- 网站: 访问 OpenAudio.com 获取最新更新
- 在线试用: Fish Audio Playground