fish-speech/docs/README.ja.md
Stardust·减 94f9fa6c43
Update README (#1015)
* fix torch compile

* delete performance warning

* delete performance warning

* delete performance warning

* delete performance warning

* delete performance warning
2025-06-07 00:18:11 +08:00

10 KiB
Raw Permalink Blame History

Fish Speech

English | 简体中文 | Portuguese | 日本語 | 한국어

Fish Speech 1.4 - Open-Source Multilingual Text-to-Speech with Voice Cloning | Product Hunt fishaudio%2Ffish-speech | Trendshift



Important

ライセンス注意事項
このコードベースはApache Licenseの下でリリースされ、すべてのモデルウェイトはCC-BY-NC-SA-4.0 Licenseの下でリリースされています。詳細についてはLICENSEをご参照ください。

Warning

法的免責事項
私たちはコードベースの不法な使用について一切の責任を負いません。DMCA及びその他の関連法律について、現地の法律をご参照ください。


🎉 発表

OpenAudioへのリブランドを発表できることを嬉しく思います。Fish-Speechの基盤を元に構築された、革新的な新しい高度Text-to-Speechモデルシリーズを紹介します。

このシリーズの最初のモデルとしてOpenAudio-S1をリリースできることを誇りに思います。品質、性能、機能において大幅な改善を実現しました。

OpenAudio-S1には2つのバージョンがありますOpenAudio-S1OpenAudio-S1-mini。両モデルともFish Audio PlaygroundOpenAudio-S1用)とHugging FaceOpenAudio-S1-mini用)で利用可能です。

ブログと技術レポートについてはOpenAudioウェブサイトをご覧ください。

ハイライト

優秀なTTS品質

Seed TTS Eval Metricsを使用してモデル性能を評価した結果、OpenAudio S1は英語テキストで0.008 WER0.004 CERを達成し、これは従来のモデルより大幅に優れています。英語、自動評価、OpenAI gpt-4o-transcribeベース、Revai/pyannote-wespeaker-voxceleb-resnet34-LMを使用した話者距離

モデル 単語誤り率 (WER) 文字誤り率 (CER) 話者距離
S1 0.008 0.004 0.332
S1-mini 0.011 0.005 0.380

TTS-Arena2でのベストモデル 🏆

OpenAudio S1は、テキスト音声変換評価のベンチマークであるTTS-Arena21位を獲得しました:

TTS-Arena2 Ranking

音声制御

OpenAudio S1は音声合成を強化するための様々な感情、トーン、特別なマーカーをサポートしています:

  • 基本感情:
(怒った) (悲しい) (興奮した) (驚いた) (満足した) (喜んだ) 
(恐れた) (心配した) (動揺した) (緊張した) (イライラした) (憂鬱な)
(共感的な) (恥ずかしい) (嫌悪した) (感動した) (誇らしい) (リラックスした)
(感謝する) (自信のある) (興味のある) (好奇心のある) (混乱した) (喜びに満ちた)
  • 高度な感情:
(軽蔑的な) (不幸な) (不安な) (ヒステリックな) (無関心な) 
(せっかちな) (罪悪感のある) (軽蔑した) (パニックした) (激怒した) (しぶしぶの)
(熱心な) (不賛成の) (否定的な) (否認する) (驚愕した) (真剣な)
(皮肉な) (宥める) (慰める) (誠実な) (冷笑する)
(躊躇する) (屈服する) (苦痛な) (気まずい) (面白がる)
  • トーンマーカー:
(急いだトーン) (叫ぶ) (悲鳴) (囁く) (柔らかいトーン)
  • 特別な音響効果:
(笑う) (くすくす笑う) (すすり泣く) (大声で泣く) (ため息) (息切れ)
(うめく) (群衆の笑い声) (背景の笑い声) (聴衆の笑い声)

また、「ハ、ハ、ハ」を使って制御することもでき、あなた自身が探索できる多くの他のケースがあります。

(現在、英語、中国語、日本語をサポートしており、より多くの言語が近日公開予定です!)

2種類のモデル

モデル サイズ 利用可能性 機能
S1 4Bパラメータ fish.audioで利用可能 フル機能のフラッグシップモデル
S1-mini 0.5Bパラメータ huggingface hf spaceで利用可能 コア機能を持つ蒸留版

S1とS1-miniの両方がオンライン人間フィードバック強化学習RLHFを組み込んでいます。

機能

  1. ゼロショット・少数ショットTTS 10〜30秒の音声サンプルを入力して高品質のTTS出力を生成します。詳細なガイドラインについては、Voice Cloning Best Practicesをご覧ください。

  2. 多言語・言語横断サポート: 多言語テキストを入力ボックスにコピー&ペーストするだけで、言語を気にする必要はありません。現在、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語をサポートしています。

  3. 音素依存なし: モデルは強い汎化能力を持ち、TTSに音素に依存しません。どの言語の文字体系のテキストも処理できます。

  4. 高精度: Seed-TTS Evalで約0.4%の低いCER文字誤り率と約0.8%のWER単語誤り率を達成します。

  5. 高速: fish-tech加速により、Nvidia RTX 4060ラップトップで約1:5、Nvidia RTX 4090で約1:15のリアルタイム係数を実現します。

  6. WebUI推論 Chrome、Firefox、Edge、その他のブラウザと互換性のある使いやすいGradioベースのWeb UIを提供します。

  7. GUI推論 APIサーバーとシームレスに動作するPyQt6グラフィカルインターフェースを提供します。Linux、Windows、macOSをサポートします。GUIを見る

  8. デプロイフレンドリー: Linux、WindowsmacOSは近日公開予定のネイティブサポートで推論サーバーを簡単にセットアップし、速度損失を最小限に抑えます。

メディア・デモ

ソーシャルメディア

Latest Demo on X

インタラクティブデモ

Try OpenAudio S1 Try S1 Mini

ビデオショーケース

OpenAudio S1 Video

音声サンプル

高品質の音声サンプルは間もなく公開予定で、異なる言語と感情における私たちの多言語TTS機能を実演します。

ドキュメント

クレジット

技術レポート (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}