* fix torch compile * delete performance warning * delete performance warning * delete performance warning * delete performance warning * delete performance warning
10 KiB
Important
라이선스 고지사항
이 코드베이스는 Apache License 하에 릴리스되며, 모든 모델 가중치는 CC-BY-NC-SA-4.0 License 하에 릴리스됩니다. 자세한 내용은 LICENSE를 참조하세요.
Warning
법적 면책조항
저희는 코드베이스의 불법적인 사용에 대해 어떠한 책임도 지지 않습니다. DMCA 및 기타 관련 법률에 대한 현지 법률을 참조하세요.
🎉 발표
OpenAudio로의 리브랜딩을 발표하게 되어 기쁩니다. Fish-Speech의 기반 위에 구축된 혁신적인 새로운 고급 Text-to-Speech 모델 시리즈를 소개합니다.
이 시리즈의 첫 번째 모델인 OpenAudio-S1을 출시하게 되어 자랑스럽습니다. 품질, 성능, 기능에서 상당한 개선을 제공합니다.
OpenAudio-S1은 두 가지 버전으로 제공됩니다: OpenAudio-S1과 OpenAudio-S1-mini. 두 모델 모두 Fish Audio Playground(OpenAudio-S1용)와 Hugging Face(OpenAudio-S1-mini용)에서 사용할 수 있습니다.
블로그와 기술 보고서는 OpenAudio 웹사이트를 방문하세요.
주요 특징 ✨
뛰어난 TTS 품질
우리는 Seed TTS Eval Metrics를 사용하여 모델 성능을 평가했으며, 결과에 따르면 OpenAudio S1은 영어 텍스트에서 0.008 WER과 0.004 CER을 달성하여 이전 모델들보다 상당히 우수한 성능을 보입니다. (영어, 자동 평가, OpenAI gpt-4o-transcribe 기반, Revai/pyannote-wespeaker-voxceleb-resnet34-LM을 사용한 화자 거리)
모델 | 단어 오류율 (WER) | 문자 오류율 (CER) | 화자 거리 |
---|---|---|---|
S1 | 0.008 | 0.004 | 0.332 |
S1-mini | 0.011 | 0.005 | 0.380 |
TTS-Arena2 최고 모델 🏆
OpenAudio S1은 텍스트 음성 변환 평가의 벤치마크인 TTS-Arena2에서 1위를 달성했습니다:
음성 제어
OpenAudio S1은 음성 합성을 향상시키기 위한 다양한 감정, 톤, 특별한 마커를 지원합니다:
- 기본 감정:
(화난) (슬픈) (흥분한) (놀란) (만족한) (기쁜)
(무서워하는) (걱정하는) (속상한) (긴장한) (좌절한) (우울한)
(공감하는) (당황한) (역겨워하는) (감동한) (자랑스러운) (편안한)
(감사하는) (자신있는) (관심있는) (호기심있는) (혼란스러운) (즐거운)
- 고급 감정:
(경멸하는) (불행한) (불안한) (히스테리한) (무관심한)
(조급한) (죄책감있는) (냉소적인) (공황상태인) (분노한) (마지못한)
(열성적인) (반대하는) (부정적인) (부인하는) (놀란) (진지한)
(비꼬는) (달래는) (위로하는) (진심인) (비웃는)
(망설이는) (굴복하는) (고통스러운) (어색한) (재미있어하는)
- 톤 마커:
(급한 톤) (외치기) (비명지르기) (속삭이기) (부드러운 톤)
- 특별한 오디오 효과:
(웃음) (킥킥거림) (흐느낌) (큰 소리로 우는 것) (한숨) (헐떡거림)
(신음) (군중 웃음) (배경 웃음) (관객 웃음)
또한 하, 하, 하를 사용하여 제어할 수도 있으며, 여러분이 직접 탐험할 수 있는 많은 다른 경우들이 있습니다.
(현재 영어, 중국어, 일본어를 지원하며, 더 많은 언어가 곧 추가될 예정입니다!)
두 가지 유형의 모델
모델 | 크기 | 가용성 | 특징 |
---|---|---|---|
S1 | 4B 매개변수 | fish.audio에서 사용 가능 | 모든 기능을 갖춘 플래그십 모델 |
S1-mini | 0.5B 매개변수 | 허깅페이스 hf space에서 사용 가능 | 핵심 기능을 갖춘 증류 버전 |
S1과 S1-mini 모두 온라인 인간 피드백 강화학습(RLHF)을 통합하고 있습니다.
기능
-
제로샷 및 퓨샷 TTS: 10~30초의 음성 샘플을 입력하여 고품질 TTS 출력을 생성합니다. 자세한 가이드라인은 음성 복제 모범 사례를 참조하세요.
-
다국어 및 교차 언어 지원: 다국어 텍스트를 입력 상자에 복사하여 붙여넣기만 하면 됩니다. 언어를 걱정할 필요가 없습니다. 현재 영어, 일본어, 한국어, 중국어, 프랑스어, 독일어, 아랍어, 스페인어를 지원합니다.
-
음소 의존성 없음: 모델은 강력한 일반화 능력을 가지고 있으며 TTS를 위해 음소에 의존하지 않습니다. 모든 언어 스크립트의 텍스트를 처리할 수 있습니다.
-
높은 정확도: Seed-TTS Eval에서 약 0.4%의 낮은 CER(문자 오류율)과 약 0.8%의 WER(단어 오류율)을 달성합니다.
-
빠른 속도: fish-tech 가속화로 Nvidia RTX 4060 노트북에서 실시간 팩터가 약 1:5, Nvidia RTX 4090에서 1:15입니다.
-
WebUI 추론: Chrome, Firefox, Edge 및 기타 브라우저와 호환되는 사용하기 쉬운 Gradio 기반 웹 UI를 제공합니다.
-
GUI 추론: API 서버와 완벽하게 작동하는 PyQt6 그래픽 인터페이스를 제공합니다. Linux, Windows, macOS를 지원합니다. GUI 보기.
-
배포 친화적: Linux, Windows(MacOS 곧 출시 예정)에 대한 네이티브 지원으로 추론 서버를 쉽게 설정할 수 있으며, 속도 손실을 최소화합니다.
미디어 및 데모
문서
크레딧
기술 보고서 (V1.4)
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}