fish-speech/docs/README.pt-BR.md
Stardust·减 94f9fa6c43
Update README (#1015)
* fix torch compile

* delete performance warning

* delete performance warning

* delete performance warning

* delete performance warning

* delete performance warning
2025-06-07 00:18:11 +08:00

9.8 KiB

Fish Speech

English | 简体中文 | Portuguese | 日本語 | 한국어

Fish Speech 1.4 - Open-Source Multilingual Text-to-Speech with Voice Cloning | Product Hunt fishaudio%2Ffish-speech | Trendshift



Important

Aviso de Licença
Esta base de código é lançada sob a Licença Apache e todos os pesos dos modelos são lançados sob a Licença CC-BY-NC-SA-4.0. Consulte LICENSE para mais detalhes.

Warning

Isenção de Responsabilidade Legal
Não assumimos qualquer responsabilidade pelo uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relacionadas.


🎉 Anúncio

Estamos animados em anunciar que mudamos nossa marca para OpenAudio — introduzindo uma nova série revolucionária de modelos avançados de Text-to-Speech que se baseia na fundação do Fish-Speech.

Temos o orgulho de lançar o OpenAudio-S1 como o primeiro modelo desta série, oferecendo melhorias significativas em qualidade, desempenho e capacidades.

O OpenAudio-S1 vem em duas versões: OpenAudio-S1 e OpenAudio-S1-mini. Ambos os modelos estão agora disponíveis no Fish Audio Playground (para OpenAudio-S1) e Hugging Face (para OpenAudio-S1-mini).

Visite o site OpenAudio para blog e relatório técnico.

Destaques

Excelente qualidade TTS

Usamos as métricas de avaliação Seed TTS para avaliar o desempenho do modelo, e os resultados mostram que o OpenAudio S1 alcança 0.008 WER e 0.004 CER em texto em inglês, que é significativamente melhor que modelos anteriores. (Inglês, avaliação automática, baseada no OpenAI gpt-4o-transcribe, distância do locutor usando Revai/pyannote-wespeaker-voxceleb-resnet34-LM)

Modelo Taxa de Erro de Palavra (WER) Taxa de Erro de Caractere (CER) Distância do Locutor
S1 0.008 0.004 0.332
S1-mini 0.011 0.005 0.380

Melhor Modelo no TTS-Arena2 🏆

O OpenAudio S1 alcançou a classificação #1 no TTS-Arena2, o benchmark para avaliação de text-to-speech:

Classificação TTS-Arena2

Controle de Fala

O OpenAudio S1 suporta uma variedade de marcadores emocionais, de tom e especiais para aprimorar a síntese de fala:

  • Emoções básicas:
(raivoso) (triste) (animado) (surpreso) (satisfeito) (encantado) 
(assustado) (preocupado) (chateado) (nervoso) (frustrado) (deprimido)
(empático) (envergonhado) (enojado) (emocionado) (orgulhoso) (relaxado)
(grato) (confiante) (interessado) (curioso) (confuso) (alegre)
  • Emoções avançadas:
(desdenhoso) (infeliz) (ansioso) (histérico) (indiferente) 
(impaciente) (culpado) (desprezível) (em pânico) (furioso) (relutante)
(entusiasmado) (desaprovador) (negativo) (negando) (espantado) (sério)
(sarcástico) (conciliador) (consolador) (sincero) (escarnecedor)
(hesitante) (cedendo) (doloroso) (constrangido) (divertido)
  • Marcadores de tom:
(tom apressado) (gritando) (gritando alto) (sussurrando) (tom suave)
  • Efeitos de áudio especiais:
(rindo) (dando risinhos) (soluçando) (chorando alto) (suspirando) (ofegando)
(gemendo) (risos da multidão) (risos de fundo) (risos da audiência)

Você também pode usar Ha,ha,ha para controlar, há muitos outros casos esperando para serem explorados por você mesmo.

(Suporte para inglês, chinês e japonês agora, e mais idiomas em breve!)

Dois Tipos de Modelos

Modelo Tamanho Disponibilidade Recursos
S1 4B parâmetros Disponível em fish.audio Modelo flagship com recursos completos
S1-mini 0.5B parâmetros Disponível no Hugging Face hf space Versão destilada com capacidades principais

Tanto S1 quanto S1-mini incorporam Aprendizado por Reforço online com Feedback Humano (RLHF).

Recursos

  1. TTS Zero-shot e Few-shot: Insira uma amostra vocal de 10 a 30 segundos para gerar saída TTS de alta qualidade. Para diretrizes detalhadas, veja Melhores Práticas de Clonagem de Voz.

  2. Suporte Multilíngue e Cross-lingual: Simplesmente copie e cole texto multilíngue na caixa de entrada—não precisa se preocupar com o idioma. Atualmente suporta inglês, japonês, coreano, chinês, francês, alemão, árabe e espanhol.

  3. Sem Dependência de Fonema: O modelo tem fortes capacidades de generalização e não depende de fonemas para TTS. Pode lidar com texto em qualquer script de idioma.

  4. Altamente Preciso: Alcança um baixo CER (Taxa de Erro de Caractere) de cerca de 0.4% e WER (Taxa de Erro de Palavra) de cerca de 0.8% para Seed-TTS Eval.

  5. Rápido: Com aceleração fish-tech, o fator de tempo real é aproximadamente 1:5 em um laptop Nvidia RTX 4060 e 1:15 em um Nvidia RTX 4090.

  6. Inferência WebUI: Apresenta uma UI web baseada em Gradio fácil de usar, compatível com Chrome, Firefox, Edge e outros navegadores.

  7. Inferência GUI: Oferece uma interface gráfica PyQt6 que funciona perfeitamente com o servidor de API. Suporta Linux, Windows e macOS. Ver GUI.

  8. Amigável para Deploy: Configure facilmente um servidor de inferência com suporte nativo para Linux, Windows (MacOS em breve), minimizando perda de velocidade.

Mídia e Demos

Mídia Social

Demo Mais Recente no X

Demos Interativos

Experimente OpenAudio S1 Experimente S1 Mini

Vitrines de Vídeo

OpenAudio S1 Video

Amostras de Áudio

Amostras de áudio de alta qualidade estarão disponíveis em breve, demonstrando nossas capacidades TTS multilíngues em diferentes idiomas e emoções.

Documentos

Créditos

Relatório Técnico (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}