• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Szukam lepszego TTS

Aruba Cloud - Virtual Private Server VPS
+1 głos
280 wizyt
pytanie zadane 8 lipca 2024 w C# przez Klajfert79 Nowicjusz (130 p.)
Witam, pracuje nad pewnym projektem i obecnie używam System.Speech.Synthesis do odczytywania tekstu. Mamy 2024, mamy sztuczną inteligencje i zastanawiam się czy jest jakiś fajny TTS z głosem AI, który brzmi jak człowiek. Fajnie jakby dało radę użyć tego TTSa w C# i żeby działał offline, nawet jak nie ma dostępu do internetu. Interesuje mnie też żeby działał na windowsie. Może ktoś zna jakąś dobrą bibliotekę na githubie? I w miarę możliwości prostą w użyciu, tak jak to rozwiązanie od microsoftu, z którego teraz korzystam.

1 odpowiedź

0 głosów
odpowiedź 9 lipca 2024 przez VBService Ekspert (256,600 p.)

Sprawdź:

Vosk Speech Recognition Toolkit
 

Vosk is an offline open source speech recognition toolkit. It enables speech recognition for 20+ languages and dialects - English, Indian English, German, French, Spanish, Portuguese, Chinese, Russian, Turkish, Vietnamese, Italian, Dutch, Catalan, Arabic, Greek, Farsi, Filipino, Ukrainian, Kazakh, Swedish, Japanese, Esperanto, Hindi, Czech, Polish. More to come.

 

Vosk models are small (50 Mb) but provide continuous large vocabulary transcription, zero-latency response with streaming API, reconfigurable vocabulary and speaker identification.

Coqui TTS to rozwidlenie projektu Mozilla TTS, które oferuje wysokiej jakości modele mowy.

  • High-performance Deep Learning models for Text2Speech tasks.
    • Text2Spec models (Tacotron, Tacotron2, Glow-TTS, SpeedySpeech).
    • Speaker Encoder to compute speaker embeddings efficiently.
    • Vocoder models (MelGAN, Multiband-MelGAN, GAN-TTS, ParallelWaveGAN, WaveGrad, WaveRNN)
  • Fast and efficient model training.
  • Detailed training logs on the terminal and Tensorboard.
  • Support for Multi-speaker TTS.
  • Efficient, flexible, lightweight but feature complete Trainer API.
  • Released and ready-to-use models.
  • Tools to curate Text2Speech datasets underdataset_analysis.
  • Utilities to use and test your models.
  • Modular (but not too much) code base enabling easy implementation of new ideas.

eSpeak NG

eSpeak NG to nowoczesna wersja klasycznego eSpeak. Jest to lekka i szybka biblioteka TTS, która działa offline.

sprawdź też

Generative CS
 

Generative AI library for .NET 8.0 with built-in OpenAI ChatGPT and Google Gemini API clients and support for C# function calling via reflection.

Podobne pytania

0 głosów
1 odpowiedź 439 wizyt
pytanie zadane 1 sierpnia 2023 w Sprzęt komputerowy przez mati.nowakowski22 Nowicjusz (120 p.)
0 głosów
3 odpowiedzi 792 wizyt
0 głosów
7 odpowiedzi 1,489 wizyt
pytanie zadane 30 czerwca 2016 w Sprzęt komputerowy przez Adrian1999 Nałogowiec (34,570 p.)

93,331 zapytań

142,323 odpowiedzi

322,400 komentarzy

62,667 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj

Wprowadzenie do ITsec, tom 1 Wprowadzenie do ITsec, tom 2

Można już zamawiać dwa tomy książek o ITsec pt. "Wprowadzenie do bezpieczeństwa IT" - mamy dla Was kod: pasja (użyjcie go w koszyku), dzięki któremu uzyskamy aż 15% zniżki! Dziękujemy ekipie Sekuraka za fajny rabat dla naszej Społeczności!

...