• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Szukam lepszego TTS

VPS Starter Arubacloud
+1 głos
76 wizyt
pytanie zadane 8 lipca w C# przez Klajfert79 Nowicjusz (130 p.)
Witam, pracuje nad pewnym projektem i obecnie używam System.Speech.Synthesis do odczytywania tekstu. Mamy 2024, mamy sztuczną inteligencje i zastanawiam się czy jest jakiś fajny TTS z głosem AI, który brzmi jak człowiek. Fajnie jakby dało radę użyć tego TTSa w C# i żeby działał offline, nawet jak nie ma dostępu do internetu. Interesuje mnie też żeby działał na windowsie. Może ktoś zna jakąś dobrą bibliotekę na githubie? I w miarę możliwości prostą w użyciu, tak jak to rozwiązanie od microsoftu, z którego teraz korzystam.

1 odpowiedź

0 głosów
odpowiedź 9 lipca przez VBService Ekspert (255,440 p.)

Sprawdź:

Vosk Speech Recognition Toolkit
 

Vosk is an offline open source speech recognition toolkit. It enables speech recognition for 20+ languages and dialects - English, Indian English, German, French, Spanish, Portuguese, Chinese, Russian, Turkish, Vietnamese, Italian, Dutch, Catalan, Arabic, Greek, Farsi, Filipino, Ukrainian, Kazakh, Swedish, Japanese, Esperanto, Hindi, Czech, Polish. More to come.

 

Vosk models are small (50 Mb) but provide continuous large vocabulary transcription, zero-latency response with streaming API, reconfigurable vocabulary and speaker identification.

Coqui TTS to rozwidlenie projektu Mozilla TTS, które oferuje wysokiej jakości modele mowy.

  • High-performance Deep Learning models for Text2Speech tasks.
    • Text2Spec models (Tacotron, Tacotron2, Glow-TTS, SpeedySpeech).
    • Speaker Encoder to compute speaker embeddings efficiently.
    • Vocoder models (MelGAN, Multiband-MelGAN, GAN-TTS, ParallelWaveGAN, WaveGrad, WaveRNN)
  • Fast and efficient model training.
  • Detailed training logs on the terminal and Tensorboard.
  • Support for Multi-speaker TTS.
  • Efficient, flexible, lightweight but feature complete Trainer API.
  • Released and ready-to-use models.
  • Tools to curate Text2Speech datasets underdataset_analysis.
  • Utilities to use and test your models.
  • Modular (but not too much) code base enabling easy implementation of new ideas.

eSpeak NG

eSpeak NG to nowoczesna wersja klasycznego eSpeak. Jest to lekka i szybka biblioteka TTS, która działa offline.

sprawdź też

Generative CS
 

Generative AI library for .NET 8.0 with built-in OpenAI ChatGPT and Google Gemini API clients and support for C# function calling via reflection.

Podobne pytania

0 głosów
1 odpowiedź 293 wizyt
pytanie zadane 1 sierpnia 2023 w Sprzęt komputerowy przez mati.nowakowski22 Nowicjusz (120 p.)
0 głosów
3 odpowiedzi 659 wizyt
0 głosów
7 odpowiedzi 1,073 wizyt
pytanie zadane 30 czerwca 2016 w Sprzęt komputerowy przez Adrian1999 Nałogowiec (34,570 p.)

92,843 zapytań

141,784 odpowiedzi

320,859 komentarzy

62,177 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Wprowadzenie do ITsec, tom 2

Można już zamawiać tom 2 książki "Wprowadzenie do bezpieczeństwa IT" - będzie to około 650 stron wiedzy o ITsec (17 rozdziałów, 14 autorów, kolorowy druk).

Planowana premiera: 30.09.2024, zaś planowana wysyłka nastąpi w drugim tygodniu października 2024.

Warto preorderować, tym bardziej, iż mamy dla Was kod: pasja (użyjcie go w koszyku), dzięki któremu uzyskamy dodatkowe 15% zniżki! Dziękujemy zaprzyjaźnionej ekipie Sekuraka za kod dla naszej Społeczności!

...