Logowanie

Trenowanie modelu dla systemu rozpoznawania mowy vosk

pytanie zadane 29 maja 2022 w Python przez Mateusz Analityk Stary wyjadacz (13,710 p.)

Posiadam pliki, pobrałem je z programu mozilla voice, ponad 4GB plików mp3 wraz z bazą danych transkrypcji i numerami ID tych plików mp3. Chciałbym użyć ich do przeszkolenia własnego modelu VOSK, jest to system rozpoznawania mowy oparty o KALDI, oferuje możliwość transkrypcji z wielu języków jednak brakuje w nich polskiego. Na stronie VOSK widnieje informacja, że ze standardowym szkoleniem KALDI wytrenowany model nie będzie działać dlatego należy przeprowadzić szkolenie od początku CHAIN model training. Jak zrobić takie szkolenie, a może już ktoś z was taki model przeszkolił?

Trenowanie chciałem robić na GPU RTX3060, nie wiem ile czasu by zeszło na taki trening. W mojej bazie danych jest 160 godzin nagrań jednak, jakby szkolenie miało trwać długo mógłbym wykożystać tylko jej część. Zakładam że tydzień komputer mógłby liczyć, chyba że ogarnął bym mocniejsze stacje.

Zaloguj lub zarejestruj się, aby odpowiedzieć na to pytanie.

Podobne pytania

0 głosów

0 odpowiedzi 343 wizyt

Baza słów w języku polskim do rozpoznawania mowy

pytanie zadane 19 grudnia 2018 w Inne języki przez Filip Szatkowski Nowicjusz (120 p.)

+5 głosów

3 odpowiedzi 405 wizyt

Techologie przyszłości (niedalekiej)

pytanie zadane 13 października 2018 w Offtop przez Else Stary wyjadacz (12,260 p.)

0 głosów

0 odpowiedzi 150 wizyt

System.Speech - Unity nie może załadować biblioteki.

pytanie zadane 9 kwietnia 2018 w OpenGL, Unity przez piotrsz109 Stary wyjadacz (13,730 p.)

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...

Trenowanie modelu dla systemu rozpoznawania mowy vosk

Zaloguj lub zarejestruj się, aby skomentować.

Zaloguj lub zarejestruj się, aby odpowiedzieć na to pytanie.

Podobne pytania

O działaniu forum

Pasja informatyki w internecie

Polecane miejsca w sieci