Posiadam pliki, pobrałem je z programu mozilla voice, ponad 4GB plików mp3 wraz z bazą danych transkrypcji i numerami ID tych plików mp3. Chciałbym użyć ich do przeszkolenia własnego modelu VOSK, jest to system rozpoznawania mowy oparty o KALDI, oferuje możliwość transkrypcji z wielu języków jednak brakuje w nich polskiego. Na stronie VOSK widnieje informacja, że ze standardowym szkoleniem KALDI wytrenowany model nie będzie działać dlatego należy przeprowadzić szkolenie od początku CHAIN model training. Jak zrobić takie szkolenie, a może już ktoś z was taki model przeszkolił?
Trenowanie chciałem robić na GPU RTX3060, nie wiem ile czasu by zeszło na taki trening. W mojej bazie danych jest 160 godzin nagrań jednak, jakby szkolenie miało trwać długo mógłbym wykożystać tylko jej część. Zakładam że tydzień komputer mógłby liczyć, chyba że ogarnął bym mocniejsze stacje.