Python Zamiana Mowę = Tekst pytanie

pytanie zadane 25 marca 2020 w Python przez Marak123 Stary wyjadacz (11,190 p.)
zamknięte 1 kwietnia 2020 przez Marak123

Wie ktoś może jak zrobić własny program zamiany mowy na teks tak jak to jest w bibliotece spreech recognition. Nie chodzi o biblioteki podobne do tej co podałem tylko jak samemu stworzyć taką bibliotekę czym się zainteresować aby coś takiego zrobić. Wiem ze nie jest to pewnie łatwe ale tak z ciekawości chcę się dowiedzieć czym trzeba się zająć aby coś takiego zrobić.

komentarz zamknięcia: nie

1	komentarz 25 marca 2020 przez RafalS VIP (122,820 p.) ja bym przede wszystkim zaczął od wpisania w google "speech to text python" :P

komentarz 26 marca 2020 przez Marak123 Stary wyjadacz (11,190 p.)

no i pokazują mi sie już gotowe biblioteki do pobrania a nie jak zrobić coś takiego

komentarz 26 marca 2020 przez RafalS VIP (122,820 p.)
edycja 26 marca 2020 przez RafalS

no to musisz dodac kolejne haslo kluczowe do wyszukania, w tym przypadku from scratch i dostajesz cos takiego:

https://www.analyticsvidhya.com/blog/2019/07/learn-build-first-speech-to-text-model-python/

Ten artykuł powinien wiekszosc wyjaśnić, a jeśli nie to dostaniesz hasla kluczowe do kopania głębiej.

komentarz 28 maja 2022 przez Mateusz Analityk Stary wyjadacz (13,710 p.)

@Marak123, Jak tam udało Ci się coś znaleść?

komentarz 29 maja 2022 przez Marak123 Stary wyjadacz (11,190 p.)

Coś kiedyś znalazłem ale moja wiedza nie pozwala na robienie takich rzeczy. Zapoznałem się z gotową biblioteką do konwersji, ale to i tak pytałem z ciekawości nie jest to mi potrzebne do jakiegoś projektu więc zakończyłem poszukiwania po jakimś czasie. Ale nie powiem co mi się udało zrobić bo nie pamiętam tego już.

komentarz 9 sierpnia 2022 przez Mateusz Analityk Stary wyjadacz (13,710 p.)

@Marak123, Mi udało się już temat ogarnąć, pisałem do autora vosk, znalazłem gościa dzięki github, po jakimś czasie opublikował model dla języka polskiego przeszkolony na danych Mozilli na 160 godzinach audiobooków. Samemu chciałem to zrobić, no ale on zrobił to wcześniej, tzw. przeszkolił model. Jest on pobrania na stronie vosk. Można go użyć z oprogramowaniem opensorce sub text, całkowicie za darmo. Skuteczność dla danych typu lektor, podcast bez podkładu muzyki ma skuteczność niemal 100%. Program sub text jest w stanie poprawiać najczęściej występujące błędy. Czas przechwytywania na moim Ryzen 3600x - 16 minut robiłem w 4 minuty, razem z tłumaczeniem na język angielski, przy wykorzystaniu do tłumaczenia darmowego api google.