Widzę, że temat zdechł zanim w ogóle miał szansę ożyć. Powiedz mi - z czego korzystasz do nauki pytorcha i jak idzie Ci rozpoznawanie mowy w nim? Pytam, bo istnieją już do tego gotowe narzędzia jak CMU Sphinx, który działa offline oraz Google Speech Recognition, który działa online - oba w Pythonie - ale działa chyba z angielskim, więc chciałbym wiedzieć czemu akurat PyTorch.
https://pypi.org/project/SpeechRecognition/
Co do samego syntezatora mowy, nie znalazłem niczego lepszego od gTTS (działa tylko online), a dodatkowo polski głos brzmi tak beznadziejnie, że jak nie planujesz używać angielskiego (en-US), to licz się z tym że będzie on naprawdę sztuczny. Nie wiem czy nie lepszym rozwiązaniem byłaby próba zrobienia syntezatora mowy na podstawie własnego głosu, ale to tylko luźna sugestia - wydaje się to być trochę skomplikowane.
EDIT:
Właśnie znalazłem coś, co wydaje się najlepszym rozwiązaniem:
https://github.com/mozilla/DeepSpeech
https://github.com/mozilla/TTS