Ja pierwszy usłyszany dźwięk definiowałbym na podstawie głośności. Wydech jest w większości przypadków znacznie głośniejszy (i łatwiejszy do wychwycenia przez mikrofon) niż wdech. Co do określenia dokładnej granicy, niestety nie znalazłem niczego w internecie, więc proponowałbym metodę prób i błędów.
Następne określić będzie łatwo, bo wdech i wydech występują na przemiennie