Witam. Piszę aplikację do wyświetlania rozkładów jazdy autobosów MPK z mojego miasta. Po pobraniu pliku PDF z rozkładem jazdy parsuję go do postaci tekstu za pomocą biblioteki Apache PDFBox. Problem w tym, że nie do końca ogarniam tę bibliotekę i to co dostaję w rezultacie wygląda tak.
PDF po parsowaniu
Tutaj oryginalny PDF.
PDF
Jak wydzielić z tego kolumny i wiersze? Problem jest także z tym, że numery autobusów nie są parsowane.
Może istnieje inny, lepszy sposób, aby to zrobić?