• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

PHP OCR- Rozpoznawanie obrazów

VPS Starter Arubacloud
0 głosów
1,398 wizyt
pytanie zadane 20 maja 2015 w PHP przez elaen Gaduła (4,760 p.)
Ma ktoś jakąś wiedzę na temat OCR w PHP ? obecnie kombinuje coś z biblioteką Tesseract OCR i niby działa ale nie spełnia moich oczekiwań. Dlaczego ?

Czyta on liniami, jak książke, a chodzi mi o czytanie faktur. Np. jest taki blok:

Sprzedawca                                 Nabywca

Mietek                                         Zenek

 

No i przeczyta mi tekst jako Sprzedawca Nabywca Mietek Zenek, niebylo by problemu gdyby na każdej fakturze tak to wyglądało ale każda faktura jest inna, i czasami coś jeszcze sie pokaże dalej. Czekam na propozycje

1 odpowiedź

0 głosów
odpowiedź 20 maja 2015 przez niezalogowany

Możesz to:

"Sprzedawca Nabywca Mietek Zenek" powycinać jakos poprzez substr

do wycinania można użyć strpos+substr

komentarz 20 maja 2015 przez elaen Gaduła (4,760 p.)
Dzięki za odpowiedz ale:

Przeczytaj jeszcze raz, nie każda faktura tak wygląda... dałem przykład że czyta to liniami a wyobraz sobie że jest np

Sprzedawca              Nabywca              Faktura Nr                      JAKIES logo faktury

Mietek                        Zenek                   204 1241 1                           PLAY

 

Pamiętaj że nie wiem czy tam pod nabywca sprzedawcą będzie nazwa firmy, imie, nip, adres czy cokolwiek. Ludzie róznie to piszą. Najłatwiej było by czytać blokowo i np po Nabywca i co pod tym jest ale nie moge znaleźć takiego rozwiązania nigdzie...
komentarz 20 maja 2015 przez niezalogowany
to załaduj to wszytko do tablicy i już masz blokowo :)

Gorzej jeśli będzie "sprzedawca mietek" w linii :)

Jeśli dobrze rozumiem chciałbyś skanować fakturę i zrobić z obrazka text?
komentarz 20 maja 2015 przez elaen Gaduła (4,760 p.)
Tak ale ciągle nie rozumiesz... JA nie wiem co będzie na tej fakturze. Co mi da że wezme to i wrzuce do tablicy ? i niby jak mam wrzucic do tablicy jeżeli nie mam pojecia co jest czym
komentarz 20 maja 2015 przez niezalogowany
Dobrze rozumiem.

Logicznie myśląc nie rozwiążesz tego problemu. No chyba, że zintegrujesz sobie jakoś parsera php z http://www.wrozbita-maciej.pl/ :)
komentarz 20 maja 2015 przez elaen Gaduła (4,760 p.)
http://skanuj.to oni też z nim współpracują ?
komentarz 20 maja 2015 przez niezalogowany
Na logikę:

Musi być czynnik ludzki.

EDIT:

Możliwe, że część dokumentów da się w ten sposób przerobić na text, ale jakaś część trafia pewnie do zwykłego śmiertelnika, który to ręcznie musi zrobić.
komentarz 20 maja 2015 przez niezalogowany
Wydaje mi się, że działa to w ten sposób:

Mamy jakąś bazę z wzorami faktur, gdy mamy bazę to już wiemy co gdzie jest.

Wtedy w php jesteś w stanie wyciągać text z dokumentów i prawidłowo go segregować.

Faktury, których wzoru nie ma w bazie ręcznie przerabiają ludzie.

Podobne pytania

0 głosów
2 odpowiedzi 725 wizyt
0 głosów
1 odpowiedź 272 wizyt
pytanie zadane 26 października 2018 w Bezpieczeństwo, hacking przez mrspock Nowicjusz (240 p.)
0 głosów
1 odpowiedź 137 wizyt

92,958 zapytań

141,920 odpowiedzi

321,149 komentarzy

62,291 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Wprowadzenie do ITsec, tom 2

Można już zamawiać tom 2 książki "Wprowadzenie do bezpieczeństwa IT" - będzie to około 650 stron wiedzy o ITsec (17 rozdziałów, 14 autorów, kolorowy druk).

Planowana premiera: 30.09.2024, zaś planowana wysyłka nastąpi w drugim tygodniu października 2024.

Warto preorderować, tym bardziej, iż mamy dla Was kod: pasja (użyjcie go w koszyku), dzięki któremu uzyskamy dodatkowe 15% zniżki! Dziękujemy zaprzyjaźnionej ekipie Sekuraka za kod dla naszej Społeczności!

...