Pobieranie informacji z innych stron, zasada działania.

pytanie zadane 23 maja 2018 w PHP przez Jimmy Początkujący (450 p.)

Jestem ciekaw na jakiej zasadzie można pobierać informacji z innych stron. Czy aby to zrobić strona musi udostępniać jakieś API lub kanał RSS?

Ciekawi mnie jak działa strona: https://www.polskifrontend.pl/ pobiera ona artykuły z różnych blogów.

Jeśli ktoś potrafi wytłumaczyć to będę wdzięczny.

komentarz 23 maja 2018 przez mi-20 Stary wyjadacz (13,190 p.)

Wydaje mi się że musisz mieć API. Takie jak udostępniają duże serwisy, Facebook, Google czy Allegro.

komentarz 23 maja 2018 przez BT101 Stary wyjadacz (12,540 p.)

Można pobrać dokument HTML i parsować / użwać regex żeby coś tam znaleźć, są nawet jakieś biblioteki ułatwiające parsowanie htmla

1	komentarz 23 maja 2018 przez Comandeer Guru (601,110 p.) Nie używa się regexów do parsowania HTML-a.

komentarz 23 maja 2018 przez BT101 Stary wyjadacz (12,540 p.)

Sorry nie wiedziałem, nie mniej jednak gdy na jakiejś stronie nie ma RSS ani nie udostępniają swojego API nie ma za bardzo innego wyboru (chyba) niż pobranie HTML i parsowanie w jakiś sposób.

komentarz 23 maja 2018 przez Comandeer Guru (601,110 p.)

W jakiś sposób – tak. Regexami – nie ;) W przypadku HTML-a najsensowniej użyć jakiejś istniejącej implementacji parsera DOM. Względnie: można poszukać parsera opartego o algorytm parsowania opisany w specyfikacji HTML. Można też użyć narzędzi pokroju Puppeteera, czyli po prostu pobrać stronę przy pomocy Chrome'a.

Regexy w HTML-u przydają się w małej liczbie przypadków, gdy wiemy dokładnie, co chcemy wyciągnąć i jest niezmienny wzorzec na to (chociaż często wykorzystanie np. XPath jest wygodniejsze tak czy inaczej), np. wiemy, że chcemy wyciągnąć wszystko, co jest wewnątrz znacznika #edit i wiemy, że zawsze dostaniemy to w formie <div id="edit">Treść</div>. W innych przypadkach (czyli zdecydowanej większości) regexy nijak się mają do parsowania HTML-a.