Pobieranie zawartości innej strony w celu wyciągnięcia konkretnych danych

pytanie zadane 18 marca 2018 w PHP przez kevin Mądrala (5,010 p.)

Witam!

Zakładam ten wątek ponieważ nie jestem pewny czy prawidłowo podchodzę do problemu, zakładając ze mam serwis A na którym wyświetlają się pewne aukcje i chcę używając PHP i Symfony pobrać nazwy tych aukcji, zdjęcie oraz częściowy opis. Serwis w sam w sobie nie udostępnia żadnego API, do tego parametry opcji wyszukiwania są przesyłano jako GET. Chwile się nad tym zastanawiając przychodzi mi do głowy aby napisać swój paraser do tego ( nie wiem czy Symfony udostępnia mi taki komponent) pobranie strony z przesłanymi argumentami na pomocą $data = file_get_contents("abcd.com?param1=".$param1); i wyszukiwanie odpowiednich treści czyli: dane są w tabelce więc wyszukuje sobie konkretną tabelkę $table_start = strpos($data, '<table id="szukana_tabelka"'> Struktura tabelki w HTML jest stała więc konkretnych elementów wyszukuję podobnie np. opis elementu:

<?php
$el_name_start_pos = strpos($data, '<a title="', $table_start) + strlen('<a title="');
$el_name_ed_pos = strpos($data, '"', $el_name_start_pos);
$name = substr($data, $el_name_start_pos, $el_name_ed_pos - $el_name_start_pos);
?>

Powyższe, bardziej dopracowane instrukcje umieścić w pętli. Czy takim kierunkiem powinienem iść ?

Jeżeli serwis wymaga zalogowania abym zobaczył treść którą chcę pobrać to muszę POSTEM wysłać dane logowania, jeżeli korzysta z mechanizmu SESJI to mogę spokojnie pobierać jeżeli nie to muszę odbierać dane które mi zwróci i co z nimi zrobić ? Bądź przy każdym pobraniu zwartości innej strony zawsze się logować i serwer mi zwróci stronę po zalogowaniu

3 odpowiedzi

odpowiedź 18 marca 2018 przez Ehlert Ekspert (212,670 p.)

DOMCrawler oraz BrowserKit

komentarz 18 marca 2018 przez kevin Mądrala (5,010 p.)

DOMCrawler to tylko sam paraser i tym nie obsłużę sesji logowania, a BrowserKit to taki klient bez parasera ? I dokładniej mówiąc potrzebuje jednego i drugiego ?

odpowiedź 6 kwietnia 2018 przez kevin Mądrala (5,010 p.)

Dobra działa BrowserKit i DOMCrawler, tylko co jeżeli mam stronę napisaną za pomocą Angular'a ? Aby uzupełniło się drzewo DOM to muszą się wykonać skrypty Angulara czyli muszę wykonać kod JavaScript. Czy za pomocą BrowserKit'a jestem w stanie to zrobić ?