Pobranie strony

pytanie zadane 19 maja 2018 w PHP przez BlueWee Użytkownik (730 p.)

Cześć,

jak mogę pobrać zawartość wyświetlanej strony. a nie kod źródłowy?

Próbowałem curlem, jednak curl pobiera kod źródłowy i nie pobiera mi tego, co zaraz po wejściu na stronę pojawia się w okienku pop-up, nie łączy się z css itp. Czytałem coś o CROSS, jednak nie znalazłem żadnego przyzwoitego poradnika.

komentarz 19 maja 2018 przez Mariusz08 Maniak (62,300 p.)

Chcesz skorzystać z terminala?

komentarz 19 maja 2018 przez BlueWee Użytkownik (730 p.)

Ma to być proces automatyczny - pobieranie linku z pliku txt i pobieranie strony o tym linku. Więc jakikolwiek sposób, byleby to tak działało.

komentarz 19 maja 2018 przez Mariusz08 Maniak (62,300 p.)

Jeśli musisz to zrobić w konsoli, to chyba tylko CURL - kopiuje Ci zawartość strony, ty potem klikasz w ten plik dwa razy i w przeglądarce otwiera Ci się ta strona.

3 odpowiedzi

odpowiedź 20 maja 2018 przez Comandeer Guru (601,590 p.)

odpowiedź 20 maja 2018 przez Hunter94 Mądrala (6,290 p.)

odpowiedź 19 maja 2018 przez Ehlert Ekspert (212,670 p.)

Tak na prawdę musisz pobrać treść strony. Potem to już Twoja sprawa czego użyjesz żeby pozyskać sam content.

W PHP korzystałbym ze strip_tags, albo bardziej Symfony Browserkit Component + DOMCrawler.

W JS wystarczy że złapiesz document.body i innerText, lub textContent.

3	komentarz 20 maja 2018 przez Comandeer Guru (601,590 p.) Raczej chodzi o to, że cURL nie wykonuje JS na stronie. Kod źródłowy != wygenerowany DOM.