• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Pobranie strony

Object Storage Arubacloud
0 głosów
214 wizyt
pytanie zadane 19 maja 2018 w PHP przez BlueWee Użytkownik (730 p.)
Cześć,

jak mogę pobrać zawartość wyświetlanej  strony. a nie kod źródłowy?

Próbowałem curlem, jednak curl pobiera kod źródłowy i nie pobiera mi tego, co zaraz po wejściu na stronę pojawia się w okienku pop-up, nie łączy się z css itp. Czytałem coś o CROSS, jednak nie znalazłem żadnego przyzwoitego poradnika.
komentarz 19 maja 2018 przez Mariusz08 Maniak (62,300 p.)
Chcesz skorzystać z terminala?
komentarz 19 maja 2018 przez BlueWee Użytkownik (730 p.)
Ma to być proces automatyczny - pobieranie linku z pliku txt i pobieranie strony o tym linku. Więc jakikolwiek sposób, byleby to tak działało.
komentarz 19 maja 2018 przez Mariusz08 Maniak (62,300 p.)
Jeśli musisz to zrobić w konsoli, to chyba tylko CURL - kopiuje Ci zawartość strony, ty potem klikasz w ten plik dwa razy i w przeglądarce otwiera Ci się ta strona.

3 odpowiedzi

+2 głosów
odpowiedź 20 maja 2018 przez Comandeer Guru (601,590 p.)

cURL-em nie da rady. Żeby odpaliły się skrypty i pokazał jakiś popup, musisz to zrobić z poziomu przeglądarki. Od siebie mogę polecić Puppeteer.

+1 głos
odpowiedź 20 maja 2018 przez Hunter94 Mądrala (6,290 p.)
Przeglądarka wykonuje kod js, możesz to zrobić pythonem i webkitem w trybie headless.
Przykładowy kod:
https://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

Przeglądarki działające w trybie headless:

https://github.com/dhamaniasad/HeadlessBrowsers
0 głosów
odpowiedź 19 maja 2018 przez Ehlert Ekspert (212,670 p.)

Tak na prawdę musisz pobrać treść strony. Potem to już Twoja sprawa czego użyjesz żeby pozyskać sam content.

W PHP korzystałbym ze strip_tags, albo bardziej Symfony Browserkit Component + DOMCrawler.

W JS wystarczy że złapiesz document.body innerText, lub textContent. 

3
komentarz 20 maja 2018 przez Comandeer Guru (601,590 p.)
Raczej chodzi o to, że cURL nie wykonuje JS na stronie. Kod źródłowy != wygenerowany DOM.

Podobne pytania

0 głosów
2 odpowiedzi 783 wizyt
0 głosów
1 odpowiedź 264 wizyt
pytanie zadane 4 marca 2018 w JavaScript przez damian9901 Bywalec (2,140 p.)
0 głosów
2 odpowiedzi 150 wizyt
pytanie zadane 27 czerwca 2016 w JavaScript przez Marven88 Użytkownik (750 p.)

92,579 zapytań

141,432 odpowiedzi

319,664 komentarzy

61,964 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...