• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Pobieranie informacji z innych stron, zasada działania.

Object Storage Arubacloud
0 głosów
665 wizyt
pytanie zadane 23 maja 2018 w PHP przez Jimmy Początkujący (450 p.)
Jestem ciekaw na jakiej zasadzie można pobierać informacji z innych stron. Czy aby to zrobić strona musi udostępniać jakieś API lub kanał RSS?

Ciekawi mnie jak działa strona: https://www.polskifrontend.pl/  pobiera ona artykuły z różnych blogów.

Jeśli ktoś potrafi wytłumaczyć to będę wdzięczny.
komentarz 23 maja 2018 przez mi-20 Stary wyjadacz (13,190 p.)
Wydaje mi się że musisz mieć API. Takie jak udostępniają duże serwisy, Facebook, Google czy Allegro.
komentarz 23 maja 2018 przez BT101 Stary wyjadacz (12,540 p.)

Można pobrać dokument HTML i parsować / użwać regex żeby coś tam znaleźć, są nawet jakieś biblioteki ułatwiające parsowanie htmla 

1
komentarz 23 maja 2018 przez Comandeer Guru (600,390 p.)
komentarz 23 maja 2018 przez BT101 Stary wyjadacz (12,540 p.)
Sorry nie wiedziałem, nie mniej jednak gdy na jakiejś stronie nie ma RSS ani nie udostępniają swojego API nie ma za bardzo innego wyboru (chyba) niż pobranie HTML i parsowanie w jakiś sposób.
2
komentarz 23 maja 2018 przez Comandeer Guru (600,390 p.)

W jakiś sposób – tak. Regexami – nie ;) W przypadku HTML-a najsensowniej użyć jakiejś istniejącej implementacji parsera DOM. Względnie: można poszukać parsera opartego o algorytm parsowania opisany w specyfikacji HTML. Można też użyć narzędzi pokroju Puppeteera, czyli po prostu pobrać stronę przy pomocy Chrome'a.

Regexy w HTML-u przydają się w małej liczbie przypadków, gdy wiemy dokładnie, co chcemy wyciągnąć i jest niezmienny wzorzec na to (chociaż często wykorzystanie np. XPath jest wygodniejsze tak czy inaczej), np. wiemy, że chcemy wyciągnąć wszystko, co jest wewnątrz znacznika #edit i wiemy, że zawsze dostaniemy to w formie <div id="edit">Treść</div>. W innych przypadkach (czyli zdecydowanej większości) regexy nijak się mają do parsowania HTML-a.

1 odpowiedź

+1 głos
odpowiedź 23 maja 2018 przez Comandeer Guru (600,390 p.)
Najsensowniej mimo wszystko robić to przy pomocy RSS. Tak właśnie działa podana przez Ciebie strona.

Podobne pytania

0 głosów
1 odpowiedź 2,199 wizyt
pytanie zadane 24 lutego 2018 w Python przez amator1 Początkujący (470 p.)
0 głosów
1 odpowiedź 245 wizyt
pytanie zadane 22 maja 2017 w Offtop przez drrrr_2017 Nowicjusz (140 p.)
0 głosów
0 odpowiedzi 240 wizyt
pytanie zadane 1 kwietnia 2019 w C# przez Ilmefy Obywatel (1,950 p.)

92,536 zapytań

141,377 odpowiedzi

319,453 komentarzy

61,922 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...