• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Dekodowanie strony internetowej, a także wyszukiwanie na niej konkretnych informacji.

Object Storage Arubacloud
0 głosów
151 wizyt
pytanie zadane 8 sierpnia 2020 w Python przez Hubertius Bywalec (2,970 p.)
edycja 8 sierpnia 2020 przez Hubertius

Cześć

Obecnie ćwiczę połączenie z serwerem, stroną i pobieranie stamtąd pewnych informacji, które mogą przetworzyć.

Wykonuję sobie więc takie oto ćwiczenie:

Use the BeautifulSoup and requests Python packages to print out a list of all the article titles on the New York Times homepage.

Oto na tą chwilę mój rozpisany kod:

import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.nytimes.com/")
if r.status_code == 200:
    print("Page opened successfully.")
else:
    print("Page not found!")
    exit(1)
r_html = r.text
exit(0)

Czyli mam już ogarnięte połączenie ze stroną i w razie powodzenia pobieranie do r_html całego html-a strony w postaci stringu. Okej. Pytanie teraz jak mogę wykorzystać bibliotekę bs4, a także kod źródłowy samej poniższej strony:

https://www.nytimes.com/

, aby wyprintować zechcianą przeze mnie listę artykułów? Z góry dziękuję za odpowiedzi.  :)

1 odpowiedź

0 głosów
odpowiedź 10 sierpnia 2020 przez mint Nowicjusz (220 p.)

Na początku należy utworzyć obiekt BeautifulSoup

sp = BeautifulSoup(r.text, 'html.parser')

Jeżeli przyjrzysz się strukturze html strony, to zauważysz, że wszystkie tytuły artykułów znajdują się w znacznikach h2.

articles = [i.text for i in sp.find_all("h2")]

metoda find_all szuka wszystkich podanych znaczników i zwraca ich listę. Z każdego elementu wyciągamy tekst. Zanim zabierzesz się za zadania polecam obejrzeć jakiś tutorial na yt wink.

Podobne pytania

0 głosów
0 odpowiedzi 151 wizyt
pytanie zadane 26 września 2019 w C i C++ przez Jakub_27 Nowicjusz (140 p.)
0 głosów
1 odpowiedź 115 wizyt
pytanie zadane 8 stycznia 2022 w Sieci komputerowe, internet przez ketnasar_77 Początkujący (480 p.)
0 głosów
2 odpowiedzi 203 wizyt
pytanie zadane 9 kwietnia 2019 w Offtop przez Leonardo Użytkownik (770 p.)

92,570 zapytań

141,422 odpowiedzi

319,643 komentarzy

61,958 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...