Logowanie

Dekodowanie strony internetowej, a także wyszukiwanie na niej konkretnych informacji.

pytanie zadane 8 sierpnia 2020 w Python przez Hubertius Bywalec (2,970 p.)
edycja 8 sierpnia 2020 przez Hubertius

Cześć

Obecnie ćwiczę połączenie z serwerem, stroną i pobieranie stamtąd pewnych informacji, które mogą przetworzyć.

Wykonuję sobie więc takie oto ćwiczenie:

Use the BeautifulSoup and requests Python packages to print out a list of all the article titles on the New York Times homepage.

Oto na tą chwilę mój rozpisany kod:

import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.nytimes.com/")
if r.status_code == 200:
    print("Page opened successfully.")
else:
    print("Page not found!")
    exit(1)
r_html = r.text
exit(0)

Czyli mam już ogarnięte połączenie ze stroną i w razie powodzenia pobieranie do r_html całego html-a strony w postaci stringu. Okej. Pytanie teraz jak mogę wykorzystać bibliotekę bs4, a także kod źródłowy samej poniższej strony:

https://www.nytimes.com/

, aby wyprintować zechcianą przeze mnie listę artykułów? Z góry dziękuję za odpowiedzi. :)

1 odpowiedź

odpowiedź 10 sierpnia 2020 przez mint Nowicjusz (220 p.)

Na początku należy utworzyć obiekt BeautifulSoup

sp = BeautifulSoup(r.text, 'html.parser')

Jeżeli przyjrzysz się strukturze html strony, to zauważysz, że wszystkie tytuły artykułów znajdują się w znacznikach h2.

articles = [i.text for i in sp.find_all("h2")]

metoda find_all szuka wszystkich podanych znaczników i zwraca ich listę. Z każdego elementu wyciągamy tekst. Zanim zabierzesz się za zadania polecam obejrzeć jakiś tutorial na yt .

Podobne pytania

0 głosów

0 odpowiedzi 151 wizyt

Wyszukiwanie informacji na strony internetowej

pytanie zadane 26 września 2019 w C i C++ przez Jakub_27 Nowicjusz (140 p.)

0 głosów

1 odpowiedź 115 wizyt

wyszukiwanie informacji w internecie

pytanie zadane 8 stycznia 2022 w Sieci komputerowe, internet przez ketnasar_77 Początkujący (480 p.)

0 głosów

2 odpowiedzi 203 wizyt

Wyszukiwanie informacji - gdzie?

pytanie zadane 9 kwietnia 2019 w Offtop przez Leonardo Użytkownik (770 p.)

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...

Dekodowanie strony internetowej, a także wyszukiwanie na niej konkretnych informacji.

Zaloguj lub zarejestruj się, aby skomentować.

Zaloguj lub zarejestruj się, aby odpowiedzieć na to pytanie.

1 odpowiedź

Zaloguj lub zarejestruj się, aby skomentować.

Podobne pytania

O działaniu forum

Pasja informatyki w internecie

Polecane miejsca w sieci