• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Bot do mojej wyszukiwarki

Object Storage Arubacloud
0 głosów
195 wizyt
pytanie zadane 1 lutego 2019 w SQL, bazy danych przez Artek238 Początkujący (380 p.)
witam, potrzebuje prosty skrypt typu crawler-scraper, który wyciągnie określone dane ze stron.

 

przykładowo na witrynie jest 100 stron, na każdej stronie tytuł serialu, nazwa odcinka i link. chciałbym, aby skrypt pobierał te dane z każdej ze 100 stron i zapisał do bazy danych

Ktos wie jak to wykonać  i wytłumaczy jak to zrobić krok  po kroku (mam takie zadanie)

Jeśli dalem złą kategorię to poprawcie mnie

1 odpowiedź

+1 głos
odpowiedź 1 lutego 2019 przez RafalS VIP (122,820 p.)

Idealnie nadaje się do tego python. Do tego biblioteka requests do pobierania stron, BeautifulSoup do parsowania dokumentów html i wyciągania z nich informacji.

Jest masa tutoriali jak to zrobić np: https://realpython.com/python-web-scraping-practical-introduction/

Niedawno napisałem taki krótki demonstracyjny scraper, który zapisuje do pliku ilość wolnych miejsc na basenie. Można potem przeanalizować lub napisać drugi kilko linijkowy skrypt do stworzenia statystyk kiedy warto chodzić na basen :D

import requests, time, datetime
from bs4 import BeautifulSoup
check_each_seconds = 1
with open('wolne_miejsca_wojska_polskiego.txt', 'a') as file:
    while True:
        try:
            page = requests.get('http://www.baseny-krosno.pl').content
            parser = BeautifulSoup(page, 'html.parser')
            free_slots = parser.find('p', class_='zajete').string
            print(datetime.datetime.now(), free_slots, file=file)
            file.flush()
            time.sleep(check_each_seconds)
        except:
            pass

 

komentarz 1 lutego 2019 przez Artek238 Początkujący (380 p.)
Super o taką odpowiedz mi chodziło dziękuję

Podobne pytania

0 głosów
0 odpowiedzi 367 wizyt
pytanie zadane 29 maja 2016 w Sieci komputerowe, internet przez succesown Nowicjusz (200 p.)
+3 głosów
2 odpowiedzi 310 wizyt
0 głosów
0 odpowiedzi 237 wizyt
pytanie zadane 16 października 2019 w SQL, bazy danych przez 0100Kacper Nowicjusz (120 p.)

92,551 zapytań

141,399 odpowiedzi

319,529 komentarzy

61,937 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...