<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
<channel>
<title>Forum Pasja Informatyki - Najnowsze z tagiem scraping</title>
<link>https://forum.pasja-informatyki.pl/tag/scraping</link>
<description>Powered by Question2Answer</description>
<item>
<title>Jak efektywnie stosować Web Scraping przy pomocy VBA: Omijanie trudności</title>
<link>https://forum.pasja-informatyki.pl/592463/jak-efektywnie-stosowac-web-scraping-przy-pomocy-vba-omijanie-trudnosci</link>
<description>

&lt;p&gt;Niestety będę pytał o rzeczy o których zupełnie nie mam pojęcia, wiec zakładajcie z góry że zagmatwam niepotrzebnie sprawę:&lt;/p&gt;



&lt;ol&gt;
	

&lt;li&gt;Czy Web scraping przy pomocy VBA można podzielić na jakieś sposoby, rodzaje, stopnie zawansowania, kolejne coraz trudniejsze lekcje które trzeba opanować? Gdzie czerpać wiedzę o &amp;nbsp;Web scrapingu? Myślę nawet o lekcjach uczących łamania kodu – ale nie wpływaniu ale omijania takich podstawowych trudności w Web Scapingu (np. 15 sekundowe zapytania w celu nie bycia uznanym jako atak DDoS i tak dalej i tym podobnym )&lt;/li&gt;
	

&lt;li&gt;Pytanie wyżej zadaje gdyż nauczyłem się web scrapingu ze stron pod permanentnym linkiem, lub linkiem który ma w sobie zmienne parametry ale są one łatwo definiowalne (zakres dat, godzin itd. itp.) i można go hardcodować. Niestety zupełnie nie potrafię web scrapować stron stworzonych bodajże w JavaScript/JSON. Strona nie zmienia linku chodź zmienia swoją zawartość. Na stronie zmienia się parametry i należy wcisnąć przycisk „Load Data” by wyświetlić pożądane wyniki ale wciąż odbywa się to pod tym samym linkiem html. Jak zrobić by na takiej stronie działało macro pobierające zwartość? Jak to wszystko dekodować by krok po korku wiedzieć co szukać i gdzie szukać? Czy macie jakieś strony, materiały pozwalające na przeszkolenie z tego tematu?&lt;/li&gt;
	

&lt;li&gt;Jak radzić sobie na stronach podobnych do tych opisanych wyżej ale które jednak wyplowają przy ładowaniu danych jakiś odmienny link. Link który jest aktywny czasowo a już po 15 minutach jest nieaktywne (daje błąd 404) i trzeba pozyskać od nowa link wprowadzając na stronie głównej ponownie parametry.&lt;/li&gt;
&lt;/ol&gt;</description>
<category>Visual Basic</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/592463/jak-efektywnie-stosowac-web-scraping-przy-pomocy-vba-omijanie-trudnosci</guid>
<pubDate>Fri, 29 Mar 2024 21:17:21 +0000</pubDate>
</item>
<item>
<title>Node Js - Puppeteer - Web Scraping - Wyciąganie konkretnych danych z ofert OLXa</title>
<link>https://forum.pasja-informatyki.pl/576622/node-js-puppeteer-web-scraping-wyciaganie-konkretnych-danych-z-ofert-olxa</link>
<description>

&lt;p&gt;Cześć, piszę puppetera w Node JS, w bibliotece&amp;nbsp;&lt;strong&gt;puppeteer, &lt;/strong&gt;dedykowanej do skrobania*.
&lt;br&gt;
Natrafiłem na problem przy próbie skrobania OLXa:
&lt;br&gt;

&lt;br&gt;
&amp;nbsp;&lt;/p&gt;



&lt;pre class=&quot;brush:jscript;&quot;&gt;
await page.goto('https://www.olx.pl/d/motoryzacja/samochody/');

    const result = await page.evaluate(() =&amp;gt; {
        let data = [];
        let elements = document.querySelectorAll('a');

        for (var element of elements){ 
            let xxx = element.innerText;

            data.push({xxx}); 
        }

        return data; 
    });&lt;/pre&gt;



&lt;p&gt;Jak widać, ściągam dane w nazwijmy to: kontenerach, na podstawie znacznika - a. Efekt:
&lt;br&gt;
{
&lt;br&gt;
&amp;nbsp; &amp;nbsp; xxx: 'Mercedes-Benz Klasa V Auto w super stanie serwisowane regularnie ,polecam\n' +
&lt;br&gt;
&amp;nbsp; &amp;nbsp; &amp;nbsp; '\n' +
&lt;br&gt;
&amp;nbsp; &amp;nbsp; &amp;nbsp; '209 000 zł\n' +
&lt;br&gt;
&amp;nbsp; &amp;nbsp; &amp;nbsp; 'do negocjacji\n' +
&lt;br&gt;
&amp;nbsp; &amp;nbsp; &amp;nbsp; '\n' +
&lt;br&gt;
&amp;nbsp; &amp;nbsp; &amp;nbsp; 'Warszawa, Praga-Południe - Dzisiaj o 19:06\n' +
&lt;br&gt;
&amp;nbsp; &amp;nbsp; &amp;nbsp; '\n' +
&lt;br&gt;
&amp;nbsp; &amp;nbsp; &amp;nbsp; '2016 - 121 000 km\n' +
&lt;br&gt;
&amp;nbsp; &amp;nbsp; &amp;nbsp; 'Obserwuj'
&lt;br&gt;
&amp;nbsp; },
&lt;br&gt;
...
&lt;br&gt;
Potrzebuję pozyskać wybrane elementy z tego, np: cena, rocznik z przebiegiem i tytuł. Nie mogę wejść głębiej w htmla (w elementy w a), ponieważ musiałbym korzystać z selektorów css, a one się zmieniają po załadowaniu strony.
&lt;br&gt;

&lt;br&gt;
Można NA PEWNO to zrobić za pomocą&amp;nbsp;childNodes i tu jest problem, bo jakiej kombinacji nie próbowałem:&amp;nbsp;&lt;/p&gt;



&lt;pre&gt;
hasChildNodes, childNodes[...], children[...], firstChild, lasttChild&lt;/pre&gt;



&lt;p&gt;no nie potrafię tego wyciągnąć, podejrzewam, że to głupi błąd w implementacji.&amp;nbsp;
&lt;br&gt;
Pomoże Ktoś? Czy są inne pomysły?
&lt;br&gt;
(nie chcę pobierać jsona, tylko wyświetlać to na konsoli*)&lt;/p&gt;</description>
<category>JavaScript</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/576622/node-js-puppeteer-web-scraping-wyciaganie-konkretnych-danych-z-ofert-olxa</guid>
<pubDate>Mon, 19 Dec 2022 18:35:24 +0000</pubDate>
</item>
<item>
<title>Web scraping a polskie prawo</title>
<link>https://forum.pasja-informatyki.pl/572726/web-scraping-a-polskie-prawo</link>
<description>Cześć!&lt;br /&gt;
&lt;br /&gt;
Planuje stworzyć nowy projekt do portfolio i wpadłem na pomysł związany z web scrapingiem. Tylko, że związane byłoby to z pobieraniem danych z innych serwisów typu olx, otomoto czy otodom i tu pytanie:&lt;br /&gt;
&lt;br /&gt;
Czy pobieranie takich danych, ogłoszeń z tych serwisów i umieszczenie tego w swoim projekcie i udostępnienie go publicznie jest złamaniem polskiego prawa? Czy to jest może zależne od serwisu i jego regulaminów? Nawet uwzględniając to, że nie zarabiałbym na tym ani złotówki. Zakładam, że jakbym na tym zarabiał to napewno jest to nielegalne - ale pytanie czy jako projekt osobisty mógłbym takie dane pobierać i umieszczać u siebie?</description>
<category>Offtop</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/572726/web-scraping-a-polskie-prawo</guid>
<pubDate>Mon, 03 Oct 2022 21:13:39 +0000</pubDate>
</item>
<item>
<title>Web scraping - problem z linkiem z href</title>
<link>https://forum.pasja-informatyki.pl/570965/web-scraping-problem-z-linkiem-z-href</link>
<description>

&lt;p&gt;Cześć, przerabiam ten poradnik&lt;/p&gt;



&lt;pre&gt;
&lt;a href=&quot;https://www.youtube.com/watch?v=CEOTrWowqfo&quot; rel=&quot;nofollow&quot; target=&quot;_blank&quot;&gt;https://www.youtube.com/watch?v=CEOTrWowqfo&lt;/a&gt; &lt;/pre&gt;



&lt;p&gt;W pewnym momencie kod pobiera linki do strony. Aktualnie jak sprawdzam 'href' w olx to wygląda on tak &quot;/d/oferta/3-pokoje-gotowe-solidne-materialy-rakowska-ciekawa-oferta-CID3-IDQoEvU.html&quot; tzn. nie ma &lt;a href=&quot;https://www.olx.pl/&quot; rel=&quot;nofollow&quot; target=&quot;_blank&quot;&gt;https://www.olx.pl/&lt;/a&gt;.... przez co po wypisaniu linki są nieinteraktywne (chyba, że jest to link do otodom to wtedy link jest interaktywny)&amp;nbsp;&lt;/p&gt;



&lt;p&gt;&lt;img alt=&quot;&quot; src=&quot;https://forum.pasja-informatyki.pl/?qa=blob&amp;amp;qa_blobid=6095834120028208127&quot; style=&quot;height:174px; width:600px&quot;&gt;&lt;/p&gt;



&lt;p&gt;Chciałbym aby program dopisywał mi &quot;&lt;a href=&quot;https://www.olx.pl/&quot;&quot; rel=&quot;nofollow&quot; target=&quot;_blank&quot;&gt;https://www.olx.pl/&quot;&lt;/a&gt; do linków zaczynających się od &quot;/d/&quot; tak aby linki te był również interaktywne. Czy ktoś mógłby mnie naprowadzić/podesłać link jak takie coś zrobić. A może nie trzeba nic podmieniać i istnieje inny sposób, żeby to zrobić?&lt;/p&gt;



&lt;pre class=&quot;brush:python;&quot;&gt;
from bs4 import BeautifulSoup
from requests import get

#https://www.youtube.com/watch?v=CEOTrWowqfo

URL = 'https://www.olx.pl/d/nieruchomosci/mieszkania/sprzedaz/warszawa/'

page = get(URL)
bs = BeautifulSoup(page.content, 'html.parser')

for offer in bs.find_all('a', class_='css-1bbgabe'):
    footer = offer.find('p', class_='css-p6wsjo-Text eu5v0x0').get_text().strip().split('-')[0]
    title = offer.find('h6').get_text().strip()
    price = (offer.find('p', class_='css-wpfvmn-Text eu5v0x0').get_text().strip())
    link = offer.find('a')

    print(offer['href'], price)




&lt;/pre&gt;



&lt;p&gt;&amp;nbsp;&lt;/p&gt;</description>
<category>Python</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/570965/web-scraping-problem-z-linkiem-z-href</guid>
<pubDate>Fri, 19 Aug 2022 12:53:46 +0000</pubDate>
</item>
<item>
<title>Laravel9 błędy przy aktualizacji</title>
<link>https://forum.pasja-informatyki.pl/565019/laravel9-bledy-przy-aktualizacji</link>
<description>

&lt;p&gt;Ogólnie aktualizacja nieudana, gdyż wystąpiło bardzo dużo błędów. Zainstalowałem więc nowy projekt i próbowałem porobić jakieś migracje i inne rzeczy. Napotkałem np.&lt;/p&gt;



&lt;pre class=&quot;brush:php;&quot;&gt;
Undefined type 'DB'.intelephense(1009)&lt;/pre&gt;



&lt;p&gt;To jest akurat przy utworzonym seederze dla bazy danych co ciekawe składnia podpowiada błąd, a jednak wszystko działa, tzn ładuje mi bazę normalnie i wszystko jest poprawnie.
&lt;br&gt;
Skąd pojawia się taki błąd? Ogólnie chciałem zainstalować sobie i potestować dodatek do scrapingu Roach.php okazało się że wymaga PHP w Wersji 8 i tak znalazłem się właśnie w tym miejscu.&lt;/p&gt;</description>
<category>PHP</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/565019/laravel9-bledy-przy-aktualizacji</guid>
<pubDate>Wed, 20 Apr 2022 22:09:38 +0000</pubDate>
</item>
<item>
<title>Python web scrapping [problem poczatkujacego]</title>
<link>https://forum.pasja-informatyki.pl/397114/python-web-scrapping-problem-poczatkujacego</link>
<description>

&lt;p&gt;Hej wszystkim pisałem swój pierwszy &quot;poważniejszy&quot; program w pythonie 3.7 i natrafiłem na problem.&lt;/p&gt;



&lt;p&gt;Chciałbym aby program pobierał ze strony zawartość znajdującą się w &amp;lt;p class=&quot;name&quot;&amp;gt;... &amp;lt;/p&amp;gt; i wyświetlał ją bez zbędnych tagów (chyba tak to się nazywa)&lt;/p&gt;



&lt;p&gt;Co mam do tej pory:&lt;/p&gt;



&lt;pre class=&quot;brush:python;&quot;&gt;
from bs4 import BeautifulSoup
import requests

page = requests.get(&quot;http://losownik.pl/imie/losuj/name-surname&quot;)
soup = BeautifulSoup(page.content, 'html.parser')
soup = soup.find_all(class_=&quot;name&quot;)

print (soup)
&lt;/pre&gt;



&lt;p&gt;Co otrzymuje:&lt;/p&gt;



&lt;pre class=&quot;brush:python;&quot;&gt;
&quot;C:\Program Files (x86)\Python37-32\python.exe&quot; &quot;C:/PycharmProjects/Generator imion/generator imion.py&quot;
[&amp;lt;p class=&quot;name&quot;&amp;gt;
				Gabriela Król			&amp;lt;/p&amp;gt;]

Process finished with exit code 0
&lt;/pre&gt;



&lt;p&gt;chciałbym pozbyć się&amp;nbsp;[&amp;lt;p class=&quot;name&quot;&amp;gt; oraz&amp;nbsp;&amp;lt;/p&amp;gt;] Czuje że to coś bardzo prostego ale nie potrafię sobie z tym poradzić.&lt;/p&gt;



&lt;p&gt;Następnie chciałbym dodać funkcję zapisywania zebranych imion i nazwisk do tabelki w exelu dodając do tego generowanie wieku z podanego przedziału wiekowego, a na samym końcu chciałbym stworzyć swoje gui które umożliwi wpisanie ile imion i nazwisk chciałbym wygenerować, jakiej płci oraz&amp;nbsp;wskazać ścieżkę gdzie ma być zapisany plik ale wszystko w swoim czasie&lt;/p&gt;



&lt;p&gt;&amp;nbsp;&lt;/p&gt;



&lt;p&gt;Pozdrawiam i miłego dnia :D&lt;/p&gt;</description>
<category>Python</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/397114/python-web-scrapping-problem-poczatkujacego</guid>
<pubDate>Fri, 30 Nov 2018 16:05:08 +0000</pubDate>
</item>
<item>
<title>web scrapping</title>
<link>https://forum.pasja-informatyki.pl/243332/web-scrapping</link>
<description>

&lt;p&gt;Witam, mam takie pytanie, prośbę o pomoc. Musze zrobić explorator plików. Problem polega na tym iż miejsce skąd mam pobierac pliki znajduje sie na serwerze wirtualnym IIS, a więc wylistowanie elementów nie wchodzi w grę. A więc potrzebuje zrobić web scraping, problem polega na tym, że nie ma żadnych selektorów poza&amp;lt;pre&amp;gt; aby się 'zaczepic'. potrzebuje ciąg znaków najpierw rozbić tak jak idą czerwone linie, jedyny znacznik ktory moze je tak podzielić to &amp;lt;br&amp;gt;. Następnie każdy element tak jak idzie zielona linia ( z tym mysle juz by nie bylo takiego problemu, explode() dałoby radę. mam kilka pomysłów jak to zrobić ale poki co bez efektu. Nie wiem czy ktoś wgle zrozumie co napisałem ;D pozdrawiam&lt;img alt=&quot;&quot; src=&quot;https://forum.pasja-informatyki.pl/?qa=blob&amp;amp;qa_blobid=7394032028381576562&quot; style=&quot;height:320px; width:600px&quot;&gt;&lt;/p&gt;</description>
<category>PHP</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/243332/web-scrapping</guid>
<pubDate>Tue, 11 Apr 2017 07:26:28 +0000</pubDate>
</item>
<item>
<title>Pomysł na scraper w pythonie (praca dyplomowa)</title>
<link>https://forum.pasja-informatyki.pl/172734/pomysl-na-scraper-w-pythonie-praca-dyplomowa</link>
<description>Witam wszystkich :)&lt;br /&gt;
Od niedawna uczę się pythona, znalazłem ciekawy moduł 'scrapy' i zamierzam napisać klasyczną pracę - aplikacja i opis. Najpierw myślałem o apce scrapującej orzeczenia sądów powszechnych i administracyjnych (są dostępne bazy na internecie), ale stwierdziłem, że może to być mało. Potem wymyśliłem scrapowanie użytkowników portali społecznościowych, przykładowo ludzi którzy słuchają The Clash. Tylko nie wiem czy facebook/twitter etc. nie będą zabezpieczone przed tym.&lt;br /&gt;
&lt;br /&gt;
I teraz zwracam się do fachowców, może ktoś ma jakiś ciekawy pomysł. Może ktoś coś takiego robił już i da jakieś wskazówki? Może pomysł na inną aplikację dotyczącą scrapingu? Z góry bardzo dziękuję :)</description>
<category>Rozwój zawodowy, nauka, praca</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/172734/pomysl-na-scraper-w-pythonie-praca-dyplomowa</guid>
<pubDate>Thu, 25 Aug 2016 07:33:43 +0000</pubDate>
</item>
<item>
<title>Scraping danych, jak się przeiterować przez wszystkie wystąpienia elementów.</title>
<link>https://forum.pasja-informatyki.pl/90914/scraping-danych-jak-sie-przeiterowac-przez-wszystkie-wystapienia-elementow</link>
<description>

&lt;p&gt;Witam serdecznie, mam działający kod i chciałbym się przeiterować przez wszystkie wystąpienia. W tym przypadku wszystkie posty na stronie. I byłbym wdzięczny za podpowiedź jak przeiterować się przez wszystkie strony z pytaniami oraz jak połączyć to z javascriptem aby po wejściu na stronę strony się pobierały w czasie rzeczywistym, a nie najpierw pobrały a potem wyświetliły.(gdy będzie się iterować przez wszystkie strony)​.&lt;/p&gt;



&lt;pre class=&quot;brush:php;&quot;&gt;
&amp;lt;?php
require('simple_html_dom.php');

$html = file_get_html('https://forum.pasja-informatyki.pl/questions');

$info['tytul'] = $html-&amp;gt;find('.qa-q-item-title a span', 0)-&amp;gt;innertext;
$info['opis'] = $html-&amp;gt;find('.qa-q-item-title a span', 0)-&amp;gt;title;
$info['user'] = $html-&amp;gt;find('.qa-user-link', 0)-&amp;gt;innertext;

echo '&amp;lt;b&amp;gt;TYTUŁ:&amp;lt;/b&amp;gt; '.$info['tytul'];
echo '&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;';
echo '&amp;lt;b&amp;gt;OPIS:&amp;lt;/b&amp;gt; '.$info['opis'];
echo '&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;';
echo '&amp;lt;b&amp;gt;USER:&amp;lt;/b&amp;gt; '.$info['user'];
&lt;/pre&gt;



&lt;p&gt;
&lt;br&gt;
&amp;nbsp;&lt;/p&gt;</description>
<category>PHP</category>
<guid isPermaLink="true">https://forum.pasja-informatyki.pl/90914/scraping-danych-jak-sie-przeiterowac-przez-wszystkie-wystapienia-elementow</guid>
<pubDate>Sun, 20 Dec 2015 20:24:48 +0000</pubDate>
</item>
</channel>
</rss>