• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

xpatch - przydatne informacje przydałyby się. :)

Object Storage Arubacloud
0 głosów
538 wizyt
pytanie zadane 20 września 2015 w Python przez KULTI Obywatel (1,400 p.)
Witam jakieś porady odnośnie korzystania z xpatch w (scrapy)?
Zauważyłem że wszelkiej maści "pomocne" dodatki do przeglądarek itp są mało pomocne ponieważ nie są one nastawionę na wyciąganie xpatch pod scrapy. Bo wyciągają ścieżkę dokładną a nie skróconą i nie pracują na "2 platformach" tz. podstawa która może się powtarzać i można ją iterować i elementy wyciągane z podstawy.
Czy jest może jakiś dodatek lub program który działa na tej zasadzie własnie współpracując bezpośrednio z nami a nie przeciwko nam? :)

Oraz jeśli mógłbym prosić was o podanie przykładów pasujących do iterowania przez scrapy oraz podelementy podstawy?
I jeśli mogę to proszę o podanie przykładów wyciągania tekstu, linku itp z tagów. Może być przykładem na strona, może inna obojętnie. Głównie chodzi o sposób podawania odpowiedniego xpatch podstawy i elementów bo średnio to rozumiem.

2 odpowiedzi

+1 głos
odpowiedź 20 września 2015 przez Comandeer Guru (601,110 p.)

Zacznijmy od tego, że to jest XPath, nie XPatch :P

Jest to najpotężniejszy mechanizm cięcia drzewa DOM, potężniejszy nawet od selektorów CSS.

rozdziela od siebie elementy → tak w dużym uproszczeniu to odpowiednik > w CSS. @ oznacza atrybuty, a contains to funkcja sprawdzająca czy dana rzecz zawiera daną treść.

komentarz 20 września 2015 przez KULTI Obywatel (1,400 p.)

Jeśli byłbyś @Comandeer tak miły i mógłbyś dać przykład klarownie napisany pobierania danych z forum.miroslawzelent.pl/questions to byłbym niezmiernie wdzięczny. Chciałbym to ogarnąć bez wchodzenia za każdym razem w labirynt. Dlatego taka dobrze napisana ściąga będzie darem od Boga. I pewnie nie tylko ja będę wdzięczny, bo jest to pierwszy o tym temat. :)

komentarz 20 września 2015 przez Comandeer Guru (601,110 p.)
A co chcesz uzyskać? Nie wiem czy dzisiaj to ogarnę, bo na całe szczęście nie muszę się babrać z XPath ;)
komentarz 20 września 2015 przez KULTI Obywatel (1,400 p.)
Chciałbym wysoce przydatny przykład a questions na forum mirosław zelent widze że będzie wymagał wielu różnych metod pobierania. A mam zamiar przez następny miesiąc pobierać informacje i sklejać ze sobą, dlatego potrzeba mi ściągi przydatnej a nie takiej przez co nie będę bablał się w błocie po pachy.
0 głosów
odpowiedź 20 września 2015 przez KULTI Obywatel (1,400 p.)
edycja 20 września 2015 przez KULTI

Chodzi o dość uniwersalny sposób dla scrapy do pobierania url, napisu itp oraz wygodnej iteracji.
Bo widzę 1000 różnych, różnistych sposobów a na końcu mam ochotę powiedzieć - pieprze to, a miło raz zacząć robić coś od początku miło i przyjemnie oraz najbardziej optymalną drogą. :P
Bo jak widzę takie bajery to zaczynam być smutny(dlatego pytam o dodatek który załatwiłby sprawę, są dodatki "prawie" ciekawe lecz nie pisane z myślą o scrapingu przez scrapy raczej.)

//a[contains(@href, "image")]/@href
a[href*=image]::attr(href)
//a[contains(@href, "image")]/img/@src
//a[contains(@href, "image")]/text()

 

Co robi wgl @, /, //, contains i cała ta niezrozumiała mi reszta? :)

Jeśli ktoś byłby tak miły dać przykład na podstawię np. listy pytań rozpisane dość klarownie to myślę ogarnę to w mgnieniu oka. Za pomoc będę niezmiernie wdzięczny ! :)

Podobne pytania

0 głosów
0 odpowiedzi 205 wizyt
0 głosów
0 odpowiedzi 110 wizyt
pytanie zadane 6 kwietnia 2018 w Python przez EltraEden Użytkownik (590 p.)
0 głosów
1 odpowiedź 1,046 wizyt
pytanie zadane 6 września 2017 w Python przez Programista3 Gaduła (3,390 p.)

92,572 zapytań

141,423 odpowiedzi

319,645 komentarzy

61,959 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...