xpatch - przydatne informacje przydałyby się. :)

pytanie zadane 20 września 2015 w Python przez KULTI Obywatel (1,400 p.)

Witam jakieś porady odnośnie korzystania z xpatch w (scrapy)?
Zauważyłem że wszelkiej maści "pomocne" dodatki do przeglądarek itp są mało pomocne ponieważ nie są one nastawionę na wyciąganie xpatch pod scrapy. Bo wyciągają ścieżkę dokładną a nie skróconą i nie pracują na "2 platformach" tz. podstawa która może się powtarzać i można ją iterować i elementy wyciągane z podstawy.
Czy jest może jakiś dodatek lub program który działa na tej zasadzie własnie współpracując bezpośrednio z nami a nie przeciwko nam? :)

Oraz jeśli mógłbym prosić was o podanie przykładów pasujących do iterowania przez scrapy oraz podelementy podstawy?
I jeśli mogę to proszę o podanie przykładów wyciągania tekstu, linku itp z tagów. Może być przykładem na strona, może inna obojętnie. Głównie chodzi o sposób podawania odpowiedniego xpatch podstawy i elementów bo średnio to rozumiem.

2 odpowiedzi

odpowiedź 20 września 2015 przez Comandeer Guru (601,110 p.)

Zacznijmy od tego, że to jest XPath, nie XPatch :P

Jest to najpotężniejszy mechanizm cięcia drzewa DOM, potężniejszy nawet od selektorów CSS.

/ rozdziela od siebie elementy → tak w dużym uproszczeniu to odpowiednik > w CSS. @ oznacza atrybuty, a contains to funkcja sprawdzająca czy dana rzecz zawiera daną treść.

komentarz 20 września 2015 przez KULTI Obywatel (1,400 p.)

Jeśli byłbyś @Comandeer tak miły i mógłbyś dać przykład klarownie napisany pobierania danych z forum.miroslawzelent.pl/questions to byłbym niezmiernie wdzięczny. Chciałbym to ogarnąć bez wchodzenia za każdym razem w labirynt. Dlatego taka dobrze napisana ściąga będzie darem od Boga. I pewnie nie tylko ja będę wdzięczny, bo jest to pierwszy o tym temat. :)

komentarz 20 września 2015 przez Comandeer Guru (601,110 p.)

A co chcesz uzyskać? Nie wiem czy dzisiaj to ogarnę, bo na całe szczęście nie muszę się babrać z XPath ;)

komentarz 20 września 2015 przez KULTI Obywatel (1,400 p.)

Chciałbym wysoce przydatny przykład a questions na forum mirosław zelent widze że będzie wymagał wielu różnych metod pobierania. A mam zamiar przez następny miesiąc pobierać informacje i sklejać ze sobą, dlatego potrzeba mi ściągi przydatnej a nie takiej przez co nie będę bablał się w błocie po pachy.

odpowiedź 20 września 2015 przez KULTI Obywatel (1,400 p.)
edycja 20 września 2015 przez KULTI

Chodzi o dość uniwersalny sposób dla scrapy do pobierania url, napisu itp oraz wygodnej iteracji.
Bo widzę 1000 różnych, różnistych sposobów a na końcu mam ochotę powiedzieć - pieprze to, a miło raz zacząć robić coś od początku miło i przyjemnie oraz najbardziej optymalną drogą. :P
Bo jak widzę takie bajery to zaczynam być smutny(dlatego pytam o dodatek który załatwiłby sprawę, są dodatki "prawie" ciekawe lecz nie pisane z myślą o scrapingu przez scrapy raczej.)

//a[contains(@href, "image")]/@href

a[href*=image]::attr(href)

//a[contains(@href, "image")]/img/@src

//a[contains(@href, "image")]/text()

Co robi wgl @, /, //, contains i cała ta niezrozumiała mi reszta? :)

Jeśli ktoś byłby tak miły dać przykład na podstawię np. listy pytań rozpisane dość klarownie to myślę ogarnę to w mgnieniu oka. Za pomoc będę niezmiernie wdzięczny ! :)