• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Wyszukiwanie adresów URL na danej stronie www - regex i readLine

Object Storage Arubacloud
0 głosów
337 wizyt
pytanie zadane 9 czerwca 2017 w Java przez Swierzak Użytkownik (690 p.)

witam,

mam pewien problem, docelowo mam napisac funckje, ktora pobiera ze strony wszystkie adresy URL i emaile i zapisywac je w osobnych kolekcjach.

Na poczatku chcialbym po prostu sprawdzic czy czyta poprawnie napotkane fragmenty i inkrementuje zmienna po kazdym wystapieniu.

Metoda wyglada nastepujaco

    public static void getUrlAndEmail(String url) throws IOException {

        String line;
        int count = 0;
        URL url1 = new URL(url);
        BufferedReader reader = new BufferedReader(new InputStreamReader(url1.openStream()));

        //Pattern p = Pattern.compile("^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}$");
        Pattern p = Pattern.compile("^(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]");

        while ((line = reader.readLine()) != null){
            Matcher m = p.matcher(line);
            while(m.find()){
                count++;
            }
            //System.out.println(line);
        }
        System.out.println(count);
    }

Pomimo tego, ze napisany regex dziala poprawnie i strona zawiera maile i URL'e to i tak ich nie wylapuje. 

Nie wiem czy dobrze zrozumialem BufferReadera i regexy dlatego prosze kogos obeznane, czy moglibyscie rzucic okiem i dac znac co jest nie tak ?

Z gory dziekuje  

1 odpowiedź

0 głosów
odpowiedź 10 czerwca 2017 przez kosaa Stary wyjadacz (14,130 p.)
wybrane 10 czerwca 2017 przez Swierzak
 
Najlepsza
z poczatku wyrazenia wywal daszek ^

oznacza to ze szukasz od poczatku wiersza czyli

<a href="www.judo-egzamin.pl">asd</a>

Ci nie zlapie bo na poczatku masz a href
komentarz 10 czerwca 2017 przez Swierzak Użytkownik (690 p.)
Aaa faktycznie, bo skorzystałem z poprzednich regexów do walidacji pól z formularza :D

Dzięki wielkie ;)

Podobne pytania

0 głosów
1 odpowiedź 135 wizyt
pytanie zadane 27 września 2019 w Inne języki przez niezalogowany
0 głosów
1 odpowiedź 271 wizyt
pytanie zadane 2 marca 2020 w C# przez Babbage Obywatel (1,630 p.)
0 głosów
1 odpowiedź 159 wizyt
pytanie zadane 14 kwietnia 2018 w C# przez Destroy3243 Nowicjusz (150 p.)

92,568 zapytań

141,420 odpowiedzi

319,618 komentarzy

61,954 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...