• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Liczenie unikalnych słów z odmianami

Object Storage Arubacloud
0 głosów
159 wizyt
pytanie zadane 13 stycznia 2017 w Inne języki przez Adrakh Nowicjusz (120 p.)

Witam,

Jako pasjonat lingwistyki i literatury, ale osoba mało obeznana z informatyką, mam pytanie do osób o większej wiedzy:

Czy bardzo musiałby być złożony i jak mógłby działać program, który liczyłby unikalne wyrazy, przy wzięciu pod uwagę ich odmian w j. polskim?

Zwyczajne programy do liczenia słów miewają bardzo nieprecyzyjne wyniki, ilekroć te same wyrazy wystąpią w tekście w różnych przypadkach lub czasach, stąd problem.

Z góry dziękuję za wszelką odpowiedź smiley

2 odpowiedzi

0 głosów
odpowiedź 13 stycznia 2017 przez Wojciech Cies Obywatel (1,140 p.)
Jak znajdzie się dobre dane wejściowe, to rzecz jest prosta. Proces przekładania słowa w różnych odmianach na formę bazową (rdzeń, ang. "stem") nazywa się stemming. Są do tego biblioteki i zbiory danych dla poszczególnych języków. Jeżeli znajdzie się odpowiednią bibliotekę/słownik to zadanie robi się trywialne.

Przykładowa biblioteka: https://github.com/morfologik/morfologik-stemming
0 głosów
odpowiedź 13 stycznia 2017 przez Michał628496 Pasjonat (17,340 p.)
Każdy język jest inny i ma swoje wyjątki , więc aby zliczyć ilość różnych słów musiałbyś dla każdego słowa zapisać wszystkie jego odmiany :)

Podobne pytania

0 głosów
2 odpowiedzi 255 wizyt
pytanie zadane 8 kwietnia 2019 w PHP przez Whereismycode Obywatel (1,710 p.)
0 głosów
1 odpowiedź 598 wizyt
pytanie zadane 27 listopada 2022 w Java przez sylwka128 Nowicjusz (170 p.)
0 głosów
1 odpowiedź 568 wizyt

92,550 zapytań

141,392 odpowiedzi

319,519 komentarzy

61,935 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...