• Najnowsze pytania
  • Bez odpowiedzi
  • Zadaj pytanie
  • Kategorie
  • Tagi
  • Zdobyte punkty
  • Ekipa ninja
  • IRC
  • FAQ
  • Regulamin
  • Książki warte uwagi

Frekwencja liter w językach - problem z polskimi znakami i nie tylko

Object Storage Arubacloud
+1 głos
483 wizyt
pytanie zadane 2 marca 2016 w JavaScript przez Rubeus024 Obywatel (1,680 p.)

Witam wszystkich,

Niedawno natrafiłem na sposób, który pozwala na rozszyfrowanie, z jakim językiem mamy do czynienia. Wystarczy znać procentowy rozkład liter dużego tekstu, by móc przypuścić, z czym mamy do czynienia. Więcej pod tym linkiem: https://en.wikipedia.org/wiki/Letter_frequency

Zająłem się tym i na razie program zlicza litery tylko z tablicy ascii, co "trochę" zawęża zabawę. Czy da radę rozszerzyć zliczanie poszczególnych liter na cały zestaw znaków z unicode? Wszystkie pomysły są ważne, poniżej wstawiam mój kod:

<!DOCTYPE HTML>
<html lang="pl">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>Stronka</title>
</head>
<body>
	<script type="text/javascript" >
	
	var suma = 0; // zliczanie liter
	var tekst=prompt("Napisz/skopiuj tekst w celu przeanalizowania liczby poszczególnych liter)").toLowerCase(); // pytanie z prośbą o przekazanioe tekstu.
	var tablica_ascii= ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t","u", "v", "w", "x", "y", "z"]//tablica z ascii a- 97 z - 122
	var tablica_wynik= new Array(26) // tablica zliczająca wszystkie napotkane litery

	for(i=0 ; i<tablica_wynik.length ; i++){
		tablica_wynik[i]=0; // zerowanie tablicy
	}
	

	for(var i=0 ; i<tekst.length; i++){ 
		for(var j=0 ; j<tablica_ascii.length ; j++ ){
			if( tablica_ascii[j] == tekst.charAt(i) ){
				tablica_wynik[j]++;
				suma++;
			}
			
		}
	}
	//Opublikowanie wyniku:
	document.write("Oto liczba poszczególnych liter w tekście: <br>" );
	for(var i=0 ; i<tablica_wynik.length ; i++){
		document.write(tablica_ascii[i],":  ", tablica_wynik[i],". Procentowy udział litery ", tablica_ascii[i]," w tekście: ", (Math.round( (tablica_wynik[i]/suma)*1000 )/10),"%." ,"<br>" );
	}
	document.write(" Wszystkich liter w tekscie jest: ",suma,".");

	</script>
</body>
</html>

 

1 odpowiedź

+1 głos
odpowiedź 2 marca 2016 przez Comandeer Guru (602,340 p.)
wybrane 2 marca 2016 przez Rubeus024
 
Najlepsza
A spróbuj po prostu dopisać polskie literki do tej tablicy.
komentarz 2 marca 2016 przez Rubeus024 Obywatel (1,680 p.)
Dzięki wielkie! A istnieje prosta możliwość rozszerzenia zastosowania na wiele innych języków inną drogą niż dodanie znaków do tablicy?
komentarz 2 marca 2016 przez Comandeer Guru (602,340 p.)

Tak, stworzenie tablicy znaków na podstawie analizowanego stringa ;) Po prostu.

Czyli lecisz po każdym znaku i robisz coś typu:

if ( typeof chars[ currentChar ] === 'undefined' ) {
    chars[ currentChar ] = 1;
} else {
    chars[ currentChar ]++;
}

 

Podobne pytania

0 głosów
0 odpowiedzi 119 wizyt
pytanie zadane 8 kwietnia 2019 w PHP przez rafal.budzis Szeryf (85,260 p.)
0 głosów
1 odpowiedź 241 wizyt
pytanie zadane 3 września 2018 w PHP przez czujek22 Dyskutant (7,670 p.)
0 głosów
0 odpowiedzi 129 wizyt

92,625 zapytań

141,483 odpowiedzi

319,825 komentarzy

62,006 pasjonatów

Motyw:

Akcja Pajacyk

Pajacyk od wielu lat dożywia dzieci. Pomóż klikając w zielony brzuszek na stronie. Dziękujemy! ♡

Oto polecana książka warta uwagi.
Pełną listę książek znajdziesz tutaj.

Akademia Sekuraka

Kolejna edycja największej imprezy hakerskiej w Polsce, czyli Mega Sekurak Hacking Party odbędzie się już 20 maja 2024r. Z tej okazji mamy dla Was kod: pasjamshp - jeżeli wpiszecie go w koszyku, to wówczas otrzymacie 40% zniżki na bilet w wersji standard!

Więcej informacji na temat imprezy znajdziecie tutaj. Dziękujemy ekipie Sekuraka za taką fajną zniżkę dla wszystkich Pasjonatów!

Akademia Sekuraka

Niedawno wystartował dodruk tej świetnej, rozchwytywanej książki (około 940 stron). Mamy dla Was kod: pasja (wpiszcie go w koszyku), dzięki któremu otrzymujemy 10% zniżki - dziękujemy zaprzyjaźnionej ekipie Sekuraka za taki bonus dla Pasjonatów! Książka to pierwszy tom z serii o ITsec, który łagodnie wprowadzi w świat bezpieczeństwa IT każdą osobę - warto, polecamy!

...