[ mpaja @ 11.07.2013. 17:06 ] @
Ponovo da pitam kolege:

Za engleski jezik postoji funkcija Soundex() koja zbog njihovog izgovora reči može da nadje reč(i) koje slično ili sto zvuče ali se drugačije pišu i imaju drugačije značenje. To je OK za engleski jezik. Ceo algoritam je prilagodjen za njihov jezik. Kada se kod nas proba ipak nije to ono što treba a treba sledeće:

1. vrlo često se dešava da u toku kucanja na tastaturi se permutuju slova pa se dobiju reči koje u srpskom jeziku nisu ispravno napisane (npr Beogard)
2. prilikom kucanja teksta se ispusti neko slovo (npr. Beogrd) ili doda slovo pa ispadne nešto može a ne mora da ima značenje
3. reč se stavi pod znakove interpunklcije ili navodnike (upotreba ", ., : i sl) a sama reč označava neki pojam ili imenicu

verovatno još ima ovakvih situacija ali trenutno ne mogu da se setim.

Elem šta je zamisao:

Unosi se reč u formi (bound ili unbound polje) i na before update se radi provera pomoću f-je da li ista ili slična reč već postoji u nekoj tabeli koja je indeksirana. Ako je reč ista nastavlja se dalje a ako nije postavlja se pitanje da li je ono što je napisano nešto što je najsličnije rečima sa liste (lista se ograničava na slične reči).

Znam da je jedan rus (markov) razvio neki algoritam za slovenske jezike u koje valjda još uvek spadaju i naši južnoslovenski jezici. Nisam uspeo da pronadjem implementaciju tog algoritma a ima dosta teorijskih radova (suva matematika!).

Pitanje da li se noko bavio nečim sličnim

Hvala!