[ FlatLine @ 10.10.2004. 15:06 ] @
Nisam nigde mogao da nađem tabelu učestalosti slova u srpskom jeziku pa sam pošto mi je bilo dosadno uradio sam jednu...

Uzorak su SF knjige polarisa (nekih 120MB čistog teksta). Ovo je rezultat:
Code:
    [a] => 11.453994809993
    [o] => 9.5563308601263
    [e] => 8.9150152826561
    [i] => 8.5608411738116
    [n] => 5.8494190598905
    [s] => 4.6417241128947
    [r] => 4.2860775060394
    [t] => 4.2222956883524
    [j] => 4.0170730306648
    [u] => 4.0145114069062
    [d] => 3.7371023659619
    [l] => 3.7063785642697
    [m] => 3.4918190493722
    [v] => 3.1976461849193
    [k] => 3.1766417413995
    [p] => 2.6809013252682
    [.] => 1.7337531387406
    [z] => 1.6702867318702
    [g] => 1.6388536914911
    [b] => 1.5483168463365
    [,] => 1.4825920283157
    [š] => 1.1301483224593
    [č] => 0.97892451934245
    ["] => 0.91886054130787
    [h] => 0.61558171430362
    [ž] => 0.57457569425253
    [ć] => 0.5662242780192
    [c] => 0.54153510426981
    [đ] => 0.18085673646014
    [?] => 0.16198262290285
    [f] => 0.13364008574539
    [-] => 0.13205431865674
    [;] => 0.095227056274422
    [[] => 0.07304984214952
    [:] => 0.062687464135634
    [!] => 0.056679846511338
    [2] => 0.027541811907757
    [#] => 0.022043033832785
    [6] => 0.020606259146424
    [&] => 0.018915935985998
    [9] => 0.016552968763795
    [3] => 0.014074989862635
    [1] => 0.01402532572854
    [)] => 0.012814217897102
    [(] => 0.012770652867194
    [0] => 0.0084359323913604
    [7] => 0.0060337566422403
    [4] => 0.0049394030909546
    [5] => 0.0047773411796973
    [8] => 0.004360859493778
    [/] => 0.0019926644679861
    [y] => 0.0015117065378032
    [w] => 0.0015117065378032
    [*] => 0.0011928105188775
    [x] => 0.00099328268189949
    [q] => 0.00061600952289731
    [+] => 0.00020998344415594
    [%] => 0.00020824084295963
    [=] => 0.00020649824176331


Uradiću i učestalost reči ako mi bude bilo još dosadno :)

[Ovu poruku je menjao FlatLine dana 10.10.2004. u 20:35 GMT+1]
[ BytEfLUSh @ 10.10.2004. 18:52 ] @
Mnogo korisno, thanks :)

U Engl. znam da su najučestalija slova "ETAONSHRLDU", tim redosledom - to sam naučio iz knjige Contact :)

Eee... Nego, sad sam primetio - nisi uradio NJ i LJ, mogao bi to da dodaš u tu skriptu/program...
[ FlatLine @ 10.10.2004. 19:04 ] @
Nisam uradio nj i lj jer ih kada analiziraš latinicu posmatraš kao zasebna slova. Takođe, u mom uzorku su korištena ščćž i đ slova a ne njihove 'zamene' (sccz i dj). Moglo bi da se ovo uradi kako treba, ali bi mi trebao mnogo veći i raznovrsniji uzorak gde bih onda uzeo u obzir sve izuzetke i verovatno napravio posebne tablice.

U međuvremenu sam uradio i word frequency na ovom mom uzorku. Evo 100 najčešćih reči (odozgo na dole (da, i, se ...)):
Code:
je              samo            te              nisam
da              sve             smo             prema
i               kako            me              nisu
se              bila            mogao           nego
u               tako            s               nas
na              po              jedan           ipak
su              iz              kad             zbog
to              mi              bili            tamo
ne              do              joj             mnogo
a               li              si              ljudi
za              ili             pre             no
nije            ja              ovo             koliko
ali             koje            re              ono
sa              kada            njega           vi
od              ni              oko             ponovo
sam             ona             vreme           ima
bi              ti              kroz            ka
kao             ih              toga            rekao
koji            ako             njih            ovde
bio             sada            tu              preko
bilo            pa              nekoliko        dobro
o               dok             im              malo
mu              e               gde             stvari
ga              koja            bez             oni
on              onda            mogu            mo


Koga interesuje, imam i file sa 10000 najčešćih ali sam se izgleda zaglupio i ze znam da okačim attachment uz poruku (čini mi se da je pre postojala ta mogućnost).
[edit]U međuvremenu sam se odglupio. File u attachmentu.[/edit]
[ Balša @ 10.10.2004. 19:56 ] @
Otkuda se ovde našlo mo?

Zbog prenošenja reči u naredni red (čita-mo)?
[ BytEfLUSh @ 10.10.2004. 20:07 ] @
Greška je u tome što tvoj program izgleda razdvaja reči kod slova ščćđž - ni u jednoj reči (u top 100) nema tih slova. Probaj da uzimaš samo znakove interpunkcije + razmak kao graničnike između reči.

Inače, ono mo je verovatno od "može" ili "možeš". I slovo e stoji zasebno u tablici...
[ Slobodan Miskovic @ 10.10.2004. 20:14 ] @
Evo zvanicna lista... Znaci ovo je zvanicni podatak o ucestalosti slova u srpskom jeziku.

a - 0.114
b - 0.011
v - 0.037
g - 0.015
d - 0.034
đ - 0.002
e - 0.086
ž - 0.007
z - 0.017
i - 0.095
j - 0.027
k - 0.034
l - 0.027
lj - 0.006
m - 0.036
n - 0.059
nj- 0.011
o - 0.101
p - 0.030
r - 0.048
s - 0.056
t - 0.052
ć - 0.005
u - 0.044
f - 0.003
h - 0.007
c - 0.007
č - 0.011
đž - 0.0001
š - 0.009
[ Balša @ 10.10.2004. 21:18 ] @
U kom smislu je ta lista "zvanična"?
[ Slobodan Miskovic @ 10.10.2004. 21:30 ] @
Objavljena je u knjizi CODE BOOK (Sajmon Sing)
To te liste se doslo posle analize preko 100 knjiga,casopisa i novina svih zanrova....
[ FlatLine @ 10.10.2004. 22:31 ] @
Definitivno je postojala greška u brojanju reči u prethodnom programu. Evo popravljene tabele i u attachmentu nove liste 10000 najčešćih reči iz mog uzorka.

Code:
je            reče          više           prema
da            kako          ih             nisam
i             samo          smo            nisu 
se            mi            sada           nekoliko
u             sve           onda           ništa
na            iz            nešto          ovde
su            tako          pa             oko
to            bila          kad            bez
ne            o             s              toga
za            će            već            može
od            li            joj            vreme
nije          šta           si             mnogo
ali           još           te             njih
a             ona           jedan          gde
sa            do            možda          zbog
sam           ja            mogao          tu
što           kada          me             ljudi
bi            ili           biti           ponovo
kao           ti            kroz           nas
on            koje          pre            oni
koji          po            bili           tamo
bio           ako           nego           ono 
ga            dok           njega          malo
bilo          koja          ovo            im
mu            ni            čak            dobro
[ Averzija @ 14.10.2004. 23:16 ] @
Ovako stoje stvari kod nas + engleski i njemački a više na
http://www.math.hr/~duje/kript/supst.html

FREKVENCIJA SLOVA (u promilima)
HRVATSKI ENGLESKI NJEMAČKI

A 115  E 127  E 175 
I 98 T 91 N 98
O 90 A 82 I 77
E 84 O 75 R 75
N 66 I 70 S 68
S 56 N 67 A 65
R 54 S 63 T 61
J 51 H 61 D 48
T 48 R 60 H 42
U 43 D 43 U 42
D 37 L 40 L 35
K 36 C 28 G 31
V 35 U 28 O 30
L 33 M 24 C 27
M 31 W 23 M 26
P 29 F 22 B 19
C 28 G 20 F 17
Z 23 Y 20 W 15
G 16 P 19 K 15
B 15 B 15 Z 11
H 8 V 10 P 10
F 3 K 8 V 9
J 2 J 3
Q 1 Y 1
X 1 X 0
Z 1 Q 0