[ daniel_tebra @ 08.12.2011. 10:17 ] @
Zdravo

da li neko zna ima li stemera za srpki jezik , poput recimo snowball -a ili slicno ?

[ dreadknight @ 25.04.2012. 12:15 ] @
Da vratim ovu temu iz mrtvih, jer trenutno i meni treba. Da li neko zna za nešto ovakvo, za bilo srpski, hrvatski ili srodni jezik i to bi bilo od pomoći? Meni treba stemmer kao deo master rada. Mada možda ima neko iskusniji da mi kaže da li je stemmer neophodan kad se radi analiza sentimenta (da li je rečenica pozitivna ili negativna, Naive Bayes algoritam)?
[ dreadknight @ 24.02.2013. 22:13 ] @
Evo da sam sebi odgovorim :), ali biće korisno, ako još neko uzme da pravi neki NLP program za srpski, kome treba stemmer. Kao deo svoje master teze sam napravio stemmer za srpski jezik:
http://inspiratron.org/SerbianStemmer.php
Kao i analizator sentimenta, koji doduše ima za sad jako mali korpus, ali ako nekog zanima:
http://inspiratron.org/SerbianSentiment.php

Sve je pisano u PHP+mySQL, ali može se lako portovati za druge jezike, a sam sajt inspiratron ima i API koji radi stemming i analizu sentimenta i vraća u JSON formatu
[ abitbp6_ @ 25.02.2013. 16:12 ] @
Ne radi za ćirilicu?
[ dreadknight @ 27.02.2013. 21:00 ] @
Na žalost ne, latinični je. Mada nije teško prevesti pravila da radi i za ćirilicu. Planiram time još malo da se bavim, pošto mislim da mogu neke stvari da se još bolje naprave. Odnosno ovo je stemmer koji ima oko 300 pravila za sufikse, a može se to smanjiti, ukoliko se upotrebe koraci, poput Porterovog stemmer-a, a na taj način mislim da mogu da se reše neki problemi koje stemmer ima recimo sa glasovnim promenama. Ali treba sesti i analizirati jezik i gramatiku, dakle treba vreme, a toga je ponekad malo :).