[ tuolarips @ 15.12.2013. 09:51 ] @
Radi se o projektu kog sam radila pre dve godine na faxu a cija je osnovna namena prepoznavanje jezika unetog teksta. Obzirom da su sad prilike takve da cu se slicnom tematikom opet baviti, odlucih da okacim ovde taj moj projekat, da cujem komentare, zamerke, sugestije. Dakle, projekat nije nista spektakularno, klasifikatore nisam ja implementirala vec sam koristila Weka implementaciju. Za treniranje klasifikatora sam iskoristila veliki skup prevoda filmova (poznanik je imao ogromnu kolicinu prevoda za potrebe svog projekta, pa mi je bilo zgodno da se posluzim time). Program ima podrsku za deset jezika: Dutch, English, French, German, Latvian, Lithuanian, Norwegian, Serbian, Slovenian, Swedish, pri cemu bih napomenula da se vrlo lako moze prosiriti novim jezikom ukoliko je dostupan tekst na osnovu kog ce klasifikator da se istrenira. Na linku ispod se nalazi zip u kom su upakovani jar i dva serijalizovana .ser objekta (ukoliko zelite sami da pravite podatke i trenirate klasifikator, ova dva objekta nisu potrebna, a ukoliko zelite samo da unosite tekst i gledate da li ce vam program vratiti dobar jezik, onda samo pokrenite jar koji mora da se nalazi na istoj lokaciji kao i pomenuta dva .ser file-a), i takodje, spakovala sam i propratni pdf koji opisuje sta se tu sve radilo i na koji nacin. Iako nista spektakularan, projekat mi je bio jako zanimljiv za realizaciju :)

http://www.sendspace.com/file/zsdxse