[ boki @ 09.12.2010. 15:57 ] @
Pravim jedan google-like text search engine i interesuje me koji od ovih FT enginea mi preporucujete ?

Najvise me zanima koji najbolje radi sa srpskim jezikom ?

Aplikacija je ASP.NET.


Koliko je SQL server inferiorniji u odnosu na lucene resenje i koliko lucene.net kasni za java lucene-om (solr) ?
[ dejanet @ 09.12.2010. 16:17 ] @
Solr- ako ti je dovoljno ono sto ima napravljeno: thread safe, highlighter, integraciju sa bazama, indexiranje rtf,doc, pdf, html. Ako nesto fali onda ces morati da radis sa povelikim framework-om.

Lucene - verzija za net odlicno radi, jedino sto moras da uradis svoje indexer-e za html,doc,pdf,xls itd.. ,crawler, i na kraju server aplikaciju gde ces ubudziti indexiranje i search i eventualno integrisati u neki db url-ove,statuse stranica itd..
Ovo je naravno napornija varijanta ali znas sta si uradio.

Sto se SQL servera batica je radio Open source, ali je skliznuo u komercijalu http://arachnode.net
Koliko se secam dosta je dobro uradio ceo projekat..
[ boki @ 09.12.2010. 16:39 ] @
Crawler je napisan i to mi nije potrebno.
Samo indexiranje plain text-a iz sql servera (mozda bi bilo lepo i da daje tezinu nekim html tagovima ali nije neophodno)
Nista zahtevno. Samo je bitno da se dobro ponasa sa srpskim jezikom. Imaju li neka od ovih resenja specijalnu specijalizaciju za srpski ?

Solr + solrnet mi se cini da mi definitivno zavrsava posao ali tu onda imam overhead javu, tomcat itd.
Lucene.Net sam negde citao da kaska za javom a i po verziji mi se cini da je tako (2 vs 3). Sigurno ima vec negde odradjeno ili je lako indexirati iz sql servera a ostale stvari koje si nabrojao mi netrebaju.
[ dejanet @ 09.12.2010. 16:57 ] @
Lucene.net je dovoljno dobar za 97% poslova koji se rade i za Java verziju..

Ako je crawler skinuo i html tagove, onda moras da parsujes html i da izdvajas cist text za indexiranje, tj. da pravis poseban document worker za html.
Sto se srpskog tice, drzi se utf8-a (System.Text.Encoding.UTF8.GetBytes, System.Text.Encoding.UTF8.GetString)..