[ Lord_Nenad @ 12.07.2010. 15:52 ] @
Dobio sam zadatak da napravim program koji ce desifrovati reCAPTCHA reci.

reCAPTCHA je sigurnosna provera koja ima sliku sa dve reci, reci su u razlicitim formatima, nemoguci za citanje OCR citacima, koje treba uneti u polje ispod kako bi se potvrdilo da nije auto-popunjavanje, tj. da korisnik ukucava reci.

Posto je nemoguce napraviti program koji ce prepoznati reci, moguce je napraviti program koji ce iz baze uzimati info o svakoj slici i porediti ga sa trenutnom prikazanom, posto svaka slika ima drugacije reci, samim tim ima i drugaciji info.

Napravio sam program koji pregleda svaku sliku, nalazi njen info, i kada unesem te dve reci ( rucno ) on sacuva te informacije.

Ali me zanima koliko razlicitih slika ima... Koliko razlicitih dvo-rechi ima...
Gledao sam kod njih na sajtu, cak sam im i mail poslao trazeci tu informaciju, ali nisam dobio odgovor.


Pa da li neko od vas zna ovo?
[ milan.dinic @ 12.07.2010. 16:59 ] @
ne bi bilo logicno da imaju slike, vec algoritam kojim generisu slike, tako da je odgovor na tvoje pitanje koliko ih ima: jako mnogo - skoro pa beskonacno. to bi vazilo i za parove reci koje koriste.
naravno da ti nece dati odgovor na to pitanje, pitao si ih kako da provalis algoritam na kome se zasniva njihov biznis :)

IMHO, to sto ti hoces da napravis je jako tesko - skoro pa nemoguce.

ali ako mislis da mozes, srecno :)

pozdrav


[ dorijan @ 12.07.2010. 17:22 ] @
Care, reci se generisu, a slova svaki put budu drugacija. To sto ti pokusavas je besmisleno a evo i zasto. Pretpostavimo da je uvek samo 2 reci. Ogranicimo svaku od reci na po 5 slova(da vidis da je cak i u ovom slucaju besmisleno). Na svako od slovno mesto moze da dodje 26 karaktera(ako pretpostavimo da brojevi ne dolaze u ozbir)
u tom slucaju koji je uproscen i uz pretpostavku da se uvek koriste jedna te ista slova, imas 26 na deseti kombinacija koje mozes da dobijes. Cak i ako pretpostavimo da dolaze u obzir samo smislene reci, dakle da generator ne generise slovo po slovo vec rec po rec, nadji informaciju koliko reci postoji u engleskom jeziku pa na dvadrat... Dakle, prilicno sam siguran da ne cuvaju slike u bazi.

Evo ja sam napravio vrlo prost algoritam na svojim sajtovima jer su mi konstantno ostavljani spam komentari i od kada sam ga namestio, vise ni jedan nije stigao. Mada izgleda kao slicica, u pitanju je cist php i obicna slova i brojevi sa slicicom u pozadini...
Nista tesko za provaliti, ali za proste botove, sasvim dovoljna zastita...

pogledaj na www.global-it-solutions.org
[ jablan @ 12.07.2010. 17:50 ] @
Carevi, slike se NE generišu. Bacite pogled na http://www.google.com/recaptcha/learnmore

Ali svejedno, pamćenje svake slike ne dolazi u obzir, jer ih ima previše (svakim danom sve više) i verovatno se jako retko ponavljaju.
[ Lord_Nenad @ 12.07.2010. 19:33 ] @
Pa naravno da se ne regenerisu, da ima algoritam za regenerisanje mogao bi se kopirati i na isti suprotan nacin naci decoder...

Zbog toga je reCAPTCHA popularna toliko...

A i ponekad se vide reci tipa "say: popular" ( sa znakovima : ili " ili , ) tako da je logicno da je isecan neki tekst...

Pa ne bi stalno ubacivali nove slike kada bi imali npr 1000 ili 2000, ili 1 000 000, ili tako neki veliki broj... Zasto bi im trebalo vise? :S
[ Shadowed @ 12.07.2010. 22:47 ] @
Citat:
Lord_Nenad: Pa naravno da se ne regenerisu, da ima algoritam za regenerisanje mogao bi se kopirati i na isti suprotan nacin naci decoder...

Nezavisno od captcha-e, ovo nije tacno. Keyword: hash.

Citat:
Lord_Nenad: Pa ne bi stalno ubacivali nove slike kada bi imali npr 1000 ili 2000, ili 1 000 000, ili tako neki veliki broj... Zasto bi im trebalo vise? :S

Zbog ovog:

Citat:
reCAPTCHA is a free CAPTCHA service that helps to digitize books, newspapers and old time radio shows



Nisam znao da je reCaptcha Gugletova.. :(
[ Lord_Nenad @ 12.07.2010. 23:28 ] @
Dok sam pisao odgovor shvatio sam na koji nacin se moze uraditi ovo... 2-3-4 razlicitih "tesko citljivih" fontova i to je to... :/
PHP kreira sliku sa tim fontovima, uzima tekstove iz nekih novina, nekih prica... Uglavnom "beskonacno" razlicitih slika...
tj. Nemoguce za decodiranje...


Da, Google-tova je... Nisam ni ja znao dok nisam video linkove za captcha slike, da se nalaze na google serveru... :)


Jel zna neko drugi nacin da se ovo uradi? :/