[ X Files @ 24.12.2017. 16:40 ] @
Da li je neko (pro)pratio nedavna dogadjanja oko DeepMind AlphaZero projekta?

Ukratko, jedna Google-ova kompanija - DeepMind, specijalizovana za razvoj AI, privukla je pažnju razvojem i primenom inovativnog "General Reinforcement Learning Algorithm" ( https://arxiv.org/pdf/1712.01815.pdf ), koji je sa lakoćom pobedio najbolju OpenSource mašinu za šah STOCKFISH. Prethodno je pobedio i majstora igre GO, što se smatralo teorijom.

Ideja "Reinforcement alogoritma" je da se mašini zadaju samo pravila igre, bez ikakve baze znanja (recimo o otvaranjima), dakle "tabula raza", a ona kasnije kreće sama sa sobom da igra i "uči". Posle određenog vremena (od nekoliko sati), mašina je spremna.

Linkova je mnogo, takođe i YT primera igre sa StockFishom
https://en.chessbase.com/post/...is-here-alphazero-learns-chess
https://www.chess.com/news/vie...ys-stockfish-in-100-game-match
https://deepmind.com/blog/alphago-zero-learning-scratch/


Ako se pogledaju neke odrigrane šahovske partije, zaključuje se da "novi algoritam", u odnosu na tradicionalne algoritme, daleko manje pridaje pažnju osvajanju materijala (figura, odnosno uvećanju sume bodova), već se pažnja usmerava na kvalitet (razvoj i harmoniju figura na tabli). Ovakav stil igre dovodi do prostog "gušenja" protivničkih figura (materijala) na tabli, koje jednostavno kasne sa razvojem štiteći materijal, što neminovno dovodi do gubitka partije u kasnijoj fazi.


[Ovu poruku je menjao X Files dana 25.12.2017. u 13:14 GMT+1]
[ Branimir Maksimovic @ 25.12.2017. 15:53 ] @
Nesto sam pratio nije bas pod fer uslovima pobedio stock fisha ;)

edit:
nesto kao alphazero je nasao nacin da zrtvuje materijaj i postavi poziciju tako da protivnik tu prednost ne moze da iskoristi.
2. stock fish nije koristio tabele otvaranja, a i pitanje je sama komparativnost hardvera posto alpha zero radi na specijalizovanom hardveru.
[ X Files @ 26.12.2017. 06:10 ] @
Da, definitivno uslovi nisu ravnopravni da bi se govorilo o jačini jedne spram druge mašine za šah. Ja sam temu "nesrećno" fokusirao samo na šah.

Čak i tih par sati koje je Alpha Zero samog sebe učio da igra šah, sigurno nisu sati desktop računara. Možda je to i nekoliko desetina, stotina ili hiljada godina učenja desktop mašine. Ko će ga znati.


U suštini, poenta je u prikazivanju efektivnosti i efikasnosti tog "reinforcement learning" algoritma, koji se može primeniti u mnoge svrhe. Ne samo za igre jedan na jedan, već i kod raznih vrsta dijagnostika, prognoza i sl. Problem je naravno u dostupnosti podataka i njihovoj količini, da bi algoritam imao ikakvu šansu za učenjem.

Ono što je kod tog algoritma inovativno je da se samo zadaju pravila (igre), a on kasnije igra sam sa sobom i (nekako) uči na greškama.

Pratićemo.
[ djoka_l @ 26.12.2017. 07:53 ] @
Jedan dobar video o mogućnostima i slabostima AI:

[ Cola @ 27.12.2017. 20:06 ] @
NIje da ne vjerujem ali da li je stvarno bilo 4h? Ko to može dokazati?
Sa druge strane, kao što mi je kolega rekao, AlphaZero je znao protiv koga se bori i mogao je u ta "4h" da nađe slabosti StockFish-a, dok sa druge strane SF nije mogao unaprijed da se testira protif AZ.
Takođe SF nije koristio bazu otvaranja, a bez nje on ne radi optimizovano.

Nije da nisa impresioniran, to je veliki napredak, ali pitanje je koliko u toj priči ima marketinga...
[ Rapaic Rajko @ 05.01.2018. 08:20 ] @
Znaci, ipak previse neverovatno da bi bilo istinito.

Ne mogu da se setim gde sam citao (engleski) clanak, ali znam da nije pomenuto da ni StockFish nije koristio baze otvaranja; to je receno samo za AlphaZero.
Pa jos kad jedan od svedoka eksperimenta (naucnik i sahista) kaze 'sad znam kako bi vanzemaljska inteligencija igrala sah' - lako se primiti, zar ne?

Ali opet, sama cinjenica da program moze da 'igra' vise razlicitih igrica, uz (relativno) malo adaptacija, to vec nesto znaci.
Sa zanimanjem cekamo dalja desavanja
[ X Files @ 08.01.2018. 08:31 ] @
Slažem se, deluje nestvarno!

Pitam se, ukoliko ovakav algoritam stvarno radi na način kako su rekli, koliko mu je zapravo čovek asistirao (koliko ga je usmerio baš za šah), a koliko je algoritam sam zaključio kako da igra, na primer koja otvaranja da koristi. Iz priloženih partija se vidi da se ipak fokusirao na nekoliko. Žrtva od dva pešaka u početnoj fazi partije (da bi se razvile svoje jače figure i usput ugušile protivnikove), zaista je neuobičajena u konvecncionalnom šahu.

Ponoviću tvoju rečenicu, "sa zanimanjem cekamo dalja desavanja", pa makar na kraju rekli da je fejk ;)
[ mjanjic @ 08.01.2018. 12:22 ] @
Ko je bar malo upoznat sa neuronskim mrežama, ima neku predstavu kako složenost (broj slojeva, čvorova po sloju, i sl.) te neuronske mreže drastično utiče na to šta ta neuronska mreža može "naučiti", tj. za kakve je poslove sve možemo "istrenirati" da radi perfektno.

Na kraju krajeva, i ljudski mozak je jedna veoma složena neuronska mreža (sa oko 80 i nešto više milijardi neurona, plus koliki broj sinapsi između njih), samo što je takozvani "Neural coding" malo problematičan kod bioloških neurona. Neke stvari su odgonetnute, ali neke su još uvek nedokučive.
Na kraju krajeva, još uvek nije do kraja baš jasno šta je to svest, biologija se bavi jednim pogledom, a psihologija potpuno drugim.


Međutim, ono što mi je najinteresantnije kod Google-ovog rešenja je da AI navodno "vidi" samo sirove piksele i da mora sam da "nauči" i "shvati" o čemu se radi i kako da upravlja nekom igrom (prvo su krenuli sa jednostavnim arkadnim igrama, pa prešli na 3D vožnje, itd.).
Ovde se postavlja pitanje kako AI "zaključuje" šta je najveći uspeh u nekoj igri? Ispada da oni to kao nisu isprogramirali, a praktično su za svaku igricu morali posebno da pripreme AI kako bi ga pustili da sam "uči"? Ako sam zaključuje na osnovu grafičkog prikaza piksela šta treba da radi, onda mogu odmah da mu puste bilo koju igricu da nači ili bilo šta drugo, nema potrebe za posebnu "pripremu".

Očigledno je da u ovom delu (AI "vidi" samo piksele i nema ugrađenu logiku kako igra funkcioniše niti pravila) ima više marketinga nego bilo čega drugog, jer je očigledno da oni moraju da isprogramiraju poseban interfejs za svaku od igara koje su do sada "savladali", a da li će AI da "vidi" piksele preko posebnog interfejsa preko koga "razume" šta na ekranu znači vreme (npr. kod simulacije auto trka), a šta osvojeni poeni ili izgubljena loptica i sl. (npr. kod igre "breakout"), ili će AI da ima ugrađeno razumevanje za određenu igru, praktično je isto. Oni su samo sve to razdvojili u više slojeva, pa je AI u posebnom sloju i ne mora se posebno prilagođavati za različite namene (general purpose neural network), ali se interfejs za ulaz i izlaz podataka mora posebno pripremati za svaku primenu.

Inače bi jednostavno mogli da mu priključe kameru i puste da počne da uči o svetu oko nas.



A svako može da iskoristi neko od Open Source rešenja za AI bazirano na neuronskim mrežama i pokušati da ga istrenira da npr. igra šah, samo... mora se napraviti interfejs preko koga će igrati šah (bilo protiv nekog postojećeg računarskog programa ili same sebe) i/ili čitati poteze odigranih partija iz neke baze, a mora se imati i dovoljno moćan hardver da se u razumnom vremenu kvalitetno odradi "treniranje".
[ X Files @ 08.01.2018. 13:02 ] @
Citat:
Međutim, ono što mi je najinteresantnije kod Google-ovog rešenja je da AI navodno "vidi" samo sirove piksele i da mora sam da "nauči" i "shvati" o čemu se radi i kako da upravlja nekom igrom (prvo su krenuli sa jednostavnim arkadnim igrama, pa prešli na 3D vožnje, itd.).
Ovde se postavlja pitanje kako AI "zaključuje" šta je najveći uspeh u nekoj igri? Ispada da oni to kao nisu isprogramirali, a praktično su za svaku igricu morali posebno da pripreme AI kako bi ga pustili da sam "uči"? Ako sam zaključuje na osnovu grafičkog prikaza piksela šta treba da radi, onda mogu odmah da mu puste bilo koju igricu da nači ili bilo šta drugo, nema potrebe za posebnu "pripremu".

Ovaj deo te nisam najbolje razumeo. Zapravo, prema Google-u, sva pravila igre JESU (nekako) zadali, što znači i da se zna šta je cilj. Strategiju nisu zadali (npr. standardna otvaranja) ili tehnike matiranja. Ako sam dobro shvatio, nakon zadavanja pravila, mašina igra sama protiv sebe, od "najglupljih poteza" i nekako uči na greškama i uspesima. E sad, i meni ovo deluje nadrealno...