Ako zabezpečiť učenie stroja v situácií keď ani jeho tvorca nevie stanoviť žiadané správanie v každom časovom okamihu - vie len cieľový stav a ako sa doň dostať musí algoritmus nájsť sám.
Klasické učenie je založené na minimalizácií chyby - v každej iterácií sa stanovuje rozdiel medzi ziadaným a skutočným spravanim a je tak možné adaptovať systém. Q-learning poskytuje jednu z ciest, ako učiť systémy na základe odmien len v niekoľkých stavoch - teoreticky stačí vedieť odmeniť len cieľový stav.
Využitie tohto prístupu nachádza uplatnenie od robotiky až po počítačové hry (učiaci sa agenti) V príspevku bude ukázané ako Q-learning funguje, ako interpretovať Q-funkciu (funkciu ohodnotení konaní) v pamäti pre priestory kde počet rozmerov je často väčší ako 4 (ale konečný) a nejaké ukážky ako to chodí. Všetko samozrejme napísané v C++ a C, s OSS kompilátormi g++ a gcc.
Тэги:
#slobodný_softvér #otvorený_softvér #open_source #SOIT