Comment j'ai appris Ă l'agent Ă assembler la cage 2048 dans le jeu "2048"
salut! Je m'appelle Rinat Maksutov, je travaille dans la division Intelligent Engineering Services du dĂ©partement Technologie du bureau russe d'Accenture et je dirige des projets de dĂ©veloppement sur mesure. Au cours de ma longue carriĂšre chez Axencher, j'ai essayĂ© de nombreux domaines diffĂ©rents: le dĂ©veloppement mobile, le front-end, le back-end et mĂȘme la science des donnĂ©es avec mashlern. Cependant, mon histoire ne portera pas sur le travail, mais sur un passe-temps. J'aime vraiment apprendre et explorer de nouveaux domaines sur mes propres projets pour animaux de compagnie. Aujourd'hui, je vais vous parler de l'un d'entre eux - comment j'ai appris Ă l'agent d'apprentissage par renforcement (RL) Ă jouer au cĂ©lĂšbre puzzle "2048". L'article ne contiendra dĂ©libĂ©rĂ©ment pas de code, de mathĂ©matiques, d'approches de pointe et des derniĂšres dĂ©couvertes dans le domaine, de sorte que les personnes qui connaissent bien RL ne dĂ©couvriront rien de nouveau par elles-mĂȘmes. Cet article est une histoire pour le grand public surcomment je me suis fixĂ© un objectif inhabituel et je l'ai atteint.
. , , Nanodegree Udacity (Nanodegree - ). Deep Learning Nanodegree , .
RL, : , , - , , , - . , .
, RL , . , , , - , ( , ).
, - , ( , RL), . - 2048 ( : https://play2048.co/). , (, , , ), , . , ( 0.9) ( 0.1). , , .
, 2048 . , 4096, 8192, . - 131 072, 2^17:
. , , . , . , , , (, ), , - . , ââ , , .
?
- , ââ , , , .
( , ) . , ââ , .
, , , .
Reinforcement learning
, RL, - . - , . (, ), , . , , , , . , .
, , , . , , , , . ââ. , , . - ââ - , . - ââ, , , - ( discourage) . ( , ) .
Udacity . , , . : , , , . , , . , , . - - - , .
: AlphaGo, StarCraft . , , - , . , , . , , , .
, . , , . , .
, , : 1) , 2) , 3) . , , , - , . , , : , , .
. - ( , ) , . - -, , , , StarCraft . , , , . , , , . , . , , - . , . , . , .
2048 ( - , 2048 - ) - , , , , .
: , Deep Q-network Udacity, , . .
, 3 ( , ):
| ||
|
|
|
|
| |
|
| |
|
|
|
() |
| |
|
| |
|
|
|
- , , - , - . .
, - . , .
, . - . ââ , . , , 44, . fully-connected , , 116:
. , 512. , . , : 0 . , : , .
- . , . , , - . , , , , , . , , , .
. : , log2 . , , :
, . 512, 1024. . , .
- , , . , . :
, a+a = b, b+b=c .., , a, b . (â+â - , ââ). ? , , . , one-hot encoded . , 18, , , , . - . , , , , .
. , , , , . , . - .
, , Space Invaders. Google .
, , â â. (ââ), (ââ) .
2048 . . , 2 , . , ⊠. . , , . , , , 2 4. , , [ + 2 4]. , , , . - .
-. , . , : , , - . , , : , . , , .
, . , , . , , , . , . , , - . , , .
, ââ - . , , , . , , . . - . 1.0 0.1. , , , . , , , . - ââ , .
RL , , . , - , - , . , ( ) . , . , , . , , , , . , , - , ââ - .
, : , ââ - .
, . , . , , , , , . , . - - , - , , , . , - , . , , . , , . , ââ ( - - , , , ). , ââ , .
. - - 2048.
, 2048 60 . , , . , , 1024. , 1024 , - 30 1024. , ââ 2048, , , , , , - 4096.
, , . 20- , 2048 ( 16:40).
( !), . , 2048 - . , - GitHub ! , . !
PS: , back-end Python Java, front-end React. , --. , , proof-of-concept . , , !