Puzzle AI

Comment j'ai appris Ă  l'agent Ă  assembler la cage 2048 dans le jeu "2048"

L'IA assemble la cellule 2048
L'IA assemble la cellule 2048

salut! Je m'appelle Rinat Maksutov, je travaille dans la division Intelligent Engineering Services du dĂ©partement Technologie du bureau russe d'Accenture et je dirige des projets de dĂ©veloppement sur mesure. Au cours de ma longue carriĂšre chez Axencher, j'ai essayĂ© de nombreux domaines diffĂ©rents: le dĂ©veloppement mobile, le front-end, le back-end et mĂȘme la science des donnĂ©es avec mashlern. Cependant, mon histoire ne portera pas sur le travail, mais sur un passe-temps. J'aime vraiment apprendre et explorer de nouveaux domaines sur mes propres projets pour animaux de compagnie. Aujourd'hui, je vais vous parler de l'un d'entre eux - comment j'ai appris Ă  l'agent d'apprentissage par renforcement (RL) Ă  jouer au cĂ©lĂšbre puzzle "2048". L'article ne contiendra dĂ©libĂ©rĂ©ment pas de code, de mathĂ©matiques, d'approches de pointe et des derniĂšres dĂ©couvertes dans le domaine, de sorte que les personnes qui connaissent bien RL ne dĂ©couvriront rien de nouveau par elles-mĂȘmes. Cet article est une histoire pour le grand public surcomment je me suis fixĂ© un objectif inhabituel et je l'ai atteint.

. , , Nanodegree Udacity (Nanodegree - ). Deep Learning Nanodegree , . 

RL, : , , - , , , - . , .

, RL , . , , , - , ( , ). 

, - , ( , RL), . - 2048 ( : https://play2048.co/). , (, , , ), , . , ( 0.9) ( 0.1). , , .

, 2048 . , 4096, 8192, . - 131 072, 2^17: 

Source: Wikipédia
: Wikipedia

. , , . , . , , , (, ), , - . , “” , , .

  1. - , “” , , , .

  2. ( , ) . , “” , . 

, , , . 

Reinforcement learning

, RL, - . - , . (, ), , . , , , , . , .

Source: https://medium.com/@dgquintero02/how-to-explain-machine-learning-to-your-family-77a3bac3593a
: https://medium.com/@dgquintero02/how-to-explain-machine-learning-to-your-family-77a3bac3593a

, , , .  , , , , . “”. , , . - “” - , . - “”, , , - ( discourage) . ( , ) .

Udacity . , , . : , , , . , , . , , . - - - , .

: AlphaGo, StarCraft . , , - , . , , . , , , . 

, . , , . , . 

, , : 1) , 2) , 3) . , , , - , . , , : , , . 

. - ( , ) , . - -, , , , StarCraft . , , , . , , , . , . , , - . , . , . , .

Un autre mĂšme avec Boromir

2048 ( - , 2048 - ) - , , , , . 

: , Deep Q-network Udacity, , . . 

, 3 ( , ):

  • One-hot encoded (16 * 18 )

  • “ ”

  • Log2

  • 4 4

  • log2

  • log2

  • 10 , 1024, Δ: 0.05, Δ: 0.9999, 

  • 1, 3, 5, 20

  • Δ ( ) 1.0 0.01

  • 100 000

  • ( )

  • 50 000 200 000

  • , , , , ..

()

  • “ ”: N , ,

  • “ ”: 3 ,

  • 2

  • 5-: 288-31024-4, ReLU Adam optimizer

  • 2, 4

  • 256, 512

  • learning rate

- , , - , - . .

, - . , .

, . - . “” , . , , 44, . fully-connected , , 116:

. , 512. , . , : 0 . , : , . 

- . , . , , - . , , , , , . , , , . 

. : , log2 . , , :

, . 512, 1024. . , . 

- , , . , . :

, a+a = b, b+b=c .., , a, b . (“+” - , “”). ? , , . , one-hot encoded . , 18, , , , . - . , , , , .

. , , , , . , . - . 

, , Space Invaders. Google .

Envahisseurs de l'espace.
Space Invaders.

, , “ ”. (“”), (“”) .

2048 . . , 2 , . , 
 . . , , . , , , 2 4. , , [ +  2 4]. , , , . - . 

-. , . , : , , - . , , : , . , , . 

, . , , . , , , . , . , , - . , , . 

, “” - . , , , . , , . . - . 1.0 0.1. , , , . , , , . - “” , . 

RL , , . , - , - , . , ( ) . , . , , . , , , , . , , - , “” - .

RĂ©partition des parts des directions de coups choisies dans chacun des jeux.
.

, : , “” - .

, . , . , , , , , . , . - - , - , , , . , - , . , , . , , . , “” ( - - , , , ). , “” , .

Le signal WOW
The WOW signal

. - - 2048.

, 2048 60 . , , . , , 1024. , 1024 , - 30 1024. , “” 2048, , , , , , - 4096.

, , . 20- , 2048 ( 16:40).

( !), . , 2048 - . , - GitHub ! , . !

PS: , back-end Python Java, front-end React. , --. , , proof-of-concept . , , !




All Articles