Introduction à divers algorithmes d'apprentissage par renforcement (Q-Learning, SARSA, DQN, DDPG)

(Q-learning, SARSA, DQN, DDPG)

L'apprentissage par renforcement (RL, ci-après RL) fait référence à un type de méthode d'apprentissage automatique dans laquelle un agent reçoit une récompense différée au pas de temps suivant afin d'évaluer son action précédente. Il était principalement utilisé dans les jeux (par exemple Atari, Mario), avec des performances comparables voire supérieures à celles des humains. Récemment, lorsque l'algorithme est développé en combinaison avec des réseaux de neurones, il est capable de résoudre des problèmes plus complexes.

Du fait qu'il existe un grand nombre d'algorithmes OP, il n'est pas possible de tous les comparer entre eux. Par conséquent, cet article ne traitera brièvement que de quelques algorithmes bien connus.

1. Apprentissage par renforcement

Un OP typique a deux composants, Agent et Environnement.

– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .

. , , .

:

1. Action (A, a): , ()

2. State (S,s):

3. Rewrd (R,r): ,

4. Policy (π ): - , , (a’) .

5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )

6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a

* MCTS (modèle de pas de temps de Monte Carlo), sur politique (un algorithme où l'agent est inclus dans la politique, c'est-à-dire apprend en fonction des actions dérivées de la politique actuelle), hors politique (l'agent apprend en fonction des actions reçues d'autres politique — * MCTS (- ), on-policy (, , .. , ), off-policy ( ,

. T(s₁|(s₀, a)) S₀ a S₁. , , , a . , , (S*S*A )

, . / .

2.

2.1. Q-learning

Q-learning , :

E dans l'équation ci-dessus fait référence à la valeur attendue et est le facteur d'actualisation. — E ,  - .

Q-value:

Q, Q*, :

, Q-. Q-value, , Q-learning.

.

V « » . , , (action – a), V (). . .

(V)

, V, .

, , .

, p, , . , , , , . Q-Learning ?

a () (.. ) Q-learning (v). . (p).

, a’ Q- , . Q-learning (off-Policy).

2.2. State-Action-Reward-State-Action (SARSA)

SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .

Q

Q-learning: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γmaxaQ(s_t₊₁,a)−Q(s_t,a_t)]

SARSA: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γQ(s_t+1,a_t+1)−Q(s_t,a_t)]

a_t+1– s_t+1 .

, , Q- learning Q-, , a, Q- Q (s_{t + 1}, a).

SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (s_{t + 1}, a_t+1). ( SARSA, State-Action-Reward-State-Action).

, SARSA – on-policy , +1. , Q-.

Q-learning , a, , a s , a, Q (s_t₊₁, a). , Q-learning (, , ), Q

, , . , Q-learning , Q . , SARSA - , (on-policy).

2.3. Deep Q Network (DQN)

Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .

DQN Q-. , - Q .

2013 DeepMind DQN Atari, . . , . Q- , .

: ?

, Q-learning. , Q Q-learning:

φ s, θ , . , Q Q .

DQN:

1. : (RL) , . . , , « » .

2. : Q , , . C, , . , , .

2.4. Deep Deterministic Policy Gradient (DDPG)

DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .

DDPG «-» - . ? , .

(TD)

u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q

DDPG DQN. DDPG , . (action).

A gauche, le bruit est ajouté aux actions, à droite aux paramètres. — ,

, , , OpenAI.

All Articles