(Q-learning, SARSA, DQN, DDPG)
L'apprentissage par renforcement (RL, ci-après RL) fait référence à un type de méthode d'apprentissage automatique dans laquelle un agent reçoit une récompense différée au pas de temps suivant afin d'évaluer son action précédente. Il était principalement utilisé dans les jeux (par exemple Atari, Mario), avec des performances comparables voire supérieures à celles des humains. Récemment, lorsque l'algorithme est développé en combinaison avec des réseaux de neurones, il est capable de résoudre des problèmes plus complexes.
Du fait qu'il existe un grand nombre d'algorithmes OP, il n'est pas possible de tous les comparer entre eux. Par conséquent, cet article ne traitera brièvement que de quelques algorithmes bien connus.
1. Apprentissage par renforcement
Un OP typique a deux composants, Agent et Environnement.
– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .
. , , .
:
1. Action (A, a): , ()
2. State (S,s):
3. Rewrd (R,r): ,
4. Policy (π ): - , , (a’) .
5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )
6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a
. T(s1|(s0, a)) S0 a S1 . , , , a . , , (S*S*A )
, . / .
2.
2.1. Q-learning
Q-learning , :
Q-value:
Q, Q*, :
, Q-. Q-value, , Q-learning.
.
V « » . , , (action – a), V (). . .
(V)
, V, .
, , .
, p, , . , , , , . Q-Learning ?
a () (.. ) Q-learning (v). . (p).
, a’ Q- , . Q-learning (off-Policy).
2.2. State-Action-Reward-State-Action (SARSA)
SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .
Q
Q-learning: Q(st,at)←Q(st,at)+α[rt+1+γmaxaQ(st+1,a)−Q(st,at)]
SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]
at+1 – st+1 .
, , Q- learning Q-, , a, Q- Q (st + 1, a).
SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (st + 1, at+1). ( SARSA, State-Action-Reward-State-Action).
, SARSA – on-policy , +1. , Q-.
Q-learning , a, , a s , a, Q (st+1, a). , Q-learning (, , ), Q
, , . , Q-learning , Q . , SARSA - , (on-policy).
2.3. Deep Q Network (DQN)
Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .
DQN Q-. , - Q .
2013 DeepMind DQN Atari, . . , . Q- , .
: ?
, Q-learning. , Q Q-learning:
φ s, θ , . , Q Q .
DQN:
1. : (RL) , . . , , « » .
2. : Q , , . C, , . , , .
2.4. Deep Deterministic Policy Gradient (DDPG)
DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .
DDPG «-» - . ? , .
(TD)
u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q
DDPG DQN. DDPG , . (action).
, , , OpenAI.