HĂ©! Je m'appelle Dmitry et je veux vous parler de notre article «Ăquilibrer les prĂ©fĂ©rences rationnelles et autres concernant les prĂ©fĂ©rences dans les environnements coopĂ©ratifs et compĂ©titifs», qui a rĂ©cemment Ă©tĂ© admis Ă la confĂ©rence AAMAS (A *).
Dans cet article, nous explorons comment un groupe d'agents peut ĂȘtre formĂ© pour atteindre ses propres objectifs dans des environnements mixtes sans interfĂ©rer ni mĂȘme s'entraider. Nous avons analysĂ© plusieurs solutions existantes et proposĂ© la nĂŽtre. Le message s'est avĂ©rĂ© ĂȘtre de haut niveau, les dĂ©tails techniques sont dans l' article .
Qui sommes nous
Je m'appelle Dmitry Ivanov , je suis un étudiant de troisiÚme année en économie à St. Petersburg HSE. Je travaille dans le groupe Agent Systems and Reinforcement Learning chez JetBrains Research, ainsi qu'au Laboratoire international de théorie des jeux et de prise de décision à HSE.
, 1 â â â -, , . JetBrains Research, -- .
, : , . , . â (. 1).
. , : , . , 3 . , 2 . , , , 4 . : , , .. . .
â , (Peysakhovich and Lerer, 2017). , . . , â âCooperateâ âDefectâ. , . Sequential Social Dilemma (Leibo et al., 2017), , , .
, , â ( , ?) , . , ? : ?
: , (Rashid et al., 2018). : , . . (SW = Social Welfare):
SW , , , (). â , . , . ââ ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , â , . , ,
, : , VDN, QMIX, COMA . , credit assignment reward disentanglement â , . â . SW , SW â . â , , .
Cooperative Reward Shaping
â , , . , , , λ:
( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , â â. , , credit assignment. , .
, : , credit assignment . : , , â . , . , â â . â QMIX COMA!
? , . , . , SW -, . . , , BAROCCO â ?
. , â Eldorado (. 2). . â 1000 , +1. , -1. , . , . , .
:
BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .
BAROCCO , .. λ. , , .
. 3. Eldorado. â . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . â λ BAROCCO. â , â , . â .
:
BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .
BAROCCO , , . , , - .
CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .
, λ ( ) . 0.5. .
λ. , , -, ( ), -, â . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .
: . , , . , , , , .