Personnel ou social? Comment parvenir à une coopération dans un environnement multi-agents

HĂ©! Je m'appelle Dmitry et je veux vous parler de notre article «Équilibrer les prĂ©fĂ©rences rationnelles et autres concernant les prĂ©fĂ©rences dans les environnements coopĂ©ratifs et compĂ©titifs», qui a rĂ©cemment Ă©tĂ© admis Ă  la confĂ©rence AAMAS (A *). 





Dans cet article, nous explorons comment un groupe d'agents peut ĂȘtre formĂ© pour atteindre ses propres objectifs dans des environnements mixtes sans interfĂ©rer ni mĂȘme s'entraider. Nous avons analysĂ© plusieurs solutions existantes et proposĂ© la nĂŽtre. Le message s'est avĂ©rĂ© ĂȘtre de haut niveau, les dĂ©tails techniques sont dans l' article .





Qui sommes nous

Je m'appelle Dmitry Ivanov , je suis un étudiant de troisiÚme année en économie à St. Petersburg HSE. Je travaille dans le groupe Agent Systems and Reinforcement Learning chez JetBrains Research, ainsi qu'au Laboratoire international de théorie des jeux et de prise de décision à HSE.





  , 1 “ ” — -, , . JetBrains Research, -- .





, : , . , . — (. 1).





Figure.  1. Le dilemme du prisonnier.
. 1.  .

. , : , . , 3 . , 2 . , , , 4 . : , , .. . .





— , (Peysakhovich and Lerer, 2017). , . . , — ‘Cooperate’ ‘Defect’. , . Sequential Social Dilemma (Leibo et al., 2017), , , .





, , — ( , ?) , . , ? : ?





: , (Rashid et al., 2018). : , . . (SW = Social Welfare): 





SW (r) = \ sum_i r_i

SW , , , (). — , . , . “” ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , — , . , ,





, : , VDN, QMIX, COMA . , credit assignment reward disentanglement — , . — . SW , SW — . — , , .





Cooperative Reward Shaping

— , , . , , , λ:





( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , “ ”. , , credit assignment. , .





, : , credit assignment . : , , — . , . , — — . — QMIX COMA!





? , . , . , SW -, . . , , BAROCCO — ?





. , — Eldorado (. 2). . — 1000 , +1. , -1. , . , . , .





Figure.  2. Mercredi Eldorado
. 2. Eldorado

:





  1. BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .





  2. BAROCCO , .. λ. , , .





Espérance de vie (total pour 2 agents) Indice de Gini (moins = plus juste)
( 2 ) ( = )

. 3. Eldorado. — . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . — λ BAROCCO. — , — , . — .





:





  1. BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .





  2. BAROCCO , , . , , - .





  3. CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .





  4. , λ ( ) . 0.5. .





Source - Profondeurs de Reddit.
— Reddit.

λ. , , -, ( ), -,  — . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .





: . , , . , , , , .








All Articles