Analysez-le: classements de jeux métacritiques

Bonjour le monde Habr!



Dans cet article, je voudrais partager mon expérience de collecte et d'analyse de la base de jeux du site Metacritic.com, vous dire ce qui s'est passé et ce qu'il y a d'autre dans les plans. J'espère que le matériel trouvera ses lecteurs et que d'éventuels commentaires indiqueront les faiblesses et les pistes potentielles pour une analyse plus approfondie.



Contexte



Beaucoup d'entre nous au printemps et à l'été de cette année ont eu quelques heures gratuites par jour à notre disposition - travail à domicile, ralentissement des affaires et autres raisons que tout le monde connaît. J'ai décidé d'utiliser mon temps libre à l'avantage - de resserrer R, que je n'avais pas utilisé depuis l'université, et en même temps de pratiquer sur des données réelles (un prix sans valeur pour des certificats sans vrais projets).



Pourquoi ai-je choisi cette base particulière? Parce que j'aime les jeux. Et aussi, parce qu'en juin il y a eu un scandale autour du jeu The Last of Us. La partie II , qui a reçu un accueil critique presque complet, et a été extrêmement négativement reçue par une partie de la communauté des joueurs.



J'étais curieux de trouver une réponse à plusieurs questions:



  1. Comment les notes de la presse et des joueurs se correspondent-elles?
  2. Y a-t-il une dynamique significative dans a) les évaluations de la presse; b) les évaluations des joueurs; c) la différence d'estimations?


Et j'ai commencé à chercher des réponses.



Premier essai. Succès relatif



J'ai décidé de chercher des réponses sur metacrtitic.com - il s'agit d'un grand site qui regroupe les notes des publications de jeux et permet aux utilisateurs de noter des jeux (et pas seulement eux) (note importante: pour évaluer un jeu, il n'est pas du tout nécessaire d'en prouver la propriété). Il semblait que la tâche serait simple: "Analysez le métacritique et sentez la base avec vos mains!"



À peine dit que c'était fait. Probablement, pour le public de Habr ce ne sera pas un secret: aujourd'hui, pour écrire du code de travail (! = Bon), il n'est pas du tout nécessaire d'être programmeur. Au moins, j'y croyais pleinement, résolvant mon problème.



Armé de Google, de stackoverflow et de ce que je peux apprendre sur DataCamp, en une journée, j'ai collecté une base de données d'environ 16 mille lignes, où pour chaque publication, j'ai enregistré le nom, la plate-forme, la note des utilisateurs, la note des critiques et la date de sortie, et en ai immédiatement construit deux graphiques, qu'il a ensuite postés sur l'une des plates-formes russes pour les thèmes de jeux et de quasi-jeux.



Premiers résultats
image





Il n'y avait pas d'analyse intelligible derrière les graphiques - seulement une description minutieuse des effets observés. Cependant, la communauté a chaleureusement accepté la visualisation (et quelqu'un a même développé l'idée et a ensuite déployé un réseau de neurones qui génère des critiques pour les jeux ), ce qui a incité à ne pas tout abandonner à mi-chemin et à continuer à fouiller dans la base de données.



Deuxième essai. Intéressant ne fait que commencer



Je crois que pour le public Habr, ce ne sera pas un secret: l'arrogance est mauvaise, et écrire un code qui fonctionne (! = Bon) n'est pas une tâche facile, quelle que soit l'utilité du stackoverflow, Google et les guides «il est facile d'analyser les pages sur Internet, il vous suffit … »



J'ai publié les premiers graphiques résultants les 24 et 25 juin, et la semaine suivante, je ne pouvais guère penser à autre chose qu'à recueillir davantage d'informations.



Cependant, le code que j'ai écrit se comportait complètement horrible. Est-il:



  1. Travaillait lentement (et c'était évident);
  2. J'ai collecté des doublons de certains enregistrements et j'en ai complètement ignoré d'autres (et ce n'était pas évident, car après avoir compilé la base de liens vers des pages avec des jeux, j'en ai nettoyé les doublons, et lorsque le nombre de lignes passe à des dizaines de milliers, il est impossible de dire avec certitude si vous avez manqué quelque chose) ...


En fin de compte, The Last of Us a aidé à trouver le deuxième problème. Partie 2, que je n'ai pas pu trouver dans la base de données compilée - et après quelques itérations, j'ai réussi à trouver un code qui fonctionnerait correctement.



La solution au premier problème peut sembler triviale à quiconque gagne de l'argent en programmant - mais je ne suis pas l'un d'entre eux, alors je vous suggère de sourire avec moi (franchement, c'était un vrai moment "Aha!", Bien que le problème lui-même soit tout simplement ridicule).



L'histoire n'a pas enregistré le code, mais j'ai toujours une capture d'écran - vous pouvez l'évaluer sous le spoiler (attention, une attaque de la honte espagnole est possible ).



Tu étais prévenu




En fin de compte, les deux problèmes ont été résolus. Le code de l'analyseur est publié sur GitHub . Je suis sûr qu'il y a encore beaucoup de controverses là-dedans, mais maintenant cela semble fonctionner (ce qui ajoute définitivement des points à mon PSI).



Carte ambulatoire ou description de la base de données Metacritic.com



La liste finale des pages avec les jeux à analyser a été compilée le 1er juillet et comprenait 96719 entrées - des liens vers la page du jeu sur Metacritic.com (j'ai collecté la base de liens à partir de l'index alphabétique de chaque plateforme disponible, donc le même jeu peuvent être trouvés dans la base de données pour chaque plate-forme individuelle; pour être honnête, il convient de noter que les estimations dans ces cas sont également indépendantes).



> length(all_platforms)
[96719]


Ceci est intéressant: en fait, il y avait 96 718 enregistrements dans cette base de données convenant au travail. Metacritic stocke un jeu appelé *** dans une liste alphabétique pour PC (oui, ce sont trois astérisques - et non, ce n'est pas de la censure), mais le lien est dans ce la liste pointe vers la page de jeux PC, pas la page de jeu existante . Je ne vois pas grand intérêt à l'ajouter "à la main" - le jeu n'a ni évaluation des utilisateurs ni critiques; par conséquent, il n'y a pratiquement aucun avantage pour l'analyse (compte tenu de la taille de la base de données, bien sûr).



Sur les 96 718 lignes restantes, 213 liens mènent à une page 404 ou «jurent» à 500 erreurs de serveur - ces pages sont ignorées lorsque la base de données est collectée et mise à jour.



> length(all_platforms) - nrow(base_df)
[1] 213


Comment ces jeux sont-ils divisés par plateforme? Jetons un coup d'œil en haut:







en termes de nombre de jeux, le PC occupe la première place, puis, de manière assez inattendue (pour moi), iOS suit, dépassant toutes les consoles de la génération actuelle. De plus, même sans ventilation séparée par année, on constate que le nombre de jeux augmente avec chaque génération suivante.



Regardons le nombre de jeux par date de sortie - par année, semestre et mois de sortie du jeu:







en 2019, un retrait est clairement visible par rapport à 2018 - peut-être que la base de données Metacritic sera toujours reconstituée, mais jusqu'à présent, la différence est assez notable. Il sera intéressant de regarder les résultats de 2020.



Outre l'augmentation attendue du nombre de jeux d'année en année, il est également clair que le second semestre est un peu plus populaire - la stratégie de sortie de jeux pour les vacances du Nouvel An est clairement lue (ou plutôt la sortie avec un certain «décalage» - sortie en octobre-novembre pour que le jeu ait le temps de recueillir la presse et recommandations). Il est impossible de dire sur le succès d'une telle stratégie basée sur des données métacritiques - il faut regarder les données de vente, mais ce comportement cohérent des éditeurs vous fait croire en son efficacité.

Dans la première moitié de l'année, il n'y a pas de pics aussi clairs - après tout, les vacances de Noël / Nouvel An sont les célébrations les plus universelles au monde, clairement associées aux cadeaux.



C'est intéressant:dans la base de données métacritique, seuls 18 jeux n'ont pas de date de sortie complète. 17 d'entre eux sont des jeux sur PC, un de plus - sur Wii U. Quatre d'entre eux ont l'année indiquée, un de plus a le statut "TBA 2011", le reste - TBA ou TBA - Early Access. Pas mal pour une base aussi impressionnante!

Parmi les 96 505 entrées restantes, 25 943 (26,9%) ont des critiques, 29 129 (30,2%) ont des évaluations d'utilisateurs et 20 739 (21,5%) des jeux ont les deux évaluations.

: 1/5 metacrtitic.com , . , 20 – , . , metacritic.com ( metacritic.com, , ). , (, ), . , , – metascore, .
Informations sur le nombre d'entrées,% de jeux notés (étiquette grise avec un nombre entre le nom de la plateforme et la barre - elle est également affichée avec un remplissage coloré) dans une représentation graphique.







J'étais également intéressé de voir la part des exclusivités sur chaque plateforme. Là encore, PC et iOS sont les leaders - PC évidemment en raison des particularités de la plate-forme (le développeur ne doit rien au détenteur de la plate-forme - car il n'y a tout simplement pas de support de plate-forme au sens similaire aux consoles); et iOS en raison du fait que le jeu mobile est un monde complètement séparé, ne se croisant que partiellement avec le jeu classique (du moins dans le sens des titres publiés sur la plate-forme). De plus, on voit clairement que plus la génération est récente, plus les jeux multiplateformes sont nombreux - bien que Nintendo se distingue ici, qui a également de nombreuses consoles portables dans son portefeuille, avec son propre ensemble de séries exclusives. Veuillez noter que les principales consoles de la génération sortante - PS4 et Xbox One, complètent la liste,montrant presque le même résultat - 12% et 11% d'exclusivités, respectivement. Mais il est important de procéder à un ajustement du nombre de jeux publiés sur la plateforme - la console de Sony est en avance sur le concurrent de Microsoft dans cet indicateur - en conséquence, et le nombre absolu d'exclusivités est ici plus grand. Mais en général, la politique est comparable - sauf que la société de Redmond dépense moins en support marketing pour les jeux disponibles uniquement sur sa plate-forme.







Vous trouverez ci-dessous un graphique de la distribution des notes (les notes des utilisateurs sont réduites à une échelle de 100 points) - on ne peut pas dire qu'il n'y a aucune différence dans les notes, mais elles sont assez proches.







Pour tirer une conclusion sans ambiguïté sur la différence des scores, nous comparons les scores moyens avec un test t apparié (puisque nous comparons les valeurs moyennes de deux caractéristiques pour les mêmes objets). Par ailleurs, je note que les moyennes données sont pondérées par le nombre de notes de jeu. Le résultat - compte tenu de la taille de la base de données - est attendu, les différences sont importantes:



> t.test(x = both_scores$UserScore * 10,
       y = both_scores$MetaScore,  
       paired = TRUE)
	Paired t-test

data:  both_scores$UserScore * 10 and both_scores$MetaScore
t = -17.603, df = 20738, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.823471 -1.458075
sample estimates:
mean of the differences 
              -1.640773


A ce stade, deux conclusions se suggèrent:



  1. La distribution des évaluations, quelle que soit la source, est décalée vers la droite, l'échelle en dix points est utilisée de manière très limitée - les évaluations des jeux tendent vers la partie supérieure de l'échelle.
  2. Les utilisateurs et les critiques ont tendance à évaluer les jeux différemment - en moyenne, le score de l'utilisateur est ~ 1,6 en dessous de MetaScore sur une échelle de 100 points (ce qui, cependant, peut être une différence mineure pour l'un des consommateurs de ces notes - un joueur essayant de se faire une idée du jeu avant d'acheter).


Et après? Allons jusqu'au bout.



Breaking Bad



Tout d'abord, je veux regarder l'histogramme à pleine échelle.







Plusieurs choses intéressantes peuvent être vues sur le graphique. Certaines estimations sont clairement plus courantes que celles voisines. Ceci est tout à fait compréhensible avec les nombres «ronds» - 40, 50, 70 points sont populaires auprès des utilisateurs. Le graphique montre clairement que le jeu est moins susceptible de recevoir un score de 79 points - s'il a atteint cette valeur, il n'est pas dommage d'en jeter un supplémentaire ni pour ceux qui rédigent des critiques de manière professionnelle, ni pour ceux qui partagent simplement leurs opinions. Mais si vous ne pouvez pas le tirer de quelque manière que ce soit, le jeu recevra probablement un score inférieur d'un point - d'où les pics de points se terminant par 8 ou 3. Tout le monde aime les jolis chiffres!



Plus loin dans le programme - histogrammes de la distribution des estimations séparément pour chaque année, à partir de 2001 (franchement, j'ai été guidé par la beauté de la visualisation plutôt que par toute autre raison). Nous voyons ici un voyage étonnant de la note moyenne des utilisateurs, passant de 83 points exorbitants en 2001 à 47 points terrifiants en 2020 - nous reviendrons sur ce dernier, mais pour l'instant, rappelez-vous qu'au moment de la collecte de la base, exactement six mois se sont écoulés et que certains jeux ne sont pas encore sortis. Dans ce contexte, les scores des critiques semblent remarquablement stables, allant de 70 points en 2007 à 75 en 2020, ce qui n'est pas encore terminé.







Et les plateformes? Ici, on peut clairement voir les favoris des critiques - ce sont des jeux publiés sur la Nintendo 64 (permettez-moi de vous rappeler cependant qu'il n'y en a que 94 - avec des estimations des deux sources - dans la base de données) et ... iOS, assez curieusement. Les sympathies des joueurs sont de retour du côté rétro - comparez simplement l'impressionnante moyenne de 86 points sur PlayStation avec les 66 dérisoires sur les jeux PS4! Une dynamique similaire est observée dans la famille Xbox. Séparément, la Nintendo Switch et la Xbox 360 montrent un accord frappant entre les critiques et les utilisateurs.







Peut-être que la raison des notes plus élevées des utilisateurs pour les jeux plus anciens réside dans le plan de la psychologie - mon hypothèse est que les gens leur ont donné des évaluations des années, voire des décennies après la sortie, évaluant leurs souvenirs du jeu et une enfance heureuse plutôt que le jeu lui-même. Cependant, pour confirmer ou infirmer cette hypothèse, il est nécessaire d'obtenir des métadonnées pour chaque enquête auprès des utilisateurs - la base existante pour l'inférence n'est pas suffisante.



Revenons à l'analyse par année.







Là encore - mais plus clairement - on observe la stabilité des notes des critiques et la baisse constante de la note moyenne des utilisateurs - jusqu'à 47 points en 2020. Intuitivement, il semble que la corrélation entre les estimations devrait diminuer - il vaut la peine de regarder le graphique avec les corrélations.







La ligne grise indique la corrélation générale pour toutes les observations de la base de données (y compris les jeux sortis avant 2000). À première vue, les évaluations des jeux sortis depuis le milieu de la décennie à venir s'éloignent de plus en plus, tandis que les opinions des critiques et des joueurs divergent de plus en plus.



Cependant, nous avons toujours une note moyenne anormalement basse des joueurs en 2020. Et avant de continuer, vous devez y faire face.



Construisons un nuage de points pour le nombre d'avis d'utilisateurs et d'avis critiques. Je n'ai délibérément pas rendu l'échelle logarithmique avec le nombre de notes des joueurs - de cette façon, deux valeurs extrêmes sont beaucoup mieux lues.







Faites attention aux deux points avec le nombre maximum d'avis d'utilisateurs - Warcraft 3: Reforged et le très The Last of Us: Part 2. Les deux jeux ont une note moyenne des utilisateurs faible (contrairement à leurs voisins les moins notés du top 10 en termes de nombre de notes). et le nombre d'évaluations lui-même agit comme un coefficient dans le calcul de la note moyenne pour l'année - ainsi, ils sous-estiment tous deux grandement la note moyenne. Vous trouverez ci-dessous le top 10 mentionné - et il se trouve que les deux jeux sont sortis en 2020.







Les deux jeux sont clairement victimes du soi-disant "bombardement de revue" - bien que Warcraft 3: Reforged soit, en principe, une grosse déception pour toute la communauté, y compris les critiques. Mais effacer les notes trop élevées ou trop basses en continuant à parler du lien entre les notes des joueurs et les critiques n'est pas sage. Et si seuls ces deux jeux étaient exclus? Eh bien, la note moyenne des utilisateurs en 2020 augmentera considérablement. Cependant, l'influence sur le coefficient de corrélation sera pratiquement imperceptible - contrairement à la moyenne, son calcul n'a pas pris en compte le «poids» du jeu.











Et si nous excluions tous les jeux avec trop de notes de l'analyse? Et combien est trop gros? Examinons de plus près la variable:



> summary(both_scores$UserReviews)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
     4.0     11.0     25.0    144.2     75.0 104424.0


L'un des critères classiques pour trouver des valeurs aberrantes est le seuil d'un intervalle interquartile et demi. Dans notre cas - (75-11) * 1,5 = 96 (qui doit être ajouté à la valeur du troisième quartile). Il n'y a pas d'émissions «par le bas» - le score de l'utilisateur est défini lorsqu'il y a au moins quatre avis, mais d'en haut, nous nous débarrassons de 2768 jeux, laissant 17 971 entrées.











On peut à nouveau observer des notes moyennes des utilisateurs inférieures à 70 après 2011 et une diminution progressive de la corrélation depuis 2017 - cependant, il convient de noter que des indicateurs de corrélation similaires ont déjà été rencontrés - dans la période 2000-2020 illustrée se démarquent clairement 2005, 2010-2011, 2015- 2016 ans. Mais la baisse n'a jamais été systématique - dont des signes sont perceptibles sur la période 2017-2020. Il y a deux explications possibles: premièrement, la contribution du bombardement de revue peut être surestimée; deuxièmement, je peux sous-estimer son ampleur, et il est nécessaire de réduire encore le critère du maximum acceptable d'avis d'utilisateurs; néanmoins, pour ce matériel, je m'en tiendrai à la première hypothèse, laissant la vérification de la seconde comme discussion possible.



Outre tout ce qui a déjà été discuté ci-dessus, je voudrais attirer directement l'attention du public sur la différence de notes - pour le calcul de laquelle, encore une fois, la note moyenne des utilisateurs a été multipliée par 10.







Pour la première fois dans ce matériel, une distribution apparaît qui ressemble à une normale dans sa forme (théoriquement, le chercheur il est nécessaire de vérifier la normalité de la distribution, cependant, il y a une mise en garde selon laquelle, si la sélection aléatoire des observations et une base suffisamment grande sont observées, la différence par rapport à la distribution normale peut être ignorée à l'aide d'outils statistiques standard) - cela peut être considéré comme un succès local! Cependant, il ne sera pas possible de consolider le succès avec un contrôle formel - vérifier la normalité par le chi carré de Pearson nous renverra une valeur p significativement inférieure à 0,05:



> Diff <- unlist(both_scores %>%
  mutate(ReleaseDate = year(ReleaseDate), Diff = UserScore * 10 - MetaScore) %>%
  select(Diff))
> nortest::pearson.test(Diff)
	Pearson chi-square normality test
data:  Diff
P = 35078, p-value < 2.2e-16


Il ne reste plus qu'à accepter, à se rappeler que les conclusions basées sur l'analyse des jeux avec les deux cotes sur Metacritic.com ne doivent pas être généralisées pour les jeux en général - et avec cette pensée continuer l'analyse.



Regardons la différence de notes par année de sortie du jeu:











Si le premier graphique est difficile à interpréter, alors le second montre clairement la tendance précédemment indiquée - les joueurs sont plus favorables aux «anciens» jeux - et sont enclins à évaluer les nouveaux jeux moins bien que la presse. Fait intéressant, la différence moyenne est très proche de zéro pour les jeux sortis en 2009-2010 - et regardez quels jeux sont sortis il y a dix ans! Il convient cependant de rappeler que la corrélation entre les estimations en 2010 est relativement faible - il semble que le nombre réel de jeux avec des estimations divergentes cette année soit important, mais les vecteurs des différences s'équilibrent.



Enfin, jetons un coup d'œil aux plates-formes - individuellement et quelle que soit l'année de sortie du jeu:











À l'exception de la Nintendo 64 avec ses 89 titres, la situation générale est vraisemblablement similaire sur différentes plates-formes. Le pic de différence zéro, cependant, fluctue - par exemple, les notes des jeux sur la Nintendo Switch sont plus cohérentes, tandis que les notes des jeux sur iOS sont "maculées" sur l'échelle - et le "pic" de la distribution est plus probable à une valeur d'environ -20 - la plate-forme est clairement leader en termes de nombre d'acteurs mécontents. Le graphique ci-dessous ne fait que le confirmer. D'ailleurs, ici, les principales consoles de la génération sortante font également partie des "leaders" dans l'aversion des utilisateurs de PS4 et Xbox One. Bien que dans le camp Nintendo, tout ne soit pas du tout sans nuages ​​- le solde est négatif.



Vous avez peut-être déjà vu le graphique ci-dessous au début de l'article - cependant, dans cette version, il y a plus de jeux et la plate-forme iOS est ajoutée - il obtient la dernière place honorable dans la connectivité des notes.







Peut-être vaut-il la peine de s’arrêter là et de passer aux conclusions.



Résumer



Le monde n'est pas coulé dans le bronze ou sculpté dans la pierre. Quelque chose en lui est en train de changer.



De toute évidence, les jeux eux-mêmes changent. Les joueurs changent également - leur nombre et leur variété d'opinions augmentent. Et si l'industrie de la critique essaie de se conformer à certaines normes - bien que tacites -, en maintenant le score moyen à ~ 7,5 points, les joueurs évaluent clairement la situation différemment - pour les jeux sortis à 20 ans d'intervalle (en 2000 et 2020), la note moyenne des utilisateurs est Metacritic est passé de 8,5 à 6,9 - une perte sérieuse!



Quelles en sont les raisons? Mes hypothèses:



  1. Les utilisateurs métacritiques ont tendance à mieux noter les jeux qu'ils ont passé leur enfance - un effet nostalgique (probablement) absent - ou anéanti - par les critiques professionnels;
  2. , , Metacritic, - , «» 7.5 ;
  3. , Metacritic – , , «» ( ).


Deux d'entre eux peuvent être vérifiés, et l'approche est presque identique - avec quelques efforts, il est possible de déterminer si les notes données longtemps après la sortie du jeu sont supérieures aux notes données dans les premiers jours / semaines qui suivent. Pour éliminer l'effet de l'attentat à la bombe, il vaut également la peine de «nettoyer» les jeux avec un nombre extrêmement élevé de notes dans les premières heures suivant la disponibilité de la possibilité de publier des critiques - ou du moins ignorer ces premières évaluations des utilisateurs.



La vérification de la seconde hypothèse nécessite beaucoup de travail sur la réévaluation de l'ensemble de la gamme de jeux (puisqu'elle remet en question l'objectivité des critiques, il n'y a aucun moyen de s'appuyer sur cette appréciation). Un bon indicateur serait peut-être le rapport frais / budgets des jeux, mais les éditeurs hésitent à partager de tels chiffres - et l'effet marketing n'a pas été annulé (vous pouvez blâmer le même type de sportifs ou les transporteurs d'Ubisoft et d'Activision Blizzard pendant longtemps, mais ces jeux sont encore assez vendus d'année en année. grandes éditions).

Nous allons regarder.



All Articles