Principes clés pour créer des graphiques utiles et informatifs
La visualisation des données est une étape essentielle dans le processus de compréhension de la science des données. C'est ici que vous présentez et rapportez vos résultats dans un format graphique intuitif et facile à comprendre.
La visualisation des données demande beaucoup de travail, beaucoup de nettoyage et d'analyse sont nécessaires pour distiller et transformer des données sales en beaux graphiques et graphiques. Mais même avec les données préparées, vous devez toujours adhérer à certains principes ou méthodologies pour créer des graphiques utiles et informatifs.
Cependant, en écrivant cet article, je me suis inspiré du livre Beautiful Evidence d'Edward Taft, qui contient six principes sur la façon de rendre les graphiques de données utiles. Ce sont ces principes qui séparent les graphiques utiles des graphiques inutiles.
Cet article est également fortement inspiré de l'analyse exploratoire des données de Roger D. Peng dans R. Il est disponible gratuitement sur Bookdown, et vous pouvez le lire pour en savoir plus sur EDA.
Examinons de plus près ces principes.
Un exemple de visualisation de données sur Our World in Data
1. Afficher la comparaison (groupes témoins et expérimentaux)
La démonstration de comparaison est le fondement d'une bonne recherche scientifique. Les preuves d'une hypothèse sont toujours liées à autre chose. Prenons un exemple: vous dites: "Le chocolat noir améliore la concentration et la capacité d'apprentissage." La question importante dans cette déclaration est "par rapport à quoi?" Sans comparaison (hypothèse relative), l'énoncé est inutile.
Une façon de montrer la comparaison est avec les groupes de contrôle et de traitement. Les personnes d'un groupe mangeront du chocolat, les personnes du deuxième groupe ne le feront pas. De cette façon, vous pouvez comparer les effets du chocolat sur la concentration et la capacité d'apprentissage en fonction des résultats des tests ou en mesurant l'activité cérébrale.
Lors de la création de graphiques pour la présentation de votre recherche, vous pouvez représenter graphiquement les groupes de contrôle et de traitement à l'aide de la boîte à moustache. De cette façon, les lecteurs ont une idée claire de l'effet de l'expérience.
Lors de la création de graphiques pour représenter votre recherche, vous pouvez représenter graphiquement les groupes de contrôle et de traitement à l'aide d'un graphique rectangulaire. De cette manière, les lecteurs se font une idée claire des conséquences du traitement.
2. Causalité et explication
Ce qui suit est une explication montrant la causalité dans la réflexion sur la question à laquelle vous essayez de répondre. Si vous avez montré qu'un effet est obtenu dans le groupe expérimental mais pas dans le groupe témoin, vous devez formuler une hypothèse à partir des preuves expliquant pourquoi il en est ainsi.
Pour revenir à l'exemple précédent, disons que les sujets du groupe expérimental ont obtenu des scores plus élevés au test, ce qui montre que le chocolat noir améliore la concentration. Une question importante: pourquoi est-ce exactement le cas?
Cette question est importante car elle permet de soulever d'autres questions qui peuvent soit réfuter ou étayer votre hypothèse tout au long de l'étude.
Pour montrer une relation ou un mécanisme causal, vous pouvez mesurer l'activité cérébrale des groupes de contrôle et de traitement et représenter graphiquement les résultats en les affichant côte à côte. En utilisant le graphique des scores du test et le graphique de l'activité cérébrale, vous verrez la raison pour laquelle les sujets qui ont pris du chocolat ont obtenu les scores les plus élevés, c'est-à-dire la réponse à la question de savoir comment le chocolat noir améliore la fonction cognitive.
3. Données avec de nombreuses variables (plus de deux variables)
Le monde réel est complexe et la relation entre les deux événements est généralement non linéaire. Ainsi, dans la recherche, vous avez des attributs ou des variables que vous pouvez mesurer. Toutes ces variables interagissent les unes avec les autres de différentes manières. Certains d'entre eux peuvent prêter à confusion , tandis que d'autres peuvent être des attributs importants expliquant la relation entre les événements.
Comme vous le savez déjà, la corrélation n'implique pas de causalité. Par conséquent, ce n'est pas une bonne idée de limiter votre recherche à seulement deux variables: cela conduit à des conclusions erronées. Ainsi, vous devez afficher autant de données que possible dans vos graphiques. Cela peut vous aider à découvrir toute confusion dans vos données.
Prenez le paradoxe de Simpson, un paradoxe dans les statistiques probabilistes, quand «lorsque les groupes sont combinés, la tendance qui se produit dans différents groupes de données disparaît». Pour illustrer:
- Deux variables - relation négative.
- Trois variables - relation positive (x, y, z) (il existe des variables déroutantes).
4. Ne laissez pas les outils guider votre analyse
Un bon conteur sait comment attirer l'attention des gens tout en racontant une histoire de manière productive. Le conteur ne se limite pas à l'histoire elle-même, mais peut exprimer l'histoire d'une manière unique, combinant différentes perceptions et incluant de multiples images, rendant l'histoire vivante.
De même, un bon visualiseur de données ne se limite pas aux outils de visualisation disponibles. La personne visualisant les données a la possibilité de passer d'une forme d'expression (comme des lignes ou des cercles) à l'utilisation de plusieurs modes de présentation.
Par exemple, au lieu de créer des rapports contenant uniquement du texte, utilisez des infographies: images, graphiques, mots, nombres, etc., tout cela enrichira les informations. Avec une abondance d'informations et de graphiques, les lecteurs peuvent observer de nombreuses corrélations différentes de preuves en un seul endroit. Alors rappelez-vous que vous racontez une histoire. Ne laissez pas les outils limiter votre réflexion. Laissez l'analyse piloter les outils pour créer des graphiques époustouflants et riches en preuves.
5. Documentez vos graphiques avec des étiquettes, des échelles et des sources de données appropriées
Lorsque vous regardez pour la première fois un graphique, vous voyez d'abord le titre, puis les étiquettes de contexte du graphique. Sans eux, le graphique ne dit rien. Les bons rapports / graphiques sont correctement documentés avec des échelles et des étiquettes appropriées attribuées à chaque graphique. Les sources de données utilisées pour créer les graphiques sont également essentielles. Ainsi, il est bon de conserver le code qui a été utilisé pour générer les données et les graphiques: cela permet de reproduire les données. Cela ajoute également de la crédibilité à vos graphiques. De plus, en sauvegardant le code, vous pouvez éditer le graphique si nécessaire.
6. Le contenu avant tout
En fin de compte, indépendamment de tous les principes ci-dessus, sans un contenu de haute qualité, pertinent et holistique, vos graphiques seront inutiles ou trompeurs. En d'autres termes, «poubelle à l'intérieur, poubelle à l'extérieur». Avant de rapporter un résultat, assurez-vous que le résultat est quelque chose d'intéressant et d'important. Peu importe la beauté ou le visuel de vos graphiques, personne ne veut de résultats inutiles. Quelque chose d'intéressant est une expérience personnelle ou quelque chose d'inspiré par Internet. Dans tous les cas, posez toujours des questions: c'est ainsi que l'idée devient réalité.
Conclusion
La visualisation des données est une compétence incroyable. Vous pouvez prendre des données et les transformer en superbes graphiques et tracés qui racontent une histoire aux gens. À une époque où les données croissent de façon exponentielle, il est de plus en plus important de pouvoir raconter une histoire avec des données. C'est le meilleur moment pour apprendre de nouvelles choses. Et un résumé des principes:
- Afficher la comparaison.
- Montrez les raisons.
- Afficher les données multidimensionnelles.
- Combinez autant de preuves que possible.
- Décrivez et documentez le calendrier.
- Assurez-vous que votre histoire est intéressante.
Ce que je veux que vous reteniez de cet article est le suivant: n'oubliez pas de toujours commencer par une bonne question, utilisez la bonne approche et ne présentez que les informations nécessaires pour répondre à votre bonne question.
Je laisse cette citation du mathématicien américain John Tukey , qui a inauguré une nouvelle ère de statistique:
Un simple graphique apportait plus d'informations dans l'esprit d'un analyste de données que n'importe quel appareil.
Pour une compréhension plus approfondie de ces principes, je recommande de vous référer au livre "Exploratory Data Analysis in R" de Roger D. Peng (je laisserai un lien vers celui-ci ci-dessous).
Ressources et liens
Si vous souhaitez en savoir plus sur la visualisation des données, consultez ces excellents livres gratuits:
- Claus O. Wilke. Fondamentaux de la visualisation des données
- Hadley Wickham et autres. ggplot2: graphiques élégants pour l'analyse des données
- Winston Chang. Livre de recettes R Graphics .
Des plates-formes qui présentent de belles visualisations
Des guides de création de graphiques sont disponibles sur ces ressources.
Liens vers cet article
Merci d'avoir lu!
Autres professions et cours