L'équation la plus triste de la science des données

image



Faites le plein de mouchoirs! Je vais maintenant vous dire toute la vérité sur les statistiques et la science des données. Vous aurez les larmes aux yeux, je vous le promets.



CONCLUSION = DONNÉES + HYPOTHÈSES. En d'autres termes, les statistiques ne disent pas la vérité.



Mythes courants



Souvent, vous pouvez entendre les idées fausses suivantes:



  • "Si je peux trouver les équations correctes, je peux apprendre quelque chose que personne ne sait maintenant."
  • "Si j'ajoute des mathématiques à mes données, je peux réduire l'incertitude."
  • "Les statistiques peuvent transformer les données en vérité!"


Tout cela ressemble à des contes de fées, non? Parce que c'est ce qu'ils sont.



Dure réalité



Il n'y a pas de magie dans le monde qui vous aidera à créer quelque chose à partir de rien. Oublie ça. Des statistiques sur autre chose. Prenez ma parole pour cela comme une statistique. (En prime, cet article vous fera gagner une tonne de temps que vous auriez passé à poursuivre cette chimère .)



Malheureusement, de nombreux charlatans essaieront de vous convaincre du contraire. Ils utiliseront l'astuce standard: "Vous ne connaissez pas les équations avec lesquelles je vous ai douché, alors admettez mon avantage et faites ce que je dis!"



Ne tombez pas dans les mots de ces poseurs.



image À propos de l'auteur: Cassie Kozyrkov est une spécialiste sud-africaine des données et des statistiques. Elle a fondé Decision Intelligence chez Google, dont elle est la scientifique en chef.




Ne répétez pas le sort d'Icare



Pensez aux conclusions statistiques (en bref, «statistiques» ) comme un saut de ce que nous savons (nos données habituelles) à ce que nous ne savons pas (notre paramètre de la population).



En statistique, ce que vous savez n'est pas ce que vous aimeriez savoir.
Vous voudrez peut-être des faits sur demain, mais vous ne pouvez tirer des conclusions que sur la base d'hier. (C'est tellement ennuyeux quand on ne se souvient pas de l'avenir, non?) Vous voudrez peut-être savoir ce que tous vos utilisateurs potentiels pensent de votre produit, mais vous ne pouvez en demander qu'une centaine. Ensuite, vous obtenez l'incertitude!



Ce n'est pas de la magie, c'est de la spéculation



Comment passer de ce que vous savez à ce que vous ne savez pas? Vous avez besoin d'un pont pour combler ce gouffre. Et le nom de ce pont est des hypothèses. Permettez-moi de vous rappeler l'équation la plus douloureuse de la science des données: DONNÉES + HYPOTHÈSES = PRÉVISIONS.



DONNÉES + HYPOTHÈSES = PRÉVISIONS.
(Vous pouvez facilement remplacer le mot «prédiction» par «conclusions» ou «prédictions» si vous préférez. C'est la même chose: une déclaration sur quelque chose que vous ne savez pas avec certitude.)



Qu'est-ce que l'hypothèse?



Si nous connaissions tous les faits (et étions sûrs qu'il s'agit de faits concrets), nous n'aurions pas besoin d'hypothèses (ou de statistiques). Les hypothèses sont de vilaines pièces que vous utilisez pour combler le fossé entre ce que vous savez et ce que vous aimeriez savoir. Ce sont des astuces que vous devez utiliser lorsque vous avez besoin que les chiffres convergent, mais qu'il n'y a pas assez de données.



Les hypothèses sont les vilains correctifs que vous appliquez dans des endroits où il n'y a aucune information.
Comment puis-je le dire sans ambages? L'hypothèse n'est pas un fait, c'est un non-sens que vous vous réconciliez parce que vous n'avez pas assez d'informations. Si vous rabaissez souvent les gens à des intervalles extrêmement précis, rappelez-vous qu'il est trop imprudent d'appeler la vérité sur la base d'hypothèses. Pensez mieux aux statistiques comme outil d'aide à la décision. Cet outil n'est pas parfait, mais toujours mieux que rien (dans certaines situations).



Les statistiques sont votre tentative de faire tout ce que vous pouvez dans un monde d'incertitude.
Hypothèses - et en Afrique, hypothèses. Ils ne se transforment pas en faits avec la vague d'une baguette magique.



Les hypothèses font partie de la prise de décision.



Montrez-moi toute décision prise sans hypothèses. Je peux facilement vous énumérer de nombreuses hypothèses implicites que vous faites dans la vie réelle, sans même y penser.



Exemples: Lorsque vous lisez un journal, pensez-vous que tous les faits sont vérifiés? Lorsque vous avez fait des plans pour 2020, pensiez-vous qu'il n'y aurait pas de pandémie mondiale? Si vous avez analysé les données, avez-vous supposé que les données avaient été enregistrées sans erreur? Avez-vous supposé que votre générateur de nombres aléatoires produisait des résultats aléatoires? (Habituellement, ils ne sont pas aléatoires.) Lorsque vous décidez d'effectuer un achat sur Internet, pensez-vous que le montant correct vous sera facturé? Et votre dernière collation? Pensiez-vous qu'il n'était pas empoisonné? Lorsque vous avez pris le médicament, saviez-vous * ses effets à long terme ou ... anticipiez-vous?



Qu'on le veuille ou non, faire des hypothèses fait partie de la prise de décision.


Que cela vous plaise ou non, les hypothèses font toujours partie de la prise de décision. L'interférence dans les données du monde réel doit consister en une pluralité d'hypothèses enregistrées. Dans le même temps, les scientifiques des données doivent décrire tous les coins qu'ils devront contourner.



Même si vous décidez de vous passer de statistiques, vous utilisez probablement des hypothèses pour décider comment procéder. Pour votre propre sécurité, vous devez être conscient des hypothèses sur lesquelles reposent vos décisions.



Comment fonctionne la «magie» des statistiques



Il existe de nombreux outils en statistiques qui vous permettent de formuler des hypothèses et de les combiner avec des preuves. Des décisions intelligentes sont donc nées. (Voir mon introduction de 8 minutes aux statistiques ici.)



Il est absurde de s'attendre à ce qu'une analyse qui inclut l'incertitude et la probabilité soit une source de vérité avec un «P» majuscule.
Oui, c'est ainsi que fonctionne la magie statistique. Vous choisissez les hypothèses avec lesquelles vivre, puis vous les combinez avec les données. Sur la base de cette union impie, vous prenez des décisions intelligentes. Voilà toutes les statistiques.



image



C'est pourquoi une analyse qui inclut l'incertitude et la probabilité ne peut jamais être une source de vérité avec un «P» majuscule. Il n'y a pas de magie noire secrète qui fasse cela pour vous.



Deux personnes peuvent arriver à des conclusions complètement différentes basées sur les mêmes données! Il leur suffit de faire des hypothèses différentes.
Pour la même raison, deux personnes peuvent arriver à des conclusions complètement différentes basées sur les mêmes données! Il leur suffit de faire des hypothèses différentes. Les statistiques vous offrent un outil qui vous permet de prendre des décisions plus consciemment, mais il n'y a pas de règle unique pour son utilisation. C'est un outil de prise de décision personnelle.



La qualité de vos recherches dépend de la qualité des hypothèses que vous faites.



Et la science?



Que se passe-t-il lorsqu'un scientifique utilise des statistiques pour tirer des conclusions? Il se fait simplement une opinion et décide de la partager avec le monde entier. Ce n'est pas mal, les scientifiques doivent tirer des conclusions de temps en temps par volonté et non par volonté, c'est leur travail. Je suggère que parfois ces conclusions peuvent être prises en compte.



Par volonté et non par volonté, les scientifiques doivent périodiquement tirer des conclusions basées sur des statistiques, c'est leur travail.
J'aime écouter les conseils de personnes qui ont plus d'informations et d'expérience que moi, mais je ne me permets jamais de confondre opinions et faits. Il y a des scientifiques qui connaissent bien les probabilités et qui travaillent avec. Néanmoins, j'ai également rencontré des scientifiques qui ont commis tellement d'erreurs statistiques qu'ils ne peuvent pas être ratissés pour le reste de ma vie. Les opinions ne peuvent pas (et ne doivent pas) influencer les personnes qui ne sont pas prêtes à formuler des hypothèses pour elles-mêmes. Ces opinions ont été obtenues grâce à une combinaison de preuves et d'hypothèses non vérifiées. Ils ne peuvent être considérés comme compétents.



Résumé



Considérez les statistiques comme une science qui peut vous aider à prendre des décisions lorsque vous n'êtes pas sûr de quelque chose. C'est un cadre qui vous aide à prendre des décisions éclairées avec un manque d'informations. Il n’existe pas de manière unique d’utiliser les statistiques.



Non, elle ne vous donne pas les faits nécessaires. Elle vous donne ce dont vous avez besoin pour faire face à un manque de faits. Le but des statistiques est de vous aider à faire tout ce qui est en votre pouvoir dans un monde d'incertitude.



Vous n'avez qu'à faire des hypothèses.



Traduction: Diana Sheremieva



image



Découvrez les détails sur la façon d'obtenir une profession demandée à partir de zéro ou de monter de niveau en compétences et en salaire en suivant les cours SkillFactory en ligne payants:











All Articles