Top 3 des paradoxes statistiques en science des données

La traduction a été préparée dans le cadre du cours " Machine Learning. Professional ".



Nous invitons également tout le monde à participer aux deux jours intensifs en ligne «Déployer des modèles ML: du code sale dans un ordinateur portable à un service opérationnel».






Les erreurs d'observation et les différences de sous-groupes provoquent des paradoxes statistiques

Les erreurs d'observation et les différences de sous-groupes peuvent facilement conduire à des paradoxes statistiques dans toute application de science des données. Ignorer ces éléments peut discréditer complètement les conclusions de notre analyse.





En effet, il n'est pas rare de voir des phénomènes aussi étonnants que des tendances de sous-groupes qui s'inversent complètement dans les données agrégées. Dans cet article, nous examinerons les 3 paradoxes statistiques les plus courants de la science des données.





1. Le paradoxe de Burkson

Le premier exemple frappant est la corrélation inverse entre la gravité de la maladie COVID-19 et le tabagisme (voir, par exemple, le rapport Wenzel 2020 de la Commission européenne ). Le tabagisme est un facteur de risque bien connu de maladies respiratoires, alors comment expliquez-vous cette controverse?





Griffith 2020, Nature, , (Collider Bias), . , , : «».





: «» — - « », « COVID-19». ( )





«» . , COVID-19 . , , , .





. , ( -).





: «», COVID-19! ( )





COVID-19 , , , .





— — ! , .





  1. COVID-19 . , 1, .





  2. (- , , ), - .





  3. , COVID-19,   ! , COVID-19 - , (, - , , ).





Berkson 1946, , , .





2. ()

. - - (, , ), , .





, , , , , . , ( — . ), : , !





, . : « ».





: « » — «n » «n ». ( )





. , , , , .





. , , (.. ).





: « », ! ( )





, , , .





  • , , .





  • , , , .





3.

— , - , , . .





1975 , , , .





  • , , ,   .





  • , , .





, , : A B.





  • 100 : 80 A, 68 (85%), 20 , 12 (60%).





  • 100 : 30 , 28 (93%), 70 B, 46 (66%).





: - , ! ( )





.





: , . ( )





, , . , ( A: 80–30, B: 20–70). , B ( ), ( ). , .





, -, data science. .






"Machine Learning. Professional"





- « ML : »








All Articles