La loi des grands nombres et ce qu'elle n'est pas

On a beaucoup écrit sur la loi des grands nombres (zbch) (par exemple, en anglais, ici et ici , aussi [1]). Dans ce texte, j'essaierai de parler de ce que la loi des grands nombres n'est pas - de la perception erronée de cette loi et des pièges potentiels cachés dans les formulations mathématiques.



Commençons par ce qu'est la loi des grands nombres. De manière informelle, il s'agit d'un théorème mathématique selon lequel «la probabilité d'écarts de la moyenne de l'échantillon par rapport à l'espérance mathématique est faible» et que «cette probabilité tend à zéro à mesure que l'échantillon augmente». Assez informelle théorème déclare qu'avec nous pouvons être raisonnablement sûrs que la moyenne de notre échantillon est suffisamment proche de la moyenne «réelle» et la décrit donc bien. Bien sûr, la présence de "bagages" statistiques traditionnels est supposée - nos observations de l'échantillon devraient décrire le même phénomène, elles devraient être indépendantes, et la pensée qu'il y a une distribution "réelle" avec une moyenne "réelle" ne devrait pas nous causer des doutes importants.



Lorsque nous formulons la loi, nous disons «moyenne de l'échantillon», et tout ce qui peut être écrit mathématiquement comme une telle moyenne relève de la loi. Par exemple, la part des événements dans la masse totale peut être enregistrée sous forme de moyenne - il suffit d'enregistrer la présence d'un événement sous la forme "1" et l'absence sous la forme "0". En conséquence, la moyenne sera égale à la fréquence et la fréquence devrait être proche de la moyenne théorique. C'est pourquoi nous nous attendons à ce que le pourcentage de têtes soit proche de la moitié lorsque vous lancez une pièce parfaite.



Considérez maintenant les pièges et les idées fausses sur cette loi.



Premièrement, le ZBCH n'est pas toujours correct. Ceci est juste un théorème mathématique avec des «entrées» - des hypothèses. Si les hypothèses sont erronées, alors la loi n'est pas tenue d'être appliquée. Par exemple, il en est ainsi si les observations sont dépendantes, ou s'il n'y a pas de certitude que la moyenne «réelle» existe et bien sûr, ou si le phénomène à l'étude évolue dans le temps et on ne peut pas dire que l'on observe la même valeur. En vérité, dans une certaine mesure, le ZBC est également vrai dans ces cas, par exemple, pour des observations faiblement corrélées ou même lorsque la valeur observée change dans le temps. Cependant, pour appliquer correctement cela à la réalité immédiate, un mathématicien spécialisé bien formé est nécessaire.



Deuxièmement, il semble être vrai que le ZBR affirme que "la moyenne de l'échantillon est proche de la vraie moyenne". Cependant, une telle affirmation reste incomplète: il est impératif d'ajouter «avec un degré de probabilité élevé; et cette probabilité est toujours inférieure à 100%. "



Troisièmement, je voudrais formuler le ZBP comme «la moyenne de l'échantillon converge vers la moyenne réelle avec une croissance illimitée de l'échantillon». Cependant, ce n'est pas vrai parce que la moyenne de l'échantillon ne converge pas du tout, puisqu'elle est aléatoire et le reste quelle que soit la taille de l'échantillon. Par exemple, même si vous lancez une pièce symétrique un million de fois, il y a tout de même une chance que la proportion de têtes soit loin de la moitié ou même de zéro. Dans un sens, il y a toujours une chance de sortir quelque chose de l'ordinaire. Nous devons admettre, cependant, que notre intuition nous dit toujours que le ZBP devrait décrire une sorte de similitude, et c'est en fait le cas. Seulement, ce n'est pas la moyenne qui «converge», mais la «probabilité de déviation de la moyenne de l'échantillon par rapport à sa valeur réelle» et converge vers zéro. Puisque cette idée est intuitivement très pratique ("les chances de voir quelque chose d'inhabituel tendent à zéro"),les mathématiciens ont inventé pour cela un type particulier de convergence - la «convergence des probabilités».



Quatrièmement, le ZBC ne dit rien sur le moment où la moyenne de l'échantillon peut être considérée comme suffisamment proche de la moyenne théorique. La loi des grands nombres ne postule que l'existence d'un certain phénomène, elle ne dit rien sur le moment où elle peut être utilisée. Il s'avère que la loi des grands nombres ne répond pas à la question clé du point de vue de la pratique - "puis-je utiliser ZBN pour mon échantillon de taille n?" D'autres théorèmes apportent des réponses à ces questions, par exemple le théorème central limite. Cela donne une idée de la mesure dans laquelle la moyenne de l'échantillon peut s'écarter de sa valeur réelle.



En conclusion, il convient de noter le rôle central du ZBP dans les statistiques et la théorie des probabilités. L'histoire de cette loi a commencé lorsque les scientifiques ont remarqué que les fréquences de certains phénomènes répétitifs se stabilisent et cessent de changer de manière significative, sous réserve de répétitions répétées d'expérience ou d'observation. De manière frappante, cette «stabilisation de fréquence» a été observée pour des phénomènes totalement indépendants - des lancers de dés aux rendements agricoles, indiquant l'existence possible d'une «loi de la nature». Fait intéressant, cette loi de la nature s'est avérée faire partie des mathématiques, et non de la physique, de la chimie ou de la biologie, comme c'est généralement le cas avec les lois de la nature.



[1] Illustrant la loi des grands nombres (et des intervalles de confiance) Jeffrey D Blume et Richard M Royall



All Articles