(en supposant une distribution normale)
Le problème de la détermination de l'égalité des moyennes sous la condition de variances égales est un problème classique de la statistique mathématique, qui est résolu dans les écoles techniques et les universités. Cependant, la SP en tant que science est très similaire à un marais - lorsque vous essayez de sauter sur le côté d'une bosse d'un problème résolu de manière classique, vous pouvez vous enliser ou vous noyer complètement.
Le problème à l'étude en est un. En fait, des mathématiciens bienveillants ont déjà développé une vingtaine de tests statistiques différents pour résoudre ce genre de problèmes, ce qui soulève la question de la catégorie «lequel utiliser».
Une étude préliminaire (le texte de l'étude est disponible sur GitHub ) a montré que, selon la combinaison spécifique des valeurs moyennes, de la variance et des spécificités de l'énoncé du problème, presque tous les tests considérés dans l'article "Cavus, M. , Yazici, B. Test de l'égalité des moyennes des groupes normaux distribués et indépendants sous des variances inégales par paquet doex / The R Journal. 2020. N ° 2 (12). P. 134-155 " .
Pour résoudre ce problème, une procédure a été développée qui permet de déterminer le meilleur test statistique pour chaque cas spécifique. Il sera démontré à l'aide de l'exemple de la base de données GrowthDJ contenant des données sur la croissance économique. Testons l'hypothèse d'égalité des valeurs moyennes de croissance économique (variable pbpgrowth) en fonction de la disponibilité de données de haute qualité dans les pays (variable inter )
Les premières étapes de l'étude sont la vérification de la normalité des distributions et la recherche de statistiques descriptives:
library("tibble")
library("AER")
library("WRS2")
library("doex")
data("GrowthDJ")
XX<-na.omit(GrowthDJ)
library("psych")
describeBy(XX$gdpgrowth, XX$inter)
shapiro.test(XX[XX$inter=='yes',6])
shapiro.test(XX[XX$inter=='no',6])
Nous obtenons que nos données sont distribuées normalement, ce qui signifie que les tests peuvent être appliqués
Méthode de vérification
Définissez deux moyennes et deux valeurs de variance (en fonction des données disponibles par groupe)
( 70 ). – № 1 № 1, – № 1 № 2, – № 2 № 2.
0.01. p- 0.01, , 0.01 – . . p- 0.01, , 0.01 – . 100 , .
( , ):
accuracy ( );
selectivity ( , );
precision ( );
recall ( , );
FOR ( );
F- ( precision recall, ).
( .R )
, :
, AF FA- ( , F-score
- (.. ), RGF-
- (.. ), 8 (AF,BA,CF,FA,JF,MBF,SS,WA)
, 8
, RGF-
- AF- (Approximate F-test)
0.0003 -