Test de Wilcoxon: un sweet spot pour les praticiens

Dans la pratique du traitement des résultats d'observation, la distribution de la population générale est inconnue ou (pour les variables aléatoires continues) diffère de la distribution normale, de sorte que l'utilisation de méthodes statistiques classiques est déraisonnable et peut entraîner des erreurs. Dans ce cas, on utilise des méthodes indépendantes (ou libres) de la distribution de la population générale - méthodes non paramétriques.





L'article aborde d'un point de vue unifié trois tests à échantillon unique fréquemment rencontrés dans la pratique: le test de signe, le test t et le test de Wilcoxon de rang signé, une procédure non paramétrique dont la puissance est comparable à la puissance du test t dans le cas d'un échantillon normalement distribué, et dépasse la puissance du test t si la distribution de l'échantillon a des "queues plus lourdes" par rapport à la distribution normale.





1. Définissez un modèle pour le modèle d'emplacement comme suit. Soit X_1, X_2, \ ldots, X_n- un échantillon aléatoire obtenu selon la loi suivante





X_i = \ theta + e_i,

où l'on suppose que les erreurs aléatoires e_1, e_2, \ ldots, e_nsont des variables aléatoires indépendantes et également distribuées avec une densité de distribution continue f (t)symétrique autour de zéro.





2 . Sous la condition de symétrie, tout paramètre de position X_i, y compris la moyenne et la médiane, est égal à \ theta. Considérez l'hypothèse





H_0: \ theta = 0, ~~~ H_a: \ theta> 0.

3. Pour tester cette hypothèse, considérons trois tests souvent utilisés dans la pratique: le test des signes, le test t et le test de Wilcoxon.





3.1. Le test des signes classiques ( test des signes) est basé sur des statistiques





S = \ somme_ {i = 1} ^ nsign (X_i),

signe (t) = - 1,0,1pour, t <0, t = 0, t> 0respectivement. Laisser être





S ^ + = \ #_ i \ {X_i> 0 \}.

S = 2S ^ + - n. , X_i ( , , n). H_0, S ^ + n 1/2. s ^ +S ^ + p-value P_ {H_0} (S ^ + \ geq s ^ +) = 1-F_B (s ^ + - 1; n; 0,5), F_B (t; n; p)n p(R pbinom



cdf ).





, S H_0 () f (t).





3.2. t- (t-test) .





T = \ somme_ {i = 1} ^ nsign (X_i) \ cdot | X_i |.

, T f (t). t- t-





t = \ frac {\ bar {X}} {s / \ sqrt {n}},

\ bar {X} s, . , t t- n-1 . t_0 t. p-value t- P_ {H_0} (t \ geq t_0) = 1-F_T (t_0; n-1), F_T (t; \ nu)– t- c \ nu (R pt



cdf t-). p-value , .





3.3. t- , t- .





(signed-rank Wilcoxon test) , . R | X_i | X_i | X_1 |, \ ldots, | X_n |, .





W = \ somme_ {i = 1} ^ nsign (X_i) \ cdot R | X_i |.

t-, W, S H_0 f (t).





W . , W, W ^ +,





W ^ + = \ sum_ {X_i> 0} R | X_i | = \ frac {1} {2} W + \ frac {n (n + 1)} {4}.

p-value P_ {H_0} (W ^ + \ geq w ^ +) = 1-F_ {W ^ +} (w ^ + - 1; n), F_ {W ^ +} (x; n)n(R psignrank



cdf W ^ +).





4. . : , t- \ theta. .





4.1. \ theta,





\ hat {\ theta} = med \ {X_1, X_2, \ ldots, X_n \}.

0 <\ alpha <1 \ theta (1- \ alpha) 100 \% \ gauche (X _ {(c_1 + 1)}, X _ {(n-c_1)} \ droite), X _ {(i)}je- , c_1\ alpha / 2 n p = 1/2. e_i. , - n \ alpha.





4.2. \ theta, t- \ bar {X}. \ bar {X} \ pm t _ {\ alpha / 2, n-1} \ cdot [s / \ sqrt {n}], t _ {\ alpha / 2, n-1}\ alpha / 2 t- n-1 . e_i.





4.3. \ theta, - (Hodges-Lehmann)





\ hat {\ theta} _W = med_ {i \ leq j} \ left \ {\ frac {X_i + X_j} {2} \ right \}.

A_ {ij} = (X_i + X_j) / 2, i \ leq j (Walsh averages) . A _ {(1)} <\ cdots <A _ {(n (n + 1) / 2)} . (1- \ alpha) 100 \% \ theta \ gauche (A _ {(c_2 + 1)}, A _ {(n (n + 1) / 2-c2)} \ droite), c_2\ alpha / 2 signed-rank Wilcoxon . e_i . , W ^ +\ gauche \ {0,1, ..., n (n + 1) / 2 \ droite \} n ^ 2. , , , \ alpha .





5. ( ) A B . , ?





, A B. \ theta . R t- H_0: \ theta = 0, H_a: \ theta> 0.





> Store_A <- c(82, 69, 73, 43, 58, 56, 76, 65)
> Store_B <- c(63, 42, 74, 37, 51, 43, 80, 62)
> response <- Store_A - Store_B

> wilcox.test(response, alternative = "greater", conf.int = TRUE)

	Wilcoxon signed rank exact test

data:  response
V = 32, p-value = 0.02734
alternative hypothesis: true location is greater than 0
95 percent confidence interval:
   1 Inf
sample estimates:
(pseudo)median 
          7.75 

> t.test(response, alternative = "greater", conf.int = TRUE)

	One Sample t-test

data:  response
t = 2.3791, df = 7, p-value = 0.02447
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
 1.781971      Inf
sample estimates:
mean of x 
     8.75 
      
      



wilcox.test()



W ^ +, p-value , - \ theta 95 \% \ theta. - t.test()



. , 0,05, , A .





, . , t- t- « » .








All Articles