Les analyses statistiques orientées par les statistiques

Certains statisticiens orientent le choix des analyses statistiques par les résultats d’autres statistiques. Un grand classique, est illustré dans une « comparaison de deux groupes » sur une variable quantitative. Un test de normalité (p.e. Shapiro-Wilk) est d’abord fait. Si le test est significatif, alors la distribution est considérée comme non-normale et un test de Mann-Whitney est réalisé, autrement un test de Student sur séries indépendantes est réalisé. Éventuellement, un test d’égalité des variances (test de Levene ou de Bartlett) est réalisé pour décider de l’usage d’une variante de Student sans hypothèse d’égalité des variances (Aspin-Welch).

Ne faites pas ça ! Cela va à l’encontre d’un grand nombre de principes statistiques fréquentistes :

  1. La question de recherche décide de la statistique à comparer
  2. Un même protocole doit conduire à une même statistique
  3. La validité de chacun de ses tests repose sur une analyse des fluctuations d’échantillonnage qui n’est valide que lorsque la statistique est reproduite à l’identique à tous les coups

La question de recherche décide de la statistique à comparer

D’abord, le test de Mann-Whitney n’est pas un test de comparaison de moyennes. Si l’objet de l’étude est de comparer les coûts moyens de prise en charge, par exemple, on peut craindre que le test fasse une erreur de 3ème espèce, c’est-à-dire conclure à un coût moyen plus bas dans le groupe où il est plus élevé.

Le code R suivant montre un exemple dans lequel les conclusions des deux tests sont opposées :

set.seed(2020)
a=exp(2*rnorm(1000))
b=1+exp(rnorm(1000))
t.test(a,b,alternative="greater") # significativement supérieur
wilcox.test(a,b,alternative="less") # significativement inférieur

Ce phénomène paradoxal s’applique notamment à une intervention ayant un coût fixe non négligeable mais évitant des surcoûts rares et élevés. On peut, par exemple, imaginer qu’une mesure de prévention telle que l’antibioprophylaxie pour certaines chirurgies, coûte quelques euros à chaque intervention (p.e. 30 €) mais économise des milliers d’euros (p.e. 3000 € en moyenne) pour un sujet sur 50. Dans ces conditions, le coût moyen de prise en charge est plus bas avec l’intervention alors que le test de Mann-Whitney conclura à un coût plus élevé !

Cela est dû au fait que le test de Mann-Whitney ne compare pas les moyennes mais compare l’aire sous la courbe ROC à 0.50, en considérant que le test est la variable quantitative (p.e. durée de séjour) et le groupe est le diagnostic binaire. On notera au passage que le test de Mann-Whitney ne compare pas les médianes. Il m’est déjà arrivé d’observer des durées médianes de séjour identiques entre deux groupes alors que le test de Mann-Whitney montrait une différence significative.

Si on s’intéresse au coût moyen, alors on fera un test de comparaison de moyennes. Si on s’intéresse à une capacité diagnostique d’un dosage biologique, par exemple, alors on tracera une courbe ROC et le test de Mann-Whitney aura un certain sens (même si la comparaison à 0.50 n’est pas forcément très pertinente).

Un même protocole doit conduire à une même statistique

Avec la méthode de Student, on peut fournir un intervalle de confiance à 95% de la différence de moyennes. Si le protocole était répété de très nombreuses fois, dans 95% des cas, l’intervalle de confiance contiendrait la « vraie » différence de moyennes dans la population. C’est ce qu’on appelle la couverture de l’intervalle de confiance. Le test de Shapiro-Wilk étant aléatoire, de manière aléatoire, un Mann-Whitney ou un Student sera réalisé. Si la puissance du Shapiro-Wilk est de 50%, alors un Student sera fait une fois sur deux. Comment définir alors la couverture ? On peut définir la couverture conditionnelle au fait que la statistique soit générée. Auquel cas, on s’aperçoit que la statistique de Shapiro-Wilk n’est pas indépendant du résultat du test de Student, et conduit à un biais de couverture très important !

Analyse des fluctuations d’échantillonnage conditionnelles

set.seed(2020)
delta=2
v=t(sapply(1:100000, function (x) {
	a=rexp(30)
	b=delta+rexp(30)
	if (shapiro.test(c(a,b))$p.value<0.05) {
		return (c(NA,NA))
	} else {
		tt = t.test(b,a,var.equal=T)
		return(tt$conf.int)
	}
}))
mean(is.na(v[,1])) # puissance du test à 95%
# on conditionne à un Shapiro non significatif
w=v[!is.na(v[,1]),]
# On calcule les défauts de couverture
# risque borne haute 12.7% (théorie 2.5%)
mean(w[,2] < delta)
#risque borne basse 0% (théorie 2.5%)
mean(w[,1] > delta)

Ce code R montre qu’avec deux échantillons de taille 30 suivant deux lois exponentielles décalées de 2, l’intervalle de confiance à 95%, au lieu d’avoir un risque de 2.5% de surestimation et 2.5% de sous-estimation, aura un risque de 12.7% de sous-estimation et de 0% de surestimation. Cela est un biais majeur ! Si on enlève le test de Shapiro-Wilk, les risques passent à 2.4% de chaque, très proche du risque nominal de 2.5% de chaque côté. En bref, le test de Student est robuste aux écarts à la normalité, mais la séquence Shapiro->Student est complètement biaisé.

Analyse des fluctuations du petit p

Enfin, considérons les fluctuations d’échantillonnage d’un petit p issu aléatoirement d’un test de Mann-Whitney ou de Student selon le résultat d’un Shapiro-Wilk. Il est possible que les moyennes des deux groupes soient égales (première hypothèse nulle) mais que le test soit presque toujours significatif (car le test de Shapiro-Wilk est suffisamment puissant et les moyennes de rang sont inégales) conduisant à un risque alpha tendant vers 100% comme dans l’exemple ci-dessous, sous le logiciel R :

# moyennes égales...
# mais moyennes des rangs différentes
set.seed(2020)
v=sapply(1:1000, function (x) {
	a=rexp(2500) # moyenne=1
	b=rnorm(2500)+1 # moyenne=1
	if (shapiro.test(c(a,b))$p.value<0.05) {
		wilcox.test(a,b)$p.value
	}  else {
		t.test(a,b,var.equal=T)$p.value
	}
})
mean(v<0.05) # Risque alpha 99.8%

Sous la seconde hypothèse nulle, d’égalité des moyennes des rangs (hypothèse nulle de Mann-Whitney), alors il est possible d’avoir un risque alpha élevé aussi si le test de Student est souvent réalisé.

Sous l’hypothèse nulle de distribution parfaitement superposées, alors le problème est nettement moindre. Néanmoins cette hypothèse nulle peut être testée beaucoup plus efficacement par le test de Kolmogorov-Smirnov mais elle n’a aucune pertinence. Par exemple, un groupe peut simplement avoir une variance différente de l’autre, sans pour autant que la moyenne, la médiane ou la moyenne des rangs ne diffère. Un test prouvant que les deux distributions ne sont pas superposées ne permet nullement de savoir laquelle des deux distributions est la « meilleure » dès lors qu’on s’intéresse à une exposition potentiellement bénéfique (p.e. traitement) ou nocive (p.e. exposition épidémiologique).

Pour les méta-analyses

Un mélange de statistiques est presque inexploitable. Les méta-analystes sont obligés de bidouiller. Souvent ils vont approximer la médiane à la moyenne si cette première est fournie.

Au final

Le test de Student est assez robuste aux écarts à la normalité. Le test de Mann-Whitney n’est pas un test de comparaison de moyennes. La séquence des tests est une ineptie statistique. Ce problème existe aussi avec d’autres séquences de tests, comme on en retrouve, par exemple, dans les méthodes pas-à-pas, les comparaisons de modèles guidant la suite des analyses (p.e. comparaisons de plusieurs polynômes fractionnaires, tests de linéarité, comparaisons de transformations, tests « omnibus » avant de réaliser des comparaisons deux à deux, etc.)

Le choix d’une statistique doit être guidé par des considérations théoriques. Lorsqu’on s’intéresse à une différence des moyennes, plusieurs estimateurs sont possibles (Student, bootstrap) et encore une fois, ce choix doit se faire a priori plutôt qu’aléatoirement parce que chacune des procédures n’est valide que lorsqu’elle est réalisée inconditionnellement.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *