Effet marginal ou conditionnel, quelle différence ?

Ce billet a pour objet de s’adresser à un public statistique moins aguerri que d’autres. Vous avez peut-être déjà entendu parler d’effet marginal ou conditionnel ou encore de modèle marginal ou conditionnel. Qu’est-ce que cela veut dire ou implique ?

Cette problématique s’applique aux régressions logistiques, aux régressions de Poisson, mais pas au modèle linéaire général. En bref, le problème se pose à partir du moment où la relation entre les variables explicatives et la variable à expliquer n’est pas linéaire. Cela s’illustre très bien avec un exemple. Considérons une population dans laquelle un risque (par exemple le décès à 30 jours) va toucher 52.5% de la population. Il existe un facteur pronostique majeur binaire, de prévalence 50%, divisant la population en deux sous-populations de taille égale : une sous-population à bas risque avec 10% de décès et une population à haut risque avec 95%. Comme les deux sous-populations représentent chacune 50% de la population globale, le risque général est bien de 0.50×0.10+0.50×0.95=52.5%.

Supposons qu’un traitement réduise le risque de 5% dans chacune des deux sous-populations. La sous-population à bas risque passe d’un risque de 10% à 5% et le haut risque de 95% passe à 90%. L’odds ratio protecteur du traitement, dans chacune des deux sous-populations est environ égal à 0.50. Pour être rigoureux, il est égal à 0.474 dans chacune des deux sous-populations. C’est l’odds ratio conditionnel au facteur pronostique.

Maintenant, on peut calculer que le risque général d’une population totalement exposée au traitement. La réduction de 5% du risque dans chacun des deux sous-groupes se traduit par une réduction de 5% du risque général qui passe de 52.5% à 47.5%. Cela peut aussi se calculer comme 0.50×0.05+0.50×0.90=47.5%. Ainsi, en calculant 52.5%-47.5% on retombe sur les 5% de réduction. La moyenne des différences (-5% dans chaque sous-population) est égale à la différence des moyennes (52.5% – 47.5%).

Grace à ce second calcul, nous pouvons calculer l’odds ratio protecteur du traitement sur la population générale. Le risque de 52.5% correspond à une cote de 0.525/(1-0.525)=1.105, qui est réduite à un risque de 47.5% soit une cote de 0.475/(1-0.475)=0.905. Au total, l’odds ratio est de 0.905/1.105 = 0.819. Cet odds ratio s’applique au pourcentage moyen de la population complète. C’est un odds ratio de la moyenne, ou odds ratio marginal.

Ainsi, nous avons noté que l’odds ratio de 0.819 est un odds ratio marginal alors que l’odds ratio de 0.475 est un odds ratio conditionnel au facteur pronostique, c’est-à-dire, s’appliquant à chacun des sous-groupes défini par ce facteur pronostique.

Que se passe-t-il lorsque les effets dans chacun des deux sous-groupes ne sont pas égaux ? Certains modèles, comme la régression logistique, reposent sur l’hypothèse de constance des effets conditionnels dans les sous-groupes. En cas d’écart à cette condition, en pratique, l’odds ratio calculé sera égal à une valeur intermédiaire, une sorte de moyenne de tous les odds ratio des sous-groupes, pondérée par la précision statistique de l’odds ratio dans ce sous-groupe. En bref, on peut à peu près obtenir cet odds ratio conditionnel « moyen » en calculant la moyenne des log-odds ratio pondérée par l’inverse de leur variance, puis en repassant à l’odds ratio par l’exponentielle. Selon la manière d’estimer le modèle, on obtiendra un résultat légèrement différent. Point important, il est à noter que les procédures de régression logistique implémentés par tous les logiciels fournissent toujours, en sortie, des odds ratio de chacune des covariable, conditionnels à l’ensemble des autres covariables.

On peut dire que l’odds ratio conditionnel s’applique séparément à chacune des observations, avec son risque de base propre (10% ou 95%), alors que l’odds ratio marginal est l’odds ratio qui s’applique à la moyenne de la population (risque de base 52.5%).

Quel est le problème des odds ratio conditionnels ? D’abord, le terme est incomplet… Conditionnel à quoi ? Un odds ratio conditionnel à l’âge, n’est pas le même qu’un odds ratio conditionnel au sexe, qui diffère encore de l’odds ratio conditionnel à l’âge et au sexe. Ensuite, plus le nombre de conditions est élevé et les facteurs pronostiques fortement liés à l’outcome, plus l’odds ratio conditionnel tend vers 0 ou l’infini. Dans l’exemple, l’odds ratio marginal était faible (0.819) alors que l’odds ratio conditionnel était nettement plus fort (0.475). Cela est explicable par le fait qu’une différence de 5% correspond à un odds ratio faible lorsqu’on est proche d’un risque de 50% (population générale) mais correspond à un odds ratio fort dès que le risque se rapproche de 0% ou 100%. Or, plus un modèle sera fortement prédictif, plus les sous-groupes auront des valeurs prédites extrêmes (proches de 0 et 100%) et plus les odds ratio conditionnels seront forts. Par ailleurs, mécaniquement, un modèle dans lequel on ajoute des covariables sera toujours plus fortement prédictif. Même si on ajoute des variables de corrélation nulle avec l’outcome, sur un échantillon fini, l’effet de cette variable sera légèrement positif ou négatif par hasard et cela améliorera la prédictivité (réduira la déviance) du modèle sur l’échantillon, avec pour effet de gonfler tous les odds ratio conditionnels.

Ainsi, deux odds ratio conditionnels à des choses différentes ne sont pas comparables. C’est pourquoi, au sens strict, on ne peut pas comparer un odds ratio dans un modèle avec une covariable à l’odds ratio de la même covariable dans un modèle avec une dizaine d’ajustements supplémentaires. De manière mécanique, l’odds ratio conditionnel à la dizaine de variables d’ajustement sera gonflé. En pratique, cela pose rarement problème en médecine, car les « facteurs pronostiques » sont généralement faiblement corrélés à l’outcome, conduisant à une inflation modeste des odds ratio conditionnels. Néanmoins, j’ai un beau cas d’école, pour lequel il existe une solution élégante. Le problème était d’évaluer les causes de la variance inter-établissement en terme de proportion de césariennes chez les femmes parturientes. La variance inter-établissement était exprimée comme l’odds ratio médian, interprétable comme la médiane des odds ratio entre deux établissements pris au hasard (le détail du calcul est un peu plus complexe et se basait sur la variance inter-établissement dans un modèle linéaire généralisé à effets mixtes, mais c’est approximativement ça). Or, les établissements n’ont pas la même population. Certains suivent des femmes enceintes à très bas risque alors que d’autres suivent des femmes à haut risque. La classification de Robson (doi:10.1016/j.jgyn.2015.02.001) définit 12 groupes de femmes, avec des risques extrêmement différents, allant de 2.1% pour les femmes multipares portant un singleton céphalique > 37 SA avec travail spontané, jusqu’à 82.4% pour les primipares avec présentation siège. Il était attendu que l’analyse brute montre un fort odds ratio inter-établissement médian, et qu’il s’atténue lors de l’ajustement sur le Robson. Au contraire, l’odds ratio inter-établissement médian a augmenté. Cela est explicable par le fait que des différences minimes dans les sous-groupes à très bas ou très haut risque (p.e. 2.1% -> 1% pour le sous-groupe à bas risque) s’expriment par des odds ratio conditionnels importants alors que l’effet marginal (20% -> 19%) s’exprime par un odds ratio bien plus modeste. Outre l’usage d’un modèle linéaire qui résout complètement le problème, on peut calculer dans chaque établissement un taux standardisé de césarienne en faisant la moyenne des taux des sous-groupes, pondérée par une fréquence de référence de ce sous-groupe de Robson. La fréquence de référence des sous-groupes peut se baser sur la littérature ou simplement être obtenu en poolant tous les établissements afin d’obtenir une population de référence représentative de l’ensemble des centres. Les odds ratio obtenus entre ces taux standardisés sont marginaux et sont alors comparables aux odds ratio d’un modèle non ajusté.

Enfin, il existe un problème à ne pas négliger : les modèles de régression logistiques dits « conditionnels » que l’on utilise en cas d’appariement, comme, par exemple dans les études en cross-over fournissent un odds ratio ininterprétable. Pour faire bref, ils fournissent une probabilité conditionnelle à une condition inobservable. Cela s’illustre bien en considérant le cas d’une maladie chronique stable pour laquelle on essaye un traitement symptomatique (p.e. traitement de la douleur dans la polyarthrite rhumatoïde) et pour laquelle un essai en cross-over est pertinent. Considérons pour critère de jugement, la réponse binaire au traitement, défini par une amélioration de la douleur. Considérons l’usage de deux traitements de nature très proche et tous deux assez inefficaces. On peut imaginer que 90% des sujets ne répondront à aucun des deux traitements, 8% des sujets répondront aux deux traitements, 1.5% des sujets répondront au traitement innovant mais pas au traitement de référence et 0.5% des sujets répondront au traitement de référence mais pas au traitement innovant. Dans ce contexte, les taux de réponses avec le traitement de référence et le traitement innovant sont respectivement de 8.5% et 9.5%, soit un différence absolue de pourcentage de 1% (nombre de sujets à traiter pour obtenir une réponse supplémentaire = 100) ou un odds ratio marginal à 1.13. L’odds ratio conditionnel au patient est égal à 3.0. En effet, cet odds ratio conditionnel au patient est calculé seulement sur les 2% de paires de mesures discordantes. Les 80% de paires concordantes négatives ne participent pas à l’estimation de l’odds ratio car les chances de réponses sont de 0% dans cette paire et tous les odds ratio ont la même vraisemblance . De même pour 8% de patients répondant aux deux traitements. La statistique est seulement calculée comme le rapport entre les discordances favorables au traitement innovant (1.5%) et les discordances favorables au traitement de référence (0.5%). Le rapport 1.5%/0.5% est égal à 3.0, l’odds ratio conditionnel au patient, ou encore, pour être plus clair, conditionnel au fait que le patient ait une réponse différente aux deux traitements. Cet odds ratio à 3.0 est extrêmement élevé par rapport à l’odds ratio marginal car la corrélation intra-patient est forte, ou, en d’autres termes, le facteur patient est fortement pronostique ! Le problème, c’est que ce facteur patient est inobservable tant qu’on n’a pas essayé les deux traitements. Si on considère que les patients se divisent en trois catégories : les rouges (80%), qui ne répondent à aucun des deux traitements, les verts (8%) qui répondent aux deux traitements et les oranges (2%) qui répondent à l’un mais pas à l’autre, alors l’odds ratio fourni s’applique au sous-groupe des patients oranges. Il est conditionnel à la couleur orange. Si la couleur était une variable clinique identifiable, alors il serait aisé d’orienter la prescription. Les patients rouges n’auraient aucun de ces deux traitements, les patients verts auraient l’un ou l’autre, à la préférence du médecin ou du patient et les patients oranges auraient en priorité le traitement innovant avec trois fois plus de chances de réponse que si on leur donnait le traitement de référence. Problème majeur : la couleur est inobservable, sauf à réaliser une période d’essai cross-over pour le patient qui conduirait à identifier d’emblée le sens de la différence et donc, à l’inutilité de la connaissance de cet odds ratio. En bref, l’odds ratio est conditionnel à une donnée inconnue.

Le problème décrit avec la régression logistique conditionnelle s’applique aussi aux régressions logistiques à effets mixtes dont les effets sont conditionnels aux effets aléatoires qui reposent sur des variables inobservables. Ces considérations n’existent pas dans les modèles linéaires à effets fixes ou à effets mixtes gaussiens parce que les effets conditionnels dans ces modèles sont égaux aux effets marginaux la fonction de lien étant l’identité. C’est pourquoi l’essai en cross-over imaginaire cité ci-dessus pourrait être analysé avec une estimation de la différence absolue de chances de réponse par la méthode de Student sur séries appariées. Cette méthode est asymptotiquement correcte et fournit un résultat pertinent et indépendant du degré de corrélation intra-paire.

Au final, rien n’est plus simple et interprétable que les résultats de modèles linéaires gaussiens. Les odds ratio conditionnels risquent d’être incorrectement interprétés comme des odds ratio marginaux alors qu’ils sont toujours gonflés de manière plus ou moins extrême selon que la condition explique plus ou moins fortement la variance de l’outcome. Les modèles logistiques dits ‘conditionnels’ sont à éviter car fournissent des résultats théoriquement ininterprétables, en pratique, fournissent des odds ratio interprétés à tort comme marginaux, et donc plus ou moins fortement biaisés.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *