Stat & More propose différentes méthodes statistiques en fonction des enjeux études et de vos données : une approche basée sur les réseaux Bayésiens ou sur la Décomposition de type Shapley Value, deux outils différents pour identifier vos leviers.
1. Introduction
Dans les sciences sociales et le marketing, la compréhension des “leviers” d’un comportement ou d’une décision va bien au-delà de la simple corrélation. Elle nécessite parfois d’intégrer la notion de causalité, de quantifier précisément l’influence de chaque variable, et d’adapter la finesse de l’outil à votre réalité opérationnelle et budgétaire.
Stat & More maitrise une expertise sur plusieurs outils du registre de l’analyse des leviers dont les deux approches ci-dessous objet de cet article :
- Les réseaux bayésiens (BN) : pour explorer les relations causales (directes et indirectes) entre variables, avec possibilité de simulation.
- La méthode Shapley Value (SV) ou autrement appellée “Average Over Ordering (AOO)”: estime la contribution de chaque prédicteur dans toutes les combinaisons de modèles existants parmi n variables explicatives, sur la base des concepts de la théorie des jeux coopératifs [1].
2. Fondements théoriques
2.1. Le Théorème de Bayes : fondation de la modélisation bayésienne
Le théorème de Bayes est le socle de toute approche bayésienne. Il permet d’estimer la probabilité d’un événement en intégrant :
- Le savoir antérieur (appelé information “a priori”)
- L’information observée (les données que nous allons traiter)
- La vraisemblance des observations (appelée information “a posteriori”)
L’inférence bayésienne est une méthode d’analyse statistique par laquelle on calcule les probabilités de diverses causes hypothétiques à partir de l’observation d’événements connus. Elle s’appuie principalement sur le théorème de Thomas Bayes.
Le théorème de Thomas Bayes énonce des probabilités conditionnelles de plusieurs évènements. Dans sa formulation de 1763, le théorème était énoncé comme suit :
P(A|B) =
sous réserve que P(B) ≠ 0, et où :
- A et B sont deux évènements,
- P(A) : probabilité a priori de l’évènement A,
- P(B) : probabilité de l’évènement B (évidence),
- P(A ∣ B) est la probabilité conditionnelle que l’évènement A se réalise étant donné que l’évènement B s’est réalisé,
- P(B ∣ A) est la probabilité conditionnelle que l’évènement B se réalise étant donné que l’évènement A s’est réalisé.
Exemple concret :
Supposons que vous souhaitiez estimer la probabilité qu’un client recommande votre service (A), sachant qu’il a reçu une information précise (B) :
- P(A) probabilité a priori : Probabilité qu’un client recommande, avant toute information,
- P(B) evidence : Probabilité qu’un client ait reçu une information sur votre service,
- P(B|A) vraisemblance : Probabilité qu’il ait reçu l’information, sachant qu’il recommande votre service,
- P(A|B) postérieure : Probabilité que ce client recommande votre service sachant qu’il a eu une information précise sur celui-ci.
Grâce à cette formule nous pouvons actualiser en temps réel nos convictions par le truchement d’un modèle probabilistique, ce que les statistiques traditionnelles ne font pas :
- Intégration dynamique des connaissances
- Gestion naturelle de l’incertitude
- Adaptabilité aux variables nouvelles ou absentes
Pourquoi l’approche bayésienne surpasse-t-elle les outils classiques ?
| Caractéristique | Statistique classique | Approche bayésienne |
|---|---|---|
| Prise en compte du savoir antérieur | Non | Oui |
| Actualisation au fil des données | Non | Oui |
| Incertitude | Approximée | Gérée pleinement |
| Simulation des scénarios | Difficile | Immédiate et naturelle |
2.2. Réseaux Bayésiens : modélisation graphique de la causalité
Définition
Un réseau bayésien est un graphe orienté acyclique G = (V, E) où chaque nœud est une variable aléatoire, chaque arcs encode une dépendance conditionnelle :
- G désigne le graphe orienté acyclique complet, qui représente la structure du réseau bayésien.
- V désigne l’ensemble des nœuds (ou sommets) du graphe, c’est-à-dire l’ensemble des variables aléatoires modélisées dans le réseau bayésien.
- E représente les arcs (ou arêtes orientées) reliant ces nœuds et traduisant les dépendances conditionnelles entre variables.
Dans ce schema, “Conseils”, “Information” et “Recommande” sont des noeuds. Les flèches vertes sont les arcs ou arêtes orientées
Interprétation : Dans ce réseau, “Conseils” influe sur “Information”, qui influe sur “Recommande”.
Comment construit-on un réseau Bayesien ?
1. Découverte automatique de la structure
Les approches principales pour la découverte des réseaux acycliques, notamment des réseaux bayésiens (graphe orienté acyclique), sont les suivantes :
-
Approches basées sur les contraintes : Elles consistent à tester les indépendances conditionnelles entre variables à partir des données. Le but est de trouver une structure de réseau qui respecte ces dépendances et indépendances observées. Ces méthodes s’appuient donc sur des tests statistiques d’indépendance conditionnelle pour guider la construction du graphe. On trouve par exemple dans cette approche les algorithmes suivant :
- Algorithme Peter-Clark (PC)
- Algorithme Spirtes, Glymour, Scheines (SGS)
-
Approches basées sur une fonction de score : Dans ces méthodes, chaque réseau candidat est évalué par un score qui mesure l’adéquation de sa structure aux données observées (en termes de dépendances et d’indépendances). On cherche alors la structure qui maximise ce score, ce qui nécessite souvent une recherche heuristique dans l’espace des graphes possibles. On trouve par exemple dans cette approche les algorithmes suivant :
- Algorithme de recherche gloutonne (Greedy Search)
- Algorithme K2
- Algorithmes basés sur l’échantillonnage ou recherche par recuit simulé
-
Approches hybrides : Combinaison des deux précédentes, elles utilisent les contraintes d’indépendance pour limiter l’espace de recherche et une fonction de score pour choisir la meilleure structure. On trouve par exemple dans cette approche l’algorithme Max-Min Hill Climbing (MMHC).
Ces approches doivent également gérer la contrainte d’acyclicité du graphe, ce qui rend la recherche complexe. La découverte de réseaux bayésiens est ainsi un problème combinatoire qui fait souvent appel à des heuristiques ou algorithmes d’optimisation.
En résumé, la découverte des réseaux acycliques repose sur :
- tester les indépendances conditionnelles pour guider la structure,
- évaluer et optimiser une fonction de score pour sélectionner la meilleure structure possible, parfois en combinant ces méthodes pour une meilleure efficacité.
Ces algorithmes cherchent à reconstruire la structure causale (acyclique) du graphe à partir des données en respectant la contrainte d’acyclicité et en optimisant la correspondance entre données et modèle.
2. Estimation des paramètres
L’estimation des paramètres dans un réseau bayésien se fait généralement après la découverte de la structure (le graphe). Cela consiste à remplir pour chaque nœud une table de probabilités conditionnelles appelée CPT (Conditional Probability Table).
La CPT indique la probabilité que la variable (nœud) prenne une certaine valeur conditionnellement aux différentes combinaisons des valeurs de ses parents dans le graphe.
Par exemple, pour la variable “Information” avec une variable parent “Conseils” qui peut être Oui ou Non, on a la table de probabilités conditionnelles suivante :
| Information | ||
|---|---|---|
| Conseils | Oui | Non |
| Oui | 0.83 | 0.17 |
| Non | 0.43 | 0.57 |
Cette table signifie :
- La probabilité que “Information” soit Oui sachant que “Conseils” est Oui est 0.83,
- La probabilité que “Information” soit Oui sachant que “Conseils” est Non est 0.43,
- Et ainsi de suite pour toutes les valeurs possibles.
L’estimation des paramètres de la table de probabilités conditionnelles se fait à partir de données observées, en calculant la fréquence relative des valeurs de la variable conditionnée par celles des parents (maximum de vraisemblance). Quand les données sont incomplètes ou partiellement observées, des techniques comme l’algorithme Expectation-Maximization (EM)[2] sont utilisées pour estimer ces probabilités.
Ainsi, la table de probabilités conditionnelles stocke localement la loi de probabilité conditionnelle de chaque nœud du réseau, permettant au réseau bayésien de modéliser la distribution jointe globale des variables par le produit des tables de probabilités conditionnelles locales.
3. Validation du modèle
La validation du modèle en réseaux bayésiens vise à vérifier si la structure et les paramètres appris décrivent au mieux les données observées, tout en évitant le surajustement (surestimation). Parmi les critères utilisés pour cette sélection, le critère d’information bayésien (BIC) est courament utilisé.
Définition du score BIC :
Le score BIC (Bayesian Information Criterion — Critère d’information bayésien) est une mesure permettant de comparer les modèles statistiques en tenant compte à la fois de :
- la qualité d’ajustement aux données (via la vraisemblance du modèle)
- la complexité du modèle (nombre de paramètres)
La formule du score BIC est la suivante :
où :
- N : nombre total d’observations (échantillon de données)
- k : nombre de paramètres dans le modèle (complexité)
- : valeur maximale de la fonction de vraisemblance du modèle (ajustement du modèle aux données)
Pourquoi utiliser le score BIC pour valider un réseau bayésien ?
- Il évite de choisir un modèle trop complexe qui colle parfaitement aux données d’entraînement mais qui perd en capacité à généraliser sur de nouvelles données.
- Il constitue un critère indépendant de la taille des données et du nombre de paramètres, permettant une comparaison équitable.
Un modèle avec un score BIC plus faible est préféré, car il indique un meilleur compromis entre une bonne prédiction des données et une complexité limitée.
Le score BIC pénalise fortement les modèles complexes, ce qui favorise les modèles plus simples quand la différence de vraisemblance n’est pas significative.
Application pratique pour les réseaux bayésiens :
1. Découverte de structure : Générer plusieurs graphes candidats avec divers liens causaux (différents graphes de dépendances, nombre de nœuds/arcs …).
2. Estimation des paramètres : Calculer les probabilités conditionnelles pour chaque nœud dans chaque réseau candidat en utilisant l’algorithme Espérance-Maximisation (EM) si nécessaire.
3. Calcul du score BIC : Pour chaque structure candidate on calcule le score BIC.
4. Sélection du modèle : Le réseau ayant le score BIC le plus faible est retenu comme modèle optimal.
En résumé :
- Le score BIC permet d’objectiver la qualité du réseau bayésien appris en tenant compte de deux dimensions : l’ajustement sur les données ET la simplicité du modèle.
- Il est essentiel dans la validation du modèle : il permet de retenir la structure la plus robuste et prédictive sans sacrifier la capacité prédictive du modèle.
2.3. Décomposition Shapley Value : attribution équitable de l’importance de chaque variable
La décomposition de la valeur de Shapley avec 3 variables explicatives, avec par exemple “Conseils”, “Information” et “Relation Agréable”, impactant la variable à expliquer “Recommandation” s’effectue comme suit :
La valeur de Shapley attribue à chaque variable explicative une contribution moyenne à la prédiction (ou à la valeur de la fonction objectif) en considérant toutes les combinaisons possibles des variables. Pour 3 variables, on considère toutes les coalitions possibles (sous-ensembles) de ces variables.
Soit N = {Conseils, Information, Relation Agréable}
Pour une variable j parmi ces 3 variables, la valeur de Shapley j est calculée par la formule :
où :
- N est l’ensemble des variables explicatives
- S est un sous-ensemble de variables explicatives ne contenant pas j,
- v(S) est la valeur de la fonction objectif (par exemple la prédiction du modèle par régression linéaire) lorsque seules les variables de S sont prises en compte,
- est la contribution marginale de la variable j ajoutée à S,
- les coefficients factoriels représentent les poids basés sur la taille des coalitions, garantissant que chaque permutation est également prise en compte.
Pour 3 variables, on a 8 sous-ensembles S, y compris l’ensemble vide. La contribution marginale lorsque :
- S = Pas de variable (modèle moyen),
- S = Conseils,
- S = Information,
- S = Relation Agréable,
- S = Conseils, Relation Agréable,
- S = Conseils, Information,
- S = Information, Relation Agréable,
- S = Conseils, Information, Relation Agréable.
Pour chaque variable j on calcule sa contribution marginale pour ces différentes combinaisons S. Par exemple pour “Conseils”, nous calculons les contributions marginales lorsque :
- S = Pas de variable (modèle moyen),
- S = Information,
- S = Relation Agréable,
- S = Information, Relation Agréable,
Chacune de ces contributions marginale est pondérée selon la taille du sous-ensemble S. La somme pondérée de ces contributions donne la valeur de Shapley de la variable “Conseils”.
En pratique, on évalue la fonction v(S) en fonction d’un modèle prédictif ou d’une métrique d’information mesurant l’effet des variables dans S sur la recommandation.
La somme des contributions individuelles calculées avec la valeur de Shapley pour chacune des 3 variables explicatives (“Conseils”, “Information”, “Pleasant Relationship”) correspond exactement à la différence entre :
- La prédiction du modèle lorsqu’on prend en compte toutes les variables explicatives activées simultanément dans le modèle,
- Et une prédiction de référence de base, généralement la prédiction moyenne du modèle sans aucune variable explicative ou avec des variables neutres.
Autrement dit, la valeur de Shapley décompose la prédiction globale en parts précises associées à chaque variable, et la somme de ces parts reconstitue parfaitement l’écart entre la prédiction complète et la prédiction de référence. Cette propriété d’additivité est une garantie fondamentale des valeurs de Shapley issue de la théorie des jeux coopératifs, assurant une interprétation cohérente et complète des contributions des variables à la prédiction.
Cette décomposition permet d’expliquer clairement à quel point chacune des variables “Conseils”, “Information”, “Relation Agréable” contribue à la “Recommandation”, en tenant compte des interactions possibles entre variables.
En résumé, le calcul de la valeur de Shapley décompose la contribution de chaque variable à la valeur totale en moyennant ses contributions marginales sur toutes les combinaisons possibles des variables explicatives, offrant une mesure équitable et complète d’importance.
Exemple pratique :
Reprenons l’analyse sur la “Recommandation” et listons les valeurs de Shapley de façon décroissante :
- Information : = 0.42
- Conseils: = 0.34
- Relation Agréable : = 0.24
Interprétation : La variable “Information” correspond à la variable de levier principal dans ce modèle avec un poids de 42%, vient ensuite la variable “Conseils” avec un poids de 34% et enfin la variable “Relation Agréable” avec un poids de 24%.
Disgression sur l’impacte du signe des coefficients des variables actives dans les modèles de prédiction :
-
La valeur de Shapley calcule la contribution moyenne marginale d’une variable sur toutes les permutations possibles d’inclusion/exclusion des variables. Cette contribution peut être positive ou négative selon que la variable augmente ou diminue la sortie du modèle dans les différentes coalitions.
-
Un coefficient de régression négatif traduit qu’une variable, toutes choses égales par ailleurs, réduit la valeur prédite. Dans la décomposition de la valeur de Shapley, cela se manifeste par une contribution négative à la somme totale, reflétant son influence “inhibitrice”.
-
Il est donc normal et attendu que certaines variables aient des valeurs de Shapley négatives, surtout si leurs coefficients de régression sont négatifs, car la valeur de Shapley capture aussi bien les contributions positives que négatives.
-
Pour interpréter ces valeurs, on peut regarder la contribution absolue de la variable (sa magnitude) ainsi que son signe, qui indique la direction de l’impact. Par exemple, une valeur de Shapley négative importante signifie que la variable contribue fortement à diminuer la prédiction.
-
Si une analyse détaillée est souhaitée, on peut aussi décomposer la valeur de Shapley en termes de contributions positives et négatives moyennées séparément, ou examiner la contribution marginale dans différentes coalitions pour comprendre quand la variable agit comme frein ou comme levier.
En résumé :
Les valeurs négatives des coefficients de régression sont naturellement prises en compte dans la décomposition de la valeur de Shapley via les contributions marginales négatives dans certaines coalitions, et ces valeurs négatives doivent être interprétées comme des influences inhibitrices dans le modèle.
3. Critères de choix entre un réseau Bayésien et la décomposition par valeur de Shapley, puis contraintes budgétaires
Le choix entre un réseau bayésien et une décomposition par valeur de Shapley dans un contexte d’analyse de levier dépend des objectifs, du type de données, et de la nature des relations à modéliser.
1. Pourquoi choisir un réseau bayésien ?
- Un réseau bayésien modélise explicitement les dépendances causales entre variables sous forme de graphe orienté acyclique. Il est adapté pour comprendre les relations conditionnelles, les influences directes et indirectes entre variables.
- Utile lorsque l’objectif est d’analyser le système global, ses interactions, et d’inférer des probabilités conditionnelles, notamment pour faire des diagnostics ou des scénarios de cause à effet.
- Permet d’intégrer à la fois les connaissances a priori (expertise) et les données observées.
- Convient pour des analyses prospectives permettant de simuler différents états et leurs impacts.
2. Pourquoi choisir la décomposition par valeur de Shapley ?
- La décomposition Shapley est une méthode d’interprétabilité, destinée à expliquer la contribution marginale précise de chaque variable à une prédiction ou un résultat particulier.
- Très utile pour l’analyse de levier ciblée sur les effets individuels d’attributs dans un modèle prédictif, notamment dans des modèles complexes où l’impact direct n’est pas trivial à extraire.
- Fournit une mesure additive des contributions même lorsque les variables interagissent, ce qui aide à la prise de décision sur les leviers d’action prioritaires.
- Approche agnostique vis-à-vis du modèle, applicable à tout modèle prédictif sous réserve d’avoir un petit nombre de paramètres à estimer (<20).
3. Comment choisir ?
- Choisir un réseau bayésien quand la compréhension des relations causales et des dépendances entre variables est cruciale, et que l’on souhaite modéliser explicitement ces dépendances dans un cadre probabiliste.
- Choisir la valeur de Shapley quand l’objectif principal est de décomposer l’effet global d’un modèle prédictif en contributions précises par variable, pour interpréter et prioriser des leviers en fonction de leur impact individuel.
- Dans certains cas, les deux approches peuvent être complémentaires : réseau bayésien pour la modélisation causale globale, et Shapley pour expliquer localement les prédictions et décisions.
En résumé, le réseau bayésien est plus orienté vers le diagnostic causale global, tandis que la décomposition Shapley offre une analyse fine et équitable des contributions des variables individuelles dans un cadre prédictif, idéale pour l’analyse de levier.
Pour vous aider à vous positionner voici en synthèse un tableau comparatif des 2 approches.
| Critère | Réseaux bayésiens | Décomposition de la valeur de Shapley |
|---|---|---|
| Fondement | Théorème de Bayes, graphe probabiliste | Théorie des jeux coopératifs |
| Interprétation | Causale | Additive, descriptive |
| Robustesse | Forte, même sur des données imparfaites | Sensible à la présence de multicolinéarité |
| Extensibilité | Bonne avec des algorithmes / logiciels modernes | Limitée (nombre de variables < 20) |
| Simulation | Oui | Non |
| Audit d'équité | Moyen | Excellent |
| Budget | Variable selon complexité | Limité si petit nombre de variables |
4. Conclusion
La comparaison entre réseaux bayésiens et décomposition par valeur de Shapley montre que chaque méthode répond à des besoins distincts :
- Les réseaux bayésiens éclairent les relations causales et la dynamique des systèmes,
- Tandis que la décomposition par valeur de Shapley fournit une attribution additive, claire et équitable de l’importance de chaque variable dans un modèle prédictif.
D’autres approches d’analyse de levier existent, telles que l’effet des attributs, les corrélations partielles, ou encore l’analyse de la variance.
Stat & More met à votre service une expertise approfondie et des solutions d'analyse de données avancées, ainsi que l'automatisation de vos analyses décisionnelles. Vous êtes une société d'études marketing, un annonceur ou tout simplement en recherche de réponses à vos questions ? De manière plus générale, vous avez besoin de valoriser vos données et de tirer le maximum du potentiel informatif contenu dans vos données ? Bénéficiez d'un accompagnement personnalisé, de livrables riches, accessibles et positionnez-vous en leader sur votre expertise. Alors n'hésitez plus, envoyer un email à Stat & More pour un accompagnement sur mesure afin de tirer le meilleur de vos données.
#StatAndMore #BayesianNetworks #ShapleyValue #DriverAnalysis #Causality #DecisionScience #SocialResearch #Consulting #CustomAnalysis
[1] La théorie des jeux coopératifs est une branche de la théorie des jeux qui étudie les situations où les joueurs peuvent collaborer, former des coalitions, et s’engager à adopter des stratégies collectives pour maximiser un gain commun plutôt que de chercher à maximiser individuellement leurs propres bénéfices. L’idée centrale est que les participants peuvent négocier et s’entendre sur la manière de partager les bénéfices issus de cette coopération.
Source : Wikipedia théorie des jeux
[2] L’algorithme espérance-maximisation (en anglais expectation-maximization algorithm, souvent abrégé EM) est un algorithme itératif qui permet de trouver les paramètres du maximum de vraisemblance d’un modèle probabiliste lorsque ce dernier dépend de variables latentes non observables. Il a été proposé par Dempster et al. en 1977. De nombreuses variantes ont par la suite été proposées, formant une classe entière d’algorithmes.
Source : Wikipedia espérance-maximisation
REFERENCES :
1. Wikipedia. Thomas Bayes. https://fr.wikipedia.org/wiki/Thomas_Bayes
2. Wikipedia. Critère d’information bayésien. https://fr.wikipedia.org/wiki/Crit%C3%A8re_d'information_bay%C3%A9sien
3. Algorithmes pour la découverte de réseaux bayésiens acycliques [1] https://arxiv.org/pdf/1502.02454
4. Algorithmes pour la découverte de réseaux bayésiens acycliques [2] https://theses.hal.science/tel-00485862/PDF/HDR-Part1.pdf
5. Algorithmes pour la découverte de réseaux bayésiens acycliques [3] https://www.rfai.lifat.univ-tours.fr/PublicData/PhD/a.delaplace.thesis.pdf
6. Reseaux bayéesiens et valeurs de Shapley https://hal.sorbonne-universite.fr/hal-03417323v1/document