Valeurs aberrantes

blog-image

En statistique, les valeurs aberantes, sont des valeurs qui sont considérablement différentes des autres valeurs dans un échantillon ou une population, et sont des données qu'il faut considérer avant d'initier toute analyse. Les données aberrantes peuvent être le résultat d'erreurs de mesure, de biais de collecte de données ou d'autres facteurs non représentatifs de la population. Elles peuvent influencer les résultats de l'analyse statistique, en donnant une image déformée de la population étudiée.
Dans certaines études, avec échantillonage, les valeurs aberrantes pourraient être également des signaux faibles. Signaux qu'il convient de considérer comme tels.

Les valeurs aberrantes peuvent donc affecter la validité et la fiabilité des résultats d'une étude d'opinion issue d'un sondage, en déformant les statistiques descriptives. Ces déformations biaisent les analyses inférentielles, l'extrapolation des connaissances acquises sur l'échantillon à l'ensemble de la population d'origine.

Dans un contexte de modélisation en intelligence artificielle, les valeurs aberrantes peuvent compliquer la phase d’apprentissage par exemple en nécessitant un volume de données conséquent, une durée d’apprentissage beaucoup plus longue qu’estimée au départ.

Il est donc important de détecter et de traiter les données aberrantes avant de les inclure dans l’analyse statistique ou la modélisation.




✓ Comment détecter des valeurs aberrantes ?


Il existe plusieurs méthodes pour détecter les valeurs aberrantes dans les jeux de données, notamment :

✓ Examen visuel : visualiser les données à l'aide de graphiques pour détecter les valeurs anormales type Normal Q-Q plot, BoxPlot ou ScatterPlot.

✓ Utilisation de seuils : définir des seuils pour les valeurs aberrantes en utilisant des statistiques de dispersion tels que l'écart-type, l'écart inter-quartiles...

✓ Analyse statistique : utiliser des tests statistiques pour détecter les valeurs aberrantes, tels que les tests de student, les tests de normalité, les tests de détection de valeurs extrêmes...




✓ Une fois détectées, comment devons-nous traiter ces données aberrantes ?


Le choix de la méthode dépendra du contexte et de l'objectif de l'analyse.

✓ Erreur de collecte : dans la mesure du possible, il convient de corriger cette erreur de collecte si vous avez les moyens de le faire.
Si la correction n'est pas possible, dans un 1er temps remplacez cette donnée erronée par une donnée manquante.

✓ Données plausibles : les valeurs identifiées sont à priori aberrantes mais restent dans le domaine du probable malgré leurs très très faibles fréquences dans la population mère.
Il faut alors se concentrer sur l'objectif et la finalité de l'analyse.


☛ Etude et reporting : ces valeurs sont à conserver dans les données. Elles pourront être taguées comme étant des signaux faibles,


☛ Modélisation ou Régression : Il faut probablement exclure ces données des modèles initiaux pour se concentrer sur la cible majoritaire et prioritaire à analyser.
Dans un 2nd temps, nous pouvons envisager de créer un modèle dédié pour traiter le cas de ces valeurs aberrantes ou signaux faibles. Ce 2nd modèle nécessitera certainement une phase de collecte complémentaire afin d'avoir suffisament de données pour mener à bien cette analyse.


A ce stade, il vous reste probablement des données manquantes dans certaines de vos variables à la place des valeurs aberrantes identifées précédement. Soit vous analysez ces variables avec ces données manquantes, soit vous utilisez des techniques d’imputation ou d’estimation des valeurs manquantes. Ces outils d’imputation feront l’objet d’un nouvel article.



Nous avons pu aborder dans cet article, de façon succinte et relativement simple, différents outils pour identifier des valeurs aberrantes, puis quelques règles de décision à considérer pour gérer ces valeurs aberrantes dans vos jeux de données.


Vous avez besoin d'accompagnement pour appréhender et gérer les valeurs aberrantes dans vos jeux de données, contactez nous.