Introduction L’entraînement d’un modèle de Machine Learning consiste à permettre à un algorithme...
Métriques d’évaluation des modèles de Machine Learning
Introduction
L’évaluation d’un modèle de Machine Learning est une étape cruciale pour vérifier sa fiabilité et sa capacité à généraliser sur de nouvelles données. Les métriques à utiliser dépendent du type de problème traité : classification pour prédire des catégories et régression pour prédire des valeurs continues. Une bonne compréhension de ces métriques permet d’optimiser le modèle et d’anticiper ses limites dans un contexte opérationnel.
1. Évaluation des modèles de classification
La classification consiste à attribuer des observations à des catégories distinctes. Par exemple, un modèle peut prédire si un client est susceptible de souscrire à une offre ou non, ou déterminer si une transaction bancaire est frauduleuse.
La matrice de confusion
La matrice de confusion est un outil fondamental pour visualiser les performances d’un modèle. Elle compare les résultats prédits avec les résultats réels. Dans le cadre d’une classification binaire, elle comprend quatre éléments :
-
Vrais positifs (VP) : les cas correctement identifiés comme positifs.
-
Faux négatifs (FN) : les cas positifs non détectés par le modèle.
-
Faux positifs (FP) : les cas négatifs incorrectement identifiés comme positifs.
-
Vrais négatifs (VN) : les cas correctement identifiés comme négatifs.
Cette matrice permet de comprendre non seulement le nombre d’erreurs, mais également leur nature. Par exemple, dans un modèle de détection d’anomalies sur des machines industrielles, il est important de savoir si le modèle tend à manquer certaines anomalies (FN) ou à générer trop d’alertes inutiles (FP).
Métriques dérivées de la matrice
Plusieurs métriques sont utilisées pour quantifier la performance d’un modèle de classification :
-
Exactitude (Accuracy) : proportion de prédictions correctes sur l’ensemble des prédictions. Elle est utile lorsque les classes sont équilibrées.
-
Précision (Precision) : proportion de prédictions positives correctes par rapport à l’ensemble des prédictions positives. Cette métrique est essentielle lorsque les faux positifs sont coûteux, par exemple lorsqu’une alerte erronée pourrait déclencher des interventions inutiles.
-
Rappel (Recall / Sensibilité) : proportion des vrais positifs correctement identifiés. Cette métrique est cruciale lorsque les faux négatifs sont critiques, comme dans la détection de maladies rares.
-
Score F1 : moyenne harmonique entre précision et rappel, utilisée pour équilibrer les deux mesures, surtout en cas de classes déséquilibrées.
-
AUC-ROC : aire sous la courbe ROC, qui met en relation le taux de vrais positifs et le taux de faux positifs pour différents seuils. Plus l’AUC est proche de 1, plus le modèle est performant. Cette métrique est particulièrement utile pour comparer différents modèles et ajuster le seuil de décision.
2. Évaluation des modèles de régression
La régression vise à prédire des valeurs continues, telles que le prix d’un produit, la consommation énergétique d’un bâtiment ou le score d’un test académique.
Principales métriques de régression
-
Erreur absolue moyenne (MAE, Mean Absolute Error) : moyenne des écarts absolus entre les valeurs prédites et réelles. Elle permet de mesurer l’erreur moyenne du modèle.
-
Erreur absolue moyenne en pourcentage (MAPE) : MAE exprimée en pourcentage, ce qui facilite la comparaison entre différentes séries de valeurs.
-
Erreur quadratique moyenne (RMSE, Root Mean Squared Error) : racine carrée de la moyenne des carrés des erreurs. Cette métrique punit davantage les grandes erreurs et est utile lorsque des écarts importants ont un impact significatif.
-
Coefficient de détermination (R²) : proportion de la variance expliquée par le modèle. Un R² proche de 1 indique que le modèle capture la majorité des variations des données. Par exemple, un R² de 0,9 dans un modèle de prévision des ventes indique que 90 % de la variabilité des ventes est expliquée par les caractéristiques utilisées.
3. Bonnes pratiques d’évaluation
-
Séparer les données en ensembles d’entraînement, de validation et de test pour éviter le surapprentissage et mesurer correctement la généralisation.
-
Choisir la métrique adaptée aux objectifs : privilégier la précision si les faux positifs sont coûteux, le rappel si les faux négatifs le sont.
-
Utiliser le score F1 ou l’AUC-ROC pour les ensembles de données déséquilibrés.
-
Comparer différents modèles avec les mêmes métriques pour identifier le plus performant et le plus robuste.
Conclusion
La compréhension des métriques d’évaluation est indispensable pour construire des modèles fiables et performants. Les modèles de classification nécessitent des outils tels que la matrice de confusion, la précision, le rappel, le F1 et l’AUC-ROC, tandis que les modèles de régression se mesurent avec MAE, MAPE, RMSE et R². Maîtriser ces métriques permet de choisir le meilleur modèle, d’optimiser ses performances et de garantir sa pertinence dans des applications réelles.
--
Ce billet de blog fait partie du cours AWS AI Practitioner en français disponible sur Udemy et sur la plateforme LeCloudFacile.com.
