Skip to content

L’apprentissage supervisé (Supervised Learning)

1. Introduction

L’apprentissage supervisé est l’une des approches les plus fondamentales et les plus utilisées dans le domaine de l’intelligence artificielle et du machine learning.

Il consiste à apprendre à un modèle à établir une relation entre des données d’entrée et des sorties connues, dans le but de pouvoir ensuite prédire le résultat pour de nouvelles données jamais vues auparavant.

Dans ce type d’apprentissage, l’algorithme est “supervisé” parce qu’il reçoit des exemples pour lesquels la réponse correcte est déjà connue. Ces exemples permettent au modèle d’apprendre les régularités ou les motifs dans les données, afin de pouvoir les reproduire par la suite sur des cas nouveaux.

Un jeu de données utilisé pour l’apprentissage supervisé contient donc deux éléments essentiels :

  • Les variables d’entrée (features), c’est-à-dire les caractéristiques mesurables du phénomène étudié.
  • La variable de sortie (label), c’est-à-dire la valeur ou la catégorie que l’on cherche à prédire.

Par exemple, si l’on souhaite prédire le prix d’une maison, les caractéristiques d’entrée pourraient être sa surface, son emplacement, ou le nombre de pièces, et la sortie à prédire serait le prix de vente.

2. Principe de fonctionnement

Le principe de l’apprentissage supervisé est de trouver une fonction de correspondance entre les données d’entrée et la sortie associée. Une fois cette fonction apprise, elle pourra être utilisée pour estimer la sortie de nouvelles données.

Imaginons maintenant que nous souhaitions prédire le prix d’une voiture d’occasion à partir de certaines de ses caractéristiques, comme son âge, son kilométrage et sa marque. 

Chaque ligne de notre jeu de données correspond à une voiture, avec ces différentes informations (les variables d’entrée) et son prix de vente réel (la variable de sortie).

 L’algorithme va alors chercher à établir une relation mathématique entre ces caractéristiques et le prix observé.

C’est ce qu’on appelle une régression linéaire, lorsque cette relation peut être représentée par une droite ou une fonction simple.

Une fois le modèle entraîné, il sera capable d’estimer le prix d’une nouvelle voiture dont il ne connaît pas encore la valeur, simplement à partir de ses caractéristiques.

Ainsi, le modèle apprend à généraliser à partir des exemples connus pour faire des prédictions fiables sur de nouvelles données.

3. Les deux grands types de tâches en apprentissage supervisé

L’apprentissage supervisé couvre deux grandes catégories de problèmes : la régression et la classification.

a) La régression

La régression consiste à prédire une valeur numérique continue.
Dans le cas précédent, la variable de sortie (le poids d’une personne) est une valeur réelle, qui peut varier sur une échelle continue.

C’est pourquoi on parle de “régression”.

Les régressions ne se limitent pas à des lignes droites : il existe également des régressions non linéaires, qui peuvent modéliser des relations plus complexes entre les variables.

Exemples courants de régression :

  • Prédire le prix d’un bien immobilier en fonction de sa taille et de sa localisation.
  • Estimer la température du lendemain à partir des données météorologiques précédentes.
  • Prévoir la demande de production d’une usine selon la saison et les ventes passées.
b) La classification

La classification, quant à elle, consiste à prédire une catégorie ou une étiquette.
Contrairement à la régression, la variable de sortie n’est pas une valeur numérique continue, mais une valeur discrète, appartenant à un ensemble fini de classes possibles.

Imaginons, par exemple, que nous souhaitions construire un modèle capable de reconnaître le type de fruit à partir de ses caractéristiques : couleur, poids et forme.

Chaque exemple de notre jeu de données correspond à un fruit (pomme, banane, orange, etc.) accompagné de ses caractéristiques mesurées.

L’algorithme va apprendre à repérer les motifs communs qui distinguent une pomme d’une banane ou d’une orange.
Une fois entraîné, le modèle pourra analyser un fruit qu’il n’a jamais vu auparavant et le classer dans la catégorie correspondante.

Il existe plusieurs formes de classification :

  • Classification binaire : le modèle choisit entre deux classes possibles.
    Exemple : un e-mail est “spam” ou “non spam”.
  • Classification multi-classes : le modèle choisit une catégorie parmi plusieurs.
    Exemple : le type de fruit est “pomme”, “banane” ou “orange”.
  • Classification multi-étiquettes : un même élément peut appartenir à plusieurs catégories à la fois.
    Exemple : une chanson peut être à la fois classée comme “pop” et “électro”.
4. Le processus d’entraînement d’un modèle supervisé

L’entraînement d’un modèle supervisé repose sur plusieurs étapes successives.

  1. Collecte et préparation des données
    On rassemble un jeu de données comportant des exemples étiquetés.
    Ces données doivent être propres, cohérentes et représentatives du problème à résoudre.

  2. Division du jeu de données
    Pour garantir la qualité de l’apprentissage, les données sont généralement divisées en trois ensembles :

    • Un ensemble d’entraînement (training set), utilisé pour apprendre les relations entre les variables.

    • Un ensemble de validation (validation set), utilisé pour ajuster les paramètres du modèle et éviter le sur-apprentissage (overfitting).

    • Un ensemble de test (test set), utilisé pour évaluer les performances du modèle sur des données inédites.

  3. Entraînement du modèle
    Le modèle est exposé aux données d’entraînement et ajuste ses paramètres internes pour minimiser l’erreur entre les prédictions et les valeurs réelles.

  4. Évaluation
    Une fois le modèle entraîné, on mesure ses performances sur le jeu de test pour s’assurer qu’il est capable de généraliser à de nouvelles données.
5. Exemples de cas d’usage

L’apprentissage supervisé est utilisé dans de très nombreux domaines :

  • Finance : détection de fraude, analyse de crédit, prévision du cours des actions.
  • Santé : diagnostic médical à partir d’images, prédiction de maladies, analyse de dossiers patients.
  • Marketing : segmentation de clientèle, recommandation de produits, analyse de sentiment.
  • Industrie : maintenance prédictive, estimation de la durée de vie d’un équipement.
  • Technologie : reconnaissance d’images, filtres anti-spam, analyse vocale.
6. Limites et défis

Même s’il est puissant, l’apprentissage supervisé présente certaines limites :

  • Il nécessite beaucoup de données étiquetées, ce qui peut être coûteux et long à produire.
  • Un modèle peut sur-apprendre aux données d’entraînement et perdre en capacité de généralisation.
  • Les biais dans les données peuvent être reproduits et amplifiés par le modèle.

Ces défis exigent une préparation rigoureuse des données et une évaluation continue des modèles.