L’apprentissage supervisé est l’une des approches les plus fondamentales et les plus utilisées dans le domaine de l’intelligence artificielle et du machine learning.
Il consiste à apprendre à un modèle à établir une relation entre des données d’entrée et des sorties connues, dans le but de pouvoir ensuite prédire le résultat pour de nouvelles données jamais vues auparavant.
Dans ce type d’apprentissage, l’algorithme est “supervisé” parce qu’il reçoit des exemples pour lesquels la réponse correcte est déjà connue. Ces exemples permettent au modèle d’apprendre les régularités ou les motifs dans les données, afin de pouvoir les reproduire par la suite sur des cas nouveaux.
Un jeu de données utilisé pour l’apprentissage supervisé contient donc deux éléments essentiels :
Par exemple, si l’on souhaite prédire le prix d’une maison, les caractéristiques d’entrée pourraient être sa surface, son emplacement, ou le nombre de pièces, et la sortie à prédire serait le prix de vente.
Le principe de l’apprentissage supervisé est de trouver une fonction de correspondance entre les données d’entrée et la sortie associée. Une fois cette fonction apprise, elle pourra être utilisée pour estimer la sortie de nouvelles données.
Imaginons maintenant que nous souhaitions prédire le prix d’une voiture d’occasion à partir de certaines de ses caractéristiques, comme son âge, son kilométrage et sa marque.
Chaque ligne de notre jeu de données correspond à une voiture, avec ces différentes informations (les variables d’entrée) et son prix de vente réel (la variable de sortie).
L’algorithme va alors chercher à établir une relation mathématique entre ces caractéristiques et le prix observé.
C’est ce qu’on appelle une régression linéaire, lorsque cette relation peut être représentée par une droite ou une fonction simple.
Une fois le modèle entraîné, il sera capable d’estimer le prix d’une nouvelle voiture dont il ne connaît pas encore la valeur, simplement à partir de ses caractéristiques.
Ainsi, le modèle apprend à généraliser à partir des exemples connus pour faire des prédictions fiables sur de nouvelles données.
L’apprentissage supervisé couvre deux grandes catégories de problèmes : la régression et la classification.
La régression consiste à prédire une valeur numérique continue.
Dans le cas précédent, la variable de sortie (le poids d’une personne) est une valeur réelle, qui peut varier sur une échelle continue.
C’est pourquoi on parle de “régression”.
Les régressions ne se limitent pas à des lignes droites : il existe également des régressions non linéaires, qui peuvent modéliser des relations plus complexes entre les variables.
Exemples courants de régression :
La classification, quant à elle, consiste à prédire une catégorie ou une étiquette.
Contrairement à la régression, la variable de sortie n’est pas une valeur numérique continue, mais une valeur discrète, appartenant à un ensemble fini de classes possibles.
Imaginons, par exemple, que nous souhaitions construire un modèle capable de reconnaître le type de fruit à partir de ses caractéristiques : couleur, poids et forme.
Chaque exemple de notre jeu de données correspond à un fruit (pomme, banane, orange, etc.) accompagné de ses caractéristiques mesurées.
L’algorithme va apprendre à repérer les motifs communs qui distinguent une pomme d’une banane ou d’une orange.
Une fois entraîné, le modèle pourra analyser un fruit qu’il n’a jamais vu auparavant et le classer dans la catégorie correspondante.
Il existe plusieurs formes de classification :
L’entraînement d’un modèle supervisé repose sur plusieurs étapes successives.
L’apprentissage supervisé est utilisé dans de très nombreux domaines :
Même s’il est puissant, l’apprentissage supervisé présente certaines limites :
Ces défis exigent une préparation rigoureuse des données et une évaluation continue des modèles.