L’apprentissage semi-supervisé est une approche hybride qui combine les principes de l’apprentissage supervisé et de l’apprentissage non supervisé.
Il s’agit d’un compromis entre deux réalités : d’un côté, la puissance des modèles supervisés, et de l’autre, la rareté (et le coût) des données étiquetées.
Dans le monde réel, la plupart des entreprises possèdent de grandes quantités de données, mais seule une petite partie est étiquetée.
Étiqueter des données signifie attribuer une valeur ou une catégorie connue à chaque exemple : cela peut être long, coûteux et parfois subjectif.
Par exemple :
Identifier manuellement le contenu d’images médicales (tumeur bénigne ou maligne).
Étiqueter des commentaires en ligne comme “positif”, “négatif” ou “neutre”.
Annoter des sons pour reconnaître des espèces d’oiseaux.
Ces tâches exigent du temps, des experts, et souvent un effort considérable de validation.
L’apprentissage semi-supervisé cherche donc à tirer le meilleur parti d’un petit volume de données étiquetées combiné à une grande masse de données non étiquetées.
Le processus d’apprentissage semi-supervisé se déroule généralement en trois étapes principales :
Apprentissage initial sur les données étiquetées
Le modèle est d’abord entraîné sur la petite portion de données pour apprendre à reconnaître des schémas de base.
Génération de pseudo-étiquettes (pseudo-labelling)
Une fois que le modèle a acquis un minimum de compétences, il est utilisé pour prédire les étiquettes des données non étiquetées.
Ces prédictions ne sont pas parfaites, mais elles fournissent une approximation utile.
Réentraînement du modèle sur l’ensemble des données
Les données initialement étiquetées et celles pseudo-étiquetées sont ensuite combinées pour entraîner à nouveau le modèle, cette fois sur un ensemble de données beaucoup plus large.
Le modèle s’améliore ainsi de manière progressive, en affinant sa compréhension à mesure qu’il apprend de ses propres prédictions.
Imaginons que vous développiez un modèle d’IA pour identifier des types de plantes à partir d’images prises sur le terrain.
Vous disposez de :
500 images étiquetées par des botanistes (avec le nom de la plante),
mais 10 000 images supplémentaires sans étiquette.
Procédé :
Vous commencez par entraîner un modèle sur les 500 images étiquetées.
Le modèle prédit ensuite des étiquettes pour les 10 000 images restantes.
Vous conservez les prédictions les plus fiables (par exemple, celles pour lesquelles le modèle est sûr à plus de 90 %).
Vous combinez ces images pseudo-étiquetées avec les images d’origine pour créer un nouvel ensemble de données enrichi.
Vous réentraînez ensuite le modèle, qui devient plus précis, notamment pour des espèces qu’il n’avait vues qu’en petit nombre au départ.
Ce processus est très proche de la manière dont un humain apprend : en observant quelques exemples bien expliqués, puis en généralisant grâce à la pratique et à la déduction.
Réduction des coûts d’annotation : on n’a besoin que d’une petite fraction de données étiquetées.
Meilleure performance que le non supervisé : le modèle s’appuie sur des étiquettes réelles pour se guider.
Exploitation optimale des données disponibles : même les données non étiquetées contribuent à améliorer la précision.
Adaptation à de nombreux domaines : il est particulièrement utile dans les secteurs où l’expertise humaine est rare ou coûteuse.
Santé : diagnostic médical à partir d’images où seules certaines ont été validées par un médecin.
Cybersécurité : détection de comportements suspects dans des journaux d’activité où seules quelques attaques sont identifiées.
Traitement du langage naturel : classification d’avis en ligne quand seule une petite partie a été labellisée manuellement.
Agriculture intelligente : reconnaissance d’espèces végétales ou d’états de cultures avec peu d’échantillons annotés.
Reconnaissance vocale : amélioration des modèles de transcription à partir de milliers d’heures de sons non annotés.
Même si cette approche est très prometteuse, elle présente quelques défis :
Risque d’erreurs dans les pseudo-étiquettes : si le modèle de départ fait de mauvaises prédictions, ces erreurs peuvent être amplifiées.
Nécessité d’un contrôle qualité : il faut filtrer ou pondérer les données pseudo-étiquetées selon la confiance du modèle.
Dépendance à la qualité des données initiales : plus le jeu de données étiquetées est varié et fiable, meilleur sera le modèle final.
L’apprentissage semi-supervisé se situe entre le supervisé et le non supervisé.
Il est particulièrement utile dans des contextes où :
les données sont abondantes,
mais l’étiquetage est coûteux ou complexe.
En combinant une petite base de vérité (les données étiquetées) avec un grand volume d’exemples bruts (les données non étiquetées), on obtient un modèle plus performant et mieux généralisé.
Cette approche est aujourd’hui très utilisée dans les domaines où l’accès à des données labellisées de qualité est limité, comme la santé, la cybersécurité, ou encore la reconnaissance visuelle.