Après avoir exploré l’apprentissage supervisé, intéressons-nous à une autre famille du Machine Learning : l’apprentissage non supervisé.
Contrairement à l’apprentissage supervisé, ici les données ne sont pas étiquetées. Autrement dit, nous ne disposons pas de réponses ou de catégories prédéfinies pour nos exemples. L’algorithme doit donc identifier par lui-même des structures, des relations ou des tendances dans les données.
L’apprentissage non supervisé permet ainsi de découvrir du sens à partir de données brutes, sans indication humaine préalable.
Imaginons que nous disposions de données météo pour différentes villes : température moyenne, précipitations, humidité, et vitesse du vent.
Nous ne savons pas à l’avance si ces villes appartiennent à des catégories climatiques particulières.
Un algorithme d’apprentissage non supervisé, tel que le clustering, peut regrouper les villes ayant des caractéristiques climatiques similaires. Par exemple :
Un groupe pourrait regrouper les villes chaudes et humides,
Un autre les villes tempérées avec peu de pluie,
Et un dernier les villes froides et enneigées.
Grâce à ces regroupements, les chercheurs ou urbanistes peuvent identifier des zones climatiques naturelles et adapter des politiques locales, comme la gestion de l’eau ou la planification agricole.
Supposons qu’un site e-commerce souhaite mieux comprendre les comportements de ses visiteurs.
Chaque utilisateur génère des données : pages visitées, temps passé, produits consultés, historique d’achats.
Aucune étiquette n’indique « client fidèle » ou « visiteur occasionnel ».
Un algorithme d’apprentissage non supervisé peut créer des groupes d’utilisateurs similaires :
Les visiteurs qui naviguent beaucoup mais achètent peu,
Ceux qui achètent régulièrement mais consultent peu de pages,
Les utilisateurs qui achètent surtout des articles en promotion.
Ces regroupements permettent ensuite d’adapter le contenu du site, personnaliser les recommandations ou créer des campagnes marketing ciblées.
Clustering (regroupement) : consiste à rassembler des points de données similaires en groupes.
Exemple : segmenter les clients selon leurs habitudes d’utilisation d’une application mobile.
Règles d’association : identifie des relations fréquentes entre différentes variables.
Exemple : un site de streaming peut détecter que les utilisateurs qui regardent des films de science-fiction regardent souvent aussi des documentaires sur la technologie. Cette information peut guider les recommandations de contenus.
Détection d’anomalies : repère les données qui se comportent de manière inhabituelle.
Exemple : un capteur industriel envoie des mesures régulières sur une machine ; une valeur très différente des précédentes peut indiquer un dysfonctionnement imminent, permettant une maintenance préventive.