Dans le domaine de l’apprentissage automatique (Machine Learning), les données sont la matière première. Sans données, un modèle ne peut pas apprendre. Et sans bonnes données, même le meilleur algorithme ne produira pas de résultats fiables.
Une règle bien connue résume ce principe :
Garbage In, Garbage Out — Si vous entrez des données de mauvaise qualité, vous obtiendrez des résultats de mauvaise qualité.
Ainsi, la préparation, le nettoyage et la qualité des données sont des étapes critiques dans la réussite d’un projet d’IA.
Lorsqu’on crée un modèle de Machine Learning, on commence par fournir un ensemble de données appelé jeu de données d’entraînement (training dataset). Le modèle apprend à repérer des relations ou des motifs dans ces données. Une fois entraîné, il peut faire des prédictions ou classer de nouvelles données qu’il n’a jamais vues. Mais pour que cela fonctionne, les données doivent être adaptées, propres et bien structurées.
Les données étiquetées contiennent à la fois :
Exemple :
Ces données permettent de pratiquer l’apprentissage supervisé (Supervised Learning), c’est-à-dire qu’on “supervise” le modèle en lui indiquant la bonne réponse pendant l’entraînement. Ainsi, il apprend à faire correspondre les entrées aux sorties connues.
Cas d’usage :
Les données non étiquetées ne comportent que des caractéristiques d’entrée, sans sortie associée.
Le modèle doit donc trouver lui-même des structures ou des regroupements dans les données.
C’est ce qu’on appelle l’apprentissage non supervisé (Unsupervised Learning).
Exemple :
Vous disposez d’un ensemble de photos d’animaux sans savoir lesquels sont des chiens ou des chats.
L’algorithme analysera les images et tentera de regrouper celles qui se ressemblent, par exemple :
Cas d’usage :
L’étiquetage manuel des données est souvent long, coûteux et fastidieux, surtout lorsqu’on parle de millions d’images ou de textes. C’est pourquoi les chercheurs développent aujourd’hui des techniques intermédiaires comme le semi-supervised learning ou le self-supervised learning, pour exploiter de grandes quantités de données non étiquetées.
Les données structurées sont organisées dans un format défini — souvent en lignes et colonnes, comme dans un tableau Excel ou une base de données SQL.
Exemple :
|
ID Client |
Nom |
Âge |
Montant Achat (€) |
|
001 |
Awa |
28 |
350 |
|
002 |
Mamadou |
42 |
500 |
Chaque colonne a une signification précise (attribut), et chaque ligne représente un enregistrement.
Autre forme de données structurées :
Séries temporelles : par exemple, le prix d’une action enregistré à chaque minute.
Date | Prix (€)
-----------|---------
25/10/2025 | 120.5
26/10/2025 | 121.8
Cas d’usage :
Les données non structurées n’ont pas de format défini.
Elles représentent aujourd’hui plus de 80 % des données produites dans le monde.
Exemples :
Ces données sont plus difficiles à traiter car elles nécessitent des techniques avancées comme :
Une bonne donnée doit être :