Training Data

Written by Amadou Merico | Oct 25, 2025 11:50:46 PM

Introduction

Dans le domaine de l’apprentissage automatique (Machine Learning), les données sont la matière première. Sans données, un modèle ne peut pas apprendre. Et sans bonnes données, même le meilleur algorithme ne produira pas de résultats fiables.

Une règle bien connue résume ce principe :

Garbage In, Garbage Out — Si vous entrez des données de mauvaise qualité, vous obtiendrez des résultats de mauvaise qualité.

Ainsi, la préparation, le nettoyage et la qualité des données sont des étapes critiques dans la réussite d’un projet d’IA.

Le rôle des données dans le Machine Learning

Lorsqu’on crée un modèle de Machine Learning, on commence par fournir un ensemble de données appelé jeu de données d’entraînement (training dataset). Le modèle apprend à repérer des relations ou des motifs dans ces données. Une fois entraîné, il peut faire des prédictions ou classer de nouvelles données qu’il n’a jamais vues. Mais pour que cela fonctionne, les données doivent être adaptées, propres et bien structurées.

Données étiquetées vs données non étiquetées

1. Les données étiquetées (Labeled Data)

Les données étiquetées contiennent à la fois :

des caractéristiques d’entrée (input features),
et une étiquette de sortie (output label).

Exemple :

Image d’entrée : une photo d’animal.
Étiquette de sortie : « chien » ou « chat ».

Ces données permettent de pratiquer l’apprentissage supervisé (Supervised Learning), c’est-à-dire qu’on “supervise” le modèle en lui indiquant la bonne réponse pendant l’entraînement. Ainsi, il apprend à faire correspondre les entrées aux sorties connues.

Cas d’usage :

Reconnaissance d’images,
Analyse de sentiments (texte → positif/négatif),
Prédiction de prix (variables → prix final).

2. Les données non étiquetées (Unlabeled Data)

Les données non étiquetées ne comportent que des caractéristiques d’entrée, sans sortie associée.
Le modèle doit donc trouver lui-même des structures ou des regroupements dans les données.
C’est ce qu’on appelle l’apprentissage non supervisé (Unsupervised Learning).

Exemple :

Vous disposez d’un ensemble de photos d’animaux sans savoir lesquels sont des chiens ou des chats.
L’algorithme analysera les images et tentera de regrouper celles qui se ressemblent, par exemple :

Groupe 1 : formes, couleurs et textures proches → probablement des chats.
Groupe 2 : autres caractéristiques → probablement des chiens.

Cas d’usage :

Segmentation de clients en marketing,
Détection d’anomalies,
Regroupement d’articles similaires (clustering).

L’étiquetage manuel des données est souvent long, coûteux et fastidieux, surtout lorsqu’on parle de millions d’images ou de textes. C’est pourquoi les chercheurs développent aujourd’hui des techniques intermédiaires comme le semi-supervised learning ou le self-supervised learning, pour exploiter de grandes quantités de données non étiquetées.

Données structurées vs non structurées

1. Les données structurées

Les données structurées sont organisées dans un format défini — souvent en lignes et colonnes, comme dans un tableau Excel ou une base de données SQL.

Exemple :

ID Client	Nom	Âge	Montant Achat (€)
001	Awa	28	350
002	Mamadou	42	500

Chaque colonne a une signification précise (attribut), et chaque ligne représente un enregistrement.

Autre forme de données structurées :

Séries temporelles : par exemple, le prix d’une action enregistré à chaque minute.

Date | Prix (€)

-----------|---------

25/10/2025 | 120.5

26/10/2025 | 121.8

Cas d’usage :

Prévision de ventes,
Détection de fraude bancaire,
Analyse de performances d’entreprise.

2. Les données non structurées

Les données non structurées n’ont pas de format défini.
Elles représentent aujourd’hui plus de 80 % des données produites dans le monde.

Exemples :

Texte : articles, avis clients, messages sur les réseaux sociaux, emails.
Images : photos, radiographies, logos.
Audio et vidéo : podcasts, caméras de surveillance, vidéos éducatives.

Ces données sont plus difficiles à traiter car elles nécessitent des techniques avancées comme :

le traitement du langage naturel (NLP) pour les textes,
la vision par ordinateur (Computer Vision) pour les images et vidéos.

L’importance de la qualité des données

Une bonne donnée doit être :

Exacte (sans erreurs),
Complète (sans valeurs manquantes),
Pertinente (en lien avec l’objectif du modèle),
Représentative (couvre tous les cas possibles),
Équilibrée (évite les biais).

View full post