Skip to content

Structure des données pour le Data Engineering

1. Contexte

Avant de se plonger dans les projets Data, il est essentiel de comprendre les fondamentaux de la structure des données. La manière dont les données sont organisées influence directement les choix de stockage, de traitement et d’analyse, ainsi que la performance des pipelines de données.

2. Données structurées

Les données structurées sont organisées selon un schéma précis et fixe, généralement sous forme de lignes et de colonnes avec des types de données clairement définis. Cette structure permet de les interroger facilement à l’aide de SQL et d’autres outils analytiques.

Par exemple, une base de données relationnelle comme MySQL ou Amazon Redshift contient des tables où chaque colonne représente une information spécifique (nom, âge, salaire, etc.) et chaque ligne un enregistrement unique. Un fichier CSV bien formé ou une feuille Excel standard relève également de cette catégorie, tant que les colonnes sont cohérentes et que les données sont correctement alignées.

La force des données structurées réside dans leur fiabilité et leur facilité d’analyse, ce qui en fait le format idéal pour les traitements ETL traditionnels et les requêtes rapides.

3. Données non structurées

À l’inverse, les données non structurées n’ont aucune organisation prédéfinie. Elles nécessitent un prétraitement pour être exploitées et analysées. Ces données peuvent inclure du texte brut, des images, des vidéos, des fichiers audio ou des documents PDF.

Par exemple, si vous collectez des articles de blogs, des vidéos de formation ou des enregistrements audio pour les analyser ou entraîner un modèle de Machine Learning, vous devrez d’abord extraire des métadonnées ou transformer le contenu en un format exploitable. L’absence de structure rend ces données plus difficiles à gérer, mais elles sont indispensables pour les analyses avancées et les applications d’intelligence artificielle.

4. Données semi-structurées

Entre les deux se trouvent les données semi-structurées. Elles contiennent un certain niveau de structure, souvent sous forme de balises ou de hiérarchies, mais cette structure n’est pas uniforme et peut varier d’un enregistrement à l’autre.

Les fichiers JSON et XML sont des exemples typiques : certains objets peuvent contenir des champs supplémentaires ou différents, mais les balises permettent tout de même d’extraire et d’interpréter l’information. Les fichiers journaux applicatifs ou les emails relèvent également de cette catégorie, combinant des informations structurées (date, expéditeur, objet) et des données non structurées dans le corps du message.

Les données semi-structurées sont particulièrement courantes dans les pipelines modernes de Big Data et les Data Lakes, car elles permettent de gérer de grandes quantités de données hétérogènes tout en conservant un minimum d’organisation exploitable.

5. Synthèse

Comprendre la différence entre ces trois types de données est crucial pour concevoir des pipelines efficaces sur AWS et choisir les bons services pour le stockage et le traitement. Les données structurées sont idéales pour les bases relationnelles et les requêtes rapides, les données semi-structurées conviennent aux systèmes flexibles et aux Data Lakes, tandis que les données non structurées nécessitent un pré-traitement mais sont indispensables pour le Machine Learning et l’IA.