Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
slam:introduction_aux_donnees_non_structurees [2025/02/06 11:43] – [Enjeux et défis des données non structurées] dthevenot | slam:introduction_aux_donnees_non_structurees [2025/02/06 11:55] (Version actuelle) – [Comparaison entre données structurées et non structurées] dthevenot | ||
---|---|---|---|
Ligne 28: | Ligne 28: | ||
|Exemples|Bases de données relationnelles, | |Exemples|Bases de données relationnelles, | ||
|Stockage|Stockées dans des bases de données relationnelles avec des schémas définis.|Stockées dans leur format d' | |Stockage|Stockées dans des bases de données relationnelles avec des schémas définis.|Stockées dans leur format d' | ||
+ | ===== ===== | ||
|Analyse|Facilement analysées à l'aide de requêtes SQL et d' | |Analyse|Facilement analysées à l'aide de requêtes SQL et d' | ||
|Gestion|Bien prises en charge par les systèmes de gestion de bases de données traditionnels.|Requièrent des solutions spécialisées pour le stockage, la gestion et l' | |Gestion|Bien prises en charge par les systèmes de gestion de bases de données traditionnels.|Requièrent des solutions spécialisées pour le stockage, la gestion et l' | ||
+ | |||
+ | ===== Convertir des données non structurées en données structurées ===== | ||
+ | Pour produire de l’information statistique à partir des données non structurées, | ||
+ | |||
+ | * Texte brut : Traitement et analyse du texte (exemples de fichiers logs, documents texte). | ||
+ | * Images et vidéos : formats (JPEG, PNG, MP4, etc.) et importance de la métadonnée (exemples d'EXIF dans les images). | ||
+ | * Audio : formats audio (MP3, WAV) et analyse (comme la reconnaissance vocale). | ||
+ | ===== ===== | ||
+ | Voilà par exemple comment un texte, une image ou un enregistrement vocal peuvent être convertis en données structurées pour l’analyse textuelle, la reconnaissance des images et la reconnaissance du langage : | ||
+ | ===== ===== | ||
+ | ^Données non structurées ^Traitement ^Données structurées^ | ||
+ | |Un texte |Découpage du texte en une liste de mots; agrégation pour compter le nombre d’occurrences de chaque mot; utilisation de dictionnaires et de règles pour classer les mots |Une feuille de calcul : chaque rangée correspond à un mot distinct, trois colonnes présentent le mot, la fréquence du mot dans le texte et la catégorie du mot| | ||
+ | ===== ===== | ||
+ | |Une image |Attribution d’un code RVB à chaque pixel; segmentation de l’image en groupes de pixels en fonction des composantes rouges (R), vertes (V) et bleues (B). |Une base de données : chaque enregistrement correspond à un groupe de pixels et les champs résument les composantes de couleur de chaque groupe.| | ||
+ | ===== ===== | ||
+ | |L’enregistrement de la voix d’une personne |Segmentation de l’enregistrement en sons distincts; mesure des durées et fréquences de chaque son. |Une liste des segments accompagnés de leur durée et de leur fréquence.| | ||
+ | |||
===== Enjeux et défis des données non structurées ===== | ===== Enjeux et défis des données non structurées ===== |