Différences
Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédente | ||
slam:introduction_aux_donnees_non_structurees [2025/02/05 09:18] – créée dthevenot | slam:introduction_aux_donnees_non_structurees [2025/02/06 11:55] (Version actuelle) – [Comparaison entre données structurées et non structurées] dthevenot | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | ~~SLIDESHOW~~ | ||
====== INTRODUCTION ====== | ====== INTRODUCTION ====== | ||
- | Sources : | ||
- | |||
Une **donnée** est une valeur (numérique ou textuelle) représentant une information. | Une **donnée** est une valeur (numérique ou textuelle) représentant une information. | ||
Les **données structurées** sont organisées en éléments prédéfinis, | Les **données structurées** sont organisées en éléments prédéfinis, | ||
+ | ===== ===== | ||
Les **données non structurées** sont des informations qui ne suivent pas un format ou un modèle prédéfini, | Les **données non structurées** sont des informations qui ne suivent pas un format ou un modèle prédéfini, | ||
+ | ===== ===== | ||
+ | Identifiez les éléments de la liste qui correspondent à des données structurées et à des données non structurées : | ||
+ | - Un relevé bancaire | ||
+ | - Un courriel | ||
+ | - Une circulaire d’épicerie | ||
+ | - Un bulletin scolaire | ||
+ | - Les résultats trouvés par un moteur de recherche en ligne | ||
===== Exemples de données non structurées | ===== Exemples de données non structurées | ||
- | |||
Les données non structurées englobent une variété de formats, notamment : | Les données non structurées englobent une variété de formats, notamment : | ||
* Documents texte : fichiers Word, PDF, etc. | * Documents texte : fichiers Word, PDF, etc. | ||
Ligne 20: | Ligne 24: | ||
===== Comparaison entre données structurées et non structurées ===== | ===== Comparaison entre données structurées et non structurées ===== | ||
+ | ^ Caractéristique ^ Données Structurées ^ Données Non Structurées ^ | ||
+ | |Format |Organisées en tableaux avec des lignes et des colonnes.|Pas de structure prédéfinie ou de modèle fixe.| | ||
+ | |Exemples|Bases de données relationnelles, | ||
+ | |Stockage|Stockées dans des bases de données relationnelles avec des schémas définis.|Stockées dans leur format d' | ||
+ | ===== ===== | ||
+ | |Analyse|Facilement analysées à l'aide de requêtes SQL et d' | ||
+ | |Gestion|Bien prises en charge par les systèmes de gestion de bases de données traditionnels.|Requièrent des solutions spécialisées pour le stockage, la gestion et l' | ||
+ | |||
+ | ===== Convertir des données non structurées en données structurées ===== | ||
+ | Pour produire de l’information statistique à partir des données non structurées, | ||
+ | |||
+ | * Texte brut : Traitement et analyse du texte (exemples de fichiers logs, documents texte). | ||
+ | * Images et vidéos : formats (JPEG, PNG, MP4, etc.) et importance de la métadonnée (exemples d'EXIF dans les images). | ||
+ | * Audio : formats audio (MP3, WAV) et analyse (comme la reconnaissance vocale). | ||
+ | ===== ===== | ||
+ | Voilà par exemple comment un texte, une image ou un enregistrement vocal peuvent être convertis en données structurées pour l’analyse textuelle, la reconnaissance des images et la reconnaissance du langage : | ||
+ | ===== ===== | ||
+ | ^Données non structurées ^Traitement ^Données structurées^ | ||
+ | |Un texte |Découpage du texte en une liste de mots; agrégation pour compter le nombre d’occurrences de chaque mot; utilisation de dictionnaires et de règles pour classer les mots |Une feuille de calcul : chaque rangée correspond à un mot distinct, trois colonnes présentent le mot, la fréquence du mot dans le texte et la catégorie du mot| | ||
+ | ===== ===== | ||
+ | |Une image |Attribution d’un code RVB à chaque pixel; segmentation de l’image en groupes de pixels en fonction des composantes rouges (R), vertes (V) et bleues (B). |Une base de données : chaque enregistrement correspond à un groupe de pixels et les champs résument les composantes de couleur de chaque groupe.| | ||
+ | ===== ===== | ||
+ | |L’enregistrement de la voix d’une personne |Segmentation de l’enregistrement en sons distincts; mesure des durées et fréquences de chaque son. |Une liste des segments accompagnés de leur durée et de leur fréquence.| | ||
+ | |||
- | ^ Caractéristique ^ Données Structurées ^ Données Non Structurées ^ | + | ===== Enjeux et défis des données non structurées ===== |
- | |Format |Organisées en tableaux avec des lignes | + | Les données non structurées posent plusieurs défis aux organisations : |
- | |Exemples| Bases | + | * Volume : < |
- | |Stockage| Stockées dans des bases de données | + | * Variété : < |
- | |Analyse| Facilement analysées à l'aide de requêtes SQL et d' | + | * Qualité : < |
- | |Gestion |Bien prises | + | |
+ | * Sécurité et confidentialité : < | ||
+ | ===== ===== | ||
+ | **Identifiez la dimension de la qualité qui est en cause dans les situations suivantes :** | ||
+ | - Vous avez trouvé un ensemble | ||
+ | - Vous voulez calculer l’âge moyen des personnes dans votre établissement scolaire, mais vous ne connaissez que l’âge des étudiants. | ||
+ | - Vous souhaitez explorer un ensemble de données, mais vous ne savez pas à quoi correspondent les variables dans la base de données, car leur nom n’est pas très explicite. | ||
+ | - Vous avez fait un sondage dans votre classe | ||
+ | ===== Pistes de réflexion ===== | ||
+ | - Pourquoi est-il important pour les entreprises de gérer efficacement les données non structurées ? | ||
+ | - Quels sont les outils et technologies émergents pour analyser les données non structurées ? | ||
+ | - Comment les connaissances en XML, JSON et bases de données relationnelles peuvent-elles être appliquées à la gestion des données non structurées ? |