Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
slam:introduction_aux_donnees_non_structurees [2025/02/05 09:19] – [Comparaison entre données structurées et non structurées] dthevenot | slam:introduction_aux_donnees_non_structurees [2025/02/06 11:55] (Version actuelle) – [Comparaison entre données structurées et non structurées] dthevenot | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | ~~SLIDESHOW~~ | ||
====== INTRODUCTION ====== | ====== INTRODUCTION ====== | ||
- | Sources : | ||
- | |||
Une **donnée** est une valeur (numérique ou textuelle) représentant une information. | Une **donnée** est une valeur (numérique ou textuelle) représentant une information. | ||
Les **données structurées** sont organisées en éléments prédéfinis, | Les **données structurées** sont organisées en éléments prédéfinis, | ||
+ | ===== ===== | ||
Les **données non structurées** sont des informations qui ne suivent pas un format ou un modèle prédéfini, | Les **données non structurées** sont des informations qui ne suivent pas un format ou un modèle prédéfini, | ||
+ | ===== ===== | ||
+ | Identifiez les éléments de la liste qui correspondent à des données structurées et à des données non structurées : | ||
+ | - Un relevé bancaire | ||
+ | - Un courriel | ||
+ | - Une circulaire d’épicerie | ||
+ | - Un bulletin scolaire | ||
+ | - Les résultats trouvés par un moteur de recherche en ligne | ||
===== Exemples de données non structurées | ===== Exemples de données non structurées | ||
- | |||
Les données non structurées englobent une variété de formats, notamment : | Les données non structurées englobent une variété de formats, notamment : | ||
* Documents texte : fichiers Word, PDF, etc. | * Documents texte : fichiers Word, PDF, etc. | ||
Ligne 20: | Ligne 24: | ||
===== Comparaison entre données structurées et non structurées ===== | ===== Comparaison entre données structurées et non structurées ===== | ||
+ | ^ Caractéristique ^ Données Structurées ^ Données Non Structurées ^ | ||
+ | |Format |Organisées en tableaux avec des lignes et des colonnes.|Pas de structure prédéfinie ou de modèle fixe.| | ||
+ | |Exemples|Bases de données relationnelles, | ||
+ | |Stockage|Stockées dans des bases de données relationnelles avec des schémas définis.|Stockées dans leur format d' | ||
+ | ===== ===== | ||
+ | |Analyse|Facilement analysées à l'aide de requêtes SQL et d' | ||
+ | |Gestion|Bien prises en charge par les systèmes de gestion de bases de données traditionnels.|Requièrent des solutions spécialisées pour le stockage, la gestion et l' | ||
+ | |||
+ | ===== Convertir des données non structurées en données structurées ===== | ||
+ | Pour produire de l’information statistique à partir des données non structurées, | ||
- | ^ Caractéristique | + | * Texte brut : Traitement et analyse du texte (exemples de fichiers logs, documents texte). |
- | |Format |Organisées | + | * Images et vidéos : formats (JPEG, PNG, MP4, etc.) et importance de la métadonnée (exemples d'EXIF dans les images). |
- | |Exemples| Bases de données relationnelles, | + | * Audio : formats audio (MP3, WAV) et analyse (comme la reconnaissance vocale). |
- | |Stockage| Stockées dans des bases de données relationnelles avec des schémas définis. |Stockées dans leur format d' | + | ===== ===== |
- | |Analyse| Facilement analysées à l'aide de requêtes SQL et d' | + | Voilà par exemple comment un texte, une image ou un enregistrement vocal peuvent être convertis en données structurées pour l’analyse textuelle, la reconnaissance des images et la reconnaissance du langage : |
- | |Gestion |Bien prises | + | ===== ===== |
+ | ^Données | ||
+ | |Un texte |Découpage du texte en une liste de mots; agrégation pour compter le nombre d’occurrences de chaque mot; utilisation de dictionnaires | ||
+ | ===== ===== | ||
+ | |Une image |Attribution d’un code RVB à chaque pixel; segmentation | ||
+ | ===== ===== | ||
+ | |L’enregistrement de la voix d’une personne |Segmentation | ||
+ | |||
+ | |||
+ | ===== Enjeux et défis | ||
+ | Les données non structurées posent plusieurs défis aux organisations : | ||
+ | * Volume : < | ||
+ | * Variété : < | ||
+ | * Qualité : < | ||
+ | | ||
+ | * Sécurité et confidentialité : < | ||
+ | ===== ===== | ||
+ | **Identifiez la dimension de la qualité qui est en cause dans les situations suivantes :** | ||
+ | - Vous avez trouvé un ensemble | ||
+ | - Vous voulez calculer l’âge moyen des personnes dans votre établissement scolaire, mais vous ne connaissez que l’âge des étudiants. | ||
+ | - Vous souhaitez explorer un ensemble de données, mais vous ne savez pas à quoi correspondent les variables dans la base de données, car leur nom n’est pas très explicite. | ||
+ | - Vous avez fait un sondage dans votre classe | ||
+ | ===== Pistes de réflexion ===== | ||
+ | - Pourquoi est-il important pour les entreprises de gérer efficacement les données non structurées ? | ||
+ | - Quels sont les outils et technologies émergents pour analyser les données non structurées ? | ||
+ | - Comment les connaissances en XML, JSON et bases de données relationnelles peuvent-elles être appliquées à la gestion des données non structurées ? |