slam:introduction_aux_donnees_non_structurees

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
slam:introduction_aux_donnees_non_structurees [2025/02/06 09:02] dthevenotslam:introduction_aux_donnees_non_structurees [2025/02/06 11:55] (Version actuelle) – [Comparaison entre données structurées et non structurées] dthevenot
Ligne 1: Ligne 1:
 ~~SLIDESHOW~~ ~~SLIDESHOW~~
 ====== INTRODUCTION ====== ====== INTRODUCTION ======
-Sources : 
- 
 Une **donnée** est une valeur (numérique ou textuelle) représentant une information. Une **donnée** est une valeur (numérique ou textuelle) représentant une information.
  
 Les **données structurées** sont organisées en éléments prédéfinis, chacun correspondant à un concept ou à un élément d'information spécifique. Les principaux formats utilisés pour représenter un ensemble de données sont le CSV , le JSON et le XML. Les **données structurées** sont organisées en éléments prédéfinis, chacun correspondant à un concept ou à un élément d'information spécifique. Les principaux formats utilisés pour représenter un ensemble de données sont le CSV , le JSON et le XML.
 +=====  =====
 Les **données non structurées** sont des informations qui ne suivent pas un format ou un modèle prédéfini, ce qui les rend difficiles à organiser et à analyser à l'aide des outils traditionnels de gestion de bases de données. Contrairement aux données structurées, qui sont organisées en tableaux avec des lignes et des colonnes, les données non structurées n'ont pas de structure fixe. Les **données non structurées** sont des informations qui ne suivent pas un format ou un modèle prédéfini, ce qui les rend difficiles à organiser et à analyser à l'aide des outils traditionnels de gestion de bases de données. Contrairement aux données structurées, qui sont organisées en tableaux avec des lignes et des colonnes, les données non structurées n'ont pas de structure fixe.
 +=====  =====
 Identifiez les éléments de la liste qui correspondent à des données structurées et à des données non structurées : Identifiez les éléments de la liste qui correspondent à des données structurées et à des données non structurées :
   - Un relevé bancaire   - Un relevé bancaire
Ligne 16: Ligne 14:
   - Les résultats trouvés par un moteur de recherche en ligne    - Les résultats trouvés par un moteur de recherche en ligne 
 ===== Exemples de données non structurées  ===== ===== Exemples de données non structurées  =====
- 
 Les données non structurées englobent une variété de formats, notamment : Les données non structurées englobent une variété de formats, notamment :
   * Documents texte : fichiers Word, PDF, etc.   * Documents texte : fichiers Word, PDF, etc.
Ligne 27: Ligne 24:
  
 ===== Comparaison entre données structurées et non structurées ===== ===== Comparaison entre données structurées et non structurées =====
- 
 ^ Caractéristique ^ Données Structurées ^ Données Non Structurées ^ ^ Caractéristique ^ Données Structurées ^ Données Non Structurées ^
 |Format |Organisées en tableaux avec des lignes et des colonnes.|Pas de structure prédéfinie ou de modèle fixe.| |Format |Organisées en tableaux avec des lignes et des colonnes.|Pas de structure prédéfinie ou de modèle fixe.|
 |Exemples|Bases de données relationnelles, feuilles de calcul.|Documents texte, images, vidéos, enregistrements audio.| |Exemples|Bases de données relationnelles, feuilles de calcul.|Documents texte, images, vidéos, enregistrements audio.|
 |Stockage|Stockées dans des bases de données relationnelles avec des schémas définis.|Stockées dans leur format d'origine, souvent dans des systèmes de fichiers ou des bases de données NoSQL.| |Stockage|Stockées dans des bases de données relationnelles avec des schémas définis.|Stockées dans leur format d'origine, souvent dans des systèmes de fichiers ou des bases de données NoSQL.|
 +=====  =====
 |Analyse|Facilement analysées à l'aide de requêtes SQL et d'outils analytiques traditionnels.|Nécessitent des techniques avancées comme le traitement du langage naturel ou l'analyse d'images.| |Analyse|Facilement analysées à l'aide de requêtes SQL et d'outils analytiques traditionnels.|Nécessitent des techniques avancées comme le traitement du langage naturel ou l'analyse d'images.|
 |Gestion|Bien prises en charge par les systèmes de gestion de bases de données traditionnels.|Requièrent des solutions spécialisées pour le stockage, la gestion et l'analyse.| |Gestion|Bien prises en charge par les systèmes de gestion de bases de données traditionnels.|Requièrent des solutions spécialisées pour le stockage, la gestion et l'analyse.|
 +
 +===== Convertir des données non structurées en données structurées =====
 +Pour produire de l’information statistique à partir des données non structurées, un traitement additionnel des données est nécessaire pour organiser l’information. 
 +
 +  * Texte brut : Traitement et analyse du texte (exemples de fichiers logs, documents texte).
 +  * Images et vidéos : formats (JPEG, PNG, MP4, etc.) et importance de la métadonnée (exemples d'EXIF dans les images).
 +  * Audio : formats audio (MP3, WAV) et analyse (comme la reconnaissance vocale).
 +=====  =====
 +Voilà par exemple comment un texte, une image ou un enregistrement vocal peuvent être convertis en données structurées pour l’analyse textuelle, la reconnaissance des images et la reconnaissance du langage :
 +=====  =====
 +^Données non structurées ^Traitement ^Données structurées^
 +|Un texte |Découpage du texte en une liste de mots; agrégation pour compter le nombre d’occurrences de chaque mot; utilisation de dictionnaires et de règles pour classer les mots |Une feuille de calcul : chaque rangée correspond à un mot distinct, trois colonnes présentent le mot, la fréquence du mot dans le texte et la catégorie du mot|
 +=====  =====
 +|Une image |Attribution d’un code RVB à chaque pixel; segmentation de l’image en groupes de pixels en fonction des composantes rouges (R), vertes (V) et bleues (B). |Une base de données : chaque enregistrement correspond à un groupe de pixels et les champs résument les composantes de couleur de chaque groupe.|
 +=====  =====
 +|L’enregistrement de la voix d’une personne |Segmentation de l’enregistrement en sons distincts; mesure des durées et fréquences de chaque son. |Une liste des segments accompagnés de leur durée et de leur fréquence.|
 +
  
 ===== Enjeux et défis des données non structurées ===== ===== Enjeux et défis des données non structurées =====
-  + Les données non structurées posent plusieurs défis aux organisations :
-Les données non structurées posent plusieurs défis aux organisations :+
   * Volume : <hidden> Elles représentent environ 80 % des données mondiales et leur volume continue de croître rapidement.</hidden>   * Volume : <hidden> Elles représentent environ 80 % des données mondiales et leur volume continue de croître rapidement.</hidden>
   * Variété : <hidden> Elles existent sous de nombreux formats différents, ce qui complique leur gestion et leur analyse.</hidden>   * Variété : <hidden> Elles existent sous de nombreux formats différents, ce qui complique leur gestion et leur analyse.</hidden>
Ligne 43: Ligne 56:
   * Analyse : <hidden> L'absence de structure rend difficile l'application d'outils analytiques traditionnels, nécessitant des techniques avancées comme le traitement du langage naturel ou l'apprentissage automatique.</hidden>   * Analyse : <hidden> L'absence de structure rend difficile l'application d'outils analytiques traditionnels, nécessitant des techniques avancées comme le traitement du langage naturel ou l'apprentissage automatique.</hidden>
   * Sécurité et confidentialité : <hidden> Les données non structurées peuvent contenir des informations sensibles, ce qui pose des défis en matière de protection des données et de conformité réglementaire.</hidden>   * Sécurité et confidentialité : <hidden> Les données non structurées peuvent contenir des informations sensibles, ce qui pose des défis en matière de protection des données et de conformité réglementaire.</hidden>
- +=====  ===== 
-===== Pistes de reflexion ===== +**Identifiez la dimension de la qualité qui est en cause dans les situations suivantes :** 
 +  - Vous avez trouvé un ensemble de données parfait pour vos travaux scolaires, mais il y a un coût pour se procurer ces données. 
 +  - Vous voulez calculer l’âge moyen des personnes dans votre établissement scolaire, mais vous ne connaissez que l’âge des étudiants. 
 +  - Vous souhaitez explorer un ensemble de données, mais vous ne savez pas à quoi correspondent les variables dans la base de données, car leur nom n’est pas très explicite. 
 +  - Vous avez fait un sondage dans votre classe pour connaître le niveau d’activité physique des étudiants, mais certains ont répondu par un nombre de pas et d’autres par une distance en kilomètre. Il est donc difficile d’identifier lesquels font le plus d’exercice dans une semaine. 
 +===== Pistes de réflexion =====
   - Pourquoi est-il important pour les entreprises de gérer efficacement les données non structurées ?   - Pourquoi est-il important pour les entreprises de gérer efficacement les données non structurées ?
   - Quels sont les outils et technologies émergents pour analyser les données non structurées ?   - Quels sont les outils et technologies émergents pour analyser les données non structurées ?
   - Comment les connaissances en XML, JSON et bases de données relationnelles peuvent-elles être appliquées à la gestion des données non structurées ?   - Comment les connaissances en XML, JSON et bases de données relationnelles peuvent-elles être appliquées à la gestion des données non structurées ?
  • slam/introduction_aux_donnees_non_structurees.1738828932.txt.gz
  • Dernière modification : 2025/02/06 09:02
  • de dthevenot