Ceci est une ancienne révision du document !
INTRODUCTION
Une donnée est une valeur (numérique ou textuelle) représentant une information.
Les données structurées sont organisées en éléments prédéfinis, chacun correspondant à un concept ou à un élément d'information spécifique. Les principaux formats utilisés pour représenter un ensemble de données sont le CSV , le JSON et le XML.
Les données non structurées sont des informations qui ne suivent pas un format ou un modèle prédéfini, ce qui les rend difficiles à organiser et à analyser à l'aide des outils traditionnels de gestion de bases de données. Contrairement aux données structurées, qui sont organisées en tableaux avec des lignes et des colonnes, les données non structurées n'ont pas de structure fixe.
Identifiez les éléments de la liste qui correspondent à des données structurées et à des données non structurées :
- Un relevé bancaire
- Un courriel
- Une circulaire d’épicerie
- Un bulletin scolaire
- Les résultats trouvés par un moteur de recherche en ligne
Exemples de données non structurées
Les données non structurées englobent une variété de formats, notamment :
- Documents texte : fichiers Word, PDF, etc.
- E-mails : contenu des courriels et pièces jointes.
- Images : photos, graphiques, etc.
- Vidéos : enregistrements, films, etc.
- Enregistrements audio : podcasts, messages vocaux, etc.
- Publications sur les réseaux sociaux : tweets, posts Facebook, etc.
- Données issues de capteurs IoT : flux de données en temps réel sans format prédéfini.
Comparaison entre données structurées et non structurées
Caractéristique | Données Structurées | Données Non Structurées |
---|---|---|
Format | Organisées en tableaux avec des lignes et des colonnes. | Pas de structure prédéfinie ou de modèle fixe. |
Exemples | Bases de données relationnelles, feuilles de calcul. | Documents texte, images, vidéos, enregistrements audio. |
Stockage | Stockées dans des bases de données relationnelles avec des schémas définis. | Stockées dans leur format d'origine, souvent dans des systèmes de fichiers ou des bases de données NoSQL. |
Analyse | Facilement analysées à l'aide de requêtes SQL et d'outils analytiques traditionnels. | Nécessitent des techniques avancées comme le traitement du langage naturel ou l'analyse d'images. |
Gestion | Bien prises en charge par les systèmes de gestion de bases de données traditionnels. | Requièrent des solutions spécialisées pour le stockage, la gestion et l'analyse. |
Enjeux et défis des données non structurées
Les données non structurées posent plusieurs défis aux organisations :
- Volume :
- Variété :
- Qualité :
- Analyse :
- Sécurité et confidentialité :
Identifiez la dimension de la qualité qui est en cause dans les situations suivantes :
- Vous avez trouvé un ensemble de données parfait pour vos travaux scolaires, mais il y a un coût pour se procurer ces données.
- Vous voulez calculer l’âge moyen des personnes dans votre établissement scolaire, mais vous ne connaissez que l’âge des étudiants.
- Vous souhaitez explorer un ensemble de données, mais vous ne savez pas à quoi correspondent les variables dans la base de données, car leur nom n’est pas très explicite.
- Vous avez fait un sondage dans votre classe pour connaître le niveau d’activité physique des étudiants, mais certains ont répondu par un nombre de pas et d’autres par une distance en kilomètre. Il est donc difficile d’identifier lesquels font le plus d’exercice dans une semaine.
Pistes de réflexion
- Pourquoi est-il important pour les entreprises de gérer efficacement les données non structurées ?
- Quels sont les outils et technologies émergents pour analyser les données non structurées ?
- Comment les connaissances en XML, JSON et bases de données relationnelles peuvent-elles être appliquées à la gestion des données non structurées ?