slam:donneestructurees:introduction

Voir cette page sous forme de diaporama.

Les données structurées et non structurées

Une donnée est un élément se rapportant à un objet, une personne ou un événement. Une donnée est dépourvue de sens alors qu'une information est l'interprétation d'une donnée. Les données ont :

  • Des formats divers : nombre, caractère, chaîne de caractères, oral, écrite,…
  • Des longueurs variables : 1 caractère, 500 caractères, …
  • Des valeurs
  • Un contexte (qui utilisera ? quel objectif ?)
  • Des types identifiables (entiers, chaines de caractères,…)
  • Des valeurs identifiables
  • Stockage défini (où ? comment ?)
  • Mise en place de liens évident entre les données
  • Facilement exploitable, interrogeable (SQL)

⇒ Les bases de données relationnelles = un moyen de recueillir et présenter des données structurées

Définition

Une donnée structurée est une donnée qui a été prédéfinie et formatée selon une structure précise avant d’être placée dans un data warehouse, un processus désigné par « schema-on-write », ou schéma à l’écriture. La base de données relationnelle est le meilleur exemple de données structurées : les données ont été formatées dans des champs précisément définis, comme le numéro de carte de crédit ou l’adresse, pour être facilement interrogées avec SQL.

Les données, avant d’être exploitées, peuvent être contenues dans des fichiers CSV (Commaseparated values). Dans ces fichiers, elles sont sous un format texte simple et séparées les unes des autres par un caractère (virgule, point-virgule, tabulation). Il est ainsi possible d’exporter ou d’importer des données, par exemple un carnet d’adresses.

Ces fichiers peuvent être convertis sous forme d’une table de données : chaque ligne du fichier CSV correspond à une ligne du tableau et les séparateurs à ses colonnes. Il devient alors possible d’organiser et de trier les données.

Il existe d’autres formats de données structurées :

  • Le format JSON (JavaScript Object Notation) associe les données avec une étiquette (descripteur) sous forme d’une liste, c’est un format de données textuelles dérivé du langage JavaScript. ;
  • Le format XML (Extensible Markup Language) utilise des balises (mot entre < et >) pour organiser les informations en sous-éléments. C’est un format utilisé pour l'échange automatisé entre systèmes d'informations.

Le CSV et le JSON sont simples à écrire et à lire, contrairement au XML qui nécessite des lignes de code. Le CSV est rigide (tous les descripteurs doivent être renseignés), contrairement au XML et au JSON. Le XML est le format le plus rapide à traiter par la machine. Découverte du format XML

  • slam/donneestructurees/introduction.txt
  • Dernière modification : 2025/01/29 22:39
  • de dthevenot