Les données structurées et non structurées
Une donnée est un élément se rapportant à un objet, une personne ou un événement. Une donnée est dépourvue de sens alors qu'une information est l'interprétation d'une donnée. Les données ont :
- Des formats divers : nombre, caractère, chaîne de caractères, oral, écrite,…
- Des longueurs variables : 1 caractère, 500 caractères, …
- Des valeurs
Les bases de données relationnelles : données structurées ou non structurées ?
- Un contexte (qui utilisera ? quel objectif ?)
- Des types identifiables (entiers, chaines de caractères,…)
- Des valeurs identifiables
- Stockage défini (où ? comment ?)
- Mise en place de liens évident entre les données
- Facilement exploitable, interrogeable (SQL)
Définition
Une donnée structurée est une donnée qui a été prédéfinie et formatée selon une structure précise avant d’être placée dans un data warehouse, un processus désigné par « schema-on-write », ou schéma à l’écriture. La base de données relationnelle est le meilleur exemple de données structurées : les données ont été formatées dans des champs précisément définis, comme le numéro de carte de crédit ou l’adresse, pour être facilement interrogées avec SQL.
Autres exemples de données structurées : CSV, JSON, XML
Le format CSV
Les données, avant d’être exploitées, peuvent être contenues dans des fichiers CSV (Commaseparated values). Dans ces fichiers, elles sont sous un format texte simple et séparées les unes des autres par un caractère (virgule, point-virgule, tabulation). Il est ainsi possible d’exporter ou d’importer des données, par exemple un carnet d’adresses.
Ces fichiers peuvent être convertis sous forme d’une table de données : chaque ligne du fichier CSV correspond à une ligne du tableau et les séparateurs à ses colonnes. Il devient alors possible d’organiser et de trier les données.
Il existe d’autres formats de données structurées :
- Le format JSON (JavaScript Object Notation) associe les données avec une étiquette (descripteur) sous forme d’une liste, c’est un format de données textuelles dérivé du langage JavaScript. ;
- Le format XML (Extensible Markup Language) utilise des balises (mot entre < et >) pour organiser les informations en sous-éléments. C’est un format utilisé pour l'échange automatisé entre systèmes d'informations.