slam:formats_de_donnees_non_structurees

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
slam:formats_de_donnees_non_structurees [2025/02/06 11:15] – [OPEN DATA] dthevenotslam:formats_de_donnees_non_structurees [2025/02/06 11:50] (Version actuelle) – supprimée dthevenot
Ligne 1: Ligne 1:
-====== Formats de données non structurées ====== 
- 
-  * Texte brut : Traitement et analyse du texte (exemples de fichiers logs, documents texte). 
-  * Images et vidéos : formats (JPEG, PNG, MP4, etc.) et importance de la métadonnée (exemples d'EXIF dans les images). 
-  * Audio : formats audio (MP3, WAV) et analyse (comme la reconnaissance vocale). 
- 
-===== Exemple ===== 
-Les données non structurées sont n’importe quelles données qui ne sont pas organisées selon un modèle prédéfini. Pour produire de l’information statistique à partir des données non structurées, un traitement additionnel des données est nécessaire pour organiser l’information.  
- 
-Voilà par exemple comment un texte, une image ou un enregistrement vocal peuvent être convertis en données structurées pour l’analyse textuelle, la reconnaissance des images et la reconnaissance du langage : 
-^Données non structurées ^Traitement ^Données structurées^ 
-|Un texte |Découpage du texte en une liste de mots; agrégation pour compter le nombre d’occurrences de chaque mot; utilisation de dictionnaires et de règles pour classer les mots |Une feuille de calcul : chaque rangée correspond à un mot distinct, trois colonnes présentent le mot, la fréquence du mot dans le texte et la catégorie du mot| 
-|Une image |Attribution d’un code RVB à chaque pixel; segmentation de l’image en groupes de pixels en fonction des composantes rouges (R), vertes (V) et bleues (B). |Une base de données : chaque enregistrement correspond à un groupe de pixels et les champs résument les composantes de couleur de chaque groupe.| 
-|L’enregistrement de la voix d’une personne |Segmentation de l’enregistrement en sons distincts; mesure des durées et fréquences de chaque son. |Une liste des segments accompagnés de leur durée et de leur fréquence.| 
- 
-===== OPEN DATA / Données ouvertes===== 
- 
-L'open data correspond à une volonté politique d'ouvrir les données jugées d'intérêt public afin d'encourager leur réutilisation par tout un chacun. Cela permet d'encourager la transparence démocratique, de bénéficier de services au quotidien ou de prendre des décisions plus éclairées. 
- 
-L'État français rend publique les données qu'il a développé dans le cadre de ses missions et qu'il juge non sensibles à l'adresse suivante : https://www.data.gouv.fr. 
- 
  
  • slam/formats_de_donnees_non_structurees.1738836946.txt.gz
  • Dernière modification : 2025/02/06 11:15
  • de dthevenot