slam:formats_de_donnees_non_structurees

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
slam:formats_de_donnees_non_structurees [2025/02/05 09:48] – [Cas pratique] dthevenotslam:formats_de_donnees_non_structurees [2025/02/06 11:50] (Version actuelle) – supprimée dthevenot
Ligne 1: Ligne 1:
-====== Formats de données non structurées ====== 
  
-  * Texte brut : Traitement et analyse du texte (exemples de fichiers logs, documents texte). 
-  * Images et vidéos : Brève introduction aux formats (JPEG, PNG, MP4, etc.), avec un focus sur l'importance de la métadonnée (exemples d'EXIF dans les images). 
-  * Audio : Introduction aux formats audio (MP3, WAV) et à leur analyse (comme la reconnaissance vocale). 
- 
-===== Exemple ===== 
-Les données non structurées sont n’importe quelles données qui ne sont pas organisées selon un modèle prédéfini. Pour produire de l’information statistique à partir des données non structurées, un traitement additionnel des données est nécessaire pour organiser l’information.  
- 
-Voilà par exemple comment un texte, une image ou un enregistrement vocal peuvent être convertis en données structurées pour l’analyse textuelle, la reconnaissance des images et la reconnaissance du langage : 
-^Données non structurées ^Traitement ^Données structurées^ 
-|Un texte |Découpage du texte en une liste de mots; agrégation pour compter le nombre d’occurrences de chaque mot; utilisation de dictionnaires et de règles pour classer les mots |Une feuille de calcul : chaque rangée correspond à un mot distinct, trois colonnes présentent le mot, la fréquence du mot dans le texte et la catégorie du mot| 
-|Une image |Attribution d’un code RVB à chaque pixel; segmentation de l’image en groupes de pixels en fonction des composantes rouges (R), vertes (V) et bleues (B). |Une base de données : chaque enregistrement correspond à un groupe de pixels et les champs résument les composantes de couleur de chaque groupe.| 
-|L’enregistrement de la voix d’une personne |Segmentation de l’enregistrement en sons distincts; mesure des durées et fréquences de chaque son. |Une liste des segments accompagnés de leur durée et de leur fréquence.| 
- 
-==== Cas pratique ==== 
- 
-Lecture de fichiers texte bruts et extraction d'informations via des outils simples comme grep ou PHP(avec expressions régulières) : Analyse de Logs Serveur avec PHP et Expressions Régulières 
- 
-**Objectif :** 
- 
-Voius allez analyser un fichier de logs serveur (format Apache, Nginx, ou autre) en utilisant PHP et les expressions régulières. Vous devrez extraire des informations spécifiques comme les adresses IP, les codes de réponse HTTP, et les URLs demandées. 
- 
-**Contexte :** 
- 
-Un site web génère un fichier de logs où chaque ligne contient des informations sur une requête effectuée par un utilisateur. Ces logs sont essentiels pour analyser le trafic, détecter des erreurs ou repérer des comportements suspects. 
- 
-__Exemple d'une ligne de log Apache :__ 
- 
-192.168.1.10 - - [05/Feb/2025:10:15:32 +0100] "GET /index.php HTTP/1.1" 200 5320 
- 
-Explication : 
-  * 192.168.1.10 → Adresse IP du client 
-  * [05/Feb/2025:10:15:32 +0100] → Date et heure de la requête 
-  * "GET /index.php HTTP/1.1" → Méthode HTTP et URL demandée 
-  * 200 → Code de réponse HTTP 
-  * 5320 → Taille de la réponse en octets 
- 
-**Objectifs du cas pratique :** 
- 
-  * Charger un fichier de logs en PHP 
-  * Extraire : 
-    * Toutes les adresses IP uniques 
-    * Les URL demandées avec leur fréquence 
-    * La répartition des codes HTTP (ex : combien de 200, 404, 500, etc.) 
- 
-Fichier de log fourni : Les étudiants auront un fichier access.log avec plusieurs lignes de ce format. 
- 
-Consignes : 
-Ouvrir et lire le fichier ligne par ligne avec fopen() et fgets(). 
-Utiliser preg_match() pour extraire les IP, les URLs et les codes HTTP. 
-Stocker et compter les occurrences avec un tableau associatif (array_count_values()). 
-Afficher les résultats sous forme de statistiques : 
-Nombre total de requêtes 
-Liste des IP uniques 
-Top 5 des pages les plus demandées 
-Répartition des codes HTTP 
-5️⃣ Exemple d'algorithme attendu (sans code) 
-Lire le fichier ligne par ligne 
-Extraire les données avec une expression régulière 
-Stocker les informations dans des tableaux 
-Analyser les données (compter les occurrences) 
-Afficher les résultats sous forme de statistiques 
  • slam/formats_de_donnees_non_structurees.1738745323.txt.gz
  • Dernière modification : 2025/02/05 09:48
  • de dthevenot