Analyse Thématique (LDA) des Dépêches du Journal Le Monde

Topic Modeling (LDA) Python (Gensim, Spacy) RSS Parsing D3.js Astro Bootstrap

Résumé du Projet

Ce projet de master, réalisé en groupe, explore les fils RSS du journal Le Monde de l’année 2022. L’objectif était de construire un pipeline complet en Python pour collecter, enrichir, et analyser ce corpus textuel. En utilisant la modélisation thématique (Topic Modeling LDA), nous avons identifié les sujets dominants et étudié leurs évolutions temporelles, avec une attention particulière portée aux interactions entre les actualités sportives (Coupe du Monde) et internationales (guerre en Ukraine). Les résultats sont présentés sur un site web dédié avec des visualisations interactives.

Mes Contributions

Au sein de l’équipe, j’ai activement participé aux différentes phases du projet, notamment :

  • Conception du Pipeline de Données : Contribution au développement des modules Python pour le parsing des flux RSS et l’extraction structurée des métadonnées et des contenus textuels.
  • Enrichissement et Prétraitement NLP : Mise en œuvre des étapes de nettoyage des données, telles que la tokenisation, la suppression des mots vides et l’extraction de patrons morpho-syntaxiques.
  • Modélisation Thématique : Application et ajustement du modèle LDA pour extraire des thèmes pertinents à partir du corpus. J’ai également participé à l’analyse des distributions de sujets au fil des trimestres.
  • Développement Frontend et Visualisation : Contribution à la création du site web de présentation sous Astro, et à l’intégration des visualisations de données interactives générées avec des librairies comme pyLDAvis et D3.js.

Démarche Technique

Le projet a été structuré en quatre grandes étapes :

  1. Collecte et Structuration des Données : Développement de scripts pour lire les fichiers RSS et transformer les données brutes en formats exploitables (XML, JSON) avec une analyse morpho-syntaxique (lemmes, POS-tagging).
  2. Modélisation Thématique (LDA) : Utilisation de l’algorithme Latent Dirichlet Allocation (LDA) pour découvrir les thèmes latents présents dans les articles. Cette méthode non-supervisée a permis de regrouper les articles par sujets sans connaissance préalable.
  3. Analyse Temporelle : Le corpus a été divisé par trimestre pour observer comment l’importance relative des différents sujets évoluait au cours de l’année 2022.
  4. Visualisation Interactive : Les sorties du modèle LDA ont été exportées et intégrées dans une interface web interactive, permettant une exploration intuitive des thèmes, de leurs mots-clés les plus saillants et de leurs relations.

Visualisation interactive des topics générée par le modèle LDA (Légende : La visualisation interactive pyLDAvis permet d’explorer la distance inter-sujets et les termes les plus pertinents pour chaque thème identifié.)

Principales Conclusions de l’Analyse

L’année 2022 a été marquée par deux événements majeurs : la guerre en Ukraine et la Coupe du Monde de football. Notre analyse a révélé une interaction claire entre ces deux narratifs :

  • Les thèmes internationaux étaient dominés par des termes comme "guerre", "ukraine", "russe", et "président".
  • Les thèmes sportifs se concentraient sur "coupe_monde", "football", "équipe".
  • Le modèle LDA a permis de tracer comment le discours géopolitique (sanctions, sécurité, relations internationales) s’infiltrait dans les articles sportifs, montrant l’impact profond des événements mondiaux sur des domaines apparemment distincts.

Ce projet démontre la capacité du TAL à extraire des insights complexes et nuancés à partir de grands volumes de données textuelles non structurées.


Recommandations

  1. Placez vos images :

    • Je vous recommande d’utiliser l’image de la visualisation LDA (image_b72bae.png) comme image principale (ppe2-lda-cover.png) et aussi pour l’illustration dans le corps du texte (lda-visualization.png).
    • Placez ces images dans votre dossier public/images/projects/ et assurez-vous que les chemins dans le fichier .mdx correspondent.
  2. Lien vers le site projet :

    • J’ai déjà inclus le lien vers votre site projet dans le champ preview. Votre template de page de projets devrait automatiquement l’afficher avec un bouton ou un lien “Live Preview” / “Voir le projet”.

Cette présentation met en avant votre maîtrise d’un projet de data science de bout en bout, de la collecte de données à l’analyse avancée et à la communication des résultats. C’est un atout majeur pour votre portfolio.