Xiaohua CUI's avatar
Harnessing language with data.

Xiaohua CUI

Data Scientist NLP

Data Scientist chez Groupe Covéa Consultez mon CV Connectons-nous sur LinkedIn Découvrez mes dépôts sur GitHub

À Propos

Data Scientist confirmée spécialisé en NLP & IA Générative. Expériences confirmées en projets ML/DL et Workflow LLM/Agent appliquées à des données non structurées en langage naturel (verbatims client, discours politiques, rapports d'expertise etc. Compétent dans la mise en production de pipelines sur Cloud Azure & Databricks, avec une forte sensibilité aux enjeux métiers dans des domaines du service client, comme celui de l'assurance non-vie.

Passionné par l'innovation et l'impact de l'IA frugale sur les processus métier, je m'engage à transformer les défis complexes en solutions intelligentes et efficaces et à contribuer à des projets qui allient valeur ajoutée pour les entreprises.

Parlons-nous !

Bonjour !

Hello, c'est Xiaohua ici.
N'hésitez pas à poser une question.

Tech Stack

Experience

Groupe Covéa

Data Scientist NLP - DIARD

Janv. 2025 - Aujourd'hui
  • ♦ Développement et mise en production de projets en NLP et IA Générative.

  • ♦ Domaines d'application : lutte contre la fraude, traitement et analyse des rapports/avis d'assurance, et monitoring des modèles.

Acturiat LLMOps RAG Agent Azure Databricks Spark MLflow Streamlit

Data Scientist NLP (Stage) - DSIN

Mars 2024 - Sept. 2024
  • ♦ Création d'un Proof of Concept (PoC) de solutions d'IA générative pour des tâches NLP traditionnelles.

  • ♦ Évaluation des coûts et des performances de LLMs open-source et de GPT pour la classification multi-label de messages clients sur Databricks.

  • ♦ Amélioration du F1-score de 0,6 à 0,79 avec prompt engineering et optimisation des hyperparamètres.

  • ♦ Automatisation des expérimentations avec une architecture LangChain et MLflow.

  • ♦ Entraînement de modèles de machine learning et fine-tuning de CamemBERT à des fins de comparaison.

  • ♦ Publication de trois articles détaillant l'approche : Amélioration itérative par agent LLM.

Python LangChain MLflow Databricks LLM GPT Fine-Tuning Prompt Engineering Scikit-learn Transformers

Ourpalm

Data Science et NLP (Stage)

Avr. 2022 - Août 2022
  • ♦ Annotation de messages clients provenant du système de la boutique en ligne.

  • ♦ Développement d'un modèle RoBERTa sous PyTorch pour l'analyse de sentiments (polarité), atteignant une précision de 92 %.

  • ♦ Collaboration avec l'équipe produit pour le déploiement du modèle.

Python PyTorch RoBERTa NLP Sentiment Analysis

Formation

Master, Traitement Automatique des Langues

Sept. 2022 - Sept. 2024
  • Sorbonne Nouvelle, Paris.

  • ♦ Spécialisation en Traitement Automatique des Langues.

Master, Linguistique et Analyse du Discours

Sept. 2021 - Juin 2024
  • ♦ Établissement : Université des Langues et Cultures de Pékin, Pékin, Chine.

Licence, Langue et Littérature Françaises

Sept. 2017 - Juin 2021
  • ♦ Établissement : Université de Yanshan, Qinhuangdao, Chine.