Harnessing humain language with data, bring value to real-world applications.

Xiaohua CUI

Data Scientist NLP

En poste En recherche active

Data Scientist chez Groupe Covéa Consulter mon CV Connectons-nous sur LinkedIn Découvrir mes dépôts sur GitHub

À Propos

Data Scientist confirmée spécialisé en NLP & IA Générative. Expériences confirmées en projets ML/DL et Workflow LLM/Agent appliquées à des données non structurées en langage naturel (verbatims client, discours politiques, rapports d'expertise etc. Compétent dans la mise en production de pipelines sur Cloud Azure & Databricks, avec une forte sensibilité aux enjeux métiers dans des domaines du service client, comme celui de l'assurance non-vie.

Passionné par l'innovation et l'impact de l'IA frugale sur les processus métier, je m'engage à transformer les défis complexes en solutions intelligentes et efficaces et à contribuer à des projets qui allient valeur ajoutée pour les entreprises.

Parlons-nous !

Bonjour !

C'est Xiaohua ici.
N'hésitez pas à poser une question.

Tech Stack

Experience

Groupe Covéa

Data Scientist NLP - DIARD

Janv. 2025 - Aujourd'hui

● Pilotage de la conception et du déploiement de projets en Machine Learning, LLM et Agents, couvrant la détection de fraude en assurance MRH (multirisques habitation), l’analyse de verbatims clients, l’extraction d’informations dans les rapports d’accidents d’assurance et la génération automatisée de rapports BI via RAG et LangChain.
● Industrialisation de solutions d’IA frugales en production, avec un suivi rigoureux des coûts et de la latence grâce à l’orchestration des services Azure, Databricks et OpenAI, permettant une réduction des coûts d’inférence de 31 % tout en assurant la scalabilité.
● Traduction des besoins métiers en solutions techniques et développement d’outils d’aide à l’évaluation des sinistres à risque (application Streamlit connectée à Azure DB), ayant amélioré l’efficacité analytique des équipes de 30 %.
● Documentation continue, diffusion de connaissances en IA et actions de sensibilisation internes (Copilot, bonnes pratiques LLM, etc.).

Acturiat LLMOps RAG Agent Azure Databricks Spark MLflow Streamlit

Data Scientist NLP (Stage) - DSIN

Mars 2024 - Sept. 2024

● Création d'un Proof of Concept (PoC) de solutions d'IA générative pour des tâches NLP traditionnelles.
● Évaluation des coûts et des performances de LLMs open-source et de GPT pour la classification multi-label de messages clients sur Databricks.
● Amélioration du F1-score de 0,6 à 0,79 avec prompt engineering et optimisation des hyperparamètres.
● Automatisation des expérimentations avec une architecture LangChain et MLflow.
● Entraînement de modèles de machine learning et fine-tuning de CamemBERT à des fins de comparaison.
● Publication de trois articles détaillant l'approche : Amélioration itérative par agent LLM.

Python LangChain MLflow Databricks LLM GPT Fine-Tuning Prompt Engineering Scikit-learn Transformers

Outlier AI

AI Consultant

Juillet 2024 - Aujourd'hui

● Évaluation et amélioration de modèles de langage (LLM) à grande échelle sur des tâches complexes, incluant le raisonnement logique, la génération de code (Python) et la résolution de problèmes mathématiques.
● Développement de scripts et d'outils pour analyser et quantifier la performance des modèles, en identifiant les points faibles et les axes d'amélioration.
● Rédaction de "golden responses" (réponses de référence) et de consignes précises pour guider le fine-tuning et l'alignement des modèles avec l'intention humaine.
● Collaboration avec les équipes de recherche et d'ingénierie pour fournir un feedback qualitatif détaillé sur le comportement des modèles.

LLM Evaluation Prompt Engineering Code Generation Logical Reasoning Mathematics Python Data Analysis

Ourpalm

Data Science et NLP (Stage)

Avr. 2022 - Août 2022

● Annotation de messages clients provenant du système de la boutique en ligne.
● Développement d'un modèle RoBERTa sous PyTorch pour l'analyse de sentiments (polarité), atteignant une précision de 92 %.
● Collaboration avec l'équipe produit pour le déploiement du modèle.

Python PyTorch RoBERTa NLP Sentiment Analysis

Formation

Master, Traitement Automatique des Langues

Sept. 2022 - Sept. 2024

Sorbonne Nouvelle, Paris.

Master, Linguistique et Analyse du Discours

Sept. 2021 - Juin 2024

Université des Langues et Cultures de Pékin, Pékin, Chine.

Licence, Langue et Littérature Françaises

Sept. 2017 - Juin 2021

Université de Yanshan, Qinhuangdao, Chine.

Certifications

DALF C2 Diplôme approfondi de langue française — niveau C2

Certificat — Volontaire Paris 2024 Chaperon anti-dopage — Natation

Certificat — Volontaire Beijing 2022 Accompagnateur des athlètes français — Bobsleigh