Xiaohua CUI's avatar
Harnessing language with data.

Xiaohua CUI

Data Scientist NLP

Data Scientist chez Groupe Covéa Consultez mon CV Connectons-nous sur LinkedIn Découvrez mes dépôts sur GitHub

À Propos

Data Scientist confirmée spécialisé en NLP & IA Générative. Expériences confirmées en projets ML/DL et Workflow LLM/Agent appliquées à des données non structurées en langage naturel (verbatims client, discours politiques, rapports d'expertise etc. Compétent dans la mise en production de pipelines sur Cloud Azure & Databricks, avec une forte sensibilité aux enjeux métiers dans des domaines du service client, comme celui de l'assurance non-vie.

Passionné par l'innovation et l'impact de l'IA frugale sur les processus métier, je m'engage à transformer les défis complexes en solutions intelligentes et efficaces et à contribuer à des projets qui allient valeur ajoutée pour les entreprises.

Parlons-nous !

Bonjour !

C'est Xiaohua ici.
N'hésitez pas à poser une question.

Tech Stack

Experience

Groupe Covéa

Data Scientist NLP - DIARD

Janv. 2025 - Aujourd'hui
  • ● Développement et mise en production de projets en NLP et IA Générative.

  • ● Domaines d'application : lutte contre la fraude, traitement et analyse des rapports/avis d'assurance, et monitoring des modèles.

Acturiat LLMOps RAG Agent Azure Databricks Spark MLflow Streamlit

Data Scientist NLP (Stage) - DSIN

Mars 2024 - Sept. 2024
  • ● Création d'un Proof of Concept (PoC) de solutions d'IA générative pour des tâches NLP traditionnelles.

  • ● Évaluation des coûts et des performances de LLMs open-source et de GPT pour la classification multi-label de messages clients sur Databricks.

  • ● Amélioration du F1-score de 0,6 à 0,79 avec prompt engineering et optimisation des hyperparamètres.

  • ● Automatisation des expérimentations avec une architecture LangChain et MLflow.

  • ● Entraînement de modèles de machine learning et fine-tuning de CamemBERT à des fins de comparaison.

  • ● Publication de trois articles détaillant l'approche : Amélioration itérative par agent LLM.

Python LangChain MLflow Databricks LLM GPT Fine-Tuning Prompt Engineering Scikit-learn Transformers

Outlier AI

AI Consultant

Juillet 2024 - Aujourd'hui
  • ● Évaluation et amélioration de modèles de langage (LLM) à grande échelle sur des tâches complexes, incluant le raisonnement logique, la génération de code (Python) et la résolution de problèmes mathématiques.

  • ● Développement de scripts et d'outils pour analyser et quantifier la performance des modèles, en identifiant les points faibles et les axes d'amélioration.

  • ● Rédaction de "golden responses" (réponses de référence) et de consignes précises pour guider le fine-tuning et l'alignement des modèles avec l'intention humaine.

  • ● Collaboration avec les équipes de recherche et d'ingénierie pour fournir un feedback qualitatif détaillé sur le comportement des modèles.

LLM Evaluation Prompt Engineering Code Generation Logical Reasoning Mathematics Python Data Analysis

Ourpalm

Data Science et NLP (Stage)

Avr. 2022 - Août 2022
  • ● Annotation de messages clients provenant du système de la boutique en ligne.

  • ● Développement d'un modèle RoBERTa sous PyTorch pour l'analyse de sentiments (polarité), atteignant une précision de 92 %.

  • ● Collaboration avec l'équipe produit pour le déploiement du modèle.

Python PyTorch RoBERTa NLP Sentiment Analysis

Formation

Master, Traitement Automatique des Langues

Sept. 2022 - Sept. 2024
  • Sorbonne Nouvelle, Paris.

Master, Linguistique et Analyse du Discours

Sept. 2021 - Juin 2024
  • Université des Langues et Cultures de Pékin, Pékin, Chine.

Licence, Langue et Littérature Françaises

Sept. 2017 - Juin 2021
  • Université de Yanshan, Qinhuangdao, Chine.