
Xiaohua CUI
Data Scientist NLP
À Propos
Data Scientist confirmée spécialisé en NLP & IA Générative. Expériences confirmées en projets ML/DL et Workflow LLM/Agent appliquées à des données non structurées en langage naturel (verbatims client, discours politiques, rapports d'expertise etc. Compétent dans la mise en production de pipelines sur Cloud Azure & Databricks, avec une forte sensibilité aux enjeux métiers dans des domaines du service client, comme celui de l'assurance non-vie.
Passionné par l'innovation et l'impact de l'IA frugale sur les processus métier, je m'engage à transformer les défis complexes en solutions intelligentes et efficaces et à contribuer à des projets qui allient valeur ajoutée pour les entreprises.
Bonjour !
C'est Xiaohua ici.
N'hésitez pas à poser une question.
Tech Stack
IA Générative
Plateformes/Outils Data
Python Librairies
Experience
Groupe Covéa
Data Scientist NLP - DIARD
● Développement et mise en production de projets en NLP et IA Générative.
● Domaines d'application : lutte contre la fraude, traitement et analyse des rapports/avis d'assurance, et monitoring des modèles.
Data Scientist NLP (Stage) - DSIN
● Création d'un Proof of Concept (PoC) de solutions d'IA générative pour des tâches NLP traditionnelles.
● Évaluation des coûts et des performances de LLMs open-source et de GPT pour la classification multi-label de messages clients sur Databricks.
● Amélioration du F1-score de 0,6 à 0,79 avec prompt engineering et optimisation des hyperparamètres.
● Automatisation des expérimentations avec une architecture LangChain et MLflow.
● Entraînement de modèles de machine learning et fine-tuning de CamemBERT à des fins de comparaison.
● Publication de trois articles détaillant l'approche : Amélioration itérative par agent LLM.
Outlier AI
AI Consultant
● Évaluation et amélioration de modèles de langage (LLM) à grande échelle sur des tâches complexes, incluant le raisonnement logique, la génération de code (Python) et la résolution de problèmes mathématiques.
● Développement de scripts et d'outils pour analyser et quantifier la performance des modèles, en identifiant les points faibles et les axes d'amélioration.
● Rédaction de "golden responses" (réponses de référence) et de consignes précises pour guider le fine-tuning et l'alignement des modèles avec l'intention humaine.
● Collaboration avec les équipes de recherche et d'ingénierie pour fournir un feedback qualitatif détaillé sur le comportement des modèles.
Ourpalm
Data Science et NLP (Stage)
● Annotation de messages clients provenant du système de la boutique en ligne.
● Développement d'un modèle RoBERTa sous PyTorch pour l'analyse de sentiments (polarité), atteignant une précision de 92 %.
● Collaboration avec l'équipe produit pour le déploiement du modèle.
Formation
Master, Traitement Automatique des Langues
Sorbonne Nouvelle, Paris.
Master, Linguistique et Analyse du Discours
Université des Langues et Cultures de Pékin, Pékin, Chine.
Licence, Langue et Littérature Françaises
Université de Yanshan, Qinhuangdao, Chine.