DataChallenge : NLP Santé

Vue d'ensemble

Dans le cadre d'un challenge académique à CentraleSupélec, j'ai développé des solutions NLP pour l'analyse de données de santé, en me concentrant sur deux tâches principales : la reconnaissance d'entités nommées (NER) et les systèmes de questions-réponses sur documents médicaux.

Objectifs

Extraire des entités médicales (médicaments, diagnostics, symptômes) à partir de documents cliniques en français
Construire un système de Q&A permettant d'interroger des rapports médicaux en langage naturel
Évaluer les performances de différentes architectures de modèles transformers

Approche Technique

Reconnaissance d'Entités Nommées

Utilisation de modèles CamemBERT et BioBERT finement ajustés sur des corpus médicaux annotés. L'approche BIO (Beginning, Inside, Outside) a permis d'identifier précisément les entités cliniques dans les textes.

Question Answering

Implémentation d'un pipeline de Q&A extractif basé sur des modèles de type BERT, permettant de localiser et extraire des passages pertinents dans les documents médicaux.

Résultats

Les modèles entraînés ont atteint des scores F1 compétitifs sur les jeux de données de validation, démontrant la faisabilité de l'IA pour l'assistance aux professionnels de santé.

DataChallenge : NLP Santé

Vue d'ensemble

Objectifs

Approche Technique

Reconnaissance d'Entités Nommées

Question Answering

Résultats

Autres projets

Speech Analyzer — Plateforme IA Conversationnelle

Résumé de documents médicaux français

Détection de prix dans les photos de supermarché