Recherche - Pierre Jourlin, PhD

Vision de recherche

Mes travaux de recherche s'articulent autour de l'Intelligence Artificielle et du Traitement Automatique du Langage Naturel, avec une attention particulière portée à l'interprétabilité des modèles et aux questions éthiques. Je m'efforce de développer des systèmes qui ne soient pas des "boîtes noires" mais des "boîtes translucides" dont le fonctionnement peut être compris et audité.

Thèmes de recherche

🔤 Traitement Automatique du Langage Naturel (NLP)

Le NLP constitue le cœur de mes activités de recherche. Je travaille sur des méthodes permettant aux machines de comprendre, analyser et générer du langage humain.

Désambiguïsation lexicale : résolution des ambiguïtés dans le langage naturel
Reconnaissance d'entités nommées : identification et classification d'entités dans le texte
Text mining : extraction de connaissances à partir de corpus textuels
Classification de textes : catégorisation automatique de documents

🔍 Recherche d'Information

Comment retrouver efficacement l'information pertinente dans de grandes masses de données textuelles ou multimédias ?

Spoken Document Retrieval : recherche dans les documents audio transcrits
Expansion de requêtes : amélioration des requêtes utilisateur
Web crawling : collecte et indexation du web
Indexation multimédia : indexation audio, vidéo et texte

🎤 Traitement de la Parole

Mes travaux de thèse et mes recherches à Cambridge ont porté sur le traitement automatique de la parole et la reconnaissance multimodale.

Reconnaissance bimodale : intégration audio-visuelle
Vérification du locuteur : authentification par la voix
Transcription automatique : conversion parole-texte
Modèles de Markov cachés (HMM) : modélisation stochastique

🧠 Intelligence Artificielle & Éthique

Au-delà des aspects techniques, je m'intéresse aux implications sociétales et éthiques de l'IA.

Interprétabilité des modèles : rendre l'IA compréhensible
Éthique de l'IA : réflexion sur les usages responsables
Vulgarisation scientifique : démystification de l'IA pour le grand public
Apprentissage supervisé : méthodes et bonnes pratiques

Projets et outils développés

SIMI - Système de Suggestion de Littérature Médicale

2022

SIMI est un système entièrement automatisé de suggestion de littérature médicale. À partir d'une description d'un cas clinique en français, SIMI extrait les termes médicaux présents en résolvant simultanément les éventuelles ambiguïtés. Il traduit ensuite les termes en anglais et construit une requête de recherche documentaire pour interroger les bases de données médicales.

Technologies : NLP, désambiguïsation, traduction automatique, recherche d'information

SIDRES - Système Interactif de Détection et Reconnaissance d'Entités Sémantiques

2021

SIDRES est un outil d'annotation innovant pour la classification automatique d'unités textuelles à partir de catégories ad hoc. Ces catégories peuvent être associées à des contextes comme moyen de désambiguïsation d'unités textuelles, permettant une annotation plus précise et contextuelle.

Technologies : Annotation, classification, reconnaissance d'entités, désambiguïsation

FELTS - Entity Recognition and Language Identification

2017

Système de reconnaissance d'entités et d'identification de langue développé pour le Microblog Cultural Contextualization Lab de CLEF 2017. FELTS utilise une approche non-statistique basée sur des dictionnaires pour traiter les textes très courts et hétérogènes typiques des microblogs, parfois écrits dans plusieurs langues.

Technologies : Reconnaissance d'entités, identification de langue, microblogs

YeSQL Web Crawler

2012

Crawler web focalisable, scalable et distribué, basé sur GNU/Linux et PostgreSQL. Conçu pour être facilement extensible, il a été utilisé notamment pour l'analyse des flux Twitter lors des élections présidentielles françaises de 2012.

Technologies : GNU/Linux, PostgreSQL, web crawling, analyse de réseaux sociaux

CU-MDR - Cambridge University Multimedia Document Retrieval

1997-2000

Système de recherche documentaire multimédia développé à l'Université de Cambridge. Cette application web permettait d'interroger une base de données de transcriptions automatiques d'émissions de radio disponibles en ligne. Le système téléchargeait quotidiennement les flux audio de stations de radio britanniques et américaines, les transcrivait automatiquement et les indexait pour la recherche.

Technologies : Reconnaissance de la parole, recherche d'information, indexation multimédia

Brevet

Disambiguation for the Classification of Lexical Items

Janvier 2022

Ce brevet porte sur la désambiguïsation de la classification d'éléments lexicaux pouvant appartenir à différentes classes. L'invention décrit la création et l'utilisation d'un arbre d'éléments lexicaux, où chaque nœud comprend un élément lexical et des informations permettant de résoudre les ambiguïtés de classification.

Domaine : Classification lexicale, désambiguïsation, traitement du langage naturel

Projets européens

M2VTS - Multi Modal Verification for Teleservices

Projet ACTS de l'Union Européenne

1996

Projet européen sur la vérification multimodale pour les téléservices et les applications de sécurité. Collaboration avec l'Idiap Research Institute (Suisse) sur l'intégration des informations acoustiques et labiales pour la vérification du locuteur.

TREC - Text REtrieval Conference

NIST (National Institute of Standards and Technology)

1997-2000

Participation aux campagnes d'évaluation TREC-7, TREC-8 et TREC-9 dans la piste "Spoken Document Retrieval" avec l'équipe de Cambridge University. Le système développé a obtenu les meilleurs résultats en termes de taux d'erreur mot.

Approches méthodologiques

Apprentissage automatique

Apprentissage supervisé
Modèles de Markov cachés (HMM)
Classification probabiliste
Modèles basés sur Okapi/BM25

Traitement du langage

Analyse morphosyntaxique
Extraction d'information
Linguistique de corpus
Ressources lexicales

Évaluation

Précision et rappel
Average Precision
Évaluation TREC
Protocoles expérimentaux

Développement

Prototypage rapide
GNU/Linux
PostgreSQL
Outils open source

Domaines d'application

Santé et médecine : Systèmes d'aide à la recherche de littérature médicale (SIMI)
Médias et broadcast : Indexation et recherche dans les archives audiovisuelles
Réseaux sociaux : Analyse de Twitter et microblogs
Sécurité : Vérification d'identité par approche bimodale
Discovery scientifique : Identification de lacunes dans la littérature (Literature Based Discovery)
Multilinguisme : Systèmes de recherche et vocabulaires contrôlés multilingues

Voir mes publications Me contacter