Soutenance de thèse de Ygor GALLINA (équipe TALN)
28 mars 2022 @ 9 h 30 min - 13 h 30 min
Ygor GALLINA, doctorant au sein de l’équipe TALN, soutiendra sa thèse, intitulée « Indexation de bout-en-bout dans les bibliothèques scientifiques numériques » / « End-to-end indexation in digital scientific libraries »
Le 28 mars 2022 à 9h30, dans l’amphithéâtre du bâtiment 34.
Jury :
Rapporteurs : Josiane MOTHE, Professeure, Université de Toulouse ; Patrick PAROUBEK Professeur, Université de Paris-Saclay
Examinateurs : Lorraine GOEURIOT, Maître de conférence, Université Grenoble Alpes ; Richard DUFOUR Professeur, Nantes Université
Directrice : Béatrice DAILLE, Professeure, Nantes Université
Encadrant : Florian BOUDIN, Maître de conférence, Nantes Université
Résumé : Le nombre de documents scientifiques dans les bibliothèques numériques ne cesse d’augmenter. Les mots-clés, permettant d’enrichir l’indexation de ces documents ne peuvent être annotés manuellement étant donné le volume de document à traiter. La production automatique de mots-clés est donc un enjeu important. Le cadre évaluatif le plus utilisé pour cette tâche souffre de nombreuses faiblesses qui rendent l’évaluation des nouvelles méthodes neuronales peu fiables. Notre objectif est d’identifier précisément ces faiblesses et d’y apporter des solutions selon trois axes. Dans un premier temps, nous introduisons KPTimes, un jeu de données du domaine journalistique. Il nous permet d’analyser la capacité de généralisation des méthodes neuronales. De manière surprenante, nos expériences montrent que le modèle le moins performant est celui qui généralise le mieux. Dans un deuxième temps, nous effectuons une comparaison systématique des méthodes états de l’art grâce à un cadre expérimental strict. Cette comparaison indique que les méthodes de référence comme TF×IDF sont toujours compétitives et que la qualité des mots-clés de référence a un impact fort sur la fiabilité de l’évaluation. Enfin, nous présentons un nouveau protocole d’évaluation extrinsèque basé sur la recherche d’information. Il nous permet d’évaluer l’utilité des mots-clés, une question peu abordée jusqu’à présent. Cette évaluation nous permet de mieux identifier les mots-clés importants pour la tâche de production automatique de mots-clés et d’orienter les futurs travaux.
Mot clés : indexation automatique, mots-clés, évaluation extrinsèque, recherche d’information, génération de mots-clés, méthodes de bout en bout
Abstract: More and more scientific documents are being avaible in digital libraries. Efficient indexing is of the utmost importance for ease of access to scientific knowledge. Keywords, that supplements this indexation, can’t be annotated manually given the volume of document to process. Automatic keyword production is then an important issue. The commonly used evaluation protocol has many weaknesses which make the evaluation of the recent neural models less reliable. Our goal is to precisely identify these weaknesses and to provide solutions given three axis. First, we introduce KPTimes, a dataset from the news domain. It will allow us to analyse the generalisation ability of neural models. Suprisingly, the least performant model is the most generalisable one. Then, we perform a systematic comparison of state-of-the-art methods using a strict experimental setup. This comparison shows that baselines such as TF×IDF are still competitive and that reference keywords quality have a strong impact on evaluation reliability. Finally, we introduce a new extrinsic evaluation protocol based on information retrieval. It allow us to evaluate keyphrase usefulness, an issue that has been given very little attention until now. This evaluation will help us better identify important keywords for automatic keyword production and to guide future works.
Keywords: automatic indexing, keywords, extrinsic evaluation, information retrieval, keyword generation, end-to-end method