Ziwei XU, doctorante au sein de l’équipe DUKe, soutiendra sa thèse intitulée « Améliorer l’LDA pour l’apprentissage de l’ontologie » / « Enhancing LDA for Ontology Learning »
jeudi 3 juin 2021 à 9h à Polytech. Streaming sur Zoom : https://univ-nantes-fr.zoom.us/j/96043899700?pwd=K24yd0pJeUxRK21HN0hPR0lnZGx3Zz09
(Meeting ID: 960 4389 9700 / Passcode: 783794)
Jury :
– Directeur de thèse : Fabrice GUILLET Professeur des universités, Polytech Nantes, Université de Nantes
– Co-dir. de thèse : Mounira HARZALLAH Maitre de conférences-HdR, IUT QLIO, Université de Nantes
– Rapporteurs : Hedi KARRAY Maitre de conférences-HdR, INP-ENIT, Tarbes, Université de Toulouse ; Julien VELCIN Professeur des universités, Université de Lyon 2
– Examinateurs : Hedi KARRAY Maitre de conférences-HdR, INP-ENIT, Tarbes, Université de Toulouse ; Julien VELCIN Professeur des universités, Université de Lyon 2 ; Giuseppe BERIO Professeur des universités, Université de Bretagne sud, Vannes ; Ryutaro ICHISE Associate Professor, National Institute of Informatics, Tokyo.
Résumé : L’information de masse pose de nombreux défis à l’interprétation humaine. L’apprentissage d’une ontologie aide (semi-) automatiquement les humains à comprendre et à organiser les données sans difficulté. Latent Dirichlet Allocation (LDA) est une méthode probabiliste typique pour aider les machines à interpréter des documents textuels. Cette thèse vise à améliorer l’utilité de la LDA pour conceptualiser des termes en vue de l’apprentissage d’une ontologie, où des termes similaires sont regroupés en fonction des concepts de base prédéfinis. Nous avons exploré le cadre classique du regroupement de termes et étudié les impacts de regroupement des techniques de représentation des termes. En comparaison, nous avons proposé la stratégie de mise en grappes sur les LDA, où les techniques d’intégration des connaissances préalables sont appliquées pour semi-superviser LDA pour les grappes les plus satisfaisantes. De plus, nous avons construit la structure taxonomique de l’ontologie, en appliquant en interne les cadres de sous-catégorisation sur les phrases nominatives et en bénéficiant en externe des bases de connaissances. Les résultats de l’expérience ont montré que notre stratégie de regroupement basée sur les LDA a été plus performante que la majorité des travaux de regroupement dans le cadre classique. Notre approche optimale d’intégration des connaissances préalables a dépassé les performances des LDA de base et seeded LDA, mais a pris du retard par rapport aux z-label LDA. Cette thèse suggère que le regroupement sur les LDA pourrait contribuer à anticiper les conceptualisations des termes pour l’apprentissage de l’ontologie.
Mots-clés : apprentissage de l’ontologie, LDA, regroupement de termes, base de connaissances, ancrage des connaissances préalables
Abstract: The mass information nowadays brings many challenges to human interpretation. Ontology is used to represent knowledge by giving information a well-defined meaning. Learning an ontology (semi-)automatically supports humans to understand and organize data without difficulty. Latent Dirichlet Allocation(LDA), is a typical probabilistic based method to help machines interpret text documents. This dissertation aims to enhance LDA’s utilities of conceptualizing terms towards ontology learning, where similar terms are clustered to the predefined core concepts. We explored the classic workflow of term clustering and studied the clustering impacts of the terms representation techniques. Comparatively, we proposed the LDA based clustering strategy, where the prior knowledge embedding techniques are applied to semi-supervise the LDA for the more satisfying clusters. In addition, we built up the taxonomic structure of the ontology, by internally applying the subcategorization frames over noun phrases and externally benefitting from the knowledge bases. The experiment results showed that our proposed LDA based clustering strategy outperformed the majority of the clustering works in the classic workflow. Our optimal prior knowledge embedding approach exceeded the performance of basic LDA and Seeded LDA but dropped behind the Z-label LDA. This dissertation suggests that the LDA based clustering strategy could contribute to the anticipating term conceptualizations for ontology learning.
Keywords: ontology learning, LDA, term clustering, knowledge base, prior knowledge embedding