Soutenance de thèse de Thomas MINIER (équipe GDD)
10 novembre 2020 @ 14 h 00 min - 16 h 00 min
Thomas Minier, doctorant au sein de l’équipe GDD, soutiendra sa thèse intitulée « La Préemption Web pour interroger le Web des Données » / « Web Preemption for Querying the Linked Open Data »
mardi 10 novembre 2020 à 14h en ligne sur YouTube
Jury :
Mr. Fabien Gandon, Directeur de Recherche à l’Inria Sophia-Antipolis, rapporteur.
Mr. Ruben Verborgh, Professeur à l’Université de Ghent, rapporteur.
Mme. Pascale Kuntz, Professeure à PolyTech Nantes, examinatrice.
Mme. Fatiha Saïs, Maître de conférence HDR à l’Université Paris 11, examinatrice.
Mr. Pascal Molli, Professeur à l’Université de Nantes, directeur de thèse.
Mme. Hala Skaf-Molli, Maître de conférence HDR à l’Université de Nantes, co-directrice de thèse.
Résumé : En suivant les principes du Linked Open Data, les fournisseurs de données ont publié des milliards de documents RDF via des services publics d’évaluation de requêtes SPARQL. Pour garantir la disponibilité et la stabilité de ces services, ils appliquent des politiques de quotas sur l’utilisation des serveurs. Les requêtes qui excèdent ces quotas sont interrompues et ne renvoient que des résultats partiels. Cette interruption n’est pas un problème s’il est possible de reprendre l’exécution des requêtes ultérieurement, mais il n’existe aucun modèle de préemption le permettant.
Dans cette thèse, nous proposons de résoudre le problème relatif à la construction des services qui permettent à n’importe quel utilisateur d’exécuter n’importe quelle requête SPARQL en obtenant des résultats complets. Nous proposons la préemption Web, un nouveau modèle d’exécution qui permet l’interruption de requêtes SPARQL après un quantum de temps, ainsi que leur reprise sur demande des clients. Nous proposons également SaGe, un moteur d’évaluation de requêtes SPARQL qui implémente la préemption Web tout en garantissant un surcoût de préemption minimal. Nos résultats expérimentaux démontrent que SaGe est plus performant que les approches existantes, en termes de temps moyen d’exécution des requêtes et d’obtention des premiers résultats.
Mots-clés : Web sémantique – Gestion des données liées – Serveurs SPARQL publics
——————————————————————————————————————————————————–
Abstract: Following the Linked Open Data principles, data providers have published billions of RDF documents using public SPARQL query services. To ensure these services remains stable and responsive, they enforce quotas on server usage. Queries which exceed these quotas are interrupted and deliver partial results. Such interruption is not an issue if it is possible to resume queries execution afterward. Unfortunately, there is no preemption model for the Web that allows for suspending and resuming SPARQL queries. In this thesis, we propose to tackle the issue of building public SPARQL query servers that allow any data consumer to execute any SPARQL query with complete results. First, we propose a new query execution model called Web Preemption. It allows SPARQL queries to be suspended by the Web server after a fixed time quantum and resumed upon client request. Web preemption is tractable only if its cost in time is negligible com- pared to the time quantum. Thus, we propose SaGe: a SPARQL query engine that implements Web Preemption with minimal overhead. Experimental results demonstrate that SaGe outperforms existing SPARQL query processing approaches by several orders of magnitude in term of the average total query execution time and the time for first results.
Keywords: Semantic Web – Linked Data Management – Public SPARQL servers