Soutenance de thèse de Georges NASSOPOULOS
22 mai 2017 @ 13 h 30 min - 15 h 30 min
FreeGeorges Nassopoulos, doctorant au sein de l’équipe GDD,
soutiendra sa thèse intitulée « Deducing Basic Graph Patterns from Logs of Linked Data providers »
lundi 22 mai 2017 à 13h30, dans l’amphithéâtre du bâtiment 34 sur le site de la FST.
Membres du jury : Pascal Molli (Directeur de thèse), Patricia Serrano-Alvarado (co-encadrante), Emmanuel Desmontils (co-encadrant), Philippe Lamarre (rapporteur, INSA Lyon), Olivier Cure (rapporteur, laboratoire d’informatique Gaspard Monge), René Quiniou (Inria Rennes), Pascale Kuntz-Cosperec, Claudia Roncancio (Ensimag)
Résumé :
Aujourdhui, le Web Sémantique met à disposition des milliers de jeux de données, hébergés par des milliers de fournisseurs de données autonomes.
Il est possible de facilement croiser ces données en exécutant une requête SPARQL sur une fédération de sources de données. Cette fédération de sources se compose de triple patterns, qui peuvent être évalués sur un ou plusieurs sites distribués. Malheureusement, dans ce scénario, les fournisseurs de données exécutent des sous-requêtes quils reçoivent sans savoir comment leur données sont croisées. De manière plus générale, il est donc difficile de savoir quelles sont les requêtes exécutées sur le Web Sémantique. Dans le cadre de cette thèse de Doctorat, nous cherchons à savoir s’il est possible d’inférer les requêtes SPARQL des consommateurs de données en partant des journaux des serveurs des fournisseurs de données. Dans ce cadre, nous avons développé deux algorithmes, l’algorithme LIFT et l’algorithme FETA, qui permettent d’inférer le croisement des données en partant de journaux de serveurs TPF et SPARQL. Nous sommes donc en mesure de démontrer que si les fournisseurs de données coopèrent, ils sont en mesure d’inférer la forme générale des requêtes exécutées sur le Web des Données.
Abstract:
Nowadays, the Semantic Web makes available thousands of datasets, hosted by numerous autonomous data providers. It is possible to easily cross these data by executing a SPARQL query on a given federation source. This federation source actually consists of triple patterns, that can be evaluated over one or more distributed sites. Unfortunately, in this scenario, data providers run subqueries that they receive without knowing how their data are crossed. In a more general way, it is difficult to know what are the queries executed on the Semantic Web. Within the frame of this PhD, we investigate whether it is possible to infer the SPARQL queries of data consumers using as input the server logs of data providers. In this framework we have developed two algorithms, the LIFT algorithm and the FETA algorithm, capable of inferring the crossing of data from TPF and SPARQL server logs. We are therefore able to show that if data providers cooperate, they are able to infer the general form of queries executed on the Web of Data.