Soutenance HDR de Hala SKAF-MOLLI
6 octobre 2017 @ 14 h 00 min - 16 h 30 min
Hala Skaf (équipe GDD) présentera ses travaux de recherche en vue de l’obtention de l’Habilitation à Diriger des Recherches intitulée
« Gestion décentralisée de données du web sémantique »
vendredi 6 octobre à 14h dans l’amphithéâtre du bâtiment 34 (FST).
Jury :
– Bernd Amann, Professeur à l’Université de Pierre et Marie Curie (Paris 6), Rapporteur
– Fabien Gandon, Directeur de recherche INRIA Sophia-Antipolis Mediterranée, Rapporteur
– Philippe Lamarre, Professeur à l’INSA Lyon, Rapporteur
– Maria Esther-Vidal, Professeur à Université de Simon Bolivar Venezuela et Fraunhofer IAIS, Germany, Examinatrice
– Pascale Kuntz, Professeur à l’Université de Nantes, Examinatrice
– Abdelkader Hameurlain, Professor à l’Université de Paul Sabatier, Toulouse, Examinateur
– François Charoy, Professor à TELECOM Nancy – Université de Lorraine, Examinateur
Résumé :
Le web sémantique est une extension du web où l’information a une signification précise.
Aujourd’hui, des milliers de jeux de données sont accessibles simplement sur le web. Ces jeux de données respectent des standards du web sémantique permettant leur interrogations à travers le langage de requêtes SPARQL. Cependant, des problèmes importants liés à la production et la consommation des données liées restent ouverts : la qualité des données, l’accès au web profond et la disponibilité des données. Pour assurer la qualité de données, nous proposons de transformer le web de données vers un web de données en lecture/écriture. Ainsi, un consommateur de données est à même de corriger une erreur. Autoriser les écritures sur le web sémantique pose le problème de cohérence de données. Cette transformation nécessite la définition des algorithmes de synchronisation adaptés au modèle de données RDF et au langage SPARQL 1.1 Update.
Pour assurer l’accès au web profond, nous proposons une approche médiateur permettant de combiner données sémantique et données du web profond. Le problème est alors d’améliorer les performances des requêtes en présence de nombreuses sources de données. Enfin, pour assurer la disponibilité des données, nous proposons un modèle de réplication pour le web de données. Le problème est alors d’optimiser l’exécution des requêtes fédérées en présence de réplicas découverts au moment de l’exécution des requêtes.
Abstract:
The semantic web is an extension of the web where information has a precise meaning.
Today, thousands of datasets are available on the web. These datasets respect semantic web standards, therefore, they can queried allowing through the SPARQL query language. However, important problems related to the production and consumption of linked data remain open: data quality, deep web access, and data availability. To ensure the quality of data, we propose to transform the web of data into a read/write web of data. Consequently, a data consumer is able to correct an error. Allowing consumers to write the semantic data poses the problem of data consistency. This transformation requires the definition of synchronization algorithms adapted to the RDF data model and to SPARQL 1.1 Update language.To ensure access to the deep web, we propose a mediator approach allowing to combine semantic data and deep web data. The problem is then to improve the performance of queries in the presence of a large number of data sources. Finally, to ensure the availability of data, we propose a replication model for the web of data. The problem is to optimize the execution of federated SPARQL queries in the presence of replicas discovered at queries execution time.