Soutenance de thèse Mathieur RIAND
23 juin 2023 @ 10 h 00 min - 13 h 00 min
Mathieu Riand doctorant au sein de l’équipe IPI, présentera sa thèse intitulée :
« Reconnaissance d’actions à partir d’un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé »
Elle aura lieu le 23.06.23 à 10, Amphi 1, bât. IRESTE, Polytech
Lien visio: https://univ-nantes-fr.zoom.us/j/82893449341?pwd=aEM0WkZrUmplaTZVZGQwYVZ2TEVVQT09
Meeting ID: 828 9344 9341
Passcode: 144969
La soutenance sera suivie d’un moment de convivialité, auquel vous êtes toutes et tous convié(e)s.
Jury :
- Directeur de thèse : Patrick LE CALLET, professeur des universités, Nantes Université, LS2N
- Co-encadrant : Laurent DOLLE, ingénieur chercheur, CEA Tech Pays de la Loire
- Rapporteurs :
- Alexandre BENOÎT, professeur des universités, Université Savoie Mont Blanc, LISTIC
- Kévin BAILLY, maître de conférences, Sorbonne Université, ISIR
- Examinateurs :
- Alice CAPLIER, professeure des universités, Grenoble INP, GIPSA-lab
- Benoît FURET, professeur des universités, Nantes Université, LS2N
Résumé :
L’apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d’apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simplifier ce processus est de séparer les tâches en actions simples que le robot pourra apprendre indépendamment. Dans cette thèse, nous proposons donc d’extraire les actions élémentaires effectuées par des humains dans des vidéos ; pour cela, nous représentons les scènes sous la forme de graphes symboliques dans lesquels chaque nœud est un objet de la démonstration, et nous les classifions grâce à un GNN (Graph Neural Network). Nous explorons plusieurs stratégies de conception des graphes et montrons qu’il est possible d’améliorer la qualité de la reconnaissance d’actions en choisissant la bonne représentation. Puisque les démonstrations sont rarement annotées, nous proposons également des techniques d’apprentissage auto-supervisé appliquées aux graphes permettant de faire usage de données non labellisées pour augmenter encore les performances de notre modèle. Enfin, nous enregistrons 760 démonstrations et récoltons l’attention humaine sur une partie de ces vidéos afin de la comparer à l’attention de notre GNN.
Mots-clés : Reconnaissance d’actions, graphes de scène, GNN, apprentissage auto-supervisé, attention humaine