Vincent RICORDEL soutiendra son habilitation à diriger des recherches intitulée « Outils et méthodes pour le codage vidéo perceptuel«
mercredi 22 janvier 2020 à 13h30, dans l’amphithéâtre A1 à Polytech.
Jury :
– Marc Antonini, DR. à l’Université de Nice (rapporteur)
– William Puech, Pr. à l’Université de Montpellier (rapporteur)
– Olivier Déforges, Pr. à l’INSA de Rennes (rapporteur)
– Marco Cagnazzo, Pr. à l’Institut Télécom-Paris (examinateur)
– Luce Morin, Pr. à l’INSA de Rennes (examinatrice)
– Bogdan Cramariuc, Directeur de l’ITCST à Bucarest (examinateur)
– Marc Gelgon, Pr. à l’Université de Nantes (examinateur)
La soutenance sera suivie d’un pot dans le même bâtiment Ireste.
Résumé :
On ne peut que constater combien la technologie vidéo est devenue omniprésente en un peu plus d’une décennie. Si les besoins des nouveaux services vidéo ont été en partie satisfaits par l’efficacité des réseaux et de leurs technologies de couche physique, en parallèle les codecs vidéo ont été primordiaux en offrant compression et nouvelles fonctionnalités. La recherche en codage vidéo se caractérise alors par un fort contexte normatif où le point de compatibilité se fait au niveau du décodage. Les performances de chaque nouveau standard sont remarquables, car typiquement chacun par rapport au précédent, code avec la même qualité objective un format vidéo donné mais en divisant par deux le débit nécessaire. Il est cependant frappant de constater que le paradigme de la couche de codage n’a pas changé depuis l’origine, avec un codec dissymétrique où les décisions sont prises à l’encodage via un schéma hybride intégrant les étapes de prédiction, transformation, quantification et codage entropique. Il est aussi surprenant de constater la persistance de l’implantation dans les codeurs pour la phase d’optimisation débit-distorsion, d’un calcul de distorsion de type erreur quadratique moyenne, alors que l’on sait la corrélation pauvre entre les résultats de cette métrique et le jugement humain.
C’est à ce niveau que se définit l’objectif du codage vidéo perceptuel qui est d’aller vers une représentation de l’information basée sur le contenu perçu et qui puisse servir de paradigme pour un codage basé qualité perceptuelle des contenus des vidéos 2D et 3D. Pour être en phase avec les approches standards, l’objectif devient de guider les choix de codage de façon à aller vers la fidélité perceptuelle sans perte des vidéos décodées. Mes travaux se positionnent donc dans cette recherche des outils et des méthodes où les choix pour améliorer la qualité perceptuelle guident le codage vidéo.
Ma présentation retracera mon itinéraire scientifique au sein des équipes IVC-IRCCyN puis IPI-LS2N qui, du fait des recherche qui y sont conduites sur la modélisation du système visuel humain, ont offert et offrent encore un cadre collaboratif particulièrement propice aux travaux liés au codage vidéo perceptuel.
Mes contributions au codage vidéo perceptuel se sont principalement organisées au sein de projets de recherche visant à contribuer aux efforts faits en normalisation, avec le projet ANR ArchiPEG qui avait pour objectif l’optimisation du codage vidéo HD en flux H.264/AVC, le projet ANR PERSEE qui s’intéressait au codage perceptuel des formats vidéo 2D et 3D via le codec H.264 et son extension MVC, et le projet européen ITN PROVISION qui visait le codage perceptuel via HEVC. Mes contributions ont été produites au travers l’encadrement de thèses (4 soutenues, 1 en cours), et nous verrons que nous avons agi à 2 niveaux de la boucle de codage vidéo hybride.
Une première possibilité est d’améliorer directement des unités de la boucle de codage.
C’est ainsi que nous avons mis en œuvre une transformation directionnelle tenant compte des orientations géométriques au sein de l’image. Nous avons exploité cette représentation de l’information afin de construire des classes de structures, puis adapté la quantification de leur contenu en se basant sur des critères perceptuels.
Nous avons aussi, après avoir défini la notion de textures spatio-temporelles visuelles, proposé un modèle mesurant la similarité entre ces textures visuelles. Ce modèle computationnel basé sur le traitement cortical du SVH, a ensuite été utilisé afin d’améliorer la boucle de codage de HEVC : en identifiant des classes de textures visuelles et en faisant correspondre à la distorsion objective standard calculée par le codeur sa valeur dans le domaine perceptuel.
Une autre approche consiste à mettre en place un schéma de pré-analyse avant encodage afin de piloter ensuite efficacement le codage des régions d’intérêt. La modélisation de l’attention visuelle est donc essentielle au niveau de cette analyse.
Nous avons conçu un schéma de pré-analyse basé sur des tubes spatio-temporels. Cet outil réalise la segmentation et le suivi des objets constitués de tubes connexes, et il leur associe une saillance visuelle. L’ensemble de ces informations est exploitée afin d’assurer un codage cohérent des objets en flux H.264/AVC. Exactement nous avons testé l’adaptation de la structure du GOP, et le guidage de la qualité visuelle.
Nous avons aussi développé le premier modèle computationnel de l’attention visuelle 3D s’appliquant à la visualisation d’images stéréoscopiques. Ce modèle combine deux cartes de saillance visuelle : celle 2D et celle de profondeur. Nous avons utilisé ce modèle afin d’améliorer la qualité d’expérience de visualisation de la TV3D, par ajout d’un flou de défocalisation sur la région ayant moins d’intérêt.
Dans la dernière partie de ma présentation, un bilan et des perspectives sont donnés. Nous nous intéressons en particulier au codage des formats vidéo immersifs représentés par des nuages de points 3D. Nos derniers travaux montrent l’intérêt d’une approche basée quantification vectorielle algébrique et arborescente, permettant de structurer graduellement la géométrie de la scène, et cela en fonction d’un critère débit-distorsion.
Index :
ANR Agence Nationale de la Recherche
AVC Advanced video Coding
GOP Group of Pictures
HD Haute Définition
HEVC High Efficiency Video Coding
IPI Image Perception Interaction
IRCCyN Institut de Recherche en Communications et Cybernétique de Nantes, UMR 6597
ITN Initial Training Network
IVC Image & Vidéo Communication
LS2N Laboratoire des Sciences du Numérique de Nantes, UMR 6004
MVC Multiview Video Coding
SVH Système V