Home » Évènement

Soutenance de Elmokhtar Mohamed Moussa

Elmokhtar Mohamed Moussa doctorant au sein de l’équipe IPI, présentera sa thèse intitulée :  » Conversion d’écriture hors-ligne en écriture en-ligne et réseaux de neurones profonds »

Elle aura lieu le 16.01.24 à 14h, bâtiment IRESTE, Polytech

La soutenance sera suivie d’un pot dans la cafétéria de l’équipe IPI, auquel vous êtes toutes et tous convié(e)s.

Jury :

Directeur : Mouchère Harold, Professeur, Nantes Université
Co-encadrant : Lelore Thibault, Docteur, Ingénieur R&D MyScript SAS

Rapporteurs :

  • Likforman Laurence, maître de conférence, Telecom Paris
  • Anquetil Eric, Professeur des universités à INSA de Rennes

Invités :

  • Chatelain Clément, maître de conférences HDR, INSA de Rouen
  • Fischer Andréas, Professeur des universités à HES-SO de Fribourg

Résumé : Cette thèse se focalise sur la conversion d’images statiques d’écriture hors-ligne en signaux temporels d’écriture en-ligne. L’objectif est d’étendre l’approche à réseau de neurone au-delà des images de lettres isolées ainsi que de les généraliser à d’autres types de contenus plus complexes. La thèse explore deux approches neuronales distinctes, la première approche est un réseau de neurones convolutif entièrement convolutif multitâche UNET basé sur la méthode de Zhao et al. 2018. Cette approche a démontré des bons résultats de squelettisation mais en revanche une extraction de trait problématique. En raison des limitations de modélisation temporelle intrinsèque à l’architecture CNN. La deuxième approche s’appuie sur le modèle de squelettisation précédent pour extraire les sous-traits et propose une modélisation au niveau sous-traits avec deux Transformers : un encodeur de sous-trait (SET) et un décodeur pour ordonner les sous-traits (SORT) à l’aide de leur vecteur descripteur ainsi que la prédiction de lever de stylo. Cette approche surpasse l’état de l’art sur les bases de données de mots, phrases et d’équations mathématiques et a permis de surmonter plusieurs limitations relevées dans la littérature. Ces avancées ont permis d’étendre la portée de la conversion d’image d’écriture hors-ligne vers l’écriture en-ligne pour inclure des phrases entières de texte et d’aborder un type de contenu complexe tel que les équations mathématiques.

Mots-clés : écriture manuscrite, CNN, Transformer

Abstract : This thesis focuses on the conversion of static images of offline handwriting into temporal signals of online handwriting. Our goal is to extend neural networks beyond the scale of images of isolated letters and as well to generalize to other complex types of content. The thesis explores two distinct neural network-based approaches, the first approach is a fully convolutional multitask UNet-based network, inspired by the method of Zhao et al. 2018.This approach demonstrated good results for skeletonization but suboptimal stroke extraction. Partly due to the inherent temporal modeling limitations of CNN architecture. The second approach builds on the previous skeletonization model to extract sub-strokes and proposes a sub-stroke level modeling with Transformers, consisting of a sub-stroke embedding transformer (SET) and a sub-stroke ordering transformer (SORT) to order the different sub-strokes as well as pen up predictions. This approach outperformed the state of the art on text lines and mathematical equations databases and addressed several limitations identified in the literature. These advancements have expanded the scope of offline-to-online conversion to include entire text lines and generalize to bidimensional content, such as mathematical equations.

 

Keywords: handwritting, CNN, Transformer

Soutenance de thèse Mathieur RIAND

Mathieu Riand doctorant au sein de l’équipe IPI, présentera sa thèse intitulée :

« Reconnaissance d’actions à partir d’un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé »

Elle aura lieu le 23.06.23 à 10, Amphi 1, bât. IRESTE, Polytech

Lien visio: https://univ-nantes-fr.zoom.us/j/82893449341?pwd=aEM0WkZrUmplaTZVZGQwYVZ2TEVVQT09

Meeting ID: 828 9344 9341

Passcode: 144969

La soutenance sera suivie d’un moment de convivialité, auquel vous êtes toutes et tous convié(e)s.

Jury :

  • Directeur de thèse : Patrick LE CALLET, professeur des universités, Nantes Université, LS2N
  • Co-encadrant : Laurent DOLLE, ingénieur chercheur, CEA Tech Pays de la Loire
  • Rapporteurs :
    • Alexandre BENOÎT, professeur des universités, Université Savoie Mont Blanc, LISTIC
    • Kévin BAILLY, maître de conférences, Sorbonne Université, ISIR
  • Examinateurs :
    • Alice CAPLIER, professeure des universités, Grenoble INP, GIPSA-lab
    • Benoît FURET, professeur des universités, Nantes Université, LS2N

Résumé :

L’apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d’apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simplifier ce processus est de séparer les tâches en actions simples que le robot pourra apprendre indépendamment. Dans cette thèse, nous proposons donc d’extraire les actions élémentaires effectuées par des humains dans des vidéos ; pour cela, nous représentons les scènes sous la forme de graphes symboliques dans lesquels chaque nœud est un objet de la démonstration, et nous les classifions grâce à un GNN (Graph Neural Network). Nous explorons plusieurs stratégies de conception des graphes et montrons qu’il est possible d’améliorer la qualité de la reconnaissance d’actions en choisissant la bonne représentation. Puisque les démonstrations sont rarement annotées, nous proposons également des techniques d’apprentissage auto-supervisé appliquées aux graphes permettant de faire usage de données non labellisées pour augmenter encore les performances de notre modèle. Enfin, nous enregistrons 760 démonstrations et récoltons l’attention humaine sur une partie de ces vidéos afin de la comparer à l’attention de notre GNN.

Mots-clés : Reconnaissance d’actions, graphes de scène, GNN, apprentissage auto-supervisé, attention humaine

 

 

 

Soutenance de thèse de Yassine EL MANYARI

Yassine EL MANYAR, doctorant dans sein de l’équipe IPI, soutiendra sa thèse intitulée :

« Une approche modulaire pour l’apprentissage par imitation générique à l’aide d’une représentation spatio-temporelle des démonstrations basée sur les graphes : Application à l’apprentissage robotique »   /

« A Modular Framework for Generic Imitation Learning using Graph-based Spatio-Temporal Representation of Demonstrations: Application to Robotic Learning »

le 22/06/2023 à 10h00, à Polytech Nantes, Amphi 1 IRESTE

Lien streaming:

Join Zoom Meeting https://univ-nantes-fr.zoom.us/j/83252903601?pwd=V3VqdU1iUWIxV21CT2hMYkluZ1lmUT09 Meeting ID: 832 5290 3601 Passcode: 652314

 

Jury :
– Directeur de thèse : Patrick Le Callet
– Co-encadrant : Laurent Dollé (Ingénieur Chercheur – CEA)
– Rapporteurs : Olivier Buffet (Chargé de recherche – Inria Nancy Grand-Est) ; Alain Dutech (Chargé de recherche – Inria Nancy Grand-Est)
– Autres membres : Mehdi Khamassi (Directeur de recherche – CNRS) ; Sylvain Lamprier (Professeur des Universités – Université d’Angers) ; Silvia Rossi (Associate professor – University of Naples « Federico II ») ; David Filliat (Professeur ENSTA – ENSTA Paris)

 

Résumé : L’apprentissage par renforcement et l’apprentissage par imitation permettent aux robots d’apprendre à effectuer des tâches de manière autonome, sans avoir besoin d’instructions explicites. Cette thèse examine les deux méthodes et les intègre dans un cadre modulaire et générique pour résoudre le problème d’apprentissage par imitation à partir d’observations. L’approche est mise en œuvre en deux étapes, en commençant par apprendre un modèle de représentation qui capture les caractéristiques spatiales et temporelles des démonstrations observées, suivi de l’application d’un algorithme RL prêt à l’emploi avec une fonction de récompense générique pour apprendre la politique d’imitation. Les résultats expérimentaux indiquent que la méthode proposée surpasse les méthodes de pointe et présente des capacités de généralisation prometteuses pour une gamme de tâches de manipulation, dépassant les méthodes génératives dans la plupart des cas.

Mots-clés : Apprentissage par Imitation, Imitation par Observation, Apprentissage par Renforcement, Réseaux Neuronaux Graphiques, Modélisation Séquentielle

—–

Abstract: Reinforcement Learning and Imitation Learning allow robots to learn how to perform tasks independently, without the need for explicit instructions. This thesis examines both methods and integrates them into a modular and generic framework for solving the imitation learning from observation problem. The approach is implemented in two stages, beginning with learning a representation model that captures the spatial and temporal features of observed demonstrations, followed by applying an off-the-shelf RL algorithm with a task-agnostic reward function to learn the imitation policy. Experimental results indicate that the proposed method outperforms state-of-the-art methods and exhibits promising generalisation capabilities across a range of manipulation tasks, surpassing generative methods in most instances.

Keywords: Imitation Learning, Imitation from Observation, Reinforcement Learning, Graph Neural Networks, Sequential modelling

Soutenance de thèse de Gaëlle Jouis

Gaëlle Jouis, doctorante au sein des équipes DUKE et IPI, soutiendra sa thèse intitulée  » Explicabilité des modèles profonds et méthodologie pour son évaluation : application aux données textuelles de Pôle emploi » / «  Explainability of deep models and methodology for its evaluation: application to textual data from Pôle emploi »

Le 14 février à 14h, amphi 1, bâtiment Ireste à Polytech.

Résumé:

L’intelligence Artificielle fait partie de notre quotidien. Les modèles développés sont de plus en plus complexes. Les régulations telles que la Loi Pour une République Numérique orientent les développements logiciels vers plus d’éthique et d’explicabilité. Comprendre le fonctionnement des modèles profonds a un intérêt technique et humain. Les solution proposées par la communauté sont nombreuses, et il n’y a pas de méthode miracle répondant à toutes les problématiques.

Nous abordons la question suivante : comment intégrer l’explicabilité dans un projet d’IA basé sur des techniques d’apprentissage profond?

Après un état de l’art présentant la richesse de la littérature du domaine, nous présentons le contexte et les prérequis de nos travaux. Ensuite nous présentons un protocole d’évaluation d’explications locales et une méthodologie modulaire de caractérisation globale du modèle. Enfin, nous montrons que nos travaux sont intégrés à leur environnement industriel. Ces travaux résultent en l’obtention d’outils concrets permettant au lecteur d’appréhender la richesse des outils d’explicabilité à sa disposition

Abstract:

Artificial intelligence is part of our daily life. The models developed are more and more complex. Regulations such as the French Law for a Digital Republic (Loi Pour une République Numérique) are directing software development towards more ethics and explainability. Understanding the functioning of deep models is of technical and human interest. The solutions proposed by the community are numerous, and there is no miracle method that answers all the problems. We address the following question: how to integrate explainability in an AI project based on deep learning techniques?

After a state of the art presenting the richness of the literature in the field, we present the context and rerequisites for our work. Then we present a protocol for evaluating local explanations and a modular methodology for global model characterization. Finally, we show that our work is integrated into its industrial environment. This work results in concrete tools allowing the reader to apprehend the richness of the explicability tools at their disposal.

 

Soutenance de thèse de Ali AK (équipe IPI)

Ali Ak, doctorant au sein de l’équipe IPI, soutiendra sa thèse intitulée « Évaluation de la qualité perceptuelle de contenus multimédias immersifs : HDR, champs lumineux et vidéos volumétriques » / « Perceptual quality evaluation of immersive multimedia content: HDR, Light Field and Volumetric Video »

lundi 24 janvier 2022 à

Jury :
– Directeur de thèse : Patrick LE CALLET – Professeur, Université de Nantes
– Rapporteurs : Maria MARTINI – Professeure, Kingston University ; Aladine CHETOUANI – Maître de conférence, HDR, Université d’Orléans
– Autres membres : Søren FORCHAMMER – Professeur, Technical University of Denmark; Frédéric DUFAUX -Directeur de Recherche CNRS, Paris Saclay ; Federica BATTISTI -Ass. Professeure, University of Padova

Résumé : Des formats multimédias immersifs ont émergé comme un puissant canevas dans de nombreuses disciplines pour offrir une expérience utilisateur hyperréaliste. Ils peuvent prendre de nombreuses formes, telles que des images HDR, des champs lumineux, des nuages de points et des vidéos volumétriques. L’objectif de cette thèse est de proposer de nouvelles méthodologies pour l’évaluation de la qualité de tels contenus. La première partie de la thèse porte sur l’évaluation subjective de la qualité d’image. Plus précisément, nous proposons une stratégie de sélection de contenu et d’observateurs, ainsi qu’une analyse approfondie de la fiabilité des plate-formes de crowdsourcing pour collecter des données subjectives à grande échelle. Nos résultats montrent une amélioration de la fiabilité des annotations subjectives collectées et répondent aux exigences liées en crowdsourcing à la reproduction d’expériences menés en laboratoire. La deuxième partie contribue à l’évaluation objective de la qualité avec une métrique de qualité d’image basée sur l’apprentissage automatique utilisant les informations de seuil de discrimination, et une métrique de qualité d’image pour les champs lumineux sans référence basée sur des représentations d’images planes épipolaires. Enfin, nous étudions l’impact des méthodologies d’agrégation temporel sur les performances des métriques de qualité objective pour les vidéos volumétriques. Dans l’ensemble, nous démontrons comment nos résultats peuvent être utilisés pour améliorer l’optimisation des outils de traitement pour les contenus multi-médias immersifs.

Mots-clés : Évaluation de la qualité, médias immersifs, mappage ton local, champs lumineux, vidéo volumétrique

—————————————————————————————————————————————————————————————————————————————————————-
Abstract: Immersive multimedia formats emerged as a powerful canvas in numerous disciplines for delivering hyper-realistic user experience. They can take many forms, such as HDR images, Light Fields, Point Clouds,and Volumetric Videos. The goal of this thesis is to propose novel methodologies for the quality assessment of such multimedia content. The first part of the thesis focuses on subjective image quality assessment. More specifically, we propose a content selection strategy, observer screening tools, and an extensive analysis on the reliability of crowdsourcing platforms to produce a large-scale dataset. Our findings improve the reliability
of the collected subjective annotations and address issues to transfer laboratory experiments into crowdsourcing. The second part contributes to the objective quality evaluation with a learning-based image quality metric utilizing the just noticeable difference information and a no-reference light field image qualitymetric based on epipolar plane image representations. Finally, we investigate the impact of temporal pooling methodologies in objective quality metric performances for volumetric videos. Overall, we demonstrate how our findings can be used to improve the optimization of processing tools for immersive multimedia content.

Keywords: Quality evaluation, immersive media, tone mapped images, light fields, volumetric video

 

 

Atelier « Réalité virtuelle pour la psychiatrie : données comportementales et expérientielles » dans le cadre du projet projet « DataSanté: médecine personnalisée et données en grand nombre »

Dans le cadre des ateliers interdisciplinaires du projet « DataSanté: médecine personnalisée et données en grand nombre »

https://www.data-sante.fr/presentation/le-programme-datasante/

une présentation sera faite le mercredi 8 décembre, de 14h à 16h,au Centre François Viète (UFR Sciences et Techniques):

Titre: Réalité virtuelle pour la psychiatrie : données comportementales et expérientielles

Interventions de Yannick Prié (LS2N, Université de Nantes), Toinon Vigier (LS2N, Université de Nantes) et Samuel Buteau (INSERM – SPHERE, CHU de Nantes)

https://www.data-sante.fr/event/realite-virtuelle-et-psychiatrie/

Séminaire IPI avec Abdul Rahim Ahmad (Universiti Tenaga Nasional)

L’équipe IPI accueille actuellement Abdul Rahim Ahmad, Associate Professor au College of Computing and Informatics de l’Université Tenaga Nasional en Malaisie.
Ce dernier profitera de son séjour en France pour donner un séminaire ayant pour titre : « Artificial Intelligence Applications in Energy Sector : A case in Tenaga Nasional Berhad or TNB » (équivalent d’EDF en France)
jeudi 9 décembre 2021 de 11h15 à 12h15, à Polytech en salle D118.
Résumé :
Tenaga Nasional Berhad (TNB), is the sole company in the complete generation, transmission, and distribution spectrum of electricity in Malaysia, somewhat similar to « EDF » in France. Universiti Tenaga Nasional (UNITEN) is the private university which is a 100% owned subsidiary of TNB. UNITEN plays a role as one of the research institutions conducting research for TNB, getting a fair share of the funds allocated by TNB for academic research related to power sector. Another institution is the TNB Research (TNBR) which performs contract, targetted and commercial research.  This presentation provides some information about Research in UNITEN and TNBR, focusing on the uptake of the applications of Artificial Intelligence (AI) and related technologies in the Power sector within TNB with the hope that the information sharing may encourage future collaborations between UNITEN and Ecole Polytech Nantes.
NB : Les présentations sont disponibles sur le cloud.

Soutenance de thèse de Mona ABID (équipe IPI)

Mona Abid, doctorante au sein de l’équipe IPI, soutiendra sa thèse intitulée « Utilisation de l’attention visuelle sur les contenus 3D graphiques : De la modélisation à la mesure de la complexité attentionnelle et la prédiction de la préférence de vues » / « Visual attention on 3D graphical contents : From saliency modeling to attention complexity measures and viewpoint preference prediction »
mercredi 15 décembre 2021 à 13h30, dans l’Amphi 1 de l’IRESTE sur le site de Polytech.

Jury :
– Directeur de thèse : Patrick Le Callet – Professeur à l’université de Nantes
– Co-encadrant : Matthieu Perreira Da Silva – Maître de conférences à l’université de Nantes
– Rapporteurs : Giuseppe Valenzise – Chargé de Recherche, CNRS-HDR au L2S, Paris Saclay ; Lucile Sassatelli – Maîtresse de conférences, HDR à l’université Côte d’Azur
– Président : Guillaume Lavoué – Professeur des universités, Ecole Centrale de Lyon – ENISE
– Autres membres : Lina Karam – Professeure, Lebanese American University, Liban ; Giuseppe Valenzise – Chargé de Recherche, CNRS-HDR au L2S
– Invité : Isabelle Milleville – Chargée de Recherche, CNRS au LS2N

Résumé : L’attention visuelle est l’un des mécanismes les plus importants déployés par le système visuel humain pour réduire la quantité d’informations que le cerveau doit traiter. De plus en plus d’efforts ont été consacrés à l’étude de l’attention visuelle sur des images naturelles (image 2D). Cependant, peu de travaux ont été mené sur des contenus 3D, correspondant à des données plus complexes car elles incluent des informations sur la géométrie et les attributs d’apparence.  C’est cette problématique de l’attention visuelle sur les contenus 3D qui a principalement guidé notre démarche pour ces travaux de thèse.  Nos travaux sont principalement divisés en trois parties correspondants à trois niveaux conceptuels différents. La première partie de cette thèse correspond à un concept de bas niveau où nous proposons de prédire ce qui attire l’attention des individus lorsqu’ils observent des objets 3D en étudiant la validité des modèles et des hypothèses faites dans l’imagerie 2D. Ceci est très utile dans certains scénarios tels que le streaming interactif ou la visualisation des contenus 3D dans des applications de réalité virtuelle ou augmentée. La deuxième partie correspond à un concept de niveau intermédiaire où nous introduisons une mesure perceptuelle de la complexité de l’attentionelle qui est extraite à partir de l’information de la saillance. La mesure que nous proposons est utilisée dans l’évaluation de la qualité des contenus 3D ainsi que dans la caractérisation de ces contenus. La troisième partie traite un concept de plus haut niveau lié à la préférence de point de vue des objets graphiques 3D où nous montrons la pertinence d’un indicateur de complexité attentionelle, introduit dans la deuxième partie du manuscrit. Tout au long de la thèse, nous avons construit plusieurs bases de données d’objets 3D colorés et nous avons réalisé une série d’expériences subjectives pour différentes tâches, y compris des expériences de crowdsourcing comme alternatives aux expériences menées au laboratoire.

Mots-clés : Attention visuelle, contenus graphiques 3D, modélisation de la saillance, perception visuelle.

—————————————————————————————————————————————————————————————-
Abstract: Visual attention is one of the most important mechanisms deployed in the human visual system to reduce the amount of information that brain needs to process. In fact, an increasing amount of efforts have been dedicated in the studies of visual attention on natural images (2Dstimuli). However, less attention was made for 3D scenes which corresponds to a more complex data as it including the geometry and the appearance attributes information. In this thesis, we present studies focusing on several aspects of the researchof visual saliency. Our works is mainly divided into three parts including low level concept, mid level concept and higher level concept. The first part of this thesis addresses the low-level concept where we propose to predict where humans look when gazing 3D graphical objects by investigating the validity of the models and the hypothesis made in 2D imaging to 3D contents. This is very useful in certain scenarios such as interactive streaming or visualization of these contents in virtual or augmented reality applications. The second part corresponds to a mid-level concept where we introduce a perceptual measure for visual attention complexity which is pooled from the saliency information. Our proposed measure can be used to boost 3D-based quality assessment metrics and also for 3D content characterization . The third part explores a higher level concept related to view-point preference of 3D graphical objects where we show the relevance of the visual attention complexity feature. Along the thesis, we constructed several databases of colorful graphical 3D objects and we carried out a series of subjective experiments for different tasks, including crowd sourcing experiments as an alternative to in lab experiments.

Keywords: Visual attention, 3D graphical contents, saliency modeling, visual perception, attention complexity prediction, 3D immersive media.

Soutenance de thèse de Madhukar BHAT (équipe IPI)

Madhukar Bhat, doctorant au sein de l’équipe IPI soutiendra sa thèse intitulée « Optimisation perceptuelle et réduction de complexité d’encodage vidéo dans un contexte temps-réel » / « Perceptual optimization and complexity reduction for real-time video encoding »

lundi 7 juin 2021 à 14h en visio.

Lien Zoom : https://univ-nantes-fr.zoom.us/j/95145814230?pwd=anlMRXluUmVDaTd3bnRsOUFQUk14QT09
(Meeting ID: 951 4581 4230 / Passcode: 099949)

Jury :
– Directeur de thèse : Patrick Le Callet
– Rapporteurs : Mathias Wien (Privatdozent, RWTH Aachen, Allemagne), Marco Cagnazzo (Professeur, Telecom Paristech, Paris)
– Autres membres : Jean-Marc Thiesse (Chef de service Algorithmes , VITEC, Chatillon)
– Invitée : Mme Lu ZHANG, Maitre de conférences, INSA Rennes

Résumé : Cette thèse explore l’optimisation perceptuelle et la réduction de la complexité afin d’améliorer les schémas de compression vidéo dans un contexte d’encodage temps réel. Le travail est divisé en trois parties qui abordent plusieurs aspects d’amélioration l’encodage vidéo en temps réel. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre de prétraitement peut être réglé et a été optimisé pour plusieurs conditions de visualisation. Une étude sur la précision de différentes métriques de qualité objective dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d’encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d’évaluer et piloter le gain perceptif à un débit donné, plusieurs métriques de qualité objectives ont ensuite été caractérisées et comparées à plusieurs niveaux de qualité du point de vue de l’incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique de fusion basée sur RF, subjectivement plus précise, a été introduite pour la formation des classificateurs. La dernière partie se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : la décision de partitionnement Multi-Type Tree. Une nouvelle méthode de partitionnement basée Machine Learning est proposée avec un design complet, adaptée à chaque type d’encodeur et particulièrement approprié pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une recherche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées.

Mots-clés : Encodage matériel en temps réel, HEVC, VVC, Filtre de prétraitement perceptuel, Apprentissage automatique, Sélection de résolution adaptative, Partitionnement rapide

——————————————————————————————————————————————————————————————————————-

Abstract: This thesis explores perceptual optimization and complexity reduction towards improving video compression schemes in a real-time encoding context. Different strategies are proposed to address perceptual enhancements and complexity reduction. The work is divided into three main parts that tackle several aspects to improve realtime video encoding. The first contribution introduces a perceptual pre-processing filter based on a model of the Human Visual System. This preprocessing filter can be tuned and has been optimized for multiple viewing conditions. An investigation of objective quality metric’s accuracy in measuring the performance of pre-processing is also reported. The second part of the thesis proposes a machine learning classification-based methodology to adaptively predict and select the best encoding resolution in a single-pass encoding scenario. For this purpose, three different classifiers have been considered: Support Vector Machine, Random Forest (RF), and Multi-Layer Perceptron. Several objective quality metrics have been characterized and benchmarked for various quality ranges concerning the uncertainty of subjective quality ground-truth to evaluate and drive the perceptual gain at a given bitrate.
Also, a new, subjectively more accurate RFbased fusion metric has been introduced for the classifier training. The final part focuses on tackling the most challenging encoding part of the new Versatile Video Coding (VVC) standard: the Multi-Type Tree partitioning decision. A new ML-based partitioning method is proposed with a complete design, suitable for every encoder but even more adapted for real-time hardware encoder. A CNN-based approach was considered, offering classifiers for different coding unit depth, shapes, and picture types. This method is finally evaluated against exhaustive search and demonstrate promising performance which are carefully analyzed.

Keywords: Real-time hardware encoding, HEVC , VVC , Perceptual pre-processing filter, Machine learning, Adaptive resolution selection, Fast parititioning

Copyright : LS2N 2017 - Mentions Légales - 
 -