Elmokhtar Mohamed Moussa doctorant au sein de l’équipe IPI, présentera sa thèse intitulée : » Conversion d’écriture hors-ligne en écriture en-ligne et réseaux de neurones profonds »
Elle aura lieu le 16.01.24 à 14h, bâtiment IRESTE, Polytech
La soutenance sera suivie d’un pot dans la cafétéria de l’équipe IPI, auquel vous êtes toutes et tous convié(e)s.
Jury :
Directeur : Mouchère Harold, Professeur, Nantes Université
Co-encadrant : Lelore Thibault, Docteur, Ingénieur R&D MyScript SAS
Rapporteurs :
- Likforman Laurence, maître de conférence, Telecom Paris
- Anquetil Eric, Professeur des universités à INSA de Rennes
Invités :
- Chatelain Clément, maître de conférences HDR, INSA de Rouen
- Fischer Andréas, Professeur des universités à HES-SO de Fribourg
Résumé : Cette thèse se focalise sur la conversion d’images statiques d’écriture hors-ligne en signaux temporels d’écriture en-ligne. L’objectif est d’étendre l’approche à réseau de neurone au-delà des images de lettres isolées ainsi que de les généraliser à d’autres types de contenus plus complexes. La thèse explore deux approches neuronales distinctes, la première approche est un réseau de neurones convolutif entièrement convolutif multitâche UNET basé sur la méthode de Zhao et al. 2018. Cette approche a démontré des bons résultats de squelettisation mais en revanche une extraction de trait problématique. En raison des limitations de modélisation temporelle intrinsèque à l’architecture CNN. La deuxième approche s’appuie sur le modèle de squelettisation précédent pour extraire les sous-traits et propose une modélisation au niveau sous-traits avec deux Transformers : un encodeur de sous-trait (SET) et un décodeur pour ordonner les sous-traits (SORT) à l’aide de leur vecteur descripteur ainsi que la prédiction de lever de stylo. Cette approche surpasse l’état de l’art sur les bases de données de mots, phrases et d’équations mathématiques et a permis de surmonter plusieurs limitations relevées dans la littérature. Ces avancées ont permis d’étendre la portée de la conversion d’image d’écriture hors-ligne vers l’écriture en-ligne pour inclure des phrases entières de texte et d’aborder un type de contenu complexe tel que les équations mathématiques.
Mots-clés : écriture manuscrite, CNN, Transformer
Abstract : This thesis focuses on the conversion of static images of offline handwriting into temporal signals of online handwriting. Our goal is to extend neural networks beyond the scale of images of isolated letters and as well to generalize to other complex types of content. The thesis explores two distinct neural network-based approaches, the first approach is a fully convolutional multitask UNet-based network, inspired by the method of Zhao et al. 2018.This approach demonstrated good results for skeletonization but suboptimal stroke extraction. Partly due to the inherent temporal modeling limitations of CNN architecture. The second approach builds on the previous skeletonization model to extract sub-strokes and proposes a sub-stroke level modeling with Transformers, consisting of a sub-stroke embedding transformer (SET) and a sub-stroke ordering transformer (SORT) to order the different sub-strokes as well as pen up predictions. This approach outperformed the state of the art on text lines and mathematical equations databases and addressed several limitations identified in the literature. These advancements have expanded the scope of offline-to-online conversion to include entire text lines and generalize to bidimensional content, such as mathematical equations.
Keywords: handwritting, CNN, Transformer