Soutenance de Elmokhtar Mohamed Moussa

Name: Soutenance de Elmokhtar Mohamed Moussa
Start: 2024-01-16T14:00:00+01:00
End: 2024-01-16T17:00:00+01:00
Location: Polytech’Nantes

16 janvier @ 14 h 00 min - 17 h 00 min

Elmokhtar Mohamed Moussa doctorant au sein de l’équipe IPI, présentera sa thèse intitulée : » Conversion d’écriture hors-ligne en écriture en-ligne et réseaux de neurones profonds »

Elle aura lieu le 16.01.24 à 14h, bâtiment IRESTE, Polytech

La soutenance sera suivie d’un pot dans la cafétéria de l’équipe IPI, auquel vous êtes toutes et tous convié(e)s.

Jury :

Directeur : Mouchère Harold, Professeur, Nantes Université
Co-encadrant : Lelore Thibault, Docteur, Ingénieur R&D MyScript SAS

Rapporteurs :

Likforman Laurence, maître de conférence, Telecom Paris
Anquetil Eric, Professeur des universités à INSA de Rennes

Invités :

Chatelain Clément, maître de conférences HDR, INSA de Rouen
Fischer Andréas, Professeur des universités à HES-SO de Fribourg

Résumé : Cette thèse se focalise sur la conversion d’images statiques d’écriture hors-ligne en signaux temporels d’écriture en-ligne. L’objectif est d’étendre l’approche à réseau de neurone au-delà des images de lettres isolées ainsi que de les généraliser à d’autres types de contenus plus complexes. La thèse explore deux approches neuronales distinctes, la première approche est un réseau de neurones convolutif entièrement convolutif multitâche UNET basé sur la méthode de Zhao et al. 2018. Cette approche a démontré des bons résultats de squelettisation mais en revanche une extraction de trait problématique. En raison des limitations de modélisation temporelle intrinsèque à l’architecture CNN. La deuxième approche s’appuie sur le modèle de squelettisation précédent pour extraire les sous-traits et propose une modélisation au niveau sous-traits avec deux Transformers : un encodeur de sous-trait (SET) et un décodeur pour ordonner les sous-traits (SORT) à l’aide de leur vecteur descripteur ainsi que la prédiction de lever de stylo. Cette approche surpasse l’état de l’art sur les bases de données de mots, phrases et d’équations mathématiques et a permis de surmonter plusieurs limitations relevées dans la littérature. Ces avancées ont permis d’étendre la portée de la conversion d’image d’écriture hors-ligne vers l’écriture en-ligne pour inclure des phrases entières de texte et d’aborder un type de contenu complexe tel que les équations mathématiques.

Mots-clés : écriture manuscrite, CNN, Transformer

Abstract : This thesis focuses on the conversion of static images of offline handwriting into temporal signals of online handwriting. Our goal is to extend neural networks beyond the scale of images of isolated letters and as well to generalize to other complex types of content. The thesis explores two distinct neural network-based approaches, the first approach is a fully convolutional multitask UNet-based network, inspired by the method of Zhao et al. 2018.This approach demonstrated good results for skeletonization but suboptimal stroke extraction. Partly due to the inherent temporal modeling limitations of CNN architecture. The second approach builds on the previous skeletonization model to extract sub-strokes and proposes a sub-stroke level modeling with Transformers, consisting of a sub-stroke embedding transformer (SET) and a sub-stroke ordering transformer (SORT) to order the different sub-strokes as well as pen up predictions. This approach outperformed the state of the art on text lines and mathematical equations databases and addressed several limitations identified in the literature. These advancements have expanded the scope of offline-to-online conversion to include entire text lines and generalize to bidimensional content, such as mathematical equations.

Keywords: handwritting, CNN, Transformer

Détails

Date :: 16 janvier
Heure :: 14 h 00 min - 17 h 00 min
Organisateur
: LS2N
Évènement Tags:: équipe IPI

Lieu

Polytech’Nantes

Polytech Nantes, Rue Christian Pauc
Nantes, 44306 France + Google Map

Soutenance de Elmokhtar Mohamed Moussa

16 janvier @ 14 h 00 min - 17 h 00 min

Détails

Lieu

Navigation Event

Navigation Event