Home » Liste des logiciels par équipes


Equipe / Team : TALN
Participants : E. Clouet, B. Daille
Licence : Apache 2
Mots clés : Segmentation des mots composés
Résumé : L’outil qui effectue la reconnaissance et la segmentation des composés morphologiques. Il est indépendant de la langue et peut traiter des composés natifs ainsi que des composés néoclassiques. L’outil peut être utiliser en mode "segmentation" avec des paramètres fournis, ou en mode "apprentissage" afin d’établir les paramètres pour une nouvelle langue. Pré-requis : un dictionnaire monolingue, une liste des fréquences des mots issue d’un corpus spécialisé et une liste des règles spécifiques pour une langue donnée. Les règles sont optionnelles et peuvent être éditées par l’utilisateur. Les règles et les paramètres suggérés sont fournis pour le français, l’anglais, l’allemand et le russe. Des échantillons des données sont fournis pour l’allemand et le russe. L’outil est implémenté en JAVA.

Copyright : LS2N 2017 - Mentions Légales - 
 -