Home » Liste des logiciels par équipes


Equipe TALN

NomDépôtPropriétéLicenceNbre de
téléchargement
DescriptionLien
PyRATAUNApache V256 "stars" ; 16 "fork"Analyseur à base de règles de contenu structuré.
pkeUNGNU2953 ( 04/2020 )pke is an open source python-based keyphrase extraction toolkit. It provides an end-to-end keyphrase extraction pipeline in which each component can be easily modified or extended to develop new models. pke also allows for easy benchmarking of state-of-the-art keyphrase extraction models, and ships with supervised models trained on theSemEval-2010 dataset.
TermSuiteUNApache V2TermSuite est outil libre sous licence Apache 2 dédié à l’extraction terminologique monolingue et à l’extraction terminologique bilingue à partir de corpus comparables. TermSuite traite les langues : anglais, français, allemand, espagnol, letton, chinois et russe. TermSuite adopte la plate-forme Apache UIMA conçue pour faciliter l’assemblage de composants, leur intégration au sein d’une chaîne de traitement ainsi que le passage à l’échelle. TermSuite effectue les traitements informatiques en 3 phases :
  • Analyses linguistiques : découpage du texte en mots, analyse morphosyntaxique et lemmatisation et conversion au format Multext à l’aide TreeTagger ;
  • Extraction terminologique monolingue : détection d’occurrences de termes simples et complexes, normalisation et regroupement des termes en fonction de leurs variations, filtrage statistique ; listes de termes en format tsv et TBX.
  • Alignement terminologique bilingue : plusieurs types d’alignement par paires de langues sont proposés qui adoptent différentes approches : distributionnelle pour les termes simples, compositionnelle ou mixte pour les termes complexes et les composés savants.
    ubuntu-fr-cmc (corpus)UNCreative Commons By-NC-SA 3.0French corpus of computer-mediated communication) composé de conversations issues de divers canaux (forum, mail, irc).
    HORAE Hours - Recognition, Analysis, Editions (corpus)UNLGPLCorpus de 350 livres d’heures retranscrits.
    KPTimes (corpus)UNApache-2.0

    Keyphrase generation is the task of predict-ing a set of lexical units that conveys the main content of a source text. Existing datasets for keyphrase generation are only readily avail-able for the scholarly domain and include non-expert annotations. In this paper we present KPTimes, a large-scale dataset of news texts paired with editor-curated keyphrases. Exploring the dataset, we show how editors tag documents, and how their annotations differ from those found in existing datasets. We also train and evaluate state-of-the-art neural keyphrase generation models on KPTimesto gain insights on how well they perform on the news domain.

    More informations here https://www.aclweb.org/anthology/W19-8617.pdf

    DEFT2016 - DÉfi Fouille de Textes (corpus)UNCreative Commons By-NC-SA 3.0Notices bibliographiques annotées en mots clés par des indexeurs professionnels dans 4 domaines de spécialités en français.
    DiLAF2013UNCreative Commons CC BY-NC-SA 2.0677 (2013-2019)Le projet DiLAF (Dictionnaires Langues Africaines - Français) est une méthodologie de conversion de dictionnaires éditoriaux en un format XML permettant leur pérennisation et leur partage. Il met à disposition des dictionnaires bilingues de plusieurs langues (bambara, haoussa, kanouri, nouchi, songhai-zarma, tamajaq) - français

    Haut de page


    Copyright : LS2N 2017 - Mentions Légales - 
     -