Equipe TALN
Nom | Dépôt | Propriété | Licence | Nbre de téléchargement | Description | Lien |
PyRATA | UN | Apache V2 | 56 "stars" ; 16 "fork" | Analyseur à base de règles de contenu structuré. | ||
pke | UN | GNU | 2953 ( 04/2020 ) | pke is an open source python-based keyphrase extraction toolkit. It provides an end-to-end keyphrase extraction pipeline in which each component can be easily modified or extended to develop new models. pke also allows for easy benchmarking of state-of-the-art keyphrase extraction models, and ships with supervised models trained on theSemEval-2010 dataset. | ||
TermSuite | UN | Apache V2 | TermSuite est outil libre sous licence Apache 2 dédié à l’extraction terminologique monolingue et à l’extraction terminologique bilingue à partir de corpus comparables. TermSuite traite les langues : anglais, français, allemand, espagnol, letton, chinois et russe. TermSuite adopte la plate-forme Apache UIMA conçue pour faciliter l’assemblage de composants, leur intégration au sein d’une chaîne de traitement ainsi que le passage à l’échelle.
TermSuite effectue les traitements informatiques en 3 phases :
| |||
ubuntu-fr-cmc (corpus) | UN | Creative Commons By-NC-SA 3.0 | French corpus of computer-mediated communication) composé de conversations issues de divers canaux (forum, mail, irc). | |||
HORAE Hours - Recognition, Analysis, Editions (corpus) | UN | LGPL | Corpus de 350 livres d’heures retranscrits. | |||
KPTimes (corpus) | UN | Apache-2.0 | Keyphrase generation is the task of predict-ing a set of lexical units that conveys the main content of a source text. Existing datasets for keyphrase generation are only readily avail-able for the scholarly domain and include non-expert annotations. In this paper we present KPTimes, a large-scale dataset of news texts paired with editor-curated keyphrases. Exploring the dataset, we show how editors tag documents, and how their annotations differ from those found in existing datasets. We also train and evaluate state-of-the-art neural keyphrase generation models on KPTimesto gain insights on how well they perform on the news domain. More informations here https://www.aclweb.org/anthology/W19-8617.pdf | |||
DEFT2016 - DÉfi Fouille de Textes (corpus) | UN | Creative Commons By-NC-SA 3.0 | Notices bibliographiques annotées en mots clés par des indexeurs professionnels dans 4 domaines de spécialités en français. | |||
DiLAF | 2013 | UN | Creative Commons CC BY-NC-SA 2.0 | 677 (2013-2019) | Le projet DiLAF (Dictionnaires Langues Africaines - Français) est une méthodologie de conversion de dictionnaires éditoriaux en un format XML permettant leur pérennisation et leur partage. Il met à disposition des dictionnaires bilingues de plusieurs langues (bambara, haoussa, kanouri, nouchi, songhai-zarma, tamajaq) - français |