Corpus comparable multilingue

Corpus comparables, étiquetés et lémmatisés

Cette page recense les 2 corpus comparables étiquetés et lémmatisés issus du projet européen TTC sur 1) l’énergie éolienne et 2) la technologie mobile pour les 7 langues suivantes : français, anglais, allemand, espagnol, russe, letton et chinois.

Le déliverable D-2.5 du projet européen TTC décrit la structure des corpus livrés.

Chaque corpus est fournit sous la forme d’une archive compressée. Pour la décompresser, il suffit d’exécuter la commande suivante :

tar zxvf corpus.tgz

Chaque corpus se structure de la manière suivantes :

un répertoire txt/ avec des fichiers *.txt contenant les textes « nettoyés » du corpus ;
un répertoire xml/ avec des fichiers *.xml contenant les méta-données au format XML DublinCore des fichiers texte du répertoire précédent ;
un répertoire xmi/ avec des fichiers *.xmi contenant le corpus étiquetés et lemmatisés au format XMI avec le système de types UIMA pour TTC TermSuite
un répertoire tsv/ avec des fichiers *.tsv contenant les corpus étiquetés et lemmatisés au format TSV (tabulated-separated values) avec un mot par ligne et 3 colonnes par mot (le mot rencontré, sa catégorie grammaticale et son lemme) .

L’ensemble des corpus comparables sur l’énergie éolienne est disponible avec l’archive wind-energy.tgz.

Le corpus français est disponible avec l’archive fr-wind-energy.tgz
Le corpus anglais est disponible avec l’archive en-wind-energy.tgz
Le corpus allemand est disponible avec l’archive de-wind-energy.tgz
Le corpus espagnol est disponible avec l’archive es-wind-energy.tgz
Le corpus russe est disponible avec l’archive ru-wind-energy.tgz
Le corpus letton est disponible avec l’archive lv-wind-energy.tgz
Le corpus chinois est disponible avec l’archive zh-wind-energy.tgz

L’ensemble des corpus comparables sur la technologie mobile est disponible avec l’archive mobile-technology.tgz.

Le corpus français est disponible avec l’archive fr-mobile-technology.tgz
Le corpus anglais est disponible avec l’archive en-mobile-technology.tgz
Le corpus allemand est disponible avec l’archive de-mobile-technology.tgz
Le corpus espagnol est disponible avec l’archive es-mobile-technology.tgz
Le corpus russe est disponible avec l’archive ru-mobile-technology.tgz
Le corpus letton est disponible avec l’archive lv-mobile-technology.tgz
Le corpus chinois est disponible avec l’archive zh-mobile-technology.tgz

Équipe TALN

Corpus comparable multilingue