Corpus comparable multilingue
Corpus comparables, étiquetés et lémmatisés
Cette page recense les 2 corpus comparables étiquetés et lémmatisés issus du projet européen TTC sur 1) l’énergie éolienne et 2) la technologie mobile pour les 7 langues suivantes : français, anglais, allemand, espagnol, russe, letton et chinois.
Le déliverable D-2.5 du projet européen TTC décrit la structure des corpus livrés.
Chaque corpus est fournit sous la forme d’une archive compressée. Pour la décompresser, il suffit d’exécuter la commande suivante :
tar zxvf corpus.tgz
Chaque corpus se structure de la manière suivantes :
- un répertoire txt/ avec des fichiers *.txt contenant les textes « nettoyés » du corpus ;
- un répertoire xml/ avec des fichiers *.xml contenant les méta-données au format XML DublinCore des fichiers texte du répertoire précédent ;
- un répertoire xmi/ avec des fichiers *.xmi contenant le corpus étiquetés et lemmatisés au format XMI avec le système de types UIMA pour TTC TermSuite
- un répertoire tsv/ avec des fichiers *.tsv contenant les corpus étiquetés et lemmatisés au format TSV (tabulated-separated values) avec un mot par ligne et 3 colonnes par mot (le mot rencontré, sa catégorie grammaticale et son lemme) .
L’ensemble des corpus comparables sur l’énergie éolienne est disponible avec l’archive wind-energy.tgz.
- Le corpus français est disponible avec l’archive fr-wind-energy.tgz
- Le corpus anglais est disponible avec l’archive en-wind-energy.tgz
- Le corpus allemand est disponible avec l’archive de-wind-energy.tgz
- Le corpus espagnol est disponible avec l’archive es-wind-energy.tgz
- Le corpus russe est disponible avec l’archive ru-wind-energy.tgz
- Le corpus letton est disponible avec l’archive lv-wind-energy.tgz
- Le corpus chinois est disponible avec l’archive zh-wind-energy.tgz
L’ensemble des corpus comparables sur la technologie mobile est disponible avec l’archive mobile-technology.tgz.
- Le corpus français est disponible avec l’archive fr-mobile-technology.tgz
- Le corpus anglais est disponible avec l’archive en-mobile-technology.tgz
- Le corpus allemand est disponible avec l’archive de-mobile-technology.tgz
- Le corpus espagnol est disponible avec l’archive es-mobile-technology.tgz
- Le corpus russe est disponible avec l’archive ru-mobile-technology.tgz
- Le corpus letton est disponible avec l’archive lv-mobile-technology.tgz
- Le corpus chinois est disponible avec l’archive zh-mobile-technology.tgz