Corpus TREMoLo-Web

TREMoLo-Web est un corpus de 825 000 textes récupérés sur le web représentant un total d’environ 750 millions de mots. Les pages web ont été récupérée automatiquement sur la base de requêtes spécifiques aux registres familier et soutenu mais sans contrainte sur la source. Les pages ont été segmentées en segments (textes du corpus) de 5000 caractères maximum. Ces segments ont été annotés de manière semi-automatique dans les registres de langue (familier, courant, soutenu).

Veuillez nous contacter si vous souhaiter obtenir le corpus.