Corpus TREMoLo-Tweets

Le corpus TREMoLo-tweets est un large corpus de tweets en français annoté en registres de langue familier, courant et soutenu.

Le corpus annoté en résultant compte 228 505 tweets pour un total de 6 millions de mots.

Les annotations sont produites automatiquement grâce à un classifieur de type CamemBERT adapté sur une graine annotée manuellement.

Le corpus contient également des descripteurs linguistiques qui peuvent aider à analyser la notion de registres.

 

TÉLÉCHARGER

Les commentaires sont clos.