Corpus TREMoLo-Tweets

TREMoLo-Tweets est un vaste corpus de tweets en français annotés en registres de langue familier, courant et soutenu. Le corpus annotécontient 228 505 tweets pour un total de 6 millions de mots. Les annotations ont été produite par un classificateur CamemBERT affiné sur une graine annotée manuellement. Le corpus contient également des descripteurs linguistiques qui peuvent aider à analyser la notion de registres.

TÉLÉCHARGER

Les commentaires sont clos.