Datasets

Hemos publicado cientos de conjuntos de datos en más de 75 idiomas diferentes, tanto monolingües como paralelos. Procesados y limpiados con herramientas propias o en coautoría, las series de corpus ParaCrawl, Europat, MaCoCu o HPLT forman parte de nuestro catálogo de conjuntos de datos contribuidos.

HPLT: High Performance Language Technologies

prompsit logo

+90 datasets

75 languages

Monolingual and bilingual

MaCoCu: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages

prompsit logo

+30 datasets

17 languages

Monolingual and bilingual

The Europat corpus: A parallel corpus of European patent data

prompsit logo

6 datasets

7 languages

Bilingual

ParaCrawl: Web-scale parallel corpora for the languages of the EU

prompsit logo

+40 datasets

56 languages

Bilingual + Monolingual (English)