Recolhemos texto de fontes públicas e de clientes, removemos duplicados e ruído HTML, e normalizamos codificações e formatos. Depois adaptamos o corpus ao seu domínio — incluindo línguas europeias de poucos recursos onde temos experiência única. O resultado é um dataset de referência que permite aos seus modelos LLM ou NMT treinar mais rápido, mais barato e com maior precisão. Os nossos workflows de dados já estão a ser utilizados no projeto OpenEuroLLM, onde a Prompsit é responsável pela recolha e preparação de corpora multilingues.
Os nossos algoritmos alinham com precisão pares de frases entre línguas — considerando contexto, marcação, terminologia de domínio e até divergências estruturais. O resultado é um corpus paralelo de alta qualidade, otimizado para ajuste fino em NMT, consistência terminológica e avaliação fiável. Este processo é crucial para a adaptação a domínios e especialmente valioso em pares de línguas de poucos recursos — uma das áreas de especialização histórica da Prompsit.
O Prompsit Dataset Insights é uma ferramenta proprietária desenvolvida pela nossa equipa para analisar corpora textuais. Avalia métricas-chave como a proporção de segmentos únicos, o volume de dados pessoais potenciais (PII), a distribuição de etiquetas de domínio, o comprimento médio e mediano das frases, e mais de uma dúzia de outros parâmetros. O relatório destaca áreas ruidosas, mostra quais partes devem ser limpas ou enriquecidas e ajuda-o a priorizar próximos passos — poupando tempo e orçamento na preparação de dados. Esta ferramenta já provou a sua fiabilidade no projeto HPLT, onde a Prompsit auditou corpora com milhares de milhões de segmentos — e está pronta para fazer o mesmo com os seus dados.
Quando os dados são escassos — especialmente em domínios especializados ou línguas de poucos recursos — enriquecemos o corpus com segmentos paralelos sintéticos. Usando combinações cuidadosas de LLM + NMT, geramos traduções e aplicamos depois filtros automáticos e baseados em regras para selecionar apenas aquelas que correspondem ao estilo, terminologia e cobertura de domínio exigidos. Este método permite escalar rapidamente o seu dataset sem adicionar ruído, tornando-o adequado para treino, avaliação ou benchmarking interno.
Com o AI Act da UE já em vigor, todos os modelos linguísticos e datasets de treino destinados ao mercado europeu devem cumprir requisitos legais rigorosos — incluindo documentação das fontes de dados, anonimização de PII e rastreabilidade da curadoria de datasets. Na Prompsit implementamos estas salvaguardas por padrão: cada dataset vem com rastreabilidade completa, metadados estruturados e provas claras de conformidade com o RGPD e o AI Act — garantindo que o seu modelo seja eficaz e legalmente implementável na Europa.