Nous recueillons des textes provenant de sources publiques et de clients, supprimons les doublons et le bruit HTML, et normalisons les encodages et les formats. Nous adaptons ensuite le corpus à votre domaine — y compris pour les langues européennes à faibles ressources où nous avons une expertise unique. Le résultat est un dataset de référence qui permet à vos modèles LLM ou NMT de s’entraîner plus rapidement, à moindre coût et avec une meilleure précision. Nos workflows de données sont déjà utilisés dans le projet OpenEuroLLM, où Prompsit est responsable de la collecte et de la préparation de corpus multilingues.
Nos algorithmes alignent avec précision des paires de phrases entre langues — en tenant compte du contexte, du balisage, de la terminologie de domaine et même des divergences structurelles. Le résultat est un corpus parallèle de haute qualité, optimisé pour l’ajustement fin NMT, la cohérence terminologique et l’évaluation fiable. Ce processus est crucial pour l’adaptation aux domaines et particulièrement précieux pour les paires de langues à faibles ressources — l’un des domaines d’expertise historique de Prompsit.
Prompsit Dataset Insights est un outil propriétaire développé par notre équipe pour analyser des corpus textuels. Il évalue des métriques clés telles que le ratio de segments uniques, le volume potentiel de données personnelles (PII), la distribution des étiquettes de domaine, la longueur moyenne et médiane des phrases, ainsi qu’une douzaine d’autres paramètres. Le rapport met en évidence les zones bruyantes, indique quelles parties doivent être nettoyées ou enrichies et vous aide à prioriser les prochaines étapes — économisant temps et budget en préparation de données. Cet outil a déjà prouvé sa fiabilité dans le projet HPLT, où Prompsit a audité des corpus contenant des milliards de segments — et il est prêt à faire de même pour vos données.
Lorsque les données sont rares — en particulier dans des domaines spécialisés ou des langues à faibles ressources — nous enrichissons le corpus avec des segments parallèles synthétiques. Grâce à des combinaisons soigneusement conçues de LLM + NMT, nous générons des traductions et appliquons ensuite des filtres automatiques et basés sur des règles pour ne retenir que celles qui correspondent au style, à la terminologie et à la couverture de domaine requis. Cette méthode permet de faire évoluer rapidement votre dataset sans ajouter de bruit, le rendant adapté à l’entraînement, à l’évaluation ou au benchmarking interne.
Avec l’AI Act de l’UE désormais en vigueur, tous les modèles linguistiques et datasets d’entraînement destinés au marché européen doivent se conformer à des exigences légales strictes — y compris la documentation des sources de données, l’anonymisation des PII et la traçabilité de la curation des datasets. Chez Prompsit, nous mettons en place ces garanties par défaut : chaque dataset est livré avec une traçabilité complète, des métadonnées structurées et des preuves claires de conformité au RGPD et à l’AI Act — afin que votre modèle reste à la fois performant et légalement déployable en Europe.