Skip to main content
Bâtir l’avenir numérique de l’Europe
News article | Publication

Accès du public aux données linguistiques européennes

Liste des sources de données linguistiques internes et externes potentielles.

©tippapat

L’Union européenne reconnaît la valeur des données et soutient un certain nombre d’ initiatives consacrées à la collecte et au partage de données. Le plus récent de ces projets est l’ «espace européen commun des données linguistiques» (LDS), lancé en janvier 2023. 

Espace européen commun des données linguistiques (LDS)

Aligné sur la stratégie européenne pour les données et le concept d’espaces de données, l’objectif du SDD est d’être une plateforme fonctionnelle et un marché pour le partage de données et de modèles linguistiques dans l’ensemble de l’Union européenne. Les premiers échanges de données sont prévus pour M24, soit décembre 2024/January 2025. La plateforme LDS soutiendra ces échanges, mais n’hébergera pas elle-même les données. 

Pour ensavoir plus,consultez l’ espace des données linguistiques.

Voici une liste d’autres initiatives pertinentes sans ordre particulier: 

Mémoire DGT-Traduction

La DGT-TM est une mémoire de traduction qui contient des segments de l’acquis communautaire, le corpus législatif européen, comprenant l’ensemble des traités, règlements et directives adoptés par l’Union européenne (UE). Cet ensemble de données se concentre sur des textes parallèles dans les 24 langues officielles de l’UE.
En format TMX, il comprend environ 2.6 bio mots et augmente de 200 millions de mots par an.

Deplus amples informations, les conditions d’utilisation et le téléchargement sont disponibles au Centre commun de recherche.

ELRC-SHARE

Ce répertoire est un ensemble de ressources linguistiques issues de la coopération entre les administrations des États membres et divers projets de l’UE de 2015 à 2022. L’accent a été mis principalement sur la collecte de sociétés parallèles (de traduction). Au total, ELRC-SHARE contient environ 6 000 ensembles de données de différentes tailles et avec des politiques d’accès différentes.

Le répertoire est disponible sur le répertoire ELRC-SHARE.

 

Technologieslinguistiques à haute performance (HPLT)

Ce projet, financé dans le cadre du programme de recherche HORIZON, vise, entre autres, à collecter de grandes quantités de ressources linguistiques dans plus de 100 langues différentes et succède à Paracrawl, qui s’est concentré sur la collecte de données parallèles à des fins de traduction. 

Deplus amples informations sont disponibles sur le site web du projet sur lestechnologiesdulangage haute performance et Paracrawl.

OpenWebSearch.EU

Le principal objectif de ce projet de recherche est de créer une base de données accessible au public qui indexe les sites web du monde entier. Pour y parvenir, le projet rassemblera et analysera le contenu des sites web existants. Cet effort de collecte de données pourrait être utile pour recueillir des informations linguistiques.

Deplus amples informations sont disponibles sur le site web du projet sur OpenWebSearch.EU.

data.europa.eu

Le portail est un point central d’accès aux données ouvertes européennes provenant des portails internationaux, européens, nationaux, régionaux, locaux et géodonnées. Il consolide l’ancien portail des données ouvertes de l’UE et du portail européen des données. Il contient actuellement plus de 1.5 millions d’ensembles de données du secteur public européen regroupés par 179 catalogues et relevant de différentes catégories d’actualité. 

Informations complémentaires et accès aux ensembles de données à l’adresse data.europa.eu. 

Office des publications de l’Union européenne

L’Office des publications de l’Union européenne est le prestataire officiel de services d’édition pour l’ensemble des institutions, organes et agences de l’UE.
Le Cellar est son répertoire commun de données et stocke des publications et métadonnées multilingues. Il est ouvert à tous les citoyens de l’UE et fournit des données lisibles par machine.
Les archives web de l’UE préservent le contenu et la conception des sites web des institutions, agences et organes de l’UE (ci-après les «institutions de l’UE») depuis 2013.

Informations complémentaires à l’ Office des publications de l’Union européenne, y compris les archives web.

Infrastructurecommune des ressources linguistiques et des technologies (CLARIN)

L’ERIC CLARIN (Consortium pour une infrastructure européenne de recherche) est une initiative paneuropéenne qui permet la recherche en sciences sociales et humaines sur les ressources linguistiques (LR).

Pour deplus amples informations, voir CLARIN. Vous pouvez également accéder aux ressources et services linguistiques.

Grille européenne des langues (ELG)

Le projet ELG a mis en place une plateforme en nuage unique et modulable en tant que guichet unique pour l’industrie européenne des technologies linguistiques et la communauté des chercheurs. Le catalogue ELG donne accès à un certain nombre d’outils et de services commerciaux et non commerciaux, de modèles, de lexica, de terminologies ou de grammies, mais comprend également 8000 corpora, avec certains chevauchements avec les initiatives précédentes.

Pour deplus amples informations, voir le catalogue ELG et lecatalogue ELG.

En savoir plus sur les technologies linguistiques.