Skip to main content
Configurar el futuro digital de Europa
News article | Publicación

Acceso del público a los datos lingüísticos europeos

Lista de posibles fuentes de datos lingüísticos internos y externos.

©tippapat

La Unión Europea reconoce el valor de los datos y ha apoyado una serie de iniciativas dedicadas a la recogida y el intercambio de datos. El más reciente de estos proyectos es el «Espacio Común Europeo de Datos Lingüísticos», puesto en marcha en enero de 2023. 

Espacio común europeo de datos lingüísticos (EDL)

En consonancia con la Estrategia Europea de Datos y el concepto de espacios de datos, el objetivo de la EDL es ser una plataforma y un mercado funcionales para el intercambio de datos y modelos lingüísticos en toda la Unión Europea. Los primeros intercambios de datos están previstos para M24, es decir, diciembre de 2024/January 2025. La plataforma LDS apoyará estos intercambios, pero no albergará datos por sí misma. 

Más información en Language Data Space.

A continuación figura una lista de otras iniciativas pertinentes sin orden particular: 

Memoria de traducción de la DGT

La DGT-TM es una memoria de traducción que contiene segmentos del acervo comunitario, el corpus legislativo europeo, que comprende todos los tratados, reglamentos y directivas adoptados por la Unión Europea (UE). Este conjunto de datos se centra en textos paralelos en las 24 lenguas oficiales de la UE.
En formato TMX, abarca alrededor de 2.6 palabras y aumenta en 200 millones de palabras al año.

Puede obtenerse más información, condiciones de uso y descarga en elCentro Común de Investigación.

ELRC-SHARE

Este repositorio es una colección de recursos lingüísticos resultante de la cooperación entre las administraciones de los Estados miembros y diversos proyectos de la UE entre 2015 y 2022. La atención se centró principalmente en la recopilación de empresas paralelas (traducción). En general, el ELRC-SHARE contiene aproximadamente 6 000 conjuntos de datos de diferentes tamaños y con diferentes políticas de acceso.

El repositorio está disponible en el repositorio ELRC-SHARE.

 

Tecnologías lingüísticas de alto rendimiento (HPLT)

Este proyecto, financiado en el marco del programa de investigación HORIZON, tiene por objeto, entre otras cosas, recaudar grandes cantidades de recursos lingüísticos en más de 100 lenguas diferentes, y es el sucesor del Paracrawl, que se centró en la recogida de datos paralelos con fines de traducción. 

Puede obtenerse más información en el sitio web del proyecto en TecnologíasLingüísticas de Alto Rendimiento y Paracrawl.

OpenWebSear.EU

El principal objetivo de este proyecto de investigación es crear una base de datos de acceso público que indexe sitios web de todo el mundo. Para ello, el proyecto recopilará y analizará el contenido de los sitios web existentes. Este esfuerzo de recopilación de datos podría ser útil para recopilar información relacionada con las lenguas.

Puede obtenerse más información en el sitio web del proyecto en OpenWebSear.EU.

data.europa.eu

El portal es un punto central de acceso a los datos abiertos europeos procedentes de portales internacionales, de la Unión Europea, nacionales, regionales, locales y geodatos. Consolida el antiguo Portal de Datos Abiertos de la UE y el Portal Europeo de Datos. Actualmente contiene más de 1.5 millones de conjuntos de datos del sector público europeo agrupados por 179 catálogos y pertenecientes a diferentes categorías temáticas. 

Más información y acceso a los conjuntos de datos en data.europa.eu. 

Oficina de Publicaciones de la Unión Europea

La Oficina de Publicaciones de la Unión Europea es el proveedor oficial de servicios de publicación para todas las instituciones, los organismos y las agencias de la UE.
Cellar es su repositorio común de datos y almacena publicaciones y metadatos multilingües. Está abierto a todos los ciudadanos de la UE y proporciona datos legibles por máquina.
El Archivo Web de la UE ha estado preservando el contenido y el diseño de los sitios web de las instituciones, órganos y organismos de la UE (las instituciones de la UE) desde 2013.

Más información en la Oficina de Publicaciones de la Unión Europea, incluido el archivo web.

Infraestructura Tecnológica y de Recursos Lingüísticos Comunes (CLARIN)

CLARIN ERIC (Consorcio de Infraestructuras de Investigación Europeas) es una iniciativa paneuropea que permite la investigación en ciencias sociales y humanidades sobre recursos lingüísticos (LR).

Más información en CLARIN. También puede acceder a los recursos y servicios lingüísticos.

Red europea de lenguas (ELG)

El proyecto ELG estableció una plataforma en nube única y modulable como ventanilla única para la industria europea de tecnologías del lenguaje y la comunidad investigadora. El catálogo de la ELG ofrece acceso a una serie de herramientas y servicios operativos comerciales y no comerciales, modelos, lexica, terminologías o grammars, pero también incluye 8000 empresas, con cierto solapamiento con las iniciativas anteriores.

Más información en ELG y en el Catálogo deELG.

Más información sobre las tecnologías lingüísticas.