Skip to main content
Shaping Europe’s digital future
News article | Publicação

Acesso do público aos dados europeus relativos às línguas

Lista de potenciais fontes de dados linguísticos internas e externas.

©tippapat

A União Europeia reconhece o valor dos dados e tem apoiado uma série de iniciativas dedicadas à recolha e partilha de dados. O mais recente destes projetos é o «Espaço Europeu Comum de Dados Linguísticos» (LDS), lançado em janeiro de 2023. 

EspaçoEuropeu Comum de Dados Linguísticos (LDS)

Em consonância com a Estratégia Europeia para os Dados e o conceito de espaços de dados, o objetivo da EDL é ser uma plataforma e um mercado funcionais para a partilha de dados e modelos linguísticos em toda a União Europeia. Os primeiros intercâmbios de dados estão previstos para a M24, ou seja, dezembro de 2024/January de 2025. A plataforma LDS apoiará estes intercâmbios, mas não acolherá dados propriamente ditos. 

Paramais informações, consultaro Espaço de Dados Linguísticos.

Segue-se uma lista de outras iniciativas pertinentes, sem ordem específica: 

Memória da DGT-Tradução

A DGT-TM é uma memória de tradução e contém segmentos do acervo comunitário, o corpo legislativo europeu, que inclui todos os tratados, regulamentos e diretivas adotados pela União Europeia (UE). Este conjunto de dados centra-se em textos paralelos nas 24 línguas oficiais da UE.
No formato TMX, engloba cerca de 2.6 mil palavras e aumenta 200 milhões de palavras por ano.

Mais informações, condições de utilização e descarregamento estão disponíveis no Centro Comum de Investigação.

ELRC-SHARE

Este repositório é uma coleção de recursos linguísticos que resultou da cooperação entre as administrações dos Estados-Membros e vários projetos da UE entre 2015 e 2022. A tónica foi colocada na recolha de corpora paralela (tradução). Globalmente, o ELRC-SHARE contém cerca de 6 000 conjuntos de dados de diferentes dimensões e com diferentes políticas de acesso.

O repositório está disponível no Repositório ELRC-SHARE.

 

Tecnologias Linguísticas de Alto Desempenho (HPLT)

Este projeto, financiado ao abrigo do programa de investigação HORIZON, visa, nomeadamente, recolher grandes quantidades de recursos linguísticos em mais de 100 línguas diferentes e é o sucessor de Paracrawl, que se centrou na recolha de dados paralelos para efeitos de tradução. 

Para mais informações, consultar o sítio Web do projeto em TecnologiasLinguísticas de Alto Desempenho e Paracrawl.

OpenWebSearch.EU

O principal objetivo deste projeto de investigação é criar uma base de dados acessível ao público que indexe sítios Web de todo o mundo. Para o efeito, o projeto reunirá e analisará o conteúdo dos sítios Web existentes. Este esforço de recolha de dados pode ser útil para a recolha de informações relacionadas com a língua.

Para mais informações, consultar o sítio Web do projeto em OpenWebSearch.EU.

data.europa.eu

O portal é um ponto central de acesso a dados abertos europeus provenientes de portais internacionais, da União Europeia, nacionais, regionais, locais e geodados. Consolida o anterior Portal de Dados Abertos da UE e o Portal de Dados Europeu. Contém atualmente mais de 1,5 milhões de conjuntos de dados do setor público europeu, agrupados por 179 catálogos e relativos a diferentes categorias de atualidade. 

Mais informações e acesso aos conjuntos de dados em data.europa.eu. 

Serviço das Publicações da União Europeia

O Serviço das Publicações da União Europeia é o prestador oficial de serviços de edição a todas as instituições, órgãos e agências da UE.
O Cellar é o seu repositório comum de dados e armazena publicações e metadados multilingues. Está aberto a todos os cidadãos da UE e fornece dados legíveis por máquina.
O Arquivo Web da UE tem vindo a preservar o conteúdo e a conceção dos sítios Web das instituições, agências e organismos da UE (as instituições da UE) desde 2013.

Mais informações no Serviço das Publicações da União Europeia, incluindo o arquivo Web.

Infraestrutura Tecnológica e de Recursos Linguísticos Comuns (CLARIN)

O Consórcio CLARIN-ERIC (Consórcio para uma Infraestrutura Europeia de Investigação) é uma iniciativa pan-europeia que permite a investigação em ciências sociais e humanas sobre recursos linguísticos (LR).

Paramais informações, consultar oCLARIN. Também pode aceder aos recursos e serviços linguísticos.

GrelhaEuropeia de Línguas (ELG)

O projeto ELG criou uma plataforma única e modulável para a computação em nuvem como balcão único para a indústria europeia das tecnologias linguísticas e a comunidade de investigação. O catálogo ELG dá acesso a uma série de ferramentas e serviços comerciais e não comerciais de funcionamento, modelos, lexica, terminologias ou gramatis, mas inclui também 8000 corpora, com algumas sobreposições com as iniciativas anteriores.

Mais informações no ELG e no Catálogo doELG.

Saiba mais sobre as tecnologias da linguagem.