A União Europeia reconhece o valor dos dados e tem apoiado uma série de iniciativas dedicadas à recolha e partilha de dados. O mais recente destes projetos é o «Espaço Europeu Comum de Dados Linguísticos» (LDS), lançado em janeiro de 2023.
EspaçoEuropeu Comum de Dados Linguísticos (LDS)
Em consonância com a Estratégia Europeia para os Dados e o conceito de espaços de dados, o objetivo da EDL é ser uma plataforma e um mercado funcionais para a partilha de dados e modelos linguísticos em toda a União Europeia. Os primeiros intercâmbios de dados estão previstos para a M24, ou seja, dezembro de 2024/January de 2025. A plataforma LDS apoiará estes intercâmbios, mas não acolherá dados propriamente ditos.
Paramais informações, consultaro Espaço de Dados Linguísticos.
Segue-se uma lista de outras iniciativas pertinentes, sem ordem específica:
Memória da DGT-Tradução
A DGT-TM é uma memória de tradução e contém segmentos do acervo comunitário, o corpo legislativo europeu, que inclui todos os tratados, regulamentos e diretivas adotados pela União Europeia (UE). Este conjunto de dados centra-se em textos paralelos nas 24 línguas oficiais da UE.
No formato TMX, engloba cerca de 2.6 mil palavras e aumenta 200 milhões de palavras por ano.
Mais informações, condições de utilização e descarregamento estão disponíveis no Centro Comum de Investigação.
ELRC-SHARE
Este repositório é uma coleção de recursos linguísticos que resultou da cooperação entre as administrações dos Estados-Membros e vários projetos da UE entre 2015 e 2022. A tónica foi colocada na recolha de corpora paralela (tradução). Globalmente, o ELRC-SHARE contém cerca de 6 000 conjuntos de dados de diferentes dimensões e com diferentes políticas de acesso.
O repositório está disponível no Repositório ELRC-SHARE.
Tecnologias Linguísticas de Alto Desempenho (HPLT)
Este projeto, financiado ao abrigo do programa de investigação HORIZON, visa, nomeadamente, recolher grandes quantidades de recursos linguísticos em mais de 100 línguas diferentes e é o sucessor de Paracrawl, que se centrou na recolha de dados paralelos para efeitos de tradução.
Para mais informações, consultar o sítio Web do projeto em TecnologiasLinguísticas de Alto Desempenho e Paracrawl.
OpenWebSearch.EU
O principal objetivo deste projeto de investigação é criar uma base de dados acessível ao público que indexe sítios Web de todo o mundo. Para o efeito, o projeto reunirá e analisará o conteúdo dos sítios Web existentes. Este esforço de recolha de dados pode ser útil para a recolha de informações relacionadas com a língua.
Para mais informações, consultar o sítio Web do projeto em OpenWebSearch.EU.
data.europa.eu
O portal é um ponto central de acesso a dados abertos europeus provenientes de portais internacionais, da União Europeia, nacionais, regionais, locais e geodados. Consolida o anterior Portal de Dados Abertos da UE e o Portal de Dados Europeu. Contém atualmente mais de 1,5 milhões de conjuntos de dados do setor público europeu, agrupados por 179 catálogos e relativos a diferentes categorias de atualidade.
Mais informações e acesso aos conjuntos de dados em data.europa.eu.
Serviço das Publicações da União Europeia
O Serviço das Publicações da União Europeia é o prestador oficial de serviços de edição a todas as instituições, órgãos e agências da UE.
O Cellar é o seu repositório comum de dados e armazena publicações e metadados multilingues. Está aberto a todos os cidadãos da UE e fornece dados legíveis por máquina.
O Arquivo Web da UE tem vindo a preservar o conteúdo e a conceção dos sítios Web das instituições, agências e organismos da UE (as instituições da UE) desde 2013.
Mais informações no Serviço das Publicações da União Europeia, incluindo o arquivo Web.
Infraestrutura Tecnológica e de Recursos Linguísticos Comuns (CLARIN)
O Consórcio CLARIN-ERIC (Consórcio para uma Infraestrutura Europeia de Investigação) é uma iniciativa pan-europeia que permite a investigação em ciências sociais e humanas sobre recursos linguísticos (LR).
Paramais informações, consultar oCLARIN. Também pode aceder aos recursos e serviços linguísticos.
GrelhaEuropeia de Línguas (ELG)
O projeto ELG criou uma plataforma única e modulável para a computação em nuvem como balcão único para a indústria europeia das tecnologias linguísticas e a comunidade de investigação. O catálogo ELG dá acesso a uma série de ferramentas e serviços comerciais e não comerciais de funcionamento, modelos, lexica, terminologias ou gramatis, mas inclui também 8000 corpora, com algumas sobreposições com as iniciativas anteriores.
Mais informações no ELG e no Catálogo doELG.
Saiba mais sobre as tecnologias da linguagem.