Skip to main content
Shaping Europe’s digital future
News article | Publicatie

Toegang van het publiek tot Europese taalgegevens

Lijst van potentiële interne en externe taalgegevensbronnen.

©tippapat

De Europese Unie erkent de waarde van gegevens en steunt een aantal initiatieven die gericht zijn op het verzamelen en delen van gegevens. De meest recente van deze projecten is de gemeenschappelijke Europese ruimte voor taalgegevens (Common European Language Data Space — LDS), die in januari 2023 van start is gegaan. 

Gemeenschappelijke Europese ruimte voor taalgegevens (Common European Language Data Space — LDS)

In overeenstemming met de Europese datastrategie en het concept van dataruimten is de doelstelling van de LDS een functioneel platform en een functionele marktplaats te zijn voor het delen van taalgegevens en -modellen in de hele Europese Unie. De eerste uitwisseling van gegevens is gepland voor M24, d.w.z. december 2024/January 2025. Het LDS-platform zal deze uitwisselingen ondersteunen, maar zal zelf geen gegevens hosten. 

Nadere informatie in de ruimte voor taalgegevens.

Hieronder volgt een lijst van andere relevante initiatieven in willekeurige volgorde: 

DGT-vertaalgeheugen

DGT-TM is een vertaalgeheugen en bevat segmenten van het Acquis Communautaire, het corpus van Europese wetgeving, dat alle verdragen, verordeningen en richtlijnen van de Europese Unie (EU) omvat. Deze dataset is gericht op parallelle teksten in de 24 officiële talen van de EU.
In TMX-formaat omvat het ongeveer 2.6 Bio-woorden en stijgt het met 200 miljoen woorden per jaar.

Nadere informatie, gebruiksvoorwaarden en downloadvoorwaarden zijn beschikbaar bij het Gemeenschappelijk Centrum voor onderzoek.

ELRC-SHARE

Dit register is een verzameling taalhulpmiddelen die het resultaat is van de samenwerking tussen de overheidsdiensten van de lidstaten en diverse EU-projecten in de periode 2015-2022. De nadruk lag vooral op het verzamelen van parallelle (vertaling) corpora. In totaal bevat ELRC-SHARE ongeveer 6 000 datasets van verschillende omvang en met een verschillend toegangsbeleid.

Het register is beschikbaar in het ELRC-SHARE-register.

 

Hoogperformante taaltechnologieën (HPLT)

Dit project, dat wordt gefinancierd in het kader van het onderzoeksprogramma HORIZON, is onder meer gericht op het verzamelen van grote hoeveelheden taalhulpbronnen in meer dan 100 verschillende talen en is de opvolger van Paracrawl, die zich richtte op het verzamelen van parallelle gegevens voor vertaaldoeleinden. 

Meer informatie is te vinden op de website van het project,High Performance Language Technologies and Paracrawl.

OpenWebSearch.EU

Het hoofddoel van dit onderzoeksproject is het opzetten van een openbaar toegankelijke databank waarin websites van over de hele wereld worden geïndexeerd. Daartoe zal het project de inhoud van bestaande websites verzamelen en analyseren. Deze gegevensverzameling kan nuttig zijn voor het verzamelen van taalgerelateerde informatie.

Meer informatie is te vinden op de website van OpenWebSearch.EU.

data.europa.eu

Het portaal is een centraal toegangspunt tot Europese open data van internationale, Europese, nationale, regionale, lokale en geodataportalen. Het consolideert het voormalige opendataportaal van de EU en het Europees dataportaal. Het bevat momenteel meer dan 1.5 miljoen Europese datasets van de publieke sector, gegroepeerd in 179 catalogi en die tot verschillende actuele categorieën behoren. 

Meer informatie en toegang tot de datasets op data.europa.eu. 

Bureau voor publicaties van de Europese Unie

Het Bureau voor publicaties van de Europese Unie is de officiële aanbieder van publicatiediensten voor alle instellingen, organen en agentschappen van de EU.
De Cellar is zijn gemeenschappelijke gegevensarchief en slaat meertalige publicaties en metagegevens op. Het is toegankelijk voor alle EU-burgers en biedt machineleesbare gegevens.
Het EU-webarchief bewaart sinds 2013 de inhoud en het ontwerp van de websites van de EU-instellingen, -agentschappen en -organen (de EU-instellingen).

Nadere informatie bij het Bureau voor publicaties van de Europese Unie, met inbegrip van het webarchief.

Gemeenschappelijke infrastructuur voor taalhulpbronnen en technologie (CLARIN)

CLARIN ERIC (Consortium voor een Europese onderzoeksinfrastructuur) is een pan-Europees initiatief dat onderzoek op het gebied van sociale en geesteswetenschappen op het gebied van taalhulpbronnen (LR) mogelijk maakt.

Nadere informatie op CLARIN. U heeft ook toegang tot de taalhulpmiddelen en -diensten.

Europees Talenraster (ELG)

In het kader van het ELG-project is één enkel schaalbaar cloudplatform opgericht als één loket voor de Europese taaltechnologie-industrie en de onderzoeksgemeenschap. De ELG-catalogus biedt toegang tot een aantal commerciële en niet-commerciële lopende instrumenten en diensten, modellen, lexica, terminologieën of grammars, maar omvat ook 8000 corpora, met enige overlapping met eerdere initiatieven.

Nadere informatie op ELG en de ELG-catalogus.

Lees meer over taaltechnologieën.