Skip to main content
Shaping Europe’s digital future
News article | Offentliggørelse

Offentlig adgang til europæiske sprogdata

Liste over potentielle interne og eksterne sprogdatakilder.

©tippapat

Den Europæiske Union anerkender værdien af data og har støttet en række initiativer, der har til formål at indsamle og dele data. Det seneste af disse projekter er det fælles europæiske sprogdataområde (LDS), der blev lanceret i januar 2023. 

Detfælles europæiske sprogdataområde (LDS)

I overensstemmelse med den europæiske datastrategi og dataområdekonceptet er formålet med LDS at være en funktionel platform og markedsplads for udveksling af sprogdata og -modeller i hele Den Europæiske Union. De første udvekslinger af data er planlagt for M24, dvs. december 2024/January 2025. Platformen vil støtte disse udvekslinger, men vil ikke selv være vært for data. 

Yderligere oplysninger på Sprogdataområdet.

Følgende er en liste over andre relevante initiativer i en bestemt rækkefølge: 

DGT-Oversættelseshukommelse

DGT-TM er en oversættelseshukommelse og indeholder dele fra Fællesskabets regelværk, som omfatter alle de traktater, forordninger og direktiver, der er vedtaget af Den Europæiske Union (EU). Dette datasæt fokuserer på parallelle tekster på de 24 officielle EU-sprog.
I TMX-format omfatter det ca. 2.6 bio ord og stiger med 200 mio. ord om året.

Yderligere oplysninger, betingelser for anvendelse og download findes på Det Fælles Forskningscenter.

ELRC-SHARE

Dette register er en samling af sprogressourcer, der er resultatet af samarbejdet mellem medlemsstaternes forvaltninger og forskellige EU-projekter fra 2015 til 2022. Hovedfokus var på at samle parallelle (oversættelses-) corpora. Samlet set indeholder ELRC-SHARE ca. 6 000 datasæt af forskellig størrelse og med forskellige adgangspolitikker.

Registret er tilgængeligt på ELRC-SHARE-databasen.

 

Højtydende sprogteknologier (HPLT)

Dette projekt, der finansieres under forskningsprogrammet HORIZON, har bl.a. til formål at indsamle enorme mængder af sprogressourcer på mere end 100 forskellige sprog og er efterfølgeren til Paracrawl, som fokuserede på indsamling af parallelle data med henblik på oversættelse. 

Yderligere oplysninger findes på projektets websted underHigh Performance Language Technologies og Paracrawl.

OpenWebSearch.EU

Hovedformålet med dette forskningsprojekt er at oprette en offentligt tilgængelig database, der indekserer websteder fra hele verden. For at opnå dette vil projektet indsamle og analysere indholdet af eksisterende websteder. Denne dataindsamlingsindsats kan være nyttig til indsamling af sprogrelaterede oplysninger.

Yderligere oplysninger findes på projektets websted OpenWebSearch.EU .

data.europa.eu

Portalen er et centralt adgangspunkt til europæiske åbne data fra internationale, europæiske, nationale, regionale og lokale portaler og geodataportaler. Det konsoliderer EU's tidligere portal for åbne data og den europæiske dataportal. Den indeholder i øjeblikket mere end 1.5 millioner datasæt for den europæiske offentlige sektor, der er grupperet af 179 kataloger og vedrører forskellige aktuelle kategorier. 

Yderligere oplysninger og adgang til datasættene på data.europa.eu. 

Den EuropæiskeUnions Publikationskontor

Den Europæiske Unions Publikationskontor er den officielle udbyder af publikationstjenester til alle EU's institutioner, organer og agenturer.
Cellar er sit fælles dataregister og lagrer flersprogede publikationer og metadata. Den er åben for alle EU-borgere og indeholder maskinlæsbare data.
EU's webarkiv har bevaret indholdet og udformningen af webstederne for EU's institutioner, agenturer og organer (EU-institutionerne) siden 2013.

Yderligere oplysninger fås ved henvendelse til Den Europæiske Unions Publikationskontor, herunder webarkivet.

Fælles sprogressourcer og teknologisk infrastruktur (CLARIN)

CLARIN ERIC (konsortium for en europæisk forskningsinfrastruktur) er et paneuropæisk initiativ, der muliggør forskning i sprogressourcer inden for samfundsvidenskab og humaniora (LR).

Yderligere oplysninger findes på CLARIN. Du kan også få adgang til sprogressourcerne og -tjenesterne.

DetEuropæiske Sprognet (ELG)

ELG-projektet etablerede en enkelt skalerbar cloudplatform som en one-stop-shop for den europæiske sprogteknologiindustri og forskningsverdenen. ELG-kataloget giver adgang til en række kommercielle og ikkekommercielle værktøjer og tjenester, modeller, lexica, terminologier eller grammarer, men omfatter også 8000 corpora, hvilket til en vis grad overlapper de tidligere initiativer.

Yderligere oplysninger findes iELG ogELG-kataloget.

Læs mere om sprogteknologier.