Skip to main content
Shaping Europe’s digital future
News article | Publikation

Allmänhetens tillgång till europeiska språkdata

Förteckning över potentiella interna och externa källor till språkdata.

©tippapat

Europeiska unionen erkänner värdet av data och har stött ett antal initiativ för att samla in och dela data. Det senaste av dessa projekt är det gemensamma europeiska området för språkdata (LDS), som inleddes i januari 2023. 

Detgemensamma europeiska området för språkindata (LDS)

I linje med den europeiska datastrategin och dataområdeskonceptet är målet för LDS att vara en funktionell plattform och marknadsplats för delning av språkdata och språkmodeller i hela Europeiska unionen. Det första utbytet av uppgifter planeras för M24, dvs. december 2024/January 2025. LDS-plattformen kommer att stödja dessa utbyten, men kommer inte att hysa data i sig. 

Mer information finns på Language Data Space.

Nedan följer en förteckning över andra relevanta initiativ utan särskild ordning: 

DGT-Översättningens minne

DGT-TM är ett översättningsminne och innehåller delar från gemenskapens regelverk, som är den europeiska lagstiftningen och som omfattar alla fördrag, förordningar och direktiv som antagits av Europeiska unionen (EU). Datasetet fokuserar på parallella texter på EU:s 24 officiella språk.
I TMX-format omfattar den cirka 2.6 Bio-ord och ökar med 200 miljoner ord per år.

Ytterligare information, villkor för användning och nedladdning finns hos Gemensamma forskningscentrumet.

ELRC-SHARE

Denna databas är en samling språkresurser som är resultatet av samarbetet mellan medlemsstaternas förvaltningar och olika EU-projekt under perioden 2015–2022. Huvudfokus låg på att samla in parallella (översättnings-) korpora. ELRC-SHARE innehåller totalt cirka 6 000 dataset av olika storlek och med olika åtkomststrategier.

Arkivet finns tillgängligt i ELRC-SHARE-databasen.

 

Högpresterande språkteknik (HPLT)

Detta projekt, som finansieras genom forskningsprogrammet HORIZON, syftar bland annat till att samla in stora mängder språkresurser på mer än 100 olika språk och är efterföljaren till Paracrawl, som fokuserade på insamling av parallella uppgifter för översättningsändamål. 

Mer information finns på projektets webbplatsför högpresterande språkteknik och Paracrawl.

OpenWebSearch.EU

Huvudsyftet med detta forskningsprojekt är att skapa en offentligt tillgänglig databas som indexerar webbplatser från hela världen. För att uppnå detta kommer projektet att samla in och analysera innehållet på befintliga webbplatser. Denna uppgiftsinsamling skulle kunna vara användbar för att samla in språkrelaterad information.

Mer information finns på projektets webbplats på OpenWebSearch.EU.

data.europa.eu

Portalen är en central åtkomstpunkt för öppna europeiska data från internationella, europeiska, nationella, regionala, lokala och geodataportaler. Den konsoliderar EU:s tidigare portal för öppna data och den europeiska dataportalen. Den innehåller för närvarande mer än 1.5 miljoner europeiska datamängder från den offentliga sektorn som är grupperade i 179 kataloger och som hör till olika aktuella kategorier. 

Mer information och tillgång till datamängderna finns på data.europa.eu. 

EU:s publikationsbyrå

Europeiska unionens publikationsbyrå är den officiella leverantören av publiceringstjänster till alla EU:s institutioner, byråer och organ.
Cellar är dess gemensamma datakatalog och lagrar flerspråkiga publikationer och metadata. Den är öppen för alla EU-medborgare och tillhandahåller maskinläsbara uppgifter.
EU:s webbarkiv har bevarat innehållet i och utformningen av webbplatserna för EU:s institutioner, byråer och organ (EU-institutionerna) sedan 2013.

Mer information finns hos Europeiska unionenspublikationsbyrå, bland annat webbarkivet .

Gemensam infrastruktur för språkresurser och språkteknik (Clarin)

Clarin Eric (konsortium för europeisk forskningsinfrastruktur) är ett alleuropeiskt initiativ som möjliggör samhällsvetenskaplig och humanistisk forskning om språkresurser.

Mer information finns på Clarin. Du kan också få tillgång till språkresurser och språktjänster.

Europeiska språknätet (ELG)

Genom ELG-projektet inrättades en enda skalbar molnplattform som en gemensam kontaktpunkt för den europeiska språkteknikindustrin och forskarvärlden. ELG-katalogen ger tillgång till ett antal kommersiella och icke-kommersiella verktyg och tjänster, modeller, lexica, terminologier eller grammars, men omfattar också 8000 korbb, med viss överlappning med tidigare initiativ.

Mer information finns på ELG och i ELG-katalogen.

Läs mer om språkteknik.