Skip to main content
Shaping Europe’s digital future
News article | Väljaanne

Üldsuse juurdepääs Euroopa keeleandmetele

Võimalike sisemiste ja väliste keeleandmete allikate loetelu.

©tippapat

Euroopa Liit tunnistab andmete väärtust ja on toetanud mitmeid algatusi, mis on pühendatud andmete kogumisele ja jagamisele. Kõige hiljutisem neist projektidest on 2023. aasta jaanuaris käivitatud ühine Euroopa keeleandmeruum. 

Ühine Euroopa keeleandmeruum (LDS)

Kooskõlas Euroopa andmestrateegia ja andmeruumide kontseptsiooniga on LDSi eesmärk olla toimiv platvorm ja kauplemiskoht keeleandmete ja -mudelite jagamiseks kogu Euroopa Liidus. Esimene andmevahetus on kavandatud M24-le, st detsembriks 2024/jaanuariks 2025. LDS-platvorm toetab sellist teabevahetust, kuid ei majuta andmeid ise. 

Lisateave keeleandmeruumis.

Järgnevalt on esitatud loetelu muudest asjakohastest algatustest, mis ei ole kindlas järjekorras: 

Tõlkemälu DGT-TM

DGT-TM on tõlkemälu, mis sisaldab ühenduse õigustiku osi, mis hõlmavad kõiki Euroopa Liidu (EL) aluslepinguid, määrusi ja direktiive. See andmekogum keskendub paralleelsetele tekstidele ELi 24 ametlikus keeles.
TMX-vormingus hõlmab see ligikaudu 2,6 Biosõna ja suureneb 200 miljoni sõna võrra aastas.

Lisateavet, kasutustingimusi ja allalaadimist saab Teadusuuringute Ühiskeskusest.

ELRC-OSA

See andmekogu on keeleressursside kogu, mis tulenes liikmesriikide haldusasutuste koostööst ja mitmesugustest ELi projektidest aastatel 2015–2022. Põhitähelepanu pöörati paralleelkorpora (tõlkekorpuse) kogumisele. ELRC-SHARE sisaldab kokku ligikaudu 6000 erineva suurusega ja erineva juurdepääsupoliitikaga andmekogumit.

Andmekogu on kättesaadav ELRC -SHARE andmekogus.

 

Kõrgjõudlusega keeletehnoloogia (HPLT)

Selle teadusprogrammi HORIZON raames rahastatava projekti eesmärk on muu hulgas koguda suuri summasid keeleressursse rohkem kui 100 eri keeles ning see on Paracrawli järeltulija, mis keskendus paralleelsete andmete kogumisele tõlkimise eesmärgil. 

Lisateavet saab projekti veebisaidilt „High Performance Language Technologiesand Paracrawl“ (kõrgjõudlusega keeletehnoloogia ja paracrawl).

OpenWebSearch.EU

Selle uurimisprojekti peamine eesmärk on luua avalik andmebaas, mis indekseerib veebisaite kogu maailmast. Selle saavutamiseks kogutakse projekti raames kokku ja analüüsitakse olemasolevate veebisaitide sisu. See andmete kogumine võib olla kasulik keelega seotud teabe kogumiseks.

Lisateavet saab projekti veebisaidilt OpenWebSearch.EU.

data.europa.eu

Portaal on keskne juurdepääsupunkt rahvusvahelistest, Euroopa Liidu, riiklikest, piirkondlikest, kohalikest ja geoandmete portaalidest pärinevatele Euroopa avatud andmetele. Sellega konsolideeritakse endine ELi avatud andmete portaal ja Euroopa andmeportaal. Praegu sisaldab see rohkem kui 1,5 miljonit Euroopa avaliku sektori andmekogumit, mis on rühmitatud 179 kataloogi ja mis on seotud erinevate aktuaalsete kategooriatega. 

Lisateave ja juurdepääs andmekogumitele aadressil data.europa.eu. 

Liidu Väljaannete Talitus

Euroopa Liidu Väljaannete Talitus pakub ametlikku kirjastusteenuste kõigile ELi institutsioonidele, organitele ja ametitele.
Cellar on tema ühine andmehoidla, mis talletab mitmekeelseid väljaandeid ja metaandmeid. See on avatud kõigile ELi kodanikele ja pakub masinloetavaid andmeid.
ELi veebiarhiiv on alates 2013. aastast säilitanud ELi institutsioonide, ametite ja asutuste (edaspidi „ELi institutsioonid“) veebisaitide sisu ja ülesehitust.

Lisateave Euroopa Liidu Väljaannete Talituses, sealhulgas veebiarhiivis.

Ühine keeleressursside ja -tehnoloogia infrastruktuur (CLARIN)

CLARIN ERIC (Euroopa teadusuuringute infrastruktuuri konsortsium) on üleeuroopaline algatus, mis võimaldab teha keeleressursside alaseid uuringuid sotsiaal- ja humanitaarteaduste valdkonnas.

Lisateave CLARINis . Samuti on teil juurdepääs keeleressurssidele ja -teenustele.

Euroopa keelevõrk (ELG)

ELG projektiga loodi ühtne skaleeritava pilveplatvorm, mis on ühtne kontaktpunkt Euroopa keeletehnoloogia tööstusele ja teadusringkondadele. ELG kataloog pakub juurdepääsu mitmetele kaubanduslikele ja mitteärilistele töövahenditele ja teenustele, mudelitele, lexicale, terminoloogiale või grammatikale, kuid sisaldab ka 8000 korporaati, mis kattuvad mõnevõrra varasemate algatustega.

Lisateave ELGi jaELG kataloogis.

Lisateave keeletehnoloogiate kohta.