Skip to main content
Shaping Europe’s digital future
News article | Publikācija

Publiska piekļuve Eiropas valodu datiem

Iespējamo iekšējo un ārējo valodas datu avotu saraksts.

©tippapat

Eiropas Savienība atzīst datu vērtību un atbalsta vairākas iniciatīvas, kas veltītas datu vākšanai un apmaiņai. Jaunākais no šiem projektiem ir “Kopējā Eiropas valodu datu telpa” (LDS), kas uzsākta 2023. gada janvārī. 

Vienota Eiropas valodu datu telpa (LDS)

Saskaņā ar Eiropas Datu stratēģiju un datu telpu koncepciju LDS mērķis ir kļūt par funkcionālu platformu un tirgu valodu datu un modeļu kopīgošanai visā Eiropas Savienībā. Pirmā datu apmaiņa ir plānota M24, t. i., 2024. gada decembrī/2025. gada janvārī. LDS platforma atbalstīs šo apmaiņu, bet pati neglabās datus. 

Papildu informācija Valodu datu telpā.

Turpmāk sniegts saraksts ar citām atbilstīgām iniciatīvām, kas nav īpaši sakārtotas: 

Tulkošanas ĢD — Tulkošanas atmiņa

TM ĢD ir tulkošanas atmiņa, un tajā ir Eiropas tiesību aktu kopuma Acquis Communautaire segmenti, kas ietver visus Eiropas Savienības (ES) pieņemtos līgumus, regulas un direktīvas. Šī datu kopa ir vērsta uz paralēliem tekstiem 24 ES oficiālajās valodās.
TMX formātā tas ietver aptuveni 2,6 vārdus “Bio” un palielinās par 200 miljoniem vārdu gadā.

Papildu informācija, izmantošanas un lejupielādes nosacījumi ir pieejami Kopīgajā pētniecības centrā.

ELRC DAĻA

Šis repozitorijs ir valodu resursu kopums, kas izriet no sadarbības starp dalībvalstu administrācijām un dažādiem ES projektiem laikposmā no 2015. līdz 2022. gadam. Galvenā uzmanība tika pievērsta paralēlu (tulkošanas) korpusu vākšanai. Kopumā ELRC-SHARE satur aptuveni 6000 dažāda lieluma datu kopas ar atšķirīgu piekļuves politiku.

Repozitorijs ir pieejams ELRC-SHARE repozitorijā.

 

Augstas veiktspējas valodu tehnoloģijas (HPLT)

Šā projekta, ko finansē no pētniecības programmas “HORIZON”, mērķis cita starpā ir savākt lielus valodu resursus vairāk nekā 100 dažādās valodās, un tas ir turpinājums Paracrawl, kas koncentrējās uz paralēlu datu vākšanu tulkošanas vajadzībām. 

Plašāka informācija ir pieejama projekta tīmekļa vietnē “Augstas veiktspējas valodu tehnoloģijas un Paracrawl.

OpenWebSearch.EU

Šā pētniecības projekta galvenais mērķis ir izveidot publiski pieejamu datubāzi, kas indeksē tīmekļa vietnes no visas pasaules. Lai to panāktu, projektā tiks apkopots un analizēts esošo tīmekļa vietņu saturs. Šie datu vākšanas centieni varētu būt noderīgi, lai apkopotu ar valodu saistītu informāciju.

Plašāka informācija ir pieejama projekta tīmekļa vietnē OpenWebSearch.EU.

data.europa.eu

Portāls ir centrālais piekļuves punkts Eiropas atvērtajiem datiem no starptautiskiem, Eiropas Savienības, valstu, reģionāliem, vietējiem un ģeodatu portāliem. Tas konsolidē bijušo ES Atvērto datu portālu un Eiropas datu portālu. Pašlaik tajā ir vairāk nekā 1,5 miljoni Eiropas publiskā sektora datu kopu, kas sagrupētas 179 katalogos un attiecas uz dažādām aktuālām kategorijām. 

Papildu informācija un piekļuve datu kopām vietnē data.europa.eu. 

Savienības Publikāciju birojs

Eiropas Savienības Publikāciju birojs ir oficiālais izdevējpakalpojumu sniedzējs visām ES iestādēm, struktūrām un aģentūrām.
“Cellar” ir tās kopīgais datu repozitorijs, kas glabā daudzvalodu publikācijas un metadatus. Tā ir pieejama visiem ES iedzīvotājiem un nodrošina mašīnlasāmus datus.
ES tīmekļa arhīvs kopš 2013. gada saglabā ES iestāžu, aģentūru un struktūru (ES iestāžu) tīmekļa vietņu saturu un dizainu.

Papildu informācija Eiropas SavienībasPublikāciju birojā, tostarp tīmekļa arhīvs.

Vienoti valodu resursi un tehnoloģiju infrastruktūra (CLARIN)

CLARIN ERIC (Eiropas pētniecības infrastruktūras konsorcijs) ir Eiropas mēroga iniciatīva, kas ļauj sociālajām un humanitārajām zinātnēm pētīt valodu resursus (LR).

Papildu informācija CLARIN. Jūs varat piekļūt arī valodu resursiem un pakalpojumiem.

Eiropas valodu tīkls (ELG)

Ar ELG projektu tika izveidota vienota, mērogojama mākoņdatošanas platforma kā vienots kontaktpunkts Eiropas valodu tehnoloģiju nozarei un pētniecības kopienai. ELG katalogs nodrošina piekļuvi vairākiem komerciāliem un nekomerciāliem vadošiem rīkiem un pakalpojumiem, modeļiem, lexica, terminoloģijām vai grammariem, bet ietver arī 8000 korporu, kas zināmā mērā pārklājas ar iepriekšējām iniciatīvām.

Papildu informācija ELG un ELG katalogā.

Uzziniet vairāk par valodu tehnoloģijām.