Skip to main content
Shaping Europe’s digital future
News article | Leidinys

Visuomenės prieiga prie Europos kalbų duomenų

Galimų vidaus ir išorės kalbos duomenų šaltinių sąrašas.

©tippapat

Europos Sąjunga pripažįsta duomenų vertę ir remia keletą iniciatyvų, skirtų duomenų rinkimui ir dalijimuisi jais. Naujausi iš šių projektų – 2023 m. sausio mėn. pradėta įgyvendinti Bendros Europos kalbų duomenų erdvės iniciatyva. 

Bendra Europos kalbų duomenų erdvė (LDS)

Atsižvelgiant į Europos duomenų strategiją ir duomenų erdvių koncepciją, VPS tikslas – sukurti veikiančią platformą ir rinką, kurioje būtų galima dalytis kalbų duomenimis ir modeliais visoje Europos Sąjungoje. Pirmasis keitimasis duomenimis planuojamas pagal 24 priemonę, t. y. 2024 m. gruodžio mėn.–2025 m. sausio mėn. LDS platforma rems šiuos mainus, tačiau pati duomenų priegloba nebus. 

Daugiau informacijos pateikiama Kalbų duomenų erdvėje.

Toliau pateikiamas kitų susijusių iniciatyvų sąrašas be konkrečios tvarkos: 

Vertimo raštu GD atmintis

DGT-TM yra vertimo atmintis, kurią sudaro acquis bendrijos, Europos teisės aktų, apimančių visas Europos Sąjungos (ES) priimtas sutartis, reglamentus ir direktyvas, segmentai. Šiame duomenų rinkinyje daugiausia dėmesio skiriama lygiagrečiams tekstams 24 oficialiosiomis ES kalbomis.
TMX formatu jį sudaro apie 2,6 Biosakiniai ir 200 mln. žodžių per metus.

Daugiau informacijos, naudojimo ir atsisiuntimo sąlygų galima rasti Jungtiniame tyrimų centre.

ELRC DALIS

Ši saugykla – tai kalbų išteklių rinkinys, sukurtas bendradarbiaujant valstybių narių administracijoms ir įvairiems ES projektams 2015–2022 m. Daugiausia dėmesio buvo skiriama lygiagrečių (vertimų) koporų rinkimui. Apskritai ELRC-SHARE sudaro apie 6000 skirtingo dydžio ir prieigos politikos duomenų rinkinių.

Saugyklą galima rasti ELRC-SHARE saugykloje.

 

Našiosios kalbos technologijos (HPLT)

Šiuo pagal mokslinių tyrimų programą „HORIZON“ finansuojamu projektu, be kita ko, siekiama surinkti didžiulius kalbinių išteklių kiekius daugiau kaip 100 skirtingų kalbų ir yra Paracrawl, kurioje daugiausia dėmesio skirta lygiagrečių duomenų rinkimui vertimo tikslais, tęsinys. 

Daugiau informacijos galima rasti projekto interneto svetainėje „ Naujų kalbų technologijos“ ir „Paracrawl .

OpenWebSearch.EU

Pagrindinis šio mokslinių tyrimų projekto tikslas – sukurti viešai prieinamą duomenų bazę, kurioje būtų indeksuojamos viso pasaulio interneto svetainės. Siekiant šio tikslo, įgyvendinant projektą bus renkamas ir analizuojamas esamų interneto svetainių turinys. Šios duomenų rinkimo pastangos galėtų būti naudingos renkant su kalba susijusią informaciją.

Daugiau informacijos galima rasti projekto interneto svetainėje OpenWebSearch.EU .

Data.europa.eu

Portalas yra pagrindinis prieigos prie Europos atvirųjų duomenų iš tarptautinių, Europos Sąjungos, nacionalinių, regioninių, vietos ir geoduomenų portalų punktas. Juo konsoliduojamas ankstesnis ES atvirųjų duomenų portalas ir Europos duomenų portalas. Šiuo metu joje yra daugiau kaip 1,5 mln. Europos viešojo sektoriaus duomenų rinkinių, sugrupuotų į 179 katalogus ir susijusių su skirtingomis teminėmis kategorijomis. 

Daugiau informacijos ir prieigos prie duomenų rinkinių data.europa.eu. 

Europos Sąjungos leidinių biuras

Europos Sąjungos leidinių biuras yra oficialus leidybos paslaugų teikėjas visoms ES institucijoms, įstaigoms ir agentūroms.
Cellar yra bendra duomenų saugykla, kurioje saugomi daugiakalbiai leidiniai ir metaduomenys. Ji yra atvira visiems ES piliečiams ir teikia kompiuterio skaitomus duomenis.
ES žiniatinklio archyve nuo 2013 m. išsaugomas ES institucijų, agentūrų ir įstaigų (ES institucijų) interneto svetainių turinys ir dizainas.

Daugiau informacijos pateikiama Europos Sąjungosleidinių biure, įskaitant žiniatinklio archyvą.

Bendra kalbų išteklių ir technologijų infrastruktūra (CLARIN)

CLARIN ERIC (Europos mokslinių tyrimų infrastruktūros konsorciumas) yra visos Europos iniciatyva, sudaranti sąlygas atlikti socialinių ir humanitarinių mokslų tyrimus kalbos išteklių srityje.

Daugiau informacijos rasite CLARIN. Taippatgalite naudotis kalbos ištekliais ir paslaugomis.

Europos kalbų tinklas (ELG)

Įgyvendinant ELG projektą sukurta bendra kintamo masto debesijos platforma – vieno langelio sistema, skirta Europos kalbų technologijų pramonei ir mokslinių tyrimų bendruomenei. ELG kataloge suteikiama prieiga prie įvairių komercinių ir nekomercinių valdymo priemonių ir paslaugų, modelių, lexica, terminologijų ar gramatikos, tačiau į jį taip pat įtraukta 8000 corpora, iš dalies sutampančių su ankstesnėmis iniciatyvomis.

Daugiau informacijos pateikiama ELG ir ELG kataloge.

Sužinokite daugiau apie kalbų technologijas.