Skip to main content
Shaping Europe’s digital future
News article | Publikácia

Prístup verejnosti k európskym jazykovým údajom

Zoznam potenciálnych interných a externých zdrojov jazykových údajov.

©tippapat

Európska únia uznáva hodnotu údajov a podporuje niekoľko iniciatív zameraných na zber a výmenu údajov. Najnovším z týchto projektov je spoločný európsky jazykový dátový priestor (LDS), ktorý bol spustený v januári 2023. 

Spoločný európsky jazykový dátový priestor (LDS)

V súlade s európskou dátovou stratégiou a koncepciou dátových priestorov je cieľom LDS byť funkčnou platformou a trhom na výmenu jazykových údajov a modelov v celej Európskej únii. Prvé výmeny údajov sú naplánované na M24, t. j. december 2024/január 2025. Platforma LDS bude podporovať tieto výmeny, ale sama o sebe nebude obsahovať údaje. 

Ďalšie informácie v jazykovom dátovom priestore.

Ďalej je uvedený zoznam ďalších relevantných iniciatív bez osobitného poradia: 

DGT – prekladová pamäť

DGT-TM je prekladateľská pamäť a obsahuje segmenty z Acquis Communautaire, súboru európskych právnych predpisov, ktoré zahŕňajú všetky zmluvy, nariadenia a smernice prijaté Európskou úniou (EÚ). Tento súbor údajov sa zameriava na paralelné texty v 24 úradných jazykoch EÚ.
Vo formáte TMX zahŕňa približne 2,6 bioslov a zvyšuje sa o 200 miliónov slov ročne.

Ďalšie informácie, podmienky používania a sťahovanie sú k dispozícii v Spoločnom výskumnom centre.

PODIEL ELRC

Tento register je súborom jazykových zdrojov, ktoré vyplynuli zo spolupráce medzi správnymi orgánmi členských štátov a rôznymi projektmi EÚ v rokoch 2015 až 2022. Hlavný dôraz sa kládol na zhromaždenie paralelných (prekladových) korpusov. Celkovo ELRC-SHARE obsahuje približne 6000 súborov údajov rôznych veľkostí a s rôznymi prístupovými politikami.

Úložisko je k dispozícii vregistri ELRC-SHARE.

 

Vysokovýkonné jazykové technológie (HPLT)

Cieľom tohto projektu financovaného v rámci výskumného programu HORIZON je okrem iného zhromaždiť obrovské množstvo jazykových zdrojov vo viac ako 100 rôznych jazykoch a je nástupcom programu Paracrawl, ktorý sa zameriava na zber paralelných údajov na účely prekladu. 

Ďalšie informácie sú k dispozícii na webovom sídle projektu na adrese High Performance Language Technologies and Paracrawl.

OpenWebSearch.EU

Hlavným cieľom tohto výskumného projektu je vytvoriť verejne prístupnú databázu, ktorá bude indexovať webové sídla z celého sveta. Na dosiahnutie tohto cieľa sa v rámci projektu zhromaždí a bude analyzovať obsah existujúcich webových stránok. Toto úsilie o zber údajov by mohlo byť užitočné pri zbere jazykových informácií.

Ďalšie informácie sú k dispozícii na webovom sídle projektu OpenWebSearch.EU.

data.europa.eu

Portál je ústredným prístupovým miestom k európskym otvoreným údajom z medzinárodných portálov, portálov Európskej únie, národných, regionálnych, miestnych a geografických portálov. Konsoliduje bývalý portál otvorených dát EÚ a Európsky dátový portál. V súčasnosti obsahuje viac ako 1,5 milióna súborov údajov európskeho verejného sektora zoskupených podľa 179 katalógov a patriacich do rôznych tematických kategórií. 

Ďalšie informácie a prístup k súborom údajov na adrese data.europa.eu. 

Pre publikácie Európskej únie

Úrad pre vydávanie publikácií Európskej únie je oficiálnym poskytovateľom vydavateľských služieb pre všetky inštitúcie, orgány a agentúry EÚ.
Cellar je jeho spoločným úložiskom údajov a ukladá viacjazyčné publikácie a metaúdaje. Je otvorená pre všetkých občanov EÚ a poskytuje strojovo čitateľné údaje.
Webový archív EÚ od roku 2013 zachováva obsah a dizajn webových stránok inštitúcií, agentúr a orgánov EÚ (inštitúcií EÚ).

Ďalšie informácie na Úrade pre vydávanie publikácií Európskej únie vrátane webového archívu.

Infraštruktúra spoločných jazykových zdrojov a technológií (CLARIN)

CLARIN ERIC (konzorcium pre európsku výskumnú infraštruktúru) je celoeurópska iniciatíva, ktorá umožňuje výskum jazykových zdrojov v oblasti spoločenských a humanitných vied (LR).

Ďalšie informácie nájdete na stránke CLARIN. Takisto máte prístup k jazykovým zdrojom a službám.

Európska jazyková sieť (ELG)

V rámci projektu ELG sa vytvorila jednotná, škálovateľná cloudová platforma ako jednotné kontaktné miesto pre európske odvetvie jazykových technológií a výskumnú komunitu. Katalóg ELG poskytuje prístup k viacerým komerčným a nekomerčným prevádzkovým nástrojom a službám, modelom, lexike, terminológiám alebo gramatikám, ale zahŕňa aj 8000 korporá, pričom sa do určitej miery prekrývajú s predchádzajúcimi iniciatívami.

Ďalšie informácie v ELG a katalógu ELG.

Viac informácií o jazykových technológiách.