Európska únia uznáva hodnotu údajov a podporuje niekoľko iniciatív zameraných na zber a výmenu údajov. Najnovším z týchto projektov je spoločný európsky jazykový dátový priestor (LDS), ktorý bol spustený v januári 2023.
Spoločný európsky jazykový dátový priestor (LDS)
V súlade s európskou dátovou stratégiou a koncepciou dátových priestorov je cieľom LDS byť funkčnou platformou a trhom na výmenu jazykových údajov a modelov v celej Európskej únii. Prvé výmeny údajov sú naplánované na M24, t. j. december 2024/január 2025. Platforma LDS bude podporovať tieto výmeny, ale sama o sebe nebude obsahovať údaje.
Ďalšie informácie v jazykovom dátovom priestore.
Ďalej je uvedený zoznam ďalších relevantných iniciatív bez osobitného poradia:
DGT – prekladová pamäť
DGT-TM je prekladateľská pamäť a obsahuje segmenty z Acquis Communautaire, súboru európskych právnych predpisov, ktoré zahŕňajú všetky zmluvy, nariadenia a smernice prijaté Európskou úniou (EÚ). Tento súbor údajov sa zameriava na paralelné texty v 24 úradných jazykoch EÚ.
Vo formáte TMX zahŕňa približne 2,6 bioslov a zvyšuje sa o 200 miliónov slov ročne.
Ďalšie informácie, podmienky používania a sťahovanie sú k dispozícii v Spoločnom výskumnom centre.
PODIEL ELRC
Tento register je súborom jazykových zdrojov, ktoré vyplynuli zo spolupráce medzi správnymi orgánmi členských štátov a rôznymi projektmi EÚ v rokoch 2015 až 2022. Hlavný dôraz sa kládol na zhromaždenie paralelných (prekladových) korpusov. Celkovo ELRC-SHARE obsahuje približne 6000 súborov údajov rôznych veľkostí a s rôznymi prístupovými politikami.
Úložisko je k dispozícii vregistri ELRC-SHARE.
Vysokovýkonné jazykové technológie (HPLT)
Cieľom tohto projektu financovaného v rámci výskumného programu HORIZON je okrem iného zhromaždiť obrovské množstvo jazykových zdrojov vo viac ako 100 rôznych jazykoch a je nástupcom programu Paracrawl, ktorý sa zameriava na zber paralelných údajov na účely prekladu.
Ďalšie informácie sú k dispozícii na webovom sídle projektu na adrese High Performance Language Technologies and Paracrawl.
OpenWebSearch.EU
Hlavným cieľom tohto výskumného projektu je vytvoriť verejne prístupnú databázu, ktorá bude indexovať webové sídla z celého sveta. Na dosiahnutie tohto cieľa sa v rámci projektu zhromaždí a bude analyzovať obsah existujúcich webových stránok. Toto úsilie o zber údajov by mohlo byť užitočné pri zbere jazykových informácií.
Ďalšie informácie sú k dispozícii na webovom sídle projektu OpenWebSearch.EU.
data.europa.eu
Portál je ústredným prístupovým miestom k európskym otvoreným údajom z medzinárodných portálov, portálov Európskej únie, národných, regionálnych, miestnych a geografických portálov. Konsoliduje bývalý portál otvorených dát EÚ a Európsky dátový portál. V súčasnosti obsahuje viac ako 1,5 milióna súborov údajov európskeho verejného sektora zoskupených podľa 179 katalógov a patriacich do rôznych tematických kategórií.
Ďalšie informácie a prístup k súborom údajov na adrese data.europa.eu.
Pre publikácie Európskej únie
Úrad pre vydávanie publikácií Európskej únie je oficiálnym poskytovateľom vydavateľských služieb pre všetky inštitúcie, orgány a agentúry EÚ.
Cellar je jeho spoločným úložiskom údajov a ukladá viacjazyčné publikácie a metaúdaje. Je otvorená pre všetkých občanov EÚ a poskytuje strojovo čitateľné údaje.
Webový archív EÚ od roku 2013 zachováva obsah a dizajn webových stránok inštitúcií, agentúr a orgánov EÚ (inštitúcií EÚ).
Ďalšie informácie na Úrade pre vydávanie publikácií Európskej únie vrátane webového archívu.
Infraštruktúra spoločných jazykových zdrojov a technológií (CLARIN)
CLARIN ERIC (konzorcium pre európsku výskumnú infraštruktúru) je celoeurópska iniciatíva, ktorá umožňuje výskum jazykových zdrojov v oblasti spoločenských a humanitných vied (LR).
Ďalšie informácie nájdete na stránke CLARIN. Takisto máte prístup k jazykovým zdrojom a službám.
Európska jazyková sieť (ELG)
V rámci projektu ELG sa vytvorila jednotná, škálovateľná cloudová platforma ako jednotné kontaktné miesto pre európske odvetvie jazykových technológií a výskumnú komunitu. Katalóg ELG poskytuje prístup k viacerým komerčným a nekomerčným prevádzkovým nástrojom a službám, modelom, lexike, terminológiám alebo gramatikám, ale zahŕňa aj 8000 korporá, pričom sa do určitej miery prekrývajú s predchádzajúcimi iniciatívami.
Ďalšie informácie v ELG a katalógu ELG.
Viac informácií o jazykových technológiách.