Evropská unie uznává hodnotu údajů a podporuje řadu iniciativ zaměřených na shromažďování a sdílení údajů. Nejnovějšími z těchto projektů je „Společný evropský prostor pro data jazyků“ (LDS), který byl zahájen v lednu 2023.
Společný evropský jazykový datový prostor (LDS)
V souladu s evropskou strategií pro data a koncepcí datových prostorů je cílem LDS být funkční platformou a trhem pro sdílení jazykových dat a modelů v celé Evropské unii. První výměna údajů je plánována na M24, tj. prosinec 2024/leden 2025. Platforma LDS bude tyto výměny podporovat, ale nebude sama hostovat údaje.
Další informace v jazykovém datovém prostoru.
Níže je uveden seznam dalších relevantních iniciativ bez konkrétního pořadí:
Překladová paměť DGT
DGT-TM je překladová paměť a obsahuje segmenty z Acquis Communautaire, souboru evropských právních předpisů, který zahrnuje všechny smlouvy, nařízení a směrnice přijaté Evropskou unií (EU). Tento soubor údajů se zaměřuje na paralelní texty ve 24 úředních jazycích EU.
Ve formátu TMX zahrnuje přibližně 2,6 bioslovů a zvyšuje se o 200 milionů slov ročně.
Další informace, podmínky použití a stahování jsou k dispozici ve Společném výzkumném středisku.
PODÍL ELRC
Toto úložiště je souborem jazykových zdrojů, které byly výsledkem spolupráce mezi správními orgány členských států a různých projektů EU v letech 2015 až 2022. Hlavní důraz byl kladen na shromažďování paralelních (překladatelských) korporací. Celkově ELRC-SHARE obsahuje přibližně 6000 souborů údajů různých velikostí a s různými politikami přístupu.
Úložiště je k dispozici v úložišti ELRC-SHARE.
Vysoce výkonné jazykové technologie (HPLT)
Cílem tohoto projektu financovaného v rámci výzkumného programu HORIZON je mimo jiné shromáždit obrovské množství jazykových zdrojů ve více než 100 různých jazycích a je nástupcem Paracrawlu, který se zaměřil na sběr paralelních údajů pro účely překladu.
Další informace jsou k dispozici na internetových stránkách projektu„Vysoce výkonné jazykové technologie a Paracrawl“.
OpenWebSearch.EU
Hlavním cílem tohoto výzkumného projektu je vytvořit veřejně přístupnou databázi, která bude indexovat internetové stránky z celého světa. Za tímto účelem bude projekt shromažďovat a analyzovat obsah stávajících internetových stránek. Toto úsilí o shromažďování údajů by mohlo být užitečné pro shromažďování jazykových informací.
Další informace jsou k dispozici na internetových stránkách projektu OpenWebSearch.EU.
data.europa.eu
Portál je ústředním bodem přístupu k evropským otevřeným datům z mezinárodních, unijních, vnitrostátních, regionálních, místních a geodatových portálů. Konsoliduje bývalý portál veřejně přístupných dat EU a Evropský datový portál. V současné době obsahuje více než 1,5 milionu evropských datových souborů veřejného sektoru seskupených do 179 katalogů a vztahujících se k různým aktuálním kategoriím.
Další informace a přístup k souborům údajů na date.europa.eu.
Úřad pro publikace Evropské unie
Úřad pro publikace Evropské unie je oficiálním poskytovatelem vydavatelských služeb všem orgánům, institucím a agenturám EU.
Cellar je svým společným úložištěm údajů a ukládá vícejazyčné publikace a metadata. Je přístupný všem občanům EU a poskytuje strojově čitelná data.
Webový archiv EU zachovává od roku 2013 obsah a podobu internetových stránek orgánů, agentur a institucí EU (dále jen „orgány EU“).
Další informace v Úřadu pro publikace Evropské unie včetně internetového archivu.
Společná infrastruktura jazykových zdrojů a technologií (CLARIN)
Konsorcium CLARIN ERIC (konsorcium evropské výzkumné infrastruktury) je celoevropská iniciativa, která umožňuje výzkum jazykových zdrojů v oblasti společenských a humanitních věd.
Další informace na stránkách CLARIN. Máte rovněž přístup k jazykovým zdrojům a službám.
Evropská jazyková síť (ELG)
V rámci projektu ELG byla zřízena jednotná, rozšiřitelná cloudová platforma jako jednotné kontaktní místo pro evropské odvětví jazykových technologií a výzkumnou komunitu. Katalog ELG poskytuje přístup k řadě komerčních i nekomerčních provozních nástrojů a služeb, modelů, lexiky, terminologie nebo gramatiky, ale zahrnuje také 8000 korporací, přičemž některé se překrývají s předchozími iniciativami.
Další informace na stránkách ELG a katalogu ELG.
Více informací o jazykových technologiích.