Skip to main content
Shaping Europe’s digital future
News article | Publikace

Přístup veřejnosti k evropským jazykovým údajům

Seznam potenciálních interních a externích zdrojů jazykových údajů.

©tippapat

Evropská unie uznává hodnotu údajů a podporuje řadu iniciativ zaměřených na shromažďování a sdílení údajů. Nejnovějšími z těchto projektů je „Společný evropský prostor pro data jazyků“ (LDS), který byl zahájen v lednu 2023. 

Společný evropský jazykový datový prostor (LDS)

V souladu s evropskou strategií pro data a koncepcí datových prostorů je cílem LDS být funkční platformou a trhem pro sdílení jazykových dat a modelů v celé Evropské unii. První výměna údajů je plánována na M24, tj. prosinec 2024/leden 2025. Platforma LDS bude tyto výměny podporovat, ale nebude sama hostovat údaje. 

Další informace v jazykovém datovém prostoru.

Níže je uveden seznam dalších relevantních iniciativ bez konkrétního pořadí: 

Překladová paměť DGT

DGT-TM je překladová paměť a obsahuje segmenty z Acquis Communautaire, souboru evropských právních předpisů, který zahrnuje všechny smlouvy, nařízení a směrnice přijaté Evropskou unií (EU). Tento soubor údajů se zaměřuje na paralelní texty ve 24 úředních jazycích EU.
Ve formátu TMX zahrnuje přibližně 2,6 bioslovů a zvyšuje se o 200 milionů slov ročně.

Další informace, podmínky použití a stahování jsou k dispozici ve Společném výzkumném středisku.

PODÍL ELRC

Toto úložiště je souborem jazykových zdrojů, které byly výsledkem spolupráce mezi správními orgány členských států a různých projektů EU v letech 2015 až 2022. Hlavní důraz byl kladen na shromažďování paralelních (překladatelských) korporací. Celkově ELRC-SHARE obsahuje přibližně 6000 souborů údajů různých velikostí a s různými politikami přístupu.

Úložiště je k dispozici v úložišti ELRC-SHARE.

 

Vysoce výkonné jazykové technologie (HPLT)

Cílem tohoto projektu financovaného v rámci výzkumného programu HORIZON je mimo jiné shromáždit obrovské množství jazykových zdrojů ve více než 100 různých jazycích a je nástupcem Paracrawlu, který se zaměřil na sběr paralelních údajů pro účely překladu. 

Další informace jsou k dispozici na internetových stránkách projektu„Vysoce výkonné jazykové technologie a Paracrawl.

OpenWebSearch.EU

Hlavním cílem tohoto výzkumného projektu je vytvořit veřejně přístupnou databázi, která bude indexovat internetové stránky z celého světa. Za tímto účelem bude projekt shromažďovat a analyzovat obsah stávajících internetových stránek. Toto úsilí o shromažďování údajů by mohlo být užitečné pro shromažďování jazykových informací.

Další informace jsou k dispozici na internetových stránkách projektu OpenWebSearch.EU.

data.europa.eu

Portál je ústředním bodem přístupu k evropským otevřeným datům z mezinárodních, unijních, vnitrostátních, regionálních, místních a geodatových portálů. Konsoliduje bývalý portál veřejně přístupných dat EU a Evropský datový portál. V současné době obsahuje více než 1,5 milionu evropských datových souborů veřejného sektoru seskupených do 179 katalogů a vztahujících se k různým aktuálním kategoriím. 

Další informace a přístup k souborům údajů na date.europa.eu. 

Úřad pro publikace Evropské unie

Úřad pro publikace Evropské unie je oficiálním poskytovatelem vydavatelských služeb všem orgánům, institucím a agenturám EU.
Cellar je svým společným úložištěm údajů a ukládá vícejazyčné publikace a metadata. Je přístupný všem občanům EU a poskytuje strojově čitelná data.
Webový archiv EU zachovává od roku 2013 obsah a podobu internetových stránek orgánů, agentur a institucí EU (dále jen „orgány EU“).

Další informace v Úřadu pro publikace Evropské unie včetně internetového archivu.

Společná infrastruktura jazykových zdrojů a technologií (CLARIN)

Konsorcium CLARIN ERIC (konsorcium evropské výzkumné infrastruktury) je celoevropská iniciativa, která umožňuje výzkum jazykových zdrojů v oblasti společenských a humanitních věd.

Další informace na stránkách CLARIN. Máte rovněž přístup k jazykovým zdrojům a službám.

Evropská jazyková síť (ELG)

V rámci projektu ELG byla zřízena jednotná, rozšiřitelná cloudová platforma jako jednotné kontaktní místo pro evropské odvětví jazykových technologií a výzkumnou komunitu. Katalog ELG poskytuje přístup k řadě komerčních i nekomerčních provozních nástrojů a služeb, modelů, lexiky, terminologie nebo gramatiky, ale zahrnuje také 8000 korporací, přičemž některé se překrývají s předchozími iniciativami.

Další informace na stránkách ELG a katalogu ELG.

Více informací o jazykových technologiích.