Skip to main content
Shaping Europe’s digital future
News article | Kiadvány

Nyilvános hozzáférés az európai nyelvi adatokhoz

A lehetséges belső és külső nyelvi adatforrások listája.

©tippapat

Az Európai Unió elismeri az adatok értékét, és számos, az adatgyűjtésre és -megosztásra irányuló kezdeményezést támogat. E projektek közül a legutóbbi a 2023 januárjában elindított „közös európai nyelvi adattér” (LDS). 

Közös európai nyelvi adattér (LDS)

Az európai adatstratégiával és az adattér koncepciójával összhangban az LDS célja, hogy funkcionális platformként és piactérként szolgáljon a nyelvi adatok és modellek Európai Unión belüli megosztásához. Az első adatcserét az M24-re, azaz 2024. decemberre/2025. januárra tervezik. Az LDS-platform támogatni fogja ezeket az adatcseréket, de magának az adatoknak nem ad otthont. 

További információk a Nyelvi Adattérben.

Az alábbiakban felsoroljuk az egyéb releváns kezdeményezéseket, amelyek nincsenek konkrét sorrendben: 

Fordítási memóriatár

A DGT-TM fordítási memória, amely az Európai Unió (EU) által elfogadott valamennyi szerződést, rendeletet és irányelvet magában foglaló közösségi joganyagból, az Acquis Communautaire-ből, az európai jogszabályokból áll. Ez az adatkészlet az EU 24 hivatalos nyelvén készült párhuzamos szövegekre összpontosít.
TMX formátumban körülbelül 2,6 Bio szót foglal magában, és évente 200 millió szavaval nő.

További információk, használati és letöltési feltételek aKözös Kutatóközpontnál érhetők el.

ELRC-RÉSZVÉNY

Ez az adattár a tagállamok közigazgatásai közötti együttműködésből és a 2015 és 2022 közötti különböző uniós projektekből származó nyelvi segédanyagok gyűjteménye. A középpontban a párhuzamos (fordítási) korpóra összegyűjtése állt. Összességében az ELRC-SHARE körülbelül 6000 különböző méretű és különböző hozzáférési politikával rendelkező adatkészletet tartalmaz.

Az adattár az ELRC -SHARE adattárban érhető el.

 

Nagy teljesítményű nyelvi technológiák (HPLT)

A HORIZON kutatási program keretében finanszírozott projekt célja többek között hatalmas mennyiségű nyelvi forrás gyűjtése több mint 100 különböző nyelven, és a Paracrawl utódja, amely a párhuzamos adatok fordítási célú gyűjtésére összpontosított. 

További információk anagy teljesítményű nyelvitechnológiák és a Paracrawlweboldalain érhetők el.

OpenWebSearch.EU

E kutatási projekt fő célja egy nyilvánosan hozzáférhető adatbázis létrehozása, amely a világ minden tájáról származó weboldalakat indexálja. Ennek elérése érdekében a projekt összegyűjti és elemzi a meglévő weboldalak tartalmát. Ez az adatgyűjtés hasznos lehet a nyelvi információk gyűjtéséhez.

További információk az OpenWebSearch.EU projekt weboldalán találhatók .

data.europa.eu

A portál a nemzetközi, európai uniós, nemzeti, regionális, helyi és geoadat-portálok nyílt hozzáférésű európai adataihoz való hozzáférés központi eleme. Egységes szerkezetbe foglalja a nyílt hozzáférésű adatok korábbi uniós portálját és az európai adatportált. Jelenleg több mint 1,5 millió európai közszektor-adatkészletet tartalmaz 179 katalógussal csoportosítva és különböző tematikus kategóriákhoz kapcsolódóan. 

További információk és az adatkészletekhez való hozzáférés a data.europa.eu oldalon. 

Kiadóhivatal, Európai Unió

Az Európai Unió Kiadóhivatala hivatalos kiadói szolgáltatásokat nyújt minden uniós intézmény, szerv és ügynökség számára.
A Cellar közös adattára, amely többnyelvű kiadványokat és metaadatokat tárol. Minden uniós polgár előtt nyitva áll, és géppel olvasható adatokat biztosít.
Az uniós webarchívum 2013 óta megőrzi az uniós intézmények, ügynökségek és szervek (az uniós intézmények) weboldalainak tartalmát és felépítését.

További információk az Európai UnióKiadóhivatalánál, beleértve a webarchívumot is.

Közös nyelvi erőforrások és technológiai infrastruktúra (CLARIN)

A Clarin ERIC (Európai Kutatási Infrastruktúra-konzorcium) páneurópai kezdeményezés, amely lehetővé teszi a nyelvekkel kapcsolatos társadalom- és bölcsészettudományi kutatást (LR).

További információ aCLARIN-ban. Anyelvi segédanyagokhoz és szolgáltatásokhoz is hozzáférhet.

Európai Nyelvi Hálózat (ELG)

Az ELG projekt egységes, méretezhető felhőplatformot hozott létre, amely egyablakos ügyintézési pontként szolgál az európai nyelvtechnológiai ipar és kutatói közösség számára. Az ELG katalógusa hozzáférést biztosít számos kereskedelmi és nem kereskedelmi üzemeltetési eszközhöz és szolgáltatáshoz, modellhez, lexikához, terminológiához vagy nyelvtanhoz, de 8000 korpórát is tartalmaz, némi átfedésben a korábbi kezdeményezésekkel.

További információk azELG-ben és az ELG-katalógusban.

Tudjon meg többet a nyelvi technológiákról.