Skip to main content
Shaping Europe’s digital future
News article | Publikacija

Javni pristup europskim jezičnim podacima

Popis mogućih unutarnjih i vanjskih izvora jezičnih podataka.

©tippapat

Europska unija prepoznaje vrijednost podataka i podupire niz inicijativa posvećenih prikupljanju i razmjeni podataka. Najnoviji od tih projekata je „Zajednički europski jezični podatkovni prostor”, pokrenut u siječnju 2023. 

Zajednički europski jezični podatkovni prostor (LDS)

U skladu s europskom podatkovnom strategijom i konceptom podatkovnih prostora cilj je LDS-a biti funkcionalna platforma i tržište za razmjenu jezičnih podataka i modela u cijeloj Europskoj uniji. Prve razmjene podataka planirane su za M24, tj. prosinac 2024./siječanj 2025. Platforma LDS poduprijet će te razmjene, ali neće sama pohranjivati podatke. 

Dodatne informacije dostupne su u jezičnom podatkovnom prostoru.

Slijedi popis drugih relevantnih inicijativa bez posebnog redoslijeda: 

DGT – Prevođenje memorije

DGT-TM je prevoditeljska memorija koja se sastoji od segmenata pravne stečevine, korpusa europskog zakonodavstva, koji obuhvaća sve ugovore, uredbe i direktive koje je donijela Europska unija (EU). Ovaj skup podataka usmjeren je na usporedne tekstove na 24 službena jezika EU-a.
U TMX formatu obuhvaća oko 2,6 bio riječi i povećava se za 200 milijuna riječi godišnje.

Dodatne informacije, uvjeti uporabe i preuzimanja dostupni su u Zajedničkom istraživačkom centru.

ELRC-SHARE

Taj je repozitorij zbirka jezičnih resursa koja je proizašla iz suradnje među upravama država članica i raznim projektima EU-a u razdoblju od 2015. do 2022. Glavni naglasak bio je na okupljanju paralelnih (prijevodnih) korpora. Ukupno gledajući, ELRC-SHARE sadržava približno 6000 skupova podataka različitih veličina s različitim politikama pristupa.

Repozitorij je dostupan u repozitoriju ELRC-SHARE.

 

Jezične tehnologije visokih performansi (HPLT)

Ovaj projekt, financiran u okviru istraživačkog programa HORIZON, usmjeren je, među ostalim, na prikupljanje golemih količina jezičnih resursa na više od 100 različitih jezika te je sljednik Paracrawla, koji je usmjeren na prikupljanje paralelnih podataka za potrebe prevođenja. 

Dodatne informacije dostupne su na internetskim stranicama projekta na stranicama High Performance Language Technologies i Paracrawl.

OpenWebSearch.EU

Glavni je cilj ovog istraživačkog projekta stvaranje javno dostupne baze podataka koja indeksira internetske stranice iz cijelog svijeta. Kako bi se to postiglo, u okviru projekta prikupit će se i analizirati sadržaj postojećih internetskih stranica. To prikupljanje podataka moglo bi biti korisno za prikupljanje informacija povezanih s jezikom.

Dodatne informacije dostupne su na internetskim stranicama projekta OpenWebSearch.EU .

data.europa.eu

Portal je središnja točka pristupa europskim otvorenim podacima s međunarodnih, europskih, nacionalnih, regionalnih, lokalnih i geopodatkovnih portala. Njime se objedinjuju nekadašnji Portal otvorenih podataka EU-a i Europski portal podataka. Trenutačno sadržava više od 1,5 milijuna skupova podataka europskog javnog sektora grupiranih u 179 kataloga koji se odnose na različite tematske kategorije. 

Dodatne informacije i pristup skupovima podataka na stranici data.europa.eu. 

Za publikacije Europske unije

Ured za publikacije Europske unije je službeni pružatelj izdavačkih usluga svim institucijama, tijelima i agencijama EU-a.
Cellar je njegov zajednički repozitorij podataka i pohranjuje višejezične publikacije i metapodatke. Otvorena je svim građanima EU-a i pruža strojno čitljive podatke.
Internetski arhiv EU-a čuva sadržaj i dizajn internetskih stranica institucija, agencija i tijela EU-a (institucija EU-a) od 2013.

Dodatne informacije u Uredu za publikacije Europske unije, uključujućiarhivu internetskih stranica.

Zajednička infrastruktura za jezične resurse i tehnologiju (CLARIN)

CLARIN ERIC (konzorcij europskih istraživačkih infrastruktura) paneuropska je inicijativa koja omogućuje istraživanje jezičnih resursa u području društvenih i humanističkih znanosti (LR).

Više informacija dostupno je na stranici CLARIN. Takođermožete pristupiti jezičnim resursima i uslugama.

Europska jezična mreža (ELG)

Projektom ELG uspostavljena je jedinstvena, prilagodljiva platforma u oblaku kao jedinstvena kontaktna točka za europsku industriju jezične tehnologije i istraživačku zajednicu. Katalog ELG-a pruža pristup nizu komercijalnih i nekomercijalnih operativnih alata i usluga, modela, leksike, terminologije ili gramatike, ali uključuje i 8000 korpora, uz određena preklapanja s prethodnim inicijativama.

Dodatne informacije dostupne su u ELG -u i Katalogu ELG-a.

Saznajte više o jezičnim tehnologijama.