Skip to main content
Shaping Europe’s digital future
News article | Julkaisu

Eurooppalaisten kielitietojen julkinen saatavuus

Luettelo mahdollisista sisäisistä ja ulkoisista kielitietolähteistä.

©tippapat

Euroopan unioni tunnustaa tietojen arvon ja on tukenut useita aloitteita tietojen keräämiseksi ja jakamiseksi. Viimeisin näistä hankkeista on tammikuussa 2023 käynnistetty yhteinen eurooppalainen kielidata-avaruus. 

Yhteinen eurooppalainen kielidata-avaruus (LDS)

Eurooppalaisen datastrategian ja data-avaruuden käsitteen mukaisesti LDS:n tavoitteena on olla toimiva alusta ja markkinapaikka kielidatan ja -mallien jakamiselle kaikkialla Euroopan unionissa. Ensimmäinen tietojenvaihto on tarkoitus toteuttaa M24:ssä eli joulukuussa 2024/tammikuussa 2025. LDS-alusta tukee tällaista vaihtoa, mutta se ei toimi itse dataa. 

Lisätietoja kielidata -avaruudessa.

Seuraavassa on luettelo muista asiaankuuluvista aloitteista, jotka eivät ole erityisessä järjestyksessä: 

DGT-käännösmuisti (DGT-TM)

DGT-TM on käännösmuisti, ja se sisältää osia yhteisön säännöstöstä, joka on EU:n lainsäädäntö, johon kuuluvat kaikki Euroopan unionin hyväksymät perussopimukset, asetukset ja direktiivit. Tässä tietokokonaisuudessa keskitytään rinnakkaisiin teksteihin EU:n 24 virallisella kielellä.
TMX-muodossa se sisältää noin 2,6 biosanaa ja kasvaa 200 miljoonalla sanalla vuodessa.

Lisätietoja sekä käyttö- ja latausehtoja on saatavillaYhteisessä tutkimuskeskuksessa.

ELRC:N OSUUS

Tämä tietokanta on kokoelma kieliresursseja, jotka ovat tulosta jäsenvaltioiden hallintojen yhteistyöstä ja EU:n eri hankkeista vuosina 2015–2022. Pääpaino oli rinnakkaisten (käännösten) kokoamisessa. Kaiken kaikkiaan ELRC-SHARE sisältää noin 6000 tietokokonaisuutta, jotka ovat erikokoisia ja joilla on erilaiset käyttötavat.

Tietokanta on saatavilla ELRC-SHARE-rekisterissä.

 

Korkean suorituskyvyn kieliteknologiat (HPLT)

Hanke rahoitetaan HORIZON-tutkimusohjelmasta, ja sen tavoitteena on muun muassa kerätä valtava määrä kieliresursseja yli sadalla eri kielellä, ja se on jatkoa Paracrawl-hankkeelle, jossa keskityttiin rinnakkaisten tietojen keräämiseen kääntämistä varten. 

Lisätietoja on saatavilla hankkeen verkkosivustolta: High Performance Language Technologies and Paracrawl.

OpenWebSearch.EU

Tämän tutkimushankkeen päätavoitteena on luoda julkisesti saatavilla oleva tietokanta, johon indeksoidaan verkkosivustoja eri puolilta maailmaa. Tämän saavuttamiseksi hankkeessa kerätään ja analysoidaan olemassa olevien verkkosivustojen sisältöä. Tästä tiedonkeruusta voisi olla hyötyä kieleen liittyvän tiedon keräämisessä.

Lisätietoja saa hankkeen verkkosivustolta OpenWebSearch.EU.

data.europa.eu

Portaali on keskitetty yhteyspiste kansainvälisistä, Euroopan unionin, kansallisista, alueellisista, paikallisista ja paikkatietoportaaleista peräisin olevaan avoimeen eurooppalaiseen dataan. Siinä konsolidoidaan aiempi EU:n avoimen datan portaali ja Euroopan dataportaali. Se sisältää tällä hetkellä yli 1,5 miljoonaa Euroopan julkisen sektorin data-aineistoa, jotka on ryhmitelty 179 luetteloihin ja jotka liittyvät eri aiheryhmiin. 

Lisätietoja ja pääsy data-aineistoihin osoitteessa data.europa.eu. 

Euroopan unionin julkaisutoimisto

Euroopan unionin julkaisutoimisto tarjoaa virallisia julkaisupalveluja kaikille EU:n toimielimille, elimille ja virastoille.
Cellar on sen yhteinen tietovarasto, johon tallennetaan monikielisiä julkaisuja ja metatietoja. Se on avoin kaikille EU:n kansalaisille, ja se tarjoaa koneellisesti luettavaa dataa.
EU:n www-arkisto on vuodesta 2013 lähtien säilyttänyt EU:n toimielinten, virastojen ja elinten (EU:n toimielinten) verkkosivustojen sisällön ja suunnittelun.

Lisätietoja Euroopan unioninjulkaisutoimistossa, myösInternet- arkistossa.

Yhteinen kieliresurssi- ja teknologiainfrastruktuuri (CLARIN)

CLARIN ERIC (eurooppalainen tutkimusinfrastruktuurikonsortio) on yleiseurooppalainen aloite, joka mahdollistaa yhteiskuntatieteiden ja humanististen tieteiden tutkimuksen kieliresursseista.

Lisätietoja CLARINissa . Voit myös käyttää kieliresursseja ja -palveluja .

Eurooppalainen kieliverkko (ELG)

ELG-hankkeessa perustettiin yksi laajennettava pilvipalvelualusta, joka toimii eurooppalaisen kieliteknologiateollisuuden ja tutkimusyhteisön keskitettynä palvelupisteenä. ELG-luettelo tarjoaa pääsyn useisiin kaupallisiin ja ei-kaupallisiin käyttövälineisiin ja -palveluihin, malleihin, lexicaan, terminologioihin tai kielioppiin, mutta se sisältää myös 8000 korporaa, mikä on jossain määrin päällekkäinen aiempien aloitteiden kanssa.

Lisätietoja ELG:stä jaELG- luettelosta.

Lue lisää kieliteknologiasta.