Skip to main content
Shaping Europe’s digital future
News article | Publicație

Accesul public la datele lingvistice europene

Lista surselor potențiale de date lingvistice interne și externe.

©tippapat

Uniunea Europeană recunoaște valoarea datelor și sprijină o serie de inițiative dedicate colectării și schimbului de date. Cel mai recent dintre aceste proiecte este „Spațiul european comun al datelor lingvistice” (SDL), lansat în ianuarie 2023. 

Spațiul european comun al datelor lingvistice (LDS)

În conformitate cu Strategia europeană privind datele și cu conceptul de spații de date, obiectivul SDL este de a fi o platformă și o piață funcționale pentru schimbul de date și modele lingvistice în întreaga Uniune Europeană. Primele schimburi de date sunt planificate pentru M24, și anume decembrie 2024/January 2025. Platforma LDS va sprijini aceste schimburi, dar nu va găzdui date în sine. 

Informații suplimentare la spațiul de date lingvistice.

În cele ce urmează este prezentată o listă de alte inițiative relevante, fără o ordine specială: 

Memorie de traducere DGT

DGT-TM este o memorie de traducere și conține segmente din acquis-ul comunitar, corpusul legislativ european, cuprinzând toate tratatele, regulamentele și directivele adoptate de Uniunea Europeană (UE). Acest set de date se axează pe texte paralele în cele 24 de limbi oficiale ale UE.
În format TMX, acesta cuprinde aproximativ 2.6 de cuvinte bio și crește cu 200 milioane de cuvinte pe an.

Informații suplimentare, condiții de utilizare și descărcare sunt disponibile la Centrul Comun de Cercetare.

ELRC-SHARE

Acest registru este o colecție de resurse lingvistice care au rezultat din cooperarea dintre administrațiile statelor membre și diverse proiecte ale UE în perioada 2015-2022. Accentul a fost pus în principal pe colectarea de corpuri paralele (de traducere). În ansamblu, ELRC-SHARE conține aproximativ 6 000 de seturi de date de diferite dimensiuni și cu politici de acces diferite.

Registrul este disponibil în repertoriul ELRC-SHARE.

 

Tehnologiilingvistice de înaltă performanță (HPLT)

Acest proiect, finanțat în cadrul programului de cercetare HORIZON, vizează, printre altele, colectarea unor cantități mari de resurse lingvistice în peste 100 de limbi diferite și este succesorul Paracrawl, care s-a axat pe colectarea de date paralele în scopul traducerii. 

Informații suplimentare sunt disponibile pe site-ul web dedicat tehnologiilor limbajului de înaltă performanță și Paracrawl.

OpenWebSearch.EU

Obiectivul principal al acestui proiect de cercetare este de a crea o bază de date accesibilă publicului, care să indexeze site-uri din întreaga lume. În acest scop, proiectul va colecta și analiza conținutul site-urilor web existente. Acest efort de colectare a datelor ar putea fi util pentru colectarea de informații lingvistice.

Informații suplimentare sunt disponibile pe site-ul proiectului, la adresa OpenWebSearch.EU.

data.europa.eu

Portalul este un punct central de acces la datele europene deschise de pe portalurile internaționale, ale Uniunii Europene, naționale, regionale, locale și geodate. Acesta consolidează fostul portal de date deschise al UE și Portalul european de date. Acesta conține în prezent peste 1.5 milioane de seturi de date din sectorul public european, grupate în 179 cataloage și aparținând unor categorii tematice diferite. 

Informații suplimentare și acces la seturile de date la data.europa.eu. 

Oficiul pentru publicații al Uniunii Europene

Oficiul pentru Publicații al Uniunii Europene este furnizorul oficial de servicii de publicare pentru toate instituțiile, organismele și agențiile UE.
Cellar este depozitul său comun de date și stochează publicații și metadate multilingve. Acesta este deschis tuturor cetățenilor UE și furnizează date care pot fi citite automat.
Arhiva web a UE păstrează conținutul și designul site-urilor instituțiilor, agențiilor și organismelor UE (instituțiile UE) din 2013.

Informații suplimentare la Oficiul pentru Publicații al Uniunii Europene, inclusiv arhiva web.

Infrastructuracomună pentru resurse lingvistice și tehnologie (CLARIN)

CLARIN ERIC (Consorțiul pentru o infrastructură europeană de cercetare) este o inițiativă paneuropeană care permite cercetarea în domeniul științelor sociale și umaniste în domeniul resurselor lingvistice (LR).

Informații suplimentare la CLARIN. Deasemenea,puteți avea acces la resursele și serviciile lingvistice.

Rețeaua lingvistică europeană (ELG)

Proiectul ELG a creat o platformă cloud unică, scalabilă, ca ghișeu unic pentru industria europeană a tehnologiilor lingvistice și comunitatea de cercetare. Catalogul ELG oferă acces la o serie de instrumente și servicii de funcționare comercială și necomercială, modele, lexica, terminologii sau grame, dar include, de asemenea, 8000 de corporații, cu unele suprapuneri cu inițiativele anterioare.

Informații suplimentare în cadrul ELG și al Catalogului ELG.

Aflați mai multe despre tehnologiile lingvistice.