Skip to main content
Plasmare il futuro digitale dell'Europa
News article | Pubblicazione

Accesso del pubblico ai dati linguistici europei

Elenco delle potenziali fonti di dati linguistici interni ed esterni.

©tippapat

L'Unione europea riconosce il valore dei dati e sostiene una serie di iniziative dedicate alla raccolta e alla condivisione dei dati. Il più recente di questi progetti è lo "Spazio comune europeo dei dati linguistici" (Common European Language Data Space — LDS), lanciato nel gennaio 2023. 

Spazio comune europeo dei dati linguistici (LDS)

In linea con la strategia europea per i dati e il concetto di spazi di dati, l'obiettivo dell'LDS è quello di costituire una piattaforma funzionale e un mercato per la condivisione di dati e modelli linguistici in tutta l'Unione europea. I primi scambi di dati sono previsti per M24, ossia dicembre 2024/January 2025. La piattaforma LDS sosterrà tali scambi, ma non ospiterà i dati in sé. 

Ulteriori informazioni pressolo spazio di dati linguistici.

Di seguito è riportato un elenco di altre iniziative pertinenti in ordine particolare: 

Memoria di traduzione della DGT

La DGT-TM è una memoria di traduzione e contiene segmenti dell'acquis communautaire, il corpus legislativo europeo, che comprende tutti i trattati, i regolamenti e le direttive adottati dall'Unione europea (UE). Questa serie di dati si concentra su testi paralleli nelle 24 lingue ufficiali dell'UE.
In formato TMX, comprende circa 2.6 parole bianche e aumenta di 200 milioni di parole l'anno.

Ulteriori informazioni, le condizioni di utilizzo e di scaricamento sono disponibili presso il Centro comune di ricerca.

ELRC-SHARE

Il repertorio è una raccolta di risorse linguistiche derivanti dalla cooperazione tra le amministrazioni degli Stati membri e vari progetti dell'UE dal 2015 al 2022. L'accento è stato posto principalmente sulla raccolta di corpora (traduzione) parallela. Nel complesso, ELRC-SHARE contiene circa 6 000 serie di dati di dimensioni diverse e con diverse politiche di accesso.

Il repertorio è disponibile presso il repertorio ELRC-SHARE.

 

Tecnologie dellinguaggio ad alte prestazioni (HPLT)

Questo progetto, finanziato nell'ambito del programma di ricerca HORIZON, mira, tra l'altro, a raccogliere grandi quantità di risorse linguistiche in più di 100 lingue diverse ed è il successore di Paracrawl, che si è concentrato sulla raccolta di dati paralleli a fini di traduzione. 

Ulteriori informazioni sono disponibili sul sito web del progetto all' indirizzo High Performance Language Technologies and Paracrawl.

OpenWebSearch.EU

L'obiettivo principale di questo progetto di ricerca è creare una banca dati accessibile al pubblico che indicizzi i siti web di tutto il mondo. A tal fine, il progetto raccoglierà e analizzerà i contenuti dei siti web esistenti. Questo sforzo di raccolta dei dati potrebbe essere utile per raccogliere informazioni relative alle lingue.

Ulteriori informazioni sono disponibili sul sito web del progetto all'indirizzo OpenWebSearch.EU.

data.europa.eu

Il portale è un punto centrale di accesso ai dati aperti europei provenienti da portali di dati internazionali, dell'Unione europea, nazionali, regionali, locali e geografici. Consolida l'ex portale Open Data dell'UE e il portale europeo dei dati. Attualmente contiene oltre 1.5 milioni di serie di dati del settore pubblico europeo, raggruppati in 179 cataloghi e relativi a diverse categorie di attualità. 

Ulteriori informazioni e accesso alle serie di dati su data.europa.eu. 

Ufficio delle pubblicazioni dell'Unione europea

L'Ufficio delle pubblicazioni dell'UE, fornitore ufficiale di servizi editoriali per tutti gli organi, le istituzioni e le agenzie dell'UE,
Il Cellar è il suo archivio comune di dati e memorizza pubblicazioni e metadati multilingue. È aperto a tutti i cittadini dell'UE e fornisce dati leggibili meccanicamente.
Dal 2 013 l'archivio web dell'UE preserva il contenuto e la progettazione dei siti web delle istituzioni, delle agenzie e degli organismi dell'UE (le istituzioni dell'UE).

Ulteriori informazioni presso l'Ufficio delle pubblicazioni dell'Unione europea, compreso l' archivio web.

Infrastrutturacomune di risorse e tecnologie linguistiche (CLARIN)

ERIC CLARIN (consorzio per un'infrastruttura europea di ricerca) è un'iniziativa paneuropea che consente la ricerca sulle risorse linguistiche nel settore delle scienze sociali e umanistiche.

Ulteriori informazioni sono disponibili presso CLARIN. Puoi anche accedere alle risorse e aiservizi linguistici.

Griglia linguistica europea (ELG)

Il progetto ELG ha istituito una piattaforma cloud unica e scalabile come sportello unico per l'industria europea delle tecnologie linguistiche e la comunità della ricerca. Il catalogo ELG fornisce accesso a una serie di strumenti e servizi di gestione commerciali e non commerciali, modelli, lessici, terminologie o grammati, ma comprende anche 8000 corpora, con alcune sovrapposizioni con le iniziative precedenti.

Ulteriori informazioni all' ELG e al catalogo ELG.

Per saperne di più sulle tecnologie del linguaggio.