Skip to main content
Shaping Europe’s digital future
News article | Публикация

Публичен достъп до европейски езикови данни

Списък на потенциални източници на вътрешни и външни езикови данни.

©tippapat

Европейският съюз признава стойността на данните и подкрепя редица инициативи, посветени на събирането и споделянето на данни. Последните от тези проекти са „общото европейско пространство на езикови данни“ (LDS), което стартира през януари 2023 г. 

Общо европейско пространство на езикови данни (LDS)

В съответствие с Европейската стратегия за данните и концепцията за пространствата на данните целта на СРС е да бъде функционална платформа и пазар за споделяне на езикови данни и модели в целия Европейски съюз. Първият обмен на данни е планиран за мярка 24, т.е. декември 2024/January 2025 г. Платформата LDS ще подпомага този обмен, но сама по себе си няма да хоства данни. 

Допълнителна информация впространството за езикови данни.

Следва списък на други инициативи, които не са подредени в определен ред: 

Памет наГД „Писмени преводи“

DGT-TM е преводаческа памет и съдържа сегменти от достиженията на правото на ЕС — европейското законодателство, включващо всички договори, регламенти и директиви, приети от Европейския съюз (ЕС). Този набор от данни е съсредоточен върху паралелни текстове на 24-те официални езика на ЕС.
Във формат TMX той обхваща около 2.6 био думи и се увеличава с 200 милиона думи годишно.

Допълнителна информация, условия за използване и изтегляне можете да намерите в Съвместния изследователски център.

ELRC-SHARE

Това хранилище представлява колекция от езикови ресурси в резултат на сътрудничеството между администрациите на държавите членки и различни проекти на ЕС в периода 2015—2022 г. Основният акцент беше поставен върху събирането на паралелни (преводачески) предприятия. Като цяло ELRC-SHARE съдържа приблизително 6 000 набора от данни с различни размери и различни политики за достъп.

Хранилището е достъпно в хранилището ELRC-SHARE.

 

Високопроизводителни езикови технологии (HPLT)

Този проект, финансиран по линия на научноизследователската програма „ХОРИЦОН“, има за цел, наред с другото, събирането на огромни количества езикови ресурси на повече от 100 различни езика и е приемник на Paracrawl, който е съсредоточен върху събирането на паралелни данни за целите на превода. 

Допълнителна информация може да бъде намерена на уебсайта на проекта за високопроизводителни езикови технологии и Paracrawl.

OpenWebSear.ЕС

Основната цел на този изследователски проект е да се създаде публично достъпна база данни, която да индексира уебсайтове от цял свят. За да се постигне това, проектът ще събере и анализира съдържанието на съществуващите уебсайтове. Тези усилия за събиране на данни биха могли да бъдат полезни за събирането на информация, свързана с езиците.

Допълнителна информация може да бъде намерена на уебсайта на проекта OpenWebSear.EU.

data.europa.eu

Порталът е централна точка за достъп до европейски свободно достъпни данни от международни портали, портали на Европейския съюз, национални, регионални, местни и геоданни. Тя консолидира бившия портал за свободно достъпни данни на ЕС и Европейския портал за данни. Понастоящем тя съдържа над 1.5 милиона набора от данни от публичния сектор в Европа, групирани по 179 каталога и отнасящи се до различни тематични категории. 

Допълнителна информация и достъп до наборите от данни на адрес data.europa.eu. 

Службата за публикации на Европейския съюз

Службата за публикации на Европейския съюз е официалният доставчик на издателски услуги за всички институции, органи и агенции на ЕС.
Cellar е неговото общо хранилище за данни и съхранява многоезични публикации и метаданни. Той е отворен за всички граждани на ЕС и предоставя машинночетими данни.
Уеб архивът на ЕС съхранява съдържанието и дизайна на уебсайтовете на институциите, агенциите и органите на ЕС (институциите на ЕС) от 2013 г. насам.

Допълнителна информация в Службата за публикации на Европейския съюз, включително уеб архива.

Обща инфраструктура за езикови ресурси и технологии (CLARIN)

CLARIN ERIC (Консорциум за европейска научноизследователска инфраструктура) е общоевропейска инициатива, която дава възможност за научни изследвания в областта на обществените и хуманитарните науки в областта на езиковите ресурси (LR).

Допълнителна информация в CLARIN. Можете също така да получите достъп до езиковите ресурси и услуги.

Европейска езикова мрежа (ELG)

Проектът ELG създаде единна платформа за изчисления в облак с възможност за разрастване като единно звено за контакт за европейската промишленост и научноизследователската общност в областта на езиковите технологии. Каталогът на ELG предоставя достъп до редица действащи търговски и нетърговски инструменти и услуги, модели, лексика, терминология или граматика, но включва и 8000 корпорации, с известно припокриване с предходните инициативи.

Допълнителна информация в ELG и в каталога наELG.

Научете повече за езиковите технологии.