Skip to main content
Kształtowanie cyfrowej przyszłości Europy
News article | Publikacja

Publiczny dostęp do europejskich danych językowych

Wykaz potencjalnych wewnętrznych i zewnętrznych źródeł danych językowych.

©tippapat

Unia Europejska uznaje wartość danych i wspiera szereg inicjatyw poświęconych gromadzeniu i wymianie danych. Najnowsze z tych projektów to „Wspólna europejska przestrzeń danych językowych” (LDS), uruchomiona w styczniu 2023 r. 

Wspólna europejska przestrzeń danych językowych (LDS)

Zgodnie z europejską strategią danych i koncepcją przestrzeni danych celem LDS jest stworzenie funkcjonalnej platformy i rynku wymiany danych i modeli językowych w całej Unii Europejskiej. Pierwszą wymianę danych zaplanowano na działanie M24, tj. grudzień 2024 r./styczeń 2025 r. Platforma LDS będzie wspierać tę wymianę, ale sama nie będzie zawierać danych. 

Dalsze informacje w przestrzeni danych językowych.

Poniżej znajduje się wykaz innych istotnych inicjatyw w żadnej konkretnej kolejności: 

DGT – pamięć tłumaczeniowa

DGT-TM to pamięć tłumaczeniowa, która zawiera fragmenty wspólnotowego dorobku prawnego, obejmującego wszystkie traktaty, rozporządzenia i dyrektywy przyjęte przez Unię Europejską (UE). Ten zbiór danych koncentruje się na równoległych tekstach w 24 językach urzędowych UE.
W formacie TMX obejmuje on około 2,6 słów biologicznych i wzrasta o 200 mln słów rocznie.

Dalsze informacje, warunki użytkowania i pobierania można znaleźć we Wspólnym Centrum Badawczym.

UDZIAŁ ELRC

Repozytorium to zbiór zasobów językowych, który powstał w wyniku współpracy między administracjami państw członkowskich i różnymi projektami UE w latach 2015–2022. Główny nacisk położono na zgromadzenie równoległych (tłumaczonych) korpusów. Ogólnie rzecz biorąc, ELRC-SHARE zawiera około 6000 zbiorów danych różnej wielkości i o różnych politykach dostępu.

Repozytorium jest dostępne wrepozytorium ELRC-SHARE.

 

Wysokowydajne technologie językowe (HPLT)

Projekt ten, finansowany w ramach programu badawczego HORIZON, ma między innymi na celu zgromadzenie ogromnych zasobów językowych w ponad 100 różnych językach i jest następcą Paracrawlu, który koncentrował się na gromadzeniu równoległych danych do celów tłumaczeniowych. 

Więcej informacji można znaleźć na stronie internetowej projektu pod adresem:High Performance Language Technologies i Paracrawl.

OpenWebSearch.EU

Głównym celem tego projektu badawczego jest stworzenie publicznie dostępnej bazy danych zawierającej indeksacje stron internetowych z całego świata. Aby to osiągnąć, projekt zgromadzi i przeanalizuje zawartość istniejących stron internetowych. Ten wysiłek w zakresie gromadzenia danych mógłby być przydatny do gromadzenia informacji językowych.

Więcej informacji można znaleźć na stronie internetowej projektu OpenWebSearch.EU.

data.europa.eu

Portal jest centralnym punktem dostępu do europejskich otwartych danych z międzynarodowych, unijnych, krajowych, regionalnych, lokalnych i geodanych. Konsoliduje on poprzedni unijny portal otwartych danych i europejski portal danych. Obecnie zawiera on ponad 1,5 mln zbiorów danych europejskiego sektora publicznego pogrupowanych według 179 katalogów i odnoszących się do różnych kategorii tematycznych. 

Dalsze informacje i dostęp do zbiorów danych na stronie data.europa.eu. 

Urząd Publikacji Unii Europejskiej

Urząd Publikacji Unii Europejskiej jest oficjalnym dostawcą usług wydawniczych dla wszystkich instytucji, organów i agencji UE.
Cellar jest wspólnym repozytorium danych i przechowuje wielojęzyczne publikacje i metadane. Jest on otwarty dla wszystkich obywateli UE i dostarcza danych nadających się do odczytu maszynowego.
Od 2013 r. archiwum internetowe UE zachowuje treść i strukturę stron internetowych instytucji, agencji i organów UE (instytucji UE).

Dalsze informacje w Urzędzie Publikacji Unii Europejskiej, w tym w archiwum internetowym.

Wspólne zasoby językowe i infrastruktura technologiczna (CLARIN)

CLARIN ERIC (konsorcjum na rzecz europejskiej infrastruktury badawczej) to ogólnoeuropejska inicjatywa umożliwiająca prowadzenie badań w dziedzinie nauk społecznych i humanistycznych w zakresie zasobów językowych (LR).

Dalsze informacje na stronie CLARIN. Możesz również uzyskać dostęp do zasobów i usług językowych.

Europejska sieć językowa (ELG)

W ramach projektu ELG utworzono pojedynczą, skalowalną platformę chmury obliczeniowej jako punkt kompleksowej obsługi dla europejskiego sektora technologii językowych i środowiska badawczego. Katalog ELG zapewnia dostęp do szeregu komercyjnych i niekomercyjnych narzędzi i usług, modeli, lexica, terminologii lub gramatyki, ale obejmuje również 8000 korpor, co częściowo pokrywa się z poprzednimi inicjatywami.

Dalsze informacje w ELG i katalogu ELG.

Dowiedz się więcej o technologiach językowych.