Skip to main content
Gestaltung der digitalen Zukunft Europas
News article | Veröffentlichung

Zugang der Öffentlichkeit zu europäischen Sprachendaten

Liste der potenziellen internen und externen Datenquellen für Sprachen.

©tippapat

Die Europäische Union erkennt den Wert von Daten an und unterstützt eine Reihe von Initiativen zur Erhebung und gemeinsamen Nutzung von Daten. Bei den jüngsten Projekten handelt es sich um den „Gemeinsamen europäischen Sprachdatenraum“ (LDS), der im Januar 2023 ins Leben gerufen wurde. 

Gemeinsamer europäischer Sprachdatenraum (LDS)

Im Einklang mit der europäischen Datenstrategie und dem Data Spaces-Konzept besteht das Ziel der LDS darin, eine funktionale Plattform und ein Markt für den Austausch von Sprachdaten und -modellen in der gesamten Europäischen Union zu sein. Der erste Datenaustausch ist für M24 geplant, d. h. Dezember 2024/Januar 2025. Die LDS-Plattform wird diesen Austausch unterstützen, aber keine Daten selbst aufnehmen. 

Weitere Informationen im Sprachdatenraum.

Es folgt eine Liste anderer relevanter Initiativen ohne besondere Reihenfolge: 

Übersetzungsspeicher der GD Übersetzung

Die DGT-TM ist ein Übersetzungsspeicher und umfasst Segmente aus dem Acquis Communautaire, dem Korpus der europäischen Rechtsvorschriften, die alle von der Europäischen Union (EU) angenommenen Verträge, Verordnungen und Richtlinien umfassen. Dieser Datensatz konzentriert sich auf Paralleltexte in den 24 EU-Amtssprachen.
Im TMX-Format umfasst er rund 2,6 Biowörter und erhöht sich um 200 Mio. Wörter pro Jahr.

Weitere Informationen, Nutzungsbedingungen und Download finden Sie bei der Gemeinsamen Forschungsstelle.

ELRC-ANTEIL

Bei diesem Archiv handelt es sich um eine Sammlung von Sprachressourcen, die aus der Zusammenarbeit zwischen den Verwaltungen der Mitgliedstaaten und verschiedenen EU-Projekten von 2015 bis 2022 hervorgegangen sind. Der Schwerpunkt lag auf der Sammlung paralleler (Übersetzungs-)Cora. Insgesamt enthält ELRC-SHARE etwa 6000 Datensätze unterschiedlicher Größe und unterschiedlicher Zugangspolitik.

Das Repository ist im ELRC-SHARE Repository verfügbar.

 

Hochleistungssprachtechnologien (HPLT)

Dieses Projekt, das im Rahmen des HORIZON-Forschungsprogramms finanziert wird, zielt unter anderem darauf ab, große Mengen an Sprachressourcen in mehr als 100 verschiedenen Sprachen zu sammeln, und ist Nachfolger von Paracrawl, dessen Schwerpunkt auf der Erhebung paralleler Daten für Übersetzungszwecke liegt. 

Weitere Informationen finden Sie auf der Projektwebsite „High Performance Language Technologies and Paracrawl.

OpenWebSearch.EU

Hauptziel dieses Forschungsprojekts ist die Schaffung einer öffentlich zugänglichen Datenbank, in der Websites aus der ganzen Welt indexiert werden. Um dies zu erreichen, werden im Rahmen des Projekts die Inhalte bestehender Websites gesammelt und analysiert. Diese Datenerhebung könnte nützlich sein, um sprachbezogene Informationen zu sammeln.

Weitere Informationen finden Sie auf der Projektwebsite unter OpenWebSearch.EU.

data.europa.eu

Das Portal ist eine zentrale Anlaufstelle für den Zugang zu offenen europäischen Daten aus internationalen, europäischen, nationalen, regionalen, lokalen und Geodatenportalen. Es konsolidiert das frühere offene Datenportal der EU und das Europäische Datenportal. Sie enthält derzeit mehr als 1,5 Mio. europäische Datensätze des öffentlichen Sektors, die in 179 Katalogen zusammengefasst sind und verschiedene aktuelle Kategorien betreffen. 

Weitere Informationen und Zugang zu den Datensätzen unter data.europa.eu. 

Veröffentlichungsamt der Europäischen Union

Das Amt für Veröffentlichungen der Europäischen Union ist der offizielle Anbieter von Verlagsdienstleistungen für alle Organe, Einrichtungen und sonstigen Stellen der EU.
Der Cellar ist sein gemeinsames Datenarchiv und speichert mehrsprachige Veröffentlichungen und Metadaten. Sie steht allen EU-Bürgern offen und stellt maschinenlesbare Daten bereit.
Das EU-Webarchiv bewahrt seit 2013 den Inhalt und die Gestaltung der Websites der Organe, Einrichtungen und sonstigen Stellen der EU (im Folgenden „EU-Organe“) auf.

Weitere Informationen beim Amt für Veröffentlichungen der Europäischen Union, einschließlich des Webarchivs.

Gemeinsame Sprachressourcen- und Technologieinfrastruktur (CLARIN)

Das CLARIN ERIC (Konsortium für eine europäische Forschungsinfrastruktur) ist eine europaweite Initiative, die sozial- und geisteswissenschaftliche Forschung zu Sprachressourcen ermöglicht.

Weitere Informationen unter CLARIN. Sie haben auch Zugang zu den Sprachressourcen und -diensten.

Europäisches Sprachennetz (ELG)

Mit dem ELG-Projekt wurde eine einzige skalierbare Cloud-Plattform als zentrale Anlaufstelle für die europäische Sprachtechnologieindustrie und -forschung eingerichtet. Der ELG-Katalog bietet Zugang zu einer Reihe kommerzieller und nichtkommerzieller Laufwerkzeuge und -dienste, Modelle, Lexika, Terminologien oder Grammaren, umfasst aber auch 8000 Korpora, wobei sich einige Überschneidungen mit früheren Initiativen ergeben.

Weitere Informationen bei der ELG und dem ELG-Katalog.

Erfahren Sie mehr über Sprachtechnologien.