Skip to main content
Shaping Europe’s digital future
News article | Δημοσίευση

Πρόσβαση του κοινού στα ευρωπαϊκά γλωσσικά δεδομένα

Κατάλογος δυνητικών πηγών εσωτερικών και εξωτερικών γλωσσικών δεδομένων.

©tippapat

Η Ευρωπαϊκή Ένωση αναγνωρίζει την αξία των δεδομένων και υποστηρίζει ορισμένες πρωτοβουλίες που αφορούν τη συλλογή και την ανταλλαγή δεδομένων. Το πιο πρόσφατο από τα έργα αυτά είναι ο «κοινός ευρωπαϊκός χώρος γλωσσικών δεδομένων» (LDS), ο οποίος δρομολογήθηκε τον Ιανουάριο του 2023. 

Κοινός ευρωπαϊκός χώρος γλωσσικών δεδομένων (LDS)

Σύμφωνα με την ευρωπαϊκή στρατηγική για τα δεδομένα και την έννοια των χώρων δεδομένων, στόχος του LDS είναι να αποτελέσει λειτουργική πλατφόρμα και αγορά για την κοινοχρησία γλωσσικών δεδομένων και μοντέλων σε ολόκληρη την Ευρωπαϊκή Ένωση. Οι πρώτες ανταλλαγές δεδομένων έχουν προγραμματιστεί για το μέτρο 24, δηλαδή τον Δεκέμβριο του 2024/January 2025. Η πλατφόρμα LDS θα υποστηρίξει αυτές τις ανταλλαγές, αλλά δεν θα φιλοξενεί η ίδια δεδομένα. 

Περισσότερες πληροφορίες στον χώρο γλωσσικών δεδομένων.

Ακολουθεί κατάλογος άλλων σχετικών πρωτοβουλιών χωρίς συγκεκριμένη σειρά: 

Μεταφραστική μνήμη DGT

Η DGT-TM είναι μια μεταφραστική μνήμη και περιλαμβάνει τμήματα από το κοινοτικό κεκτημένο, το σύνολο της ευρωπαϊκής νομοθεσίας, που περιλαμβάνει όλες τις συνθήκες, τους κανονισμούς και τις οδηγίες που έχει εγκρίνει η Ευρωπαϊκή Ένωση (ΕΕ). Το παρόν σύνολο δεδομένων επικεντρώνεται σε παράλληλα κείμενα στις 24 επίσημες γλώσσες της ΕΕ.
Σε μορφότυπο TMX, περιλαμβάνει περίπου 2.6 βιογραφικές λέξεις και αυξάνεται κατά 200 εκατ. λέξεις ετησίως.

Περισσότερες πληροφορίες, όροι χρήσης και τηλεφόρτωση διατίθενται στο Κοινό Κέντρο Ερευνών.

ELRC-SHARE

Το αποθετήριο αυτό είναι μια συλλογή γλωσσικών πόρων που προέκυψε από τη συνεργασία μεταξύ των διοικήσεων των κρατών μελών και διαφόρων έργων της ΕΕ από το 2015 έως το 2022. Η κύρια έμφαση δόθηκε στη συγκέντρωση παράλληλων (μεταφραστικών) σωμάτων. Συνολικά, το ELRC-SHARE περιέχει περίπου 6 000 σύνολα δεδομένων διαφόρων μεγεθών και με διαφορετικές πολιτικές πρόσβασης.

Το αποθετήριο είναι διαθέσιμο στο αποθετήριο ELRC-SHARE.

 

Γλωσσικές τεχνολογίες υψηλών επιδόσεων (HPLT)

Το έργο αυτό, το οποίο χρηματοδοτείται στο πλαίσιο του ερευνητικού προγράμματος HORIZON, αποσκοπεί, μεταξύ άλλων, στη συγκέντρωση τεράστιων γλωσσικών πόρων σε περισσότερες από 100 διαφορετικές γλώσσες, και διαδέχεται το Paracrawl, το οποίο επικεντρώθηκε στη συλλογή παράλληλων δεδομένων για μεταφραστικούς σκοπούς. 

Περισσότερες πληροφορίες διατίθενται στον δικτυακό τόπο του έργου στη διεύθυνση«Τεχνολογίεςγλωσσών υψηλών επιδόσεων» και « Paracrawl».

OpenWebSear.EU

Κύριος στόχος αυτού του ερευνητικού έργου είναι η δημιουργία μιας βάσης δεδομένων προσβάσιμης στο κοινό, η οποία θα ευρετηριάζει ιστοτόπους από όλο τον κόσμο. Για να επιτευχθεί αυτό, το σχέδιο θα συγκεντρώσει και θα αναλύσει το περιεχόμενο των υφιστάμενων ιστοτόπων. Αυτή η προσπάθεια συλλογής δεδομένων θα μπορούσε να είναι χρήσιμη για τη συλλογή γλωσσικών πληροφοριών.

Περισσότερες πληροφορίες διατίθενται στον ιστότοπο του έργου στην ιστοσελίδα OpenWebSear.EU.

data.europa.eu

Η πύλη αποτελεί κεντρικό σημείο πρόσβασης σε ευρωπαϊκά ανοικτά δεδομένα από διεθνείς, ενωσιακές, εθνικές, περιφερειακές, τοπικές και γεωγραφικές πύλες δεδομένων. Ενοποιεί την πρώην Πύλη Δημόσιων Δεδομένων της ΕΕ και την Ευρωπαϊκή Πύλη Δεδομένων. Επί του παρόντος περιέχει περισσότερα από 1.5 εκατομμύρια ευρωπαϊκά σύνολα δεδομένων του δημόσιου τομέα που ομαδοποιούνται με 179 καταλόγους και αφορούν διαφορετικές επίκαιρες κατηγορίες. 

Περισσότερες πληροφορίες και πρόσβαση στα σύνολα δεδομένων στη διεύθυνση data.europa.eu. 

Υπηρεσία Εκδόσεων της Ευρωπαϊκής Ένωσης

Η Υπηρεσία Εκδόσεων της ΕΕ είναι ο επίσημος πάροχος υπηρεσιών εκδόσεων στα θεσμικά και λοιπά όργανα και οργανισμούς της ΕΕ.
Το Cellar είναι το κοινό αποθετήριο δεδομένων του και αποθηκεύει πολύγλωσσες εκδόσεις και μεταδεδομένα. Είναι ανοικτή σε όλους τους πολίτες της ΕΕ και παρέχει μηχαναγνώσιμα δεδομένα.
Το διαδικτυακό αρχείο της ΕΕ διατηρεί το περιεχόμενο και τον σχεδιασμό των ιστοτόπων των θεσμικών και λοιπών οργάνων και οργανισμών της ΕΕ (των θεσμικών οργάνων της ΕΕ) από το 2013.

Περισσότερες πληροφορίες στην Υπηρεσία Εκδόσεων της Ευρωπαϊκής Ένωσης, συμπεριλαμβανομένου του αρχείου web.

Κοινή υποδομή γλωσσικών πόρων και τεχνολογίας (CLARIN)

Η CLARIN ERIC (Κοινοπραξία Ευρωπαϊκής Ερευνητικής Υποδομής) είναι μια πανευρωπαϊκή πρωτοβουλία που επιτρέπει την έρευνα στις κοινωνικές και ανθρωπιστικές επιστήμες σχετικά με τους γλωσσικούς πόρους (LR).

Περισσότερες πληροφορίες στη διεύθυνση CLARIN. Μπορείτε επίσης να έχετε πρόσβαση στους γλωσσικούς πόρους και υπηρεσίες.

European Language Grid (ELG)

Το έργο ELG δημιούργησε μια ενιαία, κλιμακούμενη πλατφόρμα υπολογιστικού νέφους ως υπηρεσία μίας στάσης για τη βιομηχανία και την ερευνητική κοινότητα της ευρωπαϊκής γλωσσικής τεχνολογίας. Ο κατάλογος ELG παρέχει πρόσβαση σε μια σειρά εμπορικών και μη εμπορικών εργαλείων και υπηρεσιών, μοντέλων, λεξικών, ορολογιών ή γραμματίων, αλλά περιλαμβάνει επίσης 8000 εταιρείες, με ορισμένες επικαλύψεις με προηγούμενες πρωτοβουλίες.

Περισσότερες πληροφορίες στο ELG και στον κατάλογο ELG.

Μάθετε περισσότερα για τις γλωσσικές τεχνολογίες.