Ημερομηνία Έναρξης: 01/04/1996
Ημερομηνία Λήξης:
Χρηματοδότηση: LE II (LE2 4017 - 10379)
Επιστημονικός Υπεύθυνος: Γαβριηλίδου Μαρία
Ημερομηνία Λήξης:
Χρηματοδότηση: LE II (LE2 4017 - 10379)
Επιστημονικός Υπεύθυνος: Γαβριηλίδου Μαρία
Το πρόγραμμα αυτό είχε ως στόχο την κατάρτιση μεγάλων, γενικών και επαναχρησιμοποιήσιμων Γραπτών Γλωσσικών Πόρων για όλες τις γλώσσες της ΕΕ, και συγκεκριμένα:
- Σωμάτων Κειμένων Γενικής γλώσσας μεγέθους 20.000.000 λέξεων για 14 γλώσσες (Αγγλικά, Βελγικά Γαλλικά, Γαλλικά, Γερμανικά, Δανικά, Ελληνικά, Ιρλανδικά, Ιταλικά, Καταλανικά, Νορβηγικά, Ολλανδικά, Πορτογαλικά, Σουηδικά, Φινλανδικά), και
- υπολογιστικών λεξικών 20.000 λημμάτων για 12 γλώσσες (Αγγλικά, Γαλλικά, Γερμανικά, Δανικά, Ελληνικά, Ισπανικά, Ιταλικά, Καταλανικά, Ολλανδικά, Πορτογαλικά, Σουηδικά, Φινλανδικά).
Η αξία των πόρων αυτών στηρίζεται όχι μόνο στο μέγεθος και τον αριθμό των γλωσσών που περιλαμβάνει το πρόγραμμα, αλλά στο γεγονός ότι οι πόροι αυτοί καταρτίστηκαν με βάση κοινά πρότυπα και κοινές προδιαγραφές:
- σε σχέση με τα Σώματα Κειμένων, η κατάρτιση και ο σχολιασμός τους ακολούθησε τις ίδιες συστάσεις για όλες τις γλώσσες:
- η επιλογή των κειμένων έγινε με βάση κοινές προδιαγεγραμμένες παραμέτρους όσον αφορά τον χρόνο παραγωγής (μετά το 1970) και την ποσοστιαία αναλογία κειμενικού υλικού ανάλογα με το μέσο δημοσίευσης (Βιβλίο, Εφημερίδα, Περιοδικό και Διάφορα)
- όλα τα κείμενα συνοδεύονται από πρόσθετα στοιχεία σχολιασμού, τα οποία αποτυπώνουν βιβλιογραφικές πληροφορίες, τη δομή των κειμένων και τα κειμενικά χαρακτηριστικά (μέχρι το επίπεδο της παραγράφου), και τα οποία έχουν κωδικοποιηθεί με την ίδια μορφή αναπαράστασης (PAROLE DTD)
- ένα υποσύνολο του Σώματος Κειμένων (250.000 λέξεων) έχει σχολιαστεί σε μορφο-συντακτικό επίπεδο με το σύνολο γραμματικών χαρακτηριστικών PAROLE, το οποίο περιλαμβάνει κοινά χαρακτηριστικά για όλες τις γλώσσες και πρόσθετα χαρακτηριστικά για τις ιδιαίτερες ανάγκες κάθε γλώσσας
- σε σχέση με τα λεξικά, η εναρμόνιση επιτεύχθηκε με την ανάπτυξη ενός κοινού μοντέλου (PAROLE) το οποίο αφορά στην κωδικοποίηση της μορφολογικής και συντακτικής πληροφορίας για όλες τις γλώσσες. Έτσι, όλα τα λεξικά έχουν καταρτιστεί σύμφωνα με κοινές σχεδιαστικές αρχές και γλωσσολογικές προδιαγραφές και είναι κωδικοποιημένα στην ίδια μορφή αναπαράστασης.
Μετά την επιτυχή ολοκλήρωση του προγράμματος, είναι διαθέσιμοι στην ερευνητική κοινότητα, είτε μέσω της ELRA (European Language Resources Association) είτε απευθείας από τους εταίρους της κοινοπραξίας, οι εξής Γλωσσικοί πόροι για κάθε γλώσσα:
- ένα υποσύνολο του Σώματος κειμένων, μεγέθους 3.000.000 λέξεων, συμπεριλαμβανομένου και του μορφοσυντακτικά σχολιασμένου υποσυνόλου, και το υπολογιστικό λεξικό.