Το Golden Part-of-Speech Tagged Corpus στην Υποδομή Γλωσσικών Πόρων και Τεχνολογιών CLARIN:EL

Το Golden Part-of-Speech Tagged Corpus στην Υποδομή Γλωσσικών Πόρων και Τεχνολογιών CLARIN:EL

2021/03/08

Τον Μάρτιο του 2021, η Υποδομή CLARIN:EL υποδέχεται με ιδιαίτερη χαρά στην οικογένεια ψηφιακών γλωσσικών πόρων και τεχνολογιών που φιλοξενεί το Golden Part-of-Speech Tagged Corpus!

Πρόκειται για ένα υποσύνολο του Εθνικού Θησαυρού της Ελληνικής Γλώσσας (ΕΘΕΓ), ένα σώμα κειμένων 70.000.000 λέξεων (στην παρούσα φάση), το οποίο έχει αναπτυχθεί από το Ινστιτούτο Επεξεργασίας του Λόγου του Ερευνητικού Κέντρου “Αθηνά” (ΙΕΛ/ΕΚ “Αθηνά”) και στο οποίο προστίθενται διαρκώς νέα κείμενα.

Το Golden Part-of-Speech Tagged Corpus αποτελεί ένα σύνολο δεδομένων γραπτού λόγου από διαδικτυακές πηγές, συνολικού μεγέθους 100.000 λέξεων. Όλες οι λέξεις είναι αυτόματα επισημειωμένες μορφολογικά ως προς το μέρος του λόγου και τη μορφοσυντακτική τους ταυτότητα, ενώ αξίζει να σημειωθεί ότι η επισημείωση και η λημματοποίηση είναι επιπλέον διορθωμένες από έμπειρους γλωσσολόγους προκειμένου το αποτέλεσμα να είναι απολύτως σωστό.

Τα κείμενα που συγκεντρώνει το Golden Part-of-Speech Tagged Corpus προέρχονται αποκλειστικά από το διαδίκτυο. Η συλλογή των δεδομένων πραγματοποιήθηκε με τεχνικές διάσχισης σημασιολογικού ιστού (web crawling) και με βασικό κριτήριο όλα τα κείμενα να είναι ανοιχτά και ελεύθερα διαθέσιμα (με Άδεια Χρήσης CC-Zero 4.0) ή με μοναδικό περιορισμό την αναφορά του δημιουργού (Άδεια Χρήσης CC-BY 4.0 ).

Με στόχο την όσο το δυνατόν μεγαλύτερη αντιπροσωπευτικότητα των κειμένων και την ισορροπημένη κατανομή του υλικού στο Golden Part-of-Speech Tagged Corpus, επιλέχθηκαν κείμενα από πολλές πηγές, από ποικίλα θεματικά είδη και με ευρεία θεματολογία.

Αναφορικά με τη διαδικασία που ακολουθήθηκε για τη δημιουργία και την υλοποίηση του σώματος δεδομένων Golden Part-of-Speech Tagged Corpus, αυτή περιλαμβάνει τον καθαρισμό από όλα τα άχρηστα στοιχεία (boilerplate material), τη διόρθωση ορθογραφικών λαθών με το χέρι, την αυτόματη μορφοσυντακτική επισημείωση με χρήση του αυτόματου μορφολογικού επισημειωτή του ΙΕΛ/ΕΚ “ΑΘΗΝΑ” (ILSP Feature-based multi-tiered POS Tagger), και τέλος τον έλεγχο και τη διόρθωση των αποτελεσμάτων της αυτόματης επισημείωσης, επίσης με το χέρι από έμπειρο γλωσσολόγο.  

Το  Golden Part-of-Speech Tagged Corpus διατίθεται σε μορφή XML έτσι ώστε το σύνολο δεδομένων να μπορεί να χρησιμοποιηθεί σε διαφορετικά περιβάλλοντα, ανεξαρτήτως  λειτουργικού συστήματος και είναι ελεύθερα διαθέσιμο και προσβάσιμο μέσω της Υποδομής CLARIN:EL με Άδεια Χρήσης CC-BY.

Μπορείτε να βρείτε περισσότερες πληροφορίες σχετικά με το Golden Part-of-Speech Tagged Corpus καθώς και να επιλέξετε να το χρησιμοποιήσετε ή να το επεξεργαστείτε εδώ.

Η Υποδομή CLARIN:EL φιλοξενεί συνολικά μέχρι σήμερα 596 ψηφιακούς γλωσσικούς πόρους και υπηρεσίες και εργαλεία Γλωσσικής Τεχνολογίας σε ένα συστηματικά οργανωμένο δίκτυο αποθετηρίων, στο οποίο συμμετέχουν 12 Ερευνητικοί Οργανισμοί και Πανεπιστημιακά Ιδρύματα από όλη την Ελλάδα!

Ανακαλύψτε περισσότερα!