ΤΝ για τις Διαλέκτους της Νέας Ελληνικής

Προώθηση της Έρευνας στην Τεχνητή Νοημοσύνη  για τις Διαλέκτους της Νέας Ελληνικής 

O χώρος αυτός παρέχει συγκεντρωτική πληροφορία για τους πόρους και τα νευρωνικά μοντέλα που αναπτύσσει το ΕΚ Αθηνά για την επεξεργασία και τεκμηρίωση των διαλέκτων της Νέας Ελληνικής γλώσσας. 

Η Ελληνιστική Κοινή  έχει, μεταξύ άλλων, κληροδοτήσει ένα πλούσιο σύστημα διαλεκτικών ποικιλιών της ελληνικής γλώσσας. Κάθε διάλεκτος φέρει ιδιαίτερα γλωσσικά χαρακτηριστικά, μακρά ιστορία και ανεκτίμητη πολιτισμική αξία. Τα μοναδικά χαρακτηριστικά των διαλέκτων που απουσιάζουν από την Κοινή Νεοελληνική, σε συνδυασμό με την περιορισμένη διαθεσιμότητα διαλεκτικών δεδομένων, δημιουργούν προκλήσεις και ευκαιρίες για την Τεχνητή Νοημοσύνη και τη Γλωσσική Τεχνολογία. 

Στο ΕΚ Αθηνά, συγκεκριμένα στο Ινστιτούτο Επεξεργασίας του Λόγου και στην ερευνητική μονάδα ΑΡΧΙΜΗΔΗΣ, αναπτύσσουμε μεθόδους και εργαλεία στον χώρο της Τεχνητής Νοημοσύνης και της Επεξεργασίας Φυσικής Γλώσσας για τις διαλέκτους αφορμώμενοι από την Κοινή Νέα Ελληνική.  Ο τρόπος με τον οποίο αναπτύσσουμε τους πόρους και τα μοντέλα είναι ο εξής:  

  • Διεξάγουμε έρευνα πεδίου για τη συλλογή αυθεντικού προφορικού διαλεκτικού λόγου από φυσικές ομιλήτριες και φυσικούς ομιλητές, σε αυθεντικές συνομιλιακές συνθήκες. 
  • Με τα προφορικά δεδομένα αναπτύσσουμε νευρωνικά μοντέλα μετατροπής ομιλίας σε κείμενο (speech-to-text, STT), με μεταφορά γνώσης απο την Κοινή Νέα Ελληνική. Το παραγόμενο κείμενο το κανονικοποιούμε με μεθόδους ειδικά προσαρμοσμένες σε κάθε διάλεκτο. Τα STT μοντέλα μπορούν να χρησιμοποιηθούν για την μετατροπή επιπλέον προφορικού λόγου σε κείμενο από την ίδια ή παρόμοια διάλεκτο.  
  • Εφόσον υπάρχουν διαλεκτικά κείμενα, εμπλουτίζουμε με αυτά τα κειμενικά δεδομένα από τον προφορικό λόγο.  
  • Αναπτύσσουμε δενδροτράπεζες με λεπτομερή μορφοσυντακτική και μορφοφωνολογική επισημείωση αξιοποιώντας δενδροτράπεζες της Κοινής Νέας Ελληνικής. 
  • Εκπαιδεύουμε πάνω στις δενδροτράπεζες νευρωνικά μοντέλα που μπορούν να πραγματοποιούν μορφοσυντακτική ανάλυση νέων διαλεκτικών κειμένων από την ίδια ή παρόμοια διάλεκτο. 

Τα αποτελέσματα της έρευνας περιλαμβάνουν νευρωνικά μοντέλα φωνής και μορφοσυντακτικής ανάλυσης, προφορικά σώματα κειμένων, δενδροτράπεζες και προδιαγραφές μορφοσυντακτικής επισημείωσης, όλα διαθέσιμα σε ανοικτή πρόσβαση.  

Έως σήμερα, έχουμε αναπτύξει προφορικούς και γραπτούς πόρους για διαλέκτους που ομιλούνται στην Ανατολική Κρήτη, τη Λέσβο και τη Μεσσηνία, καθώς και για την Κοινή Νεοελληνική. Στο πλαίσιο διεθνών συνεργασιών μελετούμε και άλλες ποικιλίες, όπως είναι οι ελληνικές διάλεκτοι της Κάτω Ιταλίας, τα Κυπριακά και τα Ποντιακά. Παράλληλα, διερευνούμε τη δημιουργία συνθετικών δεδομένων μέσω Μεγάλων Γλωσσικών Μοντέλων (Large Language Models – LLMs) και της συγκριτικής μελέτης των διαλέκτων, με στόχο την ενίσχυση της παρουσίας τους στον χώρο της Τεχνητής Νοημοσύνης. 

 
 

Διαθέσιμοι πόροι  

Προφορικός λόγος 

Νευρωνικά μοντέλα μεταγραφής προφορικού λόγου σε γραπτό

Δενδροτράπεζες  

Η επισημείωση ακολουθεί το πρότυπο των Universal Dependencies (UD). Οι δενδροτράπεζες μπορούν να ανακτηθούν από τον παρόντα χώρο που παραπέμπει στο αποθετήριο των UDs, όπου βρίσκονται και οι μορφοσυντακτικές προδιαγραφές κάθε δενδροτράπεζας.  Για κάθε δενδροτράπεζα δίνουμε το όνομά της, τον σύνδεσμο για το αποθετήριο των UDs και την προτιμώμενη μορφή αναφοράς. 

Νευρωνικά μοντέλα μορφοσυντακτικής επισημείωσης 

 

Ομάδα έργου

Στην έρευνα που περιγράφουμε έχουν συμβάλει οι: 

  • Αντώνης Αναστασόπουλος, Επίκουρος Καθηγητής, George Mason University & ΑΡΧΙΜΗΔΗΣ/ΕΚ Αθηνά 
  • Στέλλα Μαρκαντωνάτου, Διευθύντρια Έρευνας, ΙΕΛ/ΕΚ Αθηνά & ΑΡΧΙΜΗΔΗΣ/ΕΚ Αθηνά 
  • Αγγελική Ράλλη, Ομότιμη Καθηγήτρια Γλωσσολογίας, Πανεπιστήμιο Πατρών & ΑΡΧΙΜΗΔΗΣ/ΕΚ Αθηνά 
  • Γιώργος Παρασκευόπουλος, Μεταδιδακτορικός Ερευνητής, ΙΕΛ/ΕΚ Αθηνά 
  • Χαρά Τσουκαλά, Μεταδιδακτορική Ερευνήτρια, ΙΕΛ/ΕΚ Αθηνά 
  • Βίβιαν Στάμου, Μεταδιδακτορική Ερευνήτρια, ΑΡΧΙΜΗΔΗΣ/ΕΚ Αθηνά 
  • Σταύρος Μπόμπολας, Μεταδιδακτορικός Ερευνητής, ΑΡΧΙΜΗΔΗΣ/ΕΚ Αθηνά 
  • Αντώνης Δημάκης, Υποψήφιος Διδάκτορας, ΑΡΧΙΜΗΔΗΣ/ΕΚ Αθηνά 
  • Γιάννης Κάζος, Ηλεκτρολόγος Μηχανικός, Προπτυχιακός Φοιτητής, ΕΜΠ & ΑΡΧΙΜΗΔΗΣ/ΕΚ Αθηνά 
  • Σωκράτης Βακιρτζιάν & Κατερίνα Μούζου, Μεταπτυχιακοί Φοιτητές, ΕΚΠΑ & ΙΕΛ/ΕΚ Αθηνά