Υποέργο 1 «Γλωσσικές Τεχνολογίες Ανάλυσης Περιεχομένου και Αλληλεπίδρασης» της πράξης «Υπολογιστικές Επιστήμες και Τεχνολογίες Δεδομένων, Περιεχομένου και Αλληλεπίδρασης» (Δράση Ε.Κ. “Αθηνά”)

Ημερομηνία Έναρξης: 01/01/2017
Ημερομηνία Λήξης: 30/06/2021
Χρηματοδότηση: ΕΣΠΑ 2014-2020, ΕΠΑνΕΚ
Επιστημονικός Υπεύθυνος: Σταϊνχάουερ Γρηγόρης

Σκοπός του έργου είναι να υπηρετήσει το συνολικό πλάνο του Ινστιτούτου, τόσο κατακόρυφα με εξειδικευμένη έρευνα και ανάπτυξη στις επιμέρους περιοχές, όσο και οριζόντια με δραστηριότητες όπως οι υποδομές, οι κοινές πλατφόρμες οργάνωσης και διάθεσης γλωσσικών πόρων και τεχνολογιών, αλλά και ένα ευρύ φάσμα δραστηριοτήτων διάχυσης και αξιοποίησης που εκτείνεται από την ενημέρωση του ευρύτερου κοινού και της διεθνούς επιστημονικής κοινότητας μέχρι και την εσωτερική ανακάλυψη τεχνολογιών με ιδιαίτερες προοπτικές εκμετάλλευσης και την περαιτέρω υποστήριξη, διαμόρφωση και εκκόλαψή τους.

Το έργο περιλαμβάνει 6 Ενότητες Εργασίας:

Η Ενότητα Εργασίας 1 (ΕΕ1) με τίτλο “Επεξεργασία Φυσικής Γλώσσας” εστιάζει στην μελέτη, ανάλυση, επεξεργασία και μοντελοποίηση αφενός του γραπτού και αφετέρου του προφορικού λόγου. Σκοπός της ενότητας, είναι να μελετήσει και να αξιοποιήσει σύγχρονες προσεγγίσεις από την περιοχή της μηχανικής μάθησης εφαρμόζοντάς τις στην επεξεργασία κειμενικών δεδομένων. Ιδιαίτερη έμφαση θα δοθεί στην περιοχή της μηχανικής μάθησης χωρίς επίβλεψη (unsupervised learning) και στην αξιοποίηση μεγάλης κλίμακας δεδομένων. Στόχος είναι η επανασχεδίαση και ο επαναπροσδιορισμός της αποδοτικότητας της υπάρχουσας σουίτας εργαλείων γλωσσικής τεχνολογίας του ΙΕΛ, η ανάπτυξη νέων τεχνολογιών και μοντέλων γλωσσικής αναπαράστασης καθώς και η κατασκευή ολοκληρωμένων συστημάτων υποδομής για συγκεκριμένες περιοχές ενδιαφέροντος. Στον χώρο της μηχανικής μετάφρασης θα μελετηθεί η βελτίωση του μεταφραστικού αποτελέσματος μέσω τεχνικών όπως γλωσσικά μοντέλα πολλαπλών επιπέδων ανάλυσης και επαναληπτικές διαδικασίες βελτιστοποίησης βασισμένες σε τεχνικές υπολογιστικής ευφυΐας.

Η Ενότητα Εργασίας 2 με τίτλο «Τεχνολογίες Φωνής», αφορά σε δύο βασικές τεχνολογίες: την αναγνώριση φωνής και την σύνθεση φωνής. Η βασική εστίαση στην περιοχή της αναγνώρισης είναι η ανάπτυξη ενός ευφυούς συστήματος ανάγνωσης βασισμένου σε αυτόματη αναγνώριση παιδικής φωνής, το οποίο θα μπορεί να ανιχνεύει προβλήματα δυσλεξίας σε άτομα σχολικής ηλικίας προσφέροντας έτσι ένα εργαλείο έγκαιρης πρώτης ανίχνευσης. Στον τομέα της σύνθεσης φωνής, η ενότητα εστιάζει στην οπτικοακουστική ή πολυτροπική (multimodal) σύνθεση φωνής.

Στόχος της Ενότητας Εργασίας 3 «Φυσική Αλληλεπίδραση και Ενσώματη Επικοινωνία» είναι να προσεγγίσει δύο από τα βασικά πεδία εφαρμογής της ενσώματης επικοινωνίας. Το πρώτο πεδίο εστιάζει στις τεχνολογίες Νοηματικής Γλώσσας και στην βελτίωση των εργαλείων και της υποδομής που διαθέτει το ΙΕΛ στον τομέα των τεχνολογιών νοηματικής γλώσσας. Το δεύτερο πεδίο εφαρμογής αφορά στην ανάπτυξη ενός πολυτροπικού διαλογικού συστήματος και συγκεκριμένα, ενός εικονικού βοηθού που θα έχει τη μορφή ψηφιακού χαρακτήρα και θα διαθέτει την ικανότητα να επικοινωνεί με τον χρήστη μέσω φωνής.

Η Ενότητα Εργασίας 4 «Τεχνολογίες Μάθησης» προσεγγίζει δύο ιδιαίτερα ενδιαφέροντα πεδία εφαρμογής των γλωσσικών τεχνολογιών στην εκπαίδευση. Το πρώτο, αφορά στη διερεύνηση των μηχανισμών κατανόησης του γραπτού λόγου. Στόχος είναι η μοντελοποίηση της αναγνωστικής συμπεριφοράς διαφορετικών, ως προς το επίπεδο αναγνωστικής ικανότητας, μαθητών και η υποστήριξη της κατανόησης γραπτών κειμένων μέσω ανατροφοδότησης και εξατομικευμένης υποστήριξης κατά τη διαδικασία ανάγνωσης κειμένων. Η δεύτερη εργασία, θα προσδιορίσει τις σχεδιαστικές αρχές για την ανάπτυξη mobile εφαρμογής για την υποστήριξη της επικοινωνίας στα Ελληνικά (μεταναστών, τουριστών) σε πραγματικό χρόνο, με απώτερο στόχο την ανάπτυξη ενός σχετικού προτύπου.

Η Ενότητα Εργασίας 5 «Υποδομή Γλωσσικών Πόρων» περιλαμβάνει δράσεις που αφορούν στην ανάπτυξη κειμενικών και λεξικών γλωσσικών πόρων αλλά και στον εμπλουτισμό υπαρχόντων, στη διασύνδεση και στην αποθήκευσή τους στις υπάρχουσες υποδομές γλωσσικών πόρων του Ινστιτούτου. Αυτό αφορά τόσο συλλογές αναφοράς, όπως ο Εθνικός Θησαυρός της Ελληνικής Γλώσσας που το ΙΕΛ έχει αναπτύξει και συντηρεί, ο οποίος θα εμπλουτιστεί με νέους πόρους και θα αποκτήσει νέα, αναβαθμισμένη διεπαφή, όσο και ποικίλα υπολογιστικά λεξικά, το περιεχόμενο των οποίων θα εμπλουτιστεί και θα διερευνηθεί η διασυνδεσιμότητά τους.

Η Ενότητα Εργασίας 6 «Δράσεις διάχυσης, προβολής και αξιοποίησης αποτελεσμάτων» περιλαμβάνει ένα σύνολο σχεδιασμένων δράσεων διάχυσης των αποτελεσμάτων του έργου και ενεργειών δημοσιότητας, αλλά και συγκεκριμένων δράσεων προς την κατεύθυνση της άμεσης υποστήριξης της αξιοποιησιμότητάς τους.