Ερευνητικός άξονας - Τεχνολογία Φωνής και Μουσικής
ΕΡΕΥΝΑ

Τεχνολογία Φωνής και Μουσικής

 

Η επεξεργασία του προφορικού λόγου θεωρείται ως ένας από τους βασικότερους τεχνολογικούς τομείς έρευνας και ανάπτυξης στην περιοχή της γλωσσικής επεξεργασίας και της επεξεργασίας σήματος. Η αναγνώριση, διαχείριση, επεξεργασία και παραγωγή προφορικού λόγου, αποτελεί μια απαιτητική ερευνητική περιοχή και απαραίτητη συνιστώσα στην επικοινωνία ανθρώπου-μηχανής, με σημαντικές εφαρμογές. Ενεργά ερευνητικά πεδία στην περιοχή αποτελούν η αναγνώριση, η σύνθεση και η κωδικοποίηση των σημάτων φωνής. Επίσης, η ανάλυση και η εύρωστη αναπαράσταση του σήματος της φωνής αποτελεί διαρκή επιδίωξη και θεωρείται βασικός τεχνολογικός στόχος διεθνώς, που στηρίζει και τροφοδοτεί την έρευνα και ανάπτυξη σε ποικίλες περιοχές. Κατά τα τελευταία έτη, το ΙΕΛ δραστηριοποιείται και έχει συμβάλλει ενεργά στην έρευνα και την ανάπτυξη μεθόδων, τεχνολογιών και εργαλείων τόσο στον τομέα της σύνθεσης φωνής από κείμενο όσο και στον τομέα της αναγνώριση φωνής. Σε αυτό το τοπίο, εξίσου σημαντικό ρόλο κατέχει και η μουσική τεχνολογία. Η ερευνητική ατζέντα του ΙΕΛ στην περιοχή περιλαμβάνει την αναγνώριση μουσικής, την εξαγωγή υψηλού επιπέδου μουσικών χαρακτηριστικών, την αναπαράσταση και επεξεργασία μουσικής σημειολογίας. Η συνεχής ανάπτυξη στους παραπάνω τομείς, συνάμα με παρεμφερείς νέες τεχνολογίες όπως η δεικτοδότηση ομιλητή και η εξόρυξη δεδομένων ήχου, συνθέτει ένα σύγχρονο σκηνικό πολυμεσικής και πολυτροπικής αλληλεπίδρασης ανθρώπου μηχανής, προσφέροντας πληθώρα εφαρμογών σε περιοχές όπως η ηλεκτρονική εκπαίδευση, οι ηλεκτρονικές εκδόσεις, τα πολυμέσα, το διαδίκτυο, η εικονική πραγματικότητα κ.α. Στο πλαίσιο αυτό, το ΙΕΛ σχεδιάζει και προσαρμόζει διαρκώς τις ερευνητικές και αναπτυξιακές δραστηριότητες του για να ανταποκριθεί στις νέες τεχνολογικές εξελίξεις.

Επιτεύγματα:

  • το πρώτο εξαιρετικής ποιότητας σύστημα σύνθεσης φωνής για την ελληνική γλώσσα με τεχνολογία επιλογής και συρραφής ακουστικών μονάδων
  • το πρώτο σύστημα παραμετρικής σύνθεσης φωνής για την ελληνική γλώσσα με τεχνολογία Κρυμμένων Μαρκοβιανών Μοντέλων (HMM)
  • εξαιρετικής ποιότητας σύστημα σύνθεσης φωνής για τα Βουλγαρικά με τεχνολογία επιλογής και συρραφής ακουστικών μονάδων
  • σύστημα σύνθεσης κανόνες και με βάση τα formants που συνδυάζει τεχνικές υπολογιστικής νοημοσύνης.
  • σύστημα σύνθεσης βασισμένο σε ακουστικές μονάδες διφώνων το οποίο οδήγησε στο προϊόν ΕΚΦΩΝΗΤΗΣ+
  • εύρωστη μηχανή αναγνώρισης φωνής για την ελληνική γλώσσα
  • αναγνώριση φωνής για δυσλεξικά άτομα ενσωματωμένη σε εικονικό δάσκαλο
  • εξαγωγή ήχου και αυτόματος υποτιτλισμός
  • σύστημα αναγνώρισης μουσικής για μονοφωνικά όργανα
  • σύστημα ταυτοποίησης νότας
  • σύστημα για τον εντοπισμό σε πραγματικό χρόνο και την οπτικοποίηση λανθασμένων μουσικών εκτελέσεων
  • καινοτόμες εφαρμογές όπως η ανάπτυξη τεχνολογίας μετατροπής greeklish σε ελληνικά, η φωνητική επαύξηση ιστοτόπων, σύστημα σύνθεσης φωνής για κινητά τηλέφωνα κ.ά.

Ερευνητικοί και αναπτυξιακοί στόχοι:

  • αναγνώριση αυθόρμητου και συναισθηματικού λόγου
  • αναζήτηση αυθόρμητου λόγου σε διαλόγους
  • αυτόματος υποτιτλισμός 
  • παραμετρική/υβριδική σύνθεση φωνής
  • εκφραστική/συναισθηματική σύνθεση φωνής
  • πολυτροπική σύνθεση φωνής
  • μετασχηματισμός φωνής και ομιλητή
  • δεικτοδότηση ομιλητή
  • ανάλυση και εξαγωγή συναισθηματικών/εκφραστικών χαρακτηριστικών
  • αξιολόγηση της ποιότητας φωνής
  • φωνητική κατηγοριοποίηση αναφορικά με θέματα προφοράς
  • φασματική ανάλυση
  • εύρωστη αναπαράσταση και κωδικοποίηση/συμπίεση φωνής
  • ευφυής αλληλεπίδραση ανθρώπου-μηχανής
  • καθολική σχεδίαση, προσβασιμότητα και χρήση ΤΠΕ
  • μουσική αναπαράσταση και συμβολική επεξεργασία
  • σύνθεση τραγουδιστής φωνής
  • αναγνώριση μουσικής, επεξεργασία μουσικού σήματος, εξαγωγή υψηλού επιπέδου μουσικών χαρακτηριστικών, αναπαράσταση και επεξεργασία μουσικής σημειολογίας
  • στοίχιση μουσικού σήματος/παρτιτούρας
  • αναγνώριση οργάνων
  • ανάπτυξη πόρων και εργαλείων στους παραπάνω τομείς
 
 

Επιστημονικά τμήματα

Τρέχοντα έργα