ACCURAT: Analysis and evaluation of Comparable Corpora for Under Resourced Areas of machine Translation

Ημερομηνία Έναρξης: 01/01/2010
Ημερομηνία Λήξης: 30/06/2012
Χρηματοδότηση: ICT (FP7) - Research Infrastructures
Επιστημονικός Υπεύθυνος: Γλάρος Νίκος
Ιστότοπος: http://www.accurat-project.eu/

Η απουσία κατάλληλων γλωσσικών πόρων (παράλληλων κειμένων) αποτελεί τροχοπέδη στην ανάπτυξη συστημάτων Μηχανικής Μετάφρασης (ΜΜ),τα οποία να μπορούν να υποστηρίζουν επαρκώς πλήθος γλωσσών και γνωστικών περιοχών. Στόχος του έργου ACCURAT είναι να διερευνήσει και να αξιολογήσει νέες μεθόδους και τεχνικές, οι οποίες θα επιτρέψουν την αξιοποίηση των συγκρίσιμων σωμάτων κειμένων στη ΜΜ, με στόχο την αποτελεσματική αντιμετώπιση του εν λόγω προβλήματος, και την βελτίωση της ποιότητας της μετάφρασης για γλώσσες ή/και ζεύγη γλωσσών με ελάχιστους διαθέσιμους πόρους και για εξειδικευμένα γνωστικά πεδία.

Πιο συγκεκριμένα, το έργο αποσκοπεί να διερευνήσει μία μεθοδολογία και να αναπτύξει ένα πλήρως λειτουργικό μοντέλο, το οποίο θα υποστηρίζει:

  • την δυνατότητα αυτόματης ανάκτησης συγκρίσιμων σωμάτων κειμένων από το Διαδίκτυο και από άλλες πηγές,
  • την ανάλυση και αξιολόγηση των συγκρίσιμων σωμάτων κειμένων, με βάση μετρικές συγκρισιμότητας,
  • την στοίχιση συγκρίσιμων σωμάτων κειμένων (στο επίπεδο του κειμένου, της πρότασης, της φράσης και της λέξης) και την εξαγωγή λεξιλογικών, ορολογικών και άλλων γλωσσικών δεδομένων από αυτά,
  • ενσωμάτωση των στοιχισμένων κειμένων και των στοιχισμένων γλωσσικών δεδομένων σε υπάρχοντα συστήματα ΜΜ (στατιστικά ή/και κανονιστικά)
  • ποσοτικόποιημένη εκτίμηση της βελτίωσης που θα προκύψει από την αξιοποίηση των δεδομένων που προέκυψαν με βάση τις προαναφερθείσες μεθόδους στα υφιστάμενα συστήματα ΜΜ.