Σημασιολογική Ομοιότητα Κειμένων - Notion Oriented Approach (NOA)
Text Semantinc Similarity - Notion Oriented Approach (NOA)
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Επεξεργασία φυσικής γλώσσας ; Natural language processingΠερίληψη
Η επεξεργασία φυσικής γλώσσας (Natural Language Processing - NLP) είναι ένας τομέας της τεχνητής νοημοσύνης που συντροφεύει την πληροφορική από τα πρώτα της χρόνια. Χωρίζεται σε διάφορες επιμέρους κατηγορίες με επικρατέστερες αυτές κυρίως της μετάφρασης, των αλγορίθμων διόρθωσης της ορθογραφίας που χρησιμοποιούν οι περισσότεροι πλέον κειμενογράφοι, και τους αλγορίθμους αναγνώρισης φωνής ή μετατροπής κειμένου σε φωνή. Βέβαια, αν και αυτές οι κατηγορίες είναι πιο γνωστές εμπορικά στο ευρύ κοινό, η κοινότητα της τεχνητής νοημοσύνης που έχει επιλέξει να ασχοληθεί με την επεξεργασία φυσικής γλώσσας, έχει να διαλέξει μέσα από μια πληθώρα επιπλέον πεδίων, όπως η αναγνώριση οντοτήτων μέσα από φυσικό κείμενο (Named Entity Recognition), η δημιουργία περιλήψεων, οι αυτόματες απαντήσεις σε μικρού μήκος και όχι μόνο ερωτήματα, η σημασιολογική ομοιότητα μεταξύ κειμένων, κ.α.. Η σημασιολογική ομοιότητα κειμένων είναι αυτή που διαπραγματεύεται η παρούσα εργασία και ίσως αφορά ένα από τα πιο πολύπλοκα προβλήματα που καλείται να λύσει η επιστημονική κοινότητα της NLP. Αν και τα πρώτα μοντέλα δημιουργήθηκαν πριν από αρκετά χρόνια, οι διάφορες προσεγγίσεις αλλάζουν ανά μεγάλα χρονικά διαστήματα, προσπαθώντας να βρουν την πιο αξιόπιστη και απτή λύση στο παρών πρόβλημα.
Η τρέχουσες προσεγγίσεις, έχουν κατευθυνθεί σε μοντέλα που στηρίζονται κυρίως σε μετρικές δύο μεγάλων κατηγοριών. Έχουμε λοιπόν μετρικές βασισμένες στη γνώση (Knowledge-Based) και μετρικές βασισμένες σε λεκτικό δείγμα (Corpus-Based). Αυτές οι μετρικές χρησιμοποιούνται είτε μεμονωμένα, είτε συνδυαστικά στις εκάστοτε προσεγγίσεις για το πρόβλημα της σημασιολογικής ομοιότητας των κειμένων. Αν και προτείνονται συνεχώς νέα μοντέλα δεν έχει βρεθεί κάποιο, το οποίο να μπορεί να απαντήσει με απόλυτη αξιοπιστία και σιγουριά αν δύο κείμενα έχουν σημασιολογική ομοιότητα μεταξύ τους. Τα περισσότερα μοντέλα επιστρέφουν μία κανονικοποιημένη τιμή η οποία ορίζει το ποσοστό ομοιότητας μεταξύ των κειμένων και χρησιμοποιείται κυρίως για κατηγοριοποίηση κειμένων βάσει του θέματος που αναφέρονται. Τα βέλτιστα αποτελέσματα φτάνουν σε απόδοση κοντά στο 85% των κειμένων, ποσοστό αρκετά ικανοποιητικό, αλλά μη ικανό να δημιουργήσει εφαρμογές για παραγωγή αξιόπιστων μοντέλων βασισμένων σε φυσική γλώσσα.
Η παρούσα εργασία πραγματεύεται ακριβώς αυτό το πρόβλημα, προτείνοντας ένα νέο μοντέλο τύπου Knowledge-Based, το οποίο σε αντίθεση με τα καθιερωμένα μοντέλα που ως Βάση Γνώσης χρησιμοποιούν το WordNet ή τη Wikipedia, προτείνει μια νέα Βάση Γνώσης, η οποία καλύπτει στο μέγιστο τις ανάγκες του. Η Βάση Γνώσης αυτή έχει τις βάσεις της στη δουλειά των Collins & Quillian (Collins & Quillian, 1969), και αναπαριστά όλη τη γνώση των λέξεων και των εννοιών που συνδέονται ως ένα σημασιολογικό δίκτυο. Με βάση τα παραπάνω και μια εφαρμογή κανόνων που βασίζονται στα Hidden Markov Models (HMMs) το μοντέλο που προτείνεται μπορεί να εξάγει μία τιμή αληθείας για το αν δύο κείμενα είναι σημασιολογικά όμοια ή όχι με μεγαλύτερη αξιοπιστία, αφού σέβεται τους όποιους γραμματικούς και συντακτικούς κανόνες ορίζει η εκάστοτε γλώσσα για περαιτέρω αποσαφήνιση της σημασιολογίας των προτάσεών της.