Εμφάνιση απλής εγγραφής

Σημασιολογική Ομοιότητα Κειμένων - Notion Oriented Approach (NOA)

dc.contributor.advisorΡετάλης, Συμεών
dc.contributor.authorΠαπασωτηρίου, Θεόδωρος
dc.date.accessioned2016-01-26T11:02:27Z
dc.date.available2016-01-26T11:02:27Z
dc.date.issued2013-10
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/8238
dc.description.abstractΗ επεξεργασία φυσικής γλώσσας (Natural Language Processing - NLP) είναι ένας τομέας της τεχνητής νοημοσύνης που συντροφεύει την πληροφορική από τα πρώτα της χρόνια. Χωρίζεται σε διάφορες επιμέρους κατηγορίες με επικρατέστερες αυτές κυρίως της μετάφρασης, των αλγορίθμων διόρθωσης της ορθογραφίας που χρησιμοποιούν οι περισσότεροι πλέον κειμενογράφοι, και τους αλγορίθμους αναγνώρισης φωνής ή μετατροπής κειμένου σε φωνή. Βέβαια, αν και αυτές οι κατηγορίες είναι πιο γνωστές εμπορικά στο ευρύ κοινό, η κοινότητα της τεχνητής νοημοσύνης που έχει επιλέξει να ασχοληθεί με την επεξεργασία φυσικής γλώσσας, έχει να διαλέξει μέσα από μια πληθώρα επιπλέον πεδίων, όπως η αναγνώριση οντοτήτων μέσα από φυσικό κείμενο (Named Entity Recognition), η δημιουργία περιλήψεων, οι αυτόματες απαντήσεις σε μικρού μήκος και όχι μόνο ερωτήματα, η σημασιολογική ομοιότητα μεταξύ κειμένων, κ.α.. Η σημασιολογική ομοιότητα κειμένων είναι αυτή που διαπραγματεύεται η παρούσα εργασία και ίσως αφορά ένα από τα πιο πολύπλοκα προβλήματα που καλείται να λύσει η επιστημονική κοινότητα της NLP. Αν και τα πρώτα μοντέλα δημιουργήθηκαν πριν από αρκετά χρόνια, οι διάφορες προσεγγίσεις αλλάζουν ανά μεγάλα χρονικά διαστήματα, προσπαθώντας να βρουν την πιο αξιόπιστη και απτή λύση στο παρών πρόβλημα. Η τρέχουσες προσεγγίσεις, έχουν κατευθυνθεί σε μοντέλα που στηρίζονται κυρίως σε μετρικές δύο μεγάλων κατηγοριών. Έχουμε λοιπόν μετρικές βασισμένες στη γνώση (Knowledge-Based) και μετρικές βασισμένες σε λεκτικό δείγμα (Corpus-Based). Αυτές οι μετρικές χρησιμοποιούνται είτε μεμονωμένα, είτε συνδυαστικά στις εκάστοτε προσεγγίσεις για το πρόβλημα της σημασιολογικής ομοιότητας των κειμένων. Αν και προτείνονται συνεχώς νέα μοντέλα δεν έχει βρεθεί κάποιο, το οποίο να μπορεί να απαντήσει με απόλυτη αξιοπιστία και σιγουριά αν δύο κείμενα έχουν σημασιολογική ομοιότητα μεταξύ τους. Τα περισσότερα μοντέλα επιστρέφουν μία κανονικοποιημένη τιμή η οποία ορίζει το ποσοστό ομοιότητας μεταξύ των κειμένων και χρησιμοποιείται κυρίως για κατηγοριοποίηση κειμένων βάσει του θέματος που αναφέρονται. Τα βέλτιστα αποτελέσματα φτάνουν σε απόδοση κοντά στο 85% των κειμένων, ποσοστό αρκετά ικανοποιητικό, αλλά μη ικανό να δημιουργήσει εφαρμογές για παραγωγή αξιόπιστων μοντέλων βασισμένων σε φυσική γλώσσα. Η παρούσα εργασία πραγματεύεται ακριβώς αυτό το πρόβλημα, προτείνοντας ένα νέο μοντέλο τύπου Knowledge-Based, το οποίο σε αντίθεση με τα καθιερωμένα μοντέλα που ως Βάση Γνώσης χρησιμοποιούν το WordNet ή τη Wikipedia, προτείνει μια νέα Βάση Γνώσης, η οποία καλύπτει στο μέγιστο τις ανάγκες του. Η Βάση Γνώσης αυτή έχει τις βάσεις της στη δουλειά των Collins & Quillian (Collins & Quillian, 1969), και αναπαριστά όλη τη γνώση των λέξεων και των εννοιών που συνδέονται ως ένα σημασιολογικό δίκτυο. Με βάση τα παραπάνω και μια εφαρμογή κανόνων που βασίζονται στα Hidden Markov Models (HMMs) το μοντέλο που προτείνεται μπορεί να εξάγει μία τιμή αληθείας για το αν δύο κείμενα είναι σημασιολογικά όμοια ή όχι με μεγαλύτερη αξιοπιστία, αφού σέβεται τους όποιους γραμματικούς και συντακτικούς κανόνες ορίζει η εκάστοτε γλώσσα για περαιτέρω αποσαφήνιση της σημασιολογίας των προτάσεών της.el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleΣημασιολογική Ομοιότητα Κειμένων - Notion Oriented Approach (NOA)el
dc.title.alternativeText Semantinc Similarity - Notion Oriented Approach (NOA)el
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENNatural Language Processing is a field of Artificial Intelligence that accompanies Computer Science through it's early steps. It bifurcates into various branches with most important these of translation, spelling errors correction that most modern text processors use and speech recognition or Text-To-Speech algorithms. Even though these are the most known to the public categories, the community of Artificial Intelligence that works on Natural Language Processing, has a huge variety of sub-domains to choose, which also includes Named Entity Recognition, Summary Extraction, Auto Question Answering, Text Semantic Similarity, etc. Text Semantic Similarity is the one that this dissertation deals with and probably is one of the most complex problems that researchers of NLP tries to solve. Even if the first models were created enough years ago, the various approaches change periodically, in a journey of seeking for the most robust and feasibly, optimized solution in the current problem. The current approaches, have proposed models based on metrics of two basic categories, Knowledge-Based and Corpus-Based metrics. Those metrics have been used solely or combined in various approaches that deal with the Text Semantic Similarity problem. Up to now, none of the proposed models can answer with total reliability and confidence if two texts are semantically identical. Most models return a normalized value that defines the percentage of similarity between input texts and this techniques are used mainly for text categorization or clustering, depending on their subject. Best systems evaluation results up to 85% of texts, which is a good percentage, but not adequate for applications that will produce reliable models based in natural language. The current dissertation deals with this problem, proposing a new Knowledge-Based model, which, unlike the majority of other models that use WordNet or Wikipedia as a Knowledge Base, proposes a new Knowledge Base, which covers in depth its functionality. This Knowledge Base is based on the work of Collins & Quillian, and represents the words and the notions that are related to, as a semantic network. With the Knowledge Base described above and the application of rules, based on Hidden Markov Models (HMMs) the proposed model can result a boolean value that will define if the two input texts are semantically similar or not, with respect in grammatical and syntactical rules of the language that has been used for the examined texts, which play a huge role in further disambiguation of the semantic meaning of a sentence.el
dc.contributor.masterΠροηγμένα Συστήματα Πληροφορικήςel
dc.subject.keywordΕπεξεργασία φυσικής γλώσσαςel
dc.subject.keywordNatural language processingel


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»