Ανάλυση συναισθήματος στο twitter με βαθιά νευρωνικά δίκτυα
Master Thesis
Συγγραφέας
Μπαζιώτης, Χρήστος
Ημερομηνία
2017-09Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ανάλυση συναισθήματος ; Εξόρυξη γνώμης ; Επεξεργασία φυσικής γλώσσας ; Κατηγοριοποίηση κειμένων ; Μηχανική μάθηση ; Τεχνητά νευρωνικά δίκτυα ; Βαθιά νευρωνικά δίκτυα ; Sentiment analysis ; Opinion mining ; Natural language processing ; Text classification ; Machine learning ; Artificial neural networks ; Deep neural networksΠερίληψη
Η εργασία ασχολείται με το πρόβλημα της πρόβλεψης του συναισθηματικού
προσανατολισμού, σε μηνύματα του κοινωνικού δικτύου Twitter. Είναι ένα πρόβλημα Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ), το οποίο στα πλαίσια της εργασίας,
προσεγγίζεται με την χρήση Τεχνητών Νευρωνικών Δικτύων (ΤΝΔ) αξιοποιώντας
κατανεμημένες αναπαραστάσεις λέξεων (word embeddings).
Αρχικά, γίνεται αναδρομή της προόδου του επιστημονικού πεδίου της Ανάλυσης
Συναισθήματος (Sentiment Analysis). Στη συνέχεια καταγράφονται και συγκρίνονται οι σημαντικότερες προσεγγίσεις, οι οποίες έχουν προταθεί για την επίλυση του
προβλήματος. Ιδιαίτερη σημασία δίνεται στην αναζωπύρωση της έρευνας στα ΤΝΔ
και παρουσιάζονται οι σημαντικότερες αρχιτεκτονικές ΤΝΔ, οι οποίες έχουν εφαρμοστεί στην Ανάλυσης Συναισθήματος. Επιπλέον, γίνεται σύγκριση των ΤΝΔ με τις
παραδοσιακές τεχνικές μηχανικής μάθησης και παρουσιάζονται επιχειρήματα υπέρ
της καταλληλότητάς τους σε προβλήματα ΕΦΓ.
Ακόμη, για την καλύτερη προετοιμασία των μηνυμάτων του Twitter ως είσοδο
στα μοντέλα μηχανικής μάθησης, αναπτύχθηκε ένα εργαλείο προ-επεξεργασίας κειμένων. Το εργαλείο αυτό είναι ικανό να αναγνωρίσει και να επεξεργαστεί κείμενα
από κοινωνικά δίκτυα, στα οποία υπάρχουν αρκετά ορθογραφικά, συντακτικά και
γραμματικά λάθη, καθώς και γενικότερα “δημιουργική” γραφή. Μερικές από τις
δυνατότητες του εργαλείου είναι, λεκτική ανάλυση, ορθογραφική διόρθωση και κανονικοποίηση λέξεων και φράσεων.
Τέλος, στα πλαίσια της έρευνας για την εργασία, συμμετείχαμε στον διεθνή διαγωνισμό σημασιολογικής αξιολόγησης Semeval-2017. Τα μοντέλα του διαγωνισμού
είναι το ουσιαστικό αποτέλεσμα της έρευνάς μου. Γίνεται αναλυτική παρουσίαση
των σχετικών μοντέλων και δίνονται θεωρητικά επιχειρήματα για την καταλληλότητα της τελικής προσέγγισης. Τα μοντέλα που αναπτύχθηκαν ήταν ιδιαίτερα
ανταγωνιστικά, πετυχαίνοντας την πρώτη θέση στο Task 4:“Sentiment Analysis in
Twitter” και τη δεύτερη θέση στο Task 6: “#HashtagWars: Learning a Sense of Humor”
του Semeval-2017.