Εκτίμηση επενδυτικών αποφάσεων που βασίζονται σε τεχνικές ανάλυσης συναισθήματος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Sentiment analysis ; Μηχανική μάθηση ; Επεξεργασία φυσικής γλώσσας ; Ανάλυση συναισθήματος ; VADER ; TextBlob ; Πρόβλεψη χρηματιστηρίουΠερίληψη
Τα τελευταία χρόνια, λόγω της διείσδυσης του Διαδικτύου στο σύνολο σχεδόν του παγκόσμιου πληθυσμού, τα κοινωνικά μέσα χρησιμοποιούνται όλο και περισσότερο από τις επιχειρήσεις και το ευρύ κοινό, με αποτέλεσμα να παράγεται ένας μεγάλος όγκος δεδομένων, ο οποίος είναι διαθέσιμος σε μορφή κειμένου για την εξόρυξη απόψεων ή αλλιώς την ανάλυση συναισθημάτων που περιέχουν. Η ανάλυση συναισθήματος είναι μια μέθοδος μηχανικής μάθησης για την εξαγωγή του προσανατολισμού απόψεων (θετικών, αρνητικών, ουδέτερων) από κείμενα που έχουν γραφτεί για κάποιο προϊόν, οργανισμό, πρόσωπο ή οποιαδήποτε άλλη οντότητα. Ιδιαίτερη ανάπτυξη γνωρίζει η έρευνα των τεχνικών ανάλυσης συναισθήματος για την πρόβλεψη της διάθεσης που δημιουργείται από τις ειδήσεις που αντλούνται από τα κοινωνικά μέσα, προκειμένου αυτή η διάθεση να χρησιμοποιηθεί για την πρόβλεψη της κίνησης των χρηματιστηρίων. Για τους επενδυτές της χρηματιστηριακής αγοράς, η πρόβλεψη των τάσεων της κίνησης των χρηματιστηρίων θεωρείται ζωτικής σημασίας για τη λήψη αποφάσεων, εφόσον στόχος μιας επένδυσης είναι το οικονομικό κέρδος.
Στην παρούσα διπλωματική εργασία διερευνώνται τεχνικές ανάλυσης συναισθήματος από κείμενα τα οποία προέρχονται από ειδήσεις της αμερικανικής ιστοσελίδας συγκέντρωσης ειδήσεων Reddit, με στόχο την πρόβλεψη της κίνησης του χρηματιστηριακού δείκτη Dow Jones εφαρμόζοντας μεθόδους Μηχανικής Μάθησης. Οι τεχνικές ανάλυσης συναισθήματος υλοποιούνται με τη βοήθεια βιβλιοθηκών της python. Οι τεχνικές βασίζονται α) στην χρήση τεχνικών επεξεργασίας κειμένου με τη χρήση της βιβλιοθήκης Μηχανικής Μάθησης scikit-learn και την εφαρμογή αλγόριθμων ταξινόμησης β) στη χρήση της λειτουργίας ανάλυσης συναισθημάτων της βιβλιοθήκης επεξεργασίας κειμένου TextBlob και του λεξικού VADER της βιβλιοθήκης NLTK που βασίζεται σε κανόνες και οι οποίες αποτελούν μεθόδους μη επιβλεπόμενης Μηχανικής Μάθησης. Σκοπός είναι η εύρεση της καλύτερης τεχνικής για την πρόβλεψη της τάσης του χρηματιστηριακού δείκτη.
Τα καλύτερα αποτελέσματα της υλοποίησης προέκυψαν με την εφαρμογή του αλγόριθμου ταξινόμησης της λογιστικής παλινδρόμησης, εφαρμόζοντας τεχνικές επεξεργασίας κειμένου με τη χρήση της βιβλιοθήκης Μηχανικής Μάθησης scikit-learn.