Εξαγωγή, ανάλυση και απεικόνιση ποιοτικών πληροφοριών από αδόμητα επιχειρηματικά δεδομένα
Doctoral Thesis
Συγγραφέας
Μαραγκός, Κωνσταντίνος
Ημερομηνία
2022-01-27Επιβλέπων
Μαραβελάκης, ΠέτροςΠροβολή/ Άνοιγμα
Λέξεις κλειδιά
Μηχανική μάθηση ; Αδόμητα δεδομένα ; Επεξεργασία φυσικής γλώσσαςΠερίληψη
Ένα από τα ανοικτά προβλήματα που προσπαθεί να επιλύσει η ακαδημαϊκή κοινότητα και που μαστίζει τον τομέα του εμπορίου και της πολιτικής, είναι η ανάλυση αδόμητων δεδομένων. Από εικόνες και βίντεο, έως ήχο και κείμενο, τα αδόμητα δεδομένα αποτελούν πλειοψηφία έναντι των δομημένων. Παρά το γεγονός αυτό και ενώ τα αδόμητα δεδομένα περιέχουν σημαντικό πλούτο πληροφορίας συγκριτικά με τα δομημένα, η εξαγωγή αυτής με ακρίβεια και ουσία, παραμένει πρόκληση για την ενημερωμένη και επιδραστική λήψη αποφάσεων.
Η παρούσα διατριβή εστιάζει στην ανάλυση κειμένου, βασιζόμενη στο συναίσθημα που εμπεριέχεται σε αυτό. Η μεθοδολογική προσέγγιση που παρουσιάζεται, δίνει τη δυνατότητα εντοπισμού των συναισθηματικών κανονικοτήτων που προσπαθεί να εγείρει ο συγγραφέας και ύστερα, επιχειρεί την κατηγοριοποίηση των κειμένων, με βάση τα συναισθήματα ως διανυσματικές συνιστώσες. Η μέθοδος παραμένει εξίσου αποτελεσματική ανεξαρτήτως περιεχομένου (ειδησιογραφία, marketing, πολιτική και λοιπά) και μήκους κειμένου.
Στα πλαίσια της έρευνας χρησιμοποιείται λεξικό για τον εντοπισμό των συναισθημάτων των λέξεων, καθώς επίσης και διάφορα μοντέλα μη εποπτευόμενης μηχανικής μάθησης. Συγκεκριμένα γίνεται χρήση της LDA (Latent Dirichlet Allocation), η οποία σε πολλές περιπτώσεις ανακαλύψαμε ότι παράγει «συναισθηματικό απόσταγμα», όπως θα δούμε. Επίσης, γίνεται χρήση των μοντέλων Mahalanobis, One Class SVM και Isolation Forest, με σκοπό τον εντοπισμό ακραίων κειμένων (anomalies). Η εφαρμογή των προαναφερθέντων πραγματοποιείται επί ενός περίπλοκου συνόλου δεδομένων, το οποίο αποτελείται κατά κύριο μέρος από ειδησεογραφικά άρθρα και κατά δεύτερο λόγο, από προπαγανδιστικά κείμενα τους Ισλαμικού Χαλιφάτου (ISIS). Τα προπαγανδιστικά κείμενα συμπεριλαμβάνονται, καθώς το συναίσθημα αποτελεί σημαντικό πυλώνα μιας αποτελεσματικής προπαγάνδας. Η βιβλιογραφική έρευνα πεδίου περιέχει εκτενή αναφορά σε αυτό, καθώς και άλλα συστατικά στοιχεία της προπαγάνδας ανά τις δεκαετίες. Είναι άξιο αναφοράς ότι τα ευρήματα της ανάλυσης, υποδεικνύουν την ύπαρξη κοινών πρακτικών
μεταξύ της δυτικής ειδησιογραφίας και της τρομοκρατικής προπαγάνδας, με σημαντικές ομοιότητες στα συναισθήματα που οι συγγραφείς των δύο πλευρών προσπαθούν να εγείρουν.