Ανάλυση συναισθήματος σε στίχους τραγουδιών με τεχνικές μηχανικής μάθησης
Sentiment analysis in song lyrics using machine learning techniques

Bachelor Dissertation
Συγγραφέας
Οικονόμου, Ελένη - Ραφαηλία
Ημερομηνία
2026-06Επιβλέπων
Λιαγκούρας, ΚωνσταντίνοςΠροβολή/ Άνοιγμα
Λέξεις κλειδιά
Ανάλυση συναισθήματος ; Στίχοι τραγουδιών ; Ταξινόμηση κειμένου ; Επεξεργασία φυσικής γλώσσας ; TF‑IDF ; Λογιστική παλινδρόμηση ; Συναισθηματική ανάλυση μουσικήςΠερίληψη
Η ανάλυση συναισθήματος σε κείμενο αποτελεί ένα από τα πιο ενεργά πεδία έρευνας στην Επεξεργασία Φυσικής Γλώσσας, με πληθώρα εφαρμογών σε τομείς όπως τα μέσα κοινωνικής δικτύωσης, οι κριτικές προϊόντων και η ανάλυση ειδησεογραφικών άρθρων. Η μουσική, και ειδικότερα οι στίχοι τραγουδιών, αποτελούν πλούσια πηγή συναισθηματικής πληροφορίας, καθώς συνδυάζουν γλωσσικό περιεχόμενο με καλλιτεχνική έκφραση, γεγονός που καθιστά την αυτόματη ανάλυση συναισθημάτων σε στίχους ένα ιδιαίτερα ενδιαφέρον αλλά και απαιτητικό πρόβλημα.
Στην παρούσα εργασία εξετάζεται η πολυκατηγορική ανάλυση συναισθημάτων σε στίχους τραγουδιών με τη χρήση τεχνικών Επεξεργασίας Φυσικής Γλώσσας και αλγορίθμων μηχανικής μάθησης. Δημιουργείται ένα σύνολο δεδομένων στίχων τραγουδιών, στο οποίο κάθε δείγμα επισημαίνεται με μία από τις προκαθορισμένες συναισθηματικές κατηγορίες (όπως χαρά, λύπη, θυμός και ηρεμία), βασισμένες σε καθιερωμένα μοντέλα συναισθημάτων. Στη συνέχεια εφαρμόζονται τυπικές τεχνικές προεπεξεργασίας κειμένου και αναπαράστασης (TF IDF), και εκπαιδεύονται μοντέλα ταξινόμησης κειμένου, με στόχο την πρόβλεψη της κυρίαρχης συναισθηματικής κατηγορίας για κάθε τραγούδι.
Η αξιολόγηση των μοντέλων πραγματοποιείται με τη χρήση μετρικών όπως η ακρίβεια (accuracy) και ο F1 score ανά κατηγορία, καθώς και με ανάλυση confusion matrices, ώστε να εντοπιστούν οι συχνότερες μορφές λανθασμένης ταξινόμησης. Τα αποτελέσματα δείχνουν ότι ένα σχετικά απλό μοντέλο ταξινόμησης, βασισμένο σε αναπαράσταση TF IDF και γραμμικούς ταξινομητές, μπορεί να πετύχει ικανοποιητική απόδοση στη διάκριση μεταξύ βασικών συναισθηματικών κατηγοριών, με καλύτερη αναγνωρισιμότητα σε κατηγορίες με πιο διακριτό λεξιλόγιο (όπως έντονη χαρά ή θυμός) και μειωμένη απόδοση σε κατηγορίες με πιο “ουδέτερη” ή αμφίσημη γλωσσική έκφραση (όπως ηρεμία).
Τέλος, συζητούνται οι περιορισμοί της προσέγγισης, όπως το μέγεθος και η ανισορροπία του συνόλου δεδομένων, η γλωσσική ποικιλία των στίχων και η υποκειμενικότητα στον ορισμό των συναισθηματικών κατηγοριών, καθώς και πιθανές επεκτάσεις της εργασίας, όπως η χρήση βαθύτερων νευρωνικών μοντέλων (π.χ. BERT), η ενσωμάτωση ηχητικών χαρακτηριστικών και η εφαρμογή της μεθοδολογίας σε μεγαλύτερα και πολυγλωσσικά σύνολα δεδομένων.


