Χρήση του μοντέλου BERT για ταξινόμηση συναισθήματος
Sentiment classification using BERT Model

Bachelor Dissertation
Συγγραφέας
Παπούλιας, Αθανάσιος
Ημερομηνία
2026-02Επιβλέπων
Σωτηρόπουλος, ΔιονύσιοςΠροβολή/ Άνοιγμα
Λέξεις κλειδιά
Ανάλυση συναισθήματος ; Επεξεργασία φυσικής γλώσσας ; Twitter ; TF-IDF ; Logistic regression ; Support vector machine ; Transformer ; BERT ; DistilBERT ; RoBERTa ; FinetuningΠερίληψη
Η ανάλυση συναισθήματος σε δεδομένα κοινωνικής δικτύωσης αποτελεί ένα από τα πλέον ενεργά πεδία έρευνας στην Επεξεργασία Φυσικής Γλώσσας, με ευρείες εφαρμογές στην παρακολούθηση κοινής γνώμης, τη διαχείριση φήμης και την ανάλυση αγοράς. Στην εργασία παρουσιάζεται μια συγκριτική μελέτη μεθόδων αυτόματης ταξινόμησης συναισθήματος σε αναρτήσεις της πλατφόρμας Twitter, με χρήση του συνόλου δεδομένων Sentiment140, το οποίο αποτελείται από 1.6 εκατομμύρια tweets επισημασμένα μέσω απομακρυσμένης επίβλεψης. Για την εκπαίδευση και αξιολόγηση των μοντέλων χρησιμοποιήθηκε στρωματοποιημένο υποσύνολο 200.000 tweets, ισορροπημένο ως προς τις δύο κλάσεις (θετικό/αρνητικό). Εξετάστηκαν συνολικά επτά μοντέλα, κατανεμημένα σε δύο κατηγορίες: πέντε κλασικά μοντέλα μηχανικής μάθησης με αναπαραστάσεις TF-IDF (Logistic Regression, Naive Bayes, Linear SVM, Random Forest, Gradient Boosting) και δύο μοντέλα βασισμένα σε αρχιτεκτονικές Transformer (DistilBERT, Twitter-RoBERTa). Τα αποτελέσματα καταδεικνύουν σαφή υπεροχή των μοντέλων Transformer, με το Twitter-RoBERTa να επιτυγχάνει την υψηλότερη απόδοση έναντι της καλύτερης κλασικής μεθόδου. Τα ευρήματα υπογραμμίζουν τη σημασία της εξειδικευμένης προεκπαίδευσης σε domain-specific δεδομένα και επιβεβαιώνουν την ανωτερότητα των μοντέλων βαθιάς μάθησης για το συγκεκριμένο έργο, ενώ παράλληλα αναδεικνύουν τα κλασικά μοντέλα ως βιώσιμη επιλογή υπό υπολογιστικούς περιορισμούς.


