A cascaded BERT model for sentiment classification
Ένα πολυσταδιακό μοντέλο BERT για την ανάλυση συναισθήματος

Bachelor Dissertation
Συγγραφέας
Papadakis, Ioannis
Παπαδάκης, Ιωάννης
Ημερομηνία
2025-09Προβολή/ Άνοιγμα
Λέξεις κλειδιά
BERT ; Sentiment analysis ; Emotion recognition ; Transformers ; Pre-training ; 4 Fine-tuning ; From Scratch Training 5 Masked Language Modeling ; Hyperparameter optimizationΠερίληψη
Η παρούσα διπλωματική εργασία παρουσιάζει την ανάπτυξη και αξιολόγηση ενός
μοντέλου βασισμένου σε BERT (Bidirectional Encoder Representations from
Transformers) για πολυκατηγορική αναγνώριση συναισθημάτων σε κείμενο. Η
ιδιαίτερη συνεισφορά αυτής της εργασίας είναι η ολοκληρωμένη εκπαίδευση του
BERT από την αρχή— συμπεριλαμβανομένων των φάσεων προ-εκπαίδευσης και
βελτιστοποίησης—αντί να βασίζεται σε δημόσια διαθέσιμα προ-εκπαιδευμένα
μοντέλα. Αυτή η προσέγγιση παρέχει εμπειρικές γνώσεις σχετικά με τον τρόπο που
τα γλωσσικά μοντέλα αποκτούν γλωσσική γνώση και μαθαίνουν μοτίβα ειδικά για
κάθε εργασία
Η προσέγγιση ακολουθεί μια διαδικασία δύο σταδίων, την προ-εκπαίδευση και την
βελτιστοποίηση. Προ-εκπαίδευση Για την προ-εκπαίδευση του μοντέλου, μια πλήρης
βάση BERT (12 επίπεδα μετασχηματιστή και ~110M παράμετροι) εκπαιδεύεται
ανεξάρτητα στο σύνολο δεδομένων της Αγγλικής Wikipedia (έκδοση 20231101) στο
πείραμά μας πάνω σε στόχους MLM. Στη συνέχεια, το μοντέλο βελτιστοποιήθηκε για
την ταξινόμηση συναισθημάτων σε ένα συνενωμένο σύνολο δεδομένων περίπου
32000 δειγμάτων από σύνολα δεδομένων Twitter Multi-class Sentiment και
ακαδημαϊκών συναισθημάτων που είχαν συλλεχθεί στο πλαίσιο αυτής της εργασίας.
Αυτά τα σύνολα δεδομένων δημιουργήθηκαν για τα ακόλουθα έξι συναισθήματα:
Χαρά, Λύπη, Θυμός, Φόβος, Αγάπη και Έκπληξη.
Η δραστηριότητα αναπτύχθηκε μέσω τεσσάρων φάσεων πειραματισμού, και η
καθεμία περιελάμβανε βασικά μαθήματα. Το πρώτο στάδιο ήταν η άμεση
εποπτευόμενη εκπαίδευση, η οποία βελτίωσε ένα τυχαία αρχικοποιημένο μοντέλο
BERT για την ταξινόμηση συναισθημάτων. Αυτή η μέθοδος απέτυχε καταστροφικά
για αυτό το σύνολο δεδομένων, φτάνοντας μόνο σε 31% ακρίβεια λόγω κατάρρευσης
του μοντέλου, καθώς το μοντέλο προέβλεπε πάντα την πλειοψηφική τάξη (λύπη).
Αυτή η αποτυχία αποτέλεσε ισχυρή εμπειρική υποστήριξη για την αρχή της
γλωσσικής εξειδίκευσης πριν από την εργασία.
Το δεύτερο βήμα ήταν η επικύρωση απόδειξης της ιδέας με μια προσέγγιση δύο
βημάτων, ένα μικρότερο μοντέλο (6 επιπέδων για BERT) και το σώμα WikiText-2 με
περιβάλλον CPU. Αυτό είχε ως αποτέλεσμα ακρίβεια περίπου 89%, πράγμα που
σημαίνει ότι η προσέγγιση δύο φάσεων είναι έγκυρη και μπορεί να δικαιολογηθεί για
ανάπτυξη σε πλήρη κλίμακα.
Στο τρίτο στάδιο, στοχεύσαμε στην κατασκευή υποδομής και στη μετάβαση σε έναν
διακομιστή GPU NVIDIA L40S 48GB. Αυτό αποκάλυψε μια σειρά από τεχνικές
προκλήσεις, όπως ζητήματα λειτουργικού συστήματος (ανάγκη μετάβασης από ένα
μη συμβατό CentOS Stream 9 σε Ubuntu 22.04 LTS), προβλήματα μεταγλώττισης
Python και προβλήματα εξάρτησης βιβλιοθηκών. Αυτά αντιμετωπίστηκαν
συστηματικά μέσω της δημιουργίας μιας πλήρους σουίτας αυτοματισμού DevOps για
σενάρια ανάπτυξης, συγχρονισμού και ρύθμισης περιβάλλοντος.
Η πλήρης βελτιστοποίηση πραγματοποιήθηκε στο 4ο και τελευταίο στάδιο, το οποίο
είναι η εκπαίδευση με ένα πλήρες μοντέλο BERT 12 επιπέδων σε ολόκληρο το
σύνολο δεδομένων της Αγγλικής Wikipedia, συμπεριλαμβανομένης της
βελτιστοποίησης υπερπαραμέτρων που βασίζεται στην Optuna από το Hugging
Face Trainer. Η φάση προ-εκπαίδευσης διήρκεσε περίπου 2,5 ώρες στην GPU
NVIDIA L40S. Η φάση συντονισμού πραγματοποιήθηκε χρησιμοποιώντας το
συγχωνευμένο σύνολο δεδομένων Twitter-Emotion και πραγματοποιήθηκε αυτόματη
αναζήτηση υπερπαραμέτρων σε διάστημα 10 δοκιμών για να εντοπιστούν οι
καταλληλότερες ρυθμίσεις ρυθμού εκμάθησης και μεγέθους παρτίδας.
Το καλύτερο μοντέλο πέτυχε μέση ακρίβεια 91,3% στο σύνολο δοκιμών και επέδειξε
πολλά υποσχόμενα αποτελέσματα για τη χαρά (βαθμολογία F1: 0,94), τη λύπη
(βαθμολογία F1: 0,95) και τον θυμό (βαθμολογία F1: 0,91). Οι κατηγορίες φόβου
(βαθμολογία F1: 0,88), αγάπης (βαθμολογία F1: 0,83) και έκπληξης (βαθμολογία F1:
0,72) παρουσίασαν σχετικά χαμηλότερη απόδοση λόγω της μικρότερης ποσότητας
δεδομένων εκπαίδευσης σε αυτές τις κατηγορίες, καθώς και σημαντικής
σημασιολογικής επικάλυψης με άλλες κατηγορίες συναισθημάτων. Η κατηγορία
έκπληξης, ως η πιο υποεκπροσωπούμενη στα δεδομένα εκπαίδευσης (~3% των
δειγμάτων), ήταν η πιο δύσκολη.
Αυτή η εργασία δείχνει τη σημασία της διφασικής μεθόδου στην εκπαίδευση
γλωσσικού μοντέλου από την αρχή, τα τεχνικά προβλήματα που έχουν λύσει οι
συμμετέχοντες κατά την εγκατάσταση της υποδομής GPU και τη χρησιμότητα της
αρχιτεκτονικής BERT για την ταξινόμηση συναισθημάτων. Επίσης, καταδεικνύει τη
σημασία της αναζήτησης πλέγματος και της μεθοδικής προσέγγισης σε έργα βαθιάς
μάθησης. Το έργο καταδεικνύει αποτελεσματικά ότι η εκπαίδευση ενός
υπερσύγχρονου γλωσσικού μοντέλου από την αρχή είναι δυνατή, αρκεί να
ακολουθούμε την επιστημονική νοοτροπία, να διαθέτουμε αρκετά ισχυρούς
υπολογιστικούς πόρους και να ενεργούμε σε DevOps υψηλής κλίμακας.


