A cascaded BERT model for sentiment classification

Papadakis, Ioannis; Παπαδάκης, Ιωάννης

dc.contributor.advisor	Sotiropoulos, Dionisios
dc.contributor.advisor	Σωτηρόπουλος, Διονύσιος
dc.contributor.author	Papadakis, Ioannis
dc.contributor.author	Παπαδάκης, Ιωάννης
dc.date.accessioned	2025-11-25T05:45:06Z
dc.date.available	2025-11-25T05:45:06Z
dc.date.issued	2025-09
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/18561
dc.description.abstract	Η παρούσα διπλωματική εργασία παρουσιάζει την ανάπτυξη και αξιολόγηση ενός μοντέλου βασισμένου σε BERT (Bidirectional Encoder Representations from Transformers) για πολυκατηγορική αναγνώριση συναισθημάτων σε κείμενο. Η ιδιαίτερη συνεισφορά αυτής της εργασίας είναι η ολοκληρωμένη εκπαίδευση του BERT από την αρχή— συμπεριλαμβανομένων των φάσεων προ-εκπαίδευσης και βελτιστοποίησης—αντί να βασίζεται σε δημόσια διαθέσιμα προ-εκπαιδευμένα μοντέλα. Αυτή η προσέγγιση παρέχει εμπειρικές γνώσεις σχετικά με τον τρόπο που τα γλωσσικά μοντέλα αποκτούν γλωσσική γνώση και μαθαίνουν μοτίβα ειδικά για κάθε εργασία Η προσέγγιση ακολουθεί μια διαδικασία δύο σταδίων, την προ-εκπαίδευση και την βελτιστοποίηση. Προ-εκπαίδευση Για την προ-εκπαίδευση του μοντέλου, μια πλήρης βάση BERT (12 επίπεδα μετασχηματιστή και ~110M παράμετροι) εκπαιδεύεται ανεξάρτητα στο σύνολο δεδομένων της Αγγλικής Wikipedia (έκδοση 20231101) στο πείραμά μας πάνω σε στόχους MLM. Στη συνέχεια, το μοντέλο βελτιστοποιήθηκε για την ταξινόμηση συναισθημάτων σε ένα συνενωμένο σύνολο δεδομένων περίπου 32000 δειγμάτων από σύνολα δεδομένων Twitter Multi-class Sentiment και ακαδημαϊκών συναισθημάτων που είχαν συλλεχθεί στο πλαίσιο αυτής της εργασίας. Αυτά τα σύνολα δεδομένων δημιουργήθηκαν για τα ακόλουθα έξι συναισθήματα: Χαρά, Λύπη, Θυμός, Φόβος, Αγάπη και Έκπληξη. Η δραστηριότητα αναπτύχθηκε μέσω τεσσάρων φάσεων πειραματισμού, και η καθεμία περιελάμβανε βασικά μαθήματα. Το πρώτο στάδιο ήταν η άμεση εποπτευόμενη εκπαίδευση, η οποία βελτίωσε ένα τυχαία αρχικοποιημένο μοντέλο BERT για την ταξινόμηση συναισθημάτων. Αυτή η μέθοδος απέτυχε καταστροφικά για αυτό το σύνολο δεδομένων, φτάνοντας μόνο σε 31% ακρίβεια λόγω κατάρρευσης του μοντέλου, καθώς το μοντέλο προέβλεπε πάντα την πλειοψηφική τάξη (λύπη). Αυτή η αποτυχία αποτέλεσε ισχυρή εμπειρική υποστήριξη για την αρχή της γλωσσικής εξειδίκευσης πριν από την εργασία. Το δεύτερο βήμα ήταν η επικύρωση απόδειξης της ιδέας με μια προσέγγιση δύο βημάτων, ένα μικρότερο μοντέλο (6 επιπέδων για BERT) και το σώμα WikiText-2 με περιβάλλον CPU. Αυτό είχε ως αποτέλεσμα ακρίβεια περίπου 89%, πράγμα που σημαίνει ότι η προσέγγιση δύο φάσεων είναι έγκυρη και μπορεί να δικαιολογηθεί για ανάπτυξη σε πλήρη κλίμακα. Στο τρίτο στάδιο, στοχεύσαμε στην κατασκευή υποδομής και στη μετάβαση σε έναν διακομιστή GPU NVIDIA L40S 48GB. Αυτό αποκάλυψε μια σειρά από τεχνικές προκλήσεις, όπως ζητήματα λειτουργικού συστήματος (ανάγκη μετάβασης από ένα μη συμβατό CentOS Stream 9 σε Ubuntu 22.04 LTS), προβλήματα μεταγλώττισης Python και προβλήματα εξάρτησης βιβλιοθηκών. Αυτά αντιμετωπίστηκαν συστηματικά μέσω της δημιουργίας μιας πλήρους σουίτας αυτοματισμού DevOps για σενάρια ανάπτυξης, συγχρονισμού και ρύθμισης περιβάλλοντος. Η πλήρης βελτιστοποίηση πραγματοποιήθηκε στο 4ο και τελευταίο στάδιο, το οποίο είναι η εκπαίδευση με ένα πλήρες μοντέλο BERT 12 επιπέδων σε ολόκληρο το σύνολο δεδομένων της Αγγλικής Wikipedia, συμπεριλαμβανομένης της βελτιστοποίησης υπερπαραμέτρων που βασίζεται στην Optuna από το Hugging Face Trainer. Η φάση προ-εκπαίδευσης διήρκεσε περίπου 2,5 ώρες στην GPU NVIDIA L40S. Η φάση συντονισμού πραγματοποιήθηκε χρησιμοποιώντας το συγχωνευμένο σύνολο δεδομένων Twitter-Emotion και πραγματοποιήθηκε αυτόματη αναζήτηση υπερπαραμέτρων σε διάστημα 10 δοκιμών για να εντοπιστούν οι καταλληλότερες ρυθμίσεις ρυθμού εκμάθησης και μεγέθους παρτίδας. Το καλύτερο μοντέλο πέτυχε μέση ακρίβεια 91,3% στο σύνολο δοκιμών και επέδειξε πολλά υποσχόμενα αποτελέσματα για τη χαρά (βαθμολογία F1: 0,94), τη λύπη (βαθμολογία F1: 0,95) και τον θυμό (βαθμολογία F1: 0,91). Οι κατηγορίες φόβου (βαθμολογία F1: 0,88), αγάπης (βαθμολογία F1: 0,83) και έκπληξης (βαθμολογία F1: 0,72) παρουσίασαν σχετικά χαμηλότερη απόδοση λόγω της μικρότερης ποσότητας δεδομένων εκπαίδευσης σε αυτές τις κατηγορίες, καθώς και σημαντικής σημασιολογικής επικάλυψης με άλλες κατηγορίες συναισθημάτων. Η κατηγορία έκπληξης, ως η πιο υποεκπροσωπούμενη στα δεδομένα εκπαίδευσης (~3% των δειγμάτων), ήταν η πιο δύσκολη. Αυτή η εργασία δείχνει τη σημασία της διφασικής μεθόδου στην εκπαίδευση γλωσσικού μοντέλου από την αρχή, τα τεχνικά προβλήματα που έχουν λύσει οι συμμετέχοντες κατά την εγκατάσταση της υποδομής GPU και τη χρησιμότητα της αρχιτεκτονικής BERT για την ταξινόμηση συναισθημάτων. Επίσης, καταδεικνύει τη σημασία της αναζήτησης πλέγματος και της μεθοδικής προσέγγισης σε έργα βαθιάς μάθησης. Το έργο καταδεικνύει αποτελεσματικά ότι η εκπαίδευση ενός υπερσύγχρονου γλωσσικού μοντέλου από την αρχή είναι δυνατή, αρκεί να ακολουθούμε την επιστημονική νοοτροπία, να διαθέτουμε αρκετά ισχυρούς υπολογιστικούς πόρους και να ενεργούμε σε DevOps υψηλής κλίμακας.	el
dc.format.extent	59	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	A cascaded BERT model for sentiment classification	el
dc.title.alternative	Ένα πολυσταδιακό μοντέλο BERT για την ανάλυση συναισθήματος	el
dc.type	Bachelor Dissertation	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	This thesis presents the development and evaluation of a BERT-based (Bidirectional Encoder Representations from Transformers) model for multi-class emotion recognition in text. The distinctive contribution of this work is the comprehensive training of BERT from scratch—including both pre-training and fine-tuning phases— rather than relying on publicly available pre-trained models. This approach provides empirical insights into how language models acquire linguistic knowledge and learn task-specific patterns from data. . The approach follows a two-stage process as pre-traning and fine-tuning. Pre- training To pre-train the model, a full BERT-base (12 Transformer layers, and ~110M parameters) is independently trained on English Wikipedia data set(version 20231101) in our experiment over MLM objectives. Subsequently, the model was fine-tuned for emotion classification on a concatenated dataset of about 32000 samples from Twitter Multi-class Sentiment and academic Emotion datasets which had been collected as part of this work; these datasets were generated for following six emotions: Joy, Sadness, Anger, Fear, Love and Surprise. The activity was developed through four phases of experimentation, and each had key lessons. The first stage was the direct supervised training, which fine-tuned a randomly initialized BERT model for sentiment classification. This method catastrophically failed for this dataset reaching only 31% accuracy due to model collapse since the model was always predicting majority class (sadness). This failure constituted solid empirical support for the principle of linguistic pre-task specialization. The second step was proof-of-concept validation with a two-step approach, a smaller model (6-layer for BERT) and the WikiText-2 corpus with CPU environment. This resulted in about 89% accuracy, meaning that the two-phase approach is valid and can be justified to be deployed on a full scale. In the third stage, we aimed to build infrastructure and move on to an NVIDIA L40S 48GB GPU server. This uncovered a number of technical challenges including OS issues (needing to move from an incompatible CentOS Stream 9 To Ubuntu 22.04 LTS), Python compilation problems, and library depedency problems. These were systematically addressed through the creation of a full suite of DevOps automation for deployment, sync, environment setup scripts. The full-scale fine-tuning was conducted in the 4th and last stage, which is training with a complete 12 layers BERT model on entire English Wikipedia dataset including the Optuna-based hyperparameter optimization by Hugging Face Trainer. The pre- training phase lasted about 2.5 hours on the NVIDIA L40S GPU. The tuning phase was conducted using the merged Twitter-Emotion dataset and automatic hyperparameter search over 10 trials were done to find out the most appropriate learning rate and batch size settings. The best model achieved an average accuracy of 91.3% on the test set, and demonstrated promising results for joy (F1-score: 0.94), sadness (F1-score: 0.95) and anger (F1-score: 0.91). The fear (F1-score: 0.88), love (F1-score: 0.83) and surprise (F1-score: 0.72) classes exhibit relatively lower performance because of the smaller amount of training data in these categories, plus significant semantic overlap with other emotion categories. The surprise category, as the most under-represented one in the training data (~3% of samples) was the hardest. This paper shows the importance of two-phase method in training language model from scratch, technical problems participants have solved when seeting up GPU infrastructure and the usefulness of BERT architecture for emotion classification. Also, it also demonstrates the importance of grid search and methodical approach in deep learning projects. The project effectively demonstrates that training a state-of- the-art language model from scratch is possible provided we follow the scientific mindset, have strong enough computational resources, and act high scale DevOps.	el
dc.subject.keyword	BERT	el
dc.subject.keyword	Sentiment analysis	el
dc.subject.keyword	Emotion recognition	el
dc.subject.keyword	Transformers	el
dc.subject.keyword	Pre-training	el
dc.subject.keyword	4 Fine-tuning	el
dc.subject.keyword	From Scratch Training 5 Masked Language Modeling	el
dc.subject.keyword	Hyperparameter optimization	el
dc.date.defense	2025-09

Files in this item

Name:: Papadakis_P21126.pdf
Size:: 5.174Mb
Format:: PDF
Description:: Bachelor dissertation

View/Open

This item appears in the following Collection(s)

Τμήμα Πληροφορικής

Show simple item record

Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα