Πρόβλεψη βαθμολογίας ταινιών από κείμενα κριτικών χρησιμοποιώντας το μοντέλο BERT
Predicting movie ratings from review text using a BERT model

Bachelor Dissertation
Συγγραφέας
Τσελέντης, Σπυρίδων
Ημερομηνία
2025-05Επιβλέπων
Σωτηρόπουλος, ΔιονύσιοςΠροβολή/ Άνοιγμα
Λέξεις κλειδιά
BERT modelΠερίληψη
Με εφαρμογές στην εταιρική πληροφόρηση, την επιτήρηση των μέσων κοινωνικής δικτύωσης, την πολιτική ανάλυση και την υγειονομική περίθαλψη, η ανάλυση συναισθήματος είναι ένα σημαντικό πεδίο μελέτης στην επεξεργασία φυσικής γλώσσας (NLP), με την παρούσα μελέτη να διερευνά την αποτελεσματικότητα της κατηγοριοποίησης συναισθήματος με βάση τη βαθιά μάθηση χρησιμοποιώντας το μοντέλο BERT, δίνοντας έμφαση σε σύνολα δεδομένων κινηματογραφικών κριτικών. Παρόλο που έχουν δείξει αξιοσέβαστες επιδόσεις, οι παραδοσιακές τεχνικές ανάλυσης συναισθήματος, όπως οι τεχνικές Naïve Bayes και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM), δυσκολεύονται να χειριστούν περίπλοκες γλωσσικές δομές και εξαρτώμενες από το πλαίσιο μετατοπίσεις στάσεων, με την ακρίβεια της ταξινόμησης κειμένου να έχει αυξηθεί σημαντικά από τις πρόσφατες εξελίξεις στις αρχιτεκτονικές που βασίζονται σε μετασχηματιστές, ιδίως το BERT, χρησιμοποιώντας μηχανισμούς αυτοπροσοχής και καταγράφει το αμφίδρομο πλαίσιο.
Στην παρούσα διατριβή παρουσιάζεται μια μέθοδος για την κατηγοριοποίηση συναισθήματος, ξεκινώντας από τη συλλογή και προετοιμασία δεδομένων, με το κύριο σύνολο δεδομένων που χρησιμοποιείται να αποτελεί το σύνολο δεδομένων IMDB, ένα δημοφιλές σημείο αναφοράς για την ανάλυση συναισθήματος. Η τοκενικοποίηση, η εξάλειψη διακοπτόμενων λέξεων και η λημματοποίηση είναι τεχνικές προεπεξεργασίας που χρησιμοποιούνται για τη βελτίωση της κειμενικής εισόδου για τα μοντέλα βαθιάς μάθησης, με την μελέτη να παρουσιάζει και να αντιπαραβάλλει διάφορες μεθοδολογίες μηχανικής μάθησης και βαθιάς μάθησης προκειμενου να καταδειχθεί η υπεροχή των μοντέλων που βασίζονται σε μετασχηματιστές έναντι των συμβατικών προσεγγίσεων.
Σύμφωνα με τα πειραματικά αποτελέσματα, το BERT υπερτερεί έναντι των επαναλαμβανόμενων νευρωνικών δικτύων και των παραδοσιακών τεχνικών μηχανικής μάθησης στην κατηγοριοποίηση συναισθημάτων, επιτυγχάνοντας εξαιρετική ακρίβεια και ανθεκτικότητα, με την αυξημένη ακρίβεια, την ανάκληση και την βαθμολογία F1 του μοντέλου να είναι αποτέλεσμα της ικανότητάς του να συλλαμβάνει σύνθετες εκφράσεις συναισθήματος, επισημαίνοντας όμως και αρκετά σημαντικά μειονεκτήματα, παρά τα πλεονεκτήματά του όπως θέματα ερμηνευσιμότητας, υπολογιστική πολυπλοκότητα και εξάρτηση από τεράστια σύνολα δεδομένων.
Τα αποτελέσματα αυτής της μελέτης αναδεικνύουν τις δυνατότητες των σχεδίων που βασίζονται σε μετασχηματιστές για εφαρμογές ανάλυσης συναισθήματος στον πραγματικό κόσμο, με την μελλοντική έρευνα να εξετάζει στρατηγικές για την υπέρβαση των σημερινών περιορισμών, όπως η ενσωμάτωση πολυτροπικής ανάλυσης συναισθήματος συνδυάζοντας δεδομένα φωνής και έκφρασης προσώπου, η βελτίωση της ερμηνευσιμότητας με προσεγγίσεις οπτικοποίησης της προσοχής και η αύξηση της ταχύτητας εξαγωγής συμπερασμάτων μέσω της απόσταξης μοντέλων, με την επίλυσή τους πιθανόν να επιτρέπει να γίνουν τα μοντέλα κατηγοριοποίησης συναισθήματος πιο αποτελεσματικά, ευέλικτα και αντιληπτά για μια σειρά χρήσεων.