Natural language processing and text classification with Bert & BiLSTM model
Επεξεργασία φυσικής γλώσσας και ταξινόμηση κειμένων με μοντέλο Bert & BiLSTM
Bachelor Dissertation
Συγγραφέας
Touloupis, Ioannis
Ημερομηνία
2024-09Προβολή/ Άνοιγμα
Λέξεις κλειδιά
BiLSTM ; Bert ; Transformers ; Tweets ; COVID-19 ; Optimizers ; Training ; Machine learning modelΠερίληψη
Αυτή η διπλωματική εργασία αναφέρεται στην αρχιτεκτονική των
μοντέλων βαθιάς μάθησης. Αυτό επιτυγχάνεται με τη χρήση μοντέλων
βαθιάς μάθησης για την ταξινόμηση των tweets που σχετίζονται με τον
Covid-19 σε τρεις διαφορετικές κατηγορίες. Η πρώτη κατηγορία αφορά
tweets που είναι υπέρ του εμβολιασμού, συμφωνούν και εφαρμόζουν
μεθόδους προστασίας κατά του ιού. Η δεύτερη κατηγορία αφορά
tweets που είναι κατά του εμβολιασμού και προωθούν θεωρίες
συνωμοσίας. Η τρίτη κατηγορία αφορά tweets που έχουν ουδέτερη
στάση.
Συγκεκριμένα, για την επίλυση του παραπάνω προβλήματος,
συλλέχθηκε ένας αριθμός tweets ώστε να εκπαιδεύσουμε τα δύο
μοντέλα βαθιάς μάθησης που χρησιμοποιούμε, ένα Δικτυακό Μοντέλο
Bidirectional LSTM και ένα μοντέλο Bert. Αυτά τα μοντέλα θα
αναλυθούν και θα εξηγηθούν βήμα-βήμα, και ταυτόχρονα θα δοθεί
έμφαση
σε
κάποιες
διαφορές
μεταξύ
τους.
Για να εκπαιδεύσουμε αυτά τα μοντέλα, έπρεπε πρώτα να συλλέξουμε
και να κατηγοριοποιήσουμε τα tweets. Κατά τη διάρκεια αυτού του
βήματος χρειάστηκε να βρούμε μια νέα μέθοδο συλλογής λόγω
αλλαγών στην πολιτική του Twitter. Επιπλέον, θα παρουσιάσουμε την
προετοιμασία αυτών των tweets ώστε τα μοντέλα να μπορούν να τα
δεχθούν και να τα χρησιμοποιήσουν για εκπαίδευση με τον καλύτερο
δυνατό
τρόπο.
Η όλη προετοιμασία και η διαδικασία περιγράφονται λεπτομερώς
παρακάτω, ενώ στο τέλος παρουσιάζονται τα αποτελέσματα και οι
παρατηρήσεις σχετικά με τα μοντέλα.