Ομαδοποίηση και κατηγοριοποίηση δεδομένων σύντομων κειμένων

Μπάνος, Ιωάννης

Supervised and unsupervised learning for short text data

Master Thesis

Συγγραφέας

Μπάνος, Ιωάννης

Ημερομηνία

2026-03

Περίληψη

Η παρούσα διπλωματική εργασία εξετάζει την κατηγοριοποίηση και ομαδοποίηση δεδομένων σύντομων κειμένων με εφαρμογή σε κριτικές ασθενών για φαρμακευτικές αγωγές. Στόχος της μελέτης είναι η ανάλυση συναισθήματος των κριτικών, καθώς και η ανίχνευση υποκείμενων μοτίβων που συνδέονται με τις εμπειρίες και την ικανοποίηση των ασθενών. Αρχικά παρουσιάζεται το θεωρητικό υπόβαθρο της μηχανικής μάθησης, τόσο εποπτευόμενης όσο και μη εποπτευόμενης, μαζί με τις κύριες μεθόδους εξόρυξης δεδομένων και επεξεργασίας φυσικής γλώσσας. Το σύνολο δεδομένων υφίσταται εκτενή προεπεξεργασία κειμένου και εξαγωγή χαρακτηριστικών μέσω BoW, TF-IDF και Word2Vec για την καλύτερη εφαρμογή των αλγορίθμων. Στο πλαίσιο της εποπτευόμενης μάθησης εφαρμόζονται ταξινομητές όπως Naive Bayes, Logistic Regression, Ridge, LinearSVC και SGD, ενώ στην μη εποπτευόμενη μάθηση υλοποιούνται οι αλγόριθμοι K-means και HDBSCAN για την ομαδοποίηση και οι PCA και UMAP για τη μείωση διαστάσεων και την οπτικοποίηση. Και στις δύο κατηγορίες αναλύονται τα εξωτερικά και εσωτερικά μέτρα αξιολόγησης των αλγορίθμων με σκοπό την σύγκριση τους. Τα αποτελέσματα αναδεικνύουν τις θεματικές ενότητες που κυριαρχούν στις κριτικές και επιβεβαιώνουν ότι ορισμένες μέθοδοι ταξινόμησης και ομαδοποίησης επιτυγχάνουν υψηλότερη ακρίβεια και συνοχή. Η εργασία καταλήγει ότι η συνδυαστική χρήση τεχνικών NLP και μοντέλων μηχανικής μάθησης αποτελεί αποτελεσματικό εργαλείο για την κατανόηση σύνθετων προτύπων σε δεδομένα σύντομων κειμένων.

Τίτλος Προγράμματος Μεταπτυχιακών Σπουδών

Εφαρμοσμένη Στατιστική

Τμήμα

Σχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης

Αριθμός σελίδων

Γλώσσα

Ελληνικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/19119

Συλλογή

Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμης

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα