Show simple item record

Ομαδοποίηση και κατηγοριοποίηση δεδομένων σύντομων κειμένων

dc.contributor.advisorΤασουλής, Σωτήριος
dc.contributor.authorΜπάνος, Ιωάννης
dc.date.accessioned2026-04-02T12:43:13Z
dc.date.available2026-04-02T12:43:13Z
dc.date.issued2026-03
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/19119
dc.description.abstractΗ παρούσα διπλωματική εργασία εξετάζει την κατηγοριοποίηση και ομαδοποίηση δεδομένων σύντομων κειμένων με εφαρμογή σε κριτικές ασθενών για φαρμακευτικές αγωγές. Στόχος της μελέτης είναι η ανάλυση συναισθήματος των κριτικών, καθώς και η ανίχνευση υποκείμενων μοτίβων που συνδέονται με τις εμπειρίες και την ικανοποίηση των ασθενών. Αρχικά παρουσιάζεται το θεωρητικό υπόβαθρο της μηχανικής μάθησης, τόσο εποπτευόμενης όσο και μη εποπτευόμενης, μαζί με τις κύριες μεθόδους εξόρυξης δεδομένων και επεξεργασίας φυσικής γλώσσας. Το σύνολο δεδομένων υφίσταται εκτενή προεπεξεργασία κειμένου και εξαγωγή χαρακτηριστικών μέσω BoW, TF-IDF και Word2Vec για την καλύτερη εφαρμογή των αλγορίθμων. Στο πλαίσιο της εποπτευόμενης μάθησης εφαρμόζονται ταξινομητές όπως Naive Bayes, Logistic Regression, Ridge, LinearSVC και SGD, ενώ στην μη εποπτευόμενη μάθηση υλοποιούνται οι αλγόριθμοι K-means και HDBSCAN για την ομαδοποίηση και οι PCA και UMAP για τη μείωση διαστάσεων και την οπτικοποίηση. Και στις δύο κατηγορίες αναλύονται τα εξωτερικά και εσωτερικά μέτρα αξιολόγησης των αλγορίθμων με σκοπό την σύγκριση τους. Τα αποτελέσματα αναδεικνύουν τις θεματικές ενότητες που κυριαρχούν στις κριτικές και επιβεβαιώνουν ότι ορισμένες μέθοδοι ταξινόμησης και ομαδοποίησης επιτυγχάνουν υψηλότερη ακρίβεια και συνοχή. Η εργασία καταλήγει ότι η συνδυαστική χρήση τεχνικών NLP και μοντέλων μηχανικής μάθησης αποτελεί αποτελεσματικό εργαλείο για την κατανόηση σύνθετων προτύπων σε δεδομένα σύντομων κειμένων.el
dc.format.extent70el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleΟμαδοποίηση και κατηγοριοποίηση δεδομένων σύντομων κειμένωνel
dc.title.alternativeSupervised and unsupervised learning for short text datael
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Χρηματοοικονομικής και Στατιστικής. Τμήμα Στατιστικής και Ασφαλιστικής Επιστήμηςel
dc.description.abstractENThis thesis examines the classification and clustering of short text data with application to patient reviews of pharmaceutical treatments. The aim of the study is to analyze the sentiment of the reviews, as well as to detect underlying patterns associated with patient experiences and satisfaction. Initially, the theoretical background of machine learning, both supervised and unsupervised, is presented, along with the main methods of data mining and natural language processing. The dataset undergoes extensive text preprocessing and feature extraction via BoW, TF-IDF and Word2Vec for the best application of the algorithms. In the context of supervised learning, classifiers such as Naive Bayes, Logistic Regression, Ridge, LinearSVC and SGD are applied, while in unsupervised learning, the algorithms K-means and HDBSCAN are implemented for clustering and PCA and UMAP for dimensionality reduction and visualization. In both categories, the external and internal evaluation metrics of the algorithms are analyzed for more meaningful comparison. The results highlight the thematic units that dominate the reviews and confirm that certain classification and clustering methods achieve higher accuracy and consistency. The paper concludes that the combined use of NLP techniques and machine learning models is an effective tool for understanding complex patterns in short text data.el
dc.contributor.masterΕφαρμοσμένη Στατιστικήel
dc.subject.keywordClassificationel
dc.subject.keywordClusteringel
dc.subject.keywordDrug reviewel
dc.subject.keywordSentiment analysisel
dc.subject.keywordMachine learningel
dc.date.defense2026-03-24


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»