dc.contributor.advisor | Φιλιππάκης, Μιχαήλ | |
dc.contributor.author | Γεννούζης, Γεράσιμος - Ιάκωβος | |
dc.date.accessioned | 2024-09-03T07:30:54Z | |
dc.date.available | 2024-09-03T07:30:54Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/16704 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/4126 | |
dc.description.abstract | Ο σακχαρώδης διαβήτης είναι μια διαδεδομένη χρόνια νόσος με σημαντικές επιπτώσεις στη δημόσια υγεία και την ατομική ευημερία. Τα τελευταία χρόνια, οι τεχνικές μηχανικής μάθησης (MM) έχουν αναδειχθεί ως ισχυρά εργαλεία για την πρόβλεψη των αποτελεσμάτων του διαβήτη, προσφέροντας τη δυνατότητα βελτίωσης της έγκαιρης ανίχνευσης. Αυτή η εργασία παρουσιάζει μια ολοκληρωμένη αξιολόγηση διαφόρων μοντέλων ΜΜ, συμπεριλαμβανομένης της λογιστικής παλινδρόμησης (LR), των μηχανών διανυσμάτων υποστήριξης (SVM), του τυχαίου δάσους (RF), των k-πλησιέστερων γειτόνων (KNN), των πολυστρωματικών perceptrons (MLPs) και του μοντέλου gradient boosting (GΒ), στο πλαίσιο της πρόβλεψης του διαβήτη. Αξιοποιώντας εκτενώς τις δυνατότητες της βιβλιοθήκης Scikit-learn στην Python, αναλύουμε την απόδοση αυτών των μοντέλων χρησιμοποιώντας το σύνολο δεδομένων PIMA και διερευνούμε τον αντίκτυπο των τεχνικών κλιμάκωσης όπως η κανονικοποίηση (NormalizationNormalization), η προτοτυποποίηση(Standardization) και η μηχανική χαρακτηριστικών (Feature Engineer- τεχνικές Binning και One hot encoding). Τα ευρήματά μας αναδεικνύουν ότι το μοντέλο τυχαίου δάσους (RFRF) ως τον πιο αποτελεσματικό αλγόριθμο, επιτυγχάνοντας ακρίβεια 85% όταν συνδυάζεται με προτοτυποποίηση και μηχανική χαρακτηριστικών (Feature Engineer- τεχνικές Binning και One hot encoding). Αυτή η έρευνα συμβάλλει στον αυξανόμενο όγκο γνώσεων σχετικά με τις αναλύσεις υγειονομικής περίθαλψης που βασίζονται σε ΜΜ παρέχοντας πληροφορίες για τα δυνατά σημεία και τους περιορισμούς διαφορετικών αλγορίθμων για την πρόβλεψη του διαβήτη. Επιπλέον, η μελέτη μας προσφέρει πρακτικές οδηγίες για επαγγελματίες υγείας και ερευνητές, διευκολύνοντας την έγκαιρη ανίχνευση και εξατομικευμένες παρεμβάσεις για βελτιωμένη διαχείριση του διαβήτη. Μέσω του προσδιορισμού μελλοντικών κατευθύνσεων έρευνας, συμπεριλαμβανομένης της εξατομικευμένης ιατρικής και της βελτίωσης των μεθόδων προεπεξεργασίας, αυτή η εργασία στοχεύει να τονώσει τη συνεχή καινοτομία στον τομέα των αναλύσεων υγειονομικής περίθαλψης που βασίζονται σε ΜΜ και να προωθήσει τη διεπιστημονική συνεργασία για την αντιμετώπιση των προκλήσεων της διαχείρισης χρόνιων ασθενειών. | el |
dc.format.extent | 159 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Τεχνικές data mining και προβλεπτική αναλυτικής σακχαρώδους διαβήτη | el |
dc.title.alternative | Data mining techniques and predictive analysis for diabetes mellitus | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | Diabetes mellitus is a prevalent chronic disease with significant implications for public health and
individual well being. In recent years, machine learning (M L ) techniques have emerged as powerful tools
for predicting diabetes outcomes, offering the potential to improve early detection. This paper presents a
comprehensive evaluation of various ML models, including logistic regression (LR), support vector
machines (SVM), random forest (RF), k nearest neigh bors (KNN), multilayer perceptrons (MLPs), and of
the gradient boosting (GB) model, in the context of diabetes prediction. Making extensive use of the
capabilities of the Scikit learn library in Python, we analyze the performance of these models using the
PIMA dataset and investigate the impact of preprocessing techniques such as Normalization,
Standardization, and Feature Engineer Binning and One hot encoding techniques). Our findings highlight
the random forest (RF) model as the most efficient algorithm, achieving 85% accuracy when combined
with feature engineering (Binning and One hot encoding techniques). This research contributes to the
growing body of knowledge on ML based healthcare analytics by providing insight into the strengths and
limitations of different algorithms for diabetes prediction. Furthermore, our study offers practical guidance
for healthcare professionals and researchers, facilitating early detection and personalized interventions
for improved diabetes management By identifying future research directions, including personalized
medicine, and improving pretreatment methods, this work aims to stimulate continued innovation in the
field of ML based healthcare analytics and promote interdisciplinary collaboration to address the challenges of chronic disease management. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | Σακχαρώδης διαβήτης | el |
dc.subject.keyword | Μηχανική μάθηση | el |
dc.subject.keyword | Λογιστική παλινδρόμηση | el |
dc.subject.keyword | Τυχαίο δάσος | el |
dc.subject.keyword | K-πλησιέστερων γειτόνων | el |
dc.subject.keyword | Κανονικοποίηση | el |
dc.subject.keyword | Τεχνική κλιμάκωσης | el |
dc.subject.keyword | Μηχανική χαρακτηριστικών | el |
dc.date.defense | 2024-04-08 | |