Show simple item record

dc.contributor.advisorKyriazis, Dimosthenis
dc.contributor.advisorΚυριαζής, Δημοσθένης
dc.contributor.authorKouremenou, Eleftheria Georgia
dc.contributor.authorΚουρεμένου, Ελευθερία Γεωργία
dc.date.accessioned2023-09-08T07:30:46Z
dc.date.available2023-09-08T07:30:46Z
dc.date.issued2023
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/15692
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/3114
dc.description.abstractΣτην ακόλουθη διπλωματική, προτείνουμε μια ολοκληρωμένη μεθοδολογία που χρησιμοποιεί προηγμένα μοντέλα μηχανικής μάθησης και τεχνικές επεξεργασίας μεγάλων δεδομένων για την πρόβλεψη του καρκίνου του ήπατος. Πραγματοποιήσαμε αρχικά καθαρισμό και χαρτογράφηση δεδομένων σε ένα τεράστιο σύνολο δεδομένων, χρησιμοποιώντας εργαλεία όπως το Apache Sedona Spark και το Google Colab για να βελτιστοποιήσουμε τη σύνδεση και την επεξεργασία αυτών των μεγάλων πόρων δεδομένων. Ένα ουσιαστικό μέρος της μεθοδολογίας μας περιελάμβανε τη μετάφραση και τη μετατροπή των τιμών αίματος από μια γλώσσα στα αγγλικά και από χαρακτήρες σε διπλή μορφή. Επιπλέον, υπολογίσαμε τη μέση τιμή των αποτελεσμάτων αίματος κάθε ασθενή. Το σύνολο δεδομένων μας αποτελείται από αρχεία ασθενών με και χωρίς καρκίνο. Εάν το αρχείο ενός ασθενούς υπάρχει στο σύνολο δεδομένων του καρκίνου, εκχωρούμε y = 1, υποδεικνύοντας την παρουσία καρκίνου. Διαφορετικά, y=0, υποδηλώνοντας μη καρκινικό. Τα προγνωστικά μας μοντέλα λαμβάνουν υπόψη διάφορους εξωτερικούς παράγοντες που μπορεί να συμβάλλουν στην ασθένεια και μεταφράζουν τα πρωτόκολλα icd9 και icd10 , όπως επιπλοκές από χρήση ναρκωτικών, χειρουργική επέμβαση, αφαίρεση οργάνων, καθώς και δημογραφικούς παράγοντες όπως η ηλικία και το φύλο και καταστάσεις υγείας όπως η κίρρωση , ηπατίτιδα Β . Αυτοί οι παράγοντες αξιολογήθηκαν χρησιμοποιώντας διάφορα μοντέλα μηχανικής μάθησης, συμπεριλαμβανομένων της μάθησης χωρίς επίβλεψη, της εποπτευόμενης μάθησης, του LightGBM, του XGBoost, του Support Vector Machine και του Gradient Boosting. Τα αποτελέσματα των μοντέλων αξιολογήθηκαν και συγκρίθηκαν, με τα πιο σημαντικά χαρακτηριστικά που βρέθηκαν να περιλαμβάνουν την ηλικία, την οικογενειακή κατάσταση (MER), τον τύπο του φύλου και τις προαναφερθείσες καταστάσεις υγείας. Τέλος, περιλαμβάνουμε μια ισχυρή εφαρμογή Επεξήγησης.el
dc.format.extent83el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/gr/*
dc.titleData mining, cleaning, feature extraction, and machine learning approaches for big data in electronic health records : liver cancer risk factor analysis and model explainabilityel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENIn this Thesis, we propose a comprehensive methodology that employs advanced machine learning models and big data processing techniques for predicting liver cancer. We first performed data cleaning and mapping on a vast dataset, making use of tools such as Apache Sedona Spark and Google Colab to optimize the joining and processing of these large data resources. An essential part of our methodology involved the translation and transformation of blood values from one language to English, and from characters to double format. Moreover, we computed the average value of each patient's blood results. Our dataset comprises of records of patients with and without cancer. If a patient's record exists in the cancer dataset, we assign y = 1, indicating the presence of cancer; otherwise, y=0, indicating non-cancerous. Our predictive models take into account various external factors that may contribute to the disease and translate icd9 and icd10 protocols , such as complications from drug use, surgery, organ removal, as well as demographic factors like age and sex, and health conditions such as cirrhosis , hepatitis b. These factors were assessed using various machine learning models including unsupervised learning, supervised learning, LightGBM, XGBoost, Support Vector Machine, and Gradient Boosting. The models' outputs were evaluated and compared, with the most important features found to include age, marital status (MER), sex type, and the above-mentioned health conditions.Finally we include a powerful Explainability implementation.el
dc.contributor.masterΠληροφοριακά Συστήματα και Υπηρεσίεςel
dc.subject.keywordExplainabilityel
dc.subject.keywordPySparkel
dc.subject.keywordLiver cancerel
dc.subject.keywordApache Sparkel
dc.subject.keywordParallel processingel
dc.subject.keywordMachine learningel
dc.subject.keywordData cleaningel
dc.subject.keywordData mappingel
dc.subject.keywordBig datael
dc.date.defense2023-09-06


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα
Except where otherwise noted, this item's license is described as
Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Contact Us
Send Feedback
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»