Εμφάνιση απλής εγγραφής

dc.contributor.advisorΜαγκλογιάννης, Ηλίας
dc.contributor.authorΡούσσος, Σωτήριος
dc.date.accessioned2022-03-24T09:14:53Z
dc.date.available2022-03-24T09:14:53Z
dc.date.issued2022-02
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/14248
dc.identifier.urihttp://dx.doi.org/10.26267/unipi_dione/1671
dc.description.abstractΗ μηχανική μάθηση διανύει μια περίοδο συνεχούς ανάπτυξης. Τα τελευταία χρόνια, όλο και περισσότερο, οι τεχνικές μηχανικής μάθησης χρησιμοποιούνται στην Ιατρική για διάφορα νοσήματα μεταξύ άλλων και των λοιμωδών νοσημάτων, όπως η HIV λοίμωξη. Στις αρχές του 2011 σημειώθηκε επιδημική έκρηξη της HIV λοίμωξης στον πληθυσμό των χρηστών ενδοφλέβιων ναρκωτικών (ΧΕΝ) της Αθήνας. Το Πανεπιστήμιο Αθηνών σε συνεργασία με τον Οργανισμό Κατά των Ναρκωτικών υλοποίησαν το πρόγραμμα ΑΡΙΣΤΟΤΕΛΗΣ, με σκοπό τόσο τον έλεγχο όσο και τη διασύνδεση σε φροντίδα των ΧΕΝ με HIV λοίμωξη. Σκοπός της παρούσας διπλωματικής εργασίας είναι η εύρεση βέλτιστου ταξινομητή για την HIV λοίμωξη σε ΧΕΝ της Αθήνας. Τα δεδομένα που χρησιμοποιήθηκαν προήλθαν από το πρόγραμμα ΑΡΙΣΤΟΤΕΛΗΣ και αφορούσαν στους 3.320 μοναδικούς ΧΕΝ. Επιπροσθέτως, περιείχαν πληροφορίες για τα δημογραφικά χαρακτηριστικά, τη χρήση ουσιών, τις σεξουαλικές συμπεριφορές και τα προγράμματα μείωσης της βλάβης (προγράμματα υποκατάστασης με οπιοειδή, λήψη δωρεάν συρίγγων και άλλα). Εφαρμόστηκαν πέντε αλγόριθμοι ταξινόμησης (Logistic Regression, Random Forest, Support Vector Machines, k-Εγγύτεροι Γείτονες και Decision Tree) χρησιμοποιώντας τα δεδομένα: 1) χωρίς επαναδειγματοληψία, 2) με υποδειγματοληψία, 3) με τυχαία υπερδειγματοληψία, 4) με τεχνική υπερδειγματοληψίας συνθετικής μειονότητας και 5) με προσαρμοστική συνθετική μέθοδο δειγματοληψίας. Οι προαναφερθείσες περιπτώσεις εφαρμόστηκαν στο σύνολο των χαρακτηριστικών, ύστερα από την επιλογή μέρους αυτών καθώς και έπειτα από ανάλυση σε κύριες συνιστώσες. Την καλύτερη επίδοση την είχε ο αλγόριθμος Random forest όταν εφαρμόστηκε σε τυχαία υπερδειγματοληψία. Η ευαισθησία, η ορθότητα καθώς και το AUC score ήταν 0.9929, 0.9805 και 0.9967, αντίστοιχα. Επιλέγοντας 34 από τα 112 χαρακτηριστικά η ευαισθησία, η ορθότητα καθώς και το AUC score ήταν 0.9929, 0.9751 και 0.9967, αντίστοιχα. Συμπερασματικά, το αποτέλεσμα που προέκυψε από τον έλεγχο για την HIV λοίμωξη σε ΧΕΝ της Αθήνας προβλέφθηκε ορθά σε υψηλά ποσοστά, καθιστώντας τους αλγορίθμους ως ένα επιπλέον εργαλείο για την έγκαιρη ανίχνευση των οροθετικών ΧΕΝ, προκειμένου να αποφευχθεί μια νέα επιδημική έκρηξη.el
dc.format.extent105el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleΑλγόριθμοι μηχανικής μάθησης σε ανομοιογενή δεδομένα: πρόβλεψη της HIV λοίμωξης σε χρήστες ενδοφλέβιων ναρκωτικών της Αθήναςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENMachine learning is going through a period of continuous development. In recent years, more and more, machine learning techniques are being used in medicine for numerous diseases including infectious diseases, such as HIV infection. At the beginning of 2011, there was an HIV outbreak in people who inject drugs (PWID) in the metropolitan area of Athens. The University of Athens, in collaboration with the Organization Against Drugs, implemented the ARISTOTLE program with the aim of both testing and linking to HIV care. The aim of this thesis is to find the best classifier for HIV infection in PWID. Data from the ARISTOTLE program was used and concerned 3320 unique PWID. The data included information on demographic characteristics, substance use, sexual behavior, and information about harm reduction programs (opioid substitution therapy, free syringes, etc.). Five classification algorithms (Logistic Regression, Random Forest, Support Vector Machines, k-Nearest Neighbors, and Decision Tree) were used to the data: 1) without resampling; 2) by random undersampling; 3) by random oversampling; 4) by synthetic minority oversampling technique and 5) by adaptive synthetic sampling method. These cases were applied to all features, after feature selection and after principal components analysis. The Random Forest algorithm performed best when random oversampling was used. Sensitivity, accuracy, and AUC score were 0.9929, 0.9805 and 0.9967, respectively. Selecting 34 of the 112 characteristics, the sensitivity, accuracy, and AUC score were 0.9929, 0.9751 and 0.9967, respectively. In conclusion, the status of HIV infection in the sample of PWID in Athens was correctly predicted at high rates, making algorithms an additional tool for early diagnosis in HIV cases, in order to avoid a new HIV outbreak.el
dc.contributor.masterΠληροφοριακά Συστήματα και Υπηρεσίεςel
dc.subject.keywordΜη ισορροπημένα δεδομέναel
dc.subject.keywordΑλγόριθμοι μηχανικής μάθησηςel
dc.subject.keywordHIVel
dc.subject.keywordΧρήστες ενδοφλέβιων ναρκωτικώνel
dc.date.defense2022-02-28


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»