Αλγόριθμοι μηχανικής μάθησης σε ανομοιογενή δεδομένα: πρόβλεψη της HIV λοίμωξης σε χρήστες ενδοφλέβιων ναρκωτικών της Αθήνας

Ρούσσος, Σωτήριος

dc.contributor.advisor	Μαγκλογιάννης, Ηλίας
dc.contributor.author	Ρούσσος, Σωτήριος
dc.date.accessioned	2022-03-24T09:14:53Z
dc.date.available	2022-03-24T09:14:53Z
dc.date.issued	2022-02
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/14248
dc.identifier.uri	http://dx.doi.org/10.26267/unipi_dione/1671
dc.description.abstract	Η μηχανική μάθηση διανύει μια περίοδο συνεχούς ανάπτυξης. Τα τελευταία χρόνια, όλο και περισσότερο, οι τεχνικές μηχανικής μάθησης χρησιμοποιούνται στην Ιατρική για διάφορα νοσήματα μεταξύ άλλων και των λοιμωδών νοσημάτων, όπως η HIV λοίμωξη. Στις αρχές του 2011 σημειώθηκε επιδημική έκρηξη της HIV λοίμωξης στον πληθυσμό των χρηστών ενδοφλέβιων ναρκωτικών (ΧΕΝ) της Αθήνας. Το Πανεπιστήμιο Αθηνών σε συνεργασία με τον Οργανισμό Κατά των Ναρκωτικών υλοποίησαν το πρόγραμμα ΑΡΙΣΤΟΤΕΛΗΣ, με σκοπό τόσο τον έλεγχο όσο και τη διασύνδεση σε φροντίδα των ΧΕΝ με HIV λοίμωξη. Σκοπός της παρούσας διπλωματικής εργασίας είναι η εύρεση βέλτιστου ταξινομητή για την HIV λοίμωξη σε ΧΕΝ της Αθήνας. Τα δεδομένα που χρησιμοποιήθηκαν προήλθαν από το πρόγραμμα ΑΡΙΣΤΟΤΕΛΗΣ και αφορούσαν στους 3.320 μοναδικούς ΧΕΝ. Επιπροσθέτως, περιείχαν πληροφορίες για τα δημογραφικά χαρακτηριστικά, τη χρήση ουσιών, τις σεξουαλικές συμπεριφορές και τα προγράμματα μείωσης της βλάβης (προγράμματα υποκατάστασης με οπιοειδή, λήψη δωρεάν συρίγγων και άλλα). Εφαρμόστηκαν πέντε αλγόριθμοι ταξινόμησης (Logistic Regression, Random Forest, Support Vector Machines, k-Εγγύτεροι Γείτονες και Decision Tree) χρησιμοποιώντας τα δεδομένα: 1) χωρίς επαναδειγματοληψία, 2) με υποδειγματοληψία, 3) με τυχαία υπερδειγματοληψία, 4) με τεχνική υπερδειγματοληψίας συνθετικής μειονότητας και 5) με προσαρμοστική συνθετική μέθοδο δειγματοληψίας. Οι προαναφερθείσες περιπτώσεις εφαρμόστηκαν στο σύνολο των χαρακτηριστικών, ύστερα από την επιλογή μέρους αυτών καθώς και έπειτα από ανάλυση σε κύριες συνιστώσες. Την καλύτερη επίδοση την είχε ο αλγόριθμος Random forest όταν εφαρμόστηκε σε τυχαία υπερδειγματοληψία. Η ευαισθησία, η ορθότητα καθώς και το AUC score ήταν 0.9929, 0.9805 και 0.9967, αντίστοιχα. Επιλέγοντας 34 από τα 112 χαρακτηριστικά η ευαισθησία, η ορθότητα καθώς και το AUC score ήταν 0.9929, 0.9751 και 0.9967, αντίστοιχα. Συμπερασματικά, το αποτέλεσμα που προέκυψε από τον έλεγχο για την HIV λοίμωξη σε ΧΕΝ της Αθήνας προβλέφθηκε ορθά σε υψηλά ποσοστά, καθιστώντας τους αλγορίθμους ως ένα επιπλέον εργαλείο για την έγκαιρη ανίχνευση των οροθετικών ΧΕΝ, προκειμένου να αποφευχθεί μια νέα επιδημική έκρηξη.	el
dc.format.extent	105	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Αλγόριθμοι μηχανικής μάθησης σε ανομοιογενή δεδομένα: πρόβλεψη της HIV λοίμωξης σε χρήστες ενδοφλέβιων ναρκωτικών της Αθήνας	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	Machine learning is going through a period of continuous development. In recent years, more and more, machine learning techniques are being used in medicine for numerous diseases including infectious diseases, such as HIV infection. At the beginning of 2011, there was an HIV outbreak in people who inject drugs (PWID) in the metropolitan area of Athens. The University of Athens, in collaboration with the Organization Against Drugs, implemented the ARISTOTLE program with the aim of both testing and linking to HIV care. The aim of this thesis is to find the best classifier for HIV infection in PWID. Data from the ARISTOTLE program was used and concerned 3320 unique PWID. The data included information on demographic characteristics, substance use, sexual behavior, and information about harm reduction programs (opioid substitution therapy, free syringes, etc.). Five classification algorithms (Logistic Regression, Random Forest, Support Vector Machines, k-Nearest Neighbors, and Decision Tree) were used to the data: 1) without resampling; 2) by random undersampling; 3) by random oversampling; 4) by synthetic minority oversampling technique and 5) by adaptive synthetic sampling method. These cases were applied to all features, after feature selection and after principal components analysis. The Random Forest algorithm performed best when random oversampling was used. Sensitivity, accuracy, and AUC score were 0.9929, 0.9805 and 0.9967, respectively. Selecting 34 of the 112 characteristics, the sensitivity, accuracy, and AUC score were 0.9929, 0.9751 and 0.9967, respectively. In conclusion, the status of HIV infection in the sample of PWID in Athens was correctly predicted at high rates, making algorithms an additional tool for early diagnosis in HIV cases, in order to avoid a new HIV outbreak.	el
dc.contributor.master	Πληροφοριακά Συστήματα και Υπηρεσίες	el
dc.subject.keyword	Μη ισορροπημένα δεδομένα	el
dc.subject.keyword	Αλγόριθμοι μηχανικής μάθησης	el
dc.subject.keyword	HIV	el
dc.subject.keyword	Χρήστες ενδοφλέβιων ναρκωτικών	el
dc.date.defense	2022-02-28

Αρχεία σε αυτό το τεκμήριο

Name:: Roussos_ME1942.pdf
Μέγεθος:: 3.238Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα