dc.contributor.advisor | Ξενάκης, Χρήστος | |
dc.contributor.advisor | Xenakis, Christos | |
dc.contributor.author | Πετυχάκης, Γεώργιος | |
dc.contributor.author | Petihakis, Georgios | |
dc.date.accessioned | 2025-07-15T11:27:57Z | |
dc.date.available | 2025-07-15T11:27:57Z | |
dc.date.issued | 2025-05 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/17952 | |
dc.description.abstract | Η αντιπαραθετική μηχανική μάθηση έχει αναδειχθεί ως κρίσιμο πεδίο έρευνας λόγω της αυξανόμενης ευπάθειας των μοντέλων μηχανικής μάθησης σε αντιπαραθετικές επιθέσεις, Ακόμα και μικρές διαταραχές στα δεδομένα εισόδου που μπορούν να προκαλέσουν στα μοντέλα να παράγουν λανθασμένες ή ακόμα και επικίνδυνες προβλέψεις. Αυτό το ζήτημα καθίσταται ιδιαίτερα ανησυχητικό σε ευαίσθητους τομείς όπως η υγειονομική περίθαλψη, όπου οι αποφάσεις που λαμβάνονται με τη βοήθεια συστημάτων τεχνητής νοημοσύνης μπορούν να έχουν σημαντικό αντίκτυπο στα αποτελέσματα των ασθενών. Η παρούσα διπλωματική εργασία ασχολείται με την ανίχνευση αντιπαραθετικών δειγμάτων στο πλαίσιο της διάγνωσης του καρκίνου του μαστού, συνδυάζοντας παραδοσιακές μεθόδους επιβλεπόμενης μάθησης με τεχνικές ανίχνευσης ανωμαλιών που βασίζονται στην ερμηνευσιμότητα.
Η μελέτη ξεκινά με την ανάπτυξη ενός μοντέλου βάσης υψηλής απόδοσης εκπαιδευμένου στο σύνολο δεδομένων Breast Cancer Wisconsin (Diagnostic) Dataset (BCWD), επιτυγχάνοντας ακρίβεια 94.74% σε καθαρά δείγματα δοκιμής. Όταν εκτέθηκε σε αντιπαραθετικές διαταραχές που δημιουργήθηκαν με τη μέθοδο Fast Gradient Sign Method (FGSM), η απόδοση του μοντέλου μειώθηκε απότομα φτάνοντας σε ακρίβεια 50.54%, αποκαλύπτοντας μια σημαντική αδυναμία στην ανθεκτικότητα σε αντιπαραθετικές επιθέσεις.
Για την αντιμετώπιση αυτής της ευπάθειας, διερευνώνται δύο κύριες στρατηγικές ανίχνευσης αντιπαραθετικών παραδειγμάτων: (1) επιβλεπόμενοι ταξινομητές εκπαιδευμένοι σε ακατέργαστα χαρακτηριστικά, τιμές SHAP (SHapley Additive exPlanations) και συνδυασμένες εισόδους και (2) μη επιβλεπόμενη ανίχνευση ανωμαλιών βασισμένη σε μετρικές απόστασης SHAP. Μεταξύ των επιβλεπόμενων μοντέλων, το Random Forest και τα νευρωνικά δίκτυα πέτυχαν την υψηλότερη απόδοση, ιδιαίτερα όταν εκπαιδεύτηκαν σε συνδυασμό ακατέργαστων και SHAP χαρακτηριστικών, φτάνοντας ακρίβεια άνω του 95% και υψηλή ευαισθησία. Παράλληλα, η ανίχνευση ανωμαλιών με χρήση SHAP και μετρικές συσχέτισης και συνημίτονου αποδείχθηκε αποτελεσματική, προσφέροντας μια επεκτάσιμη και ερμηνεύσιμη λύση ανίχνευσης.
Διεξήχθη επίσης μια λεπτομερής ανάλυση ερμηνευσιμότητας με SHAP για την κατανόηση του τρόπου με τον οποίο οι αντιπαραθετικές διαταραχές επηρεάζουν τη σημασία των χαρακτηριστικών. Συγκρίνοντας τις κατανομές τιμών SHAP μεταξύ καλοήθων και αντιπαραθετικών δειγμάτων, εντοπίστηκαν συστηματικές μετατοπίσεις στην απόδοση χαρακτηριστικών όπου οι αντιπαραθετικοί είσοδοι κάνουν το μοντέλο να δίνει έμφαση σε παραπλανητικά χαρακτηριστικά ενώ υποβαθμίζει διαγνωστικά σημαντικά. Αυτή η ανάλυση όχι μόνο συμβάλλει στην ανίχνευση, αλλά και εμβαθύνει την κατανόηση της αντιπαραθετικής συμπεριφοράς από την οπτική της λογικής του μοντέλου.
Συμπερασματικά, η παρούσα εργασία προτείνει ένα υβριδικό πλαίσιο ανίχνευσης που συνδυάζει τα πλεονεκτήματα της επιβλεπόμενης μάθησης και της επεξηγηματικής ανίχνευσης ανωμαλιών. Τα ευρήματα υπογραμμίζουν τη σημασία της ενσωμάτωσης εργαλείων επεξηγηματικής τεχνητής νοημοσύνης όπως το SHAP, τόσο για την ενίσχυση της ανθεκτικότητας όσο και για την ενίσχυση της εμπιστοσύνης στη λήψη αποφάσεων με βάση την τεχνητή νοημοσύνη. Οι προτεινόμενες μεθοδολογίες προσφέρουν κατεύθυνση για την ανάπτυξη ασφαλών, ερμηνεύσιμων και ανθεκτικών μοντέλων μηχανικής μάθησης σε κρίσιμες εφαρμογές του πραγματικού κόσμου, ιδιαίτερα στον τομέα της υγειονομικής περίθαλψης. | el |
dc.format.extent | 72 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Bridging security and interpretability in AI : a SHAP-centric framework for adversarial attack detection | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | Adversarial machine learning has emerged as a critical area of research due to the growing vulnerability of machine learning models to adversarial attacks. Even small perturbations to input data can cause models to produce incorrect or potentially harmful predictions.. This issue becomes particularly alarming in sensitive domains such as healthcare, where decisions informed by AI systems can significantly impact patient outcomes. This thesis addresses the detection of adversarial examples in the context of breast cancer diagnosis, combining conventional supervised learning methods with explainability-driven anomaly detection techniques.
The study begins with the development of a baseline model trained on the Breast Cancer Wisconsin (Diagnostic) Dataset (BCWD), achieving an accuracy of 94.74% on clean test samples. Upon exposure to adversarial perturbations generated using the Fast Gradient Sign Method (FGSM), the model’s performance deteriorated sharply dropping to an accuracy of 50.54%, revealing a significant weakness in adversarial robustness.
To mitigate this vulnerability, we investigate two main adversarial detection strategies: (1) supervised classifiers trained on raw features, SHAP (SHapley Additive exPlanations) values, and combined inputs and (2) unsupervised anomaly detection based on SHAP distance metrics. Among supervised models, Random Forest and neural networks achieved the highest performance, particularly when trained on a fusion of raw and SHAP features, attaining over 95% accuracy and high sensitivity. In parallel, SHAP-based anomaly detection using cosine and correlation distance metrics proved effective, offering a scalable and interpretable detection solution.
A detailed SHAP interpretability analysis was also conducted to understand how adversarial perturbations manipulate feature importance. By comparing SHAP value distributions between benign and adversarial samples, we identified systematic shifts in attribution where adversarial inputs cause the model to emphasize misleading features while downplaying diagnostically relevant ones. This analysis not only aids in detection but also deepens our understanding of adversarial behavior from a model reasoning perspective.
In conclusion, this thesis proposes a hybrid detection framework that synergizes the strengths of supervised learning and explainable anomaly detection. The findings underscore the value of integrating XAI tools like SHAP to enhance robustness and foster trust in AI-driven decision-making. The proposed methodologies offer a promising direction for deploying secure, interpretable, and resilient machine learning models in critical real-world applications, particularly in healthcare. | el |
dc.contributor.master | Ασφάλεια Ψηφιακών Συστημάτων | el |
dc.subject.keyword | Adversarial AI | el |
dc.subject.keyword | Explainable AI | el |
dc.subject.keyword | AI | el |
dc.subject.keyword | SHAP | el |
dc.subject.keyword | Adversarial attack detection | el |
dc.date.defense | 2025-05-28 | |