Bridging security and interpretability in AI : a SHAP-centric framework for adversarial attack detection

Master Thesis
Συγγραφέας
Πετυχάκης, Γεώργιος
Petihakis, Georgios
Ημερομηνία
2025-05Επιβλέπων
Ξενάκης, ΧρήστοςXenakis, Christos
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Adversarial AI ; Explainable AI ; AI ; SHAP ; Adversarial attack detectionΠερίληψη
Η αντιπαραθετική μηχανική μάθηση έχει αναδειχθεί ως κρίσιμο πεδίο έρευνας λόγω της αυξανόμενης ευπάθειας των μοντέλων μηχανικής μάθησης σε αντιπαραθετικές επιθέσεις, Ακόμα και μικρές διαταραχές στα δεδομένα εισόδου που μπορούν να προκαλέσουν στα μοντέλα να παράγουν λανθασμένες ή ακόμα και επικίνδυνες προβλέψεις. Αυτό το ζήτημα καθίσταται ιδιαίτερα ανησυχητικό σε ευαίσθητους τομείς όπως η υγειονομική περίθαλψη, όπου οι αποφάσεις που λαμβάνονται με τη βοήθεια συστημάτων τεχνητής νοημοσύνης μπορούν να έχουν σημαντικό αντίκτυπο στα αποτελέσματα των ασθενών. Η παρούσα διπλωματική εργασία ασχολείται με την ανίχνευση αντιπαραθετικών δειγμάτων στο πλαίσιο της διάγνωσης του καρκίνου του μαστού, συνδυάζοντας παραδοσιακές μεθόδους επιβλεπόμενης μάθησης με τεχνικές ανίχνευσης ανωμαλιών που βασίζονται στην ερμηνευσιμότητα.
Η μελέτη ξεκινά με την ανάπτυξη ενός μοντέλου βάσης υψηλής απόδοσης εκπαιδευμένου στο σύνολο δεδομένων Breast Cancer Wisconsin (Diagnostic) Dataset (BCWD), επιτυγχάνοντας ακρίβεια 94.74% σε καθαρά δείγματα δοκιμής. Όταν εκτέθηκε σε αντιπαραθετικές διαταραχές που δημιουργήθηκαν με τη μέθοδο Fast Gradient Sign Method (FGSM), η απόδοση του μοντέλου μειώθηκε απότομα φτάνοντας σε ακρίβεια 50.54%, αποκαλύπτοντας μια σημαντική αδυναμία στην ανθεκτικότητα σε αντιπαραθετικές επιθέσεις.
Για την αντιμετώπιση αυτής της ευπάθειας, διερευνώνται δύο κύριες στρατηγικές ανίχνευσης αντιπαραθετικών παραδειγμάτων: (1) επιβλεπόμενοι ταξινομητές εκπαιδευμένοι σε ακατέργαστα χαρακτηριστικά, τιμές SHAP (SHapley Additive exPlanations) και συνδυασμένες εισόδους και (2) μη επιβλεπόμενη ανίχνευση ανωμαλιών βασισμένη σε μετρικές απόστασης SHAP. Μεταξύ των επιβλεπόμενων μοντέλων, το Random Forest και τα νευρωνικά δίκτυα πέτυχαν την υψηλότερη απόδοση, ιδιαίτερα όταν εκπαιδεύτηκαν σε συνδυασμό ακατέργαστων και SHAP χαρακτηριστικών, φτάνοντας ακρίβεια άνω του 95% και υψηλή ευαισθησία. Παράλληλα, η ανίχνευση ανωμαλιών με χρήση SHAP και μετρικές συσχέτισης και συνημίτονου αποδείχθηκε αποτελεσματική, προσφέροντας μια επεκτάσιμη και ερμηνεύσιμη λύση ανίχνευσης.
Διεξήχθη επίσης μια λεπτομερής ανάλυση ερμηνευσιμότητας με SHAP για την κατανόηση του τρόπου με τον οποίο οι αντιπαραθετικές διαταραχές επηρεάζουν τη σημασία των χαρακτηριστικών. Συγκρίνοντας τις κατανομές τιμών SHAP μεταξύ καλοήθων και αντιπαραθετικών δειγμάτων, εντοπίστηκαν συστηματικές μετατοπίσεις στην απόδοση χαρακτηριστικών όπου οι αντιπαραθετικοί είσοδοι κάνουν το μοντέλο να δίνει έμφαση σε παραπλανητικά χαρακτηριστικά ενώ υποβαθμίζει διαγνωστικά σημαντικά. Αυτή η ανάλυση όχι μόνο συμβάλλει στην ανίχνευση, αλλά και εμβαθύνει την κατανόηση της αντιπαραθετικής συμπεριφοράς από την οπτική της λογικής του μοντέλου.
Συμπερασματικά, η παρούσα εργασία προτείνει ένα υβριδικό πλαίσιο ανίχνευσης που συνδυάζει τα πλεονεκτήματα της επιβλεπόμενης μάθησης και της επεξηγηματικής ανίχνευσης ανωμαλιών. Τα ευρήματα υπογραμμίζουν τη σημασία της ενσωμάτωσης εργαλείων επεξηγηματικής τεχνητής νοημοσύνης όπως το SHAP, τόσο για την ενίσχυση της ανθεκτικότητας όσο και για την ενίσχυση της εμπιστοσύνης στη λήψη αποφάσεων με βάση την τεχνητή νοημοσύνη. Οι προτεινόμενες μεθοδολογίες προσφέρουν κατεύθυνση για την ανάπτυξη ασφαλών, ερμηνεύσιμων και ανθεκτικών μοντέλων μηχανικής μάθησης σε κρίσιμες εφαρμογές του πραγματικού κόσμου, ιδιαίτερα στον τομέα της υγειονομικής περίθαλψης.