AI adversarial attack detection and mitigation for AI-based systems

Master Thesis
Συγγραφέας
Ziras, Georgios
Ζήρας, Γεώργιος
Ημερομηνία
2025-04-04Επιβλέπων
Xenakis, ChristosΞενάκης, Χρήστος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Artificial intelligence ; Adversarial attacks ; AI-based systems ; Mitigation of adversarial attacks ; Detection of adversarial attacksΠερίληψη
Η αυξανόμενη ενσωμάτωση συστημάτων Τεχνητής Νοημοσύνης (AI) σε κρίσιμες υποδομές όπως η κυβερνοασφάλεια, η υγειονομική περίθαλψη, τα χρηματοοικονομικά και η εθνική άμυνα έχει αναδείξει σημαντικές προκλήσεις για τη διασφάλιση της ανθεκτικότητας των μοντέλων απέναντι σε επιθέσεις παραπλάνησης (adversarial attacks). Η παρούσα εργασία εξετάζει την ευπάθεια διαφόρων μοντέλων μηχανικής μάθησης (ML) σε τέτοιες επιθέσεις και διερευνά αποτελεσματικές τεχνικές ανίχνευσης και μετριασμού ώστε να ενισχυθεί η ανθεκτικότητά τους.
Με τη χρήση του συνόλου δεδομένων CIC-IDS2017, εκπαιδεύτηκαν διάφορα μοντέλα μηχανικής μάθησης (ML)—όπως Decision Tree), Random Forest, Logistic Regression, XGBoost και ένα νευρωνικό δίκτυο υλοποιημένο σε PyTorch, που υποβλήθηκαν σε ένα σύνολο επιθέσεων παραπλάνησης όπως οι FGSM, PGD, DeepFool, Decision Tree Attack και Carlini-Wagner.
Κεντρικός άξονας της μελέτης αποτελεί η αξιολόγηση τόσο άμεσων όσο και μεταφερόμενων επιθέσεων (transfer attacks), αποκαλύπτοντας ότι τα παραδοσιακά μοντέλα υπέστησαν σημαντική υποβάθμιση απόδοσης, ενώ τα βαθιά νευρωνικά δίκτυα επέδειξαν μεγαλύτερη ανθεκτικότητα. Για τη βελτίωση της αντοχής, εφαρμόστηκε εκπαίδευση με παραπλανητικά δείγματα (adversarial training), γεγονός που οδήγησε σε σημαντική αύξηση της ακρίβειας των μοντέλων υπό επίθεση—με το PyTorch μοντέλο να διατηρεί ακρίβεια άνω του 98% στις περισσότερες περιπτώσεις.
Επιπλέον, ενσωματώθηκαν προηγμένες τεχνικές ανίχνευσης με χρήση του εργαλείου ART (Adversarial Robustness Toolbox), όπως οι Ανιχνευτές Δυαδικής Εισόδου και Ενεργοποίησης (Binary Input and Binary Activation Detectors). Οι ανιχνευτές αυτοί παρουσίασαν υψηλή ανάκληση και ακρίβεια στον εντοπισμό παραπλανητικών εισόδων (adversarial inputs), αν και η μέτρια απόδοσή τους σε καθαρά δείγματα υποδηλώνει έναν συμβιβασμό μεταξύ ασφάλειας και χρηστικότητας. Η υλοποίηση μιας αρχιτεκτονικής δύο επιπέδων ανίχνευσης αποδεικνύει μια πρακτική προσέγγιση άμυνας είς βάθους, ικανή να μπλοκάρει ή να επισημαίνει επικίνδυνες εισόδους πριν αυτές φτάσουν στον ταξινομητή.
Η εργασία αυτή προσφέρει μια ολοκληρωμένη ανάλυση της ανθεκτικότητας των μοντέλων σε επιθέσεις παραπλάνησης στο πεδίο των συστημάτων ανίχνευσης εισβολών και προτείνει μια επεκτάσιμη αρχιτεκτονική που συνδυάζει εκπαίδευση με παραπλανητικά δείγματα και ανίχνευση σε πραγματικό χρόνο. Μελλοντικές ενέργειες μπορούν να επικεντρωθούν στη βελτίωση της ακρίβειας ανίχνευσης καθαρών δειγμάτων (Clean Samples), την ενσωμάτωση πιο ποικίλων συνόλων δεδομένων και την ανάπτυξη προσαρμοστικών αμυντικών μηχανισμών για αντιμετώπιση εξελισσόμενων επιθέσεων.