Εμφάνιση απλής εγγραφής

dc.contributor.advisorGiannakopoulos, Theodoros
dc.contributor.advisorΓιαννακόπουλος, Θεόδωρος
dc.contributor.authorAlexandropoulos, Ilias
dc.contributor.authorΑλεξανδρόπουλος, Ηλίας
dc.date.accessioned2025-05-30T09:08:24Z
dc.date.available2025-05-30T09:08:24Z
dc.date.issued2025-05
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/17807
dc.description.abstractΚαθώς η χρήση των συστημάτων Ανίχνευσης Ηχητικών Συμβάντων (Sound Event Detection - SED) επεκτείνεται σε εφαρμογές του πραγματικού κόσμου και σε κρίσιμες για την ασφάλεια καταστάσεις, η διασφάλιση της ανθεκτικότητάς τους απέναντι σε κακόβουλους χειρισμούς καθίσταται ολοένα και πιο σημαντική. Η παρούσα διπλωματική εργασία διερευνά την ευπάθεια των μοντέλων βαθιάς μάθησης που χρησιμοποιούνται στην SED σε επιθέσεις τύπου black-box και εξετάζει στρατηγικές για την ενίσχυση της ανθεκτικότητάς τους. Από την πλευρά του επιτιθέμενου, εφαρμόζονται δύο μέθοδοι βασισμένες στη βελτιστοποίηση — η Σμηνοειδής Βελτιστοποίηση Σωματιδίων (Particle Swarm Optimization - PSO) και η Διαφορική Εξέλιξη (Differential Evolution - DE) — για τη δημιουργία επιθετικών (adversarial) ηχητικών δειγμάτων. Για τη διατήρηση της μη αντιληψιμότητας και τον έλεγχο του προσθετικού θορύβου, χρησιμοποιούνται όροι κανονικοποίησης και τα πειράματα πραγματοποιούνται υπό διαφορετικούς λόγους σήματος προς θόρυβο (SNR). Οι επιθέσεις αξιολογούνται σε ένα ευρύ φάσμα αρχιτεκτονικών μοντέλων, συμπεριλαμβανομένων συνελικτικών νευρωνικών δικτύων (CNNs) με και χωρίς Global Average Pooling, μοντέλων βασισμένων στο ResNet όπως το AudioCLIP, και αρχιτεκτονικών βασισμένων σε μετασχηματιστές όπως το PaSST. Εφαρμόζεται fine-tuning για την προσαρμογή προεκπαιδευμένων μοντέλων όπως το AudioCLIP στις κατανομές των συνόλων δεδομένων UrbanSound8K και ESC-50, επιτρέποντας συνεπή αξιολόγηση μεταξύ των συνόλων δεδομένων. Τα πειραματικά αποτελέσματα δείχνουν ότι το μοντέλο AudioCLIP που έχει υποστεί fine-tuning είναι ιδιαίτερα ευάλωτο σε επιθέσεις, ενώ τα μοντέλα τύπου μετασχηματιστή όπως το PaSST παρουσιάζουν μεγαλύτερη ανθεκτικότητα. Για την άμβλυνση της αποτελεσματικότητας των επιθέσεων, χρησιμοποιείται και ενσωματώνεται στην "κεφαλή" κάθε μοντέλου ένας αυτόματος αποκωδικοποιητής αποθορυβοποίησης (denoising autoencoder). Η τεχνική αυτή χρησιμοποιείται επίσης για την ανίχνευση επιθετικών παραδειγμάτων πριν αυτά περάσουν στα μοντέλα. Συγκεκριμένα, με την ανάλυση των αποκλίσεων και αποστάσεων μεταξύ της αρχικής και της ανακατασκευασμένης εισόδου, είναι δυνατό να εξαχθεί συμπέρασμα για το αν ένα δείγμα έχει υποστεί χειρισμό. Τα αποτελέσματα δείχνουν ότι οι πιο αποτελεσματικές επιθέσεις επιτεύχθηκαν μέσω του αλγορίθμου PSO, φτάνοντας σε μέγιστο ποσοστό επιτυχίας 76% στο μοντέλο AudioCLIP με fine-tuning, για στόχο SNR 5 dB. Καθώς ο περιορισμός του SNR αυξήθηκε στα 15–20 dB, καθιστώντας τις διαταραχές λιγότερο αντιληπτές από τον άνθρωπο, τα ποσοστά επιτυχίας των επιθέσεων μειώθηκαν, σταθεροποιούμενα στο 40–50% για ευάλωτα μοντέλα και κάτω από 20% για πιο ανθεκτικά, επιβεβαιώνοντας τη σχέση ανταλλαγής μεταξύ αποτελεσματικότητας της επίθεσης και μη αντιληψιμότητας. Η αξιολόγηση με τη μέθοδο άμυνας βασισμένη σε Autoencoder έδειξε σταθερή μείωση της επιτυχίας των επιθέσεων κατά 5–10% σε όλα τα μοντέλα, χωρίς αισθητή επίπτωση στην αρχική ακρίβεια ταξινόμησης σε καθαρές εισόδους, καθιστώντας την μία αποτελεσματική αλλά απλή αμυντική προσέγγιση. Επιπλέον, το πείραμα ανίχνευσης βασισμένο στη συνέπεια των προβλέψεων πριν και μετά την αποθορυβοποίηση πέτυχε τέλεια ακρίβεια (precision) 1.0 αλλά με ανάκληση (recall) περίπου 34%, υποδεικνύοντας ότι μπορεί να εντοπίσει αξιόπιστα επιθετικά δείγματα όταν τα ανιχνεύει, αν και παραλείπει ένα ποσοστό των επιθέσεων, γεγονός που υποδηλώνει την ανάγκη για μελλοντικές βελτιώσεις για αύξηση της ευαισθησίας. Τα ευρήματα αυτά υπογραμμίζουν την επείγουσα ανάγκη για ενίσχυση της ανθεκτικότητας των νευρωνικών δικτύων, ιδιαίτερα σε εφαρμογές κρίσιμης σημασίας για την ασφάλεια, όπου η κακόβουλη παραποίηση θα μπορούσε να έχει σοβαρές συνέπειες. Η ενσωμάτωση ενός αποθορυβοποιητικού autoencoder αποδείχθηκε αποτελεσματική, μειώνοντας σταθερά την επιτυχία των επιθέσεων χωρίς να υποβαθμίζει την απόδοση του μοντέλου, με εμφανή οφέλη τόσο για τα μοντέλα βασισμένα σε CNN όσο και για τις αρχιτεκτονικές τύπου μετασχηματιστή όπως το PaSST. Συνολικά, τα αποτελέσματα τονίζουν τον κρίσιμο ρόλο του σχεδιασμού εγγενώς ανθεκτικών αρχιτεκτονικών μοντέλων και της χρήσης στρατηγικών τεχνικών προεπεξεργασίας για την ενίσχυση των συστημάτων SED απέναντι σε επιθετικές απειλές.el
dc.format.extent67el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleAdversarial attacks and robustness in deep neural networks for sound event detectionel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENAs the use of Sound Event Detection (SED) systems expands into real-world and safety-critical applications, ensuring their robustness against malicious manipulation is becoming increasingly important. This thesis explores the vulnerability of deep learning models employed in Sound Event Detection (SED) to black-box adversarial attacks and examines strategies to enhance their robustness. From the attacker’s perspective, two optimization-based attacks—Particle Swarm Optimization (PSO) and Differential Evolution (DE)—are employed to generate adversarial audio samples. To maintain imperceptibility and control the additive noise, regularization terms are employed and experiments are performed under varying signalto- noise ratios (SNRs). The attacks were evaluated across a broad spectrum of model architectures, including convolutional neural networks (CNNs) with and without Global Average Pooling, ResNet-based models like AudioCLIP, and transformer-based architectures like PaSST. Fine-tuning was applied to adapt pre-trained models like Audio- CLIP to the specific distributions of UrbanSound8K and ESC-50, allowing consistent evaluation across datasets. Experimental results show that AudioCLIP-finetuned model is highly susceptible to attacks, while transformer-based models like PaSST demonstrate greater robustness. To mitigate the effectiveness of the attacks, a denoising autoencoder is employed and integrated in each model’s head. This technique is also used for the detection of adversarial examples before passing them through the models. To be more specific, by analyzing the divergences and distances between the original and reconstructed inputs, we are able to conclude if a sample is manipulated or not. The results demonstrate that the most effective attacks were achieved using the PSO algorithm, reaching a maximum success rate of 76% on the AudioCLIP-finetuned model at a target SNR of 5 dB. As the SNR constraint increased to 15–20 dB, making perturbations less perceptible to human listeners, the attack success rates dropped, stabilizing around 40–50% for vulnerable models and falling below 20% for more robust ones, confirming the trade-off between adversarial effectiveness and imperceptibility. The evaluation with the Autoencoder-based defense showed a consistent reduction of 5–10% in the attack success rate across all models, without noticeably affecting the models’ original classification accuracy on clean inputs, making it an effective yet simple defensive approach. Additionally, the detection experiment based on prediction consistency before and after autoencoder denoising achieved a perfect precision of 1.0 but a recall of approximately 34%, indicating it can reliably flag adversarial samples when detected, although it misses a portion of attacks, suggesting the need for future improvements to increase sensitivity. These findings highlight the urgent need to enhance the robustness of neural networks, particularly for safety-critical applications where adversarial manipulation could have serious consequences. The integration of a denoising autoencoder proved effective, consistently reducing attack success rates without degrading model performance, with noticeable benefits across both CNN-based models and transformer-based architectures like PaSST. Overall, the results emphasize the crucial role of designing inherently robust model architectures and employing strategic preprocessing techniques to strengthen SED systems against adversarial threats.el
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordSound Event Detection (SED)el
dc.subject.keywordAdversarial attacksel
dc.subject.keywordBlack-box attacksel
dc.subject.keywordDeep learningel
dc.date.defense2025-05-27


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»