Σχεδιασμός, υλοποίηση και δοκιμή τεχνικών μηχανικής μάθησης για την ανίχνευση κυβερνοεπιθέσεων
Design, implementation and testing of machine learning techniques for cyberattack detection

Master Thesis
Συγγραφέας
Σταυρόπουλος, Γεώργιος
Ημερομηνία
2025-04Επιβλέπων
Κοτζανικολάου, ΠαναγιώτηςΠροβολή/ Άνοιγμα
Λέξεις κλειδιά
Μηχανική μάθηση ; Κακόβουλο λογισμικό ; Ταξινόμηση ; MLP ; SVC ; CatBoost ; Borda ; Malimg ; Συνελικτικά νευρωνικά δίκτυα ; Στρωματοποιημένη Διασταυρούμενη Επικύρωση K-Fold ; ResNet-50 ; DenseNet-121 ; Bayes ; SMOTE ; ANOVAΠερίληψη
Η ανίχνευση κυβερνοεπιθέσεων με τη χρήση Μηχανικής Μάθησης έχει αναδειχθεί ως ένα από τα
πιο δυναμικά πεδία έρευνας, επιτρέποντας την ανάλυση μεγάλων δεδομένων σε πραγματικό
χρόνο και την αναγνώριση ασυνήθιστων συμπεριφορών με σημαντικά μεγαλύτερη ακρίβεια σε
σύγκριση με τις παραδοσιακές μεθόδους. Η παρούσα εργασία εστιάζει στην ταξινόμηση κακόβουλου
λογισμικού, το οποίο αναπαρίσταται με τη μορφή εικόνων σε πέντε διακριτές κατηγορίες:
Backdoors & RATs, Downloaders & Droppers, Multipurpose, Spyware, Adware, Rogue Software
& Fraudware, Worms & Self-Replicating Malware. Εφαρμόστηκε η μέθοδος της Μεταφοράς Μάθησης
(Transfer Learning), κατά την οποία πραγματοποιήθηκε εξαγωγή χαρακτηριστικών από τις
εικόνες της δημόσιας βάσης δεδομένων Malimg, με τον συνδυασμό των προεκπαιδευμένων στο
ImageNet αρχιτεκτονικών ResNet-50 και DenseNet-121. Με τη χρήση της Bayesian Optimization
εντοπίστηκε ο βέλτιστος αριθμός των τελευταίων στρωμάτων που συμμετέχουν στη Μικροπροσαρμογή
(fine-tuning), ώστε να επιτευχθεί η αποδοτικότερη εξαγωγή χαρακτηριστικών. Ακολούθησε
καθαρισμός και επιλογή των καταλληλότερων χαρακτηριστικών με τη μέθοδο ANOVA. Για
την τελική ταξινόμηση χρησιμοποιήθηκαν τρία μοντέλα διαφορετικών κατηγοριών: ένα μη γραμμικό
(Support Vector Classification - SVC), ένα Νευρωνικό Δίκτυο (Multi-Layer Perceptron - MLP)
και ένα δενδρικής δομής που ανήκει στην κατηγορία των Ensemble (CatBoost), στα οποία εφαρμόστηκε
βελτιστοποίηση Υπερπαραμέτρων με τη μέθοδο Bayes. Τα αποτελέσματα της επικύρωσης
υπήρξαν εξαιρετικά, με όλες τις μετρικές — είτε κατά κλάση (accuracy, precision, recall, f1
score, specificity, ROC AUC), είτε ως μέσοι όροι (macro, weighted), είτε ως καθολικές (micro
metrics, balanced accuracy, Cohen’s Kappa, Matthews Correlation Coefficient) — να
υπερβαίνουν το 98% και σε πολλές περιπτώσεις το 99%. Τέλος, ο συνδυασμός των τριών μοντέλων με
τη μέθοδο Borda οδήγησε σε περαιτέρω βελτίωση, καθώς παρατηρήθηκαν μόλις 35 λανθασμένες
ταξινομήσεις σε σύνολο 8.024 δειγμάτων.