dc.contributor.advisor | Κοτζανικολάου, Παναγιώτης | |
dc.contributor.author | Σταυρόπουλος, Γεώργιος | |
dc.date.accessioned | 2025-04-30T10:01:18Z | |
dc.date.available | 2025-04-30T10:01:18Z | |
dc.date.issued | 2025-04 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/17703 | |
dc.description.abstract | Η ανίχνευση κυβερνοεπιθέσεων με τη χρήση Μηχανικής Μάθησης έχει αναδειχθεί ως ένα από τα
πιο δυναμικά πεδία έρευνας, επιτρέποντας την ανάλυση μεγάλων δεδομένων σε πραγματικό
χρόνο και την αναγνώριση ασυνήθιστων συμπεριφορών με σημαντικά μεγαλύτερη ακρίβεια σε
σύγκριση με τις παραδοσιακές μεθόδους. Η παρούσα εργασία εστιάζει στην ταξινόμηση κακόβουλου
λογισμικού, το οποίο αναπαρίσταται με τη μορφή εικόνων σε πέντε διακριτές κατηγορίες:
Backdoors & RATs, Downloaders & Droppers, Multipurpose, Spyware, Adware, Rogue Software
& Fraudware, Worms & Self-Replicating Malware. Εφαρμόστηκε η μέθοδος της Μεταφοράς Μάθησης
(Transfer Learning), κατά την οποία πραγματοποιήθηκε εξαγωγή χαρακτηριστικών από τις
εικόνες της δημόσιας βάσης δεδομένων Malimg, με τον συνδυασμό των προεκπαιδευμένων στο
ImageNet αρχιτεκτονικών ResNet-50 και DenseNet-121. Με τη χρήση της Bayesian Optimization
εντοπίστηκε ο βέλτιστος αριθμός των τελευταίων στρωμάτων που συμμετέχουν στη Μικροπροσαρμογή
(fine-tuning), ώστε να επιτευχθεί η αποδοτικότερη εξαγωγή χαρακτηριστικών. Ακολούθησε
καθαρισμός και επιλογή των καταλληλότερων χαρακτηριστικών με τη μέθοδο ANOVA. Για
την τελική ταξινόμηση χρησιμοποιήθηκαν τρία μοντέλα διαφορετικών κατηγοριών: ένα μη γραμμικό
(Support Vector Classification - SVC), ένα Νευρωνικό Δίκτυο (Multi-Layer Perceptron - MLP)
και ένα δενδρικής δομής που ανήκει στην κατηγορία των Ensemble (CatBoost), στα οποία εφαρμόστηκε
βελτιστοποίηση Υπερπαραμέτρων με τη μέθοδο Bayes. Τα αποτελέσματα της επικύρωσης
υπήρξαν εξαιρετικά, με όλες τις μετρικές — είτε κατά κλάση (accuracy, precision, recall, f1
score, specificity, ROC AUC), είτε ως μέσοι όροι (macro, weighted), είτε ως καθολικές (micro
metrics, balanced accuracy, Cohen’s Kappa, Matthews Correlation Coefficient) — να
υπερβαίνουν το 98% και σε πολλές περιπτώσεις το 99%. Τέλος, ο συνδυασμός των τριών μοντέλων με
τη μέθοδο Borda οδήγησε σε περαιτέρω βελτίωση, καθώς παρατηρήθηκαν μόλις 35 λανθασμένες
ταξινομήσεις σε σύνολο 8.024 δειγμάτων. | el |
dc.format.extent | 421 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Σχεδιασμός, υλοποίηση και δοκιμή τεχνικών μηχανικής μάθησης για την ανίχνευση κυβερνοεπιθέσεων | el |
dc.title.alternative | Design, implementation and testing of machine learning techniques for cyberattack detection | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
dc.description.abstractEN | Cyberattack detection using Machine Learning has emerged as one of the most dynamic fields of
research, enabling the real-time analysis of large datasets and the identification of abnormal be
haviors with significantly greater accuracy compared to traditional methods. This study focuses
on the classification of malware represented images, into five distinct categories: Backdoors &
RATs, Downloaders & Droppers, Multipurpose, Spyware & Adware, Rogue Software & Fraud
ware, and Worms & Self-Replicating Malware. A Transfer Learning approach was adopted, utiliz
ing features extracted from the publicly available Malimg dataset through the integration of two
Pre-Trained on ImageNet deep learning architectures — ResNet-50 and DenseNet-121. Bayes
ian Optimization was employed to determine the optimal number of layers to unfreeze for fine
tuning, enhancing the quality of feature extraction. Subsequently, feature selection was performed
using the ANOVA method. For classification, three model families were explored: a non-linear
model (Support Vector Classification – SVC), a neural network (Multi-Layer Perceptron – MLP),
and a tree-based ensemble model (CatBoost). All models underwent hyperparameter optimiza
tion via Bayesian search. Results demonstrated exceptional performance, with all evaluation met
rics — including per-class (accuracy, precision, recall, F1-score, specificity, ROC AUC), averaged
(macro, weighted), and global (micro metrics, balanced accuracy, Cohen’s Kappa, Matthews Cor
relation Coefficient) consistently exceeding 98%, and in most cases, 99%. Finally, model combi
nation using the Borda count method further improved accuracy, yielding only 35 misclassifica
tions out of a total of 8,024 samples. | el |
dc.contributor.master | Κυβερνοασφάλεια και Επιστήμη Δεδομένων | el |
dc.subject.keyword | Μηχανική μάθηση | el |
dc.subject.keyword | Κακόβουλο λογισμικό | el |
dc.subject.keyword | Ταξινόμηση | el |
dc.subject.keyword | MLP | el |
dc.subject.keyword | SVC | el |
dc.subject.keyword | CatBoost | el |
dc.subject.keyword | Borda | el |
dc.subject.keyword | Malimg | el |
dc.subject.keyword | Συνελικτικά νευρωνικά δίκτυα | el |
dc.subject.keyword | Στρωματοποιημένη Διασταυρούμενη Επικύρωση K-Fold | el |
dc.subject.keyword | ResNet-50 | el |
dc.subject.keyword | DenseNet-121 | el |
dc.subject.keyword | Bayes | el |
dc.subject.keyword | SMOTE | el |
dc.subject.keyword | ANOVA | el |
dc.date.defense | 2025-04-29 | |