Ανίχνευση phishing URLs με μοντέλα μηχανικής μάθησης

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Machine learning ; Cybersecurity ; Phishing detectionΠερίληψη
Η παρούσα μεταπτυχιακή διπλωματική εργασία εστιάζει στην ανάπτυξη και
αξιολόγηση μοντέλων μηχανικής μάθησης για την ανίχνευση phishing URLs,
ένα αυξανόμενο πρόβλημα στον κυβερνοχώρο. Ο σκοπός της έρευνας είναι η
αξιοποίηση χαρακτηριστικών που εξάγονται από διευθύνσεις URL για την
ταξινόμηση τους ως κακόβουλες ή νόμιμες, χρησιμοποιώντας ένα
ετικετοποιημένο dataset από το αποθετήριο Mendeley. Η μεθοδολογία
περιλαμβάνει την προεπεξεργασία των δεδομένων, τη δημιουργία ποσοτικών
χαρακτηριστικών (π.χ. μήκος URL, ύπαρξη HTTPS), και την εφαρμογή
τεσσάρων μοντέλων: RandomForest, LogisticRegression, XGBoost και
LightGBM. Η αξιολόγηση πραγματοποιήθηκε με μετρικές όπως accuracy,
precision, recall και F1-score, καθώς και διασταυρούμενη επικύρωση,
αποκαλύπτοντας ακρίβεια άνω του 95%. Τα αποτελέσματα δείχνουν ότι το
XGBoost υπερέχει στην ανίχνευση phishing (recall ~90%), επιβεβαιώνοντας τη
σημασία χαρακτηριστικών όπως το μήκος URL. Παρά τους περιορισμούς, όπως
η ασυμμετρία των δεδομένων και η αποκλειστική εστίαση σε URLs, η εργασία
προσφέρει μια αξιόπιστη προσέγγιση για την ενίσχυση της κυβερνοασφάλειας.
Προτείνονται μελλοντικές βελτιώσεις, όπως η χρήση oversampling (SMOTE)
και η ενσωμάτωση νευρωνικών δικτύων, για μεγαλύτερη αποτελεσματικότητα.


