Ανακάλυψη ψευδών (μποτ/σπαμ) ιστοσελίδων
On fake (bot/spam) website detection

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ανίχνευση κακόβουλης διεύθυνσης URL ; Μηχανική μάθηση ; Βαθιά μάθηση ; Επιθέσεις ψεύτικων ιστοσελίδων ; Ταξινόμηση ιστοσελίδας ; Malicious URL detection ; Machine learning ; Deep learning ; Fake website attacks ; Website classificationΠερίληψη
Η παρούσα εργασία αναλύει ορισμένα από τα είδη των ψεύτικών ιστοσελίδων που υπάρχουν,
τη δομή των URLs, τις υπάρχουσες τεχνικές ανίχνευσης και τη χρήση αλγορίθμων ανίχνευσης
ψεύτικων (μποτ/σπαμ) ιστοσελίδων, το οποίο είναι ένα σημαντικό πρόβλημα για την ασφάλεια
στον κυβερνοχώρο. Το διαδίκτυο έχει γίνει αναπόσπαστο μέρος της σύγχρονης ζωής,
διευκολύνοντας την επικοινωνία, το εμπόριο, την εκπαίδευση και την ψυχαγωγία. Ωστόσο,
αυτός ο διασυνδεδεμένος ψηφιακός κόσμος είναι επίσης ευάλωτος σε εκμετάλλευση από
κακόβουλους παράγοντες. Οι ψεύτικες ιστοσελίδες (μποτ/σπαμ ιστοσελίδες) αποτελούν μια
διαρκή και εξελισσόμενη απειλή. Αυτές οι ιστοσελίδες μπορούν να μιμούνται νόμιμες
πλατφόρμες, διαδίδουν κακόβουλο λογισμικό και συμμετέχουν σε άλλες παράνομες
δραστηριότητες. Συχνά, εμφανίζονται με διάφορες μορφές, όπως σελίδες ηλεκτρονικού
ψαρέματος, διανομής κακόβουλου λογισμικού και σπαμ ιστοσελίδες που δημιουργούνται
αποκλειστικά για την παραπλάνηση των μηχανών αναζήτησης και των χρηστών. Η ανίχνευση
αυτών των κακόβουλων ιστοσελίδων αποτελεί κρίσιμη πρόκληση για την προστασία ατόμων,
επιχειρήσεων και οργανισμών. Οι διευθύνσεις URL κατατάσσονται σε προβλήματα
επεξεργασίας φυσική γλώσσας (Natural Language Processing - NLP), οπότε προηγμένες
τεχνικές Μηχανικής και Βαθιάς Μάθησης, όπως Random Forest και LSTM, μπορούν να
αναλύσουν μοτίβα και χαρακτηριστικά ιστοσελίδων και να παρέχουν αποτελεσματικότερη
ταξινόμηση. Στη συγκεκριμένη εργασία εφαρμόζονται διάφοροι τέτοιοι αλγόριθμοι και υβριδικές
μορφές αυτών (όπως CNN-LSTM) για την εκπαίδευση του συνόλου δεδομένων με
χαρακτηριστικά βασισμένα σε URL επικίνδυνων και νόμιμων ιστοσελίδων.


