Μοντέλα ταξινόμησης και εφαρμογές

Προβολή/ Άνοιγμα
Θεματική επικεφαλίδα
Machine learning ; Αλγόριθμοι ; Εξόρυξη δεδομένων ; Ανάλυση παλινδρόμησης ; Ταξινόμηση -- Μαθηματικά υποδείγματαΠερίληψη
Η μηχανική μάθηση έχει ως σκοπό τη δημιουργία αλγορίθμων ικανών να βελτιώνουν την απόδοσή τους, αξιοποιώντας προγενέστερη γνώση και εμπειρία, με σκοπό την εξαγωγή χρήσιμων συμπερασμάτων και την περιγραφή φαινομένων, μέσω της επεξεργασίας δεδομένων τεράστιου, πολλές φορές, όγκου. Το ζητούμενο στην περίπτωση της επιβλεπόμενης μάθησης είναι η κατασκευή ενός μοντέλου που αναπαριστά τη γνώση που αποκτήθηκε μέσω της εμπειρίας και το οποίο στη συνέχεια χρησιμοποιείται για την αξιολόγηση νέων παρατηρήσεων. Μία από τις πιο οικείες μεθόδους περιγραφής φαινομένων είναι η ταξινόμηση, η ένταξη δηλαδή κάθε παρατήρησης σε μία ομάδα, από ένα πεπερασμένο πλήθος υποψήφιων ομάδων. Η παρούσα εργασία επικεντρώνεται στην παρουσίαση ενός πολύ διαδεδομένου αλγορίθμου ταξινόμησης, προερχόμενου από τον τομέα της μηχανικής μάθησης, με το όνομα «μηχανή διανυσμάτων υποστήριξης» (Support Vector Machine - SVM). Η ανάπτυξη του θεωρητικού υποβάθρου του αλγορίθμου παρουσιάζεται σταδιακά, ώστε να γίνει κατανοητή από τον αναγνώστη όλη η διαδρομή, από τον πλέον στοιχειώδη αλγόριθμο ταξινόμησης, μέχρι τη βελτιστοποιημένη εκδοχή που αποτελεί η SVM. Στη διαδρομή αυτή, θα παρουσιαστούν εκτενώς δύο ακόμη διαδεδομένοι αλγόριθμοι ταξινόμησης, η «ομαλοποιημένη λογιστική παλινδρόμηση» και το «πολυστρωματικό νευρωνικό δίκτυο». Πέρα από τη θεωρητική παρουσίαση των αλγορίθμων, σκοπός της εργασίας είναι η προγραμματιστική ανάπτυξη αυτών - στις περιπτώσεις που αυτό δε θεωρείται ασύμφορο - για την αντιμετώπιση πρακτικών εφαρμογών, καθώς επίσης και η παρουσίαση του τρόπου χρήσης έτοιμων βιβλιοθηκών και ελεύθερα διαθέσιμων λογισμικών πακέτων. Τα δεδομένα που χρησιμοποιήθηκαν όπως και το σύνολο του κώδικα διατίθενται στον αναγνώστη για πειραματισμό. Η διεργασία της μηχανικής μάθησης δεν μπορεί βέβαια να είναι πλήρης, χωρίς την αξιολόγηση της γνώσης που αποκτάται. Για το λόγο αυτό, στο τελευταίο κεφάλαιο γίνεται μια αναφορά σε διαγνωστικούς ελέγχους και πρακτικές συμβουλές για την αξιολόγηση και βελτιστοποίηση του μοντέλου πριν αυτό τεθεί σε εφαρμογή.