Αυτόματη εποπτευόμενη μηχανική μάθηση με τεχνικές δειγματοληψίας
Automated supervised machine learning with sampling techniques
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Αυτόματη μηχανική μάθηση ; Αυτόματοποιημένη μηχανική μάθηση ; Μηχανική μάθηση ; Δειγματοληπτικές τεχνικές ; Δειγματοληψία ; Τεχνικές δειγματοληψίαςΠερίληψη
Η ανάλυση δεδομένων είναι ένας κλάδος της σύγχρονης επιστήμης, ο οποίος ασχολείται με τη
διαχείριση και την ερμηνεία αξιοποιήσιμων πληροφοριών, οι οποίες πλέον αυξάνονται με
ραγδαίους ρυθμούς. Σε αυτό το έγγραφο για τους σκοπούς της διπλωματικής εργασίας, θα
ερευνηθούν αφενός εφαρμογές μηχανικής μάθησης σε σύνολα δεδομένων διαφόρων μεγεθών,
τεχνολογίες που χρησιμοποιούνται κατά κόρον και αφενός οι τεχνικές βελτίωσης απόδοσης
της μηχανικής μάθησης οι οποίες φαίνεται να ικανοποιούν συγκεκριμένες απαιτήσεις.
Στην σημερινή εποχή «οπλισμένοι» με ένα πλήθος αλγορίθμων και υπερ-παραμέτρων
μπορούμε να επιτύχουμε καταπληκτικά αποτελέσματα, όμως η κατάλληλη επιλογή τους είναι
μια δύσκολη διαδικασία. Επεξεργαζόμενοι καθημερινά μεγάλα σύνολα δεδομένων οι
απαιτήσεις σε επεξεργαστική ισχύ και σε χρόνο αυξάνονται. Οι περισσότεροι επιστημονικοί
κλάδοι απαιτούν προβλέψεις με υψηλή ακρίβεια, κάτι το οποίο χρειάζεται αρκετή έρευνα για
κάθε σύνολο δεδομένων προκειμένου να επιτευχθεί.
Η παρούσα διπλωματική εργασία προτείνει μια νέα τεχνική με δειγματοληπτικές διαδικασίες,
η οποία μπορεί να επιφέρει ικανοποιητικά αποτελέσματα σε λιγότερο χρόνο με μικρότερη
επεξεργαστική ισχύ. Παράλληλα «χτίζει» μια μεθοδολογία για την ανάλυση μεγάλων
δεδομένων και αντιμετώπισης γενικών προβλημάτων όπως οι ελλιπείς τιμές, οι
αλφαριθμητικές τιμές αλλά και άλλα όπως τα ανισόρροπα σύνολα δεδομένων.
Η τεχνική αυτή, λειτουργεί με την μέθοδο της δειγματοληψίας σε γραμμές αλλά και στις
στήλες, αξιολογείται μέσω μιας πειραματικής διαδικασίας όπου συγκεντρώνονται αρκετά
αποτελέσματα από διάφορα σύνολα δεδομένων και συγκρίνεται χωρίς την χρήση αυτής. Πιο
συγκεκριμένα χρησιμοποιήθηκαν 15 σύνολα δεδομένων για binary classification, 15 για multi
classification και 5 για regression. Όλα τα σύνολα δεδομένων είναι γνωστά σύνολα στον τομέα
της μηχανικής μάθησης.
Τα αποτελέσματα της πειραματικής διαδικασίας υπέδειξαν πως ένα 10% είναι αρκετό για
δειγματοληψία στις γραμμές και ένα 80% είναι αρκετό για δειγματοληψία στις στήλες με βάση
την συσχέτιση. Το αποτέλεσμα φαίνεται να είναι ικανοποιητικό αφού η ίδια επιλογή των
αλγορίθμων με χρήση του sample έναντι του complete φτάνει στο 80%, ενώ στην περίπτωση
που ο αλγόριθμος επιλογής δεν είναι ο ίδιος υπάρχει πιθανότητα που ξεπερνά το 70% να είναι
ο αμέσως καλύτερος. Αυτό πρακτικά σημαίνει πως αν σε ένα μικρότερο σύνολο δεδομένων
ληφθεί η απόφαση για την χρήση ενός αλγορίθμου τότε αυτός ο αλγόριθμος είναι αρκετά
πιθανό να λειτουργήσει καλύτερα και σε όλο το σύνολο δεδομένων.
Συγκεκριμένα η τεχνική αυτή έχει υλοποιηθεί σε γλώσσα python υπό μορφή βιβλιοθήκης, η
οποία αποτελείται από αρκετές υπο-διαδικασίες με συγκεκριμένη σειρά και οργάνωση. Κάθε
υπο-διαδικασία χειρίζεται συγκεκριμένες αποφάσεις κατά το στάδιο της προ-επεξεργασίας,
όπως την διαχείριση δειγματοληψίας στις γραμμές, την διαχείριση δειγματοληψίας στις στήλες,
την αντιμετώπιση ελλιπών τιμών, την κανονικοποίηση αλλά και στο στάδιο της
μοντελοποίησης όπως την επιλογή αλγορίθμου και την βελτιστοποίηση υπερ-παραμέτρων.
Ακόμα, αυτή η βιβλιοθήκη έχει δημοσιοποιηθεί στο repository PiPy με το όνομα
“AutoMLWrapper” (αφού πρόκειται για ένα σύνολο υπο-διαδικασιών ειδικότερων μεθόδων)
και συνοδεύεται από σχετικό notebook sample. https://pypi.org/project/automlwrapper/ Έτσι η
διανομή και εκτέλεση μπορεί να γίνει εύκολα και γρήγορα σε ένα οποιοδήποτε περιβάλλον
python απλά εγκαθιστώντας την βιβλιοθήκη με την χρήση του pip install ώστε η χρήση της να
είναι άμεση από τον τελικό χρήστη.