Clustering algorithm selection by meta-learning
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Clustering ; Data characterization ; Meta-learning ; Algorithm ranking ; Algorithm selection ; Meta-knowledgeΠερίληψη
Η συσταδοποίηση δεδομένων είναι μια προσπάθεια ομαδοποίησης μιας βάσης δεδομένων σε ομάδες αντικειμένων βασισμένες στις ομοιότητες των εν λόγω αντικειμένων. Η αναζήτηση μιας ποιοτικής λύσης μπορεί να γίνει μια περίπλοκη διαδικασία λόγω απουσίας της επιτήρησης. Αυτή τη στιγμή υπάρχει ένα ευρύ φάσμα αλγορίθμων ομαδοποίησης και μπορεί να είναι μια αργή και δαπανηρή διαδικασία για την επιλογή του καλύτερου για ένα δεδομένο πρόβλημα. Για κάθε σύνολο δεδομένων που σχετίζεται με προβλήματα ομαδοποίησης, υπάρχει μια εξαντλητική διαδικασία που ζητά από έναν Data Scientist πρώτα να ελέγξει κάθε αλγόριθμο ομαδοποίησης για να βρει το πιο κατάλληλο. Ένα σύστημα που συνιστά τον αλγόριθμο ομαδοποίησης και καθοδηγεί τον χρήστη για την επιλογή του σωστού θα ήταν ένα εξαιρετικό εργαλείο που θα προσέφερε σημαντικά οφέλη στην επιστημονική κοινότητα. Ο Ράις διατύπωσε το πρόβλημα επιλογής αλγορίθμου (ASP) το 1976, το οποίο υποθέτει ότι η παραγωγή του αλγορίθμου μπορεί να προβλεφθεί με βάση τα δομικά χαρακτηριστικά του προβλήματος. Η μετα-μάθηση έχει χρησιμοποιηθεί με επιτυχία για εργασίες συστάσεων με αλγόριθμους. Χρησιμοποιεί την εκμάθηση μηχανών για να προκαλέσει μετα-μοντέλα ικανά να προβλέψουν τον καλύτερο αλγόριθμο ενός νέου συνόλου δεδομένων. Τα πειραματικά αποτελέσματα δείχνουν ότι η σύσταση βελτιώνεται με αυτά τα μετα-χαρακτηριστικά. Με σημαντική ακρίβεια, παρουσιάζεται ότι ένα σύστημα θα μπορούσε πράγματι να συστήσει έναν αλγόριθμο ομαδοποίησης για ένα "άγνωστο" σύνολο δεδομένων μόνο εξετάζοντας πρώτα τα μετα-χαρακτηριστικά του. Τέλος, αυτή η Διπλωματική εξετάζει τη συνάφεια με τη σύσταση κάθε μετα-χαρακτηριστικού.