Resampling algorithms for the class imbalance problem: a case study on sentiment analysis
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Αναγνώριση προτύπων ; Αναδειγματοληψία ; Class imbalance problem ; Resampling ; Over-sampling ; Under-samplingΠερίληψη
Το Class Imbalance Problem είναι ένα πρόβλημα της Αναγνώρισης
Προτύπων, το οποίο προκύπτει στις περιπτώσεις που ένα σύνολο προτύπων
εκπαίδευσης κλίνει περισσότερο προς μια κατηγορία κλάσης. Με άλλα λόγια
δηλαδή, το πρόβλημα αυτό προκύπτει όταν μια κατηγορία του συνόλου
αντιπροσωπεύεται από μεγάλο αριθμό παραδειγμάτων σε σχέση με το άλλο ή
τα άλλα, τα οποία αντιπροσωπεύονται από λιγότερα.
Αυτό αποτελεί πρόβλημα, διότι οι περισσότεροι αλγόριθμοι μηχανικής
μάθησης λειτουργούν καλύτερα όταν ο αριθμός των εμφανίσεων σε κάθε
κλάση είναι περίπου ο ίδιος. Όταν ο αριθμός των εμφανίσεων σε μία τάξη
υπερβαίνει κατά πολύ την άλλη ή τις άλλες, προκύπτουν προβλήματα. Εάν
υπάρχει για παράδειγμα ένα σύνολο δεδομένων που αποτελείται από 10000
γνήσιες και 10 δόλιες συναλλαγές, ο ταξινομητής θα τείνει να χαρακτηρίσει
παράνομες συναλλαγές ως γνήσιες συναλλαγές. Αν πρόκειται αυτό το
παράδειγμα να αφορά τράπεζες ή εμπορικές εταιρίες, αυτό συνεπάγεται
δυσαρεστημένοι πελάτες και κατά συνέπεια μείωση εσόδων και αξιοπιστίας
για την εταιρία.
Το Class Imbalance Problem έκανε την εμφάνισή του στη βιβλιογραφία
περίπου 15 χρόνια πριν. Η σημασία του όμως αυξήθηκε, καθώς όλο και
περισσότεροι ερευνητές κατάλαβαν πως τα δεδομένα τους ήταν μη
ισορροπημένα, με αποτέλεσμα να μην έχουν τη βέλτιστη απόδοση
ταξινόμησης.
Τέτοια παραδείγματα είναι η ανίχνευση του δόλου σε τηλεφωνικές κλήσεις ή
σε συναλλαγές με πιστωτική κάρτα. Επίσης ένα παρόμοιο πρόβλημα
παρουσιάζεται όταν χρειάζεται να εντοπιστούν οι αναξιόπιστοι
τηλεπικοινωνιακοί πελάτες, κι αυτό διότι αποτελούν πολύ μικρό κομμάτι του
συνόλου.
Δεν είναι όμως μόνο ο δόλος, ο οποίος προκαλεί το πρόβλημα. Η
προκατάληψη ή η μεροληψία ορισμένων ανθρώπων σε μια έρευνα ή σε μια
επιλογή γενικότερα, μπορεί να προκαλέσει λάθος συμπεράσματα. Με άλλα
λόγια δηλαδή, μερικοί άνθρωποι μπορεί να δώσουν μια άλλη απάντηση σε
μια έρευνα ή να επιλέξουν να αγοράσουν ένα διαφορετικό προϊόν έναντι
κάποιου άλλου, όχι επειδή το πιστεύουν αλλά επειδή λειτουργούν
προκατειλημμένα γι’ αυτό.
Ένας άλλος λόγος, ο οποίος μπορεί να δημιουργήσει μικρότερα δείγματα,
είναι κάποιες σπάνιες περιπτώσεις, οι οποίες υπάρχουν σε ένα σύνολο
δειγμάτων και πρέπει να ληφθούν υπόψη ώστε να έχουμε ασφαλή
συμπεράσματα.
Σαν θεραπεία του Class Imbalance Problem είναι η αναδειγματοληψία
(Resampling). Η αναδειγματοληψία λειτουργεί αλλάζοντας τις «ισορροπίες»
στο σύνολο των δεδομένων είτε αυξάνοντας τον αριθμό των δειγμάτων στην
κλάση μειοψηφίας (over-sampling) είτε μειώνοντας τον αριθμό των δειγμάτων στην κλάση της πλειοψηφίας (under-sampling). Το αποτέλεσμα των
δεδομένων που προκύπτει μετά την αναδειγματοληψία είναι πιο
ισορροπημένο. Οι μέθοδοι αυτοί λοιπόν αναδειγματοληψίας, χρησιμοποιούν
τέτοιες ευριστικές, οι οποίες προσπαθούν να προσεγγίσουν τη βέλτιστη
κατανομή των δειγμάτων, ώστε να τα επεξεργαστούμε και να βγάλουμε
ασφαλή συμπεράσματα για τα δεδομένα.