Εμφάνιση απλής εγγραφής

dc.contributor.advisorΤσιχριντζής, Γεώργιος
dc.contributor.authorΜητσιάνης, Παναγιώτης
dc.date.accessioned2018-01-25T12:11:41Z
dc.date.available2018-01-25T12:11:41Z
dc.date.issued2017
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/10876
dc.description.abstractΤο Class Imbalance Problem είναι ένα πρόβλημα της Αναγνώρισης Προτύπων, το οποίο προκύπτει στις περιπτώσεις που ένα σύνολο προτύπων εκπαίδευσης κλίνει περισσότερο προς μια κατηγορία κλάσης. Με άλλα λόγια δηλαδή, το πρόβλημα αυτό προκύπτει όταν μια κατηγορία του συνόλου αντιπροσωπεύεται από μεγάλο αριθμό παραδειγμάτων σε σχέση με το άλλο ή τα άλλα, τα οποία αντιπροσωπεύονται από λιγότερα. Αυτό αποτελεί πρόβλημα, διότι οι περισσότεροι αλγόριθμοι μηχανικής μάθησης λειτουργούν καλύτερα όταν ο αριθμός των εμφανίσεων σε κάθε κλάση είναι περίπου ο ίδιος. Όταν ο αριθμός των εμφανίσεων σε μία τάξη υπερβαίνει κατά πολύ την άλλη ή τις άλλες, προκύπτουν προβλήματα. Εάν υπάρχει για παράδειγμα ένα σύνολο δεδομένων που αποτελείται από 10000 γνήσιες και 10 δόλιες συναλλαγές, ο ταξινομητής θα τείνει να χαρακτηρίσει παράνομες συναλλαγές ως γνήσιες συναλλαγές. Αν πρόκειται αυτό το παράδειγμα να αφορά τράπεζες ή εμπορικές εταιρίες, αυτό συνεπάγεται δυσαρεστημένοι πελάτες και κατά συνέπεια μείωση εσόδων και αξιοπιστίας για την εταιρία. Το Class Imbalance Problem έκανε την εμφάνισή του στη βιβλιογραφία περίπου 15 χρόνια πριν. Η σημασία του όμως αυξήθηκε, καθώς όλο και περισσότεροι ερευνητές κατάλαβαν πως τα δεδομένα τους ήταν μη ισορροπημένα, με αποτέλεσμα να μην έχουν τη βέλτιστη απόδοση ταξινόμησης. Τέτοια παραδείγματα είναι η ανίχνευση του δόλου σε τηλεφωνικές κλήσεις ή σε συναλλαγές με πιστωτική κάρτα. Επίσης ένα παρόμοιο πρόβλημα παρουσιάζεται όταν χρειάζεται να εντοπιστούν οι αναξιόπιστοι τηλεπικοινωνιακοί πελάτες, κι αυτό διότι αποτελούν πολύ μικρό κομμάτι του συνόλου. Δεν είναι όμως μόνο ο δόλος, ο οποίος προκαλεί το πρόβλημα. Η προκατάληψη ή η μεροληψία ορισμένων ανθρώπων σε μια έρευνα ή σε μια επιλογή γενικότερα, μπορεί να προκαλέσει λάθος συμπεράσματα. Με άλλα λόγια δηλαδή, μερικοί άνθρωποι μπορεί να δώσουν μια άλλη απάντηση σε μια έρευνα ή να επιλέξουν να αγοράσουν ένα διαφορετικό προϊόν έναντι κάποιου άλλου, όχι επειδή το πιστεύουν αλλά επειδή λειτουργούν προκατειλημμένα γι’ αυτό. Ένας άλλος λόγος, ο οποίος μπορεί να δημιουργήσει μικρότερα δείγματα, είναι κάποιες σπάνιες περιπτώσεις, οι οποίες υπάρχουν σε ένα σύνολο δειγμάτων και πρέπει να ληφθούν υπόψη ώστε να έχουμε ασφαλή συμπεράσματα. Σαν θεραπεία του Class Imbalance Problem είναι η αναδειγματοληψία (Resampling). Η αναδειγματοληψία λειτουργεί αλλάζοντας τις «ισορροπίες» στο σύνολο των δεδομένων είτε αυξάνοντας τον αριθμό των δειγμάτων στην κλάση μειοψηφίας (over-sampling) είτε μειώνοντας τον αριθμό των δειγμάτων στην κλάση της πλειοψηφίας (under-sampling). Το αποτέλεσμα των δεδομένων που προκύπτει μετά την αναδειγματοληψία είναι πιο ισορροπημένο. Οι μέθοδοι αυτοί λοιπόν αναδειγματοληψίας, χρησιμοποιούν τέτοιες ευριστικές, οι οποίες προσπαθούν να προσεγγίσουν τη βέλτιστη κατανομή των δειγμάτων, ώστε να τα επεξεργαστούμε και να βγάλουμε ασφαλή συμπεράσματα για τα δεδομένα.el
dc.format.extent41el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleResampling algorithms for the class imbalance problem: a case study on sentiment analysisel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.contributor.masterΠροηγμένα Συστήματα Πληροφορικήςel
dc.subject.keywordΑναγνώριση προτύπωνel
dc.subject.keywordΑναδειγματοληψίαel
dc.subject.keywordClass imbalance problemel
dc.subject.keywordResamplingel
dc.subject.keywordOver-samplingel
dc.subject.keywordUnder-samplingel


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»