Σύγκριση τεχνικών διαχωριστικής ανάλυσης
Comparison of discrimination techniques
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Εποπτευόμενη μάθηση ; Διαχωριστική ανάλυση ; Discriminant methods ; Classification ; Supervised learningΠερίληψη
Το πεδίο της Διαχωριστικής Ανάλυσης παρουσιάζει ιδιαίτερο ενδιαφέρον, τόσο σε ερευνητικό επίπεδο, όσο και σε επίπεδο πρακτικής εφαρμογής στο χώρο των επιχειρήσεων, σε ένα ευρύ πεδίο δραστηριοτήτων. Στον Χρηματοπιστωτικό τομέα, τα τραπεζικά ιδρύματα ενδιαφέρονται για τον έγκαιρο εντοπισμό των πελατών με υψηλή πιστοληπτική διαβάθμιση, προκειμένου να αποφανθούν για την χορήγηση ή μη πίστωσης, στον τομέα της Ιατρικής Επιστήμης, προκειμένου να εντοπιστούν και προληπτικά αντιμετωπιστούν σοβαρές ασθένειες, με βάση τα επίπεδα τιμών συγκεκριμένων ιατρικών δεικτών και συναφών συμπτωμάτων, στον τομέα των Κοινωνικών Επιστημών και της Εγκληματολογίας, προκειμένου να εντοπιστούν κοινωνικές ομάδες συγκεκριμένου ενδιαφέροντος ή κινδύνου, με κριτήριο μία σειρά από χαρακτηριστικά (δημογραφικά, ιατρικά, οικονομικά κλπ.), καθώς και στον τομέα του Marketing, προκειμένου να αποφασιστεί το κατά πόσον ένα συγκεκριμένο τμήμα της Αγοράς, κρίνεται κατάλληλο για την τοποθέτηση και ανάπτυξη νέων προϊοντικών κατηγοριών ή υπηρεσιών. Βασικός σκοπός της διαχωριστικής διαδικασίας είναι να κατατάξει τις υπό μελέτη πειραματικές μονάδες, σε έναν από πολλούς γνωστούς πληθυσμούς, με βάση τις τιμές επιλεχθέντων παρατηρούμενων χαρακτηριστικών. Το παραπάνω καθίσταται εφικτό, μέσω της διαμόρφωσης κατάλληλου διαχωριστικού κανόνα, βάση του οποίου κατατάσσεται κάθε πειραματική μονάδα, σε έναν από τους διαθέσιμους πληθυσμούς.
Στην παρούσα διπλωματική εργασία, αναπτύσσεται λεπτομερώς το θεωρητικό πλαίσιο της μεθόδου Πολυωνυμικής Λογιστικής Παλινδρόμησης, καθώς και των Διαχωριστικών Αλγορίθμων ID3, C4_5 και CART. Ακολούθως, δίδονται συγκεκριμένα παραδείγματα εφαρμογής εκάστης μεθόδου, προκειμένου να καταστεί ευκολότερη η κατανόηση των σχετικών εννοιών θεμελίωσής τους. Καταληκτικά, πραγματοποιείται εκτενής εφαρμογή της μεθόδου Πολυωνυμικής Λογιστικής Παλινδρόμησης, καθώς και του διαχωριστικού αλγορίθμου C 4_5, σε πρωτογενές σύνολο δεδομένων, προκειμένου να διαχωριστούν οι φορολογούμενοι συγκεκριμένης χώρας, ως προς την οικογενειακή τους κατάσταση, πληροφορία η οποία είναι χρήσιμη στις φορολογικές αρχές, για την αποτελεσματικότερη φορολογική διαχείριση των μη μονίμων κατοίκων αλλοδαπής εθνικότητας. Η απόδοση και διαχωριστική ακρίβεια των δύο μεθόδων η οποία επιτεύχθηκε, κρίνεται απολύτως συγκρίσιμη σε σύνολα δεδομένων, τα οποία είναι πλήρη επί των χρησιμοποιούμενων χαρακτηριστικών, δηλαδή χωρίς την εμφάνιση ελλειπουσών τιμών, ενώ στην περίπτωση ενσωμάτωσης χαρακτηριστικών με υψηλό ποσοστό ελλειπουσών τιμών και μετέπειτα διαχείρισης αυτών, ο διαχωριστικός αλγόριθμος C 4_5, εμφανίστηκε ανθεκτικότερος, σημειώνοντας καλύτερη ακρίβεια διαχωρισμού, σε σχέση με εκείνον της Πολυωνυμικής Λογιστικής Παλινδρόμησης.