Εξόρυξη δεδομένων (data mining) και κατηγορικά δεδομένα
Master Thesis
Author
Σταυλιώτης, Γεράσιμος Ε.
Date
2008-07-01View/ Open
Subject
Data mining ; Εξόρυξη δεδομένων ; Database managementAbstract
Είναι βέβαιο ότι ζούμε στην κοινωνία της πληροφορίας, όπου η μετατροπή των δεδομένων σε πληροφορία απαιτείται να οδηγεί στη μετατροπή της πληροφορίας σε γνώση. Η συνύπαρξη ετερόκλητων επιστημονικών πεδίων όπως της στατιστικής, της μηχανικής εκμάθησης, της θεωρίας της πληροφορίας και των υπολογιστικών διαδικασιών, έχει δημιουργήσει μια νέα επιστήμη με δυναμικά εργαλεία. Η επιστήμη αυτή καλείται «Εξόρυξη Δεδομένων (ΕΔ)» (Data Mining) και είναι μέρος της διαδικασίας «Ανακάλυψης Γνώσης από Βάσεις Δεδομένων» (Knowledge Discovery in Databases - KDD). Τα εργαλεία της ΕΔ είναι οι αλγόριθμοί της, οι οποίοι επιχειρούν να βρουν χρήσιμα και κατανοητά πρότυπα στα δεδομένα. Κύριος στόχος της διπλωματικής εργασίας είναι η συγκέντρωση βασικών αλγορίθμων και μεθόδων που επιλέγουν και καθαρίζουν δεδομένα, αναγνωρίζουν πρότυπα, βελτιστοποιούν ένα σύστημα διαχείρισης και συσταδοποιούν δεδομένα. Δίνεται έμφαση σε αλγορίθμους που είναι κατάλληλοι για κατηγορικά δεδομένα. Επίσης, δίνεται ενδιαφέρον και για ένα τρίτο τύπο δεδομένων που καλείται «μικτά δεδομένα» και περιλαμβάνει αριθμητικά και κατηγορικά δεδομένα. Εκτός από την καταγραφή των μεθόδων και εφαρμογών της ΕΔ και της KDD, εφαρμόζονται τεχνικές συσταδοποίησης σε ένα κατηγορικό σύνολο δεδομένων, το οποίο περιλαμβάνει τους περσινούς δανειολήπτες της επιχειρηματικής μονάδας στεγαστικής πίστης μεγάλης τράπεζας. Η προσπάθειά αυτή έγκειται στην περιγραφή της ομάδας των πελατών που είναι πιθανό να αποπληρώσουν το στεγαστικό τους δάνειο και να απομακρύνουν το χαρτοφυλάκιό τους από τον τραπεζικό όμιλο.