Συστήματα συστάσεων: αντιμετώπιση αραιών δεδομένων με παραγωγή εγγράφων χαρακτηριστικών
Master Thesis
Συγγραφέας
Εφραιμίδης, Ζαχαρίας Η.
Ημερομηνία
2014-12-02Επιβλέπων
Τσιχριντζής, ΓεώργιοςΠροβολή/ Άνοιγμα
Θεματική επικεφαλίδα
Artificial intelligence -- Mathematics ; Εξόρυξη δεδομένων ; Recommender systems (Information filtering)Περίληψη
Με την εξάπλωση του Διαδικτύου δόθηκε η δυνατότητα σε κάθε ενδιαφερόμενο να επεκταθεί σε ευρύτερο κοινό. Άμεσα ξεκίνησε ο σχεδιασμός και η ανάπτυξη ολοκληρωμένων συστημάτων που να επιτρέπουν την απομακρυσμένη πρόσβαση των χρηστών σε κάθε είδους δεδομένα. Σύντομα παρήχθη πλεονάζουσα πληροφορία καθιστώντας αρκετά συστήματα δυσλειτουργικά, αφού οι χρήστες δυσκολεύονταν πλέον να εντοπίσουν ενδιαφέροντα στοιχεία. Έκτοτε έχει ξεκινήσει η αναζήτηση λύσεων, που να επιτρέπουν την περαιτέρω ανάπτυξη συστημάτων, χωρίς όμως να αποθαρρύνονται οι χρήστες τους. Τα συστήματα συστάσεων είναι μία από τις προτεινόμενες κατευθύνσεις προς τον στόχο αυτό, καθώς σκοπεύουν, μέσω διαφόρων τεχνικών, να προβλέψουν τον βαθμό αποδοχής κάθε στοιχείου από κάθε χρήστη και να κάνουν τις καταλληλότερες προτάσεις. Αν και οι τεχνικές ποικίλουν, ο βασικός τρόπος λειτουργίας σχετίζεται με τα υπάρχοντα δεδομένα του συστήματος, δηλαδή βασίζεται στα χαρακτηριστικά των στοιχείων ή των χρηστών, καθώς και τις μεταξύ τους αλληλεπιδράσεις, ώστε να προτείνει κατάλληλα στοιχεία στον εκάστοτε χρήστη. Ένα από τα σημαντικότερα προβλήματα των συστημάτων συστάσεων είναι τα αραιά δεδομένα. Δηλαδή παρατηρείται η έλλειψη μεγάλου ποσοστού από τα προαναφερθέντα χαρακτηριστικά, άλλοτε λόγω πρωτοεμφανιζόμενου χρήστη, όπου το σύστημα δεν έχει στη μνήμη του αρκετές πληροφορίες, και άλλοτε λόγω εσφαλμένης μοντελοποίησης των στοιχείων, με αποτέλεσμα η δομή τους να περιέχει κενές τιμές στα περιττά χαρακτηριστικά. Στην παρούσα εργασία για τη διαπίστωση αυτού του φαινομένου πραγματοποιείται μία πειραματική υλοποίηση αξιοποιώντας δεδομένα κινηματογραφικών ταινιών από MovieLens και IMDb. Στη συνέχεια επιδιώκεται η επίλυση του προβλήματος αυτού εξάγοντας θέματα από το σύνολο των χαρακτηριστικών με χρήση του αλγορίθμου latent Dirichlet allocation και περιγράφοντας τα στοιχεία ως μείγματα των θεμάτων.