Online learning algorithms with application in ranked recommendations
Master Thesis
Συγγραφέας
Panagiotopoulou, Evgenia
Παναγιωτοπούλου, Ευγενία
Ημερομηνία
2019Επιβλέπων
Telelis, OrestisΤελέλης, Ορέστης
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Online learning ; Multiarmed bandit problem ; Contextual bandits ; Ranked recommendations ; Linear rewards ; LinUCB ; RBA ; IBAΠερίληψη
Στην παρούσα διπλωματική εργασία μελετάμε την περιοχή της «Άμεσης Εκμάθησης» και την εφαρμογή της σε συστήματα που παράγουν διατεταγμένες συστάσεις, κάνοντας χρήση επιπρόσθετης πληροφορίας. Σήμερα, οι σύγχρονες πλατφόρμες, ιστοσελίδες και εφαρμογές δημιουργούν την ανάγκη για συστήματα συστάσεων που προσφέρουν χρήσιμο περιεχόμενο για τον χρήστη. Η άμεση εκμάθηση προσφέρει μια ιδανική λύση προς αυτή την κατεύθυνση, καθώς μπορεί να ικανοποιήσει τον πελάτη – ή χρήστη – χωρίς να απαιτεί ακριβούς υπολογιστικούς πόρους, εκπαίδευση ή παρελθόντα δεδομένα και έχοντας τη δυνατότητα να προσαρμόζεται γρήγορα σε νέα δεδομένα. Επιπλέον, εισάγοντας παρακείμενη σχετική πληροφορία σε ένα σύστημα συστάσεων άμεσης εκμάθησης, μπορούμε να παραγάγουμε συστάσεις περιεχομένου, το οποίο είναι ελκυστικό και προσαρμοσμένο στις ανάγκες των χρηστών.
Συγκεκριμένα, κατά τη διάρκεια αυτής της μελέτης εξερευνούμε βιβλιογραφικά το «Πρόβλημα των Πολλαπλών Κουλοχέρηδων», τους «Κουλοχέρηδες Επιπρόσθετης Πληροφορίας», τις «Διατεταγμένες Συστάσεις» και τους αντίστοιχους αλγόριθμους. Με σκοπό να εμβαθύνουμε στις συστάσεις άμεσης εκμάθησης, σχεδιάζουμε και πραγματοποιούμε πειράματα με τεχνητά σύνολα δικιάς μας παραγωγής, χρησιμοποιώντας τους αλγορίθμους που μας φάνηκαν πιο ενδιαφέροντες. Η ιδέα μας ήταν να συνδυάσουμε τους μετα-αλγόριθμους συστάσεων RBA και IBA με στιγμιότυπα του LinUCB, ενός αλγορίθμου επιπρόσθετης πληροφορίας με γραμμικές ανταμοιβές. Συνεπώς, οι δύο περιπτώσεις που είχαμε να συγκρίνουμε είναι ο RBA-LinUCB – ένας αλγόριθμος μονού κλικ, διαφοροποιημένων συστάσεων που έχει δοκιμαστεί πειραματικά στο παρελθόν – και ο
IBA-LinUCB, ο οποίος είναι ένας αλγόριθμος πολλαπλών κλικς που δοκιμάζεται για πρώτη φορά στην παρούσα εργασία, εξ ’όσων γνωρίζουμε.
Στα αποτελέσματα των πειραμάτων μας φαίνεται πως ο RBA-LinUCB έχει αυξανόμενα καλύτερη επίδοση από τον IBA-LinUCB, καθώς η αύξηση της τυπικής απόκλισης στις ανταμοιβές των χεριών οδηγεί σε αυξημένο σωρευτικό σφάλμα για τον IBA-LinUCB, ενώ ο RBA-LinUCB παραμένει ανεπηρέαστος. Από μια άλλη οπτική γωνία, όμως, φαίνεται πως ο IBA-LinUCB επιφέρει αυξανόμενα περισσότερα κλικς από ό,τι ο RBA-LinUCB, καθώς ο μέσος ρυθμός ανταμοιβών των χεριών αυξάνεται. Τέλος, παρακολουθώντας τον τρόπο με τον οποίο μαθαίνουν τα στιγμιότυπα των αλγορίθμων συστάσεων, αποκαλύπτεται πως τα στιγμιότυπα του IBA-LinUCB μαθαίνουν πολύ πιο γρήγορα και με μεγαλύτερη ακρίβεια από ό,τι αυτά του RBA-LinUCB. Οι παραπάνω παρατηρήσεις μας οδηγούν στο συμπέρασμα πως ο IBA-LinUCB αναμένεται να προσφέρει πιο ουσιαστικά αποτελέσματα και να επιφέρει περισσότερα κλικς από ό,τι ο RBA-LinUCB και άρα αποτελεί μια πιο αποτελεσματική λύση, όταν χρησιμοποιείται σε συστήματα συστάσεων άμεσης εκμάθησης με χρήση επιπρόσθετης πληροφορίας.