Online learning algorithms with application in ranked recommendations

Panagiotopoulou, Evgenia; Παναγιωτοπούλου, Ευγενία

dc.contributor.advisor	Telelis, Orestis
dc.contributor.advisor	Τελέλης, Ορέστης
dc.contributor.author	Panagiotopoulou, Evgenia
dc.contributor.author	Παναγιωτοπούλου, Ευγενία
dc.date.accessioned	2019-11-05T11:19:30Z
dc.date.available	2019-11-05T11:19:30Z
dc.date.issued	2019
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/12258
dc.description.abstract	Στην παρούσα διπλωματική εργασία μελετάμε την περιοχή της «Άμεσης Εκμάθησης» και την εφαρμογή της σε συστήματα που παράγουν διατεταγμένες συστάσεις, κάνοντας χρήση επιπρόσθετης πληροφορίας. Σήμερα, οι σύγχρονες πλατφόρμες, ιστοσελίδες και εφαρμογές δημιουργούν την ανάγκη για συστήματα συστάσεων που προσφέρουν χρήσιμο περιεχόμενο για τον χρήστη. Η άμεση εκμάθηση προσφέρει μια ιδανική λύση προς αυτή την κατεύθυνση, καθώς μπορεί να ικανοποιήσει τον πελάτη – ή χρήστη – χωρίς να απαιτεί ακριβούς υπολογιστικούς πόρους, εκπαίδευση ή παρελθόντα δεδομένα και έχοντας τη δυνατότητα να προσαρμόζεται γρήγορα σε νέα δεδομένα. Επιπλέον, εισάγοντας παρακείμενη σχετική πληροφορία σε ένα σύστημα συστάσεων άμεσης εκμάθησης, μπορούμε να παραγάγουμε συστάσεις περιεχομένου, το οποίο είναι ελκυστικό και προσαρμοσμένο στις ανάγκες των χρηστών. Συγκεκριμένα, κατά τη διάρκεια αυτής της μελέτης εξερευνούμε βιβλιογραφικά το «Πρόβλημα των Πολλαπλών Κουλοχέρηδων», τους «Κουλοχέρηδες Επιπρόσθετης Πληροφορίας», τις «Διατεταγμένες Συστάσεις» και τους αντίστοιχους αλγόριθμους. Με σκοπό να εμβαθύνουμε στις συστάσεις άμεσης εκμάθησης, σχεδιάζουμε και πραγματοποιούμε πειράματα με τεχνητά σύνολα δικιάς μας παραγωγής, χρησιμοποιώντας τους αλγορίθμους που μας φάνηκαν πιο ενδιαφέροντες. Η ιδέα μας ήταν να συνδυάσουμε τους μετα-αλγόριθμους συστάσεων RBA και IBA με στιγμιότυπα του LinUCB, ενός αλγορίθμου επιπρόσθετης πληροφορίας με γραμμικές ανταμοιβές. Συνεπώς, οι δύο περιπτώσεις που είχαμε να συγκρίνουμε είναι ο RBA-LinUCB – ένας αλγόριθμος μονού κλικ, διαφοροποιημένων συστάσεων που έχει δοκιμαστεί πειραματικά στο παρελθόν – και ο IBA-LinUCB, ο οποίος είναι ένας αλγόριθμος πολλαπλών κλικς που δοκιμάζεται για πρώτη φορά στην παρούσα εργασία, εξ ’όσων γνωρίζουμε. Στα αποτελέσματα των πειραμάτων μας φαίνεται πως ο RBA-LinUCB έχει αυξανόμενα καλύτερη επίδοση από τον IBA-LinUCB, καθώς η αύξηση της τυπικής απόκλισης στις ανταμοιβές των χεριών οδηγεί σε αυξημένο σωρευτικό σφάλμα για τον IBA-LinUCB, ενώ ο RBA-LinUCB παραμένει ανεπηρέαστος. Από μια άλλη οπτική γωνία, όμως, φαίνεται πως ο IBA-LinUCB επιφέρει αυξανόμενα περισσότερα κλικς από ό,τι ο RBA-LinUCB, καθώς ο μέσος ρυθμός ανταμοιβών των χεριών αυξάνεται. Τέλος, παρακολουθώντας τον τρόπο με τον οποίο μαθαίνουν τα στιγμιότυπα των αλγορίθμων συστάσεων, αποκαλύπτεται πως τα στιγμιότυπα του IBA-LinUCB μαθαίνουν πολύ πιο γρήγορα και με μεγαλύτερη ακρίβεια από ό,τι αυτά του RBA-LinUCB. Οι παραπάνω παρατηρήσεις μας οδηγούν στο συμπέρασμα πως ο IBA-LinUCB αναμένεται να προσφέρει πιο ουσιαστικά αποτελέσματα και να επιφέρει περισσότερα κλικς από ό,τι ο RBA-LinUCB και άρα αποτελεί μια πιο αποτελεσματική λύση, όταν χρησιμοποιείται σε συστήματα συστάσεων άμεσης εκμάθησης με χρήση επιπρόσθετης πληροφορίας.	el
dc.format.extent	65	el
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	Online learning algorithms with application in ranked recommendations	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων	el
dc.description.abstractEN	In this work we study the Online Learning and its application in ranked recommendations’ systems that use context. Nowadays, modern platforms, websites and applications create an increased need for recommendations’ systems that offer useful content suggestions. Online learning poses a great solution towards that purpose, as it can leave the customer – or user – satisfied, while requiring minimal computational resources, without demanding training or past data and with the ability to adapt quickly to new data. Furthermore, by introducing relevant context – side information – into an online learning recommendation system we can expect to produce content suggestions for the users that are appealing and tailored to their needs and interests. Specifically, over the course of this study we explore bibliographically the Multiarmed Bandit problem (MAB), the Contextual Bandits, the Rankings of Recommendations and the corresponding algorithms. In order to delve deeper into the online learning recommendations, we design and conduct experiments with our own generated artificial datasets, using the algorithms that we found the most interesting. Our idea was to combine the recommendation meta-algorithms RBA and IBA with instances of the linear rewards contextual algorithm LinUCB. As it is, the two cases we are comparing are the RBA-LinUCB – a single-click, diverse-rankings algorithm that has been tested experimentally before – and the IBA-LinUCB, which is a multiple-clicks algorithm that is being tested for the first time in this work, to our knowledge. In the results of our experiments it appears that the RBA-LinUCB has an increasingly better performance than the IBA-LinUCB, as an increase in the standard deviation of the arm rewards (SDR) of the MAB leads to a higher cumulative average regret by the IBA-LinUCB, while the RBA-LinUCB remains unaffected. Moving to another viewpoint, though, it appears that the IBA-LinUCB yields increasingly more clicks than RBA-LinUCB, as the average rate of rewards (ARR) of the arms increases. Finally, by monitoring the way the instances in the recommendation slots learn, it is revealed that the IBA-LinUCB slots learn much faster and more accurately than those of RBA-LinUCB. The above observations lead us to the fact that the IBA-LinUCB is expected to offer more substantial results and yield more clicks than the RBA-LinUCB, and thus constitutes a more effective solution when used in online contextual recommendation systems.	el
dc.contributor.master	Ψηφιακά Συστήματα και Υπηρεσίες	el
dc.subject.keyword	Online learning	el
dc.subject.keyword	Multiarmed bandit problem	el
dc.subject.keyword	Contextual bandits	el
dc.subject.keyword	Ranked recommendations	el
dc.subject.keyword	Linear rewards	el
dc.subject.keyword	LinUCB	el
dc.subject.keyword	RBA	el
dc.subject.keyword	IBA	el
dc.date.defense	2019-07-19

Αρχεία σε αυτό το τεκμήριο

Name:: PANAGIOTOPOULOU_ME1611.pdf
Μέγεθος:: 1.281Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Ψηφιακών Συστημάτων
Department of Digital Systems

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές