Personalized K-NN search over bimodal vectors

Master Thesis
Συγγραφέας
Petrou, Maria
Πέτρου, Μαρία Ελευθερία
Ημερομηνία
2025-03Επιβλέπων
Doulkeridis, ChristosΔουλκερίδης, Χρήστος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Vector search ; Bimodal vector search ; FAISSΠερίληψη
Αν θέλαμε να απαντήσουμε στο ερώτημα:
“Ποιες ταινίες μοιάζουν περισσότερο με μια συγκεκριμένη ταινία, αν ο χρήστης έχει την δυνατότητα να ορίσει το χαρακτηριστικό με το οποίο ορίζει την ομοιότητα? Για παράδειγμα, την πλοκή ή το πόστερ της ταινίας;”
Στην παρούσα διπλωματική εξετάζουμε το πρόβλημα της αναζήτησης των Κ – κοντινότερων γειτόνων σε πολυδιάστατα δεδομένα που αποτελούνται από εικόνα και κείμενο (bimodal vector search). Η συνάρτηση απόστασης την οποία χρησιμοποιούμε σαν μετρική προσαρμόζεται δυναμικά με ένα βάρος λ ∈[0,1], το οποίο καθορίζεται από τον χρήστη. Με την εισαγωγή του λ δίνουμε στον χρήστη την δυνατότητα να σταθμίσει την αναλογία σημαντικότητας μεταξύ της εικόνας και του κειμένου, προσφέροντας εξατομικευμένα αποτελέσματα που ανταποκρίνονται στις προτιμήσεις του.
Για την επίλυση αυτού του προβλήματος προτείνουμε έναν αλγόριθμο ο οποίος:
Μετασχηματίζει τα αρχικά διανύσματα (embeddings) εικόνας και κειμένου σε έναν ενιαίο διανυσματικό χώρο, χρησιμοποιώντας έναν μετασχηματισμό που εξαρτάται από το λ. Η επιλογή του μετασχηματισμού γίνεται με τέτοιο τρόπο ώστε οι αποστάσεις στο μετασχηματισμένο χώρο να είναι πολύ κοντά με τις πραγματικές αποστάσεις στον αρχικό χώρο.
Επιλέγει το κατάλληλο index, τέτοιο ώστε να επιτυγχάνεται μεγάλη ακρίβεια αποτελεσμάτων με τον μικρότερο δυνατό χρόνο απόκρισης.
Ορίζει έναν ελάχιστον αριθμό προϋπολογισμένων indexes, διασφαλίζοντας ότι για κάθε τιμή του λ η ακρίβεια είναι πάνω από 80%.
Η προσέγγισή μας εξερευνά τις δυνατότητες του FAISS – μιας πολύ αποτελεσματικής βιβλιοθήκης που χρησιμοποιείται για αναζήτηση ομοιότητας - σε πολυδιάστατα bimodal δεδομένα εικόνας και κειμένου, ένας τομέας ο οποίος δεν έχει μελετηθεί εκτενώς. Τα δεδομένα μας μετασχηματίζονται σε ενοποιημένα διανύσματα εικόνας και κειμένου, τα οποία εξαρτώνται από την παράμετρο λ. Στόχος μας είναι η ανάπτυξη ενός συστήματος που θα προσφέρει εξατομικευμένα και ακριβή αποτελέσματα, ενώ ταυτόχρονα θα διατηρεί την υπολογιστική αποδοτικότητα.