dc.contributor.advisor | Doulkeridis, Christos | |
dc.contributor.advisor | Δουλκερίδης, Χρήστος | |
dc.contributor.author | Petrou, Maria | |
dc.contributor.author | Πέτρου, Μαρία Ελευθερία | |
dc.date.accessioned | 2025-05-19T09:46:25Z | |
dc.date.available | 2025-05-19T09:46:25Z | |
dc.date.issued | 2025-03 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/17768 | |
dc.description.abstract | Αν θέλαμε να απαντήσουμε στο ερώτημα:
“Ποιες ταινίες μοιάζουν περισσότερο με μια συγκεκριμένη ταινία, αν ο χρήστης έχει την δυνατότητα να ορίσει το χαρακτηριστικό με το οποίο ορίζει την ομοιότητα? Για παράδειγμα, την πλοκή ή το πόστερ της ταινίας;”
Στην παρούσα διπλωματική εξετάζουμε το πρόβλημα της αναζήτησης των Κ – κοντινότερων γειτόνων σε πολυδιάστατα δεδομένα που αποτελούνται από εικόνα και κείμενο (bimodal vector search). Η συνάρτηση απόστασης την οποία χρησιμοποιούμε σαν μετρική προσαρμόζεται δυναμικά με ένα βάρος λ ∈[0,1], το οποίο καθορίζεται από τον χρήστη. Με την εισαγωγή του λ δίνουμε στον χρήστη την δυνατότητα να σταθμίσει την αναλογία σημαντικότητας μεταξύ της εικόνας και του κειμένου, προσφέροντας εξατομικευμένα αποτελέσματα που ανταποκρίνονται στις προτιμήσεις του.
Για την επίλυση αυτού του προβλήματος προτείνουμε έναν αλγόριθμο ο οποίος:
Μετασχηματίζει τα αρχικά διανύσματα (embeddings) εικόνας και κειμένου σε έναν ενιαίο διανυσματικό χώρο, χρησιμοποιώντας έναν μετασχηματισμό που εξαρτάται από το λ. Η επιλογή του μετασχηματισμού γίνεται με τέτοιο τρόπο ώστε οι αποστάσεις στο μετασχηματισμένο χώρο να είναι πολύ κοντά με τις πραγματικές αποστάσεις στον αρχικό χώρο.
Επιλέγει το κατάλληλο index, τέτοιο ώστε να επιτυγχάνεται μεγάλη ακρίβεια αποτελεσμάτων με τον μικρότερο δυνατό χρόνο απόκρισης.
Ορίζει έναν ελάχιστον αριθμό προϋπολογισμένων indexes, διασφαλίζοντας ότι για κάθε τιμή του λ η ακρίβεια είναι πάνω από 80%.
Η προσέγγισή μας εξερευνά τις δυνατότητες του FAISS – μιας πολύ αποτελεσματικής βιβλιοθήκης που χρησιμοποιείται για αναζήτηση ομοιότητας - σε πολυδιάστατα bimodal δεδομένα εικόνας και κειμένου, ένας τομέας ο οποίος δεν έχει μελετηθεί εκτενώς. Τα δεδομένα μας μετασχηματίζονται σε ενοποιημένα διανύσματα εικόνας και κειμένου, τα οποία εξαρτώνται από την παράμετρο λ. Στόχος μας είναι η ανάπτυξη ενός συστήματος που θα προσφέρει εξατομικευμένα και ακριβή αποτελέσματα, ενώ ταυτόχρονα θα διατηρεί την υπολογιστική αποδοτικότητα. | el |
dc.format.extent | 56 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα | * |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.title | Personalized K-NN search over bimodal vectors | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | If we wanted to answer the question:
"Which movies are most similar to a given movie, if the user can define the characteristic by which similarity is measured? For example, the plot or the movie poster?"
In this work, we address the problem of K-nearest neighbor (K-NN) search in high-dimensional data consisting of images and text (bimodal vector search). The distance we use as a metric is dynamically adjusted using a weight parameter λ ∈ [0,1], which the user defines. By introducing λ, we give the user the ability to balance the importance between image and text, providing personalized results that align with their preferences.
To solve this problem, we propose an algorithm that:
• Transforms the initial image and text embeddings into a unified vector space, using a transformation step that depends on λ. The transformation step is designed so that distances in the transformed space closely approximate the actual distances in the original space.
• Selects the best available index, ensuring high accuracy while minimizing query response time.
• Defines a minimal set of precomputed indexes, ensuring that for every value of λ, the accuracy remains above 80%.
Our approach explores the capabilities of FAISS, a highly efficient similarity search library, in the context of bimodal image-text data, an area that has not been extensively studied. Our data is transformed into unified multimodal embeddings, dynamically adjusted based on λ. Our goal is to develop a system that delivers personalized and accurate results while maintaining computational efficiency. | el |
dc.contributor.master | Πληροφοριακά Συστήματα και Υπηρεσίες | el |
dc.subject.keyword | Vector search | el |
dc.subject.keyword | Bimodal vector search | el |
dc.subject.keyword | FAISS | el |
dc.date.defense | 2025-03 | |