Εμφάνιση απλής εγγραφής

dc.contributor.advisorDoulkeridis, Christos
dc.contributor.advisorΔουλκερίδης, Χρήστος
dc.contributor.authorPetrou, Maria
dc.contributor.authorΠέτρου, Μαρία Ελευθερία
dc.date.accessioned2025-05-19T09:46:25Z
dc.date.available2025-05-19T09:46:25Z
dc.date.issued2025-03
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/17768
dc.description.abstractΑν θέλαμε να απαντήσουμε στο ερώτημα: “Ποιες ταινίες μοιάζουν περισσότερο με μια συγκεκριμένη ταινία, αν ο χρήστης έχει την δυνατότητα να ορίσει το χαρακτηριστικό με το οποίο ορίζει την ομοιότητα? Για παράδειγμα, την πλοκή ή το πόστερ της ταινίας;” Στην παρούσα διπλωματική εξετάζουμε το πρόβλημα της αναζήτησης των Κ – κοντινότερων γειτόνων σε πολυδιάστατα δεδομένα που αποτελούνται από εικόνα και κείμενο (bimodal vector search). Η συνάρτηση απόστασης την οποία χρησιμοποιούμε σαν μετρική προσαρμόζεται δυναμικά με ένα βάρος λ ∈[0,1], το οποίο καθορίζεται από τον χρήστη. Με την εισαγωγή του λ δίνουμε στον χρήστη την δυνατότητα να σταθμίσει την αναλογία σημαντικότητας μεταξύ της εικόνας και του κειμένου, προσφέροντας εξατομικευμένα αποτελέσματα που ανταποκρίνονται στις προτιμήσεις του. Για την επίλυση αυτού του προβλήματος προτείνουμε έναν αλγόριθμο ο οποίος: Μετασχηματίζει τα αρχικά διανύσματα (embeddings) εικόνας και κειμένου σε έναν ενιαίο διανυσματικό χώρο, χρησιμοποιώντας έναν μετασχηματισμό που εξαρτάται από το λ. Η επιλογή του μετασχηματισμού γίνεται με τέτοιο τρόπο ώστε οι αποστάσεις στο μετασχηματισμένο χώρο να είναι πολύ κοντά με τις πραγματικές αποστάσεις στον αρχικό χώρο. Επιλέγει το κατάλληλο index, τέτοιο ώστε να επιτυγχάνεται μεγάλη ακρίβεια αποτελεσμάτων με τον μικρότερο δυνατό χρόνο απόκρισης. Ορίζει έναν ελάχιστον αριθμό προϋπολογισμένων indexes, διασφαλίζοντας ότι για κάθε τιμή του λ η ακρίβεια είναι πάνω από 80%. Η προσέγγισή μας εξερευνά τις δυνατότητες του FAISS – μιας πολύ αποτελεσματικής βιβλιοθήκης που χρησιμοποιείται για αναζήτηση ομοιότητας - σε πολυδιάστατα bimodal δεδομένα εικόνας και κειμένου, ένας τομέας ο οποίος δεν έχει μελετηθεί εκτενώς. Τα δεδομένα μας μετασχηματίζονται σε ενοποιημένα διανύσματα εικόνας και κειμένου, τα οποία εξαρτώνται από την παράμετρο λ. Στόχος μας είναι η ανάπτυξη ενός συστήματος που θα προσφέρει εξατομικευμένα και ακριβή αποτελέσματα, ενώ ταυτόχρονα θα διατηρεί την υπολογιστική αποδοτικότητα.el
dc.format.extent56el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα*
dc.rightsΑναφορά Δημιουργού 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/gr/*
dc.titlePersonalized K-NN search over bimodal vectorsel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENIf we wanted to answer the question: "Which movies are most similar to a given movie, if the user can define the characteristic by which similarity is measured? For example, the plot or the movie poster?" In this work, we address the problem of K-nearest neighbor (K-NN) search in high-dimensional data consisting of images and text (bimodal vector search). The distance we use as a metric is dynamically adjusted using a weight parameter λ ∈ [0,1], which the user defines. By introducing λ, we give the user the ability to balance the importance between image and text, providing personalized results that align with their preferences. To solve this problem, we propose an algorithm that: • Transforms the initial image and text embeddings into a unified vector space, using a transformation step that depends on λ. The transformation step is designed so that distances in the transformed space closely approximate the actual distances in the original space. • Selects the best available index, ensuring high accuracy while minimizing query response time. • Defines a minimal set of precomputed indexes, ensuring that for every value of λ, the accuracy remains above 80%. Our approach explores the capabilities of FAISS, a highly efficient similarity search library, in the context of bimodal image-text data, an area that has not been extensively studied. Our data is transformed into unified multimodal embeddings, dynamically adjusted based on λ. Our goal is to develop a system that delivers personalized and accurate results while maintaining computational efficiency.el
dc.contributor.masterΠληροφοριακά Συστήματα και Υπηρεσίεςel
dc.subject.keywordVector searchel
dc.subject.keywordBimodal vector searchel
dc.subject.keywordFAISSel
dc.date.defense2025-03


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»