Εμφάνιση απλής εγγραφής

Attribute-conditioned facial image generation through contrastive learning

dc.contributor.advisorGiannakopoulos, Theodoros
dc.contributor.advisorΓιαννακόπουλος, Θεόδωρος
dc.contributor.authorStavrianoudakis, Vasileios
dc.contributor.authorΣταυριανουδάκης, Βασίλειος
dc.date.accessioned2025-02-14T10:17:31Z
dc.date.available2025-02-14T10:17:31Z
dc.date.issued2025
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/17468
dc.descriptionNot available until 14/02/2026
dc.description.abstractΗ αυξανόμενη πολυπλοκότητα των εφαρμογών βαθιάς μάθησης απαιτεί προηγμένες τεχνικές representation learning, ικανές να αναπαριστούν σημασιολογικές πληροφορίες σε πολλαπλές κλίμακες. Τα παραδοσιακά deep learning συστήματα συχνά επικεντρώνονται είτε σε υψηλού επιπέδου πληροφορίες, όπως τα class labels στο supervised learning, είτε σε χαμηλού επιπέδου πληροφορίες, που βρίσκονται σε unsupervised reconstruction tasks και είναι σε επίπεδο pixel. Ωστόσο, οι σύγχρονες εφαρμογές απαιτούν ολοένα και περισσότερο αναπαραστάσεις που περιλαμβάνουν και τις μεσαίου επιπέδου πληροφορίες, οι οποίες γεφυρώνουν το χάσμα μεταξύ της γενικής και υψηλού επιπέδου πληροφορίας. Αυτές οι μεσαίου επιπέδου αναπαραστάσεις είναι ιδιαίτερα χρήσιμες σε εργασίες όπως το guided image generation, όπου η διατήρηση ισορροπίας μεταξύ της γενικής δομής και της λεπτομερούς πληροφορίας είναι απαραίτητη. Η παρούσα εργασία παρουσιάζει ένα νέο πλαίσιο που αξιοποιεί το contrastive learning για την ανάπτυξη συνεχών και εκφραστικών encoders χαρακτηριστικών, σχεδιασμένων ειδικά για τις μεσαίου επιπέδου αναπαραστάσεις. Το προτεινόμενο πλαίσιο περιλαμβάνει τρία βασικά στοιχεία: (i) μια διαδικασία για την κατασκευή συνόλων δεδομένων χαρακτηριστικών που εκπροσωπούν αποτελεσματικά τη μεσαίου επιπέδου σημασιολογία, (ii) την εφαρμογή contrastive learning τεχνικών για την εκπαίδευση encoders χαρακτηριστικών και (iii) μια μεθοδολογία για conditioning facial image generation βάσει των διανυσμάτων που εξάγονται από τους encoders. Στο πρώτο στάδιο, το VoxCeleb2 dataset προεπεξεργάζεται με σκοπό την αντιμετώπιση ζητημάτων ποιότητας, ενώ με τη χρήση προ-εκπαιδευμένων state-of-the-art μοντέλων, η μεθοδολογία αυτή εξαλείφει την εξάρτηση σε ανθρώπινες επισημάνσεις, δημιουργώντας μια γενική και επεκτάσιμη λύση. Στο δεύτερο στάδιο, γίνεται χρήση του νέου Rank-n-Contrast (RNC) loss, μια επέκταση του contrastive learning, που σχεδιάστηκε για συνεχή labels. Αυτή η προσέγγιση επιτρέπει στους encoders να μαθαίνουν συνεχείς, ταξινομημένες αναπαραστάσεις χαρακτηριστικών που βελτιώνουν τη γενίκευση των encoders. Στο τρίτο στάδιο, αυτά τα διανύσματα χαρακτηριστικών ενσωματώνονται σε ενα conditional facial image generation pipeline, που ονομάσαμε attribute-conditioned GAN (ac-GAN). Τα πειραματικά αποτελέσματα δείχνουν ότι το ac-GAN υπερβαίνει σημαντικά τις συμβατικές προσεγγίσεις guided generation που βασίζονται σε class labels, δημιουργώντας εικόνες προσώπων υψηλότερης ποιότητας και ανώτερα αποτελέσματα παραγωγής με βάση τα χαρακτηριστικά. Κάθε στάδιο του προτεινόμενου πλαισίου βασίζεται αλλά και επικυρώνει το προηγούμενο. Με την επιλογή μετρικών που ποσοτικοποιούν την ποιότητα της παραγόμενης εικόνας και την πιστότητα των χαρακτηριστικών, καθώς και την εξαγωγή οπτικών αποτελεσμάτων, αυτή η διατριβή υπογραμμίζει τη σημασία και την υπεροχή των encoders που εκπαιδεύτηκαν με το RNC loss και της ac-GAN μεθοδολογίας. Τα ευρήματα ανοίγουν τον δρόμο για εφαρμογές γύρω από τη δημιουργία ή τον χειρισμό εικόνων με βάση συγκεκριμένα χαρακτηριστικά. Κάποιες από αυτές περιλαμβάνουν το face reenactment και το talking head generation.el
dc.format.extent86el
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.titleAttribute-conditioned facial image generation through contrastive learningel
dc.title.alternativeΔημιουργία εικόνων προσώπων με την χρήση χαρακτηριστικών μέσω αντιθετικής μάθησηςel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτωνel
dc.description.abstractENThe growing complexity of deep learning applications demands advanced representation learning techniques capable of capturing semantic information across multiple scales. Traditional deep learning systems often focus on either high-level semantics, such as class labels in supervised learning, or low-level semantics, like pixel-level details in unsupervised reconstruction tasks. However, modern applications increasingly require representations that also encompass mid-level semantics, which bridge the gap between global structure and fine-grained details. These mid-level representations are particularly valuable in tasks like guided image generation, where maintaining a balance between structural coherence and detailed precision is essential. This thesis introduces a novel framework leveraging contrastive learning to develop continuous and expressive attribute-related encoders specifically designed to capture these mid-level semantics. The proposed framework comprises three key components: (i) a pipeline for constructing attribute datasets that effectively represent mid-level semantics, (ii) the application of contrastive learning techniques to train attribute encoders, and (iii) a methodology for conditioning facial image generation on these attribute encodings. In the first stage, the VoxCeleb2 dataset is preprocessed to enhance image quality, and state-of-the-art pre-trained models are employed to infer attribute information scalably, eliminating the need for manual supervision. The second stage introduces the Rank-n-Contrast (RNC) loss, an extension of contrastive learning that accommodates real-valued continuous annotations. This approach enables the encoders to learn representation spaces where attributes are modeled continuously, yielding effective and interpretable attribute descriptors. In the third stage, these attribute vectors are integrated into a conditional facial image generation pipeline, referred to as attribute-conditioned GAN (ac-GAN). Experimental results demonstrate that ac-GAN significantly surpasses conventional guided generation approaches based on class labels, delivering higher-quality facial images and superior attribute-driven generation outcomes. Each stage of the proposed framework builds upon and validates the preceding one. Through carefully selected quantitative metrics assessing image quality and attribute fidelity, alongside qualitative visual evaluations, this thesis highlights the effectiveness of the RNC-trained encoders and the ac-GAN pipeline. The findings pave the way for broader applications in attribute-driven image generation and editing, including tasks such as face reenactment and talking head generation.el
dc.corporate.nameNational Center of Scientific Research "Demokritos"el
dc.contributor.masterΤεχνητή Νοημοσύνη - Artificial Intelligenceel
dc.subject.keywordAttributesel
dc.subject.keywordEncodersel
dc.subject.keywordStyleGAN2el
dc.subject.keywordGANel
dc.subject.keywordContrastive learningel
dc.subject.keywordImage generationel
dc.subject.keywordGuided generationel
dc.subject.keywordDataset creationel
dc.subject.keywordFacial image generationel
dc.subject.keywordMid-level semanticsel
dc.date.defense2025-01-18


Αρχεία σε αυτό το τεκμήριο

ΑρχείαΜέγεθοςΤύποςΠροβολή

Δεν υπάρχουν αρχεία που να σχετίζονται με αυτό το τεκμήριο.

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»