Attribute-conditioned facial image generation through contrastive learning
Δημιουργία εικόνων προσώπων με την χρήση χαρακτηριστικών μέσω αντιθετικής μάθησης
Master Thesis
Συγγραφέας
Stavrianoudakis, Vasileios
Σταυριανουδάκης, Βασίλειος
Ημερομηνία
2025Λέξεις κλειδιά
Attributes ; Encoders ; StyleGAN2 ; GAN ; Contrastive learning ; Image generation ; Guided generation ; Dataset creation ; Facial image generation ; Mid-level semanticsΠερίληψη
Η αυξανόμενη πολυπλοκότητα των εφαρμογών βαθιάς μάθησης απαιτεί προηγμένες τεχνικές representation learning, ικανές να αναπαριστούν σημασιολογικές πληροφορίες σε πολλαπλές κλίμακες. Τα παραδοσιακά deep learning συστήματα συχνά επικεντρώνονται είτε σε υψηλού επιπέδου πληροφορίες, όπως τα class labels στο supervised learning, είτε σε χαμηλού επιπέδου πληροφορίες, που βρίσκονται σε unsupervised reconstruction tasks και είναι σε επίπεδο pixel. Ωστόσο, οι σύγχρονες εφαρμογές απαιτούν ολοένα και περισσότερο αναπαραστάσεις που περιλαμβάνουν και τις μεσαίου επιπέδου πληροφορίες, οι οποίες γεφυρώνουν το χάσμα μεταξύ της γενικής και υψηλού επιπέδου πληροφορίας. Αυτές οι μεσαίου επιπέδου αναπαραστάσεις είναι ιδιαίτερα χρήσιμες σε εργασίες όπως το guided image generation, όπου η διατήρηση ισορροπίας μεταξύ της γενικής δομής και της λεπτομερούς πληροφορίας είναι απαραίτητη. Η παρούσα εργασία παρουσιάζει ένα νέο πλαίσιο που αξιοποιεί το contrastive learning για την ανάπτυξη συνεχών και εκφραστικών encoders χαρακτηριστικών, σχεδιασμένων ειδικά για τις μεσαίου επιπέδου αναπαραστάσεις.
Το προτεινόμενο πλαίσιο περιλαμβάνει τρία βασικά στοιχεία: (i) μια διαδικασία για την κατασκευή συνόλων δεδομένων χαρακτηριστικών που εκπροσωπούν αποτελεσματικά τη μεσαίου επιπέδου σημασιολογία, (ii) την εφαρμογή contrastive learning τεχνικών για την εκπαίδευση encoders χαρακτηριστικών και (iii) μια μεθοδολογία για conditioning facial image generation βάσει των διανυσμάτων που εξάγονται από τους encoders.
Στο πρώτο στάδιο, το VoxCeleb2 dataset προεπεξεργάζεται με σκοπό την αντιμετώπιση ζητημάτων ποιότητας, ενώ με τη χρήση προ-εκπαιδευμένων state-of-the-art μοντέλων, η μεθοδολογία αυτή εξαλείφει την εξάρτηση σε ανθρώπινες επισημάνσεις, δημιουργώντας μια γενική και επεκτάσιμη λύση. Στο δεύτερο στάδιο, γίνεται χρήση του νέου Rank-n-Contrast (RNC) loss, μια επέκταση του contrastive learning, που σχεδιάστηκε για συνεχή labels. Αυτή η προσέγγιση επιτρέπει στους encoders να μαθαίνουν συνεχείς, ταξινομημένες αναπαραστάσεις χαρακτηριστικών που βελτιώνουν τη γενίκευση των encoders. Στο τρίτο στάδιο, αυτά τα διανύσματα χαρακτηριστικών ενσωματώνονται σε ενα conditional facial image generation pipeline, που ονομάσαμε attribute-conditioned GAN (ac-GAN). Τα πειραματικά αποτελέσματα δείχνουν ότι το ac-GAN υπερβαίνει σημαντικά τις συμβατικές προσεγγίσεις guided generation που βασίζονται σε class labels, δημιουργώντας εικόνες προσώπων υψηλότερης ποιότητας και ανώτερα αποτελέσματα παραγωγής με βάση τα χαρακτηριστικά.
Κάθε στάδιο του προτεινόμενου πλαισίου βασίζεται αλλά και επικυρώνει το προηγούμενο. Με την επιλογή μετρικών που ποσοτικοποιούν την ποιότητα της παραγόμενης εικόνας και την πιστότητα των χαρακτηριστικών, καθώς και την εξαγωγή οπτικών αποτελεσμάτων, αυτή η διατριβή υπογραμμίζει τη σημασία και την υπεροχή των encoders που εκπαιδεύτηκαν με το RNC loss και της ac-GAN μεθοδολογίας. Τα ευρήματα ανοίγουν τον δρόμο για εφαρμογές γύρω από τη δημιουργία ή τον χειρισμό εικόνων με βάση συγκεκριμένα χαρακτηριστικά. Κάποιες από αυτές περιλαμβάνουν το face reenactment και το talking head generation.