Photography style analysis using Convolutional Neural Networks
Master Thesis
Συγγραφέας
Zouros, Michael
Ημερομηνία
2022-03Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Photography ; Image aesthetics ; Deep learning ; CNN ; ResNet50Περίληψη
Η παρούσα διπλωματική εργασία μελετά την καλλιτεχνική φύση της φωτογραφίας και προσπαθεί να κατασκευάσει ένα
πλαίσιο για τον ορισμό του όρου «στυλ φωτογραφίας». Εισχωρεί βαθιά
στην ιστορία της φωτογραφίας και αναλύει μια πληθώρα αισθητικών που σκαλεύτηκαν
στη διάρκεια των αιώνων. Μέσα από αυτό το ταξίδι συλλέγει τους πιο σημαντικούς
κανόνες αισθητικής και τους ομαδοποιεί σε συγκεκριμένες κατηγορίες. Στη συνέχεια, με τη βοήθεια της
βαθιάς μηχανικής μάθησης και της υπολογιστικής όρασης, είναι σε θέση να εκπαιδεύσει και να προβλέψει αυτές τις συγκεκριμένες
κατηγορίες.
Αρχικά, ο αναγνώστης εισάγεται στον κόσμο της φωτογραφίας. Παρουσιάζουμε το
ιστορικό της υπόβαθρο και στη συνέχεια επικεντρωνόμαστε στην τεράστια άνοδό της στην εποχή των μέσων κοινωνικής δικτύωσης.
Στη συνέχεια αναλύουμε μερικά βασικά στοιχεία της φωτογραφίας, καθώς και μερικούς από τους πιο γνωστούς
κανόνες αισθητικής. Τέλος, δίνουμε έμφαση στη δυσκολία δέσμευσης αυτών των κανόνων σε κάποιο
συγκεκριμένο πρόβλημα με συγκεκριμένες εργασίες λόγω της υποκειμενικότητας της φωτογραφίας και των τεχνών
γενικότερα.
Στη συνέχεια παρουσιάζουμε ένα νέο σύνολο δεδομένων φωτογραφιών κατηγοριοποιημένων με βάση τις αντίστοιχες
αισθητικές. Εξετάζουμε επίσης την ικανότητα των Συνελικτικών Νευρωνικών Δικτύων
(CNN) να διακρίνουν μεταξύ των διαφορετικών στυλ φωτογραφίας που έχουν υιοθετηθεί. Συγκεκριμένα,
έχουμε ορίσει πέντε εργασίες ταξινόμησης φωτογραφικού στυλ, που σχετίζονται με τα ακόλουθα
αισθητικά χαρακτηριστικά: Χρώμα, Βάθος Πεδίου (DoF), Παλέτα, Σύνθεση και Τύπος.
Έπειτα, ακολουθήσαμε μια διαδικασία κατηγοριοποίησης χρησιμοποιώντας ένα σύνολο 1832 επιλεγμένων φωτογραφιών
από το σύνολο δεδομένων Unsplash. Πολλαπλοί σχολιαστές έλαβαν μέρος, προκειμένου να μετρηθεί
η αντίστοιχη συμφωνία επί των δεδομένων.
Μόλις το σύνολο δεδομένων συντάχθηκε, εκπαιδεύσαμε και αξιολογήσαμε ένα Residual Νευρωνικό
Δίκτυο (ResNet50). Τα πειραματικά αποτελέσματα αποδεικνύουν ότι, παρά την ανισορροπία
δεδομένων, το μοντέλο μας κατάφερε να επιτύχει αποδεκτά αποτελέσματα ταξινόμησης.Το σύνολο δεδομένων
παρέχεται ανοιχτά, μαζί με τα εκπαιδευμένα μοντέλα και τον κώδικα Python για τη χρήση τους.