Εμφάνιση απλής εγγραφής

Αυτόματη δημιουργία περιγραφών εικόνων : ποιοτική ανάλυση των περιγραφών

dc.contributor.advisorΑλέπης, Ευθύμιος
dc.contributor.authorΠαναγιάρης, Νικόλαος
dc.date.accessioned2018-11-12T12:02:40Z
dc.date.available2018-11-12T12:02:40Z
dc.date.issued2018-10
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/11549
dc.description.abstractH αυτόματη δημιουργία προτάσεων που περιγράφουν το περιεχόμενο μιας εικόνας, αποτελεί ένα σημαντικό πρόβλημα της τεχνητής νοημοσύνης. Συγκεκριμένα, βρίσκεται στην ένωση των επιστημονικών πεδίων της Υπολογιστής Όρασης και της επεξεργασίας φυσικής γλώσσας με μια σειρά από σημαντικές εφαρμογές όπως η αλληλεπίδραση ανθρώπου- ρομπότ. Η επιτυχία αυτού του νέου επιστημονικού πεδίου έχει χαρακτηριστεί ως μια από τις σημαντικότερες επιτυχίες της τεχνητής νοημοσύνης έως τώρα. Συγκεκριμένα, δημοσιευμένες εργασίες παρουσιάζουν αποτελέσματα τα οποία είναι καλύτερα από αυτά που έχουν επιτύχει άνθρωποι. Επομένως, αξίζει κάνεις να αναρωτηθεί αν πλέον τα ευφυή συστήματα έχουν ισάξιες γλωσσικές ικανότητες με αυτές των ανθρώπων. Πολλές μελέτες, στο πεδίο της γλωσσολογίας έχουν αποδείξει ότι οι άνθρωποι παράγουν διαφορετικές περιγραφές για μια εικόνα. Στην πραγματικότητα, ο ίδιος άνθρωπος μπορεί να παράξει διαφορετικές περιγραφές ανάλογα με την περίπτωση. Όπως είναι αντιληπτό, αυτή η ποικιλότητα στην παραγωγή γλώσσας δημιουργεί μια σειρά από προβλήματα στην δημιουργία αλγορίθμων αλλά κυρίως στο πως αυτοί οι αλγόριθμοι θα αξιολογηθούν. Αυτή η διπλωματική εργασία επιχειρεί να ερευνήσει ποιες αρχές διέπουν τους αλγορίθμους αυτόματης δημιουργίας περιγραφών εικόνας. Συγκεκριμένα προσπαθεί να απαντήσει την ερώτηση αν οι αλγόριθμοι μιμούνται η προβλέπουν την συμπεριφορά των ανθρώπων δεδομένης μιας εικόνας. Για να απαντηθεί αυτή η ερώτηση υλοποιήθηκε ένα μοντέλο περιγραφής εικόνας του οποίου τα αποτελέσματα εξετάστηκαν ποιοτικά και ποσοτικά ως προς το αν αναπαράγουν τις περιγραφές πάνω στις οποίες εκπαιδεύτηκε το μοντέλο και αν καλύτερες αναπαραστάσεις εικόνας βελτιώνουν το γλωσσικό αποτέλεσμα.el
dc.format.extent83el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleΑυτόματη δημιουργία περιγραφών εικόνων : ποιοτική ανάλυση των περιγραφώνel
dc.title.alternativeNatural language description of images : a Qualitative analysisel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENImage captioning is a challenging problem that lies at the intersection of computer vision and natural language generation. The task involves the generation of a fully-fledged natural language sentence that accurately summarizes the contents of an image. Image captioning is also the cornerstone towards real-world applications with significant practical impact, ranging from aiding visually impaired users to personal assistants to intuitive human-robot interaction. The advance in image captioning has been marked as a prominent success of Artificial Intelligence. It has been reported that with certain metrics, like BLUE or CIDEr, state-of-the-art techniques surpass human’s performance. Thus, a natural question that rises is: Do humans and machines speaking the same language? An observation that well established in linguistics, is that different human speakers or the same speaker produce different descriptions when presented with an image. This observation has been overlooked by today’s systems. However, this poses serious questions for both the development of algorithms and their evaluation. Therefore this thesis tries to answer on which premises the state-of-the-art algorithms for the generation of image captions are build upon. Are they trying to emulate or predict the behaviour of individual speakers in a given situation? With the aim of shedding light on this question, a model based on the encoder-decoder model was implemented. The output of the model was qualitatively analyzed towards two factors: (1) whether is biased towards frequent captions in the training set; (2) and whether better image representations enrich the language production.el
dc.contributor.masterΠληροφορικήel
dc.subject.keywordImage captioningel
dc.subject.keywordNeural networks (Computer science)el
dc.subject.keywordDeep learningel
dc.subject.keywordPerceptronel
dc.date.defense2018-10-26


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»