dc.contributor.advisor | Αλέπης, Ευθύμιος | |
dc.contributor.author | Παναγιάρης, Νικόλαος | |
dc.date.accessioned | 2018-11-12T12:02:40Z | |
dc.date.available | 2018-11-12T12:02:40Z | |
dc.date.issued | 2018-10 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/11549 | |
dc.description.abstract | H αυτόματη δημιουργία προτάσεων που περιγράφουν το περιεχόμενο μιας εικόνας, αποτελεί ένα
σημαντικό πρόβλημα της τεχνητής νοημοσύνης. Συγκεκριμένα, βρίσκεται στην ένωση των επιστημονικών
πεδίων της Υπολογιστής Όρασης και της επεξεργασίας φυσικής γλώσσας με μια σειρά από σημαντικές
εφαρμογές όπως η αλληλεπίδραση ανθρώπου- ρομπότ.
Η επιτυχία αυτού του νέου επιστημονικού πεδίου έχει χαρακτηριστεί ως μια από τις σημαντικότερες
επιτυχίες της τεχνητής νοημοσύνης έως τώρα. Συγκεκριμένα, δημοσιευμένες εργασίες παρουσιάζουν
αποτελέσματα τα οποία είναι καλύτερα από αυτά που έχουν επιτύχει άνθρωποι. Επομένως, αξίζει κάνεις
να αναρωτηθεί αν πλέον τα ευφυή συστήματα έχουν ισάξιες γλωσσικές ικανότητες με αυτές των
ανθρώπων.
Πολλές μελέτες, στο πεδίο της γλωσσολογίας έχουν αποδείξει ότι οι άνθρωποι παράγουν διαφορετικές
περιγραφές για μια εικόνα. Στην πραγματικότητα, ο ίδιος άνθρωπος μπορεί να παράξει διαφορετικές
περιγραφές ανάλογα με την περίπτωση. Όπως είναι αντιληπτό, αυτή η ποικιλότητα στην παραγωγή
γλώσσας δημιουργεί μια σειρά από προβλήματα στην δημιουργία αλγορίθμων αλλά κυρίως στο πως
αυτοί οι αλγόριθμοι θα αξιολογηθούν. Αυτή η διπλωματική εργασία επιχειρεί να ερευνήσει ποιες αρχές
διέπουν τους αλγορίθμους αυτόματης δημιουργίας περιγραφών εικόνας. Συγκεκριμένα προσπαθεί να
απαντήσει την ερώτηση αν οι αλγόριθμοι μιμούνται η προβλέπουν την συμπεριφορά των ανθρώπων
δεδομένης μιας εικόνας. Για να απαντηθεί αυτή η ερώτηση υλοποιήθηκε ένα μοντέλο περιγραφής
εικόνας του οποίου τα αποτελέσματα εξετάστηκαν ποιοτικά και ποσοτικά ως προς το αν αναπαράγουν
τις περιγραφές πάνω στις οποίες εκπαιδεύτηκε το μοντέλο και αν καλύτερες αναπαραστάσεις εικόνας
βελτιώνουν το γλωσσικό αποτέλεσμα. | el |
dc.format.extent | 83 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Αυτόματη δημιουργία περιγραφών εικόνων : ποιοτική ανάλυση των περιγραφών | el |
dc.title.alternative | Natural language description of images : a Qualitative analysis | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
dc.description.abstractEN | Image captioning is a challenging problem that lies at the intersection of computer vision
and natural language generation. The task involves the generation of a fully-fledged natural
language sentence that accurately summarizes the contents of an image. Image captioning
is also the cornerstone towards real-world applications with significant practical impact,
ranging from aiding visually impaired users to personal assistants to intuitive human-robot
interaction.
The advance in image captioning has been marked as a prominent success of Artificial
Intelligence. It has been reported that with certain metrics, like BLUE or CIDEr, state-of-the-art
techniques surpass human’s performance. Thus, a natural question that rises is: Do
humans and machines speaking the same language?
An observation that well established in linguistics, is that different human speakers or the
same speaker produce different descriptions when presented with an image. This observation
has been overlooked by today’s systems. However, this poses serious questions for both
the development of algorithms and their evaluation. Therefore this thesis tries to answer
on which premises the state-of-the-art algorithms for the generation of image captions
are build upon. Are they trying to emulate or predict the behaviour of individual speakers
in a given situation? With the aim of shedding light on this question, a model based on
the encoder-decoder model was implemented. The output of the model was qualitatively
analyzed towards two factors: (1) whether is biased towards frequent captions in the training
set; (2) and whether better image representations enrich the language production. | el |
dc.contributor.master | Πληροφορική | el |
dc.subject.keyword | Image captioning | el |
dc.subject.keyword | Neural networks (Computer science) | el |
dc.subject.keyword | Deep learning | el |
dc.subject.keyword | Perceptron | el |
dc.date.defense | 2018-10-26 | |