Εμφάνιση απλής εγγραφής

Θεματική μοντελοποίηση σε σώμα ειδησεογραφικών κειμένων

dc.contributor.advisorΤσιχριντζής, Γεώργιος
dc.contributor.authorΠαπακωνσταντίνου, Κωνσταντίνος
dc.date.accessioned2018-11-09T11:34:01Z
dc.date.available2018-11-09T11:34:01Z
dc.date.issued2018-11-01
dc.identifier.urihttps://dione.lib.unipi.gr/xmlui/handle/unipi/11541
dc.description.abstractΤα ειδησεογραφικά νέα αποτελούν μια τεράστια δομή ιστορικών εγγράφων. Αποτελούν έναν πολύτιμο πόρο για να μελετηθεί το παρελθόν. Η επεξεργασία φυσικής γλώσσας (Native Language Processing) αποτελεί έναν κλάδο της τεχνητής νοημοσύνης (Artificial Intelligence) που βοηθά τους υπολογιστές να κατανοούν, να ερμηνεύουν και να χειρίζονται την ανθρώπινη γλώσσα. Στα καθήκοντα κατανόησης της φυσικής γλώσσας, είναι να μπορούμε να εξαγάγουμε τη σημασία και το νόημα από λέξεις, προτάσεις, παραγράφους και έγγραφα. Σε επίπεδο εγγράφου, ένας από τους πιο χρήσιμους τρόπους κατανόησης του κειμένου είναι η ανάλυση των θεμάτων του. Το Topic Modelling (Μοντελοποίηση Θεμάτων) διαδραματίζει σημαντικό ρόλο στην ανάλυση των ιστορικών εγγράφων. Το Topic Modelling παρέχει έναν τρόπο ανάλυσης μεγάλου όγκου μη ταξινομημένου κειμένου. Ένα topic-θέμα περιέχει ένα σύνολο λέξεων που εμφανίζονται συχνά μαζί. Έχουμε προς υλοποίηση ένα πρόβλημα μάθησης χωρίς επίβλεψη. Στη μάθηση χωρίς επίβλεψη, το σύστημα πρέπει μόνο του να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, δημιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, πόσα και ποια είναι. Τα ιστορικά αρχεία πολλές φορές είναι περίπλοκα, είναι δύσκολα στην κατηγοριοποίηση και μπορεί να μην έχουν τυπική ορθογραφία και μορφοποίηση. Στην συγκεκριμένη εργασία από ένα σώμα τίτλων ειδησεογραφικών ειδήσεων από το 2003 έως το 2017, του ραδιοτηλεοπτικού φορέα ABC News, προσπαθούμε να υλοποιήσουμε πρότυπα επεξεργασίας, ώστε να καταφέρουμε να αντλούμε όλη την κατάλληλη πληροφορία. Στην περίπτωση μας έχουμε μόνο μη ετικετοποιημένα δεδομένα εισόδου και πρέπει να καθορίσουμε ενδογενώς τις κατηγορίες των θεμάτων. Συγκρίνουμε βασικούς αλγόριθμους υλοποίησης Topic Modelling, εντοπίζουμε γιατί δεν ισχύει η συνοχή θεμάτων στην περίπτωση μας και υλοποιούμε Μοντελοποίηση Θεμάτων. Αναλύουμε τα θέματα, βρίσκουμε την ανάθεση θεμάτων ανά έγγραφο και την εξέλιξη της ανάθεσης αυτής στο χρόνο. Στην συνέχεια παρουσιάζουμε την εξέλιξη των θεμάτων συναρτήσει του χρόνου και τέλος αφού προσθέτουμε νέες εγγραφές νέων ειδησεογραφικών τίτλων ειδήσεων, ο αλγόριθμος μας τις ταξινομεί στο πιο κατάλληλο θέμα.el
dc.format.extent63el
dc.language.isoelel
dc.publisherΠανεπιστήμιο Πειραιώςel
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Διεθνές*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleΘεματική μοντελοποίηση σε σώμα ειδησεογραφικών κειμένωνel
dc.title.alternativeTopic modelling in a news headline corpusel
dc.typeMaster Thesisel
dc.contributor.departmentΣχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικήςel
dc.description.abstractENNews articles is a huge structure of historical documents. They are a valuable resource to study the past. Native Language Processing is a field of Artificial Intelligence that helps computers understand, interpret and manipulate human language. The task of understanding natural language is to be able to extract meaning from words, sentences, paragraphs, and documents. At the document level, one of the most useful ways to understand the text is to analyze its subjects - topics. Topic Modeling is an important tool in analyzing historical documents. Topic Modeling provides a way to analyze a large volume of unclassified text. A topic contains a set of words that often appear together. We have an unsupervised learning problem to be implemented. In unsupervised learning, the system needs only to discover associations or groups in a set of data, creating patterns, without knowing anything about this. Historical documents are often complicated, difficult to categorize and may not have standard spelling and formatting. In this work from a corpus of news headlines from 2003 to 2017, of ABC News, we are trying to implement standard pattern works that we can get all the deep learning information. In our case, we only have unlabelled input data and we need to define endogenously the categories of topics. The modeling of topics is quite similar to a Clustering problem. In this work, we compare the algorithms that implement Topic Modeling, examine why Topic coherency do not work in our case and implement Topic Modeling in a corpus of documents from news headlines. We analyze the Topics, and we find the dominant Topic per document and its evolution over time. Then we present the evolution of Topics over time and finally we add new headlines and how our algorithm classifies them in the most appropriate topic.el
dc.contributor.masterΠληροφορικήel
dc.subject.keywordTopic modellingel
dc.subject.keywordTopic coherenceel
dc.subject.keywordTopic over timeel
dc.subject.keywordLDAel
dc.subject.keywordΘεματική μοντελοποίησηel
dc.date.defense2018-11-01


Αρχεία σε αυτό το τεκμήριο

Thumbnail

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Εμφάνιση απλής εγγραφής

Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές
Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές

Βιβλιοθήκη Πανεπιστημίου Πειραιώς
Επικοινωνήστε μαζί μας
Στείλτε μας τα σχόλιά σας
Created by ELiDOC
Η δημιουργία κι ο εμπλουτισμός του Ιδρυματικού Αποθετηρίου "Διώνη", έγιναν στο πλαίσιο του Έργου «Υπηρεσία Ιδρυματικού Αποθετηρίου και Ψηφιακής Βιβλιοθήκης» της πράξης «Ψηφιακές υπηρεσίες ανοιχτής πρόσβασης της βιβλιοθήκης του Πανεπιστημίου Πειραιώς»