dc.contributor.advisor | Τσιχριντζής, Γεώργιος | |
dc.contributor.author | Παπακωνσταντίνου, Κωνσταντίνος | |
dc.date.accessioned | 2018-11-09T11:34:01Z | |
dc.date.available | 2018-11-09T11:34:01Z | |
dc.date.issued | 2018-11-01 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/11541 | |
dc.description.abstract | Τα ειδησεογραφικά νέα αποτελούν μια τεράστια δομή ιστορικών εγγράφων. Αποτελούν έναν πολύτιμο πόρο για να μελετηθεί το παρελθόν. Η επεξεργασία φυσικής γλώσσας (Native Language Processing) αποτελεί έναν κλάδο της τεχνητής νοημοσύνης (Artificial Intelligence) που βοηθά τους υπολογιστές να κατανοούν, να ερμηνεύουν και να χειρίζονται την ανθρώπινη γλώσσα. Στα καθήκοντα κατανόησης της φυσικής γλώσσας, είναι να μπορούμε να εξαγάγουμε τη σημασία και το νόημα από λέξεις, προτάσεις, παραγράφους και έγγραφα. Σε επίπεδο εγγράφου, ένας από τους πιο χρήσιμους τρόπους κατανόησης του κειμένου είναι η ανάλυση των θεμάτων του. Το Topic Modelling (Μοντελοποίηση Θεμάτων) διαδραματίζει σημαντικό ρόλο στην ανάλυση των ιστορικών εγγράφων. Το Topic Modelling παρέχει έναν τρόπο ανάλυσης μεγάλου όγκου μη ταξινομημένου κειμένου. Ένα topic-θέμα περιέχει ένα σύνολο λέξεων που εμφανίζονται συχνά μαζί. Έχουμε προς υλοποίηση ένα πρόβλημα μάθησης χωρίς επίβλεψη. Στη μάθηση χωρίς επίβλεψη, το σύστημα πρέπει μόνο του να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, δημιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, πόσα και ποια είναι. Τα ιστορικά αρχεία πολλές φορές είναι περίπλοκα, είναι δύσκολα στην κατηγοριοποίηση και μπορεί να μην έχουν τυπική ορθογραφία και μορφοποίηση. Στην συγκεκριμένη εργασία από ένα σώμα τίτλων ειδησεογραφικών ειδήσεων από το 2003 έως το 2017, του ραδιοτηλεοπτικού φορέα ABC News, προσπαθούμε να υλοποιήσουμε πρότυπα επεξεργασίας, ώστε να καταφέρουμε να αντλούμε όλη την κατάλληλη πληροφορία. Στην περίπτωση μας έχουμε μόνο μη ετικετοποιημένα δεδομένα εισόδου και πρέπει να καθορίσουμε ενδογενώς τις κατηγορίες των θεμάτων. Συγκρίνουμε βασικούς αλγόριθμους υλοποίησης Topic Modelling, εντοπίζουμε γιατί δεν ισχύει η συνοχή θεμάτων στην περίπτωση μας και υλοποιούμε Μοντελοποίηση Θεμάτων. Αναλύουμε τα θέματα, βρίσκουμε την ανάθεση θεμάτων ανά έγγραφο και την εξέλιξη της ανάθεσης αυτής στο χρόνο. Στην συνέχεια παρουσιάζουμε την εξέλιξη των θεμάτων συναρτήσει του χρόνου και τέλος αφού προσθέτουμε νέες εγγραφές νέων ειδησεογραφικών τίτλων ειδήσεων, ο αλγόριθμος μας τις ταξινομεί στο πιο κατάλληλο θέμα. | el |
dc.format.extent | 63 | el |
dc.language.iso | el | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Θεματική μοντελοποίηση σε σώμα ειδησεογραφικών κειμένων | el |
dc.title.alternative | Topic modelling in a news headline corpus | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
dc.description.abstractEN | News articles is a huge structure of historical documents. They are a valuable resource to study the past. Native Language Processing is a field of Artificial Intelligence that helps computers understand, interpret and manipulate human language. The task of understanding natural language is to be able to extract meaning from words, sentences, paragraphs, and documents. At the document level, one of the most useful ways to understand the text is to analyze its subjects - topics. Topic Modeling is an important tool in analyzing historical documents. Topic Modeling provides a way to analyze a large volume of unclassified text. A topic contains a set of words that often appear together. We have an unsupervised learning problem to be implemented. In unsupervised learning, the system needs only to discover associations or groups in a set of data, creating patterns, without knowing anything about this. Historical documents are often complicated, difficult to categorize and may not have standard spelling and formatting. In this work from a corpus of news headlines from 2003 to 2017, of ABC News, we are trying to implement standard pattern works that we can get all the deep learning information. In our case, we only have unlabelled input data and we need to define endogenously the categories of topics. The modeling of topics is quite similar to a Clustering problem.
In this work, we compare the algorithms that implement Topic Modeling, examine why Topic coherency do not work in our case and implement Topic Modeling in a corpus of documents from news headlines. We analyze the Topics, and we find the dominant Topic per document and its evolution over time. Then we present the evolution of Topics over time and finally we add new headlines and how our algorithm classifies them in the most appropriate topic. | el |
dc.contributor.master | Πληροφορική | el |
dc.subject.keyword | Topic modelling | el |
dc.subject.keyword | Topic coherence | el |
dc.subject.keyword | Topic over time | el |
dc.subject.keyword | LDA | el |
dc.subject.keyword | Θεματική μοντελοποίηση | el |
dc.date.defense | 2018-11-01 | |