Θεματική μοντελοποίηση σε σώμα ειδησεογραφικών κειμένων
Topic modelling in a news headline corpus
Master Thesis
Συγγραφέας
Παπακωνσταντίνου, Κωνσταντίνος
Ημερομηνία
2018-11-01Επιβλέπων
Τσιχριντζής, ΓεώργιοςΠροβολή/ Άνοιγμα
Λέξεις κλειδιά
Topic modelling ; Topic coherence ; Topic over time ; LDA ; Θεματική μοντελοποίησηΠερίληψη
Τα ειδησεογραφικά νέα αποτελούν μια τεράστια δομή ιστορικών εγγράφων. Αποτελούν έναν πολύτιμο πόρο για να μελετηθεί το παρελθόν. Η επεξεργασία φυσικής γλώσσας (Native Language Processing) αποτελεί έναν κλάδο της τεχνητής νοημοσύνης (Artificial Intelligence) που βοηθά τους υπολογιστές να κατανοούν, να ερμηνεύουν και να χειρίζονται την ανθρώπινη γλώσσα. Στα καθήκοντα κατανόησης της φυσικής γλώσσας, είναι να μπορούμε να εξαγάγουμε τη σημασία και το νόημα από λέξεις, προτάσεις, παραγράφους και έγγραφα. Σε επίπεδο εγγράφου, ένας από τους πιο χρήσιμους τρόπους κατανόησης του κειμένου είναι η ανάλυση των θεμάτων του. Το Topic Modelling (Μοντελοποίηση Θεμάτων) διαδραματίζει σημαντικό ρόλο στην ανάλυση των ιστορικών εγγράφων. Το Topic Modelling παρέχει έναν τρόπο ανάλυσης μεγάλου όγκου μη ταξινομημένου κειμένου. Ένα topic-θέμα περιέχει ένα σύνολο λέξεων που εμφανίζονται συχνά μαζί. Έχουμε προς υλοποίηση ένα πρόβλημα μάθησης χωρίς επίβλεψη. Στη μάθηση χωρίς επίβλεψη, το σύστημα πρέπει μόνο του να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, δημιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, πόσα και ποια είναι. Τα ιστορικά αρχεία πολλές φορές είναι περίπλοκα, είναι δύσκολα στην κατηγοριοποίηση και μπορεί να μην έχουν τυπική ορθογραφία και μορφοποίηση. Στην συγκεκριμένη εργασία από ένα σώμα τίτλων ειδησεογραφικών ειδήσεων από το 2003 έως το 2017, του ραδιοτηλεοπτικού φορέα ABC News, προσπαθούμε να υλοποιήσουμε πρότυπα επεξεργασίας, ώστε να καταφέρουμε να αντλούμε όλη την κατάλληλη πληροφορία. Στην περίπτωση μας έχουμε μόνο μη ετικετοποιημένα δεδομένα εισόδου και πρέπει να καθορίσουμε ενδογενώς τις κατηγορίες των θεμάτων. Συγκρίνουμε βασικούς αλγόριθμους υλοποίησης Topic Modelling, εντοπίζουμε γιατί δεν ισχύει η συνοχή θεμάτων στην περίπτωση μας και υλοποιούμε Μοντελοποίηση Θεμάτων. Αναλύουμε τα θέματα, βρίσκουμε την ανάθεση θεμάτων ανά έγγραφο και την εξέλιξη της ανάθεσης αυτής στο χρόνο. Στην συνέχεια παρουσιάζουμε την εξέλιξη των θεμάτων συναρτήσει του χρόνου και τέλος αφού προσθέτουμε νέες εγγραφές νέων ειδησεογραφικών τίτλων ειδήσεων, ο αλγόριθμος μας τις ταξινομεί στο πιο κατάλληλο θέμα.