dc.contributor.advisor | Πετάσης, Γεώργιος | |
dc.contributor.advisor | Petasis, Georgios | |
dc.contributor.author | Ατλαμάζογλου, Ιωάννης | |
dc.contributor.author | Atlamazoglou, Ioannis | |
dc.date.accessioned | 2021-09-20T07:31:42Z | |
dc.date.available | 2021-09-20T07:31:42Z | |
dc.date.issued | 2021-07-05 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/13677 | |
dc.identifier.uri | http://dx.doi.org/10.26267/unipi_dione/1100 | |
dc.description.abstract | Ο σκοπός αυτης της διατριβής είναι το θέμα της εξόρυξης θεματων από κείμενα στα ελληνικά και η ομαδοποίηση εγγράφων σύμφωνα με αυτά τα θεματα, έτσι ώστε τα κείμενα που αναφέρονται στο ίδιο θέμα ή είναι παρόμοια, να βρίσκονται στην ίδια ομάδα. Για την αξιολόγηση του clustering, εφαρμόζονται αρκετές μετρικές οι οποίες είναι ενδεδειγμένες για τέτοιου είδους εργασίες. | el |
dc.format.extent | 62 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.title | Document clustering and topic mining | el |
dc.title.alternative | Ομαδοποίηση εγγράφων και εξόρυξη θεμάτων | el |
dc.type | Master Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Ψηφιακών Συστημάτων | el |
dc.description.abstractEN | The purpose of this thesis is topic of extraction from documents in Greek language
and document clustering according to these topics, so that documents
that that refer to the same topic or are similar, belong in the same cluster. After
researching related work, popular methods of topic extraction models such as the
LDA and text representation methods such as BERT and FASTTEXT, which are
among the state if the art technologies used to export text representations in the
form of vectors, were explored and applied. To evaluate the document clustering
performance according to their vector embeddings, several metrics are applied which
are suitable for such tasks. | el |
dc.corporate.name | Εθνικό Κέντρο Έρευνας Φυσικών Επιστημών «Δημόκριτος» | el |
dc.contributor.master | Τεχνητή Νοημοσύνη - Artificial Intelligence | el |
dc.subject.keyword | Document clustering | el |
dc.subject.keyword | Topic modeling | el |
dc.subject.keyword | Topic extraction | el |
dc.date.defense | 2021-07-09 | |