Στατιστικά, πιθανοτικά και γλωσσικά μοντέλα συνάφειας και τεχνικές μετα-αναζήτησης στην ανάκτηση πληροφοριών

Πέτρου, Κωνσταντίνος

dc.contributor.advisor	Κωνσταντόπουλος, Χαράλαμπος
dc.contributor.author	Πέτρου, Κωνσταντίνος
dc.date.accessioned	2026-03-06T07:18:18Z
dc.date.available	2026-03-06T07:18:18Z
dc.date.issued	2026-02
dc.identifier.uri	https://dione.lib.unipi.gr/xmlui/handle/unipi/18970
dc.description.abstract	Αυτή η διατριβή διερευνά τον τομέα της Ανάκτησης Πληροφοριών, εστιάζοντας στο σχεδιασμό, την υλοποίηση και την αξιολόγηση μοντέλων κατάταξης εγγράφων και τεχνικών μετα-αναζήτησης. Αρχικά, δημιουργήθηκε μια θεωρητική βάση μελετώντας βασικές έννοιες όπως η Λογική (Boolean) Ανάκτηση, τα Μοντέλα Διανυσματικού Χώρου, τα Πιθανοτικά Μοντέλα, Γλωσσικά Μοντέλα και οι μέθοδοι αξιολόγησης Ακρίβειας και Ανάκλησης (Precision & Recall). Στην πρακτική φάση, αναπτύχθηκε ένα σύστημα Ανάκτησης Πληροφοριών χρησιμοποιώντας το Apache Lucene 8.0.0. Υλοποιήθηκαν και δοκιμάστηκαν τέσσερα μοντέλα κατάταξης: BM25 Similarity, TF-IDF Similarity, Dirichlet Similarity LM Model και Jelinek Mercer Similarity LM Model. Για την αξιολόγηση της αποτελεσματικότητας αυτών των μοντέλων, δημιουργήθηκε μια προσαρμοσμένη βιβλιοθήκη σε γλώσσα προγραμματισμού Perl 5 για τον υπολογισμό και την οπτικοποίηση των μετρήσεων Ακρίβειας και Ανάκλησης. Εκτός από τα μεμονωμένα μοντέλα ανάκτησης, κατασκευάστηκαν δύο μηχανές μετα αναζήτησης χρησιμοποιώντας τη βιβλιοθήκη Ranx της Python, εφαρμόζοντας διάφορες τεχνικές σύνθεσης της κατάταξης, όπως CombSUM, CombMAX, Reciprocal Rank Fusion (RRF) και ProbFuse. Παρουσιάζονται πειραματικά αποτελέσματα, συγκρίνοντας την απόδοση των μεμονωμένων μοντέλων από το Lucene. Τα ευρήματα υπογραμμίζουν τα σχετικά πλεονεκτήματα κάθε προσέγγισης και προσφέρουν πληροφορίες για το πώς οι στρατηγικές συνάφειας μπορούν να βελτιώσουν την αποτελεσματικότητα της ανάκτησης. Επίσης κατά την διάρκεια των πειραμάτων στην μέτα-αναζήτηση, παρουσιάζονται τα κορυφαία 10 αποτελέσματα που προκύπτουν από τα επιμέρους μοντέλα και τις τεχνικές σύνθεσης. Η εργασία εστιάζει στην υλοποίηση και τον υπολογισμό αυτών των αποτελεσμάτων, θέτοντας τις βάσεις για μελλοντική αξιολόγηση και αναλυτική σύγκριση της απόδοσης των διαφορετικών προσεγγίσεων. Με αυτόν τον τρόπο, παρέχονται χρήσιμες ενδείξεις για τη συμπεριφορά των μοντέλων και των τεχνικών μετα-αναζήτησης, ανοίγοντας δρόμο για περαιτέρω βελτιστοποίηση και ανάπτυξη αποδοτικότερων συστημάτων ανάκτησης πληροφοριών. Αυτή η εργασία καταδεικνύει τη σημασία της επιλογής, της αξιολόγησης και του συνδυασμού μοντέλων στην κατασκευή αποδοτικών και αποτελεσματικών συστημάτων ανάκτησης πληροφοριών	el
dc.format.extent	71	el
dc.language.iso	el	el
dc.publisher	Πανεπιστήμιο Πειραιώς	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.title	Στατιστικά, πιθανοτικά και γλωσσικά μοντέλα συνάφειας και τεχνικές μετα-αναζήτησης στην ανάκτηση πληροφοριών	el
dc.title.alternative	Statistical, probabilistic and linguistic relevance models and meta-search techniques in information retrieval	el
dc.type	Master Thesis	el
dc.contributor.department	Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής	el
dc.description.abstractEN	This thesis explores the field of Information Retrieval, focusing on the design, implementation and evaluation of document ranking models and meta-search techniques. Initially, a theoretical basis was established by studying basic concepts such as Boolean Retrieval, Vector Space Models, Probabilistic Models, Linguistic Models and Precision & Recall evaluation methods. In the practical phase, an Information Retrieval system was developed using Apache Lucene 8.0.0. Four ranking models were implemented and tested: BM25 Similarity, TF-IDF Similarity, Dirichlet Similarity LM Model and Jelinek Mercer Similarity LM Model. To evaluate the effectiveness of these models, a custom library in Perl 5 was created to calculate and visualize the Precision and Recall metrics. In addition to the individual retrieval models, two meta-search engines were built using the Python Ranx library, implementing various rank synthesis techniques, such as CombSUM, CombMAX, Reciprocal Rank Fusion (RRF), and ProbFuse. Experimental results are presented, comparing the performance of the individual models of Lucene. The findings highlight the relative advantages of each approach and offer insights into how relevance strategies can improve retrieval efficiency. Also, during the meta-search experiments, the top 10 results derived by the individual models and synthesis techniques are presented. The work focuses on the calculation of these results, laying the foundation for future evaluation and analytical comparison of the performance of different approaches. In this way, useful clues are provided about the behavior of models and meta-search techniques, paving the way for further optimization and development of more efficient information retrieval systems. This work demonstrates the importance of model selection, evaluation and combination in building efficient and effective information retrieval systems.	el
dc.contributor.master	Πληροφορική	el
dc.subject.keyword	Information retrieval	el
dc.subject.keyword	Meta search	el
dc.subject.keyword	Lucene	el
dc.subject.keyword	Ανάκτηση πληροφορίας	el
dc.date.defense	2026-02-09

Αρχεία σε αυτό το τεκμήριο

Name:: Petrou_mppl21062.pdf
Μέγεθος:: 1.325Mb
Τύπος:: PDF
Description:: Μεταπτυχιακή διατριβή

Προβολή/Άνοιγμα

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Πληροφορικής
Department of Informatics

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα