| dc.contributor.advisor | Κωνσταντόπουλος, Χαράλαμπος | |
| dc.contributor.author | Πέτρου, Κωνσταντίνος | |
| dc.date.accessioned | 2026-03-06T07:18:18Z | |
| dc.date.available | 2026-03-06T07:18:18Z | |
| dc.date.issued | 2026-02 | |
| dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/18970 | |
| dc.description.abstract | Αυτή η διατριβή διερευνά τον τομέα της Ανάκτησης Πληροφοριών, εστιάζοντας στο
σχεδιασμό, την υλοποίηση και την αξιολόγηση μοντέλων κατάταξης εγγράφων και τεχνικών
μετα-αναζήτησης.
Αρχικά, δημιουργήθηκε μια θεωρητική βάση μελετώντας βασικές έννοιες όπως η Λογική
(Boolean) Ανάκτηση, τα Μοντέλα Διανυσματικού Χώρου, τα Πιθανοτικά Μοντέλα, Γλωσσικά
Μοντέλα και οι μέθοδοι αξιολόγησης Ακρίβειας και Ανάκλησης (Precision & Recall).
Στην πρακτική φάση, αναπτύχθηκε ένα σύστημα Ανάκτησης Πληροφοριών
χρησιμοποιώντας το Apache Lucene 8.0.0. Υλοποιήθηκαν και δοκιμάστηκαν τέσσερα
μοντέλα κατάταξης: BM25 Similarity, TF-IDF Similarity, Dirichlet Similarity LM Model και
Jelinek Mercer Similarity LM Model. Για την αξιολόγηση της αποτελεσματικότητας αυτών των
μοντέλων, δημιουργήθηκε μια προσαρμοσμένη βιβλιοθήκη σε γλώσσα προγραμματισμού
Perl 5 για τον υπολογισμό και την οπτικοποίηση των μετρήσεων Ακρίβειας και Ανάκλησης.
Εκτός από τα μεμονωμένα μοντέλα ανάκτησης, κατασκευάστηκαν δύο μηχανές μετα αναζήτησης χρησιμοποιώντας τη βιβλιοθήκη Ranx της Python, εφαρμόζοντας διάφορες
τεχνικές σύνθεσης της κατάταξης, όπως CombSUM, CombMAX, Reciprocal Rank Fusion
(RRF) και ProbFuse.
Παρουσιάζονται πειραματικά αποτελέσματα, συγκρίνοντας την απόδοση των
μεμονωμένων μοντέλων από το Lucene. Τα ευρήματα υπογραμμίζουν τα σχετικά
πλεονεκτήματα κάθε προσέγγισης και προσφέρουν πληροφορίες για το πώς οι στρατηγικές
συνάφειας μπορούν να βελτιώσουν την αποτελεσματικότητα της ανάκτησης. Επίσης κατά την
διάρκεια των πειραμάτων στην μέτα-αναζήτηση, παρουσιάζονται τα κορυφαία 10
αποτελέσματα που προκύπτουν από τα επιμέρους μοντέλα και τις τεχνικές σύνθεσης. Η
εργασία εστιάζει στην υλοποίηση και τον υπολογισμό αυτών των αποτελεσμάτων, θέτοντας
τις βάσεις για μελλοντική αξιολόγηση και αναλυτική σύγκριση της απόδοσης των
διαφορετικών προσεγγίσεων. Με αυτόν τον τρόπο, παρέχονται χρήσιμες ενδείξεις για τη
συμπεριφορά των μοντέλων και των τεχνικών μετα-αναζήτησης, ανοίγοντας δρόμο για
περαιτέρω βελτιστοποίηση και ανάπτυξη αποδοτικότερων συστημάτων ανάκτησης
πληροφοριών.
Αυτή η εργασία καταδεικνύει τη σημασία της επιλογής, της αξιολόγησης και του
συνδυασμού μοντέλων στην κατασκευή αποδοτικών και αποτελεσματικών συστημάτων
ανάκτησης πληροφοριών | el |
| dc.format.extent | 71 | el |
| dc.language.iso | el | el |
| dc.publisher | Πανεπιστήμιο Πειραιώς | el |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.title | Στατιστικά, πιθανοτικά και γλωσσικά μοντέλα συνάφειας και τεχνικές μετα-αναζήτησης στην ανάκτηση πληροφοριών | el |
| dc.title.alternative | Statistical, probabilistic and linguistic relevance models and meta-search techniques in information retrieval | el |
| dc.type | Master Thesis | el |
| dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
| dc.description.abstractEN | This thesis explores the field of Information Retrieval, focusing on the design, implementation
and evaluation of document ranking models and meta-search techniques.
Initially, a theoretical basis was established by studying basic concepts such as Boolean
Retrieval, Vector Space Models, Probabilistic Models, Linguistic Models and Precision &
Recall evaluation methods.
In the practical phase, an Information Retrieval system was developed using Apache
Lucene 8.0.0. Four ranking models were implemented and tested: BM25 Similarity, TF-IDF
Similarity, Dirichlet Similarity LM Model and Jelinek Mercer Similarity LM Model. To evaluate
the effectiveness of these models, a custom library in Perl 5 was created to calculate and
visualize the Precision and Recall metrics.
In addition to the individual retrieval models, two meta-search engines were built using the
Python Ranx library, implementing various rank synthesis techniques, such as CombSUM,
CombMAX, Reciprocal Rank Fusion (RRF), and ProbFuse.
Experimental results are presented, comparing the performance of the individual models
of Lucene. The findings highlight the relative advantages of each approach and offer insights
into how relevance strategies can improve retrieval efficiency. Also, during the meta-search
experiments, the top 10 results derived by the individual models and synthesis techniques are
presented. The work focuses on the calculation of these results, laying the foundation for
future evaluation and analytical comparison of the performance of different approaches. In
this way, useful clues are provided about the behavior of models and meta-search
techniques, paving the way for further optimization and development of more efficient
information retrieval systems.
This work demonstrates the importance of model selection, evaluation and combination in
building efficient and effective information retrieval systems. | el |
| dc.contributor.master | Πληροφορική | el |
| dc.subject.keyword | Information retrieval | el |
| dc.subject.keyword | Meta search | el |
| dc.subject.keyword | Lucene | el |
| dc.subject.keyword | Ανάκτηση πληροφορίας | el |
| dc.date.defense | 2026-02-09 | |