Σύγχρονες τεχνικές αυτόματης ταξινόμησης εγγράφων
Modern techniques of automatic document classification
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ταξινόμηση εγγράφωνΠερίληψη
Στο πλαίσιο της εργασίας θα μελετηθούν οι σύγχρονες τεχνικές ψηφιακής ταξινόμησης εγγράφων μέσα από ένα πλήθος προδιαγεγραμμένων κλάσεων. Υπάρχουν εκατομμύρια σύγχρονα έγγραφα που ανήκουν και σε δημόσιους αλλά και σε ιδιωτικούς φορείς, τα οποία δεν έχουν ψηφιοποιηθεί και παραμένουν ανεκμετάλλευτα σε φυσική και μόνο μορφή. Η ταξινόμηση εικόνων που προέρχονται από τέτοια ψηφιοποιημένα έγγραφα αποτελεί ένα σημαντικό βήμα με στόχο την άντληση της πληροφορίας μέσω αυτών, καθώς και την ραγδαία επιτάχυνση διαδικασιών εισαγωγής δεδομένων, επιτρέποντας έτσι τη βέλτιστη διαχείριση ανθρώπινου δυναμικού αλλά και τη διατήρηση της πληροφορίας στο πέρασμα του χρόνου. Ενδεικτικές κατηγορίες σύγχρονων εγγράφων αποτελούν οι φόρμες, τα τιμολόγια/αποδείξεις, άρθρα από εφημερίδες, επιστολές και επιστημονικά άρθρα. Ένα τέτοιο ετερογενές δείγμα αποτελεί πρόκληση για ένα σύστημα αναγνώρισης εγγράφων, καθώς απαιτείται η αρχική ταξινόμηση τους στις παραπάνω κατηγορίες με στόχο την καλύτερη επεξεργασία τους (πχ. εξαγωγή περιοχών ενδιαφέροντος, δεικτοδότηση). Παράλληλα, στη βιβλιογραφία αναδεικνύεται το γεγονός πως καινοτόμες τεχνικές επεξεργασίας εικόνας με χρήση αλγορίθμων Τεχνητής Νοημοσύνης (πχ. Νευρωνικά Δίκτυα) έχουν δώσει σημαντική ώθηση στην αντιμετώπιση του παραπάνω προβλήματος. Στόχος της παρούσας εργασίας είναι να μελετηθούν τα παραπάνω συστήματα Τεχνητής Νοημοσύνης, καθώς και πως αυτά εκπαιδεύονται κατάλληλα και εντάσσονται σε ένα πλήρες σύστημα ταξινόμησης εγγράφων.