Αλγόριθμοι ομογενοποίησης και διασφάλισης ποιότητας δεδομένων

Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Ομογενοποίηση δεδομένων ; Ετερογενείς πηγές δεδομένων ; Καθαρισμός δεδομένων ; Ποιότητα δεδομένων ; Τεχνικές προ-επεξεργασίας ; Αλγόριθμοι επεξεργασίας δεδομένωνΠερίληψη
Κατά την τελευταία δεκαετία, ο όγκος των δεδομένων που παράγονται έχει αυξηθεί δραστικά και η τάση αυτή αναμένεται να συνεχιστεί τα επόμενα χρόνια. Στον τομέα της υγειονομικής περίθαλψης, η ανάπτυξη αυτή είναι ιδιαίτερα σημαντική, καθώς η παραγωγή δεδομένων εξελίσσεται ραγδαία και διαθέτει τεράστιες δυνατότητες για την πρόοδο της κλινικής πρακτικής και της έρευνας. Ο απώτερος σκοπός της συλλογής, τόσο μεγάλων όγκων δεδομένων, είναι η δυνατότητα παραγωγής ακριβών και στοχευμένων προβλέψεων, οι οποίες μπορούν να βελτιώσουν τη διαδικασία λήψης αποφάσεων. Για να επιτευχθεί αυτό ωστόσο, δεν απαιτείται μόνο μεγάλος όγκος δεδομένων, αλλά και δεδομένα υψηλής ποιότητας και αξιοπιστίας. Στην πράξη, τα δεδομένα συχνά εμφανίζονται σε διαφορετικές μορφές και τύπους, με παρόμοιες πληροφορίες να αποθηκεύονται κάτω από διαφορετικά ονόματα μεταβλητών ή δομές. Αυτό δημιουργεί σημαντικές προκλήσεις ετερογένειας και καθιστά απαραίτητη τη διαδικασία ομογενοποίησης και ενοποίησης των δεδομένων. Η ομογενοποίηση των δεδομένων στοχεύει στη συνένωση δεδομένων από πολλαπλές αυτόνομες και ετερογενείς πηγές, σε ένα ενοποιημένο σύνολο, εξαλείφοντας τα προβλήματα που μπορεί να παρουσιάσουν, όπως διπλότυπες εγγραφές, αλλά και τυποποιώντας τα δεδομένα, έτσι ώστε να καθίσταται δυνατή η ομοιόμορφη πρόσβαση και μια ενιαία, συγκεντρωτική εικόνα. Παράλληλα, τα ακατέργαστα δεδομένα (raw data) περιέχουν συχνά λανθασμένες τιμές, οι οποίες υποβαθμίζουν την ποιότητά τους. Για τον λόγο αυτό, η προ επεξεργασία μέσω κατάλληλων τεχνικών καθαρισμού δεδομένων αποτελεί αναγκαίο βήμα, το οποίο περιλαμβάνει μια σειρά ενεργειών για τη διασφάλιση της ακρίβειας, της πληρότητας και της αξιοπιστίας των δεδομένων. Προς αυτή την κατεύθυνση, στην παρούσα διπλωματική εργασία παρουσιάζεται αρχικά μια βιβλιογραφική ανασκόπηση των υφιστάμενων μεθόδων για την ενοποίηση ετερογενών πηγών δεδομένων και, στη συνέχεια, παρουσιάζονται τεχνικές και αλγόριθμοι καθαρισμού που διασφαλίζουν την ποιότητάς τους. Επιπλέον, προτείνεται ένα πρακτικό περιβάλλον, όπου ο χρήστης μπορεί να εφαρμόσει τους συγκεκριμένους αλγορίθμους σε δεδομένα υγείας. Δεδομένης της ιδιαίτερης σημασίας τους, έχει την δυνατότητα να τα ομογενοποιήσει, να τα καθαρίσει και να διασφαλίσει την αξιοπιστία τους. Καταλήγοντας, μπορεί να αξιολογήσει την απόδοση της κάθε μεθόδου και να λάβει περισσότερες πληροφορίες σχετικά με τη συγκριτική αποτελεσματικότητα της κάθε μεθόδου.


