Ανάπτυξη εφαρμογής για την ανάκτηση και κατηγοριοποίηση δεδομένων μέσω του κοινωνικού δικτύου Twitter, αναφορικά με τις διατροφικές συνήθειες πολιτών
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Healthcare analytics ; Healthcare big data ; Machine learning algorithms ; Social media ; Big data technologiesΠερίληψη
Ο όγκος των δεδομένων στον κλάδο της υγείας αυξάνεται συνεχώς και η κατάσταση αναμένεται να αλλάξει δραματικά τα επόμενα χρόνια. Για να επιτευχθεί η σωστή διαχείριση των υπάρχοντών δεδομένων, υπάρχουν συγκεκριμένοι τρόποι και τεχνικές. Ωστόσο, εντοπίζονται και τεχνικές αξιολόγησης οι οποίες δεν είναι τόσο αποδοτικές, όσο θα ήταν η τεχνική της αναλυτικής των δεδομένων, εφόσον αυτή εφαρμοζόταν. Αυτές οι τεχνικές ανάλυσης δεδομένων έχουν την ικανότητα να τα διαχωρίζουν και να διαχειρίζονται την ανάλυσή τους με τέτοιο τρόπο, ώστε να παρέχονται αξιόπιστες πληροφορίες. Με τη συγκεκριμένη διαδικασία, τεράστια ποσότητα δεδομένων του κλάδου της υγείας, αναλύεται με τέτοιο τρόπο, ώστε να υπάρξει βαθύτερη κατανόηση των αποτελεσμάτων. Αυτή η πιο ορθή διαχείριση δεδομένων καθιστά εφικτή την πρόοδο στον ευρύτερο τομέα της υγείας. Τέτοιες τεχνικές ανάλυσης μεγάλων δεδομένων είναι εξίσου αποτελεσματικές σε ποικίλους οργανισμούς υγειονομικής περίθαλψης. Συγκεκριμένα, τα πλεονεκτήματά αυτών των τεχνικών έχουν αντίκτυπο τόσο σε ατομικό επίπεδο, για τον εκάστοτε ιατρό, όσο και σε ευρύτερο επίπεδο, για μεγάλους οργανισμούς παροχής υγειονομικής περίθαλψης.
Η βιομηχανία παροχής υπηρεσιών υγείας αλλάζει με απίστευτη ταχύτητα. Ένας από τους σημαντικότερους παράγοντες για την αλλαγή αυτή είναι η δραματική έξαρση στην προβολή τέτοιων υπηρεσιών, που προέρχονται κυρίως από τα μέσα κοινωνικής δικτύωσης. Πλέον τα μέσα κοινωνικής δικτύωσης (Social media) αποτελούν για το ευρύτερο κοινό ένα βασικό εργαλείο αναζήτησης πληροφοριών σχετικών με την υγεία. Από τη φύση τους τα κοινωνικά μέσα ενημέρωσης και δικτύωσης επιτρέπουν την αμφίδρομη επικοινωνία στο κοινό τους. Με αυτόν τον τρόπο γίνεται αποδοτικότερη η αλληλεπίδραση μεταξύ ασθενών, ιατρών και των διαφόρων βιομηχανιών υγειονομικής περίθαλψης. Αξιοσημείωτο επίσης θεωρείται το γεγονός ότι οι συζητήσεις για διάφορα θέματα υγείας και η πληθώρα ποικίλων τέτοιων πληροφοριών είναι διαθέσιμη σε παγκόσμιο επίπεδο.
Η επιρροή της υγειονομικής περίθαλψης είναι έντονη και αμβλύνεται σε διάφορες ομάδες ατόμων, όπως των ηγετών μιας ομάδας, των ασθενών, των ιατρών, των διάφορων οργανισμών, καθώς και κυβερνητικών φορέων. Με αυτόν τον τρόπο καθημερινά δημιουργείται ένας μεγάλος όγκος πληροφοριών σχετικών με την υγεία.Οι δυνατότητες που παρέχονται από τα διαθέσιμα δεδομένα των κοινωνικών δικτύων στην κλάδο της υγείας είναι πολύ σημαντικές. Ιδιαίτερα στην υγειονομική περίθαλψη η άντληση τέτοιων δεδομένων από τα κοινωνικά μέσα δικτύωσης γίνεται κυρίως με τη χρήση tweets. Η επιλογή του Twitter για αυτόν τον σκοπό δεν είναι τυχαία, καθώς συνεχώς αυξάνεται η άντληση τέτοιων πληροφοριών μέσω αυτού.
Ακόμα και σήμερα, το Twitter, όπως δημιουργήθηκε από τους ιδρυτές του, είναι πραγματικά το πιο απλό μέσο για να βρούμε πολλά σχόλια διαφόρων ατόμων και κοινωνικών ομάδων για ένα κοινό θέμα που μας ενδιαφέρει. Σε αυτό συμβάλλει το γεγονός ότι το Twitter έχει ενσωματωμένη μέθοδο κατηγοριοποίησης για όλα αυτά τα tweets. Σημαντικό επίσης είναι να τονιστεί ότι σημειώθηκε αύξηση από περίπου 400.000 tweets κατά το πρώτο τρίμηνο του 2007 σε 4.000.000.000 tweets κατά το πρώτο τρίμηνο του 2010. Επομένως καταλαβαίνουμε ότι μιλάμε για σχεδόν 45 εκατομμύρια tweets ανά ημέρα.
Στην παρούσα διπλωματική εργασία υλοποιήθηκε μια εφαρμογή με τη χρήση τεχνολογιών μεγάλων δεδομένων η οποία περιλαμβάνει δύο επιμέρους αλγορίθμους και έχει ως στόχο την ανάλυση, κατηγοριοποίηση και παρουσίαση των δεδομένων που αφορούν τις διατροφικές συνήθειες πολιτών που συλλέγονται μέσω του κοινωνικού δικτύου Twitter.
Ο αρχικός αλγόριθμος έχει ως στόχο τη συλλογή δεδομένων που σχετίζονται με τις διατροφικές συνήθειες των πολιτών τριών Ευρωπαϊκών χωρών, της Ελλάδας, της Αγγλίας και της Γαλλίας, επιλέγοντας τα κατάλληλα tweets μέσω του Twitter. Στη συνέχεια, ο δεύτερος αλγόριθμος αναλύει και κατηγοριοποιεί τα δεδομένα αυτά σε υγιεινά και ανθυγιεινά. Αυτό επιτυγχάνεται δίνοντας ένα ειδικό βάρος σε συγκεκριμένες λέξεις, έτσι ώστε να ελέγχονται και να αξιολογούνται μόνο τα Tweets που σχετίζονται με την υγεία και τη διατροφή. Τέλος, τα σημεία στα οποία εντοπίζονται οι αναφορές των Tweets προβάλλονται σε ένα χάρτη.