Depression recognition from speech
Ανάλυση ηχητικών εγγραφών ή βίντεο για την αναγνώριση της κατάθλιψης
Master Thesis
Συγγραφέας
Georgiadou, Aikaterini
Γεωργιάδου, Αικατερίνη
Ημερομηνία
2022-06Επιβλέπων
Maglogiannis, IliasΜαγκλογιάννης, Ηλίας
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Depression recognition ; Daic-Wox dataset ; Audio classification ; Machine learning ; Audio analysis ; Αναγνώριση κατάθλιψης ; Κατηγοριοποίηση ηχητικών δεδομένων ; Μηχανική μάθηση ; Ιατρικά δεδομέναΠερίληψη
Η κατάθλιψη, γνωστή επίσης ως μείζων καταθλιπτική διαταραχή, είναι μια σημαντική διαταραχή ψυχικής υγείας που επηρεάζει όλο και περισσότερες ζωές παγκοσμίως. Έχει αρνητικό αντίκτυπο στη συναισθηματική, σωματική και ψυχολογική κατάσταση ενός ατόμου. Για να διαγνωστεί ένα άτομο με κατάθλιψη, πρέπει να πραγματοποιηθεί μια σειρά εξετάσεων, ενώ μια σειρά συμπτωμάτων πρέπει να είναι παρούσα για τουλάχιστον 2 συνεχείς εβδομάδες. Τα πιο κοινά συμπτώματα της κατάθλιψης περιλαμβάνουν κακή διάθεση, αίσθηση απελπισίας, έλλειψη ενδιαφέροντος για τις καθημερινές δραστηριότητες, άγχος, ευερεθιστότητα, και μειωμένη όρεξη. Ωστόσο, η κατάθλιψη είναι δυνατόν να θεραπευτεί και η έγκαιρη ανίχνευση αυξάνει εκθετικά τη δυνατότητα ελέγχου της κατάστασης.
Η πολυπλοκότητα της διαδικασίας αναγνώρισης της κατάθλιψης θέτει προκλήσεις για τους κλινικούς ιατρούς όσον αφορά τόσο την ακρίβεια της διάγνωσης όσο και την έγκαιρη θεραπεία, δεδομένου ότι η ασθένεια μπορεί να είναι αδιάγνωστη για πολλούς μήνες ή ακόμη και χρόνια, καθώς και το γεγονός ότι οι καθυστερήσεις στην αναγνώριση και τη θεραπεία μπορεί να είναι ζωτικής σημασίας για τη ζωή του ασθενούς. Για το σκοπό αυτό, η μηχανική μάθηση έχει εισαχθεί στον ιατρικό τομέα για να παρέχει εργαλεία ικανά να βελτιώσουν τον απαιτούμενο χρόνο καθώς και την ακρίβεια της διαδικασίας αναγνώρισης, ελαχιστοποιώντας παράλληλα τις ανθρώπινες παρεμβολές.
Για το σκοπό αυτό, η παρούσα πτυχιακή εργασία μελετά τη χρήση μοντέλων μηχανικής μάθησης για την αναγνώριση της κατάθλιψης χρησιμοποιώντας ηχητικά δεδομένα από την γνωστή βάση δεδομένων DAIC-WOZ, η οποία περιέχει κλινικές συνεντεύξεις που έχουν σχεδιαστεί ειδικά για να υποστηρίξουν τη διάγνωση καταστάσεων ψυχολογικής δυσφορίας. Όσον αφορά τις ηχητικές πληροφορίες, χρησιμοποιήθηκαν οι δυνατότητες του συνεργατικού αποθετηρίου ανάλυσης φωνής (COVAREP) που παρέχονται από το dataset. Η ταξινόμηση πραγματοποιείται χρησιμοποιώντας τα παρακάτω μοντέλα Decision Tree, Random Forest, AdaBoost, Support Vector Machine and Multilayer Perceptron . Το μοντέλο AdaBoost πέτυχε τα καλύτερα αποτελέσματα και θεωρείται ένα καλό μοντέλο για την πρόβλεψη της κατάθλιψης.