Digital audio processing methods for voice pathology detection
Μέθοδοι ψηφιακής επεξεργασίας ηχητικού σήματος για την ανίχνευση παθολογίας στην ομιλία

Doctoral Thesis
Συγγραφέας
Miliaresi, Ioanna
Μηλιαρέση, Ιωάννα
Ημερομηνία
2025-01Επιβλέπων
Pikrakis, AngelosΠικράκης, Άγγελος
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Machine learning ; Deep learning architectures ; Convolutional neural networks ; Electroglottographic signal ; Digital signal processing ; Audio processing ; Voice pathology classification ; COVID-19 ; Dysphonia ; Vocal palsy ; Phonotrauma ; Neoplasm ; FEMH ; SVD dataset SPRsound Virufy ; Coswara ; Respiratory soundsΠερίληψη
Η παθολογία της φωνής περιλαμβάνει ένα ευρύ φάσμα διαταραχών που επηρεάζουν την ποιότητα και παραγωγή της φωνής, καθιστώντας τη διάγνωση και ταξινόμησή τους μια σύνθετη πρόκληση. Η παρούσα διατριβή εστιάζει στην ανάπτυξη καινοτόμων μεθόδων μηχανικής μάθησης για την αυτόματη ταξινόμηση φωνητικών και αναπνευστικών παθολογιών, αξιοποιώντας πολυτροπικά δεδομένα και προηγμένες αρχιτεκτονικές νευρωνικών δικτύων. Αντιμετωπίζονται βασικές προκλήσεις, όπως η περιορισμένη διαθεσιμότητα δεδομένων και η ανάγκη για υψηλή γενίκευση και προσαρμοστικότητα των μοντέλων. Στο πλαίσιο αυτό, παρουσιάζονται πέντε μοντέλα βαθιάς μάθησης που συνδυάζουν ηχητικά, ιατρικά και ηλεκτρογλωττογραφικά δεδομένα. Εφαρμόζονται τεχνικές επεξεργασίας ήχων μεταβλητής διάρκειας, επαύξησης δεδομένων και μηχανισμοί προσοχής, βελτιώνοντας την ακρίβεια και αξιοπιστία της διάγνωσης. Τα αποτελέσματα δείχνουν σημαντική ενίσχυση στην απόδοση των ταξινομητών σε διαφορετικά σύνολα δεδομένων, αποδεικνύοντας τη δυναμική των πολυτροπικών και ευέλικτων αρχιτεκτονικών στον τομέα της φωνητικής παθολογίας.