dc.contributor.advisor | Pikrakis, Angelos | |
dc.contributor.advisor | Πικράκης, Άγγελος | |
dc.contributor.author | Miliaresi, Ioanna | |
dc.contributor.author | Μηλιαρέση, Ιωάννα | |
dc.date.accessioned | 2025-06-16T05:20:19Z | |
dc.date.available | 2025-06-16T05:20:19Z | |
dc.date.issued | 2025-01 | |
dc.identifier.uri | https://dione.lib.unipi.gr/xmlui/handle/unipi/17844 | |
dc.description.abstract | Η παθολογία της φωνής περιλαμβάνει ένα ευρύ φάσμα διαταραχών που επηρεάζουν την ποιότητα και παραγωγή της φωνής, καθιστώντας τη διάγνωση και ταξινόμησή τους μια σύνθετη πρόκληση. Η παρούσα διατριβή εστιάζει στην ανάπτυξη καινοτόμων μεθόδων μηχανικής μάθησης για την αυτόματη ταξινόμηση φωνητικών και αναπνευστικών παθολογιών, αξιοποιώντας πολυτροπικά δεδομένα και προηγμένες αρχιτεκτονικές νευρωνικών δικτύων. Αντιμετωπίζονται βασικές προκλήσεις, όπως η περιορισμένη διαθεσιμότητα δεδομένων και η ανάγκη για υψηλή γενίκευση και προσαρμοστικότητα των μοντέλων. Στο πλαίσιο αυτό, παρουσιάζονται πέντε μοντέλα βαθιάς μάθησης που συνδυάζουν ηχητικά, ιατρικά και ηλεκτρογλωττογραφικά δεδομένα. Εφαρμόζονται τεχνικές επεξεργασίας ήχων μεταβλητής διάρκειας, επαύξησης δεδομένων και μηχανισμοί προσοχής, βελτιώνοντας την ακρίβεια και αξιοπιστία της διάγνωσης. Τα αποτελέσματα δείχνουν σημαντική ενίσχυση στην απόδοση των ταξινομητών σε διαφορετικά σύνολα δεδομένων, αποδεικνύοντας τη δυναμική των πολυτροπικών και ευέλικτων αρχιτεκτονικών στον τομέα της φωνητικής παθολογίας. | el |
dc.format.extent | 186 | el |
dc.language.iso | en | el |
dc.publisher | Πανεπιστήμιο Πειραιώς | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.title | Digital audio processing methods for voice pathology detection | el |
dc.title.alternative | Μέθοδοι ψηφιακής επεξεργασίας ηχητικού σήματος για την ανίχνευση παθολογίας στην ομιλία | el |
dc.type | Doctoral Thesis | el |
dc.contributor.department | Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών. Τμήμα Πληροφορικής | el |
dc.description.abstractEN | Voice pathology refers to a wide range of disorders and diseases that affect voice quality and production, posing significant challenges for accurate diagnosis and classification. This dissertation focuses on the development of innovative machine learning approaches for the automatic classification of vocal and respiratory pathologies, leveraging multimodal data and advanced neural network architectures. Key challenges addressed include limited data availability, effective feature extraction, and the need for models with strong adaptability and generalization capabilities. To this end, five deep learning models are proposed, integrating acoustic, medical, and electroglottographic data. Techniques such as variable-length audio processing, data augmentation, and attention mechanisms are employed to enhance performance. The results demonstrate significant improvements in diagnostic accuracy and robustness across diverse datasets, confirming the potential of flexible, multimodal architectures in the field of voice pathology classification. | el |
dc.subject.keyword | Machine learning | el |
dc.subject.keyword | Deep learning architectures | el |
dc.subject.keyword | Convolutional neural networks | el |
dc.subject.keyword | Electroglottographic signal | el |
dc.subject.keyword | Digital signal processing | el |
dc.subject.keyword | Audio processing | el |
dc.subject.keyword | Voice pathology classification | el |
dc.subject.keyword | COVID-19 | el |
dc.subject.keyword | Dysphonia | el |
dc.subject.keyword | Vocal palsy | el |
dc.subject.keyword | Phonotrauma | el |
dc.subject.keyword | Neoplasm | el |
dc.subject.keyword | FEMH | el |
dc.subject.keyword | SVD dataset SPRsound Virufy | el |
dc.subject.keyword | Coswara | el |
dc.subject.keyword | Respiratory sounds | el |
dc.date.defense | 2025-01-20 | |