Ανάλυση ηχητικών εγγραφών αστικού περιβάλλοντος και αναγνώριση πλαισίου
Προβολή/ Άνοιγμα
Λέξεις κλειδιά
Machine learning ; Classification ; Audio analysis ; Audio classification ; Urban sounds ; Sound recognitionΠερίληψη
Ο κόσμος είναι γεμάτος από ήχους. Μετά την όραση, η ακοή είναι η σημαντικότερη αίσθηση, με την οποία αντιλαμβανόμαστε το περιβάλλον. Εκ πρώτης όψεως, όλοι οι ήχοι φαίνεται να είναι διαφορετικοί μεταξύ τους. Eν τούτοις έχουν κάποια όμοια χαρακτηριστικά, όπως το γεγονός ότι μεταφέρουν ενέργεια και κατά συνέπεια μεταδίδουν κάποια πληροφορία από μια περιοχή σ’ άλλη, ώστε να επικοινωνούμε με τους άλλους ανθρώπους.
Η παρούσα διπλωματική εργασία πραγματεύεται τη μελέτη και την ανάλυση των ήχων σ’ ένα αστικό περιβάλλον. Συγκεκριμένα, ο σκοπός είναι η εφαρμογή και η αξιολόγηση μεθόδων μηχανικής μάθησης πάνω σ’ ένα σύνολο περιβαλλοντικών ήχων. Αρκετή έρευνα έχει ήδη διεξαχθεί στον τομέα της ανάλυσης ήχου. Ωστόσο οι περισσότεροι ερευνητές έχουν καταπιαστεί με την αναγνώριση ανθρώπινης ομιλίας είτε με την κατηγοριοποίηση διαφόρων ειδών μουσικής. Στην παρούσα μελέτη θα εξετάσουμε, πως κάποιοι από τους δημοφιλείς αλγορίθμους ταξινόμησης ανταποκρίνονται σε αστικά ηχητικά δεδομένα.
Στο πρώτο στάδιο της διαδικασίας έγινε η συλλογή των δειγμάτων ήχου, με σκοπό τη δημιουργία μιας βιβλιοθήκης, η οποία θα συμπεριλάμβανε πιθανές δραστηριότητες για κάθε μία από τις οχτώ κλάσεις που μελετήθηκαν. Στη συνέχεια, τα ηχητικά δεδομένα καταχωρήθηκαν στην κατάλληλη κλάση, αφού χωρίστηκαν στις επιθυμητές χρονικές διάρκειες και κάθε ηχητικό αρχείο διαιρέθηκε περαιτέρω μετά την εφαρμογή των συναρτήσεων πλαισίου. Επίσης για κάθε ήχο εξάχθηκαν κάποια χαρακτηριστικά, προκειμένου να δημιουργηθούν διανύσματα χαρακτηριστικών συγκεκριμένης διάστασης με τις πληροφορίες, που ήταν απαραίτητες για την ταξινόμηση.
Στο επόμενο στάδιο πραγματοποιήθηκε η εφαρμογή των αλγορίθμων μηχανικής μάθησης στα επεξεργασμένα, πλέον, ηχητικά δεδομένα. Το σύνολο χαρακτηριστικών χωρίστηκε σε σύνολο εκπαίδευσης και σε σύνολο δοκιμής, προκειμένου να αξιολογηθεί η απόδοση του κάθε αλγορίθμου. Επιπλέον, ο αλγόριθμος με την υψηλότερη ακρίβεια δοκιμάστηκε σ’ ένα άγνωστο σύνολο ηχητικών δεδομένων διαφορετικής μεταξύ τους χρονικής διάρκειας, για να διερευνηθεί η ικανότητα του να γενικεύει.