Ανάλυση περιεχομένων ροών ήχου με στόχο την κατάτμηση και ταξινόμηση οπτικοακουστικών δεδομένων

Προβολή/ Άνοιγμα
Θεματική επικεφαλίδα
Sound -- Recording and reproducing -- Digital techniques ; Signal processing -- Digital techniquesΠερίληψη
Σκοπός αυτής της εργασίας είναι η υλοποίηση και διερεύνηση της αξιοπιστίας και της απόδοσης μιας μεθόδου αυτόματης κατάτμησης και αναγνώρισης του περιεχομένου μιας ηχητικής ροής που βασίζεται στην ανάλυση του ηχητικού περιεχομένου. Ενώ οι τρέχουσες προσεγγίσεις του προβλήματος της κατάτμησης και ταξινόμησης των οπτικοακουστικών δεδομένων έχουν εστιάσει κυρίως στα οπτικά γνωρίσματα, τα ηχητικά σήματα μπορεί στην πραγματικότητα να παίξουν έναν πολύ πιο σημαντικό ρόλο στην ανάλυση του περιεχομένου για πολλές εφαρμογές. Προτείνεται μια προσέγγιση της αυτόματης κατάτμησης και ταξινόμησης των οπτικοακουστικών δεδομένων που βασίζεται στην ανάλυση του ηχητικού περιεχομένου. Το ηχητικό σήμα των κινηματογραφικών ταινιών ή των τηλεοπτικών προγραμμάτων κατατμείται και ταξινομείται σε βασικούς τύπους όπως «φωνή», «μουσική», «τραγούδι», «περιβαλλοντικοί ήχοι», «φωνή με μουσική υπόκρουση», «περιβαλλοντικοί ήχοι με μουσική υπόκρουση», «σιγή», κλπ. Εξάγονται απλά ηχητικά χαρακτηριστικά όπως η ενέργεια, ο ρυθμός διέλευσης του μηδενός, η θεμελιώδης συχνότητα και τα ίχνη των φασματικών κορυφών έτσι ώστε να εξασφαλίζεται η επεξεργασία σε πραγματικό χρόνο. Προτείνεται μια διαδικασία που χρησιμοποιεί ευριστικούς κανόνες για την κατάτμηση και ταξινόμηση των ηχητικών σημάτων και που βασίζεται στη μορφολογική και στατιστική ανάλυση αυτών των χρονομεταβλητών ηχητικών χαρακτηριστικών. Τα πειραματικά δεδομένα δείχνουν ότι το προτεινόμενο σχήμα πετυχαίνει ακρίβεια ταξινόμησης 72%.