Ανάλυση περιεχομένων ροών ήχου με στόχο την κατάτμηση και ταξινόμηση οπτικοακουστικών δεδομένων

Μπενέτος, Ιωάννης Δ.

Master Thesis

Συγγραφέας

Μπενέτος, Ιωάννης Δ.

Ημερομηνία

2013-02-11

Περίληψη

Σκοπός αυτής της εργασίας είναι η υλοποίηση και διερεύνηση της αξιοπιστίας και της απόδοσης μιας μεθόδου αυτόματης κατάτμησης και αναγνώρισης του περιεχομένου μιας ηχητικής ροής που βασίζεται στην ανάλυση του ηχητικού περιεχομένου. Ενώ οι τρέχουσες προσεγγίσεις του προβλήματος της κατάτμησης και ταξινόμησης των οπτικοακουστικών δεδομένων έχουν εστιάσει κυρίως στα οπτικά γνωρίσματα, τα ηχητικά σήματα μπορεί στην πραγματικότητα να παίξουν έναν πολύ πιο σημαντικό ρόλο στην ανάλυση του περιεχομένου για πολλές εφαρμογές. Προτείνεται μια προσέγγιση της αυτόματης κατάτμησης και ταξινόμησης των οπτικοακουστικών δεδομένων που βασίζεται στην ανάλυση του ηχητικού περιεχομένου. Το ηχητικό σήμα των κινηματογραφικών ταινιών ή των τηλεοπτικών προγραμμάτων κατατμείται και ταξινομείται σε βασικούς τύπους όπως «φωνή», «μουσική», «τραγούδι», «περιβαλλοντικοί ήχοι», «φωνή με μουσική υπόκρουση», «περιβαλλοντικοί ήχοι με μουσική υπόκρουση», «σιγή», κλπ. Εξάγονται απλά ηχητικά χαρακτηριστικά όπως η ενέργεια, ο ρυθμός διέλευσης του μηδενός, η θεμελιώδης συχνότητα και τα ίχνη των φασματικών κορυφών έτσι ώστε να εξασφαλίζεται η επεξεργασία σε πραγματικό χρόνο. Προτείνεται μια διαδικασία που χρησιμοποιεί ευριστικούς κανόνες για την κατάτμηση και ταξινόμηση των ηχητικών σημάτων και που βασίζεται στη μορφολογική και στατιστική ανάλυση αυτών των χρονομεταβλητών ηχητικών χαρακτηριστικών. Τα πειραματικά δεδομένα δείχνουν ότι το προτεινόμενο σχήμα πετυχαίνει ακρίβεια ταξινόμησης 72%.

Γλώσσα

Ελληνικά

URI

https://dione.lib.unipi.gr/xmlui/handle/unipi/5186

Συλλογή

Τμήμα Πληροφορικής

Εμφάνιση πλήρους εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές

Εκτός από όπου διευκρινίζεται διαφορετικά, το τεκμήριο διανέμεται με την ακόλουθη άδεια:
Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνές