Κατάτμηση σημάτων φωνής και εξαγωγή θεμελιωδών συχνοτήτων σε ενσωματωμένη πλατφόρμα
Προβολή/ Άνοιγμα
Θεματική επικεφαλίδα
Συστήματα επεξεργασίας ομιλίας ; Επεξεργασία σημάτων ; Θεωρία σημάτων (Τηλεπικοινωνία) ; ΑλγόριθμοιΠερίληψη
Δυο σημαντικά θέματα της ψηφιακής επεξεργασίας ανθρώπινης φωνής είναι η κατάτμηση σημάτων φωνής ώστε να ανιχνευθεί ομιλία και η εξαγωγή των θεμελιωδών συχνοτήτων της φωνής ενός ομιλητή. Ένα σύστημα κατάτμησης φωνής με σκοπό ανίχνευση ομιλίας (Voice Activity Detector – VAD) μπορεί να χρησιμοποιηθεί σε τηλεφωνικά κέντρα, σε συστήματα ασφαλείας, σε επαγγελματικά συστήματα τραγουδιστών, σε μεγάλο αριθμό ηλεκτρονικών παιχνιδιών και σε διάφορα άλλα προγράμματα. Η θεμελιώδης συχνότητα της ανθρώπινης φωνής (pitch) είναι από τα πιο σημαντικά χαρακτηριστικά της. Είναι ο ρυθμός με τον οποίο δονούνται οι φωνητικές χορδές κατά την ανθρώπινη ομιλία. Η εξαγωγή της θεμελιώδους συχνότητας (pitch extraction) μπορεί να χρησιμοποιηθεί για να αναγνωρίζονται ομιλητές σε συστήματα ασφαλείας, για την ανίχνευση της συναισθηματικής τους κατάστασης (emotion detection), για τη διόρθωση της ίδιας της συχνότητας (pitch correction) σε περιπτώσεις τραγουδιστών, για την προπόνηση επαγγελματιών τραγουδιστών, για ηλεκτρονικά παιχνίδια, για σύνθεση ήχου και για αρκετές άλλες εφαρμογές. Οι αλγόριθμοι εξαγωγής pitch είναι πολλοί. Για διαφορετικές εφαρμογές υπάρχουν αλγόριθμοι με πλεονεκτήματα και μειονεκτήματα πάνω στην ακρίβεια και τον χρόνο εκτέλεσης. Και τα δυο αυτά προβλήματα, η ακριβής κατάτμηση των σημάτων φωνής, σε ομιλία και θόρυβο και η εξαγωγή του pitch συμβάλλουν στην αναγνώριση λέξεων και στην αναγνώριση φωνής του ομιλητή. Για την κατάτμηση τμημάτων φωνής, η επιλογή ενός αλγορίθμου είναι εύκολη, είναι ο γνωστός αλγόριθμος του Rabiner. Για τη ανίχνευση pitch μελετήθηκαν μερικοί αλγόριθμοι μέσα από βιβλιογραφία και συγκρίθηκαν τα βασικά τους χαρακτηριστικά. Δυο από αυτούς επιλέχθηκαν για υλοποίηση. Για τους σκοπούς της πτυχιακής αυτής, ένα ενσωματωμένο σύστημα με έναν 8 – bit μικροελεγκτή προγραμματίστηκε με τους προαναφερθέντες αλγόριθμους για την ανίχνευση ομιλίας και εξαγωγή pitch.