0% found this document useful (0 votes)

111 views28 pages

Easy Does It: Robust Spectro-Temporal Many-Stream ASR Without Fine Tuning Streams

The document describes a method for automatic speech recognition (ASR) using multiple "streams" of spectro-temporal features derived from Gabor filters applied to the auditory spectrogram. These streams capture different spectral and temporal modulations and are processed with multilayer perceptrons (MLPs) to estimate phone probabilities. The probabilities from each stream are then merged to form a single output. The method achieves robust ASR without fine-tuning the individual streams. Experiments on the Aurora 2 and Numbers 95 datasets show the multi-stream approach outperforms baselines using MFCC features alone or a smaller number of streams.

Uploaded by

Jom Kantapon

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

111 views28 pages

Easy Does It: Robust Spectro-Temporal Many-Stream ASR Without Fine Tuning Streams

Uploaded by

Jom Kantapon

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 28

Easy Does It: Robust Spectro-Temporal ManyStream ASR without Fine Tuning Streams

Ravuri, Morgan, UC Berkeley

Presented by JJ

Motivation
Physiological experiments in different mammal species : a large percentage of neurons in the primary auditory cortex (A1) respond differently to upwardversus downward-moving ripples in the spectrogram of the input (Depireux et al., 2001).

Spectro-temporal receptive fields (STRFs) : individual neurons are sensitive to specific spectrotemporal modulation frequencies in the incoming sound signal

Introduction
Cortically-inspired TF features, which capture spectral and temporal modulations speech recognition and discrimination. Basically, spectro-temporal features are derived from filtering spectrograms with particular filters. In this case, the GABOR filter is applied to the auditory spectrogram.

Example

Gabor Filters

Example
Gaussian envelope

Gabor Filters

complex sinusoid s(n, k)

1D Gabor

Gaussian envelope

complex sinusoid s(n, k)

Gaussian envelope

2D Gabor
complex sinusoid s(n, k)

Example
Gaussian envelope

Gabor Filters

complex sinusoid s(n, k)

Their Gabor Filters

Dummy

parameters

indices

Tons of Combinations!

System
Stream

Stream

Merge MLP outputs

PCA

MFCC

Output

System
Stream

Stream

Merge MLP outputs

PCA

MFCC

Output

System
Stream

Stream

MLP (Multilayer Perceptron) The structure of the MLP depends on the type of feature and corpus.
Number of input units Spectral 567 9 Cepstral 351 9

56D Merge MLP outputs 56D

frames of context

hidden units

160 for Aurora2 500 for Number95 56

PCA
32D 45D MFCC Output
output units

System
Stream

Stream

56D Merge MLP outputs 56D

The outputs of the MLP stream provide an estimate of the posterior probability distribution for phones. Then, combine each of these phone probability estimates across streams by inverse entropy.

PCA
32D 71D MFCC Output

System
Stream

Stream

then apply the KL Transform to the log probabilities of the merged MLPs

56D Merge MLP outputs 56D

PCA
32D 71D MFCC Output Principal Components Analysis

System
Stream

Stream

56D Merge MLP outputs 56D

PCA
32D 71D MFCC Output

then apply the KL Transform to the log probabilities of the merged MLPs reduced to 32D orthogonalized the features are mean and variance normalized by utterance finally appended to the MFCC feature

System
Features HMM
Stream

Stream

56D Merge MLP outputs 56D

PCA
32D 71D MFCC 39D Output 32D

Experiments
Database Aurora 2 (0 20 dB) Numbers95 consists of various numeric portions extracted from telephone dialogues . vocabulary size of 32 words training set contains 3590 utterances of clean data, totaling roughly 3 hrs 2 test sets contains 1227 utterances. The first contains only clean data The second contains the same utterances with noise added at five SNR (20dB, 15dB, 10dB, 5dB, and 0dB). Additive noise Baseline 39 MFCC 4-stream system 28-stream system

Uni-modulation system 150 stream spectral only and spectral/cepstral

Metric: Word Error Rate (WER)

Results
Aurora 2

Numbers 95

Results
Aurora 2

Numbers 95

Results
Aurora 2

Numbers 95

Results
Aurora 2

Discussion 1

Numbers 95

Results
Aurora 2

Discussion 2

Numbers 95

Results
Aurora 2

Discussion 3

Numbers 95

Results
Aurora 2

Numbers 95

Future Work
Stream

Stream

56D Merge MLP outputs 56D

Not just additive noise Another TF feature might not work Log-mel filterbank? Or power like PNCC? How to combine MLP? Inverse Entropy?

PCA
32D 71D MFCC 39D Output 32D

MFCCs in Speech Recognition
No ratings yet
MFCCs in Speech Recognition
14 pages
Lecture 7 - Automatic Speech Recognition
No ratings yet
Lecture 7 - Automatic Speech Recognition
58 pages
Speech Recognition, Synthesis, and Dialogue 2
No ratings yet
Speech Recognition, Synthesis, and Dialogue 2
59 pages
Dynamic Spectrum Derived MFCC and HFCC Parameters and Human Robot Speech Interaction
No ratings yet
Dynamic Spectrum Derived MFCC and HFCC Parameters and Human Robot Speech Interaction
5 pages
Implementation of Speech Recognition Using Artificial Neural Networks
No ratings yet
Implementation of Speech Recognition Using Artificial Neural Networks
12 pages
Feature Extraction Methods LPC, PLP and MFCC in Speech Recognition
No ratings yet
Feature Extraction Methods LPC, PLP and MFCC in Speech Recognition
5 pages
Feature Extraction Methods LPC, PLP and MFCC
100% (1)
Feature Extraction Methods LPC, PLP and MFCC
5 pages
Speech Recognition Techniques
No ratings yet
Speech Recognition Techniques
5 pages
MFCC Features: Appendix A
No ratings yet
MFCC Features: Appendix A
19 pages
Intechopen 80419
No ratings yet
Intechopen 80419
18 pages
Chapter 2 - Speech Signal Processing
No ratings yet
Chapter 2 - Speech Signal Processing
60 pages
Acoustic Feature Analysis For ASR: Instructor: Preethi Jyothi
No ratings yet
Acoustic Feature Analysis For ASR: Instructor: Preethi Jyothi
34 pages
Speech Recognition Using MFCC
No ratings yet
Speech Recognition Using MFCC
4 pages
13MFCC Tutorial
No ratings yet
13MFCC Tutorial
6 pages
Speech Recognition: MFCC Explained
No ratings yet
Speech Recognition: MFCC Explained
9 pages
Recall What Are Sound Features? Feature Detection and Extraction Features in Sphinx III
No ratings yet
Recall What Are Sound Features? Feature Detection and Extraction Features in Sphinx III
11 pages
MFCC Technique For Speech Recognition
No ratings yet
MFCC Technique For Speech Recognition
6 pages
EE264 Final Project Report: Echai@stanford - Edu
No ratings yet
EE264 Final Project Report: Echai@stanford - Edu
17 pages
A Novel Approach For MFCC Feature Extraction
No ratings yet
A Novel Approach For MFCC Feature Extraction
5 pages
UNIT 2-Speech Processing
No ratings yet
UNIT 2-Speech Processing
25 pages
Music Genre Classification Using AI
No ratings yet
Music Genre Classification Using AI
57 pages
Isolated Speech Recognition Using Artificial Neural Networks
No ratings yet
Isolated Speech Recognition Using Artificial Neural Networks
5 pages
1-S2.0-S0885230824000962-Main Significance of Chirp MFCC As A Feature in Speech and Audio
No ratings yet
1-S2.0-S0885230824000962-Main Significance of Chirp MFCC As A Feature in Speech and Audio
11 pages
Automatic Speaker Recognition Report Hiya
No ratings yet
Automatic Speaker Recognition Report Hiya
8 pages
Speech Recognition
No ratings yet
Speech Recognition
4 pages
MFCC-Based Speech Recognition
No ratings yet
MFCC-Based Speech Recognition
5 pages
7.0 Speech Signals and Front-End Processing: References: 1. 3.3, 3.4 of Becchetti
No ratings yet
7.0 Speech Signals and Front-End Processing: References: 1. 3.3, 3.4 of Becchetti
50 pages
MFCC and Vector Quantization For Arabic Fricatives2012
No ratings yet
MFCC and Vector Quantization For Arabic Fricatives2012
6 pages
A Review On Feature Extraction and Noise Reduction Technique
No ratings yet
A Review On Feature Extraction and Noise Reduction Technique
5 pages
Article - Audio Intent Detection Classification Problem
No ratings yet
Article - Audio Intent Detection Classification Problem
4 pages
CCS369 - TSS-Unit 5
No ratings yet
CCS369 - TSS-Unit 5
23 pages
Mel Frequency Cepstral Coefficient (MFCC) - Guidebook - Informatica e Ingegneria Online
No ratings yet
Mel Frequency Cepstral Coefficient (MFCC) - Guidebook - Informatica e Ingegneria Online
12 pages
Reconocimiento de Voz - MATLAB
No ratings yet
Reconocimiento de Voz - MATLAB
5 pages
Final Project Report
No ratings yet
Final Project Report
15 pages
MFCCs
No ratings yet
MFCCs
12 pages
Biometrics Lecture Speech
No ratings yet
Biometrics Lecture Speech
38 pages
Feature Extraction Techniques For Speech Processing A Review
No ratings yet
Feature Extraction Techniques For Speech Processing A Review
8 pages
DSP Lab Mini Project
No ratings yet
DSP Lab Mini Project
7 pages
Sound Recognition For Iot 20
No ratings yet
Sound Recognition For Iot 20
2 pages
Applsci 09 02166
No ratings yet
Applsci 09 02166
12 pages
Automatic Speech Recognition 2
No ratings yet
Automatic Speech Recognition 2
22 pages
Feature Extraction MFCCs PDF
No ratings yet
Feature Extraction MFCCs PDF
15 pages
Regarding Chapter-6
No ratings yet
Regarding Chapter-6
1 page
M FCC Review
No ratings yet
M FCC Review
10 pages
Performance Evaluation of MLP For Speech Recognition in Noisy Environments Using MFCC & Wavelets
No ratings yet
Performance Evaluation of MLP For Speech Recognition in Noisy Environments Using MFCC & Wavelets
5 pages
Study of Compatible Models On Speech To Text SMS Messaging System
No ratings yet
Study of Compatible Models On Speech To Text SMS Messaging System
13 pages
KWS - Taiwan Chinese Paper 2002
No ratings yet
KWS - Taiwan Chinese Paper 2002
21 pages
Riassunto
No ratings yet
Riassunto
1 page
Continuous Myanmar Speech Recognition System
No ratings yet
Continuous Myanmar Speech Recognition System
35 pages
LSA 352 Speech Recognition and Synthesis: Dan Jurafsky
No ratings yet
LSA 352 Speech Recognition and Synthesis: Dan Jurafsky
104 pages
SN Ka Thesis
No ratings yet
SN Ka Thesis
78 pages
Speaker Recognition Using Vocal Tract Features
No ratings yet
Speaker Recognition Using Vocal Tract Features
5 pages
Control of Robot Arm Based On Speech Recognition Using Mel-Frequency Cepstrum Coefficients (MFCC) and K-Nearest Neighbors (KNN) Method
No ratings yet
Control of Robot Arm Based On Speech Recognition Using Mel-Frequency Cepstrum Coefficients (MFCC) and K-Nearest Neighbors (KNN) Method
6 pages
Advanced Speaker Recognition Methods
No ratings yet
Advanced Speaker Recognition Methods
14 pages
Speech Reconstruction From Mel-Frequency Cepstral Coefficients Using A Source-Filter Model
No ratings yet
Speech Reconstruction From Mel-Frequency Cepstral Coefficients Using A Source-Filter Model
4 pages
Kosko 1986
No ratings yet
Kosko 1986
11 pages
List of Irreversible Reactions
No ratings yet
List of Irreversible Reactions
12 pages
MAD Chapter 1
No ratings yet
MAD Chapter 1
60 pages
11 Computer Science
No ratings yet
11 Computer Science
4 pages
371 810 Falk Quadrive Shaft Mounted Drive Interchange Guide
No ratings yet
371 810 Falk Quadrive Shaft Mounted Drive Interchange Guide
12 pages
Appworx User Guide
No ratings yet
Appworx User Guide
501 pages
Activities: Activity 1
No ratings yet
Activities: Activity 1
7 pages
Group 8 - ECELXM1L - Lab04
No ratings yet
Group 8 - ECELXM1L - Lab04
5 pages
03 - Quotient Rule PDF
No ratings yet
03 - Quotient Rule PDF
4 pages
Brochur Michelin Racing Tires 2010
100% (1)
Brochur Michelin Racing Tires 2010
20 pages
RF Eng - Two Stage Amp
No ratings yet
RF Eng - Two Stage Amp
4 pages
CAIE-IGCSE-Physics - Alternative To Practical
No ratings yet
CAIE-IGCSE-Physics - Alternative To Practical
4 pages
Phys 102 Unit I Waves - Acoustics
No ratings yet
Phys 102 Unit I Waves - Acoustics
58 pages
Unit 7 Released FRQ Questions KEY PDF
No ratings yet
Unit 7 Released FRQ Questions KEY PDF
37 pages
Single Index Model
100% (1)
Single Index Model
3 pages
What Is Sound
No ratings yet
What Is Sound
22 pages
Flasheff2 Quick Guide: The Fe2 Package
No ratings yet
Flasheff2 Quick Guide: The Fe2 Package
7 pages
8.2 Homework
No ratings yet
8.2 Homework
2 pages
Geotechnical Report: 16" Gas Pipeline
No ratings yet
Geotechnical Report: 16" Gas Pipeline
18 pages
Radio Systems For Technicians - Green, D. C - 1985 - Indianapolis, In, U.S.a. - H.W. Sams & Co. - 9780672224645 - Anna's Archive
No ratings yet
Radio Systems For Technicians - Green, D. C - 1985 - Indianapolis, In, U.S.a. - H.W. Sams & Co. - 9780672224645 - Anna's Archive
292 pages
Polymer Admixtures in Concrete
No ratings yet
Polymer Admixtures in Concrete
24 pages
Exception Handling
No ratings yet
Exception Handling
34 pages
Thrimawithana 2006
No ratings yet
Thrimawithana 2006
6 pages
Exp No-8
No ratings yet
Exp No-8
11 pages
Engineering Problem Solving With C United States Edition Paperback Delores M. Etter Instant Download
No ratings yet
Engineering Problem Solving With C United States Edition Paperback Delores M. Etter Instant Download
52 pages
Stepper Motor Drive Circuit: Features Description
No ratings yet
Stepper Motor Drive Circuit: Features Description
9 pages
Hkimo 2022 Heat Round - p2
100% (3)
Hkimo 2022 Heat Round - p2
5 pages
Linux Command Cheat Sheet
No ratings yet
Linux Command Cheat Sheet
2 pages
Android App Development Guide
No ratings yet
Android App Development Guide
17 pages
F5C1 (Tutorial1 1)
No ratings yet
F5C1 (Tutorial1 1)
2 pages

Easy Does It: Robust Spectro-Temporal Many-Stream ASR Without Fine Tuning Streams

Uploaded by

Easy Does It: Robust Spectro-Temporal Many-Stream ASR Without Fine Tuning Streams

Uploaded by

Easy Does It: Robust Spectro-Temporal ManyStream ASR without Fine Tuning Streams

Ravuri, Morgan, UC Berkeley

complex sinusoid s(n, k)

complex sinusoid s(n, k)

complex sinusoid s(n, k)

Their Gabor Filters

Their Gabor Filters

Merge MLP outputs

Merge MLP outputs

56D Merge MLP outputs 56D

160 for Aurora2 500 for Number95 56

160 for Aurora2 500 for Number95 56

56D Merge MLP outputs 56D

56D Merge MLP outputs 56D

56D Merge MLP outputs 56D

56D Merge MLP outputs 56D

Uni-modulation system 150 stream spectral only and spectral/cepstral

Metric: Word Error Rate (WER)

56D Merge MLP outputs 56D

You might also like