0% found this document useful (0 votes)

8 views3 pages

Speech Recognition Architecture - Detailed View: 1. Acoustic Front-End (Feature Extraction)

The document outlines the architecture of an Automatic Speech Recognition (ASR) system, detailing its five major modules: Acoustic Front-End, Acoustic Model, Pronunciation Lexicon, Language Model, and Decoder. Each module plays a crucial role in transforming raw speech input into recognized text, utilizing techniques such as feature extraction, HMMs, and language modeling. The process culminates in post-processing steps to enhance the accuracy and formatting of the output text.

Uploaded by

guptashweta30113

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views3 pages

Speech Recognition Architecture - Detailed View: 1. Acoustic Front-End (Feature Extraction)

Uploaded by

guptashweta30113

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Got it — let’s go deep into the Speech Recognition Architecture so you have a detailed,

structured view from raw speech input to final text output, especially in the context of
HMM-based systems.

Speech Recognition Architecture — Detailed View

A typical Automatic Speech Recognition (ASR) system consists of five major modules
working together:

1. Acoustic Front-End (Feature Extraction)

This is the signal processing stage, which converts the raw speech waveform into a sequence
of feature vectors that capture relevant information for recognition.

Steps:

1. Pre-Emphasis
o Purpose: Amplify high-frequency components, which are weaker in speech
signals.
o Equation:

y[n]=x[n]−αx[n−1],α≈0.95y[n] = x[n] - \alpha x[n-1], \quad \alpha \approx

0.95

2. Framing
o Speech is non-stationary, but over short durations (~20–25 ms) it can be
treated as stationary.
o The waveform is divided into overlapping frames (e.g., 25 ms frame length, 10
ms shift).
3. Windowing
o Apply a Hamming window to reduce spectral discontinuities at frame edges.
4. FFT (Fast Fourier Transform)
o Converts the time-domain signal into frequency domain.
5. Mel Filterbank
o Passes the spectrum through a bank of filters spaced according to the Mel
scale to mimic human auditory perception.
6. Log Compression
o Converts energy values to a logarithmic scale.
7. DCT (Discrete Cosine Transform)
o Produces MFCCs (Mel Frequency Cepstral Coefficients), which are compact
representations of speech.
8. Feature Normalization
o CMVN (Cepstral Mean and Variance Normalization) to handle channel and
environmental variations.
2. Acoustic Model

The acoustic model maps the extracted features to basic sound units (phonemes or sub-
phonetic states).

 Why HMMs?
o Speech is a time-varying sequence; HMMs model both temporal progression
and statistical variation.
o Each HMM state corresponds to a segment of a phoneme.
 Emission Probability Models:
o Traditionally GMMs (Gaussian Mixture Models).
o Modern systems use DNNs (Deep Neural Networks), CNNs, or RNNs to
output state likelihoods.
 Training:
o Uses Baum-Welch algorithm (a form of EM algorithm) to estimate model
parameters.

3. Pronunciation Lexicon (Dictionary)

This is the bridge between phonemes and words.

 Contains:
o Word → Phoneme mappings.
o Example:
o HELLO → HH AH0 L OW1
o CAT → K AE1 T
o Stress and tone markers for some languages.
 Importance:
o Ensures the system knows how a word is pronounced.
o Can handle multiple pronunciations of the same word.

4. Language Model

The language model predicts the most likely sequence of words.

 Purpose: Resolve ambiguities in acoustic decoding.

Example:
o Acoustic model might confuse "recognize speech" with "wreck a nice beach".
o The language model makes "recognize speech" more probable.
 Types:
o N-gram models (unigram, bigram, trigram).
o Neural LMs (RNN, Transformer-based).
 Training Data:
o Large text corpora (news, transcriptions, books).
5. Decoder

The decoder combines:

 Acoustic model scores.

 Pronunciation lexicon.
 Language model probabilities.

Goal: Find the most probable word sequence W∗W^* given observed features OO:

W∗=arg⁡max⁡WP(W∣O)=arg⁡max⁡WP(O∣W)⋅P(W)W^* = \arg\max_W P(W|O) =

\arg\max_W P(O|W) \cdot P(W)

 P(O∣W)P(O|W): Acoustic model likelihood.

 P(W)P(W): Language model probability.

Methods:

 Viterbi Search: Finds the best path through the HMM state network.
 Beam Search: Prunes unlikely paths to improve efficiency.
 WFST Decoding: Uses Weighted Finite-State Transducers to unify AM, LM, and
lexicon into a single search graph.

6. Post-Processing

 Confidence Scoring: Assigns reliability scores to recognized words.

 Punctuation & Capitalization: Restores formatting.
 Error Correction: Uses additional grammar rules or statistical post-filters.

End-to-End View Diagram (Text Form)

Speech Input → Acoustic Front-End → Acoustic Model (HMM/DNN)
→ Pronunciation Lexicon → Language Model
→ Decoder → Recognized Text Output

If you want, I can make a full graphical diagram of this architecture so that each block and
data flow is visually clear. That would make it easier to remember and present.

Unit 5 UA
No ratings yet
Unit 5 UA
19 pages
UNIT-V Automatic Speech Recognition 22.10,24
No ratings yet
UNIT-V Automatic Speech Recognition 22.10,24
15 pages
Phases of Speech Recognition
No ratings yet
Phases of Speech Recognition
2 pages
Automatic Speech Recognition (ASR) : Omar Khalil Gómez - Università Di Pisa
100% (1)
Automatic Speech Recognition (ASR) : Omar Khalil Gómez - Università Di Pisa
65 pages
Speechrecognitionfinalpresentation 141124072610 Conversion Gate01
No ratings yet
Speechrecognitionfinalpresentation 141124072610 Conversion Gate01
30 pages
End-to-End Automatic Speech Recognition
No ratings yet
End-to-End Automatic Speech Recognition
19 pages
Lecture 9
No ratings yet
Lecture 9
39 pages
ASR Fundamentals and Techniques
No ratings yet
ASR Fundamentals and Techniques
39 pages
Unit 5 (Automatic Speech Recognition)
No ratings yet
Unit 5 (Automatic Speech Recognition)
13 pages
Mba-Ai Speech Technologies: Prof. Brian Mak
No ratings yet
Mba-Ai Speech Technologies: Prof. Brian Mak
56 pages
Final Slide
No ratings yet
Final Slide
18 pages
Voice Recognition
60% (5)
Voice Recognition
31 pages
Speech Recognition ML Only Procedure
No ratings yet
Speech Recognition ML Only Procedure
2 pages
Speech Representation Models For Speech Synthesis and Multimodal Speech Recognition
No ratings yet
Speech Representation Models For Speech Synthesis and Multimodal Speech Recognition
63 pages
NLP 1.3.1 - Speed Recogmnition
No ratings yet
NLP 1.3.1 - Speed Recogmnition
20 pages
Ann LA2 Project
No ratings yet
Ann LA2 Project
23 pages
Voice Assistant
No ratings yet
Voice Assistant
34 pages
Lecture 9 - Speech Recognition
No ratings yet
Lecture 9 - Speech Recognition
65 pages
Speechrecogn
No ratings yet
Speechrecogn
15 pages
Speech Recognition Application
No ratings yet
Speech Recognition Application
13 pages
Speech Recognition
No ratings yet
Speech Recognition
4 pages
Automatic Speech Recognition
No ratings yet
Automatic Speech Recognition
17 pages
Mestrado-Engenharia Informatica-Eduardo Farofia Medeiros
No ratings yet
Mestrado-Engenharia Informatica-Eduardo Farofia Medeiros
103 pages
Wa0029
No ratings yet
Wa0029
24 pages
A Framework For Speech Recognition Development
No ratings yet
A Framework For Speech Recognition Development
23 pages
Speech Recognition System Proposal
No ratings yet
Speech Recognition System Proposal
11 pages
Speech Recognition
No ratings yet
Speech Recognition
4 pages
Automatic Speech Recognition
No ratings yet
Automatic Speech Recognition
35 pages
Speech Recognition Seminar
No ratings yet
Speech Recognition Seminar
19 pages
Speech Recognition for Developers
No ratings yet
Speech Recognition for Developers
38 pages
ISM Report Final
No ratings yet
ISM Report Final
33 pages
Term Paper ECE-300 Topic: - Speech Recognition
No ratings yet
Term Paper ECE-300 Topic: - Speech Recognition
14 pages
Neural Networks for Speech Recognition
No ratings yet
Neural Networks for Speech Recognition
155 pages
Speech To Text
No ratings yet
Speech To Text
17 pages
Untitled Document-2
No ratings yet
Untitled Document-2
3 pages
IT Report-1
No ratings yet
IT Report-1
14 pages
Nepali Speech Recognition PDF
No ratings yet
Nepali Speech Recognition PDF
90 pages
Nepali Speech Recognition PDF
No ratings yet
Nepali Speech Recognition PDF
90 pages
SPEECH RECOGNITION SYSTEM Final
No ratings yet
SPEECH RECOGNITION SYSTEM Final
16 pages
Assignment Submission Speech Recognition System Architectural Design
No ratings yet
Assignment Submission Speech Recognition System Architectural Design
5 pages
3MCA67 Speech Recognition
No ratings yet
3MCA67 Speech Recognition
14 pages
Speech Processing
No ratings yet
Speech Processing
70 pages
SPEECH
100% (1)
SPEECH
17 pages
Vivek Kumar - 1613112052
No ratings yet
Vivek Kumar - 1613112052
7 pages
Evaluation of State of Art Open-Source ASR Engines With Local Inferencing
No ratings yet
Evaluation of State of Art Open-Source ASR Engines With Local Inferencing
81 pages
Thesis-Speech Recognition Markov
No ratings yet
Thesis-Speech Recognition Markov
65 pages
Minor Project123
No ratings yet
Minor Project123
40 pages
Speech Recognition Course Guide
No ratings yet
Speech Recognition Course Guide
74 pages
Speech Recognition
No ratings yet
Speech Recognition
11 pages
Write: Get Unlimited Access To The Best of Medium For Less Than $1/week
No ratings yet
Write: Get Unlimited Access To The Best of Medium For Less Than $1/week
19 pages
ASR Neural Network Techniques
No ratings yet
ASR Neural Network Techniques
23 pages
Speech Recognition & Sentiment Analysis
No ratings yet
Speech Recognition & Sentiment Analysis
23 pages
Speech Recognition Introduction
No ratings yet
Speech Recognition Introduction
8 pages
Applsci 12 01091
No ratings yet
Applsci 12 01091
18 pages
A Review On Different Approaches For Speech - Recognition System
No ratings yet
A Review On Different Approaches For Speech - Recognition System
6 pages
Assamese Numeral Corpus For Speech Recognition Using ANN: Master of Science
No ratings yet
Assamese Numeral Corpus For Speech Recognition Using ANN: Master of Science
58 pages
Survey of Deep Learning Paradigms For Speech Processing
No ratings yet
Survey of Deep Learning Paradigms For Speech Processing
37 pages
Selection of Optimal Solution For Example and Model of Retrieval Based Voice Conversion
No ratings yet
Selection of Optimal Solution For Example and Model of Retrieval Based Voice Conversion
8 pages
Voice Based ATM
No ratings yet
Voice Based ATM
29 pages
Xianxun Zhu Review
No ratings yet
Xianxun Zhu Review
27 pages
Project Report: "In Pursuit of Global Competitiveness"
75% (4)
Project Report: "In Pursuit of Global Competitiveness"
9 pages
Attention-Based CRNN for Lung Disease Detection
No ratings yet
Attention-Based CRNN for Lung Disease Detection
7 pages
TinyML Wearables Benchmarking
No ratings yet
TinyML Wearables Benchmarking
7 pages
AKBALIK Et Al 2024 Engine Fault Detection by Sound Analysis and Machine Learning
No ratings yet
AKBALIK Et Al 2024 Engine Fault Detection by Sound Analysis and Machine Learning
18 pages
HCIP-AI-EI Developer V2.0 Training Material
No ratings yet
HCIP-AI-EI Developer V2.0 Training Material
508 pages
Audio To Text Cookbook
No ratings yet
Audio To Text Cookbook
3 pages
Deepfake Audio Detection and Justification With Ex
No ratings yet
Deepfake Audio Detection and Justification With Ex
19 pages
Unit 2 NMU
No ratings yet
Unit 2 NMU
4 pages
Radia - Radio Advertisement Detection With Intelligent Analytics
No ratings yet
Radia - Radio Advertisement Detection With Intelligent Analytics
14 pages
Knowledge Distillation For In-Memory Keyword Spotting Model
No ratings yet
Knowledge Distillation For In-Memory Keyword Spotting Model
5 pages
A Comprehensive Review of Speech Emotion Recognition Systems
No ratings yet
A Comprehensive Review of Speech Emotion Recognition Systems
20 pages
Text and Speech CCS369-UNIT 5
No ratings yet
Text and Speech CCS369-UNIT 5
9 pages
Multi-Domain SER for Researchers
No ratings yet
Multi-Domain SER for Researchers
6 pages
Adaptive Beamforming Techniques For Speech
No ratings yet
Adaptive Beamforming Techniques For Speech
6 pages
Major 22014
No ratings yet
Major 22014
31 pages
Icmc 2023 Template
No ratings yet
Icmc 2023 Template
9 pages
A Review Deep Learning Techiques For Speech Processing2023
No ratings yet
A Review Deep Learning Techiques For Speech Processing2023
75 pages
Updated Project Report Biomodal Biometric Authentication System
No ratings yet
Updated Project Report Biomodal Biometric Authentication System
30 pages
FPP CV
No ratings yet
FPP CV
21 pages
A Study On Speech Emotion Recognition Based On MFCC and KNN Models
No ratings yet
A Study On Speech Emotion Recognition Based On MFCC and KNN Models
4 pages
Automatic Speaker Recognition Using Hybrid Parameters Based On Machine Learning Applied On Two Dataset
No ratings yet
Automatic Speaker Recognition Using Hybrid Parameters Based On Machine Learning Applied On Two Dataset
12 pages
COVID-19 Detection From Speech, Breathing and Coug - 230925 - 185202
No ratings yet
COVID-19 Detection From Speech, Breathing and Coug - 230925 - 185202
19 pages
Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems
No ratings yet
Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems
37 pages
Speech Emotion Analysis Using Convolutional Neural
No ratings yet
Speech Emotion Analysis Using Convolutional Neural
19 pages
Enhancing Emergency Response Through Speech Emotion Recognition A Machine Learning Approach
No ratings yet
Enhancing Emergency Response Through Speech Emotion Recognition A Machine Learning Approach
5 pages
Electronics 12 00839 v2
No ratings yet
Electronics 12 00839 v2
17 pages

Speech Recognition Architecture - Detailed View: 1. Acoustic Front-End (Feature Extraction)

Uploaded by

Speech Recognition Architecture - Detailed View: 1. Acoustic Front-End (Feature Extraction)

Uploaded by

Got it — let’s go deep into the Speech Recognition Architecture so you have a detailed,

Speech Recognition Architecture — Detailed View

1. Acoustic Front-End (Feature Extraction)

y[n]=x[n]−αx[n−1],α≈0.95y[n] = x[n] - \alpha x[n-1], \quad \alpha \approx

3. Pronunciation Lexicon (Dictionary)

This is the bridge between phonemes and words.

The language model predicts the most likely sequence of words.

 Purpose: Resolve ambiguities in acoustic decoding.

The decoder combines:

 Acoustic model scores.

W∗=arg⁡max⁡WP(W∣O)=arg⁡max⁡WP(O∣W)⋅P(W)W^* = \arg\max_W P(W|O) =

 P(O∣W)P(O|W): Acoustic model likelihood.

 Confidence Scoring: Assigns reliability scores to recognized words.

End-to-End View Diagram (Text Form)

You might also like