Use Cases

Overview

Objective

Building a custom Automated Voice Recognition (AVR) model using machine learning to transcribe audio recordings for applications like medical or legal transcriptions.

PROCESS

Audio Recording

Conversion to Waveform

Input into the AVR model

Text Output from the AVR model

Quality Check and Editing by human transcriptionist

Final Transcription

3x to 4x increase in transcription productivity, enabling much lower operational costs and competitive edge over rivals.

Approach: Automated Voice Recognition (AVR) – Modeling Approach

Labelled Raw Voice Data

Training Data
(E.g. 80% Split)

AVR model built using Training Data

Cross Validation Data
(E.g. 10% Split)

AVR model optimized using Cross Validation data

Test Data
(E.g. 10% Split)

AVR model accuracy evaluated on Test data

Raw Voice Data (Model Input)

Random noise may be added to the training data to make the model more robust

Acoustic Model

E.g. Deep Bidirectional LSTM RNN trained using Connectionist Temporal Classification)

Feature Extraction

From speech frames (e.g. Mel-Frequency Cepstral Coefficients)

Linguistic Model

Transcribed Text
(Model Output)

Automated Voice Recognition (AVR) – Acoustic Modeling candidates

Bidirectional LSTMs
Sequence Classification Problem
LSTM For Sequence Classification
Bidirectional LSTM For Sequence Classification
Compare LSTM to Bidirectional LSTM
Comparing Bidirectional LSTM Merge Modes
Candidate model has 3 layers of BLSTM with 256 nodes in each direction
Decoder has 2 LSTM layers with 512 nodes
Trained using asynchronous stochastic gradient descent

Name :
Contact No :
Email :
Skype :

Audio Transcription

Use Cases

Overview

Objective

PROCESS

Audio Recording

Conversion to Waveform

Input into the AVR model

Text Output from the AVR model

Quality Check and Editing by human transcriptionist

Final Transcription

Approach: Automated Voice Recognition (AVR) – Modeling Approach

Labelled Raw Voice Data

Training Data
(E.g. 80% Split)

Cross Validation Data
(E.g. 10% Split)

Test Data
(E.g. 10% Split)

Raw Voice Data (Model Input)

Acoustic Model

Feature Extraction

Linguistic Model

Transcribed Text
(Model Output)

Automated Voice Recognition (AVR) – Acoustic Modeling candidates

Predictive Analytics

Big Data Solutions

Intelligent Products

MACHINE LEARNING & ARTIFICIAL INTELLIGENCE

Use Cases

Analytics and Business Intelligence Modernization

Decision science

Audio Transcription

Use Cases

Overview

Objective

PROCESS

Audio Recording

Conversion to Waveform

Input into the AVR model

Text Output from the AVR model

Quality Check and Editing by human transcriptionist

Final Transcription

Approach: Automated Voice Recognition (AVR) – Modeling Approach

Labelled Raw Voice Data

Training Data (E.g. 80% Split)

Cross Validation Data (E.g. 10% Split)

Test Data (E.g. 10% Split)

Raw Voice Data (Model Input)

Acoustic Model

Feature Extraction

Linguistic Model

Transcribed Text (Model Output)

Automated Voice Recognition (AVR) – Acoustic Modeling candidates

Predictive Analytics

Big Data Solutions

Intelligent Products

MACHINE LEARNING & ARTIFICIAL INTELLIGENCE

Use Cases

Analytics and Business Intelligence Modernization

Decision science

Training Data
(E.g. 80% Split)

Cross Validation Data
(E.g. 10% Split)

Test Data
(E.g. 10% Split)

Transcribed Text
(Model Output)