Linear discriminant based sound class similarities with unit value normalization

US 6,996,527 B2
Filed: 07/26/2001
Issued: 02/07/2006
Est. Priority Date: 07/26/2001
Status: Expired due to Fees

First Claim

Patent Images

1. A speech recognition processor for processing an input speech utterance in a speech recognition system, comprising:

a spectral measure module receptive of the input speech utterance for computing spectral measures of the input speech utterance for predetermined time frames;

a time spectral pattern stage for concatenating a plurality of successive spectral measures for generating a spectral pattern vector;

a linear discriminant module for computing an initial raw similarity value for each of a plurality of sound classes by computing the dot product of a linear discriminant vector with the time spectral pattern vector;

a normalization module which accesses normalized values computed based upon training utterances, said normalization module finding corresponding normalized values for each said initial raw similarity value to provide a normalized similarity value and concatenating normalized similarity values to form a similarity vector, said initial raw similarity value concatenating the initial raw similarity values to form a similarity vector; and

a word matcher module for comparing said similarity vector with pre-stored reference vectors.

View all claims

1 Assignment

Timeline View

Assignment View

0 Petitions

Accused Products

Abstract

A common requirement in automatic speech recognition is to recognize a set of words for any speaker without training the system for each new speaker. A speech recognition system is provided utilizing linear discriminant based phonetic similarities with inter-phonetic unit value normalization. Linear discriminant analysis is utilized using training data with both in-class and out-class sample training utterances for generating linear discriminant vectors for each of the phonetic units. The dot product of each linear discriminant vector and the time spectral pattern vectors generated from the input speech are computed. The resultant raw similarity vectors are then normalized utilizing normalization look-up tables for providing similarity vectors which are utilized by a word matcher for word recognition.

Citations

11 Claims

1. A speech recognition processor for processing an input speech utterance in a speech recognition system, comprising:
- a spectral measure module receptive of the input speech utterance for computing spectral measures of the input speech utterance for predetermined time frames;
  
  a time spectral pattern stage for concatenating a plurality of successive spectral measures for generating a spectral pattern vector;
  
  a linear discriminant module for computing an initial raw similarity value for each of a plurality of sound classes by computing the dot product of a linear discriminant vector with the time spectral pattern vector;
  
  a normalization module which accesses normalized values computed based upon training utterances, said normalization module finding corresponding normalized values for each said initial raw similarity value to provide a normalized similarity value and concatenating normalized similarity values to form a similarity vector, said initial raw similarity value concatenating the initial raw similarity values to form a similarity vector; and
  
  a word matcher module for comparing said similarity vector with pre-stored reference vectors.
- View Dependent Claims (2, 3, 4, 6, 7, 8)
- - 2. The speech recognition process according to claim 1, wherein said linear discriminant vector is computed based upon training utterances using Fisher'"'"'s linear discriminant analysis.
  - 3. The speech recognition processor according to claim 1, wherein said normalized values are computed by taking in-class and out-class training utterances as time spectral patterns and computing the dot product of the time spectral patterns for the training utterances with said linear discriminant vector for generating histograms of the number of occurrences of a specific score for said in-class and out-class training utterances and subtracting normalized scores for the out-class training utterances from normalized scores for the in-class utterances to generate a normalization function.
  - 4. The speech recognition processor according to claim 3, wherein said normalization function includes normalization values between +Σ
    - and −
      
      Σ
      
      .
  - 6. The processor of claim 1, wherein linear discriminant vectors are computed individually for each of a plurality of sound classes.
  - 7. The processor of claim 6, wherein said sound classes include two or more of:
    - (a) phonemes;
      
      (b) monophones;
      
      (c) diphones;
      
      (d) vowel groups; and
      
      (e) consonant groups.
  - 8. The processor of claim 6, wherein said sound classes include two or more classes of statistically clustered units.

5. A method for processing an input speech utterances for speech recognition, comprising:
- representing the input speech utterance as a spectral measure for predetermined time frames;
  
  generating a time-spectral pattern vector by concatenating together a plurality of spectral measures;
  
  computing the dot product of said time-spectral pattern vector with a linear discriminant vector to produce an initial similarity value;
  
  normalizing said preliminary similarity value by applying the normalization function generated based upon training utterances to the initial similarity value to create a normalized similarity value and concatenating normalized similarity values from multiple discriminate vectors associated with multiple sound classes to form a normalized similarity vector; and
  
  performing a word match with a list of word candidates based upon said normalized similarity vector.
- View Dependent Claims (9, 10, 11)
- - 9. The method of claim 5, wherein linear discriminant vectors are computed individually for each of a plurality of sound classes.
  - 10. The method of claim 9, wherein said sound classes include two or more of:
    - (a) phonemes;
      
      (b) monophones;
      
      (c) diphones;
      
      (d) vowel groups; and
      
      (e) consonant groups.
  - 11. The method of claim 9, wherein said sound classes include two or more classes of statistically clustered units.

Specification

Resources

Litigation Campaign Assessment

Current Assignee
Matsushita Electric Industrial Company Limited (Panasonic Holdings Corporation)
Original Assignee
Matsushita Electric Industrial Company Limited (Panasonic Holdings Corporation)
Inventors
Applebaum, Ted H., Boman, Robert C., Morin, Philippe R.
Primary Examiner(s)
Young, W. R.
Assistant Examiner(s)
JACKSON, JAKIEDA R

Application Number

US09/915,717
Publication Number

US 20030023434A1
Time in Patent Office

1,657 Days
Field of Search

704/254, 704/241, 704/243, 704/238, 704/234, 704/247, 704/233, 704/239, 704/245, 381/41, 706/25, 395/2.63, 395/2.47, 395/2.56, 304/146.3
US Class Current

704/239
CPC Class Codes

G10L 15/02 Feature extraction for spee...

G10L 15/10 using distance or distortio...

Linear discriminant based sound class similarities with unit value normalization

First Claim

1 Assignment

0 Petitions

Accused Products

Abstract

Citations

11 Claims

Specification

Solutions

Use Cases

Quick Links

Linear discriminant based sound class similarities with unit value normalization

First Claim

1 Assignment

Subscription Required

Subscription Required

0 Petitions

Subscription Required

Accused Products

Subscription Required

Abstract

Citations

11 Claims

Specification

Subscription Required

Solutions

Use Cases

Quick Links