Systems and methods for extracting meaning from multimodal inputs using finite-state devices

US 7,295,975 B1
Filed: 10/21/2004
Issued: 11/13/2007
Est. Priority Date: 07/12/2001
Status: Expired due to Term

First Claim

Patent Images

1. Apparatus for recognizing an utterance comprising a plurality of modes, said apparatus comprising:

means for recognizing a first mode in said plurality of modes;

means for outputting a recognition result for said first mode in said plurality of modes;

means for generating a recognition model for use in recognizing a second mode in said plurality of modes, said recognition model a function of said recognition result associated with said first mode in said plurality of modes; and

means for recognizing said second mode in said plurality of modes using said recognition model.

View all claims

17 Assignments

Timeline View

Assignment View

0 Petitions

Accused Products

Abstract

Multimodal utterances contain a number of different modes. These modes can include speech, gestures, and pen, haptic, and gaze inputs, and the like. This invention use recognition results from one or more of these modes to provide compensation to the recognition process of one or more other ones of these modes. In various exemplary embodiments, a multimodal recognition system inputs one or more recognition lattices from one or more of these modes, and generates one or more models to be used by one or more mode recognizers to recognize the one or more other modes. In one exemplary embodiment, a gesture recognizer inputs a gesture input and outputs a gesture recognition lattice to a multimodal parser. The multimodal parser generates a language model and outputs it to an automatic speech recognition system, which uses the received language model to recognize the speech input that corresponds to the recognized gesture input.

Citations

23 Claims

1. Apparatus for recognizing an utterance comprising a plurality of modes, said apparatus comprising:
- means for recognizing a first mode in said plurality of modes;
  
  means for outputting a recognition result for said first mode in said plurality of modes;
  
  means for generating a recognition model for use in recognizing a second mode in said plurality of modes, said recognition model a function of said recognition result associated with said first mode in said plurality of modes; and
  
  means for recognizing said second mode in said plurality of modes using said recognition model.
- View Dependent Claims (2, 3, 4, 5, 6)
- - 2. The apparatus of claim 1, wherein said recognition result comprises a first mode recognition lattice.
  - 3. The apparatus of claim 2, wherein said means for generating a recognition model comprises:
    - means for inputting said first mode recognition lattice;
      
      means for inputting a first finite-state transducer, said first finite-state transducer relating said first mode to said second mode;
      
      means for outputting a second finite-state transducer, said second finite-state transducer a function of said first mode recognition lattice and said first finite-state transducer.
  - 4. The apparatus of claim 1, wherein said first mode in said plurality of modes comprises a gesture mode and said second mode in said plurality of modes comprises a speech mode.
  - 5. The apparatus of claim 4, wherein said means for generating a recognition model comprises:
    - means for receiving a gesture recognition lattice and a first finite-state transducer, said first finite-state transducer relating a first portion of an utterance comprising said first mode to a second portion of an utterance comprising said second mode; and
      
      means for generating a second finite-state transducer,wherein said second finite-state transducer comprises a gesture/speech recognition model finite state transducer based on said gesture recognition lattice and said first finite-state transducer.
  - 6. The apparatus of claim 5 further comprising:
    - means for receiving said second finite-state transducer; and
      
      means for generating a second mode recognition model as a function of said second finite-state transducer.

7. A recognition system for receiving and recognizing an utterance comprising a plurality of modes, the recognition system comprising:
- a first mode recognition subsystem adapted to generate a first recognition result associated with a first mode in said plurality of modes;
  
  a multimodal recognition subsystem adapted to generate a recognition model based on said first recognition result; and
  
  a second mode recognition subsystem adapted to generate a second recognition result associated with a second mode in said plurality of modes as a function of said first recognition model.
- View Dependent Claims (8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23)
- - 8. The multimodal recognition subsystem of claim 7, wherein said first recognition result comprises a first mode recognition lattice.
  - 9. The multimodal recognition subsystem of claim 8, wherein said multimodal recognition subsystem is adapted to generate a first finite-state transducer, said finite-state transducer a function of said first mode recognition lattice and a second finite-state transducer that relates said first mode to said second mode.
  - 10. The multimodal recognition subsystem of claim 9, wherein said recognition model comprises a projection of said second finite-state transducer, said projection a function of said second finite-state transducer.
  - 11. The multimodal recognition system of claim 7, wherein said first mode recognition subsystem comprises a gesture recognition subsystem and said second mode recognition subsystem comprises a speech recognition subsystem.
  - 12. The multimodal recognition subsystem of claim 11, wherein said first recognition result comprises a gesture recognition lattice.
  - 13. The multimodal recognition subsystem of claim 12, wherein said recognition model comprises a speech recognition model, said speech recognition model comprising:
    - a projection of a gesture/speech recognition model finite-state transducer, said gesture/speech recognition model finite state transducer generated being a function of said gesture recognition lattice and said first finite-state transducer.
  - 14. The multimodal recognition subsystem of claim 13, wherein said speech recognition subsystem is adapted to generate a speech recognition of a speech mode as a function of said speech recognition model.
  - 15. The multimodal recognition system of claim 14, wherein said speech recognition subsystem comprises:
    - a speech processing subsystem adapted to generate a feature vector lattice as a function of a speech signal;
      
      a phonetic recognition subsystem adapted to generate a phone lattice as a function of said feature vector lattice and an acoustic model;
      
      a word recognition subsystem adapted to generate a word lattice as a function of said phone lattice and a lexicon lattice; and
      
      a spoken mode recognition subsystem adapted to generate said speech recognition result as a function of said word lattice and said speech recognition model.
  - 16. The multimodal recognition subsystem of claim 13, wherein said speech recognition model is a speech recognition lattice.
  - 17. The multimodal recognition system of claim 16 wherein said speech recognition lattice is one of a grammar model lattice and a language model lattice.
  - 18. The multimodal recognition system of claim 12, wherein said gesture recognition subsystem comprisesa gesture feature recognition subsystem adapted to generate a gesture feature lattice as a function of a gesture mode;
    - anda gesture recognition subsystem adapted to generate said gesture recognition lattice as a function of said gesture feature lattice.
  - 19. The multimodal recognition system of claim 7, further comprising a plurality of mode input devices, at least two of said plurality of mode input devices adapted to receive different modes.
  - 20. The multimodal recognition system of claim 19, wherein said plurality of mode input devices comprise at least two of a gesture input device, a speech input device, a pen input device, a computer vision device, a haptic input device, a gaze input device, and a body motion input device.
  - 21. The multimodal recognition system of claim 19, wherein at least two of said plurality of input devices are combined into a single multimodal input device.
  - 22. The multimodal recognition system of claim 7, wherein said first mode subsystem comprises at least one of a gesture recognition subsystem, a speech recognition subsystem, a pen input recognition subsystem, a computer vision recognition system, a haptic recognition subsystem, a gaze recognition subsystem, and a body motion recognition system.
  - 23. The multimodal recognition system of claim 7, wherein said second mode subsystem comprises at least one of a gesture recognition subsystem, a speech recognition subsystem, a pen input recognition subsystem, a computer vision recognition system, a haptic recognition subsystem, a gaze recognition subsystem, and a body motion recognition system.

Specification

Resources

Litigation Campaign Assessment

Current Assignee
Interactions, LLC
Original Assignee
AT&T Corporation (AT&T, Inc.)
Inventors
Bangalore, Srinivas, Johnston, Michael J.
Primary Examiner(s)
{hacek over (S)}mits; Talivaldis Ivars

Application Number

US10/970,215
Time in Patent Office

1,118 Days
Field of Search

704/1, 704/9, 704/231, 704/251, 382/187, 382/228
US Class Current

704/231
CPC Class Codes

G06F 3/167   Audio in a user interface, ...

G06V 40/28   Recognition of hand or arm ...

G10L 15/00   Speech recognition G10L17/0...

G10L 15/24   Speech recognition using no...

Systems and methods for extracting meaning from multimodal inputs using finite-state devices

First Claim

17 Assignments

0 Petitions

Accused Products

Abstract

Citations

23 Claims

Specification

Solutions

Use Cases

Quick Links

Systems and methods for extracting meaning from multimodal inputs using finite-state devices

First Claim

17 Assignments

Subscription Required

Subscription Required

0 Petitions

Subscription Required

Accused Products

Subscription Required

Abstract

Citations

23 Claims

Specification

Subscription Required

Solutions

Use Cases

Quick Links