出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置

【課題】入力音声信号を処理する方法および装置を提供すること。
入力音声信号の開始は、決定される（７０１）際の出力オーディオ信号に対する、出力オーディオ信号と入力開始時間との生成の間に検出される。入力開始時間は、次に、入力音声信号に応答するのに使用されるために提供される（７０４）。入力音声信号が、出力オーディオ信号が生ずる間に検出されるとき、出力オーディオ信号の識別は、入力音声信号に応答するのに使用されるために提供される。データおよび／または制御信号を備えている情報の信号（７０５）は、少なくとも提供されるコンテキスト上の情報、すなわち、入力開始時間および／または出力オーディオ信号の識別に応じて提供される。本発明は、基礎をなす通信システムの遅延特性にかかわらず、出力オーディオ信号に対する入力音声信号のコンテキストを精密に確立する。

【発明の詳細な説明】
【技術分野】
【０００１】
（発明の属する技術分野）
本発明は、一般に、音声認識を組み込んでいる通信システムに関し、特に、出力オーディオ信号が生ずる間の入力音声信号を“バージイン”（barge-in）処理する方法および装置に関する。
【背景技術】
【０００２】
（従来の技術）
音声認識システムは、特に電話システムに関して一般的に公知の技術である。米国特許４，９１４，６９２、５，４７５，７９１、５，７０８，７０４と、また５，７６５，１３０は、音声認識システムを組み込んだ電話網を例示している。各システムの共通する特徴は、音声認識エレメント（即ち、音声認識を実施するデバイス）は、加入者の通信デバイス（即ち、ユーザーの電話）とは逆に、一般的に、電話網の構成の中心に位置されている。典型的には、音声の合成と音声認識エレメントとの組み合せは、電話網あるいはインフラストラクチャ内で展開されている。呼者は、そのシステムにアクセスし、音声合成エレメントを介して、合成された音声の形での情報のプロンプトあるいはクエリーの提供を受けることができる。呼者は、一般的に、合成された音声に対して口頭による応答を行い、音声認識エレメントは、呼者にさらなるサービスを提供するために、呼者の口頭による応答を処理する。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
人間性およびいくつかの音声合成／認識システムの設計を所与のものとすれば、発呼者によって提供される口頭の応答は、出力オーディオ信号、たとえば、合成された音声プロンプトが生ずる間に生ずることが多い。このような発生セグメントの処理は、“バージイン”処理と呼ぶことが多い。米国特許第４，９１４，６９２号、第５，１５５，７６０号、第５，４７５，７９１号；第５，７０８，７０４号および第５，７６５，１３０号すべては、バージイン処理のための技術について記述している。一般に、これらの特許のそれぞれに記述されている技術は、バージイン処理の間のエコーキャンセルの必要性と取り組んでいる。すなわち、合成された音声プロンプト（すなわち、出力オーディオ信号）が生ずる間、音声認識システムは、音声認識分析を効果的に行うために、ユーザによって提供されるあらゆる口頭の応答（すなわち、入力音声信号）に存在するプロンプトからの未処理の作為を説明する必要がある。したがって、これらの従来技術技術は、一般に、バージイン処理の間の入力音声信号の質に関している。音声電話技術システムに見出される比較的小さな待ち時間、あるいは、遅延により、これらの従来技術の技術は、一般に、入力音声信号を特定の出力オーディオ信号や出力オーディオ信号内の特定のモーメントに関連づけるといったバージイン処理のコンテキスト決定について考慮されてない。
【０００４】
従来技術のこの欠点は、無線システムに関していっそう著しい。従来の技術の主要部が、前記で説明されたシステムに関連して存在してはいるが、無線通信システムへの音声認識システムの組み込みは、新しく開発されたばかりである。無線通信環境の中での音声認識の応用の標準化に努めるために、オーロラ・プロジェクトと呼ばれる欧州通信規格協会（ＥＴＳＩ）による取り組みが最近開始された。オーロラ・プロジェクトの目標は、音声認識システムの普及のためのグローバルな規格である。このプロジェクトは、クライアント／サーバ構成を確立することを提案している。この構成では、特徴抽出あるいはパラメータ化などのフロントエンドの音声認識処理が、加入者ユニット（例えば、セルラ電話のような携帯無線デバイス）で実施される。その後、フロントエンドにより提供されるデータは、サーバに転送され、バックエンドの音声認識処理が行われる。
【０００５】
オーロラ・プロジェクトによって提案されるクライアント−サーバ構成が、普及される音声認識システムのための必要性と適切に取り組んでいることは予測される。とはいえ、バージイン処理が、オーロラ・プロジェクトによって、なされたとしても、取り組まれる方法は、この時には不明確である。これは、無線システムにおいて一般に直面する欠点と、このような欠点が、バージイン処理に関してあるという効果とにおけるより広い変化を所与のものとすれば特に懸念される。たとえば、ユーザの音声に基づく応答の処理が、音声認識プロセッサによって受けられた特定の時点に一部基づいて行われることは、まれではない。すなわち、一連の複数の連続しないプロンプトが提供される場合に、ユーザの応答が、所定の合成プロンプトの特定の部分の間に受信されたのか、あるいは、どのプロンプトの間に応答が受信されたかどうかによって、相違を生じうる。要するに、ユーザの応答のコンテキストは、ユーザの応答の情報の内容の認識と同じほど重要である。とはいえ、いくつかの無線システムの不特定の遅延特性は、このようなコンテキストを適切に決定するのに障害となる。したがって、特に、パケットデータ通信を利用するなどの不確実な、および／または広範に変化する遅延特性を有するシステムにおいて、出力オーディオ信号が生ずる間に入力音声信号のコンテキストを決定するための技術を提供することは有利なことである。
【課題を解決するための手段】
【０００６】
本発明は、出力オーディオ信号が生ずる間に入力音声信号を処理するための技術を提供する。主として、無線通信システムに適用可能であるが、本発明の技術は、有益なことには、不確実な、および／または広範囲に変化する遅延特性を有するあらゆる通信システム、たとえば、Ｉｎｔｅｒｎｅｔ（インターネット）などのパケットデータシステムに適用されることができる。本発明の１つの実施の形態によれば、入力音声信号の開始は、出力オーディオ信号が生ずる間に検出され、そして、出力オーディオ信号に対して入力開始時間が、決定される。入力開始時間は、次に、入力音声信号に応答するのに使用されるために提供される。別の実施の形態において、出力オーディオ信号は、対応する識別を有している。入力音声信号が、出力オーディオ信号が生ずる間に検出されるとき、出力オーディオ信号の識別は、入力音声信号に応答するのに使用されるために提供される。データおよび／または制御信号を備えている情報の信号は、少なくとも提供されるコンテキスト情報、すなわち、入力開始時間および／または出力オーディオ信号の識別に応じて提供される。このように、本発明は、基礎をなす通信システムの遅延特性にかかわらず、出力オーディオ信号に対して入力音声信号のコンテキストを精密に確立するための技術を提供する。
本発明は、例えば、以下を提供する。
（項目１）入力音声信号の開始を検出するステップと、
出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定するステップと、
入力音声信号に応答するのに使用される入力開始時間を提供するステップとを備える、出力オーディオ信号が生ずる間に入力音声信号を処理する方法。
（項目２）入力開始時間が、出力オーディオ信号の一時的なコンテキストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対するサンプルインデックス、および出力オーディオ信号のフレームコンテキストに対するフレームインデックスのいずれか１つを備える、項目１に記載の方法。
（項目３）項目１に記載のステップを行うコンピュータ実行可能命令を有するコンピュータ読出し可能媒体。
（項目４）入力音声信号を検出するステップと、
出力オーディオ信号に対応する識別を決定するステップと、
入力音声信号に応答するのに使用される識別を提供するステップとを備える、
出力オーディオ信号が生ずる間に入力音声信号を処理する方法。
（項目５）項目４に記載のステップを行うコンピュータ実行可能命令を有するコンピュータ読出し可能媒体。
（項目６）音声認識サーバを備えるインフラストラクチャとの無線通信における加入者ユニットにおいて、加入者ユニットがスピーカおよびマイクロフォンを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音声信号を提供し、入力音声信号を処理する方法であって、
出力音声信号が生ずる間に入力音声信号の開始を検出するステップと、
出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定するステップと、
制御パラメータとして音声認識サーバに上記入力開始時間を提供するステップとを備える、入力音声信号を処理する方法。
（項目７）少なくとも一部の入力開始時間に基づき、音声認識サーバから少なくとも１つの情報信号を受信するステップをさらに備える、項目６に記載の方法。
（項目８）オンセットマーカを決定するステップが、
出力オーディオ信号の開始より遅く、かつその後の出力オーディオ信号の開始よりも早い入力開始時間を決定するステップをさらに備える、項目６に記載の方法。
（項目９）入力開始時間が、出力オーディオ信号の一時的なコンテキストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対するサンプルインデックス、および出力オーディオ信号のフレームコンテキストに対するフレームインデックスのいずれか１つである、項目６に記載の方法。
（項目１０）出力オーディオ信号が、インフラストラクチャにより提供された音声信号を備える、項目６に記載の方法。
（項目１１）出力オーディオ信号が、インフラストラクチャにより提供された制御シグナリングに応答して加入者ユニットにより合成された音声信号を備える、項目６に記載の方法。
（項目１２）パラメータで表示された音声信号を提供するために入力音声信号を分析するステップと、
パラメータで表示された音声信号を音声認識サーバに提供するステップと、
少なくとも一部の入力開始時間およびパラメータで表示された音声信号に基づき音声認識サーバから少なくとも１つの情報信号を受信するステップとをさらに備える、項目６に記載の方法。
（項目１３）音声認識サーバを備えるインフラストラクチャとの無線通信における加入者ユニットにおいて、加入者ユニットがスピーカおよびマイクロフォンを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音声信号を提供し、入力音声信号を処理する方法であって、
出力オーディオ信号が生ずる間に入力音声信号を検出するステップと、
出力オーディオ信号に対応する識別を決定するステップと、
制御パラメータとして音声認識サーバに識別を提供するステップとを備える、
入力音声信号を処理する方法。
（項目１４）少なくとも一部の識別に基づき、音声認識サーバから少なくとも１つの情報信号を受信するステップをさらに備える、項目１３に記載の方法。
（項目１５）出力オーディオ信号が、インフラストラクチャにより提供された音声信号を備える、項目１３に記載の方法。
（項目１６）出力オーディオ信号が、インフラストラクチャにより提供された制御シグナリングに応答して加入者ユニットにより合成された音声信号を備える、項目１３に記載の方法。
（項目１７）パラメータで表示された音声信号を提供するために入力音声信号を分析するステップと、
パラメータで表示された音声信号を音声認識サーバに提供するステップと、
少なくとも一部の識別およびパラメータで表示された音声信号に基づき、音声認識サーバから少なくとも１つの情報信号を受信するステップとをさらに備える、項目１３に記載の方法。
（項目１８）１つ以上の加入者ユニットと無線通信するインフラストラクチャの一部を形成する音声認識サーバにおいて、１つ以上の加入者ユニットの加入者ユニットに情報信号を提供する方法であって、
加入者ユニットで出力オーディオ信号を生じさせるステップと、
加入者ユニットにおける出力オーディオ信号に対する入力音声信号の開始に対応する少なくとも入力開始時間を加入者ユニットから受信するステップと、
少なくとも一部の開始時間に応答して、加入者ユニットに情報信号を提供するステップとを備える、１つ以上の加入者ユニットの加入者ユニットに情報信号を提供する方法。
（項目１９）入力開始時間が、出力オーディオ信号の一時的なコンテキストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対するサンプルインデックス、および出力オーディオ信号のフレームコンテキストに対するフレームインデックスのいずれか１つである、項目１８に記載の方法。
（項目２０）出力オーディオ信号を生じさせるステップが、
加入者ユニットに音声信号を提供するステップをさらに備える、項目１８に記載の方法。
（項目２１）情報信号を提供するステップが、
加入者ユニットに情報信号を向けるステップをさらに備え、情報信号が、上記加入者ユニットの動作を制御する、項目１８に記載の方法。
（項目２２）上記加入者ユニットが、少なくとも１つの装置に結合され、情報信号を提供するステップが、
少なくとも１つの装置に情報を向けるステップをさらに備え、情報信号が、少なくとも１つの装置の動作を制御する、項目１８に記載の方法。
（項目２３）出力オーディオ信号を生じさせるステップが、
加入者ユニットに制御シグナリングを提供するステップをさらに備え、制御シグナリングが、加入者ユニットに出力オーディオ信号として音声信号を合成させる、項目１８に記載の方法。
（項目２４）入力音声信号に対応するパラメータで表示された音声信号を受信するステップと、
少なくとも一部の開始時間およびパラメータで表示された音声信号に応答して、加入者ユニットに情報信号を提供するステップとをさらに備える、項目１８に記載の方法。
（項目２５）１つ以上の加入者ユニットと無線通信するインフラストラクチャの一部を形成する音声認識サーバにおいて、１つ以上の加入者ユニットの加入者ユニットに情報信号を提供する方法であって、
加入者ユニットで出力オーディオ信号を生じさせるステップであって、出力オーディオ信号が対応する識別を有する、加入者ユニットで出力オーディオ信号を生じさせるステップと、
出力オーディオ信号が生ずる間に入力音声信号が加入者ユニットで検出されると、加入者ユニットから少なくとも識別を受信するステップと、
少なくとも一部の識別に応答して、加入者ユニットに情報信号を提供するステップとを備える、１つ以上の加入者ユニットの加入者ユニットに情報信号を提供する方法。
（項目２６）出力オーディオ信号を生じさせるステップが、
加入者ユニットに音声信号を提供するステップを備える、項目２５に記載の方法。
（項目２７）情報信号を提供するステップが、
加入者ユニットに情報信号を向けるステップをさらに備え、情報信号が、加入者ユニットの動作を制御する、項目２５に記載の方法。
（項目２８）加入者ユニットが、少なくとも１つの装置に結合され、情報信号を提供するステップが、
少なくとも１つの装置に情報を向けるステップをさらに備え、情報信号が、少なくとも１つの装置の動作を制御する、項目２５に記載の方法。
（項目２９）出力オーディオ信号を生じさせるステップが、
加入者ユニットに制御シグナリングを提供するステップをさらに備え、制御シグナリングが、加入者ユニットに出力オーディオ信号として音声信号を合成させる、項目２５に記載の方法。
（項目３０）入力音声信号に対応するパラメータで表示された音声信号を受信するステップと、
少なくとも一部の識別およびパラメータで表示された音声信号に応答して、加入者ユニットに情報信号を提供するステップとをさらに備える、項目２５に記載の方法。
（項目３１）音声認識サーバを備えるインフラストラクチャと無線通信する加入者ユニットであって、加入者ユニットがスピーカおよびマイクロフォンを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音声信号を提供し、加入者ユニットが、
入力音声信号の開始を検出する手段と、
出力オーディオ信号に対して、入力音声信号の開始の入力開始時間を決定する手段と、
制御パラメータとして音声認識サーバに入力開始時間を提供する手段とを備える、加入者ユニット。
（項目３２）少なくとも一部の入力開始時間に基づき、音声認識サーバから少なくとも１つの情報信号を受信する手段をさらに備える、項目３１に記載の加入者ユニット。
（項目３３）パラメータで表示された音声信号を提供するために入力音声信号を分析する手段をさらに備え、
提供する手段が、さらに、パラメータで表示された音声信号を音声認識サーバに提供するよう機能し、受信する手段が、さらに、少なくとも一部の入力開始時間およびパラメータで表示された音声信号に基づき音声認識サーバから少なくとも１つの制御信号を受信するよう機能する、項目３２に記載の加入者ユニット。
（項目３４）入力開始時間を決定する手段が、出力オーディオ信号の開始より遅く、かつその後の出力オーディオ信号の開始よりも早い入力開始時間を決定するよう機能する、項目３１に記載の加入者ユニット。
（項目３５）入力開始時間が、出力オーディオ信号の一時的なコンテキストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対するサンプルインデックス、および出力オーディオ信号のフレームコンテキストに対するフレームインデックスのいずれか１つである、項目３１に記載の加入者ユニット。
（項目３６）インフラストラクチャから出力オーディオ信号として提供される音声信号を受信する手段をさらに備える、項目３１に記載の加入者ユニット。
（項目３７）インフラストラクチャから出力オーディオ信号に関する制御シグナリングを受信する手段と、
制御シグナリングに応答して出力オーディオ信号として音声信号を合成する手段とをさらに備える、項目３１に記載の加入者ユニット。
（項目３８）音声認識サーバを備えるインフラストラクチャと無線通信する加入者ユニットであって、加入者ユニットがスピーカおよびマイクロフォンとを備え、スピーカが出力オーディオ信号を提供し、マイクロフォンが入力音声信号を提供し、
出力オーディオ信号が生ずる間に入力音声信号を検出する手段と、
出力オーディオ信号に対応する識別を決定するする手段と、
制御パラメータとして音声認識サーバに識別を提供する手段とをさらに備える、加入者ユニット。
（項目３９）少なくとも一部の識別に基づき、音声認識サーバから少なくとも１つの制御信号を受信する手段をさらに備える、項目３８に記載の加入者ユニット。
（項目４０）パラメータで表示された音声信号を提供するために入力音声信号を分析する手段をさらに備え、
提供する手段が、さらに、パラメータで表示された音声信号を音声認識サーバに提供するよう機能し、受信する手段が、さらに、少なくとも一部の識別およびパラメータで表示された音声信号とに基づき音声認識サーバから少なくとも１つの制御信号を受信するよう機能する、項目３９に記載の加入者ユニット。
（項目４１）インフラストラクチャから出力オーディオ信号として提供される音声信号を受信する手段をさらに備える、項目３８に記載の加入者ユニット。
（項目４２）インフラストラクチャから出力オーディオ信号に関する制御シグナリングを受信する手段と、
制御シグナリングに応答して出力オーディオ信号として音声信号を合成する手段とをさらに備える、項目３８に記載の加入者ユニット。
（項目４３）１つ以上の加入者ユニットと無線通信するインフラストラクチャの一部を形成する音声認識サーバであって、
１つ以上の加入者ユニットの加入者ユニットで出力オーディオ信号を生じさせる手段と、
加入者ユニットにおける出力オーディオ信号に対する入力音声信号の開始に対応する少なくとも入力開始時間を加入者ユニットから受信する手段と、
少なくとも一部の入力開始時間に応答して加入者ユニットに情報信号を提供する手段とを備える、音声認識サーバ。
（項目４４）入力開始時間が、出力オーディオ信号の一時的なコンテキストに対するタイムスタンプ、出力オーディオ信号のサンプルコンテキストに対するサンプルインデックス、および出力オーディオ信号のフレームコンテキストに対するフレームインデックスのいずれか１つである、項目４３に記載の音声認識サーバ。
（項目４５）情報信号を提供する手段が、
加入者ユニットに情報信号を向けるよう機能し、情報信号が、加入者ユニットの動作を制御する、項目４３に記載の音声認識サーバ。
（項目４６）加入者ユニットが、少なくとも１つの装置に結合され、情報信号を提供する手段が、さらに、少なくとも１つの装置に情報を向けるよう機能し、情報信号が、少なくとも１つの装置の動作を制御する、項目４３に記載の方法。
（項目４７）出力オーディオ信号を生じさせる手段が、さらに、出力オーディオ信号として提供される音声信号を提供するよう機能する、項目４３に記載の音声認識サーバ。
（項目４８）出力オーディオ信号を生じさせる手段が、さらに、加入者ユニットに制御シグナリングを提供するよう機能し、制御シグナリングが、加入者ユニットに出力オーディオ信号として音声信号を合成させる、項目４３に記載の音声認識サーバ。
（項目４９）受信する手段が、さらに、入力音声信号に対応するパラメータで表示された音声信号を受信するよう機能し、提供する手段が、さらに、少なくとも一部の入力開始時間およびパラメータで表示された音声信号に応答して加入者ユニットに情報信号を提供するよう機能する、項目４３に記載の音声認識サーバ。
（項目５０）１つ以上の加入者ユニットと無線通信するインフラストラクチャの一部を形成する音声認識サーバであって、
１つ以上の加入者ユニットの加入者ユニットで出力オーディオ信号を生じさせる手段であって、出力オーディオ信号が対応する識別を有する、１つ以上の加入者ユニットの加入者ユニットで出力オーディオ信号を生じさせる手段と、
入力音声信号が、出力オーディオ信号が生ずる間に加入者ユニットにおいて検出されると、加入者ユニットから少なくとも識別を受信する手段と、
少なくとも一部の識別に応答して、加入者ユニットに情報信号を提供する手段とをさらに備える、音声認識サーバ。
（項目５１）出力オーディオ信号を生じさせる手段が、さらに、出力オーディオ信号として提供される音声信号を提供するよう機能する、項目５０に記載の音声認識サーバ。
（項目５２）出力オーディオ信号を生じさせる手段が、さらに、加入者ユニットに制御シグナリングを提供するよう機能し、制御シグナリングが、加入者ユニットに出力オーディオ信号として音声信号を合成させる、項目５０に記載の音声認識サーバ。
（項目５３）受信する手段が、さらに、入力音声信号に対応するパラメータで表示された音声信号を受信するよう機能し、提供する手段が、さらに、少なくとも一部の入力開始時間およびパラメータで表示された音声信号に応答して加入者ユニットに情報信号を提供するよう機能する、項目５０に記載の音声認識サーバ。
（項目５４）情報信号を提供する手段が、さらに、加入者ユニットに情報信号を向けるよう機能し、情報信号が、加入者ユニットの動作を制御する、項目５０に記載の音声認識サーバ。
（項目５５）加入者ユニットが、少なくとも１つの装置に結合され、情報信号を提供する手段が、さらに、少なくとも１つの装置に情報を向けるよう機能し、情報信号が、少なくとも１つの装置の動作を制御する、項目５０に記載の方法。
【図面の簡単な説明】
【０００７】
【図１】本発明による無線通信システムのブロック図である。
【図２】本発明による加入者ユニットのブロック図である。
【図３】本発明による加入者ユニット内の音声およびデータ処理機能の概略図である。
【図４】本発明による音声認識サーバのブロック図である。
【図５】本発明による音声認識サーバ内の音声およびデータ処理機能の概略図である。
【図６】本発明によるコンテキスト決定を図示している。
【図７】本発明による出力オーディオ信号が生ずる間に入力音声信号を処理する方法を図示しているフローチャートである。
【図８】本発明による出力オーディオ信号が生ずる間に入力音声信号を処理する別の方法を図示しているフローチャートである。
【図９】本発明による音声認識サーバ内で実施されることができる方法を図示しているフローチャートである。
【発明を実施するための形態】
【０００８】
（発明の実施の形態）
本発明は、図１乃至図９を参照すると、いっそう完全に記述されることができる。図１は、加入者ユニット１０２−１０３を備える無線通信システム１００の全体のシステムアーキテクチャを示している。その加入者ユニット１０２−１０３は、無線システム１１０によってサポートされる無線チャンネルを媒介としてインフラストラクチャと通信する。本発明のインフラストラクチャは、無線システム１１０に加えて、小さなエンティティシステム１２０、コンテンツプロバイダシステム１３０およびデータ網１５０いずれかを媒介として互いに結合される企業システム１４０を備えている。
【０００９】
加入者ユニットは、通信インフラストラクチャと通信することが可能な、ハンドヘルドセル電話１０３、自動車１０２内にある無線通信装置などのあらゆる無線通信装置を備えることができる。図１に示されるもの以外の様々な加入者ユニットが使用されることが可能でることは分かる；本発明は、この点については限定されるものではない。加入者ユニット１０２−１０３は、ハンドフリー音声通信と、ローカル音声認識および合成システムと、クライアント−サーバ音声認識および合成システムのクライアント部分とのためのハンドフリーセルラー電話のコンポーネントとを含むことが好ましい。これらのコンポーネントは、図２および図３を参照として以下にいっそう詳細に記述されている。
【００１０】
加入者ユニット１０２−１０３は、無線チャンネル１０５を媒介として無線システム１１０と無線で通信する。本発明が音声通信をサポートする無線システムの他のタイプに有益に適応されることを通常の技量の者が認めているが、無線システム１１０は、セルラーシステムを備えることが好ましい。無線チャンネル１０５は、一般に、デジタル送信技術を実施し、かつ、加入者ユニット１０２−１０３への、また、加入者ユニット１０２−１０３からの音声および／またはデータを伝達することが可能な無線周波数（ＲＦ）キャリアである。アナログ技術などの別の送信技術も使用されることができることが分かる。好ましい実施の形態において、無線チャンネル１０５は、ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（欧州電気通信標準化協会）（ＰＴＳＩ）によって定義されるＧｅｎｅｒａｌＰａｃｋｅｔＤａｔａＲａｄｉｏＳｅｒｖｉｃｅ（ジェネラルパケットデータ無線サービス）（ＧＰＲＳ）などの無線パケットデータチャネルである。無線チャンネル１０５は、クライアント−サーバ音声認識および合成システムのクライアント部分と、クライアント−サーバ音声認識および合成システムのサーバ部分との間の通信を促進するために、データを搬送する。ディスプレイ、制御、ロケーション、ステータス情報などの他の情報は、さらに、無線チャンネル１０５全域で搬送されることが可能である。
【００１１】
無線システム１１０は、加入者ユニット１０２−１０３から無線チャンネル１０５によって伝達される送信を受信するアンテナ１１２を備えている。アンテナ１１２は、さらに、無線チャンネル１０５を媒介として加入者ユニット１０２−１０３に伝送する。アンテナ１１２を媒介として受信されるデータは、データ信号に変換され、そして、無線網１１３に搬送される。逆に、無線網１１３からのデータは、送信用のアンテナ１１２に送信される。本発明のコンテキストにおいて、無線網１１３は、一般に技術上周知のように、ベースステーション、コントローラ、リソース割当装置、インターフェイス、データベースなどの無線システムを実施するのに必要なこれらの装置を備えている。通常の当業者に理解できるように、無線網１１３に組み込まれる特定の要素は、使用される無線システム１１０の特定のタイプ、たとえば、セルラーシステム、中継陸上移動システムなどによって決まる。
【００１２】
クライアント−サーバ音声認識および合成システムのサーバ部分を提供する音声認識サーバ１１５は、無線網１１３に結合されることができ、それによって、無線システム１１０のオペレータが加入者ユニット１０２−１０３のユーザに音声利用サービスを提供することを可能とする。制御エンティティ１１６は、さらに、無線網１１３に結合されることができる。制御エンティティ１１６は、加入者ユニット、あるいは、加入者ユニットに相互に接続される装置を制御するために、音声認識サーバ１１５によって提供される入力に応答して、制御信号を加入者ユニット１０２−１０３に送信するのに使用されることが可能である。示されるように、あらゆる適切にプログラムされた汎用コンピュータを備えることができる制御エンティティ１１６は、無線網１１３を介してか、あるいは、ダッシュ記号の相互接続によって示されるように、直接的にかのいずれかで、音声認識サーバ１１５に結合されることができる。
【００１３】
上記に述べられるように、本発明のインフラストラクチャは、データ網１５０を媒介として互いに結合される様々なシステム１１０，１２０，１３０，１４０を備えることが可能である。適切なデータ網１５０は、周知の網テクノロジーを使用するプライベートデータ網、Ｉｎｔｅｒｎｅｔ（インターネット）などの公衆網、あるいは、それらの組み合わせを備えることができる。別の方法として、あるいは、追加として、無線システム１１０内の音声認識サーバ１１５、リモート音声認識サーバ１２３，１３２，１４３，１４５は、音声利用サービスを加入者ユニット１０２−１０３に提供するために、様々な方法で、データ網１５０に接続されることができる。リモート音声認識サーバは、提供されるとき、同様に、データ網１５０およびあらゆる介在通信パスを介して制御エンティティ１１６と通信することが可能である。
【００１４】
デスクトップパーソナルコンピュータ、小さなエンティティシステム１２０（小規模ビジネス、あるいは、ホームなどの）内の他の汎用処理装置などのコンピュータ１２２は、音声認識サーバ１２３を実施するのに使用されることが可能である。加入者ユニット１０２−１０３へのデータおよび加入者ユニット１０２−１０３からのデータは、無線システム１１０とデータ網１５０とを介してコンピュータ１２２にルートされる。保存されたソフトウェアアルゴリズムおよびプロセスを実行して、コンピュータ１２２は、好ましい実施の形態において、音声認識システムと音声合成システムとの両方のサーバ部分を含む音声認識サーバ１２３の機能を提供する。たとえば、コンピュータ１２２が、ユーザのパーソナルコンピュータである所では、そのコンピュータの音声認識サーバソフトウェアは、ユーザの電子メール、電話帳、カレンダー、他の情報などのコンピュータにあるユーザの個人情報に結合されることが可能である。この構成により、加入者ユニットのユーザが、音声利用インターフェイスを利用する加入者のパーソナルコンピュータの個人情報にアクセスすることを可能とする。本発明によるクライアント−サーバ音声認識および音声合成システムのクライアント部分は、図２および図３を参照として以下に記述される。本発明によるクライアント−サーバ音声認識および音声合成システムのサーバ部分は、図４および図５を参照として以下に記述される。
【００１５】
別の方法として、加入者ユニットのユーザに使用可能とさせる情報を有するコンテンツプロバイダ１３０は、音声認識サーバ１３２をデータ網に接続することが可能である。特徴、あるいは、特別のサービスとして提案されると、音声認識サーバ１３２は、コンテンツプロバイダの情報（図示せず）へのアクセスを望む加入者ユニットのユーザに音声利用インターフェイスを提供する。
【００１６】
音声認識サーバのための別の可能なロケーションは、大企業、あるいは、同様のエンティティなどの企業１４０内にある。Ｉｎｔｒａｎｅｔ（イントラネット）などの企業の内部網１４６は、セキュリティゲートウェイ１４２を媒介としてデータ網１５０に接続される。セキュリティゲートウェイ１４２は、加入者ユニットと関連して、企業の内部網１４６への安全なアクセスを提供する。技術上周知のように、このように提供される安全なアクセスは、一般に、一部分、認証および暗号化テクノロジに依存にしている。このように、安全にされていないデータ網１５０を媒介とする加入者ユニットと内部網１４６との間の安全な通信が行われる。企業１４０内で、音声認識サーバ１４５を実施するサーバソフトウェアは、所定の従業員のワークステーションなどのパーソナルコンピュータに提供されることが可能である。小さなエンティティシステムにおける使用について上記に記述される構成と同様に、ワークステーションアプローチにより、従業員が、音声利用インターフェイスを介して作業関連情報、あるいは、他の情報にアクセスすることを可能とする。さらに、コンテンツプロバイダ１３０モデルと同様に、企業１４０は、企業データベースへのアクセスを行うために、内部で使用可能な音声認識サーバ１４３を提供することが可能である。
【００１７】
本発明の音声認識サーバが設置される所にかかわらず、それらは、様々な音声利用サービスを実施するのに使用されることが可能である。たとえば、制御エンティティ１１６と関連して操作すると、提供されるとき、音声認識サーバは、加入者ユニットに結合される加入者ユニット、あるいは、装置の動作制御を可能とする。本明細書を通じて使用されるように、音声認識サーバという用語は、音声合成機能をも含むことを意図されるということは留意されるべきである。
【００１８】
本発明のインフラストラクチャは、さらに、加入者ユニット１０２−１０３と通常の電話技術システムとの間の相互接続を提供する。これは、ＰＯＴＳ（プレーンな旧来の電話システム）への無線網１１３の結合により、図１において示されている。技術上周知のように、ＰＯＴＳ網１１８、あるいは、同様な電話網は、陸上通信線電話受話器、あるいは、他の無線装置などの複数の呼び局１１９への通信アクセスを提供する。このように、加入者ユニット１０２−１０３のユーザは、呼び局１１９の別のユーザと音声通信を行うことが可能である。
【００１９】
図２は、本発明による加入者ユニットを実施するのに使用されることができるハードウェアアーキテクチャを示している。示されるように、２つの無線トランシーバ、無線データトランシーバ２０３と無線音声トランシーバ２０４とが、使用されることができる。技術上周知のように、これらのトランシーバは、データおよび音声の機能の両方を行うことが可能である単一のトランシーバに組み合わされることができる。無線データトランシーバ２０３および無線音声トランシーバ２０４は、両方ともアンテナ２０５に接続される。別の方法として、各トランシーバのための独立したアンテナが、さらに、使用されることができる。無線音声トランシーバ２０４は、無線音声通信を行うために、すべての必要な信号処理、プロトコル終了、変復調などを行い、そして、好ましい実施の形態において、セルラートランシーバを備えている。同様な方法で、無線データトランシーバ２０３は、インフラストラクチャとのデータ連結性を提供する。好ましい実施の形態において、無線データトランシーバ２０３は、ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄａＩｎｓｔｉｔｕｔｅ（欧州電気通信標準化協会）（ＥＴＳＩ）によって定義されるＧｅｎｅｒａｌＰａｃｋｅｔＤａｔａＲａｄｉｏＳｅｒｖｉｃｅ（ジェネラルパケットデータ無線サービス）（ＧＰＲＳ）などの無線パケットデータをサポートする。
【００２０】
本発明が、以下に論じられるように、自動車システム内に特定の利点を有して適用されることが可能であることは予測される。自動車内で使用されるとき、本発明による加入者ユニットは、さらに、一般に、自動車の一部であるか、加入者ユニットの一部でないと理解される処理コンポーネントを含む。本発明を説明するために、このような処理コンポーネントは、加入者ユニットの一部であると想定する。加入者ユニットの実際の実施は、設計の考慮すべき問題によって指図されるように、このような処理コンポーネントを含んでも、あるいは、含まなくてもよい。好ましい実施の形態において、処理コンポーネントは、ＩＢＭＣｏｒｐ．，による“ＰＯＷＥＲＰＣなどの”汎用プロセッサ（ＣＰＵ）２０１と、ＭｏｔｏｒｏｌａＩｎｃ．によるＤＳＰ５６３００シリーズプロセッサなどのデジタル信号プロセッサ（ＤＳＰ）２０２とを備えている。ＣＰＵ２０１およびＤＳＰ２０２は、それらが技術上周知のように、データおよびアドレスバスと、他の制御接続とを媒介として互いに結合されることを示すために、図２に隣接して示されている。別の実施の形態は、ＣＰＵ２０１とＤＳＰ２０２との両方の機能を単一のプロセッサに組み合わすか、あるいは、それらをいくつかのプロセッサに分割することが可能である。ＣＰＵ２０１およびＤＳＰ２０２は、その関連したプロセッサにプログラムおよびデータストレージを提供するそれぞれのメモリー２４０，２４１に結合される。格納されたソフトウェアルーチンを使用して、ＣＰＵ２０１および／またはＤＳＰ２０２は、本発明の機能の少なくとも一部を実施するためにプログラムされることが可能である。ＣＰＵ２０１およびＤＳＰ２０２のソフトウェア機能は、以下に図３および図７を参照として少なくとも一部記述されている。
【００２１】
好ましい実施の形態において、加入者ユニットは、さらに、アンテナ２０７に結合される全地球測位システム（ＧＰＳ）受信機２０６を含む。ＧＰＳ受信機２０６は、受信したＧＰＳ情報を提供するためにＤＳＰ２０２に結合される。ＤＳＰ２０２は、ＧＰＳ受信機２０６から情報を受け、そして、無線通信装置のロケーション座標を計算する。別の方法として、ＧＰＳ受信機２０６は、直接ＣＰＵ２０１にロケーション情報を提供することができる。
【００２２】
ＣＰＵ２０１およびＤＳＰ２０２の様々な入力および出力は、図２に示されている。図２に示されるように、太い実線は、音声関連情報に相当し、そして、太い鎖線は、制御／データ関連情報に相当する。オプショナル要素および信号パスは、点線を使用して図示されている。ＤＳＰ２０２は、以下にさらに詳細に記述されるように、電話（セル電話）会話および音声入力の両方のための音声入力を、ローカル音声認識装置およびクライアント−サーバ音声認識装置のクライアントサイド部分との両方に提供するマイクロフォン２７０からマイクロフォンオーディオ２２０を受信する。ＤＳＰ２０２は、さらに、電話（セル電話）会話および音声入力の音声入力を、ローカル音声シンセサイザおよびクライアント−サーバ音声シンセサイザのクライアントサイド部分との両方から提供する少なくとも１つのスピーカ２７１に向けられる出力オーディオ２１１に結合される。マイクロフォン２７０およびスピーカ２７１は、ハンドヘルド装置におけるように、隣接して互いに位置されることができること、あるいは、遮光板取り付けマイクロフォンおよびダッシュ、または、ドア取り付けスピーカを有する自動車の適用におけるように、互いに最も近くに位置されることができることに留意してください。
【００２３】
本発明の１つの実施の形態において、ＣＰＵ２０１は、双方向性インターフェイス２３０を介して自動車内のデータバス２０８に結合されている。このデータバス２０８により、制御およびステータス情報が、セル電話、エンターテイメントシステム、環境制御システムなどの自動車内の様々な装置２０９ａ−ｎとＣＰＵ２０１との間に通信されることを可能とする。適切なデータバス２０８は、一般に、ＳｏｃｉｅｔｙｏｆＡｕｔｏｍｏｔｉｖｅＥｎｇｉｎｅｅｒｓ（自動車エンジニア協会）によって標準化されるプロセスにおけるＩＴＳＤａｔａＢｕｓ（ＩＴＳデータバス）であることが予期される。ＢｌｕｅｔｏｏｔｈＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ブルートゥース特別利害グループ）（ＳＩＧ）によって定義される短距離の無線データ通信システムなどの様々な装置間の制御およびステータス情報を伝える別の手段が使用されることができる。データバス２０８により、ＣＰＵ２０１が、ローカル音声認識装置によって、あるいは、クライアント−サーバ音声認識装置によってかのいずれかによって認識される音声コマンドに応答して自動車データバスの装置２０９を制御することを可能とする。
【００２４】
ＣＰＵ２０１は、受信データ接続２３１および送信データ接続２３２を媒介として無線データトランシーバ２０３に結合される。これらの接続２３１−２３２により、ＣＰＵ２０１が、無線システム１１０から送信される制御情報および音声合成情報を受信することを可能とする。音声合成情報は、無線データチャネル１０５を媒介としてクライアント−サーバ音声合成システムのサーバ部分から受信される。ＣＰＵ２１０は、次に、ＤＳＰ２０２に引き渡される音声合成情報を復号化する。ＤＳＰ２０２は、次に、出力音声を合成し、そして、それをオーディオ出力２１１に引き渡す。受信データ接続２３１を媒介として受信されるあらゆる制御情報は、加入者ユニット自体の動作を制御するのに使用されるか、あるいは、それらの動作を制御するために、１つ以上の装置に送信するのに使用されることができる。そのうえ、ＣＰＵ２１０は、ステータス情報と、クライアント−サーバ音声認識システムのクライアント部分からの出力データとを無線システム１１０に送信することが可能である。クライアント−サーバ音声認識システムのクライアント部分は、以下にいっそう詳細に記述されるように、ＤＳＰ２０２およびＣＰＵ２０１のソフトウェアにおいて実施されることが好ましい。音声認識をサポートするとき、ＤＳＰ２０２は、マイクロフォン入力２２０から音声を受信し、そして、パラメータで表示された音声信号をＣＰＵ２０１に提供するために、このオーディオを処理する。ＣＰＵ２０１は、パラメータで表示された音声信号を符号化し、そして、無線データチャネル１０５全体にインフラストラクチャの音声認識サーバに送信されるべく、送信データ接続２３２を媒介として、この情報を無線データトランシーバ２０３に送信する。
【００２５】
無線音声トランシーバ２０４は、双方向性データバス２３３を媒介としてＣＰＵ２０１に結合される。このデータバスにより、ＣＰＵ２０１が、無線音声トランシーバ２０４の動作を制御することを可能とし、そして、無線音声トランシーバ２０４からステータス情報を受信する。無線音声トランシーバ２０４は、さらに、送信オーディオ接続２２１と受信オーディオ接続２１０とを媒介としてＤＳＰ２０２に結合される。無線音声トランシーバ２０４が、電話（セルラー）コールを促進するのに使用されるとき、オーディオは、ＤＳＰ２０２によってマイクロフォン入力２２０から受信される。マイクロフォンオーディオは、処理され（たとえば、フィルター、圧縮されるなど）、そして、セルラーインフラストラクチャに伝送されるべく、無線音声トランシーバ２０４に提供される。逆に、無線音声トランシーバ２０４によって受信されるオーディオは、受信オーディオ接続２１０を媒介として、オーディオが処理され（たとえば、解凍、フィルターされるなど）、そして、スピーカ出力２１１に提供されるＤＳＰ２０２に送信される。ＤＳＰ２０２によって行われる処理は、図３を参照としていっそう詳細に記述される。
【００２６】
図２に示される加入者ユニットは、任意に、音声通信の間に割り込みインジケータ２５１を手動で提供するのに使用される入力装置２５０を備えることができる。すなわち、音声会話の間、加入者ユニットのユーザは、割り込みインジケータを提供するために、手動で入力装置を始動することが可能であり、それによって、音声認識機能を引き起こすためにユーザの所望を信号する。たとえば、音声通信の間、加入者ユニットのユーザは、音声利用コマンドを電子付随部に提供するために、たとえば、電話をかけて、そして、第三者をコールに加えるために、会話に割り込むことを希望することができる。入力装置２５０は、特に、たとえば、単一の、あるいは多目的ボタン、マルチ位置決めセレクタ、あるいは入力ケイパビリティを有するメニュー駆動ディスプレイなどを含む、あらゆるタイプのユーザ始動入力メカニズムを実質的に備えることができる。別の方法として、入力装置２５０は、双方向性インターフェイス２３０と自動車内データバス２０８とを媒介としてＣＰＵ２０１に接続されることができる。とにかく、このような入力装置２５０が提供されるとき、ＣＰＵ２０１は、割り込みインジケータの発生セグメントを識別するために、検出器として作動する。ＣＰＵ２０１が、入力装置２５０のための検出器として作動するとき、ＣＰＵ２０１は、参照符号２６０で識別される信号パスによって図示されるように、ＤＳＰ２０２への割り込みインジケータの存在を表示する。逆に、別の実施が、割り込みインジケータを提供するために、検出器アプリケーションに結合されるローカル音声認識装置（ＤＳＰ２０２および／またはＣＰＵ２０１内で実施されることが好ましい）を使用する。その場合、ＣＰＵ２０１か、あるいは、ＤＳＰ２０２かのいずれかが、参照符号２６０ａによって識別される信号パスによって表わされるように、割り込みインジケータの存在を信号で知らせる。とにかく、割り込みインジケータの存在が検出されると、音声認識要素の部分（このましくは、加入者ユニットと関連して、あるいは加入者ユニットの一部として実施されるクライアント部分）は、音声利用コマンドを処理し始めるために始動される。そのうえ、音声認識要素の部分が始動されたという表示は、さらに、ユーザと音声認識サーバとに提供されることができる。好ましい実施の形態において、このような表示は、音声認識要素を提供するために、送信データ接続２３２を媒介として、音声認識クライアントと協働する音声認識サーバへの送信のための無線データトランシーバ２０３に搬送される。
【００２７】
最後に、加入者ユニットは、音声認識機能が割り込みインジケータに応答して始動されたというアナンシエータ制御２５６に応答して加入者ユニットのユーザに表示を提供するアナンシエータ２５５を装備することが好ましい。アナンシエータ２５５は、割り込みインジケータの検出に応答して始動され、そして、制限した持続期間のトーン、あるいは、ビーッという音などの音響表示を提供するのに使用されるスピーカを備えることができる。（もう一度、割り込みインジケータの存在は、入力装置利用信号２６０か、あるいは、音声利用信号２６ａのいずれかを使用して、信号で知らされることが可能である。）別の実施において、アナンシエータの機能は、オーディオをスピーカ出力２１１に向けるＤＳＰ２０２によって実行されるソフトウェアプログラムを媒介として提供される。スピーカは、オーディオ出力２１１を可聴させるのに使用されるスピーカ２７１から独立しているか、あるいは、同一のものでよい。別の方法として、アナンシエータ２５５は、可視インジケータを提供する、ＬＥＤ、あるいは、ＬＣＤディスプレイなどのディスプレイ装置を備えることができる。アナンシエータ２５５の特定の形状は、設計選択の問題であり、そして、本発明は、この点では限定される必要はない。さらに、アナンシエータ２５５は、双方向性インターフェイス２３０と自動車内データバス２０８とを媒介として、ＣＰＵ２０１に接続されることができる。
【００２８】
ここでは図３を参照すると、加入者ユニット内で行われる処理の部分（本発明による動作）が、概略的に図示されている。図３に示される処理は、ＣＰＵ２０１および／またはＤＳＰ２０２によって実行される格納された機械可読インストラクションを使用して実施される。以下に呈される論議は、自動車の車両内に採用される加入者ユニットの動作について記述している。とはいえ、図３に全体として示され、そして、ここに記述される機能は、同様に、音声認識を使用する、あるいは、音声認識の使用で利益を得る非自動車利用アプリケーションに適用可能である。
【００２９】
マイクロフォンオーディオ２２０は、加入者ユニットに入力として提供される。自動車環境において、マイクロフォンは、自動車の遮光板、あるいは、ステアリングコラムに、または、近くに、一般に取り付けられるハンドフリーマイクロフォンである。マイクロフォンオーディオ２２０は、デジタル形状でエコーキャンセルおよび環境処理（ＥＣＥＰ）ブロック３０１に到達することが好ましい。スピーカオーディオ２１１は、あらゆる必要な処理を行った後、ＥＣＥＰブロック３０１によって、１つまたは複数のスピーカに引き渡される。自動車内において、このようなスピーカは、ダッシュボードの下に取り付けられることが可能である。別の方法として、スピーカオーディオ２１１は、エンターテインメントシステムのスピーカシステムを介してプレイされるべく、自動車内のエンターテインメントシステムを介してルートされることが可能である。スピーカオーディオ２１１は、デジタルフォーマットであることが好ましい。セルラー電話コールが、たとえば、処理中であるとき、セルラー電話からの受信オーディオは、受信オーディオ接続２１０を媒介としてＥＣＥＰブロック３０１に到達する。同様に、送信オーディオは、送信オーディオ接続２２１全体にわたりセル電話に引き渡される。
【００３０】
ＥＣＥＰブロック３０１は、送信オーディオ接続２２１を媒介として、無線音声トランシーバ２０４に引き渡す前に、マイクロフォンオーディオ２２０からスピーカオーディオ２１１のエコーキャンセルを行う。エコーキャンセルのこの形状は、音響エコーキャンセルとして周知であり、そして、技術上周知である。たとえば、Ａｍａｎｏらに発行され、そして、“Ｓｕｂ−ｂａｎｄＡｄｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌｅｒ（サブバンド音響エコーキャンセラー）”と題する米国特許第５，１３６，５９９号およびＧｅｎｔｅｒに発行され、そして、“ＥｃｈｏＣａｎｃｅｌｅｒｗｉｔｈＳｕｂｂａｎｄＡｔｔｅｎｕａｔｉｏｎａｎｄＮｏｉｓｅＩｎｊｅｃｔｉｏｎＣｏｎｔｒｏｌ（サブバンド減衰およびノイズインジェクション制御を有するエコーキャンセル）”と題する米国特許第５，５６１，６６８号は、音響エコーキャンセルを行うための適切な技術を教示し、その特許の教示は、この結果、ここに参照として含まれている。
【００３１】
ＥＣＥＰブロック３０１が、さらに、エコーキャンセルに加えて、いっそう快い音声信号を加入者ユニットによって伝送されるオーディオを受信する関係者に提供するために、環境処理をマイクロフォンオーディオ２２０に提供する。一般に使用されている１つの技術は、ノイズ抑制と呼ばれる。自動車内のハンドフリーマイクロフォンは、一般に、別の関係者によって聞かされる多くのタイプの音響ノイズをピックアップする。この技術は、別の関係者が聞く知覚バックグラウンドノイズを減少し、そして、たとえば、Ｖｉｌｍｕｒらに発行された米国特許第４，８１１，４０４号に記述されており、その特許の教示は、この結果、参照としてここに含まれている。
【００３２】
ＥＣＥＰブロック３０１は、さらに、第１のオーディオパス３１６を媒介として音声合成バックエンド３０４によって提供される合成された音声のエコーキャンセル処理を行い、その合成された音声は、オーディオ出力２１１を媒介として１つまたは複数のスピーカに引き渡される。１つまたは複数のスピーカにルートされる受信された音声を有するこの場合におけるように、マイクロフォンオーディオパス２２０に到達するスピーカオーディオ“エコー”は、キャンセルされる。これにより、アコースティックにマイクロフォンに結合されるスピーカオーディオが、音声認識フロントエンド３０２に引き渡される前に、マイクロフォンオーディオから削除されることを可能とする。このタイプの処理は、“バージイン”として技術上周知であることを可能にする。バージインにより、音声認識システムが、出力音声が同時にシステムによって生成される間に、入力音声に応答することを可能とする。“バージイン”実施の実施例は、たとえば、米国特許第４，９１４，６９２号、第５，４７５，７９１号、第５，７０８，７０４号および第５，７６５，１３０号に見られる。バージイン処理についての本発明の適用は、以下にいっそう詳細に記述されている。
【００３３】
エコーがキャンセルされたマイクロフォンオーディオは、音声認識処理が行われるたびに、第２のオーディオパス３２６を媒介として音声認識フロントエンド３０２に提供される。任意に、ＥＣＥＰブロック３０１は、第１のデータパス３２７を媒介として音声認識フロントエンド３０２にバックグラウンドノイズ情報を提供する。このバックグラウンドノイズ情報は、ノイズのある環境における音声認識システムオペレーティングのための認識性能を改善するのに使用されることが可能である。このような処理を行うための適切な技術は、Ｇｅｒｓｏｎらに発行された米国特許第４，９１８，７３２号に記述されており、その特許の教示は、この結果、参照としてここに含まれている。
【００３４】
エコーがキャンセルされたマイクロフォンオーディオと、任意に、ＥＣＥＰブロック３０１から受信されるバックグラウンドノイズ情報とに基づき、音声認識フロントエンド３０２は、パラメータで表示された音声情報を生成する。全体として、音声認識フロントエンド３０２および音声合成バックエンド３０４は、クライアント−サーバ利用音声認識および合成システムのクライアントサイド部分のコア機能を提供する。パラメータで表示された音声情報は、一般に、特徴ベクトルの形をとり、新しいベクトルは、１０ｍｓｅｃから２０ｍｓｅｃ毎に計算される。音声信号のパラメータ表示化のための１つの一般に使用される技術は、“ＣｏｍｐａｒｉｓｏｎＯｆＰａｒａｍｅｔｒｉｃＲｅｐｒｓｅｎｔａｔｉｏｎｓＦｏｒＭｏｎｏｓｙｌｌａｂｉｃＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎＩｎＣｏｎｔｉｎｕｏｕｓｌｙＳｐｏｋｅｎＳｅｎｎｔｅｎｓｅｓ，”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎａｃｏｕｓｔｉｃｓＳｐｅｅｃｈａｄｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＡＳＳＰ−２８（４），ｐｐ．３５７−３６６，１９８０年８月に、Ｄａｖｉｓらによって記述されるようにｍｅｌｃｅｐｓｔｒａであり、その公報の教示は、この結果、参照としてここに含まれている。
【００３５】
音声認識フロントエンド３０２によって計算されるパラメータベクトルは、ローカル音声認識処理のための第２のデータパス３２５を媒介としてローカル音声認識ブロック３０３に受け渡される。パラメータベクトルは、さらに、任意に、第３のデータパス３２３を媒介として、音声適用プロトコルインターフェイス（ＡＰＩ‘ｓ）およびデータプロトコルとを備えるプロトコル処理ブロック３０６に受け渡される。周知の技術によれば、処理ブロック３０６は、送信データ接続２３２を媒介として、パラメータベクトルを無線データトランシーバ２０３に送信する。順番に、無線データトランシーバ２０３は、クライアント−サーバ利用音声認識の一部として機能するサーバにパラメータベクトルを搬送する。（加入者ユニットは、パラメータベクトルを送信するのではなく、その代わりに、無線データトランシーバ２０３か、あるいは、無線音声トランシーバ２０４のいずれかを使用して、サーバーに音声情報を送信することは明らかである。これは、加入者ユニットから電話網への音声の伝送をサポートするのに使用されるのと類似の方法で、あるいは、音声信号の他の適切な表現を使用して、行われることができる。すなわち、音声情報は、様々なパラメータで表示されない表現：未使用のデジタイズされたオーディオ、セルラー音声コーダによって処理されたオーディオ、ＩＰ（インターネットプロトコル）などの特定のプロトコルによる伝送に適切なオーディオデータ等の様々なパラメータで表示されない表現のいずれかを備えることができる。順番に、サーバは、パラメータで表示されない音声情報を受信すると、必要なパラメータ表示化を行うことが可能である。）単一の音声認識フロントエンド３０２が示されるのに対して、ローカル音声認識装置３０３およびクライアント−サーバ利用音声認識装置は、実際には、異なる音声認識フロントエンドを利用することができる。
【００３６】
ローカル音声認識装置３０３は、音声認識フロントエンド３０２からパラメータベクトル３２５を受信し、そして、たとえば、パラメータで表示された音声内に何か認識可能な発話があるかどうかを決定するために、その結果として、音声認識分析を行う。１つの実施の形態において、認識された発話（一般に、ワード・言葉）は、第４のデータパス３２４を媒介として、ローカル音声認識装置３０３からプロトコル処理ブロック３０６に送信され、それは、順番に、さらなる処理のため様々なアプリケーション３０７に認識された発話を受け渡す。ＣＰＵ２０１およびＤＳＰ２０２のいずれか、あるいは、両方を使用して実施されることができるアプリケーション３０７は、認識された発話に基づき、音声利用割り込みインジケータが受信されたことを確かめる検出器アプリケーションを含むことが可能である。たとえば、検出器は、同一性を検索する予め定められた発話（たとえば、“ウェークアップ”）のリストに対して、認識された発話を比較する。同一性が検出されるとき、検出器アプリケーションは、割り込みインジケータの存在を表わす信号２６０ａを発する。割り込みインジケータの存在は、順番に、音声利用コマンドを処理し始めるために、音声認識要素の部分を始動するのに使用される。これは、音声認識フロントエンドに送られる信号２６０ａによって、図３に概略的に示されている。応答中、音声認識フロントエンド３０２は、パラメータで表示されたオーディオを、ローカル音声認識装置にか、あるいは、好ましくは、追加の処理のため音声認識サーバへの伝送のためのプロトコル処理ブロック３０６にかのいずれかに、ルーティングし続ける。（さらに、入力装置２５０によって任意に提供される入力装置利用信号２６０は、さらに、同一の機能を作用することに留意してください。）そのうえ、割り込みインジケータの存在は、音声認識装置のインフラストラクチャ利用要素に警告するために、送信データ接続２３２に送信されることができる。
【００３７】
音声合成バックエンド３０４は、音声のパラメトリック表現を入力とみなし、
そして、パラメトリック表現を、次に、第１のオーディオパス３１６を媒介としてＥＣＥＰブロック３０１に引き渡される音声信号に変換する。使用される特定のパラメトリック表現は、設計選択の考慮すべき問題である。１つの一般に使用されているパラメトリック表現は、Ｋｌａｔｔの“ＳｏｆｔｗａｒｅＦｏｒＡＣａｓｃａｄｅ／ＰａｒａｌｌｅｌＦｏｒｍａｎｔＳｙｎｔｈｅｓｉｚｅｒ”，ＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌｓｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，Ｖｏｌ．６７，１９８０，ｐｐ．９７１−９９５に記述されるように、フォルマントパラメータである。線形予測パラメータは、ＭａｒｋｅｌらのＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎｏｆＳｐｅｅｃｈ，ＳｐｒｉｎｇｅｒＶｅｒｌａｇ，ＮｅｗＹｏｒｋ，１９７６に記述されるように、別の一般に使用されるパラメトリック表現である。ＫｌａｔｔおよびＭａｒｋｅｌらの公報のそれぞれの教示は、参照としてここに含まれている。
【００３８】
クライアント−サーバ利用音声合成の場合、音声のパラメトリック表現は、無線チャンネル１０５、無線データトランシーバ２０３およびプロトコル処理ブロック３０６を媒介として、回線網から受信され、それは、第５のデータパス３１３を媒介として音声合成バックエンドに転送される。ローカル音声合成の場合、アプリケーション３０７は、話されるテキストストリングを生成する。このテキストストリングは、第６のデータパス３１４を媒介としてプロトコル処理ブロック３０６からローカル音声シンセサイザ３０５に受け渡される。ローカル音声シンセサイザ３０５は、テキストストリングを音声信号のパラメトリック表現に変換し、そして、第７のデータパスを媒介としてこのパラメトリック表現を音声信号への変換のため音声合成バックエンド３０４に受け渡す。
【００３９】
受信データデータ接続２３１が、音声合成情報に加えて、他の受信された情報を搬送するのに使用されることが可能であることは留意されるべきである。たとえば、他の受信された情報は、インフラストラクチャから受信されるデータ（ディスプレイ情報などの）および／または制御情報、およびシステムにダウンロードされるコードを含むことができる。同様に、送信データ接続２３２は、音声認識フロントエンド３０２によって計算されるパラメータベクトルに加えて、他の伝送情報を搬送するのに使用されることが可能である。たとえば、他の伝送情報は、装置ステータス情報、装置可能出力およびバージインタイミングに関連する情報を含むことができる。
【００４０】
ここでは、図４を参照すると、本発明によるクライアント−サーバ音声認識および合成システムのサーバ部分を提供する音声認識サーバのハードウェアの実施の形態が示されている。このサーバは、図１を参照として上記に記述されるように、いくつかの環境にいることが可能である。加入者ユニット、あるいは、制御エンティティとのデータ通信は、インフラストラクチャ、あるいは、網接続４１１を介して可能にされる。この接続４１１は、たとえば、図１に示されるように、無線システムに局部的であり、および直接無線網に接続されることができる。別の方法として、接続４１１は、パブリックデータ網にか、あるいは、プライベートデータ網にか、または、なにか他のデータ通信リンクにかである；本発明は、この点では限定されるものではない。
【００４１】
網インターフェイス４０５は、ＣＰＵ４０１と網接続４１１との間の接続を行う。網インターフェイス４０５は、受信パス４０８を媒介として、網４１１からＣＰＵ４０１に、そして、送信パス４１０を媒介として、ＣＰＵ４０１から網接続４１１にデータをルートする。クライアント−サーバ構成の一部として、ＣＰＵ４０１は、網インターフェイス４０５と網接続４１１とを媒介として、１つ以上のクライアント（加入者ユニットにおいて実施されることが好ましい）と通信する。好ましい実施の形態において、ＣＰＵ４０１は、クライアント−サーバ音声認識および合成システムのサーバ部分を実施する。図示されていないが、図４に示されるサーバは、さらに、サーバへのローカルアクセスを可能とするローカルインターフェイスを備えることができ、それによって、たとえば、サーバメンテナンス、ステータスチェッキングおよび他の同様の機能を促進する。
【００４２】
メモリー４０３は、機械可読インストラクション（ソフトウェア）と、クライアント−サーバ構成のサーバ部分を実施する際に、ＣＰＵ４０１による実行および使用のためのプログラムデータとを格納する。このソフトウェアの動作および構造は、さらに、図５を参照として記述される。
【００４３】
図５は、音声認識および合成サーバ機能の実施を示している。少なくとも１つの音声認識クライアントと協働して、図５に示される音声認識サーバ機能は、音声認識要素を提供する。加入者ユニットからのデータは、受信パス４０８を媒介として、受信機（ＲＸ）５０２に到達する。受信機は、データを復号化し、そして、音声認識クライアントから音声認識分析器５０４に音声認識データ５０３をルートする。装置ステータス情報、装置可能出力、バージインコンテキストに関連する情報などの加入者ユニットからの他の情報５０６は、受信機５０２によってローカル制御プロセッサ５０８にルートされる。１つの実施の形態において、他の情報５０６は、音声認識要素（たとえば、音声認識クライアント）の部分が、始動されたという加入者ユニットからの表示を含む。このような表示は、音声認識サーバにおける音声認識処理を始動するのに使用されることが可能である。
【００４４】
クライアント−サーバ音声認識構成の一部として、音声認識分析器５０４は、
加入者ユニットからの音声認識パラメータベクトルを受け、そして、認識処理を完了する。認識されたワード、あるいは、発話５０７は、次に、ローカル制御プロセッサ５０８に受け渡される。パラメータベクトルを認識された発話に変換するのに必要な処理の記述は、Ｌｅｅらの“自動音声認識：ＴｈｅＤｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅＳｐｈｉｎｘＳｙｓｔｅｍ”，１９８８に見られることが可能であり、その公報の教示は、参照としてここに含まれている。上記に述べられるように、加入者ユニットからパラメータベクトルを受信するのではなく、サーバ（すなわち、音声認識分析器５０４）は、パラメータで表示されない音声情報を受信することができることも分かる。もう一度、音声情報は、上記に記述されるようにいくつかの形状のいずれかをとる。この場合、音声認識分析器５０４は、第一に、たとえば、ｍｅｌｃｅｐｓｔｒａ技術を使用して、音声情報をパラメータで表示する。結果として生ずるパラメータベクトルは、次に、上記に記述されるように、認識された発話に変換されることができる。
【００４５】
ローカル制御プロセッサ５０８は、音声認識分析器５０４と他の情報５０８とから認識された発話５０７を受信する。一般に、本発明は、認識された発話に作用し、そして、認識された発話に基づき、制御信号を提供するために、制御プロセッサを必要とする。好ましい実施の形態において、これらの制御信号は、加入者ユニット、あるいは、加入者ユニットに結合される少なくとも１つの装置の動作を実質的に制御するのに使用される。このために、ローカルコントロープロセッサは、２つの方法の１つで作動されることが好ましい。第一に、ローカル制御プロセッサ５０８は、アプリケーションプログラムを実施することが可能である。典型的なアプリケーションの１つの実施例は、米国特許第５，６５２，７８９号に記述されるように電子アシスタントである。別の方法として、このようなアプリケーションは、リモート制御プロセッサ５１６でリモート制御によりランすることが可能である。たとえば、図１のシステムにおいて、リモート制御プロセッサは、制御エンティティ１１６を備えている。この場合、ローカル制御プロセッサ５０８は、データ網接続５１５を媒介として、リモート制御プロセッサ５１６と通信することにより、データを受け渡して、受信することによってゲートウェイのように作動する。データ網接続５１５は、公衆（たとえば、インターネット）、プライベート（たとえば、イントラネット）、他のデータ通信リンクなどでよい。実際に、ローカル制御プロセッサ５０８は、ユーザによって利用されるアプリケーション／サービスによって異なるが、データ網にある様々なリモート制御プロセッサと通信することができる。
【００４６】
リモート制御プロセッサ５１６か、あるいは、ローカル制御プロセッサ５０８かのいずれかでランするアプリケーションプログラムは、認識された発話５０７および／または他の情報５０６への応答を決定する。その応答は、合成されたメッセージおよび／または制御信号を備えることが好ましい。制御信号５１３は、ローカル制御プロセッサ５０８からトランシーバ（ＴＸ）５１０に中継される。合成される情報５１４、一般に、テキスト情報は、ローカル制御プロセッサ５０８から、テキストから音声への分析器５１２に送信される。テキストから音声への分析器５１２は、入力テキストストリングをパラメトリック音声表現に変換する。このような変換を行う適切な技術は、Ｓｐｒｏａｔ（編集者）の“ＭｕｌｔｉｌｉｎｇｕａｌＴｅｘｔ−Ｔｏ−ＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：ＴｈｅＢｅｌｌＬａｂｓＡｐｐｒｏａｃｈ”，１９９７に記述され、その公報の教示は、参照としてここに含まれている。テキストから音声への分析器５１２からのパラメトリック音声表現は、必要に応じて、加入者ユニットへの伝送のための送信パス４１０全体にわたりパラメトリック音声表現５１１および制御情報５１３を多重送信するトランスミッタ５１０に提供される。ほんの今記述されたのと同じ方法のオペレーティングで、テキストから音声への分析器５１２は、さらに、加入者ユニットで出力オーディオ信号としてプレイされる合成されたプロンプトなどを提供するのに使用されることができる。
【００４７】
本発明によるコンテキスト決定は、図６に示されている。図６に示されるアクティビティのための基準のポイントは、加入者ユニットのものであることは留意されるべきである。すなわち、図６は、加入者への、また、加入者からの可聴信号のタイム進行を示している。特に、出力オーディオ信号６０１のタイムを通じての進行が図示されている。出力オーディオ信号６０１は、出力サイレンス・消音６０４ａの第１の周期によって分離される先行の出力オーディオ信号６０２によって処置されることができ、そして、出力サイレンス６０４ｂの第２の周期によって、結果として生ずる出力オーディオ信号が続く。出力オーディオ信号６０１は、音声信号などのあらゆるオーディオ信号、合成された音声信号、あるいは、プロンプト、可聴トーン、あるいは、ビーッという音等を備えることができる。本発明の１つの実施の形態において、各出力オーディオ信号６０１−６０３は、ちょうどよいあらゆる所定のモーメントで出力される信号を識別するのを促進するために、それに割り当てられる関連したユニークな識別子を有している。このような識別子は、非リアルタイムで、様々な出力オーディオ信号（たとえば、合成されたプロンプト、トーンなど）予め割り当てられることができ、あるいは、リアルタイムで作成され、そして、割り当てられることができる。さらに、識別子自体は、たとえば、帯域内信号方式、あるいは、帯域外周波信号方式を使用して、出力オーディオ信号を提供するのに使用される情報とともに伝送されることができる。別の方法として、予め割り当てられた識別子の場合、識別子自体は、加入者ユニットに提供されることが可能であり、そして、その識別に基づいて、加入者ユニットは、出力オーディオ信号を合成することが可能である。通常の技量の者には、出力オーディオ信号のための識別子を提供し、そして、使用する様々な技術が、難なく考案され、そして、本発明に適用されることができるということは認められるであろう。
【００４８】
示されるように、入力音声信号６０５は、出力オーディオ信号６０１のプレゼンテーションに対してちょうどよいあるポイントで発生する。これは、たとえば、出力オーディオ信号６０１−６０３が、一連の合成された音声プロンプトであり、そして、入力音声信号６０５が、音声プロンプトのいずれか１つへのユーザの応答である場合である。同様に、出力オーディオ信号は、さらに、加入者ユニットに通信される合成されない音声信号でもありうる。とにかく、入力音声信号が検出され、そして、入力開始時間６０８が、入力音声信号６０５の開始をメモリーアリズするために確立される。入力音声信号の開始を決定するための様々な技術がある。１つのこのような方法は、米国特許第４，８２１，３２５号に記述されている。入力音声信号の開始を決定するのに使用されるあらゆる方法は、１／２０秒より多い分解で開始を決定できることが好ましい。
【００４９】
入力音声信号の開始は、入力音声信号が出力オーディオ信号に対して検出された精密なポイントを表わすインターバル６０９を生じさせると、２つの連続する出力開始時間６０７，６１０間のあらゆるタイムで検出されることが可能である。したがって、入力音声信号の開始は、任意に、出力オーディオ信号に続くサイレンス・消音の周期（すなわち、出力オーディオ信号が提供されないとき）を含むことができる出力オーディオ信号が生ずる間のあらゆるポイントで効果的に検出されることが可能である。別の方法として、出力オーディオ信号の終了に続く任意の長さのタイムアウト周期６１１は、出力オーディオ信号が生ずる終りを画定するのに使用されることができる。このように、入力音声信号の開始は、個々の出力オーディオ信号と関連することが可能である。有効な検出周期を確立する他のプロトコルが確立されることが可能であることがわかる。たとえば、一連の出力プロンプトが、互いにすべて関連される所では、有効な検出周期は、一連のプロンプトのための第１の出力開始時間で開始し、そして、連続した最後のプロンプトの後のタイムアウト周期でか、あるいは、連続に直ぐ続く出力オーディオ信号のための第１の出力開始時間で終る。
【００５０】
入力開始時間を検出するのに使用されるのと同じ方法は、出力開始時間６０７，６１０を確立するのに使用されることができる。これは、特に、出力オーディオ信号がインフラストラクチャから直接提供される音声信号であるこれらの例には真実である。出力オーディオ信号が、たとえば、合成されたプロンプト、あるいは、他の合成された出力である所では、出力開始時間は、以下にいっそう詳細に記述されるように、クロックサイクル、サンプル、境界、フレーム境界などの使用によりいっそう直接に確実にされることができる。とにかく、出力オーディオ信号は、入力音声信号が処理されることが可能なコンテキストを確立する。
【００５１】
上記に述べられるように、各出力オーディオ信号は、識別と関連することができ、それによって、出力オーディオ信号間の微分を提供する。したがって、入力音声信号が、出力オーディオ信号のコンテキストに対して開始したときを決定する別の方法として、さらに、入力音声信号のコンテキストを記述する方法としてだけ、出力オーディオ信号の識別を使用することが可能である。これは、たとえば、入力音声信号が、出力オーディオ信号に対して開始する精密な時間を知るのに重要でない所では、単に、入力音声信号が、実際に、出力オーディオ信号が生ずる間のある時期に開始した場合である。このような出力オーディオ信号識別は、除外とは対照的に、入力オーディオ開始時間の決定に関連して使用されることができることも分かる。
【００５２】
入力開始時間および／または出力オーディオ信号識別が使用されるかどうかにかかわらず、本発明は、不確実な遅延特性を有するこれらのシステムにおける精密なコンテキスト決定を可能にする。上記に記述されるコンテキスト決定技術を実施し、そして、使用する方法は、図７および図８を参照としてさらに示されている。
【００５３】
図７は、出力オーディオ信号が生ずる間に入力音声信号を処理するため、加入者ユニット内で実施されることが好ましい方法を示している。たとえば、図７に示される方法は、格納されたソフトウェアルーチンおよび図２に示されるＣＰＵ２０１および／またはＤＳＰ２０２などの適切なプラットフォームによって実行されるアルゴリズムを使用して実施されることが好ましい。網でカバーされたコンピュータなどの他の装置が、図７に示されるステップを実施するのに使用されることが可能であること、そして、図７に示されるステップのいくつか、あるいは、すべてが、ゲートアレイ、カスタマイズされた集積回路などの特殊化ハードウェア装置を使用して実施されることが可能であることが分かる。
【００５４】
出力オーディオ信号が生ずる間に、入力音声信号の開始が検出されたかどうかが、ステップ７０１で、連続して決定される。もう一度、音声信号の開始を決定するための様々な技術は、技術上周知であり、そして、設計の選択の考慮すべき問題として本発明によって同時に採用されることができる。好ましい実施の形態において、入力音声信号の開始を検出する効果的な周期は、出力オーディオ信号の開始が、結果として生ずる出力オーディオ信号の開始でか、あるいは、カレント出力オーディオ信号の終結で開始されるタイムアウトタイマの終結でかのいずれかで終了するや否や開始する。入力音声信号の開始が検出されるとき、出力オーディオ信号によって確立されるコンテキストに対する入力開始時間が決定される。入力開始時間を決定するための様々な技術のいずれかが採用されることができる。１つの実施の形態において、リアルタイム参照は、ＣＰＵ２０１（秒などのあらゆる便宜なタイムベース、あるいは、クロックサイクルを使用して）によって維持されることができ、それによって、特定の時間のコンテキストを確立する。この場合、入力開始時間は、出力オーディオ信号のコンテキストに対するタイム特質として表わされる。別の実施の形態において、可聴信号は、サンプル１つずつのベースで、再構成され、および／または、符号化される。たとえば、８ｋＨｚオーディオサンプリングレートを使用するシステムにおいて、各オーディオサンプルは、オーディオ入力、あるいは、出力の１２５マイクロセカンドに相当する。したがって、ちょうどよいあらゆるポイント（たとえば、入力開始時間）は、出力オーディオ信号（サンプルコンテキスト）の開始サンプルに対するオーディオサンプルのインデックスによって表わされることができる。この場合、入力開始時間は、出力オーディオ信号の第１のサンプルに対するサンプルインデックスとして表わされる。さらに別の実施の形態において、可聴信号は、フレーム１つずつのベースで、再構成され、各フレームは、マルチプルサンプル周期を備えている。この方法において、出力オーディオ信号は、フレームコンテキストを確立し、そして、入力開始時間は、フレームコンテキスト内のフレームインデックスとして表わされている。入力開始時間が表わされる方法にかかわらず、入力開始時間は、入力音声信号が出力オーディオ信号に関して開始したとき、精確に、分解の変化する程度で、メモライズする。
【００５５】
いずれにせよ、入力音声信号の開始の検出から、入力音声信号は、任意に、ステップ７０３によって表わされるように、パラメータで表示された音声信号を提供するために分析されることが可能である。音声信号のパラメータによる表示化のための特定の技術は、図３に対して上記に論じられた。ステップ７０４で、いずれにせよ、入力開始時間は、入力音声信号に対応するために提供される。図７の方法が、無線電話加入ユニット内で実施されるとき、このステップは、音声認識／合成サーバへの入力開始時間の無線伝送を含む。
【００５６】
最後に、ステップ７０５で、情報信号は、任意に、少なくとも入力開始時間に応じて、そして、提供されるとき、パラメータで表示された音声信号に応じて、受信される。本発明のコンテキストにおいて、このような“情報信号”は、加入者ユニットが操作するデータ信号を含んでいる。たとえば、このようなデータ信号は、ユーザディスプレイを生成するディスプレイデータ、あるいは、加入者ユニットが自動的にダイヤルすることが可能な電話番号を備えている。他の実施例は、通常の技量の者によって難なく同一とみなしうる。本発明の“情報信号”は、さらに、加入者ユニット、あるいは、加入者ユニットに結合されるあらゆる装置の動作を制御するのに使用される制御信号を備えている。たとえば、制御信号は、ロケーションデータ、あるいは、ステータスアップデートを提供するために加入者ユニットに指示することが可能である。もう一度、通常の技量の者は、多数のタイプの制御信号を考案することができる。音声認識サーバによってこのような情報信号を提供する方法は、図９を参照としてさらに記述されている。とはいえ、入力音声信号を処理する別の実施の形態は、図８を参照としてさらに示されている。
【００５７】
図８の方法は、図２に示されるＣＰＵ２０１および／またはＤＳＰ２０２などの適切なプラットフォームによって実行される格納されたソフトウェアルーチンおよびアルゴリズムを使用して、加入者ユニット内で実施されることが好ましい。網でカバーされたコンピュータなどの他の装置は、図８に示されるステップを実施するのに使用されることが可能であり、そして、図８に示されるステップのいくつか、あるいは、すべては、ゲートアレイ、あるいは、カスタマイズされた集積回路などの特殊化ハードウェア装置を使用して実施されることが可能である。
【００５８】
出力オーディオ信号が生ずる間に、入力音声信号が検出されたかどうかが、ステップ８０１で、連続して決定される。音声信号の存在を決定する様々な技術は、技術上周知であり、そして、設計の選択の考慮すべき問題として本発明によって同時に採用されることができる。図８に示される技術は、このような決定が、入力音声信号の存在を検出するステップに含まれることができるが、入力音声信号の開始を検出することに特に関係がないことに留意してください。
【００５９】
ステップ８０２において、出力オーディオ信号に対応する識別が決定される。
図６に関して上記に述べられるように、その識別は、出力オーディオ信号から独立するか、あるいは、出力オーディオ信号に組み込まれることができるかである。最も重要なことは、出力オーディオ信号識別は、出力オーディオ信号とすべての他の出力オーディオ信号とを独特に区別する必要がある。合成されたプロンプトなどの場合、これは、各そのような合成されたプロンプトに独特のコードを割り当てることによって、達成されることが可能である。リアルタイム音声の場合、インフラストラクチャ利用タイム特質などの反復性のないコードが使用されることができる。識別が表わされる方法にかかわらず、それは、加入者ユニットによって確かめ得る必要がある。
【００６０】
ステップ８０３は、ステップ７０３に相当し、そして、さらに詳細に論じられる必要はない。ステップ８０４において、入力音声信号に対応する識別が提供される。図８の方法が、無線電話加入者ユニット内で実施されるとき、このステップは、音声認識／合成サーバへの識別の無線伝送を含んでいる。ステップ７０５と本質的に同一である方法で、加入者ユニットは、いずれにせよ、識別に基づき、ステップ８０５においてインフラストラクチャから情報信号を受信することが可能である。
【００６１】
図９は、音声認識サーバによって情報信号を提供する方法を示している。述べられている点を除いては、図９に示される方法は、図４および図５に示されるＣＰＵ４０１および／またはリモート制御プロセッサ５１６などの適切な１つまたは複数のプラットフォームによって実行される格納されたソフトウェアルーチンおよびアルゴリズムを使用して実施されることが好ましい。もう一度、他のソフトウェアおよび／またはハードウェア利用の実施は、設計の選択の考慮すべき問題として可能である。
【００６２】
ステップ９０１において、音声認識サーバは、加入者ユニットで提供される出力オーディオ信号を生じさせる。これは、たとえば、独特の識別された音声プロンプトあるいは連続のプロンプトを合成することを加入者ユニットに指示する加入者ユニットに制御信号を提供することによって達成されることが可能である。別の方法として、たとえば、テキストから音声への分析器５１２によって提供されるパラメトリック音声表現は、音声信号の結果として生ずる再構成のために加入者ユニットに送信されることが可能である。本発明の１つの実施の形態において、リアルタイム音声信号は、音声認識サーバが存在する（音声認識サーバの介入を有して、あるいは、持たないで）インフラストラクチャによって提供される。これは、たとえば、加入者ユニットがインフラストラクチャを媒介として別の関係者との音声通信にかかわる場合である。
【００６３】
加入者ユニットで出力オーディオ信号を生じさせるのに使用される技術にかかわらず、上記に記述されるタイプのコンテキスト情報（入力開始時間および／または出力オーディオ信号識別子）が、ステップ９０２で受信される。好ましい技術において、入力開始時間および出力オーディオ信号識別子の両方は、入力音声信号に対応するパラメータで表示された音声信号と共に提供される。
【００６４】
ステップ９０３において、少なくともコンテキスト上の情報に基づいて、加入者ユニットに搬送される制御信号および／またはデータ信号を備える情報信号が決定される。もう一度、図５を参照すると、これは、ローカル制御プロセッサ５０８および／またはリモート制御プロセッサ５１６によって遂行されることが好ましい。最低限度で、コンテキスト上の情報は、出力オーディオ信号に対する入力音声信号のコンテキストを確立するのに使用される。コンテキストは、入力音声信号が、間隔を決定するのに使用される出力オーディオ信号に応答したかどうかを決定するのに使用されることが可能である。特定の出力オーディオ信号に対応する独特の識別子は、どの特定の出力オーディオ信号が入力音声信号のためのコンテキストを確立したかについて、あいまいさが可能であるコンテキストを確立するのに使用されることが好ましい。これは、たとえば、ユーザが電話帳のだれかに電話をかけようとする場合である。システムは、オーディオ出力を媒介として電話をかけるために、いくつか可能な人の名前提供することが可能である。ユーザは、“呼び出し”などのコマンドで出力オーディオに割り込むことが可能である。システムは、次に、独特の識別子および／または入力開始時間に基づいて、ユーザが割り込んだときどの名前が出力されたかを決定し、そして、その名前に関連する電話番号に電話をかけることが可能である。さらに、コンテキストを確立すると、パラメータで表示された音声信号は、提供される場合、認識された発話を提供するために分析されることが可能である。認識された発話は、何か入力音声信号に応答するのに必要とされる場合、順番に、制御信号、あるいは、データ信号を確かめるのに使用される。あらゆる制御、あるいは、データ信号がステップ９０３で決定される場合、それらは、ステップ９０４で、コンテキスト上の情報のソースに提供される。
【００６５】
上記に記述される本発明は、出力オーディオ信号が生ずる間に入力音声信号を処理する独特の技術を提供する。入力音声信号のための適切なコンテキストは、入力開始時間および／または出力オーディオ信号識別子の使用により確立される。このように、加入者ユニットに送信される情報信号は、入力音声信号に適切に応答するというより大きな確実性が、提供される。上記に記述されたことは、本発明の原理の応用について単に示しているものである。他の構成および方法は、本発明の精神と範囲とから逸脱することなく、当業者によって実施されることが可能である。

【特許請求の範囲】
【請求項１】
無線通信加入者ユニットにおいて、入力音声信号を処理する方法であって、前記無線通信加入者ユニットは、スピーカとマイクロフォンとを含み、前記スピーカは、出力オーディオ信号を提供し、前記マイクロフォンは、入力音声信号を提供し、
前記方法は、
前記出力オーディオ信号を提示する間に前記入力音声信号の開始を検出することと、
前記出力オーディオ信号に対して、前記入力音声信号の開始の入力開始時間を決定することと、
前記入力音声信号を分析することにより、パラメータで表示された音声信号を提供することと、
前記入力開始時間を制御パラメータとして音声認識サーバに提供することと、
前記パラメータで表示された音声信号を前記音声認識サーバに提供することと、
前記入力開始時間および前記パラメータで表示された音声信号に少なくとも基づいて、前記音声認識サーバから少なくとも１つの情報信号を受信することと、
前記入力音声信号に応答するように、前記少なくとも１つの情報信号に基づいて動作することと
を含む、方法。
【請求項２】
前記入力開始時間を決定することというステップは、
前記出力オーディオ信号の開始より遅く、かつ、その後の出力オーディオ信号の開始よりも早く、前記入力開始時間を決定することをさらに含む、請求項１に記載の方法。
【請求項３】
前記入力開始時間は、前記出力オーディオ信号のリアルタイム参照に対するタイムスタンプと、前記出力オーディオ信号が複数のオーディオサンプルとして再構成および／または符号化された場合には、前記出力オーディオ信号の開始サンプルに対するサンプルインデックスと、前記出力オーディオ信号のフレームコンテキストに対するフレームインデックスとのうちのいずれか１つである、請求項１に記載の方法。
【請求項４】
無線通信加入者ユニットにおいて、入力音声信号を処理する方法であって、前記無線通信加入者ユニットは、スピーカとマイクロフォンとを含み、前記スピーカは、出力オーディオ信号を提供し、前記マイクロフォンは、入力音声信号を提供し、
前記方法は、
前記出力オーディオ信号を提示する間に前記入力音声信号を検出することと、
前記出力オーディオ信号を識別する識別データを決定することと、
前記入力音声信号を分析することにより、パラメータで表示された音声信号を提供することと、
前記識別データを制御パラメータとして音声認識サーバに提供することと、
前記パラメータで表示された音声信号を前記音声認識サーバに提供することと、
前記識別データおよび前記パラメータで表示された音声信号に少なくとも基づいて、前記音声認識サーバから少なくとも１つの情報信号を受信することと、
前記入力音声信号に応答するように、前記少なくとも１つの情報信号に基づいて動作することと
を含む、方法。
【請求項５】
前記出力オーディオ信号は、出力音声信号を含む、請求項４に記載の方法。
【請求項６】
１つ以上の加入者ユニットと無線通信する音声認識サーバから情報信号を提供する方法であって、
前記方法は、
前記加入者ユニットにおいて、出力オーディオ信号を提示させることと、
前記加入者ユニットにおける前記出力オーディオ信号に対する入力音声信号の開始に対応する入力開始時間を前記加入者ユニットから少なくとも受信することと、
前記入力音声信号に対応するパラメータで表示された音声信号を受信することと、
前記入力開始時間および前記パラメータで表示された音声信号に少なくとも基づいて、前記情報信号を生成することと、
前記情報信号を前記加入者ユニットに提供することと
を含み、前記情報信号は、前記入力音声信号に応答するように、前記加入者ユニットの動作を制御する、方法。
【請求項７】
前記入力開始時間は、前記出力オーディオ信号のリアルタイム参照に対するタイムスタンプと、前記出力オーディオ信号が複数のオーディオサンプルとして再構成および／または符号化された場合には、前記出力オーディオ信号の開始サンプルに対するサンプルインデックスと、前記出力オーディオ信号のフレームに対するフレームインデックスとのうちのいずれか１つである、請求項６に記載の方法。
【請求項８】
前記出力オーディオ信号を提示させることは、
前記加入者ユニットに音声信号を提供することをさらに含む、請求項６に記載の方法。
【請求項９】
１つ以上の加入者ユニットと無線通信する音声認識サーバから情報信号を提供する方法であって、
前記方法は、
前記加入者ユニットにおいて出力オーディオ信号を提示させることであって、前記出力オーディオ信号は、識別データによって識別される、ことと、
前記出力オーディオ信号を提示する間に入力音声信号が前記加入者ユニットにおいて検出された場合には、前記加入者ユニットから少なくとも前記識別データを受信することと、
前記入力音声信号に対応するパラメータで表示された音声信号を受信することと、
前記識別データおよび前記パラメータで表示された音声信号に少なくとも基づいて、前記情報信号を生成することと、
前記情報信号を前記加入者ユニットに提供することと
を含み、前記情報信号は、前記入力音声信号に応答するように、前記加入者ユニットの動作を制御する、方法。
【請求項１０】
前記出力オーディオ信号を提示させることは、
前記加入者ユニットに音声信号を提供することをさらに含む、請求項９に記載の方法。
【請求項１１】
音声認識サーバを含む無線通信システムと無線通信する加入者ユニットであって、前記加入者ユニットは、
出力オーディオ信号を提供するように構成されたスピーカと、
入力音声信号を提供するように構成されたマイクロフォンと、
無線トランシーバと、
プロセッサと
を含み、
前記プロセッサは、前記無線トランシーバと協働することにより、
前記入力音声信号の開始を検出することと、
前記出力オーディオ信号に対して、前記入力音声信号の開始の入力開始時間を決定することと、
前記入力音声信号を分析することにより、パラメータで表示された音声信号を提供することと、
前記入力開始時間を前記音声認識サーバに提供することと、
前記パラメータで表示された音声信号を前記音声認識サーバに提供することと、
前記入力開始時間および前記パラメータで表示された音声信号に少なくとも基づいて、前記音声認識サーバから、少なくとも１つの制御信号を受信することと、
前記入力音声信号に応答するように、前記少なくとも１つの制御信号に基づいて動作することと
を行うように構成されている、加入者ユニット。
【請求項１２】
前記プロセッサは、前記出力オーディオ信号の開始より遅く、かつ、その後の出力オーディオ信号の開始よりも早く、前記入力開始時間を決定するように構成されている、請求項１１に記載の加入者ユニット。
【請求項１３】
前記入力開始時間は、前記出力オーディオ信号のリアルタイム参照に対するタイムスタンプと、前記出力オーディオ信号が複数のオーディオサンプルとして再構成および／または符号化された場合には、前記出力オーディオ信号の開始サンプルに対するサンプルインデックスと、前記出力オーディオ信号のフレームコンテキストに対するフレームインデックスとのうちのいずれか１つである、請求項１１に記載の加入者ユニット。
【請求項１４】
音声認識サーバを含む無線通信システムと無線通信する加入者ユニットであって、前記加入者ユニットは、
出力オーディオ信号を提供するように構成されたスピーカと、
入力音声信号を提供するように構成されたマイクロフォンと、
無線トランシーバと、
プロセッサと
を含み、
前記プロセッサは、前記無線トランシーバと協働することにより、
前記入力音声信号の開始を検出することと、
前記出力オーディオ信号を識別する識別データを決定することと、
前記入力音声信号を分析することにより、パラメータで表示された音声信号を提供することと、
前記識別データを前記音声認識サーバに提供することと、
前記パラメータで表示された音声信号を前記音声認識サーバに提供することと、
前記識別データおよび前記パラメータで表示された音声信号に少なくとも基づいて、前記音声認識サーバから少なくとも１つの制御信号を受信することと、
前記入力音声信号に応答するように、前記少なくとも１つの制御信号に基づいて動作することと
を行うように構成されている、加入者ユニット。
【請求項１５】
前記出力オーディオ信号は、出力音声信号を含む、請求項１４に記載の加入者ユニット。
【請求項１６】
１つ以上の加入者ユニットと無線通信する無線通信システムの音声認識サーバであって、
前記音声認識サーバは、プロセッサを含み、
前記プロセッサは、
入力音声信号の開始を検出することと、
出力オーディオ信号に対して、前記入力音声信号の開始の入力開始時間を決定することと、
前記入力音声信号を分析することにより、パラメータで表示された音声信号を提供することと、
前記入力開始時間を前記音声認識サーバに提供することと、
前記パラメータで表示された音声信号を前記音声認識サーバに提供することと、
前記入力開始時間および前記パラメータで表示された音声信号に少なくとも基づいて、前記音声認識サーバから少なくとも１つの制御信号を受信することと、
前記入力音声信号に応答するように、前記少なくとも１つの制御信号に基づいて動作することと
を行うように構成されている、音声認識サーバ。
【請求項１７】
前記入力開始時間は、前記出力オーディオ信号のリアルタイム参照に対するタイムスタンプと、前記出力オーディオ信号が複数のオーディオサンプルとして再構成および／または符号化された場合には、前記出力オーディオ信号の開始サンプルに対するサンプルインデックスと、前記出力オーディオ信号のフレームコンテキストに対するフレームインデックスとのうちのいずれか１つである、請求項１６に記載の音声認識サーバ。
【請求項１８】
１つ以上の加入者ユニットと無線通信する無線通信システムの音声認識サーバであって、
前記音声認識サーバは、プロセッサを含み、
前記プロセッサは、
入力音声信号の開始を検出することと、
出力音声信号を識別する識別データを決定することと、
前記入力音声信号を分析することにより、パラメータで表示された音声信号を提供することと、
前記識別データを前記音声認識サーバに提供することと、
前記パラメータで表示された音声信号を前記音声認識サーバに提供することと、
前記識別データおよび前記パラメータで表示された音声信号に少なくとも基づいて、前記音声認識サーバから少なくとも１つの制御信号を受信することと、
前記入力音声信号に応答するように、前記少なくとも１つの制御信号に基づいて動作することと
を行うように構成されている、音声認識サーバ。
【請求項１９】
前記出力オーディオ信号は、出力音声信号を含む、請求項１８に記載の音声認識サーバ。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【公開番号】特開２０１２−１３７７７７（Ｐ２０１２−１３７７７７Ａ）
【公開日】平成２４年７月１９日（２０１２．７．１９）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)

【外国語出願】
【出願番号】特願２０１２−６０２５２（Ｐ２０１２−６０２５２）
【出願日】平成２４年３月１６日（２０１２．３．１６）
【分割の表示】特願２００１−５２８９７５（Ｐ２００１−５２８９７５）の分割
【原出願日】平成１２年１０月４日（２０００．１０．４）
【公序良俗違反の表示】
（特許庁注：以下のものは登録商標）
１．ＢＬＵＥＴＯＯＴＨ
【出願人】（５０００４３５７４）リサーチ　イン　モーション　リミテッド (531)
【氏名又は名称原語表記】Ｒｅｓｅａｒｃｈ　Ｉｎ　Ｍｏｔｉｏｎ　Ｌｉｍｉｔｅｄ
【住所又は居所原語表記】２９５　Ｐｈｉｌｌｉｐ　Ｓｔｒｅｅｔ，　Ｗａｔｅｒｌｏｏ，　Ｏｎｔａｒｉｏ　Ｎ２Ｌ　３Ｗ８　Ｃａｎａｄａ
【Ｆターム（参考）】

音声認識 (5,191)
- 音声信号の検出 (328)

[ Back to top ]

出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク