説明

音声推定インタフェースおよび通信システム

ユーザが騒々しい環境または社会的に敏感な環境で、声を出さずに、または聞こえるように話す間、ユーザの音声を推定するために、閾値下の音波でユーザの声道を探る音声推定(VE)インタフェースを有する装置。一実施形態では、VEインタフェースは携帯電話に組み込まれ、携帯電話がネットワークを通じて推定音声信号を遠隔通話相手に送り、(i)ユーザは、例えばミーティング、会議、映画、または公演において他の人々に迷惑をかけることなく遠隔通話相手と会話することができるようになる、(ii)遠隔通話相手は、そうでなければユーザが例えばナイトクラブ、ディスコ、もしくは飛行中の航空機にいることによる比較的大きな周囲雑音によってかき消されることになるユーザの声をより明瞭に聞くことができるようになる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信機器に関し、より詳細には発話認識装置およびこれを使用する通信システムに関する。
【背景技術】
【0002】
この項では、本発明のよりよい理解を容易にする助けとなり得る諸態様を紹介する。したがって、この項で述べることは、この観点において読まれるべきであり、従来の技術にあるもの、または従来の技術にないものについての承認と理解されるべきではない。
【0003】
携帯電話の使用はこの10年で急増したが、依然として、従来の携帯電話を使用することが物理的に適していない、および/または社会的に容認できない環境がある。例えば、ナイトクラブ、ディスコ、または飛行中の航空機における比較的大きい背景雑音により、遠隔通話相手に宛てられた発話は聞き取れないおよび/または理解できないようになる。また、ミーティング、会議、映画、または公演中に携帯電話で話すことは一般的に不作法であるとみなされ、したがって通常は許容されない。こうした状況の多くへの今日の対応は、携帯電話の電源を切ること、または、物理的に可能であれば、騒々しいもしくは敏感な場所を離れて通話により良い場所を見つけることである。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】米国特許第7,251,601号
【特許文献2】米国特許第6,801,894号
【特許文献3】米国再発行特許第39,336号
【特許文献4】米国特許出願公開第2008/0154815号
【発明の概要】
【課題を解決するための手段】
【0005】
従来技術の諸問題は、騒々しい環境または社会的に敏感な環境でユーザが声を出さずに、または聞こえるように話す間、閾値下の音波でユーザの声道を探ってユーザの声を推定する音声推定(VE)インタフェースによって対処される。一実施形態では、このVEインタフェースは携帯電話に組み込まれ、携帯電話は推定された音声信号を、ネットワークを介して遠隔通話相手に送る。有利には、VEインタフェースによりユーザは、例えばミーティング、会議、映画、または公演において、他の人々に迷惑をかけることなく、遠隔通話相手と会話することができるようになり、また遠隔通話相手は、そうでなければユーザが、例えばナイトクラブ、ディスコ、または飛行中の航空機にいることによる、比較的大きい周囲雑音によってかき消されることになるユーザの声が、よりはっきりと聞こえるようになる。
【0006】
一実施形態によれば、本発明は、(i)ユーザの声道を探るように構成されたVEインタフェースと、(ii)VEインタフェースに動作可能に結合され、VEインタフェースによって作り出された1つまたは複数の信号を処理してユーザに対応する推定音声信号を生成するように構成された信号変換(SC)モジュールと、を有する装置である。VEインタフェースは、閾値下音響(STA)バーストを声道に送って、このSTAバーストに対応するエコー信号を検出するように構成された閾値下音響(STA)パッケージを含む。推定音声信号は、このエコー信号に基づく。
【0007】
別の実施形態によれば、本発明は、(A)VEインタフェースを使用してユーザの声道を探るステップと、(B)VEインタフェースによって作り出された1つまたは複数の信号を処理して、ユーザに対応する推定音声信号を生成するステップと、を有する音声を推定する方法である。このVEインタフェースは、STAバーストを声道に送って、このSTAバーストに対応するエコー信号を検出するように構成されたSTAパッケージを含む。推定音声信号は、このエコー信号に基づく。
【0008】
本発明の他の態様、特徴、および利点は、次の詳細な説明、添付の特許請求の範囲、および添付の図面から、さらに十分に明らかになるであろう。
【図面の簡単な説明】
【0009】
【図1A】本発明の一実施形態による通信システムを示す図である。
【図1B】本発明の一実施形態による通信システムを示す図である。
【図2】人の声道の解剖学的構造を示す図である。
【図3A】本発明の一実施形態による図1の通信システムにおける送受信機として使用することができる携帯電話を示す図である。
【図3B】本発明の一実施形態による図1の通信システムにおける送受信機として使用することができる携帯電話を示す図である。
【図3C】本発明の一実施形態による図1の通信システムにおける送受信機として使用することができる携帯電話を示す図である。
【図4】図4A及び4Bは、図3の携帯電話によって検出される2つの代表的なエコー信号をグラフによって示す図である。
【図5】本発明の一実施形態による図1の通信システムにおいて信号変換(SC)モジュールによって使用可能である信号処理方法のフローチャートである。
【図6A】本発明の別の実施形態による図1の通信システムにおいてSCモジュールによって使用可能である信号処理方法を示す図である。
【図6B】本発明の別の実施形態による図1の通信システムにおいてSCモジュールによって使用可能である信号処理方法を示す図である。
【発明を実施するための形態】
【0010】
図1Aは、本発明の一実施形態による通信システム100のブロック図を示す。システム100は、人102の顔に比較的近接して配置することができる音声推定(VE)インタフェース110を有する。VEインタフェース110は、例えば、無声発話を検出するために、または通常発話が比較的騒々しい音響背景によって重ね合わされる、もしくは実質的にかき消されるときに、通常発話の認知を強化するために使用することができる。無声発話の現象について、図2を参照して以下により詳細に説明する。
【0011】
VEインタフェース110は、人102の声道を特徴付ける1つまたは複数の信号を集めるように設計された1つまたは複数のセンサ(明示せず)を有する。様々な実施形態では、VEインタフェース110は、次のセンサ、すなわちビデオ・カメラ、赤外線センサもしくは撮像装置、閾値下音響(STA)センサ、ミリ波センサ、筋電センサ、および電磁調音センサのうちの1つまたは複数を(無制限に)含むことができる。代表的な実施形態では、VEインタフェース110は、少なくともSTAセンサを有する。
【0012】
図1Bは、STA波をグラフによって示す。より詳細には、図1B中の曲線101は、静かな環境において可聴領域(すなわち、約15Hzと約20kHzの間)で聞いている人の生理学的知覚の閾値を示す。通常、可聴領域からの周波数を有する音波は、その強度が曲線101を超えている場合、知覚できる。具体的には、発話および音楽の最適な知覚は、それぞれ領域103および105で示す周波数−強度の範囲内で認められる。しかしながら、音波の強度が曲線101を下回ると、その音波は人の耳では知覚できなくなる。また、超音波(すなわち、その周波数が可聴領域の上方境界より高い準音波)は、通常人の耳には知覚できない。本明細書で使用する、「閾値下音響」または「STA」という用語は、(A)その強度が生理学的知覚の閾値を下回る、可聴周波数領域からの音波と、(B)超音波の両方を含む。
【0013】
曲線101の形状および位置は、背景雑音の関数であることに注意されたい。より具体的には、背景雑音が「白色」雑音であって、その強度が増大する場合、曲線101は全体的に強度の目盛が上昇する。背景雑音が「白色」ではない、すなわち明白な周波数帯域を有する場合、曲線101のスペクトル形状はそれに応じて変化する可能性がある。さらに、様々な人々が様々な生理学的知覚の閾値を有する可能性がある。
【0014】
VEインタフェース110については、そのSTA機能が、人102の典型的な隣人の生理学的知覚の閾値を基準とし、人102の生理学的知覚の閾値を基準としないことが有益である。このような基準付けの1つの理由は、ある一定のモードの動作では、VEインタフェース110は人102の周りの他の人々に迷惑をかけるべきではないという理解でシステム100が設計されるからである。結果として、人102の典型的な隣人の生理学的知覚の閾値が考慮に入れられるべきである。代表的な実施形態では、VEインタフェース110は、約1メートルの距離において平均的な人がVEインタフェースの動作のいかなる厄介な影響をも感じないように動作する。VEインタフェース110は、背景音響雑音を測定するように構成されたマイクロフォンから入力信号を受信し、その情報を使用して、そのSTAの励起パルスを、例えばその強度が比較的高くなるように、ただし人102の推定上の隣人には依然として知覚できないように調整することができる。
【0015】
図1Aを再度参照すると、VEインタフェース110の1つまたは複数のセンサによって生成された1つまたは複数の出力信号112が、信号変換器(SC)モジュール120に印加され、信号変換器モジュールが出力信号を処理して、人102の無声発話または雑音が混入した発話に対応する統合された推定音声信号を生成する。一実施形態では、統合された推定音声信号は、人102の声に対応する一連の音素を含む。別の実施形態では、統合された推定音声信号は、人102の声に対応する通常の知覚可能な音を生成するために使用することができる音声信号を含む。SCモジュール120は、デジタル信号プロセッサ(DSP)および/または人工ニューラル・ネットワークを使用して、統合された推定音声信号を生成することができる。
【0016】
一実施形態では、VEインタフェース110およびSCモジュール120は、無線、有線、および/または光伝送のシステム、ネットワーク、または媒体128に結合された、送受信機(例えば、携帯電話)108の一部である。携帯電話108は、SCモジュール120によって生成された、統合された推定音声信号を使用して通信信号124を生成し、この通信信号124はネットワーク128を介して従来の方法で送信される、および通信信号138の一部としてリモートの送受信機(例えば、携帯電話)140で受信されることが可能である。送受信機140は、通信信号138を処理し、これを推定音声信号を発音する音142に変換する。送受信機108は、人102に対して推定音声信号を同様に発音することができるイヤピース122を有することができる。イヤピース122は、音142と実質的に同様の音を再生し、これにより人102は自身の発話が遠隔の送受信機140でよりよく知覚できるようになるように自身の発話を調節することができる。イヤピース122は、人102の発話が無声発話であるとき特に有用である可能性がある。様々な実施形態では、送受信機108は、ウォーキートーキー、ヘッド・セット、またはワンウェイ・ラジオであることが可能である。1つの実施では、イヤピース122は携帯電話の通常のスピーカであることが可能である。別の実施では、イヤピース122は、人102に自身の発話に関して音声フィードバックを提供することに専用の別個のスピーカであることが可能である。
【0017】
SCモジュール120の処理電力が比較的低い場合、VEインタフェース110の様々なセンサによって生成される信号を適切に表す、統合された推定音声信号を生成するには、送受信機108外の追加処理が必要である可能性がある。このような追加処理には、システム100は、ネットワーク128に接続された信号プロセッサ(例えばサーバ)130を使用することができる。1つの実施では、信号プロセッサ130は、様々な発話認識技術および/または発話合成技術を使用することができる。信号プロセッサ130に使用することができる代表的な技術は、例えば米国特許第7,251,601号、第6,801,894号、および米国再発行特許第39,336号に開示されており、これらのすべては全体として参照により本明細書に組み込まれる。
【0018】
代替的実施形態では、SCモジュール120は、ネットワーク128に接続されたサーバの一部として実装可能である。信号プロセッサ130は、送受信機140に実装することができる。SCモジュール120および信号プロセッサ130をシステム100内の様々な物理的位置に有する他の配置もまた可能であることを当業者は理解するであろう。一実施形態では、信号124および/または信号138は、一連の音素を搬送し、実質的にテキストメッセージの信号と似ていることが可能である。一実施形態では、信号138はテキストに変換することができ、テキストはその後、音142として再生されることに加えて、または音142として再生される代わりに、送受信機140のディスプレイ画面上に表示される。あるいは、信号138は、従来から携帯電話によって受信される信号と同様の、通常の携帯電話の信号であることが可能である。同様に、信号124はテキストに変換することができ、その後テキストは、イヤピース122で音として再生されることに加えて、またはその代わりに、送受信機108のディスプレイ画面上に表示される。
【0019】
図2は、人の声道の解剖学的構造を示す。発話時の音は、声道を通過する空気の流れによって作り出される。この空気の流れは、呼気流(すなわち、空気が口および/または鼻を通って吐き出される)か、吸気流(すなわち、空気が吸い込まれる)であることが可能である。肺が、この空気の流れを生成する空気ポンプとして働く。気管の上部にある喉頭の開口に広がる声帯(vocal folds、しばしばvocal cordsとも呼ばれる)は、空気の流れの運動エネルギーを可聴音に変える。次いで声道の様々な調音器官が、この音を理解できる発話に変える。
【0020】
喉頭の軟骨組織が、様々に回転し、傾いて、声帯の形状を変えることができる。声帯が開くとき、呼吸が可能になる。声帯の間の開口部は、声門として知られる。声帯が閉じるとき、声帯は、咽喉頭と気管の間に障壁を形成する。閉じた声帯の下の空気圧(すなわち、声門下圧)が十分に高いとき、声帯はこじ開けられる。空気が声門を通って流れ始めると、声門下圧は下がり、弾性力と空気力学的な力の両方が声帯を閉じた状態に戻す。声帯が閉じた後に、声門下圧は再び増大し、したがって声帯を再び開いて空気が声門を通過するようにする。その結果、声門下圧は下がり、したがって声帯が再び閉じるようにする。この周期的なプロセス(発声として知られる)が、声帯の形状に対応する音を作り出し、肺が十分な声門下圧を作り上げることができる限り、継続することができる。
【0021】
声帯によって作り出された音は、声道の上部を通過するときに修正される。より詳細には、声道の様々な空洞が、声帯によって作り出された音を修正する音響フィルタおよび/または共鳴器として働く。通常、以下の主要な声道の空洞が認められる。(i)食道と喉頭蓋の間に位置する喉頭腔、(ii)舌、歯、口蓋、軟口蓋、および口蓋垂によって定められる口腔、(iii)歯と唇の間に位置する唇面窩洞、および(iv)鼻腔。これらの腔の形状、したがってその音響特性は、軟口蓋、舌、唇、顎などの、声道の様々な調音器官を動かすことによって変えることができる。
【0022】
無声発話は、声帯が振動することを強いられていないことを除いて、声道の上述の機構が通常の方法で活動させられた現象である。声帯は、(i)互いに十分に閉じていない、(ii)張力が十分でない、または(iii)張力が大きすぎる場合、あるいは喉頭全体にわたる圧力差が十分に大きくない場合、振動しない。人は、自身に話しかけるとき、すなわち音を発生させずに「話す」、または生理学的知覚の閾値を下回る音を発生させることによって「話す」とき、声道の機構を活動させることができる。「自身に話しかける」という精神的な行為を経ることによって、人は、声帯が振動しないようにしながら、潜在意識的に脳が声道の中の様々な調音器官を制御する筋肉に適切な信号を送るようにする。平均的な人は、ほんの少しの訓練で、または全く訓練することなく、無声発話を行うことができることがよく知られている。また、無声発話はささやきとは異なることを、当業者であれば理解するであろう。
【0023】
図3A〜Cは、本発明の一実施形態により送受信機108として使用することができる携帯電話300を示す。より詳細には、図3Aは、開いた状態の携帯電話300の3次元の斜視図を示す。図3Bは、STAスピーカ316を駆動するために携帯電話300に使用される駆動回路350のブロック図を示す。図3Cは、STAマイクロフォン318によって生成されたアナログ出力信号をデジタル形式に変換するために携帯電話300で使用される検出回路370のブロック図を示す。
【0024】
図3Aを参照すると、携帯電話300は、基部302と、基部にそれぞれ枢動可能に結合されたフリップアウト式のパネル304および310とを有する。基部302は、従来の音響マイクロフォン312を有し、図3Bの駆動回路350、および/または図3Cの検出回路370を含むことができる。パネル304は、ディスプレイ画面(例えば、LCD)306を有する。パネル310は、STAスピーカ316およびSTAマイクロフォン318を含むSTAパッケージ314を有する。パネル310を基部302に枢動可能に結合するヒンジ308は、STAパッケージ314に適切な電気的接続を提供する。例えば、ヒンジ304は、(i)基部302からSTAパッケージ314への電源電圧/電流および制御信号、(ii)STAパッケージから基部へのエコー信号、を搬送する電気的接続を提供することができる。またヒンジ308により、ユーザ(例えば、図1の人物102)は、通信セッション中にはSTAパッケージ314をユーザの口の前に位置付け、通信セッションが終わるとパネル310を折り畳んで基部302に戻すことができる。通信セッションは、無声発話または通常発話の通信セッションであることが可能である。
【0025】
STAスピーカ316は、ユーザの声道の形状を探るために、周期的に(例えば、約50Hz以上の繰り返し率で)、または非周期的に、STA波の短い(例えば、約1ms未満の)バーストを発するように設計される。代表的な構成では、STA波のバーストは、ユーザのわずかに開いた口から声道に入り、声道の様々な腔内の多重反射を受ける。反射したSTA波は互いに干渉して、減衰するエコー信号を形成し、これがSTAマイクロフォン318によってとらえられる。一実施形態では、STAスピーカ316は、New York、SyossetのShogyo International Corporationから市販されているモデルGC0101スピーカであり、STAマイクロフォン318は、英国、Burgess HillのKnowles Acousticsから市販されているモデルSPM0204マイクロフォンである。様々な実施形態では、様々なタイプの携帯電話(例えば、折り畳み式ではない携帯電話)が、同様に使用されて、送受信機108を実現することができる。
【0026】
図3Bを参照すると、駆動回路350が、デジタル・パルス生成器352によって定義される励起パルスの包絡線353にキャリア周波数の信号354を投入する乗算器356を有する。様々な構成では、キャリア周波数は、例えば約1kHzと約100kHzの間の範囲から選択することができる。励起パルスの包絡線353は、いかなる好適な(例えば、ガウス的または直線的)形状を有することもでき、さらに擬似雑音の波形によって変調されることも可能である。乗算器356の出力357は、D/A変換器358でデジタル−アナログ(D/A)変換される。結果として生じるアナログ信号359は、高域(HP)フィルタ360を通され、フィルタリングされた信号361が使用されて、STAスピーカ316を駆動する(図3A参照)。
【0027】
一実施形態では、携帯電話300は、従来のマイクロフォン312または別個の専用マイクロフォン(明示せず)を使用して、周囲の音響雑音のレベルを測定し、その情報を使用してパルス生成器352を構成し、STAスピーカ316によって発せられる励起パルスの強度および/または周波数を設定するように構成されることが可能である。携帯電話300のユーザの周りの他の人々に迷惑をかけないことが望ましいので、ユーザの生理学的知覚の閾値ではなく、こうした人々の生理学的知覚の閾値が考慮に入れられて、STA放出のパラメータを設定すべきである。生理学的知覚の閾値の曲線のスペクトル形状および位置は、一般に周囲の音響雑音(上記図1Bの説明を参照)の特性によって決まるので、携帯電話300は、例えば、周囲の雑音のレベルが比較的高いとき、携帯電話のユーザの周りの他の人々に迷惑をかけることなく励起パルスの強度を増大させることができる。対応するエコー信号の信号対雑音比に関しては、一般により強力な励起パルスが有益であることを当業者は理解するであろう。
【0028】
図3Cを参照すると、検出回路370が、キャリア周波数の信号354と、キャリア周波数の信号を、約90度(あるいは、約270度)の移相を施すように構成された移相器376に通すことによって作り出された、移相したキャリア周波数の信号377とを利用するホモダイン検出法を実行する。STAマイクロフォン318(図3A参照)によって生成されたアナログ出力信号371は、帯域通過(BP)フィルタ372を通される。結果として生じるフィルタを通された信号373は、アナログ−デジタル(A/D)変換器374でデジタル形式に変換される。A/D変換器374によって生成されたデジタル信号375は、それぞれキャリア周波数の信号354およびその移相されたもの377と乗算器378a〜bでミキシングされることによってホモダイン検出を受け、ホモダイン検出された信号の、それぞれ実数部379aと虚数部379bを生成する。パルス包絡線(PE)整合フィルタ380a〜bは、それぞれ実数部および虚数部をフィルタにかけて、検出されたエコー信号への励起パルスの包絡線の影響を低減する。加算器382が、PE整合フィルタ380a〜bによって作り出された、フィルタ処理した信号を合計し、デジタル・エコー信号383を作り出す。フィルタ380a〜bを使用することにより、デジタル・エコー信号383が、声道の現在の形状の関数となり、励起パルスの包絡線の関数とならないようにすることを、当業者は理解するであろう。
【0029】
駆動回路350および検出回路370は、例示の回路にすぎないことを、当業者は理解するであろう。様々な実施形態では、本発明の範囲および趣旨を逸脱することなく、他の好適な駆動回路および検出回路が携帯電話300の中で同様に使用できる。
【0030】
図4A〜Bは、携帯電話300によって検出される2つの代表的なエコー信号をグラフによって示す。より詳細には、図4Aのエコー信号402aは、ユーザが声を出さずに母音「ah」を発したときに検出された。図4A中の挿入部は、この無声母音に対応する声道の形状を示す。同様に、図4Bのエコー信号402uは、ユーザが声を出さずに母音「yu」を発したときに検出された。図4B中の挿入部は、この無声母音に対応する声道の形状を示す。図に示すように、エコー信号402aおよび402uは、対応する声道の形状が異なるように、有意に異なる。エコー信号402aと402uの違いにより、SCモジュール120(図1)はそれぞれ母音「ah」および「yu」がユーザによって声を出さずに発せられたことを認識することができる。STAパッケージ314は、一般に声を出さずに発せられた異なる母音、子音、摩擦音、および接近音(すなわち、典型的な母音と典型的な子音との中間であるとみなされる発話音)に対して異なるエコー信号を生成することを、当業者は理解するであろう。エコー信号のこの特性を用いて、通信システム100(図1)は、無声発話セッションの間にSTAパッケージ314によって生成されたエコー信号の流れを適切に処理して、対応する無声発話を発音することができる。
【0031】
ユーザが無声ではなく、聞こえるように話すときは、エコー信号402と類似しているエコー信号が作り出されることを、当業者は理解するであろう。すでに上述したように、声に出さずに話される発話音(speech phone)に対応する声道の形状は、無声発話の間、声帯が振動していないことを除いて、聞こえるように話される同じ発話音に対応する声道の形状と実質的に同じものである。本明細書で使用する、「発話音」という用語は、音声上の発話分析によって明らかにされ、また明確な物理的特性および/または知覚特性を持つ発話の基本単位を指す。例えば、人の発話を伝えるために使用される様々な母音および子音のそれぞれが、発話音である。エコー信号は、声道中の様々な空洞の形状の関数であり、声帯が振動しているか、振動していないかにはほとんど左右されないので、ユーザが母音「ah」を無声ではなく聞こえるように話すとき、エコー信号402aと実質的に同様のエコー信号が作り出される。同様に、ユーザが母音「yu」を無声ではなく聞こえるように話すとき、エコー信号402uと実質的に同様のエコー信号が作り出される。一般に、他の発話音にも同様に、無声発話および通常発話に対応するエコー信号間に実質的な類似性が存在する。
【0032】
図5は、本発明の一実施形態によりSCモジュール120(図1)で使用することができる信号処理方法500のフローチャートを示す。以下に無声発話に関して方法500を説明するが、例えば、通常発話がかなりの音響雑音に混入されるとき、通常発話にも同様に使用することができる。通常発話に対応する方法500のある実施形態のフローチャートを得るには、読者は図5の対応するテキスト・ボックスにおいて、「無声発話」および「声を出さずに発せられた」という用語をそれぞれ「可聴発話」および「聞こえるように発せられた」という用語に置き換えることができる。方法500の代表的な実施形態は、携帯電話300(図3)を使用して実行することができる。
【0033】
方法500は、SCモジュール120の異なる2つの動作モードに対応する分岐510および520を有する。SCモジュール120が「トレーニング」モードである場合、方法500の処理はモード・スイッチ502によってステップ512〜518を有するトレーニング分岐510へ向けられる。SCモジュール120が「作動」モードである場合、方法500の処理はモード・スイッチ502によってステップ522〜526を有する作動分岐520へ向けられる。1つの実施では、携帯電話300のユーザは、一般に手動でモード・スイッチ502を一方のモードから他方のモードへ再構成することができる。
【0034】
トレーニング・モードでは、SCモジュール120は、ユーザ固有の参照データを収集し、その後、続いて発生する動作モードの間にこのデータを使用して、この特定のユーザから発するエコー信号を処理することができるように構成される。2人以上の異なるユーザが、異なる時間に携帯電話300のVEインタフェース機能を使用しようとする場合、対応するユーザ固有の参照データを収集するために、それぞれ個々のユーザに対して別個のトレーニング・セッションが行われることが可能である。多数のユーザを有する携帯電話300は、現在のユーザを識別して、その識別情報をSCモジュール120に中継することができるように、適切なユーザ・ログイン手順を使用するように構成されることが可能である。
【0035】
トレーニング分岐510のステップ512では、SCモジュール120がユーザに1つまたは複数のトレーニング・フレーズを声を出さずに話すよう要求を送信する。トレーニング・フレーズは、文、単語、音節、または個々の言語音であることが可能である。この特定のユーザに固有の自然発話分散のサンプルを抽出するためには、各トレーニング・フレーズが、数回繰り返されなければならない可能性がある。SCモジュール120は、携帯電話300のディスプレイ画面306を使用して、トレーニング・フレーズの内容および適切な発話指示をユーザに伝えることができる。
【0036】
ステップ514では、ユーザがステップ512で指定された様々なトレーニング・フレーズを声に出さずに話す間、SCモジュール120が、携帯電話300によって検出された一連のエコー信号を記録する。記録されるエコー信号のそれぞれは、一般に図4に示すエコー信号402に類似している。
【0037】
ステップ516では、SCモジュール120が記録されたエコー信号を処理して複数の参照エコー応答(RER)を導き出す。一実施形態では、各RERは、それぞれの異なる発話音を表す。SCモジュール120は、(1つまたは複数の)トレーニング・フレーズの中の同じ発話音の様々な発生に対応する複数のエコー信号を時間的に合わせ、その後強度を平均することによって各RERを生成することができる。ステップ516の他の実施形態では、SCモジュール120が、記録されたエコー信号を処理して、エコー信号に対応する信号空間をユーザの発話の音響信号に対応する信号空間にマッピングするためのマッピング手順をより一般的に定義する。
【0038】
各RERは、通常音素に対応することに注意する。本明細書で使用する、「音素」という用語は、認識される音の区別の所与の言語のシステムの中で潜在的に有意味な音の最小単位を指す。ある言語の各音素は、言葉の意味を潜在的に変えることなく代用することができない他の音素との対比によってその独自性を得る。例えば、「level」という言葉と「revel」という言葉との違いが認められるのは、英語における/l/と/r/(表記では、音素は2つのスラッシュで示される)の音素の差異を示す。発話音と違い、音素は実際の音ではなく、むしろその音を表す抽象概念である。
【0039】
2つ以上の異なるRERが、同じ音素に対応することが可能である。例えば、「tip」、「stand」、「water」、および「cat」という言葉の中の音「t」は、若干異なるように発音され、したがって異なる発話音を表す。それにもかかわらず、これらのそれぞれは、同じ/t/に対応する。さらに、実質的に同じ知覚可能な音声(これは人の耳による音知覚のエラー・バー内の複数の音声に対応する)は、この知覚可能な音声が一般に声道のいくつかの異なる形状によって作り出されることが可能であるので、いくつかの顕著に異なるRERで表されることが可能である。ステップ514で使用されるトレーニング・フレーズは、それぞれ特定のRERに対応する音素が比較的簡単に判断できるように設計されることが好ましい。
【0040】
ステップ518では、SCモジュール120が、ステップ516で生成されたRERをユーザに対応する参照データベースに格納する。さらに以下に説明するように、RERおよびその対応する音素は、作動分岐520で実行される信号処理の間に呼び出される。
【0041】
作動分岐520のステップ522では、SCモジュール120は、実際の(すなわち、トレーニングではない)無声発話セッションの間に携帯電話300によって検出されたエコー信号の流れを受信する。受信されるエコー信号のそれぞれは、一般に図4に示すエコー信号402に類似している。
【0042】
ステップ524では、SCモジュール120が、受信したエコー信号のそれぞれを、ステップ518において参照データベースに格納されたRERと比較し、最も近い一致を判断する。一実施形態では、最も近い一致は、それぞれがエコー信号とRERとの相互相関関数に基づく、複数の相互相関値を計算することによって判断される。相互相関値は、例えば、(i)エコー信号とRERを時間的に合わせること、(ii)例えばミリ秒あたり約500サンプルなど、指定されたサンプリング・レートでこれらのそれぞれのサンプルを抽出すること、(iii)エコー信号の各サンプルにRERの対応するサンプルを掛けること、および(iv)この積を合計すること、によって計算することができる。一般に、上記相関値が指定された閾値より高い場合、最高の相関値に対応するRERは、最も近い一致であると考えられる。計算された相互相関値がすべて閾値を下回る場合、対応するエコー信号は解釈できないと考えられ、廃棄される。
【0043】
ステップ524の代替的実施形態では、他の好適な信号処理技術を使用して、受信された各エコー信号に最も近い一致を判断することができる。例えば、本発明の範囲および趣旨を逸脱することなく、スペクトル成分の分析、人工ニューラル・ネットワークの処理、および/または様々な信号相互相関技術を利用することができる。
【0044】
ステップ526では、ステップ524で判断された一連の最も近い一致に基づいて、SCモジュール120が、無声発話セッションに対応する推定音声信号を生成する。一実施形態では、推定音声信号は、ステップ524で判断された最も近いRERの一致に対応する一連のタイムスタンプを記録された音素である。各音素は、対応するエコー信号が携帯電話300に検出された時間でタイムスタンプを記録されていることに注意する。
【0045】
図6A〜Bは、本発明の別の実施形態によりSCモジュール120(図1)で使用することができる信号処理方法600を示す。より詳細には、図6Aは方法600のフローチャートを示す。図6Bは、方法600の1つの実施で使用することができる音声推定アルゴリズムをグラフによって示す。方法500と同様に、方法600は、無声発話と可聴発話の両方に適用できるものである。可聴発話に適用する場合、方法600は、可聴発話が周囲の音響雑音がかなり混入するとき特に有益である。
【0046】
図6Aを参照すると、信号処理方法600は、2つの分岐、すなわちトレーニング分岐610と作動分岐620を有するという点で、信号処理方法500(図5)と同様である。モード・スイッチ602は、方法600の処理が、トレーニング分岐610に向けられるか、作動分岐620に向けられるかを制御する。SCモジュール120が「トレーニング」モードである場合、方法600の処理はステップ612〜616を有するトレーニング分岐610へ向けられる。SCモジュール120が「作動」モードである場合、方法600の処理はステップ622〜626を有する作動分岐620へ向けられる。
【0047】
トレーニング分岐610のステップ612では、SCモジュール120は、1つまたは複数のトレーニング・フレーズを聞こえるように(例えば、通常の方法で)言うようにユーザに要求を送信する。この特定のユーザに固有の自然発話の分散のサンプルを抽出するために、各トレーニング・フレーズは数回繰り返されなければならない場合がある。SCモジュール120は、携帯電話300のディスプレイ画面306を使用して、トレーニング・フレーズの内容および適切な発話の指示をユーザに伝える。
【0048】
ステップ614では、SCモジュール120は、ステップ612において指定された様々なトレーニング・フレーズに対応する一連のオーディオ波形および対応する一連のエコー信号を記録する。オーディオ波形は、従来の音響マイクロフォン312がユーザの声の音をとらえるとき、これによって生成される。同時に、STAパッケージ314が、ユーザの声道からSTAエコー信号をとらえる。BPフィルタ372(図3C参照)は、SCモジュール120によって記録されたSTAエコー信号にオーディオ波形が干渉しないように、および/または寄与しないようにする助けとなる。
【0049】
ステップ616では、SCモジュール120の人工ニューラル・ネットワークは、ステップ614で記録されたオーディオ波形およびエコー信号を使用して、音声推定アルゴリズムを実行するように教育される。一実施形態では、エコー信号はフーリエ変換されて、対応するスペクトルを生成する。一例として、図6Bは、検出されたエコー信号の(例示的に)超音波スペクトル606を示す。SCモジュール120は、矢印608で図6Bに示すスペクトル変換を行い、超音波スペクトル606を音声スペクトル604に変換する。音響スペクトル604は、そのスペクトルのケプストラムが、ステップ614でエコー信号と共に記録されたオーディオ波形に近いようになっている。一般に、人工ニューラル・ネットワークのパラメータは、STAエコー信号が人工ニューラル・ネットワークの入力に適用される場合、その出力には、対応する記録されたオーディオ波形に近似するオーディオ波形が現れる。言い換えれば、人工ニューラル・ネットワークは、エコー信号の空間をオーディオ波形の空間にマップするように教育される。人工ニューラル・ネットワークが、スペクトル変換608と似ている十分に多数の変換を正確に行い、ステップ612のトレーニング・フレーズに対応する様々な発話音および音素にわたる信号空間で満足に動作するように教育されるまで、人工ニューラル・ネットワークのトレーニング・プロセスは続く。
【0050】
以下にさらに説明するように、ステップ616で作り出されたSCモジュール120の教育された人工ニューラル・ネットワークは、作動分岐620で実行される信号処理の間使用される。代表的な実施形態では、人工ニューラル・ネットワークは、1つまたは複数のニューロン層に編成された約500の人工ニューロンを有することができる。SCモジュール120の中で人工ニューラル・ネットワークを実行するために使用することができる好適なプロセッサは、例えば米国特許出願公開第2008/0154815号に開示されており、これは全体として参照により本明細書に組み込まれる。
【0051】
作動分岐620のステップ622では、SCモジュール120は、無声発話セッションの間に携帯電話300によって検出されたエコー信号の流れを受信する。受信されるエコー信号のそれぞれは、一般に図4に示すエコー信号402に類似している。
【0052】
ステップ624では、受信したエコー信号のそれぞれが、教育された人工ニューラル・ネットワークに適用されて、対応するオーディオ波形を生成する。
【0053】
ステップ626では、SCモジュール120は、ステップ624で生成されたオーディオ波形を使用して、無声発話セッションに対応する推定された音声の信号を生成する。SCモジュール120および/または信号プロセッサ130において追加の発話合成技術を使用してオーディオ波形をさらに操作し(例えば、マージする、フィルタにかける、廃棄するなど)、合成音142が比較的高品質を有することを保証することができる。
【0054】
様々な実施形態では、方法500および600の様々な特徴を利用して、SCモジュール120および/または信号プロセッサ130で使用することができる代替的信号処理方法を作り出すことができる。例えば、トレーニング分岐がない信号処理方法が企図される。より詳細には、イヤピース122(図1A参照)を使用して、推定された音声信号に対応する音をユーザにフィードバックすることができる。この音に基づいて、ユーザは、遠隔受信機での音142が所望の音声特性を有するように、ユーザの無声発話または通常発話の方法を調整することができる。SCモジュール120は、無声発話、通常発話、または雑音の混入した発話に対応するエコー信号の処理に特に合わせた信号処理方法500および600の様々な実施形態を呼び出すことができることを、当業者は理解するであろう。
【0055】
図1に戻ると、すでに上述したように、STAパッケージ(STAパッケージ314など)に加えて、VEインタフェース110(図1)またはパネル310(図3)が、1つまたは複数の追加のセンサを含むことができ、その信号を使用して、合成された音142の質を向上させることができる。例えば、ビデオ・カメラを使用して、聴覚障害者によって使用される読唇術と似ているとみなすことができる読唇術を実行することができる。ビデオ・カメラによって記録されたビデオ信号は、携帯電話300が接続されたネットワークを介して比較的高性能なコンピュータに送信されることが可能であり、そこでビデオ情報が処理されて、対応する一連のタイムスタンプを記録された音素を生成することができる。このビデオによる一連の音素は、STAによる一連の音素と併せて使用することができ、例えば、解釈できないSTAエコー信号に対応する曖昧さを解消する、またはギャップを埋める。赤外線センサ、ミリ波センサ、筋電センサ、電磁調音センサなど、他のタイプのセンサによって生成されたデータに基づいて作り出された、一連のタイムスタンプを記録された音素を同様に使用して、合成された音142の品質を向上させることができる。
【0056】
一実施形態では、STAパッケージ(STAパッケージ314、図3)など)は、STAスピーカ316に似ている数多くのSTAスピーカおよび/またはSTAマイクロフォン318に似ている数多くのSTAマイクロフォンを有することができる。並んだSTAスピーカおよび/またはマイクロフォンを有することは、例えば並んだSTAスピーカは、干渉効果による励起ビームの成形に使用することができるので有益である可能性があり、並んだSTAマイクロフォンは、ユーザの声道の形状に関するより正確な情報を提供するより洗練された信号処理を可能にすることができる。例えば、CDMAで使用される符号化と似ている励起符号化を使用して、エコー信号の解釈機能をさらに向上させることができる。
【0057】
システム100の様々な実施形態は、有利には、(i)雑音のある、または社会的に敏感な環境で、(ii)病気、先天的欠損、もしくは手術が原因で声道に異常がある身体障害者によって、および/または(iii)例えば、敵陣の背後など、軍事活動中に、生ずる無声発話を発音するために使用されることが可能である。あるいは、またはさらに、システム100の様々な実施形態は、有利には、周囲の音響雑音が混入するとき通常発話の知覚品質を向上させるために使用されることが可能である。例えば、雑音レベルが比較的耐えられる場合、STAパッケージ314が、第2のセンサとして使用されて、従来の音響マイクロフォン312によって作り出される音声信号を強化することができる。雑音レベルが比較的耐えられると耐えられないとの中間にあるとき、音響マイクロフォン312が第2のセンサとして使用されて、STAパッケージ314によってとらえられたエコー信号に基づいて生成される、推定音声信号の質を強化することができる。雑音レベルが耐えられない場合、音響マイクロフォン312はオフにすることができ、推定音声信号は、単にSTAパッケージ314によってとらえられたエコー信号に基づいて生成されることが可能である。一実施形態では、STAパッケージ314は、スキューバ・ダイビングの用具のマウスピースに取り付けられ、例えば、スキューバ・ダイバは、他のスキューバ・ダイバに、および/またはボートからダイビングを監視する人々に、話しかけることができるようになる。スキューバ・ダイバは、無声発話と同様の発話技術を使用して、意図した受信者に向かって可聴発話を作り出すことができる。
【0058】
例示的実施形態を参照して本発明を説明したが、この説明は、限定される意味で解釈されることを意図しない。説明した諸実施形態の様々な変更形態、ならびに本発明の他の実施形態は、本発明が関連する当業者には明らかであるが、これらは次の特許請求の範囲に表すように、本発明の趣旨および範囲内にあるとみなされる。
【0059】
本発明の一定の実施形態は、単一の集積回路上で実施することができるなど、回路ベースのプロセスとして実施することができる。当業者には明らかなように、回路要素の様々な機能をソフトウェア・プログラムの処理ステップとして実装することもできる。このようなソフトウェアは、例えばデジタル信号処理装置、マイクロコントローラ、または汎用コンピュータで使用されることが可能である。
【0060】
明示的に別段の記載がない限り、各数値および範囲は、その値または範囲の前に「約」または「およそ」という語が付いたのと同じように近似であると解釈されるべきである。
【0061】
さらに、本発明の本質を説明するために記載し、図示した部分の細部、材料、および配列の様々な変更が、添付の特許請求の範囲に表す本発明の範囲を逸脱することなく、当業者によって行われる可能性があることを理解されるであろう。
【0062】
本明細書に示す例示的方法の諸ステップは、必ずしも記載した順序で行われる必要がないことを理解すべきであり、このような方法の諸ステップの順序は、例示にすぎないと理解されるべきである。同様に、このような方法に追加のステップが含まれることが可能であり、ある一定のステップは、本発明の様々な実施形態と矛盾しない方法で、省略される、または結合されることが可能である。
【0063】
本明細書における「一実施形態」または「ある実施形態」への言及は、その実施形態に関連して説明する特定の特徴、構造、または特性を、本発明の少なくとも1つの実施形態に含むことができることを意味する。明細書中の様々な場所での「一実施形態では」という語句の出現は、必ずしもすべて同じ実施形態に言及しておらず、別個の実施形態または代替的実施形態は、必ずしも他の実施形態を互いに排除しない。同じことは、「実行」という用語にもあてはまる。
【0064】
また、この説明の目的で、「結合する」、「結合している」、「結合された」、「接続する」、「接続している」、または「接続された」という用語は、エネルギーが2つ以上の要素間で転送されることを可能にし、また必須ではないが、1つまたは複数の追加要素の介入を企図する、当技術分野で知られる、または後に開発されるいかなる方法も指す。逆に、「直接結合された」、「直接接続された」などの用語は、このような追加要素がないことを暗示する。

【特許請求の範囲】
【請求項1】
ユーザの声道を探るように構成された音声推定(VE)インタフェースと、
前記VEインタフェースに動作可能に結合され、前記VEインタフェースの2つ以上のそれぞれのセンサによって作り出された2つ以上の信号を処理して、前記ユーザに対応する統合された推定音声信号を生成するように構成された信号変換器(SC)モジュールとを含み、
前記VEインタフェースが、それぞれが前記声道を探るように構成された、少なくとも第1のセンサおよび第2のセンサを含み、
前記第1のセンサが、閾値下音響(STA)バーストを前記声道に送って、前記STAバーストに対応するエコー信号を検出するように構成されたSTAパッケージを含み、
前記第2のセンサが、ビデオ・カメラ、赤外線センサもしくは撮像装置、ミリメートル波センサ、筋電センサ、および電磁調音センサからなる群から選択されたセンサを含み、
前記SCモジュールが、前記統合された推定音声信号の生成時に、前記エコー信号および前記第2のセンサによって作り出された少なくとも1つの信号を使用するように構成される、装置。
【請求項2】
前記エコー信号が前記ユーザの無声発話に対応する、請求項1に記載の発明。
【請求項3】
前記VEインタフェースが携帯電話の中に実装される、請求項1に記載の発明。
【請求項4】
前記STAパッケージが、
ある包絡線の形状およびあるキャリア周波数を有する励起パルスを生成するように構成されたSTAスピーカと、
前記声道から前記励起パルスに対応し、エコー信号を含む応答信号をとらえるように構成されたSTAマイクロフォンとを含む、請求項1に記載の発明。
【請求項5】
前記キャリア周波数が約20kHzより大きい、請求項4に記載の発明。
【請求項6】
前記キャリア周波数が約20Hzと約20kHzの間の範囲であり、
前記励起パルスが、生理学的知覚の閾値を下回る強度を有する、請求項4に記載の発明。
【請求項7】
前記SCモジュールが、
トレーニング・セッションの間に参照データを収集し、そして、
前記統合された推定音声信号を生成するために作動セッション中に前記参照データを使用するように構成され、
前記参照データが複数の参照エコー応答(RER)を含み、さらに、
前記作動セッション中に、前記SCモジュールが、
前記STAパッケージから前記ユーザに対応するエコー信号の流れを受信し、そして、
前記統合された推定音声信号を生成するために、受信した各信号を前記RERと比較する、請求項1に記載の発明。
【請求項8】
前記SCモジュールが、前記1つまたは複数の追加センサによって作り出された前記1つまたは複数の信号を使用して、単に前記エコー信号に基づいて得られる精度と比べて前記統合された推定音声信号の精度を上げるように構成される、請求項1に記載の発明。
【請求項9】
前記統合された推定音声信号を発音して、結果として生じた音を前記ユーザに供給するように構成されたイヤピースをさらに含む、請求項1に記載の発明。
【請求項10】
音声推定(VE)インタフェースを使用してユーザの声道を探るステップと、
前記VEインタフェースの2つ以上のそれぞれのセンサによって作り出された2つ以上の信号を処理して、前記ユーザに対応する統合された推定音声信号を生成するステップとを含み、
前記VEインタフェースが、それぞれが前記声道を探るように構成された、少なくとも第1のセンサおよび第2のセンサを含み、
前記第1のセンサが、閾値下音響(STA)バーストを前記声道に送って、前記STAバーストに対応するエコー信号を検出するように構成されたSTAパッケージを含み、
前記第2のセンサが、ビデオ・カメラ、赤外線センサもしくは撮像装置、ミリメートル波センサ、筋電センサ、および電磁調音センサからなる群から選択されたセンサを含み、
前記SCモジュールが、前記統合された推定音声信号の生成時に、前記エコー信号および前記第2のセンサによって作り出された少なくとも1つの信号を使用するように構成される、音声を推定する方法。

【図1A】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図3C】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図1B】
image rotate

【図4】
image rotate


【公表番号】特表2012−510088(P2012−510088A)
【公表日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2011−538627(P2011−538627)
【出願日】平成21年11月16日(2009.11.16)
【国際出願番号】PCT/US2009/064563
【国際公開番号】WO2010/062806
【国際公開日】平成22年6月3日(2010.6.3)
【出願人】(596092698)アルカテル−ルーセント ユーエスエー インコーポレーテッド (965)
【Fターム(参考)】