説明

音声認識装置

【課題】その使用環境下において、音声入力対象者以外の別の人間が存在しても、適切な音声認識を実現することのできる音声認識装置を提供すること。
【解決手段】音声入力対象者(運転者)から発せられた音声を認識する音声認識装置において、運転者による発声の有無を判定する第1の判定手段と、音声入力対象者以外の者(同乗者)による発声の有無を判定する第2の判定手段と、音声認識を開始する音声認識開始条件が成立したか否かを判断する条件成立判断手段とを備えると共に、その音声認識開始条件に、運転者が発声することと、運転者による発声直後に同乗者が発声していないこととを含めるようにする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声認識装置に関し、より詳細には、音声認識技術が採用され、使用者から発せられた音声を認識するための音声認識装置に関する。
【背景技術】
【0002】
音声認識装置は、様々な分野で用いられており、例えば、ナビゲーションシステムなどの車載機器に採用されている。運転者から発せられた音声がマイクロフォンで入力され、マイクロフォンで入力音声が電気信号へ変換される。電気信号へ変換された入力音声は音声処理部で解析され、運転者から発声されたコマンドが認識され、そしてその認識結果に従ってナビゲーション装置が動作することになる。
【0003】
音声認識装置においては、音声認識率の高さが非常に重要であるため、マイクロフォンで入力された音声に対する認識処理を行う期間である処理区間を特定することも大切になる。処理区間を特定せずに、常時認識処理を行うようにしてしまうと、同乗者との会話やカーステレオからの音楽、ノイズなどの影響を受けて誤動作を招くおそれがある。
そのため、従来の音声認識装置には、音声入力の際に使用者に操作される発話スイッチ(トークスイッチ)が設けられているものが多い。発話スイッチには、発話開始スイッチとプレストークスイッチとがある。
【0004】
発話開始スイッチは、使用者によって発話開始の直前に操作されるものであって、発話開始スイッチが操作されると、その操作直後からマイクロフォンで入力された音声に対する認識処理が行われることになる。
他方、プレストークスイッチは、使用者によって発話開始から終了まで押し続けられるものであって、プレストークスイッチが押下されている間、マイクロフォンで入力された音声に対する認識処理が行われることになる。
【0005】
しかしながら、このような音声認識装置では、使用者は発声の度に発話スイッチを操作しなければならず、非常に操作が煩雑になるという問題がある。特に、走行中の運転者による発話スイッチの操作は決して好ましいことではない。音声認識装置を採用するのであれば、手動操作を不要とするのが望ましい。
【0006】
このような問題を解決する技術として、例えば、下記の特許文献1に、使用者の顔がマイクロフォンの方を向いている場合や使用者の唇が動いたり、使用者の視線がマイクロフォンを見るといったような外観状態を検出して、使用者の発声の有無を判定し、使用者による発声が始まったと判定すると、音声認識を開始するようにした技術について開示されている。
【0007】
しかしながら、車両内に同乗者がいる場合など、その使用環境下において音声入力対象者以外の別の人間が存在する場合には、別の人間に話し掛けているのか、音声入力のためにマイクロフォンに向かって声を発しているのか区別がつかず、本来ならば必要がないにも拘らず、音声認識処理が開始され、誤動作を招くおそれがある。例えば、同乗者との会話で音声認識処理が開始されることが考えられる。
【特許文献1】特開平11−352987号公報
【発明の開示】
【課題を解決するための手段及びその効果】
【0008】
本発明は上記課題に鑑みなされたものであって、その使用環境下において、音声入力対象者以外の別の人間が存在しても、適切な音声認識を実現することのできる音声認識装置を提供することを目的としている。
【0009】
上記目的を達成するために本発明に係る音声認識装置(1)は、音声入力対象者から発せられた音声を認識する音声認識装置において、音声入力対象者による発声の有無を判定する第1の判定手段と、音声入力対象者以外の者による発声の有無を判定する第2の判定手段と、音声認識を開始する音声認識開始条件が成立したか否かを判断する条件成立判断手段とを備えると共に、前記音声認識開始条件に、前記第1の判定手段に音声入力対象者による発声有りと判定されることと、音声入力対象者による発声から所定期間が経過するまで、前記第2の判定手段に音声入力対象者以外の者による発声有りと判定されないことと、が含まれていることを特徴としている。
【0010】
上記音声認識装置(1)によれば、音声認識を開始する音声認識開始条件に、音声入力対象者(例えば、運転者)が発声することが含まれているので、音声入力対象者の発声をトリガとして、音声認識を開始させることができる。従って、音声入力対象者にスイッチ押下などの手動操作を行わせなくても、音声入力対象者の所望するタイミングで音声認識を開始することができる。
【0011】
また、前記音声認識開始条件に、音声入力対象者による発声から所定期間が経過するまで(例えば、発声終了から2秒経過するまで)、音声入力対象者以外の者(例えば、同乗者)が発声していないことが含まれているので、音声入力対象者の発声直後に音声入力対象者以外の者が発声した場合には、音声認識は開始されないことになる。
【0012】
音声入力対象者の発声直後に、音声入力対象者以外の者が発声する場合というのは、両者間で会話が交わされている可能性が高い。従って、音声入力対象者による発声が、音声入力対象者以外の者との間の会話の一部である可能性が高い場合には、音声認識は開始されないので、不要な時に音声認識が開始されるのを防止することができる。
【0013】
例えば、下記のようなケースの場合、音声認識は開始されない。
1.音声入力対象者である運転者による発声。
2.上記1の発声より2秒以内に、音声入力対象者以外の者である同乗者による発声。
3.上記2の発声後の運転者による発声。
4.上記3の発声より2秒以内に、同乗者による発声。
【0014】
また、本発明に係る音声認識装置(2)は、上記音声認識装置(1)において、音声入力手段で入力された音声に含まれる個人性情報に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴としている。
【0015】
上記音声認識装置(2)によれば、音声入力手段で入力された音声に含まれる個人性情報に基づいて、発声主が音声入力対象者であるか否かが判断され、この判断結果に基づいて、音声入力対象者による発声の有無、及び音声入力対象者以外の者による発声の有無が判定される。個人性情報としては、例えば、声紋、ホルマント(声道の共振周波数)などが挙げられる。
【0016】
発声主が音声入力対象者である(又はその可能性が高い)と判断されれば、音声入力対象者が発声したと判定され、他方、発声主が音声入力対象者ではない(又はその可能性が高い)と判断されれば、音声入力対象者以外の者が発声したと判定されることになる。従って、音声入力対象者の音声に含まれる個人性情報があれば、これら判定を適切に行うことができる。例えば、音声入力対象者である運転者の声紋データがあれば、運転者の発声及び同乗者の発声を適切に判定することができる。
【0017】
また、本発明に係る音声認識装置(3)は、上記音声認識装置(1)において、音声入力手段で入力された音声から得られる音源方向に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴としている。
【0018】
上記音声認識装置(3)によれば、音声入力手段で入力された音声から得られる音源方向に基づいて、発声主が音声入力対象者であるか否かが判断され、この判断結果に基づいて、音声入力対象者による発声の有無、及び音声入力対象者以外の者による発声の有無が判定される。
【0019】
発声主が音声入力対象者である(又はその可能性が高い)と判断されれば、音声入力対象者が発声したと判定され、他方、発声主が音声入力対象者ではない(又はその可能性が高い)と判断されれば、音声入力対象者以外の者が発声したと判定されることになる。従って、音声入力対象者がどの位置に存在するかを示すデータがあれば、これら判定を適切に行うことができる。例えば、運転者が音声入力対象者であれば、運転席の位置を示すデータがあれば、運転者の発声及び同乗者の発声を適切に判定することができる。
【0020】
また、本発明に係る音声認識装置(4)は、上記音声認識装置(1)において、画像入力手段で入力された画像から得られる音声入力対象者、もしくは音声入力対象者以外の者、あるいは音声入力対象者及び音声入力対象者以外の者の外観状態に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴としている。
【0021】
上記音声認識装置(4)によれば、画像入力手段で入力された音声から得られる音声入力対象者、もしくは音声入力対象者以外の者、あるいは音声入力対象者及び音声入力対象者以外の者の外観状態に基づいて、発声主が音声入力対象者であるか否かが判断され、この判断結果に基づいて、音声入力対象者による発声の有無、及び音声入力対象者以外の者による発声の有無が判定される。
【0022】
顔がマイクロフォンの方を向いたり、唇が動くといったような外観状態は、その者が発声主である可能性が高い。例えば、マイクロフォンで発声が検知された時に、音声入力対象者の唇が動いていれば、発声主は音声入力対象者と判断することができ、他方、マイクロフォンで発声が検知された時に、音声入力対象者以外の者の唇が動いていれば、発声主は音声入力対象者以外の者と判断することができる。また、マイクロフォンで発声が検知された時に、音声入力対象者の唇が動いていなければ、発声主は音声入力対象者以外の者と判断することができる。
【0023】
発声主が音声入力対象者である(又はその可能性が高い)と判断されれば、音声入力対象者が発声したと判定され、他方、発声主が音声入力対象者ではない(又はその可能性が高い)と判断されれば、音声入力対象者以外の者が発声したと判定されることになる。従って、音声入力対象者、もしくは音声入力対象者以外の者、あるいは音声入力対象者及び音声入力対象者以外の者の外観状態を監視することによって、これら判定を適切に行うことができる。例えば、音声入力対象者である運転者の顔を監視すれば、運転者の発声及び同乗者の発声を適切に判定することができる。
【0024】
また、本発明に係る音声認識装置(5)は、上記音声認識装置(1)〜(4)のいずれかにおいて、音声入力対象者による発声から前記所定期間が経過するまでに、前記第2の判定手段により音声入力対象者以外の者が発声したと判定された場合、前記音声認識開始条件を成立させない保留期間を設定する保留期間設定手段を備えていることを特徴としている。
【0025】
音声入力対象者による発声から前記所定期間が経過するまで、音声入力対象者以外の者による発声が無かったとしても、それまで両者の間で会話が交わされていたのであれば、その時の音声入力対象者による発声は、操作対象機器に対するものではなく、会話の一部である可能性が高い。
【0026】
例えば、下記のようなケースが考えられる。
1.音声入力対象者である運転者による発声。
2.上記1の発声より2秒以内に、音声入力対象者以外の者である同乗者による発声。
3.上記2の発声より2秒以内に、運転者による発声。
4.上記3の発声から2秒経過しても、同乗者による発声無し。
上記3での運転者による発声は、操作対象機器に対するものではなく、会話の一部である可能性が高い。
【0027】
上記音声認識装置(5)によれば、音声入力対象者による発声から前記所定期間が経過するまでに、音声入力対象者以外の者が発声したと判定された場合(すなわち、両者間で会話が交わされている可能性が高い場合)、前記音声認識開始条件を成立させない保留期間(例えば、10秒間)が設定される。これにより、上記3での運転者による発声で音声認識が開始されないようにすることができ、不必要な音声認識の開始を防止することができる。
【発明を実施するための最良の形態】
【0028】
以下、本発明に係る音声認識装置の実施の形態を図面に基づいて説明する。図1は、実施の形態(1)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。図中1は、音声認識装置を示しており、音声認識装置1はマイクロフォン6からの音声信号をディジタル信号に変換するA/D変換器2と、マイクロフォン6から得られる数秒程度の(ディジタル信号に変換後の)音声信号を記憶するFIFO(先入れ先出し)タイプのバッファメモリ3と、音声入力対象者である運転手の音声に含まれる個人性情報(例えば、声紋データ)が記憶されたEEPROM4と、CPUやROM、RAMなどを有した音声処理部5とを含んで構成されている。
【0029】
音声処理部5には、マイクロフォン6で入力された音声に含まれる個人性情報、及びEEPROM4に記憶されている個人性情報に基づいて、発声主が運転者(音声入力対象者)であるか否かを判断する機能(話者認識機能)や、マイクロフォン6からの音声信号に対する音声認識処理を行う機能などが装備されている。また、音声処理部5で認識処理されることによって得られた音声コマンドに応じた信号が車内通信でナビゲーション装置7へ送信されるようになっている。
図2に示したように、マイクロフォン6は車両8の運転席9及び助手席10の前方略中央部に設置され、運転者により発せられた音声及び同乗者により発せられた音声の両方を適切に取得することができるようになっている。
【0030】
次に、実施の形態(1)に係る音声認識装置1における音声処理部5の行う処理動作[1]を図3に示したフローチャートに基づいて説明する。なお、この処理動作[1]はナビゲーション装置7からの起動要求、又はイグニッションスイッチONを受けて行われる動作である。
【0031】
まず、マイクロフォン6で音声の入力があったか否か(例えば、ある大きさ以上の音量の音声入力があったか否か)を判断し(ステップS1)、音声入力があったと判断すれば、入力音声に含まれる個人性情報、及びEEPROM4に記憶されている(運転者の音声に含まれる)個人性情報に基づいて、話者認識処理を行い(ステップS2)、発声主が音声入力対象者の運転者であるか否かを判断する(ステップS3)。一方、音声入力は無いと判断すれば、そのままステップS1へ戻る。
【0032】
ステップS3において、発声主が運転者であると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、マイクロフォン6での音声入力が終了したか否か(例えば、ある大きさ以上の音量の音声入力がなくなったか否か)を判断する(ステップS4)。一方、発声主が運転者でないと判断すれば、そのままステップS1へ戻る。
【0033】
ステップS4において、音声入力が終了した(すなわち、運転者による発声が終了した)と判断すれば、次に、マイクロフォン6で音声の入力があったか否か(すなわち、改めて別の音声入力があったか否か)を判断する(ステップS5)。
音声入力があったと判断すれば、入力音声に含まれる個人性情報、及びEEPROM4に記憶されている(運転者の音声に含まれる)個人性情報に基づいて、話者認識処理を行い(ステップS6)、発声主が同乗者(音声入力対象者以外の者)であるか否かを判断する(ステップS7)。
【0034】
発声主は同乗者ではないと判断すれば、次に、運転者の発声終了から2秒経過しているか否かを判断する(ステップS8)。ステップS5において、音声入力が無いと判断した場合にも、ステップS8へ進み、上記と同様の判断処理を行う。ここで、運転者の発声終了から2秒経過していると判断されるのは、運転者の発声終了から2秒経過するまでに、同乗者が発声していない場合である。つまり、運転者の発声直後に、同乗者が発声していない場合である。
運転者による発声直後に同乗者が発声する場合というのは、両者間で会話が交わされている可能性が高い。換言すれば、その直後に同乗者による発声の無い運転者の発声は、会話ではなく、ナビゲーション装置7に対する音声操作の意思表示である可能性が高い。
【0035】
ステップS8において、運転者の発声終了から2秒経過していると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、バッファメモリ3から音声信号を読み出して、その音声信号に対する認識処理を行い(ステップS9)、認識処理によって得られた音声コマンドに応じた信号を車内通信でナビゲーション装置7へ送信する(ステップS10)。
【0036】
その後、音声認識終了条件が成立したか否かを判断し(ステップS11)、音声認識終了条件が成立していると判断すれば、ステップS1へ戻り、音声認識終了条件が成立していないと判断すれば、ステップS9へ戻り、音声認識処理を継続する。なお、音声認識終了条件としては、例えば、音声入力がある時間以上継続して検出されないことが挙げられる。一方、ステップS8において、運転者の発声終了から2秒経過していないと判断すればステップS5へ戻る。
【0037】
また、ステップS7において、発声主は同乗者であると判断すれば、つまり運転者の発声終了から2秒経過するまでに同乗者が発声したと判断すれば、運転者の発声は両者の間での会話の一部である可能性が高い(すなわち、ナビゲーション装置7に対する音声操作の意思表示である可能性は低い)ので、音声認識開始条件は不成立として、ステップS1へ戻る。
【0038】
上記実施の形態(1)に係る音声認識装置によれば、音声認識を開始する音声認識開始条件に、音声入力対象者(運転者)が発声したことが含まれているので、音声入力対象者の発声をトリガとして、音声認識を開始させることができる。従って、音声入力対象者にスイッチ押下などの手動操作を行わせなくても、音声入力対象者の所望するタイミングで音声認識を開始することができる。
【0039】
また、前記音声認識開始条件に、音声入力対象者による発声終了から2秒経過するまで、音声入力対象者以外の者(同乗者)が発声していないことが含まれているので、音声入力対象者の発声直後に、音声入力対象者以外の者が発声した場合には、音声認識は開始されないことになる。
【0040】
音声入力対象者の発声直後に、音声入力対象者以外の者が発声する場合というのは、両者間で会話が交わされている可能性が高い。従って、音声入力対象者による発声が、音声入力対象者以外の者との間での会話の一部である可能性が高い場合には、音声認識は開始されないので、不要な時に音声認識が開始されるのを防止することができる。
【0041】
図4は、実施の形態(2)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。図中21は、音声認識装置を示しており、音声認識装置21はマイクロフォン26、27からの音声信号をディジタル信号に変換するA/D変換器22、23と、マイクロフォン26、27から得られる数秒程度の(ディジタル信号に変換後の)音声信号を記憶するFIFOタイプのバッファメモリ24と、CPUやROM、RAMなどを有した音声処理部25とを含んで構成されている。
【0042】
音声処理部25には、マイクロフォン26、27で入力された音声から音源方向を特定する機能や、マイクロフォン26、27からの音声信号に対する音声認識処理を行う機能などが装備されている。また、音声処理部25で認識処理されることによって得られた音声コマンドに応じた信号が車内通信でナビゲーション装置7へ送信されるようになっている。
【0043】
マイクロフォン26、27は指向性を有しており、図5に示したように、マイクロフォン26は車両8の助手席10の前方にその指向性が運転席9を向くように設置され、マイクロフォン27は車両8の運転席9の前方にその指向性が助手席10を向くように設置され、運転者により発せられた音声がマイクロフォン26で、同乗者により発せられた音声がマイクロフォン27で適切に取得することができるようになっている。
【0044】
次に、実施の形態(2)に係る音声認識装置21における音声処理部25の行う処理動作[2]を図6に示したフローチャートに基づいて説明する。なお、この処理動作[2]はナビゲーション装置7からの起動要求、又はイグニッションスイッチONを受けて行われる動作である。
【0045】
まず、マイクロフォン26、27で音声の入力があったか否か(例えば、ある大きさ以上の音量の音声入力があったか否か)を判断し(ステップS21)、音声入力があったと判断すれば、マイクロフォン26、27で入力された音声からその音源方向を特定する処理を行い(ステップS22)、発声主が音声入力対象者の運転者であるか否かを判断する(ステップS23)。一方、音声入力は無いと判断すれば、そのままステップS21へ戻る。
【0046】
マイクロフォン26へ入力される音量の方が、マイクロフォン27へ入力される音量よりも大きい場合、音源方向は運転席9の方向であると判断することができ、その逆に、マイクロフォン26へ入力される音量の方が、マイクロフォン27へ入力される音量よりも小さい場合、音源方向は助手席10の方向であると判断することができる。
【0047】
ステップS23において、発声主が運転者であると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、マイクロフォン26、27での音声入力が終了したか否か(例えば、ある大きさ以上の音量の音声入力がなくなったか否か)を判断する(ステップS24)。一方、発声主が運転者でないと判断すれば、そのままステップS21へ戻る。
【0048】
ステップS24において、音声入力が終了した(すなわち、運転者による発声が終了した)と判断すれば、次に、マイクロフォン26、27で音声の入力があったか否か(すなわち、改めて別の音声入力があったか否か)を判断する(ステップS25)。
音声入力があったと判断すれば、マイクロフォン26、27で入力された音声からその音源方向を特定する処理を行い(ステップS26)、発声主が同乗者(音声入力対象者以外の者)であるか否かを判断する(ステップS27)。
【0049】
発声主は同乗者ではないと判断すれば、次に、運転者の発声終了から2秒経過しているか否かを判断する(ステップS28)。ステップS25において、音声入力が無いと判断した場合にも、ステップS28へ進み、上記と同様の判断処理を行う。ここで、運転者の発声終了から2秒経過していると判断されるのは、運転者の発声終了から2秒経過するまでに、同乗者が発声していない場合である。つまり、運転者の発声直後に、同乗者が発声していない場合である。
運転者による発声直後に同乗者が発声する場合というのは、両者間で会話が交わされている可能性が高い。換言すれば、その直後に同乗者による発声の無い運転者の発声は、会話ではなく、ナビゲーション装置7に対する音声操作の意思表示である可能性が高い。
【0050】
ステップS28において、運転者の発声終了から2秒経過していると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、バッファメモリ24から音声信号を読み出して、その音声信号に対する認識処理を行い(ステップS29)、認識処理によって得られた音声コマンドに応じた信号を車内通信でナビゲーション装置7へ送信する(ステップS30)。
【0051】
その後、音声認識終了条件が成立したか否かを判断し(ステップS31)、音声認識終了条件が成立していると判断すれば、ステップS21へ戻り、音声認識終了条件が成立していないと判断すれば、ステップS29へ戻り、音声認識処理を継続する。なお、音声認識終了条件としては、例えば、音声入力がある時間以上継続して検出されないことが挙げられる。一方、ステップS28において、運転者の発声終了から2秒経過していないと判断すればステップS25へ戻る。
【0052】
また、ステップS27において、発声主は同乗者であると判断すれば、つまり運転者の発声終了から2秒経過するまでに同乗者が発声したと判断すれば、運転者の発声は両者の間での会話の一部である可能性が高い(すなわち、ナビゲーション装置7に対する音声操作の意思表示である可能性は低い)ので、音声認識開始条件は不成立として、ステップS21へ戻る。
【0053】
図7は、実施の形態(3)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。図中31は、音声認識装置を示しており、音声認識装置31はマイクロフォン36からの音声信号をディジタル信号に変換するA/D変換器32と、マイクロフォン36から得られる数秒程度の(ディジタル信号に変換後の)音声信号を記憶するFIFOタイプのバッファメモリ33と、CPUやROM、RAMなどを有した音声処理部34と、CPUやROM、RAMなどを有し、CCDカメラ37からの画像データを処理する画像処理部35とを含んで構成されている。
【0054】
音声処理部34には、マイクロフォン36からの音声信号に対する音声認識処理を行う機能などが装備されている。また、音声処理部34で認識処理されることによって得られた音声コマンドに応じた信号が車内通信でナビゲーション装置7へ送信されるようになっている。画像処理部35には、CCDカメラ37から得られる画像データに基づいて、運転者及び同乗者の外観状態(特に唇の動き)を監視し、発声主が音声入力対象者の運転者、同乗者のいずれであるのかを特定する機能などが装備されている。
【0055】
マイクロフォン36は指向性を有しており、図8に示したように、車両8の運転席9の前方にその指向性が運転席9を向くように設置され、運転者により発せられた音声を適切に取得することができるようになっている。またCCDカメラ37は運転席9及び助手席10の前方中央部に設置され、運転者及び同乗者の外観状態を撮影することができるようになっている。
【0056】
次に、実施の形態(3)に係る音声認識装置31における音声処理部34の行う処理動作[3]を図9に示したフローチャートに基づいて説明する。なお、この処理動作[3]はナビゲーション装置7からの起動要求、又はイグニッションスイッチONを受けて行われる動作である。
【0057】
まず、マイクロフォン36で音声の入力があったか否か(例えば、ある大きさ以上の音量の音声入力があったか否か)を判断し(ステップS41)、音声入力があったと判断すれば、画像処理部35へ発声主特定情報の送信を要求し(ステップS42)、画像処理部35から送られてきた発声主特定情報に基づいて、発声主が音声入力対象者の運転者であるか否かを判断する(ステップS43)。一方、音声入力は無いと判断すれば、そのままステップS41へ戻る。
【0058】
ステップS43において、発声主が運転者であると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、マイクロフォン36での音声入力が終了したか否か(例えば、ある大きさ以上の音量の音声入力がなくなったか否か)を判断する(ステップS44)。一方、発声主が運転者でないと判断すれば、そのままステップS41へ戻る。
【0059】
ステップS44において、音声入力が終了した(すなわち、運転者による発声が終了した)と判断すれば、次に、マイクロフォン36で音声の入力があったか否か(すなわち、改めて別の音声入力があったか否か)を判断する(ステップS45)。
音声入力があったと判断すれば、画像処理部35へ発声主特定情報の送信を要求し(ステップS46)、画像処理部35から送られてきた発声主特定情報に基づいて、発声主が同乗者(音声入力対象者以外の者)であるか否かを判断する(ステップS47)。
【0060】
発声主は同乗者ではないと判断すれば、次に、運転者の発声終了から2秒経過しているか否かを判断する(ステップS48)。ステップS45において、音声入力が無いと判断した場合にも、ステップS48へ進み、上記と同様の判断処理を行う。ここで、運転者の発声終了から2秒経過していると判断されるのは、運転者の発声終了から2秒経過するまでに、同乗者が発声していない場合である。つまり、運転者の発声直後に、同乗者が発声していない場合である。
運転者による発声直後に同乗者が発声する場合というのは、両者間で会話が交わされている可能性が高い。換言すれば、その直後に同乗者による発声の無い運転者の発声は、会話ではなく、ナビゲーション装置7に対する音声操作の意思表示である可能性が高い。
【0061】
ステップS48において、運転者の発声終了から2秒経過していると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、バッファメモリ33から音声信号を読み出して、その音声信号に対する認識処理を行い(ステップS49)、認識処理によって得られた音声コマンドに応じた信号を車内通信でナビゲーション装置7へ送信する(ステップS50)。
【0062】
その後、音声認識終了条件が成立したか否かを判断し(ステップS51)、音声認識終了条件が成立していると判断すれば、ステップS41へ戻り、音声認識終了条件が成立していないと判断すれば、ステップS49へ戻り、音声認識処理を継続する。なお、音声認識終了条件としては、例えば、音声入力がある時間以上継続して検出されないことが挙げられる。一方、ステップS48において、運転者の発声終了から2秒経過していないと判断すればステップS45へ戻る。
【0063】
また、ステップS47において、発声主は同乗者であると判断すれば、つまり運転者の発声終了から2秒経過するまでに同乗者が発声したと判断すれば、運転者の発声は両者の間での会話の一部である可能性が高い(すなわち、ナビゲーション装置7に対する音声操作の意思表示である可能性は低い)ので、音声認識開始条件は不成立として、ステップS41へ戻る。
【0064】
上記実施の形態(1)〜(3)に係る音声認識装置では、音声入力対象者である運転者の発声直後に、同乗者による発声があると(ステップS7、S27、S47で「Y」と判断)、音声認識開始条件は不成立として、ステップS1、S21、S41へ戻るようにしているが、別の実施の形態に係る音声認識装置では、例えば、図10に示したように、音声入力対象者である運転者の発声直後に、同乗者による発声があった場合、ステップS7Aへ進んで保留するいった、保留期間(例えば、10秒)を設けるようにしても良い。このような保留期間を設けるのは、下記のようなケースでの会話による音声認識処理の開始を防止するためである。
【0065】
運転者による発声直後に、同乗者による発声が無かったとしても、それまで両者の間で会話が交わされていたのであれば、その時の運転者による発声は、ナビゲーション装置7に対するものではなく、同乗者への応答である可能性が高い。例えば、下記のようなケースが考えられる。
1.運転者による発声。
2.上記1の発声より2秒以内に、同乗者による発声。
3.上記2の発声より2秒以内に、運転者による発声。
4.上記3の発声から2秒経過しても、同乗者による発声無し。
上記3での運転者による発声は、ナビゲーション装置7に対するものではなく、同乗者に対する応答である可能性が高い。
【図面の簡単な説明】
【0066】
【図1】本発明の実施の形態(1)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。
【図2】マイクロフォンの設置場所を説明するための説明図である。
【図3】実施の形態(1)に係る音声認識装置における音声処理部の行う処理動作を示したフローチャートである。
【図4】実施の形態(2)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。
【図5】マイクロフォンの設置場所を説明するための説明図である。
【図6】実施の形態(2)に係る音声認識装置における音声処理部の行う処理動作を示したフローチャートである。
【図7】実施の形態(3)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。
【図8】マイクロフォン及びCCDカメラの設置場所を説明するための説明図である。
【図9】実施の形態(3)に係る音声認識装置における音声処理部の行う処理動作を示したフローチャートである。
【図10】別の実施の形態に係る音声認識装置における音声処理部の行う処理動作を示したフローチャートである。
【符号の説明】
【0067】
1、21、31 音声認識装置
2、22、23、32 A/D変換器
3、24、33 バッファメモリ
4 EEPROM
5、25、34 音声処理部
6、26、27、36 マイクロフォン
7 ナビゲーション装置
35 画像処理部
37 CCDカメラ

【特許請求の範囲】
【請求項1】
音声入力対象者から発せられた音声を認識する音声認識装置において、
音声入力対象者による発声の有無を判定する第1の判定手段と、
音声入力対象者以外の者による発声の有無を判定する第2の判定手段と、
音声認識を開始する音声認識開始条件が成立したか否かを判断する条件成立判断手段とを備えると共に、
前記音声認識開始条件に、前記第1の判定手段に音声入力対象者による発声有りと判定されることと、
音声入力対象者による発声から所定期間が経過するまで、前記第2の判定手段に音声入力対象者以外の者による発声有りと判定されないことと、が含まれていることを特徴とする音声認識装置。
【請求項2】
音声入力手段で入力された音声に含まれる個人性情報に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、
該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴とする請求項1記載の音声認識装置。
【請求項3】
音声入力手段で入力された音声から得られる音源方向に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、
該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴とする請求項1記載の音声認識装置。
【請求項4】
画像入力手段で入力された画像から得られる音声入力対象者、もしくは音声入力対象者以外の者、あるいは音声入力対象者及び音声入力対象者以外の者の外観状態に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、
該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴とする請求項1記載の音声認識装置。
【請求項5】
音声入力対象者による発声から前記所定期間が経過するまでに、前記第2の判定手段により音声入力対象者以外の者が発声したと判定された場合、
前記音声認識開始条件を成立させない保留期間を設定する保留期間設定手段を備えていることを特徴とする請求項1〜4のいずれかの項に記載の音声認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2007−219207(P2007−219207A)
【公開日】平成19年8月30日(2007.8.30)
【国際特許分類】
【出願番号】特願2006−40397(P2006−40397)
【出願日】平成18年2月17日(2006.2.17)
【出願人】(000237592)富士通テン株式会社 (3,383)
【Fターム(参考)】