説明

音声入力装置

【課題】音声認識の精度をより向上することのできる「音声入力装置」を提供する。
【解決手段】ゲイン制御部10は、オーディオ信号のスピーカ3への出力を増幅する出力調整アンプ22のゲインを、発話音声抽出部7で推定されるA/D変換器6が出力するデジタル信号中のオーディオ信号成分のレベルの大きさが、発話音声抽出部7が過去に推定した、A/D変換器6が出力するデジタル信号中の発話音声信号成分のレベルの大きの最小値よりも小さくなるように設定する。また、A/D変換器6へ入力する信号を増幅する入力調整アンプ5のゲインを、発話音声抽出部7が推定した、A/D変換器6が出力するデジタル信号中の発話音声信号成分のレベルの大きさと、A/D変換器6の出力可能な最大レベルとの比率が、1:2となるように設定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術に関するものである。
【背景技術】
【0002】
ユーザの発話音声を音声認識することにより音声入力を可能とする音声入力装置が広く用いられている。また、オーディオ装置と共に用いられる音声入力装置としては、自動車において各種カーオーディオ装置と共に用いられるカーナビゲーション装置などが知られている。
【0003】
そして、このようなオーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術としては、マイクでピックアップした音声信号の振幅が、音声認識の前処理として行うA/D変換に用いるA/D変換器に許容される最大入力電圧値に近い大きさとなるように、A/D変換前に行う音声信号の増幅のゲインを調整する技術が知られている。
【0004】
図4aに、このような音声入力装置の構成を示す。
図中において、ラジオ受信機やCDプレイヤなどであるオーディオ機器402から出力されたオーディオ信号は、オーディオアンプ403の出力アンプ4031で、オーディオ操作部401を介してユーザから指定されたゲインで増幅されスピーカ404から出力される。
【0005】
スピーカ404から出力されたオーディオ音A及びユーザの発話音声Sは、マイク405から入力し電気信号に変換される。マイク405の出力信号は入力調整アンプ406で増幅された後、A/D変換器407でデジタル信号に変換され音声認識装置408に入力する。音声認識装置408は、入力するA/D変換器407の出力信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置409に入力する。情報処理装置409は、入力する音声認識装置の認識結果に応じた処理を行う。
【0006】
ここで、トークスイッチ411は、ユーザが音声入力を行う場合に、ユーザがオン状態とするスイッチであり、このトークスイッチ411がオンの状態である期間のみ音声認識装置408は前述した音声認識処理を行う。また、ゲイン制御部410は、トークスイッチ411がオンの状態である期間、A/D変換器407から出力されるデジタル信号のダイナミックレンジが、A/D変換器407の出力可能な最大ダイナミックレンジ以下の当該最大ダイナミックレンジに近い所定の大きさとなるように、すなわち、A/D変換器407へ入力する信号の最大振幅が、A/D変換器407に許容される最大入力電圧値以下の当該入力レンジに近い所定の大きさとなるように、入力調整アンプ406の増幅のゲインを調整する。すなわち、たとえば、A/D変換器407の入力レンジが0V-10Vであれば、A/D変換器に入力する信号の振幅が9.5Vとなるように入力調整アンプ406の増幅のゲインを調整する。
【0007】
このようにすることにより、A/D変換器407に入力する信号がA/D変換器407の入力レンジをオーバーしてしまうことを排除しつつ、A/D変換器407に入力する信号を、A/D変換によってできるだけ多くのビット数を用いて表現すること、すなわち、できるだけ高い精度で表現することが可能となり、後段の音声認識の精度を向上することができるようになる。
【0008】
また、オーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術としては、音声入力受付時に、オーディオ装置からの出力オーディオ信号のゲインを調整する技術も知られている(たとえば、特許文献1)。
図4bに、このような音声入力装置の構成を示す。
図中において、オーディオ機器412から出力されたオーディオ信号は、オーディオアンプ413の出力調整アンプ4131で増幅されスピーカ414から出力される。
スピーカ414から出力されたオーディオ音A及びユーザの発話音声Sは、マイク415に入力し電気信号となる。マイク415の出力信号は入力アンプ416で増幅された後A/D変換器417でデジタル信号に変換されて発話音声抽出部418に入力する。発話音声抽出部418は、オーディオ機器412の出力オーディオ信号を参照して、A/D変換器417の出力するデジタル信号からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置419に入力する。音声認識装置419は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置420に入力する。情報処理装置420は、入力する音声認識装置の認識結果に応じた処理を行う。
【0009】
ここで、トークスイッチ422がオンの状態である期間のみ音声認識装置は前述した音声認識処理を行う。そして、ゲイン制御部421は、トークスイッチがオンの状態である期間、スピーカ414に出力されるオーディオ信号が所定のレベル以下となるように、出力調整アンプ4131のゲインを調整する。また、ゲイン制御部4131は、トークスイッチ421がオフである期間には、オーディオ操作部411を介してユーザから指定されたゲインとなるように、出力調整アンプ4131のゲインを調整する。
【0010】
このような音声入力装置によれば、音声認識時に、ユーザにある程度オーディオ信号が聞こえるようにしつつ、ユーザの発話音声と共にマイク415に入力してしまうオーディオ音Aのレベルを、音声認識の妨げとならないように適当に小さく抑えることができる。
【特許文献1】特開2001-236090号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
図4aに示した音声入力装置によれば、入力調整アンプ406のゲインを、マイク405により得られる、ユーザの発話音声Sとオーディオ音Aが混在した信号に応じて制御するため、マイク405に入力するオーディオ音Aのレベルがマイクに入力する発話音声Sのレベルに対して比較的大きい場合には、音声認識の対象となる発話音声を、A/D変換によって多くのビット数を用いて表現すること、すなわち、できるだけ高い精度で表現することができなくなり音声認識の精度が劣化する。
【0012】
一方、図4bに示した音声入力装置によれば、マイク415に入力するオーディオ音のレベルを小さく抑制できることが期待できるが、以下の点で不十分である。
すなわち、この音声入力装置によれば、スピーカ414に出力されるオーディオ信号が所定のレベル以下となるように出力調整アンプ4131のゲインを調整するが、音声認識の妨げとならない範囲で、できるだけユーザがオーディオ信号を良好に聞くことができるように、スピーカ414から出力されるオーディオ音のレベルを制御することができない。
【0013】
なお、図4a、bの音声入力装置を組み合わせても以上の課題は同様に残ることになる。
そこで、本発明は、音声入力装置において、ユーザのオーディオ音の聞き取りをできるだけ妨げないようにしつつ、音声認識の精度をより向上することを課題とする。
【課題を解決するための手段】
【0014】
前記課題達成のために、本発明は、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づくオーディオ音を出力するスピーカと併用される音声入力装置を、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号によって駆動され、オーディオ音を出力するスピーカと、前記スピーカから出力されるオーディオ音とユーザの発話音声をピックアップするマイクと、マイクから出力された信号を増幅する入力調整アンプと、前記入力調整アンプで増幅された信号を、デジタル信号に変換するA/D変換器と、前記A/D変換器の出力するデジタル信号であるA/D変換器出力信号から当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出する発話音声信号抽出手段と、前記発話音声信号抽出手段が抽出した発話音声信号を対象として音声認識処理を行う音声認識処理手段と、前記発話音声信号抽出手段が抽出した発話音声信号の大きさに基づいて、前記入力調整アンプのゲインを、前記A/D変換器出力信号中において、発話音声信号成分が所定の大きさのレベルを有するように調整するゲイン制御手段とを含めて構成したものである。
【0015】
このような音声入力装置によれば、発話音声信号抽出手段が抽出した発話音声信号のレベルに基づいて、入力調整アンプのゲインの調整を行うので、確実にA/D変換器に一定のレベルの発話音声信号成分が入力されるようにすることができる。したがって、発話音声信号成分をA/D変換によって所望のビット数を用いて表現すること、すなわち、所望の精度で表現することができ、後段の音声認識の精度を向上することができる。
【0016】
ここで、このような音声入力装置には、さらに、オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプを設け、前記ゲイン制御手段は、少なくとも前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御するようにすることが好ましい。また、この場合には、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさとオーディオ機器が出力するオーディオ信号のレベルの大きさとに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御するようにしてもよい。または、前記発話音声抽出手段を、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいて、A/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出するものとし、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとに基づいて、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように, 前記出力調整アンプのゲインを制御するようにしてもよい。または、前記発話音声信号抽出手段が抽出した発話音声信号の大きさより、前記マイクから出力される信号中の発話音声信号成分のレベルの現在までの最小値を算出する最小発話音声レベル算出手段を設け、前記ゲイン制御手段は、前記出力調整アンプのゲインを、前記マイクから出力される信号中の発話音声信号成分のレベルの大きさが、前記最小発話音声レベル算出手段が算出した最小値と等しい大きさである場合にも、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように、前記出力調整アンプのゲインを制御するようにしてもよい。
【0017】
このようにすることにより、確実にA/D変換器に一定のレベルの発話音声信号成分が入力されるようにしつつ、発話音声信号成分と共にA/D変換器に入力するオーディオ信号成分によって、A/D変換器の入力がA/D変換器の入力レンジを超えてしまうことを抑止することができる。また、音声認識のために必要な、一定のレベルの発話音声信号成分のA/D変換器への入力を確保できる範囲内において、できるだけ大きなレベルでオーディオ音をユーザに聞かせることができる。
【0018】
また、以上の音声入力装置は、前記発話音声抽出手段を、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいてオーディオ機器の出力を入力とし前記A/D変換器の出力を出力とする系の伝達関数を推定し、オーディオ機器が出力するオーディオ信号と推定した伝達関数に基づいてA/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を算定し、算定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出するものとし、前記ゲイン制御手段において、ユーザが音声入力を行わない期間に、前記出力アンプのゲインを所定値に設定すると共に、前記A/D変換器出力信号中において、当該A/D変換器出力信号の一成分であるオーディオ信号成分が所定の大きさのレベルを有するように入力調整アンプを調整するようにしてもよい。
【0019】
このようにすることにより、ユーザが音声入力を行わない期間には、出力調整アンプと入力調整アンプとのゲインを、発話音声抽出手段に入力するA/D変換器出力信号中のオーディオ信号成分のレベルが大きくなるようにして、この期間に、オーディオ機器が出力するオーディオ信号の伝達関数の推定がより正確に行われるようにすることができる。
【発明の効果】
【0020】
以上のように、本発明によれば、音声入力装置において、ユーザのオーディオ信号の聞き取りをできるだけ妨げないようにしつつ、音声認識の精度をより向上することができる。
【発明を実施するための最良の形態】
【0021】
以下、本発明に係る音声入力装置の実施形態について説明する。
図1に、音声入力装置の構成を示す。
図示するように音声入力装置は、ラジオ受信機やCDプレイヤなどであるオーディオ機器1、オーディオアンプ2、スピーカ3、マイク4、入力調整アンプ5、A/D変換器6、発話音声抽出部7、音声認識装置8、情報処理装置9、ゲイン制御部10、トークスイッチ11、オーディオ操作部12を備えている。
【0022】
また、オーディオアンプ2は、ボリューム調整アンプ21と、出力調整アンプ22とを備えている。
このような構成において、オーディオ機器1から出力されたオーディオ信号は、オーディオアンプ2で増幅され、スピーカ404から出力される。
スピーカ3から出力されたオーディオ音A1及びユーザの発話音声Sは、マイク4から入力し、入力調整アンプ5で増幅された後A/D変換器6でデジタル信号に変換され、発話音声抽出部7に入力する。発話音声抽出部7は、オーディオ機器1の出力するオーディオ信号Aを参照して、A/D変換器6の出力するデジタル信号からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置8に入力する。音声認識装置8は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置9に入力する。情報処理装置9は、入力する音声認識装置8の認識結果に応じた処理を行う。
【0023】
ここで、トークスイッチ11は、ユーザが音声入力を行う場合に、ユーザがオン状態とするスイッチであり、このトークスイッチ11がオンの状態である期間のみ音声認識装置408は前述した音声認識処理を行う。
また、以上の動作中において、オーディオアンプ2の、ボリューム調整アンプ21は、オーディオ操作部12を介してユーザから指定されたゲインで、オーディオ機器1から入力するオーディオ信号A1を増幅し、出力調整アンプ22に出力する。
また、オーディオアンプ2の、出力調整アンプ22は、ゲイン制御部10から指定されたゲインで、ボリューム調整アンプ21から入力するオーディオ信号を増幅し、スピーカ3に出力する。そして、入力調整アンプ5も、ゲイン制御部10から指定されたゲインで、マイク4から入力する入力音声信号を増幅し、A/D変換器6に出力する。なお、ゲイン制御部10の、出力調整アンプ22、入力調整アンプ5のゲイン制御の動作については後述する。
【0024】
次に、図2に、発話音声抽出部7の構成を示す。
図示するように、発話音声抽出部7は、学習制御部71、係数更新部72、適応フィルタ73、加算器74より構成される。
フィルタ73は、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を模擬するフィルタであり、このフィルタ73のインパルス応答を算出、更新するのが係数更新部72であり、フィルタ73と係数更新部72とで適応フィルタを構成している。係数更新部72は、LMS(平均二乗誤差)アルゴリズムやNLMS(正規化平均二乗誤差)アルゴリズムなどにより、加算器74が出力する、A/D変換器6の出力とフィルタ73の出力との差分信号のパワーが最小となるようにフィルタ73のフィルタ係数xjを算出し、フィルタ73に設定する処理を繰り返す。
【0025】
そして、学習制御部71は、このような係数更新部72の係数更新動作を、トークスイッチ11がオフの期間のみ行わせ、トークスイッチ11がオンの期間に停止させる制御を行う。このようにすることにより、ユーザが発話していない、A/D変換器6の出力の支配的な成分がオーディオ信号であることが期待できる期間にのみフィルタ73のフィルタ係数xjの更新を行うことができるので、より適正にフィルタ73のインパルス応答を、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を模擬するように設定することができる。
【0026】
さて、図示するように、フィルタ73のインパルス応答が、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を正確に模擬している場合、加算器74が出力する、A/D変換器6の出力とフィルタ73の出力の差分信号は、A/D変換器6の出力から、オーディオ信号成分を除去した発話音声成分のみの信号となる。そして、この差分信号が、前述したオーディオ信号成分をキャンセル後のデジタル信号として音声認識装置8に送られ、音声認識装置8において、このデジタル信号を対象として音声認識が行われることになる。
【0027】
また、図示するように、フィルタ73の出力と加算器74の出力はゲイン制御部10にも送られる。そして、上述のようにフィルタ73の出力は、A/D変換器6の出力中のオーディオ信号成分の推定値を表し、加算器74の出力はA/D変換器6の出力中の発話音声信号成分の推定値を表す。以下、このフィルタ73の出力を「推定オーディオ信号」と、加算器74の出力を「推定発話音声信号」と呼ぶ。
【0028】
以下、ゲイン制御部10が行う出力調整アンプ22、入力調整アンプ5のゲイン制御の動作について説明する。
図3に、ゲイン制御部10が行うゲイン調整処理の手順を示す。なお、このゲイン調整処理は、音声入力装置が起動されたときに起動され、処理を開始する。
図示するように、この処理では、まず、トークスイッチ11がオンかどうかを調べる(ステップ302)。そして、トークスイッチ11がオフであれば、出力調整アンプ22のゲインを1に設定する(ステップ314)と共に、入力調整アンプ5のゲインを、A/D変換器6の出力するデジタル信号のダイナミックレンジと、A/D変換器6の出力可能な最大ダイナミックレンジとの比率が、1-Δ:1となるように設定する(ステップ316)。ここで、Δは、A/D変換器6に入力する入力音声信号のレベルが、A/D変換器6の入力レンジを超えてしまわないように設定したマージンであり、たとえば、0.05である。
【0029】
さて、トークスイッチ11がオンである場合には(ステップ302)、ゲイン調整処理開始後、初めてトークスイッチ11がオンとなったのかどうかを調べ(ステップ304)、初めてトークスイッチ11がオンとなったのであれば、まず、出力調整アンプ22のゲインをディフォルト値に設定する(ステップ318)。このディフォルト値は、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合でも、入力調整アンプ5で増幅される前の入力音声信号中の発話音声信号成分の大きさが、入力音声信号中のオーディオ信号成分の大きさよりも大きくなることが期待できる値とする。
【0030】
ただし、ここでは、オーディオ機器1から入力するオーディオ信号の大きさとボリューム調整アンプ21のゲインとに基づいて、出力調整アンプ22から出力されるオーディオ信号の大きさがデフォルト値以下となるように、出力調整アンプ22のゲインを調整するようにしてもよい。ここで、この出力調整アンプ22から出力されるオーディオ信号の大きさのデフォルト値は、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合でも、入力調整アンプ5で増幅される前の入力音声信号中の発話音声信号成分の大きさが、入力音声信号中のオーディオ信号成分の大きさよりも大きくなることが期待できる値とする。
【0031】
または、ここでは、推定オーディオ信号のダイナミックレンジを入力調整アンプ5のゲインで除した値、すなわち、入力調整アンプ5で増幅される前の入力音声信号中のオーディオ信号成分の大きさが、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合に生じると推定される、入力調整アンプ5で増幅される前の入力音声信号中の発話成分信号の大きさより小さくなるように、出力調整アンプ22のゲインを設定するようにしてもよい。
【0032】
そして、次に、入力調整アンプ5のゲインを、発話音声抽出部7から入力する推定発話音声信号のダイナミックレンジと、A/D変換器6の出力可能な最大ダイナミックレンジとの比率が、1:2となるように設定する(ステップ320)。また、推定発話音声信号のダイナミックレンジを入力調整アンプ5のゲイン値で除した値、すなわち、入力調整アンプ5で増幅される前の入力音声信号中の発話音声信号成分の大きさを、入力発話音声レベルとして記憶する(ステップ322)。
【0033】
そして、以上のステップ320と322の処理を、トークスイッチ11がオフになるまで繰り返し(ステップ324)、トークスイッチ11がオフとなったならば、ステップ302からの処理に戻る。
一方、ステップ304で、初めてトークスイッチ11がオンとなったのではないと判定された場合には、まず、出力調整アンプ22のゲインを、推定オーディオ信号のダイナミックレンジを入力調整アンプ5のゲインで除した値が、記憶しておいた入力発話音声レベルのうちの最小の値よりも小さくなるように設定する(ステップ306)。
【0034】
ただし、ここでは、予め入力発話音声のレベルの各値とオーディオ機器1の出力するオーディオ信号の各値とボリューム調整アンプ21のゲインとのレベルの各値との組み合わせに対して、当該組み合わせでスピーカ3からオーディオ音信号が出力されたときに、入力調整アンプ5で増幅される前の入力音声信号中のオーディオ信号成分の大きさが当該入力発話音声のレベルの値より小さくなる出力調整アンプ22のゲインの値を定義しておき、記憶しておいた入力発話音声レベルのうちの最小の値とオーディオ機器1から入力するオーディオ信号のレベルの値と現在の出力調整アンプ22のゲインの値との組に対して定義されているゲインの値に、出力調整アンプ22のゲインを設定するようにしてもよい。
【0035】
または、ここでは、予め入力発話音声のレベルの各値に対して、出力調整アンプ22のゲインの値を、その値を出力調整アンプ22のゲインとしたときに、入力調整アンプ5で増幅される前の入力音声信号中のオーディオ信号成分の大きさが当該入力音声信号中の入力発話音声のレベルの値より小さくなるように定義しておき、記憶しておいた入力発話音声レベルのうちの最小の値に対して定義されているゲインの値に、出力調整アンプ22のゲインを設定するようにしてもよい。
【0036】
そして、次に、入力調整アンプ5のゲインを、発話音声抽出部7から入力する推定発話音声信号のダイナミックレンジと、A/D変換器6の出力可能な最大ダイナミックレンジとの比率が、1:2となるように設定する(ステップ308)。また、推定発話音声信号のダイナミックレンジを入力調整アンプ5のゲイン値で除した値を、入力発話音声レベルとして記憶する(ステップ310)。
【0037】
そして、以上のステップ320と322の処理を、トークスイッチ11がオフになるまで繰り返し(ステップ312)、トークスイッチ11がオフとなったならば、ステップ302からの処理に戻る。
以上のようなゲイン調整処理によれば、ユーザがトークスイッチ11をオンとして発話を行う期間には、以上の入力調整アンプ5のゲインの調整(ステップ308、320)により、推定発話音声信号の大きさが、確実にA/D変換器6の出力可能な最大ダイナミックレンジの1/2となるようにすることができる。すなわち、A/D変換器6に入力する入力音声信号中の発話音声信号成分を、A/D変換器6の入力レンジの1/2のレベルとすることができる。一方で、以上の出力調整アンプ22のゲインの設定(ステップ306、318)によって、A/D変換器6に入力する入力音声信号中のオーディオ信号成分のレベルの大きさは、同入力音声信号中の発話音声信号成分のレベルの大きさ(A/D変換器6の入力レンジの1/2)より小さくなるように設定されるので、A/D変換器6に入力する信号のレベルが、A/D変換器6の入力レンジを超えてしまうことを抑制することができる。
【0038】
また、ユーザがトークスイッチ11をオフとしている期間には、出力調整アンプ22と入力調整アンプ5とのゲインを、発話音声抽出部7に入力するA/D変換器6の出力するデジタル信号中のオーディオ信号成分のレベルが大きくなるようにして(ステップ314、316)、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を模擬するフィルタ係数xjの算出及びフィルタ73への設定が、より正確に行われるようにすることができる。
【0039】
以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、音声認識装置8で音声認識の処理に対象となる推定発話音声信号の大きさを、A/D変換器6の出力可能な最大ダイナミックレンジの1/2となるようにすることができる。すなわち、A/D変換器6に入力する入力音声信号中の発話音声信号成分を、A/D変換器6の入力レンジの1/2のレベルとすることができる。一方で、A/D変換器6に入力する入力音声信号中のオーディオ信号成分の大きさを、同入力音声信号中の発話音声信号成分より小さくなるように制御するので、A/D変換器6に入力する入力音声信号のレベルが、A/D変換器6の入力レンジを超えてしまうことも抑制される。
【0040】
ただし、本実施形態は、A/D変換器6に入力する信号中の発話音声信号成分のレベルを、A/D変換器6の入力レンジの1/2のレベルとする代わりに、A/D変換器6の入力レンジ×n(但し、nは1>n>0を満たす任意数)のレベルとなるように入力調整アンプ5のゲインを制御するようにしてもよく、この場合には、A/D変換器6に入力する入力音声信号中のオーディオ信号成分の大きさを、A/D変換器6の入力レンジ×(1-n)未満となるように、出力調整アンプ22のゲインを制御するようにする。
【図面の簡単な説明】
【0041】
【図1】本発明の実施形態に係る音声入力装置の構成を示すブロック図である。
【図2】本発明の実施形態に係る発話音声抽出部の構成を示すブロック図である。
【図3】本発明の実施形態に係るゲイン調整処理を示すフローチャートである。
【図4】従来の音声入力装置の構成を示すブロック図である。
【符号の説明】
【0042】
1…オーディオ機器、2…オーディオアンプ、3…スピーカ、4…マイク、5…入力調整アンプ、6…A/D変換器、7…発話音声抽出部、8…音声認識装置、9…樹方処理装置、10…ゲイン制御部、11…トークスイッチ、12…オーディオ操作部、21…ボリューム調整アンプ、22…出力調整アンプ、71…学習制御部、72…係数更新部、73…フィルタ、74…加算器。

【特許請求の範囲】
【請求項1】
オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づくオーディオ音を出力するスピーカと併用される音声入力装置であって、
前記スピーカから出力されるオーディオ音とユーザの発話音声をピックアップするマイクと、
マイクから出力された信号を増幅する入力調整アンプと、
前記入力調整アンプで増幅された信号を、デジタル信号に変換するA/D変換器と、
前記A/D変換器の出力するデジタル信号であるA/D変換器出力信号から当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出する発話音声信号抽出手段と、
前記発話音声信号抽出手段が抽出した発話音声信号を対象として音声認識処理を行う音声認識処理手段と、
前記発話音声信号抽出手段が抽出した発話音声信号の大きさに基づいて、前記入力調整アンプのゲインを、前記A/D変換器出力信号中において、発話音声信号成分が所定の大きさのレベルを有するように調整するゲイン制御手段とを有することを特徴とする音声入力装置。
【請求項2】
請求項1記載の音声入力装置であって、
オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプを有し、
前記ゲイン制御手段は、少なくとも前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御することを特徴とする音声入力装置。
【請求項3】
請求項2記載の音声入力装置であって、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさとオーディオ機器が出力するオーディオ信号のレベルの大きさとに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御することを特徴とする音声入力装置。
【請求項4】
請求項2記載の音声入力装置であって、
前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいて、前記A/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとに基づいて、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように, 前記出力調整アンプのゲインを制御することを特徴とする音声入力装置。
【請求項5】
請求項2記載の音声入力装置であって、
前記発話音声信号抽出手段が抽出した発話音声信号の大きさより、前記マイクから出力される信号中の発話音声信号成分のレベルの現在までの最小値を算出する最小発話音声レベル算出手段を有し、
前記ゲイン制御手段は、前記出力調整アンプのゲインを、前記マイクから出力される信号中の発話音声信号成分のレベルの大きさが、前記最小発話音声レベル算出手段が算出した最小値と等しい大きさである場合にも、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように、前記出力調整アンプのゲインを制御することを特徴とする音声入力装置。
【請求項6】
請求項1または2記載の音声入力装置であって、
前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいて、オーディオ機器の出力を入力とし前記A/D変換器の出力を出力とする系の伝達関数を推定し、オーディオ機器が出力するオーディオ信号と推定した伝達関数に基づいて前記A/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を算定し、算定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、ユーザが音声入力を行わない期間に、前記出力アンプのゲインを所定値に設定すると共に、前記A/D変換器出力信号中において、当該A/D変換器出力信号の一成分であるオーディオ信号成分が所定の大きさのレベルを有するように入力調整アンプを調整することを特徴とする音声入力装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate