音声処理装置および音声処理方法

【課題】アナログ音声信号の増幅とデジタル音声信号の増幅が可能な音声処理装置において、入力される音声信号が所望の音量になるような最適なアナログ音声信号の増幅値とデジタル音声信号の増幅値を設定する。
【解決手段】目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する際に、アナログ増幅とデジタル増幅を組み合わせて得られる増幅値が目標増幅値と等しく、かつアナログ増幅値が設定可能な範囲で最大になるようにアナログ増幅値とデジタル増幅値とを設定することを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、使用者が入力した音声を処理する、音声認識をはじめとする音声処理装置に関する。
【背景技術】
【０００２】
さまざまな音声処理装置で、入力された音声の音量調整を行う処理が行われている。例えば、会議や音声でメモを取る際に用いられるボイスレコーダでは、録音レベルを一定に保つための音量調整を自動で行うものがある。また、市販されている音声認識ソフトウェアで、音声検出や音声認識の精度を向上する目的で入力音量を調整する機能を備えたものがある。
【０００３】
このような音量調整では、入力された音声の音量が所定の音量になるように入力音声の音量を加減する。例えば、特許文献１で開示された音声認識装置では、マイクアンプのゲインを騒音レベルに応じて変更している。また、特許文献２に開示されている音声認識装置では、音声認識率によって音声信号の増幅を調整する。また、特許文献３に開示された入力レベル調整回路及び音声通信端末装置では、音声区間の平均入力レベルに応じて音声信号の増幅を調整する。
【特許文献１】特開平６−６７６８９号公報
【特許文献２】特開平６−３３７６９７号公報
【特許文献３】特開２００１−６９２００号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
従来の技術では単一の増幅器により入力音量を調整している。しかしながら、音声処理装置がアナログ音声信号を増幅する増幅器とＡ／Ｄ変換後のデジタル音声信号の増幅する増幅器を備える場合に、それぞれの増幅器において増幅値をどのように配分するかを開示しているものはない。
【０００５】
デジタル音声信号を増幅すると、Ａ／Ｄ変換時の量子化誤差も同時に増幅されるため、アナログ・デジタル両方の増幅が利用できる場合は、アナログ音声信号による増幅を優先的に用いる方が良い。
【０００６】
本発明は、このような事情を鑑みてなされたものであり、アナログ音声信号を増幅する増幅器とデジタル音声信号を増幅する増幅器を備えた音声処理装置において、Ａ／Ｄ変換時の量子化誤差が少なくなるようにアナログ音声信号の増幅値、デジタル音声信号の増幅値を決定することを目的とする。
【課題を解決するための手段】
【０００７】
上記課題を解決するために、本発明に係る音声処理装置は、アナログ音声信号を増幅するアナログ増幅手段と、アナログ音声信号をデジタル音声信号に変換するＡ／Ｄ変換手段と、デジタル音声信号を増幅するデジタル増幅手段と、目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定手段とを備えた音声処理装置であって、前記増幅値設定手段は、アナログ増幅とデジタル増幅を組み合わせて得られる増幅値が目標増幅値と等しく、かつアナログ増幅値が設定可能な範囲で最大になるようにアナログ増幅値とデジタル増幅値とを設定することを特徴とする。
【０００８】
また上記課題を解決するために、本発明に係る音声処理装置は、アナログ音声信号を増幅するアナログ増幅手段と、アナログ音声信号をデジタル音声信号に変換するＡ／Ｄ変換手段と、デジタル音声信号を増幅するデジタル増幅手段と目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定手段とを備えた音声処理装置であって、アナログ増幅値、デジタル増幅値のいずれか一方あるいは両方に設定できる値が離散値である場合に、前記増幅値設定手段は、得られる増幅値と目標増幅値との差が所定の範囲内に収まるアナログ増幅値とデジタル増幅値の組み合わせのうち、アナログ増幅値が最大の組み合わせを設定することを特徴とする。
【発明の効果】
【０００９】
本発明によれば、アナログ音声信号を増幅する増幅器とデジタル音声信号を増幅する増幅器を備えた音声処理装置において、Ａ／Ｄ変換時の量子化誤差が少なくなるようにアナログ音声信号の増幅値、デジタル音声信号の増幅値を設定することができる。
【発明を実施するための最良の形態】
【００１０】
以下、図面を参照しながら本発明の好適な実施例について説明していく。
【実施例１】
【００１１】
図１は本発明の実施例１における音声処理装置の概略構成を示す機能ブロック図である。図１において、１０１はアナログ増幅部、１０２はＡ／Ｄ変換部、１０３はデジタル増幅部、１０４は音声信号記憶部、１０５は音声入力制御部、１０６は入力音量調整部、１０７は増幅値記憶部である。
【００１２】
アナログ増幅部１０１は、入力されたアナログ音声信号をアナログ増幅し、アナログ音声信号を出力する。Ａ／Ｄ変換部１０２はアナログ増幅部１０１が出力するアナログ音声信号をデジタル音声信号に変換して出力する。デジタル増幅部１０３は、Ａ／Ｄ変換部１０２が出力するデジタル音声信号をデジタル増幅し、デジタル音声信号を出力する。音声信号記憶部１０４はデジタル増幅部１０３が出力するデジタル音声信号を一時的に記憶する。音声入力制御部１０５は、アナログ増幅部１０１、Ａ／Ｄ変換部１０２、デジタル増幅部１０３、音声信号記憶部１０４の動作を制御する。また、音声入力制御部１０５はアナログ増幅部１０１で信号を増幅する際の増幅値（アナログ増幅値）、デジタル増幅部１０３で信号を信号を増幅する際の増幅値（デジタル増幅値）を制御する。また、音声入力制御部１０５は音声信号記憶部１０４に記憶されたデジタル音声信号を取得する。入力音量調整部１０６は、取得する音声信号（＝音声信号記憶部１０４に記憶されるデジタル音声信号）が所望の音量になるようにアナログ増幅値、デジタル増幅値を決定する。アナログ増幅値およびデジタル増幅値（以降、二つを合わせて増幅値と記す）の決定方法は後に詳しく説明する。増幅値記憶部１０７は、入力音量調整部１０６で決定した増幅値を記憶する。
【００１３】
図２は、本装置において入力された音声信号がアナログ増幅部、デジタル増幅部を経て増幅される様子を示す図である。図２において、音量Ｇｏ（２０１）のアナログ音声信号が音声処理装置に入力されると、アナログ増幅部１０１で増幅され音量はＧｏ＋Ａａとなる（Ａａ（２０２）はアナログ増幅値）。Ａ／Ｄ変換部１０２によりＡ／Ｄ変換されたデジタル音声信号は、デジタル増幅部１０３でさらに増幅されて、最終的に得られる音量Ｇ（２０４）はＧ＝Ｇｏ＋Ａａ＋Ａｄとなる（Ａｄ（２０３）はデジタル増幅値）。アナログ増幅、デジタル増幅を組み合わせた合計の増幅値Ａ（２０５）はＡ＝Ａａ＋Ａｄである。なお、音量、増幅値の単位はいずれもデシベル（ｄＢ）で示している。以降、音量、増幅値の単位にｄＢを用いる。
【００１４】
以上のような構成の音声処理装置において入力音量を調整する手順について説明する。
本装置ではサンプル音声を取得し、サンプル音声の音量が所望の音量に近づくように増幅値を設定する。本実施例では、サンプル音声の最大音量を所望の音量に近づける場合について説明するが、平均音量や最低音量など音量の算出方法を変更した場合でも以下で説明する手順を適用できる。サンプル音声の増幅前の音量をＧｏ、所望の音量をＧ’としたとき、目標とする増幅値である目標増幅値Ａ’は次式で求まる。
Ａ’＝Ｇ’−Ｇｏ（数式１）
【００１５】
ここでサンプル音声の増幅前の音量Ｇｏを本装置で直接求めることはできないが、取得したサンプル音声の音量Ｇを用いて次式で計算できる。
Ｇｏ＝Ｇ−Ａ（数式２）
数式２において、Ａはサンプル音声を取得する際に用いた増幅値である。
数式２のＧｏを数式１に代入すると求める増幅値Ａ’は次式で求まる。
Ａ’＝Ｇ’−（Ｇ−Ａ）
＝（Ｇ’−Ｇ）＋Ａ
＝（Ｇ’−Ｇ）＋（Ａａ＋Ａｄ）（数式３）
数式３において、Ａａ、Ａｄはそれぞれサンプル音声を取得する際に用いたアナログ増幅値、デジタル増幅値である。
【００１６】
次に、数式３で求めた増幅値Ａ’をアナログ増幅値Ａａ’、デジタル増幅値Ａｄ’に配分する。
Ａ’＝Ａａ’＋Ａｄ’ （数式４）
デジタル増幅ではＡ／Ｄ変換時の量子化誤差も増幅されるのでデジタル増幅値はできるだけ小さい方が良い。また、Ａ／Ｄ変換時の量子化誤差をできるだけ小さくするため、アナログ増幅値はできるだけ大きい方が良い。したがって、本装置ではＡ／Ｄ変換時の量子化誤差を小さくするため、アナログ増幅値ができるだけ大きく、デジタル増幅値ができるだけ小さくなるように増幅値の配分を行う。デジタル増幅値の最大値をＡｄ＿ｍａｘ、最小値をＡｄ＿ｍｉｎ、アナログ増幅値の最大値をＡａ＿ｍａｘ、最小値をＡａ＿ｍｉｎとすると、アナログ増幅値、デジタル増幅値を次式で求める。
（ケース１）Ａ’≧Ａａ＿ｍａｘ＋Ａｄ＿ｍａｘの場合
Ａａ’＝Ａａ＿ｍａｘ（数式５）
Ａｄ’＝Ａｄ＿ｍａｘ（数式６）
（ケース２）Ａａ＿ｍａｘ＋Ａｄ＿ｍａｘ＞Ａ’≧Ａａ＿ｍａｘ＋Ａｄ＿ｍｉｎの場合
Ａａ’＝Ａａ＿ｍａｘ（数式７）
Ａｄ’＝Ａ’−Ａａ＿ｍａｘ（数式８）
（ケース３）Ａａ＿ｍａｘ＋Ａｄ＿ｍｉｎ＞Ａ’＞Ａａ＿ｍｉｎ＋Ａｄ＿ｍｉｎの場合
Ａａ’＝Ａ’−Ａｄ＿ｍｉｎ（数式９）
Ａｄ’＝Ａｄ＿ｍｉｎ（数式１０）
（ケース４）Ａａ＿ｍｉｎ＋Ａｄ＿ｍｉｎ≧Ａ’の場合
Ａａ’＝Ａａ＿ｍｉｎ（数式１１）
Ａｄ’＝Ａｄ＿ｍｉｎ（数式１２）
このように増幅値を設定することにより、量子化誤差を最小化し、所望の音量Ｇ’を得るための入力音量調整が可能になる。
【００１７】
なお、Ａａ＿ｍａｘの替わりに、次式で求まるＡａ＿ｍａｘ２を用いると、Ａ／Ｄ変換時のクリッピングを回避した最大のアナログ増幅値を設定することができる。
Ａａ＿ｍａｘ２＝ｍｉｎ（Ａａ＿ｍａｘ、Ｇ＿ｍａｘ−Ｇｏ）
＝ｍｉｎ（Ａａ＿ｍａｘ、Ｇ＿ｍａｘ−（Ｇ−Ａ））
（数式１３）
数式１３において、Ｇ＿ｍａｘはＡ／Ｄ変換後に得られるデジタル音声がとり得る音量の最大値である。
【００１８】
以上の入力音量調整の処理の流れを図３のフローチャートを用いて説明する。
【００１９】
入力音量調整の処理を開始すると、まずサンプル音声の取得を行う。入力音量調整部１０６は音声入力制御部１０５にサンプル音声を取得するよう指示を送る。指示を受けた音声入力制御部１０５は、アナログ制御部１０１、Ａ／Ｄ変換部１０２、デジタル増幅部１０３を介して音声信号記憶部１０４に記憶されたデジタル音声信号を取得する（Ｓ１０１）。次に、音声入力制御部１０５が取得したデジタル音声信号の音量を入力音量調整部１０６で算出する（Ｓ１０２）。続いて入力音量調整部１０５は、所望の音量にするために必要な増幅値Ａ’を算出し（数式３の計算、Ｓ１０３）、先に説明した手順にしたがって、アナログ増幅値が大きくなるようにアナログ増幅値とデジタル増幅値を算出する（Ｓ１０４）。アナログ増幅値とデジタル増幅値を決定する手順を図４のフローチャートに示す。
【００２０】
図４において、Ａ’はＳ１０３で算出された、所望の音量にするために必要な増幅値である。
【００２１】
本装置における最大増幅値、すなわちアナログ増幅、デジタル増幅をともに最大にして得られる増幅値が必要な増幅値Ａ’に満たない場合、あるいはＡ’と等しい場合（前述のケース１、Ｓ２０１ＹＥＳ）、デジタル増幅値、アナログ増幅値ともに最大値に設定する（数式５、数式６、Ｓ２０２）。
【００２２】
Ｓ２０１ＮＯの場合でかつ、アナログ増幅値を最大にしてもデジタル増幅の調整によりＡ’を得られる場合（ケース２、Ｓ２０３ＹＥＳ）、アナログ増幅値を最大値に設定し、必要な増幅値Ａ’とアナログ増幅値の差分をデジタル増幅値で調整する（数式７、数式８、Ｓ２０４）。
【００２３】
Ｓ２０３ＮＯの場合かつＡ’が本装置における最小増幅値よりも大きい場合（ケース３）、デジタル増幅の増幅値を最小にして差分をアナログ増幅値に設定する（数式９、数式１０、Ｓ２０６）。
【００２４】
Ｓ２０６ＮＯの場合、すなわち必要な増幅値Ａ’が本装置の最小増幅値以下の場合（ケース４）、アナログ増幅、デジタル増幅ともに最小値に設定する（数式１１、数式１２、Ｓ２０７）。
【００２５】
なお、前述したようにＡ／Ｄ変換時のクリッピングを回避する場合は、アナログ増幅値の最大値Ａａ＿ｍａｘの替わりに、数式１３で求まるクリッピングを考慮したアナログ増幅値の最大値Ａａ＿ｍａｘ２を用いる。また、入力音量調整を平均音量や最低音量を基準にして調整する場合は、Ｓ１０３でそれらの音量を求める際に、あわせて最大音量を算出しておく必要がある。
【００２６】
図３のフローチャートに戻り、入力音量調整部１０６は決定した増幅値を増幅値記憶部１０７に記憶して終了する（Ｓ１０５）。
【００２７】
以上のように、アナログ増幅値、デジタル増幅値を決定することにより、アナログ増幅をできるだけ大きくして所望の音量を得ることができるので、Ａ／Ｄ変換時の量子化誤差を最小にすることができる。
【実施例２】
【００２８】
一般に用いられている増幅回路では、あらかじめ決められた数種類の離散的な増幅値しか設定できないものがある。特にアナログ増幅回路でこのような場合が多い。本実施例では、実施例１と同様にアナログ増幅とデジタル増幅の二つの増幅部を使用する音声処理装置において、アナログ増幅部１０１およびデジタル増幅部１０３における増幅値が離散的にしか設定できない場合について説明する。
【００２９】
サンプル音声を取得してその音量を算出し必要な増幅値Ａ’を算出するまでの処理は実施例１と同様（Ｓ１０１〜Ｓ１０３）である。以下、アナログ増幅値とデジタル増幅値の配分を決めるＳ１０４の処理について説明する。
【００３０】
本実施例では、設定可能な増幅値が離散的になるため、必要な増幅値と全く同じ増幅値を設定できない場合がある。したがって、必要な増幅値に対する誤差が最も少ないアナログ増幅値Ａａ’とデジタル増幅値Ａｄ’を決定する。すなわち、次式の値が最も小さくなるＡａ’とＡｄ’をＡａ＿ｍａｘ≧Ａａ’≧Ａａ＿ｍｉｎ、Ａｄ＿ｍａｘ≧Ａｄ’≧Ａｄ＿ｍｉｎの範囲で決定する。
Ｅ＝｜Ａ’−（Ａａ’＋Ａｄ’）｜（数式１４）
なお、Ａ／Ｄ変換時のクリッピングを回避するように設定する場合は、数式１で計算されるＡａ＿ｍａｘ２を越えない設定可能なアナログ増幅値のうち最大の値Ａａ＿ｍａｘ３を用いて、Ａａ＿ｍａｘ３≧Ａａ≧Ａａ＿ｍｉｎの範囲でＡａ’を決定する。Ａａ＿ｍａｘ３は次式で表される。
Ａａ＿ｍａｘ３＝ｍａｘ｛Ａａ∋Ｓ（Ａａ＿ｍａｘ２）｝（数式１５）
数式１５において、Ｓ（Ａａ＿ｍａｘ２）は本装置で設定可能なアナログ増幅値のうちＡａ＿ｍａｘ２以下の増幅値の集合である。
【００３１】
実施例１で説明したケース１、すなわち必要な増幅値が設定可能な増幅値の最大値以上になる場合は、実施例１と同様にアナログ増幅値とデジタル増幅値を最大に設定する。ケース４の場合、すなわち必要な増幅値が設定可能な増幅値の最小値以下になる場合も、実施例１と同様にアナログ増幅値とデジタル増幅値を最小に設定する。
【００３２】
ケース２およびケース３の場合は、数式１４を満たすアナログ増幅値、デジタル増幅値の組み合わせから誤差が数式１４が最小になる組合せを選択する。誤差が最小になる組合せが複数ある場合は、アナログ増幅値が大きい組み合わせを選択する。アナログ増幅値も同じ場合はデジタル増幅値が小さい組み合わせを選択する、具体的な例で説明する。
【００３３】
離散的な増幅値しか設定できない一例としてアナログ増幅は−４０ｄＢ〜４０ｄＢの範囲で１０ｄＢごと、デジタル増幅は−２０ｄＢ〜２０ｄＢの範囲で２ｄＢごとに設定できる場合について説明する。
【００３４】
必要な増幅値Ａ’が４６．３ｄＢの場合、アナログ増幅値を４０ｄＢ、デジタル増幅値を６ｄＢに設定する。このとき、数式１４で表せる誤差Ｅは０．３ｄＢとなり、他の組合せでこれよりも誤差Ｅが小さくなるものはないため、この組合せを選択する。
【００３５】
必要な増幅値が４５．０ｄＢの場合は、誤差が最小になる組合せが以下の４通りある。
【００３６】
【表１】

【００３７】
これらの候補の組み合わせから、アナログ増幅値の大きい（１）と（２）の２つの組み合わせに絞り込まれる。（１）と（２）を比較し、デジタル増幅値の小さい（２）を最終的な増幅値の組み合わせに決定する。以上のようにすることで、Ａ／Ｄ変換時の量子化誤差をできるだけ小さくし、デジタル増幅時の量子化誤差の増幅を少なくした増幅値を決定できる。
【００３８】
以上で説明した本実施例のＳ１０４において、アナログ増幅値、デジタル増幅値を決定する手順を、図５のフローチャートに示す。図５のフローチャートにおいて、Ｓ２０１、Ｓ２０２、Ｓ２０５、Ｓ２０７は実施例１と同じ動作になる。
【００３９】
図５において、Ａ’はＳ１０３で算出された所望の音量にするために必要な増幅値である。本装置における最大増幅値、すなわちアナログ増幅、デジタル増幅をともに最大にして得られる増幅値が必要な増幅値Ａ’に満たない場合、あるいはＡ’と等しい場合（前述のケース１、Ｓ２０１ＹＥＳ）、デジタル増幅値、アナログ増幅値ともに最大値に設定する（数式５、数式６、Ｓ２０２）。
【００４０】
Ｓ２０１ＮＯかつＳ２０５ＮＯの場合、すなわち必要な増幅値Ａ’が本装置の最小増幅値以下の場合（ケース４）、アナログ増幅、デジタル増幅ともに最小値に設定する（数式１１、数式１２、Ｓ２０７）。
【００４１】
一方、Ｓ２０１ＮＯの場合でかつＡ’が本装置における最小増幅値よりも大きい場合（ケース２、ケース３）、数式１４で表される誤差Ｅを最小にするアナログ増幅値、デジタル増幅値の組み合わせを算出する（Ｓ２０８）。
【００４２】
最小誤差になる組み合わせが１組の場合は算出された組み合わせで増幅値を決定する（Ｓ２０９ＮＯ）。一方、最小誤差になる組み合わせの候補が複数ある場合（Ｓ２０９ＹＥＳ）は、これらの候補のうちアナログ増幅値が最も大きい組み合わせを選択する（Ｓ２１０）。
【００４３】
Ｓ２１０で選択された候補が１組の場合は選択された組み合わせで増幅値を決定する（Ｓ２１０ＮＯ）。Ｓ２１０で選択された候補が複数ある場合（Ｓ２１１ＹＥＳ）は、これらの候補のうちデジタル増幅値が最も小さい組み合わせを選択して増幅値を決定する（Ｓ２１２）。
【００４４】
なお、実施例１と同様にＡ／Ｄ変換時のクリッピングを回避する場合は、アナログ増幅値の最大値Ａａ＿ｍａｘの替わりに、数式１５で求まるＡａ＿ｍａｘ３を用いる。
【００４５】
図３のフローチャートに戻り、入力音量調整部１０６は決定した増幅値を増幅値記憶部１０７に記憶して終了する（Ｓ１０５）。
【００４６】
以上のように、アナログ増幅値、デジタル増幅値を決定することにより、アナログ増幅値およびデジタル増幅値に設定可能な数値が離散的な場合に、量子化誤差を小さくすることができる。
【実施例３】
【００４７】
実施例１、実施例２では、サンプル音声を取得して、取得したサンプル音声の音量から増幅値を決定した。しかしながら、本装置では、取得したサンプル音声に音声が含まれているかどうかを確認する手段がない。そのため、使用者が発声しなかった場合、サンプル音声取得時に突発的な内部雑音が混入した場合など、想定外の入力が行われると増幅値を正しく算出できないという課題が残る。本実施例では、この課題に対処するため、設定した増幅値で適正な音量が取得できるかどうかを確認する手段とあらかじめ決められている標準的な増幅値を設定する手段を提供する例を説明する。
【００４８】
本実施例では、実施例１、実施例２で説明した入力音量装置を組み込んだ音声認識装置を例にその動作を説明する。本実施例では、説明のため、コマンドを音声で入力して実行するシンプルな音声認識装置を例に説明するが、本発明はこれに限定することなく、音声入力を伴うあらゆる装置、システムに適用可能である。
【００４９】
図６は本実施例の音声認識装置の概略構成を示すブロック図である。１０１〜１０７は実施例１、実施例２で説明した音声処理装置と同じ構成なので説明を省略する。
【００５０】
図６において、１０８は音声認識制御部で、後述する音声検出部１０９や音声認識部１１０の動作を制御する。また、音声入力制御部１０５を介して音声信号記憶部１０４に記憶している音声信号を取得し、音声検出部１０９に音声信号を渡す役割も担う。音声検出部１０９は、音声認識制御部１０９を介して得られる音声信号から、使用者が発声した音声区間を検出する。音声認識１１０は音声検出部１０９が検出した区間の音声信号の音響分析を行い、図示しない音響モデルや言語モデルなど必要なデータを用いてデコード処理を行い音声認識結果を得る。音声認識部１１０で得られた結果は音声認識制御部１０８を介して参照する。音声出力部１１１は、認識結果のトークバックをはじめとする音声による使用者へのガイダンス出力を制御する。使用者への音声ガイダンスは図示しない音声合成を用いて実現しても良い。表示制御部１１２は、本装置で用いるＧＵＩや認識結果の表示など、表示の制御を行う。操作制御部１１３は、マウスやキボーボード、ボタンなど、使用者に提供される操作手段の制御を行う。制御部１１４は本装置全体の動作の制御を行う。
【００５１】
上記構成の音声認識装置の動作について図７のフローチャートを用いて説明する。本装置を起動すると、制御部１１４で起動処理を行う際に、増幅値の設定を行う。制御部１１４は増幅値記憶部１０７に記憶されているアナログ増幅値、デジタル増幅値を読み出し、音声入力制御部１０５を介して増幅値を設定する（Ｓ３０１）。本装置では、一度設定された増幅値は増幅値記憶部１０７に記憶され、装置を終了した場合でも、次回起動時に同じ増幅値が適用される。増幅値１０７に記憶された増幅値は、後述する入力音量調整で増幅値を更新しない限り、増幅値記憶部１０７に保持される。
【００５２】
起動処理が終了すると、表示制御部１１２により図８に示すような表示を行って、使用者が操作を行うまで待機する（Ｓ３０２ＮＯ）。図８は待機状態での表示の一例で、ウィンドウ３０１内に、案内３０２、発声ボタン３０３、入力音量調整ボタン３０４および終了ボタン３０５を表示する。案内３０２は操作ガイドなど使用者に通知する内容を表示する。ここでは、コマンド入力の操作案内を表示している。
【００５３】
表示しているボタンをユーザが操作すると操作制御部１１３が使用者の操作を検出し（Ｓ３０２ＹＥＳ）、制御部１１４が操作内容に応じた処理の制御を行う（Ｓ３０３〜Ｓ３１０）。図８において、使用者が発声ボタン３０３を押した場合（Ｓ３０３ＮＯ、Ｓ３０５ＹＥＳ）は、音声認識を実行し（Ｓ３０９）、得られた認識結果に対応した処理を実施する（Ｓ３０９）。同様に、使用者が入力音量調整ボタン３０４を押した場合は入力音量調整を実行する（Ｓ３０７）。Ｓ３０７における入力音量調整の詳細は後述する。
【００５４】
終了ボタン３０５が押された場合（Ｓ３０２ＹＥＳ、Ｓ３０３ＮＯ，Ｓ３０５ＮＯ、Ｓ３０６ＹＥＳ）は、音声認識装置の実行を終了する。表示されているボタン以外の操作（例えばキーボードによる操作など）を提供する場合は、それらの操作を検出する（Ｓ３０２ＹＥＳ、Ｓ３０３ＮＯ、Ｓ３０５ＮＯ、Ｓ３０６ＮＯ）と、対応する処理を制御部１１４が行う（Ｓ３１０）。
【００５５】
次に、本装置におけるＳ３０７の入力音量調整の詳細な動作を図９〜図１３を用いて説明する。図９は本装置における入力音量調整の処理の流れを示すフローチャートである。図１０〜図１３は入力音量調整の処理の際に表示制御部１１２が制御する表示の一例である。
【００５６】
入力音量調整を開始する（図７のＳ３０７）と、表示制御部１１２は表示を入力音量調整用のＵＩ（ユーザインタフェース）に切り替え、使用者が操作するまで待機する（Ｓ４０１ＮＯ）。
【００５７】
図１０は入力音量調整用ＵＩの一例で、ウィンドウ３０１内に、開始ボタン３０６、標準値設定ボタン３０７、取消しボタン３０８を表示する。また、案内３０２には入力音量調整の操作方法を表示する。
【００５８】
図９に戻り、操作制御部１１３が使用者の操作を検出する（Ｓ４０１ＹＥＳ）と、制御部１１４が使用者の操作に応じた処理を実行する（Ｓ４０２〜Ｓ４１９）。
【００５９】
１０において使用者が開始ボタン３０６を押す（Ｓ４０１ＹＥＳ、Ｓ４０２ＹＥＳ）と、Ｓ４０３以降でサンプル音声を用いた入力音量調整を開始する。一方、標準値設定ボタン３０７を押す（Ｓ４０１ＹＥＳ、Ｓ４０２ＮＯ，Ｓ４１７ＹＥＳ）と、入力音量調整部１０６が増幅値記憶部１０７に記憶されている増幅値の標準値を読み出し、音声入力制御部１０５を介して読み出した増幅値を設定する（Ｓ４１８）。続いて、設定した増幅値を増幅値記憶部に記憶して（Ｓ４１９）、入力音量調整を終了する。
【００６０】
図１０において、使用者が取り消しボタン３０８を押した場合（Ｓ４０１ＹＥＳ、Ｓ４０２ＮＯ、４１７ＮＯ）は、ただちに入力音量調整を終了する。
【００６１】
次に、Ｓ４０３以降の処理について説明する。まず、Ｓ４０３で入力音量調整部１０７は音声入力制御部１０５を介してサンプル音声取得用の増幅値を設定する。サンプル音声を取得する際は、Ａ／Ｄ変換時にクリッピングしないように小さな増幅値を使用する。サンプル音声取得用の増幅値は、使用者の声が大きい場合でもクリッピングせず、使用者の声が小さい場合でも音声信号が取得できる、適当な値をあらかじめ実験的に求めておき、増幅値記憶部１０７に記憶しておく。
【００６２】
次に入力音量調整に用いるサンプル音声を取得する。入力音量調整部１０６は音声入力制御部１０５にサンプル音声を取得するよう指示を送る。指示を受けた音声入力制御部１０５は、アナログ制御部１０１、Ａ／Ｄ変換部１０２、デジタル増幅部１０３を介して音声信号記憶部１０４に記憶されたデジタル音声信号を取得する（Ｓ４０４）。
【００６３】
次に、音声入力制御部１０５が取得したデジタル音声信号の音量を入力音量調整部１０６で算出する（Ｓ４０５）。
【００６４】
続いて入力音量調整部１０５は、所望の音量にするために必要な増幅値Ａ’を算出し（Ｓ４０６）、アナログ増幅値とデジタル増幅値を算出する（Ｓ４０７）。
【００６５】
Ｓ４０６における増幅値Ａ’の算出およびＳ４０７におけるデジタル増幅値、アナログの算出には、実施例１あるいは実施例２で説明した手順を用いる。
【００６６】
次にＳ４０８で、入力音量調整部１０５は、音声入力制御部１０５を介してＳ４０７で算出したアナログ増幅値とデジタル増幅値を設定する。
【００６７】
以上の処理でデジタル増幅値およびアナログ増幅値が、実施例１、実施例２のいずれかの方法により変更される。
【００６８】
以降、設定した増幅値で適正な音量が取得できるかどうかの確認を行う処理（Ｓ４０９〜Ｓ４１６）について説明する。
【００６９】
増幅値の設定が終わると（Ｓ４０８）と、表示制御部１１２は確認用の音声を取得するため、使用者に発声を促す表示に切り替え、使用者が操作するまで待機する（Ｓ４０９ＮＯ）。
【００７０】
図１１は確認用の発声を促す表示の一例で、ウィンドウ３０１内に、開始ボタン３０９、取消しボタン３１０を表示する。また、案内３０２には確認用の発声を促す内容を表示する。
【００７１】
図９に戻り、操作制御部１１３が使用者の操作を検出する（Ｓ４０９ＹＥＳ）と、制御部１１４が使用者の操作に応じた処理を実行する（Ｓ４１０〜Ｓ４１６）。
【００７２】
図１１において使用者が開始ボタン３０９を押すと（Ｓ４０９ＹＥＳ、Ｓ４１０ＹＥＳ）と、Ｓ４０４のサンプル音声取得と同様に、入力音量調整部１０６から音声入力制御部１０５に指示が送られ、確認用音声を取得する（Ｓ４１１）。
【００７３】
続いて、Ｓ４１１で取得した確認用音声の音量Ｇ’’を算出して、Ｓ４１３で算出した音量Ｇ’’が適正か否かを判断する。
【００７４】
ここでは、あらかじめ所望の音量Ｇ’との差に対する許容範囲の最小値Ｍｍｉｎ、最大値Ｍｍａｘを決めておき、Ｍｍｉｎ＜Ｇ’’−Ｇ’＜Ｍｍａｘなら適正と判断する。判断基準はこれに限るものではなく、例えば、Ｇ’’とＧ’の差が５ｄＢ以内など、簡便な方法を用いてもよい。また、これらの判断とは別に、確認用音声がクリッピングした場合に適正でないと判断しても良い。
【００７５】
確認用音声の音量が適正の場合（Ｓ４１３ＹＥＳ）は、設定した増幅値を増幅値記憶部１０７に記憶して入力音量調整を終了する（Ｓ４１４）。
【００７６】
以上で説明したように、Ｓ４０７で算出された増幅値は、その増幅値を設定して取得した音声の音量が適正になることを確認してから、増幅値記憶部１０７に記憶する。入力音量調整を始める前の元の増幅値は増幅値記憶部１０７に保存されている。従って使用者が図１１で取り消しボタン３１０を押して、入力音量調整を途中で取り消した場合（Ｓ４１０ＮＯ）や、後述する確認用音声の音量が適正でない場合は、保存されている増幅値を読み出して再度設定することにより、入力音量調整前の増幅値に戻せる。
【００７７】
Ｓ４１３において確認用音声の音量が適正ではない（ＮＯ）場合は、入力音量調整ができなかったこと、および予想される原因を使用者に通知する（Ｓ４１５）。図１２は表示制御部１１２による、入力音量調整の失敗およびその原因を通知する表示の一例である。
【００７８】
Ｓ４１５の原因通知に続いて、入力音量調整を行うために設定していた増幅値を元の値に戻す。入力音量調整部１０６は増幅値記憶部１０７に記憶されている増幅値を読み出し、音声入力制御部を介して、読み出した増幅値を設定し（Ｓ４１６）、入力音量調整の処理を終了する。
【００７９】
以上説明したように実施例３の音声認識装置によれば、サンプル音声を取得して増幅値を設定する際に、算出した増幅値を用いて確認用音声を取得して、設定した増幅値が適正かどうかを判断している。このため、サンプル音声取得時の想定外の入力により、適正でない増幅値が設定される可能性を減らすことができる。
【００８０】
（その他の実施例）
以上の説明において図８、図１０、図１１、図１２で説明したウィンドウ３０１内に表示する案内３０２の内容を、音声出力制御部１１１により図示しない音声合成を用いて合成音で案内してもよい。
【００８１】
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。
【００８２】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【００８３】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。
【００８４】
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００８５】
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。
【図面の簡単な説明】
【００８６】
【図１】本発明の実施例１、実施例２に係る音声処理装置の概略構成を示す図である。
【図２】本発明の実施例１および実施例２に係る音声処理装置、実施例３に係る音声認識装置で入力された音声信号がアナログ増幅部、デジタル増幅部を経て増幅される様子を説明する図である。
【図３】本発明の実施例１および実施例２に係る音声処理装置の動作手順を表すフローチャートである。
【図４】本発明の実施例１に係る音声処理装置において、アナログ増幅値とデジタル増幅値を算出する手順を示すフローチャートである。
【図５】本発明の実施例２に係る音声処理装置において、アナログ増幅値とデジタル増幅値を算出する手順を示すフローチャートである。
【図６】本発明の実施例２に係る音声認識装置の概略構成を示す図である。
【図７】本発明の実施例３に係る音声認識装置の動作手順の一例を示すフローチャートである。
【図８】本発明の実施例３に係る音声認識装置の動作の一例を説明する図である。
【図９】本発明の実施例３に係る音声認識装置の動作手順を示すフローチャートである。
【図１０】本発明の実施例３に係る音声認識装置において、入力音量調整を行う時の動作の一例を説明する図である。
【図１１】本発明の実施例３に係る音声認識装置において、入力音量調整を行う時の動作の一例を説明する図である。
【図１２】本発明の実施例３に係る音声認識装置において、入力音量調整を行う時の動作の一例を説明する図である。
【符号の説明】
【００８７】
１０１アナログ増幅部
１０２Ａ／Ｄ変換部
１０３デジタル増幅部
１０４音声信号記憶部
１０５音声入力制御部
１０６入力音量調整部
１０７増幅値記憶部

【特許請求の範囲】
【請求項１】
アナログ音声信号を増幅するアナログ増幅手段と、
アナログ音声信号をデジタル音声信号に変換するＡ／Ｄ変換手段と、
デジタル音声信号を増幅するデジタル増幅手段と
目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定手段と
を備えた音声処理装置であって、
前記増幅値設定手段は、アナログ増幅とデジタル増幅を組み合わせて得られる増幅値が目標増幅値と等しく、かつアナログ増幅値が設定可能な範囲で最大になるようにアナログ増幅値とデジタル増幅値とを設定することを特徴とする音声処理装置。
【請求項２】
アナログ音声信号を増幅するアナログ増幅手段と、
アナログ音声信号をデジタル音声信号に変換するＡ／Ｄ変換手段と、
デジタル音声信号を増幅するデジタル増幅手段と
目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定手段と
を備えた音声処理装置であって、
アナログ増幅値、デジタル増幅値のいずれか一方あるいは両方に設定できる値が離散値である場合に、
前記増幅値設定手段は、得られる増幅値と目標増幅値との差が所定の範囲内に収まるアナログ増幅値とデジタル増幅値の組み合わせのうち、アナログ増幅値が最大の組み合わせを設定することを特徴とする音声処理装置。
【請求項３】
前記増幅値設定手段は、アナログ信号の増幅値が最大の組み合わせが複数ある場合に、デジタル音声信号の増幅値が最小になる組み合わせを設定することを特徴とする請求項２に記載の音声処理装置。
【請求項４】
前記増幅値設定手段は、Ａ／Ｄ変換時にクリッピングしないようにアナログ信号の増幅値を設定することを特徴とする請求項１乃至請求項３のいずれかに記載の音声処理装置。
【請求項５】
音声信号を取得する音声取得手段と、
取得した音声信号の音量を算出する音量算出手段と、
取得した音声信号の音量を所定の音量にする目標増幅値を算出する目標増幅値算出手段とを更に備え、
前記音声取得手段は第一の音声信号を取得し、
前記音量算出手段は取得した第一の音声信号の音量を算出し、
前記目標増幅値算出手段は目標増幅値を所定の音量、第一の音声信号を取得した際のアナログ増幅値、第一の音声信号を取得した際のデジタル増幅値を用いて算出し、
前記増幅値設定手段は、目標増幅値算出手段が算出した目標増幅値に対するアナログ増幅値およびデジタル増幅値を設定することを特徴とする請求項１乃至請求項４のいずれかに記載の音声処理装置。
【請求項６】
前記音声取得手段で前記第一の音声信号を取得する際に、取得した音声信号がクリッピングしないようにあらかじめ定めた所定のアナログ増幅値とデジタル増幅値を用いて音声を取得することを特徴とする請求項５に記載の音声処理装置。
【請求項７】
前記音声取得手段によって第二の音声信号を取得し、
前記音量算出手段によって第二の音声信号の音量を算出し、
算出した第二の音声信号の音量が適正か否かの判断を行う確認手段をさらに備え、
前記確認手段は、第二の音声信号の音量の値が所定の範囲内である場合に適正と判断することを特徴とする請求項５又は請求項６に記載の音声処理装置。
【請求項８】
前記確認手段で、第二の音声信号の音量が適正と判断されない場合に、第二の音声信号の音量が適正にならなかった原因を使用者に通知することを特徴とする請求項７に記載の音声処理装置。
【請求項９】
アナログ増幅値およびデジタル増幅値をあらかじめ決められた標準値に設定する標準値設定手段を備えることを特徴とする請求項１乃至請求項８のいずれかに記載の音声処理装置。
【請求項１０】
アナログ音声信号を増幅するアナログ増幅手段と、
アナログ音声信号をデジタル音声信号に変換するＡ／Ｄ変換手段と、
デジタル音声信号を増幅するデジタル増幅手段とを備えた音声処理装置における音声処理方法であって、
目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定工程を備え、
前記増幅値設定工程は、アナログ増幅とデジタル増幅を組み合わせて得られる増幅値が目標増幅値と等しく、かつアナログ増幅値が設定可能な範囲で最大になるようにアナログ増幅値とデジタル増幅値とを設定することを特徴とする音声処理方法。
【請求項１１】
アナログ音声信号を増幅するアナログ増幅手段と、
アナログ音声信号をデジタル音声信号に変換するＡ／Ｄ変換手段と、
デジタル音声信号を増幅するデジタル増幅手段とを備えた音声処理装置における音声処理方法であって、
目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定工程を備え、
アナログ増幅値、デジタル増幅値のいずれか一方あるいは両方に設定できる値が離散値である場合に、
前記増幅値設定工程は、得られる増幅値と目標増幅値との差が所定の範囲内に収まるアナログ増幅値とデジタル増幅値の組み合わせのうち、アナログ増幅値が最大の組み合わせを設定することを特徴とする音声処理方法。
【請求項１２】
前記増幅値設定工程は、アナログ信号の増幅値が最大の組み合わせが複数ある場合に、デジタル音声信号の増幅値が最小になる組み合わせを設定することを特徴とする請求項１１に記載の音声処理方法。
【請求項１３】
前記増幅値設定工程は、Ａ／Ｄ変換時にクリッピングしないようにアナログ信号の増幅値を設定することを特徴とする請求項１０乃至請求項１２のいずれかに記載の音声処理方法。
【請求項１４】
音声信号を取得する音声取得工程と、
取得した音声信号の音量を算出する音量算出工程と、
取得した音声信号の音量を所定の音量にする目標増幅値を算出する目標増幅値算出工程とを更に備え、
前記音声取得工程は第一の音声信号を取得し、
前記音量算出工程は取得した第一の音声信号の音量を算出し、
前記目標増幅値算出工程は目標増幅値を所定の音量、第一の音声信号を取得した際のアナログ増幅値、第一の音声信号を取得した際のデジタル増幅値を用いて算出し、
前記増幅値設定工程は、目標増幅値算出工程が算出した目標増幅値に対するアナログ増幅値およびデジタル増幅値を設定することを特徴とする請求項１０乃至請求項１３のいずれかに記載の音声処理方法。
【請求項１５】
前記音声取得工程で前記第一の音声信号を取得する際に、取得した音声信号がクリッピングしないようにあらかじめ定めた所定のアナログ増幅値とデジタル増幅値を用いて音声を取得することを特徴とする請求項１４に記載の音声処理方法。
【請求項１６】
前記音声取得工程によって第二の音声信号を取得し、
前記音量算出工程によって第二の音声信号の音量を算出し、
算出した第二の音声信号の音量が適正か否かの判断を行う確認工程をさらに備え、
前記確認工程は、第二の音声信号の音量の値が所定の範囲内である場合に適正と判断することを特徴とする請求項１４又は請求項１５に記載の音声処理方法。
【請求項１７】
前記確認工程で、第二の音声信号の音量が適正と判断されない場合に、第二の音声信号の音量が適正にならなかった原因を使用者に通知することを特徴とする請求項１６に記載の音声処理方法。
【請求項１８】
アナログ増幅値およびデジタル増幅値をあらかじめ決められた標準値に設定する標準値設定工程を備えることを特徴とする請求項１０乃至請求項１７のいずれかに記載の音声処理方法。
【請求項１９】
請求項１０乃至請求項１８のいずれかに記載の音声処理方法をコンピュータに実現させるためのプログラム。

【図１】