説明

音声処理装置および音声処理方法

【課題】 アナログ音声信号の増幅とデジタル音声信号の増幅が可能な音声処理装置において、入力される音声信号が所望の音量になるような最適なアナログ音声信号の増幅値とデジタル音声信号の増幅値を設定する。
【解決手段】 目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する際に、アナログ増幅とデジタル増幅を組み合わせて得られる増幅値が目標増幅値と等しく、かつアナログ増幅値が設定可能な範囲で最大になるようにアナログ増幅値とデジタル増幅値とを設定することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、使用者が入力した音声を処理する、音声認識をはじめとする音声処理装置に関する。
【背景技術】
【0002】
さまざまな音声処理装置で、入力された音声の音量調整を行う処理が行われている。例えば、会議や音声でメモを取る際に用いられるボイスレコーダでは、録音レベルを一定に保つための音量調整を自動で行うものがある。また、市販されている音声認識ソフトウェアで、音声検出や音声認識の精度を向上する目的で入力音量を調整する機能を備えたものがある。
【0003】
このような音量調整では、入力された音声の音量が所定の音量になるように入力音声の音量を加減する。例えば、特許文献1で開示された音声認識装置では、マイクアンプのゲインを騒音レベルに応じて変更している。また、特許文献2に開示されている音声認識装置では、音声認識率によって音声信号の増幅を調整する。また、特許文献3に開示された入力レベル調整回路及び音声通信端末装置では、音声区間の平均入力レベルに応じて音声信号の増幅を調整する。
【特許文献1】特開平6−67689号公報
【特許文献2】特開平6−337697号公報
【特許文献3】特開2001−69200号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
従来の技術では単一の増幅器により入力音量を調整している。しかしながら、音声処理装置がアナログ音声信号を増幅する増幅器とA/D変換後のデジタル音声信号の増幅する増幅器を備える場合に、それぞれの増幅器において増幅値をどのように配分するかを開示しているものはない。
【0005】
デジタル音声信号を増幅すると、A/D変換時の量子化誤差も同時に増幅されるため、アナログ・デジタル両方の増幅が利用できる場合は、アナログ音声信号による増幅を優先的に用いる方が良い。
【0006】
本発明は、このような事情を鑑みてなされたものであり、アナログ音声信号を増幅する増幅器とデジタル音声信号を増幅する増幅器を備えた音声処理装置において、A/D変換時の量子化誤差が少なくなるようにアナログ音声信号の増幅値、デジタル音声信号の増幅値を決定することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明に係る音声処理装置は、アナログ音声信号を増幅するアナログ増幅手段と、アナログ音声信号をデジタル音声信号に変換するA/D変換手段と、デジタル音声信号を増幅するデジタル増幅手段と、目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定手段とを備えた音声処理装置であって、前記増幅値設定手段は、アナログ増幅とデジタル増幅を組み合わせて得られる増幅値が目標増幅値と等しく、かつアナログ増幅値が設定可能な範囲で最大になるようにアナログ増幅値とデジタル増幅値とを設定することを特徴とする。
【0008】
また上記課題を解決するために、本発明に係る音声処理装置は、アナログ音声信号を増幅するアナログ増幅手段と、アナログ音声信号をデジタル音声信号に変換するA/D変換手段と、デジタル音声信号を増幅するデジタル増幅手段と目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定手段とを備えた音声処理装置であって、アナログ増幅値、デジタル増幅値のいずれか一方あるいは両方に設定できる値が離散値である場合に、前記増幅値設定手段は、得られる増幅値と目標増幅値との差が所定の範囲内に収まるアナログ増幅値とデジタル増幅値の組み合わせのうち、アナログ増幅値が最大の組み合わせを設定することを特徴とする。
【発明の効果】
【0009】
本発明によれば、アナログ音声信号を増幅する増幅器とデジタル音声信号を増幅する増幅器を備えた音声処理装置において、A/D変換時の量子化誤差が少なくなるようにアナログ音声信号の増幅値、デジタル音声信号の増幅値を設定することができる。
【発明を実施するための最良の形態】
【0010】
以下、図面を参照しながら本発明の好適な実施例について説明していく。
【実施例1】
【0011】
図1は本発明の実施例1における音声処理装置の概略構成を示す機能ブロック図である。図1において、101はアナログ増幅部、102はA/D変換部、103はデジタル増幅部、104は音声信号記憶部、105は音声入力制御部、106は入力音量調整部、107は増幅値記憶部である。
【0012】
アナログ増幅部101は、入力されたアナログ音声信号をアナログ増幅し、アナログ音声信号を出力する。A/D変換部102はアナログ増幅部101が出力するアナログ音声信号をデジタル音声信号に変換して出力する。デジタル増幅部103は、A/D変換部102が出力するデジタル音声信号をデジタル増幅し、デジタル音声信号を出力する。音声信号記憶部104はデジタル増幅部103が出力するデジタル音声信号を一時的に記憶する。音声入力制御部105は、アナログ増幅部101、A/D変換部102、デジタル増幅部103、音声信号記憶部104の動作を制御する。また、音声入力制御部105はアナログ増幅部101で信号を増幅する際の増幅値(アナログ増幅値)、デジタル増幅部103で信号を信号を増幅する際の増幅値(デジタル増幅値)を制御する。また、音声入力制御部105は音声信号記憶部104に記憶されたデジタル音声信号を取得する。入力音量調整部106は、取得する音声信号(=音声信号記憶部104に記憶されるデジタル音声信号)が所望の音量になるようにアナログ増幅値、デジタル増幅値を決定する。アナログ増幅値およびデジタル増幅値(以降、二つを合わせて増幅値と記す)の決定方法は後に詳しく説明する。増幅値記憶部107は、入力音量調整部106で決定した増幅値を記憶する。
【0013】
図2は、本装置において入力された音声信号がアナログ増幅部、デジタル増幅部を経て増幅される様子を示す図である。図2において、音量Go(201)のアナログ音声信号が音声処理装置に入力されると、アナログ増幅部101で増幅され音量はGo+Aaとなる(Aa(202)はアナログ増幅値)。A/D変換部102によりA/D変換されたデジタル音声信号は、デジタル増幅部103でさらに増幅されて、最終的に得られる音量G(204)はG=Go+Aa+Adとなる(Ad(203)はデジタル増幅値)。アナログ増幅、デジタル増幅を組み合わせた合計の増幅値A(205)はA=Aa+Adである。なお、音量、増幅値の単位はいずれもデシベル(dB)で示している。以降、音量、増幅値の単位にdBを用いる。
【0014】
以上のような構成の音声処理装置において入力音量を調整する手順について説明する。
本装置ではサンプル音声を取得し、サンプル音声の音量が所望の音量に近づくように増幅値を設定する。本実施例では、サンプル音声の最大音量を所望の音量に近づける場合について説明するが、平均音量や最低音量など音量の算出方法を変更した場合でも以下で説明する手順を適用できる。サンプル音声の増幅前の音量をGo、所望の音量をG’としたとき、目標とする増幅値である目標増幅値A’は次式で求まる。
A’=G’−Go (数式1)
【0015】
ここでサンプル音声の増幅前の音量Goを本装置で直接求めることはできないが、取得したサンプル音声の音量Gを用いて次式で計算できる。
Go=G−A (数式2)
数式2において、Aはサンプル音声を取得する際に用いた増幅値である。
数式2のGoを数式1に代入すると求める増幅値A’は次式で求まる。
A’=G’−(G−A)
=(G’−G)+A
=(G’−G)+(Aa+Ad) (数式3)
数式3において、Aa、Adはそれぞれサンプル音声を取得する際に用いたアナログ増幅値、デジタル増幅値である。
【0016】
次に、数式3で求めた増幅値A’をアナログ増幅値Aa’、デジタル増幅値Ad’に配分する。
A’=Aa’+Ad’ (数式4)
デジタル増幅ではA/D変換時の量子化誤差も増幅されるのでデジタル増幅値はできるだけ小さい方が良い。また、A/D変換時の量子化誤差をできるだけ小さくするため、アナログ増幅値はできるだけ大きい方が良い。したがって、本装置ではA/D変換時の量子化誤差を小さくするため、アナログ増幅値ができるだけ大きく、デジタル増幅値ができるだけ小さくなるように増幅値の配分を行う。デジタル増幅値の最大値をAd_max、最小値をAd_min、アナログ増幅値の最大値をAa_max、最小値をAa_minとすると、アナログ増幅値、デジタル増幅値を次式で求める。
(ケース1)A’≧Aa_max+Ad_maxの場合
Aa’=Aa_max (数式5)
Ad’=Ad_max (数式6)
(ケース2)Aa_max+Ad_max>A’≧Aa_max+Ad_minの場合
Aa’=Aa_max (数式7)
Ad’=A’−Aa_max (数式8)
(ケース3)Aa_max+Ad_min>A’>Aa_min+Ad_minの場合
Aa’=A’−Ad_min (数式9)
Ad’=Ad_min (数式10)
(ケース4)Aa_min+Ad_min≧A’の場合
Aa’=Aa_min (数式11)
Ad’=Ad_min (数式12)
このように増幅値を設定することにより、量子化誤差を最小化し、所望の音量G’を得るための入力音量調整が可能になる。
【0017】
なお、Aa_maxの替わりに、次式で求まるAa_max2を用いると、A/D変換時のクリッピングを回避した最大のアナログ増幅値を設定することができる。
Aa_max2=min(Aa_max、G_max−Go)
=min(Aa_max、G_max−(G−A))
(数式13)
数式13において、G_maxはA/D変換後に得られるデジタル音声がとり得る音量の最大値である。
【0018】
以上の入力音量調整の処理の流れを図3のフローチャートを用いて説明する。
【0019】
入力音量調整の処理を開始すると、まずサンプル音声の取得を行う。入力音量調整部106は音声入力制御部105にサンプル音声を取得するよう指示を送る。指示を受けた音声入力制御部105は、アナログ制御部101、A/D変換部102、デジタル増幅部103を介して音声信号記憶部104に記憶されたデジタル音声信号を取得する(S101)。次に、音声入力制御部105が取得したデジタル音声信号の音量を入力音量調整部106で算出する(S102)。続いて入力音量調整部105は、所望の音量にするために必要な増幅値A’を算出し(数式3の計算、S103)、先に説明した手順にしたがって、アナログ増幅値が大きくなるようにアナログ増幅値とデジタル増幅値を算出する(S104)。アナログ増幅値とデジタル増幅値を決定する手順を図4のフローチャートに示す。
【0020】
図4において、A’はS103で算出された、所望の音量にするために必要な増幅値である。
【0021】
本装置における最大増幅値、すなわちアナログ増幅、デジタル増幅をともに最大にして得られる増幅値が必要な増幅値A’に満たない場合、あるいはA’と等しい場合(前述のケース1、S201YES)、デジタル増幅値、アナログ増幅値ともに最大値に設定する(数式5、数式6、S202)。
【0022】
S201NOの場合でかつ、アナログ増幅値を最大にしてもデジタル増幅の調整によりA’を得られる場合(ケース2、S203YES)、アナログ増幅値を最大値に設定し、必要な増幅値A’とアナログ増幅値の差分をデジタル増幅値で調整する(数式7、数式8、S204)。
【0023】
S203NOの場合かつA’が本装置における最小増幅値よりも大きい場合(ケース3)、デジタル増幅の増幅値を最小にして差分をアナログ増幅値に設定する(数式9、数式10、S206)。
【0024】
S206NOの場合、すなわち必要な増幅値A’が本装置の最小増幅値以下の場合(ケース4)、アナログ増幅、デジタル増幅ともに最小値に設定する(数式11、数式12、S207)。
【0025】
なお、前述したようにA/D変換時のクリッピングを回避する場合は、アナログ増幅値の最大値Aa_maxの替わりに、数式13で求まるクリッピングを考慮したアナログ増幅値の最大値Aa_max2を用いる。また、入力音量調整を平均音量や最低音量を基準にして調整する場合は、S103でそれらの音量を求める際に、あわせて最大音量を算出しておく必要がある。
【0026】
図3のフローチャートに戻り、入力音量調整部106は決定した増幅値を増幅値記憶部107に記憶して終了する(S105)。
【0027】
以上のように、アナログ増幅値、デジタル増幅値を決定することにより、アナログ増幅をできるだけ大きくして所望の音量を得ることができるので、A/D変換時の量子化誤差を最小にすることができる。
【実施例2】
【0028】
一般に用いられている増幅回路では、あらかじめ決められた数種類の離散的な増幅値しか設定できないものがある。特にアナログ増幅回路でこのような場合が多い。本実施例では、実施例1と同様にアナログ増幅とデジタル増幅の二つの増幅部を使用する音声処理装置において、アナログ増幅部101およびデジタル増幅部103における増幅値が離散的にしか設定できない場合について説明する。
【0029】
サンプル音声を取得してその音量を算出し必要な増幅値A’を算出するまでの処理は実施例1と同様(S101〜S103)である。以下、アナログ増幅値とデジタル増幅値の配分を決めるS104の処理について説明する。
【0030】
本実施例では、設定可能な増幅値が離散的になるため、必要な増幅値と全く同じ増幅値を設定できない場合がある。したがって、必要な増幅値に対する誤差が最も少ないアナログ増幅値Aa’とデジタル増幅値Ad’を決定する。すなわち、次式の値が最も小さくなるAa’とAd’をAa_max≧Aa’≧Aa_min、Ad_max≧Ad’≧Ad_minの範囲で決定する。
E=|A’−(Aa’+Ad’)| (数式14)
なお、A/D変換時のクリッピングを回避するように設定する場合は、数式1で計算されるAa_max2を越えない設定可能なアナログ増幅値のうち最大の値Aa_max3を用いて、Aa_max3≧Aa≧Aa_minの範囲でAa’を決定する。Aa_max3は次式で表される。
Aa_max3=max{Aa∋S(Aa_max2)} (数式15)
数式15において、S(Aa_max2)は本装置で設定可能なアナログ増幅値のうちAa_max2以下の増幅値の集合である。
【0031】
実施例1で説明したケース1、すなわち必要な増幅値が設定可能な増幅値の最大値以上になる場合は、実施例1と同様にアナログ増幅値とデジタル増幅値を最大に設定する。ケース4の場合、すなわち必要な増幅値が設定可能な増幅値の最小値以下になる場合も、実施例1と同様にアナログ増幅値とデジタル増幅値を最小に設定する。
【0032】
ケース2およびケース3の場合は、数式14を満たすアナログ増幅値、デジタル増幅値の組み合わせから誤差が数式14が最小になる組合せを選択する。誤差が最小になる組合せが複数ある場合は、アナログ増幅値が大きい組み合わせを選択する。アナログ増幅値も同じ場合はデジタル増幅値が小さい組み合わせを選択する、具体的な例で説明する。
【0033】
離散的な増幅値しか設定できない一例としてアナログ増幅は−40dB〜40dBの範囲で10dBごと、デジタル増幅は−20dB〜20dBの範囲で2dBごとに設定できる場合について説明する。
【0034】
必要な増幅値A’が46.3dBの場合、アナログ増幅値を40dB、デジタル増幅値を6dBに設定する。このとき、数式14で表せる誤差Eは0.3dBとなり、他の組合せでこれよりも誤差Eが小さくなるものはないため、この組合せを選択する。
【0035】
必要な増幅値が45.0dBの場合は、誤差が最小になる組合せが以下の4通りある。
【0036】
【表1】

【0037】
これらの候補の組み合わせから、アナログ増幅値の大きい(1)と(2)の2つの組み合わせに絞り込まれる。(1)と(2)を比較し、デジタル増幅値の小さい(2)を最終的な増幅値の組み合わせに決定する。以上のようにすることで、A/D変換時の量子化誤差をできるだけ小さくし、デジタル増幅時の量子化誤差の増幅を少なくした増幅値を決定できる。
【0038】
以上で説明した本実施例のS104において、アナログ増幅値、デジタル増幅値を決定する手順を、図5のフローチャートに示す。図5のフローチャートにおいて、S201、S202、S205、S207は実施例1と同じ動作になる。
【0039】
図5において、A’はS103で算出された所望の音量にするために必要な増幅値である。本装置における最大増幅値、すなわちアナログ増幅、デジタル増幅をともに最大にして得られる増幅値が必要な増幅値A’に満たない場合、あるいはA’と等しい場合(前述のケース1、S201YES)、デジタル増幅値、アナログ増幅値ともに最大値に設定する(数式5、数式6、S202)。
【0040】
S201NOかつS205NOの場合、すなわち必要な増幅値A’が本装置の最小増幅値以下の場合(ケース4)、アナログ増幅、デジタル増幅ともに最小値に設定する(数式11、数式12、S207)。
【0041】
一方、S201NOの場合でかつA’が本装置における最小増幅値よりも大きい場合(ケース2、ケース3)、数式14で表される誤差Eを最小にするアナログ増幅値、デジタル増幅値の組み合わせを算出する(S208)。
【0042】
最小誤差になる組み合わせが1組の場合は算出された組み合わせで増幅値を決定する(S209NO)。一方、最小誤差になる組み合わせの候補が複数ある場合(S209YES)は、これらの候補のうちアナログ増幅値が最も大きい組み合わせを選択する(S210)。
【0043】
S210で選択された候補が1組の場合は選択された組み合わせで増幅値を決定する(S210NO)。S210で選択された候補が複数ある場合(S211YES)は、これらの候補のうちデジタル増幅値が最も小さい組み合わせを選択して増幅値を決定する(S212)。
【0044】
なお、実施例1と同様にA/D変換時のクリッピングを回避する場合は、アナログ増幅値の最大値Aa_maxの替わりに、数式15で求まるAa_max3を用いる。
【0045】
図3のフローチャートに戻り、入力音量調整部106は決定した増幅値を増幅値記憶部107に記憶して終了する(S105)。
【0046】
以上のように、アナログ増幅値、デジタル増幅値を決定することにより、アナログ増幅値およびデジタル増幅値に設定可能な数値が離散的な場合に、量子化誤差を小さくすることができる。
【実施例3】
【0047】
実施例1、実施例2では、サンプル音声を取得して、取得したサンプル音声の音量から増幅値を決定した。しかしながら、本装置では、取得したサンプル音声に音声が含まれているかどうかを確認する手段がない。そのため、使用者が発声しなかった場合、サンプル音声取得時に突発的な内部雑音が混入した場合など、想定外の入力が行われると増幅値を正しく算出できないという課題が残る。本実施例では、この課題に対処するため、設定した増幅値で適正な音量が取得できるかどうかを確認する手段とあらかじめ決められている標準的な増幅値を設定する手段を提供する例を説明する。
【0048】
本実施例では、実施例1、実施例2で説明した入力音量装置を組み込んだ音声認識装置を例にその動作を説明する。本実施例では、説明のため、コマンドを音声で入力して実行するシンプルな音声認識装置を例に説明するが、本発明はこれに限定することなく、音声入力を伴うあらゆる装置、システムに適用可能である。
【0049】
図6は本実施例の音声認識装置の概略構成を示すブロック図である。101〜107は実施例1、実施例2で説明した音声処理装置と同じ構成なので説明を省略する。
【0050】
図6において、108は音声認識制御部で、後述する音声検出部109や音声認識部110の動作を制御する。また、音声入力制御部105を介して音声信号記憶部104に記憶している音声信号を取得し、音声検出部109に音声信号を渡す役割も担う。音声検出部109は、音声認識制御部109を介して得られる音声信号から、使用者が発声した音声区間を検出する。音声認識110は音声検出部109が検出した区間の音声信号の音響分析を行い、図示しない音響モデルや言語モデルなど必要なデータを用いてデコード処理を行い音声認識結果を得る。音声認識部110で得られた結果は音声認識制御部108を介して参照する。音声出力部111は、認識結果のトークバックをはじめとする音声による使用者へのガイダンス出力を制御する。使用者への音声ガイダンスは図示しない音声合成を用いて実現しても良い。表示制御部112は、本装置で用いるGUIや認識結果の表示など、表示の制御を行う。操作制御部113は、マウスやキボーボード、ボタンなど、使用者に提供される操作手段の制御を行う。制御部114は本装置全体の動作の制御を行う。
【0051】
上記構成の音声認識装置の動作について図7のフローチャートを用いて説明する。本装置を起動すると、制御部114で起動処理を行う際に、増幅値の設定を行う。制御部114は増幅値記憶部107に記憶されているアナログ増幅値、デジタル増幅値を読み出し、音声入力制御部105を介して増幅値を設定する(S301)。本装置では、一度設定された増幅値は増幅値記憶部107に記憶され、装置を終了した場合でも、次回起動時に同じ増幅値が適用される。増幅値107に記憶された増幅値は、後述する入力音量調整で増幅値を更新しない限り、増幅値記憶部107に保持される。
【0052】
起動処理が終了すると、表示制御部112により図8に示すような表示を行って、使用者が操作を行うまで待機する(S302NO)。図8は待機状態での表示の一例で、ウィンドウ301内に、案内302、発声ボタン303、入力音量調整ボタン304および終了ボタン305を表示する。案内302は操作ガイドなど使用者に通知する内容を表示する。ここでは、コマンド入力の操作案内を表示している。
【0053】
表示しているボタンをユーザが操作すると操作制御部113が使用者の操作を検出し(S302YES)、制御部114が操作内容に応じた処理の制御を行う(S303〜S310)。図8において、使用者が発声ボタン303を押した場合(S303NO、S305YES)は、音声認識を実行し(S309)、得られた認識結果に対応した処理を実施する(S309)。同様に、使用者が入力音量調整ボタン304を押した場合は入力音量調整を実行する(S307)。S307における入力音量調整の詳細は後述する。
【0054】
終了ボタン305が押された場合(S302YES、S303NO,S305NO、S306YES)は、音声認識装置の実行を終了する。表示されているボタン以外の操作(例えばキーボードによる操作など)を提供する場合は、それらの操作を検出する(S302YES、S303NO、S305NO、S306NO)と、対応する処理を制御部114が行う(S310)。
【0055】
次に、本装置におけるS307の入力音量調整の詳細な動作を図9〜図13を用いて説明する。図9は本装置における入力音量調整の処理の流れを示すフローチャートである。図10〜図13は入力音量調整の処理の際に表示制御部112が制御する表示の一例である。
【0056】
入力音量調整を開始する(図7のS307)と、表示制御部112は表示を入力音量調整用のUI(ユーザインタフェース)に切り替え、使用者が操作するまで待機する(S401NO)。
【0057】
図10は入力音量調整用UIの一例で、ウィンドウ301内に、開始ボタン306、標準値設定ボタン307、取消しボタン308を表示する。また、案内302には入力音量調整の操作方法を表示する。
【0058】
図9に戻り、操作制御部113が使用者の操作を検出する(S401YES)と、制御部114が使用者の操作に応じた処理を実行する(S402〜S419)。
【0059】
10において使用者が開始ボタン306を押す(S401YES、S402YES)と、S403以降でサンプル音声を用いた入力音量調整を開始する。一方、標準値設定ボタン307を押す(S401YES、S402NO,S417YES)と、入力音量調整部106が増幅値記憶部107に記憶されている増幅値の標準値を読み出し、音声入力制御部105を介して読み出した増幅値を設定する(S418)。続いて、設定した増幅値を増幅値記憶部に記憶して(S419)、入力音量調整を終了する。
【0060】
図10において、使用者が取り消しボタン308を押した場合(S401YES、S402NO、417NO)は、ただちに入力音量調整を終了する。
【0061】
次に、S403以降の処理について説明する。まず、S403で入力音量調整部107は音声入力制御部105を介してサンプル音声取得用の増幅値を設定する。サンプル音声を取得する際は、A/D変換時にクリッピングしないように小さな増幅値を使用する。サンプル音声取得用の増幅値は、使用者の声が大きい場合でもクリッピングせず、使用者の声が小さい場合でも音声信号が取得できる、適当な値をあらかじめ実験的に求めておき、増幅値記憶部107に記憶しておく。
【0062】
次に入力音量調整に用いるサンプル音声を取得する。入力音量調整部106は音声入力制御部105にサンプル音声を取得するよう指示を送る。指示を受けた音声入力制御部105は、アナログ制御部101、A/D変換部102、デジタル増幅部103を介して音声信号記憶部104に記憶されたデジタル音声信号を取得する(S404)。
【0063】
次に、音声入力制御部105が取得したデジタル音声信号の音量を入力音量調整部106で算出する(S405)。
【0064】
続いて入力音量調整部105は、所望の音量にするために必要な増幅値A’を算出し(S406)、アナログ増幅値とデジタル増幅値を算出する(S407)。
【0065】
S406における増幅値A’の算出およびS407におけるデジタル増幅値、アナログの算出には、実施例1あるいは実施例2で説明した手順を用いる。
【0066】
次にS408で、入力音量調整部105は、音声入力制御部105を介してS407で算出したアナログ増幅値とデジタル増幅値を設定する。
【0067】
以上の処理でデジタル増幅値およびアナログ増幅値が、実施例1、実施例2のいずれかの方法により変更される。
【0068】
以降、設定した増幅値で適正な音量が取得できるかどうかの確認を行う処理(S409〜S416)について説明する。
【0069】
増幅値の設定が終わると(S408)と、表示制御部112は確認用の音声を取得するため、使用者に発声を促す表示に切り替え、使用者が操作するまで待機する(S409NO)。
【0070】
図11は確認用の発声を促す表示の一例で、ウィンドウ301内に、開始ボタン309、取消しボタン310を表示する。また、案内302には確認用の発声を促す内容を表示する。
【0071】
図9に戻り、操作制御部113が使用者の操作を検出する(S409YES)と、制御部114が使用者の操作に応じた処理を実行する(S410〜S416)。
【0072】
図11において使用者が開始ボタン309を押すと(S409YES、S410YES)と、S404のサンプル音声取得と同様に、入力音量調整部106から音声入力制御部105に指示が送られ、確認用音声を取得する(S411)。
【0073】
続いて、S411で取得した確認用音声の音量G’’を算出して、S413で算出した音量G’’が適正か否かを判断する。
【0074】
ここでは、あらかじめ所望の音量G’との差に対する許容範囲の最小値Mmin、最大値Mmaxを決めておき、Mmin<G’’−G’<Mmaxなら適正と判断する。判断基準はこれに限るものではなく、例えば、G’’とG’の差が5dB以内など、簡便な方法を用いてもよい。また、これらの判断とは別に、確認用音声がクリッピングした場合に適正でないと判断しても良い。
【0075】
確認用音声の音量が適正の場合(S413YES)は、設定した増幅値を増幅値記憶部107に記憶して入力音量調整を終了する(S414)。
【0076】
以上で説明したように、S407で算出された増幅値は、その増幅値を設定して取得した音声の音量が適正になることを確認してから、増幅値記憶部107に記憶する。入力音量調整を始める前の元の増幅値は増幅値記憶部107に保存されている。従って使用者が図11で取り消しボタン310を押して、入力音量調整を途中で取り消した場合(S410NO)や、後述する確認用音声の音量が適正でない場合は、保存されている増幅値を読み出して再度設定することにより、入力音量調整前の増幅値に戻せる。
【0077】
S413において確認用音声の音量が適正ではない(NO)場合は、入力音量調整ができなかったこと、および予想される原因を使用者に通知する(S415)。図12は表示制御部112による、入力音量調整の失敗およびその原因を通知する表示の一例である。
【0078】
S415の原因通知に続いて、入力音量調整を行うために設定していた増幅値を元の値に戻す。入力音量調整部106は増幅値記憶部107に記憶されている増幅値を読み出し、音声入力制御部を介して、読み出した増幅値を設定し(S416)、入力音量調整の処理を終了する。
【0079】
以上説明したように実施例3の音声認識装置によれば、サンプル音声を取得して増幅値を設定する際に、算出した増幅値を用いて確認用音声を取得して、設定した増幅値が適正かどうかを判断している。このため、サンプル音声取得時の想定外の入力により、適正でない増幅値が設定される可能性を減らすことができる。
【0080】
(その他の実施例)
以上の説明において図8、図10、図11、図12で説明したウィンドウ301内に表示する案内302の内容を、音声出力制御部111により図示しない音声合成を用いて合成音で案内してもよい。
【0081】
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。
【0082】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0083】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0084】
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0085】
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。
【図面の簡単な説明】
【0086】
【図1】本発明の実施例1、実施例2に係る音声処理装置の概略構成を示す図である。
【図2】本発明の実施例1および実施例2に係る音声処理装置、実施例3に係る音声認識装置で入力された音声信号がアナログ増幅部、デジタル増幅部を経て増幅される様子を説明する図である。
【図3】本発明の実施例1および実施例2に係る音声処理装置の動作手順を表すフローチャートである。
【図4】本発明の実施例1に係る音声処理装置において、アナログ増幅値とデジタル増幅値を算出する手順を示すフローチャートである。
【図5】本発明の実施例2に係る音声処理装置において、アナログ増幅値とデジタル増幅値を算出する手順を示すフローチャートである。
【図6】本発明の実施例2に係る音声認識装置の概略構成を示す図である。
【図7】本発明の実施例3に係る音声認識装置の動作手順の一例を示すフローチャートである。
【図8】本発明の実施例3に係る音声認識装置の動作の一例を説明する図である。
【図9】本発明の実施例3に係る音声認識装置の動作手順を示すフローチャートである。
【図10】本発明の実施例3に係る音声認識装置において、入力音量調整を行う時の動作の一例を説明する図である。
【図11】本発明の実施例3に係る音声認識装置において、入力音量調整を行う時の動作の一例を説明する図である。
【図12】本発明の実施例3に係る音声認識装置において、入力音量調整を行う時の動作の一例を説明する図である。
【符号の説明】
【0087】
101 アナログ増幅部
102 A/D変換部
103 デジタル増幅部
104 音声信号記憶部
105 音声入力制御部
106 入力音量調整部
107 増幅値記憶部

【特許請求の範囲】
【請求項1】
アナログ音声信号を増幅するアナログ増幅手段と、
アナログ音声信号をデジタル音声信号に変換するA/D変換手段と、
デジタル音声信号を増幅するデジタル増幅手段と
目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定手段と
を備えた音声処理装置であって、
前記増幅値設定手段は、アナログ増幅とデジタル増幅を組み合わせて得られる増幅値が目標増幅値と等しく、かつアナログ増幅値が設定可能な範囲で最大になるようにアナログ増幅値とデジタル増幅値とを設定することを特徴とする音声処理装置。
【請求項2】
アナログ音声信号を増幅するアナログ増幅手段と、
アナログ音声信号をデジタル音声信号に変換するA/D変換手段と、
デジタル音声信号を増幅するデジタル増幅手段と
目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定手段と
を備えた音声処理装置であって、
アナログ増幅値、デジタル増幅値のいずれか一方あるいは両方に設定できる値が離散値である場合に、
前記増幅値設定手段は、得られる増幅値と目標増幅値との差が所定の範囲内に収まるアナログ増幅値とデジタル増幅値の組み合わせのうち、アナログ増幅値が最大の組み合わせを設定することを特徴とする音声処理装置。
【請求項3】
前記増幅値設定手段は、アナログ信号の増幅値が最大の組み合わせが複数ある場合に、デジタル音声信号の増幅値が最小になる組み合わせを設定することを特徴とする請求項2に記載の音声処理装置。
【請求項4】
前記増幅値設定手段は、A/D変換時にクリッピングしないようにアナログ信号の増幅値を設定することを特徴とする請求項1乃至請求項3のいずれかに記載の音声処理装置。
【請求項5】
音声信号を取得する音声取得手段と、
取得した音声信号の音量を算出する音量算出手段と、
取得した音声信号の音量を所定の音量にする目標増幅値を算出する目標増幅値算出手段とを更に備え、
前記音声取得手段は第一の音声信号を取得し、
前記音量算出手段は取得した第一の音声信号の音量を算出し、
前記目標増幅値算出手段は目標増幅値を所定の音量、第一の音声信号を取得した際のアナログ増幅値、第一の音声信号を取得した際のデジタル増幅値を用いて算出し、
前記増幅値設定手段は、目標増幅値算出手段が算出した目標増幅値に対するアナログ増幅値およびデジタル増幅値を設定することを特徴とする請求項1乃至請求項4のいずれかに記載の音声処理装置。
【請求項6】
前記音声取得手段で前記第一の音声信号を取得する際に、取得した音声信号がクリッピングしないようにあらかじめ定めた所定のアナログ増幅値とデジタル増幅値を用いて音声を取得することを特徴とする請求項5に記載の音声処理装置。
【請求項7】
前記音声取得手段によって第二の音声信号を取得し、
前記音量算出手段によって第二の音声信号の音量を算出し、
算出した第二の音声信号の音量が適正か否かの判断を行う確認手段をさらに備え、
前記確認手段は、第二の音声信号の音量の値が所定の範囲内である場合に適正と判断することを特徴とする請求項5又は請求項6に記載の音声処理装置。
【請求項8】
前記確認手段で、第二の音声信号の音量が適正と判断されない場合に、第二の音声信号の音量が適正にならなかった原因を使用者に通知することを特徴とする請求項7に記載の音声処理装置。
【請求項9】
アナログ増幅値およびデジタル増幅値をあらかじめ決められた標準値に設定する標準値設定手段を備えることを特徴とする請求項1乃至請求項8のいずれかに記載の音声処理装置。
【請求項10】
アナログ音声信号を増幅するアナログ増幅手段と、
アナログ音声信号をデジタル音声信号に変換するA/D変換手段と、
デジタル音声信号を増幅するデジタル増幅手段とを備えた音声処理装置における音声処理方法であって、
目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定工程を備え、
前記増幅値設定工程は、アナログ増幅とデジタル増幅を組み合わせて得られる増幅値が目標増幅値と等しく、かつアナログ増幅値が設定可能な範囲で最大になるようにアナログ増幅値とデジタル増幅値とを設定することを特徴とする音声処理方法。
【請求項11】
アナログ音声信号を増幅するアナログ増幅手段と、
アナログ音声信号をデジタル音声信号に変換するA/D変換手段と、
デジタル音声信号を増幅するデジタル増幅手段とを備えた音声処理装置における音声処理方法であって、
目標増幅値に対するアナログ増幅値とデジタル増幅値を設定する増幅値設定工程を備え、
アナログ増幅値、デジタル増幅値のいずれか一方あるいは両方に設定できる値が離散値である場合に、
前記増幅値設定工程は、得られる増幅値と目標増幅値との差が所定の範囲内に収まるアナログ増幅値とデジタル増幅値の組み合わせのうち、アナログ増幅値が最大の組み合わせを設定することを特徴とする音声処理方法。
【請求項12】
前記増幅値設定工程は、アナログ信号の増幅値が最大の組み合わせが複数ある場合に、デジタル音声信号の増幅値が最小になる組み合わせを設定することを特徴とする請求項11に記載の音声処理方法。
【請求項13】
前記増幅値設定工程は、A/D変換時にクリッピングしないようにアナログ信号の増幅値を設定することを特徴とする請求項10乃至請求項12のいずれかに記載の音声処理方法。
【請求項14】
音声信号を取得する音声取得工程と、
取得した音声信号の音量を算出する音量算出工程と、
取得した音声信号の音量を所定の音量にする目標増幅値を算出する目標増幅値算出工程とを更に備え、
前記音声取得工程は第一の音声信号を取得し、
前記音量算出工程は取得した第一の音声信号の音量を算出し、
前記目標増幅値算出工程は目標増幅値を所定の音量、第一の音声信号を取得した際のアナログ増幅値、第一の音声信号を取得した際のデジタル増幅値を用いて算出し、
前記増幅値設定工程は、目標増幅値算出工程が算出した目標増幅値に対するアナログ増幅値およびデジタル増幅値を設定することを特徴とする請求項10乃至請求項13のいずれかに記載の音声処理方法。
【請求項15】
前記音声取得工程で前記第一の音声信号を取得する際に、取得した音声信号がクリッピングしないようにあらかじめ定めた所定のアナログ増幅値とデジタル増幅値を用いて音声を取得することを特徴とする請求項14に記載の音声処理方法。
【請求項16】
前記音声取得工程によって第二の音声信号を取得し、
前記音量算出工程によって第二の音声信号の音量を算出し、
算出した第二の音声信号の音量が適正か否かの判断を行う確認工程をさらに備え、
前記確認工程は、第二の音声信号の音量の値が所定の範囲内である場合に適正と判断することを特徴とする請求項14又は請求項15に記載の音声処理方法。
【請求項17】
前記確認工程で、第二の音声信号の音量が適正と判断されない場合に、第二の音声信号の音量が適正にならなかった原因を使用者に通知することを特徴とする請求項16に記載の音声処理方法。
【請求項18】
アナログ増幅値およびデジタル増幅値をあらかじめ決められた標準値に設定する標準値設定工程を備えることを特徴とする請求項10乃至請求項17のいずれかに記載の音声処理方法。
【請求項19】
請求項10乃至請求項18のいずれかに記載の音声処理方法をコンピュータに実現させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate