説明

信号処理装置および方法、並びにプログラム

【課題】音声認識装置においてクリッピングによる性能劣化を防止する。
【解決手段】変換部は、入力された処理対象の信号をA/D変換し、分析部は、A/D変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、分析対象信号を分析し、処理部は、分析された信号を処理する。例えば切り出した分析区間がクリップされた部分を含む場合、クリップされている部分が除外されるように、前記分析区間を基準値より短い長さに変更することで、前記分析対象信号を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本技術は信号処理装置および方法、並びにプログラムに関し、特にクリッピングによる性能劣化を防止するようにした信号処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
例えばユーザからの音声をコマンドとして認識し、その音声コマンドに対応する処理を実行したり、ユーザからの音声をパスワードとして認識し、正しい認識結果が得られた場合には、ユーザに所定の操作を許容する装置が知られている。
【0003】
しかし、マイクロフォンから非常に大きい音が入力されると、A/D変換の際、その音声がクリップされ、そのA/D変換出力は元の音声レベルを正確に反映しておらず、正しい音声分析が困難になる。
【0004】
そこで音声がクリップした場合、その音声データを破棄し、そのことを発話者に提示して、再度発話させることが提案されている(例えば特許文献1)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2008−129084号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし再度の発話を求めると、発話者に負担をかけることになる。また、発話者がシステムに対して音声認識をさせていることを意識している場合には、発話者は音声認識ができなかった場合に再度の発話を求められることを予想しているので、発話者は対応が可能である。しかし、発話者がシステムに対して音声認識をさせていることを意識していない場合には、発話者は再度の発話を求められることを予想していないので、発話者は対応が困難である。
【0007】
さらに例えば銃声などの異常音が発生したとき、それを検知するシステムの場合、検知できなかったからといって異常音を催促することはできない。
【0008】
クリップしないように、A/D変換のダイナミックレンジを広くすることも考えられるが、そのようにすると、例えば銃声と音声の両方を検出対象とする場合、レベルが小さい音声の分解能が劣化するとともに、ノイズによる影響が大きくなる。
【0009】
本技術はこのような状況に鑑みてなされたものであり、クリッピングによる性能劣化を防止するものである。
【課題を解決するための手段】
【0010】
本技術の一側面は、入力された処理対象の信号をA/D変換する変換部と、A/D変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析部と、分析された前記信号を処理する処理部とを備える信号処理装置である。
【0011】
前記分析は、FFT分析またはWavelet分析とすることができる。
【0012】
前記分析部は、A/D変換された信号から分析区間を切り出し、クリップしていない前記分析区間を分析することができる。
【0013】
前記分析部は、切り出した前記分析区間がクリップしている場合、次のクリップしていない前記分析区間を選択することで、前記分析対象信号を生成することができる。
【0014】
前記分析部は、切り出した前記分析区間がクリップしている場合、ずらす前記一定の区間を変更し、クリップしていない前記分析区間の位置から新たな切り出しを行うことで、前記分析対象信号を生成することができる。
【0015】
前記分析部は、切り出した前記分析区間がクリップされた部分を含む場合、クリップされている部分が除外されるように、前記分析区間を基準値より短い長さに変更することで、前記分析対象信号を生成することができる。
【0016】
前記分析部は、A/D変換された信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成し、補完した前記分析対象信号から一定の区間だけずれた前記分析区間を順次切り出すことができる。
【0017】
前記分析部は、A/D変換された信号から一定の区間だけずれた分析区間を順次切り出し、前記分析区間毎にFFT分析またはWavelet分析し、FFT分析またはWavelet分析された後の信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成することができる。
【0018】
本技術の一側面の方法、並びにプログラムは、上述した本技術の一側面の信号処理装置に対応する方法、並びにプログラムである。
【0019】
本技術の側面においては、入力された処理対象の信号がA/D変換され、A/D変換された信号がクリップしている場合、クリップしていない信号が分析対象信号として生成され、分析対象信号が分析され、分析された信号が処理される。
【発明の効果】
【0020】
以上のように、本技術の一側面によれば、クリッピングによる性能劣化を防止することができる。
【図面の簡単な説明】
【0021】
【図1】本技術の音声認識装置の一実施の形態の構成を示すブロック図である。
【図2】信号分析部の一実施の形態の構成を示すブロック図である。
【図3】音声認識処理を説明するフローチャートである。
【図4】信号分析処理1を説明するフローチャートである。
【図5】分析区間の選択を説明する図である。
【図6】信号分析処理2を説明するフローチャートである。
【図7】分析区間の変更を説明する図である。
【図8】信号分析処理3を説明するフローチャートである。
【図9】分析区間長の変更を説明する図である。
【図10】信号分析処理4を説明するフローチャートである。
【図11】補完処理を説明する図である。
【図12】信号分析処理5を説明するフローチャートである。
【図13】補完処理を説明する図である。
【図14】パーソナルコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0022】
以下、本技術を実施するための形態(以下、実施の形態と称する)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.第3の実施の形態
4.第4の実施の形態
5.第5の実施の形態
6.本技術のプログラムへの適用
7.その他
【0023】
<第1の実施の形態>
[音声認識装置]
【0024】
図1は、本技術の音声認識装置1の一実施の形態の構成を示すブロック図である。信号処理装置としての音声認識装置1は、マイクロフォン11、A/D変換部12、信号分析部13、および音声認識部14により構成されている。音声認識装置1としてはその他の構成も必要であるが、その図示は省略されている。
【0025】
マイクロフォン11は、ユーザを始め、外部からの音声を入力する。A/D変換部12は、マイクロフォン11からのアナログの音声信号をA/D変換する。信号分析部13は、A/D変換部12からのデジタル音声信号をFFT(First Fourie Transform)分析、またはWavelet分析し、時間軸情報をスペクトル情報に変換する。処理部としての音声認識部14は、入力された信号に対して所定の処理を実行する。この実施の形態の場合、スペクトル情報に基づいて音声認識処理が実行される。
【0026】
図2は、信号分析部13の一実施の形態の構成を示すブロック図である。信号分析部13は、切り出し部31、ウインドウ範囲決定部32、変換部33、クリッピング判定部34、補完部35、および制御部36を有している。なお、図2において円の中に示した数字は、以下に説明する5つの実施の形態の信号が流れる経路を示している。
【0027】
切り出し部31は、A/D変換部12または補完部35より入力されたデジタル信号の所定の区間を、変換部33による変換のウインドウである分析区間として切り出す。ウインドウ範囲決定部32は、切り出された分析区間を必要に応じて変更し、最終的な分析区間を決定する。変換部33は、入力されたデジタル音声信号を、時間軸情報からスペクトル情報に変換する。具体的には、FFTまたはWavelet変換が行われる。
【0028】
クリッピング判定部34は、入力された信号がクリップされているかを判定する。補完部35は、入力された信号のクリップされている部分を補完する。制御部36は、ユーザにより設定されたモードに応じて各部の動作を制御する。具体的にはモードに応じて必要な部分のみが動作するように各部が制御される。
【0029】
[音声認識処理1]
【0030】
次に、図1の音声認識装置1の音声認識処理について説明する。図3は、音声認識処理を説明するフローチャートである。
【0031】
ステップS1においてA/D変換部12は、マイクロフォン11から入力された音声信号を、A/D変換する。つまり、音声信号がアナログ信号からデジタル信号に変換される。ステップS2において信号分析部13は、信号分析処理を実行する。この信号分析処理の詳細は、図4、図6、図8、図10、および図12を参照して後述する。どのモードの信号分析処理が行われるかは、ユーザにより指示される。制御部36は、ユーザからの指示に対応するモードが実行されるように、切り出し部31乃至補完部35の動作を制御する。ステップS3において音声認識部14は、信号分析部13より出力された音声信号のスペクトル情報に基づいて、音声認識処理を実行する。
【0032】
次に、ステップS2の信号分析処理の詳細について説明する。図4は、第1の実施の形態としての信号分析処理1を説明するフローチャートである。
【0033】
ステップS21において信号分析部13の切り出し部31は、分析区間を切り出す。この分析区間の切り出しについて、図5を参照して説明する。図5は、分析区間の選択を説明する図である。
【0034】
いま図5Aに示されるようなアナログの音声信号がマイクロフォン11より出力され、A/D変換部12に入力されたとする。A/D変換部12は、入力されたアナログ信号をデジタル信号に変換する。このデジタル信号が図5Bに示されている。便宜上、アナログ信号と同様のアナログ波形で示されているが、図5Bの信号はデジタル信号である。図5Bのデジタル信号を図5Aのアナログ信号と比較して明らかなように、デジタル信号のレベルの大きい部分は、クリップされている。つまり、A/D変換が可能な閾値を超えたレベルは、A/D変換ができないので、一定のレベルとされている。
【0035】
切り出し部31は、このデジタル信号を一定の長さの分析区間Ti(i=1,2,3,・・・)毎に周期的に切り出す。各分析区間Ti+1は、その一部が直前の分析区間Tiと重なるように、一定の長さの区間T0ずつずれて切り出される。いまの場合、分析区間T1が切り出される。
【0036】
ステップS22においてクリッピング判定部34は、切り出された分析区間T1に、クリッピング区間が含まれているかを判定する。A/D変換可能な閾値を超えるレベルの区間が存在する場合、その分析区間はクリッピング区間を含むと判定される。図5Bの例では、分析区間T1には、クリッピング区間は含まれていない。そこで、ステップS23において変換部33は分析区間T1を変換する。例えば分析区間T1の音声信号がFFT変換またはWavelet変換される。このときウインドウ範囲決定部32はクリッピング判定部34より入力された分析区間Tiの信号をそのまま変換部33に出力する。変換された信号は音声認識部14に出力される。
【0037】
ステップS24において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、つまりまだ切り出されていない区間が残っている場合、処理はステップS21に戻り、次の分析区間が切り出される。いまの場合、分析区間T1から一定の区間T0だけずれた分析区間T2が切り出される。
【0038】
ステップS22においてクリッピング判定部34は、分析区間T2にクリッピング区間が含まれているかを判定する。分析区間T2にはクリッピング区間が含まれているので、ステップS23の信号分析処理は実行されず、処理はステップS21に戻り、次の分析区間が切り出される。いまの場合、分析区間T2から一定の区間T0だけずれた次の分析区間T3が切り出される。
【0039】
ステップS22においてクリッピング判定部34は、切り出された分析区間T3に、クリッピング区間が含まれているかを判定する。分析区間T3にはクリッピング区間が含まれているので、処理はステップS21に戻り、次の分析区間が切り出される。いまの場合、分析区間T3から一定の区間T0だけずれた分析区間T4が切り出される。
【0040】
ステップS22においてクリッピング判定部34は、切り出された分析区間T4に、クリッピング区間が含まれているかを判定する。分析区間T4にはクリッピング区間が含まれているので、処理はステップS21に戻り、次の分析区間が切り出される。いまの場合、分析区間T4から一定の区間T0だけずれた分析区間T5が切り出される。
【0041】
ステップS22においてクリッピング判定部34は、切り出された分析区間T5に、クリッピング区間が含まれているかを判定する。図5Bの例では、分析区間T5には、クリッピング区間は含まれていない。そこで、ステップS23において変換部33は分析区間T5を変換する。例えば分析区間T5の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【0042】
以上のようにして、ステップS24において切り出しが終了したと判定されるまで、ステップS21乃至ステップS23の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【0043】
このように、この実施の形態においては、分析区間にクリッピングが起きている場合、クリッピングが起きていない次の分析区間が選択され、選択された分析区間、つまりクリッピングが起きていない分析区間のみが分析対象信号として信号分析される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【0044】
この実施の形態においては、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またA/D変換のダイナミックレンジを必要以上に広くする必要もない。
【0045】
次に他の実施の形態について説明する。なお、以下の各実施の形態における音声認識装置1のブロック図と音声認識処理のフローチャートは、図1乃至図3に示した第1の実施の形態における場合と同様であり、その説明は繰り返しになるので省略する。各実施の形態においては、図3のステップS2の信号分析処理のみが第1の実施の形態の場合(つまり図4)と異なる。そこで、以下においては、各実施の形態の信号分析処理について説明する。
【0046】
<第2の実施の形態>
[信号分析処理]
【0047】
最初に、第2の実施の形態について、図6と図7を参照して説明する。
【0048】
図6は、信号分析処理2を説明するフローチャートである。また図7は、分析区間の変更を説明する図である。
【0049】
ステップS41において切り出し部31は、分析区間を切り出す。この処理は、図4のステップS21における処理と同様の処理である。すなわち図7Aに示されるようなアナログの音声信号がマイクロフォン11より出力され、A/D変換部12に入力されたとする。A/D変換部12は、入力されたアナログ信号をデジタル信号に変換する。このデジタル信号が図7Bに示されている。便宜上、アナログ信号と同様の波形で示されているが、図7Bの信号はデジタル信号である。図7Bのデジタル信号を図7Aのアナログ信号と比較して明らかなように、デジタル信号のレベルの大きい部分は、クリップされている。
【0050】
切り出し部31は、このデジタル信号を一定の長さの分析区間Ti(i=11,12,13,・・・)毎に周期的に切り出す。各分析区間Ti+1は、その一部が直前の分析区間Tiと重なるように、一定の長さの区間T0ずつずれて切り出される。いまの場合、分析区間T11が切り出される。
【0051】
ステップS42においてクリッピング判定部34は、切り出された分析区間T11に、クリッピング区間が含まれているかを判定する。図7Bの例では、分析区間T11には、クリッピング区間は含まれていない。そこで、ステップS44において変換部33は分析区間T11を変換する。例えば分析区間T11の音声信号が分析対象信号としてFFT変換またはWavelet変換される。このときウインドウ範囲決定部32はクリッピング判定部34より入力された分析区間Tiの信号をそのまま変換部33に出力する。変換された信号は音声認識部14に出力される。
【0052】
ステップS45において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップS41に戻り、次の分析区間が切り出される。いまの場合、分析区間T11から一定の長さの区間T0だけずれた分析区間T12が切り出される。
【0053】
ステップS42においてクリッピング判定部34は、分析区間T12にクリッピング区間が含まれているかを判定する。分析区間T12にはクリッピング区間が含まれているので、処理はステップS43に進む。
【0054】
ステップS43においてウインドウ範囲決定部32は、分析区間を変更する。すなわち、クリッピング区間が含まれていない場合には、各分析区間Ti+1は、その一部が直前の分析区間Tiと重なるように、一定の長さの区間T0ずつずれて、分析区間T11,T12,T13,T14,T15,・・・と、順次切り出される。しかし、クリッピング区間が含まれている場合には、分析区間T12から区間Ttだけずれた、クリッピング区間が含まれなくなる分析区間T21まで、分析区間が変更される。
【0055】
つまり、区間T0の周期性が一時的に崩れ、次の分析区間T21は、その先頭が、クリッピング区間を含まなくなる位置に配置される。すなわち、周期的に配置される予定の位置であった分析区間T12の先頭から区間T0だけ離れた位置に代えて、区間Ttだけ離れた位置に、次の分析区間T21の先頭が配置される。
【0056】
そして、その後、再び各分析区間Ti+1は、その一部が直前の分析区間Tiと重なるように、一定の長さの区間T0ずつずれて、分析区間T21,T22,T23,・・・と、順次切り出される。
【0057】
ステップS44において変換部33はウインドウ範囲決定部32より供給された分析区間T21を変換する。例えば分析区間T21の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【0058】
その後、ステップS45において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップS41に戻り、次の分析区間が切り出される。いまの場合、分析区間T21から一定の区間T0だけずれた分析区間T22が切り出される。
【0059】
以下、上述した場合と同様に、ステップS45において切り出しが終了したと判定されるまで、ステップS41乃至ステップS44の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【0060】
このように、この実施の形態においては、クリッピングが起きている場合、分析区間がクリッピングが起きていない分析区間に変更される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【0061】
また、第1の実施の形態と同様に、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またA/D変換のダイナミックレンジを必要以上に広くする必要もない。
【0062】
さらにこの第2の実施の形態は、クリッピングが起きている場合、分析区間がクリッピングが起きていない分析区間に直ちに変更されるので、第1の実施の形態に較べ、より迅速な処理が可能となる。
【0063】
<第3の実施の形態>
[信号分析処理]
【0064】
次に、第3の実施の形態について、図8と図9を参照して説明する。
【0065】
図8は、信号分析処理3を説明するフローチャートである。また図9は、分析区間長の変更を説明する図である。
【0066】
ステップS61において切り出し部31は、分析区間を切り出す。この処理は、図4のステップS21における処理と同様の処理である。すなわち図9Aに示されるようなアナログの音声信号がマイクロフォン11より出力され、A/D変換部12に入力されたとする。A/D変換部12は、入力されたアナログ信号をデジタル信号に変換する。このデジタル信号が図9Bに示されている。便宜上、アナログ信号と同様の波形で示されているが、図9Bの信号はデジタル信号である。図9Bのデジタル信号を図9Aのアナログ信号と比較して明らかなように、デジタル信号のレベルの大きい部分は、クリップされている。
【0067】
切り出し部31は、このデジタル信号を一定の長さの分析区間Ti(i=11,12,13,・・・)毎に周期的に切り出す。各分析区間Ti+1は、その一部が直前の分析区間Tiと重なるように、一定の長さの区間T0ずつずれて切り出される。いまの場合、分析区間T11が切り出される。
【0068】
ステップS62においてクリッピング判定部34は、切り出された分析区間T11に、クリッピング区間が含まれているかを判定する。図9Bの例では、分析区間T11には、クリッピング区間は含まれていない。そこで、ステップS64において変換部33は分析区間T11を変換する。例えば分析区間T11の音声信号が分析対象信号としてFFT変換またはWavelet変換される。このときウインドウ範囲決定部32はクリッピング判定部34より入力された分析区間Tiの信号をそのまま変換部33に出力する。変換された信号は音声認識部14に出力される。
【0069】
ステップS65において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップS61に戻り、次の分析区間が切り出される。いまの場合、分析区間T11から一定の長さの区間T0だけずれた分析区間T12が切り出される。
【0070】
ステップS62においてクリッピング判定部34は、分析区間T12にクリッピング区間が含まれているかを判定する。図9Bの例では、分析区間T12にはクリッピング区間が含まれているので、処理はステップS63に進む。
【0071】
ステップS63においてウインドウ範囲決定部32は、分析区間長を変更する。すなわち、クリッピング区間が含まれていない場合には、各分析区間Ti+1は、その一部が直前の分析区間Tiと重なるように、一定の長さの区間T0ずつずれて、一定の基準の長さの分析区間T11,T12,T13,T14,T15,・・・と、順次切り出される。しかし、クリッピング区間が含まれている場合には、分析区間T12からクリッピング区間が含まれる部分が除外され、分析区間が基準値より短い長さに変更される。いまの場合、分析区間T12の終端部が、基準の位置からクリップが始まる直前の位置に変更される。
【0072】
なお、分析区間長の変更に関する情報は、ウインドウ範囲決定部32から音声認識部14に通知される。
【0073】
ステップS64において変換部33はウインドウ範囲決定部32より供給された分析区間T12を変換する。例えば分析区間T12の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【0074】
その後、ステップS65において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップS61に戻り、次の分析区間が切り出される。いまの場合、分析区間T12から一定の区間T0だけずれた分析区間T13が切り出される。
【0075】
ステップS62においてクリッピング判定部34は、分析区間T13にクリッピング区間が含まれているかを判定する。図9Bの例の場合、分析区間T13にはクリッピング区間が含まれているので、処理はステップS63に進む。
【0076】
ステップS63においてウインドウ範囲決定部32は、分析区間長を変更する。いまの場合、分析区間T13の終端部が、基準の位置からクリップが始まる直前の位置に変更される。
【0077】
ステップS64において変換部33はウインドウ範囲決定部32より供給された分析区間T13を変換する。例えば分析区間T13の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【0078】
その後、ステップS65において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップS61に戻り、次の分析区間が切り出される。いまの場合、分析区間T13から一定の区間T0だけずれた分析区間T14が切り出される。
【0079】
ステップS62においてクリッピング判定部34は、分析区間T14にクリッピング区間が含まれているかを判定する。図9Bの例の場合、分析区間T14にはクリッピング区間が含まれているので、処理はステップS63に進む。
【0080】
ステップS63においてウインドウ範囲決定部32は、分析区間長を変更する。いまの場合、分析区間T14の始端部が、基準の位置からクリップが終了した直後の位置に変更される。
【0081】
ステップS64において変換部33はウインドウ範囲決定部32より供給された分析区間T14を変換する。例えば分析区間T14の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【0082】
その後、ステップS65において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップS61に戻り、次の分析区間が切り出される。いまの場合、分析区間T14から一定の区間T0だけずれた分析区間T15が切り出される。
【0083】
ステップS62においてクリッピング判定部34は、分析区間T15にクリッピング区間が含まれているかを判定する。図9Bの例の場合、分析区間T15にはクリッピング区間が含まれていないので、処理はステップS64に進む。
【0084】
ステップS64において変換部33はウインドウ範囲決定部32より供給された分析区間T15を変換する。例えば分析区間T15の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【0085】
以下、上述した場合と同様に、ステップS65において切り出しが終了したと判定されるまで、ステップS61乃至ステップS64の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【0086】
このように、この実施の形態においては、クリッピングが起きている場合、クリッピングが起きている部分が除外されるように分析区間長が変更される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【0087】
また、第1の実施の形態と同様に、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またA/D変換のダイナミックレンジを必要以上に広くする必要もない。
【0088】
さらにこの第3の実施の形態は、クリッピングが起きている場合、クリッピングが起きている部分が除外されるように分析区間長が変更されるので、第1の実施の形態に較べ、より迅速な処理が可能となる。
【0089】
<第4の実施の形態>
[信号分析処理]
【0090】
次に、第4の実施の形態について、図10と図11を参照して説明する。
【0091】
図10は、信号分析処理4を説明するフローチャートである。また図11は、信号の補完処理を説明する図である。
【0092】
ステップS81においてクリッピング判定部34は、A/D変換部12から入力された信号がクリップされているかを判定する。信号がクリップされている場合、ステップS82において補完部35は、クリッピング判定部34から入力された信号を補完する。
【0093】
ここで図11を参照して、この実施の形態における補完について説明する。便宜上、アナログ信号と同様の波形で示されているが、図11の信号はデジタル信号である。図11Aに示されるように、A/D変換部12より出力されたデジタル信号の一部がクリップされているとする。図11Bに示されるように、補完部35は、クリップ部分に向かう信号波形に対して線形の近似を行い、クリップ部分の前方の近似線を演算する。また、図11Cに示されるように、補完部35は、クリップ部分から離れる信号波形に対して線形の近似を行い、クリップ部分の後方の近似線を演算する。そして、図11Dに示されるように、補完部35は、前方の近似線と後方の近似線とを合成して、クリップ部分を補完した信号を生成する。
【0094】
なお、線形に限らず、2次、3次等の任意の値のn次関数を用いて近似を行うことができる。
【0095】
ステップS81において信号がクリップされていないと判定された場合、ステップS82の補完処理は必要が無いのでスキップされる。このとき補完部35は、クリッピング判定部34より入力された信号をそのまま切り出し部31に出力する。
【0096】
ステップS82の補完処理の後、およびステップS81において信号がクリップされていないと判定された場合、ステップS83において切り出し部31は、補完部35により入力された分析対象信号としての信号から分析区間を切り出す。ステップS84において変換部33は、ウインドウ範囲決定部32より供給された分析区間を変換する。例えば分析区間の音声信号がFFT変換またはWavelet変換される。なお、このときウインドウ範囲決定部32は、切り出し部31より入力された信号をそのまま変換部33に出力する。
【0097】
その後、ステップS85において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップS81に戻り、次の分析区間が切り出される。
【0098】
以下、上述した場合と同様に、ステップS85において切り出しが終了したと判定されるまで、ステップS81乃至ステップS84の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【0099】
このように、この実施の形態においては、クリッピングが起きている場合、クリッピングが起きている部分が補完される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【0100】
また、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またA/D変換のダイナミックレンジを必要以上に広くする必要もない。
【0101】
<第5の実施の形態>
[信号分析処理]
【0102】
次に、第5の実施の形態について、図12と図13を参照して説明する。
【0103】
図12は、信号分析処理5を説明するフローチャートである。また図13は、信号の補完処理を説明する図である。
【0104】
ステップS101において切り出し部31は、A/D変換12より出力された信号から分析区間を切り出す。ステップS102において変換部33は、ウインドウ範囲決定部32を介して供給された分析区間を変換する。例えば分析区間の音声信号がFFT変換またはWavelet変換される。なお、このときウインドウ範囲決定部32は、切り出し部31より入力された信号をそのまま変換部33に出力する。
【0105】
ステップS103においてクリッピング判定部34は、変換部33から入力された信号がクリップされているかを判定する。信号がクリップされている場合、ステップS104において補完部35は、変換部33から入力された信号を補完する。補完された信号は、音声認識部14に出力される。
【0106】
この実施の形態の場合、変換部33によりスペクトル情報に変換された信号から補完処理が行われる。具体的には、図13Aに示されるような、前のフレームの周波数スペクトルの信号と、図13Bに示されるような、後のフレームの周波数スペクトルの信号に基づいて、補完処理が実行される。つまり、FFT変換またはWavelet変換された後に、補完部35により分析対象信号が生成される。
【0107】
ステップS103において信号がクリップされていないと判定された場合、ステップS104の補完処理は必要が無いので実行されない。このとき補完部35は、クリッピング判定部34から入力された信号をそのまま音声認識部14に出力する。
【0108】
ステップS104の補完処理の後、およびステップS103において信号がクリップされていないと判定された場合、ステップS105において切り出し部31は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップS101に戻り、次の分析区間が切り出される。
【0109】
以下、上述した場合と同様に、ステップS105において切り出しが終了したと判定されるまで、ステップS101乃至ステップS104の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【0110】
このように、この実施の形態においては、クリッピングが起きている場合、クリッピングが起きている部分が補完される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【0111】
また、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またA/D変換のダイナミックレンジを必要以上に広くする必要もない。
【0112】
以上、本技術を、音声認識する場合を例として説明したが、本技術は、映像信号、その他の信号を処理する場合にも適用することができる。
【0113】
[本技術のプログラムへの適用]
【0114】
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0115】
図14は、上述した一連の処理をプログラムにより実行するコンピュータ101のハードウェアの構成例を示すブロック図である。
【0116】
コンピュータ101において、CPU(Central Processing Unit)121,ROM(Read Only Memory)122,RAM(Random Access Memory)123は、バス124により相互に接続されている。
【0117】
バス124には、さらに、入出力インタフェース125が接続されている。入出力インタフェース125には、入力部126、出力部127、記憶部128、通信部129、及びドライブ130が接続されている。
【0118】
入力部126は、キーボード、マウス、マイクロフォンなどよりなる。出力部127は、ディスプレイ、スピーカなどよりなる。記憶部128は、ハードディスクや不揮発性のメモリなどよりなる。通信部129は、ネットワークインタフェースなどよりなる。ドライブ130は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア131を駆動する。
【0119】
以上のように構成されるコンピュータでは、CPU121が、例えば、記憶部128に記憶されているプログラムを、入出力インタフェース125及びバス124を介して、RAM123にロードして実行することにより、上述した一連の処理が行われる。
【0120】
コンピュータ101では、プログラムは、例えば、パッケージメディア等としてのリムーバブルメディア131をドライブ130に装着することにより、入出力インタフェース125を介して、記憶部128にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部129で受信し、記憶部128にインストールすることができる。その他、プログラムは、ROM122や記憶部128に、あらかじめインストールしておくことができる。
【0121】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0122】
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0123】
例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0124】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0125】
[その他]
【0126】
本技術は、以下のような構成もとることができる。
(1)
入力された処理対象の信号をA/D変換する変換部と、
A/D変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析部と、
分析された前記信号を処理する処理部と
を備える信号処理装置。
(2)
前記分析は、FFT分析またはWavelet分析である
前記(1)に記載の信号処理装置。
(3)
前記分析部は、A/D変換された信号から分析区間を切り出し、クリップしていない前記分析区間を分析する
前記(1)または(2)に記載の信号処理装置。
(4)
前記分析部は、切り出した前記分析区間がクリップしている場合、次のクリップしていない前記分析区間を選択することで、前記分析対象信号を生成する
前記(3)に記載の信号処理装置。
(5)
前記分析部は、切り出した前記分析区間がクリップしている場合、ずらす前記一定の区間を変更し、クリップしていない前記分析区間の位置から新たな切り出しを行うことで、前記分析対象信号を生成する
前記(3)に記載の信号処理装置。
(6)
前記分析部は、切り出した前記分析区間がクリップされた部分を含む場合、クリップされている部分が除外されるように、前記分析区間を基準値より短い長さに変更することで、前記分析対象信号を生成する
前記(3)に記載の信号処理装置。
(7)
前記分析部は、A/D変換された信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成し、補完した前記分析対象信号から一定の区間だけずれた前記分析区間を順次切り出す
前記(3)に記載の信号処理装置。
(8)
前記分析部は、A/D変換された信号から一定の区間だけずれた分析区間を順次切り出し、前記分析区間毎にFFT分析またはWavelet分析し、FFT分析またはWavelet分析された後の信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成する
前記(1)または(2)に記載の信号処理装置。
(9)
入力された処理対象の信号をA/D変換する変換ステップと、
A/D変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析ステップと、
分析された前記信号を処理する処理ステップと
を含む信号処理方法。
(10)
入力された処理対象の信号をA/D変換する変換ステップと、
A/D変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析ステップと、
分析された前記信号を処理する処理ステップと
を含む処理をコンピュータに実行させるプログラム。
【符号の説明】
【0127】
1 音声認識装置, 11 マイクロフォン, 12 A/D変換部, 13 御信号分析部, 14 音声認識部,31 切り出し部, 32 ウインドウ範囲決定部, 33 変換部, 34 クリッピング判定部, 35 補完部, 36 制御部

【特許請求の範囲】
【請求項1】
入力された処理対象の信号をA/D変換する変換部と、
A/D変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析部と、
分析された前記信号を処理する処理部と
を備える信号処理装置。
【請求項2】
前記分析は、FFT分析またはWavelet分析である
請求項1に記載の信号処理装置。
【請求項3】
前記分析部は、A/D変換された信号から分析区間を切り出し、クリップしていない前記分析区間を分析する
請求項2に記載の信号処理装置。
【請求項4】
前記分析部は、切り出した前記分析区間がクリップしている場合、次のクリップしていない前記分析区間を選択することで、前記分析対象信号を生成する
請求項3に記載の信号処理装置。
【請求項5】
前記分析部は、切り出した前記分析区間がクリップしている場合、ずらす前記一定の区間を変更し、クリップしていない前記分析区間の位置から新たな切り出しを行うことで、前記分析対象信号を生成する
請求項3に記載の信号処理装置。
【請求項6】
前記分析部は、切り出した前記分析区間がクリップされた部分を含む場合、クリップされている部分が除外されるように、前記分析区間を基準値より短い長さに変更することで、前記分析対象信号を生成する
請求項3に記載の信号処理装置。
【請求項7】
前記分析部は、A/D変換された信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成し、補完した前記分析対象信号から一定の区間だけずれた前記分析区間を順次切り出す
請求項3に記載の信号処理装置。
【請求項8】
前記分析部は、A/D変換された信号から一定の区間だけずれた分析区間を順次切り出し、前記分析区間毎にFFT分析またはWavelet分析し、FFT分析またはWavelet分析された後の信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成する
請求項2に記載の信号処理装置。
【請求項9】
入力された処理対象の信号をA/D変換する変換ステップと、
A/D変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析ステップと、
分析された前記信号を処理する処理ステップと
を含む信号処理方法。
【請求項10】
入力された処理対象の信号をA/D変換する変換ステップと、
A/D変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析ステップと、
分析された前記信号を処理する処理ステップと
を含む処理をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2013−61439(P2013−61439A)
【公開日】平成25年4月4日(2013.4.4)
【国際特許分類】
【出願番号】特願2011−199051(P2011−199051)
【出願日】平成23年9月13日(2011.9.13)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】