信号処理装置および方法、並びにプログラム

【課題】音声認識装置においてクリッピングによる性能劣化を防止する。
【解決手段】変換部は、入力された処理対象の信号をＡ／Ｄ変換し、分析部は、Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、分析対象信号を分析し、処理部は、分析された信号を処理する。例えば切り出した分析区間がクリップされた部分を含む場合、クリップされている部分が除外されるように、前記分析区間を基準値より短い長さに変更することで、前記分析対象信号を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本技術は信号処理装置および方法、並びにプログラムに関し、特にクリッピングによる性能劣化を防止するようにした信号処理装置および方法、並びにプログラムに関する。
【背景技術】
【０００２】
例えばユーザからの音声をコマンドとして認識し、その音声コマンドに対応する処理を実行したり、ユーザからの音声をパスワードとして認識し、正しい認識結果が得られた場合には、ユーザに所定の操作を許容する装置が知られている。
【０００３】
しかし、マイクロフォンから非常に大きい音が入力されると、Ａ／Ｄ変換の際、その音声がクリップされ、そのＡ／Ｄ変換出力は元の音声レベルを正確に反映しておらず、正しい音声分析が困難になる。
【０００４】
そこで音声がクリップした場合、その音声データを破棄し、そのことを発話者に提示して、再度発話させることが提案されている（例えば特許文献１）。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００８−１２９０８４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかし再度の発話を求めると、発話者に負担をかけることになる。また、発話者がシステムに対して音声認識をさせていることを意識している場合には、発話者は音声認識ができなかった場合に再度の発話を求められることを予想しているので、発話者は対応が可能である。しかし、発話者がシステムに対して音声認識をさせていることを意識していない場合には、発話者は再度の発話を求められることを予想していないので、発話者は対応が困難である。
【０００７】
さらに例えば銃声などの異常音が発生したとき、それを検知するシステムの場合、検知できなかったからといって異常音を催促することはできない。
【０００８】
クリップしないように、Ａ／Ｄ変換のダイナミックレンジを広くすることも考えられるが、そのようにすると、例えば銃声と音声の両方を検出対象とする場合、レベルが小さい音声の分解能が劣化するとともに、ノイズによる影響が大きくなる。
【０００９】
本技術はこのような状況に鑑みてなされたものであり、クリッピングによる性能劣化を防止するものである。
【課題を解決するための手段】
【００１０】
本技術の一側面は、入力された処理対象の信号をＡ／Ｄ変換する変換部と、Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析部と、分析された前記信号を処理する処理部とを備える信号処理装置である。
【００１１】
前記分析は、FFT分析またはWavelet分析とすることができる。
【００１２】
前記分析部は、Ａ／Ｄ変換された信号から分析区間を切り出し、クリップしていない前記分析区間を分析することができる。
【００１３】
前記分析部は、切り出した前記分析区間がクリップしている場合、次のクリップしていない前記分析区間を選択することで、前記分析対象信号を生成することができる。
【００１４】
前記分析部は、切り出した前記分析区間がクリップしている場合、ずらす前記一定の区間を変更し、クリップしていない前記分析区間の位置から新たな切り出しを行うことで、前記分析対象信号を生成することができる。
【００１５】
前記分析部は、切り出した前記分析区間がクリップされた部分を含む場合、クリップされている部分が除外されるように、前記分析区間を基準値より短い長さに変更することで、前記分析対象信号を生成することができる。
【００１６】
前記分析部は、Ａ／Ｄ変換された信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成し、補完した前記分析対象信号から一定の区間だけずれた前記分析区間を順次切り出すことができる。
【００１７】
前記分析部は、Ａ／Ｄ変換された信号から一定の区間だけずれた分析区間を順次切り出し、前記分析区間毎にFFT分析またはWavelet分析し、FFT分析またはWavelet分析された後の信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成することができる。
【００１８】
本技術の一側面の方法、並びにプログラムは、上述した本技術の一側面の信号処理装置に対応する方法、並びにプログラムである。
【００１９】
本技術の側面においては、入力された処理対象の信号がＡ／Ｄ変換され、Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号が分析対象信号として生成され、分析対象信号が分析され、分析された信号が処理される。
【発明の効果】
【００２０】
以上のように、本技術の一側面によれば、クリッピングによる性能劣化を防止することができる。
【図面の簡単な説明】
【００２１】
【図１】本技術の音声認識装置の一実施の形態の構成を示すブロック図である。
【図２】信号分析部の一実施の形態の構成を示すブロック図である。
【図３】音声認識処理を説明するフローチャートである。
【図４】信号分析処理１を説明するフローチャートである。
【図５】分析区間の選択を説明する図である。
【図６】信号分析処理２を説明するフローチャートである。
【図７】分析区間の変更を説明する図である。
【図８】信号分析処理３を説明するフローチャートである。
【図９】分析区間長の変更を説明する図である。
【図１０】信号分析処理４を説明するフローチャートである。
【図１１】補完処理を説明する図である。
【図１２】信号分析処理５を説明するフローチャートである。
【図１３】補完処理を説明する図である。
【図１４】パーソナルコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【００２２】
以下、本技術を実施するための形態（以下、実施の形態と称する）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態
２．第２の実施の形態
３．第３の実施の形態
４．第４の実施の形態
５．第５の実施の形態
６．本技術のプログラムへの適用
７．その他
【００２３】
＜第１の実施の形態＞
［音声認識装置］
【００２４】
図１は、本技術の音声認識装置１の一実施の形態の構成を示すブロック図である。信号処理装置としての音声認識装置１は、マイクロフォン１１、Ａ／Ｄ変換部１２、信号分析部１３、および音声認識部１４により構成されている。音声認識装置１としてはその他の構成も必要であるが、その図示は省略されている。
【００２５】
マイクロフォン１１は、ユーザを始め、外部からの音声を入力する。Ａ／Ｄ変換部１２は、マイクロフォン１１からのアナログの音声信号をＡ／Ｄ変換する。信号分析部１３は、Ａ／Ｄ変換部１２からのデジタル音声信号をFFT（First Fourie Transform）分析、またはWavelet分析し、時間軸情報をスペクトル情報に変換する。処理部としての音声認識部１４は、入力された信号に対して所定の処理を実行する。この実施の形態の場合、スペクトル情報に基づいて音声認識処理が実行される。
【００２６】
図２は、信号分析部１３の一実施の形態の構成を示すブロック図である。信号分析部１３は、切り出し部３１、ウインドウ範囲決定部３２、変換部３３、クリッピング判定部３４、補完部３５、および制御部３６を有している。なお、図２において円の中に示した数字は、以下に説明する５つの実施の形態の信号が流れる経路を示している。
【００２７】
切り出し部３１は、Ａ／Ｄ変換部１２または補完部３５より入力されたデジタル信号の所定の区間を、変換部３３による変換のウインドウである分析区間として切り出す。ウインドウ範囲決定部３２は、切り出された分析区間を必要に応じて変更し、最終的な分析区間を決定する。変換部３３は、入力されたデジタル音声信号を、時間軸情報からスペクトル情報に変換する。具体的には、FFTまたはWavelet変換が行われる。
【００２８】
クリッピング判定部３４は、入力された信号がクリップされているかを判定する。補完部３５は、入力された信号のクリップされている部分を補完する。制御部３６は、ユーザにより設定されたモードに応じて各部の動作を制御する。具体的にはモードに応じて必要な部分のみが動作するように各部が制御される。
【００２９】
［音声認識処理１］
【００３０】
次に、図１の音声認識装置１の音声認識処理について説明する。図３は、音声認識処理を説明するフローチャートである。
【００３１】
ステップＳ１においてＡ／Ｄ変換部１２は、マイクロフォン１１から入力された音声信号を、Ａ／Ｄ変換する。つまり、音声信号がアナログ信号からデジタル信号に変換される。ステップＳ２において信号分析部１３は、信号分析処理を実行する。この信号分析処理の詳細は、図４、図６、図８、図１０、および図１２を参照して後述する。どのモードの信号分析処理が行われるかは、ユーザにより指示される。制御部３６は、ユーザからの指示に対応するモードが実行されるように、切り出し部３１乃至補完部３５の動作を制御する。ステップＳ３において音声認識部１４は、信号分析部１３より出力された音声信号のスペクトル情報に基づいて、音声認識処理を実行する。
【００３２】
次に、ステップＳ２の信号分析処理の詳細について説明する。図４は、第１の実施の形態としての信号分析処理１を説明するフローチャートである。
【００３３】
ステップＳ２１において信号分析部１３の切り出し部３１は、分析区間を切り出す。この分析区間の切り出しについて、図５を参照して説明する。図５は、分析区間の選択を説明する図である。
【００３４】
いま図５Ａに示されるようなアナログの音声信号がマイクロフォン１１より出力され、Ａ／Ｄ変換部１２に入力されたとする。Ａ／Ｄ変換部１２は、入力されたアナログ信号をデジタル信号に変換する。このデジタル信号が図５Ｂに示されている。便宜上、アナログ信号と同様のアナログ波形で示されているが、図５Ｂの信号はデジタル信号である。図５Ｂのデジタル信号を図５Ａのアナログ信号と比較して明らかなように、デジタル信号のレベルの大きい部分は、クリップされている。つまり、Ａ／Ｄ変換が可能な閾値を超えたレベルは、Ａ／Ｄ変換ができないので、一定のレベルとされている。
【００３５】
切り出し部３１は、このデジタル信号を一定の長さの分析区間Ｔi（ｉ＝１，２，３，・・・）毎に周期的に切り出す。各分析区間Ｔi+1は、その一部が直前の分析区間Ｔiと重なるように、一定の長さの区間Ｔ0ずつずれて切り出される。いまの場合、分析区間Ｔ1が切り出される。
【００３６】
ステップＳ２２においてクリッピング判定部３４は、切り出された分析区間Ｔ1に、クリッピング区間が含まれているかを判定する。Ａ／Ｄ変換可能な閾値を超えるレベルの区間が存在する場合、その分析区間はクリッピング区間を含むと判定される。図５Ｂの例では、分析区間Ｔ1には、クリッピング区間は含まれていない。そこで、ステップＳ２３において変換部３３は分析区間Ｔ1を変換する。例えば分析区間Ｔ1の音声信号がFFT変換またはWavelet変換される。このときウインドウ範囲決定部３２はクリッピング判定部３４より入力された分析区間Ｔiの信号をそのまま変換部３３に出力する。変換された信号は音声認識部１４に出力される。
【００３７】
ステップＳ２４において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、つまりまだ切り出されていない区間が残っている場合、処理はステップＳ２１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ1から一定の区間Ｔ0だけずれた分析区間Ｔ2が切り出される。
【００３８】
ステップＳ２２においてクリッピング判定部３４は、分析区間Ｔ2にクリッピング区間が含まれているかを判定する。分析区間Ｔ2にはクリッピング区間が含まれているので、ステップＳ２３の信号分析処理は実行されず、処理はステップＳ２１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ2から一定の区間Ｔ0だけずれた次の分析区間Ｔ3が切り出される。
【００３９】
ステップＳ２２においてクリッピング判定部３４は、切り出された分析区間Ｔ3に、クリッピング区間が含まれているかを判定する。分析区間Ｔ3にはクリッピング区間が含まれているので、処理はステップＳ２１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ3から一定の区間Ｔ0だけずれた分析区間Ｔ4が切り出される。
【００４０】
ステップＳ２２においてクリッピング判定部３４は、切り出された分析区間Ｔ4に、クリッピング区間が含まれているかを判定する。分析区間Ｔ4にはクリッピング区間が含まれているので、処理はステップＳ２１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ4から一定の区間Ｔ0だけずれた分析区間Ｔ5が切り出される。
【００４１】
ステップＳ２２においてクリッピング判定部３４は、切り出された分析区間Ｔ5に、クリッピング区間が含まれているかを判定する。図５Ｂの例では、分析区間Ｔ5には、クリッピング区間は含まれていない。そこで、ステップＳ２３において変換部３３は分析区間Ｔ5を変換する。例えば分析区間Ｔ5の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【００４２】
以上のようにして、ステップＳ２４において切り出しが終了したと判定されるまで、ステップＳ２１乃至ステップＳ２３の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【００４３】
このように、この実施の形態においては、分析区間にクリッピングが起きている場合、クリッピングが起きていない次の分析区間が選択され、選択された分析区間、つまりクリッピングが起きていない分析区間のみが分析対象信号として信号分析される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【００４４】
この実施の形態においては、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またＡ／Ｄ変換のダイナミックレンジを必要以上に広くする必要もない。
【００４５】
次に他の実施の形態について説明する。なお、以下の各実施の形態における音声認識装置１のブロック図と音声認識処理のフローチャートは、図１乃至図３に示した第１の実施の形態における場合と同様であり、その説明は繰り返しになるので省略する。各実施の形態においては、図３のステップＳ２の信号分析処理のみが第１の実施の形態の場合（つまり図４）と異なる。そこで、以下においては、各実施の形態の信号分析処理について説明する。
【００４６】
＜第２の実施の形態＞
［信号分析処理］
【００４７】
最初に、第２の実施の形態について、図６と図７を参照して説明する。
【００４８】
図６は、信号分析処理２を説明するフローチャートである。また図７は、分析区間の変更を説明する図である。
【００４９】
ステップＳ４１において切り出し部３１は、分析区間を切り出す。この処理は、図４のステップＳ２１における処理と同様の処理である。すなわち図７Ａに示されるようなアナログの音声信号がマイクロフォン１１より出力され、Ａ／Ｄ変換部１２に入力されたとする。Ａ／Ｄ変換部１２は、入力されたアナログ信号をデジタル信号に変換する。このデジタル信号が図７Ｂに示されている。便宜上、アナログ信号と同様の波形で示されているが、図７Ｂの信号はデジタル信号である。図７Ｂのデジタル信号を図７Ａのアナログ信号と比較して明らかなように、デジタル信号のレベルの大きい部分は、クリップされている。
【００５０】
切り出し部３１は、このデジタル信号を一定の長さの分析区間Ｔi（ｉ＝１１，１２，１３，・・・）毎に周期的に切り出す。各分析区間Ｔi+1は、その一部が直前の分析区間Ｔiと重なるように、一定の長さの区間Ｔ0ずつずれて切り出される。いまの場合、分析区間Ｔ11が切り出される。
【００５１】
ステップＳ４２においてクリッピング判定部３４は、切り出された分析区間Ｔ11に、クリッピング区間が含まれているかを判定する。図７Ｂの例では、分析区間Ｔ11には、クリッピング区間は含まれていない。そこで、ステップＳ４４において変換部３３は分析区間Ｔ11を変換する。例えば分析区間Ｔ11の音声信号が分析対象信号としてFFT変換またはWavelet変換される。このときウインドウ範囲決定部３２はクリッピング判定部３４より入力された分析区間Ｔiの信号をそのまま変換部３３に出力する。変換された信号は音声認識部１４に出力される。
【００５２】
ステップＳ４５において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップＳ４１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ11から一定の長さの区間Ｔ0だけずれた分析区間Ｔ12が切り出される。
【００５３】
ステップＳ４２においてクリッピング判定部３４は、分析区間Ｔ12にクリッピング区間が含まれているかを判定する。分析区間Ｔ12にはクリッピング区間が含まれているので、処理はステップＳ４３に進む。
【００５４】
ステップＳ４３においてウインドウ範囲決定部３２は、分析区間を変更する。すなわち、クリッピング区間が含まれていない場合には、各分析区間Ｔi+1は、その一部が直前の分析区間Ｔiと重なるように、一定の長さの区間Ｔ0ずつずれて、分析区間Ｔ11，Ｔ12，Ｔ13，Ｔ14，Ｔ15，・・・と、順次切り出される。しかし、クリッピング区間が含まれている場合には、分析区間Ｔ12から区間Ｔtだけずれた、クリッピング区間が含まれなくなる分析区間Ｔ21まで、分析区間が変更される。
【００５５】
つまり、区間Ｔ0の周期性が一時的に崩れ、次の分析区間Ｔ21は、その先頭が、クリッピング区間を含まなくなる位置に配置される。すなわち、周期的に配置される予定の位置であった分析区間Ｔ12の先頭から区間Ｔ0だけ離れた位置に代えて、区間Ｔtだけ離れた位置に、次の分析区間Ｔ21の先頭が配置される。
【００５６】
そして、その後、再び各分析区間Ｔi+1は、その一部が直前の分析区間Ｔiと重なるように、一定の長さの区間Ｔ0ずつずれて、分析区間Ｔ21，Ｔ22，Ｔ23，・・・と、順次切り出される。
【００５７】
ステップＳ４４において変換部３３はウインドウ範囲決定部３２より供給された分析区間Ｔ21を変換する。例えば分析区間Ｔ21の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【００５８】
その後、ステップＳ４５において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップＳ４１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ21から一定の区間Ｔ0だけずれた分析区間Ｔ22が切り出される。
【００５９】
以下、上述した場合と同様に、ステップＳ４５において切り出しが終了したと判定されるまで、ステップＳ４１乃至ステップＳ４４の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【００６０】
このように、この実施の形態においては、クリッピングが起きている場合、分析区間がクリッピングが起きていない分析区間に変更される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【００６１】
また、第１の実施の形態と同様に、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またＡ／Ｄ変換のダイナミックレンジを必要以上に広くする必要もない。
【００６２】
さらにこの第２の実施の形態は、クリッピングが起きている場合、分析区間がクリッピングが起きていない分析区間に直ちに変更されるので、第１の実施の形態に較べ、より迅速な処理が可能となる。
【００６３】
＜第３の実施の形態＞
［信号分析処理］
【００６４】
次に、第３の実施の形態について、図８と図９を参照して説明する。
【００６５】
図８は、信号分析処理３を説明するフローチャートである。また図９は、分析区間長の変更を説明する図である。
【００６６】
ステップＳ６１において切り出し部３１は、分析区間を切り出す。この処理は、図４のステップＳ２１における処理と同様の処理である。すなわち図９Ａに示されるようなアナログの音声信号がマイクロフォン１１より出力され、Ａ／Ｄ変換部１２に入力されたとする。Ａ／Ｄ変換部１２は、入力されたアナログ信号をデジタル信号に変換する。このデジタル信号が図９Ｂに示されている。便宜上、アナログ信号と同様の波形で示されているが、図９Ｂの信号はデジタル信号である。図９Ｂのデジタル信号を図９Ａのアナログ信号と比較して明らかなように、デジタル信号のレベルの大きい部分は、クリップされている。
【００６７】
切り出し部３１は、このデジタル信号を一定の長さの分析区間Ｔi（ｉ＝１１，１２，１３，・・・）毎に周期的に切り出す。各分析区間Ｔi+1は、その一部が直前の分析区間Ｔiと重なるように、一定の長さの区間Ｔ0ずつずれて切り出される。いまの場合、分析区間Ｔ11が切り出される。
【００６８】
ステップＳ６２においてクリッピング判定部３４は、切り出された分析区間Ｔ11に、クリッピング区間が含まれているかを判定する。図９Ｂの例では、分析区間Ｔ11には、クリッピング区間は含まれていない。そこで、ステップＳ６４において変換部３３は分析区間Ｔ11を変換する。例えば分析区間Ｔ11の音声信号が分析対象信号としてFFT変換またはWavelet変換される。このときウインドウ範囲決定部３２はクリッピング判定部３４より入力された分析区間Ｔiの信号をそのまま変換部３３に出力する。変換された信号は音声認識部１４に出力される。
【００６９】
ステップＳ６５において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップＳ６１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ11から一定の長さの区間Ｔ0だけずれた分析区間Ｔ12が切り出される。
【００７０】
ステップＳ６２においてクリッピング判定部３４は、分析区間Ｔ12にクリッピング区間が含まれているかを判定する。図９Ｂの例では、分析区間Ｔ12にはクリッピング区間が含まれているので、処理はステップＳ６３に進む。
【００７１】
ステップＳ６３においてウインドウ範囲決定部３２は、分析区間長を変更する。すなわち、クリッピング区間が含まれていない場合には、各分析区間Ｔi+1は、その一部が直前の分析区間Ｔiと重なるように、一定の長さの区間Ｔ0ずつずれて、一定の基準の長さの分析区間Ｔ11，Ｔ12，Ｔ13，Ｔ14，Ｔ15，・・・と、順次切り出される。しかし、クリッピング区間が含まれている場合には、分析区間Ｔ12からクリッピング区間が含まれる部分が除外され、分析区間が基準値より短い長さに変更される。いまの場合、分析区間Ｔ12の終端部が、基準の位置からクリップが始まる直前の位置に変更される。
【００７２】
なお、分析区間長の変更に関する情報は、ウインドウ範囲決定部３２から音声認識部１４に通知される。
【００７３】
ステップＳ６４において変換部３３はウインドウ範囲決定部３２より供給された分析区間Ｔ12を変換する。例えば分析区間Ｔ12の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【００７４】
その後、ステップＳ６５において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップＳ６１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ12から一定の区間Ｔ0だけずれた分析区間Ｔ13が切り出される。
【００７５】
ステップＳ６２においてクリッピング判定部３４は、分析区間Ｔ13にクリッピング区間が含まれているかを判定する。図９Ｂの例の場合、分析区間Ｔ13にはクリッピング区間が含まれているので、処理はステップＳ６３に進む。
【００７６】
ステップＳ６３においてウインドウ範囲決定部３２は、分析区間長を変更する。いまの場合、分析区間Ｔ13の終端部が、基準の位置からクリップが始まる直前の位置に変更される。
【００７７】
ステップＳ６４において変換部３３はウインドウ範囲決定部３２より供給された分析区間Ｔ13を変換する。例えば分析区間Ｔ13の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【００７８】
その後、ステップＳ６５において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップＳ６１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ13から一定の区間Ｔ0だけずれた分析区間Ｔ14が切り出される。
【００７９】
ステップＳ６２においてクリッピング判定部３４は、分析区間Ｔ14にクリッピング区間が含まれているかを判定する。図９Ｂの例の場合、分析区間Ｔ14にはクリッピング区間が含まれているので、処理はステップＳ６３に進む。
【００８０】
ステップＳ６３においてウインドウ範囲決定部３２は、分析区間長を変更する。いまの場合、分析区間Ｔ14の始端部が、基準の位置からクリップが終了した直後の位置に変更される。
【００８１】
ステップＳ６４において変換部３３はウインドウ範囲決定部３２より供給された分析区間Ｔ14を変換する。例えば分析区間Ｔ14の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【００８２】
その後、ステップＳ６５において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップＳ６１に戻り、次の分析区間が切り出される。いまの場合、分析区間Ｔ14から一定の区間Ｔ0だけずれた分析区間Ｔ15が切り出される。
【００８３】
ステップＳ６２においてクリッピング判定部３４は、分析区間Ｔ15にクリッピング区間が含まれているかを判定する。図９Ｂの例の場合、分析区間Ｔ15にはクリッピング区間が含まれていないので、処理はステップＳ６４に進む。
【００８４】
ステップＳ６４において変換部３３はウインドウ範囲決定部３２より供給された分析区間Ｔ15を変換する。例えば分析区間Ｔ15の音声信号が分析対象信号としてFFT変換またはWavelet変換される。
【００８５】
以下、上述した場合と同様に、ステップＳ６５において切り出しが終了したと判定されるまで、ステップＳ６１乃至ステップＳ６４の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【００８６】
このように、この実施の形態においては、クリッピングが起きている場合、クリッピングが起きている部分が除外されるように分析区間長が変更される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【００８７】
また、第１の実施の形態と同様に、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またＡ／Ｄ変換のダイナミックレンジを必要以上に広くする必要もない。
【００８８】
さらにこの第３の実施の形態は、クリッピングが起きている場合、クリッピングが起きている部分が除外されるように分析区間長が変更されるので、第１の実施の形態に較べ、より迅速な処理が可能となる。
【００８９】
＜第４の実施の形態＞
［信号分析処理］
【００９０】
次に、第４の実施の形態について、図１０と図１１を参照して説明する。
【００９１】
図１０は、信号分析処理４を説明するフローチャートである。また図１１は、信号の補完処理を説明する図である。
【００９２】
ステップＳ８１においてクリッピング判定部３４は、Ａ／Ｄ変換部１２から入力された信号がクリップされているかを判定する。信号がクリップされている場合、ステップＳ８２において補完部３５は、クリッピング判定部３４から入力された信号を補完する。
【００９３】
ここで図１１を参照して、この実施の形態における補完について説明する。便宜上、アナログ信号と同様の波形で示されているが、図１１の信号はデジタル信号である。図１１Ａに示されるように、Ａ／Ｄ変換部１２より出力されたデジタル信号の一部がクリップされているとする。図１１Ｂに示されるように、補完部３５は、クリップ部分に向かう信号波形に対して線形の近似を行い、クリップ部分の前方の近似線を演算する。また、図１１Ｃに示されるように、補完部３５は、クリップ部分から離れる信号波形に対して線形の近似を行い、クリップ部分の後方の近似線を演算する。そして、図１１Ｄに示されるように、補完部３５は、前方の近似線と後方の近似線とを合成して、クリップ部分を補完した信号を生成する。
【００９４】
なお、線形に限らず、２次、３次等の任意の値のｎ次関数を用いて近似を行うことができる。
【００９５】
ステップＳ８１において信号がクリップされていないと判定された場合、ステップＳ８２の補完処理は必要が無いのでスキップされる。このとき補完部３５は、クリッピング判定部３４より入力された信号をそのまま切り出し部３１に出力する。
【００９６】
ステップＳ８２の補完処理の後、およびステップＳ８１において信号がクリップされていないと判定された場合、ステップＳ８３において切り出し部３１は、補完部３５により入力された分析対象信号としての信号から分析区間を切り出す。ステップＳ８４において変換部３３は、ウインドウ範囲決定部３２より供給された分析区間を変換する。例えば分析区間の音声信号がFFT変換またはWavelet変換される。なお、このときウインドウ範囲決定部３２は、切り出し部３１より入力された信号をそのまま変換部３３に出力する。
【００９７】
その後、ステップＳ８５において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップＳ８１に戻り、次の分析区間が切り出される。
【００９８】
以下、上述した場合と同様に、ステップＳ８５において切り出しが終了したと判定されるまで、ステップＳ８１乃至ステップＳ８４の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【００９９】
このように、この実施の形態においては、クリッピングが起きている場合、クリッピングが起きている部分が補完される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【０１００】
また、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またＡ／Ｄ変換のダイナミックレンジを必要以上に広くする必要もない。
【０１０１】
＜第５の実施の形態＞
［信号分析処理］
【０１０２】
次に、第５の実施の形態について、図１２と図１３を参照して説明する。
【０１０３】
図１２は、信号分析処理５を説明するフローチャートである。また図１３は、信号の補完処理を説明する図である。
【０１０４】
ステップＳ１０１において切り出し部３１は、Ａ／Ｄ変換１２より出力された信号から分析区間を切り出す。ステップＳ１０２において変換部３３は、ウインドウ範囲決定部３２を介して供給された分析区間を変換する。例えば分析区間の音声信号がFFT変換またはWavelet変換される。なお、このときウインドウ範囲決定部３２は、切り出し部３１より入力された信号をそのまま変換部３３に出力する。
【０１０５】
ステップＳ１０３においてクリッピング判定部３４は、変換部３３から入力された信号がクリップされているかを判定する。信号がクリップされている場合、ステップＳ１０４において補完部３５は、変換部３３から入力された信号を補完する。補完された信号は、音声認識部１４に出力される。
【０１０６】
この実施の形態の場合、変換部３３によりスペクトル情報に変換された信号から補完処理が行われる。具体的には、図１３Ａに示されるような、前のフレームの周波数スペクトルの信号と、図１３Ｂに示されるような、後のフレームの周波数スペクトルの信号に基づいて、補完処理が実行される。つまり、FFT変換またはWavelet変換された後に、補完部３５により分析対象信号が生成される。
【０１０７】
ステップＳ１０３において信号がクリップされていないと判定された場合、ステップＳ１０４の補完処理は必要が無いので実行されない。このとき補完部３５は、クリッピング判定部３４から入力された信号をそのまま音声認識部１４に出力する。
【０１０８】
ステップＳ１０４の補完処理の後、およびステップＳ１０３において信号がクリップされていないと判定された場合、ステップＳ１０５において切り出し部３１は、切り出しが終了したかを判定する。まだ切り出し処理が終了していない場合、処理はステップＳ１０１に戻り、次の分析区間が切り出される。
【０１０９】
以下、上述した場合と同様に、ステップＳ１０５において切り出しが終了したと判定されるまで、ステップＳ１０１乃至ステップＳ１０４の処理が繰り返される。切り出しが終了した場合、信号分析処理は終了する。
【０１１０】
このように、この実施の形態においては、クリッピングが起きている場合、クリッピングが起きている部分が補完される。従って、クリッピングによる性能劣化を防止することができ、正確な音声認識を実行することができる。
【０１１１】
また、音声認識ができなかった場合でも、発話や異常音の発生を再度求める必要はない。またＡ／Ｄ変換のダイナミックレンジを必要以上に広くする必要もない。
【０１１２】
以上、本技術を、音声認識する場合を例として説明したが、本技術は、映像信号、その他の信号を処理する場合にも適用することができる。
【０１１３】
[本技術のプログラムへの適用]
【０１１４】
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【０１１５】
図１４は、上述した一連の処理をプログラムにより実行するコンピュータ１０１のハードウェアの構成例を示すブロック図である。
【０１１６】
コンピュータ１０１において、CPU（Central Processing Unit）１２１，ROM（Read Only Memory）１２２，RAM（Random Access Memory）１２３は、バス１２４により相互に接続されている。
【０１１７】
バス１２４には、さらに、入出力インタフェース１２５が接続されている。入出力インタフェース１２５には、入力部１２６、出力部１２７、記憶部１２８、通信部１２９、及びドライブ１３０が接続されている。
【０１１８】
入力部１２６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１２７は、ディスプレイ、スピーカなどよりなる。記憶部１２８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１２９は、ネットワークインタフェースなどよりなる。ドライブ１３０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１３１を駆動する。
【０１１９】
以上のように構成されるコンピュータでは、CPU１２１が、例えば、記憶部１２８に記憶されているプログラムを、入出力インタフェース１２５及びバス１２４を介して、RAM１２３にロードして実行することにより、上述した一連の処理が行われる。
【０１２０】
コンピュータ１０１では、プログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１３１をドライブ１３０に装着することにより、入出力インタフェース１２５を介して、記憶部１２８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１２９で受信し、記憶部１２８にインストールすることができる。その他、プログラムは、ROM１２２や記憶部１２８に、あらかじめインストールしておくことができる。
【０１２１】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【０１２２】
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【０１２３】
例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。
【０１２４】
さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。
【０１２５】
［その他］
【０１２６】
本技術は、以下のような構成もとることができる。
（１）
入力された処理対象の信号をＡ／Ｄ変換する変換部と、
Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析部と、
分析された前記信号を処理する処理部と
を備える信号処理装置。
（２）
前記分析は、FFT分析またはWavelet分析である
前記（１）に記載の信号処理装置。
（３）
前記分析部は、Ａ／Ｄ変換された信号から分析区間を切り出し、クリップしていない前記分析区間を分析する
前記（１）または（２）に記載の信号処理装置。
（４）
前記分析部は、切り出した前記分析区間がクリップしている場合、次のクリップしていない前記分析区間を選択することで、前記分析対象信号を生成する
前記（３）に記載の信号処理装置。
（５）
前記分析部は、切り出した前記分析区間がクリップしている場合、ずらす前記一定の区間を変更し、クリップしていない前記分析区間の位置から新たな切り出しを行うことで、前記分析対象信号を生成する
前記（３）に記載の信号処理装置。
（６）
前記分析部は、切り出した前記分析区間がクリップされた部分を含む場合、クリップされている部分が除外されるように、前記分析区間を基準値より短い長さに変更することで、前記分析対象信号を生成する
前記（３）に記載の信号処理装置。
（７）
前記分析部は、Ａ／Ｄ変換された信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成し、補完した前記分析対象信号から一定の区間だけずれた前記分析区間を順次切り出す
前記（３）に記載の信号処理装置。
（８）
前記分析部は、Ａ／Ｄ変換された信号から一定の区間だけずれた分析区間を順次切り出し、前記分析区間毎にFFT分析またはWavelet分析し、FFT分析またはWavelet分析された後の信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成する
前記（１）または（２）に記載の信号処理装置。
（９）
入力された処理対象の信号をＡ／Ｄ変換する変換ステップと、
Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析ステップと、
分析された前記信号を処理する処理ステップと
を含む信号処理方法。
（１０）
入力された処理対象の信号をＡ／Ｄ変換する変換ステップと、
Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析ステップと、
分析された前記信号を処理する処理ステップと
を含む処理をコンピュータに実行させるプログラム。
【符号の説明】
【０１２７】
１音声認識装置，１１マイクロフォン，１２Ａ／Ｄ変換部，１３御信号分析部，１４音声認識部，３１切り出し部，３２ウインドウ範囲決定部，３３変換部，３４クリッピング判定部，３５補完部，３６制御部

【特許請求の範囲】
【請求項１】
入力された処理対象の信号をＡ／Ｄ変換する変換部と、
Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析部と、
分析された前記信号を処理する処理部と
を備える信号処理装置。
【請求項２】
前記分析は、FFT分析またはWavelet分析である
請求項１に記載の信号処理装置。
【請求項３】
前記分析部は、Ａ／Ｄ変換された信号から分析区間を切り出し、クリップしていない前記分析区間を分析する
請求項２に記載の信号処理装置。
【請求項４】
前記分析部は、切り出した前記分析区間がクリップしている場合、次のクリップしていない前記分析区間を選択することで、前記分析対象信号を生成する
請求項３に記載の信号処理装置。
【請求項５】
前記分析部は、切り出した前記分析区間がクリップしている場合、ずらす前記一定の区間を変更し、クリップしていない前記分析区間の位置から新たな切り出しを行うことで、前記分析対象信号を生成する
請求項３に記載の信号処理装置。
【請求項６】
前記分析部は、切り出した前記分析区間がクリップされた部分を含む場合、クリップされている部分が除外されるように、前記分析区間を基準値より短い長さに変更することで、前記分析対象信号を生成する
請求項３に記載の信号処理装置。
【請求項７】
前記分析部は、Ａ／Ｄ変換された信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成し、補完した前記分析対象信号から一定の区間だけずれた前記分析区間を順次切り出す
請求項３に記載の信号処理装置。
【請求項８】
前記分析部は、Ａ／Ｄ変換された信号から一定の区間だけずれた分析区間を順次切り出し、前記分析区間毎にFFT分析またはWavelet分析し、FFT分析またはWavelet分析された後の信号がクリップされている場合、クリップされている部分を補完することで、前記分析対象信号を生成する
請求項２に記載の信号処理装置。
【請求項９】
入力された処理対象の信号をＡ／Ｄ変換する変換ステップと、
Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析ステップと、
分析された前記信号を処理する処理ステップと
を含む信号処理方法。
【請求項１０】
入力された処理対象の信号をＡ／Ｄ変換する変換ステップと、
Ａ／Ｄ変換された信号がクリップしている場合、クリップしていない信号を分析対象信号として生成し、前記分析対象信号を分析する分析ステップと、
分析された前記信号を処理する処理ステップと
を含む処理をコンピュータに実行させるプログラム。

【図１】