音声識別装置

【課題】断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得る。
【解決手段】画像音声特徴情報を記憶する画像音声特徴情報記憶部３１と、被写体画像の特徴情報を検出する物体検出部２４ａと、音声の特徴情報を検出する音声検出部１４ａ，１４ｂと、被写体までの距離及び方向を算出する物体位置検出部２４ｂと、音源までの距離及び方向を算出する音声位置検出部１２と、被写体画像の特徴情報と音声の特徴情報と被写体までの距離及び方向と音源までの距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付ける関連付け部４０ａと、物体の特徴情報が画像音声特徴情報に一致するか否かを判定する特徴情報判定部４０ｂと、被写体画像の追跡を行う追跡制御部４０ｄと、追跡結果と被写体又は音源の距離及び方向とに基づいてマイクロフォンアレイ１１の指向特性を調整する指向特性調整部１３ａ，１３ｂとを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、物体から発せられる音声を識別する装置であり、特に、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる音声識別装置に関する。
【背景技術】
【０００２】
一般的に、ビデオカメラ等では多数の人を撮影する場合があり、このような場合、音声を発している発話者の方向を検知して、検知した方向に対してマイクの指向性を高め、ノイズを減衰させる必要がある。
【０００３】
そこで、特許文献１には、発話者の方向を検出する方向検出部と、発話者の音声を検出するマイクロフォンと、マイクロフォンの指向特性を方向検出部により検出された発話者の方向において高めるように調整するゲイン調整部と、ゲイン調整部により調整された発話者の音声を認識する音声認識部とを備えた車載用音声認識装置が提案されている。
【０００４】
また、特許文献２には、カメラにより撮影された画像から操縦者の唇位置を特定し、この特定された唇位置に基づいて、複数のマイクロフォンの指向特性を調整し、複数のマイクロフォンの音声信号を合成する車両用音声認識装置が提案されている。
【０００５】
さらに、特許文献３には、マイクロフォンから入力された音声に基づいて話者の方向を検出してマイクロフォンの指向特性を合わせると共に、検出した話者の方向にカメラを向け、このカメラにより撮影された画像に基づいて顔検出を行い、顔検出された場合、対話処理を行う視聴覚連携認識装置が提案されている。
【特許文献１】特開平１１−２１９１９３号公報
【特許文献２】特開２０００−１０５８９号公報
【特許文献３】特開２００６−２５１２６６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
しかしながら、特許文献１の技術では、発話者により発せられた音声に基づいて、マイクロフォンの指向特性を調整するので、発話者が音声を発生していない間は、マイクロフォンの指向特性を調整することが困難であった。
【０００７】
また、特許文献２に記載の技術では、撮影画像から特定された操縦者の唇位置に基づいて、マイクロフォンの指向特性を調整するので、操縦者の唇が動いていない、即ち操縦者が音声を発生していない間は、マイクロフォンの指向特性を調整することが困難であった。
【０００８】
さらに特許文献３に記載の技術では、マイクロフォンから入力された音声に基づいて話者の方向を検出するので、例えば、ランダムに発声する多数の人を撮影する場合、マイクロフォンから音声が入力される度に、マイクロフォンの指向特性を合わせる必要があるので、装置負荷が大きく、発声した直後の音声を感度良く検出することが困難であった。
【０００９】
本発明は、上記課題に鑑みてなされたものであり、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる音声識別装置を提供することを目的とする。
【課題を解決するための手段】
【００１０】
上記目的を達成するため、本発明に係る音声識別装置の第１の特徴は、物体から発せられる音声を識別する音声識別装置において、光学系により集光された光を電気信号へ変換して画像データを生成する撮像部と、音源から発せられた音声を電気信号へ変換して音声データを生成する複数のマイクロフォンが所定間隔で配置されたマイクロフォンアレイと、前記画像データに含まれる被写体画像の特徴情報と、前記音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する画像音声特徴情報記憶部と、前記撮像部により生成された画像データから被写体画像の特徴情報を検出する物体検出部と、前記マイクロフォンアレイにより生成された音声データから音声の特徴情報を検出する音声検出部と、前記撮像部により生成された画像データに基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する物体位置検出部と、前記マイクロフォンアレイにより生成された音声データに基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する音声位置検出部と、前記物体検出部により検出された被写体画像の特徴情報と、前記音声検出部により検出された音声の特徴情報と、前記物体位置検出部により算出された前記被写体の距離及び方向と、前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記被写体と前記音源とを同一の物体として関連付ける関連付け部と、前記関連付け部により関連付けられた物体の特徴情報が、前記画像音声特徴情報記憶部に記憶された画像音声特徴情報に一致するか否かを判定する特徴情報判定部と、前記特徴情報判定部により特徴情報が画像音声特徴情報に一致すると判定された場合に、前記画像データ上における前記被写体の追跡を行う追跡制御部と、前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整する指向特性調整部とを備えたことにある。
【００１１】
上記目的を達成するため、本発明に係る音声識別装置の第２の特徴は、前記特徴情報判定部により特徴情報が一致しないと判定された場合、前記関連付け部により関連付けられた物体の特徴情報を、新たな前記画像音声特徴情報として画像音声特徴情報記憶部に記憶させる記憶制御部を、更に備えることにある。
【００１２】
上記目的を達成するため、本発明に係る音声識別装置の第３の特徴は、前記物体位置検出部は、前記撮像部における画角及び前記被写体までの焦点情報に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出することにある。
【００１３】
上記目的を達成するため、本発明に係る音声識別装置の第４の特徴は、前記被写体画像の特徴情報と前記被写体の基準寸法とを関連付けて画像基準特徴情報として記憶する画像基準特徴情報記憶部を備え、前記物体位置検出部は、前記画像基準特徴情報に基づいて、前記画像データに含まれる被写体画像の特徴情報に対応する前記被写体の基準寸法を抽出し、この抽出された前記被写体の基準寸法を及び前記撮像部における画角に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出することにある。
【００１４】
上記目的を達成するため、本発明に係る音声識別装置の第５の特徴は、前記音声位置検出部は、前記複数のマイクロフォンに到達した音声の時間差に基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出することにある。
【００１５】
上記目的を達成するため、本発明に係る音声識別装置の第６の特徴は、前記追跡制御部は、前記特徴情報判定部により被写体画像の特徴情報が一致すると判定された場合に、前記画像データに基づいて表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより前記被写体の動きを追跡することにある。
【００１６】
上記目的を達成するため、本発明に係る音声識別装置の第７の特徴は、前記指向特性調整部は、前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記複数のマイクロフォンに到達した音声の時間差をなくすように、前記複数のマイクロフォンにより生成された音声データを重ね合わせることにある。
【発明の効果】
【００１７】
本発明の音声識別装置によれば、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる。
【発明を実施するための最良の形態】
【００１８】
以下、本発明の実施の形態について図面を参照して説明する。
【００１９】
本発明の一実施形態では、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得る音声認識装置を例に挙げて説明する。
【００２０】
＜音声識別装置の構成＞
図１は、本発明の一実施形態である音声識別装置の構成を示した構成図である。
【００２１】
本発明の一実施形態である音声識別装置１は、マイクロフォンアレイ１１と、音声位置検出部１２と、第１の指向特性調整部１３ａと、第２の指向特性調整部１３ｂと、第１の音声検出部１４ａと、第２の音声検出部１４ｂと、撮像部を有するカメラ２１及びカメラ処理部２２と、動きセンサ２３と、検出部２４と、動きベクトル検出部２５と、画像音声特徴情報記憶部３１と、画像基準特徴情報記憶部３２と、音声基準特徴情報記憶部３３と、指向特性優先度記憶部３４と、ＣＰＵ４０と、操作部４１と、表示部４２とを備えている。
【００２２】
マイクロフォンアレイ１１は、それぞれ例えば１０ｍｍ程度の所定間隔で配置される第１のマイクロフォン１１ａと、第２のマイクロフォン１１ｂと、第３のマイクロフォン１１ｃとを備えており、音源から発せられた音声を電気信号へ変換して音声データを生成する。
【００２３】
音声位置検出部１２は、マイクロフォンアレイ１１により生成された音声データに基づいて、音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向を算出する。
【００２４】
第１の指向特性調整部１３ａは、後述するＣＰＵ４０の追跡制御部４０ｄの追跡結果と、後述する検出部２４の物体位置検出部２４ｂにより算出された被写体の距離及び方向、又は音声位置検出部１２により算出された音源の距離及び方向とに基づいて、第１のマイクロフォン１１ａと、第２のマイクロフォン１１ｂと、第３のマイクロフォン１１ｃに到達した音声の時間差をなくすように、それぞれのマイクロフォンにより生成された音声データを重ね合わせることにより指向特性を調整する。
【００２５】
第２の指向特性調整部１３ｂは、第１の指向特性調整部１３ａと同一構成を有する。
【００２６】
第１の音声検出部１４ａは、第１の指向特性調整部１３ａにより指向特性が調整された音声データから音声の特徴情報を抽出する。具体的には、第１の音声検出部１４ａは、指向特性が調整された音声から、成分波形やホルマント等を抽出し、これらを音声の特徴情報として、ＣＰＵ４０へ供給する。
【００２７】
第２の音声検出部１４ｂは、第１の音声検出部１４ａと同一構成を有する。
【００２８】
カメラ２１は、内蔵するレンズにより集光された光を電気信号へ変換する。
【００２９】
カメラ処理部２２は、カメラ２１から供給された電気信号をＲＧＢ信号輝度信号Ｙ及び色差信号Ｃｒ，Ｃｂ信号等の画像データに変換する。
【００３０】
動きセンサ２３は、例えばジャイロセンサ等を備え、音声識別装置１の動きを検出する。
【００３１】
検出部２４は、物体検出部２４ａと、物体位置検出部２４ｂとを備える。
【００３２】
物体検出部２４ａは、カメラ処理部２２により生成された画像データから被写体画像の特徴情報を検出する。例えば、物体検出部２４ａは、画像データから被写体画像の形及び色を特徴情報として検出し、これら抽出した形及び色と画像基準特徴情報記憶部３２に記憶された画像基準特徴情報とに基づいて、被写体の種類を特定する。そして特定された被写体の種類と被写体画像の特徴情報とをＣＰＵ４０へ供給する。
【００３３】
物体位置検出部２４ｂは、カメラ処理部２２により生成された画像データに基づいて、音声識別装置１から画像データの被写体までの距離及び音声識別装置１に対する被写体の方向を算出する。
【００３４】
動きベクトル検出部２５は、カメラ２１により生成された画像データの動きを検出する。
【００３５】
画像音声特徴情報記憶部３１は、画像データの被写体画像の特徴情報と、音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する。
【００３６】
図２は、本発明の一実施形態である音声識別装置１が備える画像音声特徴情報記憶部３１に記憶された画像音声特徴情報の一例を示した図である。
【００３７】
図２に示すように、カラム名“特徴情報ＩＤ”（符号５１）と、カラム名“種類”（符号５２）と、カラム名“被写体画像の特徴情報”（符号５３）と、カラム名“音声データの特徴情報”（符号５４）とが関連付けられて画像音声特徴情報として記憶されている。
【００３８】
また、被写体画像の特徴情報５３には、カラム名“形”（符号５３ａ）と、カラム名“色”（符号５３ｂ）とが含まれる。音声データの特徴情報５４には、カラム名“成分波形”（符号５４ａ）と、カラム名“ホルマント”（符号５４ｂ）とが含まれる。
【００３９】
画像基準特徴情報記憶部３２は、被写体の種類と、画像基準特徴情報とを関連付けて記憶する。
【００４０】
図３は、本発明の一実施形態である音声識別装置１が備える画像基準特徴情報記憶部３２に記憶された画像基準特徴情報の一例を示した図である。
【００４１】
図３に示すように、カラム名“種類”（符号６１）と、カラム名“画像基準特徴情報”（符号６２）とが関連付けられて記憶されている。画像基準特徴情報６２には、カラム名“形”（符号６２ａ）と、カラム名“色”（符号６２ｂ）と、カラム名“基準寸法”（符号６２ｃ）とが含まれる。
【００４２】
音声基準特徴情報記憶部３３は、音源の種類と、音声基準特徴情報とを関連付けて記憶する。
【００４３】
図４は、本発明の一実施形態である音声識別装置１が備える音声基準特徴情報記憶部３３に記憶された音声基準特徴情報の一例を示した図である。
【００４４】
図４に示すように、カラム名“種類”（符号７１）と、カラム名“音声基準特徴情報”（符号７２）とが関連付けられて記憶されている。音声基準特徴情報７２には、カラム名“パワースペクトル”（符号７２ａ）と、カラム名“サウンドスペクトル”（符号７２ｂ）とが含まれる。
【００４５】
指向特性優先度記憶部３４は、後述する操作部４１から供給された被写体及び音源の種類の優先順位が記憶されている。なお、後述するＣＰＵ４０は、操作部４１での優先順位が指定されるまでは、指向特性優先度記憶部３４に予め記憶されている所定の優先順位に従って、処理を行う。
【００４６】
ＣＰＵ４０は、音声識別装置１の中枢的な制御を行う。また、ＣＰＵ４０は、その機能上、関連付け部４０ａと、特徴情報判定部４０ｂと、記憶制御部４０ｃと、追跡制御部４０ｄと、指向調整制御部４０ｅとを備える。
【００４７】
関連付け部４０ａは、物体検出部２４ａにより検出された被写体画像の特徴情報と、第１の音声検出部１４ａ又は第２の音声検出部１４ｂにより検出された音声の特徴情報と、物体位置検出部２４ｂにより算出された被写体の距離及び方向と、音声位置検出部１２により算出された音源の距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付ける。
【００４８】
特徴情報判定部４０ｂは、関連付け部４０ａにより関連付けられた物体の特徴情報が、画像音声特徴情報記憶部３１に記憶された画像音声特徴情報に一致するか否かを判定する。
【００４９】
記憶制御部４０ｃは、特徴情報判定部４０ｂにより特徴情報が一致しないと判定された場合、関連付け部４０ａにより関連付けられた物体の特徴情報を、新たな画像音声特徴情報として画像音声特徴情報記憶部３１に記憶させる。
【００５０】
追跡制御部４０ｄは、特徴情報判定部４０ｂにより被写体画像の特徴情報が一致すると判定された場合に、画像データに基づいて、表示部４２に表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより被写体の動きを追跡する。
【００５１】
指向調整制御部４０ｅは、追跡制御部４０ｄの追跡結果と、物体位置検出部２４ｂにより算出された被写体の距離及び方向又は音声位置検出部１２により算出された音源の距離及び方向とに基づいて、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂに指向特性を調整させる。
【００５２】
操作部４１は、利用者の操作に基づいて、撮影の開始や終了を要求する操作信号、及び被写体の種類の優先順位の指向特性優先度記憶部３４への記憶を要求する操作信号等各種操作信号を生成し、生成した操作信号をＣＰＵ４０へ供給する。
【００５３】
表示部４２は、有機ＥＬ（electroluminescence）ディスプレイや、液晶ディスプレイ等の画像出力装置を備え、ＣＰＵ４０から供給された画像データに基づいて、各種画面を表示する。
【００５４】
＜音声識別装置１の作用＞
次に、本発明の一実施形態である音声識別装置１の作用について説明する。
【００５５】
図５は、本発明の一実施形態である音声識別装置１の処理フローを示したフローチャートである。
【００５６】
まず、音声識別装置１のカメラ処理部２２は、カメラ２１から電気信号が供給されると（ステップＳ１０１）、供給された電気信号をＲＧＢ信号、輝度信号Ｙ、及び色差信号Ｃｒ，Ｃｂ信号等に変換して画像データを生成する。
【００５７】
次に、物体位置検出部２４ｂは、動きセンサ２３により検出された音声識別装置１の動きに基づいて、振れを補正する（ステップＳ１０２）。例えば、物体位置検出部２４ｂは、動きセンサ２３により検出された音声識別装置１の動きを打ち消すように、カメラ処理部２２から供給された画像データから切り出す画像データの範囲を選択し、この選択された画像データを物体検出部２４ａへ供給する。
【００５８】
そして、物体検出部２４ａは、振れを補正した画像データから被写体画像の特徴情報を検出する（ステップＳ１０３）。例えば、物体検出部２４ａは、画像データから被写体画像の形及び色を特徴情報として検出し、これら抽出した形及び色と画像基準特徴情報記憶部３２に記憶された画像基準特徴情報とに基づいて、被写体の種類を特定する。そして特定された被写体の種類と被写体画像の特徴情報とをＣＰＵ４０へ供給する。
【００５９】
図６は、本発明の一実施形態である音声識別装置１が備える物体検出部２４ａによる検出処理を説明した図である。
【００６０】
図６に示すように、カメラ２１により撮像された画面には、男性である被写体Ａ及び被写体Ｂが写っており、物体検出部２４ａは、被写体Ａ及び被写体Ｂの形及び色を特徴情報として検出する。そして、物体検出部２４ａは、画像基準特徴情報記憶部３２に記憶された画像基準特徴情報の中から、検出した形及び色と一致する被写体の種類を抽出し、抽出された被写体Ａ及び被写体Ｂの種類と被写体画像の特徴情報とをＣＰＵ４０へ供給する。図６に示した例では、物体検出部２４ａは、被写体Ａ及び被写体Ｂの種類として“男性”を抽出し、抽出された被写体の種類である“男性”とそれぞれの被写体画像の特徴情報とをＣＰＵ４０へ供給する。
【００６１】
次に、物体位置検出部２４ｂは、振れを補正した画像データに基づいて、音声識別装置１から被写体までの距離及び音声識別装置１に対する被写体の方向を算出する（ステップＳ１０４）。例えば、物体位置検出部２４ｂは、カメラ２１における画角及び被写体までの焦点情報に基づいて、音声識別装置１から画像データの被写体までの距離及び音声識別装置１に対する被写体の方向を算出する。
【００６２】
図７は、本発明の一実施形態である音声識別装置１が備える物体位置検出部２４ｂによる被写体の方向の算出処理を説明した図である。
【００６３】
図７に示すように、カメラ２１により撮像された画面に、図６に示した被写体Ａと被写体Ｂとが写っている。カメラ２１の画角が±Φであるとすると、物体位置検出部２４ｂは、音声識別装置１を上方から見たｘ−ｙ平面において、物体検出部２４ａにより検出された被写体Ａが＋θ３方向にある、即ち、＋θ３方向の直線２０１上に被写体Ａが存在すると判定する。
【００６４】
そして、物体位置検出部２４ｂは、振れを補正した画像データに基づいて、音声識別装置１から被写体までの距離を算出する。
【００６５】
図８は、本発明の一実施形態である音声識別装置１が備える物体位置検出部２４ｂによる被写体の距離の算出処理を説明した図である。
【００６６】
カメラ２１のフォーカスの範囲内に被写体Ａ又はＢがある場合、物体位置検出部２４ｂは、フォーカスの焦点情報から距離を算出する。
【００６７】
図８に示すように、被写体Ａがフォーカスの範囲内にある場合、物体位置検出部２４ｂは、フォーカスの焦点情報からカメラ２１と被写体Ａとの間の距離ｄ１を算出する。
【００６８】
また、カメラ２１のフォーカスの範囲外に被写体Ａ又はＢがある場合、物体位置検出部２４ｂは、画像基準特徴情報記憶部３２に記憶された画像基準特徴情報に基づいて、画像データの被写体画像の特徴情報に対応する被写体の基準寸法を抽出し、この抽出された被写体の基準寸法及びカメラ２１における画角に基づいて、カメラ２１から画像データの被写体までの距離を算出する。
【００６９】
具体的には、図８に示す被写体Ｂがフォーカスの範囲外にある場合、物体位置検出部２４ｂは、画像基準特徴情報記憶部３２に記憶された画像基準特徴情報からステップＳ１０３において特定された被写体の種類に対応する基準寸法Ｌ２を抽出する。
【００７０】
そして、物体位置検出部２４ｂは、図６に示す画面の高さをＨｃ、被写体Ｂの顔の縦方向の長さＨ２、画角をθｃとすると、下記の数式１を用いて、被写体Ｂの角度θ２を算出する。
【００７１】
θ２＝θｃ×Ｈ２／Ｈｃ・・・（数式１）
次に、物体位置検出部２４ｂは、抽出された基準寸法Ｌ２と、算出された角度θ２とから、下記の数式２を用いて距離ｄ２を算出する。
【００７２】
ｄ２＝Ｌ２／ｔａｎθ２・・・（数式２）
これにより、物体位置検出部２４ｂは、振れを補正した画像データに基づいて、音声識別装置１から被写体までの距離及び音声識別装置１に対する被写体の方向を算出することができる。
【００７３】
次に、音声位置検出部１２は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃから音声データが供給されると（ステップＳ１０５）、動きセンサ２３により検出された音声識別装置１の動きに基づいて、振れを補正する（ステップＳ１０６）。
【００７４】
次に、第１の音声検出部１４ａ又は第２の音声検出部１４ｂは、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂから供給された振れが補正された音声の特徴情報を検出する（ステップＳ１０７）。例えば、第１の音声検出部１４ａは、振れが補正された音声データから、音声の特徴情報として成分波形やホルマント等を抽出し、これら抽出した成分波形やホルマントと音声基準特徴情報記憶部３３に記憶された音声基準特徴情報とに基づいて、音源の種類の順位付けを行う。そして、この順位付けられた音源の種類と音声の特徴情報とをＣＰＵ４０へ供給する。
【００７５】
図９は、本発明の一実施形態である音声識別装置１が備える第１の音声検出部１４ａ又は第２の音声検出部１４ｂによる検出処理を説明した図である。（ａ）は、補正された音声データの波形の一例を示しており、（ｂ）は、（ａ）に基づいて生成されたパワースペクトルを示しており、（ｃ）は、音声基準特徴情報記憶部３３に記憶された音声基準特徴情報のパワースペクトルの一例を示している。
【００７６】
なお、第１の音声検出部１４ａ又は第２の音声検出部１４ｂは、同一構成を有するので、第１の音声検出部１４ａについて説明する。
【００７７】
図９に示すように、第１の音声検出部１４ａは、図９（ａ）に示した音声波形３０１から図９（ｂ）に示したパワースペクトル３０２を生成する。
【００７８】
そして、第１の音声検出部１４ａは、生成したパワースペクトル３０２と、図９（ｃ）に示した音声基準特徴情報記憶部３３に記憶された音声基準特徴情報のパワースペクトル３０３との一致度合いを算出し、この算出された一致度合いに基づいて、順位付けを行う。
【００７９】
具体的には、第１の音声検出部１４ａは、図９（ｂ）に示したパワースペクトルの周波数成分（Ａ１〜Ａ７）毎の値を算出すると共に、図９（ｃ）に示したパワースペクトルの周波数成分（Ａ１〜Ａ７）毎の値を算出し、周波数成分（Ａ１〜Ａ７）毎にこの算出した値の差の絶対値を算出する。
【００８０】
この周波数成分（Ａ１〜Ａ７）毎に算出された差の絶対値の総和は、小さい程生成したパワースペクトル３０２と、音声基準特徴情報記憶部３３に記憶された音声基準特徴情報のパワースペクトル３０３との一致度合いが高いので、第１の音声検出部１４ａは、周波数成分（Ａ１〜Ａ７）毎に算出された差の絶対値の総和が小さい順に音源の種類を並べ替えることにより優先順位付けを行う。
【００８１】
例えば、第１の音声検出部１４ａは、周波数成分（Ａ１〜Ａ７）毎に算出された差の絶対値の総和が小さい程高くなる評価点を算出し、この評価点が高い順に音源の種類を並べ替える。
【００８２】
これにより、検出された音源の種類と評価点とを、“男性”（評価点９０）、“女性”（評価点７０）、“犬”（評価点５０）、“車”（評価点２０）というように、評価点が高い順に音源の種類を並べ替える。
【００８３】
なお、第１の音声検出部１４ａは、パワースペクトルに基づいて順位付けする代わりに、サウンドスペクトログラムに基づいて優先順位付けを行っても良い。
【００８４】
この場合にも、同様に、第１の音声検出部１４ａは、音声データに基づいて生成したサウンドスペクトログラムと、音声基準特徴情報記憶部３３に記憶された音声基準特徴情報のサウンドスペクトログラムとの一致度合いを算出し、この算出された一致度合いに基づいて、順位付けを行う。
【００８５】
図５に示すように、次に、音声位置検出部１２は、補正された音声データに基づいて、音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向を算出する（ステップＳ１０８）。
【００８６】
図１０は、本発明の一実施形態である音声識別装置１が備える音声位置検出部１２による音源の方向及び距離の算出処理を説明した図である。
【００８７】
図１０に示すように、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃは、それぞれ所定の距離を離して配置されているので、音源Ａが発声した音声は、それぞれの入力までの遅延時間が異なる。
【００８８】
具体的には、図１０に示すように、音源Ａから音声が発せられてから第１のマイクロフォン１１ａに到達するまでの時間をｔ０とすると、音源Ａから音声が発せられてから第２のマイクロフォン１１ｂに到達するまでの時間は、（ｔ０＋ｔ１）、音源Ａから音声が発せられてから第３のマイクロフォン１１ｃに到達するまでの時間は、（ｔ０＋ｔ２）となる。
【００８９】
そこで、音声位置検出部１２は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃに入力された音声の位相を比較することにより、マイクロフォンに入力される音声の遅延時間ｔ１，ｔ２を算出し、この算出された遅延時間ｔ１，ｔ２に基づいて、音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向を算出する。
【００９０】
図１１は、本発明の一実施形態である音声識別装置１が備える第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃに入力された音声波形の位相比較の一例を示した図である。
【００９１】
図１１に示すように、Ｔ１０時点において、音源Ａから発せられてから第１のマイクロフォン１１ａに到達した音声がピークを有しているので、音声位置検出部１２は、このピーク時であるＴ１０を基準とする。そして、音声位置検出部１２は、Ｔ１０から、第２のマイクロフォン１１ｂに到達した音声波形において同様のピーク波形が到達した時刻Ｔ１１までの時間を遅延時間ｔ１とする。また、音声位置検出部１２は、Ｔ１０から、第３のマイクロフォン１１ｃに到達した音声波形において同様のピーク波形が到達した時刻Ｔ１２までの時間を遅延時間ｔ２とする。
【００９２】
そして、音声位置検出部１２は、この算出された遅延時間ｔ１，ｔ２に基づいて、音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向を算出する。具体的には、音速をｖとすると、音声位置検出部１２は、音源Ａから第１のマイクロフォン１１ａまでの距離はｖ・ｔ０、音源Ａから第２のマイクロフォン１１ｂまでの距離はｖ・（ｔ０＋ｔ１）、音源Ａから第３のマイクロフォン１１ｃまでの距離はｖ・（ｔ０＋ｔ２）となる。そして、音声位置検出部１２は、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃからそれぞれｖ・ｔ０、ｖ・（ｔ０＋ｔ１）、及びｖ・（ｔ０＋ｔ２）だけ離れた地点、即ち、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃを中心とて、それぞれ中心からの半径をｖ・ｔ０、ｖ・（ｔ０＋ｔ１）、及びｖ・（ｔ０＋ｔ２）として円を描いたときに、互いに重なり合う地点が音源Ａのある地点として定める。
【００９３】
これにより、音声位置検出部１２は、補正された音声データに基づいて、音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向を算出することができる。
【００９４】
なお、例えば音源Ａ及び音源Ｂが同時に音声を発した場合、音声位置検出部１２は、例えば、特開２００６−２２７３２８号公報に記載の技術を用いて、音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向を算出する。具体的には、音声位置検出部１２は、帯域分割して得られる帯域分割信号が複数の音源が重複している信号であるか一つの音源だけからなる信号であるかを判定し、音源が重複していない周波数成分のみを用いて音源方向を算出する。
【００９５】
次に、ＣＰＵ４０の関連付け部４０ａは、ステップＳ１０４において算出された音声識別装置１から被写体までの距離及び音声識別装置１に対する被写体の方向と、ステップＳ１０８において算出された音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向と、ステップＳ１０３において特定された被写体の種類と、ステップＳ１０９において決定された音源の種類の順位付けとに基づいて、音源と被写体との関連付けか可能か否かを判定する（ステップＳ１０９）。
【００９６】
例えば、関連付け部４０ａは、ステップＳ１０４において算出された音声識別装置１から被写体までの距離及び音声識別装置１に対する被写体の方向により特定される位置の所定の周辺範囲と、ステップＳ１０８において算出された音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向により特定される位置の所定の周辺範囲とにおいて重なり合う部分があり、かつ、ステップＳ１０３において特定された被写体の種類が、ステップＳ１０９において決定された評価点が８０点以上である音源の種類に含まれている場合、この被写体と音源は同一の物体として関連付けが可能であると判定する。
【００９７】
ステップＳ１０９において、音源と被写体との関連付けか可能と判定された場合、関連付け部４０ａは、ステップＳ１０３において検出された被写体画像の特徴情報と、ステップＳ１０４において算出された音声識別装置１から被写体までの距離及び音声識別装置１に対する被写体の方向と、ステップＳ１０７において検出された音源の特徴情報と、ステップＳ１０８において算出された音声識別装置１から音源までの距離及び音声識別装置１に対する音源の方向とを関連付ける（ステップＳ１１０）。
【００９８】
次に、ＣＰＵ４０の特徴情報判定部４０ｂは、ステップＳ１１０において関連付けられた被写体画像の特徴情報と音源の特徴情報とが、画像音声特徴情報記憶部３１に記憶された画像音声特徴情報に一致するか否かを判定する（ステップＳ１１１）。
【００９９】
ステップＳ１１１において、特徴情報が画像音声特徴情報に一致しないと判定された場合（ＮＯの場合）、ＣＰＵ４０の記憶制御部４０ｃは、ステップＳ１１０において関連付けられた被写体画像の特徴情報と音源の特徴情報とを、新たな画像音声特徴情報として画像音声特徴情報記憶部３１に記憶させる（ステップＳ１１２）。
【０１００】
次に、ＣＰＵ４０の追跡制御部４０ｄは、画像データに基づいて表示部４２に表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより被写体の動きを追跡する（ステップＳ１１３）。
【０１０１】
具体的には、追跡制御部４０ｄは、画像データに基づいて表示された画面を複数のブロックに分割し、動きベクトル検出部２５により検出されたブロック毎の動きベクトルに基づいて、被写体に動きがあるかを検出する。なお、動きベクトルの検出は、輝度信号でも良いし色信号でも良い。
【０１０２】
また、追跡制御部４０ｄは、画面内に動く物体が無い場合にも、画面の中全てを常に画像認識して、輪郭や色などから被写体を推定する。その被写体に対して、特徴情報に基づいて画像認識を行い、これまで検出していた被写体との比較を行う。この被写体がこれまでの被写体の特徴情報と比較して違いが所定の値より少ない場合には同じ物体と判断する。これにより、追跡制御部４０ｄは、画面内でその被写体を追跡することができる。
【０１０３】
そして、ＣＰＵ４０の指向調整制御部４０ｅの指示により、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂは、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃに到達した音声の時間差をなくすように、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃにより生成された音声データを重ね合わせることにより指向特性を調整する（ステップＳ１１４）。この指向特性調整処理については、後述する。
【０１０４】
次に、ＣＰＵ４０は、操作部４１から撮影終了を要求する操作信号が供給されたか否かを判定し（ステップＳ１１５）、撮影終了を要求する操作信号が供給されたと判定した場合（ＹＥＳの場合）、処理を終了する。
【０１０５】
図１２は、本発明の一実施形態である音声識別装置１における指向特性調整処理の処理フローを示したフローチャートである。
【０１０６】
図１２に示すように、ＣＰＵ４０の指向調整制御部４０ｅは、第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂのうち、少なくともいずれか一方が使用可能か否かを判定する（ステップＳ２０１）。具体的には、ＣＰＵ４０は、指向調整を行っていない第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂがあるか否かを判定する。
【０１０７】
ステップＳ２０１において、いずれも使用不可、即ち第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂのいずれも指向調整を行っていると判定された場合（ＮＯの場合）、指向調整制御部４０ｅは、指向特性優先度記憶部３４に記憶された指向特性優先度を抽出する（ステップＳ２０２）。具体的には、指向調整制御部４０ｅは、画像音声特徴情報記憶部３１から、ステップＳ１１３において動きを追跡している被写体の種類と、第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂにより指向特性調整されている被写体の種類とを抽出する。そして、指向調整制御部４０ｅは、指向特性優先度記憶部３４から、これら抽出された被写体の種類に対応する指向特性優先度を抽出する。
【０１０８】
次に、指向調整制御部４０ｅは、ステップＳ１１３において動きを追跡している被写体の指向特性優先度が、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂにより指向特性調整されている被写体の指向特性優先度より高いか否かを判定する（ステップＳ２０３）。
【０１０９】
ステップＳ２０３において、ステップＳ１１３において動きを追跡している被写体の指向特性優先度が、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂにより指向特性調整されている被写体の指向特性優先度より高いと判定された場合（ＹＥＳの場合）、指向調整制御部４０ｅの指示に基づいて、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂが指向調整を行う（ステップＳ２０４）。具体的には、第１の指向特性調整部１３ａ又は第２の指向特性調整部１３ｂは、追跡制御部４０ｄの追跡結果に基づいて、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃに到達した音声の時間差をなくすように、第１のマイクロフォン１１ａ、第２のマイクロフォン１１ｂ、及び第３のマイクロフォン１１ｃにより生成された音声データを重ね合わせることにより指向特性を調整する。
【０１１０】
以上のように、本発明の一実施形態である音声識別装置１によれば、被写体画像の特徴情報と、音声の特徴情報と、被写体の距離及び方向と、音源の距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付け、この関連付けられた物体の特徴情報が画像音声特徴情報に一致する場合に、追跡制御部４０ｄが画像データ上における被写体画像の追跡を行い、第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂが、追跡制御部４０ｄの追跡結果と、被写体の距離及び方向又は音源の距離及び方向とに基づいて、マイクロフォンアレイ１１の指向特性を調整するので、音源がカメラ２１の画角外に出た場合や、音源が断続的に音声を発生する場合であっても、その都度、音声位置検出部１２及び物体位置検出部２４ｂが物体の位置を算出し直すことなく、マイクロフォンアレイ１１の指向特性を調整することでノイズを減衰させて良好な音声を得ることができる。
【０１１１】
なお、本発明の一実施形態である音声識別装置１では、２つの指向特性調整部（第１の指向特性調整部１３ａ及び第２の指向特性調整部１３ｂ）と、２つの音声検出部（第１の音声検出部１４ａ及び第２の音声検出部１４ｂ）とを備える構成としたが、これに限らず、多数の指向特性調整部と、多数の音声検出部とを備える構成としてもよい。
【図面の簡単な説明】
【０１１２】
【図１】本発明の一実施形態である音声識別装置の構成を示した構成図である。
【図２】本発明の一実施形態である音声識別装置が備える画像音声特徴情報記憶部に記憶された画像音声特徴情報の一例を示した図である。
【図３】本発明の一実施形態である音声識別装置が備える画像基準特徴情報記憶部に記憶された画像基準特徴情報の一例を示した図である。
【図４】本発明の一実施形態である音声識別装置が備える音声基準特徴情報記憶部に記憶された音声基準特徴情報の一例を示した図である。
【図５】本発明の一実施形態である音声識別装置の処理フローを示したフローチャートである。
【図６】本発明の一実施形態である音声識別装置が備える物体検出部による検出処理を説明した図である。
【図７】本発明の一実施形態である音声識別装置が備える物体位置検出部による被写体の方向の算出処理を説明した図である。
【図８】本発明の一実施形態である音声識別装置が備える物体位置検出部による被写体の距離の算出処理を説明した図である。
【図９】本発明の一実施形態である音声識別装置が備える第１の音声検出部又は第２の音声検出部による検出処理を説明した図である。（ａ）は、補正された音声データの波形の一例を示しており、（ｂ）は、（ａ）に基づいて生成されたパワースペクトルを示しており、（ｃ）は、音声基準特徴情報記憶部３３に記憶された音声基準特徴情報のパワースペクトルの一例を示している。
【図１０】本発明の一実施形態である音声識別装置が備える音声位置検出による音源の方向及び距離の算出処理を説明した図である。
【図１１】本発明の一実施形態である音声識別装置が備える第１のマイクロフォン、第２のマイクロフォン、及び第３のマイクロフォンに入力された音声波形の位相比較の一例を示した図である。
【図１２】本発明の一実施形態である音声識別装置における指向特性調整処理の処理フローを示したフローチャートである。
【符号の説明】
【０１１３】
１…音声識別装置
１１…マイクロフォンアレイ
１２…音声位置検出部
１３ａ…第１の指向特性調整部
１３ｂ…第２の指向特性調整部
１４ａ…第１の音声検出部
１４ｂ…第２の音声検出部
２１…カメラ
２２…カメラ処理部
２３…動きセンサ
２４…検出部
２４ａ…物体検出部
２４ｂ…物体位置検出部
２５…ベクトル検出部
３１…画像音声特徴情報記憶部
３２…画像基準特徴情報記憶部
３３…音声基準特徴情報記憶部
３４…指向特性優先度記憶部
４０…ＣＰＵ
４０ａ…関連付け部
４０ｂ…特徴情報判定部
４０ｃ…記憶制御部
４０ｄ…追跡制御部
４０ｅ…指向調整制御部
４１…操作部

【特許請求の範囲】
【請求項１】
物体から発せられる音声を識別する音声識別装置において、
光学系により集光された光を電気信号へ変換して画像データを生成する撮像部と、
音源から発せられた音声を電気信号へ変換して音声データを生成する複数のマイクロフォンが所定間隔で配置されたマイクロフォンアレイと、
前記画像データに含まれる被写体画像の特徴情報と、前記音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する画像音声特徴情報記憶部と、
前記撮像部により生成された画像データから被写体画像の特徴情報を検出する物体検出部と、
前記マイクロフォンアレイにより生成された音声データから音声の特徴情報を検出する音声検出部と、
前記撮像部により生成された画像データに基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する物体位置検出部と、
前記マイクロフォンアレイにより生成された音声データに基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する音声位置検出部と、
前記物体検出部により検出された被写体画像の特徴情報と、前記音声検出部により検出された音声の特徴情報と、前記物体位置検出部により算出された前記被写体の距離及び方向と、前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記被写体と前記音源とを同一の物体として関連付ける関連付け部と、
前記関連付け部により関連付けられた物体の特徴情報が、前記画像音声特徴情報記憶部に記憶された画像音声特徴情報に一致するか否かを判定する特徴情報判定部と、
前記特徴情報判定部により特徴情報が画像音声特徴情報に一致すると判定された場合に、前記画像データ上における前記被写体の追跡を行う追跡制御部と、
前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整する指向特性調整部と、
を備えた音声識別装置。
【請求項２】
前記特徴情報判定部により特徴情報が一致しないと判定された場合、前記関連付け部により関連付けられた物体の特徴情報を、新たな前記画像音声特徴情報として画像音声特徴情報記憶部に記憶させる記憶制御部を、更に備える
ことを特徴とする請求項１記載の音声識別装置。
【請求項３】
前記物体位置検出部は、
前記撮像部における画角及び前記被写体までの焦点情報に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する
ことを特徴とする請求項１記載の音声識別装置。
【請求項４】
前記被写体画像の特徴情報と前記被写体の基準寸法とを関連付けて画像基準特徴情報として記憶する画像基準特徴情報記憶部を備え、
前記物体位置検出部は、
前記画像基準特徴情報に基づいて、前記画像データに含まれる被写体画像の特徴情報に対応する前記被写体の基準寸法を抽出し、この抽出された前記被写体の基準寸法を及び前記撮像部における画角に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する
ことを特徴とする請求項１記載の音声識別装置。
【請求項５】
前記音声位置検出部は、
前記複数のマイクロフォンに到達した音声の時間差に基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する
ことを特徴とする請求項１記載の音声識別装置。
【請求項６】
前記追跡制御部は、
前記特徴情報判定部により被写体画像の特徴情報が一致すると判定された場合に、前記画像データに基づいて表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより前記被写体の動きを追跡する
ことを特徴とする請求項１記載の音声識別装置。
【請求項７】
前記指向特性調整部は、
前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記複数のマイクロフォンに到達した音声の時間差をなくすように、前記複数のマイクロフォンにより生成された音声データを重ね合わせる
ことを特徴とする請求項１記載の音声識別装置。

【図１】