説明

音声識別装置

【課題】断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得る。
【解決手段】画像音声特徴情報を記憶する画像音声特徴情報記憶部31と、被写体画像の特徴情報を検出する物体検出部24aと、音声の特徴情報を検出する音声検出部14a,14bと、被写体までの距離及び方向を算出する物体位置検出部24bと、音源までの距離及び方向を算出する音声位置検出部12と、被写体画像の特徴情報と音声の特徴情報と被写体までの距離及び方向と音源までの距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付ける関連付け部40aと、物体の特徴情報が画像音声特徴情報に一致するか否かを判定する特徴情報判定部40bと、被写体画像の追跡を行う追跡制御部40dと、追跡結果と被写体又は音源の距離及び方向とに基づいてマイクロフォンアレイ11の指向特性を調整する指向特性調整部13a,13bとを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体から発せられる音声を識別する装置であり、特に、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる音声識別装置に関する。
【背景技術】
【0002】
一般的に、ビデオカメラ等では多数の人を撮影する場合があり、このような場合、音声を発している発話者の方向を検知して、検知した方向に対してマイクの指向性を高め、ノイズを減衰させる必要がある。
【0003】
そこで、特許文献1には、発話者の方向を検出する方向検出部と、発話者の音声を検出するマイクロフォンと、マイクロフォンの指向特性を方向検出部により検出された発話者の方向において高めるように調整するゲイン調整部と、ゲイン調整部により調整された発話者の音声を認識する音声認識部とを備えた車載用音声認識装置が提案されている。
【0004】
また、特許文献2には、カメラにより撮影された画像から操縦者の唇位置を特定し、この特定された唇位置に基づいて、複数のマイクロフォンの指向特性を調整し、複数のマイクロフォンの音声信号を合成する車両用音声認識装置が提案されている。
【0005】
さらに、特許文献3には、マイクロフォンから入力された音声に基づいて話者の方向を検出してマイクロフォンの指向特性を合わせると共に、検出した話者の方向にカメラを向け、このカメラにより撮影された画像に基づいて顔検出を行い、顔検出された場合、対話処理を行う視聴覚連携認識装置が提案されている。
【特許文献1】特開平11−219193号公報
【特許文献2】特開2000−10589号公報
【特許文献3】特開2006−251266号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の技術では、発話者により発せられた音声に基づいて、マイクロフォンの指向特性を調整するので、発話者が音声を発生していない間は、マイクロフォンの指向特性を調整することが困難であった。
【0007】
また、特許文献2に記載の技術では、撮影画像から特定された操縦者の唇位置に基づいて、マイクロフォンの指向特性を調整するので、操縦者の唇が動いていない、即ち操縦者が音声を発生していない間は、マイクロフォンの指向特性を調整することが困難であった。
【0008】
さらに特許文献3に記載の技術では、マイクロフォンから入力された音声に基づいて話者の方向を検出するので、例えば、ランダムに発声する多数の人を撮影する場合、マイクロフォンから音声が入力される度に、マイクロフォンの指向特性を合わせる必要があるので、装置負荷が大きく、発声した直後の音声を感度良く検出することが困難であった。
【0009】
本発明は、上記課題に鑑みてなされたものであり、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる音声識別装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するため、本発明に係る音声識別装置の第1の特徴は、物体から発せられる音声を識別する音声識別装置において、光学系により集光された光を電気信号へ変換して画像データを生成する撮像部と、音源から発せられた音声を電気信号へ変換して音声データを生成する複数のマイクロフォンが所定間隔で配置されたマイクロフォンアレイと、前記画像データに含まれる被写体画像の特徴情報と、前記音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する画像音声特徴情報記憶部と、前記撮像部により生成された画像データから被写体画像の特徴情報を検出する物体検出部と、前記マイクロフォンアレイにより生成された音声データから音声の特徴情報を検出する音声検出部と、前記撮像部により生成された画像データに基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する物体位置検出部と、前記マイクロフォンアレイにより生成された音声データに基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する音声位置検出部と、前記物体検出部により検出された被写体画像の特徴情報と、前記音声検出部により検出された音声の特徴情報と、前記物体位置検出部により算出された前記被写体の距離及び方向と、前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記被写体と前記音源とを同一の物体として関連付ける関連付け部と、前記関連付け部により関連付けられた物体の特徴情報が、前記画像音声特徴情報記憶部に記憶された画像音声特徴情報に一致するか否かを判定する特徴情報判定部と、前記特徴情報判定部により特徴情報が画像音声特徴情報に一致すると判定された場合に、前記画像データ上における前記被写体の追跡を行う追跡制御部と、前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整する指向特性調整部とを備えたことにある。
【0011】
上記目的を達成するため、本発明に係る音声識別装置の第2の特徴は、前記特徴情報判定部により特徴情報が一致しないと判定された場合、前記関連付け部により関連付けられた物体の特徴情報を、新たな前記画像音声特徴情報として画像音声特徴情報記憶部に記憶させる記憶制御部を、更に備えることにある。
【0012】
上記目的を達成するため、本発明に係る音声識別装置の第3の特徴は、前記物体位置検出部は、前記撮像部における画角及び前記被写体までの焦点情報に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出することにある。
【0013】
上記目的を達成するため、本発明に係る音声識別装置の第4の特徴は、前記被写体画像の特徴情報と前記被写体の基準寸法とを関連付けて画像基準特徴情報として記憶する画像基準特徴情報記憶部を備え、前記物体位置検出部は、前記画像基準特徴情報に基づいて、前記画像データに含まれる被写体画像の特徴情報に対応する前記被写体の基準寸法を抽出し、この抽出された前記被写体の基準寸法を及び前記撮像部における画角に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出することにある。
【0014】
上記目的を達成するため、本発明に係る音声識別装置の第5の特徴は、前記音声位置検出部は、前記複数のマイクロフォンに到達した音声の時間差に基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出することにある。
【0015】
上記目的を達成するため、本発明に係る音声識別装置の第6の特徴は、前記追跡制御部は、前記特徴情報判定部により被写体画像の特徴情報が一致すると判定された場合に、前記画像データに基づいて表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより前記被写体の動きを追跡することにある。
【0016】
上記目的を達成するため、本発明に係る音声識別装置の第7の特徴は、前記指向特性調整部は、前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記複数のマイクロフォンに到達した音声の時間差をなくすように、前記複数のマイクロフォンにより生成された音声データを重ね合わせることにある。
【発明の効果】
【0017】
本発明の音声識別装置によれば、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得ることができる。
【発明を実施するための最良の形態】
【0018】
以下、本発明の実施の形態について図面を参照して説明する。
【0019】
本発明の一実施形態では、断続的に音声を発生する音源についてもノイズを減衰させて良好な音声を得る音声認識装置を例に挙げて説明する。
【0020】
<音声識別装置の構成>
図1は、本発明の一実施形態である音声識別装置の構成を示した構成図である。
【0021】
本発明の一実施形態である音声識別装置1は、マイクロフォンアレイ11と、音声位置検出部12と、第1の指向特性調整部13aと、第2の指向特性調整部13bと、第1の音声検出部14aと、第2の音声検出部14bと、撮像部を有するカメラ21及びカメラ処理部22と、動きセンサ23と、検出部24と、動きベクトル検出部25と、画像音声特徴情報記憶部31と、画像基準特徴情報記憶部32と、音声基準特徴情報記憶部33と、指向特性優先度記憶部34と、CPU40と、操作部41と、表示部42とを備えている。
【0022】
マイクロフォンアレイ11は、それぞれ例えば10mm程度の所定間隔で配置される第1のマイクロフォン11aと、第2のマイクロフォン11bと、第3のマイクロフォン11cとを備えており、音源から発せられた音声を電気信号へ変換して音声データを生成する。
【0023】
音声位置検出部12は、マイクロフォンアレイ11により生成された音声データに基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する。
【0024】
第1の指向特性調整部13aは、後述するCPU40の追跡制御部40dの追跡結果と、後述する検出部24の物体位置検出部24bにより算出された被写体の距離及び方向、又は音声位置検出部12により算出された音源の距離及び方向とに基づいて、第1のマイクロフォン11aと、第2のマイクロフォン11bと、第3のマイクロフォン11cに到達した音声の時間差をなくすように、それぞれのマイクロフォンにより生成された音声データを重ね合わせることにより指向特性を調整する。
【0025】
第2の指向特性調整部13bは、第1の指向特性調整部13aと同一構成を有する。
【0026】
第1の音声検出部14aは、第1の指向特性調整部13aにより指向特性が調整された音声データから音声の特徴情報を抽出する。具体的には、第1の音声検出部14aは、指向特性が調整された音声から、成分波形やホルマント等を抽出し、これらを音声の特徴情報として、CPU40へ供給する。
【0027】
第2の音声検出部14bは、第1の音声検出部14aと同一構成を有する。
【0028】
カメラ21は、内蔵するレンズにより集光された光を電気信号へ変換する。
【0029】
カメラ処理部22は、カメラ21から供給された電気信号をRGB信号輝度信号Y及び色差信号Cr,Cb信号等の画像データに変換する。
【0030】
動きセンサ23は、例えばジャイロセンサ等を備え、音声識別装置1の動きを検出する。
【0031】
検出部24は、物体検出部24aと、物体位置検出部24bとを備える。
【0032】
物体検出部24aは、カメラ処理部22により生成された画像データから被写体画像の特徴情報を検出する。例えば、物体検出部24aは、画像データから被写体画像の形及び色を特徴情報として検出し、これら抽出した形及び色と画像基準特徴情報記憶部32に記憶された画像基準特徴情報とに基づいて、被写体の種類を特定する。そして特定された被写体の種類と被写体画像の特徴情報とをCPU40へ供給する。
【0033】
物体位置検出部24bは、カメラ処理部22により生成された画像データに基づいて、音声識別装置1から画像データの被写体までの距離及び音声識別装置1に対する被写体の方向を算出する。
【0034】
動きベクトル検出部25は、カメラ21により生成された画像データの動きを検出する。
【0035】
画像音声特徴情報記憶部31は、画像データの被写体画像の特徴情報と、音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する。
【0036】
図2は、本発明の一実施形態である音声識別装置1が備える画像音声特徴情報記憶部31に記憶された画像音声特徴情報の一例を示した図である。
【0037】
図2に示すように、カラム名“特徴情報ID”(符号51)と、カラム名“種類”(符号52)と、カラム名“被写体画像の特徴情報”(符号53)と、カラム名“音声データの特徴情報”(符号54)とが関連付けられて画像音声特徴情報として記憶されている。
【0038】
また、被写体画像の特徴情報53には、カラム名“形”(符号53a)と、カラム名“色”(符号53b)とが含まれる。音声データの特徴情報54には、カラム名“成分波形”(符号54a)と、カラム名“ホルマント”(符号54b)とが含まれる。
【0039】
画像基準特徴情報記憶部32は、被写体の種類と、画像基準特徴情報とを関連付けて記憶する。
【0040】
図3は、本発明の一実施形態である音声識別装置1が備える画像基準特徴情報記憶部32に記憶された画像基準特徴情報の一例を示した図である。
【0041】
図3に示すように、カラム名“種類”(符号61)と、カラム名“画像基準特徴情報”(符号62)とが関連付けられて記憶されている。画像基準特徴情報62には、カラム名“形”(符号62a)と、カラム名“色”(符号62b)と、カラム名“基準寸法”(符号62c)とが含まれる。
【0042】
音声基準特徴情報記憶部33は、音源の種類と、音声基準特徴情報とを関連付けて記憶する。
【0043】
図4は、本発明の一実施形態である音声識別装置1が備える音声基準特徴情報記憶部33に記憶された音声基準特徴情報の一例を示した図である。
【0044】
図4に示すように、カラム名“種類”(符号71)と、カラム名“音声基準特徴情報”(符号72)とが関連付けられて記憶されている。音声基準特徴情報72には、カラム名“パワースペクトル”(符号72a)と、カラム名“サウンドスペクトル”(符号72b)とが含まれる。
【0045】
指向特性優先度記憶部34は、後述する操作部41から供給された被写体及び音源の種類の優先順位が記憶されている。なお、後述するCPU40は、操作部41での優先順位が指定されるまでは、指向特性優先度記憶部34に予め記憶されている所定の優先順位に従って、処理を行う。
【0046】
CPU40は、音声識別装置1の中枢的な制御を行う。また、CPU40は、その機能上、関連付け部40aと、特徴情報判定部40bと、記憶制御部40cと、追跡制御部40dと、指向調整制御部40eとを備える。
【0047】
関連付け部40aは、物体検出部24aにより検出された被写体画像の特徴情報と、第1の音声検出部14a又は第2の音声検出部14bにより検出された音声の特徴情報と、物体位置検出部24bにより算出された被写体の距離及び方向と、音声位置検出部12により算出された音源の距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付ける。
【0048】
特徴情報判定部40bは、関連付け部40aにより関連付けられた物体の特徴情報が、画像音声特徴情報記憶部31に記憶された画像音声特徴情報に一致するか否かを判定する。
【0049】
記憶制御部40cは、特徴情報判定部40bにより特徴情報が一致しないと判定された場合、関連付け部40aにより関連付けられた物体の特徴情報を、新たな画像音声特徴情報として画像音声特徴情報記憶部31に記憶させる。
【0050】
追跡制御部40dは、特徴情報判定部40bにより被写体画像の特徴情報が一致すると判定された場合に、画像データに基づいて、表示部42に表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより被写体の動きを追跡する。
【0051】
指向調整制御部40eは、追跡制御部40dの追跡結果と、物体位置検出部24bにより算出された被写体の距離及び方向又は音声位置検出部12により算出された音源の距離及び方向とに基づいて、第1の指向特性調整部13a又は第2の指向特性調整部13bに指向特性を調整させる。
【0052】
操作部41は、利用者の操作に基づいて、撮影の開始や終了を要求する操作信号、及び被写体の種類の優先順位の指向特性優先度記憶部34への記憶を要求する操作信号等各種操作信号を生成し、生成した操作信号をCPU40へ供給する。
【0053】
表示部42は、有機EL(electroluminescence)ディスプレイや、液晶ディスプレイ等の画像出力装置を備え、CPU40から供給された画像データに基づいて、各種画面を表示する。
【0054】
<音声識別装置1の作用>
次に、本発明の一実施形態である音声識別装置1の作用について説明する。
【0055】
図5は、本発明の一実施形態である音声識別装置1の処理フローを示したフローチャートである。
【0056】
まず、音声識別装置1のカメラ処理部22は、カメラ21から電気信号が供給されると(ステップS101)、供給された電気信号をRGB信号、輝度信号Y、及び色差信号Cr,Cb信号等に変換して画像データを生成する。
【0057】
次に、物体位置検出部24bは、動きセンサ23により検出された音声識別装置1の動きに基づいて、振れを補正する(ステップS102)。例えば、物体位置検出部24bは、動きセンサ23により検出された音声識別装置1の動きを打ち消すように、カメラ処理部22から供給された画像データから切り出す画像データの範囲を選択し、この選択された画像データを物体検出部24aへ供給する。
【0058】
そして、物体検出部24aは、振れを補正した画像データから被写体画像の特徴情報を検出する(ステップS103)。例えば、物体検出部24aは、画像データから被写体画像の形及び色を特徴情報として検出し、これら抽出した形及び色と画像基準特徴情報記憶部32に記憶された画像基準特徴情報とに基づいて、被写体の種類を特定する。そして特定された被写体の種類と被写体画像の特徴情報とをCPU40へ供給する。
【0059】
図6は、本発明の一実施形態である音声識別装置1が備える物体検出部24aによる検出処理を説明した図である。
【0060】
図6に示すように、カメラ21により撮像された画面には、男性である被写体A及び被写体Bが写っており、物体検出部24aは、被写体A及び被写体Bの形及び色を特徴情報として検出する。そして、物体検出部24aは、画像基準特徴情報記憶部32に記憶された画像基準特徴情報の中から、検出した形及び色と一致する被写体の種類を抽出し、抽出された被写体A及び被写体Bの種類と被写体画像の特徴情報とをCPU40へ供給する。図6に示した例では、物体検出部24aは、被写体A及び被写体Bの種類として“男性”を抽出し、抽出された被写体の種類である“男性”とそれぞれの被写体画像の特徴情報とをCPU40へ供給する。
【0061】
次に、物体位置検出部24bは、振れを補正した画像データに基づいて、音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向を算出する(ステップS104)。例えば、物体位置検出部24bは、カメラ21における画角及び被写体までの焦点情報に基づいて、音声識別装置1から画像データの被写体までの距離及び音声識別装置1に対する被写体の方向を算出する。
【0062】
図7は、本発明の一実施形態である音声識別装置1が備える物体位置検出部24bによる被写体の方向の算出処理を説明した図である。
【0063】
図7に示すように、カメラ21により撮像された画面に、図6に示した被写体Aと被写体Bとが写っている。カメラ21の画角が±Φであるとすると、物体位置検出部24bは、音声識別装置1を上方から見たx−y平面において、物体検出部24aにより検出された被写体Aが+θ3方向にある、即ち、+θ3方向の直線201上に被写体Aが存在すると判定する。
【0064】
そして、物体位置検出部24bは、振れを補正した画像データに基づいて、音声識別装置1から被写体までの距離を算出する。
【0065】
図8は、本発明の一実施形態である音声識別装置1が備える物体位置検出部24bによる被写体の距離の算出処理を説明した図である。
【0066】
カメラ21のフォーカスの範囲内に被写体A又はBがある場合、物体位置検出部24bは、フォーカスの焦点情報から距離を算出する。
【0067】
図8に示すように、被写体Aがフォーカスの範囲内にある場合、物体位置検出部24bは、フォーカスの焦点情報からカメラ21と被写体Aとの間の距離d1を算出する。
【0068】
また、カメラ21のフォーカスの範囲外に被写体A又はBがある場合、物体位置検出部24bは、画像基準特徴情報記憶部32に記憶された画像基準特徴情報に基づいて、画像データの被写体画像の特徴情報に対応する被写体の基準寸法を抽出し、この抽出された被写体の基準寸法及びカメラ21における画角に基づいて、カメラ21から画像データの被写体までの距離を算出する。
【0069】
具体的には、図8に示す被写体Bがフォーカスの範囲外にある場合、物体位置検出部24bは、画像基準特徴情報記憶部32に記憶された画像基準特徴情報からステップS103において特定された被写体の種類に対応する基準寸法L2を抽出する。
【0070】
そして、物体位置検出部24bは、図6に示す画面の高さをHc、被写体Bの顔の縦方向の長さH2、画角をθcとすると、下記の数式1を用いて、被写体Bの角度θ2を算出する。
【0071】
θ2=θc×H2/Hc ・・・(数式1)
次に、物体位置検出部24bは、抽出された基準寸法L2と、算出された角度θ2とから、下記の数式2を用いて距離d2を算出する。
【0072】
d2=L2/tanθ2 ・・・(数式2)
これにより、物体位置検出部24bは、振れを補正した画像データに基づいて、音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向を算出することができる。
【0073】
次に、音声位置検出部12は、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cから音声データが供給されると(ステップS105)、動きセンサ23により検出された音声識別装置1の動きに基づいて、振れを補正する(ステップS106)。
【0074】
次に、第1の音声検出部14a又は第2の音声検出部14bは、第1の指向特性調整部13a又は第2の指向特性調整部13bから供給された振れが補正された音声の特徴情報を検出する(ステップS107)。例えば、第1の音声検出部14aは、振れが補正された音声データから、音声の特徴情報として成分波形やホルマント等を抽出し、これら抽出した成分波形やホルマントと音声基準特徴情報記憶部33に記憶された音声基準特徴情報とに基づいて、音源の種類の順位付けを行う。そして、この順位付けられた音源の種類と音声の特徴情報とをCPU40へ供給する。
【0075】
図9は、本発明の一実施形態である音声識別装置1が備える第1の音声検出部14a又は第2の音声検出部14bによる検出処理を説明した図である。(a)は、補正された音声データの波形の一例を示しており、(b)は、(a)に基づいて生成されたパワースペクトルを示しており、(c)は、音声基準特徴情報記憶部33に記憶された音声基準特徴情報のパワースペクトルの一例を示している。
【0076】
なお、第1の音声検出部14a又は第2の音声検出部14bは、同一構成を有するので、第1の音声検出部14aについて説明する。
【0077】
図9に示すように、第1の音声検出部14aは、図9(a)に示した音声波形301から図9(b)に示したパワースペクトル302を生成する。
【0078】
そして、第1の音声検出部14aは、生成したパワースペクトル302と、図9(c)に示した音声基準特徴情報記憶部33に記憶された音声基準特徴情報のパワースペクトル303との一致度合いを算出し、この算出された一致度合いに基づいて、順位付けを行う。
【0079】
具体的には、第1の音声検出部14aは、図9(b)に示したパワースペクトルの周波数成分(A1〜A7)毎の値を算出すると共に、図9(c)に示したパワースペクトルの周波数成分(A1〜A7)毎の値を算出し、周波数成分(A1〜A7)毎にこの算出した値の差の絶対値を算出する。
【0080】
この周波数成分(A1〜A7)毎に算出された差の絶対値の総和は、小さい程生成したパワースペクトル302と、音声基準特徴情報記憶部33に記憶された音声基準特徴情報のパワースペクトル303との一致度合いが高いので、第1の音声検出部14aは、周波数成分(A1〜A7)毎に算出された差の絶対値の総和が小さい順に音源の種類を並べ替えることにより優先順位付けを行う。
【0081】
例えば、第1の音声検出部14aは、周波数成分(A1〜A7)毎に算出された差の絶対値の総和が小さい程高くなる評価点を算出し、この評価点が高い順に音源の種類を並べ替える。
【0082】
これにより、検出された音源の種類と評価点とを、“男性”(評価点90)、“女性”(評価点70)、“犬”(評価点50)、“車”(評価点20)というように、評価点が高い順に音源の種類を並べ替える。
【0083】
なお、第1の音声検出部14aは、パワースペクトルに基づいて順位付けする代わりに、サウンドスペクトログラムに基づいて優先順位付けを行っても良い。
【0084】
この場合にも、同様に、第1の音声検出部14aは、音声データに基づいて生成したサウンドスペクトログラムと、音声基準特徴情報記憶部33に記憶された音声基準特徴情報のサウンドスペクトログラムとの一致度合いを算出し、この算出された一致度合いに基づいて、順位付けを行う。
【0085】
図5に示すように、次に、音声位置検出部12は、補正された音声データに基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する(ステップS108)。
【0086】
図10は、本発明の一実施形態である音声識別装置1が備える音声位置検出部12による音源の方向及び距離の算出処理を説明した図である。
【0087】
図10に示すように、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cは、それぞれ所定の距離を離して配置されているので、音源Aが発声した音声は、それぞれの入力までの遅延時間が異なる。
【0088】
具体的には、図10に示すように、音源Aから音声が発せられてから第1のマイクロフォン11aに到達するまでの時間をt0とすると、音源Aから音声が発せられてから第2のマイクロフォン11bに到達するまでの時間は、(t0+t1)、音源Aから音声が発せられてから第3のマイクロフォン11cに到達するまでの時間は、(t0+t2)となる。
【0089】
そこで、音声位置検出部12は、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cに入力された音声の位相を比較することにより、マイクロフォンに入力される音声の遅延時間t1,t2を算出し、この算出された遅延時間t1,t2に基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する。
【0090】
図11は、本発明の一実施形態である音声識別装置1が備える第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cに入力された音声波形の位相比較の一例を示した図である。
【0091】
図11に示すように、T10時点において、音源Aから発せられてから第1のマイクロフォン11aに到達した音声がピークを有しているので、音声位置検出部12は、このピーク時であるT10を基準とする。そして、音声位置検出部12は、T10から、第2のマイクロフォン11bに到達した音声波形において同様のピーク波形が到達した時刻T11までの時間を遅延時間t1とする。また、音声位置検出部12は、T10から、第3のマイクロフォン11cに到達した音声波形において同様のピーク波形が到達した時刻T12までの時間を遅延時間t2とする。
【0092】
そして、音声位置検出部12は、この算出された遅延時間t1,t2に基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する。具体的には、音速をvとすると、音声位置検出部12は、音源Aから第1のマイクロフォン11aまでの距離はv・t0、音源Aから第2のマイクロフォン11bまでの距離はv・(t0+t1)、音源Aから第3のマイクロフォン11cまでの距離はv・(t0+t2)となる。そして、音声位置検出部12は、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cからそれぞれv・t0、v・(t0+t1)、及びv・(t0+t2)だけ離れた地点、即ち、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cを中心とて、それぞれ中心からの半径をv・t0、v・(t0+t1)、及びv・(t0+t2)として円を描いたときに、互いに重なり合う地点が音源Aのある地点として定める。
【0093】
これにより、音声位置検出部12は、補正された音声データに基づいて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出することができる。
【0094】
なお、例えば音源A及び音源Bが同時に音声を発した場合、音声位置検出部12は、例えば、特開2006−227328号公報に記載の技術を用いて、音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向を算出する。具体的には、音声位置検出部12は、帯域分割して得られる帯域分割信号が複数の音源が重複している信号であるか一つの音源だけからなる信号であるかを判定し、音源が重複していない周波数成分のみを用いて音源方向を算出する。
【0095】
次に、CPU40の関連付け部40aは、ステップS104において算出された音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向と、ステップS108において算出された音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向と、ステップS103において特定された被写体の種類と、ステップS109において決定された音源の種類の順位付けとに基づいて、音源と被写体との関連付けか可能か否かを判定する(ステップS109)。
【0096】
例えば、関連付け部40aは、ステップS104において算出された音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向により特定される位置の所定の周辺範囲と、ステップS108において算出された音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向により特定される位置の所定の周辺範囲とにおいて重なり合う部分があり、かつ、ステップS103において特定された被写体の種類が、ステップS109において決定された評価点が80点以上である音源の種類に含まれている場合、この被写体と音源は同一の物体として関連付けが可能であると判定する。
【0097】
ステップS109において、音源と被写体との関連付けか可能と判定された場合、関連付け部40aは、ステップS103において検出された被写体画像の特徴情報と、ステップS104において算出された音声識別装置1から被写体までの距離及び音声識別装置1に対する被写体の方向と、ステップS107において検出された音源の特徴情報と、ステップS108において算出された音声識別装置1から音源までの距離及び音声識別装置1に対する音源の方向とを関連付ける(ステップS110)。
【0098】
次に、CPU40の特徴情報判定部40bは、ステップS110において関連付けられた被写体画像の特徴情報と音源の特徴情報とが、画像音声特徴情報記憶部31に記憶された画像音声特徴情報に一致するか否かを判定する(ステップS111)。
【0099】
ステップS111において、特徴情報が画像音声特徴情報に一致しないと判定された場合(NOの場合)、CPU40の記憶制御部40cは、ステップS110において関連付けられた被写体画像の特徴情報と音源の特徴情報とを、新たな画像音声特徴情報として画像音声特徴情報記憶部31に記憶させる(ステップS112)。
【0100】
次に、CPU40の追跡制御部40dは、画像データに基づいて表示部42に表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより被写体の動きを追跡する(ステップS113)。
【0101】
具体的には、追跡制御部40dは、画像データに基づいて表示された画面を複数のブロックに分割し、動きベクトル検出部25により検出されたブロック毎の動きベクトルに基づいて、被写体に動きがあるかを検出する。なお、動きベクトルの検出は、輝度信号でも良いし色信号でも良い。
【0102】
また、追跡制御部40dは、画面内に動く物体が無い場合にも、画面の中全てを常に画像認識して、輪郭や色などから被写体を推定する。その被写体に対して、特徴情報に基づいて画像認識を行い、これまで検出していた被写体との比較を行う。この被写体がこれまでの被写体の特徴情報と比較して違いが所定の値より少ない場合には同じ物体と判断する。これにより、追跡制御部40dは、画面内でその被写体を追跡することができる。
【0103】
そして、CPU40の指向調整制御部40eの指示により、第1の指向特性調整部13a又は第2の指向特性調整部13bは、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cに到達した音声の時間差をなくすように、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cにより生成された音声データを重ね合わせることにより指向特性を調整する(ステップS114)。この指向特性調整処理については、後述する。
【0104】
次に、CPU40は、操作部41から撮影終了を要求する操作信号が供給されたか否かを判定し(ステップS115)、撮影終了を要求する操作信号が供給されたと判定した場合(YESの場合)、処理を終了する。
【0105】
図12は、本発明の一実施形態である音声識別装置1における指向特性調整処理の処理フローを示したフローチャートである。
【0106】
図12に示すように、CPU40の指向調整制御部40eは、第1の指向特性調整部13a及び第2の指向特性調整部13bのうち、少なくともいずれか一方が使用可能か否かを判定する(ステップS201)。具体的には、CPU40は、指向調整を行っていない第1の指向特性調整部13a又は第2の指向特性調整部13bがあるか否かを判定する。
【0107】
ステップS201において、いずれも使用不可、即ち第1の指向特性調整部13a及び第2の指向特性調整部13bのいずれも指向調整を行っていると判定された場合(NOの場合)、指向調整制御部40eは、指向特性優先度記憶部34に記憶された指向特性優先度を抽出する(ステップS202)。具体的には、指向調整制御部40eは、画像音声特徴情報記憶部31から、ステップS113において動きを追跡している被写体の種類と、第1の指向特性調整部13a及び第2の指向特性調整部13bにより指向特性調整されている被写体の種類とを抽出する。そして、指向調整制御部40eは、指向特性優先度記憶部34から、これら抽出された被写体の種類に対応する指向特性優先度を抽出する。
【0108】
次に、指向調整制御部40eは、ステップS113において動きを追跡している被写体の指向特性優先度が、第1の指向特性調整部13a又は第2の指向特性調整部13bにより指向特性調整されている被写体の指向特性優先度より高いか否かを判定する(ステップS203)。
【0109】
ステップS203において、ステップS113において動きを追跡している被写体の指向特性優先度が、第1の指向特性調整部13a又は第2の指向特性調整部13bにより指向特性調整されている被写体の指向特性優先度より高いと判定された場合(YESの場合)、指向調整制御部40eの指示に基づいて、第1の指向特性調整部13a又は第2の指向特性調整部13bが指向調整を行う(ステップS204)。具体的には、第1の指向特性調整部13a又は第2の指向特性調整部13bは、追跡制御部40dの追跡結果に基づいて、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cに到達した音声の時間差をなくすように、第1のマイクロフォン11a、第2のマイクロフォン11b、及び第3のマイクロフォン11cにより生成された音声データを重ね合わせることにより指向特性を調整する。
【0110】
以上のように、本発明の一実施形態である音声識別装置1によれば、被写体画像の特徴情報と、音声の特徴情報と、被写体の距離及び方向と、音源の距離及び方向とに基づいて、被写体と音源とを同一の物体として関連付け、この関連付けられた物体の特徴情報が画像音声特徴情報に一致する場合に、追跡制御部40dが画像データ上における被写体画像の追跡を行い、第1の指向特性調整部13a及び第2の指向特性調整部13bが、追跡制御部40dの追跡結果と、被写体の距離及び方向又は音源の距離及び方向とに基づいて、マイクロフォンアレイ11の指向特性を調整するので、音源がカメラ21の画角外に出た場合や、音源が断続的に音声を発生する場合であっても、その都度、音声位置検出部12及び物体位置検出部24bが物体の位置を算出し直すことなく、マイクロフォンアレイ11の指向特性を調整することでノイズを減衰させて良好な音声を得ることができる。
【0111】
なお、本発明の一実施形態である音声識別装置1では、2つの指向特性調整部(第1の指向特性調整部13a及び第2の指向特性調整部13b)と、2つの音声検出部(第1の音声検出部14a及び第2の音声検出部14b)とを備える構成としたが、これに限らず、多数の指向特性調整部と、多数の音声検出部とを備える構成としてもよい。
【図面の簡単な説明】
【0112】
【図1】本発明の一実施形態である音声識別装置の構成を示した構成図である。
【図2】本発明の一実施形態である音声識別装置が備える画像音声特徴情報記憶部に記憶された画像音声特徴情報の一例を示した図である。
【図3】本発明の一実施形態である音声識別装置が備える画像基準特徴情報記憶部に記憶された画像基準特徴情報の一例を示した図である。
【図4】本発明の一実施形態である音声識別装置が備える音声基準特徴情報記憶部に記憶された音声基準特徴情報の一例を示した図である。
【図5】本発明の一実施形態である音声識別装置の処理フローを示したフローチャートである。
【図6】本発明の一実施形態である音声識別装置が備える物体検出部による検出処理を説明した図である。
【図7】本発明の一実施形態である音声識別装置が備える物体位置検出部による被写体の方向の算出処理を説明した図である。
【図8】本発明の一実施形態である音声識別装置が備える物体位置検出部による被写体の距離の算出処理を説明した図である。
【図9】本発明の一実施形態である音声識別装置が備える第1の音声検出部又は第2の音声検出部による検出処理を説明した図である。(a)は、補正された音声データの波形の一例を示しており、(b)は、(a)に基づいて生成されたパワースペクトルを示しており、(c)は、音声基準特徴情報記憶部33に記憶された音声基準特徴情報のパワースペクトルの一例を示している。
【図10】本発明の一実施形態である音声識別装置が備える音声位置検出による音源の方向及び距離の算出処理を説明した図である。
【図11】本発明の一実施形態である音声識別装置が備える第1のマイクロフォン、第2のマイクロフォン、及び第3のマイクロフォンに入力された音声波形の位相比較の一例を示した図である。
【図12】本発明の一実施形態である音声識別装置における指向特性調整処理の処理フローを示したフローチャートである。
【符号の説明】
【0113】
1…音声識別装置
11…マイクロフォンアレイ
12…音声位置検出部
13a…第1の指向特性調整部
13b…第2の指向特性調整部
14a…第1の音声検出部
14b…第2の音声検出部
21…カメラ
22…カメラ処理部
23…動きセンサ
24…検出部
24a…物体検出部
24b…物体位置検出部
25…ベクトル検出部
31…画像音声特徴情報記憶部
32…画像基準特徴情報記憶部
33…音声基準特徴情報記憶部
34…指向特性優先度記憶部
40…CPU
40a…関連付け部
40b…特徴情報判定部
40c…記憶制御部
40d…追跡制御部
40e…指向調整制御部
41…操作部

【特許請求の範囲】
【請求項1】
物体から発せられる音声を識別する音声識別装置において、
光学系により集光された光を電気信号へ変換して画像データを生成する撮像部と、
音源から発せられた音声を電気信号へ変換して音声データを生成する複数のマイクロフォンが所定間隔で配置されたマイクロフォンアレイと、
前記画像データに含まれる被写体画像の特徴情報と、前記音源から発せられた音声の特徴情報とを関連付けて画像音声特徴情報として記憶する画像音声特徴情報記憶部と、
前記撮像部により生成された画像データから被写体画像の特徴情報を検出する物体検出部と、
前記マイクロフォンアレイにより生成された音声データから音声の特徴情報を検出する音声検出部と、
前記撮像部により生成された画像データに基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する物体位置検出部と、
前記マイクロフォンアレイにより生成された音声データに基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する音声位置検出部と、
前記物体検出部により検出された被写体画像の特徴情報と、前記音声検出部により検出された音声の特徴情報と、前記物体位置検出部により算出された前記被写体の距離及び方向と、前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記被写体と前記音源とを同一の物体として関連付ける関連付け部と、
前記関連付け部により関連付けられた物体の特徴情報が、前記画像音声特徴情報記憶部に記憶された画像音声特徴情報に一致するか否かを判定する特徴情報判定部と、
前記特徴情報判定部により特徴情報が画像音声特徴情報に一致すると判定された場合に、前記画像データ上における前記被写体の追跡を行う追跡制御部と、
前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記マイクロフォンアレイの指向特性を調整する指向特性調整部と、
を備えた音声識別装置。
【請求項2】
前記特徴情報判定部により特徴情報が一致しないと判定された場合、前記関連付け部により関連付けられた物体の特徴情報を、新たな前記画像音声特徴情報として画像音声特徴情報記憶部に記憶させる記憶制御部を、更に備える
ことを特徴とする請求項1記載の音声識別装置。
【請求項3】
前記物体位置検出部は、
前記撮像部における画角及び前記被写体までの焦点情報に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する
ことを特徴とする請求項1記載の音声識別装置。
【請求項4】
前記被写体画像の特徴情報と前記被写体の基準寸法とを関連付けて画像基準特徴情報として記憶する画像基準特徴情報記憶部を備え、
前記物体位置検出部は、
前記画像基準特徴情報に基づいて、前記画像データに含まれる被写体画像の特徴情報に対応する前記被写体の基準寸法を抽出し、この抽出された前記被写体の基準寸法を及び前記撮像部における画角に基づいて、前記音声識別装置から前記被写体までの距離及び前記音声識別装置に対する前記被写体の方向を算出する
ことを特徴とする請求項1記載の音声識別装置。
【請求項5】
前記音声位置検出部は、
前記複数のマイクロフォンに到達した音声の時間差に基づいて、前記音声識別装置から前記音源までの距離及び前記音声識別装置に対する前記音源の方向を算出する
ことを特徴とする請求項1記載の音声識別装置。
【請求項6】
前記追跡制御部は、
前記特徴情報判定部により被写体画像の特徴情報が一致すると判定された場合に、前記画像データに基づいて表示された画像を複数のブロックに分割し、ブロック毎の動きを検出することにより前記被写体の動きを追跡する
ことを特徴とする請求項1記載の音声識別装置。
【請求項7】
前記指向特性調整部は、
前記追跡制御部の追跡結果と、前記物体位置検出部により算出された前記被写体の距離及び方向又は前記音声位置検出部により算出された前記音源の距離及び方向とに基づいて、前記複数のマイクロフォンに到達した音声の時間差をなくすように、前記複数のマイクロフォンにより生成された音声データを重ね合わせる
ことを特徴とする請求項1記載の音声識別装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2010−154260(P2010−154260A)
【公開日】平成22年7月8日(2010.7.8)
【国際特許分類】
【出願番号】特願2008−330533(P2008−330533)
【出願日】平成20年12月25日(2008.12.25)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【Fターム(参考)】