情報処理装置およびその動作方法

【課題】従来技術によると、髪の色の異なり等によって、音源（口唇）の位置を推定できない場合がある。
【解決手段】上記課題を解決するために本発明に係る情報処理装置は、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得し、前記距離画像に基づいて、前記距離が極値となる前記領域内の第１の位置を特定し、前記第１の位置から、前記オブジェクトが存在している方向に所定距離離れた第２の位置を特定し、前記第２の位置に基づいて、音源の位置を決定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音源の位置を推定する技術に関する。
【背景技術】
【０００２】
従来、天井に設置した複数のカメラで撮影した画像から、人間の頭部の特徴を有する領域として、黒色部分が多い球状の領域を特定し、特定された領域を、収録音声の音源（口唇）の位置と推定する技術が知られている（例えば、特許文献１）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平８−２８６６８０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来技術によると、髪の色の異なり等によって、音源（口唇）の位置を推定できない場合がある。
【０００５】
そこで本発明は、髪の色等によらず、音源の位置に相当する口唇の位置を精度良く推定することを目的とする。
【課題を解決するための手段】
【０００６】
本発明は、上記の課題に鑑みてなされたものであり、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、前記距離画像に基づいて、前記距離が極値となる前記領域内の第１の位置を特定する第１の特定手段と、前記第１の位置から、前記オブジェクトが存在している方向に所定距離離れた第２の位置を特定する第２の特定手段と、前記第２の位置に基づいて、音源の位置を決定する決定手段とを有する。
【発明の効果】
【０００７】
本発明によれば、髪の色等によらず、音源の位置に相当する口唇の位置を精度良く推定することが可能となる。
【図面の簡単な説明】
【０００８】
【図１】情報処理装置１００の構成を示す図
【図２】距離画像センサ１１０等を設置した様子の一例を示す図
【図３】音声を強調する処理の流れを表すフローチャート
【図４】距離画像と三次元空間を鉛直方向、水平方向に見た様子を模式的に示す図
【図５】距離画像の頭部から口唇空間座標の候補を取得する様子を表す図
【図６】テーブル位置を設定する処理の流れを表すフローチャート
【図７】ステップＳ３０５の処理を詳細に表すフローチャート
【図８】頭部を抽出する様子を模式的に示す図
【図９】音声を強調する処理の流れを表すフローチャート
【図１０】音声を抑制する処理の流れを表すフローチャート
【図１１】音声を抑制する処理の流れを表すフローチャート
【図１２】頭部を追尾しながら強調音声を記録する処理流れを表すフローチャート
【発明を実施するための形態】
【０００９】
（第１の実施形態）
図１（ａ）は、本発明に係る情報処理装置１００のハードウェア構成を示す図である。
【００１０】
本図において、情報処理装置１００は、ＣＰＵ（中央処理装置）１０１、ＲＯＭ（リードオンリーメモリ）１０２、ＲＡＭ（ランダムアクセスメモリ）、記憶部１０４、第１の入力Ｉ／Ｆ（インタフェース）１０５、第２の入力Ｉ／Ｆ１０６を有する。尚、情報処理装置１００の各要素は、システムバス１０７を介して互いに接続されている。また、情報処理装置１００には、入力Ｉ／Ｆ１０５を介して、距離画像センサ１１０が接続され、入力Ｉ／Ｆ１０６を介して、マイクロホンアレイ１２０が接続されている。
【００１１】
以下、情報処理装置１００の各要素、距離画像センサ１１０、マイクロホンアレイ１２０について説明する。
【００１２】
ＣＰＵ１０１は、ＲＯＭ１０２等に格納されたプログラム等をＲＡＭ１０３に展開し、読み出すことで、情報処理装置１００の各種動作を実現する。ＲＯＭ１０２は、情報処理装置１００の各種動作させるプログラム、プログラムの実行に必要なデータ等を格納する。ＲＡＭ１０３は、ＲＯＭ１０２等に格納されたプログラムを展開するワークエリアを提供する。記憶部１０４は、ＨＤＤ（ハードディスクドライブ）等であり、各種データを記憶する。入力Ｉ／Ｆ１０５は、後述する距離画像センサ１１０によって生成された距離画像を示すデータを取得する。尚、距離画像とは、所定の三次元の領域内に存在するオブジェクトと、基準となる面との距離を画素値とする画像である。
【００１３】
入力Ｉ／Ｆ１０６は、後述するマイクロホンアレイ１２０によって取得された音を示すデータを取得する。距離画像センサ１１０は、赤外線等の反射によって、所定の三次元の領域内に存在するオブジェクトと、基準となる面（例えば、距離画像センサが測距する方向に対して垂直な面であって、距離画像センサが存在する面）との距離を示す距離画像を生成する。マイクロホンアレイ１２０は、複数のマイクロホンによって構成され、複数のチャンネルの音を取得する。
【００１４】
尚、本実施形態では、距離画像センサ１１０を用いて距離画像を生成するが、距離画像センサ１１０に替えて、複数のカメラを用いて距離画像を生成してもよい。この場合、距離画像は、複数のカメラのそれぞれが撮像した画像中に存在するオブジェクトの位置から算出した座標に従って、生成される。
【００１５】
図１（ｂ）は、本発明に係る情報処理装置１００の機能構成を示す図である。
【００１６】
情報処理装置１００は、距離画像取得部２０１、音声取得部２０２、抽出部２０３、候補取得部２０４を有する。また、情報処理装置１００は、強調部２０５、声区間検出部２０６、選択部２０７、クラスタリング部２０８、再抽出部２０９、抑制部２１０、キャリブレーション部２１１を有する。
【００１７】
尚、距離画像取得部２０１は、入力Ｉ／Ｆ１０５に相当し、音声取得部２０２は、入力Ｉ／Ｆ１０６に相当する。また、２０３から２１１の各部は、ＣＰＵ１０１が、ＲＯＭ１０２等に格納された所定のプログラム等をＲＡＭ１０３に展開し、読み出すことで実現される。以下、各部について説明する。
【００１８】
距離画像取得部２０１は、距離画像センサ１１０によって得られた距離画像を取得する。音声取得部２０２は、マイクロホンアレイ１２０を構成する複数のマイクロホンの各々を介して得られた複数の音声を取得する。抽出部２０３は、距離画像取得部２０１が取得した距離画像から、人の頭部（頭頂部）に相当する画素を抽出する。候補取得部２０４は、抽出部２０３が抽出した頭部（頭頂部）を示す画素に基づいて、口唇の空間座標の候補（口唇空間座標候補）を１つ以上取得する。強調部２０５は、口唇空間座標候補それぞれについて、その空間座標からマイクの設置位置への方向の音声を強調する。
【００１９】
声区間検出部２０６は、音声取得部２０２が取得した音声から人の声の区間を検出する。選択部２０７は、口唇空間座標候補それぞれに対して強調部２０５が強調した１つ以上の音声から、音量に基づいて所望の１つを選択する。クラスタリング部２０８は、選択部２０７が選択した強調音声をクラスタリングして強調音声に含む話者数を求める。再抽出部２０９は、抽出部２０３が抽出した頭部とその周辺領域からクラスタリング部２０８が検出した話者の数だけの頭部を再抽出する。抑制部２１０は、ある頭部（抽出された頭部のうち、注目する頭部）の強調音声に対して、他の頭部（抽出された頭部のうち、注目する頭部以外の頭部）の強調音声の成分を抑制（抑圧）する。キャリブレーション部２１１は、予め設置されているオブジェクト（本実施形態では、後述するテーブル５０１とする）の座標を決定する。
【００２０】
図２（ａ）は、距離画像センサ１１０、マイクロホンアレイ１２０を設置した様子の一例を示す図である。
【００２１】
本図において、距離画像センサ１１０、マイクロホンアレイ１２０は、部屋（会議室）の天井面に設置されているものとする。そして、距離画像センサ１１０は、オブジェクト（例えば、ユーザＡ、Ｂ、テーブル５０１、会議室の床等）と、基準となる面（例えば、天井面）との距離を示す距離画像を生成する。また、本会議室には、距離画像センサ１１０、マイクロホンアレイ１２０の他、テーブル５０１、プロジェクタ５０２、５０３が設置されている。
【００２２】
テーブル５０１は、プロジェクタ５０２の投影面５１２としても機能し、画像を表示することが可能である。また、プロジェクタ５０３は、会議室の壁面（投影面５１３）に画像を表示することが可能である。
【００２３】
尚、情報処理装置１００は、距離画像センサ１１０、マイクロホンアレイ１２０から前述した所定のデータを取得できればよく、如何なる位置に設置してもよい。図２（ｂ）は、距離画像センサを用いて求める距離を模式的に示す図である。距離画像とは、前述したように、所定の三次元の領域内に存在するオブジェクトと、基準となる面との距離を画素値とする画像である。
【００２４】
本実施形態では、距離ｄ１、ｄ２、ｈ３、角α、βとから求めた距離ｈ１、ｈ２に基づいて、各画素の画素値が決定される。尚、角α、βが０°と十分に近い角度である場合、距離ｄ１、ｄ２そのものを距離ｈ１、ｈ２と見なしても良い。
【００２５】
図３は、三次元領域内の所定の座標を音源とする音声を強調する処理の流れを表すフローチャートである。
【００２６】
まず、ステップＳ３０１で、距離画像取得部２０１は、距離画像を取得する。また、ステップＳ３０１において、音声取得部２０２は、マイクロホンアレイ１２０を構成する複数のマイクロホンの各々を介して収録された複数の音声を取得する。
【００２７】
次に、ステップＳ３０２で、抽出部２０３は、距離画像から人の頭部（頭頂部）を抽出する。尚、ステップＳ３０２における処理については、後述する。
【００２８】
次に、ステップＳ３０３で、候補取得部２０４は、注目する頭部（頭頂部）の空間座標に基づいて、複数の口唇空間座標候補を得る。
【００２９】
一般に、頭頂部から口唇までの高さは、個人差が比較的小さい。そこで、頭頂部の高さから、基準となる面の法線方向であって、頭部や肩が存在している方向に所定距離離間した高さ（例えば、２０ｃｍ離間した高さ）を口唇の高さとする。
【００３０】
尚、高さを固定した平面上（基準となる面と平行な面上）において、口唇の位置は、抽出部２０３が抽出した頭部（頭頂部）の近傍を中心とする略同心円のいずれかに存在する可能性が高い。しかし、顔の向きを上部に設置された距離画像センサ１１０等で口唇の位置を特定することは困難である。そのため、口唇空間座標の候補を推測して１つ以上取得する。
【００３１】
ステップＳ３０４で、強調部２０５は、口唇空間座標候補それぞれの方向に対して、マイクロホンアレイから得た複数の音声を使ってその方向に指向を向け、音声強調する。
【００３２】
マイクロホンアレイの空間座標と一つの口唇空間座標候補から求まる方向に基づいて複数のマイクロホンに到達する音声の遅延時間を計算する。そして、その遅延時間ずらして複数の音声を加算し、平均を取る事によって、他の方向からの音声を低減し、その方向の音声のみを強調する。
【００３３】
距離画像により頭部（頭頂部）の高さがわかっている上、頭頂部から口唇までの高さは身長差や発話者が立っている時と座っている時との差に比べて差が少ない。そのため、好適に口唇付近の高さの音声を強調することが可能である。即ち、このステップＳ３０４により、口唇空間座標候補一つに対して一つの強調音声を得る。
【００３４】
次に、ステップＳ３０５で、選択部２０７は、強調部２０５が生成した口唇空間座標候補ごとの強調音声のうち、音量の大きいひとつの強調音声を選択する。強調音声はそれぞれ口唇空間座標候補の方向に対する音声が強調されているので、その方向以外の音量は低減されている。従って、近くに別の音源が無い限り、音量の大きい強調音声の方向を正しい口唇空間座標であると推定することが可能となる。強調音声を選択する処理の詳細は後述する。これによって一つの頭部に対して一つの強調音声を取得する。
【００３５】
次に、ステップＳ３０６で、選択部２０７は、抽出した全ての頭部に対して強調音声を取得したか確認し、取得していなければステップＳ３０３に戻る。一方、全て頭部に対して処理を行っていれば、一連の処理を終了する。
【００３６】
以上が本実施形態における音声処理装置の処理の流れである。
【００３７】
尚、ステップＳ３０３で、候補取得部２０４は、注目する頭部（頭頂部）の空間座標が床面から１５０ｃｍ以上（天井面を３ｍとして、天井面からの距離が１５０ｃｍ未満）であった場合、頭頂部から所定の方向に２０ｃｍ離れた高さを口唇の高さとする。
【００３８】
そして、候補取得部２０４は、注目する頭部（頭頂部）の空間座標が床面から１５０ｃｍ未満（天井面を３ｍとして、天井面からの距離が１５０ｃｍ未満）であった場合、頭頂部から所定の方向に１５ｃｍ離れた高さを口唇の高さとしてもよい。
【００３９】
このように、頭頂部の高さに応じて、段階的に頭頂部から口唇までの距離を設定することによって、姿勢（前かがみになっている等）に応じた口唇の高さを推定することが可能となる。また、このように、頭頂部の高さに応じて、段階的に頭頂部から口唇までの距離を設定することによって、オブジェクトが大人であった場合と、子供であった場合とで、それぞれ好適な口唇の高さを推定することが可能となる。
【００４０】
以下、図４を参照しながら、ステップＳ３０２で、抽出部２０３は、距離画像から人の頭部（頭頂部）に相当する領域を抽出する処理を説明する。
【００４１】
図４（ａ）は、図２（ａ）に示された会議室の少なくとも一部に相当する三次元空間を、天井面から下方（例えば、鉛直下向き）に当該空間を捉えた場合の距離画像を、等高線を用いて模式的に示す図である。
【００４２】
図４（ｂ）は、図２（ａ）に示された会議室の少なくとも一部に相当する三次元空間を、天井面から下方（例えば、鉛直下向き）に当該空間を見た様子を模式的に示す図である。
【００４３】
図４（ｃ）は、図２（ａ）に示された会議室の少なくとも一部に相当する三次元空間を、側面（壁面）から水平方向に当該空間を見た様子を模式的に示す図である。
【００４４】
即ち、天井面を基準となる面とすると、図４（ａ）に示された距離画像の各ピクセル（ｘ，ｙ）は、天井面から、図４（ｂ）に示された高さまでの距離ｚに基づく値を画素値とする画像となる。
【００４５】
従って、図４（ａ）の距離画像には、以下に示す人の頭部から肩の形状の特徴を有する領域が現れる。
【００４６】
例えば、天井面を基準となる面とした場合、人の頭頂部の位置は、距離が極小となる点として現れる。また、頭部の外周は、距離画像に現れる略同心円のうち、最も外側の略円として現れる。また、人の肩は、最も外側の略円の両脇に隣接する略楕円として現れる。従って、抽出部２０３は、周知のパターンマッチングの技術を用いて、距離画像中に存在する略円、略楕円等の特徴と、当該特徴を有する領域の画素値に基づいて頭部の空間座標を得る。
【００４７】
尚、空間座標は、距離画像そのものと、距離画像センサの設置位置、設置角度、画角などの撮像パラメータとに基づいて算出することができる。本実施形態では、天井面を基準となる面としたが、他の面を基準となる面としてもよい。例えば、所定の高さ（例えば、高さ１７０ｃｍ）の水平面を基準となる面とした場合、所定の高さよりも低い人の頭頂部の位置は、距離が極小となる点として現れ、所定の高さよりも高い人の頭頂部の位置は、距離が極大となる点として現れる。即ち、距離が極値となる画素に対応する三次元領域内の位置は、人の頭部が存在する位置の候補となる。
【００４８】
尚、抽出部２０３は、処理の負荷が軽減することを目的として、パターンマッチング等を行わず、距離が極値となる画素に対応する三次元領域内の位置を頭頂部が存在する位置の候補としてもよい。
【００４９】
図５は、距離画像の頭部から口唇空間座標の候補を取得する様子を表す図であり、（ａ）〜（ｅ）は異なる方法で候補を得ている。
【００５０】
図５（ａ）は、固定の角度づつの方向（同図では４５度づつ８方向）を口唇空間座標の候補とする。同図の黒丸が口唇空間座標の候補を表す。この候補いずれかの座標の方向に向けて強調した音声を取得すれば、発話者の音声を他の音から分離した音声を取得できる。
【００５１】
図５（ｂ）は、頭部に接する肩の方向と直行する方向で頭部の外周に接する位置を口唇空間座標の候補とする。
【００５２】
図５（ａ）の固定角度に対して図５（ｂ）では、発話者の顔方向が体の方向と一致するという仮定の下に、肩の位置に基づいて口唇空間座標の候補を詳細に求めることができる。
【００５３】
図５（ｃ）は、抽出部２０３が抽出した他の頭部の空間座標から決定する方向から口唇空間座標の候補を取得する。発話者が他の人の方向を向いているという仮定の下に、図５（ａ）の固定角度よりも口唇空間座標の候補を詳細に求めることができる。
【００５４】
図５（ｄ）は、テーブル、プロジェクタ投影面（壁面）など、予め設定した所定のオブジェクトの位置への方向から口唇空間座標の候補を取得する。
【００５５】
テーブル、プロジェクタ投影面（壁面）など参加者の注目があつまるオブジェクトの位置は、距離画像センサ１１０の設置時あるいは会議開始時に任意の方法で設定する。また、テーブルについては、距離画像を用いて位置を設定しても良い。
【００５６】
図６は、距離画像からテーブルを認識してテーブル位置を設定するフローチャートである。
【００５７】
まずステップＳ１３０１で、キャリブレーション部２１１は、距離画像から高さが所定範囲（例えば６０ｃｍ〜８０ｃｍなど）に存在するオブジェクトを抽出する。
【００５８】
次にステップＳ１３０２において、キャリブレーション部２１１は、抽出したオブジェクトの中からオブジェクトのサイズ・形状に基づいてテーブルを認識する。テーブル形状は方形、楕円形など予め設定されている。設定されたサイズ・形状とマッチするオブジェクトのみをテーブルとして認識し、抽出する。
【００５９】
そしてステップＳ１３０３において、キャリブレーション部２１１は、認識したテーブルの重心位置を算出する。
【００６０】
ステップＳ１３０４において、キャリブレーション部２１１は、この重心位置をテーブル位置として設定する。このように手動、自動いずれかの方法で設定されたオブジェクトの位置と頭部位置から求まる方向から、候補取得部２０４は、口唇空間座標候補を取得する。また、発話者がテーブル方向やプロジェクタ投影面の方向を向いているという仮定の下に、図５（ａ）の固定角度よりも口唇空間座標の候補を詳細に求めることができる。
【００６１】
図５（ｅ）は、予め設定した会議の中心位置の方向に対し所定の角度範囲の方向を候補とする方法である。
【００６２】
例えば図５（ｅ）では、図５（ａ）の固定角度の候補の中から、会議中心位置の方向に対して−６０度〜＋６０度の範囲に含む候補を口唇位置候補として設定する。会議の中心位置は、図５（ｄ）と同様に、予め手動で設定してもよいし、図６のフローによりテーブルの重心位置を会議の中心位置として自動で設定しても良い。
【００６３】
図５（ａ）と比較して、会議の中心方向に基づいて口唇空間座標の候補を絞ることができる。これら（ａ）〜（ｅ）のどの方法でも良いし、複数の方法を組み合わせても良い。複数の方法を組み合わせることで、様々な情報を使った様々な口唇空間座標候補から、後述する選択部２０７の処理において一つの好適な強調音声を選択することができる。
【００６４】
より多くの候補があれば好適な強調音声を選択できる可能性は高まる一方、候補数が少なければ強調音声を生成するなどの計算量を削減できるため、設置する環境等に応じて好適な組み合わせを用いる。
【００６５】
次に、ステップＳ３０５で行う強調音声の選択処理について、さらに詳細に説明する。
【００６６】
図７は、ステップＳ３０５をさらに詳細化したフローチャートである。
【００６７】
まず、ステップＳ４０１において、選択部２０７は、口唇空間座標候補に対応する強調音声を１つ選択する。
【００６８】
次に、ステップＳ４０２において、声区間検出部２０６は、選択した音声から人の声の区間を検出する。尚、声区間検出は、強調音声に対して行っても良いし、音声取得部２０２が取得した強調音声生成前の音声に対して行っても良い。声区間検出は、音量、零交差数、周波数特性など、様々な音響的特徴によって検出する方法が提案されており、どの検出方法を用いてもよい。
【００６９】
次に、ステップＳ４０３において、選択部２０７は、声区間における強調音声の音量を計算する。
【００７０】
そしてステップＳ４０４において、音量が最大音量よりも大きければ、ステップＳ４０５において、選択部２０７が、最大音量を更新する。
【００７１】
以上の処理をステップＳ４０６でループさせて全ての口唇空間座標候補に対応する強調音声に対して実行し、ステップＳ４０７において、選択部２０７は、声区間の音量が最大となる強調音声を選択する。なおここで、選択部２０７は、声区間検出部２０６が声区間を検出することで声区間のみの音量を使い、発話者の発声である強調音声を精度良く選択できる。しかし声区間検出部２０６は本発明に必須なものではない。ステップＳ４０２で声の区間を求める事をせず、強調音声全体から音量を算出してそれが最大となる強調音声を選択しても本発明は適用される。また、連続する時間で選択した強調音声に対応する口唇空間座標が大きくずれている場合には、音量が最大でなくとも、音量が所定の値（最大値からの差が固定値以内など）よりも大きく、連続する時間で口唇空間座標の変化が小さい強調音声を選択しても良い。これによって口唇空間座標の時間変化をスムージングできる。
【００７２】
以上の処理によって、選択部２０７は、複数の口唇空間座標候補に対応する強調音声から一つの強調音声を選択する。
【００７３】
以上に説明した通り、図３、図７に述べた処理フローによって、距離画像から取得した頭部と音声の音響的特徴に基づいて精度良く口唇の空間座標を求め、人物一人一人に対応する強調音声を取得することができる。
【００７４】
次に、強調音声に含む話者の音響的特徴に基づいて、頭部抽出の精度を上げるようフィードバックする処理について説明する。
【００７５】
複数の人が近接する場合、抽出部２０３が複数の頭部を抽出できない場合がある。
【００７６】
図８（ａ）は、抽出部２０３が、近接する二人の人から一つの頭部しか抽出できなかった場合の図である。抽出した頭部に基づいて一つだけの強調音声とそれに対応する口唇空間座標（図中の黒丸）が決定する。
【００７７】
しかし、本来は二人の人物が存在するため、それぞれの頭部を抽出し、口唇空間座標を推定し、音声を強調して、頭部それぞれに別の強調音声を対応付けることが好ましい。
【００７８】
このような場合、強調音声に何人の発話者が含まれるかによって、人数を特定し、頭部の抽出にフィードバックすることが可能となる。この場合のフローチャートを図９に示す。
【００７９】
図９において、ステップＳ３０１〜Ｓ３０５は、図３の強調音声を選択する処理に相当する処理であるため、同符号を付し、その説明を省略する。
【００８０】
次に、ステップＳ９０１で、選択部２０７が選択した強調音声に対して、クラスタリング部２０８がクラスタリングし、強調音声に含む声の話者数を取得する。
【００８１】
話者クラスタリングは次のような手法がある。スペクトルやＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）などの音声特徴量を音声から各フレーム算出して所定時間ごとに平均する。そしてこれをベクトル量子化などの手法でクラスタリングする。このクラスタ数によって話者数を推定する。
【００８２】
そして、ステップＳ９０２で、話者の数が一人である場合にはそのまま頭部に対する強調音声を確定し、ステップＳ３０６へ進む。話者の数が複数ある場合には、ステップＳ９０３へ進む。
【００８３】
ステップＳ９０３では、再抽出部２０９が、距離画像における頭部周辺の領域から話者数分の頭部を推定し再抽出する。人が近接している場合、特に高さが大きく異なる場合（一方が座り、他方が立っている場合など）、頭部が正しく検出できない場合がある。
【００８４】
図８（ａ）は、抽出部２０３が、近接する二人の人から一つの頭部しか抽出できなかった場合の図である。抽出した頭部に基づいて一つの強調音声とそれに対応する口唇空間座標（図中の黒丸）が決定する。ここで、決定した強調音声に対してクラスタリング部２０８が話者クラスタリングを行い、話者数を得る。例えばここで話者数が２である場合、再抽出部２０９が、ステップＳ９０３で現在の頭部の周辺領域から分の頭部を探索する。
【００８５】
抽出部２０３が頭部および肩からなる距離画像形状に基づいて頭部を抽出したのに対し、再抽出部２０９はマッチングの閾値を下げるか、あるいは単純に高さの極大点を使うなどの方法で、話者数分の頭部を決定して抽出する。
【００８６】
図８（ｂ）は、話者数に応じて再抽出部２０９が再抽出した二つの頭部を示す。
【００８７】
再抽出した頭部それぞれに対し、ステップＳ９０４〜ステップＳ９０６の処理を行う。
【００８８】
ステップＳ９０４〜ステップＳ９０６はステップＳ３０３〜Ｓ３０５と同じ処理を、再抽出した頭部それぞれについて行う。再抽出した頭部それぞれに対して口唇空間座標の候補を求め、強調音声を生成し、音量に基づいて強調音声を選択する。
【００８９】
ステップＳ３０６は図３と同様に、抽出した全ての頭部に対して強調音声を取得したか確認する。図８（ｂ）中の二つの黒丸は、頭部それぞれに対して決定した口唇空間座標であり、それぞれの方向に指向を向けた強調音声を頭部ごとに対応付ける。
【００９０】
以上のようにして、強調音声から得られる話者数に基づいて頭部を再抽出し、再抽出した頭部に対して再度強調音声を求めることで、頭部が近接している場合でも精度良く話者ごとの音声を取得できる。尚、図９の処理フローにおいては図１（ｂ）の機能構成図においてクラスタリング部２０８と再抽出部２０９は必須であるのに対し、図３の処理フローの場合はこれらの機能は図２の機能構成に必須ではない。
【００９１】
また、本発明はさらに、複数の頭部を抽出してそれぞれの頭部の音声を強調する際に、他の頭部から求めた強調音声に基づいて、他の頭部の口唇空間座標から到来する音声を減じる処理を加えることができる。
【００９２】
これによって、例えばある人が無言なのに対して他の人が話している場合に、ステップＳ３０４の音声強調で除去しきれない他の人の音声を除去できる。この場合のフローチャートを図１０に示す。同図において、ステップＳ３０１〜ステップＳ３０６、ステップＳ９０１〜ステップＳ９０６は、図３、図９と同様であるため、同符号を付し、その説明省略する。
【００９３】
尚、ステップＳ３０６において全ての頭部に対して強調音声を選択すると、ステップＳ１００１において、抑制部２１０が、頭部それぞれの強調音声に対して、他の頭部の音声成分を抑制（抑圧）する。抑制（抑圧）方法の一つとしては、例えば、強調音声から他の頭部の強調音声を減算する。ある頭部の強調音声のスペクトルをＳ、他の頭部の強調音声のスペクトルをＮ（ｉ）とすると、以下の式で他の頭部の音声成分を抑制（抑圧）できる。
Ｓ−Σ｛ａ（ｉ）×Ｎ（ｉ）｝
（ｉは他の頭部のインデックス。ａ（ｉ）は所定の係数であり、固定でも良いし例えば頭部の距離によって変えても良い。）なおここで、ステップＳ１００１で抑制部２１０が行うのではなく、強調部２０５がステップＳ３０４で音声強調する際に他の頭部の強調音声を使って抑制（抑圧）しても構わない。ステップＳ３０４ではそれぞれの頭部の口唇空間座標および強調音声は決定していない。
【００９４】
そこで、抑制（抑圧）する音声成分は、頭部の空間座標や前の時間に算出した口唇空間座標からおおよその音源位置を決定し、その方向の音声を強調して他の頭部の音声を生成し、強調音声から注目する頭部以外の頭部を音源とする音声を減算して抑制（抑圧）する。
【００９５】
他の頭部の音声を抑制（抑圧）する別の方法は、強調音声同士の相関を取り、相関が高い場合はいずれかの頭部の音声が入ってしまっているとして音量の小さいほうを無音にする。
【００９６】
この場合のフローチャートを図１１に示す。まずステップＳ１１０１で、二つの頭部の強調音声を取得する。
【００９７】
次にステップＳ１１０２で、二つの強調音声の相関を取る。
【００９８】
ステップＳ１１０３で、相関が低い場合にはステップＳ１１０５へ進み、抑制（抑圧）は行わない。相関が高い場合にはステップＳ１１０４に進む。
【００９９】
ステップＳ１１０４では二つの強調音声の音量を比較し、音量の小さいほうは音量の大きいほうの音声が入り込んでいると判定して無音にする。
【０１００】
以上の操作を、ステップＳ１１０５でループし、全ての頭部の組み合わせについて実施する。これにより、他の人の音が入り込んでしまっている音を除去することが可能である。以上に述べた二つの抑制（抑圧）方法のいずれかを処理を加えることにより、例えばある人が無言なのに対して他の人が話している等の場合に、ステップＳ３０４の音声強調で除去しきれない他の人の音声を除去できる。
【０１０１】
尚、図１０のフローの場合、ステップＳ１００１を行う抑制部２１０は、図１（ｂ）の機能構成において必要であるのに対し、図３、図９の処理フローの場合、抑制部２１０は図１（ｂ）の機能構成に必須ではない。
【０１０２】
（第２の実施形態）
本発明は、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに図３、図７の処理を実行することによって、その時間間隔ごとに適切な口唇空間座標の強調音声を頭部（参加者）ごとに取得可能である。抽出部２０３が抽出する頭部を連続する時間で追尾することにより、時間間隔ごとに取得した音声を繋げて参加者に対応づけることが可能である。
【０１０３】
図１２は、所定の時間間隔ごとに頭部を追尾し、強調音声をつなげて記録する処理を示すフローチャートである。
【０１０４】
同図において、まずステップＳ１２０１では、図３のフローチャートの処理により頭部毎に強調音声を選択する。
【０１０５】
次に、ステップＳ１２０２で、抽出部２０３が現時刻で抽出した頭部と、前時刻で抽出した頭部とを、空間座標の近さに基づいて対応付けし、頭部を連続時間で追尾する。
【０１０６】
そしてステップＳ１２０３で、対応付けした頭部に基づいて強調音声を接続して頭部ごとに累積する。
【０１０７】
いま、頭部ｈに対する時刻ｔの時の口唇空間座標をｘ（ｈ，ｔ）とし、時刻ｔでの所定の時間間隔の強調音声信号をＳ（ｘ（ｈ，ｔ））とする。
【０１０８】
すると、追尾する頭部ごとに累積される音声Ｓａｃｃ（ｈ，ｔ）は、Ｓ（ｘ（ｈ，１）），Ｓ（ｘ（ｈ，２））．．．，Ｓ（ｘ（ｈ，ｔ））が接続した音声となる。これをステップＳ１２０４で音声を記録している間、ループさせる。
【０１０９】
以上の処理により、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに適切な口唇空間座標の強調音声を求め、頭部（参加者）ごとに追尾して強調した音声を取得することができる。
【０１１０】
（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項１】
三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、
前記距離画像に基づいて、前記距離が極値となる前記領域内の第１の位置を特定する第１の特定手段と、
前記第１の位置から、前記オブジェクトが存在している方向に所定距離離れた第２の位置を特定する第２の特定手段と、
前記第２の位置に基づいて、音源の位置を決定する決定手段とを有する情報処理装置。
【請求項２】
前記第２の特定手段は、前記第１の位置から、前記基準となる面の法線方向であって、前記オブジェクトが存在している方向に所定距離離れた第２の位置を特定し、
前記決定手段は、前記第２の位置を含む面であり、かつ前記基準となる面と平行な面を、音源の位置が存在する面であると決定することを特徴とする請求項１に記載の情報処理装置。
【請求項３】
更に、前記第２の位置を含む面であって、前記基準となる面と平行な面上に存在する複数の点であって、前記第２の位置から所定距離離れた複数の点の位置を、前記音源が存在する位置の候補として設定する設定手段を有することを特徴とする請求項２に記載の情報処理装置。
【請求項４】
音源の位置を推定する情報処理装置の動作方法であって、
三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得工程と、
前記距離画像に基づいて、前記距離が極値となる前記領域内の第１の位置を特定する第１の特定工程と、
前記第１の位置から、前記オブジェクトが存在している方向に所定距離離れた第２の位置を特定する第２の特定工程と、
前記第２の位置に基づいて、音源の位置を決定する決定工程とを有する動作方法。
【請求項５】
請求項４に記載の動作方法をコンピュータに実行させるためのプログラム。

【図１】