情報処理装置およびその動作方法
【課題】 従来技術によると、髪の色の異なり等によって、音源(口唇)の位置を推定できない場合がある。
【解決手段】 上記課題を解決するために本発明に係る情報処理装置は、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得し、前記距離画像に基づいて、前記距離が極値となる前記領域内の第1の位置を特定し、前記第1の位置から、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定し、前記第2の位置に基づいて、音源の位置を決定する。
【解決手段】 上記課題を解決するために本発明に係る情報処理装置は、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得し、前記距離画像に基づいて、前記距離が極値となる前記領域内の第1の位置を特定し、前記第1の位置から、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定し、前記第2の位置に基づいて、音源の位置を決定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源の位置を推定する技術に関する。
【背景技術】
【0002】
従来、天井に設置した複数のカメラで撮影した画像から、人間の頭部の特徴を有する領域として、黒色部分が多い球状の領域を特定し、特定された領域を、収録音声の音源(口唇)の位置と推定する技術が知られている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平8−286680号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術によると、髪の色の異なり等によって、音源(口唇)の位置を推定できない場合がある。
【0005】
そこで本発明は、髪の色等によらず、音源の位置に相当する口唇の位置を精度良く推定することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、上記の課題に鑑みてなされたものであり、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、前記距離画像に基づいて、前記距離が極値となる前記領域内の第1の位置を特定する第1の特定手段と、前記第1の位置から、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定する第2の特定手段と、前記第2の位置に基づいて、音源の位置を決定する決定手段とを有する。
【発明の効果】
【0007】
本発明によれば、髪の色等によらず、音源の位置に相当する口唇の位置を精度良く推定することが可能となる。
【図面の簡単な説明】
【0008】
【図1】情報処理装置100の構成を示す図
【図2】距離画像センサ110等を設置した様子の一例を示す図
【図3】音声を強調する処理の流れを表すフローチャート
【図4】距離画像と三次元空間を鉛直方向、水平方向に見た様子を模式的に示す図
【図5】距離画像の頭部から口唇空間座標の候補を取得する様子を表す図
【図6】テーブル位置を設定する処理の流れを表すフローチャート
【図7】ステップS305の処理を詳細に表すフローチャート
【図8】頭部を抽出する様子を模式的に示す図
【図9】音声を強調する処理の流れを表すフローチャート
【図10】音声を抑制する処理の流れを表すフローチャート
【図11】音声を抑制する処理の流れを表すフローチャート
【図12】頭部を追尾しながら強調音声を記録する処理流れを表すフローチャート
【発明を実施するための形態】
【0009】
(第1の実施形態)
図1(a)は、本発明に係る情報処理装置100のハードウェア構成を示す図である。
【0010】
本図において、情報処理装置100は、CPU(中央処理装置)101、ROM(リードオンリーメモリ)102、RAM(ランダムアクセスメモリ)、記憶部104、第1の入力I/F(インタフェース)105、第2の入力I/F106を有する。尚、情報処理装置100の各要素は、システムバス107を介して互いに接続されている。また、情報処理装置100には、入力I/F105を介して、距離画像センサ110が接続され、入力I/F106を介して、マイクロホンアレイ120が接続されている。
【0011】
以下、情報処理装置100の各要素、距離画像センサ110、マイクロホンアレイ120について説明する。
【0012】
CPU101は、ROM102等に格納されたプログラム等をRAM103に展開し、読み出すことで、情報処理装置100の各種動作を実現する。ROM102は、情報処理装置100の各種動作させるプログラム、プログラムの実行に必要なデータ等を格納する。RAM103は、ROM102等に格納されたプログラムを展開するワークエリアを提供する。記憶部104は、HDD(ハードディスクドライブ)等であり、各種データを記憶する。入力I/F105は、後述する距離画像センサ110によって生成された距離画像を示すデータを取得する。尚、距離画像とは、所定の三次元の領域内に存在するオブジェクトと、基準となる面との距離を画素値とする画像である。
【0013】
入力I/F106は、後述するマイクロホンアレイ120によって取得された音を示すデータを取得する。距離画像センサ110は、赤外線等の反射によって、所定の三次元の領域内に存在するオブジェクトと、基準となる面(例えば、距離画像センサが測距する方向に対して垂直な面であって、距離画像センサが存在する面)との距離を示す距離画像を生成する。マイクロホンアレイ120は、複数のマイクロホンによって構成され、複数のチャンネルの音を取得する。
【0014】
尚、本実施形態では、距離画像センサ110を用いて距離画像を生成するが、距離画像センサ110に替えて、複数のカメラを用いて距離画像を生成してもよい。この場合、距離画像は、複数のカメラのそれぞれが撮像した画像中に存在するオブジェクトの位置から算出した座標に従って、生成される。
【0015】
図1(b)は、本発明に係る情報処理装置100の機能構成を示す図である。
【0016】
情報処理装置100は、距離画像取得部201、音声取得部202、抽出部203、候補取得部204を有する。また、情報処理装置100は、強調部205、声区間検出部206、選択部207、クラスタリング部208、再抽出部209、抑制部210、キャリブレーション部211を有する。
【0017】
尚、距離画像取得部201は、入力I/F105に相当し、音声取得部202は、入力I/F106に相当する。また、203から211の各部は、CPU101が、ROM102等に格納された所定のプログラム等をRAM103に展開し、読み出すことで実現される。以下、各部について説明する。
【0018】
距離画像取得部201は、距離画像センサ110によって得られた距離画像を取得する。音声取得部202は、マイクロホンアレイ120を構成する複数のマイクロホンの各々を介して得られた複数の音声を取得する。抽出部203は、距離画像取得部201が取得した距離画像から、人の頭部(頭頂部)に相当する画素を抽出する。候補取得部204は、抽出部203が抽出した頭部(頭頂部)を示す画素に基づいて、口唇の空間座標の候補(口唇空間座標候補)を1つ以上取得する。強調部205は、口唇空間座標候補それぞれについて、その空間座標からマイクの設置位置への方向の音声を強調する。
【0019】
声区間検出部206は、音声取得部202が取得した音声から人の声の区間を検出する。選択部207は、口唇空間座標候補それぞれに対して強調部205が強調した1つ以上の音声から、音量に基づいて所望の1つを選択する。クラスタリング部208は、選択部207が選択した強調音声をクラスタリングして強調音声に含む話者数を求める。再抽出部209は、抽出部203が抽出した頭部とその周辺領域からクラスタリング部208が検出した話者の数だけの頭部を再抽出する。抑制部210は、ある頭部(抽出された頭部のうち、注目する頭部)の強調音声に対して、他の頭部(抽出された頭部のうち、注目する頭部以外の頭部)の強調音声の成分を抑制(抑圧)する。キャリブレーション部211は、予め設置されているオブジェクト(本実施形態では、後述するテーブル501とする)の座標を決定する。
【0020】
図2(a)は、距離画像センサ110、マイクロホンアレイ120を設置した様子の一例を示す図である。
【0021】
本図において、距離画像センサ110、マイクロホンアレイ120は、部屋(会議室)の天井面に設置されているものとする。そして、距離画像センサ110は、オブジェクト(例えば、ユーザA、B、テーブル501、会議室の床等)と、基準となる面(例えば、天井面)との距離を示す距離画像を生成する。また、本会議室には、距離画像センサ110、マイクロホンアレイ120の他、テーブル501、プロジェクタ502、503が設置されている。
【0022】
テーブル501は、プロジェクタ502の投影面512としても機能し、画像を表示することが可能である。また、プロジェクタ503は、会議室の壁面(投影面513)に画像を表示することが可能である。
【0023】
尚、情報処理装置100は、距離画像センサ110、マイクロホンアレイ120から前述した所定のデータを取得できればよく、如何なる位置に設置してもよい。図2(b)は、距離画像センサを用いて求める距離を模式的に示す図である。距離画像とは、前述したように、所定の三次元の領域内に存在するオブジェクトと、基準となる面との距離を画素値とする画像である。
【0024】
本実施形態では、距離d1、d2、h3、角α、βとから求めた距離h1、h2に基づいて、各画素の画素値が決定される。尚、角α、βが0°と十分に近い角度である場合、距離d1、d2そのものを距離h1、h2と見なしても良い。
【0025】
図3は、三次元領域内の所定の座標を音源とする音声を強調する処理の流れを表すフローチャートである。
【0026】
まず、ステップS301で、距離画像取得部201は、距離画像を取得する。また、ステップS301において、音声取得部202は、マイクロホンアレイ120を構成する複数のマイクロホンの各々を介して収録された複数の音声を取得する。
【0027】
次に、ステップS302で、抽出部203は、距離画像から人の頭部(頭頂部)を抽出する。尚、ステップS302における処理については、後述する。
【0028】
次に、ステップS303で、候補取得部204は、注目する頭部(頭頂部)の空間座標に基づいて、複数の口唇空間座標候補を得る。
【0029】
一般に、頭頂部から口唇までの高さは、個人差が比較的小さい。そこで、頭頂部の高さから、基準となる面の法線方向であって、頭部や肩が存在している方向に所定距離離間した高さ(例えば、20cm離間した高さ)を口唇の高さとする。
【0030】
尚、高さを固定した平面上(基準となる面と平行な面上)において、口唇の位置は、抽出部203が抽出した頭部(頭頂部)の近傍を中心とする略同心円のいずれかに存在する可能性が高い。しかし、顔の向きを上部に設置された距離画像センサ110等で口唇の位置を特定することは困難である。そのため、口唇空間座標の候補を推測して1つ以上取得する。
【0031】
ステップS304で、強調部205は、口唇空間座標候補それぞれの方向に対して、マイクロホンアレイから得た複数の音声を使ってその方向に指向を向け、音声強調する。
【0032】
マイクロホンアレイの空間座標と一つの口唇空間座標候補から求まる方向に基づいて複数のマイクロホンに到達する音声の遅延時間を計算する。そして、その遅延時間ずらして複数の音声を加算し、平均を取る事によって、他の方向からの音声を低減し、その方向の音声のみを強調する。
【0033】
距離画像により頭部(頭頂部)の高さがわかっている上、頭頂部から口唇までの高さは身長差や発話者が立っている時と座っている時との差に比べて差が少ない。そのため、好適に口唇付近の高さの音声を強調することが可能である。即ち、このステップS304により、口唇空間座標候補一つに対して一つの強調音声を得る。
【0034】
次に、ステップS305で、選択部207は、強調部205が生成した口唇空間座標候補ごとの強調音声のうち、音量の大きいひとつの強調音声を選択する。強調音声はそれぞれ口唇空間座標候補の方向に対する音声が強調されているので、その方向以外の音量は低減されている。従って、近くに別の音源が無い限り、音量の大きい強調音声の方向を正しい口唇空間座標であると推定することが可能となる。強調音声を選択する処理の詳細は後述する。これによって一つの頭部に対して一つの強調音声を取得する。
【0035】
次に、ステップS306で、選択部207は、抽出した全ての頭部に対して強調音声を取得したか確認し、取得していなければステップS303に戻る。一方、全て頭部に対して処理を行っていれば、一連の処理を終了する。
【0036】
以上が本実施形態における音声処理装置の処理の流れである。
【0037】
尚、ステップS303で、候補取得部204は、注目する頭部(頭頂部)の空間座標が床面から150cm以上(天井面を3mとして、天井面からの距離が150cm未満)であった場合、頭頂部から所定の方向に20cm離れた高さを口唇の高さとする。
【0038】
そして、候補取得部204は、注目する頭部(頭頂部)の空間座標が床面から150cm未満(天井面を3mとして、天井面からの距離が150cm未満)であった場合、頭頂部から所定の方向に15cm離れた高さを口唇の高さとしてもよい。
【0039】
このように、頭頂部の高さに応じて、段階的に頭頂部から口唇までの距離を設定することによって、姿勢(前かがみになっている等)に応じた口唇の高さを推定することが可能となる。また、このように、頭頂部の高さに応じて、段階的に頭頂部から口唇までの距離を設定することによって、オブジェクトが大人であった場合と、子供であった場合とで、それぞれ好適な口唇の高さを推定することが可能となる。
【0040】
以下、図4を参照しながら、ステップS302で、抽出部203は、距離画像から人の頭部(頭頂部)に相当する領域を抽出する処理を説明する。
【0041】
図4(a)は、図2(a)に示された会議室の少なくとも一部に相当する三次元空間を、天井面から下方(例えば、鉛直下向き)に当該空間を捉えた場合の距離画像を、等高線を用いて模式的に示す図である。
【0042】
図4(b)は、図2(a)に示された会議室の少なくとも一部に相当する三次元空間を、天井面から下方(例えば、鉛直下向き)に当該空間を見た様子を模式的に示す図である。
【0043】
図4(c)は、図2(a)に示された会議室の少なくとも一部に相当する三次元空間を、側面(壁面)から水平方向に当該空間を見た様子を模式的に示す図である。
【0044】
即ち、天井面を基準となる面とすると、図4(a)に示された距離画像の各ピクセル(x,y)は、天井面から、図4(b)に示された高さまでの距離zに基づく値を画素値とする画像となる。
【0045】
従って、図4(a)の距離画像には、以下に示す人の頭部から肩の形状の特徴を有する領域が現れる。
【0046】
例えば、天井面を基準となる面とした場合、人の頭頂部の位置は、距離が極小となる点として現れる。また、頭部の外周は、距離画像に現れる略同心円のうち、最も外側の略円として現れる。また、人の肩は、最も外側の略円の両脇に隣接する略楕円として現れる。従って、抽出部203は、周知のパターンマッチングの技術を用いて、距離画像中に存在する略円、略楕円等の特徴と、当該特徴を有する領域の画素値に基づいて頭部の空間座標を得る。
【0047】
尚、空間座標は、距離画像そのものと、距離画像センサの設置位置、設置角度、画角などの撮像パラメータとに基づいて算出することができる。本実施形態では、天井面を基準となる面としたが、他の面を基準となる面としてもよい。例えば、所定の高さ(例えば、高さ170cm)の水平面を基準となる面とした場合、所定の高さよりも低い人の頭頂部の位置は、距離が極小となる点として現れ、所定の高さよりも高い人の頭頂部の位置は、距離が極大となる点として現れる。即ち、距離が極値となる画素に対応する三次元領域内の位置は、人の頭部が存在する位置の候補となる。
【0048】
尚、抽出部203は、処理の負荷が軽減することを目的として、パターンマッチング等を行わず、距離が極値となる画素に対応する三次元領域内の位置を頭頂部が存在する位置の候補としてもよい。
【0049】
図5は、距離画像の頭部から口唇空間座標の候補を取得する様子を表す図であり、(a)〜(e)は異なる方法で候補を得ている。
【0050】
図5(a)は、固定の角度づつの方向(同図では45度づつ8方向)を口唇空間座標の候補とする。同図の黒丸が口唇空間座標の候補を表す。この候補いずれかの座標の方向に向けて強調した音声を取得すれば、発話者の音声を他の音から分離した音声を取得できる。
【0051】
図5(b)は、頭部に接する肩の方向と直行する方向で頭部の外周に接する位置を口唇空間座標の候補とする。
【0052】
図5(a)の固定角度に対して図5(b)では、発話者の顔方向が体の方向と一致するという仮定の下に、肩の位置に基づいて口唇空間座標の候補を詳細に求めることができる。
【0053】
図5(c)は、抽出部203が抽出した他の頭部の空間座標から決定する方向から口唇空間座標の候補を取得する。発話者が他の人の方向を向いているという仮定の下に、図5(a)の固定角度よりも口唇空間座標の候補を詳細に求めることができる。
【0054】
図5(d)は、テーブル、プロジェクタ投影面(壁面)など、予め設定した所定のオブジェクトの位置への方向から口唇空間座標の候補を取得する。
【0055】
テーブル、プロジェクタ投影面(壁面)など参加者の注目があつまるオブジェクトの位置は、距離画像センサ110の設置時あるいは会議開始時に任意の方法で設定する。また、テーブルについては、距離画像を用いて位置を設定しても良い。
【0056】
図6は、距離画像からテーブルを認識してテーブル位置を設定するフローチャートである。
【0057】
まずステップS1301で、キャリブレーション部211は、距離画像から高さが所定範囲(例えば60cm〜80cmなど)に存在するオブジェクトを抽出する。
【0058】
次にステップS1302において、キャリブレーション部211は、抽出したオブジェクトの中からオブジェクトのサイズ・形状に基づいてテーブルを認識する。テーブル形状は方形、楕円形など予め設定されている。設定されたサイズ・形状とマッチするオブジェクトのみをテーブルとして認識し、抽出する。
【0059】
そしてステップS1303において、キャリブレーション部211は、認識したテーブルの重心位置を算出する。
【0060】
ステップS1304において、キャリブレーション部211は、この重心位置をテーブル位置として設定する。このように手動、自動いずれかの方法で設定されたオブジェクトの位置と頭部位置から求まる方向から、候補取得部204は、口唇空間座標候補を取得する。また、発話者がテーブル方向やプロジェクタ投影面の方向を向いているという仮定の下に、図5(a)の固定角度よりも口唇空間座標の候補を詳細に求めることができる。
【0061】
図5(e)は、予め設定した会議の中心位置の方向に対し所定の角度範囲の方向を候補とする方法である。
【0062】
例えば図5(e)では、図5(a)の固定角度の候補の中から、会議中心位置の方向に対して−60度〜+60度の範囲に含む候補を口唇位置候補として設定する。会議の中心位置は、図5(d)と同様に、予め手動で設定してもよいし、図6のフローによりテーブルの重心位置を会議の中心位置として自動で設定しても良い。
【0063】
図5(a)と比較して、会議の中心方向に基づいて口唇空間座標の候補を絞ることができる。これら(a)〜(e)のどの方法でも良いし、複数の方法を組み合わせても良い。複数の方法を組み合わせることで、様々な情報を使った様々な口唇空間座標候補から、後述する選択部207の処理において一つの好適な強調音声を選択することができる。
【0064】
より多くの候補があれば好適な強調音声を選択できる可能性は高まる一方、候補数が少なければ強調音声を生成するなどの計算量を削減できるため、設置する環境等に応じて好適な組み合わせを用いる。
【0065】
次に、ステップS305で行う強調音声の選択処理について、さらに詳細に説明する。
【0066】
図7は、ステップS305をさらに詳細化したフローチャートである。
【0067】
まず、ステップS401において、選択部207は、口唇空間座標候補に対応する強調音声を1つ選択する。
【0068】
次に、ステップS402において、声区間検出部206は、選択した音声から人の声の区間を検出する。尚、声区間検出は、強調音声に対して行っても良いし、音声取得部202が取得した強調音声生成前の音声に対して行っても良い。声区間検出は、音量、零交差数、周波数特性など、様々な音響的特徴によって検出する方法が提案されており、どの検出方法を用いてもよい。
【0069】
次に、ステップS403において、選択部207は、声区間における強調音声の音量を計算する。
【0070】
そしてステップS404において、音量が最大音量よりも大きければ、ステップS405において、選択部207が、最大音量を更新する。
【0071】
以上の処理をステップS406でループさせて全ての口唇空間座標候補に対応する強調音声に対して実行し、ステップS407において、選択部207は、声区間の音量が最大となる強調音声を選択する。なおここで、選択部207は、声区間検出部206が声区間を検出することで声区間のみの音量を使い、発話者の発声である強調音声を精度良く選択できる。しかし声区間検出部206は本発明に必須なものではない。ステップS402で声の区間を求める事をせず、強調音声全体から音量を算出してそれが最大となる強調音声を選択しても本発明は適用される。また、連続する時間で選択した強調音声に対応する口唇空間座標が大きくずれている場合には、音量が最大でなくとも、音量が所定の値(最大値からの差が固定値以内など)よりも大きく、連続する時間で口唇空間座標の変化が小さい強調音声を選択しても良い。これによって口唇空間座標の時間変化をスムージングできる。
【0072】
以上の処理によって、選択部207は、複数の口唇空間座標候補に対応する強調音声から一つの強調音声を選択する。
【0073】
以上に説明した通り、図3、図7に述べた処理フローによって、距離画像から取得した頭部と音声の音響的特徴に基づいて精度良く口唇の空間座標を求め、人物一人一人に対応する強調音声を取得することができる。
【0074】
次に、強調音声に含む話者の音響的特徴に基づいて、頭部抽出の精度を上げるようフィードバックする処理について説明する。
【0075】
複数の人が近接する場合、抽出部203が複数の頭部を抽出できない場合がある。
【0076】
図8(a)は、抽出部203が、近接する二人の人から一つの頭部しか抽出できなかった場合の図である。抽出した頭部に基づいて一つだけの強調音声とそれに対応する口唇空間座標(図中の黒丸)が決定する。
【0077】
しかし、本来は二人の人物が存在するため、それぞれの頭部を抽出し、口唇空間座標を推定し、音声を強調して、頭部それぞれに別の強調音声を対応付けることが好ましい。
【0078】
このような場合、強調音声に何人の発話者が含まれるかによって、人数を特定し、頭部の抽出にフィードバックすることが可能となる。この場合のフローチャートを図9に示す。
【0079】
図9において、ステップS301〜S305は、図3の強調音声を選択する処理に相当する処理であるため、同符号を付し、その説明を省略する。
【0080】
次に、ステップS901で、選択部207が選択した強調音声に対して、クラスタリング部208がクラスタリングし、強調音声に含む声の話者数を取得する。
【0081】
話者クラスタリングは次のような手法がある。スペクトルやMFCC(Mel−Frequency Cepstrum Coefficient)などの音声特徴量を音声から各フレーム算出して所定時間ごとに平均する。そしてこれをベクトル量子化などの手法でクラスタリングする。このクラスタ数によって話者数を推定する。
【0082】
そして、ステップS902で、話者の数が一人である場合にはそのまま頭部に対する強調音声を確定し、ステップS306へ進む。話者の数が複数ある場合には、ステップS903へ進む。
【0083】
ステップS903では、再抽出部209が、距離画像における頭部周辺の領域から話者数分の頭部を推定し再抽出する。人が近接している場合、特に高さが大きく異なる場合(一方が座り、他方が立っている場合など)、頭部が正しく検出できない場合がある。
【0084】
図8(a)は、抽出部203が、近接する二人の人から一つの頭部しか抽出できなかった場合の図である。抽出した頭部に基づいて一つの強調音声とそれに対応する口唇空間座標(図中の黒丸)が決定する。ここで、決定した強調音声に対してクラスタリング部208が話者クラスタリングを行い、話者数を得る。例えばここで話者数が2である場合、再抽出部209が、ステップS903で現在の頭部の周辺領域から分の頭部を探索する。
【0085】
抽出部203が頭部および肩からなる距離画像形状に基づいて頭部を抽出したのに対し、再抽出部209はマッチングの閾値を下げるか、あるいは単純に高さの極大点を使うなどの方法で、話者数分の頭部を決定して抽出する。
【0086】
図8(b)は、話者数に応じて再抽出部209が再抽出した二つの頭部を示す。
【0087】
再抽出した頭部それぞれに対し、ステップS904〜ステップS906の処理を行う。
【0088】
ステップS904〜ステップS906はステップS303〜S305と同じ処理を、再抽出した頭部それぞれについて行う。再抽出した頭部それぞれに対して口唇空間座標の候補を求め、強調音声を生成し、音量に基づいて強調音声を選択する。
【0089】
ステップS306は図3と同様に、抽出した全ての頭部に対して強調音声を取得したか確認する。図8(b)中の二つの黒丸は、頭部それぞれに対して決定した口唇空間座標であり、それぞれの方向に指向を向けた強調音声を頭部ごとに対応付ける。
【0090】
以上のようにして、強調音声から得られる話者数に基づいて頭部を再抽出し、再抽出した頭部に対して再度強調音声を求めることで、頭部が近接している場合でも精度良く話者ごとの音声を取得できる。尚、図9の処理フローにおいては図1(b)の機能構成図においてクラスタリング部208と再抽出部209は必須であるのに対し、図3の処理フローの場合はこれらの機能は図2の機能構成に必須ではない。
【0091】
また、本発明はさらに、複数の頭部を抽出してそれぞれの頭部の音声を強調する際に、他の頭部から求めた強調音声に基づいて、他の頭部の口唇空間座標から到来する音声を減じる処理を加えることができる。
【0092】
これによって、例えばある人が無言なのに対して他の人が話している場合に、ステップS304の音声強調で除去しきれない他の人の音声を除去できる。この場合のフローチャートを図10に示す。同図において、ステップS301〜ステップS306、ステップS901〜ステップS906は、図3、図9と同様であるため、同符号を付し、その説明省略する。
【0093】
尚、ステップS306において全ての頭部に対して強調音声を選択すると、ステップS1001において、抑制部210が、頭部それぞれの強調音声に対して、他の頭部の音声成分を抑制(抑圧)する。抑制(抑圧)方法の一つとしては、例えば、強調音声から他の頭部の強調音声を減算する。ある頭部の強調音声のスペクトルをS、他の頭部の強調音声のスペクトルをN(i)とすると、以下の式で他の頭部の音声成分を抑制(抑圧)できる。
S−Σ{a(i)×N(i)}
(iは他の頭部のインデックス。a(i)は所定の係数であり、固定でも良いし例えば頭部の距離によって変えても良い。)なおここで、ステップS1001で抑制部210が行うのではなく、強調部205がステップS304で音声強調する際に他の頭部の強調音声を使って抑制(抑圧)しても構わない。ステップS304ではそれぞれの頭部の口唇空間座標および強調音声は決定していない。
【0094】
そこで、抑制(抑圧)する音声成分は、頭部の空間座標や前の時間に算出した口唇空間座標からおおよその音源位置を決定し、その方向の音声を強調して他の頭部の音声を生成し、強調音声から注目する頭部以外の頭部を音源とする音声を減算して抑制(抑圧)する。
【0095】
他の頭部の音声を抑制(抑圧)する別の方法は、強調音声同士の相関を取り、相関が高い場合はいずれかの頭部の音声が入ってしまっているとして音量の小さいほうを無音にする。
【0096】
この場合のフローチャートを図11に示す。まずステップS1101で、二つの頭部の強調音声を取得する。
【0097】
次にステップS1102で、二つの強調音声の相関を取る。
【0098】
ステップS1103で、相関が低い場合にはステップS1105へ進み、抑制(抑圧)は行わない。相関が高い場合にはステップS1104に進む。
【0099】
ステップS1104では二つの強調音声の音量を比較し、音量の小さいほうは音量の大きいほうの音声が入り込んでいると判定して無音にする。
【0100】
以上の操作を、ステップS1105でループし、全ての頭部の組み合わせについて実施する。これにより、他の人の音が入り込んでしまっている音を除去することが可能である。以上に述べた二つの抑制(抑圧)方法のいずれかを処理を加えることにより、例えばある人が無言なのに対して他の人が話している等の場合に、ステップS304の音声強調で除去しきれない他の人の音声を除去できる。
【0101】
尚、図10のフローの場合、ステップS1001を行う抑制部210は、図1(b)の機能構成において必要であるのに対し、図3、図9の処理フローの場合、抑制部210は図1(b)の機能構成に必須ではない。
【0102】
(第2の実施形態)
本発明は、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに図3、図7の処理を実行することによって、その時間間隔ごとに適切な口唇空間座標の強調音声を頭部(参加者)ごとに取得可能である。抽出部203が抽出する頭部を連続する時間で追尾することにより、時間間隔ごとに取得した音声を繋げて参加者に対応づけることが可能である。
【0103】
図12は、所定の時間間隔ごとに頭部を追尾し、強調音声をつなげて記録する処理を示すフローチャートである。
【0104】
同図において、まずステップS1201では、図3のフローチャートの処理により頭部毎に強調音声を選択する。
【0105】
次に、ステップS1202で、抽出部203が現時刻で抽出した頭部と、前時刻で抽出した頭部とを、空間座標の近さに基づいて対応付けし、頭部を連続時間で追尾する。
【0106】
そしてステップS1203で、対応付けした頭部に基づいて強調音声を接続して頭部ごとに累積する。
【0107】
いま、頭部hに対する時刻tの時の口唇空間座標をx(h,t)とし、時刻tでの所定の時間間隔の強調音声信号をS(x(h,t))とする。
【0108】
すると、追尾する頭部ごとに累積される音声Sacc(h,t)は、S(x(h,1)),S(x(h,2))...,S(x(h,t))が接続した音声となる。これをステップS1204で音声を記録している間、ループさせる。
【0109】
以上の処理により、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに適切な口唇空間座標の強調音声を求め、頭部(参加者)ごとに追尾して強調した音声を取得することができる。
【0110】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【技術分野】
【0001】
本発明は、音源の位置を推定する技術に関する。
【背景技術】
【0002】
従来、天井に設置した複数のカメラで撮影した画像から、人間の頭部の特徴を有する領域として、黒色部分が多い球状の領域を特定し、特定された領域を、収録音声の音源(口唇)の位置と推定する技術が知られている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平8−286680号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術によると、髪の色の異なり等によって、音源(口唇)の位置を推定できない場合がある。
【0005】
そこで本発明は、髪の色等によらず、音源の位置に相当する口唇の位置を精度良く推定することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、上記の課題に鑑みてなされたものであり、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、前記距離画像に基づいて、前記距離が極値となる前記領域内の第1の位置を特定する第1の特定手段と、前記第1の位置から、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定する第2の特定手段と、前記第2の位置に基づいて、音源の位置を決定する決定手段とを有する。
【発明の効果】
【0007】
本発明によれば、髪の色等によらず、音源の位置に相当する口唇の位置を精度良く推定することが可能となる。
【図面の簡単な説明】
【0008】
【図1】情報処理装置100の構成を示す図
【図2】距離画像センサ110等を設置した様子の一例を示す図
【図3】音声を強調する処理の流れを表すフローチャート
【図4】距離画像と三次元空間を鉛直方向、水平方向に見た様子を模式的に示す図
【図5】距離画像の頭部から口唇空間座標の候補を取得する様子を表す図
【図6】テーブル位置を設定する処理の流れを表すフローチャート
【図7】ステップS305の処理を詳細に表すフローチャート
【図8】頭部を抽出する様子を模式的に示す図
【図9】音声を強調する処理の流れを表すフローチャート
【図10】音声を抑制する処理の流れを表すフローチャート
【図11】音声を抑制する処理の流れを表すフローチャート
【図12】頭部を追尾しながら強調音声を記録する処理流れを表すフローチャート
【発明を実施するための形態】
【0009】
(第1の実施形態)
図1(a)は、本発明に係る情報処理装置100のハードウェア構成を示す図である。
【0010】
本図において、情報処理装置100は、CPU(中央処理装置)101、ROM(リードオンリーメモリ)102、RAM(ランダムアクセスメモリ)、記憶部104、第1の入力I/F(インタフェース)105、第2の入力I/F106を有する。尚、情報処理装置100の各要素は、システムバス107を介して互いに接続されている。また、情報処理装置100には、入力I/F105を介して、距離画像センサ110が接続され、入力I/F106を介して、マイクロホンアレイ120が接続されている。
【0011】
以下、情報処理装置100の各要素、距離画像センサ110、マイクロホンアレイ120について説明する。
【0012】
CPU101は、ROM102等に格納されたプログラム等をRAM103に展開し、読み出すことで、情報処理装置100の各種動作を実現する。ROM102は、情報処理装置100の各種動作させるプログラム、プログラムの実行に必要なデータ等を格納する。RAM103は、ROM102等に格納されたプログラムを展開するワークエリアを提供する。記憶部104は、HDD(ハードディスクドライブ)等であり、各種データを記憶する。入力I/F105は、後述する距離画像センサ110によって生成された距離画像を示すデータを取得する。尚、距離画像とは、所定の三次元の領域内に存在するオブジェクトと、基準となる面との距離を画素値とする画像である。
【0013】
入力I/F106は、後述するマイクロホンアレイ120によって取得された音を示すデータを取得する。距離画像センサ110は、赤外線等の反射によって、所定の三次元の領域内に存在するオブジェクトと、基準となる面(例えば、距離画像センサが測距する方向に対して垂直な面であって、距離画像センサが存在する面)との距離を示す距離画像を生成する。マイクロホンアレイ120は、複数のマイクロホンによって構成され、複数のチャンネルの音を取得する。
【0014】
尚、本実施形態では、距離画像センサ110を用いて距離画像を生成するが、距離画像センサ110に替えて、複数のカメラを用いて距離画像を生成してもよい。この場合、距離画像は、複数のカメラのそれぞれが撮像した画像中に存在するオブジェクトの位置から算出した座標に従って、生成される。
【0015】
図1(b)は、本発明に係る情報処理装置100の機能構成を示す図である。
【0016】
情報処理装置100は、距離画像取得部201、音声取得部202、抽出部203、候補取得部204を有する。また、情報処理装置100は、強調部205、声区間検出部206、選択部207、クラスタリング部208、再抽出部209、抑制部210、キャリブレーション部211を有する。
【0017】
尚、距離画像取得部201は、入力I/F105に相当し、音声取得部202は、入力I/F106に相当する。また、203から211の各部は、CPU101が、ROM102等に格納された所定のプログラム等をRAM103に展開し、読み出すことで実現される。以下、各部について説明する。
【0018】
距離画像取得部201は、距離画像センサ110によって得られた距離画像を取得する。音声取得部202は、マイクロホンアレイ120を構成する複数のマイクロホンの各々を介して得られた複数の音声を取得する。抽出部203は、距離画像取得部201が取得した距離画像から、人の頭部(頭頂部)に相当する画素を抽出する。候補取得部204は、抽出部203が抽出した頭部(頭頂部)を示す画素に基づいて、口唇の空間座標の候補(口唇空間座標候補)を1つ以上取得する。強調部205は、口唇空間座標候補それぞれについて、その空間座標からマイクの設置位置への方向の音声を強調する。
【0019】
声区間検出部206は、音声取得部202が取得した音声から人の声の区間を検出する。選択部207は、口唇空間座標候補それぞれに対して強調部205が強調した1つ以上の音声から、音量に基づいて所望の1つを選択する。クラスタリング部208は、選択部207が選択した強調音声をクラスタリングして強調音声に含む話者数を求める。再抽出部209は、抽出部203が抽出した頭部とその周辺領域からクラスタリング部208が検出した話者の数だけの頭部を再抽出する。抑制部210は、ある頭部(抽出された頭部のうち、注目する頭部)の強調音声に対して、他の頭部(抽出された頭部のうち、注目する頭部以外の頭部)の強調音声の成分を抑制(抑圧)する。キャリブレーション部211は、予め設置されているオブジェクト(本実施形態では、後述するテーブル501とする)の座標を決定する。
【0020】
図2(a)は、距離画像センサ110、マイクロホンアレイ120を設置した様子の一例を示す図である。
【0021】
本図において、距離画像センサ110、マイクロホンアレイ120は、部屋(会議室)の天井面に設置されているものとする。そして、距離画像センサ110は、オブジェクト(例えば、ユーザA、B、テーブル501、会議室の床等)と、基準となる面(例えば、天井面)との距離を示す距離画像を生成する。また、本会議室には、距離画像センサ110、マイクロホンアレイ120の他、テーブル501、プロジェクタ502、503が設置されている。
【0022】
テーブル501は、プロジェクタ502の投影面512としても機能し、画像を表示することが可能である。また、プロジェクタ503は、会議室の壁面(投影面513)に画像を表示することが可能である。
【0023】
尚、情報処理装置100は、距離画像センサ110、マイクロホンアレイ120から前述した所定のデータを取得できればよく、如何なる位置に設置してもよい。図2(b)は、距離画像センサを用いて求める距離を模式的に示す図である。距離画像とは、前述したように、所定の三次元の領域内に存在するオブジェクトと、基準となる面との距離を画素値とする画像である。
【0024】
本実施形態では、距離d1、d2、h3、角α、βとから求めた距離h1、h2に基づいて、各画素の画素値が決定される。尚、角α、βが0°と十分に近い角度である場合、距離d1、d2そのものを距離h1、h2と見なしても良い。
【0025】
図3は、三次元領域内の所定の座標を音源とする音声を強調する処理の流れを表すフローチャートである。
【0026】
まず、ステップS301で、距離画像取得部201は、距離画像を取得する。また、ステップS301において、音声取得部202は、マイクロホンアレイ120を構成する複数のマイクロホンの各々を介して収録された複数の音声を取得する。
【0027】
次に、ステップS302で、抽出部203は、距離画像から人の頭部(頭頂部)を抽出する。尚、ステップS302における処理については、後述する。
【0028】
次に、ステップS303で、候補取得部204は、注目する頭部(頭頂部)の空間座標に基づいて、複数の口唇空間座標候補を得る。
【0029】
一般に、頭頂部から口唇までの高さは、個人差が比較的小さい。そこで、頭頂部の高さから、基準となる面の法線方向であって、頭部や肩が存在している方向に所定距離離間した高さ(例えば、20cm離間した高さ)を口唇の高さとする。
【0030】
尚、高さを固定した平面上(基準となる面と平行な面上)において、口唇の位置は、抽出部203が抽出した頭部(頭頂部)の近傍を中心とする略同心円のいずれかに存在する可能性が高い。しかし、顔の向きを上部に設置された距離画像センサ110等で口唇の位置を特定することは困難である。そのため、口唇空間座標の候補を推測して1つ以上取得する。
【0031】
ステップS304で、強調部205は、口唇空間座標候補それぞれの方向に対して、マイクロホンアレイから得た複数の音声を使ってその方向に指向を向け、音声強調する。
【0032】
マイクロホンアレイの空間座標と一つの口唇空間座標候補から求まる方向に基づいて複数のマイクロホンに到達する音声の遅延時間を計算する。そして、その遅延時間ずらして複数の音声を加算し、平均を取る事によって、他の方向からの音声を低減し、その方向の音声のみを強調する。
【0033】
距離画像により頭部(頭頂部)の高さがわかっている上、頭頂部から口唇までの高さは身長差や発話者が立っている時と座っている時との差に比べて差が少ない。そのため、好適に口唇付近の高さの音声を強調することが可能である。即ち、このステップS304により、口唇空間座標候補一つに対して一つの強調音声を得る。
【0034】
次に、ステップS305で、選択部207は、強調部205が生成した口唇空間座標候補ごとの強調音声のうち、音量の大きいひとつの強調音声を選択する。強調音声はそれぞれ口唇空間座標候補の方向に対する音声が強調されているので、その方向以外の音量は低減されている。従って、近くに別の音源が無い限り、音量の大きい強調音声の方向を正しい口唇空間座標であると推定することが可能となる。強調音声を選択する処理の詳細は後述する。これによって一つの頭部に対して一つの強調音声を取得する。
【0035】
次に、ステップS306で、選択部207は、抽出した全ての頭部に対して強調音声を取得したか確認し、取得していなければステップS303に戻る。一方、全て頭部に対して処理を行っていれば、一連の処理を終了する。
【0036】
以上が本実施形態における音声処理装置の処理の流れである。
【0037】
尚、ステップS303で、候補取得部204は、注目する頭部(頭頂部)の空間座標が床面から150cm以上(天井面を3mとして、天井面からの距離が150cm未満)であった場合、頭頂部から所定の方向に20cm離れた高さを口唇の高さとする。
【0038】
そして、候補取得部204は、注目する頭部(頭頂部)の空間座標が床面から150cm未満(天井面を3mとして、天井面からの距離が150cm未満)であった場合、頭頂部から所定の方向に15cm離れた高さを口唇の高さとしてもよい。
【0039】
このように、頭頂部の高さに応じて、段階的に頭頂部から口唇までの距離を設定することによって、姿勢(前かがみになっている等)に応じた口唇の高さを推定することが可能となる。また、このように、頭頂部の高さに応じて、段階的に頭頂部から口唇までの距離を設定することによって、オブジェクトが大人であった場合と、子供であった場合とで、それぞれ好適な口唇の高さを推定することが可能となる。
【0040】
以下、図4を参照しながら、ステップS302で、抽出部203は、距離画像から人の頭部(頭頂部)に相当する領域を抽出する処理を説明する。
【0041】
図4(a)は、図2(a)に示された会議室の少なくとも一部に相当する三次元空間を、天井面から下方(例えば、鉛直下向き)に当該空間を捉えた場合の距離画像を、等高線を用いて模式的に示す図である。
【0042】
図4(b)は、図2(a)に示された会議室の少なくとも一部に相当する三次元空間を、天井面から下方(例えば、鉛直下向き)に当該空間を見た様子を模式的に示す図である。
【0043】
図4(c)は、図2(a)に示された会議室の少なくとも一部に相当する三次元空間を、側面(壁面)から水平方向に当該空間を見た様子を模式的に示す図である。
【0044】
即ち、天井面を基準となる面とすると、図4(a)に示された距離画像の各ピクセル(x,y)は、天井面から、図4(b)に示された高さまでの距離zに基づく値を画素値とする画像となる。
【0045】
従って、図4(a)の距離画像には、以下に示す人の頭部から肩の形状の特徴を有する領域が現れる。
【0046】
例えば、天井面を基準となる面とした場合、人の頭頂部の位置は、距離が極小となる点として現れる。また、頭部の外周は、距離画像に現れる略同心円のうち、最も外側の略円として現れる。また、人の肩は、最も外側の略円の両脇に隣接する略楕円として現れる。従って、抽出部203は、周知のパターンマッチングの技術を用いて、距離画像中に存在する略円、略楕円等の特徴と、当該特徴を有する領域の画素値に基づいて頭部の空間座標を得る。
【0047】
尚、空間座標は、距離画像そのものと、距離画像センサの設置位置、設置角度、画角などの撮像パラメータとに基づいて算出することができる。本実施形態では、天井面を基準となる面としたが、他の面を基準となる面としてもよい。例えば、所定の高さ(例えば、高さ170cm)の水平面を基準となる面とした場合、所定の高さよりも低い人の頭頂部の位置は、距離が極小となる点として現れ、所定の高さよりも高い人の頭頂部の位置は、距離が極大となる点として現れる。即ち、距離が極値となる画素に対応する三次元領域内の位置は、人の頭部が存在する位置の候補となる。
【0048】
尚、抽出部203は、処理の負荷が軽減することを目的として、パターンマッチング等を行わず、距離が極値となる画素に対応する三次元領域内の位置を頭頂部が存在する位置の候補としてもよい。
【0049】
図5は、距離画像の頭部から口唇空間座標の候補を取得する様子を表す図であり、(a)〜(e)は異なる方法で候補を得ている。
【0050】
図5(a)は、固定の角度づつの方向(同図では45度づつ8方向)を口唇空間座標の候補とする。同図の黒丸が口唇空間座標の候補を表す。この候補いずれかの座標の方向に向けて強調した音声を取得すれば、発話者の音声を他の音から分離した音声を取得できる。
【0051】
図5(b)は、頭部に接する肩の方向と直行する方向で頭部の外周に接する位置を口唇空間座標の候補とする。
【0052】
図5(a)の固定角度に対して図5(b)では、発話者の顔方向が体の方向と一致するという仮定の下に、肩の位置に基づいて口唇空間座標の候補を詳細に求めることができる。
【0053】
図5(c)は、抽出部203が抽出した他の頭部の空間座標から決定する方向から口唇空間座標の候補を取得する。発話者が他の人の方向を向いているという仮定の下に、図5(a)の固定角度よりも口唇空間座標の候補を詳細に求めることができる。
【0054】
図5(d)は、テーブル、プロジェクタ投影面(壁面)など、予め設定した所定のオブジェクトの位置への方向から口唇空間座標の候補を取得する。
【0055】
テーブル、プロジェクタ投影面(壁面)など参加者の注目があつまるオブジェクトの位置は、距離画像センサ110の設置時あるいは会議開始時に任意の方法で設定する。また、テーブルについては、距離画像を用いて位置を設定しても良い。
【0056】
図6は、距離画像からテーブルを認識してテーブル位置を設定するフローチャートである。
【0057】
まずステップS1301で、キャリブレーション部211は、距離画像から高さが所定範囲(例えば60cm〜80cmなど)に存在するオブジェクトを抽出する。
【0058】
次にステップS1302において、キャリブレーション部211は、抽出したオブジェクトの中からオブジェクトのサイズ・形状に基づいてテーブルを認識する。テーブル形状は方形、楕円形など予め設定されている。設定されたサイズ・形状とマッチするオブジェクトのみをテーブルとして認識し、抽出する。
【0059】
そしてステップS1303において、キャリブレーション部211は、認識したテーブルの重心位置を算出する。
【0060】
ステップS1304において、キャリブレーション部211は、この重心位置をテーブル位置として設定する。このように手動、自動いずれかの方法で設定されたオブジェクトの位置と頭部位置から求まる方向から、候補取得部204は、口唇空間座標候補を取得する。また、発話者がテーブル方向やプロジェクタ投影面の方向を向いているという仮定の下に、図5(a)の固定角度よりも口唇空間座標の候補を詳細に求めることができる。
【0061】
図5(e)は、予め設定した会議の中心位置の方向に対し所定の角度範囲の方向を候補とする方法である。
【0062】
例えば図5(e)では、図5(a)の固定角度の候補の中から、会議中心位置の方向に対して−60度〜+60度の範囲に含む候補を口唇位置候補として設定する。会議の中心位置は、図5(d)と同様に、予め手動で設定してもよいし、図6のフローによりテーブルの重心位置を会議の中心位置として自動で設定しても良い。
【0063】
図5(a)と比較して、会議の中心方向に基づいて口唇空間座標の候補を絞ることができる。これら(a)〜(e)のどの方法でも良いし、複数の方法を組み合わせても良い。複数の方法を組み合わせることで、様々な情報を使った様々な口唇空間座標候補から、後述する選択部207の処理において一つの好適な強調音声を選択することができる。
【0064】
より多くの候補があれば好適な強調音声を選択できる可能性は高まる一方、候補数が少なければ強調音声を生成するなどの計算量を削減できるため、設置する環境等に応じて好適な組み合わせを用いる。
【0065】
次に、ステップS305で行う強調音声の選択処理について、さらに詳細に説明する。
【0066】
図7は、ステップS305をさらに詳細化したフローチャートである。
【0067】
まず、ステップS401において、選択部207は、口唇空間座標候補に対応する強調音声を1つ選択する。
【0068】
次に、ステップS402において、声区間検出部206は、選択した音声から人の声の区間を検出する。尚、声区間検出は、強調音声に対して行っても良いし、音声取得部202が取得した強調音声生成前の音声に対して行っても良い。声区間検出は、音量、零交差数、周波数特性など、様々な音響的特徴によって検出する方法が提案されており、どの検出方法を用いてもよい。
【0069】
次に、ステップS403において、選択部207は、声区間における強調音声の音量を計算する。
【0070】
そしてステップS404において、音量が最大音量よりも大きければ、ステップS405において、選択部207が、最大音量を更新する。
【0071】
以上の処理をステップS406でループさせて全ての口唇空間座標候補に対応する強調音声に対して実行し、ステップS407において、選択部207は、声区間の音量が最大となる強調音声を選択する。なおここで、選択部207は、声区間検出部206が声区間を検出することで声区間のみの音量を使い、発話者の発声である強調音声を精度良く選択できる。しかし声区間検出部206は本発明に必須なものではない。ステップS402で声の区間を求める事をせず、強調音声全体から音量を算出してそれが最大となる強調音声を選択しても本発明は適用される。また、連続する時間で選択した強調音声に対応する口唇空間座標が大きくずれている場合には、音量が最大でなくとも、音量が所定の値(最大値からの差が固定値以内など)よりも大きく、連続する時間で口唇空間座標の変化が小さい強調音声を選択しても良い。これによって口唇空間座標の時間変化をスムージングできる。
【0072】
以上の処理によって、選択部207は、複数の口唇空間座標候補に対応する強調音声から一つの強調音声を選択する。
【0073】
以上に説明した通り、図3、図7に述べた処理フローによって、距離画像から取得した頭部と音声の音響的特徴に基づいて精度良く口唇の空間座標を求め、人物一人一人に対応する強調音声を取得することができる。
【0074】
次に、強調音声に含む話者の音響的特徴に基づいて、頭部抽出の精度を上げるようフィードバックする処理について説明する。
【0075】
複数の人が近接する場合、抽出部203が複数の頭部を抽出できない場合がある。
【0076】
図8(a)は、抽出部203が、近接する二人の人から一つの頭部しか抽出できなかった場合の図である。抽出した頭部に基づいて一つだけの強調音声とそれに対応する口唇空間座標(図中の黒丸)が決定する。
【0077】
しかし、本来は二人の人物が存在するため、それぞれの頭部を抽出し、口唇空間座標を推定し、音声を強調して、頭部それぞれに別の強調音声を対応付けることが好ましい。
【0078】
このような場合、強調音声に何人の発話者が含まれるかによって、人数を特定し、頭部の抽出にフィードバックすることが可能となる。この場合のフローチャートを図9に示す。
【0079】
図9において、ステップS301〜S305は、図3の強調音声を選択する処理に相当する処理であるため、同符号を付し、その説明を省略する。
【0080】
次に、ステップS901で、選択部207が選択した強調音声に対して、クラスタリング部208がクラスタリングし、強調音声に含む声の話者数を取得する。
【0081】
話者クラスタリングは次のような手法がある。スペクトルやMFCC(Mel−Frequency Cepstrum Coefficient)などの音声特徴量を音声から各フレーム算出して所定時間ごとに平均する。そしてこれをベクトル量子化などの手法でクラスタリングする。このクラスタ数によって話者数を推定する。
【0082】
そして、ステップS902で、話者の数が一人である場合にはそのまま頭部に対する強調音声を確定し、ステップS306へ進む。話者の数が複数ある場合には、ステップS903へ進む。
【0083】
ステップS903では、再抽出部209が、距離画像における頭部周辺の領域から話者数分の頭部を推定し再抽出する。人が近接している場合、特に高さが大きく異なる場合(一方が座り、他方が立っている場合など)、頭部が正しく検出できない場合がある。
【0084】
図8(a)は、抽出部203が、近接する二人の人から一つの頭部しか抽出できなかった場合の図である。抽出した頭部に基づいて一つの強調音声とそれに対応する口唇空間座標(図中の黒丸)が決定する。ここで、決定した強調音声に対してクラスタリング部208が話者クラスタリングを行い、話者数を得る。例えばここで話者数が2である場合、再抽出部209が、ステップS903で現在の頭部の周辺領域から分の頭部を探索する。
【0085】
抽出部203が頭部および肩からなる距離画像形状に基づいて頭部を抽出したのに対し、再抽出部209はマッチングの閾値を下げるか、あるいは単純に高さの極大点を使うなどの方法で、話者数分の頭部を決定して抽出する。
【0086】
図8(b)は、話者数に応じて再抽出部209が再抽出した二つの頭部を示す。
【0087】
再抽出した頭部それぞれに対し、ステップS904〜ステップS906の処理を行う。
【0088】
ステップS904〜ステップS906はステップS303〜S305と同じ処理を、再抽出した頭部それぞれについて行う。再抽出した頭部それぞれに対して口唇空間座標の候補を求め、強調音声を生成し、音量に基づいて強調音声を選択する。
【0089】
ステップS306は図3と同様に、抽出した全ての頭部に対して強調音声を取得したか確認する。図8(b)中の二つの黒丸は、頭部それぞれに対して決定した口唇空間座標であり、それぞれの方向に指向を向けた強調音声を頭部ごとに対応付ける。
【0090】
以上のようにして、強調音声から得られる話者数に基づいて頭部を再抽出し、再抽出した頭部に対して再度強調音声を求めることで、頭部が近接している場合でも精度良く話者ごとの音声を取得できる。尚、図9の処理フローにおいては図1(b)の機能構成図においてクラスタリング部208と再抽出部209は必須であるのに対し、図3の処理フローの場合はこれらの機能は図2の機能構成に必須ではない。
【0091】
また、本発明はさらに、複数の頭部を抽出してそれぞれの頭部の音声を強調する際に、他の頭部から求めた強調音声に基づいて、他の頭部の口唇空間座標から到来する音声を減じる処理を加えることができる。
【0092】
これによって、例えばある人が無言なのに対して他の人が話している場合に、ステップS304の音声強調で除去しきれない他の人の音声を除去できる。この場合のフローチャートを図10に示す。同図において、ステップS301〜ステップS306、ステップS901〜ステップS906は、図3、図9と同様であるため、同符号を付し、その説明省略する。
【0093】
尚、ステップS306において全ての頭部に対して強調音声を選択すると、ステップS1001において、抑制部210が、頭部それぞれの強調音声に対して、他の頭部の音声成分を抑制(抑圧)する。抑制(抑圧)方法の一つとしては、例えば、強調音声から他の頭部の強調音声を減算する。ある頭部の強調音声のスペクトルをS、他の頭部の強調音声のスペクトルをN(i)とすると、以下の式で他の頭部の音声成分を抑制(抑圧)できる。
S−Σ{a(i)×N(i)}
(iは他の頭部のインデックス。a(i)は所定の係数であり、固定でも良いし例えば頭部の距離によって変えても良い。)なおここで、ステップS1001で抑制部210が行うのではなく、強調部205がステップS304で音声強調する際に他の頭部の強調音声を使って抑制(抑圧)しても構わない。ステップS304ではそれぞれの頭部の口唇空間座標および強調音声は決定していない。
【0094】
そこで、抑制(抑圧)する音声成分は、頭部の空間座標や前の時間に算出した口唇空間座標からおおよその音源位置を決定し、その方向の音声を強調して他の頭部の音声を生成し、強調音声から注目する頭部以外の頭部を音源とする音声を減算して抑制(抑圧)する。
【0095】
他の頭部の音声を抑制(抑圧)する別の方法は、強調音声同士の相関を取り、相関が高い場合はいずれかの頭部の音声が入ってしまっているとして音量の小さいほうを無音にする。
【0096】
この場合のフローチャートを図11に示す。まずステップS1101で、二つの頭部の強調音声を取得する。
【0097】
次にステップS1102で、二つの強調音声の相関を取る。
【0098】
ステップS1103で、相関が低い場合にはステップS1105へ進み、抑制(抑圧)は行わない。相関が高い場合にはステップS1104に進む。
【0099】
ステップS1104では二つの強調音声の音量を比較し、音量の小さいほうは音量の大きいほうの音声が入り込んでいると判定して無音にする。
【0100】
以上の操作を、ステップS1105でループし、全ての頭部の組み合わせについて実施する。これにより、他の人の音が入り込んでしまっている音を除去することが可能である。以上に述べた二つの抑制(抑圧)方法のいずれかを処理を加えることにより、例えばある人が無言なのに対して他の人が話している等の場合に、ステップS304の音声強調で除去しきれない他の人の音声を除去できる。
【0101】
尚、図10のフローの場合、ステップS1001を行う抑制部210は、図1(b)の機能構成において必要であるのに対し、図3、図9の処理フローの場合、抑制部210は図1(b)の機能構成に必須ではない。
【0102】
(第2の実施形態)
本発明は、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに図3、図7の処理を実行することによって、その時間間隔ごとに適切な口唇空間座標の強調音声を頭部(参加者)ごとに取得可能である。抽出部203が抽出する頭部を連続する時間で追尾することにより、時間間隔ごとに取得した音声を繋げて参加者に対応づけることが可能である。
【0103】
図12は、所定の時間間隔ごとに頭部を追尾し、強調音声をつなげて記録する処理を示すフローチャートである。
【0104】
同図において、まずステップS1201では、図3のフローチャートの処理により頭部毎に強調音声を選択する。
【0105】
次に、ステップS1202で、抽出部203が現時刻で抽出した頭部と、前時刻で抽出した頭部とを、空間座標の近さに基づいて対応付けし、頭部を連続時間で追尾する。
【0106】
そしてステップS1203で、対応付けした頭部に基づいて強調音声を接続して頭部ごとに累積する。
【0107】
いま、頭部hに対する時刻tの時の口唇空間座標をx(h,t)とし、時刻tでの所定の時間間隔の強調音声信号をS(x(h,t))とする。
【0108】
すると、追尾する頭部ごとに累積される音声Sacc(h,t)は、S(x(h,1)),S(x(h,2))...,S(x(h,t))が接続した音声となる。これをステップS1204で音声を記録している間、ループさせる。
【0109】
以上の処理により、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに適切な口唇空間座標の強調音声を求め、頭部(参加者)ごとに追尾して強調した音声を取得することができる。
【0110】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【特許請求の範囲】
【請求項1】
三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、
前記距離画像に基づいて、前記距離が極値となる前記領域内の第1の位置を特定する第1の特定手段と、
前記第1の位置から、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定する第2の特定手段と、
前記第2の位置に基づいて、音源の位置を決定する決定手段とを有する情報処理装置。
【請求項2】
前記第2の特定手段は、前記第1の位置から、前記基準となる面の法線方向であって、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定し、
前記決定手段は、前記第2の位置を含む面であり、かつ前記基準となる面と平行な面を、音源の位置が存在する面であると決定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
更に、前記第2の位置を含む面であって、前記基準となる面と平行な面上に存在する複数の点であって、前記第2の位置から所定距離離れた複数の点の位置を、前記音源が存在する位置の候補として設定する設定手段を有することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
音源の位置を推定する情報処理装置の動作方法であって、
三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得工程と、
前記距離画像に基づいて、前記距離が極値となる前記領域内の第1の位置を特定する第1の特定工程と、
前記第1の位置から、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定する第2の特定工程と、
前記第2の位置に基づいて、音源の位置を決定する決定工程とを有する動作方法。
【請求項5】
請求項4に記載の動作方法をコンピュータに実行させるためのプログラム。
【請求項1】
三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、
前記距離画像に基づいて、前記距離が極値となる前記領域内の第1の位置を特定する第1の特定手段と、
前記第1の位置から、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定する第2の特定手段と、
前記第2の位置に基づいて、音源の位置を決定する決定手段とを有する情報処理装置。
【請求項2】
前記第2の特定手段は、前記第1の位置から、前記基準となる面の法線方向であって、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定し、
前記決定手段は、前記第2の位置を含む面であり、かつ前記基準となる面と平行な面を、音源の位置が存在する面であると決定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
更に、前記第2の位置を含む面であって、前記基準となる面と平行な面上に存在する複数の点であって、前記第2の位置から所定距離離れた複数の点の位置を、前記音源が存在する位置の候補として設定する設定手段を有することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
音源の位置を推定する情報処理装置の動作方法であって、
三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得工程と、
前記距離画像に基づいて、前記距離が極値となる前記領域内の第1の位置を特定する第1の特定工程と、
前記第1の位置から、前記オブジェクトが存在している方向に所定距離離れた第2の位置を特定する第2の特定工程と、
前記第2の位置に基づいて、音源の位置を決定する決定工程とを有する動作方法。
【請求項5】
請求項4に記載の動作方法をコンピュータに実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2012−14281(P2012−14281A)
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願番号】特願2010−148205(P2010−148205)
【出願日】平成22年6月29日(2010.6.29)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願日】平成22年6月29日(2010.6.29)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]