説明

入力された発話の関連性を判定するための装置および方法

【課題】オーディオまたはビジュアルの向きを用いて入力された発話の関連性を判定する。
【解決手段】ある時間間隔における発話中のユーザの顔の存在を特定する。時間間隔の間のユーザの顔に関連づけられた顔の向きの特徴を取得する。ある場合には、入力された音に対する向きの特徴を判定する。顔の向きの特徴にもとづいて時間間隔の間のユーザの発話の関連性を特徴付ける。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施の形態は、音声認識特性を含むコンピュータプログラムに入力される発話の関連性の判定に関する。
【背景技術】
【0002】
多くのユーザが制御するプログラムは、ユーザとプログラム間の相互作用を容易にするためにある種の音声認識を使う。ある種の音声認識を実装するプログラムの例には、GPSシステム、スマートホンアプリケーション、コンピュータプログラム、およびビデオゲームが含まれる。しばしば、このような音声認識システムは、発話の関連性とは無関係に、プログラムの動作中にキャプチャされたすべての発話を処理する。たとえば、音声認識を実装するGPSシステムは、話者によってなされた特定のコマンドを認識するとき、ある種のタスクを実行するように構成される。しかしながら、与えられたボイス入力(すなわち発話)がコマンドを構成するものであるかどうかを決定するには、話者によってなされたすべてのボイス入力をシステムが処理することが要求される。
【0003】
あらゆるボイス入力を処理することは、システムリソースに重い負荷を与え、全体的に効率が低下し、他の機能のために利用可能なハードウェアリソースの提供が制限されることになる。さらに、無関係のボイス入力の処理から回復することは、音声認識システムにとって難しく、しかも時間がかかる。同様に、関係のあるボイス入力に加えて、多くの無関係のボイス入力を処理しなければならないために、音声認識システムに混乱が生じて、不正確さが増大することになる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
与えられた音声認識システムの動作中に処理する必要のあるトータルのボイス入力を減らすためのある先行技術の方法は、プッシュ・トゥ・トーク(push-to-talk)を実装することである。プッシュ・トゥ・トークは、音声認識システムがボイス入力をキャプチャして処理する時点をユーザが制御できるようにする。たとえば、音声認識システムは、ボイス入力を取得するためにマイクロホンを実装してもよい。ユーザはマイクロホンの機能のオン/オフを制御する(たとえば、ユーザはシステムにコマンドを話すことを示すためにボタンを押す)。これは、音声認識システムによって処理される無関係のボイス入力の量を制限するように機能するが、システムのさらに別の面を制御しなければならないという負担をユーザに強いる。
【0005】
本発明の実施の形態はこのような文脈の中で生じた。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明のある態様のスクロール制御装置は、発話の関連性を判定するための装置であって、プロセッサと、メモリと、前記メモリに具体化され、前記プロセッサにより実行可能なコンピュータのコード化されたインストラクションとを含み、前記コンピュータのコード化されたインストラクションは、ユーザの発話の関連性を判定する方法を実装するように構成され、当該方法は、a)ある時間間隔における発話中のユーザの顔の存在を特定するステップと、b)前記時間間隔の間のユーザの顔に関連づけられた1以上の顔の向きの特徴を取得するステップと、c)ステップb)で取得された1以上の顔の向きの特徴にもとづいて前記時間間隔の間の発話の関連性を特徴付けるステップとを含む。
【図面の簡単な説明】
【0007】
【図1A】本発明のある実施の形態にしたがってユーザの発話の関連性を判定するための方法を示すフローダイアグラム/概略図である。
【図1B】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図1C】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図1D】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図1E】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図1F】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図1G】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図1H】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図1I】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図2A】本発明の実施の形態にしたがって顔の特徴の追跡セットアップを説明する概略図である。
【図2B】本発明の実施の形態にしたがって顔の特徴の追跡セットアップを説明する概略図である。
【図2C】本発明の実施の形態にしたがって顔の特徴の追跡セットアップを説明する概略図である。
【図2D】本発明の実施の形態にしたがって顔の特徴の追跡セットアップを説明する概略図である。
【図2E】本発明のある実施の形態にしたがって顔の向きの追跡を利用することのできる携帯デバイスを説明する概略図である。
【図3】本発明のある実施の形態にしたがってユーザの発話の関連性を判定するための装置を説明するブロック図である。
【図4】本発明のある実施の形態にしたがってユーザの発話の関連性を判定するための装置のセルプロセッサ実装の例を説明するブロック図である。
【図5】本発明のある実施の形態にしたがって入力された発話の関連性の判定を実装するためのインストラクションをもつ一過性でないコンピュータ読み取り可能なストレージ媒体の例を説明する。
【発明を実施するための形態】
【0008】
ユーザの発話が与えられたプログラムに対する制御入力として作用するとき、発話の関連性を判定する必要性が生じる。たとえば、これは、ユーザが人気のある歌の歌詞とメロディを再現しようとするカラオケタイプのビデオゲームの文脈で起きる。プログラム(ゲーム)は、通常は、ユーザの意図に関わらず、ユーザの口から発するすべての発話を処理する。そのため、制御入力として使うことを意図した発話と制御入力として使うことを意図していない発話の両方が同じ方法で処理される。これは、無関係の発話が破棄されずに処理されるために計算の複雑さとシステムの効率の悪さが一層大きくなることにつながる。これはまた、ノイズのあるボイス入力(すなわち無関係の発話)が導入されることでプログラム性能の正確さが減少することにもつながる。
【0009】
本発明の実施の形態では、発話のキャプチャリングに対するユーザの意図的あるいは意識的制御に頼ることなく、与えられたボイス入力の関連性を判定してもよい。ユーザのボイス入力の関連性は、発話中に話者によって無意識に与えられる検出可能な手がかりにもとづいて特徴づけられてもよい。たとえば、発話中の話者の発話の方向や話者の視界の方向はともに、話者のボイスのターゲットが誰または何であるかに関する隠すことのできない兆候を与える。
【0010】
図1は、本発明のある実施の形態にしたがってユーザのボイス入力(すなわち発話)の関連性を判定するための方法を示す概略図/フローダイアグラムである。ユーザ101は、コントロール入力として自分の発話103を用いることによってプロセッサ113上で動作するプログラム112に入力を与えてもよい。発話およびボイス入力という用語は、ここでは任意の状況におけるユーザの聴覚出力を記述するために区別しないで用いられる。プロセッサ113は、ユーザ101とのコミュニケーションを容易にするために、ビジュアルディスプレイ109、デジタルカメラのようなイメージキャプチャデバイス107、およびマイクロホン105に接続されてもよい。ビジュアルディスプレイ109は、プロセッサ113上で動作するプログラムに関連づけられたコンテンツを表示するように構成されてもよい。カメラ107は、発話中にユーザ101と関連づけられた顔の向きの特徴を追跡するように構成されてもよい。同様に、マイクロホン105は、ユーザの発話103を取得するように構成される。
【0011】
本発明の実施の形態では、ユーザ101がプログラムの動作中に発話103に関与するときはいつでも、プロセッサ113はその発話/ボイス入力の関連性を判定しようとする。一例であり、これに限られないが、プロセッサ113は最初に、ステップ115に示すように、プログラムに関連づけられたアクティブエリア111内でユーザの顔の存在を特定するためにカメラ107からの1以上の画像を解析する。これは、たとえば、カメラ107の視野108内のユーザ101の位置を追跡し、ある時間間隔で視野内のユーザの顔を特定するために好適に構成された画像分析ソフトウェアを用いて実行される。あるいは、マイクロホン105は、2以上の空間的に別々に離れたマイクロホンをもつマイクロホンアレイを含む。そのような場合、プロセッサ113は、たとえば、ユーザのボイスのような音源の場所を特定する能力のあるソフトウェアでプログラムされる。そのようなソフトウェアは、マイクロホンアレイに対する音源の方向を判定するために、ビームフォーミング、到着時間遅延推定、到着周波数差推定などの到着方向(direction of arrival(DOA))推定技術を用いる。カメラ107の視野108にほぼ対応するマイクロホンアレイの聴取ゾーンを確立するためにそのような方法を用いてもよい。プロセッサが聴取ゾーンの外から発せられる音をフィルタリングして取り除くように構成することができる。そのような方法の例は、同一出願人の米国特許第7,783,061号、同一出願人の米国特許第7,809,145号および同一出願人の米国特許出願公報第2006/0239471号に記載されており、これら3文献の全内容を参照によりここに取り込む。
【0012】
一例であり、これに限られないが、発話103が視野108の外側の場所から発せられているならば、ユーザの顔は存在せず、発話103は自動的に関連性がないものとして特徴づけられ、処理の前に破棄されてもよい。しかしながら、発話103がアクティブエリア111内(たとえば、カメラ107の視野108内)の場所から発せられているなら、プロセッサ113は、ユーザの発話の関連性を判定するに当たって、次のステップに続く。
【0013】
いったんユーザの顔の存在が特定されると、ステップ117で示すように、発話中のユーザの顔に関連づけられた1以上の顔の向きの特徴がその時間間隔の間に取得される。ここでも、好適に構成された画像解析ソフトウェアを用いて、顔の向きの特徴を判定するためにユーザの顔の1以上の画像を分析してもよい。一例であり、限定しないが、これらの顔の向きの特徴の一つはユーザの頭部チルト角であってもよい。ユーザの頭部チルト角とは、発話中のユーザの顔と特定のターゲット(たとえばビジュアルディスプレイ、カメラなど)に正確に向けられる顔の間の角度の変位のことである。ユーザの頭部チルト角は、垂直方向の角度の変位、水平方向の角度の変位、あるいは両者の組み合わせであってもよい。ユーザの頭部チルト角は、発話中のユーザの意図に関する情報を提供する。多くの状況で、ユーザは話すときに自分のターゲットの方を直接向く。そのため、ユーザが話しているときの頭部チルト角は、発話のターゲットが誰/何であるかを判定するのに役立つ。
【0014】
頭部チルト角に加えて、ユーザの発話に関連づけられる別の顔の向きの特徴はユーザの注視方向である。ユーザの注視方向とは、発話中にユーザの目が向いている方向のことである。ユーザの注視方向はまた、発話中のユーザの意図に関する情報を提供する。多くの状況で、ユーザは、話すとき自分のターゲットにアイコンタクトする。そのため、発話中のユーザの注視方向は、発話のターゲットが誰/何であるかを判定するのに役立つ。
【0015】
これらの顔の向きの特徴をプロセッサに接続された1以上のカメラとマイクロホンで追跡してもよい。顔の向きの特徴追跡システムの例のより詳しい説明は以下に記載する。システムがユーザの顔の向きの特徴を取得するのを助けるために、ユーザがプログラムのコンテンツにアクセスする前に自分の顔のプロファイルを登録することをプログラムは最初にユーザに要求する。これにより、プロセッサには、将来の顔の向きの特徴を比較するための基準となる顔のプロファイルが提供され、それによって最終的により正確な顔の追跡プロセスを実行できるようになる。
【0016】
ユーザの発話に関連づけられた顔の向きの特徴を取得した後、ステップ119で示すようにこれらの顔の向きの特徴にしたがってユーザの発話の関連性を特徴づけてもよい。一例として、これに限られないが、取得された1以上の顔の向きの特徴が許容範囲外に出る場合、ユーザの発話を関連性のないものとして特徴づけてもよい。たとえば、プログラムは、最大許容頭部チルト角45°を設定し、頭部チルト角45°を超えてなされた発話を関連性のないものとして特徴づけ、処理前に破棄する。同様にプログラムはユーザの注視方向に対して特定のターゲットからの最大逸脱角10°を設定し、逸脱注視方向10°を超えてなされた発話を関連性のないものとして特徴づけ、処理前に破棄する。顔の向きの特徴の組み合わせにもとづいて関連性を特徴づけてもよい。たとえば、頭部チルト角が許容範囲外であるが、注視方向が最大逸脱角度内にあるユーザによってなされた発話は関連性があると特徴づけられ、頭部がターゲットをまっすぐ見ているが、注視方向が最大逸脱角度外にあるユーザによってなされた発話は関連性がないものとして特徴づけられてもよい。
【0017】
顔の特徴に加えて、本発明のある実施の形態はまた、ステップ119において発話の関連性を判定する際、発話源の方向を考慮に入れてもよい。具体的には、マイクロホンアレイをビームフォーミングソフトウェアとともに用いて、マイクロホンアレイに関する発話源103の方向を判定してもよい。ビームフォーミングソフトウェアをマイクロホンアレイおよび/またはカメラとともに用いて、マイクロホンアレイに関するユーザの方向を判定してもよい。二つの方向が大きく異なるなら、プロセッサ上で動作するソフトウェアは発話103に比較的低い関連度を割り当ててもよい。そのような実施の形態は、ユーザ101のような関連性のあるソース以外のソースから発する音をフィルタリングして取り除くために有益である。ここで述べる実施の形態はまた、カメラによってキャプチャされたシーンにおいて複数の発話ソースがある場合にも動作する。したがって、本発明の実施の形態は、カメラ107によってキャプチャされた画像においてユーザが唯一の発話ソースである実装に限定されるものではない。具体的には、ステップ119で発話の関連性を判定するステップには、イメージキャプチャデバイス107によってキャプチャされる画像内の複数の発話ソースを区別するステップが含まれてもよい。
【0018】
さらに、ここに述べた実施の形態は、マイクロホンアレイによって複数の発話源がキャプチャされる(たとえば、複数人が話をしているときなど)がただ一つの発話源(たとえば関連性のあるユーザ)がカメラ107の視野内に位置する場合にも動作する。その後、視野内でユーザの発話を関連性のあるものとして検出することができる。マイクロホンアレイを用いて、視野内でカメラによって位置が特定された音源から来る音だけを誘導して抽出することができる。プロセッサ113は、マイクロホンアレイへの入力から関連性のある発話を抽出するために関連性のあるユーザの位置の先験的情報を用いたソース分離アルゴリズムを実装することができる。別の観点から言えば、視野の外のソースから来る発話は関連性のないものとみなして無視されると言うことができる。
【0019】
各アプリケーション/プラットフォームは、抽出された視覚的特徴(たとえば頭部チルト、視線など)と音響的特徴(たとえば音の到着方向などの局所情報など)にもとづいて発話の関連性を判定することができる。たとえば、あるアプリケーション/プラットフォーム(すなわち図2Eに示すような携帯電話、タブレットPC、携帯ゲーム機のようなハンドヘルドデバイス)はターゲットからの許容されるずれに関してより厳密であるが、他のアプリケーション/プラットフォーム(すなわち図2Aに示すようなテレビディスプレイをもつリビングルームセットアップ)は厳密ではない。これに加えて、よりよい決定をするために、決定木、ニューラルネットワークなどの機械学習アルゴリズムを用いてこれらのオーディオ−ビジュアルの特徴と発話の関連性の間のマッピングを学習するために、対象物から収集されるデータを用いることができる。あるいは、関連/非関連のバイナリの決定をする代わりに、抽出されたオーディオ−ビジュアルの特徴にもとづいて推定された確からしさのスコア(すなわち[0,1]の間の数値で0は非関連、1は関連)を、入力された発話フレームを重み付けするために音声認識エンジンに送ることができるようなシステムでは軟判定を用いることもできる。たとえば、ユーザの頭部チルト角が増加するにつれて、ユーザの発話の関連性は低くなる。同様に、ユーザの注視方向が特定のターゲットから逸脱するにつれて、ユーザの発話の関連性は低くなる。このように、ユーザの発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定することができる。
【0020】
音声認識処理に先だって検出されたユーザの発話の関連性に重み付けすることによって、システムは、音声認識の全体的な正確性を向上させるとともにかなりのハードウェアリソースを節約することができる。関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らせる。
【0021】
図1B〜1Iは、検出された発話の関連性を判定するために顔の向きと注視方向を用いる例を示す。図1Bに示すように、ユーザ101の顔120が画像122に現れている。画像分析ソフトウェアは顔120上の参照ポイントを特定してもよい。ソフトウェアは、たとえば、口の隅124、鼻梁124、髪の毛の部分124、および眉毛の上部124にあるこれらの参照点を、顔120に対して実質的に固定されているものとして特徴づけてもよい。ソフトウェアはまたユーザの両目の瞳126および隅128を参照点として特定し、両目の隅に対する瞳の相対位置を判定してもよい。ある実装では、ユーザの目の中心は、瞳と目の隅の位置から推定することができる。その後、目の中心を推定して、瞳の位置を推定された目の中心と比較することができる。ある実装では、顔の対称性の特性を用いることができる。
【0022】
ソフトウェアは、参照点と瞳126の相対位置の分析から、たとえば、頭部チルト角度および視線角度のようなユーザの顔の特徴を判定することができる。たとえば、ソフトウェアは、ユーザにカメラを真っ直ぐ見させることによって参照点124、124、124、124、128を初期化し、参照点と瞳126の位置を初期値として登録してもよい。次にソフトウェアは、これらの初期値に対して頭部チルト角と視線角をゼロに初期化することができる。その後、ユーザがカメラを真っ直ぐに見る度に、図1Bおよび図1Cに示す対応する上面図のように、参照点124、124、124、124、128および瞳126は初期値またはそれに近い値になるべきである。ソフトウェアは、頭部チルト角および視線角が初期値に近づくとき、ユーザの発話に高い関連度を割り当ててもよい。
【0023】
一例であり限定するものではないが、両目のそれぞれの外側の隅128、口の外側の隅124、鼻の先端(図示しない)の5つの参照点を用いてユーザの頭部の姿勢を推定してもよい。目の中点(たとえば両目の外側の隅128の中間)と口の中点(たとえば口の両側の隅124の中間)を線でつなぐことによって、顔の対称軸を見つけることができる。鼻の3次元角度から弱い遠近法の幾何学のもとで顔の方向を判定することができる。あるいは同じ5つの点を用いて、平面スキュー(歪み)対称性および鼻の位置の粗い推定から見つけることができる平面への放線から頭部姿勢を判定することができる。頭部姿勢の推定のさらなる詳細は、たとえば、"Head Pose Estimation in Computer Vision: A Survey" by Erik Murphy, in IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, Vol. 31, No. 4, April 2009, pp 607-626に記載されており、その内容を参照によりここに組み込む。本発明の実施の形態と関連づけて用いることのできる頭部姿勢推定の他の例は、"Facial feature extraction and pose determination", by Athanasios Nikolaidis Pattern Recognition, Vol. 33 (July 7, 2000) pp. 1783-1791に記載されており、その内容を参照によりここに組み込む。本発明の実施の形態と関連づけて用いることのできる頭部姿勢推定のさらなる例は、"An Algorithm for Real-time Stereo Vision Implementation of Head Pose and Gaze Direction Measurement", by Yoshio Matsumoto and Alexander Zelinsky in FG '00 Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition, 2000, pp 499-505に記載されており、その内容を参照によりここに組み込む。本発明の実施の形態と関連づけて用いることのできる頭部姿勢推定のさらなる例は、"3D Face Pose Estimation from a Monocular Camera" by Qiang Ji and Ruong Hu in Image and Vision Computing, Vol. 20, Issue 7, 20 February, 2002, pp 499-511に記載されており、その内容を参照によりここに組み込む。
【0024】
ユーザが頭部を傾けたとき、画像122における参照点間の相対距離がチルト角に依存して変化する。たとえば、ユーザが頭部を垂直軸Zに関して右または左に旋回させるなら、図1Dに図示した画像122に示すように、両目の隅128間の水平距離Xが減少する。他の参照点もまた、利用される特定の頭部姿勢推測アルゴリズムに依存して、同様に作用し、またはより簡単に検出することができる。距離における変化量を、図1Eの対応する上面図に示されたピボット角θと相互に関連づけることができる。この旋回が純粋にZ軸に関するものであるならば、鼻梁における三種点124と口の角の参照点124間の垂直距離Yは、大して変化しないことが期待される。しかしながら、ユーザが頭部を上方または下方に傾けたなら、この距離yが変化することが合理的に期待される。さらに、注視方向の推定のために両目の隅128に対する瞳の相対位置を判定する際、ソフトウェアが頭部ピボット角θを考慮に入れてもよいことに留意する。あるいは、頭部ピボット角θを判定する際、ソフトウェアが両目の隅128に対する瞳の相対位置を考慮に入れてもよい。そのような実装は、たとえば、ハンドヘルドデバイス上に赤外光源をもたせることで視線予測がより簡単になる7ならば、瞳の位置を比較的容易に特定できるという利点がある。ある例では、図1Dと図1Eに示すように、ユーザの視線角θは、ユーザの頭部チルト角に多かれ少なかれ合わせられる。しかしながら、ユーザの頭部の旋回および眼球の3次元形状の性質のゆえに、瞳の位置は、初期画像122における位置に比べて画像122においてわずかながらずれるであろう。ソフトウェアは、頭部チルト角θおよび視線角θがある好適な範囲、たとえばユーザがカメラに対面している初期値に近い範囲、またはユーザ101がマイクロホン105の方を向いているある好適な範囲内にあるかどうかにもとづいてユーザの発話に関連性を割り当ててもよい。
【0025】
ある状況では、ユーザ101はカメラの方を向いているが、ユーザの視線は、たとえば図1Fおよび図1Gの対応する上面図に示すように他の場所に向けられている。この例では、ユーザの頭のチルト角θはゼロであるが視線角θはゼロではない。代わりに、ユーザの眼球は図1Gに示すように反時計回りに回転している。その結果、参照点124、124、124、124、128は図1Bに示すように配置されるが、瞳126は画像122において左にずれる。ユーザ101から発せられる発話を解釈するか無視するかを決める際、プログラム112はユーザの顔のこの配置を考慮に入れてもよい。たとえば、ユーザがマイクロホンの方を向きながらマイクロホンから目をそらしている、または、ユーザがマイクロホンの方を見ながらマイクロホンから顔を背けているならば、プログラム112は、ユーザがマイクロホンを見ながら、マイクロホンの方にも顔を向けているときよりも、ユーザの発話を認識すべき確からしさに相対的に低い確率を割り当ててもよい。
【0026】
ユーザの頭部はある方向に旋回し、ユーザの眼球は別の方向に旋回することがあることに留意する。たとえば、図1Hおよび図1Iに示されるように、ユーザ101は、頭部を時計回りに旋回させ眼球を反時計回りに回転させることがある。その結果、参照点124、124、124、124、128は図1Eに示すようにずれるが、瞳126は図1Hの画像122において右にずれる。ユーザ101から発せられる発話を解釈するか無視するかを決める際、プログラム112はこの配置を考慮に入れてもよい。
【0027】
上述の議論からわかるように、カメラだけを用いてユーザの顔の向きの特徴を追跡することが可能である。しかしながら、顔の向きの特徴追跡のセットアップの他の多くの形態もまた利用することができる。図2A〜2Eは、他のありうるシステムの中で、本発明の実施の形態にしたがって実装することのできる5つの顔の向きの特徴追跡システムの例を図示する。
【0028】
図2Aにおいて、ユーザ201は、ビジュアルディスプレイ203の上部に搭載されたカメラ205と赤外光センサ207と対面している。ユーザの頭部のチルト角を追跡するために、カメラ205はオブジェクトセグメンテーションを実行(すなわちユーザの身体の個々のパーツを追跡)して、取得された情報からユーザの頭部チルト角を推定するように構成されてもよい。カメラ205および赤外光センサ207は、上述のように構成されたソフトウェア213を実行するプロセッサ213に接続される。一例として、これに限定されないが、オブジェクトのありうる異なる動きにしたがってターゲットの画像がどのように変化するかを記述するモーションモデルを用いてオブジェクトセグメンテーションを実行してもよい。本発明の実施の形態は1以上のカメラを用いてもよく、たとえば、ある実装は二つのカメラを用いてもよいことに留意する。第1のカメラはユーザの位置を特定するためにズームアウトした視界の画像を提供し、第2のカメラは、ユーザの顔にズームインしてフォーカスし、頭部と注視方向のより良い推定をするためにクローズアップした画像を提供する。
【0029】
このセットアップを用いてユーザの注視方向も取得してもよい。一例として、これに限られないが、赤外光は初めに赤外光センサ207からユーザの目に向けられ、反射光がカメラ205によってキャプチャされる。反射された赤外光から抽出された情報によって、カメラ205に接続されたプロセッサは、ユーザに対して目の回転量を判定することができる。ビデオにもとづく視線追跡は典型的には角膜反射および瞳中心を特徴として用いて時間をかけて追跡する。
【0030】
このように図2Aは、本発明の実施の形態にしたがってユーザの頭部チルト角および注視方向の両方を追跡するように構成された顔の向きの特徴追跡セットアップを示す。例示のために、ユーザはディスプレイとカメラの真っ直ぐ前にいることを想定している。しかしながら、本発明の実施の形態は、ユーザがディスプレイ203および/またはカメラ205の真っ直ぐ前にいなくても実装することができる。たとえば、ユーザ201は、ディスプレイの右/左に+45°または−45°の位置にいてもよい。ユーザ201がカメラ205の視野内にいる限り、頭部角度θおよび視線θを推定することができる。次に、正規化された角度を、ディスプレイ203および/またはカメラ205に関するユーザ201の位置(たとえば図2Aに示されたボディ角度θ)、頭部角度θおよび視線θの関数として計算することができる。たとえば、正規化された角度が許容範囲になるなら、発話を関連性のあるものとして受理することができる。一例として、これに限定しないが、ボディ角度θが+45°である位置にユーザ201がいて、頭部が−45°の角度θで回転しているなら、ユーザ201は、頭を回転させることによってディスプレイ203からの体のずれを修正しており、これは、人にディスプレイを真っ直ぐ見させる点で好ましい。具体的には、もし、ユーザの視線角度θがゼロ(すなわちユーザの瞳が中心を向いている)であるなら、正規化された角度(たとえばθ+θ+θ)はゼロである。頭部、ボディ、視線の関数として正規化された角度は、発話が関連するものあるかどうかを判定するための所定の範囲と比較することができる。
【0031】
図2Bは、別の顔の向きの特徴追跡セットアップを提供する。図2Bでは、ユーザ201は、ビジュアルディスプレイ203の上部に搭載されたカメラ205に対面している。ユーザ201は同時に、間隔を開けた赤外線(IR)光源211(たとえば眼鏡209の各レンズ上に一つずつの赤外線LED)をもつ眼鏡209(たとえば3Dシャッター眼鏡)を着用している。カメラ205は、光源211から放射される赤外線光をキャプチャし、取得された情報からユーザの頭部チルト角を三角測量するように構成される。光源211の位置は、ユーザの顔の位置に関して大して変わらないため、このセットアップによってユーザの頭部チルト角の比較的正確な推定をすることができる。
【0032】
眼鏡209は、ビジュアルディスプレイ203の場所を見つけ、または、ビジュアルディスプレイ203の大きさを推定するためのソフトウェア212とともに利用可能なプロセッサ213に画像を提供することのできるカメラ210を含む。この情報を集めることにより、システムはユーザの顔の向きの特徴データを正規化することができ、その結果、これらの特徴量の計算がディスプレイ203の絶対的な位置およびユーザ201の絶対的な位置の両方から独立するようになる。さらにカメラを追加することにより、システムがより正確に可視範囲を推定することができるようになる。このように、図2Bは、本発明の実施の形態にしたがってユーザの頭部チルト角を判定するための別のセットアップを示す。ある実施の形態では、別個のカメラをユーザの目と対面させて眼鏡209の各レンズに搭載して、目の中心または隅に関して瞳の相対的位置を示す目の画像を取得することにより、視線追跡できるようにしてもよい。ユーザの目に対する眼鏡209の相対的に固定された位置は、ユーザの頭の向きθの追跡と独立してユーザの視線角度θを追跡するのに役立つ。
【0033】
図2Cは、第3の顔の向きの特徴追跡セットアップを提供する。図2Cでは、ユーザ201は、ビジュアルディスプレイ203の上部に搭載されたカメラ205に対面している。ユーザ201はまた、1以上のカメラ217(たとえば両側に一つずつ)をもつコントローラ215を持っており、コントローラ215は、ユーザとビジュアルディスプレイ203上のコンテンツの間の相互作用を容易にするように構成される。
【0034】
カメラ217は、ビジュアルディスプレイ203の場所を見つけ、または、ビジュアルディスプレイ203の大きさを推定するように構成されてもよい。この情報を集めることにより、システムはユーザの顔の向きの特徴データを正規化することができ、その結果、これらの特徴量の計算がディスプレイ203の絶対的な位置およびユーザ201の絶対的な位置の両方から独立するようになる。さらに、カメラ217をコントローラ215に追加することによって、システムは可視範囲をより正確に推定することができるようになる。
【0035】
図2Cのセットアップはさらに(ダイアグラムでは図示しない)図2Aのセットアップと組み合わせて、ユーザの頭部チルト角の追跡に加えて、ユーザの注視方向の追跡を行い、システムをディスプレイのサイズと場所に独立になるようにしてもよいことに留意することが重要である。ユーザの目はこのセットアップでは遮られていないから、ユーザの視線は、上述の赤外線反射およびそのキャプチャプロセスを通して取得することができる。
【0036】
図2Dは、さらに別の顔の向きの特徴追跡セットアップを提供する。図2Dでは、ユーザ201は、ビジュアルディスプレイ203の上部に搭載されたカメラ205に対面している。ユーザ201はまた、赤外線光源221(たとえば左右の耳に一つずつ)とマイクロホン233をもつヘッドセット219を着用しており、ヘッドセット219は、ユーザとビジュアルディスプレイ203上のコンテンツの間の相互作用を容易にするように構成される。図2Bのセットアップのように、カメラ205は、ヘッドセット219条の光源221から放出される赤外線光の経路をキャプチャし、取得された情報からユーザの頭部チルト角を三角測量する。ヘッドセット219の位置は、ユーザの顔の位置に関して大して変わらない傾向があるため、このセットアップによってユーザの頭部チルト角の比較的正確な推定をすることができる。
【0037】
赤外線光センサ221を用いたユーザの頭部チルト角を追跡することに加えて、ヘッドセット219の一部ではない別個のマイクロホンアレイ277によって特定の目標に関するユーザの頭部位置を追跡してもよい。マイクロホンアレイ227は、たとえばプロセッサ213上で動作する適切に構成されたソフトウェア212を用いて、ユーザの発話の大きさと向きの判定に役立つように構成されてもよい。そのような方法の例は、たとえば、同一出願人の米国特許第7,783,061号、同一出願人の米国特許第7,809,145号および同一出願人の米国特許出願公報第2006/0239471号に記載されており、これら3文献の全内容を参照によりここに取り込む。
【0038】
サーモグラフィー情報を用いたユーザの発話の向き追跡の詳細な説明は、2010年9月23日に出願されたRuxin ChenおよびSteven Osmanの「BLOW TRACKING USER INTERFACE SYSTEM AND METHOD」と題する米国特許出願番号第12/889,347号(代理人事件番号SCEA10042US00-I)に記載されており、参照によりここに取り込む。一例として、これに限定されないが、発話中のユーザの音声に対応するユーザの口に周りの空気中の振動パターンを検出するための熱探知カメラを用いてユーザの発話の向きを判定することができる。振動パターンの時間発展を解析して、ユーザの発話の一般化された方向に対応するベクトルを判定することができる。
【0039】
カメラ205に関するマイクロホンアレイ227の位置とマイクロホンアレイ227に関するユーザの発話の方向の両方を用いて、特定の目標(たとえばディスプレイ)に関するユーザの頭の位置を計算してもよい。ユーザの頭のチルト角を定める際の精度を高めるために、頭のチルト角を判定するための赤外線反射法と方向追跡法を組み合わせてもよい。
【0040】
ヘッドセット219は、ビジュアルディスプレイ203の場所を見つけ、ビジュアルディスプレイ203の大きさを見積もるように構成されたカメラ225をさらに含んでもよい。この情報を集めることにより、システムはユーザの顔の向きの特徴データを正規化することができ、その結果、これらの特徴量の計算がディスプレイ203の絶対的な位置およびユーザ201の絶対的な位置の両方から独立するようになる。さらにカメラを追加することにより、システムがより正確に可視範囲を推定することができるようになる。ある実施の形態では、1以上のカメラ225をユーザの目と対面させてヘッドセット219に搭載して、目の中心または隅に関して瞳の相対的位置を示す目の画像を取得することにより、視線追跡できるようにしてもよい。ユーザの目に対するヘッドセット219の相対的に固定された位置(したがってカメラ224の位置)は、ユーザの頭の向きθの追跡と独立してユーザの視線角度θを追跡するのに役立つ。
【0041】
ユーザの頭部チルト角を追跡することに加えて、ユーザの注視方向を追跡するために図2Dのセットアップを図2Aのセットアップに組み合わせてもよいことに留意することは重要である。ユーザの目はこのセットアップでは遮られていないから、ユーザの視線は、上述の赤外線反射およびそのキャプチャプロセスを通して取得することができる。
【0042】
本発明の実施の形態は、携帯電話、タブレットコンピュータ、携帯情報端末、携帯インターネットデバイス、携帯ゲーム機その他のハンドヘルドデバイスに実装することもできる。図2Eは、ハンドヘルドデバイス230のコンテキストで発話の関連性を判定する一つの可能性のある例を示す。デバイス230は一般に、上述のように、適切なソフトウェアでプログラムすることができるプロセッサ239を含む。デバイス230は、プロセッサ239に接続されたディスプレイスクリーン231とカメラ235を含む。1以上のマイクロホン233とコントロールスイッチ237がオプションとしてプロセッサ239に接続されてもよい。マイクロホン233はマイクロホンアレイの一部であってもよい。コントロールスイッチ237は、特定のタイプのハンドヘルドデバイスで通常使われる任意のタイプであればよい。たとえば、デバイス230が携帯電話であれば、コントロールスイッチ237はそのようなデバイスで普通使われる数字と文字のキーパッドを含んでもよい。あるいは、デバイス230が携帯ゲーム機であれば、コントロールスイッチ237は、デジタルまたはアナログのジョイスティック、デジタルコントロールスイッチ、トリガなどを含んでもよい。ある実施の形態では、ディスプレイスクリーン231はタッチスクリーンインタフェースであってもよく、コントロールスイッチ237の機能は、ふさわしいソフトウェア、ハードウェア、またはファームウェアと連結したタッチスクリーンで実装されてもよい。カメラ235は、ユーザがディスプレイスクリーン231を見るときにユーザ201の方を向くように構成される。プロセッサ239は、頭部姿勢追跡および/または視線追跡を実装するソフトウェアでプログラムされてもよい。プロセッサはさらに、上述のように、マイクロホン233によって検出された発話の重要性を判定する際、頭部姿勢追跡および/または視線追跡情報を利用するように構成されてもよい。
【0043】
ディスプレイスクリーン231、マイクロホン233、カメラ235、コントロールスイッチ237およびプロセッサ239を、ユーザの片手または両手で容易にもつことのできるケースに搭載してもよい。ある実施の形態では、デバイス230は、図2Bに示され、上述したような眼鏡209にありふれた特徴をもつ特化された眼鏡と連動して動作してもよい。そのような眼鏡は、無線または有線接続、たとえば、ブルートゥース(商標)ネットワーク接続のようなパーソナルエリアのネットワーク接続を通してプロセッサと通信してもよい。ある実施の形態では、デバイス230は、図2Dに示され、上述したようなヘッドセット219にありふれた特徴をもつヘッドセットと連動して利用される。そのようなヘッドセットは、無線または有線接続、たとえば、ブルートゥース(商標)ネットワーク接続のようなパーソナルエリアのネットワーク接続を通してプロセッサと通信してもよい。デバイス230は、無線ネットワーク接続を容易にするのに適したアンテナとトランシーバを含んでもよい。
【0044】
図2A〜2Eに示した事例は、本発明の実施の形態において発話中のユーザの顔の向きの特徴を追跡するために用いることのできる多くのセットアップの一例に過ぎない。
【0045】
図3は、本発明の実施の形態にしたがってユーザの無関係の発話を検出するための方法を実装するために用いられるコンピュータ装置のブロック図である。装置300は、一般に、プロセッサモジュール301とメモリ305を備える。プロセッサモジュール301は、並列処理を容易にするために、たとえば中央プロセッサと1以上のコプロセッサを含む1以上のプロセッサコアを含む。
【0046】
メモリ305は、例えば、RAM、DRAM、ROMなどの集積回路の形態を取ってもよい。メモリ305はまた、すべてのプロセッサモジュールによってアクセス可能なメインメモリであってもよい。ある実施の形態では、プロセッサモジュール301は、各コアに対応付けて関連付けられた別個のローカルメモリをもつマルチコアプロセッサである。プログラム303は、プロセッサモジュール上で実行することができるプロセッサ読み取り可能なインストラクションの形態でメインメモリ305に格納されてもよい。プログラム303は、任意の適切なプロセッサ読み取り可能な言語、たとえば、C、C++、JAVA(登録商標)、アセンブリ、MATLAB、フォートラン、および他の様々な言語で書かれる。プログラム303は、図1A〜1Iに関して上述したような顔追跡および注視追跡を実装する。
【0047】
入力データ307はメモリに格納されてもよい。そのような入力データ307には、頭部チルト角度、注視方向、またはユーザに関連づけられた他の顔の向きの特徴が含まれる。あるいは、入力データ307は、カメラからのデジタル化されたビデオ信号および/または1以上のマイクロホンからのデジタル化されたオーディオ信号の形態である。プログラム303は、そのようなデータを用いて、頭部チルト角および/または注視方向を計算することができる。プログラム303の実行中、プログラムコードおよび/またはデータの一部がメモリまたは複数のプロセッサコアによって並列処理するためにプロセッサコアのローカルストアにロードされてもよい。
【0048】
装置300はさらに、入出力(I/O)装置311、電源(P/S)313、クロック(CLK)315およびキャッシュ317などの周知のサポート機能309を備えてもよい。装置300はオプションとして、プログラムおよび/またはデータを格納するためのディスクドライブ、CD−ROMドライブ、テープドライブなどの大容量記憶装置319を備えてもよい。装置300はまた、オプションとして、装置300とユーザの相互作用を容易にするために、ディスプレイユニット321とユーザインタフェースユニット325を備えてもよい。ディスプレイユニット321は、テキスト、数値、グラフィカルシンボルや画像を表示する陰極線管(CRT)、またはフラットパネルスクリーンの形態であってもよい。一例として、これに限定しないが、ディスプレイユニット321は、I/Oエレメント311に接続可能な3Dビューイング眼鏡で見る立体画像として、テキスト、数字、グラフィックシンボルまたは他のビジュアルオブジェクトを表示する3D可能テレビセットの形態であってもよい。立体視とは、それぞれの目に少しだけ異なる画像を提供することによって2次元画像に奥行きがあるかのような錯視をもたせることである。上述のように、光源またはカメラを眼鏡327に搭載してもよい。ある実施の形態では、眼鏡の各レンズにユーザの目に向かって個別にカメラを搭載し、目の中央または隅に関する瞳の相対位置を示す目の画像を取得することによって注視追跡を容易にしてもよい。
【0049】
ユーザインタフェース325は、キーボード、マウス、ジョイスティック、ライトペンや他の装置を備えてもよく、これらは、グラフィカルユーザインタフェース(GUI)と併せて使われてもよい。装置300はまた、ネットワークインタフェース323を含み、これにより、当該装置がインターネットのようなネットワーク上で他の装置と通信することが可能になる。これらの構成要素はハードウェア、ソフトウェア、ファームウェアまたはこれらの2以上の組み合わせによって実装される。
【0050】
ある実施の形態では、システムはオプションのカメラ329を含む。I/Oエレメント311を介してプロセッサ301にカメラ329を接続することができる。上述のように、カメラ329は、発話中に与えられたユーザに関連づけられた顔の向きの特徴を追跡するように構成してもよい。
【0051】
ある実施の形態では、システムはオプションのマイクロホン331を含み、これは単一のマイクロホン、またはある既知の距離だけ互いに離れた2以上のマイクロホン331A、331Bをもつマイクロホンアレイであってもよい。I/Oエレメント311を介してプロセッサ301にマイクロホン331を接続することができる。上述のように、マイクロホン331は、与えられたユーザの発話の方向を追跡するように構成される。
【0052】
プロセッサ301、メモリ305、サポート機能309、大容量記憶装置319、ユーザインタフェース325、ネットワークインタフェース323、およびディスプレイ321を含むシステム300のコンポーネントは、1以上のデータバス327を介して互いに機能的に接続される。これらの構成要素はハードウェア、ソフトウェア、ファームウェアまたはこれらの2以上の組み合わせによって実装される。
【0053】
装置の複数のプロセッサを用いて並列処理を効率化する付加的な方法が多数ある。たとえば、2以上のプロセッサコア上でコードを複製し、各プロセッサコアに異なるデータ部分を処理させることによって、処理ループを「アンロール(unroll)」することができる。そのような実装によって、ループ設定に関連するレイテンシを回避することができる。本発明に適用すると、複数のプロセッサが並列に複数のユーザからのボイス入力の関連性を判定することができる。各ユーザの発話中の顔の向きの特徴を並列に取得し、各ユーザの発話の関連性の特徴づけを並列に行うこともできる。並列にデータを処理する能力は貴重な処理時間を節約し、無関係の音声入力の検出のためのより効率的で簡素化されたシステムが可能になる。
【0054】
2以上のプロセッサエレメント上で並列処理を実装することのできるプロセッシングシステムの中の一つの例は、セルプロセッサとして知られる。セルプロセッサとして分類される多数の異なるプロセッサアーキテクチャがある。一例であり、これに限られないが、図4は、あるタイプのセルプロセッサアーキテクチャを示す。この例では、セルプロセッサ400は、メインメモリ401、ひとつのパワープロセッサ要素(power processor element:PPE)407、および8つのシナジスティックプロセッサ要素(synergistic processor element:SPE)411を備える。あるいは、セルプロセッサは任意の数のSPEで構成されてもよい。図4を参照して、メモリ401、PPE407およびSPE411は、リングタイプのエレメント相互結合バス417上で互いに通信したり、I/Oデバイス415と通信することができる。メモリ401は上述の入力データの通常の特徴をもつ入力データ403と上述のプログラムの通常の特徴をもつプログラム405を含む。少なくとも一つのSPE411は、音声関連性推定インストラクション413および/または上述のように並列に処理されるべき入力データの一部をローカルストアに含む。PPE407は、上述のプログラムに普通にある特徴をもつボイス入力関連性判定インストラクション409をL1キャッシュに含む。インストラクション405およびデータ403は、SPE411および必要であればPPE407によってアクセスできるようにメモリ401に格納してもよい。
【0055】
一例として、PPE407は、関連するキャッシュを持つ64ビットパワーPCプロセッサユニット(PPU)であってもよい。PPE407はオプションとしてベクトルマルチメディア拡張ユニットを含んでもよい。各SPE411は、シナジスティックプロセッサユニット(SPU)とローカルストア(LS)とを備える。ある実装では、ローカルストアは、プログラムとデータのための約256キロバイトのメモリ容量を有する。SPUは、システム管理機能を実行しないという点で、PPUよりも単純な計算ユニットである。SPUは、SIMD(single instruction, multiple data)機能を有し、典型的にはデータ処理を行い、割り当てられたタスクを行うために(PPEにより設定されたアクセス特性にしたがって)要求されたデータ転送を開始する。SPUにより、システム600は、より高い計算ユニット密度を要求するアプリケーションを実装し、提供された命令セットを効率良く利用することができるようになる。PPE604によって管理されるシステム600の相当数のSPEによって、広範囲のアプリケーションにわたって費用対効果の高い処理が可能になる。一例として、セルプロセッサは、セルブロードバンドエンジンアーキテクチャ(CBEA)によって特徴づけられる。CBEA準拠のアーキテクチャでは、複数のPPEを一つのPPEグループに結合してもよく、複数のSPEを一つのSPEグループに結合してもよい。例示のために、セルプロセッサを単一のSPEと単一のPPEをもった単一のSPEグループと単一のPPEグループをもつものとして図示している。あるいは、セルプロセッサは複数のPPEグループと複数のSPEグループを含んでもよい。CBEA準拠のプロセッサはたとえば、http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdfにおいてオンラインで利用可能な「セル・ブロードバンド・エンジン・アーキテクチャ」に詳細に記載されており、ここに参照により組み込む。
【0056】
別の実施の形態によれば、ボイス入力の関連性を判定するための命令をコンピュータ読み取り可能な記憶媒体に格納してもよい。一例として、これに限られないが、図5は、コンピュータ読み取り可能な記憶媒体500の例を示す。記憶媒体500には、コンピュータ・プロセッシング・デバイスが読み取って解釈することのできるフォーマットで格納されたコンピュータ読み取り可能な命令が含まれる。一例として、これに限られないが、コンピュータ読み取り可能な記憶媒体500は、RAMまたはROMのようなコンピュータ読み取り可能なメモリ、固定ディスクドライブ(たとえば、ハードディスクドライブ)に対するコンピュータ読み取り可能なストレージディスク、またはリムーバブルディスクドライブであってもよい。さらに、コンピュータ読み取り可能な記憶媒体500は、フラッシュメモリデバイス、コンピュータ読み取り可能なテープ、CD−ROM、DVD−ROM、ブルーレイ(商標)、HD−DVD、UMD、あるいは他の光記憶媒体を含む。
【0057】
記憶媒体500は、ボイス入力の関連性の推定を容易にするように構成されたボイス入力関連性判定インストラクション501を含む。ボイス入力関連性判定インストラクション501は、図1に関して上述した方法にしたがってボイス入力の関連性の判定を実装するように構成される。特に、ボイス入力関連性判定インストラクション501は、発話がアクティブなエリア内に位置する人から来ているかどうかを判定するために利用されるユーザの存在を特定するインストラクション503を含む。発話がアクティブエリア外に位置する人から来たものであるなら、上述のように、それは直ちに無関係なものとして特徴づけられる。
【0058】
ボイス入力の関連性を判定するインストラクション501はまた、発話中のユーザ(または複数のユーザ)の顔の向きの特徴を取得するために利用されるユーザの顔の向きの特徴を取得するインストラクション505を含む。これらの顔の向きの特徴は、ユーザの発話が特定のターゲットに向けられているかどうかを判定するのに役立つ手がかりとして作用する。一例として、これに限定されないが、これらの顔の向きの特徴は、上述のように、ユーザの頭部チルト角および視線方向を含んでもよい。
【0059】
ボイス入力の関連性を判定するインストラクション501はまた、ユーザのオーディオの特徴(すなわち発話の方向)およびビジュアルの特徴(すなわち顔の向き)にもとづいてユーザの発話の関連性を特徴づけるために利用されるユーザのボイス入力の関連性を特徴づけるインストラクション507を含む。ユーザの発話は、1以上の顔の向きの特徴が許容範囲外にある場合、無関係であるとして特徴付けられてもよい。あるいは、顔の向きのそれぞれの特徴の許容範囲からの逸脱にしたがってユーザの発話の関連性を重み付けしてもよい。
【0060】
本発明の好ましい実施の形態を完全な形で説明してきたが、いろいろな代替物、変形、等価物を用いることができる。したがって、本発明の範囲は、上記の説明を参照して決められるものではなく、請求項により決められるべきであり、均等物の全範囲も含まれる。ここで述べた特徴はいずれも、好ましいかどうかを問わず、他の特徴と組み合わせてもよい。請求項において、明示的に断らない限り、各項目は1またはそれ以上の数量である。請求項において「〜のための手段」のような語句を用いて明示的に記載する場合を除いて、請求項がミーンズ・プラス・ファンクションの限定を含むものと解してはならない。

【特許請求の範囲】
【請求項1】
入力された発話の関連性を判定する方法であって、
a)ある時間間隔における発話中のユーザの顔の存在を特定するステップと、
b)前記時間間隔の間のユーザの顔に関連づけられた1以上の顔の向きの特徴を取得するステップと、
c)ステップb)で取得された1以上の顔の向きの特徴にもとづいて前記時間間隔の間の発話の関連性を特徴付けるステップとを含むことを特徴とする方法。
【請求項2】
ステップb)における1以上の顔の向きの特徴を取得するステップは、カメラを用いてユーザの顔の向きの特徴を追跡するステップを含む請求項1の方法。
【請求項3】
ステップb)における1以上の顔の向きの特徴を取得するステップは、赤外光を用いてユーザの顔の向きの特徴を追跡するステップをさらに含む請求項2の方法。
【請求項4】
ステップb)における1以上の顔の向きの特徴を取得するステップは、マイクロホンを用いてユーザの顔の向きの特徴を追跡するステップを含む請求項1の方法。
【請求項5】
ステップb)における1以上の顔の向きの特徴は、頭部チルト角を含む請求項1の方法。
【請求項6】
ステップb)における1以上の顔の向きの特徴は、注視方向を含む請求項1の方法。
【請求項7】
ステップc)は、1以上の顔の向きの特徴が許容範囲から外れる場合、ユーザの発話を無関係なものとして特徴づける請求項1の方法。
【請求項8】
ステップc)は、1以上の顔の向きの特徴の許容範囲からの逸脱にもとづいてユーザの発話の関連性を重み付けするステップを含む請求項1の方法。
【請求項9】
発話中のユーザの顔に関連づけられた1以上の顔の向きの特徴を取得する前にユーザの顔のプロファイルを登録するステップをさらに含む請求項1の方法。
【請求項10】
発話源の方向を判定するステップをさらに含み、ステップc)は、発話の関連性を特徴づける際に発話源の方向を取り入れるステップを含む請求項1の方法。
【請求項11】
ステップc)は、イメージキャプチャデバイスによってキャプチャされた画像内の複数の発話源を区別するステップを含む請求項1の方法。
【請求項12】
発話の関連性を判定するための装置であって、
プロセッサと、
メモリと、
前記メモリに具体化され、前記プロセッサにより実行可能なコンピュータのコード化されたインストラクションとを含み、前記コンピュータのコード化されたインストラクションは、ユーザの発話の関連性を判定する方法を実装するように構成され、当該方法は、
a)ある時間間隔における発話中のユーザの顔の存在を特定するステップと、
b)前記時間間隔の間のユーザの顔に関連づけられた1以上の顔の向きの特徴を取得するステップと、
c)ステップb)で取得された1以上の顔の向きの特徴にもとづいて前記時間間隔の間の発話の関連性を特徴付けるステップとを含むことを特徴とする装置。
【請求項13】
ステップb)において1以上の向きを取得するように構成されたカメラをさらに含む請求項12の装置。
【請求項14】
ステップb)において1以上の向きを取得するように構成された1以上の赤外光をさらに含む請求項12の装置。
【請求項15】
ステップb)において1以上の向きを取得するように構成されたマイクロホンをさらに含む請求項12の装置。
【請求項16】
コンピュータプログラム製品であって、
発話の関連性を判定するための媒体に具体化されたコンピュータ読み取り可能なプログラムコードをもった一過性でないコンピュータ読み取り可能な記録媒体を含み、前記コンピュータプログラムは、
a)ある時間間隔における発話中のユーザの顔の存在を特定するためのコンピュータ読み取り可能なプログラムコードと、
b)前記時間間隔の間のユーザの顔に関連づけられた1以上の顔の向きの特徴を取得するためのコンピュータ読み取り可能なプログラムコードと、
c)ステップb)で取得された1以上の顔の向きの特徴にもとづいて前記時間間隔の間の発話の関連性を特徴付けるためのコンピュータ読み取り可能なプログラムコードとを含むことを特徴とするコンピュータプログラム製品。

【図1A】
image rotate

【図1B】
image rotate

【図1C】
image rotate

【図1D】
image rotate

【図1E】
image rotate

【図1F】
image rotate

【図1G】
image rotate

【図1H】
image rotate

【図1I】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図2C】
image rotate

【図2D】
image rotate

【図2E】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−220959(P2012−220959A)
【公開日】平成24年11月12日(2012.11.12)
【国際特許分類】
【出願番号】特願2012−88357(P2012−88357)
【出願日】平成24年4月9日(2012.4.9)
【出願人】(310021766)株式会社ソニー・コンピュータエンタテインメント (417)
【Fターム(参考)】