入力された発話の関連性を判定するための装置および方法

【課題】オーディオまたはビジュアルの向きを用いて入力された発話の関連性を判定する。
【解決手段】ある時間間隔における発話中のユーザの顔の存在を特定する。時間間隔の間のユーザの顔に関連づけられた顔の向きの特徴を取得する。ある場合には、入力された音に対する向きの特徴を判定する。顔の向きの特徴にもとづいて時間間隔の間のユーザの発話の関連性を特徴付ける。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施の形態は、音声認識特性を含むコンピュータプログラムに入力される発話の関連性の判定に関する。
【背景技術】
【０００２】
多くのユーザが制御するプログラムは、ユーザとプログラム間の相互作用を容易にするためにある種の音声認識を使う。ある種の音声認識を実装するプログラムの例には、ＧＰＳシステム、スマートホンアプリケーション、コンピュータプログラム、およびビデオゲームが含まれる。しばしば、このような音声認識システムは、発話の関連性とは無関係に、プログラムの動作中にキャプチャされたすべての発話を処理する。たとえば、音声認識を実装するＧＰＳシステムは、話者によってなされた特定のコマンドを認識するとき、ある種のタスクを実行するように構成される。しかしながら、与えられたボイス入力（すなわち発話）がコマンドを構成するものであるかどうかを決定するには、話者によってなされたすべてのボイス入力をシステムが処理することが要求される。
【０００３】
あらゆるボイス入力を処理することは、システムリソースに重い負荷を与え、全体的に効率が低下し、他の機能のために利用可能なハードウェアリソースの提供が制限されることになる。さらに、無関係のボイス入力の処理から回復することは、音声認識システムにとって難しく、しかも時間がかかる。同様に、関係のあるボイス入力に加えて、多くの無関係のボイス入力を処理しなければならないために、音声認識システムに混乱が生じて、不正確さが増大することになる。
【発明の概要】
【発明が解決しようとする課題】
【０００４】
与えられた音声認識システムの動作中に処理する必要のあるトータルのボイス入力を減らすためのある先行技術の方法は、プッシュ・トゥ・トーク（push-to-talk）を実装することである。プッシュ・トゥ・トークは、音声認識システムがボイス入力をキャプチャして処理する時点をユーザが制御できるようにする。たとえば、音声認識システムは、ボイス入力を取得するためにマイクロホンを実装してもよい。ユーザはマイクロホンの機能のオン／オフを制御する（たとえば、ユーザはシステムにコマンドを話すことを示すためにボタンを押す）。これは、音声認識システムによって処理される無関係のボイス入力の量を制限するように機能するが、システムのさらに別の面を制御しなければならないという負担をユーザに強いる。
【０００５】
本発明の実施の形態はこのような文脈の中で生じた。
【課題を解決するための手段】
【０００６】
上記課題を解決するために、本発明のある態様のスクロール制御装置は、発話の関連性を判定するための装置であって、プロセッサと、メモリと、前記メモリに具体化され、前記プロセッサにより実行可能なコンピュータのコード化されたインストラクションとを含み、前記コンピュータのコード化されたインストラクションは、ユーザの発話の関連性を判定する方法を実装するように構成され、当該方法は、ａ）ある時間間隔における発話中のユーザの顔の存在を特定するステップと、ｂ）前記時間間隔の間のユーザの顔に関連づけられた１以上の顔の向きの特徴を取得するステップと、ｃ）ステップｂ）で取得された１以上の顔の向きの特徴にもとづいて前記時間間隔の間の発話の関連性を特徴付けるステップとを含む。
【図面の簡単な説明】
【０００７】
【図１Ａ】本発明のある実施の形態にしたがってユーザの発話の関連性を判定するための方法を示すフローダイアグラム／概略図である。
【図１Ｂ】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図１Ｃ】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図１Ｄ】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図１Ｅ】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図１Ｆ】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図１Ｇ】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図１Ｈ】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図１Ｉ】本発明の実施の形態にしたがって視線と顔の追跡を利用する例を説明する概略図である。
【図２Ａ】本発明の実施の形態にしたがって顔の特徴の追跡セットアップを説明する概略図である。
【図２Ｂ】本発明の実施の形態にしたがって顔の特徴の追跡セットアップを説明する概略図である。
【図２Ｃ】本発明の実施の形態にしたがって顔の特徴の追跡セットアップを説明する概略図である。
【図２Ｄ】本発明の実施の形態にしたがって顔の特徴の追跡セットアップを説明する概略図である。
【図２Ｅ】本発明のある実施の形態にしたがって顔の向きの追跡を利用することのできる携帯デバイスを説明する概略図である。
【図３】本発明のある実施の形態にしたがってユーザの発話の関連性を判定するための装置を説明するブロック図である。
【図４】本発明のある実施の形態にしたがってユーザの発話の関連性を判定するための装置のセルプロセッサ実装の例を説明するブロック図である。
【図５】本発明のある実施の形態にしたがって入力された発話の関連性の判定を実装するためのインストラクションをもつ一過性でないコンピュータ読み取り可能なストレージ媒体の例を説明する。
【発明を実施するための形態】
【０００８】
ユーザの発話が与えられたプログラムに対する制御入力として作用するとき、発話の関連性を判定する必要性が生じる。たとえば、これは、ユーザが人気のある歌の歌詞とメロディを再現しようとするカラオケタイプのビデオゲームの文脈で起きる。プログラム（ゲーム）は、通常は、ユーザの意図に関わらず、ユーザの口から発するすべての発話を処理する。そのため、制御入力として使うことを意図した発話と制御入力として使うことを意図していない発話の両方が同じ方法で処理される。これは、無関係の発話が破棄されずに処理されるために計算の複雑さとシステムの効率の悪さが一層大きくなることにつながる。これはまた、ノイズのあるボイス入力（すなわち無関係の発話）が導入されることでプログラム性能の正確さが減少することにもつながる。
【０００９】
本発明の実施の形態では、発話のキャプチャリングに対するユーザの意図的あるいは意識的制御に頼ることなく、与えられたボイス入力の関連性を判定してもよい。ユーザのボイス入力の関連性は、発話中に話者によって無意識に与えられる検出可能な手がかりにもとづいて特徴づけられてもよい。たとえば、発話中の話者の発話の方向や話者の視界の方向はともに、話者のボイスのターゲットが誰または何であるかに関する隠すことのできない兆候を与える。
【００１０】
図１は、本発明のある実施の形態にしたがってユーザのボイス入力（すなわち発話）の関連性を判定するための方法を示す概略図／フローダイアグラムである。ユーザ１０１は、コントロール入力として自分の発話１０３を用いることによってプロセッサ１１３上で動作するプログラム１１２に入力を与えてもよい。発話およびボイス入力という用語は、ここでは任意の状況におけるユーザの聴覚出力を記述するために区別しないで用いられる。プロセッサ１１３は、ユーザ１０１とのコミュニケーションを容易にするために、ビジュアルディスプレイ１０９、デジタルカメラのようなイメージキャプチャデバイス１０７、およびマイクロホン１０５に接続されてもよい。ビジュアルディスプレイ１０９は、プロセッサ１１３上で動作するプログラムに関連づけられたコンテンツを表示するように構成されてもよい。カメラ１０７は、発話中にユーザ１０１と関連づけられた顔の向きの特徴を追跡するように構成されてもよい。同様に、マイクロホン１０５は、ユーザの発話１０３を取得するように構成される。
【００１１】
本発明の実施の形態では、ユーザ１０１がプログラムの動作中に発話１０３に関与するときはいつでも、プロセッサ１１３はその発話／ボイス入力の関連性を判定しようとする。一例であり、これに限られないが、プロセッサ１１３は最初に、ステップ１１５に示すように、プログラムに関連づけられたアクティブエリア１１１内でユーザの顔の存在を特定するためにカメラ１０７からの１以上の画像を解析する。これは、たとえば、カメラ１０７の視野１０８内のユーザ１０１の位置を追跡し、ある時間間隔で視野内のユーザの顔を特定するために好適に構成された画像分析ソフトウェアを用いて実行される。あるいは、マイクロホン１０５は、２以上の空間的に別々に離れたマイクロホンをもつマイクロホンアレイを含む。そのような場合、プロセッサ１１３は、たとえば、ユーザのボイスのような音源の場所を特定する能力のあるソフトウェアでプログラムされる。そのようなソフトウェアは、マイクロホンアレイに対する音源の方向を判定するために、ビームフォーミング、到着時間遅延推定、到着周波数差推定などの到着方向（direction of arrival（ＤＯＡ））推定技術を用いる。カメラ１０７の視野１０８にほぼ対応するマイクロホンアレイの聴取ゾーンを確立するためにそのような方法を用いてもよい。プロセッサが聴取ゾーンの外から発せられる音をフィルタリングして取り除くように構成することができる。そのような方法の例は、同一出願人の米国特許第7,783,061号、同一出願人の米国特許第7,809,145号および同一出願人の米国特許出願公報第2006/0239471号に記載されており、これら３文献の全内容を参照によりここに取り込む。
【００１２】
一例であり、これに限られないが、発話１０３が視野１０８の外側の場所から発せられているならば、ユーザの顔は存在せず、発話１０３は自動的に関連性がないものとして特徴づけられ、処理の前に破棄されてもよい。しかしながら、発話１０３がアクティブエリア１１１内（たとえば、カメラ１０７の視野１０８内）の場所から発せられているなら、プロセッサ１１３は、ユーザの発話の関連性を判定するに当たって、次のステップに続く。
【００１３】
いったんユーザの顔の存在が特定されると、ステップ１１７で示すように、発話中のユーザの顔に関連づけられた１以上の顔の向きの特徴がその時間間隔の間に取得される。ここでも、好適に構成された画像解析ソフトウェアを用いて、顔の向きの特徴を判定するためにユーザの顔の１以上の画像を分析してもよい。一例であり、限定しないが、これらの顔の向きの特徴の一つはユーザの頭部チルト角であってもよい。ユーザの頭部チルト角とは、発話中のユーザの顔と特定のターゲット（たとえばビジュアルディスプレイ、カメラなど）に正確に向けられる顔の間の角度の変位のことである。ユーザの頭部チルト角は、垂直方向の角度の変位、水平方向の角度の変位、あるいは両者の組み合わせであってもよい。ユーザの頭部チルト角は、発話中のユーザの意図に関する情報を提供する。多くの状況で、ユーザは話すときに自分のターゲットの方を直接向く。そのため、ユーザが話しているときの頭部チルト角は、発話のターゲットが誰／何であるかを判定するのに役立つ。
【００１４】
頭部チルト角に加えて、ユーザの発話に関連づけられる別の顔の向きの特徴はユーザの注視方向である。ユーザの注視方向とは、発話中にユーザの目が向いている方向のことである。ユーザの注視方向はまた、発話中のユーザの意図に関する情報を提供する。多くの状況で、ユーザは、話すとき自分のターゲットにアイコンタクトする。そのため、発話中のユーザの注視方向は、発話のターゲットが誰／何であるかを判定するのに役立つ。
【００１５】
これらの顔の向きの特徴をプロセッサに接続された１以上のカメラとマイクロホンで追跡してもよい。顔の向きの特徴追跡システムの例のより詳しい説明は以下に記載する。システムがユーザの顔の向きの特徴を取得するのを助けるために、ユーザがプログラムのコンテンツにアクセスする前に自分の顔のプロファイルを登録することをプログラムは最初にユーザに要求する。これにより、プロセッサには、将来の顔の向きの特徴を比較するための基準となる顔のプロファイルが提供され、それによって最終的により正確な顔の追跡プロセスを実行できるようになる。
【００１６】
ユーザの発話に関連づけられた顔の向きの特徴を取得した後、ステップ１１９で示すようにこれらの顔の向きの特徴にしたがってユーザの発話の関連性を特徴づけてもよい。一例として、これに限られないが、取得された１以上の顔の向きの特徴が許容範囲外に出る場合、ユーザの発話を関連性のないものとして特徴づけてもよい。たとえば、プログラムは、最大許容頭部チルト角４５°を設定し、頭部チルト角４５°を超えてなされた発話を関連性のないものとして特徴づけ、処理前に破棄する。同様にプログラムはユーザの注視方向に対して特定のターゲットからの最大逸脱角１０°を設定し、逸脱注視方向１０°を超えてなされた発話を関連性のないものとして特徴づけ、処理前に破棄する。顔の向きの特徴の組み合わせにもとづいて関連性を特徴づけてもよい。たとえば、頭部チルト角が許容範囲外であるが、注視方向が最大逸脱角度内にあるユーザによってなされた発話は関連性があると特徴づけられ、頭部がターゲットをまっすぐ見ているが、注視方向が最大逸脱角度外にあるユーザによってなされた発話は関連性がないものとして特徴づけられてもよい。
【００１７】
顔の特徴に加えて、本発明のある実施の形態はまた、ステップ１１９において発話の関連性を判定する際、発話源の方向を考慮に入れてもよい。具体的には、マイクロホンアレイをビームフォーミングソフトウェアとともに用いて、マイクロホンアレイに関する発話源１０３の方向を判定してもよい。ビームフォーミングソフトウェアをマイクロホンアレイおよび／またはカメラとともに用いて、マイクロホンアレイに関するユーザの方向を判定してもよい。二つの方向が大きく異なるなら、プロセッサ上で動作するソフトウェアは発話１０３に比較的低い関連度を割り当ててもよい。そのような実施の形態は、ユーザ１０１のような関連性のあるソース以外のソースから発する音をフィルタリングして取り除くために有益である。ここで述べる実施の形態はまた、カメラによってキャプチャされたシーンにおいて複数の発話ソースがある場合にも動作する。したがって、本発明の実施の形態は、カメラ１０７によってキャプチャされた画像においてユーザが唯一の発話ソースである実装に限定されるものではない。具体的には、ステップ１１９で発話の関連性を判定するステップには、イメージキャプチャデバイス１０７によってキャプチャされる画像内の複数の発話ソースを区別するステップが含まれてもよい。
【００１８】
さらに、ここに述べた実施の形態は、マイクロホンアレイによって複数の発話源がキャプチャされる（たとえば、複数人が話をしているときなど）がただ一つの発話源（たとえば関連性のあるユーザ）がカメラ１０７の視野内に位置する場合にも動作する。その後、視野内でユーザの発話を関連性のあるものとして検出することができる。マイクロホンアレイを用いて、視野内でカメラによって位置が特定された音源から来る音だけを誘導して抽出することができる。プロセッサ１１３は、マイクロホンアレイへの入力から関連性のある発話を抽出するために関連性のあるユーザの位置の先験的情報を用いたソース分離アルゴリズムを実装することができる。別の観点から言えば、視野の外のソースから来る発話は関連性のないものとみなして無視されると言うことができる。
【００１９】
各アプリケーション／プラットフォームは、抽出された視覚的特徴（たとえば頭部チルト、視線など）と音響的特徴（たとえば音の到着方向などの局所情報など）にもとづいて発話の関連性を判定することができる。たとえば、あるアプリケーション／プラットフォーム（すなわち図２Ｅに示すような携帯電話、タブレットＰＣ、携帯ゲーム機のようなハンドヘルドデバイス）はターゲットからの許容されるずれに関してより厳密であるが、他のアプリケーション／プラットフォーム（すなわち図２Ａに示すようなテレビディスプレイをもつリビングルームセットアップ）は厳密ではない。これに加えて、よりよい決定をするために、決定木、ニューラルネットワークなどの機械学習アルゴリズムを用いてこれらのオーディオ−ビジュアルの特徴と発話の関連性の間のマッピングを学習するために、対象物から収集されるデータを用いることができる。あるいは、関連／非関連のバイナリの決定をする代わりに、抽出されたオーディオ−ビジュアルの特徴にもとづいて推定された確からしさのスコア（すなわち［０，１］の間の数値で０は非関連、１は関連）を、入力された発話フレームを重み付けするために音声認識エンジンに送ることができるようなシステムでは軟判定を用いることもできる。たとえば、ユーザの頭部チルト角が増加するにつれて、ユーザの発話の関連性は低くなる。同様に、ユーザの注視方向が特定のターゲットから逸脱するにつれて、ユーザの発話の関連性は低くなる。このように、ユーザの発話の重み付けされた関連性を用いて、その発話がさらに処理されるか、さらなる処理の前に破棄されるかを決定することができる。
【００２０】
音声認識処理に先だって検出されたユーザの発話の関連性に重み付けすることによって、システムは、音声認識の全体的な正確性を向上させるとともにかなりのハードウェアリソースを節約することができる。関連性のない音声入力を破棄することによって、プロセッサの負担を減らし、無関係な発話を処理するのにかかわる混乱を減らせる。
【００２１】
図１Ｂ〜１Ｉは、検出された発話の関連性を判定するために顔の向きと注視方向を用いる例を示す。図１Ｂに示すように、ユーザ１０１の顔１２０が画像１２２_Ｂに現れている。画像分析ソフトウェアは顔１２０上の参照ポイントを特定してもよい。ソフトウェアは、たとえば、口の隅１２４_Ｍ、鼻梁１２４_Ｎ、髪の毛の部分１２４_Ｈ、および眉毛の上部１２４_Ｅにあるこれらの参照点を、顔１２０に対して実質的に固定されているものとして特徴づけてもよい。ソフトウェアはまたユーザの両目の瞳１２６および隅１２８を参照点として特定し、両目の隅に対する瞳の相対位置を判定してもよい。ある実装では、ユーザの目の中心は、瞳と目の隅の位置から推定することができる。その後、目の中心を推定して、瞳の位置を推定された目の中心と比較することができる。ある実装では、顔の対称性の特性を用いることができる。
【００２２】
ソフトウェアは、参照点と瞳１２６の相対位置の分析から、たとえば、頭部チルト角度および視線角度のようなユーザの顔の特徴を判定することができる。たとえば、ソフトウェアは、ユーザにカメラを真っ直ぐ見させることによって参照点１２４_Ｅ、１２４_Ｈ、１２４_Ｍ、１２４_Ｎ、１２８を初期化し、参照点と瞳１２６の位置を初期値として登録してもよい。次にソフトウェアは、これらの初期値に対して頭部チルト角と視線角をゼロに初期化することができる。その後、ユーザがカメラを真っ直ぐに見る度に、図１Ｂおよび図１Ｃに示す対応する上面図のように、参照点１２４_Ｅ、１２４_Ｈ、１２４_Ｍ、１２４_Ｎ、１２８および瞳１２６は初期値またはそれに近い値になるべきである。ソフトウェアは、頭部チルト角および視線角が初期値に近づくとき、ユーザの発話に高い関連度を割り当ててもよい。
【００２３】
一例であり限定するものではないが、両目のそれぞれの外側の隅１２８、口の外側の隅１２４_Ｍ、鼻の先端（図示しない）の５つの参照点を用いてユーザの頭部の姿勢を推定してもよい。目の中点（たとえば両目の外側の隅１２８の中間）と口の中点（たとえば口の両側の隅１２４_Ｍの中間）を線でつなぐことによって、顔の対称軸を見つけることができる。鼻の３次元角度から弱い遠近法の幾何学のもとで顔の方向を判定することができる。あるいは同じ５つの点を用いて、平面スキュー（歪み）対称性および鼻の位置の粗い推定から見つけることができる平面への放線から頭部姿勢を判定することができる。頭部姿勢の推定のさらなる詳細は、たとえば、"Head Pose Estimation in Computer Vision: A Survey" by Erik Murphy, in IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, Vol. 31, No. 4, April 2009, pp 607-626に記載されており、その内容を参照によりここに組み込む。本発明の実施の形態と関連づけて用いることのできる頭部姿勢推定の他の例は、"Facial feature extraction and pose determination", by Athanasios Nikolaidis Pattern Recognition, Vol. 33 (July 7, 2000) pp. 1783-1791に記載されており、その内容を参照によりここに組み込む。本発明の実施の形態と関連づけて用いることのできる頭部姿勢推定のさらなる例は、"An Algorithm for Real-time Stereo Vision Implementation of Head Pose and Gaze Direction Measurement", by Yoshio Matsumoto and Alexander Zelinsky in FG '00 Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition, 2000, pp 499-505に記載されており、その内容を参照によりここに組み込む。本発明の実施の形態と関連づけて用いることのできる頭部姿勢推定のさらなる例は、"3D Face Pose Estimation from a Monocular Camera" by Qiang Ji and Ruong Hu in Image and Vision Computing, Vol. 20, Issue 7, 20 February, 2002, pp 499-511に記載されており、その内容を参照によりここに組み込む。
【００２４】
ユーザが頭部を傾けたとき、画像１２２における参照点間の相対距離がチルト角に依存して変化する。たとえば、ユーザが頭部を垂直軸Ｚに関して右または左に旋回させるなら、図１Ｄに図示した画像１２２_Ｄに示すように、両目の隅１２８間の水平距離Ｘ_１が減少する。他の参照点もまた、利用される特定の頭部姿勢推測アルゴリズムに依存して、同様に作用し、またはより簡単に検出することができる。距離における変化量を、図１Ｅの対応する上面図に示されたピボット角θ_Ｈと相互に関連づけることができる。この旋回が純粋にＺ軸に関するものであるならば、鼻梁における三種点１２４_Ｎと口の角の参照点１２４_Ｍ間の垂直距離Ｙ_１は、大して変化しないことが期待される。しかしながら、ユーザが頭部を上方または下方に傾けたなら、この距離ｙ_１が変化することが合理的に期待される。さらに、注視方向の推定のために両目の隅１２８に対する瞳の相対位置を判定する際、ソフトウェアが頭部ピボット角θ_Ｈを考慮に入れてもよいことに留意する。あるいは、頭部ピボット角θ_Ｈを判定する際、ソフトウェアが両目の隅１２８に対する瞳の相対位置を考慮に入れてもよい。そのような実装は、たとえば、ハンドヘルドデバイス上に赤外光源をもたせることで視線予測がより簡単になる７ならば、瞳の位置を比較的容易に特定できるという利点がある。ある例では、図１Ｄと図１Ｅに示すように、ユーザの視線角θ_Ｅは、ユーザの頭部チルト角に多かれ少なかれ合わせられる。しかしながら、ユーザの頭部の旋回および眼球の３次元形状の性質のゆえに、瞳の位置は、初期画像１２２_Ｂにおける位置に比べて画像１２２_Ｄにおいてわずかながらずれるであろう。ソフトウェアは、頭部チルト角θ_Ｈおよび視線角θ_Ｅがある好適な範囲、たとえばユーザがカメラに対面している初期値に近い範囲、またはユーザ１０１がマイクロホン１０５の方を向いているある好適な範囲内にあるかどうかにもとづいてユーザの発話に関連性を割り当ててもよい。
【００２５】
ある状況では、ユーザ１０１はカメラの方を向いているが、ユーザの視線は、たとえば図１Ｆおよび図１Ｇの対応する上面図に示すように他の場所に向けられている。この例では、ユーザの頭のチルト角θ_Ｈはゼロであるが視線角θ_Ｅはゼロではない。代わりに、ユーザの眼球は図１Ｇに示すように反時計回りに回転している。その結果、参照点１２４_Ｅ、１２４_Ｈ、１２４_Ｍ、１２４_Ｎ、１２８は図１Ｂに示すように配置されるが、瞳１２６は画像１２２_Ｆにおいて左にずれる。ユーザ１０１から発せられる発話を解釈するか無視するかを決める際、プログラム１１２はユーザの顔のこの配置を考慮に入れてもよい。たとえば、ユーザがマイクロホンの方を向きながらマイクロホンから目をそらしている、または、ユーザがマイクロホンの方を見ながらマイクロホンから顔を背けているならば、プログラム１１２は、ユーザがマイクロホンを見ながら、マイクロホンの方にも顔を向けているときよりも、ユーザの発話を認識すべき確からしさに相対的に低い確率を割り当ててもよい。
【００２６】
ユーザの頭部はある方向に旋回し、ユーザの眼球は別の方向に旋回することがあることに留意する。たとえば、図１Ｈおよび図１Ｉに示されるように、ユーザ１０１は、頭部を時計回りに旋回させ眼球を反時計回りに回転させることがある。その結果、参照点１２４_Ｅ、１２４_Ｈ、１２４_Ｍ、１２４_Ｎ、１２８は図１Ｅに示すようにずれるが、瞳１２６は図１Ｈの画像１２２_Ｈにおいて右にずれる。ユーザ１０１から発せられる発話を解釈するか無視するかを決める際、プログラム１１２はこの配置を考慮に入れてもよい。
【００２７】
上述の議論からわかるように、カメラだけを用いてユーザの顔の向きの特徴を追跡することが可能である。しかしながら、顔の向きの特徴追跡のセットアップの他の多くの形態もまた利用することができる。図２Ａ〜２Ｅは、他のありうるシステムの中で、本発明の実施の形態にしたがって実装することのできる５つの顔の向きの特徴追跡システムの例を図示する。
【００２８】
図２Ａにおいて、ユーザ２０１は、ビジュアルディスプレイ２０３の上部に搭載されたカメラ２０５と赤外光センサ２０７と対面している。ユーザの頭部のチルト角を追跡するために、カメラ２０５はオブジェクトセグメンテーションを実行（すなわちユーザの身体の個々のパーツを追跡）して、取得された情報からユーザの頭部チルト角を推定するように構成されてもよい。カメラ２０５および赤外光センサ２０７は、上述のように構成されたソフトウェア２１３を実行するプロセッサ２１３に接続される。一例として、これに限定されないが、オブジェクトのありうる異なる動きにしたがってターゲットの画像がどのように変化するかを記述するモーションモデルを用いてオブジェクトセグメンテーションを実行してもよい。本発明の実施の形態は１以上のカメラを用いてもよく、たとえば、ある実装は二つのカメラを用いてもよいことに留意する。第１のカメラはユーザの位置を特定するためにズームアウトした視界の画像を提供し、第２のカメラは、ユーザの顔にズームインしてフォーカスし、頭部と注視方向のより良い推定をするためにクローズアップした画像を提供する。
【００２９】
このセットアップを用いてユーザの注視方向も取得してもよい。一例として、これに限られないが、赤外光は初めに赤外光センサ２０７からユーザの目に向けられ、反射光がカメラ２０５によってキャプチャされる。反射された赤外光から抽出された情報によって、カメラ２０５に接続されたプロセッサは、ユーザに対して目の回転量を判定することができる。ビデオにもとづく視線追跡は典型的には角膜反射および瞳中心を特徴として用いて時間をかけて追跡する。
【００３０】
このように図２Ａは、本発明の実施の形態にしたがってユーザの頭部チルト角および注視方向の両方を追跡するように構成された顔の向きの特徴追跡セットアップを示す。例示のために、ユーザはディスプレイとカメラの真っ直ぐ前にいることを想定している。しかしながら、本発明の実施の形態は、ユーザがディスプレイ２０３および／またはカメラ２０５の真っ直ぐ前にいなくても実装することができる。たとえば、ユーザ２０１は、ディスプレイの右／左に＋４５°または−４５°の位置にいてもよい。ユーザ２０１がカメラ２０５の視野内にいる限り、頭部角度θ_Ｈおよび視線θ_Ｅを推定することができる。次に、正規化された角度を、ディスプレイ２０３および／またはカメラ２０５に関するユーザ２０１の位置（たとえば図２Ａに示されたボディ角度θ_Ｂ）、頭部角度θ_Ｈおよび視線θ_Ｅの関数として計算することができる。たとえば、正規化された角度が許容範囲になるなら、発話を関連性のあるものとして受理することができる。一例として、これに限定しないが、ボディ角度θ_Ｂが＋４５°である位置にユーザ２０１がいて、頭部が−４５°の角度θ_Ｈで回転しているなら、ユーザ２０１は、頭を回転させることによってディスプレイ２０３からの体のずれを修正しており、これは、人にディスプレイを真っ直ぐ見させる点で好ましい。具体的には、もし、ユーザの視線角度θ_Ｅがゼロ（すなわちユーザの瞳が中心を向いている）であるなら、正規化された角度（たとえばθ_Ｂ＋θ_Ｈ＋θ_Ｅ）はゼロである。頭部、ボディ、視線の関数として正規化された角度は、発話が関連するものあるかどうかを判定するための所定の範囲と比較することができる。
【００３１】
図２Ｂは、別の顔の向きの特徴追跡セットアップを提供する。図２Ｂでは、ユーザ２０１は、ビジュアルディスプレイ２０３の上部に搭載されたカメラ２０５に対面している。ユーザ２０１は同時に、間隔を開けた赤外線（ＩＲ）光源２１１（たとえば眼鏡２０９の各レンズ上に一つずつの赤外線ＬＥＤ）をもつ眼鏡２０９（たとえば３Ｄシャッター眼鏡）を着用している。カメラ２０５は、光源２１１から放射される赤外線光をキャプチャし、取得された情報からユーザの頭部チルト角を三角測量するように構成される。光源２１１の位置は、ユーザの顔の位置に関して大して変わらないため、このセットアップによってユーザの頭部チルト角の比較的正確な推定をすることができる。
【００３２】
眼鏡２０９は、ビジュアルディスプレイ２０３の場所を見つけ、または、ビジュアルディスプレイ２０３の大きさを推定するためのソフトウェア２１２とともに利用可能なプロセッサ２１３に画像を提供することのできるカメラ２１０を含む。この情報を集めることにより、システムはユーザの顔の向きの特徴データを正規化することができ、その結果、これらの特徴量の計算がディスプレイ２０３の絶対的な位置およびユーザ２０１の絶対的な位置の両方から独立するようになる。さらにカメラを追加することにより、システムがより正確に可視範囲を推定することができるようになる。このように、図２Ｂは、本発明の実施の形態にしたがってユーザの頭部チルト角を判定するための別のセットアップを示す。ある実施の形態では、別個のカメラをユーザの目と対面させて眼鏡２０９の各レンズに搭載して、目の中心または隅に関して瞳の相対的位置を示す目の画像を取得することにより、視線追跡できるようにしてもよい。ユーザの目に対する眼鏡２０９の相対的に固定された位置は、ユーザの頭の向きθ_Ｈの追跡と独立してユーザの視線角度θ_Ｅを追跡するのに役立つ。
【００３３】
図２Ｃは、第３の顔の向きの特徴追跡セットアップを提供する。図２Ｃでは、ユーザ２０１は、ビジュアルディスプレイ２０３の上部に搭載されたカメラ２０５に対面している。ユーザ２０１はまた、１以上のカメラ２１７（たとえば両側に一つずつ）をもつコントローラ２１５を持っており、コントローラ２１５は、ユーザとビジュアルディスプレイ２０３上のコンテンツの間の相互作用を容易にするように構成される。
【００３４】
カメラ２１７は、ビジュアルディスプレイ２０３の場所を見つけ、または、ビジュアルディスプレイ２０３の大きさを推定するように構成されてもよい。この情報を集めることにより、システムはユーザの顔の向きの特徴データを正規化することができ、その結果、これらの特徴量の計算がディスプレイ２０３の絶対的な位置およびユーザ２０１の絶対的な位置の両方から独立するようになる。さらに、カメラ２１７をコントローラ２１５に追加することによって、システムは可視範囲をより正確に推定することができるようになる。
【００３５】
図２Ｃのセットアップはさらに（ダイアグラムでは図示しない）図２Ａのセットアップと組み合わせて、ユーザの頭部チルト角の追跡に加えて、ユーザの注視方向の追跡を行い、システムをディスプレイのサイズと場所に独立になるようにしてもよいことに留意することが重要である。ユーザの目はこのセットアップでは遮られていないから、ユーザの視線は、上述の赤外線反射およびそのキャプチャプロセスを通して取得することができる。
【００３６】
図２Ｄは、さらに別の顔の向きの特徴追跡セットアップを提供する。図２Ｄでは、ユーザ２０１は、ビジュアルディスプレイ２０３の上部に搭載されたカメラ２０５に対面している。ユーザ２０１はまた、赤外線光源２２１（たとえば左右の耳に一つずつ）とマイクロホン２３３をもつヘッドセット２１９を着用しており、ヘッドセット２１９は、ユーザとビジュアルディスプレイ２０３上のコンテンツの間の相互作用を容易にするように構成される。図２Ｂのセットアップのように、カメラ２０５は、ヘッドセット２１９条の光源２２１から放出される赤外線光の経路をキャプチャし、取得された情報からユーザの頭部チルト角を三角測量する。ヘッドセット２１９の位置は、ユーザの顔の位置に関して大して変わらない傾向があるため、このセットアップによってユーザの頭部チルト角の比較的正確な推定をすることができる。
【００３７】
赤外線光センサ２２１を用いたユーザの頭部チルト角を追跡することに加えて、ヘッドセット２１９の一部ではない別個のマイクロホンアレイ２７７によって特定の目標に関するユーザの頭部位置を追跡してもよい。マイクロホンアレイ２２７は、たとえばプロセッサ２１３上で動作する適切に構成されたソフトウェア２１２を用いて、ユーザの発話の大きさと向きの判定に役立つように構成されてもよい。そのような方法の例は、たとえば、同一出願人の米国特許第7,783,061号、同一出願人の米国特許第7,809,145号および同一出願人の米国特許出願公報第2006/0239471号に記載されており、これら３文献の全内容を参照によりここに取り込む。
【００３８】
サーモグラフィー情報を用いたユーザの発話の向き追跡の詳細な説明は、２０１０年９月２３日に出願されたRuxin ChenおよびSteven Osmanの「BLOW TRACKING USER INTERFACE SYSTEM AND METHOD」と題する米国特許出願番号第12/889,347号（代理人事件番号SCEA10042US00-I）に記載されており、参照によりここに取り込む。一例として、これに限定されないが、発話中のユーザの音声に対応するユーザの口に周りの空気中の振動パターンを検出するための熱探知カメラを用いてユーザの発話の向きを判定することができる。振動パターンの時間発展を解析して、ユーザの発話の一般化された方向に対応するベクトルを判定することができる。
【００３９】
カメラ２０５に関するマイクロホンアレイ２２７の位置とマイクロホンアレイ２２７に関するユーザの発話の方向の両方を用いて、特定の目標（たとえばディスプレイ）に関するユーザの頭の位置を計算してもよい。ユーザの頭のチルト角を定める際の精度を高めるために、頭のチルト角を判定するための赤外線反射法と方向追跡法を組み合わせてもよい。
【００４０】
ヘッドセット２１９は、ビジュアルディスプレイ２０３の場所を見つけ、ビジュアルディスプレイ２０３の大きさを見積もるように構成されたカメラ２２５をさらに含んでもよい。この情報を集めることにより、システムはユーザの顔の向きの特徴データを正規化することができ、その結果、これらの特徴量の計算がディスプレイ２０３の絶対的な位置およびユーザ２０１の絶対的な位置の両方から独立するようになる。さらにカメラを追加することにより、システムがより正確に可視範囲を推定することができるようになる。ある実施の形態では、１以上のカメラ２２５をユーザの目と対面させてヘッドセット２１９に搭載して、目の中心または隅に関して瞳の相対的位置を示す目の画像を取得することにより、視線追跡できるようにしてもよい。ユーザの目に対するヘッドセット２１９の相対的に固定された位置（したがってカメラ２２４の位置）は、ユーザの頭の向きθ_Ｈの追跡と独立してユーザの視線角度θ_Ｅを追跡するのに役立つ。
【００４１】
ユーザの頭部チルト角を追跡することに加えて、ユーザの注視方向を追跡するために図２Ｄのセットアップを図２Ａのセットアップに組み合わせてもよいことに留意することは重要である。ユーザの目はこのセットアップでは遮られていないから、ユーザの視線は、上述の赤外線反射およびそのキャプチャプロセスを通して取得することができる。
【００４２】
本発明の実施の形態は、携帯電話、タブレットコンピュータ、携帯情報端末、携帯インターネットデバイス、携帯ゲーム機その他のハンドヘルドデバイスに実装することもできる。図２Ｅは、ハンドヘルドデバイス２３０のコンテキストで発話の関連性を判定する一つの可能性のある例を示す。デバイス２３０は一般に、上述のように、適切なソフトウェアでプログラムすることができるプロセッサ２３９を含む。デバイス２３０は、プロセッサ２３９に接続されたディスプレイスクリーン２３１とカメラ２３５を含む。１以上のマイクロホン２３３とコントロールスイッチ２３７がオプションとしてプロセッサ２３９に接続されてもよい。マイクロホン２３３はマイクロホンアレイの一部であってもよい。コントロールスイッチ２３７は、特定のタイプのハンドヘルドデバイスで通常使われる任意のタイプであればよい。たとえば、デバイス２３０が携帯電話であれば、コントロールスイッチ２３７はそのようなデバイスで普通使われる数字と文字のキーパッドを含んでもよい。あるいは、デバイス２３０が携帯ゲーム機であれば、コントロールスイッチ２３７は、デジタルまたはアナログのジョイスティック、デジタルコントロールスイッチ、トリガなどを含んでもよい。ある実施の形態では、ディスプレイスクリーン２３１はタッチスクリーンインタフェースであってもよく、コントロールスイッチ２３７の機能は、ふさわしいソフトウェア、ハードウェア、またはファームウェアと連結したタッチスクリーンで実装されてもよい。カメラ２３５は、ユーザがディスプレイスクリーン２３１を見るときにユーザ２０１の方を向くように構成される。プロセッサ２３９は、頭部姿勢追跡および／または視線追跡を実装するソフトウェアでプログラムされてもよい。プロセッサはさらに、上述のように、マイクロホン２３３によって検出された発話の重要性を判定する際、頭部姿勢追跡および／または視線追跡情報を利用するように構成されてもよい。
【００４３】
ディスプレイスクリーン２３１、マイクロホン２３３、カメラ２３５、コントロールスイッチ２３７およびプロセッサ２３９を、ユーザの片手または両手で容易にもつことのできるケースに搭載してもよい。ある実施の形態では、デバイス２３０は、図２Ｂに示され、上述したような眼鏡２０９にありふれた特徴をもつ特化された眼鏡と連動して動作してもよい。そのような眼鏡は、無線または有線接続、たとえば、ブルートゥース（商標）ネットワーク接続のようなパーソナルエリアのネットワーク接続を通してプロセッサと通信してもよい。ある実施の形態では、デバイス２３０は、図２Ｄに示され、上述したようなヘッドセット２１９にありふれた特徴をもつヘッドセットと連動して利用される。そのようなヘッドセットは、無線または有線接続、たとえば、ブルートゥース（商標）ネットワーク接続のようなパーソナルエリアのネットワーク接続を通してプロセッサと通信してもよい。デバイス２３０は、無線ネットワーク接続を容易にするのに適したアンテナとトランシーバを含んでもよい。
【００４４】
図２Ａ〜２Ｅに示した事例は、本発明の実施の形態において発話中のユーザの顔の向きの特徴を追跡するために用いることのできる多くのセットアップの一例に過ぎない。
【００４５】
図３は、本発明の実施の形態にしたがってユーザの無関係の発話を検出するための方法を実装するために用いられるコンピュータ装置のブロック図である。装置３００は、一般に、プロセッサモジュール３０１とメモリ３０５を備える。プロセッサモジュール３０１は、並列処理を容易にするために、たとえば中央プロセッサと１以上のコプロセッサを含む１以上のプロセッサコアを含む。
【００４６】
メモリ３０５は、例えば、ＲＡＭ、ＤＲＡＭ、ＲＯＭなどの集積回路の形態を取ってもよい。メモリ３０５はまた、すべてのプロセッサモジュールによってアクセス可能なメインメモリであってもよい。ある実施の形態では、プロセッサモジュール３０１は、各コアに対応付けて関連付けられた別個のローカルメモリをもつマルチコアプロセッサである。プログラム３０３は、プロセッサモジュール上で実行することができるプロセッサ読み取り可能なインストラクションの形態でメインメモリ３０５に格納されてもよい。プログラム３０３は、任意の適切なプロセッサ読み取り可能な言語、たとえば、Ｃ、Ｃ＋＋、ＪＡＶＡ（登録商標）、アセンブリ、ＭＡＴＬＡＢ、フォートラン、および他の様々な言語で書かれる。プログラム３０３は、図１Ａ〜１Ｉに関して上述したような顔追跡および注視追跡を実装する。
【００４７】
入力データ３０７はメモリに格納されてもよい。そのような入力データ３０７には、頭部チルト角度、注視方向、またはユーザに関連づけられた他の顔の向きの特徴が含まれる。あるいは、入力データ３０７は、カメラからのデジタル化されたビデオ信号および／または１以上のマイクロホンからのデジタル化されたオーディオ信号の形態である。プログラム３０３は、そのようなデータを用いて、頭部チルト角および／または注視方向を計算することができる。プログラム３０３の実行中、プログラムコードおよび／またはデータの一部がメモリまたは複数のプロセッサコアによって並列処理するためにプロセッサコアのローカルストアにロードされてもよい。
【００４８】
装置３００はさらに、入出力（Ｉ／Ｏ）装置３１１、電源（Ｐ／Ｓ）３１３、クロック（ＣＬＫ）３１５およびキャッシュ３１７などの周知のサポート機能３０９を備えてもよい。装置３００はオプションとして、プログラムおよび／またはデータを格納するためのディスクドライブ、ＣＤ−ＲＯＭドライブ、テープドライブなどの大容量記憶装置３１９を備えてもよい。装置３００はまた、オプションとして、装置３００とユーザの相互作用を容易にするために、ディスプレイユニット３２１とユーザインタフェースユニット３２５を備えてもよい。ディスプレイユニット３２１は、テキスト、数値、グラフィカルシンボルや画像を表示する陰極線管（ＣＲＴ）、またはフラットパネルスクリーンの形態であってもよい。一例として、これに限定しないが、ディスプレイユニット３２１は、Ｉ／Ｏエレメント３１１に接続可能な３Ｄビューイング眼鏡で見る立体画像として、テキスト、数字、グラフィックシンボルまたは他のビジュアルオブジェクトを表示する３Ｄ可能テレビセットの形態であってもよい。立体視とは、それぞれの目に少しだけ異なる画像を提供することによって２次元画像に奥行きがあるかのような錯視をもたせることである。上述のように、光源またはカメラを眼鏡３２７に搭載してもよい。ある実施の形態では、眼鏡の各レンズにユーザの目に向かって個別にカメラを搭載し、目の中央または隅に関する瞳の相対位置を示す目の画像を取得することによって注視追跡を容易にしてもよい。
【００４９】
ユーザインタフェース３２５は、キーボード、マウス、ジョイスティック、ライトペンや他の装置を備えてもよく、これらは、グラフィカルユーザインタフェース（ＧＵＩ）と併せて使われてもよい。装置３００はまた、ネットワークインタフェース３２３を含み、これにより、当該装置がインターネットのようなネットワーク上で他の装置と通信することが可能になる。これらの構成要素はハードウェア、ソフトウェア、ファームウェアまたはこれらの２以上の組み合わせによって実装される。
【００５０】
ある実施の形態では、システムはオプションのカメラ３２９を含む。Ｉ／Ｏエレメント３１１を介してプロセッサ３０１にカメラ３２９を接続することができる。上述のように、カメラ３２９は、発話中に与えられたユーザに関連づけられた顔の向きの特徴を追跡するように構成してもよい。
【００５１】
ある実施の形態では、システムはオプションのマイクロホン３３１を含み、これは単一のマイクロホン、またはある既知の距離だけ互いに離れた２以上のマイクロホン３３１Ａ、３３１Ｂをもつマイクロホンアレイであってもよい。Ｉ／Ｏエレメント３１１を介してプロセッサ３０１にマイクロホン３３１を接続することができる。上述のように、マイクロホン３３１は、与えられたユーザの発話の方向を追跡するように構成される。
【００５２】
プロセッサ３０１、メモリ３０５、サポート機能３０９、大容量記憶装置３１９、ユーザインタフェース３２５、ネットワークインタフェース３２３、およびディスプレイ３２１を含むシステム３００のコンポーネントは、１以上のデータバス３２７を介して互いに機能的に接続される。これらの構成要素はハードウェア、ソフトウェア、ファームウェアまたはこれらの２以上の組み合わせによって実装される。
【００５３】
装置の複数のプロセッサを用いて並列処理を効率化する付加的な方法が多数ある。たとえば、２以上のプロセッサコア上でコードを複製し、各プロセッサコアに異なるデータ部分を処理させることによって、処理ループを「アンロール（unroll）」することができる。そのような実装によって、ループ設定に関連するレイテンシを回避することができる。本発明に適用すると、複数のプロセッサが並列に複数のユーザからのボイス入力の関連性を判定することができる。各ユーザの発話中の顔の向きの特徴を並列に取得し、各ユーザの発話の関連性の特徴づけを並列に行うこともできる。並列にデータを処理する能力は貴重な処理時間を節約し、無関係の音声入力の検出のためのより効率的で簡素化されたシステムが可能になる。
【００５４】
２以上のプロセッサエレメント上で並列処理を実装することのできるプロセッシングシステムの中の一つの例は、セルプロセッサとして知られる。セルプロセッサとして分類される多数の異なるプロセッサアーキテクチャがある。一例であり、これに限られないが、図４は、あるタイプのセルプロセッサアーキテクチャを示す。この例では、セルプロセッサ４００は、メインメモリ４０１、ひとつのパワープロセッサ要素（ｐｏｗｅｒｐｒｏｃｅｓｓｏｒｅｌｅｍｅｎｔ：ＰＰＥ）４０７、および８つのシナジスティックプロセッサ要素（ｓｙｎｅｒｇｉｓｔｉｃｐｒｏｃｅｓｓｏｒｅｌｅｍｅｎｔ：ＳＰＥ）４１１を備える。あるいは、セルプロセッサは任意の数のＳＰＥで構成されてもよい。図４を参照して、メモリ４０１、ＰＰＥ４０７およびＳＰＥ４１１は、リングタイプのエレメント相互結合バス４１７上で互いに通信したり、Ｉ／Ｏデバイス４１５と通信することができる。メモリ４０１は上述の入力データの通常の特徴をもつ入力データ４０３と上述のプログラムの通常の特徴をもつプログラム４０５を含む。少なくとも一つのＳＰＥ４１１は、音声関連性推定インストラクション４１３および／または上述のように並列に処理されるべき入力データの一部をローカルストアに含む。ＰＰＥ４０７は、上述のプログラムに普通にある特徴をもつボイス入力関連性判定インストラクション４０９をＬ１キャッシュに含む。インストラクション４０５およびデータ４０３は、ＳＰＥ４１１および必要であればＰＰＥ４０７によってアクセスできるようにメモリ４０１に格納してもよい。
【００５５】
一例として、ＰＰＥ４０７は、関連するキャッシュを持つ６４ビットパワーＰＣプロセッサユニット（ＰＰＵ）であってもよい。ＰＰＥ４０７はオプションとしてベクトルマルチメディア拡張ユニットを含んでもよい。各ＳＰＥ４１１は、シナジスティックプロセッサユニット（ＳＰＵ）とローカルストア（ＬＳ）とを備える。ある実装では、ローカルストアは、プログラムとデータのための約２５６キロバイトのメモリ容量を有する。ＳＰＵは、システム管理機能を実行しないという点で、ＰＰＵよりも単純な計算ユニットである。ＳＰＵは、ＳＩＭＤ（single instruction, multiple data）機能を有し、典型的にはデータ処理を行い、割り当てられたタスクを行うために（ＰＰＥにより設定されたアクセス特性にしたがって）要求されたデータ転送を開始する。ＳＰＵにより、システム６００は、より高い計算ユニット密度を要求するアプリケーションを実装し、提供された命令セットを効率良く利用することができるようになる。ＰＰＥ６０４によって管理されるシステム６００の相当数のＳＰＥによって、広範囲のアプリケーションにわたって費用対効果の高い処理が可能になる。一例として、セルプロセッサは、セルブロードバンドエンジンアーキテクチャ（ＣＢＥＡ）によって特徴づけられる。ＣＢＥＡ準拠のアーキテクチャでは、複数のＰＰＥを一つのＰＰＥグループに結合してもよく、複数のＳＰＥを一つのＳＰＥグループに結合してもよい。例示のために、セルプロセッサを単一のＳＰＥと単一のＰＰＥをもった単一のＳＰＥグループと単一のＰＰＥグループをもつものとして図示している。あるいは、セルプロセッサは複数のＰＰＥグループと複数のＳＰＥグループを含んでもよい。ＣＢＥＡ準拠のプロセッサはたとえば、http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdfにおいてオンラインで利用可能な「セル・ブロードバンド・エンジン・アーキテクチャ」に詳細に記載されており、ここに参照により組み込む。
【００５６】
別の実施の形態によれば、ボイス入力の関連性を判定するための命令をコンピュータ読み取り可能な記憶媒体に格納してもよい。一例として、これに限られないが、図５は、コンピュータ読み取り可能な記憶媒体５００の例を示す。記憶媒体５００には、コンピュータ・プロセッシング・デバイスが読み取って解釈することのできるフォーマットで格納されたコンピュータ読み取り可能な命令が含まれる。一例として、これに限られないが、コンピュータ読み取り可能な記憶媒体５００は、ＲＡＭまたはＲＯＭのようなコンピュータ読み取り可能なメモリ、固定ディスクドライブ（たとえば、ハードディスクドライブ）に対するコンピュータ読み取り可能なストレージディスク、またはリムーバブルディスクドライブであってもよい。さらに、コンピュータ読み取り可能な記憶媒体５００は、フラッシュメモリデバイス、コンピュータ読み取り可能なテープ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ブルーレイ（商標）、ＨＤ−ＤＶＤ、ＵＭＤ、あるいは他の光記憶媒体を含む。
【００５７】
記憶媒体５００は、ボイス入力の関連性の推定を容易にするように構成されたボイス入力関連性判定インストラクション５０１を含む。ボイス入力関連性判定インストラクション５０１は、図１に関して上述した方法にしたがってボイス入力の関連性の判定を実装するように構成される。特に、ボイス入力関連性判定インストラクション５０１は、発話がアクティブなエリア内に位置する人から来ているかどうかを判定するために利用されるユーザの存在を特定するインストラクション５０３を含む。発話がアクティブエリア外に位置する人から来たものであるなら、上述のように、それは直ちに無関係なものとして特徴づけられる。
【００５８】
ボイス入力の関連性を判定するインストラクション５０１はまた、発話中のユーザ（または複数のユーザ）の顔の向きの特徴を取得するために利用されるユーザの顔の向きの特徴を取得するインストラクション５０５を含む。これらの顔の向きの特徴は、ユーザの発話が特定のターゲットに向けられているかどうかを判定するのに役立つ手がかりとして作用する。一例として、これに限定されないが、これらの顔の向きの特徴は、上述のように、ユーザの頭部チルト角および視線方向を含んでもよい。
【００５９】
ボイス入力の関連性を判定するインストラクション５０１はまた、ユーザのオーディオの特徴（すなわち発話の方向）およびビジュアルの特徴（すなわち顔の向き）にもとづいてユーザの発話の関連性を特徴づけるために利用されるユーザのボイス入力の関連性を特徴づけるインストラクション５０７を含む。ユーザの発話は、１以上の顔の向きの特徴が許容範囲外にある場合、無関係であるとして特徴付けられてもよい。あるいは、顔の向きのそれぞれの特徴の許容範囲からの逸脱にしたがってユーザの発話の関連性を重み付けしてもよい。
【００６０】
本発明の好ましい実施の形態を完全な形で説明してきたが、いろいろな代替物、変形、等価物を用いることができる。したがって、本発明の範囲は、上記の説明を参照して決められるものではなく、請求項により決められるべきであり、均等物の全範囲も含まれる。ここで述べた特徴はいずれも、好ましいかどうかを問わず、他の特徴と組み合わせてもよい。請求項において、明示的に断らない限り、各項目は１またはそれ以上の数量である。請求項において「〜のための手段」のような語句を用いて明示的に記載する場合を除いて、請求項がミーンズ・プラス・ファンクションの限定を含むものと解してはならない。

【特許請求の範囲】
【請求項１】
入力された発話の関連性を判定する方法であって、
ａ）ある時間間隔における発話中のユーザの顔の存在を特定するステップと、
ｂ）前記時間間隔の間のユーザの顔に関連づけられた１以上の顔の向きの特徴を取得するステップと、
ｃ）ステップｂ）で取得された１以上の顔の向きの特徴にもとづいて前記時間間隔の間の発話の関連性を特徴付けるステップとを含むことを特徴とする方法。
【請求項２】
ステップｂ）における１以上の顔の向きの特徴を取得するステップは、カメラを用いてユーザの顔の向きの特徴を追跡するステップを含む請求項１の方法。
【請求項３】
ステップｂ）における１以上の顔の向きの特徴を取得するステップは、赤外光を用いてユーザの顔の向きの特徴を追跡するステップをさらに含む請求項２の方法。
【請求項４】
ステップｂ）における１以上の顔の向きの特徴を取得するステップは、マイクロホンを用いてユーザの顔の向きの特徴を追跡するステップを含む請求項１の方法。
【請求項５】
ステップｂ）における１以上の顔の向きの特徴は、頭部チルト角を含む請求項１の方法。
【請求項６】
ステップｂ）における１以上の顔の向きの特徴は、注視方向を含む請求項１の方法。
【請求項７】
ステップｃ）は、１以上の顔の向きの特徴が許容範囲から外れる場合、ユーザの発話を無関係なものとして特徴づける請求項１の方法。
【請求項８】
ステップｃ）は、１以上の顔の向きの特徴の許容範囲からの逸脱にもとづいてユーザの発話の関連性を重み付けするステップを含む請求項１の方法。
【請求項９】
発話中のユーザの顔に関連づけられた１以上の顔の向きの特徴を取得する前にユーザの顔のプロファイルを登録するステップをさらに含む請求項１の方法。
【請求項１０】
発話源の方向を判定するステップをさらに含み、ステップｃ）は、発話の関連性を特徴づける際に発話源の方向を取り入れるステップを含む請求項１の方法。
【請求項１１】
ステップｃ）は、イメージキャプチャデバイスによってキャプチャされた画像内の複数の発話源を区別するステップを含む請求項１の方法。
【請求項１２】
発話の関連性を判定するための装置であって、
プロセッサと、
メモリと、
前記メモリに具体化され、前記プロセッサにより実行可能なコンピュータのコード化されたインストラクションとを含み、前記コンピュータのコード化されたインストラクションは、ユーザの発話の関連性を判定する方法を実装するように構成され、当該方法は、
ａ）ある時間間隔における発話中のユーザの顔の存在を特定するステップと、
ｂ）前記時間間隔の間のユーザの顔に関連づけられた１以上の顔の向きの特徴を取得するステップと、
ｃ）ステップｂ）で取得された１以上の顔の向きの特徴にもとづいて前記時間間隔の間の発話の関連性を特徴付けるステップとを含むことを特徴とする装置。
【請求項１３】
ステップｂ）において１以上の向きを取得するように構成されたカメラをさらに含む請求項１２の装置。
【請求項１４】
ステップｂ）において１以上の向きを取得するように構成された１以上の赤外光をさらに含む請求項１２の装置。
【請求項１５】
ステップｂ）において１以上の向きを取得するように構成されたマイクロホンをさらに含む請求項１２の装置。
【請求項１６】
コンピュータプログラム製品であって、
発話の関連性を判定するための媒体に具体化されたコンピュータ読み取り可能なプログラムコードをもった一過性でないコンピュータ読み取り可能な記録媒体を含み、前記コンピュータプログラムは、
ａ）ある時間間隔における発話中のユーザの顔の存在を特定するためのコンピュータ読み取り可能なプログラムコードと、
ｂ）前記時間間隔の間のユーザの顔に関連づけられた１以上の顔の向きの特徴を取得するためのコンピュータ読み取り可能なプログラムコードと、
ｃ）ステップｂ）で取得された１以上の顔の向きの特徴にもとづいて前記時間間隔の間の発話の関連性を特徴付けるためのコンピュータ読み取り可能なプログラムコードとを含むことを特徴とするコンピュータプログラム製品。

【図１Ａ】