情報処理装置、携帯端末、情報処理方法、情報処理プログラム、およびコンピュータ読取可能な記録媒体

【課題】ユーザが注目しているオブジェクトの領域を判別し、その領域に関する注釈情報を的確にユーザに提示する。
【解決手段】眼球撮影画像に基づき、ユーザがオブジェクトに注目している状態を検出する眼球動作検出部２と、眼球動作検出部２によりユーザが注目状態にあると検出された際、視界画像内においてユーザが注目しているオブジェクトを認識するオブジェクト認識部４と、上記オブジェクトにおいてユーザが注目している注目領域を判別する注目領域判別部５と、注目領域判別部５により判別された注目領域に関する注釈情報をユーザに提示する注釈情報提示部６とを備えている。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、拡張現実感に関するものであり、注目対象となるオブジェクトの注釈情報を適応的にユーザに提示し得る情報処理装置、携帯端末、情報処理方法、情報処理プログラム、およびコンピュータ読取可能な記録媒体に関するものである。
【背景技術】
【０００２】
拡張現実感(Augmented Reality、以下ARと略す)とは、テキストやCG等の注釈情報を実世界のオブジェクトに重ねて、あるいは近い位置に提示することによって、実世界に情報を付加する技術であり、これによりユーザはオブジェクトの外観が持つ情報以上の情報を得ることができる。ARシステムでは、ユーザが興味を持つオブジェクトの情報を提示することを目的とするため、ユーザが注目しているオブジェクトを認識する必要がある。既存のシステムにおいて、オブジェクトの認識方法は、オブジェクト認識のためのタグ付けを行う方法と、行わない方法に大別でき、それぞれの方法により研究が盛んに行われている。
【０００３】
オブジェクトにタグを付け、タグを読み取ることによりオブジェクトを認識し、関連付けられた情報を提示する方法（非特許文献１〜４参照）では、2次元バーコードやRFIDタグ、赤外LEDをオブジェクトに取り付ける方法（非特許文献１〜３参照）や、物理的なタグを貼り付けるのではなく、赤外線によりタグを投影する方法が提案されている（非特許文献４参照）。これらの方法では、注釈情報を提示するために、ユーザはタグリーダやカメラなどのデバイスによりタグを読み取るという明示的な動作が必要となる。一方、タグ付けを行わずオブジェクトの認識を行い、関連付けられた情報の提示を行う方法（非特許文献５，６参照）では、事前に獲得しておいたオブジェクトの画像を基にして、ユーザに装着したカメラに映っているオブジェクトの認識を行っている。これらの方法では、オブジェクト全体が画像に映っている場合の認識精度は100%となっている。
【非特許文献１】小林元樹, 小池英樹, “電子情報の表示と操作を実現する机型実世界インターフェース「EnhancedDesk」”, インタラクティブシステムとソフトウェアＶ:日本ソフトウェア科学会WISS1997.
【非特許文献２】椎尾一郎, 増井俊之, 福地健太郎, “FieldMouseによる実世界インタラクション”, インタラクティブシステムとソフトウェアVII:日本ソフトウェア科学会WISS1999.
【非特許文献３】青木恒, “カメラで読み取る赤外線タグとその応用”, インタラクティブシステムとソフトウェアVIII:日本ソフトウェア科学会WISS2000.
【非特許文献４】白井良成, 松下光範, 大黒毅, “秘映プロジェクタ：不可視情報による実環境の拡張”,インタラクティブシステムとソフトウェアXI:日本ソフトウェア科学会WISS2003.
【非特許文献５】T. Kurata, T. Okuma, M. Kourogi, T. Kato, and K. Sakaue, “VizWear: Toward HumanCentered Interaction through Wearable Vision and Visualization”, The Second IEEE PacificRim Conference on Multimedia, 2001.
【非特許文献６】T. Jebara, B. Schiele, N. Oliver, A. Pentland, “DyPERS: Dynamic Personal Enhanced Reality System”, M.I.T. Media Lab. Perceptual Computing Section Technical Report, No. 468, 1998.
【非特許文献７】池田光男, “眼はなにを見ているか”, 平凡社, 1998.
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来技術では、オブジェクトに関する情報を提示する際に、ユーザがそのオブジェクトに興味を持っているか否かの判断を行っていないため、ユーザにとって不必要な情報を提示する場合がある。また、オブジェクトの認識しか行っていないため、オブジェクトのどの部分に注目したかを検出することはできない。
【０００５】
本発明は、上記従来の問題点に鑑みなされたものであって、ユーザが注目しているオブジェクトに関する注釈情報を的確にユーザに提示し得る情報処理装置、携帯端末、情報処理方法、情報処理プログラム、およびコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００６】
本発明の情報処理装置は、上記課題を解決するために、ユーザの眼球運動を撮影した眼球撮影画像に基づき、ユーザがオブジェクトに注目している状態を検出する眼球動作検出手段と、上記眼球動作検出手段によりユーザが注目状態にあると検出された際、ユーザの視界を撮影した視界画像内において、ユーザが注目しているオブジェクトを認識するオブジェクト認識手段と、上記オブジェクトにおいてユーザが注目している注目領域を判別する注目領域判別手段と、上記注目領域判別手段により判別された注目領域に関する注釈情報をユーザに提示する注釈情報提示手段とを備えていることを特徴としている。
【０００７】
上記構成によれば、眼球動作検出手段にてユーザが注目状態にあることを検出した上で、オブジェクト認識手段によりユーザが注目しているオブジェクトが認識されるので、ユーザが真に興味を示しているオブジェクトを認識することができる。
【０００８】
その上、注目領域判別手段により、オブジェクトにおいてユーザが注目している注目領域を判別するので、オブジェクトにおいてどの部分にユーザが注目しているかを把握することができる。そして、注釈情報提示手段は、上記注目領域に関する情報をユーザに提示するので、ユーザが真に興味を示している領域に関する注釈情報を的確にユーザに提示することが可能であり、不必要な情報がユーザに提示されることを防止できる。
【０００９】
このように、本発明の情報処理装置によれば、ユーザが興味を示している領域に関する注釈情報が的確にユーザに提示されるので、本発明の情報処理装置の快適な利用環境をユーザに与えることができる。
【００１０】
さらに、本発明の情報処理装置は、上記課題を解決するために、上記眼球動作検出手段が、上記眼球撮影画像から瞳孔領域を抽出する視線検出手段と、上記瞳孔領域における中心座標から注視点の移動距離を算出する注視点算出手段と、上記注視点の移動距離から、オブジェクトに対するユーザの視角を算出するとともに、その視角の大きさに基づき眼球の固視状態および跳躍状態を検出し、これら固視状態および跳躍状態の回数に基づきユーザがオブジェクトに注目している状態を検出する注目状態検出手段とを備えていることを特徴としている。
【００１１】
人間が何かに注目している際には、固視状態と跳躍状態とを頻繁に繰り返すことが知られている。したがって、この眼球運動の特徴を利用すれば、ユーザが注目状態にあることを的確に検出することができる。
【００１２】
そこで、上記構成では、眼球動作検出手段に、視線検出手段と、注視点算出手段と、注目状態検出手段とが備えられている。
【００１３】
すなわち、固視状態および跳躍状態は、ユーザの視角を検出することにより検出可能であり、ユーザの視角は、注視点の移動距離を算出すれば求めることができる。
【００１４】
上記構成の情報処理装置は、視線検出手段によりたとえば２値化処理を用いて瞳孔領域を抽出する一方で、注視点算出手段により注視点の移動距離を算出する。そして、注目状態検出手段は、注視点算出手段により求められた注視点の移動距離からユーザの視角を算出して固視状態および跳躍状態の頻度を検出するので、的確にユーザの注目状態を検出することができる。
【００１５】
このように、上記構成によれば、ユーザの注目状態を的確に把握することができるので、ユーザが興味を示しているオブジェクトがオブジェクト認識手段により的確に認識され、注釈情報提示手段はさらに的確な注釈情報をユーザに提示することができる。
【００１６】
さらに、本発明の情報処理装置は、上記課題を解決するために、上記注目状態検出手段が、ユーザが注目状態にある間の注視点の分布を内包するように複数の注視点を結ぶことにより、上記視界画像内に最小多角形領域を画定するものであるとともに、上記注目領域判別手段が、データベース内に格納された登録画像における複数の領域のうち、上記最小多角形領域との重なりが最大となる領域を判断し、その領域に対応する上記視界画像内の領域を、上記注目領域として判別するものであることを特徴としている。
【００１７】
上記構成によれば、注目状態検出手段により最小多角形領域が画定される。この最小多角形領域は、注視点の分布を内包するように複数の注視点を結んで得られるものであるから、視界画像においてユーザが注目している領域を的確に表しているといえる。
【００１８】
そして、注目領域判別手段は、上記最小多角形との重なりが最大となる領域を、データベース内の登録画像について判断し、その領域に対応する視界画像内の領域を注目領域として判断するので、ユーザが注目している領域を的確に注目領域として判別することができる。
【００１９】
さらに、本発明の情報処理装置は、上記課題を解決するために、上記オブジェクト認識手段が、上記視界画像における色相と、データベース内に格納された上記視界画像の候補となり得る登録画像の色相とに基づき、ユーザが注目しているオブジェクトを認識するものであることを特徴としている。
【００２０】
視界画像がたとえば絵画画像のような色彩のある画像であれば、その色相により視界画像に含まれるオブジェクトを特徴付けることが可能である。そこで、上記構成では、視界画像の色相と、登録画像の色相とに基づき、ユーザが注目しているオブジェクトを認識するので、オブジェクトの認識精度を高めることができる。
【００２１】
さらに、本発明の情報処理装置は、上記課題を解決するために、上記注釈情報提示手段が、さらに、上記注目領域と階層構造をなす領域に関する注釈情報をユーザに提示するものであることを特徴としている。
【００２２】
上記構成によれば、注目領域と階層構造をなす領域に関する注釈情報もユーザに提示されるので、ユーザは注目領域に関してより多くの情報を得ることができ、注目領域に関する理解を深めることができる。
【００２３】
また、上記眼球撮影画像を撮影する第１カメラ、および上記視界画像を撮影する第２カメラの一方または双方を携帯端末に搭載することにより、ユーザが移動しても眼球撮影画像や視界画像を撮影することができるので、本発明の情報処理装置の利便性をさらに高めることができる。
【００２４】
さらに、携帯端末により注釈情報の再生を行うことで、移動するユーザに対しても注釈情報の提示を行うことができるので、本発明の情報処理装置の利便性をより高めることができる。
【００２５】
また、本発明の情報処理方法は、上記課題を解決するために、ユーザの眼球運動を撮影した眼球撮影画像に基づき、ユーザがオブジェクトに注目している状態を検出する第１ステップと、上記第１ステップによりユーザが注目状態にあると検出された際、ユーザの視界を撮影した視界画像内において、ユーザが注目しているオブジェクトを認識する第２ステップと、上記オブジェクトにおいてユーザが注目している注目領域を判別する第３ステップと、上記第３ステップにて判別された注目領域に関する注釈情報をユーザに提示する第４ステップとを備えていることを特徴としている。
【００２６】
上記構成の情報処理方法によれば、本発明の情報処理装置と同様の作用効果を得ることができる。
【００２７】
なお、コンピュータに上記情報処理方法における各ステップを実行させる情報処理プログラムにより、コンピュータを用いて本発明の情報処理方法と同様の作用効果を得ることができる。さらに、上記情報処理プログラムをコンピュータ読取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で上記情報処理プログラムを実行させることができる。
【発明の効果】
【００２８】
本発明の情報処理装置によれば、オブジェクトに全体的に注目しているならばオブジェクト全体に関する注釈情報を提示し、オブジェクトに部分的に注目しているならばその部分に関する注釈情報を提示するなど、ユーザが注目した箇所に対応した注釈情報を適応的にユーザに提示することが可能となる。
【発明を実施するための最良の形態】
【００２９】
〔１．情報処理装置の構成〕
本発明の一実施形態に係る情報処理装置について、図１〜図１６に基づいて説明する。図１に示すように、情報処理装置１は、眼球動作検出部２と、オブジェクト領域抽出部３と、オブジェクト認識部４と、注目領域判別部５と、注釈情報提示部６と、データベース７とを備えている。
【００３０】
眼球動作検出部２は、ユーザが何かに注目していることを検出するために、眼球を撮影するカメラ１７の画像（以下、眼球撮影画像とする）から、ユーザの視線の動きを検出するものである。より具体的には、眼球動作検出部２は、視線検出部８と、注視点算出部９と、注目状態検出部１０とを備えている。これらの眼球動作検出部２に設けられた各ブロックにおける処理内容については後述する。
【００３１】
オブジェクト領域抽出部３は、ユーザが何かに注目している際に、視界を撮影するカメラ１８の画像（以下、視界画像とする）から、オブジェクト領域を抽出するものである。オブジェクト領域の抽出手法に関しては、種々の方法を採用することができるが、ここではその一例として、オブジェクト領域抽出部３に設けられる水平方向エッジ検出部１１、垂直方向エッジ検出部１２、色相分割部１３、およびヒストグラム算出部１４によりオブジェクト領域を抽出する手順について説明する。なお、これらのオブジェクト領域抽出部３に設けられた各ブロックにおける処理内容の詳細については後述する。
【００３２】
オブジェクト認識部４は、視界画像からオブジェクト領域抽出部３により抽出された領域に映っている画像と、データベース７内に格納された登録画像とのマッチング処理を行い、ユーザが注目している画像を認識するものである。なお、登録画像とは、予めデータデース内に格納された、視界画像の候補となる画像である。
【００３３】
このマッチング処理の手法に関しても、オブジェクト領域の抽出手法と同様に種々の方法を採用することができる。ここでは、マッチング処理の一例として、オブジェクト認識部４に設けられた色相平均算出部１５および色差算出部１６を用いて、オブジェクト領域抽出部３により抽出された画像とデータベース７内の登録画像とのそれぞれにおける色相の平均値・色差に着目する手法について説明する（詳細は後述する）。
【００３４】
注目領域判別部５は、オブジェクト認識部４によりユーザが注目していると認識された画像において、ユーザがどの領域に注目しているかさらに詳細に判別するものである。この注目領域判別部５は、データベース７に登録された画像における領域であって、注視点座標に基づいて決定される最小凸多角形領域（詳細は後述する）との重なりが最大となる領域を、ユーザが注目していると判断する。注目領域の判別処理についての詳細は後述する。
【００３５】
注釈情報提示部６は、注目領域判別部５によりユーザが注目していると判別された領域に関する注釈情報（たとえばテキストデータ、音声データ、静止画像データ、動画像データ）をデータベース７から読み出し、情報処理装置１の外部に設けられた出力装置（たとえばノートパソコン、ヘッド・マウンテッド・ディスプレイ、ヘッドホン、スピーカ）に出力するためのものである。
【００３６】
データベース７は、ユーザにその注釈情報が提供される登録画像と、登録画像内のオブジェクトに関するデータとして、オブジェクトの色、オブジェクト上で注釈情報が付加されている領域の座標、その注釈情報とを格納している。
【００３７】
なお、カメラ１７は、たとえばＣＣＤカメラであり、眼球の下部に設置される。また、カメラ１８はたとえばＣＣＤカメラであり、眉間に設置される。これら２つのカメラ１７・１８は、ユーザが正面を見ているときの眼球と、そのときの視界の中心とが、それぞれのカメラ画像において中心に映るような位置関係に配置される。
【００３８】
上記構成により、情報処理装置１は、ユーザの眼球運動から、ユーザがオブジェクトに注目している状態を検出することにより、ユーザが注目しているオブジェクトの注釈情報を提示することができる。この注釈情報が提示されるまでの一連の処理を、図２のフローチャートを用いて説明する。
【００３９】
まず、図２に示すように、ユーザが何かのオブジェクトに注目している状態が、眼球動作検出部２により検出される（ステップ１、以下ステップを単にＳと記載する）。その後、オブジェクト領域抽出部３により、視界画像が獲得されるとともに（Ｓ２）、その視界画像からオブジェクト領域の抽出が行われる（Ｓ３）。さらに、オブジェクト認識部４によりユーザが注目している画像の認識が行われ（Ｓ４）、ユーザが注目していると認識された画像において、ユーザがどの領域に注目しているか、注目領域判別部５によりさらに詳細に判別される（Ｓ５）。そして、注釈情報提示部６により、ユーザが注目していると判別された領域に関する注釈情報がユーザに提示され（Ｓ６）、一定時間経過した後に注釈情報の提示が終了する（Ｓ７）。
【００４０】
最後に、注目の検出を再開するか否かの判断が行われ（Ｓ８）、再開する場合にはＳ１の処理に戻り、再開しない場合は、一連の処理が終了する。なお、Ｓ８における判断は、たとえば、スイッチ、キーボード、マウス等の入力デバイスから、ユーザにより「注目の検出を再開する」旨の入力があったか否かを判断することにより行うことができる。
【００４１】
本実施形態における情報処理装置１は、上述した構成および処理フローにより、ユーザが注目している領域に関する注釈情報を、的確にユーザに提示することができる。以下、情報処理装置１における各ブロックにより行われる処理の詳細について説明する。
【００４２】
〔２．眼球動作検出部２における処理〕
眼球動作検出部２は、上述したように、ユーザが何かに注目していることを検出するために、眼球撮影画像から、ユーザの視線の動きを検出するものである。なお、以下の説明では、ユーザが注目状態にあることが検出されたときの、注目開始時から注目終了時までを区間を「注目区間」と定義する。
【００４３】
また、眼球動作検出部２は、上述したとおり、視線検出部８と、注視点算出部９と、注目状態検出部１０とを備えており（図１参照）、視線検出部８によりユーザの視線を検出するとともに、注視点算出部９により視線に対応した注視点座標を算出する。なお、注視点座標とは、ユーザが実世界において視線を合わせていた点（以下、注視点と呼ぶ）を、視界画像における座標で示したものとする。また、注目区間における注視点の広がりを「注視点分布」と定義する。
【００４４】
〔２−１．視線検出部８における処理〕
視線検出部８によるユーザの視線の検出は、瞳孔の位置を検出することにより行われる。つまり、より正確な視線の位置を求めるため、カメラ１７から眼球に赤外線が照射されており、瞳孔と虹彩とのコントラストが強調されている。そして、視線検出部８は、眼球撮影画像の二値化処理、つまり瞳孔とそうでない部分とを区別することによって、瞳孔領域を抽出する。
【００４５】
さらに、視線検出部８は、瞳孔領域の中心座標(x(t)、y(t))を、時刻t(フレーム)における瞳孔の位置として算出する。なお、眼球撮影画像の水平方向をx軸、垂直方向をy軸とし、原点を画像の左下として設定している。なお、以下の説明における各種設定値は、画像の大きさを水平方向１６０ピクセル、垂直方向１２０ピクセルとし、毎秒１０フレームで獲得する場合の一例であり、獲得画像の大きさの変更やここで想定している物とは特性の異なるカメラ等の使用を前提とした場合は適宜最適な値を採用することができる。
【００４６】
〔２−２．注視点算出部９における処理〕
次に、注視点算出部９により、注視点座標（G_u(t),G_v(t)）を、以下の式（１）によって求める。なお、視界画像における水平方向をu軸、垂直方向をv軸とし、原点を画像の左下とする。
【００４７】
【数１】

【００４８】
ここで、視界画像および眼球撮影画像の一部領域(40≦x≦120、40≦y≦80)を4×4の16ブロックに分割する。また、(D(i、j)_x、D(i、j)_y)(i,j=1,…,4)は眼球撮影画像のブロック(i、j)の中心座標とし、(Cv(i、j)_u、Cv(i、j)_v)は視界画像のブロック(i、j)の中心座標とする。
【００４９】
なお、ブロック(i、j)とは、画像の左下から数えて、水平方向にi番目、垂直方向にj番目のブロックのことである。また、α(i、j)、β(i、j)は各ブロックにおける、瞳孔の中心の移動距離に対する注視点の移動距離の比を表す値である。また、瞳孔の中心の移動距離ｄは、以下の式（２）に基づき、注視点算出部９により単位をピクセルとして算出される。
【００５０】
【数２】

【００５１】
〔２−３．注目状態検出部１０における処理〕
眼球運動は人間の注意や関心を表しており、人間が静止物体に注目している場合は、約300ミリ秒間の固視状態と、約30ミリ秒間に起こる跳躍運動とを頻繁に繰り返すことが知られている（非特許文献７参照）。注目状態検出部１０は、この眼球運動の特徴を利用することにより、ユーザがオブジェクトに注目している状態を検出するものである。
【００５２】
すなわち、注目状態検出部１０は、瞳孔の位置が3フレームの間(約300ミリ秒)動かないか、または微小に動いており、4フレーム目で瞳孔の位置が跳躍する状態を検出し、この状態を固視・跳躍運動として検出する。そして、注目状態検出部１０は、固視・跳躍運動が連続して3回以上検出されたとき、ユーザが注目状態にあると判定する。
【００５３】
ただし、注目状態検出部１０は、3フレーム間で、瞳孔の位置の移動が視角にして2.1°未満であれば固視とみなし、固視状態から瞳孔の位置の移動が視角にして2.1°以上であれば跳躍とみなす。また、跳躍が生じてから3秒間で次の跳躍が生じないとき、注目状態検出部１０は固視・跳躍が終了したと判断する。なお、2.1°なる値は、固視であるか跳躍であるかを区別するしきい値の一例であり、他の値であっても構わない。
【００５４】
ここで、視角θは、以下の式（３）に基づいて算出される。
【００５５】
【数３】

【００５６】
上記式（３）における「0.024」という数値は、眼球撮影画像における１ピクセルあたりの距離(cm)である。もちろん、画像の精細度に応じて、0.024なる値は、他の値となっても構わない。また、式（３）における「2.0」という数値は、眼球と眼球を撮影するカメラ１７との距離(cm)である。もちろん、眼球の撮影条件に応じて、2.0なる値は、他の値にされてもよい。
【００５７】
また、注目区間において発生する注視点座標のそれぞれは、ユーザが注目状態であったときの瞳孔の位置から算出しているため、ユーザが注目しているオブジェクト上、またはその付近に現れる。そのため、注目状態検出部１０は、１注目区間、すなわち注目の始まりから注目の終わりを検出するまでの間の注視点分布が内包されるように、複数の注視点座標を結ぶことにより最小凸多角形領域（最小多角形領域）を画定する。したがって、この最小凸多角形領域には、注目していたオブジェクト全体、またはその一部が含まれることになる。
【００５８】
〔２−４．眼球動作検出部２における処理フロー〕
次に、眼球動作検出部２において実行される、ユーザが何かに注目していることを検出するための処理について、図３のフローチャートを用いて説明する。
【００５９】
先ず、注目状態検出部１０により、連続回数が０にリセットされるとともに（Ｓ１０）、固視回数も０にリセットされる（Ｓ１１）。なお、連続回数とは、固視・跳躍運動が連続した回数を示している。以下、これと同様の意味において「連続回数」の文言を用いる。
【００６０】
その後、視線検出部８により、眼球撮影画像がカメラ１７から獲得される（Ｓ１２）。さらに、視線検出部８は、Ｓ１２において獲得された眼球撮影画像を２値化処理することで、眼球撮影画像から瞳孔領域を抽出する（Ｓ１３）。
【００６１】
その後、注視点算出部９は、上記式（２）により瞳孔の中心の移動距離を算出するとともに（Ｓ１４）、視線検出部８が求めた瞳孔領域の中心座標(x(t)、y(t))から、上記式（１）に基づいて注視点座標（G_u(t),G_v(t)）を算出する（Ｓ１５）。
【００６２】
そして、注目状態検出部１０は、上述の式（３）に基づき、視角θを算出し（Ｓ１６）、その値が2.1°以上となるか否かを判断する（Ｓ１７）。視角θが2.1°以上でない場合、注目状態検出部１０はユーザが固視状態にあると判断し、固視回数を１回増やす（Ｓ１８）。そして、Ｓ１８の処理が終了したら、再度Ｓ１２の処理に移行する。
【００６３】
一方、Ｓ１７において視角θが2.1°以上であると判断された場合、注目状態検出部１０は、ユーザの視線が跳躍したと判断し（Ｓ１９）、現在までの固視回数が３回以上か否かを判断する（Ｓ２０）。
【００６４】
Ｓ２０において固視回数が３回以上ではないと判断されれば、注目状態検出部１０により固視回数が０にリセットされてから（Ｓ２１）、Ｓ１２の処理に移行する。また、Ｓ２０において固視回数が３回以上であると判断したら、注目状態検出部１０は、固視回数を０にリセットした後に（Ｓ２２）、ユーザが固視・跳躍状態にあると判断する（Ｓ２３）。
【００６５】
そして、Ｓ２３の後、注目状態検出部１０は、最後の跳躍が生じてから３秒以内に次の跳躍が生じるか否かを判断する（Ｓ２４）。そして、Ｓ２４において３秒以内に次の跳躍が生じたと判断したら、注目状態検出部１０は、ユーザの固視・跳躍運動が連続しているものと判断して、連続回数を１回増やす（Ｓ２５）。そして、Ｓ２５の処理が終了したら、再度Ｓ１２の処理に移行する。
【００６６】
また、Ｓ２４において３秒以内に次の跳躍が生じなかったと判断したら、注目状態検出部１０は、連続回数が３回以上か否かを判断する（Ｓ２６）。Ｓ２６において連続回数が３回以上でなければ、注目状態検出部１０は、連続回数を０にリセットする（Ｓ２７）。Ｓ２７の後、Ｓ１２の処理に移行する。また、Ｓ２６において連続回数が３回以上であれば、注目状態検出部１０は、ユーザが注目状態にあるものと判断する（Ｓ２８）。
【００６７】
このようにしてＳ１０〜Ｓ２８のステップを踏むことにより、眼球動作検出部２による注目状態の検出処理が終了する。
【００６８】
〔３．オブジェクト領域抽出部３における処理〕
オブジェクト領域抽出部３は、上述したとおり、視界画像からオブジェクト領域を抽出するものである。本実施形態では、美術館等で展示されている絵画をオブジェクトの一例として、注目時の視界画像に映っている絵画領域を抽出する方法について説明する。
【００６９】
オブジェクト領域抽出部３がどのようにして絵画領域を抽出するかについて、簡単に説明する。絵画が映っている視界画像において、壁と額縁との境界で水平方向・垂直方向に直線のエッジが現れる。オブジェクト領域抽出部３は、水平方向エッジを水平方向エッジ検出部１１により検出するとともに、垂直方向エッジを垂直方向エッジ検出部１２により検出する。
【００７０】
また、HSV表色系の色相において、壁と額縁との境界で色相が変化する。オブジェクト領域抽出部３は、この色相の変化を色相分割部１３およびヒストグラム算出部１４により検出し、直線のエッジと色相の境界とに基づいて、視界画像から絵画領域を抽出する。
【００７１】
次に、オブジェクト領域抽出部３における一連の処理について、図４のフローチャートを用いて説明する。図４に示すように、先ず、水平方向エッジ検出部１１および垂直方向エッジ検出部１２のいずれか一方、または双方により、視界画像の濃淡画像から、たとえばrobertsフィルタを用いてエッジ画像が生成される（Ｓ３０）。Ｓ３０の後、水平方向エッジ検出部１１により、水平方向に現れる直線エッジの長さが算出される（Ｓ３１）。また、Ｓ３１の後、垂直方向エッジ検出部１２により、垂直方向に現れる直線エッジの長さが算出される（Ｓ３２）。
【００７２】
なお、Ｓ３２は必ずしもＳ３１の後に行われる必要は無く、Ｓ３１の前にＳ３２が実行されてもよいし、Ｓ３１の処理とＳ３２の処理とを並行して行ってもよい。これらのＳ３１およびＳ３２における処理の詳細については後述する。
【００７３】
さらに、水平方向エッジ検出部１１は、水平方向で隣り合うエッジでより長いエッジを検出し、額縁のエッジ候補とする。また、垂直方向エッジ検出部１２は、垂直方向で隣り合うエッジでより長いエッジを検出し、額縁のエッジ候補とする。なお、図４のフローチャートでは、上述の水平方向エッジ検出部１１および垂直方向エッジ検出部１２によるエッジ候補の検出処理を、まとめてＳ３３として記載している。
【００７４】
その後、色相分割部１３により、エッジ画像の色相が７等級に分割される（Ｓ３４）。そして、ヒストグラム算出部１４により、額縁のエッジ候補から色相のヒストグラムが算出される（Ｓ３５）。なお、Ｓ３４およびＳ３５における処理の詳細に関しては、後述する。
【００７５】
その後、全ての額縁のエッジ候補に対して、ヒストグラム算出部１４は、エッジ候補の両側の領域に関して、色相のヒストグラムの差CS_eを、以下の式（４）により算出する（Ｓ３６）。
【００７６】
【数４】

【００７７】
なお、hist_lnは、額縁のエッジ候補を境界にして左（または上）に１画素ずらした領域における色相のヒストグラムであり、hist_rnは、額縁のエッジ候補を境界にして右（または下）に１画素ずらした領域における色相のヒストグラムである。なお、ｎは１から７までの整数であり、色相の等級を示している。なお、色相の等級数を７とすれば、視界画像に映っている壁、額縁、絵画の境界で色相が大まかに分かれることは実験により確認されている。
【００７８】
式（４）によるCS_eの算出処理が終了したら、水平方向エッジ検出部１１は、CS_eの大きさが上位となるエッジを水平方向において２本検出する（Ｓ３７）。また、垂直方向エッジ検出部１２は、CS_eの大きさが上位となるエッジを垂直方向において２本検出する（Ｓ３７）。そして、オブジェクト領域抽出部３は、Ｓ３７において検出された４本のエッジで囲まれた領域を、絵画領域として抽出する（Ｓ３８）。
【００７９】
上述したＳ３０〜Ｓ３８の一連のステップを踏むことにより、オブジェクト領域抽出部３は、視界画像からオブジェクト領域としての絵画領域を抽出する。
【００８０】
〔３−１．水平方向のエッジの長さの算出処理〕
次に、上述した図４のフローにおけるＳ３１の処理の詳細について説明する。たとえば、図５（ａ）に示すような視界画像が得られたとする。この場合、図６に示すように、水平方向エッジ検出部１１は、視界画像においてｙ＝ａ（１≦ａ≦１１８、ａは整数）で示される直線に関して、以下の処理を行う。
【００８１】
先ず、水平方向エッジ検出部１１は、エッジとなる画素が直線ｙ＝ａ上において連続する数（連続画素数）を、０にリセットする（Ｓ４０）。そして、水平方向エッジ検出部１１は、ａの値を固定した状態で、ｘ座標の値を示すｂの値を、１から１５９までの整数値として変更することにより、以下のＳ４１〜Ｓ４５の処理を行う。
【００８２】
先ず、Ｓ４１において、水平方向エッジ検出部１１は、座標（ｂ，ａ−１），（ｂ，ａ），および（ｂ，ａ＋１）における画素のうち、いずれかがエッジとなる画素であるか否かを判断する。
【００８３】
Ｓ４１における判断がＹＥＳの場合、つまり、座標（ｂ，ａ−１），（ｂ，ａ），および（ｂ，ａ＋１）における画素のうちいずれかがエッジとなる画素ならば、水平方向エッジ検出部１１は、座標（ｂ，ａ）の画素をエッジとみなす（Ｓ４２）。その後、水平方向エッジ検出部１１は、座標（ｂ−１，ａ），および（ｂ，ａ）における画素が、ともにエッジとなる画素であるか否かを判断する（Ｓ４３）。
【００８４】
なお、このように（ｂ，ａ−１）および（ｂ，ａ＋１）の画素がエッジとなるか否かを考慮するのは、求めたいエッジが大まかに直線となるエッジだからである。また、Ｓ４１における判断がＮＯの場合、つまり、座標（ｂ，ａ−１），（ｂ，ａ），および（ｂ，ａ＋１）における画素のうちどれもエッジとなる画素ではないと判断されれば、水平方向エッジ検出部１１は、Ｓ４２の処理を行うことなくＳ４３の処理を行う。
【００８５】
Ｓ４３において、座標（ｂ−１，ａ）および（ｂ，ａ）における画素が、ともにエッジとなる画素であると判断したら、水平方向エッジ検出部１１は、連続画素数を１増やす（Ｓ４４）。一方、Ｓ４３において、座標（ｂ−１，ａ）および（ｂ，ａ）における画素が、ともにエッジとなる画素ではないと判断したら、水平方向エッジ検出部１１は、連続画素数を０にリセットする（Ｓ４５）。
【００８６】
このようにして、Ｓ４１〜Ｓ４５の処理が、ｂの値を１から１５９までの間に含まれる整数値として変化させつつ行われる。そして、各整数値について求められた連続画素数のうち、最大となる連続画素数を、水平方向エッジ検出部１１は、ｙ＝ａにおける直線エッジの長さとして算出する（Ｓ４６）。
【００８７】
上述したＳ４０〜Ｓ４６における処理は、ａの値を１から１１８までの間に含まれる整数値として変化させつつ行われる。このようにして求められた水平方向のエッジの長さを、図５（ｂ）の右側のグラフに示す。
【００８８】
〔３−２．垂直方向のエッジの長さの算出処理〕
次に、上述した図４のフローにおけるＳ３２の処理の詳細について説明する。たとえば、図５（ａ）に示すような視界画像が得られたとする。この場合、図７に示すように、垂直方向エッジ検出部１２は、視界画像においてｘ＝ｂ（１≦ｂ≦１５８、ｂは整数）で示される直線に関して、以下の処理を行う。
【００８９】
先ず、垂直方向エッジ検出部１２は、エッジとなる画素が直線ｘ＝ｂ上において連続する数（連続画素数）を、０にリセットする（Ｓ５０）。そして、垂直方向エッジ検出部１２は、ｂの値を固定した状態で、ｙ座標の値を示すａの値を、１から１１９までの整数値として変更することにより、以下のＳ５１〜Ｓ５５の処理を行う。
【００９０】
先ず、Ｓ５１において、垂直方向エッジ検出部１２は、座標（ｂ−１，ａ），（ｂ，ａ１），および（ｂ＋１，ａ）における画素のうち、いずれかがエッジとなる画素であるか否かを判断する。
【００９１】
Ｓ５１における判断がＹＥＳの場合、つまり、座標（ｂ−１，ａ），（ｂ，ａ），および（ｂ＋１，ａ）における画素のうちいずれかがエッジとなる画素ならば、垂直方向エッジ検出部１２は、座標（ｂ，ａ）の画素をエッジとみなす（Ｓ５２）。その後、垂直方向エッジ検出部１２は、座標（ｂ，ａ−１），および（ｂ，ａ）における画素が、ともにエッジとなる画素であるか否かを判断する（Ｓ５３）。
【００９２】
また、Ｓ５１における判断がＮＯの場合、つまり、座標（ｂ−１，ａ），（ｂ，ａ），および（ｂ＋１，ａ）における画素のうちどれもエッジとなる画素ではないと判断されれば、垂直方向エッジ検出部１２は、Ｓ５２の処理を行うことなくＳ５３の処理を行う。
【００９３】
Ｓ５３において、座標（ｂ，ａ−１）および（ｂ，ａ）における画素が、ともにエッジとなる画素であると判断したら、垂直方向エッジ検出部１２は、連続画素数を１増やす（Ｓ５４）。一方、Ｓ５３において、座標（ｂ，ａ−１）および（ｂ，ａ）における画素が、ともにエッジとなる画素ではないと判断したら、垂直方向エッジ検出部１２は、連続画素数を０にリセットする（Ｓ５５）。
【００９４】
このようにして、Ｓ５１〜Ｓ５５の処理が、ａの値を１から１１９までの間に含まれる整数値として変化させつつ行われる。そして、各整数値について求められた連続画素数のうち、最大となる連続画素数を、垂直方向エッジ検出部１２は、ｘ＝ｂにおける直線エッジの長さとして算出する（Ｓ５６）。
【００９５】
上述したＳ５０〜Ｓ５６における処理は、ｂの値を１から１５８までの間に含まれる整数値として変化させつつ行われる。
【００９６】
〔３−３．色相の分割処理およびヒストグラムの算出処理〕
次に、上述した図４のフローにおけるＳ３４およびＳ３５の処理の詳細について説明する。先ず、色相分割部１３は、図８に示すように、視界画像全体から３６０等級の色相のヒストグラムを算出し、頻度が最大となる色相を検出する（Ｓ６０）。そして、色相分割部１３は、Ｓ６０において検出した色相を中心として±２５°の範囲を、一等級の範囲として設定する（Ｓ６１）。
【００９７】
その後、色相分割部１３は、Ｓ６１で設定した範囲以外の範囲を６等分することで、色相を７等級に分割する（Ｓ６２）。
【００９８】
このＳ６２における処理が終了したら、ヒストグラム算出部１４は、Ｓ３３（図４参照）において設定されたエッジ候補の全てに対して、図９に示すように、エッジ候補の両側の領域について、範囲を７等級に分割した色相のヒストグラムを算出する（Ｓ６３）。このようにして、図４におけるＳ３４およびＳ３５の処理が終了する。
【００９９】
〔４．オブジェクト認識部における処理〕
次に、オブジェクト認識部４における処理の詳細について説明する。オブジェクト認識部４は、視界画像からオブジェクト領域抽出部３により抽出された領域に映っている画像と、データベース７内に格納された登録画像とのマッチング処理を行い、ユーザが注目している画像を認識するものである。ここでは、ユーザが注目している画像が絵画であり、データベース７に格納された登録画像としての絵画画像と、ユーザが注目している画像とのマッチングが行われる場合を例に挙げて説明する。
【０１００】
まず、図１０に示すように、オブジェクト認識部４は、視界画像からオブジェクト領域抽出部３により抽出された絵画領域を、横・縦方向に各々８、６等分し、４８ブロックに分割する（Ｓ７０）。さらに、オブジェクト認識部４における色相平均算出部１５は、各ブロックの色相の平均値を算出する（Ｓ７１）。
【０１０１】
Ｓ７１における色相の平均値の算出処理は、図１１に示すように、各ブロックにおける画素の色相の総和を画素数で除算した値を平均値とする処理を、全てのブロックに対して行うことで実行される。
【０１０２】
そして、図１０に示すように、色差算出部１６は、データベース７中の全ての絵画画像に対して、各ブロックでの色差から、全ブロックでの色差CS_piを、以下の式（５）により算出する。
【０１０３】
【数５】

【０１０４】
上記式（５）において、
【０１０５】
【数６】

【０１０６】
は、視界画像から抽出した絵画領域におけるブロック(j,k)（j＝1,…,8）,（k＝1,…,6）の色相の平均値を示している。
【０１０７】
また、
【０１０８】
【数７】

【０１０９】
は、データベース７中のi番目の絵画画像におけるブロック(j,k)の色相の平均値を示している。
【０１１０】
なお、オブジェクトや領域に２次元バーコードのようなタグを付けることにより、オブジェクト認識や注目領域の判別を行ってもよい。
【０１１１】
〔５．注視点分布に基づく注釈情報の提示処理について〕
本実施形態における情報処理装置１は、注目領域判別部５によりオブジェクトにおける注目領域を判別し、注釈情報提示部６により注目領域に応じた注釈情報および階層情報の提示を行う。また、データベース７中の登録画像のそれぞれには、色情報と，注釈情報が付加される領域の凸多角形領域の頂点座標、その注釈情報、その画像を構成する領域の階層情報が定義されている。
【０１１２】
図１２（ａ）は、登録画像がたとえば絵画画像である場合における、注釈情報が付加されている領域を示す図であり、図１２（ｂ）は、その絵画画像の階層情報の構成を示す図である。
【０１１３】
図１２（ａ）に示す絵画を大まかな２つの領域に分けると、領域１（屋敷）と、領域２（林）とに分けることができる。また、領域１（屋敷）を更に細分化すると、領域１１（屋根）と領域１２（ベランダ）とに分けることができる。よって、図１２（ｂ）に示すように、階層情報は、領域１の下位に、領域１１および領域１２が含まれるツリー構造となっている。
【０１１４】
以下、注目領域判別部５による注目領域の判別処理、および注釈情報提示部６による注釈情報の提示処理について、登録画像が絵画画像である場合を例に挙げて、より具体的に説明する。
【０１１５】
〔５−１．注目領域判別部５における処理〕
注目領域判別部５は、オブジェクト領域抽出部３およびオブジェクト認識部４における処理の後に、注目区間の注視点分布を含む最小凸多角形領域と、データベース中の絵画に対して注釈情報が付加されている領域の位置情報とを基にして、注目領域を判別する。
【０１１６】
ここで、視界画像から抽出された絵画領域と、データベース７中の絵画領域とは大きさが異なる。そのため、注目領域判別部５は、データベース７中の絵画領域に対する、抽出された絵画領域の縮小・拡大率を基に、絵画領域の大きさに関して正規化を行う。その後、注目領域判別部５は、最小凸多角形領域に含まれる注目領域を、図１３に示すフローチャートに従って判別する。
【０１１７】
先ず、注目領域判別部５は、絵画領域の左下を基準として最小凸多角形領域の各頂点までの水平方向、垂直方向の距離を求め、絵画領域上での最小凸多角形領域の位置を算出する（Ｓ８０）。
【０１１８】
また、注目領域判別部５は、データベース７内の絵画領域についても、絵画領域の左下を基準として注釈情報が付加されている凸多角形領域の各頂点までの水平方向、垂直方向の距離を算出する（Ｓ８１）。
【０１１９】
なお、Ｓ８１の処理は、データベース７内における絵画画像で、予め注釈情報が定義された領域について行われる。また、Ｓ８１の処理は必ずしもＳ８０の後に実行される必要はなく、予め行われるものであっても構わない。また、注目領域判別部５以外の処理部により、Ｓ８１が行われても構わない。
【０１２０】
そして、注目領域判別部５は、データベース７中の絵画領域の大きさを基準として、視界画像から抽出した絵画領域の大きさを正規化する（Ｓ８２）。また、Ｓ８０で距離を算出した絵画領域上での最小凸多角形領域の各頂点について、正規化後の位置を算出する（Ｓ８３）。
【０１２１】
そして、注目領域判別部５は、視界画像の絵画領域における最小凸多角形領域と、データベース７中の注釈情報を付加された各領域との重なりがどの程度の大きさであるか判断し、その重なりが最大となる領域を、ユーザが注目した領域として判別する（Ｓ８４）。
【０１２２】
〔５−２．注釈情報提示部６における処理〕
注釈情報提示部６は、注視点分布から注目領域判別部５により注目領域の判別が行われた後に、注目領域に関する注釈情報を提示する。たとえば、ユーザが絵画画像の屋敷部分に注目していると注目領域判別部５により判別されたら、注釈情報提示部６は、図１４に示すように、屋敷に関する情報を情報処理装置１の外部に設けられた出力装置（ノートＰＣ、ヘッド・マウンテッド・ディスプレイ等）により表示する。なお、図１４に示すように、注釈情報として絵画そのものに関する情報（作者、作者名）を表示してもよい。
【０１２３】
また、注釈情報提示部６は、注目領域に関する注釈情報を提示するだけでなく、注目領域の階層情報を提示してもよい。つまり、階層情報にて示される階層構造において、注目領域の親となる領域や子となる領域の注釈情報を、注釈情報提示部６を用いてユーザに提示することにより、注目領域に関するその他の情報を得る手がかりをユーザに提供できる。この際に表示される注釈情報が付加されている領域と、注目領域との階層が近ければ近いほど、注目領域に関する情報を的確に補足する情報を得ることができる。
【０１２４】
また、注釈情報が表示デバイスの画面上に提示されている間は、情報処理装置１にて眼球運動の解析が行われないようにしてもよい。そして、ユーザが眼を一定時間閉じることを検出して、眼球運動の解析を再開するトリガとしてもよい。これにより、ユーザは目を閉じるだけで再び注釈情報の提示を受けることができるので、情報処理装置１の利便性が向上する。
【０１２５】
また、ユーザが絵画全体に注目した場合に、絵画そのものに関する注釈情報と、絵画に対して子となる領域とを、絵画に重ね合わせて表示してもよい。また、ユーザがある領域に注目している場合、注目領域に関する注釈情報と、注目領域の親または子となる領域を、ユーザに提示してもよい。
【０１２６】
〔６．実験と評価〕
本実施形態の情報処理装置１により判別された注目領域が、実際に注目した領域であるかを評価するために実験を行ったので以下に説明する。なお、注目領域を判別する前処理として、視界画像から絵画領域を抽出し、抽出した絵画領域の認識を行っているため、絵画領域の抽出と、絵画の認識とについての評価実験も行った。
【０１２７】
なお、情報処理装置１として使用したＰＣは、周波数が500MHzのPentium（登録商標） IIIをCPUとして搭載したノート型ＰＣである。また、カメラ１７・１８は、フレームサイズを160×120[pixel]、処理速度を10[fps]に設定した。なお、眼球撮影画像は256階調グレースケール、視界画像は24bit colorである。
【０１２８】
また、A3サイズの20種類の絵画を額縁に入れ、単一色の壁に掛けた状態で、被験者4人に対して実験を行った。20種類の絵画の内訳は、人物・動物画が10枚、風景画が10枚である。
【０１２９】
また、情報処理装置１のプロトタイプ使用時の様子を図１５に、絵画抽出の様子を図１６に示す。図１６の上部５枚の画像のうち、下段右の画像は注視点を表すものである。
【０１３０】
〔６−１．絵画領域の抽出精度と絵画の認識精度〕
〔６−１−１．視界画像から絵画領域を抽出する精度〕
上述した方法でオブジェクト領域抽出部３により抽出された領域が、絵画領域であるかを評価するため、オブジェクト領域抽出部３により抽出された領域のうち実際に絵画領域である割合(Pr)と、視界画像に映っている絵画領域のうちオブジェクト領域抽出部３により抽出された領域の割合(Re)とに基づき評価を行った。
【０１３１】
そして、20種類の絵画について、ほぼ正面から見たときの絵画が映っている視界画像をシステムにより各20枚獲得し、合計400枚の視界画像から絵画領域の抽出を行った。その結果を表１に示す。表１には、各視界画像から絵画を抽出して得たPr、Reの平均値と、絵画の面積占有率の平均値とが示されている。なお、絵画の面積占有率とは、視界画像において絵画が占める面積の割合である。
【０１３２】
【表１】

【０１３３】
〔６−１−２．絵画の認識精度〕
上述した手法によりオブジェクト領域抽出部３で視界画像に映っている絵画領域を抽出した後に、上述した方法によりオブジェクト認識部４で絵画を認識する。20種類の絵画について、ほぼ正面から見たときの絵画が映っている視界画像を情報処理装置１により各20枚獲得し、合計400枚の視界画像について絵画の認識を行った。そして、各視界画像において判別された絵画と、視界画像に映っている絵画と同じであれば認識の成功とした。その結果を表２に示す。
【０１３４】
【表２】

【０１３５】
表２より、ユーザと絵画の距離が遠くなっても、ある程度の精度で絵画の認識を行うことができている。
【０１３６】
〔６−２．注目領域の判別精度〕
上述した方法により注目領域判別部５が判別した注目領域が、実際に注目した領域であるかを評価した。なお、20種類の絵画に対して、構成要素である人や建物など5箇所を注目領域として定義しておく。
【０１３７】
これらの領域は、隣接している場合、離れている場合、包含している(されている)場合がある。各被験者に合計100箇所の注目領域を1回ずつ注目してもらい、注目領域判別部５が判別した注目領域と、実際に注目した領域が同じならば判別の成功とした。被験者4人の結果の平均を表３に示す。なお、ユーザと絵画との距離が1.0mの場合、絵画に対する視角は上下17.8°、左右22.6°となる。また、距離が1.5mの場合は、絵画に対する視角は上下11.4°、左右15.2°となる。
【０１３８】
【表３】

【０１３９】
ユーザと絵画との距離が1.0mの場合と1.5mとの場合の精度を比較すると、距離が近いほうが注目領域の判別精度はよくなっている。これは、ユーザと絵画の距離が近ければ、前処理の精度が良いことや、視界画像から抽出した絵画領域を正規化する際の、注視点の抽出上の誤差が及ぼす影響が小さいためだと考えられる。
【０１４０】
また、ユーザと絵画との距離が近い場合、抽出した絵画領域を正規化する際に領域の大きさの変化が小さかった。そのため、図１３のＳ８３で説明した正規化後の最小凸多角形の位置を計算しても、注視点の抽出上の誤差と、ユーザと絵画との距離の影響とにより、最小凸多角形が変形することはなかった。
【０１４１】
〔７．補足〕
本実施形態の情報処理装置１の処理手順は、ＣＰＵなどの演算手段が、ＲＯＭ（Read Only Memory）やＲＡＭなどの記憶手段に記憶されたプログラムを実行し、キーボードなどの入力手段、ディスプレイなどの出力手段、あるいは、インターフェース回路などの通信手段を制御することにより実現することができる。
【０１４２】
したがって、これらの手段を有するコンピュータが、上記プログラムを記録した記録媒体を読み取り、当該プログラムを実行するだけで、本実施形態の情報処理装置１の各種処理を実現することができる。また、上記プログラムをリムーバブルな記録媒体に記録することにより、任意のコンピュータ上で上記の各種機能および各種処理を実現することができる。
【０１４３】
この記録媒体としては、マイクロコンピュータで処理を行うために図示してはいないがメモリ、例えばＲＯＭのようなものがプログラムメディアであっても良いし、また、図示していないが外部記憶装置としてプログラム読み取り装置が設けられ、そこに記録媒体を挿入することにより読み取り可能なプログラムメディアであっても良い。
【０１４４】
また、何れの場合でも、格納されているプログラムは、マイクロプロセッサがアクセスして実行される構成であることが好ましい。さらに、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータのプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であることが好ましい。なお、このダウンロード用のプログラムは予め本体装置に格納されているものとする。
【０１４５】
また、上記プログラムメディアとしては、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フレキシブルディスクやハードディスク等の磁気ディスクやＣＤ／ＭＯ／ＭＤ／ＤＶＤ等のディスクのディスク系、ＩＣカード（メモリカードを含む）等のカード系、あるいはマスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、フラッシュＲＯＭ等による半導体メモリを含めた固定的にプログラムを担持する記録媒体等がある。
【０１４６】
また、インターネットを含む通信ネットワークを接続可能なシステム構成であれば、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する記録媒体であることが好ましい。
【０１４７】
さらに、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであることが好ましい。
【０１４８】
このように、本実施形態の情報処理装置１は、ユーザの眼球運動を撮影した眼球撮影画像に基づき、ユーザがオブジェクトに注目している状態を検出する眼球動作検出部２と、眼球動作検出部２によりユーザが注目状態にあると検出された際、ユーザの視界を撮影した視界画像内において、ユーザが注目しているオブジェクトを認識するオブジェクト認識部４と、上記オブジェクトにおいてユーザが注目している注目領域を判別する注目領域判別部５と、注目領域判別部５により判別された注目領域に関する注釈情報をユーザに提示する注釈情報提示部６とを備えているものである。
【０１４９】
上記構成によれば、眼球動作検出部２にてユーザが注目状態にあることを検出した上で、オブジェクト認識部４によりユーザが注目しているオブジェクトが認識されるので、ユーザが真に興味を示しているオブジェクトを認識することができる。
【０１５０】
その上、注目領域判別部５により、オブジェクトにおいてユーザが注目している注目領域を判別するので、オブジェクトにおいてどの部分にユーザが注目しているかを把握することができる。そして、注釈情報提示部６は、上記注目領域に関する情報をユーザに提示するので、ユーザが真に興味を示している領域に関する注釈情報を的確にユーザに提示することが可能であり、不必要な情報がユーザに提示されることを防止できる。
【０１５１】
このように、情報処理装置１によれば、ユーザが興味を示している領域に関する注釈情報が的確にユーザに提示されるので、情報処理装置１の快適な利用環境をユーザに与えることができる。
【０１５２】
さらに、眼球動作検出部２は、眼球撮影画像から瞳孔領域を抽出する視線検出部８と、上記瞳孔領域における中心座標から注視点の移動距離を算出する注視点算出部９と、上記注視点の移動距離から、オブジェクトに対するユーザの視角を算出するとともに、その視角の大きさに基づき眼球の固視状態および跳躍状態を検出し、これら固視状態および跳躍状態の回数に基づきユーザがオブジェクトに注目している状態を検出する注目状態検出部１０とを備えている。
【０１５３】
すなわち、固視状態および跳躍状態は、ユーザの視角を検出することにより検出可能であり、ユーザの視角は、注視点の移動距離を算出すれば求めることができる。
【０１５４】
上記構成の情報処理装置１は、視線検出部８により２値化処理を用いて瞳孔領域を抽出する一方で、注視点算出部９により注視点の移動距離を算出する。そして、注目状態検出部１０は、注視点算出部９に求められた注視点の移動距離からユーザの視角を算出して固視状態および跳躍状態の回数を検出するので、的確にユーザの注目状態を検出することができる。
【０１５５】
このように、上記構成によれば、ユーザの注目状態を的確に把握することができるので、ユーザが興味を示しているオブジェクトがオブジェクト認識部４により的確に認識され、注釈情報提示部６はさらに的確な注釈情報をユーザに提示することができる。
【０１５６】
さらに、注目状態検出部１０は、ユーザが注目状態にある間の注視点の分布を内包するように複数の注視点を結ぶことにより、上記視界画像内に最小多角形領域を画定するものであるとともに、注目領域判別部５は、データベース７内に格納された登録画像における複数の領域のうち、上記最小多角形領域との重なりが最大となる領域を判断し、その領域に対応する上記視界画像内の領域を、上記注目領域として判別するものである。
【０１５７】
上記構成によれば、注目状態検出部１０により最小多角形領域が画定される。この最小多角形領域は、注視点の分布を内包するように複数の注視点を結んで得られるものであるから、視界画像においてユーザが注目している領域を的確に表しているといえる。
【０１５８】
そして、注目領域判別部５は、上記最小多角形との重なりが最大となる領域を、データベース７内の登録画像について判断し、その領域に対応する視界画像内の領域を注目領域として判断するので、ユーザが注目している領域を的確に注目領域として判別することができる。
【０１５９】
さらに、オブジェクト認識部４は、上記視界画像における色相と、データベース７内に格納された視界画像の候補となり得る登録画像の色相とに基づき、ユーザが注目しているオブジェクトを認識するものである。
【０１６０】
視界画像がたとえば絵画画像のような色彩のある画像であれば、その色相により視界画像に含まれるオブジェクトを特徴付けることが可能である。そこで、上記構成では、視界画像の色相と、登録画像の色相とに基づき、ユーザが注目しているオブジェクトを認識するので、オブジェクトの認識精度を高めることができる。
【０１６１】
また、注釈情報提示部６は、上記注目領域と階層構造をなす領域に関する注釈情報をユーザに提示するものである。
【０１６２】
上記構成によれば、注目領域と階層構造をなす領域に関する注釈情報もユーザに提示されるので、ユーザは注目領域に関してより多くの情報を得ることができ、注目領域に関する理解を深めることができる。
【０１６３】
また、上記眼球撮影画像を撮影するカメラ１７、および上記視界画像を撮影するカメラ１８の一方または双方を携帯端末に搭載することにより、ユーザが移動しても眼球撮影画像や視界画像を撮影することができるので、情報処理装置１の利便性をさらに高めることができる。
【０１６４】
さらに、携帯端末により注釈情報の再生を行うことで、移動するユーザに対しても注釈情報の提示を行うことができるので、情報処理装置１の利便性をより高めることができる。
【０１６５】
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【産業上の利用可能性】
【０１６６】
本発明の情報処理装置によれば、たとえば美術館のように多くの絵画を展示している環境において、作品全体に関する情報や、作品の一部分に関する情報を、注釈情報としてユーザの注目領域に適応させて提示することが可能となる。これにより、ユーザは展示されている絵画に関する理解を深めることができ、また、絵画の説明をする人員を配置するための人件費も省略することができる。
【０１６７】
また、本発明の情報処理装置の利用環境は、絵画を展示するような環境だけに限定されるものではない。たとえば、工作機械の各部分を撮影した画像を登録画像としてデータベースに格納しておくとともに、注釈情報として工作機械の操作方法を説明するテキストデータや音声データをユーザに提示するとよい。これにより、ユーザは、工作機械の各部分に注目するだけで工作機械の操作方法を知ることができるので、初心者であっても工作機械を操作することができる。
【図面の簡単な説明】
【０１６８】
【図１】本発明の一実施形態に係る情報処理装置の構成を示すブロック図である。
【図２】図１の情報処理装置により注釈情報が提示されるまでの一連の処理の流れを示すフローチャートである。
【図３】図１の情報処理装置における眼球動作検出部が行う処理の流れを示すフローチャートである。
【図４】図１の情報処理装置におけるオブジェクト領域抽出部が行う処理の流れを示すフローチャートである。
【図５】図５（ａ）は、視界画像の一例を示す図であり、図５（ｂ）は、図５（ａ）の視界画像から求められたエッジ画像ならびに水平方向のエッジの長さを示すグラフである。
【図６】水平方向のエッジに係る長さの算出処理を詳細に示すフローチャートである。
【図７】垂直方向のエッジに係る長さの算出処理を詳細に示すフローチャートである。
【図８】色相の分割処理を詳細に示すフローチャートである。
【図９】色相のヒストグラム算出処理を詳細に示すフローチャートである。
【図１０】オブジェクトを分割したブロックについて色差を算出する処理を詳細に示すフローチャートである。
【図１１】色相の平均値の算出処理を詳細に示すフローチャートである。
【図１２】図１２（ａ）は、登録画像がたとえば絵画画像である場合における、注釈情報が付加されている領域を示す図であり、図１２（ｂ）は、その絵画画像の階層情報の構成を示す図である。
【図１３】注目領域の判別処理の詳細を示す図である。
【図１４】注釈情報を提示する画面の一例を示す図である。
【図１５】本発明の情報処理装置の一実施形態を使用する状態を示す図である。
【図１６】本発明の情報処理装置の一実施形態により絵画画像を抽出する様子を示す図である。
【符号の説明】
【０１６９】
１情報処理装置
２眼球動作検出部（眼球動作検出手段）
４オブジェクト認識部（オブジェクト認識手段）
５注目領域判別部（注目領域判別手段）
６注釈情報提示部（注釈情報提示手段）
７データベース
８視線検出部（視線検出手段）
９注視点算出部（注視点算出手段）
１０注目状態検出部（注目状態検出手段）
１７カメラ（第１カメラ）
１８カメラ（第２カメラ）

【特許請求の範囲】
【請求項１】
ユーザの眼球運動を撮影した眼球撮影画像に基づき、ユーザがオブジェクトに注目している状態を検出する眼球動作検出手段と、
上記眼球動作検出手段によりユーザが注目状態にあると検出された際、ユーザの視界を撮影した視界画像内において、ユーザが注目しているオブジェクトを認識するオブジェクト認識手段と、
上記オブジェクトにおいてユーザが注目している注目領域を判別する注目領域判別手段と、
上記注目領域判別手段により判別された注目領域に関する注釈情報をユーザに提示する注釈情報提示手段とを備えていることを特徴とする情報処理装置。
【請求項２】
上記眼球動作検出手段は、
上記眼球撮影画像から瞳孔領域を抽出する視線検出手段と、
上記瞳孔領域における中心座標から注視点の移動距離を算出する注視点算出手段と、
上記注視点の移動距離から、オブジェクトに対するユーザの視角を算出するとともに、その視角の大きさに基づき眼球の固視状態および跳躍状態を検出し、これら固視状態および跳躍状態の回数に基づきユーザがオブジェクトに注目している状態を検出する注目状態検出手段とを備えていることを特徴とする請求項１に記載の情報処理装置。
【請求項３】
上記注目状態検出手段は、ユーザが注目状態にある間の注視点の分布を内包するように複数の注視点を結ぶことにより、上記視界画像内に最小多角形領域を画定するものであるとともに、
上記注目領域判別手段は、データベース内に格納された登録画像における複数の領域のうち、上記最小多角形領域との重なりが最大となる領域を判断し、その領域に対応する上記視界画像内の領域を、上記注目領域として判別するものであることを特徴とする請求項２に記載の情報処理装置。
【請求項４】
上記オブジェクト認識手段は、上記視界画像における色相と、データベース内に格納された上記視界画像の候補となり得る登録画像の色相とに基づき、ユーザが注目しているオブジェクトを認識するものであることを特徴とする請求項１ないし３のいずれか１項に記載の情報処理装置。
【請求項５】
上記注釈情報提示手段は、さらに、上記注目領域と階層構造をなす領域に関する注釈情報をユーザに提示するものであることを特徴とする請求項１ないし４のいずれか１項に記載の情報処理装置。
【請求項６】
請求項１ないし５のいずれか１項に記載の情報処理装置に用いる携帯端末であって、
上記眼球撮影画像を撮影する第１カメラを備えていることを特徴とする携帯端末。
【請求項７】
請求項１ないし５のいずれか１項に記載の情報処理装置に用いる携帯端末であって、
上記視界画像を撮影する第２カメラを備えていることを特徴とする携帯端末。
【請求項８】
請求項１ないし５のいずれか１項に記載の情報処理装置に用いる携帯端末であって、
上記眼球撮影画像を撮影する第１カメラと、上記視界画像を撮影する第２カメラとを備えていることを特徴とする携帯端末。
【請求項９】
請求項１ないし５のいずれか１項に記載の情報処理装置に用いる携帯端末であって、
上記注釈情報提示手段から上記注釈情報を取り込み、その注釈情報の再生を行うことを特徴とする携帯端末。
【請求項１０】
ユーザの眼球運動を撮影した眼球撮影画像に基づき、ユーザがオブジェクトに注目している状態を検出する第１ステップと、
上記第１ステップによりユーザが注目状態にあると検出された際、ユーザの視界を撮影した視界画像内において、ユーザが注目しているオブジェクトを認識する第２ステップと、
上記オブジェクトにおいてユーザが注目している注目領域を判別する第３ステップと、
上記第３ステップにて判別された注目領域に関する注釈情報をユーザに提示する第４ステップとを備えていることを特徴とする情報処理方法。
【請求項１１】
請求項１０に記載の情報処理方法の各ステップをコンピュータに実行させるための情報処理プログラム。
【請求項１２】
請求項１１に記載の情報処理プログラムを記録したことを特徴とするコンピュータ読取可能な記録媒体。

【図１】