画像表示装置及び方法並びにプログラム

【課題】画像の鑑賞行為をインタラクティブでより豊かな行為にすること。
【解決手段】マイクロフォン１８は、表示部１７に表示された表示画像を鑑賞する鑑賞者が発した音声の音声信号を入力し、バッファ１９に記憶させる。音声認識部２０は、その音声信号に基づいて、鑑賞者が発した音声から１以上の単語を識別し、キーワードとして取得する。カウンタ２１は、キーワードの出現回数を算出する。表示ドライバ１６は、出現回数が閾値以上のキーワードを含む情報又はキーワードから導かれる情報を、表示画像とともに表示部１７に表示させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像表示の技術に関し、例えば、画像の鑑賞者に対してインタラクティブでより豊かな鑑賞行為を実現させる画像表示装置及び方法並びにプログラムに関する。
【背景技術】
【０００２】
従来より、画像（写真含む）の表示装置として、パーソナルコンピュータやデジタルフォトフレーム等が存在し、その表示手法として、スライドショー表示が広く知られている（例えば、特許文献１参照）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００８−３０６４０３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、このスライドショー表示は、選択した複数の画像を順次表示させる手法であり、鑑賞者は、設定を行った後は順次表示される画像を単に鑑賞するだけであった。従って、鑑賞者は、デジタルフォトフレームが一方的に表示する画像を単に鑑賞することしかできない。このため、鑑賞者の意図が随時反映されるような豊かな鑑賞を実現することができなかった。
【０００５】
そこで、本発明は、上記課題に鑑みてなされたものであり、画像の鑑賞者に対して、インタラクティブでより豊かな鑑賞行為を実現させる画像表示装置及び方法並びにプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
本発明の第１の観点によると、表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力部と、前記音声入力部に入力された前記音声信号に基づいて、前記鑑賞者が発した音声から１以上の単語を識別し、識別した前記１以上の単語をキーワードとして取得する取得部と、前記取得部により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる制御部と、を備える画像表示装置を提供する。
【０００７】
本発明の第２の観点によると、前記取得部により取得された前記キーワードの出現回数を算出するカウント部をさらに備え、前記制御部は、前記カウント部により算出された前記出現回数が閾値を超えた前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる、画像表示装置を提供する。
【０００８】
本発明の第３の観点によると、前記出現回数が閾値を超えた前記キーワードを含む情報又は前記キーワードから導かれる情報を、演出効果を伴う表示形態で、前記表示画像とともに前記表示部に表示させる、画像表示装置を提供する。
【０００９】
本発明の第４の観点によると、前記取得部により取得された前記キーワード、及び、前記表示画像に関連する情報に基づいて、新たなキーワードを発生する発生部をさらに備え、前記制御部は、前記発生部により発生された前記新たなキーワードを、前記キーワードから導き出される情報として、前記表示画像とともに前記表示部に表示させる、画像表示装置を提供する。
【００１０】
本発明の第５の観点によると、前記表示画像から人物の顔を検出する検出部をさらに備え、前記制御部は、前記検出部が前記顔の検出に成功した場合、前記表示画像において、検出された前記顔の口から、前記キーワードを含む情報又は前記キーワードから導かれる情報の文字列が配置された吹き出しを表示させ、前記検出部が前記顔の検出に失敗した場合、前記表示画像内の所定領域に、前記キーワードを含む情報又は前記キーワードから導かれる情報を表示させる、画像表示装置を提供する。
【００１１】
本発明の第６の観点によると、表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力制御ステップと、前記音声入力制御ステップの制御処理により入力された前記音声信号に基づいて、前記鑑賞者が発した音声から１以上の単語を識別し、識別した前記１以上の単語をキーワードとして取得する取得ステップと、前記取得ステップの処理により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる表示制御ステップと、を含む画像表示方法を提供する。
【００１２】
本発明の第７の観点によると、画像表示装置を制御するコンピュータに、表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力制御機能と、前記音声入力制御機能の制御処理により入力された前記音声信号に基づいて、前記鑑賞者が発した音声から１以上の単語を識別し、識別した前記１以上の単語をキーワードとして取得する取得機能と、前記取得機能の処理により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる表示制御機能と、を実現させるためのプログラムを提供する。
【発明の効果】
【００１３】
本発明によれば、画像の鑑賞者にとって、インタラクティブでより豊かな鑑賞行為が実現可能となる。
【図面の簡単な説明】
【００１４】
【図１】本発明の一実施形態に係る画像表示装置のハードウェアの構成を示すブロック図である。
【図２】図１の画像表示処理の流れの一例を示すフローチャートである。
【図３】図１の画像表示装置のデータベース用不揮発性メモリの記憶内容の一例を示す図である。
【図４】図１の画像表示装置により表示される画像の一例を示す図である。
【発明を実施するための形態】
【００１５】
以下、本発明の実施形態を図面に基づいて説明する。
【００１６】
図１は、本発明の一実施形態に係る画像表示装置１のハードウェアの構成を示す図である。画像表示装置１は、例えばデジタルフォトフレームやパーソナルコンピュータ等により構成することができる。
【００１７】
画像表示装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、メモリ１２と、データベース用不揮発性メモリ１３と、ランダムキーワード発生部１４と、バス１５と、表示ドライバ１６と、表示部１７と、マイクロフォン１８と、バッファ１９と、音声認識部２０と、カウンタ２１と、通信部２２と、ドライブ２３と、を備える。
【００１８】
ＣＰＵ１１は、メモリ１２に含まれるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に記憶されているプログラムに従って各種の処理を実行する。又は、ＣＰＵ１１は、データベース用不揮発性メモリ１３からメモリ１２に含まれるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）にロードされたプログラムに従って各種の処理を実行する。ＲＡＭにはまた、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【００１９】
本実施の形態では、ＣＰＵ１１は、表示ドライバ１６を制御して、表示部１７に画像（写真を含む）を表示させる。なお、以下、表示部１７に表示される画像を、「表示画像」と呼ぶ。本実施の形態では、ＣＰＵ１１は、マイクロフォン１８を駆動制御して、表示画像を鑑賞する鑑賞者が連続して発する音声（発話）の時系列信号を入力する。ここで、音声の時系列信号とは、所定期間内に発せられた音声のデジタル信号をいう。ただし、入力信号は、音声認識の処理対象となり得る信号であれば足り、本実施の形態の時系列信号に特に限定されず、その他例えば一定期間内のアナログの音声信号であってもよい。ＣＰＵ１１は、音声認識部２０を制御して、入力された音声の時系列信号に対して所定の音声認識処理を実行することで、その音声の時系列信号から１以上の単語を識別し、識別した１以上の単語をキーワードとして取得する。なお、１つの単語がキーワードとして取得される場合もあるし、複数の単語からなる単語列がキーワードとして取得される場合もある。また、１つのキーワードのみが取得される場合もあるし、複数のキーワードが取得される場合もある。ＣＰＵ１１は、キーワードを含む情報又はそのキーワードから導かれる情報を、表示画像とともに表示部１７に表示させる。
【００２０】
なお、このような一連の処理を、以下、画像表示処理と称する。すなわち、本実施の形態では、画像表示処理を実現するプログラムがメモリ１２やデータベース用不揮発性メモリ１３に記憶されている。なお、画像表示処理のさらなる詳細については、図２を参照して後述する。
【００２１】
このようにＣＰＵ１１が画像表示処理を開始した後に、鑑賞者が表示画像を鑑賞しながら発話すると、その発話内容に含まれていた１以上の単語がキーワードとして取得される。そして、当該キーワードを含む情報又は当該キーワードから導かれる情報が表示画像に付加されて表示される。これにより、鑑賞者にとって、鑑賞という行為が、一方的な行為ではなくなり、インタラクティブでより豊かな行為となる。
【００２２】
データベース用不揮発性メモリ１３は、上述したプログラムの他、各種データを記憶する。例えば、画像データは、メタデータと対応付けられてデータベース用不揮発性メモリ１３に記憶される。さらに、表示画像を鑑賞中の鑑賞者の発話内容に含まれていたキーワードのデータ、及び、そのキーワードの出現回数のデータも、当該表示画像の画像データと対応付けられてデータベース用不揮発性メモリ１３に記憶される。なお、データベース用不揮発性メモリ１３の記憶内容の具体例については、図３を参照して後述する。
【００２３】
ランダムキーワード発生部１４は、表示画像を鑑賞中の鑑賞者の発話内容に含まれていたキーワード、及び、当該表示画像のメタデータに基づいて、新たなキーワードを発生する。本実施の形態では、この新たなキーワードが、鑑賞者の発話内容に含まれていたキーワードから導かれる情報の一例として、表示部１７に表示され得る。
【００２４】
ＣＰＵ１１、メモリ１２、データベース用不揮発性メモリ１３、及びランダムキーワード発生部１４は、バス１５を介して相互に接続されている。このバス１５にはまた、表示ドライバ１６、音声認識部２０、カウンタ２１、通信部２２、及びドライブ２３も接続されている。
【００２５】
表示ドライバ１６は、所定の画像データをデータベース用不揮発性メモリ１３から取得して、その画像データに基づいて表示画像を表示部１７に表示させる。表示部１７は、例えば液晶ディスプレイ等で構成される。
【００２６】
マイクロフォン１８は、鑑賞者が発する音声（発話）を入力し、音声信号として出力する。バッファ１９は、マイクロフォン１８から所定期間出力された音声信号を記憶する。すなわち、バッファ１９は、音声の時系列信号を記憶する。音声認識部２０は、バッファ１９に記憶された音声の時系列信号に対して音声認識処理を実行することで、鑑賞者の発話内容に含まれる１以上の単語を識別し、その識別結果に基づいて、１以上のキーワードを取得する。なお、音声認識部２０の音声認識のアルゴリズムは特に限定されない。
【００２７】
カウンタ２１は、音声認識部２０の処理を監視し、キーワードの出現回数を算出する。カウンタ２１はまた、キーワードの出現回数が閾値を超えたタイミングで、割り込み信号を発生し、ＣＰＵ１１に供給する。すると、ＣＰＵ１１は、表示ドライバ１６を制御して、出現回数が閾値を超えたキーワード又はそのキーワードから導き出される情報を、表示画像とともに表示部１７に表示させる。
【００２８】
通信部２２は、インターネットを含むネットワークを介して他の装置（図示せず）との間で行う通信を制御する。ドライブ２３には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなるリムーバブルメディア２４が適宜装着される。そして、それらから読み出されたプログラムが、必要に応じてデータベース用不揮発性メモリ１３にインストールされる。また、リムーバブルメディア２４は、データベース用不揮発性メモリ１３の代わりに、表示対象の画像データ等の各種データも記憶することができる。
【００２９】
図２は、図１の画像表示装置１による画像表示処理の流れの一例を示すフローチャートである。
【００３０】
ステップＳ１において、ＣＰＵ１１は、所定の画像データをデータベース用不揮発性メモリ１３から読み出し、表示ドライバ１６を制御して、その画像データに基づいて表示画像を表示部１７に表示させる。
【００３１】
ステップＳ２において、ＣＰＵ１１は、マイクロフォン１８を駆動制御して、鑑賞者が発する音声の時系列信号を入力し、バッファ１９に記憶させる。
【００３２】
ステップＳ３において、ＣＰＵ１１は、音声認識部２０を制御して、バッファ１９から音声の時系列信号を読み出し、その音声の時系列信号に対して音声認識処理を実行することで、キーワードを取得する。
【００３３】
ステップＳ４において、ＣＰＵ１１は、カウンタ２１を制御して、キーワードの出現回数をインクリメントする。
【００３４】
ステップＳ５において、ＣＰＵ１１は、キーワード及び出現回数のデータを、表示画像の画像データと対応付けて、データベース用不揮発性メモリ１３に記憶させる。
【００３５】
なお、ステップＳ４及びＳ５の処理は、ステップＳ３の処理で複数のキーワードが取得された場合には複数のキーワードの各々に対して個別に実行される。
【００３６】
ステップＳ６において、ＣＰＵ１１は、出現回数が閾値を超えたキーワードが存在するか否かを判定する。
【００３７】
全てのキーワードの出現回数が閾値を下回る場合、上述した割り込み信号はカウンタ２１から発生されないので、ステップＳ６においてＮＯであると判定されて、処理はステップＳ１に戻され、それ以降の処理が繰り返される。すなわち、ステップＳ１乃至Ｓ６のループ処理が繰り返されて、各ループ処理毎に、鑑賞者の発話内容（音声の時系列信号）から１以上のキーワードが取得され、その出現回数がインクリメントされていく。
【００３８】
そして、所定のキーワードの出現回数が閾値を超えた段階で、カウンタ２１から割り込み信号が発生されてＣＰＵ１１に供給される。これにより、ステップＳ６においてＹＥＳであると判定され、処理はステップＳ７に進む。
【００３９】
ステップＳ７において、ＣＰＵ１１は、出現回数が閾値を超えたキーワードのデータと、対応付けられたメタデータとを、ランダムキーワード発生部１４に送る。これにより、ランダムキーワード発生部１４は、送られてきたキーワードのデータ及びメタデータに基づいて、新たなキーワードを発生する。
【００４０】
ステップＳ８において、ＣＰＵ１１は、表示画像の画像データから顔検出を試みる。ステップＳ９において、ＣＰＵ１１は、顔が検出されたか否かを判定する。
【００４１】
ステップＳ８の処理で１以上の顔が検出された場合、ステップＳ９においてＹＥＳであると判定されて、処理はステップＳ１０に進む。ステップＳ１０において、ＣＰＵ１１は、検出された顔（複数の顔が検出された場合には所定の１つの顔）の口からの吹き出し位置を、キーワード表示窓の位置に設定する。
【００４２】
これに対して、ステップＳ８の処理で１つの顔も検出されなかった場合、ステップＳ９においてＮＯであると判定されて、処理はステップＳ１１に進む。ステップＳ１１において、ＣＰＵ１１は、表示画像中の所定位置を、キーワード表示窓の位置に設定する。
【００４３】
ステップＳ１０又はＳ１１の処理でキーワード表示窓の位置が設定されると、処理はステップＳ１２に進む。ステップＳ１２において、ＣＰＵ１１は、表示ドライバ１６を制御して、キーワードを、キーワード表示窓に表示させる（後述する図４参照）。すなわち、表示部１７に表示されている表示画像のうち、キーワード表示窓の位置として設定された領域に、キーワードが表示される。換言すると、キーワードが付加された表示画像が表示部１７に表示される。
【００４４】
なお、ステップＳ１２の処理で、ＣＰＵ１１は、出現回数が閾値を超えたキーワード（ユーザの発話内容に含まれていたキーワード）を表示してもよいし、ランダムキーワード発生部１４により発生された新たなキーワードを表示してもよいし、或いはまた、両方のキーワードを同時に表示してもよい。また、ＣＰＵ１１は、これらのキーワードのみならず、これらのキーワードを含む文章を新たに生成して表示しても構わない。また、キーワードの表示形態は、特に限定されない。幾つかの好適な表示形態の例については後述する。
【００４５】
ステップＳ１３において、ＣＰＵ１１は、画像の表示の終了が指示されたか否かを判定する。
【００４６】
画像の表示の終了がまだ指示されていない場合、ステップＳ１３においてＮＯであると判定されて、処理はステップＳ１に戻され、それ以降の処理が繰り返される。すなわち、画像の表示の終了が指示されるまでの間、上述したステップＳ１乃至Ｓ１３のループ処理が繰り返される。
【００４７】
その後、画像の表示の終了が指示されると、ステップＳ１３においてＹＥＳであると判定されて、画像表示処理は終了する。
【００４８】
以下、さらに、図３及び図４を参照しつつ、画像表示処理について具体的に説明する。
【００４９】
図３は、データベース用不揮発性メモリ１３の記憶内容の一例を示す図である。
【００５０】
図３の例では、２つの画像データＧＤＡ，ＧＤＢがデータベース用不揮発性メモリ１３に記憶されている。
【００５１】
画像データＧＤＡが表わす画像ＧＡは、例えば図３に示すように、ピラミッドを背景とした記念撮影写真である。画像データＧＤＡに対しては、「ピラミッド」という情報を含むメタデータＭＡが対応付けられてデータベース用不揮発性メモリ１３に記憶されている。また、図３に示すようなキーワードのデータＫＡ−１及び出現回数のデータＣＡ−１の組乃至キーワードのデータＫＡ−Ｎ及び出現回数のデータＣＡ−Ｎの組が、画像データＧＤＡと対応付けられてデータベース用不揮発性メモリ１３に記憶されている。なお、Ｎは、１以上の整数値であって、図３の例では４以上の整数値となる。すなわち、図３は、過去において、画像ＧＡが表示部１７に表示されている間に例えば１４以上の閾値が設定されて図２の画像表示処理が開始され、ステップＳ１乃至Ｓ６のループ処理が何回か繰り返された後の状態を示している。
【００５２】
一方、画像ＧＡとは別の画像（図示せず）の画像データＧＤＢに対しては、メタデータＭＢが対応付けられてデータベース用不揮発性メモリ１３に記憶されている。また、キーワードのデータＫＢ−１及び出現回数のデータＣＢ−１の組乃至キーワードのデータＫＢ−Ｍ及び出現回数のデータＣＢ−Ｍの組が、画像データＧＤＢと対応付けられてデータベース用不揮発性メモリ１３に記憶されている。なお、Ｍは、１以上の整数値であって、図３の例では４以上の整数値となる。すなわち、図３は、過去において、画像ＧＡとは別の画像が表示部１７に表示されている間に例えば１３以上の閾値が設定されて図２の画像表示処理が開始され、ステップＳ１乃至Ｓ６のループ処理が何回か繰り返された後の状態を示している。
【００５３】
例えば、データベース用不揮発性メモリ１３の記憶内容が図３の状態で、ステップＳ１の処理が実行され、画像ＧＡが表示部１７に表示されたものとする。そして、複数の鑑賞者が、画像ＧＡを鑑賞しながら、その旅の思い出等を会話するものとする。
【００５４】
この場合、複数の鑑賞者のうちの１人が発話すると、その音声の時系列信号がステップＳ２の処理で入力され、バッファ１９に記憶される。そして、次のステップＳ３の処理で、その時系列信号に対して音声認識処理が実行されて、１以上のキーワードが取得される。例えばここでは、「スフィンクス」、「暑かった」、及び「ギザ」というキーワードが取得されたものとする。そして、図３に示すように、データＫＡ−１が「スフィンクス」を表わすデータとされ、データＫＡ−２が「暑かった」を表わすデータとされ、データＫＡ−３が「ギザ」を表わすデータとされているものとする。
【００５５】
この場合、ステップＳ４の処理で、データＫＡ−１が表わす「スフィンクス」の出現回数が「７回」から「８回」にインクリメントされる。データＫＡ−２が表わす「暑かった」の出現回数が「１４回」から「１５回」にインクリメントされる。データＫＡ−３が表わす「ギザ」の出現回数が「３回」から「４回」にインクリメントされる。
【００５６】
図示はしないが、次のステップＳ５の処理で、「スフィンクス」のデータＫＡ−１と、「８回」を示す出現回数のデータＣＡ−１が、画像データＧＤＡに対応付けられてデータベース用不揮発性メモリ１３に記憶（上書き）される。「暑かった」のデータＫＡ−２と、「１５回」を示す出現回数のデータＣＡ−２が、画像データＧＤＡに対応付けられてデータベース用不揮発性メモリ１３に記憶（上書き）される。「ギザ」のデータＫＡ−３と、「４回」を示す出現回数のデータＣＡ−３が、画像データＧＤＡに対応付けられてデータベース用不揮発性メモリ１３に記憶（上書き）される。
【００５７】
なお、データベース用不揮発性メモリ１３に記憶されているその他のデータは更新（上書き）されない。例えば、データＫＡ−２が表わすキーワードと、画像データＧＤＢに対応付けられたデータＫＢ−１が表わすキーワードとは、「暑かった」で同一である。このような場合であっても、画像データＧＤＢが表わす別の画像は表示画像ではないので、「暑かった」のデータＫＢ−１及び「９回」のデータＣＢ−１の組の記憶は更新されない。
【００５８】
ここで、例えば閾値が１５回である場合、上述の例では、出現回数が閾値を超えるキーワードは存在しない。従って、このような場合、カウンタ２１からは割り込み信号が発生されないので、ステップＳ６の処理でＮＯであると判定されて、処理はステップＳ１に戻され、それ以降の処理が繰り返される。
【００５９】
これに対して、例えば閾値が１４回である場合、上述の例では、データＫＡ−２が表わす「暑かった」の出現回数は「１５回」に更新されたので、閾値を超えている。従って、このような場合、カウンタ２１から割り込み信号が発声されてＣＰＵ１１に供給されるので、ステップＳ６においてＹＥＳであると判定され、処理はステップＳ７に進む。
【００６０】
ステップＳ７の処理で、出現回数が閾値を超えた「暑かった」のデータＫＡ−２と、メタデータＭＡとが、ランダムキーワード発生部１４に送られる。ランダムキーワード発生部１４は、例えば、メタデータＭＡに含まれる「ピラミッド」は「世界遺産」というカテゴリに属することを認識する。そして、ランダムキーワード発生部１４は、「暑かった」と「世界遺産」とを掛け合わせて、例えば「タージマハル」という新たなキーワードを発生する。
【００６１】
ステップＳ８の処理で、画像データＧＤＡに基づいて、画像ＧＡに含まれる顔の検出が試みられる。図４に示すように、画像ＧＡには２人の人物の顔が含まれているので、ステップＳ９の処理でＹＥＳであると判定されて、ステップＳ１０の処理で、これらの２人の人物の顔のうちの所定の１つの顔、例えば図４中左側の顔の口からの吹き出し位置が、キーワード表示窓の位置に設定される。その結果、ステップＳ１２の処理で、図４に示すように、例えば「タージマハル」というキーワードが、吹き出し位置に表示される。なお、上述したように、「タージマハル」というキーワードに替えて又はそれとともに、出現回数が閾値を超えた「暑かった」を、吹き出し位置に表示させることも可能である。
【００６２】
以上説明したように、本実施の形態の画像表示装置１は、表示部１７に表示された表示画像を鑑賞する鑑賞者が発した音声の時系列信号を入力する。画像表示装置１は、その時系列信号に基づいて、鑑賞者が発した音声の内容に含まれる単語又は単語列を、キーワードとして取得する。画像表示装置１は、そのキーワードを含む情報又はそのキーワードから導かれる情報を、表示画像とともに表示部１７に表示させる。
【００６３】
これにより、鑑賞者にとって、鑑賞という行為が、一方的な行為ではなくなり、インタラクティブなより豊かな行為となる。例えば上述の例では、鑑賞者は、図４の吹き出し位置に表示された「タージマハル」というキーワードを見ることで、「今度の旅行はタージマハルに行こう」といった内容を思い浮かべることができる。このようにして、鑑賞者にとっては、ただ単に画像を眺めているだけでは得られない鑑賞が実現される。
【００６４】
なお、本発明は上述の実施の形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
【００６５】
例えば、キーワードの表示形態については特に限定されないが、表示形態を変化してキーワードを表示させることで、画像の鑑賞行為をインタラクティブでより豊かな行為にすることができる。
【００６６】
例えば、出現回数に応じて演出効果を変化させて、キーワードを表示させることもできる。より具体的には例えば、図２のステップＳ１乃至Ｓ１３のループ処理が繰り返されると、キーワードの出現回数は増加していく傾向になる。また、出現回数が閾値を超えたキーワードの個数も増加していく傾向になる。そこで、上述の例にあわせて閾値が１４回であるとすると、出現回数が１５回乃至１９回のキーワードに対しては、ＣＰＵ１１は、出現回数が閾値を超えたキーワードをそのまま表示させる。例えば上述の例では、「暑かった」がそのまま表示される。出現回数が２０回乃至２９回のキーワードに対しては、ＣＰＵ１１は、出現回数が１５回乃至１９回の場合よりも派手な演出効果を伴って、出現回数が閾値を超えたキーワードを表示させる。派手な演出効果としては、例えば、文字のサイズを大きくする効果や、文字を装飾する効果等を採用することができる。例えば上述の例では、「暑かった」という文字列が大きく表示されたり、装飾文字で表示されたりする。さらに、出現回数が３０回以上のキーワードに対しては、ＣＰＵ１１は、ランダムキーワード発生部１４により発生された新たなキーワードを表示させる。例えば上述の例では、「タージマハル」が表示される。
【００６７】
なお、演出効果自体は、特に限定されず、上述の例も併せて具体例を列挙すると例えば次のようになる。
（１）出現回数が多くなるほど文字サイズを大きくしていく演出効果。
（２）横からのスライドインやエクスパンド表示を行う演出効果。
（３）表示画像に含まれる人物（顔検出により検出された顔）の口からの吹き出しの画像を表示させ、その吹き出しにキーワードを表示させる演出効果。すなわち、その人物があたかもしゃべっているような演出効果。
（４）鑑賞者の発話内容に含まれるキーワードと、表示画像のメタデータに含まれるキーワードと関連付けて、新たなキーワードを創作し、その新たなキーワードを表示させる演出効果
【００６８】
また、例えば上述の実施形態では、表示対象のキーワードの選択手法として、出現回数が閾値を超えたか否かに基づいて選択する手法が採用されていた。しかしながら、表示対象のキーワードの選択手法は、上述の実施形態に特に限定されず、任意の手法を採用し得る。
【００６９】
ところで、上述したように、本発明に係る一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
【００７０】
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
【００７１】
このようなプログラムを含む記録媒体は、図示はしないが、ユーザにプログラムを提供するために装置本体とは別に配布されるリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成することもできる。リムーバブルメディアは、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図１のメモリ１２に含まれるＲＯＭや、図１のデータベース用不揮発性メモリ１３や、図示せぬハードディスク等で構成される。
【００７２】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
【符号の説明】
【００７３】
１・・・画像表示装置、１１・・・ＣＰＵ、１２・・・メモリ、１３・・・データベース用不揮発性メモリ、１４・・・ランダムキーワード発生部、１５・・・バス、１６・・・表示ドライバ、１７・・・表示部、１８・・・マイクロフォン、１９・・・バッファ、２０・・・音声認識部、２１・・・カウンタ、２２・・・通信部、２３・・・ドライブ、２４・・・リムーバブルメディア

【特許請求の範囲】
【請求項１】
表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力部と、
前記音声入力部に入力された前記音声信号に基づいて、前記鑑賞者が発した音声から１以上の単語を識別し、識別した前記１以上の単語をキーワードとして取得する取得部と、
前記取得部により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる制御部と、
を備える画像表示装置。
【請求項２】
前記取得部により取得された前記キーワードの出現回数を算出するカウント部をさらに備え、
前記制御部は、前記カウント部により算出された前記出現回数が閾値を超えた前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる、
請求項１に記載の画像表示装置。
【請求項３】
前記制御部は、前記出現回数が閾値を超えた前記キーワードを含む情報又は前記キーワードから導かれる情報を、演出効果を伴う表示形態で、前記表示画像とともに前記表示部に表示させる、
請求項２に記載の画像表示装置。
【請求項４】
前記取得部により取得された前記キーワード、及び、前記表示画像に関連する情報に基づいて、新たなキーワードを発生する発生部をさらに備え、
前記制御部は、前記発生部により発生された前記新たなキーワードを、前記キーワードから導き出される情報として、前記表示画像とともに前記表示部に表示させる、
請求項１乃至３の何れか１項に記載の画像表示装置。
【請求項５】
前記表示画像から人物の顔を検出する検出部をさらに備え、
前記制御部は、
前記検出部が前記顔の検出に成功した場合、前記表示画像において、検出された前記顔の口から、前記キーワードを含む情報又は前記キーワードから導かれる情報の文字列が配置された吹き出しを表示させ、
前記検出部が前記顔の検出に失敗した場合、前記表示画像内の所定領域に、前記キーワードを含む情報又は前記キーワードから導かれる情報を表示させる、
請求項１乃至４の何れか１項に記載の画像表示装置。
【請求項６】
表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力制御ステップと、
前記音声入力制御ステップの制御処理により入力された前記音声信号に基づいて、前記鑑賞者が発した音声から１以上の単語を識別し、識別した前記１以上の単語をキーワードとして取得する取得ステップと、
前記取得ステップの処理により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる表示制御ステップと、
を含む画像表示方法。
【請求項７】
画像表示装置を制御するコンピュータに、
表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力制御機能と、
前記音声入力制御機能の制御処理により入力された前記音声信号に基づいて、前記鑑賞者が発した音声から１以上の単語を識別し、識別した前記１以上の単語をキーワードとして取得する取得機能と、
前記取得機能の処理により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる表示制御機能と、
を実現させるためのプログラム。

【図１】