情報処理装置、画像選択方法およびプログラム

【課題】計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めることを実現する情報処理装置を提供する。
【解決手段】実施形態によれば、情報処理装置は、多様性スコア算出手段と、画像選択手段と、を具備する。多様性スコア算出手段は、各名詞について、その名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、当該統計的ばらつきが大きいほど高い値を示す多様性スコアを付与する。画像選択手段は、検索文とメタデータに含まれる文との文書間距離を算出し、文書間距離順にグループ分けして、グループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、当該多様性スコアの平均値に基づき決定される数ずつ、各グループからメタデータを選択して、そのメタデータと対応づけられた画像を検索文に対する候補として選択する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、情報処理装置、画像選択方法およびプログラムに関する。
【背景技術】
【０００２】
多数の番組が蓄積されているデータベースから効率よく興味のある番組やシーンを探し出すことを支援する方法の１つに、字幕などを用いて関連シーンを検索し、その一部の画像を候補として一覧表示する方法がある。例えば、メタデータ（字幕情報など）と静止画像とをセットにして蓄積するデータベースを用意しておき、検索要求（検索文）とメタデータ（字幕文など）との文書間距離を算出し、距離の近いメタデータに対応づけられた静止画像を候補として選出する。
【０００３】
また、候補画像群から画像特徴量を抽出してクラスタリングを行い、各クラスタから選択した代表画像のみを呈示する方法もよく知られている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２０１１−７１８１８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ところで、メタデータのみを用いた画像検索では、候補として選択される複数の静止画像同士が類似した画像的特徴をもつか否かが考慮されないため、いずれも似たような静止画像が一覧表示されてしまい、結果として、候補画像を一覧表示する効果が少なくなってしまうことがある。
【０００６】
一方、候補画像群から画像特徴量を抽出してクラスタリングを行い、クラスタの中から代表画像を選択して呈示すれば、一覧性を高めることはできるが、検索時に必要となる計算量の増加を招いてしまう。
【０００７】
本発明は、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めることを実現する情報処理装置、画像選択方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
実施形態によれば、情報処理装置は、多様性スコア算出手段と、画像選択手段と、を具備する。多様性スコア算出手段は、Ｎ（Ｎ＞＝１）個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する。画像選択手段は、入力された検索文と前記Ｎ個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記Ｎ個のメタデータの中からＭ（Ｍ＜＝Ｎ）個のメタデータを選択し、前記選択したＭ個のメタデータを前記算出した文書間距離順にＫ（Ｋ＜＝Ｍ）個のグループに分け、前記分けたＫ個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたＫ個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する。
【図面の簡単な説明】
【０００９】
【図１】実施形態の情報処理装置のシステム構成を示す図。
【図２】実施形態の情報処理装置上で実行される動画像からの静止画像およびメタデータの取得例を説明するための図。
【図３】実施形態の情報処理装置上で実行されるクエリとメタデータとの文書間距離を計算する方法の一例を説明するための図。
【図４】実施形態の情報処理装置が（計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるために）新たに備える仕組みの基本原理を説明するための図。
【図５】ある単語（名詞）を含むメタデータと対応づけられた静止画像群の２次元平面における画像特徴量の分布を示す概念図。
【図６】実施形態の情報処理装置で実行される分散共分散に基づく多様性スコアの算出方法の一例を説明するための図。
【図７】実施形態の情報処理装置上で実行されるクエリとメタデータとの文書間距離を計算する処理の具体例を示す図。
【図８】実施形態の情報処理装置上で実行されるメタデータを距離順に並べて絞り込みを行う処理の具体例を示す図。
【図９】実施形態の情報処理装置上で実行される絞り込み後のメタデータをグループ分けし、グループ毎に多様性スコアの平均値を算出する処理の具体例を示す図。
【図１０】実施形態の情報処理装置上で実行される多様性スコアの平均値に基づいて各グループから静止画像を選択する処理の具体例を示す図。
【図１１】実施形態の情報処理装置の画像選択に関する処理の流れを示す第１のフローチャート。
【図１２】実施形態の情報処理装置実施形態の情報処理装置の画像選択に関する処理の流れを示す第２のフローチャート。
【発明を実施するための形態】
【００１０】
以下、実施の形態について図面を参照して説明する。
【００１１】
図１は、本実施形態の情報処理装置のシステム構成を示す図である。この情報処理装置は、例えばテレビジョン放送番組データを受信、録画、再生するＴＶ機能を有するパーソナルコンピュータなどとして実現される。
【００１２】
図１に示すように、本情報処理装置は、番組蓄積部１０１、静止画・メタデータ取得部１０２、メタデータ解析部１０３、静止画解析部１０４、多様性スコア算出部１０５、クエリ入力部１０６、候補静止画選択部１０７、表示部１０８等の各処理部と、番組データベース１５１、静止画・メタデータデータベース等の各データ部とを有している。各処理部は、例えば本情報処理装置に所望の動作を行わせるためのプログラムがＨＤＤ（Hard disk drive）から主メモリにロードされてＣＰＵ（central processing unit）によって実行されることによって構成される。また、各データ部は、例えば（ＣＰＵによって実行される）データベースソフトウェアの管理下でＨＤＤ上に構築される。
【００１３】
番組蓄積部１０１は、例えばユーザの録画予約設定に基づき、放送局から放送されるテレビジョン放送番組データを受信して番組データベース１５１に蓄積する。テレビジョン放送番組データは、字幕や内容紹介などのメタデータを含んでいる。
【００１４】
静止画・メタデータ取得部１０２は、番組データベース１５１に蓄積されたテレビジョン放送番組データから静止画像とメタデータとを取得し、当該取得した静止画像とメタデータとをセットにして静止画・メタデータデータベース１５２に蓄積する。図２は、静止画・メタデータ取得部１０２によるテレビジョン放送番組データからの静止画像およびメタデータの取得例を説明するための図である。
【００１５】
図２に示すように、静止画・メタデータ取得部１０２は、番組データベース１５１に蓄積されたテレビジョン放送番組データ（動画データ）を所定の時間間隔で区切った区間ごとに１つの静止画像とメタデータとを取得し、この静止画像とメタデータとをセットにして静止画・メタデータデータベース１５２に蓄積する。動画データの各区間内からその区間を代表する代表画像を抽出する種々の既存技術を適用可能である。
【００１６】
クエリ入力部１０６は、例えばどのような番組やシーンを探し出したいのかが自然言語で記載された検索要求文（クエリ）を入力する。候補静止画選択部１０７は、クエリ入力部１０６によって入力されたクエリと、静止画・メタデータデータベース１５２に蓄積されたメタデータとの文書間距離を計算し、基本的には、クエリとの文書間距離が近いメタデータに対応づけられた静止画像を候補として選択する。図３を参照して、クエリとメタデータとの文書間距離を計算する方法の一例について説明する。
【００１７】
いま、「続きまして京都の天気です。今日は世界遺産として知られる平等院の鳳凰堂からお送りしています。」という文がクエリとして入力されたとする（図３のａ１）。そうすると、候補静止画選択部１０７は、この文から名詞を抽出し、ベクトル化したクエリ集合Ｑを生成する（図３のａ２）。静止画・メタデータデータベース１５２には、「１０円玉に描かれている平等院ですが、一体いつ１０円玉に平等院が描かれることが決まったのでしょうか。」という文がメタデータとして蓄積されているとする（図３のａ３）。候補静止画選択部１０７は、クエリの文と同様、この文についても、名詞の抽出を行い、ベクトル化したデータ集合Ｄを生成する（図３のａ４）。候補静止画選択部１０７は、生成したクエリ集合Ｑとデータ集合Ｄとを文書間距離計算式（図３のａ５）に代入し、クエリとメタデータとの文書間距離（Distance）を計算する。
【００１８】
そして、表示部１０８は、候補静止画選択部１０７によって候補として選択された静止画像を一覧表示する。例えば、表示部１０８によって一覧表示された静止画像の中からいずれかの静止画像が選択されると、本情報処理装置は、その静止画像を含む（番組データベース１５１に蓄積された）テレビジョン放送番組データを、当該静止画像を代表画像とする区間の先頭から再生する。
【００１９】
以上が、テレビジョン放送番組データに含まれるメタデータを使って、番組データベース１５１に蓄積されたテレビジョン放送番組データの中から、入力されたクエリに適合するテレビジョン放送番組データやそのシーンを選択する動作の基本的な流れである。
【００２０】
次に、図４を参照して、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるために本情報処理装置が新たに備える仕組みの基本原理について説明する。
【００２１】
図４中、（Ａ）は、前述した、文書同士（クエリおよびメタデータ）の距離で候補画像を選択し（図４のｂ１１）、当該選択した候補画像を一覧表示する（図４のｂ１２）、という動作の流れを示している。この場合、選択した候補画像同士が類似した画像的特徴をもつか否かが考慮されないため、いずれも似たような静止画像が一覧表示されてしまい、結果として、候補画像を一覧表示する効果が少なくなってしまうことがある。
【００２２】
また、図４中、（Ｂ）は、文書同士の距離で候補画像を絞り込み（図４のｂ２１）、当該絞り込んだ候補画像群から画像特徴量を抽出してクラスタリングを行い、クラスタの中から代表画像を最終的な候補画像として選択し（図４のｂ２２）、当該選択した候補画像を一覧表示する（図４のｂ２３）、という動作の流れを示している。この場合、画像特徴を使った解析により、呈示する静止画像の一覧性を高めることはできるが、その反面、検索時に必要となる計算量の増加を招いてしまう。
【００２３】
そこで、本情報処理装置は、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるための新たな仕組みを備えたものであり、図４中、（Ｃ）は、本情報処理装置が備える新たな仕組みによる動作の流れを示している。
【００２４】
本情報処理装置においては、予めメタデータを解析して、メタデータに含まれる名詞を抽出し（図４のｂ３２１）、抽出した名詞ごとに、その名詞を含むメタデータと対応づけられた静止画像群を解析して、それらの画像特徴量を抽出し（図４のｂ３２２）、抽出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを算出する（図４のｂ３２３）、という前処理を実行する。メタデータ解析部１０３は、図４のｂ３２１の処理を司るモジュールであり、静止画解析部１０４は、図４のｂ３２２の処理を司るモジュールであり、多様性スコア算出部１０５は、図４のｂ３２３の処理を司るモジュールである。
【００２５】
そして、本情報処理装置では、文書同士の距離で候補画像を絞り込んだ後（図４のｂ３１）、前処理で算出された多様性スコアを用いて、当該絞り込んだ候補画像群から最終的な候補画像を選択し（図４のｂ３２）、当該選択した候補画像を一覧表示する（図４のｂ３３）。なお、図４のｂ３１，ｂ３２の処理は、候補静止画選択部１０７が司り、図４のｂ３３の処理は、表示部１０８が司る。
【００２６】
図５は、ある単語（名詞）を含むメタデータと対応づけられた静止画像群の２次元平面における画像特徴量の分布を示す概念図である。なお、静止画像の画像特徴量は２次元に限定されない。
【００２７】
図５には、「世界遺産」という名詞を含むメタデータと対応づけられた静止画像群の２次元平面における画像特徴量の分布と、「鳳凰堂」という名詞を含むメタデータと対応づけられた静止画像群の２次元平面における画像特徴量の分布とが示されている。「世界遺産」や「鳳凰堂」といった名詞は、メタデータ解析部１０３が静止画・メタデータデータベース１５２に蓄積されたメタデータを解析することによって抽出される。一方、静止画像の画像特徴量は、静止画解析部１０４が静止画・メタデータデータベース１５２に蓄積された静止画像を解析することによって抽出される。多様性スコア算出部１０５は、例えばメタデータ解析部１０３によって「世界遺産」という名詞が抽出されると、この「世界遺産」という名詞を含むメタデータに対応づけられた静止画像群について静止画解析部１０４が抽出した画像特徴量の分布から、当該「世界遺産」という名詞の多様性スコアを算出する。
【００２８】
図５に示すように、「世界遺産」という名詞を含むメタデータと対応づけられた静止画像群の画像特徴量の方が、「鳳凰堂」という名詞を含むメタデータと対応づけられた静止画像群の画像特徴量よりも統計的ばらつきが大きい。そこで、多様性スコア算出部１０５は、「世界遺産」＞「鳳凰堂」となるように、「世界遺産」や「鳳凰堂」などといった名詞に対する多様性スコアの付与を実行する。図６は、分散共分散に基づく多様性スコアの算出方法の一例を示す概図である。
【００２９】
例えば、図６に示すように、多様性スコアを、０．１（最低値）から１．０（最高値）まで０．１刻みの１０段階の値を取り得るものとし、２次元平面における分散・共分散が大きいものほど高い値を付与する。「世界遺産」という名詞には、０．８という値の多様性スコアが付与され、「鳳凰堂」という名詞には、０．１という値の多様性スコアが付与されている。分散は、Ｘ軸・Ｙ軸方向のばらつきであり、共分散は、Ｘ軸とＹ軸との中間の斜め方向のばらつきである。
【００３０】
次に、以上のような（メタデータ解析部１０３、静止画解析部１０４、多様性スコア算出部１０５による）前処理によって単語（名詞）の多様性スコアが算出されていることを踏まえて、本情報処理装置における、クエリ入力部１０６によってクエリが入力された際の候補静止画選択部１０７の動作について説明する。
【００３１】
クエリ入力部１０６によってクエリが入力されると、候補静止画選択部１０７は、そのクエリと、静止画・メタデータデータベース１５２に蓄積されたメタデータとの文書間距離を計算する。図７に、候補静止画選択部１０７がクエリとメタデータとの文書間距離を計算する処理の具体例を示す。
【００３２】
候補静止画選択部１０７は、静止画・メタデータデータベース１５２に蓄積されたメタデータについてクエリとの文書間距離を計算すると、続いて、静止画・メタデータデータベース１５２に蓄積されたメタデータを距離順に並べ、距離の近い順に所定数のメタデータのみを残す絞り込みを行う。図８に、候補静止画選択部１０７がメタデータを距離順に並べて絞り込みを行う処理の具体例を示す。図８では、静止画・メタデータデータベース１５２に蓄積されたＮ個のメタデータが、クエリとの文書間距離の近い順にＭ（ＭはＮ以下）個に絞り込まれている。図７に示したように、ここでは、「いま話題のAxxxxxx搭載タブレット…」という文がクエリとして入力されたことを想定している。つまり、クエリには、「話題」、「タブレット」という名詞が含まれている。そのために、「話題」または「タブレット」の少なくとも一方を含む「話題のタブレットを徹底比較。…」や「続いては大相撲の話題です。…」というメタデータがＭ個の中に残り、また、「話題」と「タブレット」という２つの名詞を含む「話題のタブレットを徹底比較。…」というメタデータの方が、「話題」という１つの名詞のみを含む「続いては大相撲の話題です。…」というメタデータよりも上位に並べられている。
【００３３】
次に、候補静止画選択部１０７は、クエリとの文書間距離の近い順に絞り込んだＭ個のメタデータをＫ（ＫはＭ以下）個のグループに分け、そのＫ個グループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出する。図９に、候補静止画選択部１０７が絞り込み後のメタデータをグループ分けし、グループ毎に多様性スコアの平均値を算出する処理の具体例を示す。図９中、Score[x]は、候補静止画選択部１０７によって算出された多様性スコアの平均値を表している。
【００３４】
そして、候補静止画選択部１０７は、算出した多様性スコアの平均値に基づき、各グループから選択するメタデータの数を決定し、決定した数ずつ各グループから選択したメタデータと対応づけられた静止画像をクエリに対する候補として選択する。候補静止画選択部１０７は、多様性スコアの平均値が高いグループほど、多くのメタデータが選択されるように、各グループから選択するメタデータの数を決定する。決定した数ずつ各グループから選択されるメタデータは、例えば、グループ内で上位に位置するもの（クエリとの文書間距離の近いもの）が優先されるものとする。
【００３５】
また、本情報処理装置では、Ｋ個のグループに対して、クエリとの文書間距離の近いグループほど多くの静止画像が選択されるように調整するための重みづけを行う。これにより、例えば２つのグループで多様性スコアの平均値として同じ値が算出された場合、上位のグループ（クエリとの文書間距離の近いグループ）からの方が多くのメタデータが選択されることとなる。また、上位のグループよりも下位のグループの方が算出された多様性スコアの平均値が高い場合であっても、この重みづけにより、上位のグループからの方が多くのメタデータが選択され得ることとなる。なお、この重みづけは必須ではない。図１０に、候補静止画選択部１０７が多様性スコアの平均値に基づいて各グループから静止画像を選択する処理の具体例を示す。
【００３６】
図１０中、Weight[x]は、各グループに割り当てられた重みを表している。候補静止画選択部１０７は、多様性スコアの平均値（Score[x]）に重み（Weight）を乗ずることにより、各グループから選択するメタデータの数を決定する。図１０の例では、１番目のグループよりも２番目のグループの方が多くの数のメタデータが選択されている。これは２番目のグループの多様性スコアの平均値（Score[x]）の方が１番目のグループの多様性スコアの平均値（Score[x]）よりも高い値であったことを示している。このように、本情報処理装置では、クエリとメタデータとの文書間距離に加えて、前処理で取得される単語（名詞）に関連する静止画像の多様性が考慮されて、クエリに対する候補とする静止画像が選択されるので、一覧性を高めることができる。また、予め算出しておいた多様性スコアを用いることにより、検索時における計算コストを抑えることができる。
【００３７】
なお、候補静止画選択部１０７は、上位のグループから各々決定した数のメタデータを選択していき、例えばＫ番目のグループに到達する前に、選択数が候補予定数（例えばＬ枚）に達した場合には、その時点でメタデータの選択を終了する。表示部１０８は、候補静止画選択部１０７によって候補として選択された静止画像を一覧表示し、いずれかの静止画像が選択されると、本情報処理装置は、例えば、その静止画像を含む（番組データベース１５１に蓄積された）テレビジョン放送番組データを、当該静止画像を代表画像とする区間の先頭から再生する。
【００３８】
図１１および図１２は、本情報処理装置の画像選択に関する処理の流れを示すフローチャートである。
【００３９】
番組蓄積部１０１は、録画予約設定に基づき、テレビジョン放送番組データを番組データベース１５１に蓄積する（ブロックＡ１）。静止画・メタデータ取得部１０２は、番組データベース１５１に蓄積されたテレビジョン放送番組データから静止画像とメタデータとを取得して静止画・メタデータデータベース１５２に蓄積する（ブロックＡ２）。この時、静止画・メタデータ取得部１０２は、静止画・メタデータデータベース１５２への静止画像およびメタデータの追加蓄積数をインクリメントする。
【００４０】
追加蓄積数が閾値に達すると（ブロックＡ３のＹＥＳ）、メタデータ解析部１０３は、静止画・メタデータデータベース１５２に蓄積されたメタデータから名詞を抽出する（ブロックＡ４）。また、静止画解析部１０４は、静止画・メタデータデータベース１５２に蓄積された静止画像の中から、抽出された名詞を含むメタデータと対応づけられた静止画像のみを抽出し（ブロックＡ５）、それらの静止画像から画像特徴量を抽出する（ブロックＡ６）。
【００４１】
全ての名詞について上記ブロックＡ４〜Ａ６の処理が実施されると（ブロックＡ７のＹＥＳ）、多様性スコア算出部１０５は、抽出された画像特徴量の分散分析を行って統計的ばらつきを算出し、ばらつきの高いものほどスコアが高くなるよう各名詞の多様性スコアを算出する（ブロックＡ８）。この時、多様性スコア算出部１０５は、追加蓄積数の初期化を実行する。これにより、閾値で示される数の静止画像およびメタデータが静止画・メタデータデータベース１５２に蓄積される度に、上記ステップＡ４〜Ａ８の処理が実施され、名詞の多様性スコアが適正化されていくことになる。なお、１回目に（閾値で示される数の静止画像およびメタデータから）算出される名詞の多様性スコアを恒久的に使用し得る場合には、この時の追加蓄積数の初期化を省略し、ブロックＡ４〜Ａ８の処理の計算コストを削減するようにしてもよい。また、ステップＡ４〜Ａ８の処理については、例えば、ネットワークを介して接続されるサーバから各名詞の多様性スコアを取得することで省略したり、静止画・メタデータデータベース１５２をネットワーク経由でリモートアクセス可能に構成することでサーバに代行させたり等、種々の変更が可能である。追加蓄積数が閾値に達するまでは、初期スコアとして全ての名詞の多様性スコアを同じ値としても構わない。
【００４２】
クエリ入力部１０６によりクエリが入力されると（ブロックＡ９のＹＥＳ）、候補静止画選択部１０７は、静止画・メタデータ取得部１０２により取得されたメタデータおよび静止画と、クエリ入力部１０６により入力されたクエリと、多様性スコア算出部１０５により算出された多様性スコアとにより、静止画・メタデータデータベース１５２に蓄積された静止画像の中から候補とする静止画像を選択する（ブロックＡ１０）。そして、表示部１０８は、候補静止画選択部１０７により選択された静止画像を一覧表示する（ブロックＡ１１）。
【００４３】
図１２は、図１１のブロックＡ１０における候補静止画選択部１０７の処理の詳細な流れを示すフローチャートである。
【００４４】
候補静止画選択部１０７は、クエリ入力部１０６により入力されたクエリと、静止画・メタデータデータベース１５２に蓄積されたメタデータとの文書間距離を計算する（ブロックＢ１）。候補静止画選択部１０７は、計算した文書間距離に基づき、Ｎ個のメタデータを距離の近い順にＭ個に絞る絞り込みを実行する（ブロックＢ２）。
【００４５】
候補静止画選択部１０７は、残ったメタデータをグループ分けし（ブロックＢ３）、グループ毎に、メタデータに含まれる名詞の多様性スコアの平均値を算出する（ブロックＢ４）。候補静止画選択部１０７は、算出した多様性スコアの平均値に基づき、各グループから選択する候補数を決定し、合計Ｌ枚の静止画像を選択する（ブロックＢ５）。
【００４６】
以上のように、本情報処理装置は、クエリとメタデータとの文書間距離に加えて、前処理で取得される単語（名詞）に関連する静止画像の多様性を考慮して、クエリに対する候補とする静止画像を選択することにより、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めることを実現する。
【００４７】
なお、本実施形態の動作制御処理は、ソフトウェア（プログラム）によって実現することができるので、このソフトウェアを格納したコンピュータ読み取り可能な記憶媒体を通じてこのソフトウェアを通常のコンピュータにインストールして実行することにより、本実施形態と同様の効果を容易に実現することができる。
【００４８】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【００４９】
１０１…番組蓄積部、１０２…静止画・メタデータ取得部、１０３…メタデータ解析部、１０４…静止画解析部、１０５…多様性スコア算出部、１０６…クエリ入力部、１０７…候補静止画選択部、１０８…表示部、１５１…番組データベース、１５２…静止画・メタデータデータベース。

【特許請求の範囲】
【請求項１】
Ｎ（Ｎ＞＝１）個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する多様性スコア算出手段と、
入力された検索文と前記Ｎ個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記Ｎ個のメタデータの中からＭ（Ｍ＜＝Ｎ）個のメタデータを選択し、前記選択したＭ個のメタデータを前記算出した文書間距離順にＫ（Ｋ＜＝Ｍ）個のグループに分け、前記分けたＫ個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたＫ個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択手段と、
を具備する情報処理装置。
【請求項２】
前記画像選択手段は、前記算出した多様性スコアの平均値が高いほど、そのグループから選択するメタデータの数を多く決定する請求項１に記載の情報処理装置。
【請求項３】
前記画像選択手段は、前記算出した文書間距離が近いグループほど選択するメタデータの数を多くするための重みづけを行う請求項２に記載の情報処理装置。
【請求項４】
前記画像選択手段により選択された画像を一覧表示する表示手段をさらに具備する請求項１に記載の情報処理装置。
【請求項５】
動画像を所定の時間間隔で区切った区間ごとに１つの静止画像とメタデータとを取得する取得手段をさらに具備し、
前記多様性スコア算出手段は、前記取得手段によって取得されたメタデータを用いて名詞の多様性スコアを算出する請求項１に記載の情報処理装置。
【請求項６】
前記画像選択手段により選択された画像を一覧表示する表示手段と、
前記表示手段により一覧表示された画像の中から選択された画像に対応する区間の先頭から当該区間を含む動画像の再生を開始する再生手段と、
をさらに具備する請求項５に記載の情報処理装置。
【請求項７】
Ｎ（Ｎ＞＝１）個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与し、
入力された検索文と前記Ｎ個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記Ｎ個のメタデータの中からＭ（Ｍ＜＝Ｎ）個のメタデータを選択し、前記選択したＭ個のメタデータを前記算出した文書間距離順にＫ（Ｋ＜＝Ｍ）個のグループに分け、前記分けたＫ個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたＫ個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択方法。
【請求項８】
コンピュータを、
Ｎ（Ｎ＞＝１）個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する多様性スコア算出手段、
入力された検索文と前記Ｎ個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記Ｎ個のメタデータの中からＭ（Ｍ＜＝Ｎ）個のメタデータを選択し、前記選択したＭ個のメタデータを前記算出した文書間距離順にＫ（Ｋ＜＝Ｍ）個のグループに分け、前記分けたＫ個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたＫ個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択手段、
として機能させるプログラム。

【図１】