情報処理装置、画像選択方法およびプログラム
【課題】計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めることを実現する情報処理装置を提供する。
【解決手段】実施形態によれば、情報処理装置は、多様性スコア算出手段と、画像選択手段と、を具備する。多様性スコア算出手段は、各名詞について、その名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、当該統計的ばらつきが大きいほど高い値を示す多様性スコアを付与する。画像選択手段は、検索文とメタデータに含まれる文との文書間距離を算出し、文書間距離順にグループ分けして、グループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、当該多様性スコアの平均値に基づき決定される数ずつ、各グループからメタデータを選択して、そのメタデータと対応づけられた画像を検索文に対する候補として選択する。
【解決手段】実施形態によれば、情報処理装置は、多様性スコア算出手段と、画像選択手段と、を具備する。多様性スコア算出手段は、各名詞について、その名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、当該統計的ばらつきが大きいほど高い値を示す多様性スコアを付与する。画像選択手段は、検索文とメタデータに含まれる文との文書間距離を算出し、文書間距離順にグループ分けして、グループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、当該多様性スコアの平均値に基づき決定される数ずつ、各グループからメタデータを選択して、そのメタデータと対応づけられた画像を検索文に対する候補として選択する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理装置、画像選択方法およびプログラムに関する。
【背景技術】
【0002】
多数の番組が蓄積されているデータベースから効率よく興味のある番組やシーンを探し出すことを支援する方法の1つに、字幕などを用いて関連シーンを検索し、その一部の画像を候補として一覧表示する方法がある。例えば、メタデータ(字幕情報など)と静止画像とをセットにして蓄積するデータベースを用意しておき、検索要求(検索文)とメタデータ(字幕文など)との文書間距離を算出し、距離の近いメタデータに対応づけられた静止画像を候補として選出する。
【0003】
また、候補画像群から画像特徴量を抽出してクラスタリングを行い、各クラスタから選択した代表画像のみを呈示する方法もよく知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2011−71818号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、メタデータのみを用いた画像検索では、候補として選択される複数の静止画像同士が類似した画像的特徴をもつか否かが考慮されないため、いずれも似たような静止画像が一覧表示されてしまい、結果として、候補画像を一覧表示する効果が少なくなってしまうことがある。
【0006】
一方、候補画像群から画像特徴量を抽出してクラスタリングを行い、クラスタの中から代表画像を選択して呈示すれば、一覧性を高めることはできるが、検索時に必要となる計算量の増加を招いてしまう。
【0007】
本発明は、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めることを実現する情報処理装置、画像選択方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
実施形態によれば、情報処理装置は、多様性スコア算出手段と、画像選択手段と、を具備する。多様性スコア算出手段は、N(N>=1)個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する。画像選択手段は、入力された検索文と前記N個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記N個のメタデータの中からM(M<=N)個のメタデータを選択し、前記選択したM個のメタデータを前記算出した文書間距離順にK(K<=M)個のグループに分け、前記分けたK個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたK個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する。
【図面の簡単な説明】
【0009】
【図1】実施形態の情報処理装置のシステム構成を示す図。
【図2】実施形態の情報処理装置上で実行される動画像からの静止画像およびメタデータの取得例を説明するための図。
【図3】実施形態の情報処理装置上で実行されるクエリとメタデータとの文書間距離を計算する方法の一例を説明するための図。
【図4】実施形態の情報処理装置が(計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるために)新たに備える仕組みの基本原理を説明するための図。
【図5】ある単語(名詞)を含むメタデータと対応づけられた静止画像群の2次元平面における画像特徴量の分布を示す概念図。
【図6】実施形態の情報処理装置で実行される分散共分散に基づく多様性スコアの算出方法の一例を説明するための図。
【図7】実施形態の情報処理装置上で実行されるクエリとメタデータとの文書間距離を計算する処理の具体例を示す図。
【図8】実施形態の情報処理装置上で実行されるメタデータを距離順に並べて絞り込みを行う処理の具体例を示す図。
【図9】実施形態の情報処理装置上で実行される絞り込み後のメタデータをグループ分けし、グループ毎に多様性スコアの平均値を算出する処理の具体例を示す図。
【図10】実施形態の情報処理装置上で実行される多様性スコアの平均値に基づいて各グループから静止画像を選択する処理の具体例を示す図。
【図11】実施形態の情報処理装置の画像選択に関する処理の流れを示す第1のフローチャート。
【図12】実施形態の情報処理装置実施形態の情報処理装置の画像選択に関する処理の流れを示す第2のフローチャート。
【発明を実施するための形態】
【0010】
以下、実施の形態について図面を参照して説明する。
【0011】
図1は、本実施形態の情報処理装置のシステム構成を示す図である。この情報処理装置は、例えばテレビジョン放送番組データを受信、録画、再生するTV機能を有するパーソナルコンピュータなどとして実現される。
【0012】
図1に示すように、本情報処理装置は、番組蓄積部101、静止画・メタデータ取得部102、メタデータ解析部103、静止画解析部104、多様性スコア算出部105、クエリ入力部106、候補静止画選択部107、表示部108等の各処理部と、番組データベース151、静止画・メタデータデータベース等の各データ部とを有している。各処理部は、例えば本情報処理装置に所望の動作を行わせるためのプログラムがHDD(Hard disk drive)から主メモリにロードされてCPU(central processing unit)によって実行されることによって構成される。また、各データ部は、例えば(CPUによって実行される)データベースソフトウェアの管理下でHDD上に構築される。
【0013】
番組蓄積部101は、例えばユーザの録画予約設定に基づき、放送局から放送されるテレビジョン放送番組データを受信して番組データベース151に蓄積する。テレビジョン放送番組データは、字幕や内容紹介などのメタデータを含んでいる。
【0014】
静止画・メタデータ取得部102は、番組データベース151に蓄積されたテレビジョン放送番組データから静止画像とメタデータとを取得し、当該取得した静止画像とメタデータとをセットにして静止画・メタデータデータベース152に蓄積する。図2は、静止画・メタデータ取得部102によるテレビジョン放送番組データからの静止画像およびメタデータの取得例を説明するための図である。
【0015】
図2に示すように、静止画・メタデータ取得部102は、番組データベース151に蓄積されたテレビジョン放送番組データ(動画データ)を所定の時間間隔で区切った区間ごとに1つの静止画像とメタデータとを取得し、この静止画像とメタデータとをセットにして静止画・メタデータデータベース152に蓄積する。動画データの各区間内からその区間を代表する代表画像を抽出する種々の既存技術を適用可能である。
【0016】
クエリ入力部106は、例えばどのような番組やシーンを探し出したいのかが自然言語で記載された検索要求文(クエリ)を入力する。候補静止画選択部107は、クエリ入力部106によって入力されたクエリと、静止画・メタデータデータベース152に蓄積されたメタデータとの文書間距離を計算し、基本的には、クエリとの文書間距離が近いメタデータに対応づけられた静止画像を候補として選択する。図3を参照して、クエリとメタデータとの文書間距離を計算する方法の一例について説明する。
【0017】
いま、「続きまして京都の天気です。今日は世界遺産として知られる平等院の鳳凰堂からお送りしています。」という文がクエリとして入力されたとする(図3のa1)。そうすると、候補静止画選択部107は、この文から名詞を抽出し、ベクトル化したクエリ集合Qを生成する(図3のa2)。静止画・メタデータデータベース152には、「10円玉に描かれている平等院ですが、一体いつ10円玉に平等院が描かれることが決まったのでしょうか。」という文がメタデータとして蓄積されているとする(図3のa3)。候補静止画選択部107は、クエリの文と同様、この文についても、名詞の抽出を行い、ベクトル化したデータ集合Dを生成する(図3のa4)。候補静止画選択部107は、生成したクエリ集合Qとデータ集合Dとを文書間距離計算式(図3のa5)に代入し、クエリとメタデータとの文書間距離(Distance)を計算する。
【0018】
そして、表示部108は、候補静止画選択部107によって候補として選択された静止画像を一覧表示する。例えば、表示部108によって一覧表示された静止画像の中からいずれかの静止画像が選択されると、本情報処理装置は、その静止画像を含む(番組データベース151に蓄積された)テレビジョン放送番組データを、当該静止画像を代表画像とする区間の先頭から再生する。
【0019】
以上が、テレビジョン放送番組データに含まれるメタデータを使って、番組データベース151に蓄積されたテレビジョン放送番組データの中から、入力されたクエリに適合するテレビジョン放送番組データやそのシーンを選択する動作の基本的な流れである。
【0020】
次に、図4を参照して、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるために本情報処理装置が新たに備える仕組みの基本原理について説明する。
【0021】
図4中、(A)は、前述した、文書同士(クエリおよびメタデータ)の距離で候補画像を選択し(図4のb11)、当該選択した候補画像を一覧表示する(図4のb12)、という動作の流れを示している。この場合、選択した候補画像同士が類似した画像的特徴をもつか否かが考慮されないため、いずれも似たような静止画像が一覧表示されてしまい、結果として、候補画像を一覧表示する効果が少なくなってしまうことがある。
【0022】
また、図4中、(B)は、文書同士の距離で候補画像を絞り込み(図4のb21)、当該絞り込んだ候補画像群から画像特徴量を抽出してクラスタリングを行い、クラスタの中から代表画像を最終的な候補画像として選択し(図4のb22)、当該選択した候補画像を一覧表示する(図4のb23)、という動作の流れを示している。この場合、画像特徴を使った解析により、呈示する静止画像の一覧性を高めることはできるが、その反面、検索時に必要となる計算量の増加を招いてしまう。
【0023】
そこで、本情報処理装置は、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるための新たな仕組みを備えたものであり、図4中、(C)は、本情報処理装置が備える新たな仕組みによる動作の流れを示している。
【0024】
本情報処理装置においては、予めメタデータを解析して、メタデータに含まれる名詞を抽出し(図4のb321)、抽出した名詞ごとに、その名詞を含むメタデータと対応づけられた静止画像群を解析して、それらの画像特徴量を抽出し(図4のb322)、抽出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを算出する(図4のb323)、という前処理を実行する。メタデータ解析部103は、図4のb321の処理を司るモジュールであり、静止画解析部104は、図4のb322の処理を司るモジュールであり、多様性スコア算出部105は、図4のb323の処理を司るモジュールである。
【0025】
そして、本情報処理装置では、文書同士の距離で候補画像を絞り込んだ後(図4のb31)、前処理で算出された多様性スコアを用いて、当該絞り込んだ候補画像群から最終的な候補画像を選択し(図4のb32)、当該選択した候補画像を一覧表示する(図4のb33)。なお、図4のb31,b32の処理は、候補静止画選択部107が司り、図4のb33の処理は、表示部108が司る。
【0026】
図5は、ある単語(名詞)を含むメタデータと対応づけられた静止画像群の2次元平面における画像特徴量の分布を示す概念図である。なお、静止画像の画像特徴量は2次元に限定されない。
【0027】
図5には、「世界遺産」という名詞を含むメタデータと対応づけられた静止画像群の2次元平面における画像特徴量の分布と、「鳳凰堂」という名詞を含むメタデータと対応づけられた静止画像群の2次元平面における画像特徴量の分布とが示されている。「世界遺産」や「鳳凰堂」といった名詞は、メタデータ解析部103が静止画・メタデータデータベース152に蓄積されたメタデータを解析することによって抽出される。一方、静止画像の画像特徴量は、静止画解析部104が静止画・メタデータデータベース152に蓄積された静止画像を解析することによって抽出される。多様性スコア算出部105は、例えばメタデータ解析部103によって「世界遺産」という名詞が抽出されると、この「世界遺産」という名詞を含むメタデータに対応づけられた静止画像群について静止画解析部104が抽出した画像特徴量の分布から、当該「世界遺産」という名詞の多様性スコアを算出する。
【0028】
図5に示すように、「世界遺産」という名詞を含むメタデータと対応づけられた静止画像群の画像特徴量の方が、「鳳凰堂」という名詞を含むメタデータと対応づけられた静止画像群の画像特徴量よりも統計的ばらつきが大きい。そこで、多様性スコア算出部105は、「世界遺産」>「鳳凰堂」となるように、「世界遺産」や「鳳凰堂」などといった名詞に対する多様性スコアの付与を実行する。図6は、分散共分散に基づく多様性スコアの算出方法の一例を示す概図である。
【0029】
例えば、図6に示すように、多様性スコアを、0.1(最低値)から1.0(最高値)まで0.1刻みの10段階の値を取り得るものとし、2次元平面における分散・共分散が大きいものほど高い値を付与する。「世界遺産」という名詞には、0.8という値の多様性スコアが付与され、「鳳凰堂」という名詞には、0.1という値の多様性スコアが付与されている。分散は、X軸・Y軸方向のばらつきであり、共分散は、X軸とY軸との中間の斜め方向のばらつきである。
【0030】
次に、以上のような(メタデータ解析部103、静止画解析部104、多様性スコア算出部105による)前処理によって単語(名詞)の多様性スコアが算出されていることを踏まえて、本情報処理装置における、クエリ入力部106によってクエリが入力された際の候補静止画選択部107の動作について説明する。
【0031】
クエリ入力部106によってクエリが入力されると、候補静止画選択部107は、そのクエリと、静止画・メタデータデータベース152に蓄積されたメタデータとの文書間距離を計算する。図7に、候補静止画選択部107がクエリとメタデータとの文書間距離を計算する処理の具体例を示す。
【0032】
候補静止画選択部107は、静止画・メタデータデータベース152に蓄積されたメタデータについてクエリとの文書間距離を計算すると、続いて、静止画・メタデータデータベース152に蓄積されたメタデータを距離順に並べ、距離の近い順に所定数のメタデータのみを残す絞り込みを行う。図8に、候補静止画選択部107がメタデータを距離順に並べて絞り込みを行う処理の具体例を示す。図8では、静止画・メタデータデータベース152に蓄積されたN個のメタデータが、クエリとの文書間距離の近い順にM(MはN以下)個に絞り込まれている。図7に示したように、ここでは、「いま話題のAxxxxxx搭載タブレット…」という文がクエリとして入力されたことを想定している。つまり、クエリには、「話題」、「タブレット」という名詞が含まれている。そのために、「話題」または「タブレット」の少なくとも一方を含む「話題のタブレットを徹底比較。…」や「続いては大相撲の話題です。…」というメタデータがM個の中に残り、また、「話題」と「タブレット」という2つの名詞を含む「話題のタブレットを徹底比較。…」というメタデータの方が、「話題」という1つの名詞のみを含む「続いては大相撲の話題です。…」というメタデータよりも上位に並べられている。
【0033】
次に、候補静止画選択部107は、クエリとの文書間距離の近い順に絞り込んだM個のメタデータをK(KはM以下)個のグループに分け、そのK個グループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出する。図9に、候補静止画選択部107が絞り込み後のメタデータをグループ分けし、グループ毎に多様性スコアの平均値を算出する処理の具体例を示す。図9中、Score[x]は、候補静止画選択部107によって算出された多様性スコアの平均値を表している。
【0034】
そして、候補静止画選択部107は、算出した多様性スコアの平均値に基づき、各グループから選択するメタデータの数を決定し、決定した数ずつ各グループから選択したメタデータと対応づけられた静止画像をクエリに対する候補として選択する。候補静止画選択部107は、多様性スコアの平均値が高いグループほど、多くのメタデータが選択されるように、各グループから選択するメタデータの数を決定する。決定した数ずつ各グループから選択されるメタデータは、例えば、グループ内で上位に位置するもの(クエリとの文書間距離の近いもの)が優先されるものとする。
【0035】
また、本情報処理装置では、K個のグループに対して、クエリとの文書間距離の近いグループほど多くの静止画像が選択されるように調整するための重みづけを行う。これにより、例えば2つのグループで多様性スコアの平均値として同じ値が算出された場合、上位のグループ(クエリとの文書間距離の近いグループ)からの方が多くのメタデータが選択されることとなる。また、上位のグループよりも下位のグループの方が算出された多様性スコアの平均値が高い場合であっても、この重みづけにより、上位のグループからの方が多くのメタデータが選択され得ることとなる。なお、この重みづけは必須ではない。図10に、候補静止画選択部107が多様性スコアの平均値に基づいて各グループから静止画像を選択する処理の具体例を示す。
【0036】
図10中、Weight[x]は、各グループに割り当てられた重みを表している。候補静止画選択部107は、多様性スコアの平均値(Score[x])に重み(Weight)を乗ずることにより、各グループから選択するメタデータの数を決定する。図10の例では、1番目のグループよりも2番目のグループの方が多くの数のメタデータが選択されている。これは2番目のグループの多様性スコアの平均値(Score[x])の方が1番目のグループの多様性スコアの平均値(Score[x])よりも高い値であったことを示している。このように、本情報処理装置では、クエリとメタデータとの文書間距離に加えて、前処理で取得される単語(名詞)に関連する静止画像の多様性が考慮されて、クエリに対する候補とする静止画像が選択されるので、一覧性を高めることができる。また、予め算出しておいた多様性スコアを用いることにより、検索時における計算コストを抑えることができる。
【0037】
なお、候補静止画選択部107は、上位のグループから各々決定した数のメタデータを選択していき、例えばK番目のグループに到達する前に、選択数が候補予定数(例えばL枚)に達した場合には、その時点でメタデータの選択を終了する。表示部108は、候補静止画選択部107によって候補として選択された静止画像を一覧表示し、いずれかの静止画像が選択されると、本情報処理装置は、例えば、その静止画像を含む(番組データベース151に蓄積された)テレビジョン放送番組データを、当該静止画像を代表画像とする区間の先頭から再生する。
【0038】
図11および図12は、本情報処理装置の画像選択に関する処理の流れを示すフローチャートである。
【0039】
番組蓄積部101は、録画予約設定に基づき、テレビジョン放送番組データを番組データベース151に蓄積する(ブロックA1)。静止画・メタデータ取得部102は、番組データベース151に蓄積されたテレビジョン放送番組データから静止画像とメタデータとを取得して静止画・メタデータデータベース152に蓄積する(ブロックA2)。この時、静止画・メタデータ取得部102は、静止画・メタデータデータベース152への静止画像およびメタデータの追加蓄積数をインクリメントする。
【0040】
追加蓄積数が閾値に達すると(ブロックA3のYES)、メタデータ解析部103は、静止画・メタデータデータベース152に蓄積されたメタデータから名詞を抽出する(ブロックA4)。また、静止画解析部104は、静止画・メタデータデータベース152に蓄積された静止画像の中から、抽出された名詞を含むメタデータと対応づけられた静止画像のみを抽出し(ブロックA5)、それらの静止画像から画像特徴量を抽出する(ブロックA6)。
【0041】
全ての名詞について上記ブロックA4〜A6の処理が実施されると(ブロックA7のYES)、多様性スコア算出部105は、抽出された画像特徴量の分散分析を行って統計的ばらつきを算出し、ばらつきの高いものほどスコアが高くなるよう各名詞の多様性スコアを算出する(ブロックA8)。この時、多様性スコア算出部105は、追加蓄積数の初期化を実行する。これにより、閾値で示される数の静止画像およびメタデータが静止画・メタデータデータベース152に蓄積される度に、上記ステップA4〜A8の処理が実施され、名詞の多様性スコアが適正化されていくことになる。なお、1回目に(閾値で示される数の静止画像およびメタデータから)算出される名詞の多様性スコアを恒久的に使用し得る場合には、この時の追加蓄積数の初期化を省略し、ブロックA4〜A8の処理の計算コストを削減するようにしてもよい。また、ステップA4〜A8の処理については、例えば、ネットワークを介して接続されるサーバから各名詞の多様性スコアを取得することで省略したり、静止画・メタデータデータベース152をネットワーク経由でリモートアクセス可能に構成することでサーバに代行させたり等、種々の変更が可能である。追加蓄積数が閾値に達するまでは、初期スコアとして全ての名詞の多様性スコアを同じ値としても構わない。
【0042】
クエリ入力部106によりクエリが入力されると(ブロックA9のYES)、候補静止画選択部107は、静止画・メタデータ取得部102により取得されたメタデータおよび静止画と、クエリ入力部106により入力されたクエリと、多様性スコア算出部105により算出された多様性スコアとにより、静止画・メタデータデータベース152に蓄積された静止画像の中から候補とする静止画像を選択する(ブロックA10)。そして、表示部108は、候補静止画選択部107により選択された静止画像を一覧表示する(ブロックA11)。
【0043】
図12は、図11のブロックA10における候補静止画選択部107の処理の詳細な流れを示すフローチャートである。
【0044】
候補静止画選択部107は、クエリ入力部106により入力されたクエリと、静止画・メタデータデータベース152に蓄積されたメタデータとの文書間距離を計算する(ブロックB1)。候補静止画選択部107は、計算した文書間距離に基づき、N個のメタデータを距離の近い順にM個に絞る絞り込みを実行する(ブロックB2)。
【0045】
候補静止画選択部107は、残ったメタデータをグループ分けし(ブロックB3)、グループ毎に、メタデータに含まれる名詞の多様性スコアの平均値を算出する(ブロックB4)。候補静止画選択部107は、算出した多様性スコアの平均値に基づき、各グループから選択する候補数を決定し、合計L枚の静止画像を選択する(ブロックB5)。
【0046】
以上のように、本情報処理装置は、クエリとメタデータとの文書間距離に加えて、前処理で取得される単語(名詞)に関連する静止画像の多様性を考慮して、クエリに対する候補とする静止画像を選択することにより、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めることを実現する。
【0047】
なお、本実施形態の動作制御処理は、ソフトウェア(プログラム)によって実現することができるので、このソフトウェアを格納したコンピュータ読み取り可能な記憶媒体を通じてこのソフトウェアを通常のコンピュータにインストールして実行することにより、本実施形態と同様の効果を容易に実現することができる。
【0048】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0049】
101…番組蓄積部、102…静止画・メタデータ取得部、103…メタデータ解析部、104…静止画解析部、105…多様性スコア算出部、106…クエリ入力部、107…候補静止画選択部、108…表示部、151…番組データベース、152…静止画・メタデータデータベース。
【技術分野】
【0001】
本発明の実施形態は、情報処理装置、画像選択方法およびプログラムに関する。
【背景技術】
【0002】
多数の番組が蓄積されているデータベースから効率よく興味のある番組やシーンを探し出すことを支援する方法の1つに、字幕などを用いて関連シーンを検索し、その一部の画像を候補として一覧表示する方法がある。例えば、メタデータ(字幕情報など)と静止画像とをセットにして蓄積するデータベースを用意しておき、検索要求(検索文)とメタデータ(字幕文など)との文書間距離を算出し、距離の近いメタデータに対応づけられた静止画像を候補として選出する。
【0003】
また、候補画像群から画像特徴量を抽出してクラスタリングを行い、各クラスタから選択した代表画像のみを呈示する方法もよく知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2011−71818号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、メタデータのみを用いた画像検索では、候補として選択される複数の静止画像同士が類似した画像的特徴をもつか否かが考慮されないため、いずれも似たような静止画像が一覧表示されてしまい、結果として、候補画像を一覧表示する効果が少なくなってしまうことがある。
【0006】
一方、候補画像群から画像特徴量を抽出してクラスタリングを行い、クラスタの中から代表画像を選択して呈示すれば、一覧性を高めることはできるが、検索時に必要となる計算量の増加を招いてしまう。
【0007】
本発明は、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めることを実現する情報処理装置、画像選択方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
実施形態によれば、情報処理装置は、多様性スコア算出手段と、画像選択手段と、を具備する。多様性スコア算出手段は、N(N>=1)個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する。画像選択手段は、入力された検索文と前記N個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記N個のメタデータの中からM(M<=N)個のメタデータを選択し、前記選択したM個のメタデータを前記算出した文書間距離順にK(K<=M)個のグループに分け、前記分けたK個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたK個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する。
【図面の簡単な説明】
【0009】
【図1】実施形態の情報処理装置のシステム構成を示す図。
【図2】実施形態の情報処理装置上で実行される動画像からの静止画像およびメタデータの取得例を説明するための図。
【図3】実施形態の情報処理装置上で実行されるクエリとメタデータとの文書間距離を計算する方法の一例を説明するための図。
【図4】実施形態の情報処理装置が(計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるために)新たに備える仕組みの基本原理を説明するための図。
【図5】ある単語(名詞)を含むメタデータと対応づけられた静止画像群の2次元平面における画像特徴量の分布を示す概念図。
【図6】実施形態の情報処理装置で実行される分散共分散に基づく多様性スコアの算出方法の一例を説明するための図。
【図7】実施形態の情報処理装置上で実行されるクエリとメタデータとの文書間距離を計算する処理の具体例を示す図。
【図8】実施形態の情報処理装置上で実行されるメタデータを距離順に並べて絞り込みを行う処理の具体例を示す図。
【図9】実施形態の情報処理装置上で実行される絞り込み後のメタデータをグループ分けし、グループ毎に多様性スコアの平均値を算出する処理の具体例を示す図。
【図10】実施形態の情報処理装置上で実行される多様性スコアの平均値に基づいて各グループから静止画像を選択する処理の具体例を示す図。
【図11】実施形態の情報処理装置の画像選択に関する処理の流れを示す第1のフローチャート。
【図12】実施形態の情報処理装置実施形態の情報処理装置の画像選択に関する処理の流れを示す第2のフローチャート。
【発明を実施するための形態】
【0010】
以下、実施の形態について図面を参照して説明する。
【0011】
図1は、本実施形態の情報処理装置のシステム構成を示す図である。この情報処理装置は、例えばテレビジョン放送番組データを受信、録画、再生するTV機能を有するパーソナルコンピュータなどとして実現される。
【0012】
図1に示すように、本情報処理装置は、番組蓄積部101、静止画・メタデータ取得部102、メタデータ解析部103、静止画解析部104、多様性スコア算出部105、クエリ入力部106、候補静止画選択部107、表示部108等の各処理部と、番組データベース151、静止画・メタデータデータベース等の各データ部とを有している。各処理部は、例えば本情報処理装置に所望の動作を行わせるためのプログラムがHDD(Hard disk drive)から主メモリにロードされてCPU(central processing unit)によって実行されることによって構成される。また、各データ部は、例えば(CPUによって実行される)データベースソフトウェアの管理下でHDD上に構築される。
【0013】
番組蓄積部101は、例えばユーザの録画予約設定に基づき、放送局から放送されるテレビジョン放送番組データを受信して番組データベース151に蓄積する。テレビジョン放送番組データは、字幕や内容紹介などのメタデータを含んでいる。
【0014】
静止画・メタデータ取得部102は、番組データベース151に蓄積されたテレビジョン放送番組データから静止画像とメタデータとを取得し、当該取得した静止画像とメタデータとをセットにして静止画・メタデータデータベース152に蓄積する。図2は、静止画・メタデータ取得部102によるテレビジョン放送番組データからの静止画像およびメタデータの取得例を説明するための図である。
【0015】
図2に示すように、静止画・メタデータ取得部102は、番組データベース151に蓄積されたテレビジョン放送番組データ(動画データ)を所定の時間間隔で区切った区間ごとに1つの静止画像とメタデータとを取得し、この静止画像とメタデータとをセットにして静止画・メタデータデータベース152に蓄積する。動画データの各区間内からその区間を代表する代表画像を抽出する種々の既存技術を適用可能である。
【0016】
クエリ入力部106は、例えばどのような番組やシーンを探し出したいのかが自然言語で記載された検索要求文(クエリ)を入力する。候補静止画選択部107は、クエリ入力部106によって入力されたクエリと、静止画・メタデータデータベース152に蓄積されたメタデータとの文書間距離を計算し、基本的には、クエリとの文書間距離が近いメタデータに対応づけられた静止画像を候補として選択する。図3を参照して、クエリとメタデータとの文書間距離を計算する方法の一例について説明する。
【0017】
いま、「続きまして京都の天気です。今日は世界遺産として知られる平等院の鳳凰堂からお送りしています。」という文がクエリとして入力されたとする(図3のa1)。そうすると、候補静止画選択部107は、この文から名詞を抽出し、ベクトル化したクエリ集合Qを生成する(図3のa2)。静止画・メタデータデータベース152には、「10円玉に描かれている平等院ですが、一体いつ10円玉に平等院が描かれることが決まったのでしょうか。」という文がメタデータとして蓄積されているとする(図3のa3)。候補静止画選択部107は、クエリの文と同様、この文についても、名詞の抽出を行い、ベクトル化したデータ集合Dを生成する(図3のa4)。候補静止画選択部107は、生成したクエリ集合Qとデータ集合Dとを文書間距離計算式(図3のa5)に代入し、クエリとメタデータとの文書間距離(Distance)を計算する。
【0018】
そして、表示部108は、候補静止画選択部107によって候補として選択された静止画像を一覧表示する。例えば、表示部108によって一覧表示された静止画像の中からいずれかの静止画像が選択されると、本情報処理装置は、その静止画像を含む(番組データベース151に蓄積された)テレビジョン放送番組データを、当該静止画像を代表画像とする区間の先頭から再生する。
【0019】
以上が、テレビジョン放送番組データに含まれるメタデータを使って、番組データベース151に蓄積されたテレビジョン放送番組データの中から、入力されたクエリに適合するテレビジョン放送番組データやそのシーンを選択する動作の基本的な流れである。
【0020】
次に、図4を参照して、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるために本情報処理装置が新たに備える仕組みの基本原理について説明する。
【0021】
図4中、(A)は、前述した、文書同士(クエリおよびメタデータ)の距離で候補画像を選択し(図4のb11)、当該選択した候補画像を一覧表示する(図4のb12)、という動作の流れを示している。この場合、選択した候補画像同士が類似した画像的特徴をもつか否かが考慮されないため、いずれも似たような静止画像が一覧表示されてしまい、結果として、候補画像を一覧表示する効果が少なくなってしまうことがある。
【0022】
また、図4中、(B)は、文書同士の距離で候補画像を絞り込み(図4のb21)、当該絞り込んだ候補画像群から画像特徴量を抽出してクラスタリングを行い、クラスタの中から代表画像を最終的な候補画像として選択し(図4のb22)、当該選択した候補画像を一覧表示する(図4のb23)、という動作の流れを示している。この場合、画像特徴を使った解析により、呈示する静止画像の一覧性を高めることはできるが、その反面、検索時に必要となる計算量の増加を招いてしまう。
【0023】
そこで、本情報処理装置は、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めるための新たな仕組みを備えたものであり、図4中、(C)は、本情報処理装置が備える新たな仕組みによる動作の流れを示している。
【0024】
本情報処理装置においては、予めメタデータを解析して、メタデータに含まれる名詞を抽出し(図4のb321)、抽出した名詞ごとに、その名詞を含むメタデータと対応づけられた静止画像群を解析して、それらの画像特徴量を抽出し(図4のb322)、抽出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを算出する(図4のb323)、という前処理を実行する。メタデータ解析部103は、図4のb321の処理を司るモジュールであり、静止画解析部104は、図4のb322の処理を司るモジュールであり、多様性スコア算出部105は、図4のb323の処理を司るモジュールである。
【0025】
そして、本情報処理装置では、文書同士の距離で候補画像を絞り込んだ後(図4のb31)、前処理で算出された多様性スコアを用いて、当該絞り込んだ候補画像群から最終的な候補画像を選択し(図4のb32)、当該選択した候補画像を一覧表示する(図4のb33)。なお、図4のb31,b32の処理は、候補静止画選択部107が司り、図4のb33の処理は、表示部108が司る。
【0026】
図5は、ある単語(名詞)を含むメタデータと対応づけられた静止画像群の2次元平面における画像特徴量の分布を示す概念図である。なお、静止画像の画像特徴量は2次元に限定されない。
【0027】
図5には、「世界遺産」という名詞を含むメタデータと対応づけられた静止画像群の2次元平面における画像特徴量の分布と、「鳳凰堂」という名詞を含むメタデータと対応づけられた静止画像群の2次元平面における画像特徴量の分布とが示されている。「世界遺産」や「鳳凰堂」といった名詞は、メタデータ解析部103が静止画・メタデータデータベース152に蓄積されたメタデータを解析することによって抽出される。一方、静止画像の画像特徴量は、静止画解析部104が静止画・メタデータデータベース152に蓄積された静止画像を解析することによって抽出される。多様性スコア算出部105は、例えばメタデータ解析部103によって「世界遺産」という名詞が抽出されると、この「世界遺産」という名詞を含むメタデータに対応づけられた静止画像群について静止画解析部104が抽出した画像特徴量の分布から、当該「世界遺産」という名詞の多様性スコアを算出する。
【0028】
図5に示すように、「世界遺産」という名詞を含むメタデータと対応づけられた静止画像群の画像特徴量の方が、「鳳凰堂」という名詞を含むメタデータと対応づけられた静止画像群の画像特徴量よりも統計的ばらつきが大きい。そこで、多様性スコア算出部105は、「世界遺産」>「鳳凰堂」となるように、「世界遺産」や「鳳凰堂」などといった名詞に対する多様性スコアの付与を実行する。図6は、分散共分散に基づく多様性スコアの算出方法の一例を示す概図である。
【0029】
例えば、図6に示すように、多様性スコアを、0.1(最低値)から1.0(最高値)まで0.1刻みの10段階の値を取り得るものとし、2次元平面における分散・共分散が大きいものほど高い値を付与する。「世界遺産」という名詞には、0.8という値の多様性スコアが付与され、「鳳凰堂」という名詞には、0.1という値の多様性スコアが付与されている。分散は、X軸・Y軸方向のばらつきであり、共分散は、X軸とY軸との中間の斜め方向のばらつきである。
【0030】
次に、以上のような(メタデータ解析部103、静止画解析部104、多様性スコア算出部105による)前処理によって単語(名詞)の多様性スコアが算出されていることを踏まえて、本情報処理装置における、クエリ入力部106によってクエリが入力された際の候補静止画選択部107の動作について説明する。
【0031】
クエリ入力部106によってクエリが入力されると、候補静止画選択部107は、そのクエリと、静止画・メタデータデータベース152に蓄積されたメタデータとの文書間距離を計算する。図7に、候補静止画選択部107がクエリとメタデータとの文書間距離を計算する処理の具体例を示す。
【0032】
候補静止画選択部107は、静止画・メタデータデータベース152に蓄積されたメタデータについてクエリとの文書間距離を計算すると、続いて、静止画・メタデータデータベース152に蓄積されたメタデータを距離順に並べ、距離の近い順に所定数のメタデータのみを残す絞り込みを行う。図8に、候補静止画選択部107がメタデータを距離順に並べて絞り込みを行う処理の具体例を示す。図8では、静止画・メタデータデータベース152に蓄積されたN個のメタデータが、クエリとの文書間距離の近い順にM(MはN以下)個に絞り込まれている。図7に示したように、ここでは、「いま話題のAxxxxxx搭載タブレット…」という文がクエリとして入力されたことを想定している。つまり、クエリには、「話題」、「タブレット」という名詞が含まれている。そのために、「話題」または「タブレット」の少なくとも一方を含む「話題のタブレットを徹底比較。…」や「続いては大相撲の話題です。…」というメタデータがM個の中に残り、また、「話題」と「タブレット」という2つの名詞を含む「話題のタブレットを徹底比較。…」というメタデータの方が、「話題」という1つの名詞のみを含む「続いては大相撲の話題です。…」というメタデータよりも上位に並べられている。
【0033】
次に、候補静止画選択部107は、クエリとの文書間距離の近い順に絞り込んだM個のメタデータをK(KはM以下)個のグループに分け、そのK個グループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出する。図9に、候補静止画選択部107が絞り込み後のメタデータをグループ分けし、グループ毎に多様性スコアの平均値を算出する処理の具体例を示す。図9中、Score[x]は、候補静止画選択部107によって算出された多様性スコアの平均値を表している。
【0034】
そして、候補静止画選択部107は、算出した多様性スコアの平均値に基づき、各グループから選択するメタデータの数を決定し、決定した数ずつ各グループから選択したメタデータと対応づけられた静止画像をクエリに対する候補として選択する。候補静止画選択部107は、多様性スコアの平均値が高いグループほど、多くのメタデータが選択されるように、各グループから選択するメタデータの数を決定する。決定した数ずつ各グループから選択されるメタデータは、例えば、グループ内で上位に位置するもの(クエリとの文書間距離の近いもの)が優先されるものとする。
【0035】
また、本情報処理装置では、K個のグループに対して、クエリとの文書間距離の近いグループほど多くの静止画像が選択されるように調整するための重みづけを行う。これにより、例えば2つのグループで多様性スコアの平均値として同じ値が算出された場合、上位のグループ(クエリとの文書間距離の近いグループ)からの方が多くのメタデータが選択されることとなる。また、上位のグループよりも下位のグループの方が算出された多様性スコアの平均値が高い場合であっても、この重みづけにより、上位のグループからの方が多くのメタデータが選択され得ることとなる。なお、この重みづけは必須ではない。図10に、候補静止画選択部107が多様性スコアの平均値に基づいて各グループから静止画像を選択する処理の具体例を示す。
【0036】
図10中、Weight[x]は、各グループに割り当てられた重みを表している。候補静止画選択部107は、多様性スコアの平均値(Score[x])に重み(Weight)を乗ずることにより、各グループから選択するメタデータの数を決定する。図10の例では、1番目のグループよりも2番目のグループの方が多くの数のメタデータが選択されている。これは2番目のグループの多様性スコアの平均値(Score[x])の方が1番目のグループの多様性スコアの平均値(Score[x])よりも高い値であったことを示している。このように、本情報処理装置では、クエリとメタデータとの文書間距離に加えて、前処理で取得される単語(名詞)に関連する静止画像の多様性が考慮されて、クエリに対する候補とする静止画像が選択されるので、一覧性を高めることができる。また、予め算出しておいた多様性スコアを用いることにより、検索時における計算コストを抑えることができる。
【0037】
なお、候補静止画選択部107は、上位のグループから各々決定した数のメタデータを選択していき、例えばK番目のグループに到達する前に、選択数が候補予定数(例えばL枚)に達した場合には、その時点でメタデータの選択を終了する。表示部108は、候補静止画選択部107によって候補として選択された静止画像を一覧表示し、いずれかの静止画像が選択されると、本情報処理装置は、例えば、その静止画像を含む(番組データベース151に蓄積された)テレビジョン放送番組データを、当該静止画像を代表画像とする区間の先頭から再生する。
【0038】
図11および図12は、本情報処理装置の画像選択に関する処理の流れを示すフローチャートである。
【0039】
番組蓄積部101は、録画予約設定に基づき、テレビジョン放送番組データを番組データベース151に蓄積する(ブロックA1)。静止画・メタデータ取得部102は、番組データベース151に蓄積されたテレビジョン放送番組データから静止画像とメタデータとを取得して静止画・メタデータデータベース152に蓄積する(ブロックA2)。この時、静止画・メタデータ取得部102は、静止画・メタデータデータベース152への静止画像およびメタデータの追加蓄積数をインクリメントする。
【0040】
追加蓄積数が閾値に達すると(ブロックA3のYES)、メタデータ解析部103は、静止画・メタデータデータベース152に蓄積されたメタデータから名詞を抽出する(ブロックA4)。また、静止画解析部104は、静止画・メタデータデータベース152に蓄積された静止画像の中から、抽出された名詞を含むメタデータと対応づけられた静止画像のみを抽出し(ブロックA5)、それらの静止画像から画像特徴量を抽出する(ブロックA6)。
【0041】
全ての名詞について上記ブロックA4〜A6の処理が実施されると(ブロックA7のYES)、多様性スコア算出部105は、抽出された画像特徴量の分散分析を行って統計的ばらつきを算出し、ばらつきの高いものほどスコアが高くなるよう各名詞の多様性スコアを算出する(ブロックA8)。この時、多様性スコア算出部105は、追加蓄積数の初期化を実行する。これにより、閾値で示される数の静止画像およびメタデータが静止画・メタデータデータベース152に蓄積される度に、上記ステップA4〜A8の処理が実施され、名詞の多様性スコアが適正化されていくことになる。なお、1回目に(閾値で示される数の静止画像およびメタデータから)算出される名詞の多様性スコアを恒久的に使用し得る場合には、この時の追加蓄積数の初期化を省略し、ブロックA4〜A8の処理の計算コストを削減するようにしてもよい。また、ステップA4〜A8の処理については、例えば、ネットワークを介して接続されるサーバから各名詞の多様性スコアを取得することで省略したり、静止画・メタデータデータベース152をネットワーク経由でリモートアクセス可能に構成することでサーバに代行させたり等、種々の変更が可能である。追加蓄積数が閾値に達するまでは、初期スコアとして全ての名詞の多様性スコアを同じ値としても構わない。
【0042】
クエリ入力部106によりクエリが入力されると(ブロックA9のYES)、候補静止画選択部107は、静止画・メタデータ取得部102により取得されたメタデータおよび静止画と、クエリ入力部106により入力されたクエリと、多様性スコア算出部105により算出された多様性スコアとにより、静止画・メタデータデータベース152に蓄積された静止画像の中から候補とする静止画像を選択する(ブロックA10)。そして、表示部108は、候補静止画選択部107により選択された静止画像を一覧表示する(ブロックA11)。
【0043】
図12は、図11のブロックA10における候補静止画選択部107の処理の詳細な流れを示すフローチャートである。
【0044】
候補静止画選択部107は、クエリ入力部106により入力されたクエリと、静止画・メタデータデータベース152に蓄積されたメタデータとの文書間距離を計算する(ブロックB1)。候補静止画選択部107は、計算した文書間距離に基づき、N個のメタデータを距離の近い順にM個に絞る絞り込みを実行する(ブロックB2)。
【0045】
候補静止画選択部107は、残ったメタデータをグループ分けし(ブロックB3)、グループ毎に、メタデータに含まれる名詞の多様性スコアの平均値を算出する(ブロックB4)。候補静止画選択部107は、算出した多様性スコアの平均値に基づき、各グループから選択する候補数を決定し、合計L枚の静止画像を選択する(ブロックB5)。
【0046】
以上のように、本情報処理装置は、クエリとメタデータとの文書間距離に加えて、前処理で取得される単語(名詞)に関連する静止画像の多様性を考慮して、クエリに対する候補とする静止画像を選択することにより、計算量の増加を抑えつつ、呈示する静止画像の一覧性を高めることを実現する。
【0047】
なお、本実施形態の動作制御処理は、ソフトウェア(プログラム)によって実現することができるので、このソフトウェアを格納したコンピュータ読み取り可能な記憶媒体を通じてこのソフトウェアを通常のコンピュータにインストールして実行することにより、本実施形態と同様の効果を容易に実現することができる。
【0048】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0049】
101…番組蓄積部、102…静止画・メタデータ取得部、103…メタデータ解析部、104…静止画解析部、105…多様性スコア算出部、106…クエリ入力部、107…候補静止画選択部、108…表示部、151…番組データベース、152…静止画・メタデータデータベース。
【特許請求の範囲】
【請求項1】
N(N>=1)個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する多様性スコア算出手段と、
入力された検索文と前記N個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記N個のメタデータの中からM(M<=N)個のメタデータを選択し、前記選択したM個のメタデータを前記算出した文書間距離順にK(K<=M)個のグループに分け、前記分けたK個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたK個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択手段と、
を具備する情報処理装置。
【請求項2】
前記画像選択手段は、前記算出した多様性スコアの平均値が高いほど、そのグループから選択するメタデータの数を多く決定する請求項1に記載の情報処理装置。
【請求項3】
前記画像選択手段は、前記算出した文書間距離が近いグループほど選択するメタデータの数を多くするための重みづけを行う請求項2に記載の情報処理装置。
【請求項4】
前記画像選択手段により選択された画像を一覧表示する表示手段をさらに具備する請求項1に記載の情報処理装置。
【請求項5】
動画像を所定の時間間隔で区切った区間ごとに1つの静止画像とメタデータとを取得する取得手段をさらに具備し、
前記多様性スコア算出手段は、前記取得手段によって取得されたメタデータを用いて名詞の多様性スコアを算出する請求項1に記載の情報処理装置。
【請求項6】
前記画像選択手段により選択された画像を一覧表示する表示手段と、
前記表示手段により一覧表示された画像の中から選択された画像に対応する区間の先頭から当該区間を含む動画像の再生を開始する再生手段と、
をさらに具備する請求項5に記載の情報処理装置。
【請求項7】
N(N>=1)個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与し、
入力された検索文と前記N個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記N個のメタデータの中からM(M<=N)個のメタデータを選択し、前記選択したM個のメタデータを前記算出した文書間距離順にK(K<=M)個のグループに分け、前記分けたK個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたK個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択方法。
【請求項8】
コンピュータを、
N(N>=1)個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する多様性スコア算出手段、
入力された検索文と前記N個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記N個のメタデータの中からM(M<=N)個のメタデータを選択し、前記選択したM個のメタデータを前記算出した文書間距離順にK(K<=M)個のグループに分け、前記分けたK個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたK個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択手段、
として機能させるプログラム。
【請求項1】
N(N>=1)個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する多様性スコア算出手段と、
入力された検索文と前記N個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記N個のメタデータの中からM(M<=N)個のメタデータを選択し、前記選択したM個のメタデータを前記算出した文書間距離順にK(K<=M)個のグループに分け、前記分けたK個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたK個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択手段と、
を具備する情報処理装置。
【請求項2】
前記画像選択手段は、前記算出した多様性スコアの平均値が高いほど、そのグループから選択するメタデータの数を多く決定する請求項1に記載の情報処理装置。
【請求項3】
前記画像選択手段は、前記算出した文書間距離が近いグループほど選択するメタデータの数を多くするための重みづけを行う請求項2に記載の情報処理装置。
【請求項4】
前記画像選択手段により選択された画像を一覧表示する表示手段をさらに具備する請求項1に記載の情報処理装置。
【請求項5】
動画像を所定の時間間隔で区切った区間ごとに1つの静止画像とメタデータとを取得する取得手段をさらに具備し、
前記多様性スコア算出手段は、前記取得手段によって取得されたメタデータを用いて名詞の多様性スコアを算出する請求項1に記載の情報処理装置。
【請求項6】
前記画像選択手段により選択された画像を一覧表示する表示手段と、
前記表示手段により一覧表示された画像の中から選択された画像に対応する区間の先頭から当該区間を含む動画像の再生を開始する再生手段と、
をさらに具備する請求項5に記載の情報処理装置。
【請求項7】
N(N>=1)個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与し、
入力された検索文と前記N個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記N個のメタデータの中からM(M<=N)個のメタデータを選択し、前記選択したM個のメタデータを前記算出した文書間距離順にK(K<=M)個のグループに分け、前記分けたK個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたK個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択方法。
【請求項8】
コンピュータを、
N(N>=1)個の画像のメタデータから名詞を抽出し、前記抽出した名詞がメタデータに含まれる画像から抽出される画像特徴量の統計的ばらつきを算出して、前記算出した画像特徴量の統計的ばらつきが大きいほど高い値を示す多様性スコアを前記抽出した名詞に付与する多様性スコア算出手段、
入力された検索文と前記N個のメタデータに含まれる文との類似度を示す文書間距離を算出して前記N個のメタデータの中からM(M<=N)個のメタデータを選択し、前記選択したM個のメタデータを前記算出した文書間距離順にK(K<=M)個のグループに分け、前記分けたK個のグループ毎に、メタデータに含まれる名詞に付与された多様性スコアの平均値を算出し、前記算出した多様性スコアの平均値に基づき決定される数ずつ、前記分けたK個のグループからメタデータを選択し、前記選択したメタデータと対応づけられた画像を前記入力された検索文に対する候補として選択する画像選択手段、
として機能させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2013−114507(P2013−114507A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−260867(P2011−260867)
【出願日】平成23年11月29日(2011.11.29)
【出願人】(000003078)株式会社東芝 (54,554)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願日】平成23年11月29日(2011.11.29)
【出願人】(000003078)株式会社東芝 (54,554)
[ Back to top ]