コンテンツ検索装置および方法、並びにプログラム
【課題】動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができるようにする。
【解決手段】メディアアーカイブ22は、コンテンツ入力部21から入力されたコンテンツのデータを蓄積する。画像処理部23は、コンテンツからメタデータを抽出し、コンテンツの識別情報と対応付けてメタデータデータベース24に蓄積し、コンテンツから画像特徴量を抽出し、コンテンツの識別情報およびフレーム番号と対応付けて画像特徴量データベース25に蓄積する。検索画像入力部31は、静止画である検索画像の入力を受け付け、検索部33が、検索画像に類似する静止画のフレームが検出されたコンテンツを特定して検索結果出力部34に通知する。検索結果出力部34は、メタデータデータベース24からメタデータを読み出して、検索結果の表示データを生成する。
【解決手段】メディアアーカイブ22は、コンテンツ入力部21から入力されたコンテンツのデータを蓄積する。画像処理部23は、コンテンツからメタデータを抽出し、コンテンツの識別情報と対応付けてメタデータデータベース24に蓄積し、コンテンツから画像特徴量を抽出し、コンテンツの識別情報およびフレーム番号と対応付けて画像特徴量データベース25に蓄積する。検索画像入力部31は、静止画である検索画像の入力を受け付け、検索部33が、検索画像に類似する静止画のフレームが検出されたコンテンツを特定して検索結果出力部34に通知する。検索結果出力部34は、メタデータデータベース24からメタデータを読み出して、検索結果の表示データを生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ検索装置および方法、並びにプログラムに関し、特に、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができるようにするコンテンツ検索装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
映像(動画)コンテンツに対する画像検索の技術が提案されている。
【0003】
映像コンテンツに対する画像検索の結果を表示する場合、検索結果として得られたコンテンツの最初のフレームの画像やそのコンテンツの代表画像を表示することが一般的である。あるいはまた、検索結果としてコンテンツ内の検索画像に対応するフレームが検出される場合はそのフレームの画像などを表示する場合がある。
【0004】
また、これら一覧の検索結果に対して、検索結果のコンテンツを選択し再生することで、映像を確認する方法がある(例えば、特許文献1参照)。
【0005】
さらに、近年のコンテンツの編集処理においては、ユーザがコンテンツの時間的長さや再生位置を認識し易くするように、コンテンツの音声信号の波形を時間軸に合わせて表示するなどのタイムライン表示も用いられている。
【0006】
【特許文献1】特開2003−289487号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の技術では、例えば、複数の検索結果が得られた場合に、それぞれの検索結果を動画像として比較することはできなかった。このため、検索結果に基づいてコンテンツの内容を比較などすることができなかった。
【0008】
例えば、従来の技術では、検索結果としてサムネイル画像や代表画像が表示されるので、ユーザは、それらの複数の検索結果のそれぞれのサムネイル画像や代表画像を見比べることでコンテンツの内容を比較する他ない。
【0009】
また、従来の技術では、検索結果として得られた画像が含まれるコンテンツを再生して内容を確認することはできるものの、複数の検索結果を動画として同時に比較することはできなかった。
【0010】
本発明はこのような状況に鑑みてなされたものであり、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができるようにするものである。
【課題を解決するための手段】
【0011】
本発明の一側面は、静止画である検索画像の入力を受け付ける検索画像入力手段と、予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置である。
【0012】
前記タイムライン表示手段は、前記メタデータに含まれる前記コンテンツのシーンチェンジ点の情報に基づいて、前記コンテンツを構成するシーンを特定し、前記シーンの時間的長さに対応させて前記シーンのそれぞれを表示する図形を、画面の水平または垂直方向を時間軸として表示することで前記コンテンツをタイムライン表示させるようにすることができる。
【0013】
前記タイムライン表示手段は、複数のコンテンツのそれぞれを同一画面上に前記タイムライン表示させ、前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように前記コンテンツをタイムライン表示させるようにすることができる。
【0014】
前記タイムライン表示手段は、前記タイムライン表示されたコンテンツの再生が指令された場合、前記同一画面上に前記タイムライン表示させた前記複数のコンテンツのそれぞれを、前記時間軸上の同じ位置のフレームが再生されるように再生させるようにすることができる。
【0015】
前記タイムライン表示手段は、前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームが含まれるシーンを抽出し、前記抽出されたシーンのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように表示させるようにすることができる。
【0016】
前記タイムライン表示手段は、前記シーンを表示する図形を、予め定められた方式により特定された前記シーンの代表色で表示して前記コンテンツをタイムライン表示させるようにすることができる。
【0017】
本発明の一側面は、検索画像入力手段が、静止画である検索画像の入力を受け付け、画像特徴量抽出手段が、予め定められた方式で前記検索画像の画像特徴量を抽出し、類似度算出手段が、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出し、特定手段が、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定し、タイムライン表示手段が、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するステップを含むコンテンツ検索方法である。
【0018】
本発明の一側面は、コンピュータを、静止画である検索画像の入力を受け付ける検索画像入力手段と、予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置として機能させるプログラムである。
【0019】
本発明の一側面においては、静止画である検索画像の入力を受け付けられ、予め定められた方式で前記検索画像の画像特徴量が抽出され、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度が算出され、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画が、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定され、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データが生成される。
【発明の効果】
【0020】
本発明によれば、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができる。
【図面の簡単な説明】
【0021】
【図1】本発明の一実施の形態に係るコンテンツ検索装置の構成例を示すブロック図である。
【図2】検索画像の例を示す図である。
【図3】検索結果の表示画面の例を示す図である。
【図4】図3の画面においてコンテンツが再生された画面の例を示す図である。
【図5】図4の状態からさらに時間が経過したとき表示される画面の例を示す図である。
【図6】選択されたシーンを繰り返し再生させる場合の画面の例を示す図である。
【図7】検索画像に類似する画像の含まれるシーンのみを抽出して表示する画面の例を示す図である。
【図8】コンテンツ入力処理の例を説明するフローチャートである。
【図9】検索結果表示処理の例を説明するフローチャートである。
【図10】パーソナルコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0022】
以下、図面を参照して、本発明の実施の形態について説明する。
【0023】
図1は、本発明の一実施の形態に係るコンテンツ検索装置の構成例を示すブロック図である。
【0024】
このコンテンツ検索装置10は、動画のコンテンツをメディアアーカイブ22に複数保存し、保存されたコンテンツの中から、入力された検索画像を含むコンテンツを検索するものとされる。
【0025】
同図に示されるように、コンテンツ検索装置10には、コンテンツ入力部21、メディアアーカイブ22、画像処理部23、メタデータデータベース24、および画像特徴量データベース25が設けられている。また、コンテンツ検索装置10には、検索画像入力部31、画像特徴量抽出部32、検索部33、および検索結果出力部34が設けられている。
【0026】
コンテンツ入力部21は、コンテンツのデータの入力を受け付ける。上述したように、コンテンツは、動画のコンテンツであり、必要に応じて音声やキャプションなども含まれている。これらのコンテンツは、例えば、放送される番組の一部として編集されたコンテンツなどとされる。
【0027】
メディアアーカイブ22は、コンテンツ入力部21から入力されたコンテンツのデータを蓄積する。メディアアーカイブ22は、例えば、各コンテンツを識別するための識別情報などが付されたコンテンツのデータを大量に蓄積し、必要に応じてそれらのデータを読み出して出力することができるようになされている。
【0028】
画像処理部23は、コンテンツ入力部21から供給されたコンテンツのデータを解析し、それらのコンテンツからメタデータを抽出するようになされている。ここで、メタデータは、例えば、コンテンツのシーンチェンジ点に関する情報、後述するタイムライン表示する際に必要となる時刻に関する情報、ファイル名、データサイズなどの情報とされる。また、メタデータには、例えば、コンテンツの音声信号の波形などの情報が含まれるようにしてもよい。
【0029】
画像処理部23が抽出したメタデータは、後述するように、コンテンツをタイムライン表示する際に必要となる。画像処理部23が抽出したメタデータは、例えば、コンテンツの識別情報と対応付けられてメタデータデータベース24に蓄積されるようになされている。
【0030】
また、画像処理部23は、コンテンツ入力部21から供給されたコンテンツのデータを解析し、それらのコンテンツから画像特徴量を抽出するようになされている。ここで、画像特徴量は、後述する検索部33の処理において検索画像との類似度を得るために用いられる情報とされる。画像特徴量は、例えば、コンテンツを構成する1フレーム分の静止画のそれぞれを予め定められた複数の領域に分割し、それぞれの領域の代表色を記述した情報などとされる。また、画像特徴量は、例えば、1フレーム分の静止画の画素値のヒストグラムの情報などとされるようにしてもよいし、検索部33の処理において検索画像との類似度を得られるものであればそれ以外の情報が画像特徴量とされてもよい。
【0031】
画像処理部23が抽出した画像特徴量は、例えば、コンテンツの識別情報およびフレーム番号と対応付けられて画像特徴量データベース25に蓄積されるようになされている。
【0032】
検索画像入力部31は、静止画である検索画像の入力を受け付けるようになされている。検索画像は、例えば、ユーザが任意に選択した画像とされ、メディアアーカイブ22に蓄積されているコンテンツの中から当該検索画像と類似した画像を検索するために入力される。
【0033】
画像特徴量抽出部32は、検索画像入力部31を介して入力された検索画像から、画像処理部23と同様に画像特徴量を抽出するようになされている。
【0034】
検索部33は、画像特徴量抽出部32により抽出された検索画像の画像特徴量と、画像特徴量データベース25に記憶されている画像特徴量とを所定の方式で比較する。これにより、検索画像の画像特徴量と、画像特徴量データベース25に記憶されている各コンテンツを構成する1フレーム分の静止画のそれぞれの画像特徴量との類似度が数値として算出されるようになされている。
【0035】
検索部33は、例えば、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画を特定し、それらの静止画が検出されたコンテンツの識別情報およびそれらの静止画のフレーム番号などを検索結果出力部34に供給する。なお、1つのコンテンツの中で、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画が複数検出された場合、検索部33は、例えば、類似度の最も高い静止画のフレーム番号などを検索結果出力部34に供給する。
【0036】
検索部33は、このようにして、検索画像と類似度の高い静止画のフレーム、すなわち検索画像に類似する静止画のフレームが検出されたコンテンツを特定して検索結果出力部34に通知するのである。
【0037】
検索結果出力部34は、検索部33から供給されたコンテンツの識別情報に基づいて、メタデータデータベース24からそのコンテンツのメタデータを読み出す。そして、検索結果出力部34は、検索部33から供給された静止画のフレーム番号と、読み出されたメタデータに基づいて、検索結果の表示データを生成する。
【0038】
なお、検索結果出力部34から出力される表示データは、図示せぬディスプレイなどに供給され、後述するような画像として表示される。
【0039】
次に、コンテンツ検索装置10による検索結果の表示の例について説明する。
【0040】
図2は、検索画像入力部31を介して入力される検索画像(静止画)の例を示す図である。この例では、ミサイルと発射台の画像が示されている。
【0041】
なお、検索画像は、ディスプレイに表示されるようにしてもよいし、表示されないようにしてもよい。
【0042】
図3は、検索結果出力部34から出力される表示データに基づいて図示せぬディスプレイなどに表示される画面の例を示す図である。同図は、図2に示される検索画像が検索画像入力部31を介して入力され、メディアアーカイブ22に蓄積されたコンテンツが検索された結果、表示される画面の例を示している。
【0043】
図3に示される画面は、検索結果表示領域51を有している。この例では、図2に示される検索画像と類似度の高い静止画が検出されたコンテンツが、検索結果表示領域51に7つ表示されている。そして、検索結果表示領域51は、上記の7つのコンテンツに関する情報をそれぞれ表示する領域51−1乃至領域51−7を有している。
【0044】
領域51−1には、第1番目のコンテンツに関する情報が表示される。
【0045】
静止画表示部52−1は、第1番目のコンテンツにおいて検出された検索画像と類似度の高い静止画を表示する領域とされる。なお、静止画表示部52−1に表示された静止画の上部に示される「4113889.asf」は、第1番目のコンテンツの識別情報とされる。
【0046】
タイムライン表示部53−1は、第1番目のコンテンツに関するタイムライン表示のための領域とされ、図中水平方向がコンテンツの時間軸に対応する。
【0047】
ここでは、所定のコンテンツを、コンテンツの時間的長さ、コンテンツの内部のシーン、フレームなどの時間的位置を、ユーザが視覚的に認識できるように表示させることをコンテンツに関するタイムライン表示と称している。なお、コンテンツの(に関する)タイムライン表示は、何らかの方式でそのコンテンツを表示させるものであるが、例えば、コンテンツが再生されて動画として表示されることなどを意味するものではない。タイムライン表示におけるコンテンツの表示は、例えば、そのコンテンツまたはそのコンテンツの構成部分を象徴する図形、波形、記号などを時間軸に対応させて表示させることを意味している。
【0048】
タイムライン表示部53−1に表示された逆三角形の記号61−1は、第1番目のコンテンツにおいて、静止画表示部52−1に表示された静止画のフレームの時間的位置を表示している。
【0049】
タイムライン表示部53−1の波形表示領域62−1は、第1番目のコンテンツに含まれる音声の信号波形を表示する領域とされる。なお、波形表示領域62−1には、画像の波形が表示されるようにしてもよい。また、タイムライン表示部53−1には、波形表示領域62−1が含まれないようにしてもよい。
【0050】
タイムライン表示部53−1に表示されたシーン表示領域63−1は、第1番目のコンテンツにおけるシーンを表示する領域とされる。シーン表示領域63−1には、第1番目のコンテンツの各シーンが、それぞれのシーンの時間的長さに対応する幅(長さ)の矩形として表示されている。すなわち、シーン表示領域63−1には、3つの矩形が表示されており、第1番目のコンテンツが3つのシーンによって構成されていることが分かる。なお、各シーンの開始点および終了点は、メタデータデータベース24から読み出されたメタデータに含まれるシーンチェンジ点の情報に基づいて特定され、シーン表示領域63−1の矩形が表示されるようになされている。
【0051】
シーン表示領域63−1に示される各矩形は、そのシーンの代表色で表示されている。シーンの代表色は、例えば、シーン内に存在する全フレームの画素値の中で最も多い画素値に対応する色などとして特定されるようになされている。なお、それ以外の方式でシーンの代表色が特定されるようにしてもよい。要は、そのシーンの印象に適した色が代表色とされるようにすればよい。
【0052】
シーンの代表色は、例えば、表示データを生成する際にコンテンツのデータを解析して特定されるようにしてもよいし、予め特定されてメタデータに含まれるようにしてもよい。
【0053】
同様に、領域51−2には、第2番目のコンテンツに関する情報が表示される。すなわち、静止画表示部52−2は、第2番目のコンテンツにおいて検出された検索画像と類似度の高い静止画が表示され、タイムライン表示部53−2は、第2番目のコンテンツに関するタイムライン表示のための領域とされる。
【0054】
さらに、領域51−3乃至領域51−7についても、第3番目のコンテンツ乃至第7番目のコンテンツに関する情報がそれぞれ、領域51−1、領域51−2と同様に表示される。
【0055】
なお、以下では、個々に区別する必要がない場合、適宜、静止画表示部52、タイムライン表示部53、記号61、・・・のように記載することにする。
【0056】
図3に示されるように、タイムライン表示部53−1乃至タイムライン表示部53−7は、図中水平方向の長さが同一とされている。また、タイムライン表示部53−1乃至タイムライン表示部53−7において、記号61−1乃至記号61−7の図中水平方向の位置が同一となるように表示されている。
【0057】
すなわち、検索結果出力部34が、次のように各表示領域の表示位置を定める。
【0058】
第1番目のコンテンツ乃至第7番目のコンテンツの中で、コンテンツの開始時刻から記号61までの時間的長さが最も長いコンテンツの開始位置がタイムライン表示部53の左端の位置に合わせられる。同図の場合、第4番目のコンテンツの開始位置がタイムライン表示部53の左端の位置とされている。また、第1番目のコンテンツ乃至第7番目のコンテンツの中で、コンテンツの終了時刻から記号61までの時間的長さが最も長いコンテンツの終了位置がタイムライン表示部53の右端の位置に合わせられる。同図の場合、第4番目のコンテンツと第5番目のコンテンツの終了位置がタイムライン表示部53の右端の位置とされている。
【0059】
なお、上述したように、検索部33によって、検索画像と類似度の高い静止画のフレーム番号が特定されているので、コンテンツの開始時刻または終了時刻から記号61までの時間的長さも特定することが可能である。
【0060】
そして、第4番目のコンテンツと第5番目のコンテンツの時間的長さに基づいて、タイムライン表示部53の水平方向の単位長に対応する時間が定められることになる。
【0061】
検索結果出力部34は、例えば、記号61の図中水平方向の表示位置を、タイムライン表示部53の中央とし、領域51−1乃至領域51−7における波形表示領域62とシーン表示領域63の表示位置を定める。そして、検索結果出力部34は、図3に示されるような画像を表示するための表示データを生成する。
【0062】
なお、この例では、タイムライン表示部53において波形表示領域62に表示される波形を時間軸に合わせて表示させるようにしたが、それ以外の方式でコンテンツがタイムライン表示されるようにしてもよい。例えば、上述したように、波形表示領域62を含まないタイムライン表示部53とされるようにしてもよいし、要は、ユーザがコンテンツの時間軸を認識し易いように表示されるようにすればよい。
【0063】
また、図3に示されるボタン71は、例えば、GUIの部品として構成される検索開始ボタンとされる。例えば、図2に示される検索画像が入力された後、ボタン71が押下されることにより検索画像と類似度の高い静止画の検索が実行される。すなわち、図3の画面は、既にユーザがボタン71を押下した後に表示される画面である。
【0064】
図3に示されるボタン72は、例えば、GUIの部品として構成され、同図の領域51−1乃至領域51−7のコンテンツの再生を指令するボタンとされる。同様に図3のボタン73は、ボタン72により開始されたコンテンツの再生を終了させるためのボタンとされる。
【0065】
図3の状態で、ボタン72が押下されると、領域51−1乃至領域51−7のコンテンツの再生が開始され、図4に示されるような画面が表示されることになる。
【0066】
図4の画面では、コンテンツの再生が開始されたことにより、タイムライン表示部53の中に、再生位置を表すスライダ64が表示される。スライダ64は、例えば、赤色の四角形の枠として表示され、時間の経過に伴って、図中水平方向の長さが増大するように表示される。スライダ64の右端部が現在のコンテンツの再生位置を表すことになる。
【0067】
図4の例では、まだ、コンテンツの再生が開始されて間もないので、第4番目のコンテンツの動画のみが再生されている。すなわち、スライダ64−4は、波形表示領域62−4に表示された波形に重ねられて表示されており、スライダ64−4の右端部は、シーン表示領域63−4の最も左側に表示された矩形のほぼ中央に位置している。一方、スライダ64−1乃至スライダ64−3、およびスライダ64−5乃至スライダ64−7の右端部は、それぞれシーン表示領域63−1乃至シーン表示領域63−3、およびシーン表示領域63−5乃至シーン表示領域63−7の最も左側に表示された矩形の位置に至っていない。
【0068】
従って、図4の例では、第4番目のコンテンツの動画のみが再生され、再生された画像は、再生画像表示部54−4に表示されている。すなわち、再生画像表示部54−4には、第4番目のコンテンツを再生して得られる動画が表示されることになる。
【0069】
なお、図4の例では既にコンテンツが再生されたため、ボタン72は、コンテンツの再生を一時的に停止(Pause)するボタンとされている。
【0070】
図4の画面が表示された状態から、さらに時間が経過すると、図5に示されるような画面が表示されることになる。
【0071】
図5の例では、コンテンツの再生が開始されてから時間が経過したことにより、図4の場合と比較してスライダ64の図中水平方向の長さが伸びている。これにより、図5の例では、第4番目のコンテンツに加えて、第2番目のコンテンツ、第3番目のコンテンツの動画も再生されている。
【0072】
すなわち、スライダ64−2乃至スライダ64−4は、それぞれ波形表示領域62−2乃至波形表示領域62−4に表示された波形に重ねられて表示されている。そして、スライダ64−2乃至スライダ64−4の右端部は、シーン表示領域63−2乃至シーン表示領域63−4に表示されたいずれかの矩形上に位置している。
【0073】
従って、図5の例では、第2番目のコンテンツ乃至第4番目のコンテンツの動画が再生され、再生された画像は、再生画像表示部54−2乃至再生画像表示部54−4に表示されている。すなわち、再生画像表示部54−2乃至再生画像表示部54−4には、第2番目のコンテンツ乃至第4番目のコンテンツを再生して得られる動画がそれぞれ表示されることになる。
【0074】
図4の画面が表示された状態から、さらに時間が経過すると、スライダ64の図中水平方向の長さがさらに伸びて第5番目のコンテンツ、第6番目のコンテンツ、第1番目のコンテンツ、第7番目のコンテンツの再生がそれぞれ開始されていく。従って、再生画像表示部54−5、再生画像表示部54−6、再生画像表示部54−1、再生画像表示部54−7にも、それぞれのコンテンツを再生して得られる動画がそれぞれ表示されることになる。
【0075】
そして、スライダ64の右端部の図中垂直方向の位置が記号61と同じ位置となったとき、静止画表示部52に表示されている画像が、再生画像表示部54に表示される。これにより、ユーザは、第1番目のコンテンツ乃至第7番目のコンテンツにおいてどのような編集がなされて検索画像と類似度の高い画像が表示されるのかを見比べることが可能となる。つまり、各コンテンツにおいてどの位置に、目的の画像(検索画像に類似する画像)が挿入されているかだけでなく、目的の画像の前後の画像を動画として比較することもできる。
【0076】
また、コンテンツ検索装置10による検索結果の表示画面において、ユーザは、タイムライン表示部53のシーン表示領域63に表示された矩形を選択することにより、選択された矩形に対応するシーンを繰り返し再生させることが可能となる。上述したように、シーン表示領域63に表示された矩形のそれぞれは、そのコンテンツの各シーンに対応して表示される。
【0077】
例えば、ユーザが第2番目のコンテンツにおいて静止画表示部52−2に表示された画像が含まれるシーンを繰り返し再生したいと考えた場合、タイムライン表示部53−2のシーン表示領域63−2に表示された矩形のうち左から5番目の矩形を選択する。なお、記号61−2の図中垂直方向の位置に基づいて、静止画表示部52−2に表示された画像は、第2番目のコンテンツの中の第5番目のシーンに含まれていることが分かる。
【0078】
この場合、図6に示されるような画面が表示される。図6の例では、タイムライン表示部53−2のシーン表示領域63−2に表示された矩形のうち左から5番目の矩形63−2aが選択されたことによりハイライト表示されている。これにより、矩形63−2aに対応するシーンの開始時刻からそのシーンの終了時刻までの間の動画が繰り返し再生画像表示部54−2に表示される。
【0079】
なお、ここでは、シーン表示領域63の各矩形のそれぞれが、GUIの部品などとして表示されているものとし、例えば、ユーザが図示せぬポインティングデバイスなどを操作してシーン表示領域63の任意の矩形を選択できるものとする。
【0080】
この際、第2番目のコンテンツだけでなく、第1番目のコンテンツ、第3番目のコンテンツ乃至第7番目のコンテンツも、繰り返し再生される。つまり、全てのコンテンツにおいて矩形63−2aに対応するシーンの開始時刻からそのシーンの終了時刻までの間の動画が再生画像表示部54に表示されるのである。
【0081】
例えば、第1番目のコンテンツの場合、第2番目のシーンの途中から第3番目のシーンの途中までの動画が繰り返し再生画像表示部54−1に表示される。また、例えば、第3番目のコンテンツの場合、第6番目のシーンのほぼ最初から第7番目のシーン全てと第8番目のシーンの途中までの動画が繰り返し再生画像表示部54−3に表示される。
【0082】
このように、どのコンテンツのシーンを選択したかにかかわらず、検索結果表示領域51に表示されている全てのコンテンツが再生される。なお、図6の例では、スライダ64の右端部は、記号61のやや右側に位置しているので、静止画表示部52に表示されている画像の直後に再生される画像が再生画像表示部54に表示されている。ここでは、ミサイルの発射時の画像が再生画像表示部54に表示されている。
【0083】
図6の例の場合、シーン表示領域63−2に表示された矩形のうち左から5番目の矩形が選択されたことにより、全てのコンテンツにおいて記号61に対応する位置が再生される。従って、再生画像表示部54−1乃至再生画像表示部54−7において繰り返し再生される動画の中に、静止画表示部52−1乃至静止画表示部52−7に表示された画像がそれぞれ含まれることになる。このようにすることで、ユーザは目的の画像にさらに特化して各コンテンツを動画として比較することができるのである。
【0084】
また、コンテンツ検索装置10においては、各コンテンツから、検索画像に類似する画像が含まれるシーンのみを抽出することもできる。例えば、ユーザは、コンテンツ検索装置10の図示せぬ操作部を操作することなどにより、検索画像に類似する画像が含まれるシーンの一覧の表示を指令することができる。
【0085】
図7は、検索画像に類似する画像が含まれるシーンの一覧を表示する画面の例を示す図である。同図は、例えば、図2に示される画像を検索画像としてコンテンツが検索された結果、図3に示されるような検索結果が表示される場合における検索画像に類似する画像が含まれるシーンの一覧を表示する画面の例とされる。すなわち、図7の例における検索画像と検索結果については、図3を参照して上述した場合と同様である。
【0086】
図7においては、図中垂直方向に並べられた領域101−1乃至領域101−7に、第1番目のコンテンツ乃至第7番目のコンテンツにおいて、検索画像に類似する画像が含まれるシーンのそれぞれが表示されている。ここで、領域101−1乃至領域101−7の水平方向がシーンの時間軸に対応し、各シーンは、その時間的長さに対応する図中水平方向の長さを有する矩形112−1乃至矩形112−7として表示されている。
【0087】
図7の領域102−1乃至領域102−7には、各コンテンツにおいて検出された検索画像と類似度の高い静止画が表示されている。すなわち、領域102−1乃至領域102−7に表示された画像のそれぞれは、図3の静止画表示部52−1乃至静止画表示部52−7に表示された画像と同じである。
【0088】
図7における逆三角形の記号111−1乃至記号111−7は、それぞれ矩形112−1乃至矩形112−7で表わされるシーンにおいて領域102−1乃至領域102−7に表示された画像が含まれる位置を示している。同図に示されるように、記号111−1乃至記号111−7の図中水平方向の位置が同一となるように、矩形112−1乃至矩形112−7のそれぞれが表示されている。
【0089】
例えば、領域101−1乃至領域101−7に表示されたシーンの中で、シーンの開始時刻から記号111までの時間的長さが最も長いシーンの開始位置が領域101の左端の位置に合わせられる。同図の場合、上から2番目のシーンと3番目のシーンの開始位置が領域101の左端の位置とされている。また、領域101−1乃至領域101−7に表示されたシーンの中で、シーンの終了時刻から記号111までの時間的長さが最も長いシーンの終了位置が領域101の右端の位置に合わせられる。同図の場合、上から6番目のシーンの終了位置が領域101の右端の位置とされている。
【0090】
また、シーンの開始時刻から記号111までの時間的長さが最も長いシーンに対応する矩形112−2の左端部112−2aは、特定の色(例えば、赤色)で表示されるなどしてハイライトされる。同様に、シーンの終了時刻から記号111までの時間的長さが最も長いシーンに対応する矩形112−6の右端部112−6bも特定の色(例えば、青色)で表示されるなどしてハイライトされる。
【0091】
このように表示することで、ユーザは、シーンの時間的長さ、シーンの開始時刻から目的の画像が表示される(記号111)までの時間的長さ、目的の画像が表示されてからシーンの終了時刻までの時間的長さを簡単に比較することができる。
【0092】
このようにすることで、例えば、メディアアーカイブ22に蓄積されたコンテンツのデータを用いて新たにコンテンツを編集する場合、相応しいシーンを簡単に見つけることが可能となる。また、例えば、内容が重複する可能性が高いシーンを削除するなどして、メディアアーカイブ22を効率的に管理することも可能となる。さらに、例えば、放送時間が直前に変更されるような場合でも、どのコンテンツを放送すべきかを簡単に確認することができる。
【0093】
従来、コンテンツに対する画像検索の結果を表示する場合、検索結果として得られたコンテンツの最初のフレームの画像やそのコンテンツの代表画像を表示したり、検索結果としてコンテンツ内の検索画像に対応するフレームが検出される場合はそのフレームの画像などを表示していた。
【0094】
しかしながら、従来の技術では、例えば、複数の検索結果が得られた場合に、それぞれの検索結果を動画像として比較することはできなかった。このため、検索結果に基づいてコンテンツの内容を比較などすることができなかった。例えば、従来の技術では、検索結果としてサムネイル画像や代表画像が表示されるので、ユーザは、それらの複数の検索結果のそれぞれのサムネイル画像や代表画像を見比べることでコンテンツの内容を比較する他ない。また、従来の技術では、検索結果として得られた画像が含まれるコンテンツを再生して内容を確認することはできるものの、複数の検索結果を動画として同時に比較することはできなかった。
【0095】
これに対して本発明によれば、図3乃至図7を参照して上述したように、動画のコンテンツに対する画像の検索結果を、複数のコンテンツについて同時に確認することができる。従って、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができる。
【0096】
次に、図8のフローチャートを参照して、図1のコンテンツ検索装置10によるコンテンツ入力処理の例について説明する。
【0097】
ステップS21において、コンテンツ入力部21は、コンテンツのデータの入力を受け付ける。上述したように、コンテンツは、動画のコンテンツであり、必要に応じて音声やキャプションなども含まれている。これらのコンテンツは、例えば、放送される番組の一部として編集されたコンテンツなどとされる。
【0098】
ステップS22において、画像処理部23は、ステップS21の処理でコンテンツ入力部21から供給されたコンテンツのデータを解析する。
【0099】
ステップS23において、画像処理部23は、ステップS22の処理による解析結果に基づいてメタデータを抽出する。ここで、メタデータは、例えば、コンテンツのシーンチェンジ点に関する情報、後述するタイムライン表示する際に必要となる時刻に関する情報、ファイル名、データサイズなどの情報とされる。
【0100】
ステップS24において、メタデータデータベース24は、ステップS23の処理で抽出されたメタデータを記憶する。なお、メタデータは、例えば、コンテンツの識別情報と対応付けられて記憶される。
【0101】
ステップS25において、画像処理部23は、ステップS22の処理による解析結果に基づいて画像特徴量を抽出する。ここで、画像特徴量は、検索部33の処理において検索画像との類似度を得るために用いられる情報とされる。画像特徴量は、例えば、コンテンツを構成する1フレーム分の静止画のそれぞれを予め定められた複数の領域に分割し、それぞれの領域の代表色を記述した情報などとされる。また、画像特徴量は、1フレーム分の静止画像の画素値のヒストグラムの情報などとされるようにしてもよい。
【0102】
ステップS26において、画像特徴量データベース25は、ステップS25の処理で抽出された画像特徴量を記憶する。なお、画像特徴量は、例えば、コンテンツの識別情報およびフレーム番号と対応付けられて記憶される。
【0103】
ステップS27において、メディアアーカイブ22は、ステップS21の処理で入力が受け付けられたコンテンツのデータを記憶する。なお、メディアアーカイブ22は、例えば、各コンテンツを識別するための識別情報などを付してコンテンツのデータを記憶するようになされている。
【0104】
このようにしてコンテンツが入力されてメディアアーカイブ22に蓄積される。
【0105】
次に、図9のフローチャートを参照して図1のコンテンツ検索装置10による検索結果表示処理の例について説明する。
【0106】
ステップS41において、検索画像入力部31は、静止画である検索画像の入力を受け付ける。検索画像は、例えば、ユーザが任意に選択した画像とされ、メディアアーカイブ22に蓄積されているコンテンツの中から当該検索画像と類似した画像を検索するために入力される。
【0107】
ステップS42において、画像特徴量抽出部32は、ステップS41の処理で検索画像入力部31を介して入力された検索画像から、ステップS25の処理と同様にして、画像特徴量を抽出する。
【0108】
ステップS44において、検索部33は、ステップS43の処理で抽出された検索画像の画像特徴量と、画像特徴量データベース25に記憶されている画像特徴量とを所定の方式で比較する。これにより、検索画像の画像特徴量と、画像特徴量データベース25に記憶されている各コンテンツを構成する1フレーム分の静止画のそれぞれの画像特徴量との類似度が数値として算出される。
【0109】
ステップS45において、検索部33は、例えば、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画を特定し、それらの静止画が検出されたコンテンツの識別情報およびそれらの静止画のフレーム番号などを特定する。なお、1つのコンテンツの中で、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画が複数検出された場合、検索部33は、例えば、類似度の最も高い静止画のフレーム番号などを特定する。
【0110】
これにより、ステップS41の処理で入力を受け付けた検索画像と類似する画像が含まれるコンテンツが、メディアアーカイブ22に記憶されているコンテンツの中から検索されることになる。
【0111】
ステップS46において、検索部33は、ステップS45の処理結果を検索結果出力部34に通知する。このとき、例えば、検索画像と類似する静止画が含まれるコンテンツの識別情報およびそれらの静止画のフレーム番号などが検索結果出力部34に供給される。
【0112】
ステップS47において、検索結果出力部34は、ステップS46の処理で通知された情報に基づいて、検索結果の表示データを生成する。例えば、コンテンツの識別情報に基づいて、メタデータデータベース24からそのコンテンツのメタデータが読み出され、静止画のフレーム番号と、読み出されたメタデータに基づいて、検索結果の表示データが生成される。
【0113】
検索結果出力部34から出力される表示データは、図示せぬディスプレイなどに供給され、後述するような画像として表示される。この結果、例えば、図3を参照して上述したような画面がディスプレイに表示される。
【0114】
なお、その後、画面上のGUIの操作などに対応して図4乃至図7に示されるような画面を表示するように、検索結果出力部34は、適宜それらの画面を表示する表示データを生成するようになされている。
【0115】
このようにして、検索結果表示処理が実行される。
【0116】
なお、図1を参照して上述した例においては、コンテンツ検索装置10に、コンテンツ入力部21と画像処理部23が設けられると説明したが、コンテンツ入力部21と画像処理部23とを有しない構成とすることも可能である。すなわち、予めデータが蓄積されているメディアアーカイブ22、メタデータデータベース24、および画像特徴量データベース25を用いて、検索画像に類似する画像を有するコンテンツが検索されて表示データが生成されるようにすればよい。
【0117】
また、以上においては、コンテンツ検索装置10による検索結果の表示画面において、図中水平方向を時間軸に対応させてコンテンツをタイムライン表示するようにしたが、図中垂直方向を時間軸に対応させてコンテンツをタイムライン表示するようにしてもよい。
【0118】
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータにネットワークや記録媒体からインストールされる。また、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図10に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
【0119】
図10において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0120】
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
【0121】
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707が接続されている。また、入出力インタフェース705には、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
【0122】
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着されている。そして、それらのリムーバブルメディアから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
【0123】
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
【0124】
なお、この記録媒体は、図10に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
【0125】
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0126】
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0127】
10 コンテンツ検索装置, 21 コンテンツ入力部, 22 メディアアーカイブ, 23 画像処理部, 24 メタデータデータベース, 25 画像特徴量データベース, 31 検索画像入力部, 32 画像特徴量処理部, 33 検索部, 34 検索結果出力部, 701 CPU, 702 ROM, 711 リムーバブルメディア
【技術分野】
【0001】
本発明は、コンテンツ検索装置および方法、並びにプログラムに関し、特に、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができるようにするコンテンツ検索装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
映像(動画)コンテンツに対する画像検索の技術が提案されている。
【0003】
映像コンテンツに対する画像検索の結果を表示する場合、検索結果として得られたコンテンツの最初のフレームの画像やそのコンテンツの代表画像を表示することが一般的である。あるいはまた、検索結果としてコンテンツ内の検索画像に対応するフレームが検出される場合はそのフレームの画像などを表示する場合がある。
【0004】
また、これら一覧の検索結果に対して、検索結果のコンテンツを選択し再生することで、映像を確認する方法がある(例えば、特許文献1参照)。
【0005】
さらに、近年のコンテンツの編集処理においては、ユーザがコンテンツの時間的長さや再生位置を認識し易くするように、コンテンツの音声信号の波形を時間軸に合わせて表示するなどのタイムライン表示も用いられている。
【0006】
【特許文献1】特開2003−289487号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の技術では、例えば、複数の検索結果が得られた場合に、それぞれの検索結果を動画像として比較することはできなかった。このため、検索結果に基づいてコンテンツの内容を比較などすることができなかった。
【0008】
例えば、従来の技術では、検索結果としてサムネイル画像や代表画像が表示されるので、ユーザは、それらの複数の検索結果のそれぞれのサムネイル画像や代表画像を見比べることでコンテンツの内容を比較する他ない。
【0009】
また、従来の技術では、検索結果として得られた画像が含まれるコンテンツを再生して内容を確認することはできるものの、複数の検索結果を動画として同時に比較することはできなかった。
【0010】
本発明はこのような状況に鑑みてなされたものであり、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができるようにするものである。
【課題を解決するための手段】
【0011】
本発明の一側面は、静止画である検索画像の入力を受け付ける検索画像入力手段と、予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置である。
【0012】
前記タイムライン表示手段は、前記メタデータに含まれる前記コンテンツのシーンチェンジ点の情報に基づいて、前記コンテンツを構成するシーンを特定し、前記シーンの時間的長さに対応させて前記シーンのそれぞれを表示する図形を、画面の水平または垂直方向を時間軸として表示することで前記コンテンツをタイムライン表示させるようにすることができる。
【0013】
前記タイムライン表示手段は、複数のコンテンツのそれぞれを同一画面上に前記タイムライン表示させ、前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように前記コンテンツをタイムライン表示させるようにすることができる。
【0014】
前記タイムライン表示手段は、前記タイムライン表示されたコンテンツの再生が指令された場合、前記同一画面上に前記タイムライン表示させた前記複数のコンテンツのそれぞれを、前記時間軸上の同じ位置のフレームが再生されるように再生させるようにすることができる。
【0015】
前記タイムライン表示手段は、前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームが含まれるシーンを抽出し、前記抽出されたシーンのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように表示させるようにすることができる。
【0016】
前記タイムライン表示手段は、前記シーンを表示する図形を、予め定められた方式により特定された前記シーンの代表色で表示して前記コンテンツをタイムライン表示させるようにすることができる。
【0017】
本発明の一側面は、検索画像入力手段が、静止画である検索画像の入力を受け付け、画像特徴量抽出手段が、予め定められた方式で前記検索画像の画像特徴量を抽出し、類似度算出手段が、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出し、特定手段が、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定し、タイムライン表示手段が、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するステップを含むコンテンツ検索方法である。
【0018】
本発明の一側面は、コンピュータを、静止画である検索画像の入力を受け付ける検索画像入力手段と、予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置として機能させるプログラムである。
【0019】
本発明の一側面においては、静止画である検索画像の入力を受け付けられ、予め定められた方式で前記検索画像の画像特徴量が抽出され、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度が算出され、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画が、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定され、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データが生成される。
【発明の効果】
【0020】
本発明によれば、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができる。
【図面の簡単な説明】
【0021】
【図1】本発明の一実施の形態に係るコンテンツ検索装置の構成例を示すブロック図である。
【図2】検索画像の例を示す図である。
【図3】検索結果の表示画面の例を示す図である。
【図4】図3の画面においてコンテンツが再生された画面の例を示す図である。
【図5】図4の状態からさらに時間が経過したとき表示される画面の例を示す図である。
【図6】選択されたシーンを繰り返し再生させる場合の画面の例を示す図である。
【図7】検索画像に類似する画像の含まれるシーンのみを抽出して表示する画面の例を示す図である。
【図8】コンテンツ入力処理の例を説明するフローチャートである。
【図9】検索結果表示処理の例を説明するフローチャートである。
【図10】パーソナルコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0022】
以下、図面を参照して、本発明の実施の形態について説明する。
【0023】
図1は、本発明の一実施の形態に係るコンテンツ検索装置の構成例を示すブロック図である。
【0024】
このコンテンツ検索装置10は、動画のコンテンツをメディアアーカイブ22に複数保存し、保存されたコンテンツの中から、入力された検索画像を含むコンテンツを検索するものとされる。
【0025】
同図に示されるように、コンテンツ検索装置10には、コンテンツ入力部21、メディアアーカイブ22、画像処理部23、メタデータデータベース24、および画像特徴量データベース25が設けられている。また、コンテンツ検索装置10には、検索画像入力部31、画像特徴量抽出部32、検索部33、および検索結果出力部34が設けられている。
【0026】
コンテンツ入力部21は、コンテンツのデータの入力を受け付ける。上述したように、コンテンツは、動画のコンテンツであり、必要に応じて音声やキャプションなども含まれている。これらのコンテンツは、例えば、放送される番組の一部として編集されたコンテンツなどとされる。
【0027】
メディアアーカイブ22は、コンテンツ入力部21から入力されたコンテンツのデータを蓄積する。メディアアーカイブ22は、例えば、各コンテンツを識別するための識別情報などが付されたコンテンツのデータを大量に蓄積し、必要に応じてそれらのデータを読み出して出力することができるようになされている。
【0028】
画像処理部23は、コンテンツ入力部21から供給されたコンテンツのデータを解析し、それらのコンテンツからメタデータを抽出するようになされている。ここで、メタデータは、例えば、コンテンツのシーンチェンジ点に関する情報、後述するタイムライン表示する際に必要となる時刻に関する情報、ファイル名、データサイズなどの情報とされる。また、メタデータには、例えば、コンテンツの音声信号の波形などの情報が含まれるようにしてもよい。
【0029】
画像処理部23が抽出したメタデータは、後述するように、コンテンツをタイムライン表示する際に必要となる。画像処理部23が抽出したメタデータは、例えば、コンテンツの識別情報と対応付けられてメタデータデータベース24に蓄積されるようになされている。
【0030】
また、画像処理部23は、コンテンツ入力部21から供給されたコンテンツのデータを解析し、それらのコンテンツから画像特徴量を抽出するようになされている。ここで、画像特徴量は、後述する検索部33の処理において検索画像との類似度を得るために用いられる情報とされる。画像特徴量は、例えば、コンテンツを構成する1フレーム分の静止画のそれぞれを予め定められた複数の領域に分割し、それぞれの領域の代表色を記述した情報などとされる。また、画像特徴量は、例えば、1フレーム分の静止画の画素値のヒストグラムの情報などとされるようにしてもよいし、検索部33の処理において検索画像との類似度を得られるものであればそれ以外の情報が画像特徴量とされてもよい。
【0031】
画像処理部23が抽出した画像特徴量は、例えば、コンテンツの識別情報およびフレーム番号と対応付けられて画像特徴量データベース25に蓄積されるようになされている。
【0032】
検索画像入力部31は、静止画である検索画像の入力を受け付けるようになされている。検索画像は、例えば、ユーザが任意に選択した画像とされ、メディアアーカイブ22に蓄積されているコンテンツの中から当該検索画像と類似した画像を検索するために入力される。
【0033】
画像特徴量抽出部32は、検索画像入力部31を介して入力された検索画像から、画像処理部23と同様に画像特徴量を抽出するようになされている。
【0034】
検索部33は、画像特徴量抽出部32により抽出された検索画像の画像特徴量と、画像特徴量データベース25に記憶されている画像特徴量とを所定の方式で比較する。これにより、検索画像の画像特徴量と、画像特徴量データベース25に記憶されている各コンテンツを構成する1フレーム分の静止画のそれぞれの画像特徴量との類似度が数値として算出されるようになされている。
【0035】
検索部33は、例えば、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画を特定し、それらの静止画が検出されたコンテンツの識別情報およびそれらの静止画のフレーム番号などを検索結果出力部34に供給する。なお、1つのコンテンツの中で、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画が複数検出された場合、検索部33は、例えば、類似度の最も高い静止画のフレーム番号などを検索結果出力部34に供給する。
【0036】
検索部33は、このようにして、検索画像と類似度の高い静止画のフレーム、すなわち検索画像に類似する静止画のフレームが検出されたコンテンツを特定して検索結果出力部34に通知するのである。
【0037】
検索結果出力部34は、検索部33から供給されたコンテンツの識別情報に基づいて、メタデータデータベース24からそのコンテンツのメタデータを読み出す。そして、検索結果出力部34は、検索部33から供給された静止画のフレーム番号と、読み出されたメタデータに基づいて、検索結果の表示データを生成する。
【0038】
なお、検索結果出力部34から出力される表示データは、図示せぬディスプレイなどに供給され、後述するような画像として表示される。
【0039】
次に、コンテンツ検索装置10による検索結果の表示の例について説明する。
【0040】
図2は、検索画像入力部31を介して入力される検索画像(静止画)の例を示す図である。この例では、ミサイルと発射台の画像が示されている。
【0041】
なお、検索画像は、ディスプレイに表示されるようにしてもよいし、表示されないようにしてもよい。
【0042】
図3は、検索結果出力部34から出力される表示データに基づいて図示せぬディスプレイなどに表示される画面の例を示す図である。同図は、図2に示される検索画像が検索画像入力部31を介して入力され、メディアアーカイブ22に蓄積されたコンテンツが検索された結果、表示される画面の例を示している。
【0043】
図3に示される画面は、検索結果表示領域51を有している。この例では、図2に示される検索画像と類似度の高い静止画が検出されたコンテンツが、検索結果表示領域51に7つ表示されている。そして、検索結果表示領域51は、上記の7つのコンテンツに関する情報をそれぞれ表示する領域51−1乃至領域51−7を有している。
【0044】
領域51−1には、第1番目のコンテンツに関する情報が表示される。
【0045】
静止画表示部52−1は、第1番目のコンテンツにおいて検出された検索画像と類似度の高い静止画を表示する領域とされる。なお、静止画表示部52−1に表示された静止画の上部に示される「4113889.asf」は、第1番目のコンテンツの識別情報とされる。
【0046】
タイムライン表示部53−1は、第1番目のコンテンツに関するタイムライン表示のための領域とされ、図中水平方向がコンテンツの時間軸に対応する。
【0047】
ここでは、所定のコンテンツを、コンテンツの時間的長さ、コンテンツの内部のシーン、フレームなどの時間的位置を、ユーザが視覚的に認識できるように表示させることをコンテンツに関するタイムライン表示と称している。なお、コンテンツの(に関する)タイムライン表示は、何らかの方式でそのコンテンツを表示させるものであるが、例えば、コンテンツが再生されて動画として表示されることなどを意味するものではない。タイムライン表示におけるコンテンツの表示は、例えば、そのコンテンツまたはそのコンテンツの構成部分を象徴する図形、波形、記号などを時間軸に対応させて表示させることを意味している。
【0048】
タイムライン表示部53−1に表示された逆三角形の記号61−1は、第1番目のコンテンツにおいて、静止画表示部52−1に表示された静止画のフレームの時間的位置を表示している。
【0049】
タイムライン表示部53−1の波形表示領域62−1は、第1番目のコンテンツに含まれる音声の信号波形を表示する領域とされる。なお、波形表示領域62−1には、画像の波形が表示されるようにしてもよい。また、タイムライン表示部53−1には、波形表示領域62−1が含まれないようにしてもよい。
【0050】
タイムライン表示部53−1に表示されたシーン表示領域63−1は、第1番目のコンテンツにおけるシーンを表示する領域とされる。シーン表示領域63−1には、第1番目のコンテンツの各シーンが、それぞれのシーンの時間的長さに対応する幅(長さ)の矩形として表示されている。すなわち、シーン表示領域63−1には、3つの矩形が表示されており、第1番目のコンテンツが3つのシーンによって構成されていることが分かる。なお、各シーンの開始点および終了点は、メタデータデータベース24から読み出されたメタデータに含まれるシーンチェンジ点の情報に基づいて特定され、シーン表示領域63−1の矩形が表示されるようになされている。
【0051】
シーン表示領域63−1に示される各矩形は、そのシーンの代表色で表示されている。シーンの代表色は、例えば、シーン内に存在する全フレームの画素値の中で最も多い画素値に対応する色などとして特定されるようになされている。なお、それ以外の方式でシーンの代表色が特定されるようにしてもよい。要は、そのシーンの印象に適した色が代表色とされるようにすればよい。
【0052】
シーンの代表色は、例えば、表示データを生成する際にコンテンツのデータを解析して特定されるようにしてもよいし、予め特定されてメタデータに含まれるようにしてもよい。
【0053】
同様に、領域51−2には、第2番目のコンテンツに関する情報が表示される。すなわち、静止画表示部52−2は、第2番目のコンテンツにおいて検出された検索画像と類似度の高い静止画が表示され、タイムライン表示部53−2は、第2番目のコンテンツに関するタイムライン表示のための領域とされる。
【0054】
さらに、領域51−3乃至領域51−7についても、第3番目のコンテンツ乃至第7番目のコンテンツに関する情報がそれぞれ、領域51−1、領域51−2と同様に表示される。
【0055】
なお、以下では、個々に区別する必要がない場合、適宜、静止画表示部52、タイムライン表示部53、記号61、・・・のように記載することにする。
【0056】
図3に示されるように、タイムライン表示部53−1乃至タイムライン表示部53−7は、図中水平方向の長さが同一とされている。また、タイムライン表示部53−1乃至タイムライン表示部53−7において、記号61−1乃至記号61−7の図中水平方向の位置が同一となるように表示されている。
【0057】
すなわち、検索結果出力部34が、次のように各表示領域の表示位置を定める。
【0058】
第1番目のコンテンツ乃至第7番目のコンテンツの中で、コンテンツの開始時刻から記号61までの時間的長さが最も長いコンテンツの開始位置がタイムライン表示部53の左端の位置に合わせられる。同図の場合、第4番目のコンテンツの開始位置がタイムライン表示部53の左端の位置とされている。また、第1番目のコンテンツ乃至第7番目のコンテンツの中で、コンテンツの終了時刻から記号61までの時間的長さが最も長いコンテンツの終了位置がタイムライン表示部53の右端の位置に合わせられる。同図の場合、第4番目のコンテンツと第5番目のコンテンツの終了位置がタイムライン表示部53の右端の位置とされている。
【0059】
なお、上述したように、検索部33によって、検索画像と類似度の高い静止画のフレーム番号が特定されているので、コンテンツの開始時刻または終了時刻から記号61までの時間的長さも特定することが可能である。
【0060】
そして、第4番目のコンテンツと第5番目のコンテンツの時間的長さに基づいて、タイムライン表示部53の水平方向の単位長に対応する時間が定められることになる。
【0061】
検索結果出力部34は、例えば、記号61の図中水平方向の表示位置を、タイムライン表示部53の中央とし、領域51−1乃至領域51−7における波形表示領域62とシーン表示領域63の表示位置を定める。そして、検索結果出力部34は、図3に示されるような画像を表示するための表示データを生成する。
【0062】
なお、この例では、タイムライン表示部53において波形表示領域62に表示される波形を時間軸に合わせて表示させるようにしたが、それ以外の方式でコンテンツがタイムライン表示されるようにしてもよい。例えば、上述したように、波形表示領域62を含まないタイムライン表示部53とされるようにしてもよいし、要は、ユーザがコンテンツの時間軸を認識し易いように表示されるようにすればよい。
【0063】
また、図3に示されるボタン71は、例えば、GUIの部品として構成される検索開始ボタンとされる。例えば、図2に示される検索画像が入力された後、ボタン71が押下されることにより検索画像と類似度の高い静止画の検索が実行される。すなわち、図3の画面は、既にユーザがボタン71を押下した後に表示される画面である。
【0064】
図3に示されるボタン72は、例えば、GUIの部品として構成され、同図の領域51−1乃至領域51−7のコンテンツの再生を指令するボタンとされる。同様に図3のボタン73は、ボタン72により開始されたコンテンツの再生を終了させるためのボタンとされる。
【0065】
図3の状態で、ボタン72が押下されると、領域51−1乃至領域51−7のコンテンツの再生が開始され、図4に示されるような画面が表示されることになる。
【0066】
図4の画面では、コンテンツの再生が開始されたことにより、タイムライン表示部53の中に、再生位置を表すスライダ64が表示される。スライダ64は、例えば、赤色の四角形の枠として表示され、時間の経過に伴って、図中水平方向の長さが増大するように表示される。スライダ64の右端部が現在のコンテンツの再生位置を表すことになる。
【0067】
図4の例では、まだ、コンテンツの再生が開始されて間もないので、第4番目のコンテンツの動画のみが再生されている。すなわち、スライダ64−4は、波形表示領域62−4に表示された波形に重ねられて表示されており、スライダ64−4の右端部は、シーン表示領域63−4の最も左側に表示された矩形のほぼ中央に位置している。一方、スライダ64−1乃至スライダ64−3、およびスライダ64−5乃至スライダ64−7の右端部は、それぞれシーン表示領域63−1乃至シーン表示領域63−3、およびシーン表示領域63−5乃至シーン表示領域63−7の最も左側に表示された矩形の位置に至っていない。
【0068】
従って、図4の例では、第4番目のコンテンツの動画のみが再生され、再生された画像は、再生画像表示部54−4に表示されている。すなわち、再生画像表示部54−4には、第4番目のコンテンツを再生して得られる動画が表示されることになる。
【0069】
なお、図4の例では既にコンテンツが再生されたため、ボタン72は、コンテンツの再生を一時的に停止(Pause)するボタンとされている。
【0070】
図4の画面が表示された状態から、さらに時間が経過すると、図5に示されるような画面が表示されることになる。
【0071】
図5の例では、コンテンツの再生が開始されてから時間が経過したことにより、図4の場合と比較してスライダ64の図中水平方向の長さが伸びている。これにより、図5の例では、第4番目のコンテンツに加えて、第2番目のコンテンツ、第3番目のコンテンツの動画も再生されている。
【0072】
すなわち、スライダ64−2乃至スライダ64−4は、それぞれ波形表示領域62−2乃至波形表示領域62−4に表示された波形に重ねられて表示されている。そして、スライダ64−2乃至スライダ64−4の右端部は、シーン表示領域63−2乃至シーン表示領域63−4に表示されたいずれかの矩形上に位置している。
【0073】
従って、図5の例では、第2番目のコンテンツ乃至第4番目のコンテンツの動画が再生され、再生された画像は、再生画像表示部54−2乃至再生画像表示部54−4に表示されている。すなわち、再生画像表示部54−2乃至再生画像表示部54−4には、第2番目のコンテンツ乃至第4番目のコンテンツを再生して得られる動画がそれぞれ表示されることになる。
【0074】
図4の画面が表示された状態から、さらに時間が経過すると、スライダ64の図中水平方向の長さがさらに伸びて第5番目のコンテンツ、第6番目のコンテンツ、第1番目のコンテンツ、第7番目のコンテンツの再生がそれぞれ開始されていく。従って、再生画像表示部54−5、再生画像表示部54−6、再生画像表示部54−1、再生画像表示部54−7にも、それぞれのコンテンツを再生して得られる動画がそれぞれ表示されることになる。
【0075】
そして、スライダ64の右端部の図中垂直方向の位置が記号61と同じ位置となったとき、静止画表示部52に表示されている画像が、再生画像表示部54に表示される。これにより、ユーザは、第1番目のコンテンツ乃至第7番目のコンテンツにおいてどのような編集がなされて検索画像と類似度の高い画像が表示されるのかを見比べることが可能となる。つまり、各コンテンツにおいてどの位置に、目的の画像(検索画像に類似する画像)が挿入されているかだけでなく、目的の画像の前後の画像を動画として比較することもできる。
【0076】
また、コンテンツ検索装置10による検索結果の表示画面において、ユーザは、タイムライン表示部53のシーン表示領域63に表示された矩形を選択することにより、選択された矩形に対応するシーンを繰り返し再生させることが可能となる。上述したように、シーン表示領域63に表示された矩形のそれぞれは、そのコンテンツの各シーンに対応して表示される。
【0077】
例えば、ユーザが第2番目のコンテンツにおいて静止画表示部52−2に表示された画像が含まれるシーンを繰り返し再生したいと考えた場合、タイムライン表示部53−2のシーン表示領域63−2に表示された矩形のうち左から5番目の矩形を選択する。なお、記号61−2の図中垂直方向の位置に基づいて、静止画表示部52−2に表示された画像は、第2番目のコンテンツの中の第5番目のシーンに含まれていることが分かる。
【0078】
この場合、図6に示されるような画面が表示される。図6の例では、タイムライン表示部53−2のシーン表示領域63−2に表示された矩形のうち左から5番目の矩形63−2aが選択されたことによりハイライト表示されている。これにより、矩形63−2aに対応するシーンの開始時刻からそのシーンの終了時刻までの間の動画が繰り返し再生画像表示部54−2に表示される。
【0079】
なお、ここでは、シーン表示領域63の各矩形のそれぞれが、GUIの部品などとして表示されているものとし、例えば、ユーザが図示せぬポインティングデバイスなどを操作してシーン表示領域63の任意の矩形を選択できるものとする。
【0080】
この際、第2番目のコンテンツだけでなく、第1番目のコンテンツ、第3番目のコンテンツ乃至第7番目のコンテンツも、繰り返し再生される。つまり、全てのコンテンツにおいて矩形63−2aに対応するシーンの開始時刻からそのシーンの終了時刻までの間の動画が再生画像表示部54に表示されるのである。
【0081】
例えば、第1番目のコンテンツの場合、第2番目のシーンの途中から第3番目のシーンの途中までの動画が繰り返し再生画像表示部54−1に表示される。また、例えば、第3番目のコンテンツの場合、第6番目のシーンのほぼ最初から第7番目のシーン全てと第8番目のシーンの途中までの動画が繰り返し再生画像表示部54−3に表示される。
【0082】
このように、どのコンテンツのシーンを選択したかにかかわらず、検索結果表示領域51に表示されている全てのコンテンツが再生される。なお、図6の例では、スライダ64の右端部は、記号61のやや右側に位置しているので、静止画表示部52に表示されている画像の直後に再生される画像が再生画像表示部54に表示されている。ここでは、ミサイルの発射時の画像が再生画像表示部54に表示されている。
【0083】
図6の例の場合、シーン表示領域63−2に表示された矩形のうち左から5番目の矩形が選択されたことにより、全てのコンテンツにおいて記号61に対応する位置が再生される。従って、再生画像表示部54−1乃至再生画像表示部54−7において繰り返し再生される動画の中に、静止画表示部52−1乃至静止画表示部52−7に表示された画像がそれぞれ含まれることになる。このようにすることで、ユーザは目的の画像にさらに特化して各コンテンツを動画として比較することができるのである。
【0084】
また、コンテンツ検索装置10においては、各コンテンツから、検索画像に類似する画像が含まれるシーンのみを抽出することもできる。例えば、ユーザは、コンテンツ検索装置10の図示せぬ操作部を操作することなどにより、検索画像に類似する画像が含まれるシーンの一覧の表示を指令することができる。
【0085】
図7は、検索画像に類似する画像が含まれるシーンの一覧を表示する画面の例を示す図である。同図は、例えば、図2に示される画像を検索画像としてコンテンツが検索された結果、図3に示されるような検索結果が表示される場合における検索画像に類似する画像が含まれるシーンの一覧を表示する画面の例とされる。すなわち、図7の例における検索画像と検索結果については、図3を参照して上述した場合と同様である。
【0086】
図7においては、図中垂直方向に並べられた領域101−1乃至領域101−7に、第1番目のコンテンツ乃至第7番目のコンテンツにおいて、検索画像に類似する画像が含まれるシーンのそれぞれが表示されている。ここで、領域101−1乃至領域101−7の水平方向がシーンの時間軸に対応し、各シーンは、その時間的長さに対応する図中水平方向の長さを有する矩形112−1乃至矩形112−7として表示されている。
【0087】
図7の領域102−1乃至領域102−7には、各コンテンツにおいて検出された検索画像と類似度の高い静止画が表示されている。すなわち、領域102−1乃至領域102−7に表示された画像のそれぞれは、図3の静止画表示部52−1乃至静止画表示部52−7に表示された画像と同じである。
【0088】
図7における逆三角形の記号111−1乃至記号111−7は、それぞれ矩形112−1乃至矩形112−7で表わされるシーンにおいて領域102−1乃至領域102−7に表示された画像が含まれる位置を示している。同図に示されるように、記号111−1乃至記号111−7の図中水平方向の位置が同一となるように、矩形112−1乃至矩形112−7のそれぞれが表示されている。
【0089】
例えば、領域101−1乃至領域101−7に表示されたシーンの中で、シーンの開始時刻から記号111までの時間的長さが最も長いシーンの開始位置が領域101の左端の位置に合わせられる。同図の場合、上から2番目のシーンと3番目のシーンの開始位置が領域101の左端の位置とされている。また、領域101−1乃至領域101−7に表示されたシーンの中で、シーンの終了時刻から記号111までの時間的長さが最も長いシーンの終了位置が領域101の右端の位置に合わせられる。同図の場合、上から6番目のシーンの終了位置が領域101の右端の位置とされている。
【0090】
また、シーンの開始時刻から記号111までの時間的長さが最も長いシーンに対応する矩形112−2の左端部112−2aは、特定の色(例えば、赤色)で表示されるなどしてハイライトされる。同様に、シーンの終了時刻から記号111までの時間的長さが最も長いシーンに対応する矩形112−6の右端部112−6bも特定の色(例えば、青色)で表示されるなどしてハイライトされる。
【0091】
このように表示することで、ユーザは、シーンの時間的長さ、シーンの開始時刻から目的の画像が表示される(記号111)までの時間的長さ、目的の画像が表示されてからシーンの終了時刻までの時間的長さを簡単に比較することができる。
【0092】
このようにすることで、例えば、メディアアーカイブ22に蓄積されたコンテンツのデータを用いて新たにコンテンツを編集する場合、相応しいシーンを簡単に見つけることが可能となる。また、例えば、内容が重複する可能性が高いシーンを削除するなどして、メディアアーカイブ22を効率的に管理することも可能となる。さらに、例えば、放送時間が直前に変更されるような場合でも、どのコンテンツを放送すべきかを簡単に確認することができる。
【0093】
従来、コンテンツに対する画像検索の結果を表示する場合、検索結果として得られたコンテンツの最初のフレームの画像やそのコンテンツの代表画像を表示したり、検索結果としてコンテンツ内の検索画像に対応するフレームが検出される場合はそのフレームの画像などを表示していた。
【0094】
しかしながら、従来の技術では、例えば、複数の検索結果が得られた場合に、それぞれの検索結果を動画像として比較することはできなかった。このため、検索結果に基づいてコンテンツの内容を比較などすることができなかった。例えば、従来の技術では、検索結果としてサムネイル画像や代表画像が表示されるので、ユーザは、それらの複数の検索結果のそれぞれのサムネイル画像や代表画像を見比べることでコンテンツの内容を比較する他ない。また、従来の技術では、検索結果として得られた画像が含まれるコンテンツを再生して内容を確認することはできるものの、複数の検索結果を動画として同時に比較することはできなかった。
【0095】
これに対して本発明によれば、図3乃至図7を参照して上述したように、動画のコンテンツに対する画像の検索結果を、複数のコンテンツについて同時に確認することができる。従って、動画のコンテンツに対する画像の検索結果を、より分かりやすく表示させてユーザに確認させることができる。
【0096】
次に、図8のフローチャートを参照して、図1のコンテンツ検索装置10によるコンテンツ入力処理の例について説明する。
【0097】
ステップS21において、コンテンツ入力部21は、コンテンツのデータの入力を受け付ける。上述したように、コンテンツは、動画のコンテンツであり、必要に応じて音声やキャプションなども含まれている。これらのコンテンツは、例えば、放送される番組の一部として編集されたコンテンツなどとされる。
【0098】
ステップS22において、画像処理部23は、ステップS21の処理でコンテンツ入力部21から供給されたコンテンツのデータを解析する。
【0099】
ステップS23において、画像処理部23は、ステップS22の処理による解析結果に基づいてメタデータを抽出する。ここで、メタデータは、例えば、コンテンツのシーンチェンジ点に関する情報、後述するタイムライン表示する際に必要となる時刻に関する情報、ファイル名、データサイズなどの情報とされる。
【0100】
ステップS24において、メタデータデータベース24は、ステップS23の処理で抽出されたメタデータを記憶する。なお、メタデータは、例えば、コンテンツの識別情報と対応付けられて記憶される。
【0101】
ステップS25において、画像処理部23は、ステップS22の処理による解析結果に基づいて画像特徴量を抽出する。ここで、画像特徴量は、検索部33の処理において検索画像との類似度を得るために用いられる情報とされる。画像特徴量は、例えば、コンテンツを構成する1フレーム分の静止画のそれぞれを予め定められた複数の領域に分割し、それぞれの領域の代表色を記述した情報などとされる。また、画像特徴量は、1フレーム分の静止画像の画素値のヒストグラムの情報などとされるようにしてもよい。
【0102】
ステップS26において、画像特徴量データベース25は、ステップS25の処理で抽出された画像特徴量を記憶する。なお、画像特徴量は、例えば、コンテンツの識別情報およびフレーム番号と対応付けられて記憶される。
【0103】
ステップS27において、メディアアーカイブ22は、ステップS21の処理で入力が受け付けられたコンテンツのデータを記憶する。なお、メディアアーカイブ22は、例えば、各コンテンツを識別するための識別情報などを付してコンテンツのデータを記憶するようになされている。
【0104】
このようにしてコンテンツが入力されてメディアアーカイブ22に蓄積される。
【0105】
次に、図9のフローチャートを参照して図1のコンテンツ検索装置10による検索結果表示処理の例について説明する。
【0106】
ステップS41において、検索画像入力部31は、静止画である検索画像の入力を受け付ける。検索画像は、例えば、ユーザが任意に選択した画像とされ、メディアアーカイブ22に蓄積されているコンテンツの中から当該検索画像と類似した画像を検索するために入力される。
【0107】
ステップS42において、画像特徴量抽出部32は、ステップS41の処理で検索画像入力部31を介して入力された検索画像から、ステップS25の処理と同様にして、画像特徴量を抽出する。
【0108】
ステップS44において、検索部33は、ステップS43の処理で抽出された検索画像の画像特徴量と、画像特徴量データベース25に記憶されている画像特徴量とを所定の方式で比較する。これにより、検索画像の画像特徴量と、画像特徴量データベース25に記憶されている各コンテンツを構成する1フレーム分の静止画のそれぞれの画像特徴量との類似度が数値として算出される。
【0109】
ステップS45において、検索部33は、例えば、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画を特定し、それらの静止画が検出されたコンテンツの識別情報およびそれらの静止画のフレーム番号などを特定する。なお、1つのコンテンツの中で、検索画像の画像特徴量との類似度が所定の閾値以上の値となった画像特徴量を有する静止画が複数検出された場合、検索部33は、例えば、類似度の最も高い静止画のフレーム番号などを特定する。
【0110】
これにより、ステップS41の処理で入力を受け付けた検索画像と類似する画像が含まれるコンテンツが、メディアアーカイブ22に記憶されているコンテンツの中から検索されることになる。
【0111】
ステップS46において、検索部33は、ステップS45の処理結果を検索結果出力部34に通知する。このとき、例えば、検索画像と類似する静止画が含まれるコンテンツの識別情報およびそれらの静止画のフレーム番号などが検索結果出力部34に供給される。
【0112】
ステップS47において、検索結果出力部34は、ステップS46の処理で通知された情報に基づいて、検索結果の表示データを生成する。例えば、コンテンツの識別情報に基づいて、メタデータデータベース24からそのコンテンツのメタデータが読み出され、静止画のフレーム番号と、読み出されたメタデータに基づいて、検索結果の表示データが生成される。
【0113】
検索結果出力部34から出力される表示データは、図示せぬディスプレイなどに供給され、後述するような画像として表示される。この結果、例えば、図3を参照して上述したような画面がディスプレイに表示される。
【0114】
なお、その後、画面上のGUIの操作などに対応して図4乃至図7に示されるような画面を表示するように、検索結果出力部34は、適宜それらの画面を表示する表示データを生成するようになされている。
【0115】
このようにして、検索結果表示処理が実行される。
【0116】
なお、図1を参照して上述した例においては、コンテンツ検索装置10に、コンテンツ入力部21と画像処理部23が設けられると説明したが、コンテンツ入力部21と画像処理部23とを有しない構成とすることも可能である。すなわち、予めデータが蓄積されているメディアアーカイブ22、メタデータデータベース24、および画像特徴量データベース25を用いて、検索画像に類似する画像を有するコンテンツが検索されて表示データが生成されるようにすればよい。
【0117】
また、以上においては、コンテンツ検索装置10による検索結果の表示画面において、図中水平方向を時間軸に対応させてコンテンツをタイムライン表示するようにしたが、図中垂直方向を時間軸に対応させてコンテンツをタイムライン表示するようにしてもよい。
【0118】
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータにネットワークや記録媒体からインストールされる。また、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図10に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
【0119】
図10において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0120】
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
【0121】
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707が接続されている。また、入出力インタフェース705には、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
【0122】
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着されている。そして、それらのリムーバブルメディアから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
【0123】
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
【0124】
なお、この記録媒体は、図10に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
【0125】
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0126】
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0127】
10 コンテンツ検索装置, 21 コンテンツ入力部, 22 メディアアーカイブ, 23 画像処理部, 24 メタデータデータベース, 25 画像特徴量データベース, 31 検索画像入力部, 32 画像特徴量処理部, 33 検索部, 34 検索結果出力部, 701 CPU, 702 ROM, 711 リムーバブルメディア
【特許請求の範囲】
【請求項1】
静止画である検索画像の入力を受け付ける検索画像入力手段と、
予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、
メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、
前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、
前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段と
を備えるコンテンツ検索装置。
【請求項2】
前記タイムライン表示手段は、
前記メタデータに含まれる前記コンテンツのシーンチェンジ点の情報に基づいて、前記コンテンツを構成するシーンを特定し、
前記シーンの時間的長さに対応させて前記シーンのそれぞれを表示する図形を、画面の水平または垂直方向を時間軸として表示することで前記コンテンツをタイムライン表示させる
請求項1に記載のコンテンツ検索装置。
【請求項3】
前記タイムライン表示手段は、
複数のコンテンツのそれぞれを同一画面上に前記タイムライン表示させ、
前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように前記コンテンツをタイムライン表示させる
請求項2に記載のコンテンツ検索装置。
【請求項4】
前記タイムライン表示手段は、
前記タイムライン表示されたコンテンツの再生が指令された場合、
前記同一画面上に前記タイムライン表示させた前記複数のコンテンツのそれぞれを、前記時間軸上の同じ位置のフレームが再生されるように再生させる
請求項3に記載のコンテンツ検索装置。
【請求項5】
前記タイムライン表示手段は、
前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームが含まれるシーンを抽出し、前記抽出されたシーンのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように表示させる
請求項3に記載のコンテンツ検索装置。
【請求項6】
前記タイムライン表示手段は、
前記シーンを表示する図形を、予め定められた方式により特定された前記シーンの代表色で表示して前記コンテンツをタイムライン表示させる
請求項2に記載のコンテンツ検索装置。
【請求項7】
検索画像入力手段が、静止画である検索画像の入力を受け付け、
画像特徴量抽出手段が、予め定められた方式で前記検索画像の画像特徴量を抽出し、
類似度算出手段が、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出し、
特定手段が、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定し、
タイムライン表示手段が、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するステップ
を含むコンテンツ検索方法。
【請求項8】
コンピュータを、
静止画である検索画像の入力を受け付ける検索画像入力手段と、
予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、
メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、
前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、
前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置として機能させる
プログラム。
【請求項1】
静止画である検索画像の入力を受け付ける検索画像入力手段と、
予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、
メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、
前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、
前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段と
を備えるコンテンツ検索装置。
【請求項2】
前記タイムライン表示手段は、
前記メタデータに含まれる前記コンテンツのシーンチェンジ点の情報に基づいて、前記コンテンツを構成するシーンを特定し、
前記シーンの時間的長さに対応させて前記シーンのそれぞれを表示する図形を、画面の水平または垂直方向を時間軸として表示することで前記コンテンツをタイムライン表示させる
請求項1に記載のコンテンツ検索装置。
【請求項3】
前記タイムライン表示手段は、
複数のコンテンツのそれぞれを同一画面上に前記タイムライン表示させ、
前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように前記コンテンツをタイムライン表示させる
請求項2に記載のコンテンツ検索装置。
【請求項4】
前記タイムライン表示手段は、
前記タイムライン表示されたコンテンツの再生が指令された場合、
前記同一画面上に前記タイムライン表示させた前記複数のコンテンツのそれぞれを、前記時間軸上の同じ位置のフレームが再生されるように再生させる
請求項3に記載のコンテンツ検索装置。
【請求項5】
前記タイムライン表示手段は、
前記複数のコンテンツのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームが含まれるシーンを抽出し、前記抽出されたシーンのそれぞれにおいて、前記検索画像に類似する前記静止画のフレームの時間的位置が、前記時間軸上で同じ位置となるように表示させる
請求項3に記載のコンテンツ検索装置。
【請求項6】
前記タイムライン表示手段は、
前記シーンを表示する図形を、予め定められた方式により特定された前記シーンの代表色で表示して前記コンテンツをタイムライン表示させる
請求項2に記載のコンテンツ検索装置。
【請求項7】
検索画像入力手段が、静止画である検索画像の入力を受け付け、
画像特徴量抽出手段が、予め定められた方式で前記検索画像の画像特徴量を抽出し、
類似度算出手段が、メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出し、
特定手段が、前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定し、
タイムライン表示手段が、前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するステップ
を含むコンテンツ検索方法。
【請求項8】
コンピュータを、
静止画である検索画像の入力を受け付ける検索画像入力手段と、
予め定められた方式で前記検索画像の画像特徴量を抽出する画像特徴量抽出手段と、
メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて、前記コンテンツを構成するフレームの静止画から予め抽出された前記画像特徴量と、前記検索画像の画像特徴量との類似度を算出する類似度算出手段と、
前記算出された類似度を予め定められた閾値と比較することにより、前記検索画像に類似する前記静止画を、前記静止画のフレームを有する前記コンテンツの識別情報とともに特定する特定手段と、
前記特定された前記コンテンツの識別情報と、前記メディアアーカイブに蓄積された動画のコンテンツのそれぞれについて予め抽出されたメタデータに基づいて、前記検索画像に類似する前記静止画のフレームの時間的位置を表す記号とともに前記コンテンツを時間軸上に表示してタイムライン表示させるための表示データを生成するタイムライン表示手段とを備えるコンテンツ検索装置として機能させる
プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2011−223325(P2011−223325A)
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願番号】特願2010−90606(P2010−90606)
【出願日】平成22年4月9日(2010.4.9)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願日】平成22年4月9日(2010.4.9)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]