映像ナビゲーション方法、映像ナビゲーションシステム、及び映像ナビゲーションプログラム
【課題】ディスプレイ装置上で、特に小型ディスプレイ装置上で、映像ショットのナビゲーションを自動的に可能にするための、より良いプロセスを提供する。
【解決手段】映像ショットにセグメンテーションされた映像に対して、限定された画面サイズであり且つキーフレームより大きな画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするコンピュータを用いた映像ナビゲーション方法であって、映像ショットの時間的な順序を維持しながら、映像ショットを類似性によってクラスタリングし、ツリーの経路長を最小限に抑えながら、映像ショットのクラスタに対して階層的に組織化されたナビゲーションツリーを生成する。
【解決手段】映像ショットにセグメンテーションされた映像に対して、限定された画面サイズであり且つキーフレームより大きな画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするコンピュータを用いた映像ナビゲーション方法であって、映像ショットの時間的な順序を維持しながら、映像ショットを類似性によってクラスタリングし、ツリーの経路長を最小限に抑えながら、映像ショットのクラスタに対して階層的に組織化されたナビゲーションツリーを生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ディスプレイ装置における映像ブラウザに関し、詳しくは、時間的に順序付けられた映像キーフレームの類似性に基づくナビゲーション階層を用いて短いナビゲーション経路によりディスプレイ装置上でリニア映像をナビゲートするための映像ナビゲーション方法、映像ナビゲーションシステム、及び映像ナビゲーションプログラムに関する。
【背景技術】
【0002】
ユーザがディスプレイ装置上で映像を再生する時は、映像における特定のシーンにアクセスすることが望ましい。ディスプレイ装置上のナビゲーション支援機能(navigation aid)は、ユーザが、所望のシーンまで映像をナビゲートすることを可能にする。ディジタル・ビデオ・ディスク(DVD)の場合、DVDは、記憶されている映像のシーンインデクスをキーフレームの形態でユーザに与える。一方、大部分の自動的に生成されるナビゲーション支援機能では、映像におけるシーンを自動的に検出することが困難なため、シーンの代わりにショットが用いられる。ショットは、シーンよりはるかに短いため、これは、はるかにより大きな数(一般に映像の毎分に対して10個以上)のキーフレームを生じる。テレビジョン画面又はコンピュータ画面などの画面上に数個のキーフレームを表示するDVD手法では、ある特定のショットにアクセスしたい場合、数百個のキーフレームまでスケールアップしてはくれない。各画面上に数個のキーフレームを表示する余地しかない携帯電話などの小型の装置では、状況はさらに悪い。
【0003】
さらに、映像をナビゲートするための大部分のインタフェースは、特別に設計されたリモコン(例えば、TIVOリモコン)又はマウスのどちらかに依存する。携帯電話のように小型ディスプレイを備え且つマウスを備えていない装置上では、映像についての情報を提供するスペースが制限され、ユーザ入力のオプションが限定されているため、映像をナビゲートするのは困難である。
【0004】
【非特許文献1】AN,C.-H.,et al.,"Fractal Image Compression by Improved Balanced Tree Clustering,"Proceedings of SPIE, Volume 3164, Apprications of Digital Image Processing XX, pages 554-562(1997).
【0005】
【非特許文献2】GEVA,S.,"K-Tree: A Height Balanced Tree Structured Vector Quantizer,"Proceedings of the 2000 IEEE Signal Processing Society Workshop, Volume 1,pages 271-280(2000).
【0006】
【非特許文献3】GIRGENSOHN,A.,et al.,"Home Video Editing Made Easy-Balancing Automation and User Control,"Proceedings of Human-Computer Interaction(INTERACT'01),IOS Press, Tokyo,Japan, 8 pages(2001).
【0007】
【非特許文献4】ZHANG,T.,"BIRCH: An Efficient Data Clustering Method for Very Large Databases,"Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, Montreal, Canada,pages 103-114(1996).
【発明の開示】
【発明が解決しようとする課題】
【0008】
本発明の目的は、ディスプレイ装置上で、特に小型ディスプレイ装置上で、映像ショットのナビゲーションを自動的に可能にするための、より良いプロセスを提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するために請求項1に記載の発明は、映像ショットにセグメンテーションされた映像に対して、限定された画面サイズであり且つキーフレームより大きな画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするコンピュータを用いた映像ナビゲーション方法であって、前記方法は、前記映像ショットの時間的な順序を維持しながら、前記映像ショットを類似性によってクラスタリングする工程と、前記ツリーの経路長を最小限に抑えながら、前記映像ショットのクラスタに対して階層的に組織化されたナビゲーションツリーを生成する工程と、含むことを特徴としている。
【0010】
請求項9に記載の発明は、映像ショットにセグメンテーションされた映像に対して限定された画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にする映像ナビゲーションシステムであって、前記システムは、前記映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされた映像ショットを取得するクラスタリング手段と、前記ツリーの経路長が最小限に抑えられながら、前記クラスタリングされた映像ショットから階層的に組織化されたナビゲーションツリーを生成するツリー生成手段と、を含むことを特徴としている。
【0011】
請求項17に記載の発明は、映像ショットにセグメンテーションされた映像に対して限定された画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするための映像ナビゲーションプログラムであって、コンピュータを、前記映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされた映像ショットを取得するクラスタリング手段、及び、前記ツリーの経路長が最小限に抑えられながら、前記クラスタリングされた映像ショットから階層的に組織化されたナビゲーションツリーを生成するツリー生成手段、として機能させるための映像ナビゲーションプログラムであることを特徴としている。
【発明の効果】
【0012】
本発明によれば、映像ショットにセグメンテーションされた映像に対して、限定された画面サイズを有するディスプレイ装置上で、キーフレームを表示する映像ブラウザを用いた映像のナビゲーションを可能にするためのコンピュータを用いた方法が、提供されている。映像ショットは、映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされる。映像ショットのクラスタに対して、ツリーの経路長が最小限に抑えられながら、階層的に組織化されたナビゲーションツリーが生成される。
【発明を実施するための最良の形態】
【0013】
以下、図面を参照して本発明の実施の形態の一例を詳細に説明する。
【0014】
<I.前書き>
映像ディスプレイ装置用のナビゲーション支援機能は、ショットをショットの階層にクラスタリングする工程を含むことができる。クラスタリングは、異なるグループへのオブジェクトの分類である。階層処理は、以前に確立したクラスタを用いて、連続的なクラスタを見出す。凝集型の階層クラスタリングは、別々のクラスタとしての各要素から始まり、それらを連続的により大きなクラスタに併合する「ボトムアップ」クラスタリング手法である。凝集型の階層クラスタリングは、時間的な順序を維持するクラスタリングツリーを生成するのに最適である。次にどのクラスタを併合すべきかを決定する時は、クラスタの全ての対を考慮するのではなく、時間的に隣接しているクラスタの対のみを考慮する。これはクラスタリング処理の時間複雑度を大幅に減少させる。
【0015】
別の種類の階層クラスタリングは、「トップダウン」クラスタリングである。これは、セット全体から始まり、それを連続的により小さいクラスタに分割してゆく。しかしながら、トップダウンクラスタリング手法(例えばk平均法)は、時間的な順序を維持するには、それほど最適ではない。一方、トップダウンクラスタリング手法は、バランスの取れたツリーを生成するように適用することができる。バランスの取れたツリーは、その高さができるだけ小さく保たれたツリーである。ツリーの高さは、根ノードから葉ノードまでの最も長い経路である。単一のノードを有するツリーは「1」の高さを有している。
【0016】
現在、汎用されている凝集型の階層クラスタリング処理は、時間的な順序によるもので、クラスタにおける要素数を制限しない。これは、結果として、バランスの取れていないクラスタツリーを生成する。他の汎用されている処理は、クラスタリングとバランスの取れたツリーとを組み合わせているが、トップダウンクラスタリング処理専用で、時間的な順序は維持されない。
【0017】
本発明は、クラスタの要素数を制限するため、ボトムアップクラスタリング手法をトップダウン処理と組み合わせて使用している。完全なクラスタリングツリーを生成するのではなく、このクラスタリング処理は、クラスタツリーの各レベルを別々に処理し、凝集型の階層クラスタリングによって生成されるツリー構造を使用しない。
【0018】
携帯電話又は他の小型ディスプレイ装置上において、リニア映像内のナビゲーションを可能にする設計が提供されている。映像は、映像ショットに分割され、映像ショットの階層にセグメンテーションされる。この設計は、画面の階層を提供する。各画面は、キーフレームのグリッドを含んでおり、これらのキーフレームの各々は、1つ又はそれ以上のショットのいずれかを表わしている。キーフレームは、映像ショットにおける一時点のフレーム又はスナップショットである。グリッドの要素が、ショットのグループを表わしている時は、グループにおける最も重要なショット及びグループにおける第1のショットの両方が示されており、ショットのグループは、ツリーをナビゲートすることによって到達することができる。
【0019】
タイムラインは、目に見えるグリッド内の要素のそれぞれと関連した映像の部分を示す。ユーザは、階層的にグループ化されているショットをナビゲートして、映像を再生するための出発点を選択する。ユーザのナビゲーションを助けるため、映像ショットは、時間的な順序に保たれ、視覚的な類似性によってクラスタリングされている。類似性によるクラスタリングは、全映像ショットへの短いナビゲーション経路を保証するため行なわれる。類似性によるクラスタリングは、ナビゲーション経路の長さに対する制約があると、同様の映像ショットを一緒にグループ化することができない場合があるので、近似である。
【0020】
このようなツリーは、ショットの時間的な順序を維持しつつ、ユーザに予測できるナビゲーションを与えることが望ましい。非常に長いナビゲーション経路を回避するため、ある程度バランスの取れたツリーを有することも望ましい。ショットは、視覚的な類似性などの基準によってグループ化されて、ユーザが、ナビゲーション経路を選択するのをより容易にすべきである。
【0021】
ショットを時間的な順序に保つという要件は、視覚的な類似性などのクラスタリング基準を用いる場合、非常にバランスの悪いクラスタツリーを生ずる場合がある。一方、視覚的な類似性にもっぱら基づき、時間的な制約に基づかないクラスタツリーは、一般に、よりバランスの取れたものであるが、ユーザに同じ予測性を与えない。本発明は、時間的な順序を維持しながら、ある程度バランスの取れたツリーを生成し、その平均ナビゲーション経路長は、バランスの取れたツリーにおける経路長よりもわずかに長いだけである、ショット類似性の尺度に基づく階層クラスタリング手法を記述する。
【0022】
<II.技術的な詳細>
図1は、本発明の実施形態による映像ショットの階層例100を示す。この例では、39個の映像ショットが「階層構造」即ち「ツリー」に組織化されている。映像ショットは、ツリーの葉におけるキーフレームによって表わされている。これらの葉は、ツリーにおいて、7個のクラスタにグループ化されている。クラスタ110は、葉のうちの4枚、即ち、映像ショット111〜114を含んでいる。5個のクラスタ121〜125の各々は、6枚の葉、即ち、6個の映像ショットを含んでいる。クラスタ140は、5枚の葉、即ち、映像ショット141〜145を含んでいる。
【0023】
クラスタ140の左上のコーナーにおける映像要素150は、映像ショットを表すキーフレームである。このキーフレーム上にオーバーレイ(重ねて表示)されている第二のキーフレーム151、即ち、ピクチャー・イン・ピクチャー(親画面上に子画面が表示された画像)は、クラスタ110における4個の映像ショット111〜114を代表する(represent)。このレプリゼンテーションは、「4セグメント」と標識が付いている枝155又はショットで示されている。この例におけるピクチャー・イン・ピクチャーは、クラスタ110における映像ショットの第1のキーフレーム111を示している。このように、ツリーは、枝155を介して、映像要素150からクラスタ110における葉まで、降りてゆくことができる。
【0024】
クラスタ160は、ツリーの根である。クラスタ160は、6個の映像要素161〜166を含んでいる。これらの映像要素の各々は、ピクチャー・イン・ピクチャー要素であり、ツリーのより下層の映像ショットのクラスタを代表している。これらのレプリゼンテーションは、枝171〜176によって示されている。枝171には、クラスタ140における5個の映像ショット141〜145と、クラスタ110における4個の映像ショットとに対して、「9セグメント」の標識が付いている。枝171〜176には、各々、クラスタ121〜126の各々における6個の映像ショットに対して、「6セグメント」の標識が付いている。このように、ツリーは、枝171〜176を介して、映像要素161〜166から、クラスタ140における映像要素及びその葉まで、及びクラスタ121〜125における葉まで、降りてゆくことができる。
【0025】
図1におけるツリーの例は「3」の高さを有している。即ち、クラスタ160は第1の階層レベルに在り、クラスタ110は第3の階層レベルに在り、また、他のクラスタは第2の階層レベルに在る。また、このツリーは「6」の分岐係数(branching factor)を有している。即ち、ツリーにおける各クラスタは、各要素が、ピクチャー・イン・ピクチャー要素か映像ショット要素か否かに拘わらず、6個以上の要素を含むことができない。
【0026】
図2〜図4は、ユーザが、図1に示した映像ショットの階層をナビゲートする際に生ずる絞り込みフォーカス(narrowing focus)を示す。
【0027】
図2は、図1における階層の根として示される全体の映像160を表わす、本発明の実施形態に係る映像ブラウザの設計例を示す。設計(design)は、2×3グリッドの映像要素を含んでいる。映像要素のレイアウトは、映像全体を表わしている。これら6個の映像要素161〜166は、図1のクラスタ160、即ち、ツリーの根に由来する。映像要素は、映像ショットを代表するキーフレームとすることができる。また、映像要素は、映像ショットの別のクラスタを代表するピクチャー・イン・ピクチャーとすることができる。及び/又は、映像要素は、ツリーのより下層のピクチャー・イン・ピクチャー要素とすることができる。この例では、6個の映像要素は、ピクチャー・イン・ピクチャー要素である。
【0028】
ピクチャー・イン・ピクチャーの場合は、第2のキーフレームが、第1のキーフレーム上にオーバーレイされている。第2のキーフレームは、一般に、映像要素の左上のコーナーにオーバーレイされているが、映像要素の任意の他の領域でオーバーレイさせることができる。例えば、6個の映像要素161〜166は、各々、左上のコーナーにオーバーレイされている第2のキーフレーム211〜216を有している。追加のキーフレーム及び情報も、映像要素の任意の領域でオーバーレイさせることができる。例えば、映像要素には、対応する右下のコーナーで映像要素上にオーバーレイされている数字によって示されるように、1〜6の番号が付けられている。
【0029】
映像要素160のグリッドは、映像タイムライン220及びコンテキストセンシティブ・ヘルプ(文脈依存ヘルプ)225の上方に配置されている。映像タイムラインは、映像全体の長さ、及びグリッドにおける映像要素によって表わされる映像の部分の長さを示す。グリッド160の下方に示されている映像タイムライン220では、映像タイムラインの数字は、映像全体の時間の長さを分単位で表わす。この映像例は、長さが7分である。映像タイムラインの内容は、部分に分割されており、各部分は、合計の映像時間長に対する対応する映像要素の時間長を表わしている。交互に色が変わる着色部分の各々は、映像タイムライン中に現れているように、付番された映像要素のうちの1つに対応している。
【0030】
全部の図において、映像タイムラインの全部分は、交互に変化する色として示されているが、別々の色として示すこともできる。図2は、6個の映像要素に対する、映像タイムラインにおける6個の部分を示している。第1の部分230は長さ約1.5分であり、第2の部分240は長さ約0.5分であり、第3の部分250は長さちょうど1分以下であり、第4の部分260は長さ約1.5分であり、第5の部分270は長さ約1分であり、第6の部分280は長さ約1.5分である。実施形態では、タイムラインの数字は、他の時間単位を表わすことができる。実施形態では、タイムラインの内容は、交互のパターン又は別々のパターンなどの他の方法で表示することができる。
【0031】
映像タイムライン220の下には、ブラウザをナビゲートする際に、ユーザを助けるよう、コンテキストセンシティブ・ヘルプ225を表示することができる。具体的には、ヘルプテキストは、映像ショットの階層内でいかにナビゲートするか、また、映像の再生をいかにして開始するかを示している。この例では、ヘルプテキストは、追加の対話オプションを提供している。「Top:0,」では、ユーザが、彼の又は彼女の装置で「0」を押すと、主画面が表示される、即ち、映像全体を表わす映像要素が表示される。
【0032】
図2は、この映像例の主画面を示す。「up:*,」では、ユーザが「*,」を押すと、映像階層における1レベル上の画面が表示される。「playback:#<n>,」では、ユーザが、「#」及び6個の数字1〜6のうちの1つを押すと、ブラウザは、対応するサブクラスタの初めから映像を再生する。また、ユーザが6個の数字1〜6のうちの1つを押すと、ブラウザは下層にある対応するサブクラスタまでナビゲートする。即ち、図1のツリーを降下し、ツリーの次の階層レベルに対応する画面が表示される。
【0033】
図3は、本発明の実施形態による、図1の中間の階層レベルにおけるクラスタを表わす映像ブラウザの設計例を示す。設計は、図2におけるように、2×3グリッドの映像要素を含んでいるが、これは、両図の場合共、同じディスプレイ装置を使用しているからである。映像要素のレイアウトは、映像の一部分を表わしている。これら6個の映像要素141〜145及び150は、図1の第2のツリーレベルにおけるクラスタ140に由来する。この例では、映像要素150は、ピクチャー・イン・ピクチャー要素であり、映像要素141〜145は、それぞれ、映像ショットを代表するキーフレームである。映像要素には、対応する右下のコーナーで映像要素上にオーバーレイされている数字によって示されるように、1〜6の番号が付けられている。
【0034】
映像要素140のグリッドは、映像タイムライン320の上方に配置されている。映像タイムライン320は、各映像要素の長さを示す。クラスタ140における映像ショットの長さは、約1.5分である。タイムラインの交互に色が変わる着色部分の各々は、映像タイムライン中に現れているように、付番された映像要素のうちの1つに対応している。タイムラインのグレイ領域は、ツリーの他の部分によってカバーされている。図3は、6個の映像要素に対して、映像タイムラインに6個の部分を示している。第1の部分330は長さ約0.8分であり、第2の部分340及び第3の部分350の各々は長さ約0.1分であり、第4の部分360は長さ約0.3分であり、第5の部分370及び第6の部分380の各々は長さ約0.1分である。
【0035】
映像タイムライン320は、図2に示すレイアウトと同様に、コンテキストセンシティブ・ヘルプ(図示せず)の上方に配置することができる。図3のコンテキストセンシティブ・ヘルプは、図2のそれと同様の方法で作用する。しかしながら、図3の例では、「playback:#<n>,」でユーザが「1」を押すと、ブラウザは、図1のツリーを降下し、ツリーの次の階層レベルに対応する画面が表示される。「playback:#<n>,」では、ユーザが「2」〜「6」のうちのいずれかを押すと、ブラウザは、付番されたキーフレームに対応する映像ショットを再生する。
【0036】
図4は、本発明の実施形態による、図1の最低の階層レベルにおけるクラスタを表わす映像ブラウザの設計例を示す。設計は、図2及び図3におけるように、2×3グリッドの映像要素を含んでいるが、これは、全三図のどの場合も、同じディスプレイ装置を使用しているからである。映像要素のレイアウトは、映像の部分を表わしている。これら4個の映像要素111〜114は、図1の最低のツリーレベルにおけるクラスタ110に由来する。これらの映像要素は、各々、映像ショットを代表するキーフレームである。映像要素には、対応する右下のコーナーで映像要素上にオーバーレイされている数字によって示されるように、1〜4の番号が付けられている。
【0037】
映像要素110のグリッドは、映像タイムライン420の上方に配置されている。映像タイムライン420は、各映像要素の長さを示す。クラスタ110における映像ショットの長さは、約0.8分である。タイムラインの交互に色が変わる着色部分の各々は、映像タイムライン中に現れているように、付番された映像要素のうちの1つに対応している。タイムラインのグレイ領域は、ツリーの他の部分によってカバーされている。
【0038】
映像タイムライン420は、図2に示すレイアウトと同様に、コンテキストセンシティブ・ヘルプ(図示せず)の上方に配置することができる。図4のコンテキストセンシティブ・ヘルプは、図2のそれと同様の方法で作用する。しかしながら、図4の例では、この最下層のツリーレベルは、他のキーフレーム画面へのリンクを有していない。「playback:#<n>,」では、ユーザが、数字1〜6のうちのいずれかを押すと、ブラウザは、付番されたキーフレームに対応する映像ショットを再生する。
【0039】
図5〜図9は、それぞれ、本発明の実施形態による、2×2、3×2、4×2、4×3、及び4×4グリッドの映像要素を含む映像ブラウザの設計例を示す。映像ブラウザ設計における映像要素の数は、ディスプレイのサイズに基づいて変化する。携帯電話などの小型ディスプレイ装置では、要素の数は、より小型の電話ディスプレイ(図5におけるものなど)の2×2グリッドと、図9に示すようなより大型のディスプレイの4×4グリッドとの間の数にすることができる。要素のグリッドは、列×行と定義される。設計は、図2に示すような2×3、及び、図6に示すような3×2などの非正方形グリッドの場合も有効である。図2及び図6は、同数であるがレイアウトが異なる映像要素を含んでいる。非正方形グリッドの他の例は、図7に示すような4×2、図8に示すような3×4、及び4×3である。実施形態においては、他のグリッド寸法の組合せが使用できる。
【0040】
図9は、映像要素上にオーバーレイされている数字及び文字を含む映像ブラウザの設計例を示す。この4×4グリッドの例では、最初の9個の映像要素上に、数字「1」〜「9」がオーバーレイされており、残りの7個の映像要素上に、文字「A」〜「G」がオーバーレイされている。このように、彼の又は彼女の装置において、「1」〜「9」又は「A」〜「G」を押すことによって、ユーザは、16個の映像要素のうちの1つを選択することができる。図8は、同様に、映像要素上にオーバーレイされている数字及び文字の使用を示す。図5及び図7は、オーバーレイされている文字及び数字を含まない映像要素の例である。
【0041】
各グリッド映像要素の設計は、その映像要素が、単一のショットを表わしているか、ショットのクラスタを表わしているか、によって異なる。その映像要素が、単一のショットを表わしている場合は、映像要素は、図4の映像要素111〜114に示すように、ショットからの単一のキーフレームを示す。映像要素が、ショットのクラスタを表わしている場合は、映像要素は、クラスタにおける何らかの重要な働き(function)に基づく「最も重要な」ショットに由来するキーフレームを示す。最も重要なショットに由来するキーフレームには、時間的に第1のショットに由来するキーフレームがオーバーレイする。結果は、図3の左上の要素に示すようなピクチャー・イン・ピクチャーである。また、各グリッドの映像要素は、キーパッド上のどのキーが1セットのショットへとナビゲートするのか、あるいは、どのキーがショットの再生を開始するのか、を示す文言を有するオプションのオーバーレイも有している。このオーバーレイは、タッチスクリーンの場合は除去される。
【0042】
図10は、小型装置における、本発明の実施形態に係る、映像ショットのキーフレームのナビゲーションの例を示す。完全な映像を表わしている三つの画面1010、1020、及び1030が示されている。画面1020は、ユーザが、第1の画面1010の第1の映像要素1040を選択した後の、映像の一部を表わしている。映像要素1040は、画面1020で表わされている映像ショットのうちの最も重要なキーフレームに対応すると共に、画面1020における第1の映像要素1060に対応する、時間的に第1の映像ショットを表わしているオーバーレイされたキーフレーム1050を示す。画面1030は、ユーザが、第2の画面1020の第1の映像要素1060を選択した後の、映像の一部を表わしている。映像要素1060は、画面1030で表わされている映像ショットのうちの最も重要なキーフレームに対応すると共に、画面1030における第1の映像要素1080に対応する、時間的に第1のショットを表わしているオーバーレイされたキーフレーム1070を示す。
【0043】
画面1020では、2個の映像要素1071及び1072は、2個の映像ショットに対する二つの最も重要なキーフレームである。ユーザは、これら2個の映像ショットのどちらでも再生することができる。画面1030では、4個の映像要素1080〜1083は、4個の映像ショットに対する最も重要なキーフレームである。画面1030では、ユーザは、これらの4個の映像ショットのうちのいずれでも再生することができる。各画面の下のタイムラインは、分単位の映像の時間を表わしており、交互に変化する色で映像の選択された部分及び映像要素を示す。
【0044】
クラスタの距離を決定する距離関数については、任意の適切な視覚的類似性尺度(visual similarity measurement)の逆数が使用できる。例えば、色ヒストグラム又は色相関曲線が使用できる。クラスタ距離を求めるのに使用される他の距離関数は、テキスト・トランスクリプト及び同じ認識された面の発生に基づくテキスト類似性である。
【0045】
ショットの類似性を決定する距離関数については、任意の適切な視覚的類似性尺度の逆数が使用できる。例えば、色ヒストグラム又は色相関曲線が使用できる。色ヒストグラムは、一般に2次元(2D)又は3次元(3D)色空間における任意の一組の色範囲のそれぞれの画素数を数えることによって導き出される画像における色分布の表現である。色相関曲線は、色の対同士の空間相関を画素間の距離の関数として計算する。色ヒストグラム及び色相関曲線についての詳細は、それらが関連技術で周知であるので、ここでは、これ以上詳細には論じない。視覚的類似性に対して使用される距離関数の他の例は、テキスト・トランスクリプト及び同じ認識された面の発生に基づくテキスト類似性である。
【0046】
「最も重要な」又は代表的なショットを選択するためには、いくつかの異なる手法が使用できる。重要な関数の詳細については、それらが関連技術で周知であるので、ここでは、これ以上詳細には論じない。実施形態では、代表的なショットが最も重要なショットであろうとなかろうと、1セットのショットにおける代表的なショットを選択するための手法が使用可能である。実施形態では、代表的なショットを選択するための他の手法の例は、最も長いショット、最大量のオーディオ・エネルギーを有するショット、及び映像がトランスクリプトを有する場合には最大量のテキストを有するショットである。別の手法は、クラスタリングの距離尺度を用いて、クラスタにおける他のショットに最も類似したショットを選択することである。
【0047】
クラスタリングの距離尺度を用いる場合は、「最も重要な」ショットは、同じクラスタにおける他のショットに最も類似し、かつ、シブリング(兄弟)クラスタにおけるショットに最も類似していないショットである。所与のクラスタに対して、シブリングクラスタは、ツリーにおける同じ階層レベルのクラスタである。類似性は、他のクラスタメンバーに対する合計の距離を計算することによって、又はシブリングクラスタのメンバーである全てのショットに対する合計距離の重み付き合計値を減じることによって、各候補ショットについて求められる。最も少ない合計距離を有するショットが、最も重要なショットとして選択される。
【0048】
シブリングクラスタの使用は、1つの階層レベルでは選択されたショットを生じさせるかもしれないが、次のより低い階層レベルでは、生じさせないかもしれない。なぜなら、その階層レベルでは、シブリングクラスタに対して、十分識別力のある累乗(power)を有さないからである。シブリングクラスタに対する距離の重みをゼロに設定することによって、そのクラスタ自身のメンバーに対する類似性のみが考慮されるであろう。例えば、図10においては、これは映像要素1040の場合であり、映像要素1040は、他のクラスタ全てに対して十分には異なっていないため、画面1020における6個のクラスタの全てを代表していない。オーバーレイされているキーフレーム1050は、クラスタの真に第1のショットであり、したがって、再び、1060及び1080として現れている。
【0049】
上記のように、ボトムアップクラスタリング手法は、クラスタ要素の数を限定するために、トップダウン処理と組み合わせて用いる。本実施形態での処理は、完全なクラスタリングツリーを生成するのではなく、クラスタツリーの各階層レベルを別々に処理し、凝集型の階層クラスタリングによって生成されるツリー構造を使用しない。処理の詳細については、図11、図12(A)、及び図12(B)に関連して説明する。
【0050】
図11、図12(A)、及び図12(B)におけるクラスタリング処理の基本的な概要は、以下の通りである。
【0051】
1.ツリーにおける最大葉数を、分岐係数bの次に高い累乗として求める。
【0052】
2.全ての映像ショットを、いかなるクラスタもbh-1個を超える要素を有することがないb個のクラスタにクラスタリングする。時間的に隣接した要素を有するクラスタの対のみを併合し、併合したクラスタの要素が多くなりすぎそうな対はスキップする(併合しない)。b個のクラスタしか存在しない場合には、併合を一旦停止する。
【0053】
3.サブクラスタの要素を再帰的に(recursively)クラスタリングして、クラスタ要素の最大数をb分の一に減らす。
【0054】
4.併合できるサブクラスタがもはや無いため、クラスタをサブクラスタリングすると、b個を超えるサブクラスタが生ずる場合は、そのクラスタを望ましくないとしてマークし、より高い階層レベルにおけるクラスタリングにおいて、望ましくないクラスタが生成された点まで後戻りして、望ましくないクラスタを、要素の最大数を超えるであろうクラスタと全く同様に処理しながら、クラスタリングを繰り返す。
【0055】
5.ツリーの根が、b個を超えるサブクラスタを有している場合は、ツリーの最大高さを上げて、クラスタリング処理をやり直す。
【0056】
図11は、本発明の実施形態による、クラスタリングを初期化するための、また、再帰的なクラスタリング処理を呼び出すための、処理の流れの例を示す。処理は、ステップ1100で始まる。ステップ1102では、三つの入力が、処理に入力される。第1の入力は、特定の装置表示画面に表示することができる映像要素の数であるツリー分岐係数「b」である。第2の入力は、時間的な順序での映像におけるショットのリストである。第3の入力は、クラスタ距離を求めるのに使用される距離関数である。クラスタ距離は、組合せクラスタにおける要素の最大ペアワイズ距離として、又は併合すべきクラスタ同士の間の境界を形成する二つの映像ショットの距離として、計算することができる。
【0057】
例えば、時間的な順序、「abcdefg」での下記のショットを仮定し、また、それらは、クラスタAが、要素a〜dを含み、かつ、クラスタBが、要素e〜gを含むようにクラスタリングされている、と仮定しよう。この例に対して最大ペアワイズ距離を用いると、AとBとの間の距離は、距離ae、af、ag、be、bf、bg、ce、cf、cg、de、df、又はdgの最大値である。併合すべきクラスタ同士の間の境界を形成している二つの映像ショットの距離を用いると、AとBとの間の距離は、クラスタAとBとの時間的な境界における距離、即ち、要素dとeとの間の距離である。
【0058】
ステップ1104では、ショットのリストからショット数「n」が求められる。実施形態では、ショット数は、別法として、ステップ1102で入力される。ステップ1106では、高さ「h」及び分岐係数「b」を有する選択されたバランスの取れたツリーにおける最大葉数は、「bh」として求められる。この決定は、全ての映像ショットを葉で保持することができるであろう所与の分岐係数「b」について、バランスの取れたツリーの最小高さ「h」を見出すことによって行なわれる。この「h」は、ショット数より小さくない分岐係数bの最も小さい累乗であり、したがって、bh>=nである。このように、ステップ1106では、バランスの取れたツリーの最小高さ「h」も同様に求められる。
【0059】
例えば、ステップ1106で、分岐係数b=6が入力され、ステップ1108で、n=100個の映像ショットが求められる、と仮定しよう。ステップ1106では、映像ショットを葉として保持できる最も小さいバランスの取れたツリーは、最大bh=(63)=216個のショットを保持することができ、これは、分岐係数の累乗をh=1から始まって昇順に調べることによって求められる。h=1では、bh=(61)=6は、100より小さく、したがって、100個のショットを保持できるほど大きくはない。h=2では、bh=(62)=36は、100より小さく、したがって、100個のショットを保持できるほど大きくはない。しかしながら、h=3では、bh=(63)=216は、100個のショットより大きく、したがって、216枚の葉を有するツリーは、100個のショットを保持するには十分な大きさである。
【0060】
ステップ1108では、構築すべきクラスタツリーにおける葉数の限界値「l」は、ステップ1106で求めた最大葉数bhとなるよう、即ち、限界値l=bhとなるよう初期化される。この限界値は、クラスタツリーをバランスの取れた状態に保つのに使用される。この限界値は、クラスタツリーをバランスの取れた状態に保つため、後の処理では、l/bとして使用される。上記の例を、分岐係数b=6及びショット数n=100、さらに、再帰の第1の反復を処理する、と仮定しよう。各クラスタにおける要素数のこの限界値は、ショットを葉として保持することができる最も小さいバランスの取れたツリーにおける最大葉数、即ち、ステップ1106で見出された最大葉数bh=216を分岐係数b=6で割った値、即ち、216/6=36である。別法として、クラスタにおける要素数の新しい限界値は、分割すべきクラスタにおける要素数より小さい分岐係数の最も大きい累乗とすることができる。この場合には、生成されるサブツリーは、同様のショットを共にグループ化することを犠牲にして、より短いナビゲーション経路を有することができる。
【0061】
ステップ1110では、図12(A)及び(B)における再帰的な処理が、三つのパラメータ、即ち、ステップ1102で入力されたショットのリスト、距離関数、及びステップ1108で初期化された限界値lと共に呼び出される。
【0062】
ステップ1112では、図12(A)及び(B)の処理は、失敗の表示を戻し、次いで、ステップ1114では、ツリーの高さhが、1だけ上げられる。再帰の一番上の呼出しが失敗を戻した(これは、ツリーの根ノードの故と思われる)以上、処理は、再び、より大きな高さのツリーで適用しなければならない(再帰では後戻りする道がないからである)。処理は、ステップ1108にループバックし、限界値lを再初期化してから再帰の第1の呼出しを、新しいツリー高さhで再開する。ツリーの高さが上げられており、これは、最も長いナビゲーション経路が、類似性によるクラスタリングの無いバランスの取れたツリーにおけるそれよりも長くなる唯一の状況である。一般に、これは、映像ショット数が、分岐係数の累乗よりわずかに小さい場合にのみ生ずる。
【0063】
ステップ1112で、図12(A)及び(B)の処理が失敗の表示を戻さない場合は、図12(A)及び(B)の処理は、ツリーを戻す。図11の処理は、ステップ1120で終了する。
【0064】
図12(A)及び(B)は、本発明の実施形態による、時間的な順序でのボトムアップの階層クラスタリング処理を、トップダウンのクラスタ要素数制限と組み合わせて適用する再帰的な処理の例を示す。この再帰的な処理は、図11における処理によって呼び出され、図11で求めた初期化を用いて、再帰の第1の反復を行う。処理は、ステップ1200で始まる。ステップ1210では、クラスタリングを初期化するため、各ショットが、それ自体のクラスタ内に入れられる。ステップ1220では、時間的に隣接したクラスタ同士が、対にされる。ステップ1222では、最も小さい距離を有する対が、図12(A)及び(B)の処理の呼出しの際にパラメータの1つとして渡された距離関数を用いて見出される。上記のように、各クラスタは、同じクラスタ内の他のショットに最も類似し、かつ、シブリングクラスタ内のショットに最も類似していないショットとすることができるキーフレームによって表わされる。
【0065】
ステップ1224では、ステップ1222で見い出された最も小さい距離を有する対に対するクラスタの組合せ基数が、基数限界値lを分岐係数bで割った値、即ち、l/bを超える場合、あるいは、対が望ましくないとマークされた場合は、この対は無視される。処理は、ループバックして、ステップ1226で、次の最も小さい距離を有するクラスタ対が見出される。組合せ基数が、基数限界値を超えるため無視されたクラスタの対に対しては、クラスタの他の対より類似性が少ないクラスタ同士を併合できるが、このステップは、ツリーの高さを限定する。望ましくないとマークされたため無視されたクラスタの対については、図12(B)と関連して、以下で説明する。
【0066】
ステップ1224では、ステップ1222又はステップ1226のどちらかで見い出された最も小さい距離を有する対に対するクラスタの組合せ基数が、基数限界値lを分岐係数bで割った値、即ち、l/bの値を超えない場合は、対は、ステップ1228で併合され、クラスタのリスト内に併合されたクラスタを有する二つの個々のクラスタに置き換わる。この限界値l/bは、クラスタツリーをバランスの取れた状態に保つのに使用される。
【0067】
ステップ1230では、分岐係数より大きいクラスタ数が存在する場合、及びステップ1232で、より多くのサブクラスタを併合できる場合は、処理は、ステップ1220にループバックして、クラスタリングを継続する。ステップ1232では、クラスタ数をツリーの分岐係数まで減らさないと、より多くのクラスタを併合できないことが有り得る。例えば、分岐係数3及びクラスタA、B、C、及びDを仮定しよう。任意の二つのクラスタの組合わせが、大きすぎる場合、即ち、対AB、BC、又はCDのうちのいずれかに対するクラスタの組合せ基数が、限界値lを超える場合は、より多くのクラスタを併合できない。さらに、クラスタAB、BC、又はCDが、望ましくないとマークされる場合は、より多くのクラスタを併合できない。望ましくないクラスタについての追加の詳細は、図12(B)に関連して、以下で説明する。ステップ1230では、分岐係数より大きいクラスタ数が存在する場合、及びステップ1232で、より多くのクラスタを併合できない場合は、ステップ1234で、この失敗が、再帰的なクラスタリング処理の呼出し者に戻され、処理は、ステップ1280で終了する。このような失敗は、以下、図12(B)に関連した説明の中で取り扱う。
【0068】
図12(A)のステップ1230では、クラスタ数が、分岐係数bより小さいか、あるいは、それに等しい場合、及びステップ1236で、全てのクラスタが、処理されていない場合は、即ち、クラスタのそれぞれが、まだ再帰的に処理されていない場合は、コネクタ1は、図12(A)を図12(B)に接続する。
【0069】
図12(B)は、ツリーの葉における各クラスタに対する、図12(A)及び(B)のクラスタリング処理の再帰的な呼出しの例を示す。図12(B)はまた、図12(A)及び(B)が、失敗の表示を戻す(これは、ショットが、与えられた高さのツリーにフィットしない場合に生ずる)時、失敗を処理する。図12(A)及び(B)を通る第1の反復は、単一のショットしか含んでいないクラスタから始まった。時間的に隣接したクラスタの対は、b個のクラスタしか残らなくなるまで併合された。それらb個のクラスタのそれぞれについて、ツリーの葉が、分岐係数bより多くのサブクラスタを含む場合は、図12(A)及び(B)の処理が、再帰的に適用される。図12(A)及び(B)の処理が、呼び出され、ツリーが戻されるごとに、新しいサブツリーが生成される。
【0070】
ステップ1240では、b個のクラスタの次に構築すべきクラスタツリーにおける葉数の限界値「l2」は、最大葉数bx、即ち、限界値l2=bxであるように初期化される。この「x」は、処理されるべき次の組合せクラスタのショット数より小さくない分岐係数の最も小さい累乗であり、したがって、bx>=xである。この限界値は、クラスタツリーをバランスの取れた状態に保つため、後の処理では、l/bとして使用される。上記の例を、分岐係数b=6及びショット数n=100、さらに、再帰の第1の反復を処理する、と仮定しよう。各クラスタにおける要素数のこの限界値は、ショットを葉として保持することができる最も小さいバランスの取れたツリーにおける最大葉数、即ち、ステップ1106で見出された最大葉数bh=216を分岐係数b=6で割った値、即ち、216/6=36である。別法として、クラスタにおける要素数の新しい限界値は、分割すべきクラスタにおける要素数より小さい分岐係数の最も大きい累乗とすることができる。この場合には、生成されるサブツリーは、同様のショットを共にグループ化することを犠牲にして、より短いナビゲーション経路を有することができる。
【0071】
ステップ1242では、図12(A)及び(B)における再帰的な処理が、三つのパラメータ、即ち、次の組合せクラスタに対するショットのリスト、距離関数、及びステップ1240で初期化された限界値l2と共に呼び出される。パラメータ限界値l2は、図12(A)でステップ1200から始まる場合は、限界値lとなる。
【0072】
ステップ1244では、図12(A)及び(B)の処理が、失敗の表示を戻さない場合は、コネクタ2は、図12(B)を図12(A)に接続し、処理は、ループバックして、ステップ1236で、それ以上の組合せクラスタを全て処理する。ステップ1244で、図12(A)及び(B)の処理が、失敗の表示を戻す場合は、ステップ1246で、限界値l2は、b(分岐係数)倍に、即ち、l2=l2 ×bにすることができる。
【0073】
ステップ1248で、クラスタにおける要素数の限界値l2が、以前の限界値を分岐係数で割った値より小さかった場合は、処理は、新しい限界値l2でステップ1242にループバックし、同じクラスタに再帰が再び適用される。以下は、限界値が、以前の限界値を分岐係数で割った値より小さくなり得る場合の例である。4個のクラスタA、B、C、及びD、分岐係数4、及び下記の基数、即ち、A:10;B:20;C:50;D:30を仮定しよう。ツリーの最大葉数は、bh=44=256となり、各サブクラスタの限界値は、bh/b=43=64となろう。しかしながら、Aの基数は、42=16より大きくなく、したがって、それは、高さ2のサブツリーにフィットすることができよう。後で高さ2のツリーを構築して、Aに対して失敗する場合は、3の高さでAに対して再び処理を呼び出すことができる。
【0074】
ステップ1248で、クラスタにおける要素数の限界値l2が、以前の限界値を分岐係数で割った値より大きかった場合は、ステップ1254で、そのクラスタは、望ましくないとマークされる。処理は、ステップ1256における再帰で、ツリーの次のより高いレベルまで後戻りする。ステップ1258で、処理は、二つのクラスタを併合することによって望ましくないクラスタが生成された前の点まで、クラスタリング内を後戻りする。コネクタ3は、図12(B)を図12(A)のステップ1220に接続する。図12(A)及び(B)の再帰的な処理の呼出し者は、次いで、ステップ1258で後戻りの際に見出された点から、ステップ1246で求められた新しい限界値l2で、クラスタリングを継続することができる。望ましくないとマークされたクラスタは、要素数の限界値を超えるであろうクラスタと全く同様に処理される、即ち、それらは、併合することができるクラスタの対を探索する際に無視される。
【0075】
例えば、4個のサブクラスタが時間的な順序、即ち、A、B、C、及びDで存在している、と仮定しよう。B及びCは、最も少ない距離を有し、単一のクラスタBCに組み合わされている。クラスタBCに処理を再帰的に適用する場合、それは、与えられた高さのツリーにフィットすることができず、図12(A)及び(B)の処理は、失敗の表示を戻し、図12(B)のステップ1254で、クラスタBCは、望ましくないとマークされる。処理は、B及びCが併合されて、BCが形成された、4個のサブクラスタを有する点まで、再帰内を後戻りする。クラスタBCは、ステップ1260で、望ましくないとマークされる。この時点で、再帰的な処理の呼出し者は、なお、A及びB又はC及びDを組み合わせ、次いで、処理を再帰的にAB又はCDのどちらかに適用しようと企てることができる。これは、AB及びCDが、以前に望ましくないとマークされたことがなく、かつ、それらの基数が、限界値を超えていないことを仮定している。
【0076】
ステップ1230に戻って、クラスタ数が、分岐係数bに等しいか、あるいは、それより小さい場合、及び全ての組合せクラスタが、ステップ1236で処理されていた場合は、ステップ1270で、ツリーは、再帰的なクラスタリング処理の呼出し者に戻され、処理は、ステップ1280で終了する。
【0077】
<III.評価>
実施形態において、初期設計及びレイアウト処理は、Java(登録商標)ベースである。129個のショットを含む特定のテスト映像の場合で、本発明の処理(2)を二つの別の処理、処理(1)及び処理(3)と比較した。処理の結果として生じたツリーを、図13〜図15に示す。
【0078】
別の処理(1)に対して、図13は、類似性クラスタリング無しで生じたバランスの取れたツリーの例を示す。このバランスの取れたツリーは、左側が充実している。処理(2)に対して、図14は、本発明の実施形態による、類似性クラスタリング及びツリー高さの制限を行なって生じたツリーの例を示す。この処理(2)は、上記の図1〜図12(B)に関連して論じた。処理(3)に対して、図15は、類似性クラスタリングを行うと共に、ツリー高さに対する限界値無しで生じたツリーの例を示す。
【0079】
処理(1)及び処理(2)の各々は、「3」の高さを有するツリーを生じた。処理(3)は、「5」の高さを有するツリーを生じた。図16は、本発明の実施形態によるものであり、図13〜図15のツリーを生ずる処理に対する処理結果を比較する表の例を示す。行1〜行5において、表は、各処理における特定の長さのナビゲーション経路によって到達可能な映像ショット数をリスト化している。
【0080】
図16に示すように、処理(2)、即ち、時間的な順序でのバランスの取れた凝集型の階層クラスタリング処理における平均ナビゲーション経路長「2.92」は、処理(1)、即ち、純粋なバランスの取れた手法における平均ナビゲーション経路長「2.87」よりわずかに高い。処理(3)、即ち、ツリーバランスを問題としないクラスタリング手法は、処理(2)よりも、かなり高い平均経路長「3.37」と、はるかに高い最大経路長「5」とを有している。
【0081】
<IV.システムハードウェア、ソフトウェア、及び構成要素>
図17は、本発明の実施形態による、ディスプレイ装置及び映像ブラウザの例を示す。ディスプレイ装置1700は、一般に、ディスプレイ1705、少なくとも1つのメモリ1710、少なくとも1つのプロセッサ1720、及び少なくとも1つの記憶装置又はある種のレポジトリー1730を備えている。装置1700は、さらに、ソフトウェア1740を備えている。このソフトウェア1740は、ユーザが、映像をナビゲートできるようにする、本実施形態に係る「映像ブラウザ」を備えている。本実施形態では、ソフトウェアは、Java(登録商標)ベースである。
【0082】
ディスプレイ装置1700は、映像1750を、例えば、記憶装置1730に記憶する。別法として、記憶装置1730及び(又は)ソフトウェア1740は、インターネット1770を介してアクセスされる遠隔コンピュータ1760上に保持されている。本発明の焦点は、携帯電話又はパーソナル・ディジタル・アシスタント(PDA)などのより小型のディスプレイ装置に合わせてあるが、ディスプレイ装置は、また、コンピュータ又はテレビジョンなどの任意の他のより大きな装置とすることもできる。
【0083】
本発明の実施形態は、本開示の教示に従ってプログラムされた従来の汎用又は専用ディジタルコンピュータ(複数も可)又はマイクロプロセッサ(複数も可)を用いて実施することができるコンピュータを用いた方法及びシステムを含むことができる。適切なソフトウェア・コーディングが、プログラマーによって、本開示の教示に基づき容易に作成可能である。本発明の実施形態は、ここで提示された特徴のうちの任意のものを行なうためのコンピュータによって実行可能な命令のプログラムを備えることができる。
【0084】
本発明の実施形態は、コンピュータで読み取り可能な記憶媒体などのコンピュータで読み取り可能な媒体を含むことができる。コンピュータで読み取り可能な記憶媒体は、コンピュータをプログラムして、ここで提示された特徴のうちの任意のものを行なうのに使用することができる、記憶された命令を有することができる。記憶媒体は、フロッピー(登録商標)ディスク、光ディスク、DVD、CD-ROM、マイクロドライブ、及び磁気光ディスクを含む任意のタイプのディスク、ROM、RAM、EPROM、EEPROM、DRAM、フラッシュメモリ、又は命令及び(又は)データを記憶するのに適した任意の媒体又は装置を含むことができる(但し、これらに限定されない)。
【0085】
本発明は、汎用/専用コンピュータ(複数も可)又はマイクロプロセッサ(複数も可)などのコンピュータのハードウェアを制御するためのソフトウェア、及びそれらと人間のユーザ又は本発明の結果を利用する他の機構との対話を可能にするためのソフトウェアの両方を含むことができる。このようなソフトウェアは、デバイスドライバ、オペレーティングシステム、実行環境/コンテナ、ユーザインタフェース、及びユーザアプリケーションを含むことができる(但し、これらに限定されない)。
【0086】
本発明の実施形態は、本発明の処理を実行するためのコードを提供する工程を含むことができる。この提供する工程は、ユーザに任意のやり方でコードを提供する工程を含むことができる。例えば、この提供する工程は、コードを含むディジタル信号をユーザに送信する工程;物理的な媒体上のコードをユーザに提供する工程;又はコードを利用可能にする任意の他の方法を含むことができる。
【0087】
本発明の実施形態は、本発明の実施形態の処理のうちの任意のものを行なうための、コンピュータで実行することができるコードを送信するための、コンピュータで実行される方法を含むことができる。この送信する工程は、インターネットなどのネットワークの任意の部分を介した転送;ワイヤ、大気又は空間を介した転送;又は任意の他のタイプの送信による転送を含むことができる。この送信する工程は、コードの送信を開始する工程;又は任意の領域又は国から別の領域又は国へコードを通過させる工程を含むことができる。ユーザへの送信は、その送信がそこから送られた場所を問わず、任意の領域又は国におけるユーザによって受信される任意の送信を含むことができる。
【0088】
本発明の実施形態は、本発明の実施形態の処理のうちの任意のものを行なうためコンピュータにおいて実行することができるコードを含む信号を含むことができる。この信号は、インターネットなどのネットワークを介して;ワイヤ、大気又は空間を介して;又は任意の他のタイプの送信による信号を含むことができる。信号全体は、同時に搬送する必要はない。信号は、その転送期間に亘って、経時的に延長することができる。信号は、現在搬送されているもののスナップショットと考えるべきではない。
【0089】
本発明の実施形態の以上の記述は、図解及び説明の目的で付与された。網羅的である意図、又は、本発明を開示された形態どおりのものに限定する意図はない。当該技術の通常の知識を有する人には、多くの修正及び変形は明らかであろう。例えば、開示された本発明の実施形態で行なわれる工程は、別の順序で行うことができ、ある工程は省略することができ、また、追加の工程を加えることができる。本発明の他の実施形態を開発することができる。しかもそれらは、本発明の主旨及び範囲、及びクレームを逸脱せずに開発することができることを理解されたい。実施形態は全て、本発明の原理及びその応用が最も良く説明されるよう選択し、かつ記述し、それにより、当該技術の通常の知識を有する他の人々が、各種の実施形態について、また、想定される特定の用途に適した各種の修正と共に本発明を理解できるようにした。本発明の範囲は、クレーム及びそれらの等価物によって定義されることが意図されている。
【図面の簡単な説明】
【0090】
【図1】本発明の実施形態に係る映像ショットの階層例を示す図である。
【図2】本発明の実施形態に係る図1で階層の根として図示された映像全体を表わす映像ブラウザの設計例を示す図である。
【図3】本発明の実施形態に係る図1の中間の階層レベルのクラスタを表わす映像ブラウザの設計例を示す図である。
【図4】本発明の実施形態に係る図1の最低の階層レベルのクラスタを表わす映像ブラウザの設計例を示す図である。
【図5】本発明の実施形態に係る2×2グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図6】本発明の実施形態に係る3×2グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図7】本発明の実施形態に係る4×2グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図8】本発明の実施形態に係る4×3グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図9】本発明の実施形態に係る4×4グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図10】本発明の実施形態に係る小型の装置上の映像ショットのキーフレームのナビゲーションの例を示す図である。
【図11】本発明の実施形態に係る、クラスタリングを初期化すると共に再帰的なクラスタリング処理を呼び出すための、処理の流れの例を示すフローチャートである。
【図12】(A)及び(B)は、本発明の実施形態に係る、時間的な順序でのボトムアップの階層クラスタリング処理とトップダウンのクラスタ要素数制限とを組み合わせて適用する再帰的な処理の例を示すフローチャートである。
【図13】類似性クラスタリング無しで生じたバランスの取れたツリーの例を示す図である。
【図14】本発明の実施形態による類似性クラスタリング及びツリー高さの制限を行なって生じたツリーの例を示す図である。
【図15】類似性クラスタリングを行うと共にツリー高さに対する限界値無しで生じたツリーの例を示す図である。
【図16】図13〜図15のツリーを生ずる各処理に対する処理結果を比較する表の例を示す図である。
【図17】本発明の実施形態に係るディスプレイ装置及び映像ブラウザの例を示すブロック図である。
【技術分野】
【0001】
本発明は、ディスプレイ装置における映像ブラウザに関し、詳しくは、時間的に順序付けられた映像キーフレームの類似性に基づくナビゲーション階層を用いて短いナビゲーション経路によりディスプレイ装置上でリニア映像をナビゲートするための映像ナビゲーション方法、映像ナビゲーションシステム、及び映像ナビゲーションプログラムに関する。
【背景技術】
【0002】
ユーザがディスプレイ装置上で映像を再生する時は、映像における特定のシーンにアクセスすることが望ましい。ディスプレイ装置上のナビゲーション支援機能(navigation aid)は、ユーザが、所望のシーンまで映像をナビゲートすることを可能にする。ディジタル・ビデオ・ディスク(DVD)の場合、DVDは、記憶されている映像のシーンインデクスをキーフレームの形態でユーザに与える。一方、大部分の自動的に生成されるナビゲーション支援機能では、映像におけるシーンを自動的に検出することが困難なため、シーンの代わりにショットが用いられる。ショットは、シーンよりはるかに短いため、これは、はるかにより大きな数(一般に映像の毎分に対して10個以上)のキーフレームを生じる。テレビジョン画面又はコンピュータ画面などの画面上に数個のキーフレームを表示するDVD手法では、ある特定のショットにアクセスしたい場合、数百個のキーフレームまでスケールアップしてはくれない。各画面上に数個のキーフレームを表示する余地しかない携帯電話などの小型の装置では、状況はさらに悪い。
【0003】
さらに、映像をナビゲートするための大部分のインタフェースは、特別に設計されたリモコン(例えば、TIVOリモコン)又はマウスのどちらかに依存する。携帯電話のように小型ディスプレイを備え且つマウスを備えていない装置上では、映像についての情報を提供するスペースが制限され、ユーザ入力のオプションが限定されているため、映像をナビゲートするのは困難である。
【0004】
【非特許文献1】AN,C.-H.,et al.,"Fractal Image Compression by Improved Balanced Tree Clustering,"Proceedings of SPIE, Volume 3164, Apprications of Digital Image Processing XX, pages 554-562(1997).
【0005】
【非特許文献2】GEVA,S.,"K-Tree: A Height Balanced Tree Structured Vector Quantizer,"Proceedings of the 2000 IEEE Signal Processing Society Workshop, Volume 1,pages 271-280(2000).
【0006】
【非特許文献3】GIRGENSOHN,A.,et al.,"Home Video Editing Made Easy-Balancing Automation and User Control,"Proceedings of Human-Computer Interaction(INTERACT'01),IOS Press, Tokyo,Japan, 8 pages(2001).
【0007】
【非特許文献4】ZHANG,T.,"BIRCH: An Efficient Data Clustering Method for Very Large Databases,"Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, Montreal, Canada,pages 103-114(1996).
【発明の開示】
【発明が解決しようとする課題】
【0008】
本発明の目的は、ディスプレイ装置上で、特に小型ディスプレイ装置上で、映像ショットのナビゲーションを自動的に可能にするための、より良いプロセスを提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するために請求項1に記載の発明は、映像ショットにセグメンテーションされた映像に対して、限定された画面サイズであり且つキーフレームより大きな画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするコンピュータを用いた映像ナビゲーション方法であって、前記方法は、前記映像ショットの時間的な順序を維持しながら、前記映像ショットを類似性によってクラスタリングする工程と、前記ツリーの経路長を最小限に抑えながら、前記映像ショットのクラスタに対して階層的に組織化されたナビゲーションツリーを生成する工程と、含むことを特徴としている。
【0010】
請求項9に記載の発明は、映像ショットにセグメンテーションされた映像に対して限定された画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にする映像ナビゲーションシステムであって、前記システムは、前記映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされた映像ショットを取得するクラスタリング手段と、前記ツリーの経路長が最小限に抑えられながら、前記クラスタリングされた映像ショットから階層的に組織化されたナビゲーションツリーを生成するツリー生成手段と、を含むことを特徴としている。
【0011】
請求項17に記載の発明は、映像ショットにセグメンテーションされた映像に対して限定された画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするための映像ナビゲーションプログラムであって、コンピュータを、前記映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされた映像ショットを取得するクラスタリング手段、及び、前記ツリーの経路長が最小限に抑えられながら、前記クラスタリングされた映像ショットから階層的に組織化されたナビゲーションツリーを生成するツリー生成手段、として機能させるための映像ナビゲーションプログラムであることを特徴としている。
【発明の効果】
【0012】
本発明によれば、映像ショットにセグメンテーションされた映像に対して、限定された画面サイズを有するディスプレイ装置上で、キーフレームを表示する映像ブラウザを用いた映像のナビゲーションを可能にするためのコンピュータを用いた方法が、提供されている。映像ショットは、映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされる。映像ショットのクラスタに対して、ツリーの経路長が最小限に抑えられながら、階層的に組織化されたナビゲーションツリーが生成される。
【発明を実施するための最良の形態】
【0013】
以下、図面を参照して本発明の実施の形態の一例を詳細に説明する。
【0014】
<I.前書き>
映像ディスプレイ装置用のナビゲーション支援機能は、ショットをショットの階層にクラスタリングする工程を含むことができる。クラスタリングは、異なるグループへのオブジェクトの分類である。階層処理は、以前に確立したクラスタを用いて、連続的なクラスタを見出す。凝集型の階層クラスタリングは、別々のクラスタとしての各要素から始まり、それらを連続的により大きなクラスタに併合する「ボトムアップ」クラスタリング手法である。凝集型の階層クラスタリングは、時間的な順序を維持するクラスタリングツリーを生成するのに最適である。次にどのクラスタを併合すべきかを決定する時は、クラスタの全ての対を考慮するのではなく、時間的に隣接しているクラスタの対のみを考慮する。これはクラスタリング処理の時間複雑度を大幅に減少させる。
【0015】
別の種類の階層クラスタリングは、「トップダウン」クラスタリングである。これは、セット全体から始まり、それを連続的により小さいクラスタに分割してゆく。しかしながら、トップダウンクラスタリング手法(例えばk平均法)は、時間的な順序を維持するには、それほど最適ではない。一方、トップダウンクラスタリング手法は、バランスの取れたツリーを生成するように適用することができる。バランスの取れたツリーは、その高さができるだけ小さく保たれたツリーである。ツリーの高さは、根ノードから葉ノードまでの最も長い経路である。単一のノードを有するツリーは「1」の高さを有している。
【0016】
現在、汎用されている凝集型の階層クラスタリング処理は、時間的な順序によるもので、クラスタにおける要素数を制限しない。これは、結果として、バランスの取れていないクラスタツリーを生成する。他の汎用されている処理は、クラスタリングとバランスの取れたツリーとを組み合わせているが、トップダウンクラスタリング処理専用で、時間的な順序は維持されない。
【0017】
本発明は、クラスタの要素数を制限するため、ボトムアップクラスタリング手法をトップダウン処理と組み合わせて使用している。完全なクラスタリングツリーを生成するのではなく、このクラスタリング処理は、クラスタツリーの各レベルを別々に処理し、凝集型の階層クラスタリングによって生成されるツリー構造を使用しない。
【0018】
携帯電話又は他の小型ディスプレイ装置上において、リニア映像内のナビゲーションを可能にする設計が提供されている。映像は、映像ショットに分割され、映像ショットの階層にセグメンテーションされる。この設計は、画面の階層を提供する。各画面は、キーフレームのグリッドを含んでおり、これらのキーフレームの各々は、1つ又はそれ以上のショットのいずれかを表わしている。キーフレームは、映像ショットにおける一時点のフレーム又はスナップショットである。グリッドの要素が、ショットのグループを表わしている時は、グループにおける最も重要なショット及びグループにおける第1のショットの両方が示されており、ショットのグループは、ツリーをナビゲートすることによって到達することができる。
【0019】
タイムラインは、目に見えるグリッド内の要素のそれぞれと関連した映像の部分を示す。ユーザは、階層的にグループ化されているショットをナビゲートして、映像を再生するための出発点を選択する。ユーザのナビゲーションを助けるため、映像ショットは、時間的な順序に保たれ、視覚的な類似性によってクラスタリングされている。類似性によるクラスタリングは、全映像ショットへの短いナビゲーション経路を保証するため行なわれる。類似性によるクラスタリングは、ナビゲーション経路の長さに対する制約があると、同様の映像ショットを一緒にグループ化することができない場合があるので、近似である。
【0020】
このようなツリーは、ショットの時間的な順序を維持しつつ、ユーザに予測できるナビゲーションを与えることが望ましい。非常に長いナビゲーション経路を回避するため、ある程度バランスの取れたツリーを有することも望ましい。ショットは、視覚的な類似性などの基準によってグループ化されて、ユーザが、ナビゲーション経路を選択するのをより容易にすべきである。
【0021】
ショットを時間的な順序に保つという要件は、視覚的な類似性などのクラスタリング基準を用いる場合、非常にバランスの悪いクラスタツリーを生ずる場合がある。一方、視覚的な類似性にもっぱら基づき、時間的な制約に基づかないクラスタツリーは、一般に、よりバランスの取れたものであるが、ユーザに同じ予測性を与えない。本発明は、時間的な順序を維持しながら、ある程度バランスの取れたツリーを生成し、その平均ナビゲーション経路長は、バランスの取れたツリーにおける経路長よりもわずかに長いだけである、ショット類似性の尺度に基づく階層クラスタリング手法を記述する。
【0022】
<II.技術的な詳細>
図1は、本発明の実施形態による映像ショットの階層例100を示す。この例では、39個の映像ショットが「階層構造」即ち「ツリー」に組織化されている。映像ショットは、ツリーの葉におけるキーフレームによって表わされている。これらの葉は、ツリーにおいて、7個のクラスタにグループ化されている。クラスタ110は、葉のうちの4枚、即ち、映像ショット111〜114を含んでいる。5個のクラスタ121〜125の各々は、6枚の葉、即ち、6個の映像ショットを含んでいる。クラスタ140は、5枚の葉、即ち、映像ショット141〜145を含んでいる。
【0023】
クラスタ140の左上のコーナーにおける映像要素150は、映像ショットを表すキーフレームである。このキーフレーム上にオーバーレイ(重ねて表示)されている第二のキーフレーム151、即ち、ピクチャー・イン・ピクチャー(親画面上に子画面が表示された画像)は、クラスタ110における4個の映像ショット111〜114を代表する(represent)。このレプリゼンテーションは、「4セグメント」と標識が付いている枝155又はショットで示されている。この例におけるピクチャー・イン・ピクチャーは、クラスタ110における映像ショットの第1のキーフレーム111を示している。このように、ツリーは、枝155を介して、映像要素150からクラスタ110における葉まで、降りてゆくことができる。
【0024】
クラスタ160は、ツリーの根である。クラスタ160は、6個の映像要素161〜166を含んでいる。これらの映像要素の各々は、ピクチャー・イン・ピクチャー要素であり、ツリーのより下層の映像ショットのクラスタを代表している。これらのレプリゼンテーションは、枝171〜176によって示されている。枝171には、クラスタ140における5個の映像ショット141〜145と、クラスタ110における4個の映像ショットとに対して、「9セグメント」の標識が付いている。枝171〜176には、各々、クラスタ121〜126の各々における6個の映像ショットに対して、「6セグメント」の標識が付いている。このように、ツリーは、枝171〜176を介して、映像要素161〜166から、クラスタ140における映像要素及びその葉まで、及びクラスタ121〜125における葉まで、降りてゆくことができる。
【0025】
図1におけるツリーの例は「3」の高さを有している。即ち、クラスタ160は第1の階層レベルに在り、クラスタ110は第3の階層レベルに在り、また、他のクラスタは第2の階層レベルに在る。また、このツリーは「6」の分岐係数(branching factor)を有している。即ち、ツリーにおける各クラスタは、各要素が、ピクチャー・イン・ピクチャー要素か映像ショット要素か否かに拘わらず、6個以上の要素を含むことができない。
【0026】
図2〜図4は、ユーザが、図1に示した映像ショットの階層をナビゲートする際に生ずる絞り込みフォーカス(narrowing focus)を示す。
【0027】
図2は、図1における階層の根として示される全体の映像160を表わす、本発明の実施形態に係る映像ブラウザの設計例を示す。設計(design)は、2×3グリッドの映像要素を含んでいる。映像要素のレイアウトは、映像全体を表わしている。これら6個の映像要素161〜166は、図1のクラスタ160、即ち、ツリーの根に由来する。映像要素は、映像ショットを代表するキーフレームとすることができる。また、映像要素は、映像ショットの別のクラスタを代表するピクチャー・イン・ピクチャーとすることができる。及び/又は、映像要素は、ツリーのより下層のピクチャー・イン・ピクチャー要素とすることができる。この例では、6個の映像要素は、ピクチャー・イン・ピクチャー要素である。
【0028】
ピクチャー・イン・ピクチャーの場合は、第2のキーフレームが、第1のキーフレーム上にオーバーレイされている。第2のキーフレームは、一般に、映像要素の左上のコーナーにオーバーレイされているが、映像要素の任意の他の領域でオーバーレイさせることができる。例えば、6個の映像要素161〜166は、各々、左上のコーナーにオーバーレイされている第2のキーフレーム211〜216を有している。追加のキーフレーム及び情報も、映像要素の任意の領域でオーバーレイさせることができる。例えば、映像要素には、対応する右下のコーナーで映像要素上にオーバーレイされている数字によって示されるように、1〜6の番号が付けられている。
【0029】
映像要素160のグリッドは、映像タイムライン220及びコンテキストセンシティブ・ヘルプ(文脈依存ヘルプ)225の上方に配置されている。映像タイムラインは、映像全体の長さ、及びグリッドにおける映像要素によって表わされる映像の部分の長さを示す。グリッド160の下方に示されている映像タイムライン220では、映像タイムラインの数字は、映像全体の時間の長さを分単位で表わす。この映像例は、長さが7分である。映像タイムラインの内容は、部分に分割されており、各部分は、合計の映像時間長に対する対応する映像要素の時間長を表わしている。交互に色が変わる着色部分の各々は、映像タイムライン中に現れているように、付番された映像要素のうちの1つに対応している。
【0030】
全部の図において、映像タイムラインの全部分は、交互に変化する色として示されているが、別々の色として示すこともできる。図2は、6個の映像要素に対する、映像タイムラインにおける6個の部分を示している。第1の部分230は長さ約1.5分であり、第2の部分240は長さ約0.5分であり、第3の部分250は長さちょうど1分以下であり、第4の部分260は長さ約1.5分であり、第5の部分270は長さ約1分であり、第6の部分280は長さ約1.5分である。実施形態では、タイムラインの数字は、他の時間単位を表わすことができる。実施形態では、タイムラインの内容は、交互のパターン又は別々のパターンなどの他の方法で表示することができる。
【0031】
映像タイムライン220の下には、ブラウザをナビゲートする際に、ユーザを助けるよう、コンテキストセンシティブ・ヘルプ225を表示することができる。具体的には、ヘルプテキストは、映像ショットの階層内でいかにナビゲートするか、また、映像の再生をいかにして開始するかを示している。この例では、ヘルプテキストは、追加の対話オプションを提供している。「Top:0,」では、ユーザが、彼の又は彼女の装置で「0」を押すと、主画面が表示される、即ち、映像全体を表わす映像要素が表示される。
【0032】
図2は、この映像例の主画面を示す。「up:*,」では、ユーザが「*,」を押すと、映像階層における1レベル上の画面が表示される。「playback:#<n>,」では、ユーザが、「#」及び6個の数字1〜6のうちの1つを押すと、ブラウザは、対応するサブクラスタの初めから映像を再生する。また、ユーザが6個の数字1〜6のうちの1つを押すと、ブラウザは下層にある対応するサブクラスタまでナビゲートする。即ち、図1のツリーを降下し、ツリーの次の階層レベルに対応する画面が表示される。
【0033】
図3は、本発明の実施形態による、図1の中間の階層レベルにおけるクラスタを表わす映像ブラウザの設計例を示す。設計は、図2におけるように、2×3グリッドの映像要素を含んでいるが、これは、両図の場合共、同じディスプレイ装置を使用しているからである。映像要素のレイアウトは、映像の一部分を表わしている。これら6個の映像要素141〜145及び150は、図1の第2のツリーレベルにおけるクラスタ140に由来する。この例では、映像要素150は、ピクチャー・イン・ピクチャー要素であり、映像要素141〜145は、それぞれ、映像ショットを代表するキーフレームである。映像要素には、対応する右下のコーナーで映像要素上にオーバーレイされている数字によって示されるように、1〜6の番号が付けられている。
【0034】
映像要素140のグリッドは、映像タイムライン320の上方に配置されている。映像タイムライン320は、各映像要素の長さを示す。クラスタ140における映像ショットの長さは、約1.5分である。タイムラインの交互に色が変わる着色部分の各々は、映像タイムライン中に現れているように、付番された映像要素のうちの1つに対応している。タイムラインのグレイ領域は、ツリーの他の部分によってカバーされている。図3は、6個の映像要素に対して、映像タイムラインに6個の部分を示している。第1の部分330は長さ約0.8分であり、第2の部分340及び第3の部分350の各々は長さ約0.1分であり、第4の部分360は長さ約0.3分であり、第5の部分370及び第6の部分380の各々は長さ約0.1分である。
【0035】
映像タイムライン320は、図2に示すレイアウトと同様に、コンテキストセンシティブ・ヘルプ(図示せず)の上方に配置することができる。図3のコンテキストセンシティブ・ヘルプは、図2のそれと同様の方法で作用する。しかしながら、図3の例では、「playback:#<n>,」でユーザが「1」を押すと、ブラウザは、図1のツリーを降下し、ツリーの次の階層レベルに対応する画面が表示される。「playback:#<n>,」では、ユーザが「2」〜「6」のうちのいずれかを押すと、ブラウザは、付番されたキーフレームに対応する映像ショットを再生する。
【0036】
図4は、本発明の実施形態による、図1の最低の階層レベルにおけるクラスタを表わす映像ブラウザの設計例を示す。設計は、図2及び図3におけるように、2×3グリッドの映像要素を含んでいるが、これは、全三図のどの場合も、同じディスプレイ装置を使用しているからである。映像要素のレイアウトは、映像の部分を表わしている。これら4個の映像要素111〜114は、図1の最低のツリーレベルにおけるクラスタ110に由来する。これらの映像要素は、各々、映像ショットを代表するキーフレームである。映像要素には、対応する右下のコーナーで映像要素上にオーバーレイされている数字によって示されるように、1〜4の番号が付けられている。
【0037】
映像要素110のグリッドは、映像タイムライン420の上方に配置されている。映像タイムライン420は、各映像要素の長さを示す。クラスタ110における映像ショットの長さは、約0.8分である。タイムラインの交互に色が変わる着色部分の各々は、映像タイムライン中に現れているように、付番された映像要素のうちの1つに対応している。タイムラインのグレイ領域は、ツリーの他の部分によってカバーされている。
【0038】
映像タイムライン420は、図2に示すレイアウトと同様に、コンテキストセンシティブ・ヘルプ(図示せず)の上方に配置することができる。図4のコンテキストセンシティブ・ヘルプは、図2のそれと同様の方法で作用する。しかしながら、図4の例では、この最下層のツリーレベルは、他のキーフレーム画面へのリンクを有していない。「playback:#<n>,」では、ユーザが、数字1〜6のうちのいずれかを押すと、ブラウザは、付番されたキーフレームに対応する映像ショットを再生する。
【0039】
図5〜図9は、それぞれ、本発明の実施形態による、2×2、3×2、4×2、4×3、及び4×4グリッドの映像要素を含む映像ブラウザの設計例を示す。映像ブラウザ設計における映像要素の数は、ディスプレイのサイズに基づいて変化する。携帯電話などの小型ディスプレイ装置では、要素の数は、より小型の電話ディスプレイ(図5におけるものなど)の2×2グリッドと、図9に示すようなより大型のディスプレイの4×4グリッドとの間の数にすることができる。要素のグリッドは、列×行と定義される。設計は、図2に示すような2×3、及び、図6に示すような3×2などの非正方形グリッドの場合も有効である。図2及び図6は、同数であるがレイアウトが異なる映像要素を含んでいる。非正方形グリッドの他の例は、図7に示すような4×2、図8に示すような3×4、及び4×3である。実施形態においては、他のグリッド寸法の組合せが使用できる。
【0040】
図9は、映像要素上にオーバーレイされている数字及び文字を含む映像ブラウザの設計例を示す。この4×4グリッドの例では、最初の9個の映像要素上に、数字「1」〜「9」がオーバーレイされており、残りの7個の映像要素上に、文字「A」〜「G」がオーバーレイされている。このように、彼の又は彼女の装置において、「1」〜「9」又は「A」〜「G」を押すことによって、ユーザは、16個の映像要素のうちの1つを選択することができる。図8は、同様に、映像要素上にオーバーレイされている数字及び文字の使用を示す。図5及び図7は、オーバーレイされている文字及び数字を含まない映像要素の例である。
【0041】
各グリッド映像要素の設計は、その映像要素が、単一のショットを表わしているか、ショットのクラスタを表わしているか、によって異なる。その映像要素が、単一のショットを表わしている場合は、映像要素は、図4の映像要素111〜114に示すように、ショットからの単一のキーフレームを示す。映像要素が、ショットのクラスタを表わしている場合は、映像要素は、クラスタにおける何らかの重要な働き(function)に基づく「最も重要な」ショットに由来するキーフレームを示す。最も重要なショットに由来するキーフレームには、時間的に第1のショットに由来するキーフレームがオーバーレイする。結果は、図3の左上の要素に示すようなピクチャー・イン・ピクチャーである。また、各グリッドの映像要素は、キーパッド上のどのキーが1セットのショットへとナビゲートするのか、あるいは、どのキーがショットの再生を開始するのか、を示す文言を有するオプションのオーバーレイも有している。このオーバーレイは、タッチスクリーンの場合は除去される。
【0042】
図10は、小型装置における、本発明の実施形態に係る、映像ショットのキーフレームのナビゲーションの例を示す。完全な映像を表わしている三つの画面1010、1020、及び1030が示されている。画面1020は、ユーザが、第1の画面1010の第1の映像要素1040を選択した後の、映像の一部を表わしている。映像要素1040は、画面1020で表わされている映像ショットのうちの最も重要なキーフレームに対応すると共に、画面1020における第1の映像要素1060に対応する、時間的に第1の映像ショットを表わしているオーバーレイされたキーフレーム1050を示す。画面1030は、ユーザが、第2の画面1020の第1の映像要素1060を選択した後の、映像の一部を表わしている。映像要素1060は、画面1030で表わされている映像ショットのうちの最も重要なキーフレームに対応すると共に、画面1030における第1の映像要素1080に対応する、時間的に第1のショットを表わしているオーバーレイされたキーフレーム1070を示す。
【0043】
画面1020では、2個の映像要素1071及び1072は、2個の映像ショットに対する二つの最も重要なキーフレームである。ユーザは、これら2個の映像ショットのどちらでも再生することができる。画面1030では、4個の映像要素1080〜1083は、4個の映像ショットに対する最も重要なキーフレームである。画面1030では、ユーザは、これらの4個の映像ショットのうちのいずれでも再生することができる。各画面の下のタイムラインは、分単位の映像の時間を表わしており、交互に変化する色で映像の選択された部分及び映像要素を示す。
【0044】
クラスタの距離を決定する距離関数については、任意の適切な視覚的類似性尺度(visual similarity measurement)の逆数が使用できる。例えば、色ヒストグラム又は色相関曲線が使用できる。クラスタ距離を求めるのに使用される他の距離関数は、テキスト・トランスクリプト及び同じ認識された面の発生に基づくテキスト類似性である。
【0045】
ショットの類似性を決定する距離関数については、任意の適切な視覚的類似性尺度の逆数が使用できる。例えば、色ヒストグラム又は色相関曲線が使用できる。色ヒストグラムは、一般に2次元(2D)又は3次元(3D)色空間における任意の一組の色範囲のそれぞれの画素数を数えることによって導き出される画像における色分布の表現である。色相関曲線は、色の対同士の空間相関を画素間の距離の関数として計算する。色ヒストグラム及び色相関曲線についての詳細は、それらが関連技術で周知であるので、ここでは、これ以上詳細には論じない。視覚的類似性に対して使用される距離関数の他の例は、テキスト・トランスクリプト及び同じ認識された面の発生に基づくテキスト類似性である。
【0046】
「最も重要な」又は代表的なショットを選択するためには、いくつかの異なる手法が使用できる。重要な関数の詳細については、それらが関連技術で周知であるので、ここでは、これ以上詳細には論じない。実施形態では、代表的なショットが最も重要なショットであろうとなかろうと、1セットのショットにおける代表的なショットを選択するための手法が使用可能である。実施形態では、代表的なショットを選択するための他の手法の例は、最も長いショット、最大量のオーディオ・エネルギーを有するショット、及び映像がトランスクリプトを有する場合には最大量のテキストを有するショットである。別の手法は、クラスタリングの距離尺度を用いて、クラスタにおける他のショットに最も類似したショットを選択することである。
【0047】
クラスタリングの距離尺度を用いる場合は、「最も重要な」ショットは、同じクラスタにおける他のショットに最も類似し、かつ、シブリング(兄弟)クラスタにおけるショットに最も類似していないショットである。所与のクラスタに対して、シブリングクラスタは、ツリーにおける同じ階層レベルのクラスタである。類似性は、他のクラスタメンバーに対する合計の距離を計算することによって、又はシブリングクラスタのメンバーである全てのショットに対する合計距離の重み付き合計値を減じることによって、各候補ショットについて求められる。最も少ない合計距離を有するショットが、最も重要なショットとして選択される。
【0048】
シブリングクラスタの使用は、1つの階層レベルでは選択されたショットを生じさせるかもしれないが、次のより低い階層レベルでは、生じさせないかもしれない。なぜなら、その階層レベルでは、シブリングクラスタに対して、十分識別力のある累乗(power)を有さないからである。シブリングクラスタに対する距離の重みをゼロに設定することによって、そのクラスタ自身のメンバーに対する類似性のみが考慮されるであろう。例えば、図10においては、これは映像要素1040の場合であり、映像要素1040は、他のクラスタ全てに対して十分には異なっていないため、画面1020における6個のクラスタの全てを代表していない。オーバーレイされているキーフレーム1050は、クラスタの真に第1のショットであり、したがって、再び、1060及び1080として現れている。
【0049】
上記のように、ボトムアップクラスタリング手法は、クラスタ要素の数を限定するために、トップダウン処理と組み合わせて用いる。本実施形態での処理は、完全なクラスタリングツリーを生成するのではなく、クラスタツリーの各階層レベルを別々に処理し、凝集型の階層クラスタリングによって生成されるツリー構造を使用しない。処理の詳細については、図11、図12(A)、及び図12(B)に関連して説明する。
【0050】
図11、図12(A)、及び図12(B)におけるクラスタリング処理の基本的な概要は、以下の通りである。
【0051】
1.ツリーにおける最大葉数を、分岐係数bの次に高い累乗として求める。
【0052】
2.全ての映像ショットを、いかなるクラスタもbh-1個を超える要素を有することがないb個のクラスタにクラスタリングする。時間的に隣接した要素を有するクラスタの対のみを併合し、併合したクラスタの要素が多くなりすぎそうな対はスキップする(併合しない)。b個のクラスタしか存在しない場合には、併合を一旦停止する。
【0053】
3.サブクラスタの要素を再帰的に(recursively)クラスタリングして、クラスタ要素の最大数をb分の一に減らす。
【0054】
4.併合できるサブクラスタがもはや無いため、クラスタをサブクラスタリングすると、b個を超えるサブクラスタが生ずる場合は、そのクラスタを望ましくないとしてマークし、より高い階層レベルにおけるクラスタリングにおいて、望ましくないクラスタが生成された点まで後戻りして、望ましくないクラスタを、要素の最大数を超えるであろうクラスタと全く同様に処理しながら、クラスタリングを繰り返す。
【0055】
5.ツリーの根が、b個を超えるサブクラスタを有している場合は、ツリーの最大高さを上げて、クラスタリング処理をやり直す。
【0056】
図11は、本発明の実施形態による、クラスタリングを初期化するための、また、再帰的なクラスタリング処理を呼び出すための、処理の流れの例を示す。処理は、ステップ1100で始まる。ステップ1102では、三つの入力が、処理に入力される。第1の入力は、特定の装置表示画面に表示することができる映像要素の数であるツリー分岐係数「b」である。第2の入力は、時間的な順序での映像におけるショットのリストである。第3の入力は、クラスタ距離を求めるのに使用される距離関数である。クラスタ距離は、組合せクラスタにおける要素の最大ペアワイズ距離として、又は併合すべきクラスタ同士の間の境界を形成する二つの映像ショットの距離として、計算することができる。
【0057】
例えば、時間的な順序、「abcdefg」での下記のショットを仮定し、また、それらは、クラスタAが、要素a〜dを含み、かつ、クラスタBが、要素e〜gを含むようにクラスタリングされている、と仮定しよう。この例に対して最大ペアワイズ距離を用いると、AとBとの間の距離は、距離ae、af、ag、be、bf、bg、ce、cf、cg、de、df、又はdgの最大値である。併合すべきクラスタ同士の間の境界を形成している二つの映像ショットの距離を用いると、AとBとの間の距離は、クラスタAとBとの時間的な境界における距離、即ち、要素dとeとの間の距離である。
【0058】
ステップ1104では、ショットのリストからショット数「n」が求められる。実施形態では、ショット数は、別法として、ステップ1102で入力される。ステップ1106では、高さ「h」及び分岐係数「b」を有する選択されたバランスの取れたツリーにおける最大葉数は、「bh」として求められる。この決定は、全ての映像ショットを葉で保持することができるであろう所与の分岐係数「b」について、バランスの取れたツリーの最小高さ「h」を見出すことによって行なわれる。この「h」は、ショット数より小さくない分岐係数bの最も小さい累乗であり、したがって、bh>=nである。このように、ステップ1106では、バランスの取れたツリーの最小高さ「h」も同様に求められる。
【0059】
例えば、ステップ1106で、分岐係数b=6が入力され、ステップ1108で、n=100個の映像ショットが求められる、と仮定しよう。ステップ1106では、映像ショットを葉として保持できる最も小さいバランスの取れたツリーは、最大bh=(63)=216個のショットを保持することができ、これは、分岐係数の累乗をh=1から始まって昇順に調べることによって求められる。h=1では、bh=(61)=6は、100より小さく、したがって、100個のショットを保持できるほど大きくはない。h=2では、bh=(62)=36は、100より小さく、したがって、100個のショットを保持できるほど大きくはない。しかしながら、h=3では、bh=(63)=216は、100個のショットより大きく、したがって、216枚の葉を有するツリーは、100個のショットを保持するには十分な大きさである。
【0060】
ステップ1108では、構築すべきクラスタツリーにおける葉数の限界値「l」は、ステップ1106で求めた最大葉数bhとなるよう、即ち、限界値l=bhとなるよう初期化される。この限界値は、クラスタツリーをバランスの取れた状態に保つのに使用される。この限界値は、クラスタツリーをバランスの取れた状態に保つため、後の処理では、l/bとして使用される。上記の例を、分岐係数b=6及びショット数n=100、さらに、再帰の第1の反復を処理する、と仮定しよう。各クラスタにおける要素数のこの限界値は、ショットを葉として保持することができる最も小さいバランスの取れたツリーにおける最大葉数、即ち、ステップ1106で見出された最大葉数bh=216を分岐係数b=6で割った値、即ち、216/6=36である。別法として、クラスタにおける要素数の新しい限界値は、分割すべきクラスタにおける要素数より小さい分岐係数の最も大きい累乗とすることができる。この場合には、生成されるサブツリーは、同様のショットを共にグループ化することを犠牲にして、より短いナビゲーション経路を有することができる。
【0061】
ステップ1110では、図12(A)及び(B)における再帰的な処理が、三つのパラメータ、即ち、ステップ1102で入力されたショットのリスト、距離関数、及びステップ1108で初期化された限界値lと共に呼び出される。
【0062】
ステップ1112では、図12(A)及び(B)の処理は、失敗の表示を戻し、次いで、ステップ1114では、ツリーの高さhが、1だけ上げられる。再帰の一番上の呼出しが失敗を戻した(これは、ツリーの根ノードの故と思われる)以上、処理は、再び、より大きな高さのツリーで適用しなければならない(再帰では後戻りする道がないからである)。処理は、ステップ1108にループバックし、限界値lを再初期化してから再帰の第1の呼出しを、新しいツリー高さhで再開する。ツリーの高さが上げられており、これは、最も長いナビゲーション経路が、類似性によるクラスタリングの無いバランスの取れたツリーにおけるそれよりも長くなる唯一の状況である。一般に、これは、映像ショット数が、分岐係数の累乗よりわずかに小さい場合にのみ生ずる。
【0063】
ステップ1112で、図12(A)及び(B)の処理が失敗の表示を戻さない場合は、図12(A)及び(B)の処理は、ツリーを戻す。図11の処理は、ステップ1120で終了する。
【0064】
図12(A)及び(B)は、本発明の実施形態による、時間的な順序でのボトムアップの階層クラスタリング処理を、トップダウンのクラスタ要素数制限と組み合わせて適用する再帰的な処理の例を示す。この再帰的な処理は、図11における処理によって呼び出され、図11で求めた初期化を用いて、再帰の第1の反復を行う。処理は、ステップ1200で始まる。ステップ1210では、クラスタリングを初期化するため、各ショットが、それ自体のクラスタ内に入れられる。ステップ1220では、時間的に隣接したクラスタ同士が、対にされる。ステップ1222では、最も小さい距離を有する対が、図12(A)及び(B)の処理の呼出しの際にパラメータの1つとして渡された距離関数を用いて見出される。上記のように、各クラスタは、同じクラスタ内の他のショットに最も類似し、かつ、シブリングクラスタ内のショットに最も類似していないショットとすることができるキーフレームによって表わされる。
【0065】
ステップ1224では、ステップ1222で見い出された最も小さい距離を有する対に対するクラスタの組合せ基数が、基数限界値lを分岐係数bで割った値、即ち、l/bを超える場合、あるいは、対が望ましくないとマークされた場合は、この対は無視される。処理は、ループバックして、ステップ1226で、次の最も小さい距離を有するクラスタ対が見出される。組合せ基数が、基数限界値を超えるため無視されたクラスタの対に対しては、クラスタの他の対より類似性が少ないクラスタ同士を併合できるが、このステップは、ツリーの高さを限定する。望ましくないとマークされたため無視されたクラスタの対については、図12(B)と関連して、以下で説明する。
【0066】
ステップ1224では、ステップ1222又はステップ1226のどちらかで見い出された最も小さい距離を有する対に対するクラスタの組合せ基数が、基数限界値lを分岐係数bで割った値、即ち、l/bの値を超えない場合は、対は、ステップ1228で併合され、クラスタのリスト内に併合されたクラスタを有する二つの個々のクラスタに置き換わる。この限界値l/bは、クラスタツリーをバランスの取れた状態に保つのに使用される。
【0067】
ステップ1230では、分岐係数より大きいクラスタ数が存在する場合、及びステップ1232で、より多くのサブクラスタを併合できる場合は、処理は、ステップ1220にループバックして、クラスタリングを継続する。ステップ1232では、クラスタ数をツリーの分岐係数まで減らさないと、より多くのクラスタを併合できないことが有り得る。例えば、分岐係数3及びクラスタA、B、C、及びDを仮定しよう。任意の二つのクラスタの組合わせが、大きすぎる場合、即ち、対AB、BC、又はCDのうちのいずれかに対するクラスタの組合せ基数が、限界値lを超える場合は、より多くのクラスタを併合できない。さらに、クラスタAB、BC、又はCDが、望ましくないとマークされる場合は、より多くのクラスタを併合できない。望ましくないクラスタについての追加の詳細は、図12(B)に関連して、以下で説明する。ステップ1230では、分岐係数より大きいクラスタ数が存在する場合、及びステップ1232で、より多くのクラスタを併合できない場合は、ステップ1234で、この失敗が、再帰的なクラスタリング処理の呼出し者に戻され、処理は、ステップ1280で終了する。このような失敗は、以下、図12(B)に関連した説明の中で取り扱う。
【0068】
図12(A)のステップ1230では、クラスタ数が、分岐係数bより小さいか、あるいは、それに等しい場合、及びステップ1236で、全てのクラスタが、処理されていない場合は、即ち、クラスタのそれぞれが、まだ再帰的に処理されていない場合は、コネクタ1は、図12(A)を図12(B)に接続する。
【0069】
図12(B)は、ツリーの葉における各クラスタに対する、図12(A)及び(B)のクラスタリング処理の再帰的な呼出しの例を示す。図12(B)はまた、図12(A)及び(B)が、失敗の表示を戻す(これは、ショットが、与えられた高さのツリーにフィットしない場合に生ずる)時、失敗を処理する。図12(A)及び(B)を通る第1の反復は、単一のショットしか含んでいないクラスタから始まった。時間的に隣接したクラスタの対は、b個のクラスタしか残らなくなるまで併合された。それらb個のクラスタのそれぞれについて、ツリーの葉が、分岐係数bより多くのサブクラスタを含む場合は、図12(A)及び(B)の処理が、再帰的に適用される。図12(A)及び(B)の処理が、呼び出され、ツリーが戻されるごとに、新しいサブツリーが生成される。
【0070】
ステップ1240では、b個のクラスタの次に構築すべきクラスタツリーにおける葉数の限界値「l2」は、最大葉数bx、即ち、限界値l2=bxであるように初期化される。この「x」は、処理されるべき次の組合せクラスタのショット数より小さくない分岐係数の最も小さい累乗であり、したがって、bx>=xである。この限界値は、クラスタツリーをバランスの取れた状態に保つため、後の処理では、l/bとして使用される。上記の例を、分岐係数b=6及びショット数n=100、さらに、再帰の第1の反復を処理する、と仮定しよう。各クラスタにおける要素数のこの限界値は、ショットを葉として保持することができる最も小さいバランスの取れたツリーにおける最大葉数、即ち、ステップ1106で見出された最大葉数bh=216を分岐係数b=6で割った値、即ち、216/6=36である。別法として、クラスタにおける要素数の新しい限界値は、分割すべきクラスタにおける要素数より小さい分岐係数の最も大きい累乗とすることができる。この場合には、生成されるサブツリーは、同様のショットを共にグループ化することを犠牲にして、より短いナビゲーション経路を有することができる。
【0071】
ステップ1242では、図12(A)及び(B)における再帰的な処理が、三つのパラメータ、即ち、次の組合せクラスタに対するショットのリスト、距離関数、及びステップ1240で初期化された限界値l2と共に呼び出される。パラメータ限界値l2は、図12(A)でステップ1200から始まる場合は、限界値lとなる。
【0072】
ステップ1244では、図12(A)及び(B)の処理が、失敗の表示を戻さない場合は、コネクタ2は、図12(B)を図12(A)に接続し、処理は、ループバックして、ステップ1236で、それ以上の組合せクラスタを全て処理する。ステップ1244で、図12(A)及び(B)の処理が、失敗の表示を戻す場合は、ステップ1246で、限界値l2は、b(分岐係数)倍に、即ち、l2=l2 ×bにすることができる。
【0073】
ステップ1248で、クラスタにおける要素数の限界値l2が、以前の限界値を分岐係数で割った値より小さかった場合は、処理は、新しい限界値l2でステップ1242にループバックし、同じクラスタに再帰が再び適用される。以下は、限界値が、以前の限界値を分岐係数で割った値より小さくなり得る場合の例である。4個のクラスタA、B、C、及びD、分岐係数4、及び下記の基数、即ち、A:10;B:20;C:50;D:30を仮定しよう。ツリーの最大葉数は、bh=44=256となり、各サブクラスタの限界値は、bh/b=43=64となろう。しかしながら、Aの基数は、42=16より大きくなく、したがって、それは、高さ2のサブツリーにフィットすることができよう。後で高さ2のツリーを構築して、Aに対して失敗する場合は、3の高さでAに対して再び処理を呼び出すことができる。
【0074】
ステップ1248で、クラスタにおける要素数の限界値l2が、以前の限界値を分岐係数で割った値より大きかった場合は、ステップ1254で、そのクラスタは、望ましくないとマークされる。処理は、ステップ1256における再帰で、ツリーの次のより高いレベルまで後戻りする。ステップ1258で、処理は、二つのクラスタを併合することによって望ましくないクラスタが生成された前の点まで、クラスタリング内を後戻りする。コネクタ3は、図12(B)を図12(A)のステップ1220に接続する。図12(A)及び(B)の再帰的な処理の呼出し者は、次いで、ステップ1258で後戻りの際に見出された点から、ステップ1246で求められた新しい限界値l2で、クラスタリングを継続することができる。望ましくないとマークされたクラスタは、要素数の限界値を超えるであろうクラスタと全く同様に処理される、即ち、それらは、併合することができるクラスタの対を探索する際に無視される。
【0075】
例えば、4個のサブクラスタが時間的な順序、即ち、A、B、C、及びDで存在している、と仮定しよう。B及びCは、最も少ない距離を有し、単一のクラスタBCに組み合わされている。クラスタBCに処理を再帰的に適用する場合、それは、与えられた高さのツリーにフィットすることができず、図12(A)及び(B)の処理は、失敗の表示を戻し、図12(B)のステップ1254で、クラスタBCは、望ましくないとマークされる。処理は、B及びCが併合されて、BCが形成された、4個のサブクラスタを有する点まで、再帰内を後戻りする。クラスタBCは、ステップ1260で、望ましくないとマークされる。この時点で、再帰的な処理の呼出し者は、なお、A及びB又はC及びDを組み合わせ、次いで、処理を再帰的にAB又はCDのどちらかに適用しようと企てることができる。これは、AB及びCDが、以前に望ましくないとマークされたことがなく、かつ、それらの基数が、限界値を超えていないことを仮定している。
【0076】
ステップ1230に戻って、クラスタ数が、分岐係数bに等しいか、あるいは、それより小さい場合、及び全ての組合せクラスタが、ステップ1236で処理されていた場合は、ステップ1270で、ツリーは、再帰的なクラスタリング処理の呼出し者に戻され、処理は、ステップ1280で終了する。
【0077】
<III.評価>
実施形態において、初期設計及びレイアウト処理は、Java(登録商標)ベースである。129個のショットを含む特定のテスト映像の場合で、本発明の処理(2)を二つの別の処理、処理(1)及び処理(3)と比較した。処理の結果として生じたツリーを、図13〜図15に示す。
【0078】
別の処理(1)に対して、図13は、類似性クラスタリング無しで生じたバランスの取れたツリーの例を示す。このバランスの取れたツリーは、左側が充実している。処理(2)に対して、図14は、本発明の実施形態による、類似性クラスタリング及びツリー高さの制限を行なって生じたツリーの例を示す。この処理(2)は、上記の図1〜図12(B)に関連して論じた。処理(3)に対して、図15は、類似性クラスタリングを行うと共に、ツリー高さに対する限界値無しで生じたツリーの例を示す。
【0079】
処理(1)及び処理(2)の各々は、「3」の高さを有するツリーを生じた。処理(3)は、「5」の高さを有するツリーを生じた。図16は、本発明の実施形態によるものであり、図13〜図15のツリーを生ずる処理に対する処理結果を比較する表の例を示す。行1〜行5において、表は、各処理における特定の長さのナビゲーション経路によって到達可能な映像ショット数をリスト化している。
【0080】
図16に示すように、処理(2)、即ち、時間的な順序でのバランスの取れた凝集型の階層クラスタリング処理における平均ナビゲーション経路長「2.92」は、処理(1)、即ち、純粋なバランスの取れた手法における平均ナビゲーション経路長「2.87」よりわずかに高い。処理(3)、即ち、ツリーバランスを問題としないクラスタリング手法は、処理(2)よりも、かなり高い平均経路長「3.37」と、はるかに高い最大経路長「5」とを有している。
【0081】
<IV.システムハードウェア、ソフトウェア、及び構成要素>
図17は、本発明の実施形態による、ディスプレイ装置及び映像ブラウザの例を示す。ディスプレイ装置1700は、一般に、ディスプレイ1705、少なくとも1つのメモリ1710、少なくとも1つのプロセッサ1720、及び少なくとも1つの記憶装置又はある種のレポジトリー1730を備えている。装置1700は、さらに、ソフトウェア1740を備えている。このソフトウェア1740は、ユーザが、映像をナビゲートできるようにする、本実施形態に係る「映像ブラウザ」を備えている。本実施形態では、ソフトウェアは、Java(登録商標)ベースである。
【0082】
ディスプレイ装置1700は、映像1750を、例えば、記憶装置1730に記憶する。別法として、記憶装置1730及び(又は)ソフトウェア1740は、インターネット1770を介してアクセスされる遠隔コンピュータ1760上に保持されている。本発明の焦点は、携帯電話又はパーソナル・ディジタル・アシスタント(PDA)などのより小型のディスプレイ装置に合わせてあるが、ディスプレイ装置は、また、コンピュータ又はテレビジョンなどの任意の他のより大きな装置とすることもできる。
【0083】
本発明の実施形態は、本開示の教示に従ってプログラムされた従来の汎用又は専用ディジタルコンピュータ(複数も可)又はマイクロプロセッサ(複数も可)を用いて実施することができるコンピュータを用いた方法及びシステムを含むことができる。適切なソフトウェア・コーディングが、プログラマーによって、本開示の教示に基づき容易に作成可能である。本発明の実施形態は、ここで提示された特徴のうちの任意のものを行なうためのコンピュータによって実行可能な命令のプログラムを備えることができる。
【0084】
本発明の実施形態は、コンピュータで読み取り可能な記憶媒体などのコンピュータで読み取り可能な媒体を含むことができる。コンピュータで読み取り可能な記憶媒体は、コンピュータをプログラムして、ここで提示された特徴のうちの任意のものを行なうのに使用することができる、記憶された命令を有することができる。記憶媒体は、フロッピー(登録商標)ディスク、光ディスク、DVD、CD-ROM、マイクロドライブ、及び磁気光ディスクを含む任意のタイプのディスク、ROM、RAM、EPROM、EEPROM、DRAM、フラッシュメモリ、又は命令及び(又は)データを記憶するのに適した任意の媒体又は装置を含むことができる(但し、これらに限定されない)。
【0085】
本発明は、汎用/専用コンピュータ(複数も可)又はマイクロプロセッサ(複数も可)などのコンピュータのハードウェアを制御するためのソフトウェア、及びそれらと人間のユーザ又は本発明の結果を利用する他の機構との対話を可能にするためのソフトウェアの両方を含むことができる。このようなソフトウェアは、デバイスドライバ、オペレーティングシステム、実行環境/コンテナ、ユーザインタフェース、及びユーザアプリケーションを含むことができる(但し、これらに限定されない)。
【0086】
本発明の実施形態は、本発明の処理を実行するためのコードを提供する工程を含むことができる。この提供する工程は、ユーザに任意のやり方でコードを提供する工程を含むことができる。例えば、この提供する工程は、コードを含むディジタル信号をユーザに送信する工程;物理的な媒体上のコードをユーザに提供する工程;又はコードを利用可能にする任意の他の方法を含むことができる。
【0087】
本発明の実施形態は、本発明の実施形態の処理のうちの任意のものを行なうための、コンピュータで実行することができるコードを送信するための、コンピュータで実行される方法を含むことができる。この送信する工程は、インターネットなどのネットワークの任意の部分を介した転送;ワイヤ、大気又は空間を介した転送;又は任意の他のタイプの送信による転送を含むことができる。この送信する工程は、コードの送信を開始する工程;又は任意の領域又は国から別の領域又は国へコードを通過させる工程を含むことができる。ユーザへの送信は、その送信がそこから送られた場所を問わず、任意の領域又は国におけるユーザによって受信される任意の送信を含むことができる。
【0088】
本発明の実施形態は、本発明の実施形態の処理のうちの任意のものを行なうためコンピュータにおいて実行することができるコードを含む信号を含むことができる。この信号は、インターネットなどのネットワークを介して;ワイヤ、大気又は空間を介して;又は任意の他のタイプの送信による信号を含むことができる。信号全体は、同時に搬送する必要はない。信号は、その転送期間に亘って、経時的に延長することができる。信号は、現在搬送されているもののスナップショットと考えるべきではない。
【0089】
本発明の実施形態の以上の記述は、図解及び説明の目的で付与された。網羅的である意図、又は、本発明を開示された形態どおりのものに限定する意図はない。当該技術の通常の知識を有する人には、多くの修正及び変形は明らかであろう。例えば、開示された本発明の実施形態で行なわれる工程は、別の順序で行うことができ、ある工程は省略することができ、また、追加の工程を加えることができる。本発明の他の実施形態を開発することができる。しかもそれらは、本発明の主旨及び範囲、及びクレームを逸脱せずに開発することができることを理解されたい。実施形態は全て、本発明の原理及びその応用が最も良く説明されるよう選択し、かつ記述し、それにより、当該技術の通常の知識を有する他の人々が、各種の実施形態について、また、想定される特定の用途に適した各種の修正と共に本発明を理解できるようにした。本発明の範囲は、クレーム及びそれらの等価物によって定義されることが意図されている。
【図面の簡単な説明】
【0090】
【図1】本発明の実施形態に係る映像ショットの階層例を示す図である。
【図2】本発明の実施形態に係る図1で階層の根として図示された映像全体を表わす映像ブラウザの設計例を示す図である。
【図3】本発明の実施形態に係る図1の中間の階層レベルのクラスタを表わす映像ブラウザの設計例を示す図である。
【図4】本発明の実施形態に係る図1の最低の階層レベルのクラスタを表わす映像ブラウザの設計例を示す図である。
【図5】本発明の実施形態に係る2×2グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図6】本発明の実施形態に係る3×2グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図7】本発明の実施形態に係る4×2グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図8】本発明の実施形態に係る4×3グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図9】本発明の実施形態に係る4×4グリッドの映像要素を含む映像ブラウザの設計例を示す図である。
【図10】本発明の実施形態に係る小型の装置上の映像ショットのキーフレームのナビゲーションの例を示す図である。
【図11】本発明の実施形態に係る、クラスタリングを初期化すると共に再帰的なクラスタリング処理を呼び出すための、処理の流れの例を示すフローチャートである。
【図12】(A)及び(B)は、本発明の実施形態に係る、時間的な順序でのボトムアップの階層クラスタリング処理とトップダウンのクラスタ要素数制限とを組み合わせて適用する再帰的な処理の例を示すフローチャートである。
【図13】類似性クラスタリング無しで生じたバランスの取れたツリーの例を示す図である。
【図14】本発明の実施形態による類似性クラスタリング及びツリー高さの制限を行なって生じたツリーの例を示す図である。
【図15】類似性クラスタリングを行うと共にツリー高さに対する限界値無しで生じたツリーの例を示す図である。
【図16】図13〜図15のツリーを生ずる各処理に対する処理結果を比較する表の例を示す図である。
【図17】本発明の実施形態に係るディスプレイ装置及び映像ブラウザの例を示すブロック図である。
【特許請求の範囲】
【請求項1】
映像ショットにセグメンテーションされた映像に対して、限定された画面サイズであり且つキーフレームより大きな画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするコンピュータを用いた映像ナビゲーション方法であって、前記方法は、
前記映像ショットの時間的な順序を維持しながら、前記映像ショットを類似性によってクラスタリングする工程と、
前記ツリーの経路長を最小限に抑えながら、前記映像ショットのクラスタに対して階層的に組織化されたナビゲーションツリーを生成する工程と、
を含む映像ナビゲーション方法。
【請求項2】
前記映像ショットをクラスタリングする工程は、
前記ツリーにおける最大葉数をbhとして求める工程を含み、
分岐係数bは、前記ディスプレイ装置に表示されるキーフレームの最大数を含むと共に、前記ツリーの高さhは、最も小さな高さを含むことにより、前記最大葉数bhは映像ショット数より大きいか又はそれに等しい、
ことを特徴とする、請求項1に記載の映像ナビゲーション方法。
【請求項3】
前記映像ショットをクラスタリングする工程は、
時間的に隣接した要素を有するクラスタの対を併合すると共に、併合されたクラスタ対が限界値bh-1を超える要素を有している場合は、その対を併合しない工程と、
b個のクラスタに一旦到達したら、併合を停止する工程と、
をさらに含むことを特徴とする、請求項2に記載の映像ナビゲーション方法。
【請求項4】
前記映像ショットをクラスタリングする工程は、
前記サブクラスタの要素を再帰的にクラスタリングすると共に、各階層レベルの再帰の前に最大のクラスタ要素数をb分の1に減らす工程と、
をさらに含むことを特徴とする、請求項3に記載の映像ナビゲーション方法。
【請求項5】
階層的に組織化されたナビゲーションツリーを生成する工程は、
クラスタのサブクラスタリングが、併合することができるサブクラスタが無いために、b個を超えるサブクラスタを生ずる場合は、そのクラスタを望ましくないとマークする工程と、
より高い階層レベルにおけるクラスタリングにおいて、前記望ましくないクラスタが生成された点まで後戻りする工程と、
望ましくないクラスタを、要素の限界値を超えるであろうクラスタのように処理しながら、クラスタリングを繰り返す工程と、
を含むことを特徴とする、請求項4に記載の映像ナビゲーション方法。
【請求項6】
前記ツリーの根がb個を超えるサブクラスタを有している場合は、前記ツリーの最大高さを上げると共に、クラスタリングをクラスタリングの開始点から繰り返す工程をさらに含むことを特徴とする、請求項5に記載の映像ナビゲーション方法。
【請求項7】
前記クラスタにおける第1のショットをオーバーレイされた前記クラスタにおける最も重要なショットのキーフレームを介して前記ディスプレイ装置に階層的に組織化された映像を表示する工程をさらに含むことを特徴とする、請求項1に記載の映像ナビゲーション方法。
【請求項8】
前記ディスプレイ装置にタイムラインを表示して、各クラスタに関連する映像の一部分を示す工程と、
前記ディスプレイ装置にコンテキストセンシティブ・ヘルプを表示して、前記ツリーのナビゲーションの際にユーザを助ける工程と、
をさらに含むことを特徴とする、請求項1に記載の映像ナビゲーション方法。
【請求項9】
映像ショットにセグメンテーションされた映像に対して限定された画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にする映像ナビゲーションシステムであって、前記システムは、
前記映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされた映像ショットを取得するクラスタリング手段と、
前記ツリーの経路長が最小限に抑えられながら、前記クラスタリングされた映像ショットから階層的に組織化されたナビゲーションツリーを生成するツリー生成手段と、
を含むことを特徴とする映像ナビゲーションシステム。
【請求項10】
前記クラスタリング手段は、
前記ツリーにおける最大葉数をbhとして求める手段を含み、
分岐係数bは、前記ディスプレイ装置に表示されるキーフレームの最大数を含むと共に、前記ツリーの高さhは、最も小さな高さを含むことにより、前記最大葉数bhは映像ショット数より大きいか又はそれに等しい、
ことを特徴とする、請求項9に記載の映像ナビゲーションシステム。
【請求項11】
前記クラスタリング手段は、
時間的に隣接した要素を有するクラスタの対を併合すると共に、併合されたクラスタ対が限界値bh-1を超える要素を有している場合は、その対を併合しない併合手段と、
b個のクラスタに一旦到達したら、併合を停止する併合停止手段と、
をさらに含むことを特徴とする、請求項10に記載の映像ナビゲーションシステム。
【請求項12】
前記クラスタリング手段は、
前記サブクラスタの要素を再帰的にクラスタリングすると共に、各階層レベルの再帰の前に最大のクラスタ要素数をb分の1に減らす再帰処理手段と、
をさらに含むことを特徴とする、請求項11に記載の映像ナビゲーションシステム。
【請求項13】
前記ツリー生成手段は、
クラスタのサブクラスタリングが、併合することができるサブクラスタが無いために、b個を超えるサブクラスタを生ずる場合は、そのクラスタを望ましくないとマークするマーキング手段と、
より高い階層レベルにおけるクラスタリングにおいて、前記望ましくないクラスタが生成された点まで後戻りする後戻り手段と、
望ましくないクラスタを、要素の限界値を超えるであろうクラスタのように処理しながら、クラスタリングを繰り返す反復処理手段と、
を含むことを特徴とする、請求項12に記載の映像ナビゲーションシステム。
【請求項14】
前記ツリーの根がb個を超えるサブクラスタを有している場合は、前記ツリーの最大高さを上げると共に、クラスタリングをクラスタリングの開始点から繰り返すツリー再生成手段をさらに含むことを特徴とする、請求項13に記載の映像ナビゲーションシステム。
【請求項15】
前記クラスタにおける第1のショットをオーバーレイされた前記クラスタにおける最も重要なショットのキーフレームを介して前記ディスプレイ装置に階層的に組織化された映像を表示するツリー表示手段をさらに含むことを特徴とする、請求項14に記載の映像ナビゲーションシステム。
【請求項16】
各クラスタに関連する映像の一部分を示すタイムラインを前記ディスプレイ装置に表示するタイムライン表示手段と、
前記ツリーのナビゲーションの際にユーザを助けるコンテキストセンシティブ・ヘルプを前記ディスプレイ装置に表示するヘルプ表示手段と、
をさらに含むことを特徴とする、請求項15に記載の映像ナビゲーションシステム。
【請求項17】
映像ショットにセグメンテーションされた映像に対して限定された画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするための映像ナビゲーションプログラムであって、
コンピュータを、
前記映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされた映像ショットを取得するクラスタリング手段、
及び、前記ツリーの経路長が最小限に抑えられながら、前記クラスタリングされた映像ショットから階層的に組織化されたナビゲーションツリーを生成するツリー生成手段、
として機能させるための映像ナビゲーションプログラム。
【請求項1】
映像ショットにセグメンテーションされた映像に対して、限定された画面サイズであり且つキーフレームより大きな画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするコンピュータを用いた映像ナビゲーション方法であって、前記方法は、
前記映像ショットの時間的な順序を維持しながら、前記映像ショットを類似性によってクラスタリングする工程と、
前記ツリーの経路長を最小限に抑えながら、前記映像ショットのクラスタに対して階層的に組織化されたナビゲーションツリーを生成する工程と、
を含む映像ナビゲーション方法。
【請求項2】
前記映像ショットをクラスタリングする工程は、
前記ツリーにおける最大葉数をbhとして求める工程を含み、
分岐係数bは、前記ディスプレイ装置に表示されるキーフレームの最大数を含むと共に、前記ツリーの高さhは、最も小さな高さを含むことにより、前記最大葉数bhは映像ショット数より大きいか又はそれに等しい、
ことを特徴とする、請求項1に記載の映像ナビゲーション方法。
【請求項3】
前記映像ショットをクラスタリングする工程は、
時間的に隣接した要素を有するクラスタの対を併合すると共に、併合されたクラスタ対が限界値bh-1を超える要素を有している場合は、その対を併合しない工程と、
b個のクラスタに一旦到達したら、併合を停止する工程と、
をさらに含むことを特徴とする、請求項2に記載の映像ナビゲーション方法。
【請求項4】
前記映像ショットをクラスタリングする工程は、
前記サブクラスタの要素を再帰的にクラスタリングすると共に、各階層レベルの再帰の前に最大のクラスタ要素数をb分の1に減らす工程と、
をさらに含むことを特徴とする、請求項3に記載の映像ナビゲーション方法。
【請求項5】
階層的に組織化されたナビゲーションツリーを生成する工程は、
クラスタのサブクラスタリングが、併合することができるサブクラスタが無いために、b個を超えるサブクラスタを生ずる場合は、そのクラスタを望ましくないとマークする工程と、
より高い階層レベルにおけるクラスタリングにおいて、前記望ましくないクラスタが生成された点まで後戻りする工程と、
望ましくないクラスタを、要素の限界値を超えるであろうクラスタのように処理しながら、クラスタリングを繰り返す工程と、
を含むことを特徴とする、請求項4に記載の映像ナビゲーション方法。
【請求項6】
前記ツリーの根がb個を超えるサブクラスタを有している場合は、前記ツリーの最大高さを上げると共に、クラスタリングをクラスタリングの開始点から繰り返す工程をさらに含むことを特徴とする、請求項5に記載の映像ナビゲーション方法。
【請求項7】
前記クラスタにおける第1のショットをオーバーレイされた前記クラスタにおける最も重要なショットのキーフレームを介して前記ディスプレイ装置に階層的に組織化された映像を表示する工程をさらに含むことを特徴とする、請求項1に記載の映像ナビゲーション方法。
【請求項8】
前記ディスプレイ装置にタイムラインを表示して、各クラスタに関連する映像の一部分を示す工程と、
前記ディスプレイ装置にコンテキストセンシティブ・ヘルプを表示して、前記ツリーのナビゲーションの際にユーザを助ける工程と、
をさらに含むことを特徴とする、請求項1に記載の映像ナビゲーション方法。
【請求項9】
映像ショットにセグメンテーションされた映像に対して限定された画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にする映像ナビゲーションシステムであって、前記システムは、
前記映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされた映像ショットを取得するクラスタリング手段と、
前記ツリーの経路長が最小限に抑えられながら、前記クラスタリングされた映像ショットから階層的に組織化されたナビゲーションツリーを生成するツリー生成手段と、
を含むことを特徴とする映像ナビゲーションシステム。
【請求項10】
前記クラスタリング手段は、
前記ツリーにおける最大葉数をbhとして求める手段を含み、
分岐係数bは、前記ディスプレイ装置に表示されるキーフレームの最大数を含むと共に、前記ツリーの高さhは、最も小さな高さを含むことにより、前記最大葉数bhは映像ショット数より大きいか又はそれに等しい、
ことを特徴とする、請求項9に記載の映像ナビゲーションシステム。
【請求項11】
前記クラスタリング手段は、
時間的に隣接した要素を有するクラスタの対を併合すると共に、併合されたクラスタ対が限界値bh-1を超える要素を有している場合は、その対を併合しない併合手段と、
b個のクラスタに一旦到達したら、併合を停止する併合停止手段と、
をさらに含むことを特徴とする、請求項10に記載の映像ナビゲーションシステム。
【請求項12】
前記クラスタリング手段は、
前記サブクラスタの要素を再帰的にクラスタリングすると共に、各階層レベルの再帰の前に最大のクラスタ要素数をb分の1に減らす再帰処理手段と、
をさらに含むことを特徴とする、請求項11に記載の映像ナビゲーションシステム。
【請求項13】
前記ツリー生成手段は、
クラスタのサブクラスタリングが、併合することができるサブクラスタが無いために、b個を超えるサブクラスタを生ずる場合は、そのクラスタを望ましくないとマークするマーキング手段と、
より高い階層レベルにおけるクラスタリングにおいて、前記望ましくないクラスタが生成された点まで後戻りする後戻り手段と、
望ましくないクラスタを、要素の限界値を超えるであろうクラスタのように処理しながら、クラスタリングを繰り返す反復処理手段と、
を含むことを特徴とする、請求項12に記載の映像ナビゲーションシステム。
【請求項14】
前記ツリーの根がb個を超えるサブクラスタを有している場合は、前記ツリーの最大高さを上げると共に、クラスタリングをクラスタリングの開始点から繰り返すツリー再生成手段をさらに含むことを特徴とする、請求項13に記載の映像ナビゲーションシステム。
【請求項15】
前記クラスタにおける第1のショットをオーバーレイされた前記クラスタにおける最も重要なショットのキーフレームを介して前記ディスプレイ装置に階層的に組織化された映像を表示するツリー表示手段をさらに含むことを特徴とする、請求項14に記載の映像ナビゲーションシステム。
【請求項16】
各クラスタに関連する映像の一部分を示すタイムラインを前記ディスプレイ装置に表示するタイムライン表示手段と、
前記ツリーのナビゲーションの際にユーザを助けるコンテキストセンシティブ・ヘルプを前記ディスプレイ装置に表示するヘルプ表示手段と、
をさらに含むことを特徴とする、請求項15に記載の映像ナビゲーションシステム。
【請求項17】
映像ショットにセグメンテーションされた映像に対して限定された画面サイズを有するディスプレイ装置上でキーフレームを表示する映像ブラウザを用いて映像のナビゲーションを可能にするための映像ナビゲーションプログラムであって、
コンピュータを、
前記映像ショットの時間的な順序が維持されながら、類似性によってクラスタリングされた映像ショットを取得するクラスタリング手段、
及び、前記ツリーの経路長が最小限に抑えられながら、前記クラスタリングされた映像ショットから階層的に組織化されたナビゲーションツリーを生成するツリー生成手段、
として機能させるための映像ナビゲーションプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図16】
【図17】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図16】
【図17】
【図13】
【図14】
【図15】
【公開番号】特開2010−28184(P2010−28184A)
【公開日】平成22年2月4日(2010.2.4)
【国際特許分類】
【出願番号】特願2008−183628(P2008−183628)
【出願日】平成20年7月15日(2008.7.15)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成22年2月4日(2010.2.4)
【国際特許分類】
【出願日】平成20年7月15日(2008.7.15)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]