説明

物理メディア上にデジタルメディアへの視覚リンクを配置するシステム、方法、およびプログラム

【課題】デジタルメディアへの視覚リンクの位置と大きさを、紙のドキュメント等の物理的媒体上に決定するシステム、方法、およびプログラムを提供する。
【解決手段】紙のドキュメント上へ埋め込み型メディアマーカ(EMM)等のリンクを生成するオーサリングツールであって、ドキュメント上の他のEMMと関連するキーポイントを識別してスコア付けを行い(S204〜S206)、その紙のドキュメント上に新規生成するEMMと他のEMMおよびキーポイントとの間の類似性を判定する(S206〜S208)。ユーザは、可視化スコアをディスプレイ上で視認し、紙のドキュメント上において、他のEMMおよび関連するコンテンツと混同しない位置に新規生成EMMを配置しサイズを決める(S210〜S212)。新規生成EMMの位置と大きさは、キーポイントと関連するEMMとのスコアに基づいて自動的に調整できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタルメディアへの視覚リンクを物理的ドキュメント上に配置するためのシステム、方法、およびプログラムに関する。特に、他のデジタルメディアリンクの位置とメディア上のコンテンツ部分間の類似性とに基づいてデジタルメディアへの視覚リンクの大きさと位置を計算し調整することに関する。
【背景技術】
【0002】
紙のドキュメントなどの物理的なメディアからデジタルメディアへのリンク付けを、視覚的なコンテンツ解析と指標を利用して行うシステムは数多くある。一般的には、カメラ付きの携帯電話や他のポータブルデバイスを利用してユーザが視覚リンクを含むドキュメントの写真を撮り、その画像を電話またはリモートサーバ上で処理してリンクされたメディアを識別し、アクセスを行なう。そうして、リンク先のメディアが電話上に表示される。
【0003】
視覚リンクの一例は、図1(a)に示した埋め込み型メディアマーカ(EMM)100である。EMM100は他のコンテンツベースの検索方法とは異なり、コンテンツの読みやすさを損ねない程度のかすかなマークを紙ドキュメント上に配置して、キャプチャすべきページの特定部分を指示する。EMM100は、境界102とアイコン104とポインタ106とで表示されてもよい。図1(b)は、紙ドキュメント105上のEMM100を示す。EMMの利用方法と機能は、同時係属中の2009年12月23日出願の米国特許出願第12/646,841号に記載されており、参照によりその全体がここに援用されるものとする。EMMは、ドキュメントのその部分に係るメディアがあることを示すのみならず、そのページの他の部分がキャプチャされないようなカメラのズームアップを可能とする。この手法はページの領域にインデックスを付けるだけであり、ドキュメントへのインデックスの大きさを小さくし、またマークを付されたページ領域が容易に認識できるようして検索精度を制御する手段を提供する。
【0004】
既存のEMMシステムはドキュメントのページにEMMを配置するためのオーサリングツールを備えていて、ユーザは対話方式によって、EMMを配置するのに意味があり、認識用のいくつかのキーポイントがあるページ上の領域を選択することができる。キーポイントとは、画像中のある位置付近の局所画像特徴を記述する特徴ベクトルである。ユーザがEMMを所望の位置へ動かすと、キャプチャ領域はドキュメントのキーポイント数に基づいて動的に拡大または縮小する。キーポイント数が不十分な場合には、EMMで示されるページ領域は赤く陰影がつけられる。これによって、ユーザはキーポイントが少なすぎる領域にはEMMを配置できないが、このことが認識精度を保証するものではない。それはキーポイントはデータベース中の他のEMMと類似または同一であるかもしれないからである。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許第6,711,293号
【特許文献2】米国特許出願公開第2011/0154174号
【特許文献3】米国特許出願公開第2010/0080469号
【非特許文献】
【0006】
【非特許文献1】Sunil Ariyaらによる、”An Optimal Algorithm for Approximate Nearest Neighbor Searching in Fixed Dimensions”、 第5回 ACM−SIAM 離散アルゴリズム・シンポジウム 抄録、1994年、573〜582ページ
【非特許文献2】Qiong Liuらによる、”High Accuracy and Language Independent Document Retrieval with a Fast Invariant Transform”、 IEEEマルチメディア国際学会およびエクスポ(ICME)、2009年、4ページ
【非特許文献3】David G. Loweによる、”Distinctive Image Features from Scale−Invariant Keypoints”、 コンピュータ・ビジョン国際誌、2004年1月5日、1〜28ページ
【非特許文献4】Xu Wangmingらによる、”Appllication of Image SIFT Features to the Context of CBIR”、 2008年コンピュータ科学及びソフトウェア工学国際学会、552〜555ページ
【発明の概要】
【発明が解決しようとする課題】
【0007】
EMMシステムにおける現状のオーサリングツールは、EMM用の候補領域に十分なキーポイントがあるかどうかをチェックするが、そのキーポイントが以前に生成されたEMMにコンフリクトしないか、またはコレクション中の他のページのコンテンツと簡単に混同されることがないかどうか、ということに関するチェックは行わない。
【課題を解決するための手段】
【0008】
本明細書で記述するシステムと方法は、物理メディア上においてデジタルメディアへの視覚リンクの位置と大きさの決定を行う。特に、物理的ドキュメントの1つまたは複数のページ上に埋め込み型メディアマーカ(EMM)を生成し、その物理的ドキュメント上で新規生成のEMMと他のEMMおよびキーポイントとの間の識別と類似性のスコア付けを行い、EMMを生成しているユーザに対してそのスコアの視覚表示を行い、新規生成のEMMが他のEMMや関連するコンテンツと混同されないように物理的ドキュメント上での配置および寸法付けをする、オーサリングツールに関する。
【0009】
本発明の一態様に係る方法は、デジタルメディアへの視覚リンクをドキュメント上に配置する方法であって、表示手段により、ドキュメントの少なくとも1ページをディスプレイ上に表示し、適合手段により、プロセッサとメモリを有するコンピュータを利用して、前記ドキュメントのキーポイントを識別して、前記識別されたキーポイントが適合する既存の視覚リンクおよび対応するキ−ポイントを取得し、スコア付与手段により、前記ドキュメントのキーポイントと、前記取得された、前記既存の視覚リンクに対応するキーポイントと、の間の類似性に基づいて前記ドキュメントのキーポイントにスコアをつけ、入力手段により、前記視覚リンクを配置するための前記ドキュメントの1つまたは複数の領域を選択するユーザ入力を受信し、配置手段により、前記視覚リンクを前記ドキュメント上に配置する、ことを含む。
【0010】
方法は、スコア変更手段により、前記各キーポイントのスコアを当該キーポイントの周囲のキーポイントのスコアに基づいて変更してもよい。
【0011】
方法は、可視化手段により、前記キーポイントのスコアに基づいて前記ドキュメント上に視覚的なオーバレイを生成してもよい。ここで、前記視覚的なオーバレイは前記視覚リンクの配置に対する前記ドキュメントの1つまたは複数の領域の好適度を視覚的に表示するようにしてもよい。
【0012】
方法は、前記配置手段により、前記キーポイントのスコアに基づいて、前記視覚リンクの大きさと位置を調整してもよい。
【0013】
方法は、特定のキーポイントに隣接し、すべてが既存の1つの視覚リンクに適合する複数のキーポイントにペナルティを科すことをさらに含んでもよい。
【0014】
方法において、前記各キーポイントのスコアの変更が、キーポイント間の距離に応じた重み付きスケールによってさらに変更されるようにしてもよい。
【0015】
方法は、前記視覚リンクの配置に対する前記ドキュメント領域の好適度を、キーポイントのスコア密度に基づいて判定することをさらに含んでもよい。
【0016】
方法において、前記視覚オーバレイが、前記視覚リンクの配置に対する1つまたは複数の領域の好適度を陰影の勾配によって表示するようにしてもよい。
【0017】
方法において、所定の半径内の複数のキーポイントが1つの視覚リンクに適合しているドキュメント領域は好適度を増加させるようにしてもよい。
【0018】
方法において、前記視覚リンクは埋め込み型メディアマーカ(EMM)であってもよい。
【0019】
本発明の一態様に係るシステムは、デジタルメディアへの視覚リンクをドキュメント上に配置するシステムであって、ドキュメントの少なくとも1ページを表示する表示手段と、前記ドキュメントのキーポイントを識別し、前記識別されたキーポイントが適合する既存の視覚リンクおよび対応するキーポイントを取得する、適合手段と、前記ドキュメントのキーポイントと、前記取得された、前記既存の視覚リンクに対応するキーポイントと、の間の類似性に基づいて前記ドキュメントのキーポイントにスコアをつける、スコア付与手段と、前記視覚リンクを配置するための前記ドキュメントの1つまたは複数の領域を選択するユーザ入力を受信する、入力手段と、前記視覚リンクを前記ドキュメント上に配置する、配置手段と、を備える。
【0020】
システムは、前記各キーポイントのスコアを当該キーポイントの周囲のキーポイントのスコアに基づいて変更するスコア変更手段をさらに含んでもよい。
【0021】
システムは、前記キーポイントのスコアに基づいて前記ドキュメント上に視覚的なオーバレイを生成する可視化手段をさらに備えてもよく、前記視覚的なオーバレイは前記視覚リンクの配置に対する前記ドキュメントの1つまたは複数の領域の好適度を視覚的に表示する。
【0022】
システムは、前記キーポイントのスコアに基づいて、前記視覚リンクの大きさと位置を調整することをさらに含んでもよい。
【0023】
システムは、特定のキーポイントに隣接し、すべてが既存の1つの視覚リンクに適合する複数のキーポイントにペナルティを科すことさらに含んでもよい。
【0024】
システムにおいて、前記各キーポイントのスコアの変更が、前記キーポイント間の距離に応じた重み付きスケールによってさらに変更されるようにしてもよい。
【0025】
システムは、キーポイントのスコア密度に基づいて、前記視覚リンクの配置に対する前記ドキュメント領域の好適度を判定することをさらに含んでもよい。
【0026】
システムにおいて、前記視覚オーバレイは、前記視覚リンクの配置に対する1つまたは複数の領域の好適度を陰影の勾配によって表示してもよい。
【0027】
システムは、所定の半径内の複数のキーポイントが1つの視覚リンクに適合しているドキュメント領域は好適度を増加させることをさらに含んでもよい。
【0028】
システムにおいて、前記視覚リンクは埋め込み型メディアマーカ(EMM)であってもよい。
【0029】
本発明の一態様に係るコンピュータプログラムは、コンピュータに、デジタルメディアへの視覚リンクをドキュメント上に配置させるためのコンピュータプログラムであって、前記コンピュータに、ドキュメントの少なくとも1ページをディスプレイ上に表示し、ドキュメントのキーポイントを識別して、前記識別されたキーポイントが適合する既存の視覚リンクおよび対応するキ−ポイントを取得し、前記ドキュメントのキーポイントと、前記取得された、前記既存の視覚リンクに対応するキーポイントと、の間の類似性に基づいて前記ドキュメントのキーポイントにスコアをつけ、前記各キーポイントのスコアを当該キーポイントの周囲のキーポイントのスコアに基づいて変更し、前記変更されたキーポイントに基づいて、前記ドキュメント上に前記視覚リンクの配置に対する前記ドキュメントの1つまたは複数の領域の好適度を視覚的に表示する視覚的なオーバレイを生成し、前記視覚リンクを配置するための前記ドキュメントの1つまたは複数の領域を選択するユーザ入力を受信し、前記視覚リンクを前記ドキュメント上に配置する、処理を実行させる。
【0030】
本発明に関するその他の態様は、以下の記述で部分的に説明され、また以下の記述で部分的に明らかとなり、または本発明の実施により習得することができる。本発明の態様は、以下の詳細な説明及び添付の特許請求の範囲において特に指摘された要素、及び種々の要素と態様との組合せによって実現及び達成することができる。
【0031】
上記及び以下の記述はいずれも、単に例示及び説明を目的とするものであり、特許請求の範囲に記載の発明もしくはその適用を限定することは全く意図していないことを理解されたい。
【図面の簡単な説明】
【0032】
本明細書に組み込まれ本明細書の一部をなす添付の図面が本発明の実施形態を例示し、説明と相俟って本発明の原理の説明及び例示に供する。
【0033】
【図1】埋め込み型メディアマーカ(EMM)とその印刷媒体への利用に関する関連技術を示す図である。
【図2】本発明の一実施形態による、物理的ドキュメント上へのEMMの配置方法のフローチャートである。
【図3】本発明の一実施形態による、新規生成のEMMを物理メディア上へ配置するシステムのブロック図である。
【図4】本発明の一実施形態による、キーポイントを描画するEMMオーサリングツールのグラフィカルユーザインタフェース(GUI)を示す図である。
【図5】本発明の一実施形態による、物理ドキュメント上の+と−のキーポイントを示すGUIの拡大図である。
【図6】本発明の一実施形態による、EMMオーサリングツールを利用してユーザが選択した場所にある候補EMMを示す図である。
【図7】本発明の一実施形態による、最終版のEMMを示す図である。
【図8】本発明の一実施形態による、物理ドキュメント上の複数のキーポイント間でのペナルティスコアを示す図である。
【図9】本発明の一実施形態による、新規EMMの配置に対する好適度を示す陰影をつけられた物理ドキュメント領域の可視化を示す図である。
【図10】本発明の一実施形態による、物理ドキュメント領域の可視化を拡大表示した図である。
【図11】本発明の一実施形態による、ブラウザインタフェースにドキュメントの複数ページを示すEMMオーサリングツールのグラフィカルユーザインタフェース(GUI)の別の図である。
【図12】本発明の一実施形態による、候補EMM配置の好適度を示す陰影をつけられた物理ドキュメント領域の可視化を示す別の図である。
【図13】本発明の一実施形態による、物理ドキュメント上のキーポイントのコンフリクトと不適当なページ領域を可視化した図である。
【図14】本発明の一実施形態による、図12に示した物理ドキュメント上のキーポイントのコンフリクトと不適当なページ領域を可視化した図の拡大図である。
【図15】本システムを実装可能なコンピュータシステムのブロック図である。
【発明を実施するための形態】
【0034】
以下の詳細な説明においては添付の図面を参照する。前述の添付図面は、本発明の原理に整合する特定の実施形態および実装を例示するものであり、それに限定するためのものではない。
【0035】
デジタルメディアへの視覚リンクの位置と大きさを、紙のドキュメントのような物理的な媒体上に決定するためのシステムと方法が提供される。ドキュメント上へ、(例えば、埋め込み型メディアマーカ(EMM)等の)リンクを生成するためのオーサリングツールにより、ドキュメント上の他のEMMと関連するキーポイントを識別してスコア付けを行い、その紙のドキュメント上に新規生成するEMMと他のEMMおよびキーポイントとの間の類似性を判定する。ユーザは、可視化されたスコアをディスプレイ上で見ることができ、他のEMMおよび関連するコンテンツとの混乱が避けられる紙のドキュメント上の位置に新規生成のEMMを配置しサイズを決めることができる。新規生成EMMの位置と大きさは、キーポイントと関連するEMMとのスコアに基づいて自動的に調整可能である。一群のドキュメントページ上にEMMをオーサリングするシステムが、それぞれのEMMを正確に識別することを可能とする。
【0036】
EMMシステムは、紙のドキュメント上にマークを配置して、特定のページ領域にメディアへのリンクが張られていることを示す。本明細書で述べるシステムは、一群のドキュメントページ上にEMMをオーサリングし、ユーザがポータブルデバイスを利用してキャプチャするとそれぞれのEMMが正確に識別されるようなシステムである。候補となるページ領域内のそれぞれのキーポイントには、近似近傍が存在する。近接した近傍のあるキーポイントには負のスコアが与えられ、それらのキーポイント周辺に分散される。可視化手法によって負のスコアが多い領域が示され、オーサはそれを回避することができる。そのような領域を避けるために、システムはオーサリングしようとするEMMの大きさを自動的に変更して移動させる。
【0037】
本明細書で記述する実施形態では、過去にオーサリングしたEMMとコレクション中の他のすべてのページの両方に対して適合する可能性のある領域がそのページ上にないかどうかを考慮に入れるEMMオーサリングツールについても述べる。近い一致を示す場合には、後で検索しようとするときに混乱を招く可能性がある。このようにオーサリングツールは、ユーザがそのページ上の問題がある領域を避けて多数の独自のキーポイントを有する領域へ向かうように導く。
I.概要
【0038】
EMMを物理的ドキュメント上に配置する方法の概要を以下に述べる。対応する図を図2に示す。先ずステップS202において、物理的ドキュメントの1つまたは複数のページがユーザに対してオーサリングツール(図4参照)のグラフィカルユーザインタフェース(GUI)上に提示される。ステップS204において、その単一または複数のページからのキーポイントが、過去にオーサリングされたEMMと、ドキュメントのその他のページとの両方に対して照合される。ステップS206において、そのキーポイントが他のEMMや他のドキュメントページのキーポイントにどれほど適合するかに従ってスコアが与えられる。それぞれのキーポイントに対して、他のEMMまたはページの複数のキーポイントの中から近似最近接点が特定される。この近似最近接点への距離がゼロである場合には、そのキーポイントには負のスコアが与えられ、有効な分別が行えないことが示される。近接点からの距離が大きくなるにつれ、スコアは正の最大値1に向かって大きくなる。ステップS208において、キーポイントのスコアがドキュメントのそのキーポイント周辺に分散され、EMM配置に関する各領域の好適度を表すヒートマップ(図8参照)が作成される。次にステップS210においてユーザはEMMを配置する位置を選択できる。そのあと、ステップS212においてシステムが、キーポイントのスコアに基づいてEMMの位置と大きさを自動的に微調整してもよい。
【0039】
図3はデジタルメディアへの視覚リンクをドキュメント上に配置するための対応システム100を示している。一実施形態において、表示手段101が、以下に述べる様々な手段を包含しているコンピュータ103と通信してもよい。コンピュータ103の様々な構成要素は後でさらに説明する(図16参照)。表示手段101はグラフィカルユーザインタフェース(GUI)を表示し、そこにはドキュメントの少なくとも1ページが表示される。適合手段107がドキュメントのキーポイントを識別し、識別されたキーポイントが適合する既存の視覚リンクを取得する。そうして、そのドキュメントのキーポイントと既存のリンクのキーポイントとの間の類似性に基づいて、スコア付与手段108がキーポイントにスコアをつける。スコア変更手段110が各キーポイントのスコアを各キーポイントの周辺領域に分散させる。可視化手段112は、分散されたキーポイントのスコアに基づいて視覚オーバレイを生成する。さらに以下で説明するように、視覚オーバレイは、視覚リンクを配置するためのドキュメント上の1つまたは複数の領域の好適度を視覚的に表示する。入力手段114は、視覚リンクを配置するドキュメント上の1つまたは複数の領域を選択する(たとえばマウスやキーボードなどのユーザ入力装置116からの)ユーザ入力を受信する。そして配置手段118が視覚リンクをドキュメント上に配置する。
【0040】
キーポイントの検出とその特徴の記述に関してはこれとは異なる方法も可能である。それは例えば2009年12月23日に出願された米国特許出願第12/646,841号に記述されており、その全体を参照により本明細書に援用するものとする。同様に、近隣のキーポイント配置のためのデータベース表示として別のものを利用することもできる。この目的に対しては、近似最近傍(ANN)木が適切である。要求される条件としては、キーポイントが画像中から検出でき、近隣のキーポイントがデータベース中に見つけられ、見つけられたキーポイントが画像キーポイントへの距離とそれ以前にオーサリングされたEMMとの関連を含む、ということだけである。
II.ドキュメントページのコレクション
【0041】
オーサリングされたEMMのコレクションは対応するドキュメントページのコレクションから得られる。そのようなコレクションは単行本または1冊の雑誌のページで構成されてもよい。コレクションはある時期に刊行された雑誌のすべての号のページを含んでもよい。その場合、雑誌の新しい号が追加されるとコレクションが時間とともに変化してもよい。そのような本、雑誌またはその他のドキュメントの読者は、コレクションの識別からスタートする。そうして、スマートフォンやタブレットや携帯情報端末(PDA)などのような、カメラ付きのポータブルデバイスを利用してEMMの写真を撮り、EMMサーバへその写真をアップロードし、EMMに関連するメディアリンクへそのデバイスを接続する。
【0042】
オーサリングツールはコレクションのページを画像サムネイルとして表示して、オーサにページを選択させてそこに1つまたは複数のEMMを配置させる。特にコレクションが時間変化しない場合には、オーサリングツールに表示されたページをコレクションの中の他のページと比較して、他のページの領域と混同されそうなページ領域を指示できることは都合がよい。
【0043】
図4〜7はオーサリングツールのグラフィカルユーザインタフェース(GUI)と単一のEMMをページ上へ配置した状態を示している。図4において、オーサリングツールのGUI400は、Internet Explorer(Microsoft社、レッドモンド、ワシントン州)またはFirefox(Mozilla Foundation社、マウンテンビュー、カリフォルニア州)などのような、インターネットブラウザアプリケーションを動作させているところである。GUI400は、ユーザがEMMなどの視覚リンクを追加しようとするドキュメント402を表示する。図5にGUI400の拡大図が示されており、ドキュメント上の異なる部分にキーポイント404が示されている。キーポイントとは、画像中のある位置の近くの局所画像特徴を記述する特徴ベクトルである。例えば、128次元のSIFT特徴量であり、また40次元のFIT特徴量である。本実施形態においてはキーポイントを異なる形状で表示している。すなわち、正のキーポイント404Aは+で表し、負のキーポイント404Bは−で表し、中性(ゼロに近い値)のキーポイント404Cは点で表している。また、記号の相対的な大きさはスコアの大きさを示している。一実施形態において、記号の大きさが5〜11ピクセル幅の間で変化し、これはスコアが0.3より大きく1.0より小さいことに対応している。スコアが−0.3〜0.3はドットの大きさで対応し、−0.3〜−1.0はマイナス符号の大きさで対応する。別の実施形態(図示せず)では、キーポイントは赤色キーポイントと青色キーポイントと紫色キーポイントとに色分けされて、赤色キーポイントが負のキーポイントを、青色キーポイントが正のキーポイントを、紫色キーポイントがほぼゼロの値を示す。キーポイントの異なる色と形の重要性については後でさらに述べる。図6には、ユーザがGUI400を利用してドキュメント402上に配置したEMMの候補406が示されている。候補EMM406は、ユーザまたはシステムによる確定配置はまだなされていない。本実施形態において、この候補EMM406は最終版のEMMとは別の色で表示されてもよい。そしてアイコン104(図1(a)参照)用の中空の円408と、十字形410のみがある。これは候補EMM406の境界線102内でユーザが自由に動かして、アイコン104の配置場所を選択できる。図7は、EMM100のあるドキュメントが示されている。ここではEMMはすでに確定されて、ドキュメント402に固定されている。ここでEMM100は、EMMの種類に応じた特定の形状、パターン、文字などのアイコン104と、ポインタ106を表示している。
III.検索性能の向上
【0044】
ドキュメントの一部分の写真を撮った後、適合するEMMを判定しようとする場合、システムはまず取り上げられた写真の中で、回転と拡大縮小に対して不変なキーポイントを決定する。それぞれのキーポイントに対して、全EMMの全キーポイントのデータベース中の最近傍あるいは近似最近傍のキーポイントが決定される。見つけられたキーポイント数は各EMMに対して累積され、キーポイントのカウント数が閾値を超えた場合には適合するキーポイントが最も多いEMMが返される。
【0045】
一実施形態によると、オーサリングツールは曖昧な適合を示すページ領域を回避することによって検索性能を向上させる。候補となるページ領域からのキーポイントはキーポイントデータベースに照らしてチェックされる。適合するケースが多数ある場合には、オーサが特定の候補領域を利用しないようにする。ある実施形態では、3つの視覚キューを用いてオーサが特定の領域を利用しないようにする。これは、例えば、オーバレイが暗褐色に変わる、EMMをその領域に移動させるとサイズが大きくなる、その領域にEMMを配置できる場所がない場合には円が赤くなる、などにより行われる。ユーザがそのページ付近にEMMを移動させて好適な位置を見つけようとするとき、EMMの大きさと色を、瞬時かつリアルタイムで変化させてもよい。これに代わる視覚的または音響的プロンプトが与えられることもある。例えば、不適当な領域が配置された場合にカーソルの形状が変化したり、インタフェースエリアを使用してその領域が配置に適当かどうかを知らせるユーザへのメッセージを表示したりする。
IV.コレクション中の他のページの検査
【0046】
オーサがあるページに1つまたは複数のEMMを配置しようとする場合、そのページの全キーポイントが既存のキーポイントのデータベースに対して照合される。これらのキーポイントは過去にオーサリングされたEMMか同一コレクション中の他のページのいずれかに由来する。他のページは1つまたは複数のEMMとして表示される。EMMのオーサリングを支援するために、単純なグリッド(たとえば一般的なポートレートページに対する3x4の分割)や、あるいはページ分割アルゴリズムの結果を利用してそのページを分割することが好適である。ページが分割されると、それぞれのセグメントが1つのEMMとして扱われる。どちらの場合もアルゴリズムは同じであるので、本節ではこれ以降、他のページとページセグメントをEMMと呼ぶ。EMMオーサリングページをコレクション中の他のページと比較することは、利点と欠点の双方を有している。利点は、標準フォントのテキスト句などのような曖昧な領域を回避できることである。同一の文字や単語が多くの異なるページに現れるので、それらの文字や単語を有する別のEMMが、そのような曖昧なページ領域を含む低品位の写真のEMMに対してより良い適合を示す可能性がある。そのような領域は以前のEMMのオーサリングを必要としないで見つけることができる。その一方で、そのような手法(EMMのオーサリングをブロックするために使用される場合)は、2ページ以上で繰り返される明らかな領域へEMMを張り付けることを阻害することもある。
【0047】
EMMのオーサリングに関して、ある限定された回数だけ繰り返される領域へユーザがEMMをオーサリングしようとする場合、システムがこの領域の全インスタンスに対してEMMを付加すべきかどうかを聞くことがある。これは、会社のロゴの全インスタンスを同一の目標場所へマッピングすることを可能とし、視覚的に同一のEMMは同一の位置にリンクすべきであることをオーサに理解させる。
V.オーサリング中に起こりうるコンフリクトの判定
【0048】
EMMをオーサリングするページのどのキーポイントが、他のページまたはEMMとコンフリクトしているのかを判定するために、それぞれのキーポイントに−1から1の間のスコアを割り当てる。データベース中のキーポイントに対する(特徴量の)距離が、距離の閾値以内でないキーポイントは(データベース中のキーポイントに適合しないものとして)スコア1を付与され、コンフリクトがないことが示される。その他のキーポイントは、距離dと最大の適合性距離dmaxに基づくスコアsが与えられる。正規化された0から1までの距離が、−1から1までのスコア上に線型的にマッピングされる。
【0049】
(1) s=2*d/dmax−1
【0050】
オーサリングページ上の領域を評価する場合、その領域のキーポイントのスコアが加算される。合計が大きな正値であれば、その領域がEMMの配置に適していることを示している。合計がゼロまたは悪しくも負の場合にはその領域が適さないことを示している。閾値を用いてあるページの領域が十分なキーポイントを含んでいるかどうかを判定してもよい。例えば、ページ領域にはキーポイントを少なくとも100含むことが必要とされるようにしてもよい。キーポイントの数の代わりに、キーポイントスコアの合計を用いることにより、他のページまたはEMMとのコンフリクトの通知を組み込むこともできる。例えば、スコア1のキーポイントが100個か、平均スコアが0.5のキーポイントが200個のいずれでもそのページ領域に対しては十分である。好適なページ領域を見つけるための性能を向上させるために、ページ境界に平行な四角形領域のみが使用される。しかし、この方法は四角形でない領域にも適用することが可能である。例えば、まず最初にその領域の四角形の境界ボックスを調べ、次に第2のステップで実際の形状をチェックするというようにできる。
【0051】
キーポイントスコアの合計計算をさらにスピードアップするために、米国特許出願第12/646,841号(前出)に開示されているように、そのページの各点の累積スコアをもとのページから前もって計算しておく積分マップが利用される。ページ境界に平行な四角形領域内のキーポイントの合計を決定するためには、積分マップ内の4つのエントリを調べて、足すか引くだけでよい。
VI.同一EMMとのコンフリクトの強調
【0052】
同一のEMMに適合するキーポイントは、検索の際に、そのEMM側に検索バイアスをかけ、新しくオーサリングされたEMMを犠牲にするので、これらのキーポイントのスコアは下げられる。キーポイントの完全なスコアである1と実際のスコアとの差をペナルティスコアと呼ぶ。キーポイントのスコアは−1と1の間にあるので、ペナルティスコアは0から2の範囲となる。システムはこのペナルティを同一のEMMに適合する近隣のキーポイントに分散させる。ペナルティスコアは距離の関数で重み付けがされて、適合のペナルティスコアの重み付き合計が、それぞれのキーポイントに累積される。ペナルティスコアのこの重み付き合計が、キーポイントの元のスコアから差し引かれる。
【0053】
図8は、同一のEMMに適合する近隣のキーポイント間でのペナルティスコアの分布の例を示す。ここでページ802上に、既存の3つのEMM(E1、E2、E3)に適合するキーポイントがある。ページの下の部分のテキスト領域804に関連する2つのキーポイント(E1に適合)は相互に近接していて、ペナルティスコアをそれぞれ互いに折半するものとする。したがって、最初にスコアが0.0と−0.5であったとすると、それらはそれぞれ−0.75(=0−0.5*(1−−0.5))と−1.0(=−0.5−0.5*(1−0))となる。
【0054】
E3に適合する2つのキーポイントはもう少し離れていて、ペナルティスコアを相互に10%分担するものと仮定する。そうすると、最初にE1のペアと同様のスコア(0.0と−0.5)であったとすると、そのスコアは最終的には、それぞれ−0.15(=0−0.1*(1-0.5))と−0.6(=−0.5−0.1*(1−0)になる。上側の3つのキーポイント(E2に適合)の場合は、真ん中のポイントは他の2つのポイントによって下がるが、左端と右端のポイントはペナルティ分散の閾値を超えている例となっている。
【0055】
同一のEMMに適合する近接キーポイントにペナルティを与えることにより、これらのキーポイントを含むページ領域は好適度がさらに低下する。これらの領域は適合するEMMと混同しやすいので、これは望ましい結果である。
【0056】
一実施形態において、分散ペナルティスコアは所与の半径内の正規化距離によって重み付けされる。例えば、半径を0.25インチ(約6.35mm)としてもよい。ただし、元になる資料が異なれば別の半径がより良い結果をもたらすこともある。分散ペナルティスコアを距離に対して直線的に減少させるのではなく、二乗距離、ガウス関数、またはカットオフ距離付きの一定値、などを用いてもよい。分散ペナルティスコアは分離して累積され、個別にそれぞれのキーポイントのスコアに加算されて、距離の閾値以上に広がることや、広がりが伸縮することが避けられる。結合されたスコアは−1で切り捨てられて、負の大きな値になることが避けられる。ただし、次節で説明する可視化は、同一のEMMに適合するキーポイントが密集する領域においてこの切捨てなしでもより適切に処理できる。図4、5に示すように、マイナス1以下の負のキーポイントスコアは負符号(−)404Bで可視化され、プラス1のキーポイントスコアは正符号(+)404Aで、その中間のスコアは点(・)404Cで可視化される。元の資料によって、他の形や色を利用してディスプレイされたページ上において判別し安くすることもできる。
【0057】
どのキーポイントがデータベース中のEMMに適合するかを判定する際に、最近接の適合対象だけを見るのではなく、k番目の最近接適合対象を見ることが適切である場合がある。この手法は、ある領域内に同一のEMMに適合するキーポイントが数多くあり、そのうちのいくつかは別のEMMに対して若干高い適合性を示している、というような状態を取り扱う。この手法は、コンフリクトしているEMMのキーポイントが別のEMMのキーポイントで隠蔽されることを防ぐ。そのような領域は新規のEMMを配置するには依然として適さない。したがって、ペナルティスコアにはこの適さないことが反映されなければならない。これには、1つのペナルティスコアを分散させるだけでなく、別の適合するEMMに対するペナルティスコアを並行して分散させるようにしてもよい。各キーポイントに対して、それぞれの適合対象に対するペナルティスコアが別々に計算されてもよい。そうして、それらのペナルティスコアが別々に分散されて、各キーポイントにはデータベース中の適合するEMMごとの重み付きペナルティスコアが並行して累積される。ペナルティスコアの荷重付き合計の最大値が、元のスコアから差し引かれる。
【0058】
別の方法として、重み付けに基づいてそれぞれの適合対象に対して異なるスコアを使用することもできる。ある適合対象に対する重みwは、その適合対象の距離dと、第2の最近接適合対象の距離di+1とに基づく。
【0059】
(2) w=di+i/d
【0060】
この重みが与えられると、その適合性のスコアは次のように表される。
【0061】
(3) s=2*(1−w)−1
【0062】
この変形方式の不利な点は、適合性が低い対象ほど高い重みが割り当てられる可能性があることである。例えば、2つの最良な適合対象が同一の距離を有し、3番目に最良な適合対象の適合性がはるかに低い場合、2番目に最良な適合対象に最良な適合対象よりも高い重みが割り当てられることである。
VII.検索時の近接適合利用
【0063】
検索時に複数の適合対象を考慮する場合、各候補EMMに対するキーポイント適合数を数える単純な投票方式に代わって、各候補EMMに対するキーポイント適合性スコアの合計が計算される。キーポイント適合性スコアは、距離0において1であり、最大適合性距離において0となるスコアである。前節で説明したペナルティスコアの変形方式を利用して、ある半径内のいくつかのキーポイントが同一のEMMに適合する場合に、候補EMMに対するスコアを押し上げることができる。適合するキーポイントへの距離が最小の場合に、ペナルティスコアは最大となる。ボーナススコアに対しても同様であることが望ましい。キーポイント適合性スコアは、補正なしでボーナススコアとしても使える。ペナルティスコアとまったく同じように、ボーナススコアは、ある半径内で同一のEMMに適合するキーポイントへ分散される。スコアは異なる候補EMMごとに並行して累積される。最大の累積スコアのみが利用されるペナルティスコアとは異なり、全体としての最高スコアの候補EMMを判定する際にすべての累積ボーナススコアが考慮される。
VIII.EMMのオーサリングに好適なページ領域の可視化
【0064】
図9に示すようにオーサリングツールは、ドキュメント402のキーポイントスコアの低い領域に対して陰影の勾配414を提供する視覚的なオーバレイ412をドキュメントページ上に表示して、ドキュメント領域の好適度を可視化する。図10は陰影414の拡大図であり、暗い陰影領域は明るい領域または陰影のない領域に比べてEMMを配置するのに適さないドキュメント402の領域を表している。
【0065】
図11はオーサリングツールのGUI1000の別の実施形態であり、1つのディスプレイ上に同一ドキュメントの複数ページを表示している。このGUI1000は、同一ドキュメント内の他のキーポイントとEMMとの間の類似性に関してより多くの情報をユーザに提供する可能性がある。
【0066】
図12はドキュメント402の陰影のついたページ上に候補EMM406を配置した状態を示している。ここでユーザは暗い陰影414のついた領域によってEMMの配置に適さないエリアを識別することができる。そうしてユーザはEMMをインタラクティブに配置し、EMM領域はその領域内のスコアの合計によって自動的に拡大または収縮を行う。EMMはスコアが閾値を超えると緑の色付けがされる。これはEMMで表示された領域は他のドキュメントから差別化されることを意味している。
【0067】
EMMに好適な領域は、他のEMMに使用されたキーポイントとは異なるキーポイントを多く含み、既に使用されたキーポイントはわずかしか含まない。キーポイントを見るだけで、その領域のキーポイントの平均密度によって好適度が示される。アプリケーションごとに固有の密度の閾値を利用して、密度が閾値を超えているかどうか、または閾値にどれくらい近いかということを可視化することができる。一実施形態では、2インチ(約50.8mm)x2インチ(約50.8mm)の領域内に100個のキーポイントという閾値が使用されてもよい。
【0068】
キーポイントスコアを考慮する際、キーポイントの平均密度を決定するために各キーポイントのスコアが領域全体に分散される。スコアは、同一の重みを有する円状の領域に分散され、重みは距離とともに直線的に減少する。円形領域の半径として0.5インチ(約12.7mm)が使われる。ただし、元になる資料が異なれば別の半径がより良い結果をもたらすこともある。他の関数もまた利用可能である。例えば、2次元ガウス関数や、重みが距離とともに減少するかまたは一定であるような正方形領域、などである。何れの場合にも、2次元曲線下の積分は1に規格化される。
【0069】
この手法は、前述の負のキーポイントスコアに対しても利用可能である。正のスコアと負のスコアを組み合わせる場合、空の領域と、正と負のスコアが同数ある領域のいずれも中立的な好適度を有している。すべてのキーポイントがスコア1である場合、キーポイント密度が閾値を超える任意の領域が最大の好適度を有している。1より小さい正のスコアのキーポイントの密度がより高い場合に、これも最大の好適度となる。その逆に、負のスコアのキーポイントの密度が高いと、好適度の低い領域となる。
【0070】
同じ近辺で同一のEMMに適合するキーポイントにペナルティを科す前述のペナルティスコアを分散させると、キーポイントスコアは1より小さくなりうる。キーポイントスコア密度と組み合わせると好ましい結果となり、これらのスコアがより広範囲の領域を最小の好適度として、その領域は実際に回避すべきであることをユーザに示す。図5、6は、茶色の陰影と異なる透過度とを利用した、この可視化技術を図示している。その他の、赤から緑への色の勾配や、透過度に代わるパターンなどの可視化技術を代わりに利用することもできる。
【0071】
図13は、陰影414と透過度の違いを利用したこの可視化技術を示している。その他の、赤から緑への色の勾配や、透過度に代わるパターンなどの可視化技術を代わりに利用することもできる。図14に示されているドキュメント402の異なる領域416、418、420、422、424の拡大図は、領域416の空426のような空白のエリアが半透明なオーバレイ428で覆われていることを示している。対照的に、領域420の家430の写真は、そのキーポイントが他のものには何も適合しないことを表す+印で表示された正のキーポイント404Aを高密度に含んでおり、そこにはオーバレイはない。ページ上部の領域418の本体のテキスト432には、−印、すなわちダッシュ記号で表された負のキーポイント404Bを主として有する領域があり、そこは塗りつぶしのオーバレイ434で覆われている。これは領域424のページフッタ部436でさらに顕著であり、そこにはダッシュ記号(負のキーポイント404B)しか含まれていない。領域422にある太字のテキストの図の説明438は他との適合性が低く、視覚的なオーバレイがない。したがってEMMの配置に好適である。
IX.EMMの位置とサイズの自動調節
【0072】
ユーザがEMMをページ上に配置するか別の位置にドラッグするときに、上記のキーポイントスコアの合計を利用して、オーサリングツールはEMMのサイズを自動調節する。オーサリングツールは、一定のアスペクト比で、オーサによって特定された十分に大きなトータルスコアを有する位置に中心を持つ、最小の四角形を決定する。結果として得られる領域が非常に大きい場合には、オーサリングツールは好適でない領域を避けるためにEMMを移動させようとする。この補助技術は両方ともオーサがスイッチオフすることもできる。好適な領域が見つからない場合には、EMMは赤く着色されて好適でないことが示される。
VII.コンピュータの実施形態
【0073】
図15は、本発明による方法の実施形態の実装が可能なコンピュータ/サーバシステム1500の実施形態を示すブロック図である。システム1500は、当業者には周知のように、命令の実行に作用するプロセッサ1502とメモリ1503を含むコンピュータ/サーバプラットフォーム1501を備える。本明細書で使用される“コンピュータ可読記憶媒体”という用語は、プロセッサ1502に実行命令を与えることに関与する、ディスクや半導体メモリなどの任意の有形媒体を指す。更に、コンピュータプラットフォーム1501は、キーボード、マウス、タッチデバイスなどの複数の入力装置1504、または音声命令からの入力を受信する。コンピュータプラットフォーム1501は更に、ポータブルハードディスク装置、光学媒体(CDまたはDVD)、ディスク媒体、またはコンピュータが実行可能なコードを読み込むことができるその他の任意の有形媒体などのリムーバブル記憶装置1505に接続されていてもよい。コンピュータプラットフォームは更に、インターネットやその他のローカルな公共または私的なネットワーク部品に繋がるネットワークリソース1506に接続されていてもよい。ネットワークリソース1506は、ネットワーク1507上のリモートロケーションから命令およびデータをコンピュータプラットフォームへ供給してもよい。ネットワークリソース1506への接続は、802.11標準やブルートゥース(登録商標)やセルラープロトコル等の無線プロトコル経由で、または、ケーブルやファイバ光学部品などの物理的伝送媒体経由であってもよい。ネットワークリソースは、コンピュータプラットフォーム1501から隔離した場所にデータ及び実行可能な命令を格納するための記憶装置を含んでいてもよい。コンピュータはディスプレイ1508とインタラクトして、データおよびその他の情報をユーザへ出力したり、ユーザからの追加の指示と入力を要求したりする。従ってディスプレイ1508は、ユーザとインタラクトする入力装置1504として更に作用してもよい。
【0074】
上記の実施形態と実装は、当業者が本発明を実施できるように十分詳細に提示される。また、他の実装形態が利用されてもよいこと、及び本発明の範囲及び趣旨を逸脱することなしに様々な要素の構造上の変更及び/または代用が行われてもよいことを理解されたい。従って以下の詳細な記述は本発明を制限するものとして解釈されるべきではない。更に、説明された本発明の様々な実施形態は、汎用コンピュータ上で実行されるソフトウェアの形態、または専用ハードウェアの形態、あるいはソフトウェアとハードウェアの組合せ、のいずれで実装されてもよい。
【符号の説明】
【0075】
101 表示手段
103 コンピュータ
106 適合手段
108 スコア付与手段
110 スコア変更手段
112 可視化手段
114 入力手段
116 入力装置
118 配置手段

【特許請求の範囲】
【請求項1】
デジタルメディアへの視覚リンクをドキュメント上に配置する方法であって、
表示手段により、ドキュメントの少なくとも1ページをディスプレイ上に表示し、
適合手段により、プロセッサとメモリを有するコンピュータを利用して、前記ドキュメントのキーポイントを識別して、前記識別されたキーポイントが適合する既存の視覚リンクおよび対応するキ−ポイントを取得し、
スコア付与手段により、前記ドキュメントのキーポイントと、前記取得された、前記既存の視覚リンクに対応するキーポイントと、の間の類似性に基づいて前記ドキュメントのキーポイントにスコアをつけ、
入力手段により、前記視覚リンクを配置するための前記ドキュメントの1つまたは複数の領域を選択するユーザ入力を受信し、
配置手段により、前記視覚リンクを前記ドキュメント上に配置する、
ことを含む方法。
【請求項2】
スコア変更手段により、前記各キーポイントのスコアを当該キーポイントの周囲のキーポイントのスコアに基づいて変更することをさらに含む、請求項1に記載の方法。
【請求項3】
可視化手段により、前記キーポイントのスコアに基づいて前記ドキュメント上に視覚的なオーバレイを生成することをさらに含み、前記視覚的なオーバレイは前記視覚リンクの配置に対する前記ドキュメントの1つまたは複数の領域の好適度を視覚的に表示する、請求項1に記載の方法。
【請求項4】
前記配置手段により、前記キーポイントのスコアに基づいて、前記視覚リンクの大きさと位置を調整することをさらに含む、請求項1に記載の方法。
【請求項5】
特定のキーポイントに隣接し、すべてが既存の1つの視覚リンクに適合する複数のキーポイントにペナルティを科すことをさらに含む、請求項2に記載の方法。
【請求項6】
前記各キーポイントのスコアの変更が、キーポイント間の距離に応じた重み付きスケールによってさらに変更されることを含む、請求項2に記載の方法。
【請求項7】
前記視覚リンクの配置に対する前記ドキュメント領域の好適度を、キーポイントのスコア密度に基づいて判定することをさらに含む、請求項1に記載の方法。
【請求項8】
前記視覚オーバレイは、前記視覚リンクの配置に対する1つまたは複数の領域の好適度を陰影の勾配によって表示する、請求項3に記載の方法。
【請求項9】
所定の半径内の複数のキーポイントが1つの視覚リンクに適合しているドキュメント領域は好適度を増加させることをさらに含む、請求項1に記載の方法。
【請求項10】
前記視覚リンクは埋め込み型メディアマーカ(EMM)である、請求項1に記載の方法。
【請求項11】
デジタルメディアへの視覚リンクをドキュメント上に配置するシステムであって、
ドキュメントの少なくとも1ページを表示する表示手段と、
前記ドキュメントのキーポイントを識別し、前記識別されたキーポイントが適合する既存の視覚リンクおよび対応するキーポイントを取得する、適合手段と、
前記ドキュメントのキーポイントと、前記取得された、前記既存の視覚リンクに対応するキーポイントと、の間の類似性に基づいて前記ドキュメントのキーポイントにスコアをつける、スコア付与手段と、
前記視覚リンクを配置するための前記ドキュメントの1つまたは複数の領域を選択するユーザ入力を受信する、入力手段と、
前記視覚リンクを前記ドキュメント上に配置する、配置手段と、
を備えるシステム。
【請求項12】
前記各キーポイントのスコアを当該キーポイントの周囲のキーポイントのスコアに基づいて変更するスコア変更手段をさらに含む、請求項11に記載のシステム。
【請求項13】
前記キーポイントのスコアに基づいて前記ドキュメント上に視覚的なオーバレイを生成する可視化手段をさらに備え、前記視覚的なオーバレイは前記視覚リンクの配置に対する前記ドキュメントの1つまたは複数の領域の好適度を視覚的に表示する、請求項11に記載のシステム。
【請求項14】
前記キーポイントのスコアに基づいて、前記視覚リンクの大きさと位置を調整することをさらに含む、請求項11に記載のシステム。
【請求項15】
特定のキーポイントに隣接し、すべてが既存の1つの視覚リンクに適合する複数のキーポイントにペナルティを科すことをさらに含む、請求項12に記載のシステム。
【請求項16】
前記各キーポイントのスコアの変更が、前記キーポイント間の距離に応じた重み付きスケールによってさらに変更されることを含む、請求項12に記載のシステム。
【請求項17】
キーポイントのスコア密度に基づいて、前記視覚リンクの配置に対する前記ドキュメント領域の好適度を判定することをさらに含む、請求項11に記載のシステム。
【請求項18】
前記視覚オーバレイは、前記視覚リンクの配置に対する1つまたは複数の領域の好適度を陰影の勾配によって表示する、請求項13に記載のシステム。
【請求項19】
所定の半径内の複数のキーポイントが1つの視覚リンクに適合しているドキュメント領域は好適度を増加させることをさらに含む、請求項11に記載のシステム。
【請求項20】
前記視覚リンクは埋め込み型メディアマーカ(EMM)である、請求項11に記載のシステム。
【請求項21】
コンピュータに、デジタルメディアへの視覚リンクをドキュメント上に配置させるためのコンピュータプログラムであって、
前記コンピュータに、
ドキュメントの少なくとも1ページをディスプレイ上に表示し、
ドキュメントのキーポイントを識別して、前記識別されたキーポイントが適合する既存の視覚リンクおよび対応するキ−ポイントを取得し、
前記ドキュメントのキーポイントと、前記取得された、前記既存の視覚リンクに対応するキーポイントと、の間の類似性に基づいて前記ドキュメントのキーポイントにスコアをつけ、
前記各キーポイントのスコアを当該キーポイントの周囲のキーポイントのスコアに基づいて変更し、
前記変更されたキーポイントに基づいて、前記ドキュメント上に前記視覚リンクの配置に対する前記ドキュメントの1つまたは複数の領域の好適度を視覚的に表示する視覚的なオーバレイを生成し、
前記視覚リンクを配置するための前記ドキュメントの1つまたは複数の領域を選択するユーザ入力を受信し、
前記視覚リンクを前記ドキュメント上に配置する、
処理を実行させる、コンピュータプログラム。

【図2】
image rotate

【図3】
image rotate

【図15】
image rotate

【図1】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2013−37685(P2013−37685A)
【公開日】平成25年2月21日(2013.2.21)
【国際特許分類】
【出願番号】特願2012−158849(P2012−158849)
【出願日】平成24年7月17日(2012.7.17)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】