説明

文書表示方法、文書表示システムおよびそのコンピュータプログラム

【課題】モバイルデバイスのような小さなディスプレイ上で、より大きなディスプレイでの表示を前提に作成したドキュメントの閲覧と操作を効率的に行えるようにする。
【解決手段】
文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化した後、複数の領域のそれぞれについて画像分析を行い、各領域のスケール−歪み関数を計算する。ビューポート内に含まれる領域のスケール−歪み関数から得られる値を用いて、拡大縮小率を自動的に調整することで、ディスプレイに複数の領域を同時に表示させるときに、拡大縮小率が適切にされた表示をユーザに提供することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はディスプレイに文書を表示する方法、システムならびにそのためのコンピュータプログラムに関する。
【背景技術】
【0002】
携帯電話やPDAは世界中の人々に利用されている。これらのデバイスの能力が向上したため、携帯電話やPDAは様々なアプリケーションを動作させるプラットフォームとなってきている。近年、携帯電話、PDAなどの小さいディスプレイをもつデバイス上でドキュメントのページを見る手法に関する研究が盛んになされている。
【0003】
小さなディスプレイ上でドキュメントを表示し、操作することは困難を伴う。例えば、シンビアンOS(登録商標)上で動作するアドビ アクロバットリーダ(登録商標)を用いるときに、ユーザは手動でスクロールや拡大縮小といった操作をする。しかし、この作業は、ユーザが何度もスクロールや拡大縮小のためのボタンを押す必要があるので、とても面倒である。アクロバットリーダでズーム(拡大縮小)を行うためには、3回ボタンを押す必要がある。メニューを介してアクセスするからである。ユーザの指定倍率(例えば、80%、125%)でズームするためには、メニューに入り拡大縮小率をキーパッドで数値入力するため8、9回のボタン操作が必要となる。
【0004】
また、ドキュメント中の本文を読むのに適した固定倍率を設定できる一方で、例えばタイトルや見出しのような、本文よりも大きい文字の文を読む必要もあるときには何回かの操作が必要となる。ディスプレイには大きい文字は少ししか表示できない上に、より多くのスクロール操作が必要になるためである。
【0005】
「公知のズーム手法」
アドビのリーダーではいくつかのズームの仕方がサポートされている。モバイル向けのバージョン(Adobe Reader 7 for Symbian OS (2007))では、先に述べたように操作が非常に面倒であり、ユーザはズームメニューコマンドにアクセスするために何度もボタンを押す必要があるか、任意の拡大縮小倍率を入力する必要がある。
【0006】
「自動ズーム」
速度依存の自動ズーム手法の研究が報告されている(非特許文献1)。このアプリケーションは、1ページの内容を閲覧するためのものではなく多くのページ数を対象にするものである。ユーザが速くスクロールすると、ビューポートがズームアウトし、ページ画像あるいはサムネイル画像が一定速度で認識できるように流れて表示される。
【0007】
特許文献1には、ラスターイメージの各領域に固定した拡大縮小因子を計算しこれに基づいて自動的にズームを行う手法が開示されている。この方法だと、ユーザが各領域を選択するときに拡大縮小率が変わるため、表示の変化が大きくなる。また周囲の領域をコンテクストとして表示しているが、複数の領域がビューポートに含まれたときの方法については述べていない。
【0008】
「自動パンアンドズーム」
(株)リコー(登録商標)のマルチメディアサムネイルは電子ドキュメントまたはスキャンされたドキュメントからドキュメントの要素や視覚的なフォーカスポイントを抽出する分析を行い、自動的にレイアウトに基づいて読む順序を決定することが開示されている(非特許文献2)。
【0009】
MobiPictureは、先のマルチメディアサムネイルと似ているが、対象が写真である(非特許文献3)。本技術では、写真から重要領域(ROI)を検出し、経路を生成し、パンアンドズームのアニメーションを生成する。
【0010】
「コラプス−ツー−ズーム(Collapse−to−zoom)」
コラプス−ツー−ズーム手法(非特許文献4)は、領域の削減と拡張の技術である。対象となるデバイスはスタイラスを用いるPDAで、対象は、広告、メニュー、アーカイブコンテンツといった関心のない領域を頻繁に含んでいるウェブページである。ユーザはスタイラスを用いて、その領域の位置やサイズを示したり、操作に応じた命令したりする。領域は自動的には検出されない。また多くの携帯電話には付属していないスタイラスを必要ともする。一旦領域が削除されると、ドキュメントの残りの領域を拡大縮小したときに空白が表れる。
【特許文献1】米国特許公開公報 2007−0150829号公報
【非特許文献1】イガラシ(Igarashi)ら、「大きいドキュメントをブラウジングするための速度に依存した自動ズーム(Speed-dependent automatic zooming for browsing large documents)」、2000年UIST抄録(Proceedings of UIST '00)、2000年、pp. 139-148
【非特許文献2】エロール(Erol)ら、「ドキュメントのためのマルチメディアサムネイル(Multimedia thumbnails for documents)、06年ACMマルチメディア抄録(Proceedings of ACM Multimedia '06)、pp. 231-24
【非特許文献3】ワン(Wang)ら、「モビピクチャ−モバイルデバイスで写真をブラウジング(デモ)(MobiPicture - Browsing pictures on mobile devices (Demo))」、03年ACMマルチメディア抄録(Proceedings of ACM Multimedia '03)、pp. 106-107
【非特許文献4】バウディッシュ(Baudisch)ら、「コラプス−ツー−ズーム:無関係なコンテンツを取り除くことによって小さな画面でウェブページを見る(Collapse-to-zoom: viewing web pages on small screen devices by interactively removing irrelevant content)、04年UIST抄録(Proceedings of UIST '04)、2004年、pp. 91-94
【非特許文献5】アイオッフェ(Ioffe)、「機械学習による赤目検出(Red eye detection with machine learning)」、ICIP’03抄録(Proceedings of ICIP '03)、2003年
【発明の開示】
【発明が解決しようとする課題】
【0011】
本発明は、ディスプレイ上でのドキュメントの閲覧と操作を効率的に行えるようにすることを目的とする。
【課題を解決するための手段】
【0012】
本発明に関わる文書表示方法は、文書ファイルを取得し、前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化し、前記複数の領域のそれぞれについて画像分析を行い、前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算し、前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定し、前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させることを特徴とする。
【0013】
別の態様ではこのとき、前記スケール−歪み関数はスケールと歪みとの関係を1次以上の多項近似により計算されるとともに、前記拡大縮小率の決定が1次以上の項の係数に基づいて計算される。
【0014】
別の態様ではこのとき、さらに、前記ディスプレイには、ビューポートを用いてユーザに前記複数の領域の少なくとも2つを表示させ、前記拡大縮小率は前記ビューポート中に表示される前記複数の領域の少なくとも2つのスケール−歪み関数の値を利用する。
【0015】
別の態様ではこのとき、前記領域がテキストを含んでおり、前記スケール−歪み関数は、前記テキストのフォントサイズに基づいて計算される。
【0016】
別の態様ではこのとき、前記フォントサイズは前記文書のビットマップイメージを解析もしくは前記文書のプロパティで既定されるフォントサイズを取得することで決定される。
【0017】
別の態様ではこのとき、前記スケール−歪み関数は、少なくも一部が、輝度、色値、テクスチャー値、あるいは画像特徴を含むプロパティに基づいて計算される。
【0018】
別の態様ではこのとき、前記文書はスキャンされたビットマップイメージを含む。
【0019】
別の態様ではさらに、前記文書のセグメント化は、前記ビットマップイメージに対して、前記複数の領域の連結部分とクラスタを検出することで分析される。
【0020】
別の態様では、あるいはさらに、前記複数の領域のそれぞれの画像特徴を解析して、前記複数の領域のそれぞれがテキストまたはグラフィックであるかを分類する。
【0021】
別の態様ではこのとき、前記文書が、少なくともコンテンツとメタデータを含む電子データファイルを含む。
【0022】
別の態様ではさらに、前記セグメント化が、前記コンテンツもしくはメタデータを用いてなされる。
【0023】
別の態様では、あるいは、さらに、前記コンテンツもしくはメタデータを用いて前記複数の領域がテキストであるかグラフィックであるかの分類を行う。
【0024】
別の態様では、あるいは、さらに、前記テキスト領域に対して、前記コンテンツもしくはメタデータを用いてフォントサイズを決定する。
【0025】
別の態様ではこのとき、前記複数の領域にテキスト領域が含まれているとき、前記拡大縮小率を決定するために前記テキスト領域のフォントサイズに基づいて決定したカットオフ値を用いる。
【0026】
別の態様ではこのとき、前記複数の領域にグラフィック領域が含まれているとき、前記拡大縮小率を決定するために前記グラフィック領域の画像特徴を分析して得られるカットオフ値を用いる。
【0027】
別の態様ではこのとき、前記複数の領域に顔を含んだ領域が含まれているとき、顔認識アルゴリズムを適用したときに顔領域が検出できる境界ボックスを用いてカットオフ値を計算する。
【0028】
また本発明のコンピュータプログラムは、コンピュータに、文書ファイルを取得する手順、前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化する手順、前記複数の領域のそれぞれについて画像分析を行う手順、前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算する手順、前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定する手順、前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる手順を実行させるためのプログラムである。
【0029】
また本発明の文書表示システムは、文書ファイルを取得する手段と、前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化する手段と、前記複数の領域のそれぞれについて画像分析を行う手段と、前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算する手段と、前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定する手段と、前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる手段とを備える。
【0030】
なお、本発明の手法は、特に携帯電話やPDAなどの小さいディスプレイ上でドキュメントのページを閲覧するのに有効である。このページはスキャンにより得られたビットマップイメージであってもよいし、テキストとグラフィックデータがメタデータとともに含まれる電子ドキュメントであってもよい。
【発明の効果】
【0031】
本発明の文書表示方法によれば、文書に含まれる複数の領域をディスプレイに同時に表示させるときに、適切な倍率で拡大縮小された表示をユーザに提供することができる。
【発明を実施するための最良の形態】
【0032】
以下に本発明に係る実施形態を示す。なお、本発明は以下に示す実施形態のみに限定されるものではない。
【0033】
「発明の実施形態」
本発明に関わる実施形態では、コンテンツベース自動ズーム(content based automatic zooming (CBAZ))は、ユーザが操作をする際によりインテリジェントなズームを自動的に行うように構成されており、コンテンツのどの部分を閲覧するかによって、スケール(倍率)を調整する。多くの手作業を減らすことで、閲覧作業は高速かつ簡便になる。適当な量のコンテンツがディスプレイに表示されるので、スクリーン領域をより効率的に利用することができるようになる。
【0034】
CBAZ手法によりドキュメントを閲覧する手法について、図1乃至3に図示した。図1中のドキュメントページ100は図2に示す領域201にセグメント分けされる。図2で、ドキュメントページ100中の各領域の周囲に四角形202が描かれている。各領域201について、画像解析に基づいてスケール−歪み関数が決定される。ページ100でユーザがビューポート(ドキュメント中で実際に表示され閲覧できる範囲、覗き窓)を動かしたときに、図3に示すような、その領域のスケール−歪み関数を最適化(optimising)しておくことで自動的に拡大縮小率が調節される。図3では、画像301、302、303、304の拡大縮小率が、ビューポートで見えるセグメントのスケール−歪み関数を最適化しておくことで自動的に調整される。ここでディスプレイの中心は十字カーソルで示されている。これらのスケールは、(a)0.6(画像301)、(b)0.7(画像302)、(c)0.9(画像303)、(d)1.0(画像304)である。
【0035】
ユーザの操作はこのCBAZ法を用いることで簡単になるが、CBAZ計算をサポートするコンピュータシステムでは相当な量の計算が必要となることは明らかである。特にスキャン画像などのビットマップイメージのドキュメントでは、画像のセグメント化アルゴリズムが各ページの領域を決定するために必要となる。PDF、マイクロソフトオフィス(登録商標)、ウェブページといった、電子ドキュメントであっても、グラフィックと図を含んだ領域はそのスケール−歪み関数をモデル化するためのコンテンツ解析計算が必要となる。
【0036】
以下では、システム全体のアーキテクチャを説明する。そして、コンテンツ解析、セグメント化および領域の分類についての詳細を説明し、スケール−歪み関数の決定と最適化について説明する。
【0037】
「技術的な詳細」
システムアーキテクチャの概要を図5に示す。表示されるドキュメントは、スキャナ501、PC502、ウェブやインターネット503あるいはドキュメント群504を用いて得られる。入力505にはドキュメントページが含まれており、例えばスキャナ501の画像のような、ビットマップの形式かもしれないし、メタデータが一緒となった電子コンテンツかもしれない。このメタデータでは、四角く区切られる領域を含んだレイアウトの記述や、テキストのフォントのプロパティや図のグラフィックのプロパティといったコンテンツを記述することができる。
【0038】
本実施形態では、CBAZコアモジュールはアプリケーションサーバやコンテンツプロバイダのサーバに統合されている。本発明に関わるシステムには、ページ領域やスケール−歪み関数を計算するためのコンテンツ分析モジュールを含んでもよい。アプリケーションサーバもしくはコンテンツプロバイダは、モバイルデバイスに送信するためにスケール−歪み関数をページコンテンツにパッケージして提供するようにしてもよい。
【0039】
また本発明に関わる一実施形態では、モバイルデバイス中にインタラクティブなドキュメント閲覧をサポートするCBAZビューワモジュールを有する。これは、ユーザがドキュメント上でビューポートを操作したときに、スケール−歪み関数の最適化と自動ズーミングを行う。
【0040】
「コンテンツ分析」
図6は、コンテンツ分析のアルゴリズム600の一例を説明するものである。この実施形態では、図5に示すコンテンツ分析モジュール506によりそのアルゴリズムが実行される。ステップ601では、コンテンツ分析モジュール506は、例えば図2で示した様にドキュメントページを複数の領域201にセグメント化する。この複数の領域201それぞれがテキストを含むかグラフィックを含むかによって分類される(ステップ601)。以下に詳細を述べる。
【0041】
「領域のセグメント化と分類」
図7は、セグメント化と領域の分類のためのアルゴリズム700の例を示すものである。なお、ドキュメントページのレイアウトを解析する技術は多く知られており、以下に示すものはその一例である。ステップ701では、表示されるページが入力される。入力されたページはそれがスキャナなどから得られたビットマップイメージか、PDF、マイクロソフトオフィス(登録商標)、ウェブページといった、電子ドキュメントであるかによって、異なる処理を行う。ステップ702ではステップ701で入力されたのがビットマップイメージであるかどうかの決定を行う。電子ドキュメントに対しては、セグメント化は比較的容易であり、レイアウトを記述したメタデータを用いることができる。電子ドキュメントコンテンツとメタデータがステップ703のセグメント化領域の決定に用いられる。テキストとグラフィック領域の分類は、コンテンツおよび/またはメタデータから得ることができる(ステップ704)。
【0042】
ビットマップイメージのページに対しては、画像のピクセルの分析を行ってセグメント化を行う(ステップ705)。領域を決定するために連結部分やクラスタを見つけることで行う。例えば、図1はサンプルイメージ100であって、対応するセグメント化された結果203が図2に示されている。
【0043】
テキストを含んだ領域かグラフィックを含んだ領域かを分類するために、ステップ706では画像の特徴が分析される。本実施形態では、分類は次のようになされる。最初に、ビットマップイメージは二値化処理される。次に、文字などの画素の連結部分を検出する。これはラベリング法により行うことができる。それぞれの要素に対し、境界ボックスサイズ、アスペクト比、密度といった特性が計算される。その後、それぞれの連結部分の分類がその特徴に基づいて決定される。一つの領域は複数の連結部分からなる一つのクラスタとして扱えるので、その領域は各連結部分の特徴に基づいて分類することができ、例えば、「文字」成分のクラスタは「テキスト」領域に分類される。テキスト以外の領域は、「グラフィック」領域に分類される。
【0044】
特定の重要なグラフィック領域のタイプとして、顔を含んだ写真がある。現在の技術ではかなり顔検出の信頼度が高い(例えば、非特許文献5)。顔検出技術は当業者に周知の技術である。本発明の実施形態においても画像から顔を検出し分類する顔検出モジュールを用いることができる。
【0045】
「ある領域のスケール−歪み関数の計算」
各領域201に対して、スケール−歪み関数(scale−distortion function)が、コンテンツ分析モジュール506によって計算される。スケール−歪み関数は、領域のスケールを変更することでどの程度歪みが生じるかを表す関数である。ページコンテンツはスケール−歪み特性(scale−distortion specifications)とともにコンテンツ分析モジュール506から出力される(図5)。
【0046】
本発明の実施形態では、スケール−歪み関数y = f(x)は以下のように計算される。最初に、連続するxの値かスケールに対する歪みを計算することで複数のサンプルポイントのセットを得る。複数のサンプルポイントから、多項式補間あるいはスプラインのような周知の他の補間方法を用いて、線形補間を行う。
【0047】
例えば、図2のページ中の左上の図の参照符号203で示される領域を用いると、スケールのセットx = {0.1, 0.2, 0.3, …, 1.0}に対応する歪み値が計算される。次に、各x倍で拡大縮小された画像を、リファレンス領域画像をx倍で拡大縮小することで形成する。次に、リファレンス画像の画素値と拡大縮小された画像の対応する画素値の差の二乗の和の平方根により歪みを定義する。例えば画素値としてRGBデータを用いる場合には、リファレンス画像の画素と拡大縮小された対応する画素のRGBデータそれぞれの値の差を二乗したものを加算し平方根を取る。画素間の画素値の差を決定するためには、輝度の差、3次元ベクトルとしてRGB値の差、テクスチャー値、あるいは画像特徴(エネルギー、エントロピー)といった画素の特徴となる値を用いることができる。図4にスケール−歪関数401のグラフ400を示す。
【0048】
本発明の実施形態では、リファレンス画像の各画素は縮小画像の複数の画素に対応させる(例えば、x=0.5であれば、リファレンス画像の各画素は、縮小画像の4画素に割り当てられる。)。また、歪み値は、リファレンス領域中の画素数で割ることで正規化される。
【0049】
「ビューポートにおける拡大縮小率の計算」
本発明の実施形態では、ドキュメントページ内をユーザがビューポートを移動して操作するときに、多様な領域をユーザが見ることができる。ビューポートのスケールは、ビューポート中のこれらの領域を考慮して自動的に調整される。本実施形態では、これらの領域のスケール−歪み関数と、これらの領域からビューポートの中心までの距離に基づく重みを利用して、最適な拡大縮小率を計算する。ビューポートの拡大縮小率計算手法の例を、図8で示す。
【0050】
ステップ801では、システムはユーザがコマンドを出すのを待つ。ステップ802では、ユーザがビューポートを移動するコマンドを出したかをシステムは判断する。もし、出していなければシステムはステップ801と802を繰り返す。もし、ビューポート移動コマンドが受信された場合には、システムはビューポートで見える領域を判断する(ステップ803)。ステップ804では、システムはスケール−歪み関数を検出した領域に対して計算する。その後、ステップ805で、最適な倍率が、これらの領域のスケール−歪み関数と、これらのそれぞれの領域からビューポートの中心の距離に基づく重みに基づいて計算される。
【0051】
本発明の一実施形態では、以下に示す簡単な計算式を利用する。スケール−歪み関数はサンプルポイントに対して線形あるいは多項補間によりモデル化される。このため、M個の領域でn次の多項補間であれば、スケール−歪み関数は以下のように与えられる。
【数1】

【0052】
各fi(x)について、カットオフ値xi*を決定する。本実施形態では、これは歪み損失閾値に基づいて決定する。カットオフ値は、fi(x)が閾値と交差する位置でのxの値である。そのカットオフ値は、経験的にビューポート中のi番目の領域を閲覧するのに最適な倍率とする。なお当業者であれば、この閾値がディスプレイの解像度や画素密度に依存することは明らかであろう。
【0053】
本実施形態では、カットオフ値は領域の特定のタイプの特徴を利用することもでき、テキスト領域であればそのフォントの閲覧に適したフォントのサイズ、顔を含む画像領域であれば顔認識アルゴリズムで検出される顔の境界ボックスのサイズ、などに基づいて設定することができる。例えば、テキストの場合には、カットオフ値は、テキスト領域中にそのフォントを表示するのに適したスケール値xである。もちろん、これもディスプレイの解像度や画素密度に依存する。
【0054】
重みwiについては、i番目の領域からビューポートの中心までの距離の二乗の逆数で定義できる。距離は、ディスプレイの半径(矩形の場合には外接する円の半径)で割っておくことで正規化される。このため、一次項を用いたときの拡大縮小率の最適化した値は以下の式で与えられる。
【数2】

【0055】
なお、xi*の単純な重み平均を使う0次項の解だけを用いる場合には、1次項を用いる場合と比べて不利な点が生ずる。例えば、1つのテキスト領域と1つの画像領域とがビューポートに含まれるときであって、画像が単純なブロックグラフィック(block graphic)やロゴ(例えば赤十字のロゴ)だったとする。そういった画像領域は、縮小したときにほとんど歪みが生じないので、スケール−歪み関数が平坦になってしまう。xi*の単純重み平均を用いることで、テキストのスケールは大きく変化する可能性があり、テキストの閲覧に支障がでる一方で、画像のスケールは変化するものの、若干歪みが変化する程度で閲覧への支障は少ない。他方、上記の式で得られる一次項の解を用いると、平坦なスケール−歪み関数の項は影響が無視できる程度となり、テキストと画像のコンビネーションの両方がより読みやすくなる。なお、1次項以上の高次項を用いる場合であれば、0次項だけを用いるときと比較して縮小したときの歪みが生ずることから同様により好ましいことは明らかである。
【0056】
なお、本発明は特定の実施例に限定されるものではなく、他のタイプのスケール−歪み関数、重み、解、を用いることも可能である。
【0057】
「ビューワ モジュール」
本実施形態では、図5に示すCBAZビューワモジュール510はプラグインもしくはアプリケーションとして組み込まれ、コンテンツの転送や、CBAZコアモジュール511を提供するアプリケーションサーバやサービス(コンテンツ)プロバイダ508からの伝送を制御する。本実施形態では、ビューワモジュール510は、基本的なビューポートの指示を受付け、異なるスケールでの生成画像や異なる解像度の画像で構成される複数の画群の調整を行う。
【0058】
CBAZビューワのプロトタイプはJava(登録商標)で作成され、デスクトップPC上でシミュレートした(図3)。本実施形態では、ビューワはユーザが基本的なズームレベルを設定できるようなオプションを含んでいる。この基本的なズームレベルは、各領域でスケール−歪み関数を調整するときに使用される。これは、ユーザの嗜好にあうように、テキストとグラフィックのサイズをカスタマイズするのに有効である。
【0059】
「コンピュータによる実現例」
図9は、本発明の実施形態に関わるコンピュータ/サーバーシステム900の実現例を例示したものである。このシステム900は、コンピュータ/サーバプラットフォーム901、周辺装置902とネットワークリソース903を含んで構成される。
【0060】
コンピュータプラットフォーム901は、情報をコンピュータプラットフォーム901内の多様なモジュールとの間で通信するためのデータバス904あるいは他の通信機構を有している。そして、プロセッサ(CPU)905は、情報処理や他の計算および制御処理を行うために、バス904と接続されている。コンピュータプラットフォーム901はさらに、多様な情報やプロセッサ905で処理される命令を記憶する、ランダムアクセスメモリ(RAM)や他の動的記憶装置のような揮発性記憶領域(装置)906がバス904に接続されている。揮発性記憶領域906はプロセッサ905の処理において一時的な変数や中間情報を記憶するのに用いられてもよい。コンピュータプラットフォーム901は、統計情報や、基本入出力システム(BIOS)のような、プロセッサ905の命令や、様々なシステムのパラメータを記憶するために、バス904に接続されたリードオンリーメモリ(ROM)や他の静的記憶装置を備えても良い。
【0061】
コンピュータプラットフォーム901には、システム管理者あるいはユーザに情報を提示するために、CRT、プラズマディスプレイ、ELディスプレイあるいは液晶ディスプレイ(ディスプレイ909)が、バス904を介して接続されている。入力装置(キーボード)910はアルファベットと他のキーを備えており、プロセッサ905との通信や指示のためにバス904に接続されている。他のユーザ用入力装置としては、方向に関する情報を通信し、ディスプレイ909上でのカーソルの動きを制御するマウス、トラックボールあるいはカーソル方向キー、タッチパネルのようなカーソル制御装置911がある。この入力装置は通常2軸での自由度をもっており、第1の軸(例えばx)および第2の軸(例えばy)を持つことで平面上での位置をそのデバイスで特定できることとなる。
【0062】
外部記憶装置912を、拡張あるいは取り外し可能な記憶容量をコンピュータプラットフォーム901に提供するために、バス904を介してコンピュータプラットフォーム901に接続してもよい。コンピュータシステム900の一例で、外付けのリムーバブルメモリ(外部記憶装置912)は他のコンピュータシステムとのデータ交換を容易にするために、使用されてもよい。
【0063】
本発明は、ここに記述された技術を実現するためのコンピュータシステム900の使い方に関連するものである。実施形態として、コンピュータプラットフォーム901のような機械上に、本発明に関するシステムを搭載する。本発明の一形態としては、ここで記載された技術を、揮発性メモリ906中の1以上の命令による1以上の処理をプロセッサ905に処理させることで実現させる。こうした命令は不揮発性記憶領域(装置)908のような他のコンピュータ読取可能な媒体から、揮発性メモリ906に読み出してもよい。揮発性メモリ906中に保持された一連の命令をプロセッサ905に実行させることで、ここに述べた処理ステップを実現させる。他の形態としては、ハードウェアの電子回路を、発明を実現するソフトウェアと、一部置き換え、あるいは、組み合わせてもよい。なお、本発明は特定のスペックを有するハードウェアやソフトウェアの組み合わせに限定されるものではない。
【0064】
ここで、コンピュータ可読媒体とは、プロセッサ905が実行するための命令を提供するのに用いられるあらゆる媒体を指す。コンピュータ可読媒体は機械読取可能媒体の一例であり、ここで述べた、いかなる方法もしくは技術を実現するための命令を保持することができるものである。このような媒体は多様な形態をとり、不揮発性媒体、揮発性媒体、そして通信媒体といったものに限られない。不揮発性媒体としては、例えば、記憶装置(不揮発性記憶領域908)のような、光、磁気ディスクが含まれる。揮発性媒体としては、例えば揮発性記憶装置906のような動的メモリを含む。通信媒体は、データバス904のような配線を含む同軸ケーブル、銅線、光ファイバーなどであってよい。通信媒体は、電磁波や赤外光データ通信のような、音波や光を利用したものも含む。
【0065】
コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、ハードディスク、磁気テープあるいは他の磁気媒体、CD-ROMあるいは他の光記憶媒体、パンチカード、紙テープなどの穴の配置を用いる媒体、RAM、ROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリーカードなどのメモリチップやカートリッジ、通信波、あるいはコンピュータが読むことのできる他の媒体、といった通常のコンピュータ可読媒体を含む。
【0066】
さまざまな形態のコンピュータ可読媒体が、プロセッサ905で処理される1以上の処理を実行させるために用いることができる。例えば、その命令が最初はリモートコンピュータから磁気ディスクに保持されてもよい。あるいは、リモートコンピュータがその命令を動的記憶装置にロードして、これをモデムを用いた電話回線を通じて送信してもよい。コンピュータシステム900に接続されたモデムは、電話回線を通じてデータを受け取るともに、データを赤外線信号に変換して赤外線として伝送するようにしてもよい。赤外線検出装置は、赤外線信号に重畳されたデータを受信し、適当な回路がそのデータをデータバス904に伝送する。バス904は揮発性記憶領域906にデータを伝送し、プロセッサ905がその命令を参照して実行できる状態におく。揮発メモリ(揮発性記憶領域906)から受け取った命令はプロセッサ905により処理される前あるいは後に不揮発性記憶装置908に保存されるようにしてもよい。命令は、周知のネットワークデータ通信プロトコルのいずれかで、インターネットを介してコンピュータプラットフォーム901にダウンロードするようにしてもよい。
【0067】
コンピュータプラットフォーム901は、データバス904に結合したネットワークインターフェースカード913のような通信インターフェースも有する。通信インターフェース913はローカルネットワーク915に接続されたネットワークリンク914に接続し、双方向のデータ通信が可能とされる。例えば、通信インターフェース913はISDNカードやモデムと一体化され、対応する電話回線でのデータ通信を行わせるようにしてもよい。他の例としては、LANや802.11a, 802.11b, 802.11g として周知の無線LANリンクに適合したデータ通信接続を行うローカルエリアネットワークインターフェースカード(LAN NIC)としたり、Bluetooth(登録商標)を用いて実現してもよい。いずれの場合でも、通信インターフェース913は、様々なタイプの情報を表すデジタルデータ列を伝送する、電気、電磁、あるいは光信号を送受信する。
【0068】
ネットワークリンク914は、1以上の他のネットワークとデータ通信を通常可能とする。例えば、ネットワークリンク914は、ローカルネットワーク915を介して、ホストコンピュータ916やネットワークストレージやサーバ922への接続を提供する。加えて、あるいは代替として、ネットワークリンク914は、インターネットのような、広域あるいはグローバルネットワーク918にゲートウェイ/ファイアウォール917を通じて接続する。そしてコンピュータプラットフォーム901はインターネット918上のどこかにある、例えばリモートネットワークストレージ/サーバといった、ネットワークリソースにもアクセスすることが可能となる。一方、コンピュータプラットフォーム901は、ローカルエリアネットワーク915および/またはインターネット918上のいかなる位置にいるクライアントからもアクセスできるようにしてもよい。ネットワーククライアント920と921は、プラットフォーム901と同様のコンピュータプラットフォームに基づいて構築しても良い。
【0069】
ローカルネットワーク915とインターネット918は、共に電気、電磁、あるいは光信号を、データ信号列を伝播するのに用いる。なお、デジタルデータをコンピュータプラットフォーム901に入出させる、多様なネットワークを通じた信号、ネットワークリンク914上や、通信インターフェース913を介した信号は情報伝送の伝送波の例示的な形態である。
【0070】
コンピュータプラットフォーム901は、メッセージの送信、プログラムコードを含むデータの受信を、インターネット918およびローカルエリアネットワーク(LAN)915を含む多様なネットワーク、ネットワークリンク914および通信インターフェース913を介して行うことができる。インターネットの例では、コンピュータプラットフォーム901はネットワークサーバとして機能し、クライアント920および/または921で実行されるアプリケーションプログラム用の、リクエストコードやデータを、インターネット918、ゲートウェイ/ファイアウォール917、ローカルエリアネットワーク915および通信インターフェース913を介して伝送する。同様に、他のネットワークリソースからコードを受信してもよい。
【0071】
受信したコードはプロセッサ905によって受信時に実行されるか、不揮発記憶装置908あるいは揮発記憶装置906に保存する、あるいは他の不揮発性記憶領域に記憶して、後で実行してもよい。このようにしてコンピュータ(プラットフォーム)901は伝送波からアプリケーションコードを取得できる。
【0072】
最後に、ここに記載した方法や技法は、特定の装置固有に成り立つものでなく、いかなる適当な構成要素の組み合わせによっても実現できることを理解されたい。また、この開示の示唆に従って、多様な一般用途の装置を用いてもよい。またここで開示した手法を実現する専用の装置を作成することも有効である。特にモバイルデバイスにおいては、通常コンピュータプラットフォーム901と周辺装置902の一部や全部が一体に構成される。この発明は特定の例示に基づいて記述されているが、それらは全て限定的にするためではなく、例示するためのものである。当業者であれば、ハードウェア、ソフトウェアおよびファームウェアの多くの異なる組み合わせが本発明を実施するのに適当であることは理解されうることであろう。例えば、ソフトウェアの記述は、アセンブラ, C/C++, pearl, shell, PHP, Java(登録商標)といった多様なプログラムあるいはスクリプト言語を用いて実現できる。
【0073】
さらに、当業者であればここに開示された本発明の明細書および実施例に基づいて、本発明の他の改良もまた明らかであろう。実施形態に記述された多様な観点や構成は、このコンピュータにより実現される画像検索システムを単独もしくは組み合わることにより利用することができる。明細書と実施例は例示的なものと解釈され、真の発明の示す範囲と思想はクレームにより示されるものである。
【図面の簡単な説明】
【0074】
【図1】ドキュメントのページの一例である。
【図2】セグメントの周囲を四角で囲んだ、セグメント化されたドキュメントページの一例である。
【図3】本発明の方法に基づくドキュメントページの表示の一例である。
【図4】図2のセグメント203に応じたスケール−歪み関数のグラフを示すものである。
【図5】システムアーキテクチャ全体の例示を示すものである。
【図6】コンテント分析のアルゴリズムの例示を示すものである。
【図7】セグメント化と領域分類のアルゴリズムの例示である。
【図8】ビューポートでの拡大縮小率を計算するアルゴリズムの例示である。
【図9】本発明のシステムを実現するコンピュータプラットフォームの例示である。
【符号の説明】
【0075】
100 ドキュメント
201 領域
900 コンピュータサーバシステム

【特許請求の範囲】
【請求項1】
文書ファイルを取得し、
前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化し、
前記複数の領域のそれぞれについて画像分析を行い、
前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算し、
前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定し、
前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる、
ことを特徴とする文書表示方法。
【請求項2】
前記スケール−歪み関数はスケールと歪みとの関係を1次以上の多項近似により計算されるとともに、前記拡大縮小率の決定が1次以上の項の係数に基づいて計算されることを特徴とする請求項1記載の文書表示方法。
【請求項3】
さらに、前記ディスプレイには、ビューポートを用いてユーザに前記複数の領域の少なくとも2つを表示させ、前記拡大縮小率は前記ビューポート中に表示される前記複数の領域の少なくとも2つのスケール−歪み関数の値を利用することを特徴とする請求項1記載の文書表示方法。
【請求項4】
前記領域がテキストを含んでおり、前記スケール−歪み関数は、前記テキストのフォントサイズに基づいて計算されることを特徴とする請求項1記載の文書表示方法。
【請求項5】
前記フォントサイズは前記文書のビットマップイメージを解析もしくは前記文書のプロパティで既定されるフォントサイズを取得することで決定されることを特徴とする請求項4記載の文書表示方法。
【請求項6】
前記スケール−歪み関数は、少なくとも一部が、輝度、色値、テクスチャー値、あるいは画像特徴を含むプロパティに基づいて計算されることを特徴とする請求項1記載の文書表示方法。
【請求項7】
前記文書はスキャンされたビットマップイメージを含むことを特徴とする請求項1記載の文書表示方法。
【請求項8】
前記文書のセグメント化は、前記ビットマップイメージに対して、前記複数の領域の連結部分とクラスタを検出することで分析されることを特徴とする請求項7記載の文書表示方法。
【請求項9】
前記複数の領域のそれぞれの画像特徴を解析して、前記複数の領域のそれぞれがテキストであるかグラフィックであるかによって分類することを特徴とする請求項1記載の文書表示方法。
【請求項10】
前記文書が、少なくともコンテンツとメタデータを含む電子データファイルを含むことを特徴とする請求項1記載の文書表示方法。
【請求項11】
前記セグメント化が、前記コンテンツもしくはメタデータを用いてなされることを特徴とする請求項10記載の文書表示方法。
【請求項12】
さらに、前記コンテンツもしくはメタデータを用いて前記複数の領域がテキストであるかグラフィックであるかの分類を行うことを特徴とする請求項10記載の文書表示方法。
【請求項13】
さらに、前記テキスト領域に対して、前記コンテンツもしくはメタデータを用いてフォントサイズを決定することを特徴とする請求項10記載の文書表示方法。
【請求項14】
前記複数の領域にテキスト領域が含まれているとき、前記拡大縮小率を決定するために前記テキスト領域のフォントサイズに基づいて決定したカットオフ値を用いることを特徴とする請求項1記載の文書表示方法。
【請求項15】
前記複数の領域にグラフィック領域が含まれているとき、前記拡大縮小率を決定するために前記グラフィック領域の画像特徴を分析して得られるカットオフ値を用いることを特徴とする請求項1記載の文書表示方法。
【請求項16】
前記複数の領域に顔を含んだ領域が含まれているとき、顔認識アルゴリズムを適用したときに顔領域が検出できる境界ボックスを用いてカットオフ値を計算することを特徴とする請求項1記載の文書表示方法。
【請求項17】
コンピュータに、
文書ファイルを取得する手順、
前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化する手順、
前記複数の領域のそれぞれについて画像分析を行う手順、
前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算する手順、
前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定する手順、
前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる手順
を実行させるための文書表示用コンピュータプログラム。
【請求項18】
文書ファイルを取得する手段と、
前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化する手段と、
前記複数の領域のそれぞれについて画像分析を行う手段と、
前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算する手段と、
前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定する手段と、
前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる手段と
を備える文書表示システム。

【図1】
image rotate

【図2】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図3】
image rotate


【公開番号】特開2009−176287(P2009−176287A)
【公開日】平成21年8月6日(2009.8.6)
【国際特許分類】
【出願番号】特願2008−309973(P2008−309973)
【出願日】平成20年12月4日(2008.12.4)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】