文書表示方法、文書表示システムおよびそのコンピュータプログラム

【課題】モバイルデバイスのような小さなディスプレイ上で、より大きなディスプレイでの表示を前提に作成したドキュメントの閲覧と操作を効率的に行えるようにする。
【解決手段】
文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化した後、複数の領域のそれぞれについて画像分析を行い、各領域のスケール−歪み関数を計算する。ビューポート内に含まれる領域のスケール−歪み関数から得られる値を用いて、拡大縮小率を自動的に調整することで、ディスプレイに複数の領域を同時に表示させるときに、拡大縮小率が適切にされた表示をユーザに提供することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明はディスプレイに文書を表示する方法、システムならびにそのためのコンピュータプログラムに関する。
【背景技術】
【０００２】
携帯電話やPDAは世界中の人々に利用されている。これらのデバイスの能力が向上したため、携帯電話やPDAは様々なアプリケーションを動作させるプラットフォームとなってきている。近年、携帯電話、PDAなどの小さいディスプレイをもつデバイス上でドキュメントのページを見る手法に関する研究が盛んになされている。
【０００３】
小さなディスプレイ上でドキュメントを表示し、操作することは困難を伴う。例えば、シンビアンOS（登録商標）上で動作するアドビアクロバットリーダ（登録商標）を用いるときに、ユーザは手動でスクロールや拡大縮小といった操作をする。しかし、この作業は、ユーザが何度もスクロールや拡大縮小のためのボタンを押す必要があるので、とても面倒である。アクロバットリーダでズーム（拡大縮小）を行うためには、３回ボタンを押す必要がある。メニューを介してアクセスするからである。ユーザの指定倍率（例えば、８０％、１２５％）でズームするためには、メニューに入り拡大縮小率をキーパッドで数値入力するため８、９回のボタン操作が必要となる。
【０００４】
また、ドキュメント中の本文を読むのに適した固定倍率を設定できる一方で、例えばタイトルや見出しのような、本文よりも大きい文字の文を読む必要もあるときには何回かの操作が必要となる。ディスプレイには大きい文字は少ししか表示できない上に、より多くのスクロール操作が必要になるためである。
【０００５】
「公知のズーム手法」
アドビのリーダーではいくつかのズームの仕方がサポートされている。モバイル向けのバージョン（ＡｄｏｂｅＲｅａｄｅｒ７ｆｏｒＳｙｍｂｉａｎＯＳ（２００７））では、先に述べたように操作が非常に面倒であり、ユーザはズームメニューコマンドにアクセスするために何度もボタンを押す必要があるか、任意の拡大縮小倍率を入力する必要がある。
【０００６】
「自動ズーム」
速度依存の自動ズーム手法の研究が報告されている（非特許文献１）。このアプリケーションは、１ページの内容を閲覧するためのものではなく多くのページ数を対象にするものである。ユーザが速くスクロールすると、ビューポートがズームアウトし、ページ画像あるいはサムネイル画像が一定速度で認識できるように流れて表示される。
【０００７】
特許文献１には、ラスターイメージの各領域に固定した拡大縮小因子を計算しこれに基づいて自動的にズームを行う手法が開示されている。この方法だと、ユーザが各領域を選択するときに拡大縮小率が変わるため、表示の変化が大きくなる。また周囲の領域をコンテクストとして表示しているが、複数の領域がビューポートに含まれたときの方法については述べていない。
【０００８】
「自動パンアンドズーム」
（株）リコー（登録商標）のマルチメディアサムネイルは電子ドキュメントまたはスキャンされたドキュメントからドキュメントの要素や視覚的なフォーカスポイントを抽出する分析を行い、自動的にレイアウトに基づいて読む順序を決定することが開示されている（非特許文献２）。
【０００９】
ＭｏｂｉＰｉｃｔｕｒｅは、先のマルチメディアサムネイルと似ているが、対象が写真である（非特許文献３）。本技術では、写真から重要領域（ＲＯＩ）を検出し、経路を生成し、パンアンドズームのアニメーションを生成する。
【００１０】
「コラプス−ツー−ズーム（Ｃｏｌｌａｐｓｅ−ｔｏ−ｚｏｏｍ）」
コラプス−ツー−ズーム手法（非特許文献４）は、領域の削減と拡張の技術である。対象となるデバイスはスタイラスを用いるＰＤＡで、対象は、広告、メニュー、アーカイブコンテンツといった関心のない領域を頻繁に含んでいるウェブページである。ユーザはスタイラスを用いて、その領域の位置やサイズを示したり、操作に応じた命令したりする。領域は自動的には検出されない。また多くの携帯電話には付属していないスタイラスを必要ともする。一旦領域が削除されると、ドキュメントの残りの領域を拡大縮小したときに空白が表れる。
【特許文献１】米国特許公開公報２００７−０１５０８２９号公報
【非特許文献１】イガラシ（Igarashi）ら、「大きいドキュメントをブラウジングするための速度に依存した自動ズーム（Speed-dependent automatic zooming for browsing large documents）」、２０００年ＵＩＳＴ抄録（Proceedings of UIST '00）、２０００年、pp. 139-148
【非特許文献２】エロール（Erol）ら、「ドキュメントのためのマルチメディアサムネイル（Multimedia thumbnails for documents）、０６年ＡＣＭマルチメディア抄録（Proceedings of ACM Multimedia '06）、pp. 231-24
【非特許文献３】ワン（Wang）ら、「モビピクチャ−モバイルデバイスで写真をブラウジング（デモ）（MobiPicture - Browsing pictures on mobile devices (Demo)）」、０３年ＡＣＭマルチメディア抄録（Proceedings of ACM Multimedia '03）、pp. 106-107
【非特許文献４】バウディッシュ（Baudisch）ら、「コラプス−ツー−ズーム：無関係なコンテンツを取り除くことによって小さな画面でウェブページを見る（Collapse-to-zoom: viewing web pages on small screen devices by interactively removing irrelevant content）、０４年ＵＩＳＴ抄録（Proceedings of UIST '04）、２００４年、pp. 91-94
【非特許文献５】アイオッフェ（Ｉｏｆｆｅ）、「機械学習による赤目検出（Ｒｅｄｅｙｅｄｅｔｅｃｔｉｏｎｗｉｔｈｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）」、ＩＣＩＰ’０３抄録（ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＩＰ '０３）、２００３年
【発明の開示】
【発明が解決しようとする課題】
【００１１】
本発明は、ディスプレイ上でのドキュメントの閲覧と操作を効率的に行えるようにすることを目的とする。
【課題を解決するための手段】
【００１２】
本発明に関わる文書表示方法は、文書ファイルを取得し、前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化し、前記複数の領域のそれぞれについて画像分析を行い、前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算し、前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定し、前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させることを特徴とする。
【００１３】
別の態様ではこのとき、前記スケール−歪み関数はスケールと歪みとの関係を１次以上の多項近似により計算されるとともに、前記拡大縮小率の決定が１次以上の項の係数に基づいて計算される。
【００１４】
別の態様ではこのとき、さらに、前記ディスプレイには、ビューポートを用いてユーザに前記複数の領域の少なくとも２つを表示させ、前記拡大縮小率は前記ビューポート中に表示される前記複数の領域の少なくとも２つのスケール−歪み関数の値を利用する。
【００１５】
別の態様ではこのとき、前記領域がテキストを含んでおり、前記スケール−歪み関数は、前記テキストのフォントサイズに基づいて計算される。
【００１６】
別の態様ではこのとき、前記フォントサイズは前記文書のビットマップイメージを解析もしくは前記文書のプロパティで既定されるフォントサイズを取得することで決定される。
【００１７】
別の態様ではこのとき、前記スケール−歪み関数は、少なくも一部が、輝度、色値、テクスチャー値、あるいは画像特徴を含むプロパティに基づいて計算される。
【００１８】
別の態様ではこのとき、前記文書はスキャンされたビットマップイメージを含む。
【００１９】
別の態様ではさらに、前記文書のセグメント化は、前記ビットマップイメージに対して、前記複数の領域の連結部分とクラスタを検出することで分析される。
【００２０】
別の態様では、あるいはさらに、前記複数の領域のそれぞれの画像特徴を解析して、前記複数の領域のそれぞれがテキストまたはグラフィックであるかを分類する。
【００２１】
別の態様ではこのとき、前記文書が、少なくともコンテンツとメタデータを含む電子データファイルを含む。
【００２２】
別の態様ではさらに、前記セグメント化が、前記コンテンツもしくはメタデータを用いてなされる。
【００２３】
別の態様では、あるいは、さらに、前記コンテンツもしくはメタデータを用いて前記複数の領域がテキストであるかグラフィックであるかの分類を行う。
【００２４】
別の態様では、あるいは、さらに、前記テキスト領域に対して、前記コンテンツもしくはメタデータを用いてフォントサイズを決定する。
【００２５】
別の態様ではこのとき、前記複数の領域にテキスト領域が含まれているとき、前記拡大縮小率を決定するために前記テキスト領域のフォントサイズに基づいて決定したカットオフ値を用いる。
【００２６】
別の態様ではこのとき、前記複数の領域にグラフィック領域が含まれているとき、前記拡大縮小率を決定するために前記グラフィック領域の画像特徴を分析して得られるカットオフ値を用いる。
【００２７】
別の態様ではこのとき、前記複数の領域に顔を含んだ領域が含まれているとき、顔認識アルゴリズムを適用したときに顔領域が検出できる境界ボックスを用いてカットオフ値を計算する。
【００２８】
また本発明のコンピュータプログラムは、コンピュータに、文書ファイルを取得する手順、前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化する手順、前記複数の領域のそれぞれについて画像分析を行う手順、前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算する手順、前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定する手順、前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる手順を実行させるためのプログラムである。
【００２９】
また本発明の文書表示システムは、文書ファイルを取得する手段と、前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化する手段と、前記複数の領域のそれぞれについて画像分析を行う手段と、前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算する手段と、前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定する手段と、前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる手段とを備える。
【００３０】
なお、本発明の手法は、特に携帯電話やPDAなどの小さいディスプレイ上でドキュメントのページを閲覧するのに有効である。このページはスキャンにより得られたビットマップイメージであってもよいし、テキストとグラフィックデータがメタデータとともに含まれる電子ドキュメントであってもよい。
【発明の効果】
【００３１】
本発明の文書表示方法によれば、文書に含まれる複数の領域をディスプレイに同時に表示させるときに、適切な倍率で拡大縮小された表示をユーザに提供することができる。
【発明を実施するための最良の形態】
【００３２】
以下に本発明に係る実施形態を示す。なお、本発明は以下に示す実施形態のみに限定されるものではない。
【００３３】
「発明の実施形態」
本発明に関わる実施形態では、コンテンツベース自動ズーム（ｃｏｎｔｅｎｔｂａｓｅｄａｕｔｏｍａｔｉｃｚｏｏｍｉｎｇ（ＣＢＡＺ））は、ユーザが操作をする際によりインテリジェントなズームを自動的に行うように構成されており、コンテンツのどの部分を閲覧するかによって、スケール（倍率）を調整する。多くの手作業を減らすことで、閲覧作業は高速かつ簡便になる。適当な量のコンテンツがディスプレイに表示されるので、スクリーン領域をより効率的に利用することができるようになる。
【００３４】
ＣＢＡＺ手法によりドキュメントを閲覧する手法について、図１乃至３に図示した。図１中のドキュメントページ１００は図２に示す領域２０１にセグメント分けされる。図２で、ドキュメントページ１００中の各領域の周囲に四角形２０２が描かれている。各領域２０１について、画像解析に基づいてスケール−歪み関数が決定される。ページ１００でユーザがビューポート（ドキュメント中で実際に表示され閲覧できる範囲、覗き窓）を動かしたときに、図３に示すような、その領域のスケール−歪み関数を最適化（ｏｐｔｉｍｉｓｉｎｇ）しておくことで自動的に拡大縮小率が調節される。図３では、画像３０１、３０２、３０３、３０４の拡大縮小率が、ビューポートで見えるセグメントのスケール−歪み関数を最適化しておくことで自動的に調整される。ここでディスプレイの中心は十字カーソルで示されている。これらのスケールは、（ａ）０．６（画像３０１）、（ｂ）０．７（画像３０２）、（ｃ）０．９（画像３０３）、（ｄ）１．０（画像３０４）である。
【００３５】
ユーザの操作はこのＣＢＡＺ法を用いることで簡単になるが、ＣＢＡＺ計算をサポートするコンピュータシステムでは相当な量の計算が必要となることは明らかである。特にスキャン画像などのビットマップイメージのドキュメントでは、画像のセグメント化アルゴリズムが各ページの領域を決定するために必要となる。ＰＤＦ、マイクロソフトオフィス（登録商標）、ウェブページといった、電子ドキュメントであっても、グラフィックと図を含んだ領域はそのスケール−歪み関数をモデル化するためのコンテンツ解析計算が必要となる。
【００３６】
以下では、システム全体のアーキテクチャを説明する。そして、コンテンツ解析、セグメント化および領域の分類についての詳細を説明し、スケール−歪み関数の決定と最適化について説明する。
【００３７】
「技術的な詳細」
システムアーキテクチャの概要を図５に示す。表示されるドキュメントは、スキャナ５０１、ＰＣ５０２、ウェブやインターネット５０３あるいはドキュメント群５０４を用いて得られる。入力５０５にはドキュメントページが含まれており、例えばスキャナ５０１の画像のような、ビットマップの形式かもしれないし、メタデータが一緒となった電子コンテンツかもしれない。このメタデータでは、四角く区切られる領域を含んだレイアウトの記述や、テキストのフォントのプロパティや図のグラフィックのプロパティといったコンテンツを記述することができる。
【００３８】
本実施形態では、ＣＢＡＺコアモジュールはアプリケーションサーバやコンテンツプロバイダのサーバに統合されている。本発明に関わるシステムには、ページ領域やスケール−歪み関数を計算するためのコンテンツ分析モジュールを含んでもよい。アプリケーションサーバもしくはコンテンツプロバイダは、モバイルデバイスに送信するためにスケール−歪み関数をページコンテンツにパッケージして提供するようにしてもよい。
【００３９】
また本発明に関わる一実施形態では、モバイルデバイス中にインタラクティブなドキュメント閲覧をサポートするＣＢＡＺビューワモジュールを有する。これは、ユーザがドキュメント上でビューポートを操作したときに、スケール−歪み関数の最適化と自動ズーミングを行う。
【００４０】
「コンテンツ分析」
図６は、コンテンツ分析のアルゴリズム６００の一例を説明するものである。この実施形態では、図５に示すコンテンツ分析モジュール５０６によりそのアルゴリズムが実行される。ステップ６０１では、コンテンツ分析モジュール５０６は、例えば図２で示した様にドキュメントページを複数の領域２０１にセグメント化する。この複数の領域２０１それぞれがテキストを含むかグラフィックを含むかによって分類される（ステップ６０１）。以下に詳細を述べる。
【００４１】
「領域のセグメント化と分類」
図７は、セグメント化と領域の分類のためのアルゴリズム７００の例を示すものである。なお、ドキュメントページのレイアウトを解析する技術は多く知られており、以下に示すものはその一例である。ステップ７０１では、表示されるページが入力される。入力されたページはそれがスキャナなどから得られたビットマップイメージか、ＰＤＦ、マイクロソフトオフィス（登録商標）、ウェブページといった、電子ドキュメントであるかによって、異なる処理を行う。ステップ７０２ではステップ７０１で入力されたのがビットマップイメージであるかどうかの決定を行う。電子ドキュメントに対しては、セグメント化は比較的容易であり、レイアウトを記述したメタデータを用いることができる。電子ドキュメントコンテンツとメタデータがステップ７０３のセグメント化領域の決定に用いられる。テキストとグラフィック領域の分類は、コンテンツおよび／またはメタデータから得ることができる（ステップ７０４）。
【００４２】
ビットマップイメージのページに対しては、画像のピクセルの分析を行ってセグメント化を行う（ステップ７０５）。領域を決定するために連結部分やクラスタを見つけることで行う。例えば、図１はサンプルイメージ１００であって、対応するセグメント化された結果２０３が図２に示されている。
【００４３】
テキストを含んだ領域かグラフィックを含んだ領域かを分類するために、ステップ７０６では画像の特徴が分析される。本実施形態では、分類は次のようになされる。最初に、ビットマップイメージは二値化処理される。次に、文字などの画素の連結部分を検出する。これはラベリング法により行うことができる。それぞれの要素に対し、境界ボックスサイズ、アスペクト比、密度といった特性が計算される。その後、それぞれの連結部分の分類がその特徴に基づいて決定される。一つの領域は複数の連結部分からなる一つのクラスタとして扱えるので、その領域は各連結部分の特徴に基づいて分類することができ、例えば、「文字」成分のクラスタは「テキスト」領域に分類される。テキスト以外の領域は、「グラフィック」領域に分類される。
【００４４】
特定の重要なグラフィック領域のタイプとして、顔を含んだ写真がある。現在の技術ではかなり顔検出の信頼度が高い（例えば、非特許文献５）。顔検出技術は当業者に周知の技術である。本発明の実施形態においても画像から顔を検出し分類する顔検出モジュールを用いることができる。
【００４５】
「ある領域のスケール−歪み関数の計算」
各領域２０１に対して、スケール−歪み関数（ｓｃａｌｅ−ｄｉｓｔｏｒｔｉｏｎｆｕｎｃｔｉｏｎ）が、コンテンツ分析モジュール５０６によって計算される。スケール−歪み関数は、領域のスケールを変更することでどの程度歪みが生じるかを表す関数である。ページコンテンツはスケール−歪み特性（ｓｃａｌｅ−ｄｉｓｔｏｒｔｉｏｎｓｐｅｃｉｆｉｃａｔｉｏｎｓ）とともにコンテンツ分析モジュール５０６から出力される（図５）。
【００４６】
本発明の実施形態では、スケール−歪み関数ｙ＝ｆ（ｘ）は以下のように計算される。最初に、連続するｘの値かスケールに対する歪みを計算することで複数のサンプルポイントのセットを得る。複数のサンプルポイントから、多項式補間あるいはスプラインのような周知の他の補間方法を用いて、線形補間を行う。
【００４７】
例えば、図２のページ中の左上の図の参照符号２０３で示される領域を用いると、スケールのセットｘ＝｛０．１，０．２，０．３， …，１．０｝に対応する歪み値が計算される。次に、各ｘ倍で拡大縮小された画像を、リファレンス領域画像をｘ倍で拡大縮小することで形成する。次に、リファレンス画像の画素値と拡大縮小された画像の対応する画素値の差の二乗の和の平方根により歪みを定義する。例えば画素値としてＲＧＢデータを用いる場合には、リファレンス画像の画素と拡大縮小された対応する画素のＲＧＢデータそれぞれの値の差を二乗したものを加算し平方根を取る。画素間の画素値の差を決定するためには、輝度の差、３次元ベクトルとしてＲＧＢ値の差、テクスチャー値、あるいは画像特徴（エネルギー、エントロピー）といった画素の特徴となる値を用いることができる。図４にスケール−歪関数４０１のグラフ４００を示す。
【００４８】
本発明の実施形態では、リファレンス画像の各画素は縮小画像の複数の画素に対応させる（例えば、ｘ＝０．５であれば、リファレンス画像の各画素は、縮小画像の４画素に割り当てられる。）。また、歪み値は、リファレンス領域中の画素数で割ることで正規化される。
【００４９】
「ビューポートにおける拡大縮小率の計算」
本発明の実施形態では、ドキュメントページ内をユーザがビューポートを移動して操作するときに、多様な領域をユーザが見ることができる。ビューポートのスケールは、ビューポート中のこれらの領域を考慮して自動的に調整される。本実施形態では、これらの領域のスケール−歪み関数と、これらの領域からビューポートの中心までの距離に基づく重みを利用して、最適な拡大縮小率を計算する。ビューポートの拡大縮小率計算手法の例を、図８で示す。
【００５０】
ステップ８０１では、システムはユーザがコマンドを出すのを待つ。ステップ８０２では、ユーザがビューポートを移動するコマンドを出したかをシステムは判断する。もし、出していなければシステムはステップ８０１と８０２を繰り返す。もし、ビューポート移動コマンドが受信された場合には、システムはビューポートで見える領域を判断する（ステップ８０３）。ステップ８０４では、システムはスケール−歪み関数を検出した領域に対して計算する。その後、ステップ８０５で、最適な倍率が、これらの領域のスケール−歪み関数と、これらのそれぞれの領域からビューポートの中心の距離に基づく重みに基づいて計算される。
【００５１】
本発明の一実施形態では、以下に示す簡単な計算式を利用する。スケール−歪み関数はサンプルポイントに対して線形あるいは多項補間によりモデル化される。このため、Ｍ個の領域でｎ次の多項補間であれば、スケール−歪み関数は以下のように与えられる。
【数１】

【００５２】
各ｆ_i（ｘ）について、カットオフ値ｘ_i^*を決定する。本実施形態では、これは歪み損失閾値に基づいて決定する。カットオフ値は、ｆ_i（ｘ）が閾値と交差する位置でのｘの値である。そのカットオフ値は、経験的にビューポート中のｉ番目の領域を閲覧するのに最適な倍率とする。なお当業者であれば、この閾値がディスプレイの解像度や画素密度に依存することは明らかであろう。
【００５３】
本実施形態では、カットオフ値は領域の特定のタイプの特徴を利用することもでき、テキスト領域であればそのフォントの閲覧に適したフォントのサイズ、顔を含む画像領域であれば顔認識アルゴリズムで検出される顔の境界ボックスのサイズ、などに基づいて設定することができる。例えば、テキストの場合には、カットオフ値は、テキスト領域中にそのフォントを表示するのに適したスケール値ｘである。もちろん、これもディスプレイの解像度や画素密度に依存する。
【００５４】
重みｗ_iについては、ｉ番目の領域からビューポートの中心までの距離の二乗の逆数で定義できる。距離は、ディスプレイの半径（矩形の場合には外接する円の半径）で割っておくことで正規化される。このため、一次項を用いたときの拡大縮小率の最適化した値は以下の式で与えられる。
【数２】

【００５５】
なお、ｘ_i^*の単純な重み平均を使う０次項の解だけを用いる場合には、１次項を用いる場合と比べて不利な点が生ずる。例えば、１つのテキスト領域と１つの画像領域とがビューポートに含まれるときであって、画像が単純なブロックグラフィック（ｂｌｏｃｋｇｒａｐｈｉｃ）やロゴ（例えば赤十字のロゴ）だったとする。そういった画像領域は、縮小したときにほとんど歪みが生じないので、スケール−歪み関数が平坦になってしまう。ｘ_i^*の単純重み平均を用いることで、テキストのスケールは大きく変化する可能性があり、テキストの閲覧に支障がでる一方で、画像のスケールは変化するものの、若干歪みが変化する程度で閲覧への支障は少ない。他方、上記の式で得られる一次項の解を用いると、平坦なスケール−歪み関数の項は影響が無視できる程度となり、テキストと画像のコンビネーションの両方がより読みやすくなる。なお、１次項以上の高次項を用いる場合であれば、０次項だけを用いるときと比較して縮小したときの歪みが生ずることから同様により好ましいことは明らかである。
【００５６】
なお、本発明は特定の実施例に限定されるものではなく、他のタイプのスケール−歪み関数、重み、解、を用いることも可能である。
【００５７】
「ビューワモジュール」
本実施形態では、図５に示すＣＢＡＺビューワモジュール５１０はプラグインもしくはアプリケーションとして組み込まれ、コンテンツの転送や、ＣＢＡＺコアモジュール５１１を提供するアプリケーションサーバやサービス（コンテンツ）プロバイダ５０８からの伝送を制御する。本実施形態では、ビューワモジュール５１０は、基本的なビューポートの指示を受付け、異なるスケールでの生成画像や異なる解像度の画像で構成される複数の画群の調整を行う。
【００５８】
ＣＢＡＺビューワのプロトタイプはＪａｖａ（登録商標）で作成され、デスクトップＰＣ上でシミュレートした（図３）。本実施形態では、ビューワはユーザが基本的なズームレベルを設定できるようなオプションを含んでいる。この基本的なズームレベルは、各領域でスケール−歪み関数を調整するときに使用される。これは、ユーザの嗜好にあうように、テキストとグラフィックのサイズをカスタマイズするのに有効である。
【００５９】
「コンピュータによる実現例」
図９は、本発明の実施形態に関わるコンピュータ／サーバーシステム９００の実現例を例示したものである。このシステム９００は、コンピュータ／サーバプラットフォーム９０１、周辺装置９０２とネットワークリソース９０３を含んで構成される。
【００６０】
コンピュータプラットフォーム９０１は、情報をコンピュータプラットフォーム９０１内の多様なモジュールとの間で通信するためのデータバス９０４あるいは他の通信機構を有している。そして、プロセッサ（ＣＰＵ）９０５は、情報処理や他の計算および制御処理を行うために、バス９０４と接続されている。コンピュータプラットフォーム９０１はさらに、多様な情報やプロセッサ９０５で処理される命令を記憶する、ランダムアクセスメモリ（RAM）や他の動的記憶装置のような揮発性記憶領域（装置）９０６がバス９０４に接続されている。揮発性記憶領域９０６はプロセッサ９０５の処理において一時的な変数や中間情報を記憶するのに用いられてもよい。コンピュータプラットフォーム９０１は、統計情報や、基本入出力システム（BIOS）のような、プロセッサ９０５の命令や、様々なシステムのパラメータを記憶するために、バス９０４に接続されたリードオンリーメモリ（ROM）や他の静的記憶装置を備えても良い。
【００６１】
コンピュータプラットフォーム９０１には、システム管理者あるいはユーザに情報を提示するために、CRT、プラズマディスプレイ、ＥＬディスプレイあるいは液晶ディスプレイ（ディスプレイ９０９）が、バス９０４を介して接続されている。入力装置（キーボード）９１０はアルファベットと他のキーを備えており、プロセッサ９０５との通信や指示のためにバス９０４に接続されている。他のユーザ用入力装置としては、方向に関する情報を通信し、ディスプレイ９０９上でのカーソルの動きを制御するマウス、トラックボールあるいはカーソル方向キー、タッチパネルのようなカーソル制御装置９１１がある。この入力装置は通常２軸での自由度をもっており、第１の軸（例えばｘ）および第２の軸（例えばｙ）を持つことで平面上での位置をそのデバイスで特定できることとなる。
【００６２】
外部記憶装置９１２を、拡張あるいは取り外し可能な記憶容量をコンピュータプラットフォーム９０１に提供するために、バス９０４を介してコンピュータプラットフォーム９０１に接続してもよい。コンピュータシステム９００の一例で、外付けのリムーバブルメモリ（外部記憶装置９１２）は他のコンピュータシステムとのデータ交換を容易にするために、使用されてもよい。
【００６３】
本発明は、ここに記述された技術を実現するためのコンピュータシステム９００の使い方に関連するものである。実施形態として、コンピュータプラットフォーム９０１のような機械上に、本発明に関するシステムを搭載する。本発明の一形態としては、ここで記載された技術を、揮発性メモリ９０６中の１以上の命令による１以上の処理をプロセッサ９０５に処理させることで実現させる。こうした命令は不揮発性記憶領域（装置）９０８のような他のコンピュータ読取可能な媒体から、揮発性メモリ９０６に読み出してもよい。揮発性メモリ９０６中に保持された一連の命令をプロセッサ９０５に実行させることで、ここに述べた処理ステップを実現させる。他の形態としては、ハードウェアの電子回路を、発明を実現するソフトウェアと、一部置き換え、あるいは、組み合わせてもよい。なお、本発明は特定のスペックを有するハードウェアやソフトウェアの組み合わせに限定されるものではない。
【００６４】
ここで、コンピュータ可読媒体とは、プロセッサ９０５が実行するための命令を提供するのに用いられるあらゆる媒体を指す。コンピュータ可読媒体は機械読取可能媒体の一例であり、ここで述べた、いかなる方法もしくは技術を実現するための命令を保持することができるものである。このような媒体は多様な形態をとり、不揮発性媒体、揮発性媒体、そして通信媒体といったものに限られない。不揮発性媒体としては、例えば、記憶装置（不揮発性記憶領域９０８）のような、光、磁気ディスクが含まれる。揮発性媒体としては、例えば揮発性記憶装置９０６のような動的メモリを含む。通信媒体は、データバス９０４のような配線を含む同軸ケーブル、銅線、光ファイバーなどであってよい。通信媒体は、電磁波や赤外光データ通信のような、音波や光を利用したものも含む。
【００６５】
コンピュータ可読媒体の一般的な形態は、例えば、フロッピー（登録商標）ディスク、ハードディスク、磁気テープあるいは他の磁気媒体、CD-ROMあるいは他の光記憶媒体、パンチカード、紙テープなどの穴の配置を用いる媒体、RAM、ROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリーカードなどのメモリチップやカートリッジ、通信波、あるいはコンピュータが読むことのできる他の媒体、といった通常のコンピュータ可読媒体を含む。
【００６６】
さまざまな形態のコンピュータ可読媒体が、プロセッサ９０５で処理される１以上の処理を実行させるために用いることができる。例えば、その命令が最初はリモートコンピュータから磁気ディスクに保持されてもよい。あるいは、リモートコンピュータがその命令を動的記憶装置にロードして、これをモデムを用いた電話回線を通じて送信してもよい。コンピュータシステム９００に接続されたモデムは、電話回線を通じてデータを受け取るともに、データを赤外線信号に変換して赤外線として伝送するようにしてもよい。赤外線検出装置は、赤外線信号に重畳されたデータを受信し、適当な回路がそのデータをデータバス９０４に伝送する。バス９０４は揮発性記憶領域９０６にデータを伝送し、プロセッサ９０５がその命令を参照して実行できる状態におく。揮発メモリ（揮発性記憶領域９０６）から受け取った命令はプロセッサ９０５により処理される前あるいは後に不揮発性記憶装置９０８に保存されるようにしてもよい。命令は、周知のネットワークデータ通信プロトコルのいずれかで、インターネットを介してコンピュータプラットフォーム９０１にダウンロードするようにしてもよい。
【００６７】
コンピュータプラットフォーム９０１は、データバス９０４に結合したネットワークインターフェースカード９１３のような通信インターフェースも有する。通信インターフェース９１３はローカルネットワーク９１５に接続されたネットワークリンク９１４に接続し、双方向のデータ通信が可能とされる。例えば、通信インターフェース９１３はＩＳＤＮカードやモデムと一体化され、対応する電話回線でのデータ通信を行わせるようにしてもよい。他の例としては、LANや802.11a, 802.11b, 802.11g として周知の無線LANリンクに適合したデータ通信接続を行うローカルエリアネットワークインターフェースカード（LAN NIC）としたり、Bluetooth(登録商標)を用いて実現してもよい。いずれの場合でも、通信インターフェース９１３は、様々なタイプの情報を表すデジタルデータ列を伝送する、電気、電磁、あるいは光信号を送受信する。
【００６８】
ネットワークリンク９１４は、１以上の他のネットワークとデータ通信を通常可能とする。例えば、ネットワークリンク９１４は、ローカルネットワーク９１５を介して、ホストコンピュータ９１６やネットワークストレージやサーバ９２２への接続を提供する。加えて、あるいは代替として、ネットワークリンク９１４は、インターネットのような、広域あるいはグローバルネットワーク９１８にゲートウェイ／ファイアウォール９１７を通じて接続する。そしてコンピュータプラットフォーム９０１はインターネット９１８上のどこかにある、例えばリモートネットワークストレージ／サーバといった、ネットワークリソースにもアクセスすることが可能となる。一方、コンピュータプラットフォーム９０１は、ローカルエリアネットワーク９１５および／またはインターネット９１８上のいかなる位置にいるクライアントからもアクセスできるようにしてもよい。ネットワーククライアント９２０と９２１は、プラットフォーム９０１と同様のコンピュータプラットフォームに基づいて構築しても良い。
【００６９】
ローカルネットワーク９１５とインターネット９１８は、共に電気、電磁、あるいは光信号を、データ信号列を伝播するのに用いる。なお、デジタルデータをコンピュータプラットフォーム９０１に入出させる、多様なネットワークを通じた信号、ネットワークリンク９１４上や、通信インターフェース９１３を介した信号は情報伝送の伝送波の例示的な形態である。
【００７０】
コンピュータプラットフォーム９０１は、メッセージの送信、プログラムコードを含むデータの受信を、インターネット９１８およびローカルエリアネットワーク（LAN）９１５を含む多様なネットワーク、ネットワークリンク９１４および通信インターフェース９１３を介して行うことができる。インターネットの例では、コンピュータプラットフォーム９０１はネットワークサーバとして機能し、クライアント９２０および／または９２１で実行されるアプリケーションプログラム用の、リクエストコードやデータを、インターネット９１８、ゲートウェイ／ファイアウォール９１７、ローカルエリアネットワーク９１５および通信インターフェース９１３を介して伝送する。同様に、他のネットワークリソースからコードを受信してもよい。
【００７１】
受信したコードはプロセッサ９０５によって受信時に実行されるか、不揮発記憶装置９０８あるいは揮発記憶装置９０６に保存する、あるいは他の不揮発性記憶領域に記憶して、後で実行してもよい。このようにしてコンピュータ（プラットフォーム）９０１は伝送波からアプリケーションコードを取得できる。
【００７２】
最後に、ここに記載した方法や技法は、特定の装置固有に成り立つものでなく、いかなる適当な構成要素の組み合わせによっても実現できることを理解されたい。また、この開示の示唆に従って、多様な一般用途の装置を用いてもよい。またここで開示した手法を実現する専用の装置を作成することも有効である。特にモバイルデバイスにおいては、通常コンピュータプラットフォーム９０１と周辺装置９０２の一部や全部が一体に構成される。この発明は特定の例示に基づいて記述されているが、それらは全て限定的にするためではなく、例示するためのものである。当業者であれば、ハードウェア、ソフトウェアおよびファームウェアの多くの異なる組み合わせが本発明を実施するのに適当であることは理解されうることであろう。例えば、ソフトウェアの記述は、アセンブラ, C/C++, pearl, shell, PHP, Java（登録商標）といった多様なプログラムあるいはスクリプト言語を用いて実現できる。
【００７３】
さらに、当業者であればここに開示された本発明の明細書および実施例に基づいて、本発明の他の改良もまた明らかであろう。実施形態に記述された多様な観点や構成は、このコンピュータにより実現される画像検索システムを単独もしくは組み合わることにより利用することができる。明細書と実施例は例示的なものと解釈され、真の発明の示す範囲と思想はクレームにより示されるものである。
【図面の簡単な説明】
【００７４】
【図１】ドキュメントのページの一例である。
【図２】セグメントの周囲を四角で囲んだ、セグメント化されたドキュメントページの一例である。
【図３】本発明の方法に基づくドキュメントページの表示の一例である。
【図４】図２のセグメント２０３に応じたスケール−歪み関数のグラフを示すものである。
【図５】システムアーキテクチャ全体の例示を示すものである。
【図６】コンテント分析のアルゴリズムの例示を示すものである。
【図７】セグメント化と領域分類のアルゴリズムの例示である。
【図８】ビューポートでの拡大縮小率を計算するアルゴリズムの例示である。
【図９】本発明のシステムを実現するコンピュータプラットフォームの例示である。
【符号の説明】
【００７５】
１００ドキュメント
２０１領域
９００コンピュータサーバシステム

【特許請求の範囲】
【請求項１】
文書ファイルを取得し、
前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化し、
前記複数の領域のそれぞれについて画像分析を行い、
前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算し、
前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定し、
前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる、
ことを特徴とする文書表示方法。
【請求項２】
前記スケール−歪み関数はスケールと歪みとの関係を１次以上の多項近似により計算されるとともに、前記拡大縮小率の決定が１次以上の項の係数に基づいて計算されることを特徴とする請求項１記載の文書表示方法。
【請求項３】
さらに、前記ディスプレイには、ビューポートを用いてユーザに前記複数の領域の少なくとも２つを表示させ、前記拡大縮小率は前記ビューポート中に表示される前記複数の領域の少なくとも２つのスケール−歪み関数の値を利用することを特徴とする請求項１記載の文書表示方法。
【請求項４】
前記領域がテキストを含んでおり、前記スケール−歪み関数は、前記テキストのフォントサイズに基づいて計算されることを特徴とする請求項１記載の文書表示方法。
【請求項５】
前記フォントサイズは前記文書のビットマップイメージを解析もしくは前記文書のプロパティで既定されるフォントサイズを取得することで決定されることを特徴とする請求項４記載の文書表示方法。
【請求項６】
前記スケール−歪み関数は、少なくとも一部が、輝度、色値、テクスチャー値、あるいは画像特徴を含むプロパティに基づいて計算されることを特徴とする請求項１記載の文書表示方法。
【請求項７】
前記文書はスキャンされたビットマップイメージを含むことを特徴とする請求項１記載の文書表示方法。
【請求項８】
前記文書のセグメント化は、前記ビットマップイメージに対して、前記複数の領域の連結部分とクラスタを検出することで分析されることを特徴とする請求項７記載の文書表示方法。
【請求項９】
前記複数の領域のそれぞれの画像特徴を解析して、前記複数の領域のそれぞれがテキストであるかグラフィックであるかによって分類することを特徴とする請求項１記載の文書表示方法。
【請求項１０】
前記文書が、少なくともコンテンツとメタデータを含む電子データファイルを含むことを特徴とする請求項１記載の文書表示方法。
【請求項１１】
前記セグメント化が、前記コンテンツもしくはメタデータを用いてなされることを特徴とする請求項１０記載の文書表示方法。
【請求項１２】
さらに、前記コンテンツもしくはメタデータを用いて前記複数の領域がテキストであるかグラフィックであるかの分類を行うことを特徴とする請求項１０記載の文書表示方法。
【請求項１３】
さらに、前記テキスト領域に対して、前記コンテンツもしくはメタデータを用いてフォントサイズを決定することを特徴とする請求項１０記載の文書表示方法。
【請求項１４】
前記複数の領域にテキスト領域が含まれているとき、前記拡大縮小率を決定するために前記テキスト領域のフォントサイズに基づいて決定したカットオフ値を用いることを特徴とする請求項１記載の文書表示方法。
【請求項１５】
前記複数の領域にグラフィック領域が含まれているとき、前記拡大縮小率を決定するために前記グラフィック領域の画像特徴を分析して得られるカットオフ値を用いることを特徴とする請求項１記載の文書表示方法。
【請求項１６】
前記複数の領域に顔を含んだ領域が含まれているとき、顔認識アルゴリズムを適用したときに顔領域が検出できる境界ボックスを用いてカットオフ値を計算することを特徴とする請求項１記載の文書表示方法。
【請求項１７】
コンピュータに、
文書ファイルを取得する手順、
前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化する手順、
前記複数の領域のそれぞれについて画像分析を行う手順、
前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算する手順、
前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定する手順、
前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる手順
を実行させるための文書表示用コンピュータプログラム。
【請求項１８】
文書ファイルを取得する手段と、
前記文書ファイルに基づいて再生表示される文書を複数の領域にセグメント化する手段と、
前記複数の領域のそれぞれについて画像分析を行う手段と、
前記画像分析の結果を用いて前記複数の領域のそれぞれのスケール−歪み関数を計算する手段と、
前記文書のうちディスプレイに表示される領域の前記スケール−歪み関数に基づく値を用いて前記領域を表示させる拡大縮小率を決定する手段と、
前記拡大縮小率で拡大縮小した前記領域を前記ディスプレイに表示させる手段と
を備える文書表示システム。

【図１】