説明

ドキュメントページの自動分類

【課題】本などのソースのページの画像を、表表紙、著作権ページ、目次、テキスト、索引などの分類に、自動的に分類するシステムおよび方法が開示される。
【解決手段】一実施形態では、分類プロセスの中で3つのフェーズが提供される。分類プロセスの第1フェーズの間、単一ページ基準に基づいてページ画像の予備分類を決定するために、第1の分類器が使用されてもよい。分類プロセスの第2フェーズの間、複数ページおよび/またはグローバル基準に基づいて、ページ画像のための最終分類を決定するために、第2の分類器が使用されてもよい。分類の、任意選択の第3フェーズの間、検証基準に基づいてページ画像の最終分類を検証するために、検証器が使用されてもよい。自動分類に失敗した場合、ページ画像は、手作業による分類のために人間のオペレータに引き渡されてもよい。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツのページの画像の分類(classification)を提供するシステムおよび方法に関する。
【背景技術】
【0002】
情報時代は、人々が読むためのコンテンツの爆発的な増加をもたらした。このコンテンツは、印刷されて存在する、本、雑誌、新聞、ニュースレター、マニュアル、ガイド、リファレンス、アーティクル(記事)、レポート、ドキュメントなどの従来のソースから、および、前述のソースをデジタル形式で提供する電子媒体から取得される。インターネットは、ポータブルドキュメントファイル(PDF:portable document
files)および電子ブック(e−books)などの、デジタル形式のコンテンツのさらに広い範囲の公開をますます容易にしてきた。
【0003】
デジタルイメージング装置の技術進歩は、印刷されたソースからのコンテンツの、デジタル形式への変換を可能にした。例えば、自動原稿送り装置(automatic document feeders)またはスキャニングロボット(scanning robots)を装備したスキャナを含む、デジタルイメージングシステムが現在では入手可能であり、そのようなシステムは、印刷されたコンテンツのページのデジタル画像を取得し、そして、文字認識技術を使用して画像をコンピュータ読み取り可能なテキストに変換する。それらの「ページ画像」は、次に、コンピューティング装置内に記憶されて、ユーザに配布されてもよい。ページ画像は、さらに、.pdfフォーマット(ポータブルドキュメントフォーマット(Portable Document Format))の電子ファイルを含む、電子ファイルなどの、その他のソースから提供されてもよい。
【発明の概要】
【発明が解決しようとする課題】
【0004】
コンピューティング装置上に記憶された、本またはその他のソースからのコンテンツの1つ以上のページの画像に、ユーザがアクセスを試みる際に、画像によって表されるページのタイプまたは分類に基づいて、そのようなアクセスを容易にし、それによりユーザ体験を向上させることが望ましい場合がある。例えば、コンテンツに、ページ画像ごとに順次アクセスすることによって、コンテンツの特定の部分に到達するようにユーザに強いるのではなく、例えば、目次として、またはテキストの開始として分類されたページ画像への、直接リンクが提供されてもよい。
【0005】
現在のところ、ページ内容の分類は手作業で行われており、これは時間がかかり、コストがかかる。したがって、コンテンツのページの画像を自動的に分類するための方法およびシステムが必要とされている。
【課題を解決するための手段】
【0006】
本発明の実施形態によれば、本などのソースのページ画像を、表表紙(front cover)、著作権ページ(copyright page)、目次(table of
contents)、テキスト(text)、索引(index)などの分類に、自動的に分類するシステムが提供される。例えば、ソースのコンテンツに関連する基準(criteria)を記憶するためのデータベースと、データベース内に記憶された基準に基づいて、ソースからのコンテンツのページの画像を自動的に分類する分類器(classifier)とを含む、システムが開示される。基準は、画像が分類器によって分類されているページのコンテンツに関連していてもよく、かつ/または、基準は、ソース全体のコンテンツに関連していてもよい。さらに、基準は、アプリオリな知識に基づく動的な情報を含み、かつ/または、基準は、予め定められた静的な情報を含んでもよい。システムは、分類器によって提供された、ページの画像の分類を検証する、検証器(verifier)を任意選択で含んでもよい。しかし、分類器が、ページの画像を分類することができない場合、または、検証器が、分類器によって生成された分類を検証することができない場合、ページの画像は手作業で分類されてもよい。
【0007】
上述のシステムと一般に整合性のある、ページ画像を分類するための方法と、ページ画像を分類するための命令がエンコードされたコンピュータ読み取り可能な媒体とが、さらに開示される。
【0008】
本のページ画像、またはコンテンツのその他のソースのページ画像が、電子的に利用できるようにされる前に、ソースのさまざまなページ画像を、それらの中に含まれるコンテンツのタイプに従って分類することが望ましい場合がある。例えば、本のページ画像は、「表紙(cover)」、「著作権ページ(copyright page)」、「目次(table of contents)」、「テキスト(text)」、「索引(index)」などとして分類されてもよい。いくつかの実施形態では、そのような分類は、例えば目次などの、特定のタイプのページの画像にユーザを直接リンクするために使用されてもよい。さらに他の実施形態では、そのような分類は、表紙ページの画像などの、特定のページ画像を、アクセスから除外するために使用されてもよい。さらに、白紙ページなどの、著作権保護されていないページの画像を除外することによって、ユーザは、アクセスされているコンテンツのコピーをユーザが所有していない場合にコンテンツの一定の割合のみがアクセスされることを可能にする、公正使用の理論(fair use doctrine)の下で、著作権保護されたページのより多くの画像へのアクセスを許可されてもよい。
【0009】
現在のところ、ページ画像は、人間のオペレータによって手作業で分類されている。これは、時間がかかる、高価なプロセスである。ページ画像の分類のコストおよび時間を削減するために、ページ画像を自動的に分類するためのシステムおよび方法が開示される。分類は、以下に限定されないが、表表紙(front cover)、フロントフェイス(front face)(通常は、本のすぐ内側の白黒のカバー)、前付け(front matter)(通常は、概説(reviews)、白紙ページ(blank pages)、序文(introduction)、前書き(preface)、献辞(dedication)などを含む)、著作権ページ(copyright page)、目次(table of contents)、テキスト(text)(通常は、本またはソースの本文(main body)を含むが、序文、前書きなどは除く)、索引(index)、後付け(back matter)(概説(reviews)、注文用紙(order forms)など)、および裏表紙(back cover)を含んでもよい。ページ画像は、システムの目的のために好適と考えられる、または、例えば本、雑誌、定期刊行物などに基づいた、任意のカテゴリまたはタイプに分類されてもよいということを、当業者は認識するであろう。
【図面の簡単な説明】
【0010】
【図1】本発明により形成されるページ画像分類システムの実施形態の例を示すブロック図である。
【図2】図1に示す分類システムのモジュールの例を示すブロック図である。
【図3】単一ページ画像分類モジュールの例を示すブロック図である。
【図4】複数ページ画像分類モジュールの例を示すブロック図である。
【図5】分類モジュールと組み合わせて使用されてもよい任意選択の検証モジュールの例を示すブロック図である。
【図6】図1に示す分類システムを実施するためのコンピューティング環境の例を示すブロック図である。
【図7】リニアコンビネータ分類器の例のブロック図である。
【図8】ページ画像分類のための方法の例を示すフロー図である。
【図9】図8のフロー図内で参照される単一ページ画像分類のための方法の例を示すフロー図である。
【図10】図8のフロー図内で参照される複数ページ画像分類のための方法の例を示すフロー図である。
【図11】図8のフロー図内で参照される、ページ画像分類の任意選択の検証のための方法の例を示すフロー図である。
【発明を実施するための形態】
【0011】
本発明の前述の態様と、付随する利点の多くとは、以下の詳細な説明を添付の図面ととともに参照することによって本発明がよりよく理解されるにつれて、より容易に理解されるようになるであろう。
【0012】
一実施形態では、分類プロセスの中で3つのフェーズが提供される。分類プロセスの第1フェーズの間、単一ページ基準(single−page criteria)に基づいて、ページ画像の予備分類を決定するために、第1の分類器が使用されてもよい。分類プロセスの第2フェーズの間、複数ページおよび/またはグローバル基準(multiple−page and/or global criteria)に基づいて、ページ画像のための最終分類を決定するために、第2の分類器が使用されてもよい。分類の、任意選択の第3フェーズの間、検証基準に基づいてページ画像の最終分類を検証するために、検証器が使用されてもよい。各フェーズの間、決定された分類をページ画像が有する確率が、所望される確率しきい値に達しない場合は、同じページ画像に対して分類プロセスが反復されてもよい。さらに、所望される反復しきい値を超える回数、同じページ画像に対して分類フェーズが反復された場合、そのページ画像は、最終分類のために人間のオペレータに引き渡されてもよい。
【0013】
図1は、ページ画像分類システムの一実施形態を示すブロック図である。一般に、本またはその他のソースの、ソートされたページ画像が、収集されて記憶される。各ページ画像は、分類基準に基づいて分類される。各ページについての分類は、本またはソースの、将来の、例えば、アクセス中または公開中などにおける使用のために記憶される。図示されている実施形態では、ページ画像102からのデジタル化されたページデータが、分類システム104に入力される。分類システム104は、分類基準106を使用して、各ページ画像102を分類する。各ページ画像分類108は、さらなる解析または使用のために記録される。
【0014】
上記で簡単に述べたように、分類システム104は、ページ画像分類の複数のフェーズを実施してもよい。例えば、一実施形態では、予備ページ画像分類が第1のフェーズにおいて決定され、最終ページ画像分類が第2のフェーズにおいて決定され、最終分類は、任意選択の第3の、すなわち「検証」フェーズにおいて検証される。第1、第2、および第3のフェーズを実施するための分類システムの実施形態が、図2に示されている。図示されている実施形態では、ページ画像102からのデジタル化されたページデータが、単一ページ(SP)画像分類器202に入力される。SP分類器202は、各ページ画像に予備分類を割り当てるために使用される。一実施形態では、単一ページ画像分類器202は、図7に関して以下でより詳細に説明するリニアコンビネータ分類器(linear combinator classifier)である。別の実施形態では、単一ページ画像分類器は、実験結果を分類するための、確率に基づいた方法として当技術分野で周知の、ベイズ分類器(Bayesian classifier)である。分類器の、さまざまなタイプおよび/または組み合わせが、本開示の範囲を逸脱することなく使用されてもよいということを、当業者は認識するであろう。単一ページ画像分類器202がこのように呼ばれる理由は、使用される分類器のタイプによるのではなく、ページ画像102を分類するために使用される基準のタイプによる。より具体的には、単一ページ画像分類器202は、分類されているページ画像のコンテンツのみに基づく、単一ページ(SP)基準204を使用する。SP画像分類器202は、各ページ画像102についての予備分類を生成する。
【0015】
図2にさらに示されているように、複数ページ(MP)分類器206は、ページ画像102からのデジタル化されたページデータと、SP分類器202によって提供される各ページ画像についての予備分類と、複数ページ(MP)基準208とを受け取る。SP画像分類器202と同様に、MP画像分類器206がこのように呼ばれる理由は、それが使用する基準、すなわち、複数ページ基準による。MP基準208は、ソースの構成(structure)、主題(subject matter)、数字および語密度(numeral and word densities)などを含む、ソース全体に関する情報に基づく。分類器、ソース、またはその他の設計上の考慮に基づいた、より少ない、より多くの、または異なる基準が使用されてもよいということを、当業者は認識するであろう。MP分類器206は、上述の受け取った情報を使用して、各ページ画像についての最終ページ画像分類210を割り当てる。図2では、SP分類器202およびMP分類器206は別個のモジュールとして示されているが、さらに別の実施形態では、MP画像分類器206およびSP画像分類器202は、それらのそれぞれの機能を実行するために、それぞれ、MP基準208およびSP基準204を使用する、単一のモジュールとして実装される。
【0016】
別の実施形態では、最終ページ画像分類210と、デジタル化されたページデータと、(図5に関して以下でより詳細に説明する)検証基準218とが、最終分類210を確認するために、任意選択の検証器212によって受け取られて使用される。検証器212は、各ページ画像分類に検証基準218を適用して、分類の正しさを検証し、分類の確認(confirmation)214を発行する。一実施形態では、検証器212がページ画像の最終ページ画像分類を却下する場合、そのページ画像は、ページ画像分類の最終決定を行うために人間のオペレータに引き渡される。
【0017】
SP基準204およびMP基準208内に組み入れられる分類基準は、単一ページ−総計軸(single page−to−aggregate axis)および静的−動的軸(static−dynamic axis)という、2つの概念軸に沿って編成された特徴および情報を含む。単一ページ−総計軸は、他のページ画像とは無関係な、単一ページ画像の情報から、ソース全体より得られる総計情報までにわたる情報を含む。例えば、ページ画像内に出現する「CONTENTS(目次)」などのキーワードは、単一ページ情報であり、他のページ画像内の情報とは無関係である。一方、ソース内でのページ画像の位置(例えば、本の前半または後半にある)は、他のページ画像またはソース全体から得られる、総計情報(例えば、本の中のページ画像の総数)に依存する情報を提供する。
【0018】
静的−動的軸は、「CONTENTS(目次)」、「INDEX(索引)」、「CHAPTER(章)」などの、分類特徴として予め定められた静的な情報またはキーワードから、SP分類フェーズにおけるページ画像の分類の間に得られる動的な情報またはキーワードまでにわたる情報を含む。例えば、本の著者の名前は、表紙ページの画像から抽出されてもよく、続いて、謝辞ページの画像などの、その他のページ画像の分類における特徴として使用されてもよい。特徴は、一般に、これらの軸の両方からの情報を含む。ある特徴は、動的情報を含み、かつ、単一ページ画像に関連していてもよく、一方、別の特徴は、動的情報を含み、かつ、総計情報に関連していてもよい。例えば、上述のように、著者の名前は、動的キーワード特徴であり、この特徴は、他のページ画像とは無関係な、単一ページ画像に関連している。総計情報に関連している動的キーワードの例は、目次から抽出されたトピックであり、このトピックは、後で、緒言(foreword)(前付け(front matter))および第1章(Chapter 1)(テキスト(text))などの、本のその他の部分を区別するために使用されてもよい。
【0019】
図3は、単一ページ画像分類モジュールの例をより詳細に示すブロック図である。図2に関して上述したように、SP画像分類器202は、デジタル化されたページデータをページ画像102から受け取り、SP基準204を使用して、各ページ画像に予備分類を割り当てる。一実施形態では、SP基準204は、以下に限定されないが、静的キーワードと、動的キーワードと、画像と、フォントの多様性(font variety)とを含んでもよい。分類器、ソース、またはその他の設計上の考慮に基づいた、より少ない、より多くの、または異なる基準が使用されてもよいということを、当業者は認識するであろう。静的キーワードは、「CONTENTS(目次)」、「INDEX(索引)」などの、予め定められたキーワードであり、それらは、それらのキーワードが見出されたページ画像についての可能な分類を示す。例えば、ページ画像内で見出された静的キーワード「CONTENTS」は、その画像が、目次(table of contents)を含むページの画像であることの可能性を増加させる。その他の特徴が、ページ画像の分類に関する決定を行うために寄与してもよい。例えば、静的キーワード「CONTENTS」が、「TABLE OF」という語によって先行され、かつ、すべて大文字である場合、その画像が目次(table of contents)を含むページの画像である可能性はさらに増加する。
【0020】
動的キーワードは、アプリオリな、または演繹的な知識に基づいてもよい特徴である。例えば、「ISBN」は、出版された本についての既知の識別子である。ただし、各ISBNの後には、ISBNの値である、特殊な形式の番号が続く。ISBN番号は、著作権ページ上に現れなければならない。したがって、ISBNキーワードと番号とがページ画像内に現れた場合、そのページ画像は、著作権ページとして分類されてもよい。一実施形態では、動的キーワードは、カタログデータベースに基づいて作成されてもよい。動的キーワードの別の例は、上述のように、著者の名前である。
【0021】
画像は、単一ページ画像の分類のための基準として使用されてもよい、もう1つの特徴である。例えば、画像によって覆われた大きな表面積を有するページの画像は、表表紙または裏表紙のページ画像である可能性がより高い。単一のより小さな画像は、しばしば、ドロップキャップ(通常は章の始まりで見出される、パラグラフの、拡大された最初の文字)を示し、これは、章の始まりを見つけるために、したがって、本文テキストの開始を見つけるために、使用されてもよい。動的特徴のさらに別の例として、さまざまなサイズのさまざまなフォントを含むページの画像は、非本文ページの画像である可能性がより高い。例えば、目次は、主要なトピックについては、ローマ数字と、より大きな太字フォントとを、そしてサブトピックについては、より小さなフォントを有する場合がある。
【0022】
上述のように、SP画像分類器202は、ページ画像102から取得したデジタル化されたページデータにSP基準204を適用して、各ページ画像に予備分類306を割り当てる。さらに、SP画像分類器202は、各ページが処理される際に、グローバルページデータ308を収集してもよい。一実施形態では、グローバルページデータ308は、後でMP基準208と組み合わせられて複数ページ分類のために使用されるように、データベース内に記憶される。別の実施形態では、グローバルページデータ308は、MP基準208と統合されて、MP特徴を形成してもよい。分類プロセスのフェーズ1は、このようにして、SP画像分類器202によって完了される。分類プロセスのフェーズ2は、SP分類器202からの、フェーズ1の出力を使用して、MP分類器206によって実行される。
【0023】
図4は、複数ページ画像分類モジュールの例をより詳細に示すブロック図である。MP画像分類器206は、予備ページ分類306と、ページ画像102からのデジタル化されたページデータと、グローバルページデータ308とを受け取る。MP画像分類器206は、この情報をMP基準208と組み合わせ、そして、この組み合わせを各ページ画像に適用して、最終ページ画像分類210を各ページ画像に割り当てる。グローバルページデータ308は、ソース全体の中のすべてのページ画像から収集された総計情報を含む。一実施形態では、MP基準208は、動的および/または静的情報を含む。非限定的な例として、ページ画像位置情報(page image location information)、タイトルキーワード(title keywords)、文の構成(sentence structure)、前ページ(previous page)、数字密度(digit density)、および語密度(word density)が挙げられる。分類器、ソース、またはその他の設計上の考慮に基づいた、より少ない、より多くの、または異なる基準が使用されてもよいということを、当業者は認識するであろう。一実施形態では、ページ画像位置情報は、ページ画像分類を、他の可能な分類を除外することによって決定するために使用される。例えば、本の前部内のページの画像は、後付けとして分類されなくてもよい。本の前部は、本の合計サイズを基準にして指定されてもよく、したがって、総計情報を含む特徴と見なされる。例えば、本の全ページの、10パーセントなどの、いくらかの所定のパーセンテージは、本の前部と見なされてもよく、そして、前部の中に含まれるいかなるページも、後付けとして分類されなくてもよく、これは、ページ画像の可能な分類を絞り込むために役立つ。
【0024】
上述したように、動的キーワードは、総計情報に関連していてもよい。一実施形態では、動的キーワードは、SP画像分類器202によって、分類の第1フェーズの間に、各ページ画像から抽出される。例えば、目次が構文解析されてもよく、そして、動的キーワードが抽出されて、グローバルページデータ308の部分として保存されてもよい。上述したように、動的キーワードは、緒言および第1章などの、さまざまなタイプのページを区別するために使用されてもよい。
【0025】
タイトルキーワードは、ソース全体を通しての平均フォントサイズに関する情報を含む、グローバルページデータ308に基づいて識別されてもよい。一実施形態では、平均フォントサイズよりも大きな語は、タイトルキーワードと見なされてもよい。他の実施形態では、その他の、または追加の規則が、タイトルキーワードを識別するために使用されてもよい。いったん識別されたら、タイトルキーワードは、その後、他のページ画像内の章および節の始まりを識別するために使用されてもよい。
【0026】
文の構成は、総計情報を含む別の動的特徴である。文の構成は、新しいページまたは章の始まりの画像を識別するために使用されてもよい。例えば、前ページ画像におけるピリオドの後の、大文字にされた語の存在は、新しいページが新しい文で開始されることを示す場合がある。一実施形態では、文を構文解析し、構文解析された文をどのようなタイプのページが含むかを判定するために、文法に基づくエンジンが使用されてもよい。
【0027】
前ページは、総計情報を含む動的特徴である。一実施形態では、ページ画像の分類は、前ページとしての画像の分類に基づいて決定されてもよい。例えば、テキスト分類を有するページ画像は、同じ分類を有する別のページ画像に続く可能性が最も高い。別の実施形態では、ページ画像が、特定の分類を、そのページ画像が同じまたは異なる分類を有する別のページ画像に続く場合に有する確率を提供するための、観察された確率の表が構築されてもよい。そのような表は、例えば、目次の分類を有するページ画像は、25%の場合に、前付けの分類を有するページ画像に続き、表表紙の分類を有するページ画像は、0パーセントの場合に、任意のその他のページ画像に続く、ということを示してもよい。
【0028】
数字密度は、総計情報を含む別の特徴である。数字密度は、ソース全体を通しての数字密度分布の統計的記述である。数字密度特徴は、特定のページ画像を、特定の分類を有するとして識別するために、または、その他のページ画像を、ページ画像から除外するために使用されてもよい。例えば、平均数字密度よりも高い数字密度を有するページ画像は、目次または索引の分類を有する可能性がより高い。
【0029】
語密度は、数字密度に類似した特徴であるが、数字密度特徴によって示される分類とは異なる分類を有する、ページ画像の可能性を示す。例えば、平均語密度よりも低い語密度を有するページ画像は、テキスト(本文テキスト)の分類を有する可能性がより低い。ヒストグラムなどの、語密度対ページ番号のグラフは、特定のページの画像において語密度の急激な変化を示す場合があり、これは、特定のタイプのページ分類を有するページ画像のグループの始まりまたは終わりを示す。例えば、語密度の急激な増加は、目次分類を有するページ画像から、テキスト分類を有するページ画像への移行を示す場合がある。
【0030】
図2を参照すると、MP画像分類器206は、任意選択の検証器212に、最終ページ画像分類210を、確認のために提供してもよい。図5にさらに詳細に示されているように、任意選択の検証器212は、最終ページ画像分類210と、ページ画像102からのデジタル化されたデータと、グローバルページデータ308と、追加の検証基準218とを、MP分類器206によって割り当てられた最終ページ画像分類210を検証するために使用してもよい。いくつかの実施形態では、検証器212は、さらに、予備ページ画像分類306を、検証を補助するために使用してもよい。一実施形態では、検証基準218は、SP基準204とMP基準208との組み合わせである。別の実施形態では、検証基準218は、SP基準204とMP基準208とのサブセットである。さらに別の実施形態では、検証基準218は、SP基準204またはMP基準208のいずれでも使用されていない特徴を含んでもよい。さらに別の実施形態では、検証基準218は、各ページに対して実行するための計算コストが低い特徴を含んでもよい。そのような特徴は、SP分類器202およびMP分類器206によって行われた分類決定に対する検査としてのみ使用される。例えば、検証器212は、裏表紙として分類されたページ画像が本の最後のページの画像であることを確実にするために、検証特徴を使用してもよい。そのような検証は、上述の語密度などの、その他の特徴を使用した検証よりも計算コストが低い。さらに別の実施形態では、任意選択の検証器212は、分類のための、人間が理解できる基準を実施するために使用されてもよい。SP分類器202およびMP分類器206によって使用される基準の多くは、直感的に明白ではない可能性がある統計的方法に基づく。例えば、語密度および数字密度は、特定のページ画像分類を人間に直接的には示さない可能性がある、本質的に統計的な基準である。検証器212は、直感的により明白な検証基準218を使用してもよい。例えば、1つの検証基準は、表表紙のページ画像が目次のページ画像の後に現れることはあり得ないという事実を含んでもよい。この基準は、人間にとって直感的により明白である。そのような基準は、ページ画像の分類における、人間の確信を増加させる。
【0031】
検証器212は、最終分類210を確認または却下する、ページ画像分類確認214を提供する。図5では別個に示されているが、別の実施形態では、検証器212、MP分類器206、およびSP分類器202は、それらのそれぞれの機能を実行するために、それぞれ、検証基準218、MP基準208、およびSP基準204を使用する、単一のモジュールとして実装される。
【0032】
図6は、図1に示す分類システムの実施形態を実装するためのコンピューティング環境の例を示すブロック図である。このコンピューティング環境の例では、さまざまな分類基準616と、ページ画像分類データ614と、グローバルページデータ618とを、分類のフェーズに応じて使用する、(SP画像分類器202、MP画像分類器206、および/または検証器212を含んでもよい)分類器612が、メモリ620内に提供される。OCRアプリケーションモジュール610が、スキャンされたページ100から取得したデータをデジタル化し、抽出された情報を分類器612に提供するために、使用されてもよい。抽出された情報は、ページ番号と、コンピュータ符号化されたテキスト(例えば、ASCII文字)と、ピクチャなどの、非テキストデータとしてラベル付けされた画像とを含んでもよい。分類基準は、SP基準204、MP基準208、および/または検証基準218を含んでもよい。基準の各セットは、図2〜図4に関して上述したように、分類のそれぞれのフェーズの間に使用される。一実施形態では、ページ画像102は、スキャニング装置622を使用して、ソースのページ100をスキャンすることによって取得される。得られたデータは、入出力(I/O)インタフェースモジュール604を介して、プロセッサ602に提供される。別の実施形態では、ソースのページ100は、予めスキャンされ、得られたページ画像は遠隔データベース内に記憶される。この実施形態では、ページ画像は、ネットワークインタフェース606を介して、分類システム600に提供される。さらに別の実施形態では、ページ画像は、.pdfフォーマットのファイルなどの、電子ドキュメントまたはファイルとして提供されてもよい。
【0033】
分類モジュールの例と、それらのための動作環境とについて説明したので、SP画像分類器などの、分類器の動作について、より詳細に説明する。上述のように、分類器700は、図7に示すように、分類基準を組み合わせてページ画像分類得点706を生成する、リニアコンビネータであってもよい。分類器700は、1つの分類のための(SP基準などの)分類基準702を、一度に1つのページ画像に適用して、そのページ画像が、その特定の分類に適合するかどうかを判定する。各ページ画像と各分類とについて、ページ画像分類得点706が分類しきい値708未満である場合、そのページ画像についてのページ画像分類は却下され、そのページ画像についての新しい分類が試される。このプロセスは、ページ画像についての分類が見出されるまで、または、ページ画像についての分類が何も見出されなくなるまで、継続される。ページ画像についての分類が何も見出されない場合、プロセスは、各ページ画像について、ページ画像についての新しいデータを使用して、一定の回数、反復されてもよい。所定の数の反復された試みの後で、分類が何も見出されていない場合、そのページ画像についての分類を手作業で割り当てるために、そのページ画像は人間のオペレータに委ねられてもよい。一実施形態では、分類基準702は、加重係数(weighted coefficients)704を使用して線形結合される。加重係数704は、分類器700によって分類されているページ画像を、それぞれの分類基準702が、現在考慮されているページ画像分類を有するとして正しく識別する確率を示す、それぞれの分類基準702に関連付けられた確率であってもよい。したがって、分類器700によって現在考慮されている各潜在的なページ画像分類について、基準702と加重係数704との異なる線形結合が使用されてもよい。
【0034】
図2に関して上述したように、分類プロセスは、単一ページ画像分類フェーズと、複数ページ分類フェーズと、追加の任意選択の検証フェーズとを含んでもよい。図8は、そのような分類のための方法の例を示すフロー図である。ルーチン800は、ブロック802で、デジタル化されたデータをページ画像102から取得する。次に、サブルーチン900で、SP画像分類が実行される。図3に関して上述したように、SP画像分類は、分類されている単一ページ画像内に含まれている情報に完全に基づく特徴を含む、SP基準204に基づいて実行される。判断ブロック804で、ルーチン800は、分類されるべき追加のページ画像がドキュメント内に残っているかどうかを判定する。追加のページ画像が残っている場合、ルーチン800はサブルーチン900に戻り、そこで、追加のページ画像がSP画像分類器202によって分類される。ページ画像がもはや残っていない場合、ルーチン800はサブルーチン1000に進み、そこでは、MP画像分類器206が、MP基準208を使用してページ画像を分類する。図4に関して上述したように、MP基準208は、サブルーチン900においてSP画像分類器202によって作成および提供された、総計グローバルページ情報308に、少なくとも部分的に基づく。ブロック1000で、MP画像分類サブルーチンによってページ画像が分類されたら、ルーチン800は、判断ブロック806で、分類されたページ画像が検証されるべきかどうかを判定する。分類されたページ画像が検証されるべきである場合、ルーチン800はサブルーチン1100に進み、それにより、分類されたページ画像の分類は検証される。ルーチンは、判断ブロック808に進み、それにより、ルーチン800は、MP画像分類ルーチン1000によって分類されるべき追加のページ画像が残っているかどうかを判定する。判断ブロック806に戻ると、検証が必要とされない場合、ルーチン800は、ブロック808に進む。分類されるべき追加のページ画像が残っている場合、ルーチン800は、追加のページ画像を分類するために、サブルーチン1000に戻る。追加のページ画像が残っていない場合、ルーチン800は、ブロック810で終了する。ルーチン800は、任意選択の検証フェーズを含む、全体的な分類方法を説明する。各フェーズについて、以下でより詳細に検討する。
【0035】
図9は、図8のフロー図内で参照される単一ページ画像分類のための方法の例を示すフロー図である。図3に関して上述したように、サブルーチン900は、所与のページ画像をSP基準204を使用して分類する。サブルーチン900は、図8に示された分類プロセスの第1フェーズを実施する。一実施形態では、SP基準204は、以下に限定されないが、静的キーワードと、動的キーワードと、画像と、フォントの多様性とを含んでもよい。上述したように、基準は、一度に1つのページに、かつ、一度に1つの分類のために、適用されてもよい。サブルーチン900は、ブロック902で、リニアコンビネータ分類器を使用して、または、ベイズ分類器などのその他の分類器を使用して、SP基準204を適用してもよい。サブルーチン900は、ページ画像に適合する最適な分類が見出されるまで、さまざまなページ画像分類のためのSP基準204を適用する。判断ブロック904で、適合する分類が何も見出されない場合、サブルーチン900は判断ブロック906に進み、そこで、同じページ画像分類のために、しきい値回数だけ、SP基準204が適用されたかどうかに関する判定が行われる。しきい値回数だけ適用された場合、サブルーチン900はブロック908に進み、そこでは、人間のオペレータが手作業で予備分類をページに割り当て、そして、サブルーチン900はブロック910に進む。別法として、判断ブロック904で、適合する分類が何も見出されない場合、ブロック908で、分類されているドキュメント全体からのページ画像が人間のオペレータによって手作業で分類され、そして、サブルーチン900は終了する。しきい値に達していない場合、サブルーチン900はブロック902に戻り、そこでは、ことによると、新しいまたは追加のページ画像データ、ならびに/あるいは、新しいまたは追加のSP基準204を使用して、同じページ画像分類のために、ページ画像にSP基準204が再び適用される。一実施形態では、ブロック906および908は、分類プロセスが第1フェーズのみを、すなわち、SP基準204に基づく分類を含む場合に実施される。別の実施形態では、ブロック906および908は、図10に関して以下で説明する、分類の第2フェーズの間にのみ実行される。さらに別の実施形態では、例えば、テストの目的のために、または、結果として得られる分類の質を向上させるために、ブロック906および908は、分類プロセスのすべてのフェーズで実行される。判断ブロック904で、ページ画像のための適合する分類が識別された場合、ルーチン900はブロック910に進み、そこで、ページ画像のための予備分類が記録される。ブロック912で、グローバルページデータが更新される。上述したように、グローバルページデータは、MP基準208と組み合わせられて、分類の第2フェーズにおいて、MP分類器206によってページに適用されてもよい。グローバルページデータは、ソース全体の中のすべてのページ画像から収集された総計情報を含んでもよい。一実施形態では、図4に関して上述したように、MP基準208は、以下に限定されないが、ページ位置情報と、動的キーワードと、タイトルキーワードと、文の構成と、前ページと、数字密度と、語密度とを含む。サブルーチン900は、ブロック914で終了する。図8で説明した、分類プロセスの第1フェーズは、このようにして完了する。
【0036】
分類プロセスの第2フェーズは、サブルーチン1000で開始され、そこでは、MP基準208がページ画像に適用される。図10は、図8のフロー図内で参照される複数ページ分類のための方法の例を示すフロー図である。サブルーチン1000はブロック1002に進み、そこでは、MP基準208をページ画像に適用するために分類器が使用される。一実施形態では、基準は、一度に1つのページ画像に、かつ、一度に1つの分類のために、適用される。サブルーチン1000は、ブロック1002で、リニアコンビネータ分類器を使用して、または、ベイズ分類器などのその他の分類器を使用して、MP基準208を適用してもよい。サブルーチン1000は、ページ画像に適合する最適な分類が見出されるまで、さまざまなページ画像分類のためのMP基準208を適用する。判断ブロック1004で、適合する分類が何も見出されない場合、サブルーチン1000は判断ブロック1006に進み、そこで、同じページ画像分類のために、しきい値回数だけ、MP基準208が適用されたかどうかに関する判定が行われる。しきい値回数だけ適用された場合、サブルーチン1000はブロック1008に進み、そこでは、人間のオペレータが手作業で最終分類をページ画像に割り当て、そして、サブルーチン1000はブロック1010に進む。別法として、判断ブロック1004で、適合する分類が何も見出されない場合、ブロック1008およびサブルーチン1000で、分類されているドキュメント全体からのページ画像が人間のオペレータによって手作業で分類される。しきい値に達していない場合、サブルーチン1000はブロック1002に戻り、そこでは、ことによると、新しいまたは追加のページ画像データ、ならびに/あるいは、新しいまたは追加のMP基準208を使用して、同じページ画像分類のために、ページ画像にMP基準208が再び適用される。判断ブロック1004で、ページ画像のための適合する分類が識別された場合、ルーチン1000はブロック1010に進み、そこで、ページ画像のための最終分類が記録される。サブルーチン1000は、ブロック1012で終了し、このようにして、図8に示した分類プロセスの第2フェーズは完了する。
【0037】
分類プロセスの、任意選択の最終フェーズは、検証フェーズである。上述のように、検証フェーズは、正しいページ画像分類の確率を増加させるために、最終段階で使用される。図11は、図8のフロー図内で参照される、ページ画像分類の任意選択の検証のための方法の例を示すフロー図である。サブルーチン1100はブロック1102に進み、そこでは、検証基準218をページに適用するために分類器が使用される。一実施形態では、基準は、一度に1つのページ画像に、かつ、一度に1つの分類のために、適用される。サブルーチン1100は、ブロック1102で、リニアコンビネータ分類器を使用して、または、ベイズ分類器などのその他の分類器を使用して、検証基準218を適用してもよい。サブルーチン1100は、ページ画像分類のための検証基準218を適用して、ルーチン1000によって決定された最終分類の妥当性を判定する。判断ブロック1104で、最終分類が却下された場合、サブルーチン1100はブロック1106に進み、そこでは、人間のオペレータがページ画像に最終分類を手作業で割り当て、そして、サブルーチン1000はブロック1108に進む。ブロック1104で、ページのための最終分類が検証された場合、ルーチンはブロック1110で終了し、このようにして、図8に示した分類プロセスの任意選択の第3の最終フェーズは完了する。
【0038】
実施形態の例を図示および説明してきたが、本開示の精神および範囲を逸脱することなく、さまざまな変更がそれらの中で行われてもよいということが理解されるであろう。例えば、分類の3つのフェーズ、すなわち、SP、MP、および検証が、本明細書に記載されたが、これらのフェーズのうちの任意の1つが除去または修正されてもよいということ、および、追加のフェーズまたは分類方法が使用されてもよいということを、当業者は認識するであろう。さらに、任意の分類器または検証器の出力は、さまざまなフォーマットで記憶されてもよい。例えば、各ページ画像についての分類は、テキストファイル内に単に記憶されてもよい。別の実施形態では、ページ画像は、例えばブックマークの形態で、分類の注釈を付けられてもよい。
【0039】
本発明の範囲は、したがって、本明細書に記載された特定の例からではなく、特許請求の範囲およびその均等物から決定されるべきである。

【特許請求の範囲】
【請求項1】
基準の第1のセットに基づいて、ソースからのコンテンツのページの画像についての第1の分類を自動的に決定する、第1のページ画像分類器であって、基準の前記第1のセットは、前記ソースからの前記分類の対象となるページ画像の前記コンテンツに少なくとも部分的に適用され、前記ソースからの他のページ画像のコンテンツからは独立した基準のセットである、第1のページ画像分類器と、
前記第1のページ画像分類器によって決定された前記ページ画像の前記第1の分類に基づいて、かつ、基準の第2のセットに基づいて、前記ページ画像の第2の分類を自動的に決定する、第2のページ画像分類器であって、基準の前記第2のセットは、前記ソースからの複数のページ画像のコンテンツに少なくとも部分的に適用される基準のセットである、第2のページ画像分類器と、
前記ページの前記画像の前記第2の分類を確認する、検証器と、
を具備する、システム。
【請求項2】
前記検証器が前記ページ画像の前記第2の分類を確認することができない場合、前記ページ画像は手作業で分類される、請求項1に記載のシステム。
【請求項3】
前記第2のページ画像分類器は、前記第1の画像分類器によって取得されたグローバルデータにさらに基づいて、前記ページ画像についての前記第2の分類を自動的に決定する、請求項1に記載のシステム。
【請求項4】
分類基準を記憶するためのデータベースをさらに具備する、請求項1に記載のシステム。
【請求項5】
前記ページの前記コンテンツに関連している、基準の前記第1のセットは、静的情報と動的情報とのうちの少なくとも1つを含む、請求項4に記載のシステム。
【請求項6】
前記コンテンツの前記ソースに関連している、基準の前記第1のセットは、静的情報と動的情報とのうちの少なくとも1つを含む、請求項5に記載のシステム。
【請求項7】
前記第2のページ画像分類器は、グローバルページデータにさらに基づいて、前記ページの前記画像の第2の分類を自動的に決定する、請求項5に記載のシステム。
【請求項8】
前記グローバルページデータは、前記第1の分類器によって前記ソースのすべてのページ画像から収集された総計ページ情報を含む、請求項7に記載のシステム。
【請求項9】
前記データベースは検証基準をさらに記憶し、
前記検証器は、前記検証基準に基づいて、前記ページの前記画像の前記分類を検証する、
請求項4に記載のシステム。
【請求項10】
前記検証基準は、前記ページの前記コンテンツと、前記コンテンツの前記ソースとのうちの少なくとも1つに関連している、請求項9に記載のシステム。
【請求項11】
前記検証基準は、前記ページの前記コンテンツにも、前記コンテンツの前記ソースにも関連していない、請求項9に記載のシステム。
【請求項12】
前記検証基準は、計算コストが低い、請求項9に記載のシステム。
【請求項13】
前記検証基準は、人間が理解できる基準である、請求項9に記載のシステム。
【請求項14】
前記ページ画像の前記第2の分類は前記分類対象となる前記ページ画像の前のページ画像の前記第1の分類に基づいている、請求項1に記載のシステム。
【請求項15】
前記ページ画像の前記第2の分類は、前記ページ画像が他のページの次のページの画像である場合に、前記ページ画像が前記他のページ画像と同じかまたは異なる第1の分類を有する確率の表に基づいている、請求項1に記載のシステム。
【請求項16】
前記ページ画像の前記第2の分類は、前記ページ画像が他のページの次のページの画像である場合に、前記ページ画像と前記他のページ画像とに渡って存在する文法構造に基づいている、請求項1に記載のシステム。
【請求項17】
ソースからの分類の対象となるページ画像のコンテンツに少なくとも部分的に適用され、前記ソースからの他のページ画像のコンテンツからは独立した基準の第1のセットを記憶するためのデータベースと、
前記データベース内に記憶された前記基準の第1のセットに基づいて、前記ソースからのコンテンツのページ画像を自動的に分類する第1の分類器と、
前記第1の分類器によって決定された前記ページ画像の前記第1の分類に基づいて、かつ、基準の第2のセットに基づいて、前記ページ画像の第2の分類を自動的に決定する、第2の分類器であって、基準の前記第2のセットは、前記ソースからの複数のページ画像のコンテンツに少なくとも部分的に適用される、第2の分類器と、
を具備する、システム。
【請求項18】
前記ソース全体の前記コンテンツに、前記第2の基準は関連している、請求項17に記載のシステム。
【請求項19】
前記第1のまたは第2の基準は動的情報を含む、請求項17に記載のシステム。
【請求項20】
前記第1のまたは第2の基準は静的情報を含む、請求項17に記載のシステム。
【請求項21】
前記第2の分類器は、前記ページの前記画像を、表表紙と、フロントフェイスと、前付けと、著作権ページと、目次と、テキストと、インデックスと、後付けと、裏表紙とのうちの少なくとも1つとして分類する、請求項17に記載のシステム。
【請求項22】
前記第1のまたは第2の分類器は、リニアコンビネータである、請求項17に記載のシステム。
【請求項23】
前記リニアコンビネータは、前記ページの前記画像を、前記データベース内に記憶された前記第1のまたは第2の基準と、少なくとも1つの加重係数とに基づいて自動的に分類する、請求項22に記載のシステム。
【請求項24】
前記第1のまたは第2の分類器は、ベイズ分類器である、請求項17に記載のシステム。
【請求項25】
前記第1のまたは第2の分類器が前記ページの前記画像を自動的に分類することができない場合、前記ページの前記画像は手作業で分類される、請求項17に記載のシステム。
【請求項26】
前記第2の分類器によって提供された、前記ページの前記画像の第2の分類を検証する、検証器をさらに具備する、請求項17に記載のシステム。
【請求項27】
前記検証器が前記ページの前記画像の前記第2の分類を検証することができない場合、前記ページの前記画像は手作業で分類される、請求項26に記載のシステム。
【請求項28】
ソースからのコンテンツのページの画像に、第1の分類のための第1の基準を適用して、前記ページの前記画像についての第1の分類得点を決定することであって、前記第1の基準は、前記ソースからの前記分類の対象となるページ画像の前記コンテンツに少なくとも部分的に適用され、前記ソースからの他のページ画像のコンテンツからは独立した基準であり、
前記ページの前記画像についての前記第1の分類得点を、しきい値と比較し、
前記第1の分類得点が前記しきい値を満たす場合、前記ページの前記画像に前記第1の分類を自動的に割り当て、
前記第1の分類得点が前記しきい値を満たさない場合に、
前記ページの前記画像に、第2の分類のための第2の基準を適用して、前記ページの前記画像についての第2の分類得点を決定することであって、前記第2の基準は、前記第1の分類器によって決定された前記ページ画像の前記第1の分類、および前記ソースからの複数のページ画像のコンテンツに少なくとも部分的に適用される基準のセットに基づいており、
前記ページの前記画像についての前記第2の分類得点を、前記しきい値と比較し、
前記第2の分類得点が前記しきい値を満たさない場合に、
前記ページの前記画像に、第nの分類のための基準を適用して、前記ページの前記画像についての第nの分類得点を決定し、
前記ページの前記画像についての前記第nの分類得点を、前記しきい値と比較し、
前記第nの分類得点が前記しきい値を満たす場合、前記ページの前記画像に前記第nの分類を自動的に割り当てる、
ことを含む、コンピュータ実施方法。
【請求項29】
前記第nの分類得点が前記しきい値を満たさない場合は、前記ページの前記画像に分類を手作業で割り当てる、請求項28に記載のコンピュータ実施方法。
【請求項30】
前記第1の基準は、前記ページの前記コンテンツに関連している、請求項28に記載のコンピュータ実施方法。
【請求項31】
前記第2の基準は、前記ソース全体の前記コンテンツに関連している、請求項28に記載のコンピュータ実施方法。
【請求項32】
前記基準に加重が適用される、請求項28に記載のコンピュータ実施方法。
【請求項33】
前記ページの前記画像の前記第1の分類を記憶する、
ことをさらに含む、請求項28に記載のコンピュータ実施方法。
【請求項34】
前記ページの前記画像への前記第1の基準の適用が不成功である場合に、前記ページの前記画像の前記第1の分類を手作業で割り当てることをさらに含む、請求項28に記載のコンピュータ実施方法。
【請求項35】
前記第1の基準は、静的情報と動的情報とのうちの少なくとも1つを含む、請求項28に記載のコンピュータ実施方法。
【請求項36】
前記ページの前記画像の前記第2の分類を記憶する、
ことをさらに含む、請求項28に記載のコンピュータ実施方法。
【請求項37】
前記ページの前記画像への前記第2の基準の適用が不成功である場合に、前記ページの前記画像の前記第2の分類を手作業で割り当てることをさらに含む、請求項28に記載のコンピュータ実施方法。
【請求項38】
前記第2の基準は、静的情報と動的情報とのうちの少なくとも1つを含む、請求項28に記載のコンピュータ実施方法。
【請求項39】
前記ページの前記画像にグローバルページデータを適用し、
前記ページの前記画像への、前記第2の基準と前記グローバルページデータとの適用が成功である場合に、前記ページの前記画像に第2の分類を自動的に割り当てる、
ことをさらに含む、請求項28に記載のコンピュータ実施方法。
【請求項40】
前記グローバルページデータは、前記ソースのすべてのページ画像から収集された総計ページ情報を含む、請求項39に記載のコンピュータ実施方法。
【請求項41】
前記ページの前記画像の前記第2の分類を検証することをさらに含む、請求項28に記載のコンピュータ実施方法。
【請求項42】
前記ページの前記画像の前記第2の分類の検証が不成功である場合に、前記ページの前記画像の分類を手作業で割り当てることをさらに含む、請求項41に記載のコンピュータ実施方法。
【請求項43】
請求項28〜42のいずれか一項に記載の方法を実行するためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2013−93040(P2013−93040A)
【公開日】平成25年5月16日(2013.5.16)
【国際特許分類】
【出願番号】特願2012−283845(P2012−283845)
【出願日】平成24年12月27日(2012.12.27)
【分割の表示】特願2009−526906(P2009−526906)の分割
【原出願日】平成19年8月30日(2007.8.30)
【出願人】(507244024)アマゾン テクノロジーズ,インク. (3)
【Fターム(参考)】