説明

情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム

【課題】コンテンツの関連性を考慮して文書ファイルを生成する情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラムを提供する。
【解決手段】ドキュメントを記憶する記憶手段と、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付手段と、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出手段と、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出手段と、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のコンテンツからドキュメントを生成する情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラムに関するものである。
【背景技術】
【0002】
従来、雑誌や新聞等の文書書類や文書ファイルの作成過程にあっては、記事や画像等のコンテンツをユーザが収集し、編集者であるユーザ自身がそれらのコンテンツの重要度や見栄え等を考慮して、最終的に作成する文書書類や文書ファイルにおけるコンテンツのレイアウトを決定し、雑誌や新聞等の文書書類としてデータを出力したり、あるいは出力したデータを印刷したりしていた。
【0003】
例えば、特許文献1では、ユーザによってあらかじめ定められたコンテンツの重要度に応じて、作成する文書書類に掲載する対象となるコンテンツの位置や大きさを所定の関係式にしたがって決定し、自動的にそのコンテンツを作成する文書ファイル上に配置し、その文書ファイルをデータとして出力したり、印刷したりする技術が開示されている。
【0004】
【特許文献1】米国特許第7243303号明細書
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の技術によって作成される文書ファイルは、編集者であるユーザ自身がコンテンツの重要度やコンテンツ同士の関連性を決定しているため、コンテンツが多数ある場合にはその全てのコンテンツに対して重要度の判断をしなければならず、ユーザにとってその判断が煩わしいという問題があった。
【0006】
また、特許文献1の技術では、ユーザ自身がコンテンツの重要度を判断し、その度合いを示す数値にしたがってコンテンツの配置を決めているので、同じコンテンツを文書ファイル上に配置する場合でも、コンテンツの重要度や関連性を判断するユーザが異なればコンテンツの配置のされ方も異なってしまうという問題があった。
【0007】
本発明は、上記に鑑みてなされたものであって、ユーザがコンテンツの重要度や関連性を判断しなくても容易に客観的かつ効率的にコンテンツを配置して文書ファイルを生成できる情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、ドキュメントを記憶する記憶手段と、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付手段と、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出手段と、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出手段と、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成手段と、を備えることを特徴とする。
【0009】
また、請求項2にかかる発明は、請求項1にかかる発明において、前記ドキュメントのコンテンツは、画像データまたはテキストデータを含み、該画像データにはテキストを含むか否かを示す属性情報をさらに含み、前記コンテンツ抽出手段は、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報と前記画像データの前記属性情報または前記テキストデータに含まれる前記テキストとに基づいて前記複数のコンテンツを前記ドキュメントから抽出すること、を特徴とする。
【0010】
また、請求項3にかかる発明は、請求項2にかかる発明において、前記属性情報は、前記画像データの周辺に配置されたテキストであり、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報と前記画像データ周辺に配置された前記属性情報または前記テキストデータに含まれる前記テキストとに基づいて前記複数のコンテンツを前記ドキュメントから抽出すること、を特徴とする。
【0011】
また、請求項4にかかる発明は、請求項1〜3のいずれか1項にかかる発明において、前記関係算出手段は、前記ドキュメントを比較することによって、前記複数のコンテンツ間の類似性を示すグラフを生成し、生成した該グラフに基づいて前記ドキュメントに含まれる前記複数のコンテンツ間の意味的な関連性を示す度合いを算出すること、を特徴とする。
【0012】
また、請求項5にかかる発明は、請求項1〜3のいずれか1項にかかる発明において、前記関係算出手段は、前記ドキュメントを比較することによって、前記複数のコンテンツ間の類似性を示す一覧表を生成し、生成した該一覧表に基づいて前記ドキュメントに含まれる前記複数のコンテンツ間の意味的な関連性を示す度合いを算出すること、を特徴とする。
【0013】
また、請求項6にかかる発明は、請求項1〜5のいずれか1項にかかる発明において、前記入力受付手段は、前記複数のコンテンツ間の意味的な関連性を算出する基準となる前記コンテンツを特定するための範囲を示す領域情報の入力をさらに受け付け、前記関係算出手段は、前記入力受付手段が入力を受け付けた前記領域情報と前記コンテンツ特定情報とに基づいて、前記複数のコンテンツ間の意味的な関連性の度合いを算出すること、を特徴とする。
【0014】
また、請求項7にかかる発明は、請求項1〜6のいずれか1項にかかる発明において、前記関係算出手段は、算出した前記複数のコンテンツ間の意味的な関連性の度合いを前記複数のコンテンツの中の1つを基準とした前記新たなドキュメント上の座標系における位置関係に変換し、前記位置決定手段は、前記関係算出手段が変換した前記複数のコンテンツの中の1つを基準とした前記新たなドキュメント上の座標系における位置に基づいて、前記複数のコンテンツの前記新たなドキュメント上の位置を決定すること、を特徴とする。
【0015】
また、請求項8にかかる発明は、ドキュメントを記憶するサーバ装置と通信ネットワークで接続された情報処理装置であって、前記サーバ装置から前記ドキュメントを取得して受信する通信手段と、前記通信手段が受信した前記ドキュメントを記憶する記憶手段と、
前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付手段と、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出手段と、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出手段と、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成手段と、を備えることを特徴とする。
【0016】
また、請求項9にかかる発明は、ドキュメントに含まれるテキストまたは画像を含むデータを読み取る読取手段と、前記読取部が読み取った前記ドキュメントを記憶する記憶手段と、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付手段と、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出手段と、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出手段と、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成手段と、前記レイアウト生成手段が生成した前記新たなドキュメントを印刷する印刷手段と、を備えることを特徴とする。
【0017】
また、請求項10にかかる発明は、記憶手段が、ドキュメントを記憶する記憶ステップと、入力受付手段が、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付ステップと、コンテンツ抽出手段が、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出ステップと、関係算出手段が、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出ステップと、レイアウト生成手段が、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成ステップと、を含むことを特徴とする。
【0018】
また、請求項11にかかる発明は、請求項10に記載されたドキュメント生成方法をコンピュータに実行させることを特徴とする。
【発明の効果】
【0019】
請求項1にかかる発明によれば、記憶手段が、ドキュメントを記憶し、入力受付手段が、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付け、コンテンツ抽出手段が、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出し、関係算出手段が、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出し、レイアウト生成手段が、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するので、ユーザを煩わせることなく容易にかつ客観的にコンテンツを抽出してドキュメントを生成することができるという効果を奏する。
【0020】
また、請求項2にかかる発明によれば、請求項1にかかる発明において、前記ドキュメントのコンテンツは、画像データまたはテキストデータを含み、該画像データにはテキストを含むか否かを示す属性情報をさらに含み、前記コンテンツ抽出手段は、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報と前記画像データの前記属性情報または前記テキストデータに含まれる前記テキストとに基づいて前記複数のコンテンツを前記ドキュメントから抽出するので、より容易にかつ客観的にコンテンツを抽出してドキュメントを生成することができるという効果を奏する。
【0021】
また、請求項3にかかる発明によれば、請求項2にかかる発明において、前記属性情報は、前記画像データの周辺に配置されたテキストであり、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報と前記画像データ周辺に配置された前記属性情報または前記テキストデータに含まれる前記テキストとに基づいて前記複数のコンテンツを前記ドキュメントから抽出するので、より客観的かつ効率的にコンテンツを抽出してドキュメントを生成することができるという効果を奏する。
【0022】
また、請求項4にかかる発明によれば、請求項1〜3のいずれか1項にかかる発明において、前記関係算出手段は、前記ドキュメントを比較することによって、前記複数のコンテンツ間の類似性を示すグラフを生成し、生成した該グラフに基づいて前記ドキュメントに含まれる前記複数のコンテンツ間の意味的な関連性を示す度合いを算出するので、ドキュメントを生成する過程において、ユーザはコンテンツの関連性を視覚的に判断できるという効果を奏する。
【0023】
また、請求項5にかかる発明によれば、請求項1〜3のいずれか1項にかかる発明において、前記関係算出手段は、前記ドキュメントを比較することによって、前記複数のコンテンツ間の類似性を示す一覧表を生成し、生成した該一覧表に基づいて前記ドキュメントに含まれる前記複数のコンテンツ間の意味的な関連性を示す度合いを算出するので、ドキュメントを生成する過程において、ユーザはコンテンツの関連性を速やかに判断できるという効果を奏する。
【0024】
また、請求項6にかかる発明によれば、請求項1〜5のいずれか1項にかかる発明において、前記入力受付手段は、前記複数のコンテンツ間の意味的な関連性を算出する基準となる前記コンテンツを特定するための範囲を示す領域情報の入力をさらに受け付け、前記関係算出手段は、前記入力受付手段が入力を受け付けた前記領域情報と前記コンテンツ特定情報とに基づいて、前記複数のコンテンツ間の意味的な関連性の度合いを算出するので、ドキュメントを生成する過程において、柔軟にコンテンツの関連性を判断できるという効果を奏する。
【0025】
また、請求項7にかかる発明によれば、請求項1〜6のいずれか1項にかかる発明において、前記関係算出手段は、算出した前記複数のコンテンツ間の意味的な関連性の度合いを前記複数のコンテンツの中の1つを基準とした前記新たなドキュメント上の座標系における位置関係に変換し、前記位置決定手段は、前記関係算出手段が変換した前記複数のコンテンツの中の1つを基準とした前記新たなドキュメント上の座標系における位置に基づいて、前記複数のコンテンツの前記新たなドキュメント上の位置を決定するので、ユーザはコンテンツの関連性をより視覚的、直感的に判断できるという効果を奏する。
【0026】
また、請求項8にかかる発明によれば、ドキュメントを記憶するサーバ装置と通信ネットワークで接続された情報処理装置であって、通信手段が、前記サーバ装置から前記ドキュメントを取得して受信し、記憶手段が、前記通信手段が受信した前記ドキュメントを記憶し、入力受付手段が、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付け、コンテンツ抽出手段が、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出し、関係算出手段が、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出し、レイアウト生成手段が、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するので、ネットワークを介してアクセスするドキュメントに対しても、ユーザを煩わせることなく容易にかつ客観的にコンテンツを抽出してドキュメントを生成することができるという効果を奏する。
【0027】
また、請求項9にかかる発明によれば、読取手段が、ドキュメントに含まれるテキストまたは画像を含むデータを読み取り、記憶手段が、前記読取部が読み取った前記ドキュメントを記憶し、入力受付手段が、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付け、コンテンツ抽出手段が、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出し、関係算出手段が、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出し、レイアウト生成手段が、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成し、印刷手段が、前記レイアウト生成手段が生成した前記新たなドキュメントを印刷するので、あらかじめ記憶していないドキュメントであっても、ユーザを煩わせることなく容易にかつ客観的にコンテンツを抽出してドキュメントの生成や印刷ができるという効果を奏する。
【0028】
また、請求項10にかかる発明によれば、記憶手段が、ドキュメントを記憶する記憶ステップと、入力受付手段が、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付ステップと、コンテンツ抽出手段が、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出ステップと、関係算出手段が、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出ステップと、レイアウト生成手段が、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成ステップと、を含むので、ユーザを煩わせることなく容易にかつ客観的にコンテンツを抽出してドキュメントを生成することができるという効果を奏する。
【0029】
また、請求項11にかかる発明によれば、請求項10にかかる発明において、コンピュータで実行させるプログラムを提供できるという効果を奏する。
【発明を実施するための最良の形態】
【0030】
以下に添付図面を参照して、この発明にかかる情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラムの最良な実施の形態を詳細に説明する。
【0031】
(第1の実施の形態)
図1は、第1の実施の形態にかかる情報処理システム1000の概念図である。本図に示すように、情報処理装置100は、入力受付部110と、記憶部120と、表示部130と、コンテンツ抽出部140と、関係算出部150と、レイアウト生成部160と、を含んで構成される。
【0032】
入力受付部110は、キーボード、マウス、タッチパネル等の入力装置から構成され、後述するように、記憶部120に記憶されたテキスト形式の文書データや画像データを含むファイル等(以下、これらをドキュメントと呼ぶ。)の指定や、ドキュメントを構成する複数の文章や画像、図表等で表されたドキュメントの内容(以下、これらをコンテンツと呼ぶ。)を抽出するためのキーワードの指定、または後述するレイアウト生成部160が抽出したこれらの各種のコンテンツをドキュメント上に配置するための出力設定(例えば、出力ファイルの形式、1ページあたりの文字数、段組みの有無、余白等)の指定の入力を受け付ける。さらに、入力受付部110は、ドキュメントの中からコンテンツを特定するための範囲の指定(例えば2ページ目の1行目から4ページ目の50行目まで)の入力を受け付ける。
【0033】
記憶部120は、図2に示すようなコンテンツを含むドキュメント(abc.doc、def.pdf、ghi.html、jkl.jpg、mno.txt等)や、後述するように、レイアウト生成部160が生成した図10に示すようなドキュメントを記憶するHDD(ハードディスクドライブ装置)やメモリなどの記憶媒体である。図2は、各ドキュメントの構成するページの数およびそのページに含まれるコンテンツの関係を示している。
【0034】
例えば、ドキュメントadc.docは、1〜4ページのページ数で構成され、1ページ目には、入力受付部110が入力を受け付けたキーワード(例えば、○○会社等)を含む斜線部で示したコンテンツ301が含まれていることを示しており、さらに2ページ目には、同様に入力受付部110が入力を受け付けた別のキーワード(例えば、経営理念等)を含むコンテンツ302が含まれていることを示している。これと同様に、ドキュメントdef.pdfにも、キーワード(例えば、○○会社等)を含むコンテンツが2ページ目に含まれ、さらにドキュメントghi.htmlにも、キーワード(例えば、○○会社等)を含むコンテンツが含まれていることを示している。尚、記憶部120に記憶する各ドキュメントは、上述したコンテンツを含んでいるが、これに限らず、例えば、XML(eXtensible Markup Language)データ、Open Document Formatで作成されたデータやメール、さらにはマルチメディアオブジェクトや、Flashオブジェクト等、ドキュメントの内容を構成するデータやファイルであれば、その形式はどのような形式であってもよい。
【0035】
図3は、ドキュメントabc.docに含まれるコンテンツ301の例を示す図である。図3に示すように、コンテンツ301は、ドキュメントabc.docの1ページ目に記載された箇条書きされた文章から構成されるコンテンツであり、入力受付部110が、キーワード「○○会社」の入力を受け付けた場合に、そのキーワード「○○会社」を含む段落の文章が、後述するコンテンツ抽出部140によって特定されている例を示している。より具体的には、図3に示す例では、コンテンツの例として、箇条書きされた○○会社の経営理念が記載された文章を示している。このように、記憶部120には、キーワードを含んだコンテンツから構成された複数のドキュメントが記憶されている。
【0036】
また、図4は、ドキュメントabc.docに含まれるコンテンツ302の例を示す図である。図4に示すように、コンテンツ302は、○○会社の各部門の収支を表した表である。このように、ドキュメントに含まれるコンテンツは、文章以外の表形式で表されたものであってもよい。
【0037】
さらに、図5は、記憶部120に記憶されたドキュメントghi.htmlに含まれるコンテンツ303の例を示す図である。図5に示すように、コンテンツ303は、イメージ画像で構成される○○会社のロゴを含むホームページがコンテンツとなっている場合の例である。また、図6は、○○会社のロゴの周辺(図6では下部)にそのロゴを説明する文章が記載されている例を示す図である。後述するように、コンテンツ抽出部140は、このようなイメージ画像やその周辺に記載されている文字列と、入力受付部110が入力受付したキーワードとを比較することによって、ドキュメントの中からコンテンツを特定する。このように、ドキュメントに含まれるコンテンツは、イメージ画像やイメージ画像にその画像の説明等、画像(あるいは表)に関連する文章等、画像の周辺にテキストデータが含まれるものであってもよい。
【0038】
あるいは、テキストや表、イメージ画像と共に、これらの各種のデータの作成日時や作成者、データ形式、タイトル、注釈などの情報(以下、これらを属性情報と呼ぶ。)を記述したいわゆるメタデータが、ドキュメントのコンテンツとして含まれている場合には、入力受付部110が入力を受け付けたキーワードと、上述した各種のデータの属性情報(例えば、作成者名等)とを比較することによって、ドキュメントの中からコンテンツを特定することとしてもよい。
【0039】
表示部130は、LCD(Liquid Crystal Display)等の表示装置から構成され、図7に示すように、ドキュメントからコンテンツを抽出するためのキーワード等の入力や、生成するドキュメントのタイトルや、作者、そのドキュメントの要約情報、ヘッダやフッタの有無、2段組みの有無等のページフォーマット、さらには、ドキュメントを印刷する場合にはその用紙サイズ等の入力を入力受付部110が受け付けるための入力画面130aを表示する。また、図9、図10に示すように、後述するレイアウト生成部160が生成したドキュメントの内容等や、入力受付部110が入力を受け付けた各種の条件に従って生成したドキュメントが複数存在する場合には、それらのドキュメントの中から1つのドキュメントをユーザに選択させる画面を表示する。
【0040】
コンテンツ抽出部140は、記憶部120に記憶されたドキュメントの中から、入力受付部110が入力を受け付けたキーワードを含むドキュメントとそのドキュメントを構成し、キーワードを含んでいるコンテンツを特定する。さらに、コンテンツ抽出部140は、特定したコンテンツが、そのドキュメントの中で存在する位置を特定し、特定したコンテンツをドキュメントから抽出して記憶部120に記憶する。
【0041】
具体的には、コンテンツ抽出部140は、入力受付部110がキーワードの入力を受け付けると、そのキーワードと同一のテキストをドキュメントの中から検索して特定し、そのキーワードと同一のテキストを含む文章をコンテンツとして抽出する。コンテンツとして抽出する文章の範囲は、例えば、そのキーワードと同一のテキストを含む文章の前後に空行があるか否か、あるいは段落があるか否かを検索し、キーワードよりも前に空行または段落がある場合には、その位置を抽出すべきコンテンツの開始位置として特定する。同様にキーワードと同一のテキストよりも後に空行または段落がある場合には、その位置を抽出すべきコンテンツの終了位置として特定する。
【0042】
例えば、コンテンツ抽出部140は、「○○会社」をキーワードとして、図3に示すコンテンツをドキュメントから抽出する場合には、「○○会社」が記載された位置(「○○会社の経営理念」が記載された行)を特定する。そして、その位置よりも前の行が空行であるか否かを判定し、空行である場合にはその行を、コンテンツを特定する開始位置(開始行)としてRAM(図示せず)に記憶する。すなわち、「○○会社の経営理念」が記載された行よりも前の位置で最初に空行となっている位置をRAMに記憶する。同様に、「○○会社の経営理念」が記載された行よりも後ろの位置で最初に空行となっている位置をRAMに記憶する。そして、これらの空行の範囲内にある文章(図3に示す例では、箇条書きされた「○○会社の経営理念」の項番1以降)をコンテンツとして、ドキュメントabc.docから抽出する。
【0043】
また、コンテンツ抽出部140は、ドキュメントにキーワードと同一のテキストを含むイメージ画像が含まれている場合や、キーワードと同一のテキストがイメージ画像の周辺に記載されている場合であっても、そのイメージ画像またはそのイメージ画像と周辺に記載されたテキストの両方をコンテンツとして認識し、これらをドキュメントから抽出する。
【0044】
例えば、コンテンツ抽出部140は、キーワードと同一のテキストを含むイメージ画像の位置を特定し、その位置の前後にイメージ画像をドキュメント上に埋め込むためのタグ等が記載されている位置をRAMに記憶し、そのタグに囲まれた範囲に記載されたテキスト(例えば、図6に示すようなイメージ画像の説明文等)やイメージ画像をコンテンツとして認識し、これらをドキュメントから抽出する。
【0045】
より具体的には、コンテンツ抽出部140は、図5に示すコンテンツ303に含まれる○○会社のロゴを構成する「○○会社」の文字列を読み取り、その「○○会社」の文字列を含むイメージ画像の前後にタグ等が記憶されている位置をRAMに記憶し、そのタグ等に囲まれた範囲をコンテンツとして抽出する。あるいは、コンテンツ抽出部140は、図6に示すように、イメージ画像の周辺(図6ではイメージ画像の下部)に記載されたキーワード「○○会社」と同一のテキストを含む説明文の位置を特定し、その位置の前後にタグ等が記憶されている位置をRAMに記憶し、そのタグ等に囲まれた範囲をコンテンツとして、イメージ画像と「○○会社」と同一のテキストを含む説明文を抽出する。
【0046】
上述した説明では、コンテンツ抽出部140は、ドキュメントに含まれるコンテンツを特定する方法として、空行の位置やタグの位置を特定して、その空行やタグの範囲に記載された文章やイメージ画像をコンテンツとしてドキュメントから抽出したが、例えば、文章の段落や改行の位置等を特定し、その段落や改行の位置の範囲に記載された文章等を1つのコンテンツとしてドキュメントから抽出することとしてもよい。
【0047】
さらに、上述した説明では、コンテンツ抽出部140が、ドキュメントからコンテンツとなる文章やイメージ画像の範囲を特定し、特定したこれらのデータをコンテンツとして抽出することとしたが、例えば、新聞記事のように、あらかじめドキュメントのコンテンツが一定のレイアウト枠(具体的には、タテ×ヨコのサイズがあらかじめ定められたもの)に収められているような場合には、そのレイアウト枠内に存在する文章やイメージ画像を、これらの各種のデータの属性情報をキーとして、その属性情報を含むコンテンツをドキュメントから抽出することとしても良い。すなわち、コンテンツの開始位置や終了位置を特定せずに、単にそのレイアウト枠に含まれる文章やイメージ画像の全体をコンテンツとして特定し、ドキュメントから抽出することとしても良い。
【0048】
あるいは、入力受付部110が、ドキュメントに含まれるコンテンツを特定するための範囲の指定の入力を受け付けた場合には、その範囲内(例えば、2ページ目の1行目から4ページ目の50行目まで)で、入力受付部110が入力を受け付けたキーワードを含むコンテンツを特定し、ドキュメントから抽出することとしても良い。
【0049】
図1に戻り、関係算出部150は、コンテンツ抽出部140がドキュメントから抽出し、記憶部120に記憶したコンテンツの意味内容を分析し、コンテンツ同士が互いにどの程度近似するか、あるいは共通点があって互いに類似するかを判定し、その判定結果を数値化する。
【0050】
具体的には、関係算出部150は、コンテンツ抽出部140がドキュメントから抽出して記憶部120に記憶した1つのコンテンツに記載されたテキストを読みとり、抽出した他のコンテンツに記載されたテキストの内容が互いにどの程度一致しているか否かを、全文サーチ等の方法によって比較して判定する。そして、コンテンツ抽出部140は、互いのコンテンツに記載されたテキストが全く一致している場合には、コンテンツの近似性、類似性の度合いを示す数値として「1.0」を記憶部120に記憶する。また、比較したコンテンツに記載されたテキストが全く一致していない場合には、コンテンツの近似性、類似性の度合いを示す数値として「0.0」を記憶部120に記憶する。
【0051】
さらに、関係算出部150は、コンテンツに記載されたテキストが一部のみ一致する場合、例えば入力受付部110が入力を受け付けたキーワードの個数によって、コンテンツの近似性、類似性の度合いを示す数値として「0.3」や「0.6」を記憶部120に記憶したり、あるいはキーワードが複数ある場合には、最初のキーワードと、次に指定されたキーワードに重みをつけて個数を比較することによって、コンテンツの近似性、類似性の度合いを示す数値を算出することとしても良い。また、関係算出部150は、キーワードが複数ある場合には、各キーワードについて、コンテンツ同士の近似性、類似性を算出し、算出した値を記憶部120に記憶する。
【0052】
上述したように、関係算出部150は、コンテンツ同士の近似性、類似性の度合いを数値として算出すると、図8に示すように、キーワードごとに、コンテンツの近似性、類似性の度合いを示す数値を表形式で表したマトリックスを生成する。そして、関係算出部150は、生成したマトリックスを参照して、図9に示すようなコンテンツ同士の関係性を示すグラフ図形を生成する。例えば、関係算出部150は、図8に示すコンテンツa1とa2の近似性、類似性の度合いを示す数値を、それぞれのコンテンツに含まれるキーワードの個数等によって「0.3」として算出し、その後、図9に示すようなコンテンツa1とa2とを線分で結ぶグラフ図形を生成する。これと同様にして、コンテンツa1とb1、c1、コンテンツa2とb1等についてもこれと同様の手順でグラフ図形を生成する。
【0053】
図1に戻って、レイアウト生成部160は、関係算出部150が生成した図9に示すようなグラフ図形と、図8に示すマトリックスの数値にしたがって、各コンテンツを新たなドキュメントのページ上に配置する。
【0054】
具体的には、図10に示すように、あらかじめ設定されたタテがY、ヨコがXである新たなドキュメントのページ上に、そのページの左上端を原点として、右方向にx軸、下方向にy軸を取り、1つのコンテンツ(例えばa1)のドキュメント上の位置(例えば、ドキュメントa1の中心点a10)を定め、コンテンツa1に近似、類似する度合いが大きいコンテンツ(例えば、c1)を、その位置からコンテンツa1とコンテンツc1との近似性、類似性を示す数値「0.5」に相当する距離(a1c1)を隔てた位置(例えば、c10)に配置する。このコンテンツの近似性、類似性を示す数値に相当する距離は、数値が「1.0」の場合は、コンテンツ同士が完全に一致するものとして、コンテンツ同士隣接させて新たなドキュメント上に配置する。すなわち、新たなドキュメント上に配置するコンテンツ同士の距離はゼロであるようにドキュメント上に配置する。
【0055】
また、コンテンツ同士が完全に一致しない場合には、コンテンツの近似性、類似性を示す数値は「0.0」となり、そのようなコンテンツは、ドキュメントのタテY、ヨコXを最大値として、これらのコンテンツは互いに離れた距離(例えば、1つのコンテンツはドキュメントのページ上端、他のコンテンツはドキュメントのページ下端)に配置される。すなわち、コンテンツの近似性、類似性を示す数値が「1.0」「0.0」以外の数値(例えば、「0.5」)の場合には、これらの数値に相当する距離を按分する等して、基準となるコンテンツ(例えば、a1)からの距離を算出し、そのコンテンツをドキュメント上に配置する。
【0056】
また、レイアウト生成部160は、入力受付部110が入力を受け付けたドキュメントに関する出力設定情報(例えば、出力ファイルの形式、1ページあたりの文字数、段組みの有無、余白等)の指定の入力がされている場合には、これらの出力設定情報と、関係算出部150が算出したコンテンツの近似性、類似性を示す数値にしたがって各コンテンツをドキュメント上に配置する。例えば、ファイル形式が文書ファイル(例えば、○○.doc)であって、余白なし、2段組みのような出力設定がされている場合には、図10に示すように、レイアウト上にコンテンツが配置されることとなる。
【0057】
このようにレイアウト生成部160によって各コンテンツがドキュメント上に配置されると、その内容が表示部130に表示される。図11は、出力設定としてドキュメントのレイアウトを2段組みにする場合と、2段組みにしない場合の両方を指定した場合のドキュメント生成結果をウィンドウ130bに表示する例を示している。さらに、図13は、ユーザからの指示によって、入力受付部110が、出力設定として2段組みにしない設定で出力するドキュメントを選択した場合の例を示す図である。このようにして、記憶部120に記憶されたドキュメントからコンテンツを抽出し、さらに抽出したコンテンツを組み合わせて新たなドキュメントを生成する。
【0058】
続いて、上述した情報処理装置100で行われる実行処理について説明する。
【0059】
図13は、情報処理装置100において、記憶部120に記憶されたドキュメントからコンテンツを抽出し、新たなドキュメントを生成するまでに行われる手順を示すフローチャートである。尚、情報処理装置100の記憶部120には、図2に示すようなドキュメントが記憶され、入力受付部110は、コンテンツを特定するための範囲の指定を受け付けていないものとする。
【0060】
本図に示すように、まず入力受付部110は、ドキュメントに含まれているコンテンツを抽出するためのキーワード入力の受け付け(ステップS1301)、および作成する新たなドキュメントの出力設定情報の入力を受け付ける(ステップS1302)。
【0061】
続いて、コンテンツ抽出部140は、記憶部120に記憶されたドキュメントの中から、ステップS1301で入力を受け付けたキーワードを含むドキュメントを検索して特定する(ステップS1303)。
【0062】
さらに、コンテンツ抽出部140は、ステップS1303で特定したドキュメントに記載された内容を読み取って、ステップS1301で入力を受け付けたキーワードを含む文章、イメージ画像、記事等の位置を特定し、特定した文章、イメージ画像、記事等をドキュメントから抽出して記憶部120に記憶する(ステップS1304)。
【0063】
そして、関係算出部150は、ステップS1304で記憶部120に記憶された各コンテンツに含まれるテキストを読み取って、入力受付部110が入力を受け付けたキーワード毎にその個数を求め、コンテンツ同士の近似性、類似性を示す度合いを算出する(ステップS1305)。
【0064】
さらに関係算出部150は、ステップS1305で算出したコンテンツ同士の近似性、類似性を示す度合いを示す数値をマトリックス化し、マトリックス化された数値を用いたグラフ図形を生成する(ステップS1306)。
【0065】
その後、レイアウト生成部160は、ステップS1302で入力受付部110が入力を受け付けたドキュメントの出力設定と、ステップS1306で関係算出部150が算出したコンテンツ同士の近似性、類似性を示す度合いを示す数値にしたがって、ステップS1304でコンテンツ抽出部140が抽出したコンテンツをドキュメント上に配置し(ステップS1307)、これらのコンテンツが配置されたドキュメントを記憶部120に記憶する(ステップS1308)。このステップS1308の処理が終了すると、ドキュメント生成に関する全ての処理が終了する。
【0066】
このように、第1の実施の形態によれば、記憶部120が、ドキュメントを記憶し、入力受付部110が、ドキュメントのコンテンツを抽出するためのキーワードの入力を受け付け、コンテンツ抽出部140が、入力受付部110が入力を受け付けたキーワードを含む複数のコンテンツをドキュメントから抽出し、関係算出部150が、コンテンツ抽出部140が抽出した複数のコンテンツ間の意味的な関連性の度合いを算出し、レイアウト生成部160が、複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の複数のコンテンツの位置を決定し、決定したその位置に複数のコンテンツを配置した新たなドキュメントを生成するので、ユーザを煩わせることなく容易にかつ客観的にコンテンツを抽出してドキュメントを生成することができる。
【0067】
また、第1の実施の形態によれば、ドキュメントのコンテンツは、画像データまたはテキストデータを含み、その画像データにはテキストを含むか否かを示す属性情報をさらに含み、コンテンツ抽出部140は、入力受付部110が入力を受け付けたキーワードと画像データの属性情報またはテキストデータに含まれるテキストとに基づいて複数のコンテンツをドキュメントから抽出するので、より容易にかつ客観的にコンテンツを抽出してドキュメントを生成することができる。
【0068】
さらに、第1の実施の形態によれば、属性情報は、画像データの周辺に配置されたテキストであり、入力受付部110が入力を受け付けたキーワードと画像データ周辺に配置された属性情報またはテキストデータに含まれるテキストとに基づいて複数のコンテンツをドキュメントから抽出するので、より客観的かつ効率的にコンテンツを抽出してドキュメントを生成することができる。
【0069】
また、第1の実施の形態によれば、関係算出部150は、ドキュメントを比較することによって、複数のコンテンツ間の類似性を示すグラフを生成し、生成したそのグラフに基づいてドキュメントに含まれる複数のコンテンツ間の意味的な関連性を示す度合いを算出するので、ドキュメントを生成する過程において、ユーザはコンテンツの関連性を視覚的に判断できる。
【0070】
また、第1の実施の形態によれば、関係算出部150は、ドキュメントを比較することによって、複数のコンテンツ間の類似性を示す一覧表を生成し、生成したその一覧表に基づいてドキュメントに含まれる複数のコンテンツ間の意味的な関連性を示す度合いを算出するので、ドキュメントを生成する過程において、ユーザはコンテンツの関連性を速やかに判断できる。
【0071】
さらに、第1の実施の形態によれば、入力受付部110は、複数のコンテンツ間の意味的な関連性を算出する基準となるコンテンツを特定するための範囲の指定の入力をさらに受け付け、関係算出部150は、入力受付部110が入力を受け付けたコンテンツを特定するための範囲の指定とキーワードとに基づいて、複数のコンテンツ間の意味的な関連性の度合いを算出するので、ドキュメントを生成する過程において、柔軟にコンテンツの関連性を判断できる。
【0072】
また、第1の実施の形態によれば、関係算出部150は、算出した複数のコンテンツ間の意味的な関連性の度合いを複数のコンテンツの中の1つを基準とした新たなドキュメント上の座標系における位置関係に変換し、位置決定手段は、関係算出部150が変換した複数のコンテンツの中の1つを基準とした新たなドキュメント上の座標系における位置に基づいて、複数のコンテンツの新たなドキュメント上の位置を決定するので、ユーザはコンテンツの関連性をより視覚的、直感的に判断できる。
【0073】
(第2の実施の形態)
上述した第1の実施の形態においては、情報処理装置100の記憶部120に記憶されたドキュメントに含まれるコンテンツを抽出し、各コンテンツの近似性、類似性を示す数値を算出し、その数値にしたがって各コンテンツをドキュメント上に配置することとした。しかし、ドキュメントを作成する対象となるコンテンツを含むドキュメントは、インターネット環境やLAN(Local Area Network)環境において行われる場合も存在する。そこで、このような場合には、情報処理装置側でネットワークに接続されたサーバ装置に記憶されているドキュメントを検索し、情報処理装置の記憶部に記憶した上で、ドキュメントからコンテンツを抽出し、各コンテンツの近似性、類似性を算出して新たなドキュメントを生成する場合について説明する。
【0074】
図14は、第2の実施の形態にかかる情報処理システム1000の構成を示すブロック図である。第2の実施の形態にかかる情報処理システム1000は、情報処理装置500と、サーバ装置700と、通信ネットワーク600と、を含んで構成される。さらに、サーバ装置700は、通信部710と、記憶部720とを含んで構成される。尚、第2の実施の形態にかかる情報処理システム1000において、情報処理装置500は、通信部1401、記憶部1402、検索部1403を備えている点で第1の実施の形態にかかる情報処理装置100と異なっている。以下の説明では、上述した第1の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。
【0075】
通信部1401は、情報処理装置500と上述する通信ネットワーク600との通信を媒介する通信インタフェースであり、後述する検索部1403が、サーバ装置700に記憶されているドキュメントを取得して記憶部120に記憶させる媒介手段である。
【0076】
記憶部1402は、あらかじめ情報処理装置500に記憶されたローカルなドキュメントのほか、後述する検索部1403が取得したサーバ装置700に記憶されたドキュメントを記憶するHDD(ハードディスクドライブ装置)やメモリなどの記憶媒体である。これらの具体的な内容については第1の実施の形態で説明した内容と同一であるため、その説明を省略する。
【0077】
検索部1403は、入力受付部110が入力を受け付けたキーワードと同一のテキストを含むドキュメントをサーバ装置700に記憶されたドキュメントの中から検索し、記憶部120に記憶する。
【0078】
通信ネットワーク600は、情報処理装置500の検索部1403が、サーバ装置700に記憶されたドキュメントを検索して取得する場合に、その取得するドキュメントを媒介するものであり、インターネット回線、LAN(Local Area Network:構内通信網)あるいは、無線LAN等のネットワーク回線である。
【0079】
通信部710は、サーバ装置700と上述する通信ネットワーク600との通信を媒介する通信インタフェースであり、情報処理装置500の検索部1403からのドキュメント検索要求を受信し、後述する記憶部720に記憶されたドキュメントを情報処理装置500に引き渡す媒介手段である。
【0080】
記憶部720は、文章、イメージ画像、記事等を含むドキュメントを記憶するHDD(ハードディスクドライブ装置)やメモリなどの記憶媒体である。これらの具体的な内容については第1の実施の形態で説明した内容と同一であるため、その説明を省略する。
【0081】
続いて、第2の実施の形態における情報処理システム1000で行われる実行処理について説明する。
【0082】
第2の実施の形態にかかる情報処理システム1000は、検索部1403が、サーバ装置700に記憶されたドキュメントを検索して取得し、取得したドキュメントを記憶部120に記憶する点のみが第1の実施の形態にかかる情報処理装置100と異なるため、以下では、図15を用いてその部分の処理のみについて説明する。なお、これらの処理以外の処理については、第1の実施の形態にかかる処理と同じ処理内容であるため、第1の実施の形態にかかる処理と同一の処理については、同一の符号を付してその説明を省略している。
【0083】
図15のステップS1201、S1202において、入力受付部110が、キーワードの入力を受け付けると、検索部1403は、通信部1401および通信ネットワーク600を介して、サーバ装置700にアクセスし、ステップS1201で入力を受け付けたキーワードを含むドキュメントを検索し、検索したキーワードを含むドキュメントを取得して、記憶部1402に記憶する(ステップS1501)。その後、コンテンツ抽出部140は、記憶部1402に記憶したドキュメントからキーワードを含むコンテンツを抽出し、第1の実施の形態にかかる処理と同一の処理を行う(ステップS1204〜ステップS1208)。
【0084】
このように、第2の実施の形態によれば、ドキュメントを記憶するサーバ装置700と通信ネットワーク600で接続された情報処理装置500において、通信部1401が、サーバ装置700からドキュメントを取得して受信し、記憶部1402が、通信部1401が受信したドキュメントを記憶し、入力受付部110が、ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付け、コンテンツ抽出部140が、入力受付部110が入力を受け付けたキーワードを含む複数のコンテンツをドキュメントから抽出し、関係算出部150が、コンテンツ抽出部140が抽出した複数のコンテンツ間の意味的な関連性の度合いを算出し、レイアウト生成部160が、複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の複数のコンテンツの位置を決定し、決定したその位置に複数のコンテンツを配置した新たなドキュメントを生成するので、ネットワークを介してアクセスするドキュメントに対しても、ユーザを煩わせることなく容易にかつ客観的にコンテンツを抽出してドキュメントを生成することができる。
【0085】
(第3の実施の形態)
上述した第1または第2の実施の形態においては、情報処理装置100、情報処理装置500が記憶するドキュメントについて、入力受付部110が入力を受け付けたキーワードを用いて、ドキュメントに含まれるコンテンツを特定して抽出した後、各コンテンツの近似性、類似性を示す度合いを示す数値を算出し、算出したその数値にしたがってドキュメント上にコンテンツを配置することとした。しかし、あらかじめ記憶されたコンテンツ以外のコンテンツ、例えば、ある新聞や雑誌に掲載されている記事を引用してドキュメントを生成する場合には、その新聞や雑誌の紙面に掲載された記事を読み取ってドキュメントを生成させたい場合も存在する。そこで、このような場合には、新聞や雑誌の紙面等に記載された文章やイメージ画像のドキュメントを読み取り、読み取ったこれらのデータを記憶した上で、ドキュメントからコンテンツを抽出し、各コンテンツの近似性、類似性を算出して新たなドキュメントを生成する場合について説明する。
【0086】
図16は、第3の実施の形態にかかる画像形成装置の構成を示すブロック図である。第3の実施の形態にかかる画像形成装置は、第1の実施の形態にかかる情報処理装置100に比べて、操作表示部1601、スキャナ部1602、記憶部1603、プリンタ部1604を備えている点で第1の実施の形態にかかる情報処理装置100と異なっている。以下の説明では、上述した第1の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。尚、以下の説明では、本発明の一実施の形態として、画像処理装置をコピー機能、ファクシミリ(FAX)機能、印刷機能、スキャナ機能等を一つの筐体に納めたいわゆるMFP(Multi Function Peripheral)と称される複合機800に適用した例について説明しているが、印刷機能を備える装置であれば、上述した機能以外の機能を備える複合機以外の装置であっても適用可能である。
【0087】
操作表示部1601は、LCD(Liquid Crystal Display)等のディスプレイから構成され、後述するスキャナ部1602が新聞や雑誌等の原稿をユーザからの指示により読み取って記憶部1603に記憶する場合や、後述するプリンタ部1604が記憶部1603に記憶されたドキュメントを出力する際の設定情報(例えば、両面印刷、縮小印刷の有無、拡大・縮小倍率、両面印刷等の印刷設定情報)をセットするためのインタフェースである。
【0088】
スキャナ部1602は、自動原稿送り装置(ADF(Auto Document Feeder))や読み取りユニット等から構成され、操作表示部1601でユーザから指定された読取支持に従って、ドキュメントの出力設定にしたがって、コンタクトガラス上の所定の位置にある原稿等を読み取り、読み取ったデータを画像データとして記憶部1603に記憶する。
【0089】
記憶部1603は、あらかじめ情報処理装置500に記憶されたローカルなドキュメントのほか、スキャナ部1602が読み取った原稿等から生成された画像データを記憶するHDD(ハードディスクドライブ装置)やメモリなどの記憶媒体である。これらの具体的な内容については第1の実施の形態で説明した内容と同一であるため、その説明を省略する。
【0090】
プリンタ部1604は、光書込みユニット、感光体ドラム、中間転写ベルト、帯電ユニット、定着ローラ等の各種ローラ、排紙トレイ等を備え、ユーザからの操作表示部1601を介した印刷指示に応じて、記憶部1603に記憶されたドキュメントを印刷し、印刷した用紙を排紙トレイに排出する。
【0091】
第3の実施の形態における複合機800で行われる実行処理については、図面を用いた説明を省略するが、操作表示部1601が、ユーザからの指示によって、文章や画像、記事等の原稿を読み取り、読み取った原稿の画像データを記憶部1603に記憶すると、その後は、第1の実施の形態におけるステップS1201〜S1208で行われる各処理を行った後、プリンタ部1604が、これらのステップにおいて生成されたドキュメントを印刷する処理を行い、これらの処理が終了すると、第3の実施の形態にかかる全ての処理が終了する。
【0092】
このように、第3の実施の形態によれば、スキャナ部1602が、ドキュメントに含まれるテキストまたは画像を含むデータを読み取り、記憶部1603が、スキャナ部1602が読み取ったドキュメントを記憶し、入力受付部110が、ドキュメントのコンテンツを抽出するためのキーワードの入力を受け付け、コンテンツ抽出部140が、入力受付部110が入力を受け付けたキーワードを含む複数のコンテンツをドキュメントから抽出し、関係算出部150が、コンテンツ抽出部140が抽出した複数のコンテンツ間の意味的な関連性の度合いを算出し、レイアウト生成部160が、複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の複数のコンテンツの位置を決定し、決定したその位置に複数のコンテンツを配置した新たなドキュメントを生成し、プリンタ部1604が、レイアウト生成部160が生成した新たなドキュメントを印刷するので、あらかじめ記憶していないドキュメントであっても、ユーザを煩わせることなく容易にかつ客観的にコンテンツを抽出してドキュメントの生成や印刷ができる。
【0093】
図17は、第3の実施の形態にかかる複合機のハードウェア構成を示すブロック図である。本図に示すように、この複合機800は、コントローラ10とエンジン部(Engine)60とをPCI(Peripheral Component Interconnect)バスで接続した構成となる。コントローラ10は、複合機800全体の制御と描画、通信、図示しない操作部からの入力を制御するコントローラである。エンジン部60は、PCIバスに接続可能なプリンタエンジンなどであり、たとえば白黒プロッタ、1ドラムカラープロッタ、4ドラムカラープロッタ、スキャナまたはファックスユニットなどである。なお、このエンジン部60には、プロッタなどのいわゆるエンジン部分に加えて、誤差拡散やガンマ変換などの画像処理部分が含まれる。
【0094】
コントローラ10は、CPU11と、ノースブリッジ(NB)13と、システムメモリ(MEM−P)12と、サウスブリッジ(SB)14と、ローカルメモリ(MEM−C)17と、ASIC(Application Specific Integrated Circuit)16と、ハードディスクドライブ(HDD)18とを有し、ノースブリッジ(NB)13とASIC16との間をAGP(Accelerated Graphics Port)バス15で接続した構成となる。また、MEM−P12は、ROM(Read Only Memory)12aと、RAM(Random Access Memory)12bとをさらに有する。
【0095】
CPU11は、複合機800の全体制御をおこなうものであり、NB13、MEM−P12およびSB14からなるチップセットを有し、このチップセットを介して他の機器と接続される。
【0096】
NB13は、CPU11とMEM−P12、SB14、AGP15とを接続するためのブリッジであり、MEM−P12に対する読み書きなどを制御するメモリコントローラと、PCIマスタおよびAGPターゲットとを有する。
【0097】
MEM−P12は、プログラムやデータの格納用メモリ、プログラムやデータの展開用メモリ、プリンタの描画用メモリなどとして用いるシステムメモリであり、ROM12aとRAM12bとからなる。ROM12aは、プログラムやデータの格納用メモリとして用いる読み出し専用のメモリであり、RAM12bは、プログラムやデータの展開用メモリ、プリンタの描画用メモリなどとして用いる書き込みおよび読み出し可能なメモリである。
【0098】
SB14は、NB13とPCIデバイス、周辺デバイスとを接続するためのブリッジである。このSB14は、PCIバスを介してNB13と接続されており、このPCIバスには、ネットワークインターフェース(I/F)部なども接続される。
【0099】
ASIC16は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGP15、PCIバス、HDD18およびMEM−C17をそれぞれ接続するブリッジの役割を有する。このASIC16は、PCIターゲットおよびAGPマスタと、ASIC16の中核をなすアービタ(ARB)と、MEM−C17を制御するメモリコントローラと、ハードウェアロジックなどにより画像データの回転などをおこなう複数のDMAC(Direct Memory Access Controller)と、エンジン部60との間でPCIバスを介したデータ転送をおこなうPCIユニットとからなる。このASIC16には、PCIバスを介してFCU(Fax Control Unit)30、USB(Universal Serial Bus)40、IEEE1394(the Institute of Electrical and Electronics Engineers 1394)インターフェース50が接続される。操作表示部20はASIC16に直接接続されている。
【0100】
MEM−C17は、コピー用画像バッファ、符号バッファとして用いるローカルメモリであり、HDD(Hard Disk Drive)18は、画像データの蓄積、プログラムの蓄積、フォントデータの蓄積、フォームの蓄積を行うためのストレージである。
【0101】
AGP15は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレーターカード用のバスインターフェースであり、MEM−P12に高スループットで直接アクセスすることにより、グラフィックスアクセラレーターカードを高速にするものである。
【0102】
なお、第1から第3の実施の形態の情報処理装置100、情報処理装置500、複合機800で実行されるプログラムは、ROM等に予め組み込まれて提供される。本実施の形態の複合機800で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0103】
また、上述した第1から第3の実施の形態の情報処理装置100、情報処理装置500、複合機800において、記憶部に記憶されたドキュメントからコンテンツを抽出して新たなドキュメントを生成する処理を、入力受付部110を介したユーザからのドキュメントの生成指示を受け付けてから開始することとしているが、例えば、上述した情報処理装置や画像形成装置にコンテンツの抽出やドキュメントの生成に関する各種の処理をスケジュール化しておき、ユーザは情報処理装置や画像形成装置の記憶部にドキュメントやコンテンツを抽出するためのキーワード等を記憶させておけば、自動的にあるタイミング(例えば、毎週月曜日の午前10時)に、その時点で記憶部に記憶されているドキュメントを用いてコンテンツを抽出し、新たなドキュメントを生成することとしてもよい。このようなドキュメントの抽出や生成処理をスケジュール化することによって、より一層ユーザの手を煩わせることなく効率的に、コンテンツを抽出した新たなドキュメントを生成することができる。
【0104】
また、上述した第1から第3の実施の形態の情報処理装置100、情報処理装置500、複合機800において、入力受付部110は、入力を受け付ける情報として、生成対象となる新たなドキュメントの出力設定情報や、ドキュメントに含まれているコンテンツを特定するためのドキュメント上の範囲を指定することとしたが、例えば、ドキュメントを生成する際に、コンテンツを配置できないように、その新たなドキュメント上の一定の領域(例えば、2ページ目の1行目から5行目の範囲)に対して書き込み不可あるいは予約済みといった指定の入力を受け付けるようにしてもよい。このような指定の入力を受け付けることによって、より一層ユーザにとって細やかなドキュメントの生成が可能となる。
【0105】
また、第1から第3の実施の形態の情報処理装置100、情報処理装置500、複合機800で実行されるプログラムは、上述した各部(コンテンツ抽出部、関係算出部、レイアウト生成部等)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記ROMからプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、コンテンツ抽出部、関係算出部、レイアウト生成部等が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【0106】
以上のように、本発明にかかる情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラムは、複数のコンテンツから構成されるドキュメントを生成する情報処理装置、画像形成装置において、ドキュメントから抽出した様々なコンテンツの近似性、類似性を判断した上でドキュメントを生成する処理を行う際に有用であり、特に、コンテンツ同士の近似性、類似性を数値化し、その数値に従って各コンテンツをドキュメント上に配置する技術に適している。
【図面の簡単な説明】
【0107】
【図1】第1の実施の形態にかかる情報処理装置の構成を示すブロック図である。
【図2】第1の実施の形態にかかる情報処理装置の記憶部に記憶されているドキュメントの例を示す図である。
【図3】第1の実施の形態にかかる情報処理装置の記憶部に記憶されているドキュメントの中に含まれるコンテンツ(文章)の例を示す図である。
【図4】第1の実施の形態にかかる情報処理装置の記憶部に記憶されているドキュメントの中に含まれるコンテンツ(図表)の例を示す図である。
【図5】第1の実施の形態にかかる情報処理装置の記憶部に記憶されているドキュメントの中に含まれるコンテンツ(画像)の例を示す図である。
【図6】図6に示すドキュメントの中に含まれるコンテンツ(画像)の周辺にテキストが記載されている場合の例を示す図である。
【図7】第1の実施の形態にかかる情報処理装置において、表示部がドキュメントを生成するための出力設定画面を表示する例を示す図である。
【図8】第1の実施の形態にかかる情報処理装置において、関係算出部が算出したコンテンツの近似性、類似性を示す数値のマトリックスの例を示す図である。
【図9】第1の実施の形態にかかる情報処理装置において、関係算出部が算出したコンテンツの関係を示すグラフの例を示す図である。
【図10】第1の実施の形態にかかる情報処理装置において、レイアウト生成部がコンテンツの近似性、類似性を示す数値に従ってコンテンツをレイアウトする様子を示す図である。
【図11】第1の実施の形態にかかる情報処理装置において、生成された複数のコンテンツを表示部が表示する様子を示す図である。
【図12】図11に示す複数のコンテンツの中から選択されたコンテンツのみを表示部が表示する様子を示す図である。
【図13】第1の実施の形態にかかる情報処理装置において、ドキュメントを生成するまでの実行手順を示すフローチャートである。
【図14】第2の実施の形態にかかる情報処理システムの構成を示すブロック図である。
【図15】第2の実施の形態にかかる情報処理システムにおいて、ドキュメントを生成するまでの実行手順を示すフローチャートである。
【図16】第3の実施の形態にかかる複合機の構成を示すブロック図である。
【図17】第3の実施の形態にかかる複合機のハードウェア構成を示す説明図である。
【符号の説明】
【0108】
100 500 情報処理装置
110 入力受付部
120 1402 1603 記憶部
130 表示部
130a 入力画面
130b ウィンドウ
140 コンテンツ抽出部
150 関係算出部
160 レイアウト生成部
301 302 303 コンテンツ
600 通信ネットワーク
700 サーバ装置
710 通信部
720 記憶部
800 複合機
1000 情報処理システム
1401 通信部
1403 検索部
1601 操作表示部
1602 スキャナ部
1603 プリンタ部
a1 a2 b1 c1 コンテンツ(抽出後)
a10 a20 b10 c10 コンテンツ(中心点)


【特許請求の範囲】
【請求項1】
ドキュメントを記憶する記憶手段と、
前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付手段と、
前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出手段と、
前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出手段と、
前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記ドキュメントのコンテンツは、画像データまたはテキストデータを含み、該画像データにはテキストを含むか否かを示す属性情報をさらに含み、
前記コンテンツ抽出手段は、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報と前記画像データの前記属性情報または前記テキストデータに含まれる前記テキストとに基づいて前記複数のコンテンツを前記ドキュメントから抽出すること、
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記属性情報は、前記画像データの周辺に配置されたテキストであり、
前記入力受付手段が入力を受け付けた前記コンテンツ特定情報と前記画像データ周辺に配置された前記属性情報または前記テキストデータに含まれる前記テキストとに基づいて前記複数のコンテンツを前記ドキュメントから抽出すること、
を特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記関係算出手段は、前記ドキュメントを比較することによって、前記複数のコンテンツ間の類似性を示すグラフを生成し、生成した該グラフに基づいて前記ドキュメントに含まれる前記複数のコンテンツ間の意味的な関連性を示す度合いを算出すること、
を特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。
【請求項5】
前記関係算出手段は、前記ドキュメントを比較することによって、前記複数のコンテンツ間の類似性を示す一覧表を生成し、生成した該一覧表に基づいて前記ドキュメントに含まれる前記複数のコンテンツ間の意味的な関連性を示す度合いを算出すること、
を特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。
【請求項6】
前記入力受付手段は、前記複数のコンテンツ間の意味的な関連性を算出する基準となる前記コンテンツを特定するための範囲を示す領域情報の入力をさらに受け付け、
前記関係算出手段は、前記入力受付手段が入力を受け付けた前記領域情報と前記コンテンツ特定情報とに基づいて、前記複数のコンテンツ間の意味的な関連性の度合いを算出すること、
を特徴とする請求項1〜5のいずれか1項に記載の情報処理装置。
【請求項7】
前記関係算出手段は、算出した前記複数のコンテンツ間の意味的な関連性の度合いを前記複数のコンテンツの中の1つを基準とした前記新たなドキュメント上の座標系における位置関係に変換し、
前記位置決定手段は、前記関係算出手段が変換した前記複数のコンテンツの中の1つを基準とした前記新たなドキュメント上の座標系における位置に基づいて、前記複数のコンテンツの前記新たなドキュメント上の位置を決定すること、
を特徴とする請求項1〜6のいずれか1項に記載の情報処理装置。
【請求項8】
ドキュメントを記憶するサーバ装置と通信ネットワークで接続された情報処理装置であって、
前記サーバ装置から前記ドキュメントを取得して受信する通信手段と、
前記通信手段が受信した前記ドキュメントを記憶する記憶手段と、
前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付手段と、
前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出手段と、
前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出手段と、
前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成手段と、
を備えることを特徴とする情報処理装置。
【請求項9】
ドキュメントに含まれるテキストまたは画像を含むデータを読み取る読取手段と、
前記読取部が読み取った前記ドキュメントを記憶する記憶手段と、
前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付手段と、
前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出手段と、
前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出手段と、
前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に前記複数のコンテンツを配置した新たなドキュメントを生成するレイアウト生成手段と、
前記レイアウト生成手段が生成した前記新たなドキュメントを印刷する印刷手段と、
を備えることを特徴とする画像形成装置。
【請求項10】
記憶手段が、ドキュメントを記憶する記憶ステップと、
入力受付手段が、前記ドキュメントのコンテンツを抽出するためのコンテンツ特定情報の入力を受け付ける入力受付ステップと、
コンテンツ抽出手段が、前記入力受付手段が入力を受け付けた前記コンテンツ特定情報を含む複数のコンテンツを前記ドキュメントから抽出するコンテンツ抽出ステップと、
関係算出手段が、前記コンテンツ抽出手段が抽出した前記複数のコンテンツ間の意味的な関連性の度合いを算出する関係算出ステップと、
レイアウト生成手段が、前記複数のコンテンツ間の意味的な関連性の度合いに基づいて、ドキュメント上の前記複数のコンテンツの位置を決定し、決定した該位置に基づいて前記複数のコンテンツを配置して新たなドキュメントを生成するレイアウト生成ステップと、
を含むことを特徴とするドキュメント生成方法。
【請求項11】
請求項10に記載されたドキュメント生成方法をコンピュータに実行させることを特徴とするドキュメント生成プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2009−169536(P2009−169536A)
【公開日】平成21年7月30日(2009.7.30)
【国際特許分類】
【出願番号】特願2008−4800(P2008−4800)
【出願日】平成20年1月11日(2008.1.11)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】