説明

情報処理装置、方法及びプログラム

【課題】
文書に埋め込まれた透かし情報を利用して、当該文書に関連するキーワードを含む情報を生成するようにした情報処理装置、方法及びプログラムを提供する。
【解決手段】
情報処理装置200は、透かしが埋め込まれた文書から透かし情報を抽出し、文書を文字認識した結果から該文書に関連するキーワードを抽出し、当該抽出したキーワードと、キーワードに関係する透かし情報とに基づきキーワード情報を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、透かしを利用した情報処理技術に関する。
【背景技術】
【0002】
文書情報の処理に際しては、文書と、文書に関連するキーワードとを利用する手法が広く用いられている。この手法では、文字認識技術を用いることが多いため、認識に要する処理時間や、また誤認識に考慮する必要がある。
【0003】
この技術に関しては、例えば、オペレータが切り出した文書中の領域を文字認識し、文書とキーワードとを対応付ける技術が提案されている(特許文献1)。また、例えば、文書の画像情報からキーワードを自動で抽出する技術(特許文献2)や、電子透かしを利用した文字認識技術(特許文献3)も提案されている。
【特許文献1】特開平05-233723号公報
【特許文献2】特開平07-319880号公報
【特許文献3】特開2006-217035号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、特許文献1に開示された技術によれば、オペレータが領域を指定するため不要なキーワードを文書に対応付けてしまうことはなくなるが、読み込んだ文書に対してオペレータが領域を指定しなければならず、手間がかかってしまう。
【0005】
また、特許文献2に開示された技術によれば、文字を誤認識した場合も考慮されており、人手を介さずキーワードを自動で抽出できることになるが、自動抽出されたキーワードの中にはユーザの意図しないキーワードが含まれている可能性がある。
【0006】
また、特許文献3で開示された技術によれば、文字認識に必要な情報を透かしで埋め込むため、高い文字認識率が得られるが、文書に関連するキーワードを含む情報を生成する点については考慮されていない。
【0007】
本発明は、上記事情に鑑みてなされたものであり、文書に埋め込まれた透かし情報を利用して、当該文書に関連するキーワードを含む情報を生成するようにした情報処理装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明の一態様による情報処理装置は、透かしが埋め込まれた文書から透かし情報を抽出する透かし抽出手段と、前記文書を文字認識した結果から該文書に関連するキーワードを抽出するキーワード抽出手段と、前記キーワードと該キーワードに関係する透かし情報とに基づきキーワード情報を生成するキーワード情報生成手段とを具備することを特徴とする。
【0009】
また、本発明の一態様による情報処理装置における情報処理方法は、透かしが埋め込まれた文書から透かし情報を抽出する透かし抽出工程と、前記文書を文字認識した結果から該文書に関連するキーワードを抽出するキーワード抽出工程と、前記キーワードと該キーワードに関係する透かし情報とに基づきキーワード情報を生成するキーワード情報生成工程とを含むことを特徴とする。
【0010】
また、本発明の一態様による情報処理プログラムは、コンピュータを、透かしが埋め込まれた文書から透かし情報を抽出する透かし抽出手段、前記文書を文字認識した結果から該文書に関連するキーワードを抽出するキーワード抽出手段、前記キーワードと該キーワードに関係する透かし情報とに基づきキーワード情報を生成するキーワード情報生成手段として機能させる。
【発明の効果】
【0011】
本発明によれば、文書に埋め込まれた透かし情報を利用して、当該文書に関連するキーワードを含む情報を生成するようにしたため、文書に関連するキーワードを精度よく得られることになる。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照しながら本発明の好適な実施形態について説明していく。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定するものではない。
【0013】
まず最初に、図1を用いて、以下、実施形態において扱う文書の概要について説明する。
【0014】
文書101には透かしが埋め込まれている。透かしは、例えば、当該文書内でキーワードとなる文字を含む画像部分に施されている。この場合、「第1の手段」102、「第2の手段」103、「第3の手段」104、「情報処理装置」105に透かしが施されている。
【0015】
透かしには、透かし情報として当該透かし処理された文字情報の有する重要度が含まれている。例えば、この場合、「第1の手段」102、「第2の手段」103、「第3の手段」104には重要度2が透かし情報として含まれており、「情報処理装置」105には重要度1が透かし情報として含まれている。
【0016】
以下、実施形態においては、透かし処理された文字情報をキーワードとして抽出するとともに、その透かしから当該文字情報に関係する重要度を透かし情報として抽出する。そして、この抽出したキーワード及び重要度を対応付けたキーワード情報を生成し、それを利用して文書情報を処理する場合について説明する。
【0017】
(実施形態1)
図2は、本発明の一実施の形態に係わる情報処理装置の機能的な構成の一例を示す図である。
【0018】
情報処理装置200は、その機能的な構成として、入力部201と、記憶部202と、出力部203と、制御部204とを具備して構成される。
【0019】
入力部201は、例えば、ボタン群やキーボード、マウス、タッチパネル、ペン、タブレット、デジタイザ、スキャナ等から構成され、各種指示又はデータを装置内に入力するための入力インタフェースである。なお、入力部201は、上記以外にも、例えば、音声を入力するためのマイクロフォン、A/D変換器等から構成されてもよい。
【0020】
記憶部202は、例えば、各種情報を記憶するためのハードディスクドライブ装置や、CD−ROM又はDVD−ROMに代表される記録媒体等から構成され、各種情報を記憶する。記憶部202には、例えば、各種アプリケーションプログラム、ユーザ・インタフェース制御プログラム、またこれらプログラムを実行する際に必要となる各種データが記憶されている。
【0021】
出力部203は、液晶ディスプレイ等の表示装置や、プリンタ等の印刷装置から構成され、各種情報を出力する。なお、出力部203には、タッチパネル式の表示装置を採用してもよい。その場合、出力部203は、入力部201としての機能(各種指示を装置内に入力する機能)をも有することになる。
【0022】
制御部204は、ワークメモリやCPU(Central Processing Unit)、MPU(Micro Processing Unit)等により構成され、情報処理装置200における処理を統括制御する。制御部204による制御は、例えば、CPUが記憶部202に記憶されたプログラム(例えば、情報処理プログラム)やデータを読み出し実行することで実現される。以上が、情報処理装置200についての説明である。
【0023】
図3は、図2に示す制御部204により実現される機能的な構成の一例を示す図である。なお、上述した通り、制御部204により実現される機能的な構成は主に、CPUが記憶部202に記憶されたプログラムやデータを読み出し実行することで実現される。
【0024】
制御部204は、その機能的な構成として、透かし抽出部301と、キーワード抽出部302と、キーワード情報生成部303と、文書処理部304とを具備して構成される。
【0025】
透かし抽出部301は、文書に埋め込まれた透かしから透かし情報を抽出する。上述した通り、本実施形態における透かしには、透かし処理された文字情報の有する重要度が含まれており、透かし抽出部301においては、当該重要度を透かし情報として抽出することになる。
【0026】
キーワード抽出部302は、透かし処理された文字情報を文字認識し、当該認識した結果をキーワードとして抽出する。
【0027】
キーワード情報生成部303は、キーワード抽出部302により抽出されたキーワードと、透かし抽出部301により抽出された当該キーワードに関係する透かし情報とを対応付けた情報をキーワード情報として生成する。
【0028】
文書処理部304は、キーワード情報に基づいて文書に関する情報の処理、すなわち、文書情報を処理する。例えば、キーワードとその重要度とに基づき要約文書を作成したり、翻訳文書を作成したりする。以上が、制御部204により実現される機能的な構成の一例についての説明である。なお、これら機能的な構成の一部又は全ては、専用のハードウェアで実現されてもよい。
【0029】
ここで、図4を用いて、図2に示す情報処理装置200における動作の概要について説明する。
【0030】
ステップS401において、紙文書が入力部201(スキャナ等)にセットされ、ユーザにより紙文書の読み取り指示がなされると、入力部201は、当該紙文書の情報をイメージとして読み取る。この読み取られたイメージデータは記憶部202に記憶され、透かし抽出部301に供給される。なお、紙文書の読み取りに関しては、同一装置内に入力部201(スキャナ等)を設けずに他装置の機能を利用するようにしてもよい。
【0031】
ステップS402において、透かし抽出部301は、文書のイメージデータから透かし情報を抽出する。すなわち、キーワード部分に埋め込まれた透かし情報を抽出して当該キーワードの重要度を取得する。なお、電子透かし技術については、例えば、文字間透かしやドットパターン透かし等、既存の技術を利用すればよい。この処理により、透かし情報と、対応する透かしの位置情報(透かし部分の領域、例えば、文書イメージ上の座標や大きさ等)とが、記憶部202に記憶される。
【0032】
ステップS403において、キーワード抽出部302は、文字認識処理を行ってキーワードを抽出する。文字認識処理は、文書全体に対して行ってもよいし、ステップS402における処理で記憶させた透かし情報の位置情報を記憶部202から読み出し、その部分に対してのみ行ってもよい。また、文字認識処理を行った結果から得られる各キーワードの位置情報(文書イメージ上の座標等)を記憶部202に記憶させるようにしてもよい。なお、文字認識処理については、既存の文字認識技術を利用すればよい。
【0033】
ステップS404において、キーワード情報生成部303は、ステップS402における処理で抽出した透かし情報と、ステップS403における処理で抽出したキーワードとに基づきキーワード情報を生成し、記憶部202に記憶させる。すなわち、キーワードと重要度とを対応付けた情報を生成し、それを記憶させる。
【0034】
ステップS405において、文書処理部304は、キーワード情報に基づいて文書処理を行なう。例えば、要約文書や翻訳文書の作成等を行なう。
【0035】
次に、図5から図10を用いて、図2に示す情報処理装置200における動作の一例について説明する。
【0036】
図5において、文書501には透かしが埋め込まれている。透かしは、当該文書501内でキーワードとなる文字を含む画像部分に施されている。また、透かしには、上述した通り、透かし処理された文字情報の有する重要度が含まれる。なお、説明の都合上、透かしが埋め込まれている部分には下線を引いている。1重下線のものは重要度1を示し、2重下線のものは重要度2を示す。
【0037】
情報処理装置200は、文書501をスキャナ等で読み込むと(ステップS401)、キーワード部分に埋め込まれた透かし情報、すなわち、キーワードの有する重要度を抽出する(ステップS402)。続いて、情報処理装置200は、文字認識によりキーワードを抽出し(ステップS403)、キーワードとその重要度とを対応付けたキーワード情報402を生成する。そして、それを記憶部202に記憶する(ステップS404)。
【0038】
このようにして生成されたキーワード情報502は、文書処理に利用できる(ステップS405)。例えば、キーワード情報502を利用して文書501の要約文書を作成できる。重要度1以上のキーワードを利用して要約文書を作成した場合には、例えば、図6(a)に示す要約文書601が作成される。また、重要度2以上のキーワードを利用して要約文書を作成した場合には、例えば、図6(b)に示す要約文書602が作成される。すなわち、キーワード情報を利用して重要度の高いキーワードを優先的に用いた要約文書の作成が可能となる。
【0039】
また、図7には、文書701のキーワード情報702を翻訳に利用する例が示される。図7では、図5同様に、透かしが埋め込まれている部分には下線を引いている。2重下線のものは重要度2を示す。
【0040】
キーワード情報702を利用しない場合には、重要度にかかわらず翻訳されるため、例えば、図8(a)に示す翻訳文書801が作成され、「部数」も「number of copies」と訳される。一方、キーワード情報702を利用して「重要度2のキーワードは翻訳せずにそのまま引用する」という条件の下、翻訳した場合には、例えば、図8(b)に示す翻訳文書802が作成され、「部数」、「用紙」、「倍率」が原文のまま引用される。
【0041】
また、図9には、文書901のキーワード情報902を出力に利用する例が示される。図9では、図5同様に、透かしが埋め込まれている部分には下線を引いている。破線の下線のものは重要度0を示し、1重下線のものは重要度1を示し、2重下線のものは重要度2を示す。
【0042】
キーワード情報902を利用しない場合には、重要度にかかわらず全て原文と同じように出力されるため、例えば、図10(a)に示す文書1001が作成される。これに対して、重要度に応じて出力する際のフォントや色、サイズ等を変えてもよい。例えば、「重要度2のキーワードは太字で出力」、「重要度1のキーワードは原文と同じように出力」、「重要度0のキーワードは薄字で出力」というように、重要度に応じて出力状態を変えることができる。この場合、例えば、図10(b)に示す文書1002が作成され、重要度に応じてフォントやカラー、サイズ等が変更された出力が得られる。なお、図10では、薄字で出力されるキーワードは、斜字により表現される。
【0043】
なお、本実施形態においては、透かし情報にキーワードの重要度を含め、それを抽出する場合を例に挙げて説明したが、これに限らない。例えば、図11に示すように、透かし情報にキーワードの色情報(RGB値等)を含めてもよい。この場合、透かしが埋め込まれたモノクロ文書を読み込み、その透かし情報に含まれた色情報に基づきキーワードにカラー処理を施す。これにより、透かしに埋め込まれた色情報を再現したカラー文書の出力が実現できる。なお、これ以外にも透かし情報として種々の情報を含ませ、文書処理を行なうようにしてもよい。例えば、フォントサイズや倍率等を透かし情報として含ませてもよい。
【0044】
以上のように実施形態1によれば、文書に埋め込まれた透かし情報を利用して、当該文書に関連するキーワードを含む情報を生成するため、文書に関連するキーワードを精度よく取得できる。また更に、透かし情報(本実施形態においてはキーワードの重要度や色情報)を利用することにより、アプリケーションにおける文書処理が簡便に行なえる。
【0045】
(実施形態2)
実施形態2においては、キーワード情報を利用して文書検索を行なう場合について説明する。なお、実施形態2に係わる情報処理装置の機能的な構成は、実施形態1同様となるため、その説明については省略する。
【0046】
図12は、実施形態2に係わる制御部204により実現される機能的な構成の一例を示す図である。上述した通り、制御部204により実現される機能的な構成は主に、CPUが記憶部202に記憶されたプログラムやデータを読み出し実行することで実現される。なお、実施形態1を説明した図2と同一の符号が付されているものは、同一であるため、その説明は省略する。
【0047】
制御部204は、その機能的な構成として、透かし抽出部301と、キーワード抽出部302と、キーワード情報生成部303と、文書処理部304と、位置情報対応付け部305と、読み生成部306とを具備して構成される。
【0048】
位置情報対応付け部305は、キーワード抽出部302により抽出されたキーワードに、透かし抽出部301により抽出された透かし情報の(文書内における)位置情報を対応付ける。
【0049】
読み生成部306は、キーワード抽出部302により抽出されたキーワードの読みを生成する。例えば、「一眼レフ」というキーワードを抽出したならば、その読み「イチガンレフ」を生成する。
【0050】
ここで、図13を用いて、実施形態2に係わる情報処理装置200における動作の概要について説明する。なお、図13におけるステップS1301〜ステップS1303は、実施形態1の図4におけるステップS401〜ステップS403とそれぞれ同一の処理となるので、その説明については省略する。
【0051】
ステップS1304において、位置情報対応付け部305は、ステップS1302における処理で抽出された透かし情報の位置情報を記憶部202から読み出し、ステップS1303における処理で抽出されたキーワードに当該位置情報を対応付ける。
【0052】
ステップS1305において、読み生成部306は、キーワードの読みを生成する。なお、キーワードの読みの生成は、例えば、既存の言語処理技術を利用すればよい。
【0053】
ステップS1306において、キーワード情報生成部303は、ステップS1301〜ステップS1305における処理により得られたキーワードと、その重要度や位置情報、及び読み、に基づきキーワード情報を生成し、記憶部202に記憶させる。
【0054】
ステップS1307において、文書処理部304は、キーワード情報に基づいて文書処理を行なう。例えば、生成された読みに基づき検索等を行なう。
【0055】
次に、図14及び図15を用いて、実施形態2に係わる情報処理装置200における動作の一例について説明する。
【0056】
図14において、文書1401〜1403には透かしが埋め込まれている。なお、説明の都合上、透かしが埋め込まれている部分には下線を引いている。1重下線のものは重要度1を示し、2重下線のものは重要度2を示す。
【0057】
情報処理装置200は、文書1401〜1403をスキャナ等で読み込むと、読み込んだ文書のイメージデータを記憶部202に記憶する(ステップS1301)。このとき、図15に示すイメージリスト1502が作成される。イメージリスト1502では、文書ID(自動的に割り振る)とイメージデータのURI(Uniform Resource Identifier)とが保持される。例えば、図14に示す文書1401のイメージデータの文書IDは「D1」、URIは「doc1.jpg」となる。
【0058】
続いて、情報処理装置200は、キーワード部分に埋め込まれた透かし情報、すなわち、キーワードの重要度を抽出し、重要度と、当該透かしの位置情報とを記憶部202に記憶する(ステップS1302)。図15に示す1503〜1505は、文書毎の透かし位置リストであり、「位置ID(自動的に割り振る)」と「領域(文書における透かし部分の左上の座標と大きさ)」とが保持される。
【0059】
その後、情報処理装置200は、文字認識によりキーワードを抽出する(ステップS1303)。ここでは、透かしの位置情報(図15:1503〜1505)を記憶部202から読み出し、透かし部分について文字認識処理を行う。図14に示す文書1401の例では、1503の位置ID「C1」「C2」「C3」の領域に関して文字認識処理を行い、キーワード「デジタル」、「デジタル」、「A」を抽出する。
【0060】
ここで、情報処理装置200は、ステップS1302における処理で得られた位置情報をステップS1303における処理で抽出されたキーワードに対応付ける(ステップS1304)。図14に示す文書1401の例では、キーワード「デジタル」と文書ID「D1」とD1内の位置ID「C1」、同様に「デジタル」と「D1」と「C2」、更に「A」と「D1」と「C3」、とを対応付ける。
【0061】
情報処理装置200は、ステップS1303にて抽出されたキーワードに対して既存の言語処理技術によりキーワードの読みを生成する(ステップS1305)。その後、ステップS1301〜ステップ1305における処理で得られたキーワードと、その重要度や位置情報、及び読み、に基づき図15に示すキーワード情報1501を生成し、記憶部202に記憶する(ステップS1306)。
【0062】
情報処理装置200では、このようにして生成されたキーワード情報1501を利用して文書検索を行う(ステップS1307)。この検索により、透かしが埋め込まれたキーワードのみを検索対象とした検索が行なえる。この検索に際しては、キーワードの重要度に応じて確率的な重み(スコア)を付与してもよい。検索結果は、キーワードの位置情報に基づいて、キーワードをハイライトする等の処理をして出力してもよい。
【0063】
なお、ステップS1303で文書全体に対して文字認識処理を行ってもよい。この場合、透かしが埋め込まれていないキーワードの重要度はデフォルト値(例えば0)に設定する。文書全体に対して文字認識を行なった場合に生成されるキーワード情報を図16の1601に示す。結果出力の際にキーワードをハイライトする等の処理を行う場合には、文字認識処理の際に、キーワードの位置情報を記憶部202に記憶しておき、キーワード情報に加えておけばよい。
【0064】
また、上記説明したキーワード情報(キーワードの読みを含む)に基づき音声認識に際して用いる情報(音声認識文法情報)を作成してもよい。例えば、この音声認識文法情報を利用すれば、音声でキーワードを入力して検索することができる。これにより、例えば図16の「デジタル」と「DIGITAL」のように異表記のキーワードも検索できる。ユーザに複数の結果を提示する際には重要度順に並べてもよい。また、「C Shot」のように、スペースで区切られた複合語を検索したい場合には、「C」と「Shot」がつながっていることを示す透かし(単語の結合を示す情報)を付与し、それに基づきキーワード情報を処理し、音声認識文法情報を作成すればよい。これにより、「C」及び「Shot」を連続発声して検索を指示した場合でもあっても「C Shot」に該当する検索が得られる。一方で、「デジタル一眼レフ」を「デジタル」と「一眼レフ」のように、複合語を切り分けたい場合も同様に、単語が分かれていることを示す透かし(単語の分離を示す情報)を付与し、それに基づきキーワード情報を処理し、音声認識文法情報を作成すればよい。これにより、「デジタル」「一眼レフ」「デジタル一眼レフ」のいずれを発声して検索を指示した場合であっても、該当する検索結果が得られる。
【0065】
以上のように実施形態2によれば、実施形態1と同様に、文書の透かしと文字認識の結果とに基づきキーワード情報を生成するため、文書に関連するキーワードを精度よく取得できる。また更に、透かし情報(本実施形態においてはキーワードの重要度)を利用することにより、検索精度を向上させられる。
【0066】
なお、上記説明した実施形態1及び2においては、文書に透かしを埋め込む際の処理については特に言及していないが、この埋め込み方については特に問わない。例えば、実施形態1及び2において説明した制御部204の機能的な構成に、図17に示す機能構成を新たに加え、情報処理装置200において文書に透かしを埋め込むようにしてもよい。ここで、図17に示す機能的な構成について間単に説明する。
【0067】
キーワード選定部1701は、文書から当該文書に関連するキーワードを選定する。このキーワードの選定は、ユーザからの入力部201を介した指示に基づき行なうようにしてもよいし、また既存の技術を用いて自動的に行なうようしにてもよい。
【0068】
透かし処理部1702は、重要度等の透かし情報を含んだ透かしを文書に埋め込む。例えば、キーワード選定部1701により選定されたキーワードに対して透かしを施す。透かし情報には、例えば、ユーザからの入力部201を介した指示に基づく内容(例えば、重要度)のものを設定するようにしてもよいし、また既存の技術を用いて自動的に内容を決め設定するようにしてもよい。なお、このように透かし処理された文書は、例えば、出力部203(プリンタ)から紙文書等に出力される。以上が、文書へ透かしを埋め込む際に必要となる機能的な構成についての説明である。なお、文書への透かしの埋め込みは、勿論、他装置の機能を利用して行なってもよい。
【0069】
また、本発明は、上記及び図面に示す実施形態に限定することなく、その要旨を変更しない範囲内で適宜変形して実施できる。
【0070】
例えば、本発明は、例えば、システム、装置、方法、プログラム若しくは記録媒体等としての実施態様を採ることもできる。具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【0071】
また、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置に内蔵されたコンピュータが該供給されたプログラムコードを読み出して実行することにより前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したコンピュータプログラムである。
【0072】
したがって、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OS(Operating System)に供給するスクリプトデータ等の形態であってもよい。
【0073】
コンピュータプログラムを供給するためのコンピュータ読み取り可能な記録媒体としては以下が挙げられる。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などである。
【0074】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記録媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
【0075】
また、本発明のプログラムを暗号化してCD−ROM等の記録媒体に格納してユーザに配布するという形態をとることもできる。この場合、所定の条件をクリアしたユーザに、インターネットを介してホームページから暗号を解く鍵情報をダウンロードさせ、その鍵情報を使用して暗号化されたプログラムを実行し、プログラムをコンピュータにインストールさせるようにもできる。
【0076】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどとの協働で実施形態の機能が実現されてもよい。この場合、OSなどが、実際の処理の一部又は全部を行ない、その処理によって前述した実施形態の機能が実現される。
【0077】
更に、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれて前述の実施形態の機能の一部或いは全てが実現されてもよい。この場合、機能拡張ボードや機能拡張ユニットにプログラムが書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行なう。
【図面の簡単な説明】
【0078】
【図1】文書の一例を示す図である。
【図2】本発明の一実施の形態に係わる情報処理装置の機能的な構成の一例を示す図である。
【図3】図2に示す制御部204により実現される機能的な構成の一例を示す図である。
【図4】図2に示す情報処理装置200における動作の概要を示すフローチャートである。
【図5】図2に示す情報処理装置200における動作の一例を説明するための第1の図である。
【図6】図2に示す情報処理装置200における動作の一例を説明するための第2の図である。
【図7】図2に示す情報処理装置200における動作の一例を説明するための第3の図である。
【図8】図2に示す情報処理装置200における動作の一例を説明するための第4の図である。
【図9】図2に示す情報処理装置200における動作の一例を説明するための第5の図である。
【図10】図2に示す情報処理装置200における動作の一例を説明するための第6の図である。
【図11】透かし情報に色情報を含めた場合の文書の一例を示す図である。
【図12】実施形態2に係わる制御部204により実現される機能的な構成の一例を示す図である。
【図13】実施形態2に係わる情報処理装置200における動作の概要を示すフローチャートである。
【図14】実施形態2に係わる情報処理装置200における動作の一例を説明するための第1の図である。
【図15】実施形態2に係わる情報処理装置200における動作の一例を説明するための第2の図である。
【図16】実施形態2に係わる情報処理装置200における動作の一例を説明するための第3の図である。
【図17】変形実施形態に係わる制御部204により実現される機能的な構成の一例を示す図である。
【符号の説明】
【0079】
200 情報処理装置
201 入力部
202 記憶部
203 出力部
204 制御部
301 透かし抽出部
302 キーワード抽出部
303 キーワード情報生成部
304 文書処理部
305 位置情報対応付け部
306 読み生成部
1701 キーワード選定部
1702 透かし処理部

【特許請求の範囲】
【請求項1】
透かしが埋め込まれた文書から透かし情報を抽出する透かし抽出手段と、
前記文書を文字認識した結果から該文書に関連するキーワードを抽出するキーワード抽出手段と、
前記キーワードと該キーワードに関係する透かし情報とに基づきキーワード情報を生成するキーワード情報生成手段と
を具備することを特徴とする情報処理装置。
【請求項2】
前記透かしは、前記キーワード抽出手段により抽出されるキーワードの重要度を前記透かし情報として含み、
前記キーワード情報生成手段は、
前記キーワード抽出手段により抽出されたキーワードと、前記透かし情報に含まれた重要度とを対応付けた前記キーワード情報を生成する
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記透かしは、前記キーワード抽出手段により抽出されるキーワードの色情報を前記透かし情報として含み、
前記キーワード情報生成手段は、
前記キーワード抽出手段により抽出したキーワードと、前記透かし情報に含まれた色情報とを対応付けた前記キーワード情報を生成する
ことを特徴とする請求項1記載の情報処理装置。
【請求項4】
前記透かしは、前記キーワード抽出手段により抽出されるキーワードにおける単語の結合又は分離に関する情報を前記透かし情報として含み、
前記キーワード情報生成手段は、
前記透かし情報に含まれた単語の結合又は分離に関する情報に基づき前記キーワード抽出手段により抽出したキーワードを処理し、前記キーワード情報を生成する
ことを特徴とする請求項1記載の情報処理装置。
【請求項5】
前記透かしは、前記キーワード抽出手段により抽出される前記キーワードを含む画像部分に埋め込まれている
ことを特徴とする請求項1乃至4のいずれか一項に記載の情報処理装置。
【請求項6】
前記キーワード情報生成手段は、
前記キーワード抽出手段により前記透かしが埋め込まれた画像部分から抽出されたキーワードと該キーワードに関係する透かし情報とに基づき前記キーワード情報を生成する
ことを特徴とする請求項5記載の情報処理装置。
【請求項7】
前記キーワード抽出手段により抽出されたキーワードの読みを生成する読み生成手段
を更に具備し、
前記キーワード情報生成手段は、
前記読み生成手段により生成された前記キーワードの読みを含む前記キーワード情報を生成する
ことを特徴とする請求項1記載の情報処理装置。
【請求項8】
前記キーワード情報生成手段により生成されたキーワード情報に基づき前記文書に関する情報を処理する文書処理手段
を更に具備することを特徴とする請求項1乃至7のいずれか一項に記載の情報処理装置。
【請求項9】
透かしが埋め込まれた文書から透かし情報を抽出する透かし抽出工程と、
前記文書を文字認識した結果から該文書に関連するキーワードを抽出するキーワード抽出工程と、
前記キーワードと該キーワードに関係する透かし情報とに基づきキーワード情報を生成するキーワード情報生成工程と
を含むことを特徴とする情報処理装置における情報処理方法。
【請求項10】
コンピュータを、
透かしが埋め込まれた文書から透かし情報を抽出する透かし抽出手段、
前記文書を文字認識した結果から該文書に関連するキーワードを抽出するキーワード抽出手段、
前記キーワードと該キーワードに関係する透かし情報とに基づきキーワード情報を生成するキーワード情報生成手段
として機能させるための情報処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2009−145997(P2009−145997A)
【公開日】平成21年7月2日(2009.7.2)
【国際特許分類】
【出願番号】特願2007−320068(P2007−320068)
【出願日】平成19年12月11日(2007.12.11)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】