説明

文書処理装置、文書処理方法、および文書処理プログラム

【課題】文書画像を含む電子化文書を生成する際に、文書画像内における文書要素の位置などを特定するための付属情報を適切に生成できる文書処理装置、文書処理方法、および文書処理プログラムを提供する。
【解決手段】要素種別判断部20が抽出された文書要素の種別を解析した後、表示部24は、文書画像に含まれる文書要素の数を種別毎に表示する。この表示部24による解析結果の表示に対して、種別に関する選別条件を設定する。この選別条件に応答して、要素種別判断部20は、抽出された文書要素のうち選別条件を満たす文書要素を選別し、当該選別した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する。しおりデータ生成部22は、しおりデータを生成し、電子化文書生成部16は、圧縮処理部14からの(圧縮された)文書画像にしおりデータを付加することで、電子化文書を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は文書画像を含む電子化文書を生成する文書処理装置、文書処理方法、および文書処理プログラムに関し、特に文書画像に含まれる文書要素のうち、特定の種別の文書要素に関する付属情報を生成する技術に関する。
【背景技術】
【0002】
省資源や省スペースの観点から、紙原稿などに記載された文書を電子化文書に変換して管理する文書管理システムが実用化されている。このような文書管理システムでは、スキャナ装置などを用いて原稿を読取ることで文書画像を生成し、これらの文書画像から電子化文書を生成する。
【0003】
このような文書画像は、文書を画素の集合である画像(イメージ)として格納しているので、当該文書に含まれる文字や図表などの内容を特定するためのデータ(代表的に、テキストデータなど)を元来含んでいない。そのため、特定の情報を含む文書を多くの文書画像の中から検索することは困難である。
【0004】
そこで、このような文書画像をより容易に管理できるように、文書画像に含まれる文書の内容を認識や解析する技術が提案されている。たとえば、特開平07−141368号公報(特許文献1)には、入力された文書の見出し類と、段落とその段落内の文等の文書内要素を認識する文書内要素認識手段と、選択するべき文書内要素の条件に基づき、文書内要素認識手段で認識された文書内要素を選択する文書内要素選択手段と、文書内要素選択手段で選択された文書内要素を識別して表示する文書表示手段とを有する飛ばし読み支援表示装置が開示されている。また、特開平06−214983号公報(特許文献2)には、黒白2値画像で表現される複数の文書画像を、章・節・文書段落・図等に分けられた構造を持つ論理構造化文書に変換するシステムが開示されている。
【0005】
ところで、電子化文書には、文書画像に加えて、ページや文書内位置などを特定するための付属情報が付加されることがある。このような付属情報は、「しおり」や「注釈」などとも称され、対応する文書要素の位置(ページ番号やページ内位置)や属性情報などを示す。そこで、スキャナ装置などを用いて原稿を読取る際に、上述の特開平07−141368号公報(特許文献1)や特開平06−214983号公報(特許文献2)に開示されるような技術を用いて文書画像内の文書要素を抽出し、この抽出結果に基づいて付属情報を自動的に生成できれば非常に有用である。
【特許文献1】特開平07−141368号公報
【特許文献2】特開平06−214983号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、文書画像内の全ての文書要素について付属情報を生成してしまうと、付属情報のデータサイズが大きくなり過ぎるという問題がある。また、対象となる文書要素が多くなり過ぎるので、検索効率が低下するという問題もある。
【0007】
そこで、この発明は、かかる問題を解決するためになされたものであり、その目的は、文書画像を含む電子化文書を生成する際に、文書画像内における文書要素の位置などを特定するための付属情報を適切に生成できる文書処理装置、文書処理方法、および文書処理プログラムを提供することである。
【課題を解決するための手段】
【0008】
この発明のある局面に従う文書画像を含む電子化文書を生成する文書処理装置は、文書画像から文書要素を抽出し、抽出した文書要素の種別と当該文書要素の文書画像内での位置とを取得する取得手段と、文書要素の種別についての選別条件の設定を受付ける設定受付手段と、抽出された文書要素の種別と選別条件とを比較する比較手段と、選別条件を満たす文書要素の文書画像内での位置を特定するための付属情報を生成する付属情報生成手段とを備える。
【0009】
この発明によれば、文書画像を含む電子化文書を生成する際に、文書画像から抽出される文書要素のうち、ユーザが設定する選別条件を満たす文書要素だけが選択され、当該選択された文書要素について付属情報が生成される。すなわち、付属情報に含まれるデータは、選別条件を満たす文書要素の文書画像内の位置を特定するための情報に限られる。そのため、文書画像に含まれる全ての文書要素を対象とする場合に比較して、文書画像のデータサイズを低減できるとともに、重要度が高いとユーザが考える文書要素に限定して付属情報を生成することができる。
【0010】
好ましくは、抽出された文書要素の種別についての取得結果とともに、選別条件の設定画面を表示する表示手段をさらに備え、設定受付手段は、設定画面に対する操作に応じて選別条件を受付け、比較手段は、選別条件の設定動作に応答して比較動作を開始する。
【0011】
さらに好ましくは、表示手段は、取得結果として、文書画像から抽出された文書要素の数を種別毎に表示する。
【0012】
さらに好ましくは、文書画像は、少なくとも1つのページ領域を含み、表示手段は、ページ領域に対応付けて、文書要素の数を種別毎に表示する。
【0013】
また、さらに好ましくは、文書画像のページ領域別に選別条件の設定を受付け可能である。
【0014】
また好ましくは、選別条件の設定を受付ける設定受付手段をさらに備え、比較手段は、抽出された文書要素の種別と予め設定された選別条件とを比較する。
【0015】
さらに好ましくは、選択可能な少なくとも1つの選別条件候補を表示する表示手段をさらに備え、選択条件候補の各々は、文書要素の種別のうち少なくとも1つの特定の種別を指定するものであり、比較手段は、選択条件候補のうち選択された選択条件候補に対応する選別条件に基づいて、比較処理を行なう。
【0016】
好ましくは、文書画像に付属情報を付加することで電子化文書を生成する文書生成手段をさらに備える。
【0017】
好ましくは、文書要素の種別は、表題、見出し、段落区切り、図、表、写真、手書き文字、下線付文字、装飾文字、色文字、の少なくともいずれかを含む。
【0018】
好ましくは、原稿を読取ることで文書画像を生成する画像読取手段をさらに備える。
好ましくは、ネットワークを介して電子化文書を他の装置へ送信するための送信手段をさらに備える。
【0019】
好ましくは、電子化文書を格納するための格納手段をさらに備える。
この発明の別の局面に従う文書画像を含む電子化文書を生成する文書処理方法は、文書画像から文書要素を抽出し、抽出した文書要素の種別と当該文書要素の文書画像内での位
置とを取得するステップと、文書要素の種別についての選別条件の設定を受付けるステップと、抽出された文書要素の種別と選別条件とを比較するステップと、選別条件を満たす文書要素の文書画像内での位置を特定するための付属情報を生成するステップとを備える。
【0020】
この発明のさらに別の局面に従えば、上記の記載の文書処理方法をコンピュータに実行させる文書処理プログラムである。
【発明の効果】
【0021】
この発明によれば、文書画像を含む電子化文書を生成する際に、文書画像内における文書要素の位置などを特定するための付属情報を適切に生成できる文書処理装置、文書処理方法、および文書処理プログラムを実現できる。
【発明を実施するための最良の形態】
【0022】
この発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰返さない。
【0023】
[実施の形態1]
(全体システム構成)
図1は、この発明の実施の形態1に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
【0024】
図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含んで構成される。
【0025】
特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子化文書を生成する。この際、MFP1は、読取った文書画像に含まれる文書要素のうち所定の選別条件を満たすものについて、種別と文書画像内における位置とを特定するための付属情報を生成する。この「文書要素」とは、文書を構成する記述要素である。なお、このような付属情報は、「メタデータ(meta data)」とも称され、上述のような種別および位置を特定するためのデータに加えて、たとえば各文書要素のサムネイル(縮小画像)などを含めてもよい。そして、MFP1は、読取った文書画像に付属情報を付加して、電子化文書400を生成する。代表的に、電子化文書400にはPDF(Portable Document Format)などのフォーマットを採用できる。
【0026】
MFP1は、生成した電子化文書400を自身の記憶部(図示しない)に格納したり、ネットワークを介してパーソナルコンピュータPC1,PC2,PC3(以下、「パーソナルコンピュータPC」とも総称する)に送信したりする。代表的な使用形態として、MFP1が設置されている同一のオフィス内に敷設されたネットワークであるLAN(Local Area Network)に接続されているパーソナルコンピュータPC1,PC2に対しては、MFP1から電子化文書400が直接的に送信される。一方、LANとWAN(Wide Area Network)との接続点には、サーバ装置SRVが設けてあり、MFP1とは離れたオフィスにあるパーソナルコンピュータPC3などに対しては、MFP1からサーバ装置SRVを介して電子化文書400が送信される。ここで、サーバ装置SRVは代表的に、メールサーバ、FTP(File Transfer Protocol)サーバ、Webサーバ、SMBサーバなどからなる。
【0027】
画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書400として生成することができる。
【0028】
(MFP1の概略構成)
図2は、この発明の実施の形態1に従うMFP1における概略の機能構成を示すブロック図である。
【0029】
図2を参照して、MFP1の機能構成としては、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、操作パネル部110と、記憶部112とを含む。
【0030】
制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、ネットワーク(たとえば、図1に示すLAN)を介してパーソナルコンピュータPC(図1)との間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部112は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100で生成された電子化文書400などを格納する。
【0031】
(パーソナルコンピュータの構成)
図3は、この発明の実施の形態1に従うパーソナルコンピュータPCの概略のハードウェア構成を示す模式図である。
【0032】
図3を参照して、パーソナルコンピュータPCは、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には、MFP1で生成された電子化文書400を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、FDDドライブ217またはCD−ROMドライブ215によって、それぞれフレキシブルディスク217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られる。
【0033】
CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置SRV(図1)から電子化文書400を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。
【0034】
(パーソナルコンピュータPCにおける電子化文書の表示画面)
CPU201がハードディスク部211に記憶された閲覧アプリケーションを実行することで、ディスプレイ部205上には図4に示すような形態で電子化文書400が表示さ
れる。
【0035】
図4は、この発明の実施の形態1に従うパーソナルコンピュータPCにおける電子化文書400の表示画面の一例を模式的に示した図である。
【0036】
図4を参照して、ディスプレイ部205上には一例として、文書表示領域500と、付属情報表示領域510とが形成される。文書表示領域500には、電子化文書400に含まれる文書画像300Aが表示され、付属情報表示領域510には、付属情報に応じたアイコン512,514が表示される。本実施の形態においては、付属情報の代表例として、「しおり」(bookmark)の機能を発揮するアイコン512,514を示す。
【0037】
これらの付属情報は、特定の文書要素の文書内位置を特定する情報を含んでおり、ユーザがアイコン512を選択(代表的には、図示しないマウスなどによるクリック動作)すれば、文書表示領域500では、しおり位置502が所定位置(代表的に、文書表示領域500の最上部)となるように、文書画像300Aの表示領域が変化(スクロール)する。同様に、ユーザがアイコン514を選択選択すれば、しおり位置504が所定位置となるように、文書画像300Aの表示領域が変化する。
【0038】
また、アイコン512,514に隣接する位置に文書要素の種別(一例として、「見出し」および「手書き(文字)」)も表示されており、ユーザはこの表示内容を参照して、必要な種別の文書要素を検索することもできる。
【0039】
このようにユーザは、しおりのアイコンを手掛かりに電子化文書内の所定の記載や内容を容易に検索および閲覧することができる。以下の説明では、付属情報の代表例として、「しおり」を電子化文書に付加する構成について説明する。なお、本明細書において、「付属情報」とは、文書要素の「文書画像内における位置」に関する情報を少なくとも含むメタデータであり、「しおり」の他に、文書要素についての補足的コメントをさらに含む「注釈」などであってもよい。
【0040】
(付属情報の生成処理に係る機能構成)
図5は、この発明の実施の形態1に従う付属情報の生成処理を実現する機能構成を示すブロック図である。これらの機能は、主として制御部100やメモリ部102などによって実現される。
【0041】
図5を参照して、付属情報の生成処理を実現する機能は、画像読取部104と、画像バッファ部12と、圧縮処理部14と、電子化文書生成部16と、文書要素抽出部18と、要素種別判断部20と、しおりデータ生成部22と、表示部24と、設定操作部26と、送信部28と、記憶部112とを含む。
【0042】
画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像バッファ部12へ出力する。画像バッファ部12は、画像読取部104が逐次的に出力する文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部14および文書要素抽出部18へ出力する。圧縮処理部14は、画像バッファ部12から出力される文書画像を圧縮処理して、電子化文書生成部16へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理は非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。
【0043】
文書要素抽出部18は、画像バッファ部12から出力される文書画像に含まれる所定の種別の文書要素を抽出する。文書要素抽出部18は、この文書要素の抽出に際して、各文
書要素の文書画像内における位置も抽出する。そして、文書要素抽出部18は、抽出した文書要素の種別およびその位置情報を要素種別判断部20へ出力する。
【0044】
図6は、文書画像に含まれる文書要素の抽出処理を説明するための図である。
図6(a)は、原稿300から生成される文書画像の一例を示す図であり、図6(b)は、図6(a)に示す文書画像に対して文書要素が抽出された状態の一例を示す図である。図6(a)を参照して、一例として、報告書の原稿300(5ページ)が画像読取部104で読取られると、画像バッファ部12には各ページに対応する文書画像が格納される。図6(b)に示すように、文書要素抽出部18は、このような文書画像に含まれる矩形の文書要素420を抽出する。なお、文書要素420の抽出については、公知の方法を用いることができるが、代表的に文字サイズや隣接する領域に対する間隔などに基づいて、各領域が抽出される。ここで、抽出対象の文書要素は、「表題(タイトル)」、「見出し」、「段落区切り」、「図」、「表」、「写真」、「手書き文字」、「下線付文字」、「装飾文字」、「色文字」などの種別を有するものが含まれる。
【0045】
より具体的には、「表題(タイトル)」は、文書画像内に配置される文字の文字サイズに基づいて抽出することができる。「見出し」は、文書画像内におけるオフセット位置やインデント位置などに基づいて抽出することができる。「段落区切り」は、後続する文字領域との間の間隔などに基づいて抽出することができる。「図」は、直線や曲線の検出数などに基づいて抽出することができる。「表」は、直線および直線の交差点の検出数などに基づいて抽出することができる。「写真」は、画像の濃淡変化の度合いなどに基づいて抽出することができる。「手書き文字」は、文字認識の度合いなどに基づいて抽出することができる。「下線付文字」は、文字と直線との距離などに基づいて抽出することができる。「装飾文字」は、複数の段階で文字認識を行なうことで抽出することができる。「色文字」は、文字認識と対応する画素の色情報などに基づいて抽出することができる。なお、文書画像内の共通の領域に対して、複数の文書要素が重複して抽出されてもよい。また、文字要素として抽出する種別は、上述のものに限られることなく、公知の認識技術を用いて様々な種別の文書要素を抽出することができる。
【0046】
そして、要素種別判断部20は、抽出された文書要素の種別を解析した後、ユーザに文書画像に含まれる文書要素の取得結果を通知するために、その解析した情報を表示部24に出力する。より具体的には、要素種別判断部20は、文書画像に含まれる文書要素の種別毎の数をカウントし、この取得結果として表示部24へ出力する。
【0047】
表示部24は、要素種別判断部20から出力される取得結果に応じて、文書画像に含まれる文書要素の数を種別毎に表示する。この表示部24による取得結果の表示に対して、ユーザは、設定操作部26を操作して、種別に関する選別条件を設定する。この選別条件とは、しおりを付加すべき種別を指定するものであり、各種別についてしおりの付加についての要否が選択可能である。この選別条件に応答して、要素種別判断部20は、抽出された文書要素のうち選別条件を満たす文書要素を選別し、当該選別した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する。
【0048】
図7は、この発明の実施の形態1に従うMFP1の操作パネル部110の外観を示す一例である。
【0049】
図7を参照して、操作パネル部110は、液晶表示装置やタッチパネルなどから構成される表示パネル110aと、ストップボタン110bと、スタートボタン110cと、英数キーなどを含む操作ボタン110dとを備えている。図5に示す表示部24は、表示パネル110aによって実現され、設定操作部26は、表示パネル110aと、ストップボ
タン110bと、スタートボタン110cと、操作ボタン110dとによって実現される。
【0050】
図8は、この発明の実施の形態1に従う解析結果の表示および選別条件の設定に関して、操作パネル部110の表示パネル110aにおける表示内容の一例を示す図である。図8(a)は、文字要素のうち「活字要素」に関する表示内容を示し、図8(b)は、文字要素のうち「活字要素」以外の要素に関する表示内容を示す。
【0051】
図8(a)および図8(b)を参照して、文書画像に含まれる文書要素の種別毎の数を視覚的に表す種別出現度数グラフ450が表示される。この種別出現度数グラフ450の行要素に対応付けて種別表示452が配置される。ユーザは、この種別出現度数グラフ450を参照しながら、種別表示452に対応付けて設けられているチェックボックス454をチェックすることで、しおりを付加すべき種別を選択する。すなわち、このチェックボックス454のうち選択された(チェックマークが設定された)ものに対応する種別を選択対象とする選別条件が設定される。
【0052】
さらに、選別条件としては、文書画像の全ページを一括して設定することも可能であり、もしくは各ページ単位で設定することも可能である。ユーザが、全ページ選択ボタン(ALL)460を選択することで選別条件を全ページに対して一括して設定するモードが選択され、ページ別選択ボタン(頁別)462を選択すること選択条件をページ単位で設定するモードが選択される。さらに、選択条件をページ単位で設定するモードにおいては、ユーザがページ送りボタン(次頁)456を選択することで、文書画像内の対象となるページを切替えることができる。
【0053】
また、ユーザが、タブボタン(活字要素)464を選択することで、図8(a)に示す「活字要素」(表題(タイトル)、見出し、段落区切り、下線付文字、装飾文字、色文字)に関する表示画面が表示され、タブボタン(その他)466を選択することで、図8(b)に示す「活字要素」以外の要素(写真、表、図、手書き文字)に関する表示画面が表示される。
【0054】
なお、この発明に係る表示内容は図8に示す態様に限られることなく、ユーザが選別条件を設定できれば、いずれの態様であってもよい。
【0055】
再度、図5を参照して、しおりデータ生成部22は、要素種別判断部20から出力される文書要素の種別と位置情報とに基づいて、しおりデータを生成する。そして、しおりデータ生成部22は、生成したしおりデータを電子化文書生成部16へ出力する。
【0056】
電子化文書生成部16は、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部22からのしおりデータを付加することで、電子化文書を生成する。
【0057】
図9は、電子化文書生成部16が生成する電子化文書400のデータ構造の一例を示す図である。
【0058】
図9を参照して、電子化文書400は、ヘッダ部402と、文書画像部404と、しおりデータ部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子化文書400の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部404には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。しおりデータ部406には、文書画像に含まれる文書要素を特定するためのしおりデータが格納される。
【0059】
図10は、しおりデータのデータ構造の一例を示す図である。
図10を参照して、しおりデータには、各文書要素に対応付けて、ページ番号・領域左上座標・領域右下座標・要素種別などが格納される。ページ番号は、対応する文書要素が存在するページを特定するための位置情報である。また、領域左上座標および領域右下座標は、対応する文書要素のページ内での領域(矩形)を特定するための位置情報である。また、要素種別は、対応する文書要素の種別を特定するための情報である。
【0060】
再度、図5を参照して、電子化文書生成部16は、生成した電子化文書をユーザによる設定などに応じて、記憶部112へ格納し、または送信部28へ出力する。送信部28は、通信インターフェイス部108によって実現され、電子化文書生成部16で生成された電子化文書をLANなどのネットワークを介して、パーソナルコンピュータPC(図1)などへ送信する。
【0061】
図11は、電子化文書の出力先の設定に関して、操作パネル部110の表示パネル110aにおける表示内容の一例を示す図である。図11(a)は、電子化文書をメールに添付して送信する場合の表示内容を示し、図11(b)は、電子化文書400をMFP1自身の記憶部112に保存する場合の表示内容を示す。この図11(a)および図11(b)に示す表示内容は、それぞれユーザが、タブボタン(メール送信)474およびタブボタン476(メール送信)を選択することで切替えられる。
【0062】
図11(a)に示す表示画面では、予め宛先アドレスなどが割当てられている宛先ボタン470が選択可能に表示されており、ユーザが宛先ボタン470のうち所望のボタンを選択することで、対応する宛先アドレスに電子化文書が添付されたメールが送信される。
【0063】
一方、図11(b)に示す表示画面では、記憶部112のフォルダ(ディレクトリ)が予め割当てられている保存先ボタン472が選択可能に表示されており、ユーザが保存先ボタン472のうち所望のボタンを選択することで、対応する保存先のフォルダに電子化文書が格納される。
【0064】
上述のような構成により、文書画像に含まれる文書要素のうち、ユーザが選択した所望の種別をもつ文書要素に対してしおりデータを付加した電子化文書を生成することができる。
【0065】
なお、図5に示す各機能ブロックと本願発明との対応関係については、文書要素抽出部18が「取得手段」に相当し、要素種別判断部20が「比較手段」に相当し、しおりデータ生成部22が「付属情報生成手段」に相当し、表示部24が「表示手段」に相当し、設定操作部26は「設定受付手段」に相当し、電子化文書生成部16が「文書生成手段」に相当し、画像読取部104が「画像読取手段」に相当し、送信部28が「送信手段」に相当し、記憶部112が「格納手段」に相当する。
【0066】
(フローチャート)
図12は、この発明の実施の形態1に従う電子化文書の生成処理の具体例を示すフローチャートである。図12のフローチャートに示される処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図5に示される各機能を制御することで実現される。
【0067】
図5および図12を参照して、まず、画像読取部104が原稿300を読取って文書画像を生成する(ステップS100)。この生成された文書画像は、画像バッファ部12に格納される。そして、圧縮処理部14が、画像バッファ部12に格納された文書画像を圧
縮処理して、電子化文書生成部16へ出力する(ステップS102)。
【0068】
一方、文書要素抽出部18が、画像バッファ部12に格納された文書画像に含まれる所定の種別の文書要素およびその位置を抽出する(ステップS104)。そして、要素種別判断部20が、文書要素抽出部18で抽出された文書要素の種別を判断し、文書画像に含まれる文書要素の種別を解析する(ステップS106)。具体的には、要素種別判断部20は、文書画像に含まれる文書要素の数を種別毎にカウントする。この解析結果を受けて、表示部24が、対象となる文書画像に含まれる文書要素の数を種別毎に表示する(ステップS108)。
【0069】
この解析結果の表示に応答してユーザが設定する選別条件が、設定操作部26から要素種別判断部20へ与えられる。これに応答して、要素種別判断部20が、文書要素抽出部18で抽出された文書要素のうち選別条件を満たす文書要素を選別する(ステップS110)。そして、要素種別判断部20が、選別した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する(ステップS112)。すると、しおりデータ生成部22が、これらの文書要素の種別と位置情報とに基づいて、しおりデータを生成する(ステップS114)。
【0070】
続いて、電子化文書生成部16が、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部22からのしおりデータを付加することで、電子化文書を生成する(ステップS116)。さらに、ユーザの設定に応じて、送信部28が、ネットワークを介して接続された所定の送信先に電子化文書を送信する(ステップS118)。もしくは、ユーザの設定に応じて、電子化文書生成部16が、記憶部112の所定のディレクトリに電子化文書を格納する(ステップS120)。そして、電子化文書の生成処理は終了する。
【0071】
この発明の実施の形態1によれば、文書画像を含む電子化文書を生成する際に、文書画像に含まれる文書要素の解析結果をユーザに通知した上で、ユーザが選別条件を設定できる。このため、対象となる文書画像の種類などに応じて、適切に選別情報を設定することができる。よって、しおり情報に含まれるデータは、選別条件を満たす文書要素についての種別と文書画像内における位置とを特定するための情報に限られる。そのため、文書画像に含まれる全ての文書要素を対象とする場合に比較して、文書画像のデータサイズを低減できるとともに、重要度が高いとユーザが考える文書要素に限定してしおり情報を生成することができる。
【0072】
この結果、しおり情報のデータサイズが大きくなり過ぎることを回避するとともに、検索効率の低下も抑制できる。
【0073】
[実施の形態2]
上述のこの発明の実施の形態1では、取得された文書画像に含まれる文書要素を解析し、その解析結果に基づいて、ユーザがいずれの文書要素についてしおりを付加するかを決定できる構成について説明した。これに対して、この発明の実施の形態2では、ユーザがしおりを付加すべき文書要素の種別を予め設定しておき、MFPがこの予め設定された条件に従って、電子化文書を生成する構成について例示する。
【0074】
この発明の実施の形態2に従うMFP1#やパーソナルコンピュータPCのハードウェア構成などについては、上述の実施の形態1と同様であるので、詳細な説明は繰返さない。
【0075】
図13は、この発明の実施の形態2に従う付属情報の生成処理を実現する機能構成を示
すブロック図である。これらの機能は、主として制御部100やメモリ部102などによって実現される。
【0076】
図13に示す機能ブロック図は、図5に示すこの発明の実施の形態1に従う機能ブロックにおいて、文書要素抽出部18と、要素種別判断部20と、表示部24と、設定操作部26とに代えて、文書要素抽出部18#と、表示部24#と、設定操作部26#と、設定データ格納部32#とを設けたものに相当する。
【0077】
表示部24#および設定操作部26#は、主として、ユーザが予め選別条件を設定するための部位であり、設定データ格納部32#は、選別条件候補およびユーザが予め設定した選別条件を格納するための部位である。より具体的には、表示部24#は、ユーザが選別条件を設定するための設定画面を表示する。この設定画面には、設定データ格納部32#に予め格納される選別条件候補が表示されてもよい。そして、ユーザは、表示部24#に表示される設定画面に沿って設定操作部26を操作することで、種別に関する選別条件を設定する。この設定された選別条件は、設定データ格納部32#に格納される。
【0078】
また、文書要素抽出部18#は、画像バッファ部12から出力される文書画像に含まれる文書要素のうち、設定データ格納部32#に予め格納される選別条件を満たすものだけを選択的に抽出する。そして、文書要素抽出部18#は、選択的に抽出した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する。
【0079】
図14および図15は、この発明の実施の形態2に従う選別条件の設定に関して、操作パネル部110の表示パネル110aにおける表示内容の一例を示す図である。図14は、選別条件候補が選択可能に表示される場合を示し、図15は、各選別条件候補の詳細な条件が設定可能な表示される場合を示す。
【0080】
図14を参照して、まず、ユーザが選別条件を設定しようとする場合には、複数の選別条件候補480が選択可能に表示される。各選別条件候補480は、代表的に文書のタイプ(たとえば、研究報告書、新聞、プレゼンテーション資料、議事録など)別に設定されることが好ましい。すなわち、対象となる文書のタイプによって、書式(スタイル)やコンテンツ(文字、図、表など)の構成が異なるので、より着目すべき文書要素の種別が異なるからである。そこで、文書のタイプ別に選別条件を設定しておき、電子化文書を生成する対象となる文書のタイプに応じてユーザが選択的に設定することがよりユーザフレンドリである。
【0081】
さらに、ユーザが選別条件候補480の条件を変更したい場合や、新たに選別条件候補480を設定したい場合には、図15に示すような詳細設定のための画面が表示されてもよい。
【0082】
図15を参照して、各選別条件候補480に対応して、種別表示494および対応するチェックボックス492が配置された詳細設定画面が表示される。ユーザは、この詳細設定画面において、しおりを付加すべき種別に対応するチェックボックス492をチェックすることで詳細設定を変更または新たに選択することができる。このように、変更または設定された選別条件候補480(および、対応する詳細設定)は、設定データ格納部32#に格納される。なお、予め選別条件を設定する場合には、原稿の枚数が未知であるので、ページ単位で選別条件を設定する必要はない。
【0083】
このようにユーザが選別条件候補480のいずれかを選択すると、要素種別判断部20#は、当該選択された選別条件候補480に対応する選択条件を有効化し、文書要素の選
別処理を実行する。
【0084】
その他の構成については、図5の対応する機能と同様であるので、詳細な説明は繰返さない。
【0085】
なお、図13に示す各機能ブロックと本願発明との対応関係については、文書要素抽出部18#が「取得手段」および「比較手段」に相当し、しおりデータ生成部22が「付属情報生成手段」に相当し、表示部24#が「表示手段」に相当し、設定操作部26#は「設定受付手段」に相当し、電子化文書生成部16が「文書生成手段」に相当し、画像読取部104が「画像読取手段」に相当し、送信部28が「送信手段」に相当し、記憶部112が「格納手段」に相当する。
【0086】
(フローチャート)
図16は、この発明の実施の形態2に従う電子化文書の生成処理の具体例を示すフローチャートである。図16のフローチャートに示される処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図13に示される各機能を制御することで実現される。
【0087】
図13および図16を参照して、まず、要素種別判断部20#が、ユーザによる選別条件候補の選択指示を設定操作部26から受付けたか否かを判断する(ステップS200)。選別条件候補の選択指示を受付けていなければ(ステップS200においてNO)、選別条件候補の選択指示が与えられるまで、処理は待機状態となる。
【0088】
選別条件候補の選択指示を受付けていれば(ステップS200においてYES)、要素種別判断部20#が、選択された選別条件候補に対応する選別条件を設定データ格納部32#から取得する(ステップS202)。
【0089】
そして、画像読取部104が原稿300を読取って文書画像を生成する(ステップS204)。この生成された文書画像は、画像バッファ部12に格納される。そして、圧縮処理部14が、画像バッファ部12に格納された文書画像を圧縮処理して、電子化文書生成部16へ出力する(ステップS206)。
【0090】
一方、文書要素抽出部18#が、画像バッファ部12に格納された文書画像に含まれる文書要素のうち、ステップS202で予め取得した選別条件を満たす文書要素を選択的に抽出する(ステップS208)。そして、文書要素抽出部18#が、選択的に抽出した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する(ステップS210)。すると、しおりデータ生成部22が、これらの文書要素の種別と位置情報とに基づいて、しおりデータを生成する(ステップS212)。
【0091】
続いて、電子化文書生成部16が、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部22からのしおりデータを付加することで、電子化文書を生成する(ステップS214)。さらに、ユーザの設定に応じて、送信部28が、ネットワークを介して接続された所定の送信先に電子化文書を送信する(ステップS216)。もしくは、ユーザの設定に応じて、電子化文書生成部16が、記憶部112の所定のディレクトリに電子化文書を格納する(ステップS218)。そして、電子化文書の生成処理は終了する。
【0092】
この発明の実施の形態2によれば、文書画像を含む電子化文書を生成する際に、ユーザが予め設定した選別条件に従って、文書画像に含まれる文書要素のうち所定の条件を満た
すものだけが選別された上で、しおり情報が生成される。この選別条件を設定する際には、対象とする文書画像の種類(タイプ)に応じた少なくとも1つの選別条件候補を表示され、ユーザが容易に選別条件を選択できる。
【0093】
これにより、大量の原稿から電子化文書を生成する必要がある場合であっても、ユーザは比較的容易な操作を行なうだけで、適切なしおり情報を付加された電子化文書を生成することができる。この結果、しおり情報のデータサイズが大きくなり過ぎることを回避するとともに、検索効率の低下も抑制できる。
【0094】
[その他の実施の形態]
上述の実施の形態1および2においては、本発明に係る処理がMFP1またはMFP1#で実行される場合について説明したが、原稿300を読取るための画像読取機能を備えたコンピュータにおいて上記処理が実行されてもよい。この場合には、コンピュータを文書処理装置として機能させるための図5や図13に示された処理機能を実行させるプログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、CD−ROM(Compact Disk-Read Only Memory)、ROM(Read Only
Memory)、RAM(Random Access Memory)およびメモリカードなどのコンピュータ読取り可能な記憶媒体にて記憶させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記憶媒体にて記憶させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
【0095】
また、画像読取機能を他の装置またはコンピュータで実現した上で、生成された文書画像を受取って、上記のような処理に従って付属情報のみを生成してもよい。また、文書画像と付属情報とが同一の電子化文書に含まれる構成について例示したが、必ずしも同一の電子化文書に付属情報を付加しなくてもよく、別のファイルとして出力してもよい。
【0096】
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
【0097】
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
【0098】
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
【0099】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【図面の簡単な説明】
【0100】
【図1】この発明の実施の形態1に従う文書処理装置を含むシステムの概略構成図である。
【図2】この発明の実施の形態1に従うMFPにおける概略の機能構成を示すブロック図である。
【図3】この発明の実施の形態1に従うパーソナルコンピュータの概略のハードウェア構成を示す模式図である。
【図4】この発明の実施の形態1に従うパーソナルコンピュータにおける電子化文書400の表示画面の一例を模式的に示した図である。
【図5】この発明の実施の形態1に従う付属情報の生成処理を実現する機能構成を示すブロック図である。
【図6】文書画像に含まれる文書要素の抽出処理を説明するための図である。
【図7】この発明の実施の形態1に従うMFPの操作パネル部の外観を示す一例である。
【図8】この発明の実施の形態1に従う解析結果の表示および選別条件の設定に関して、操作パネル部の表示パネルにおける表示内容の一例を示す図である。
【図9】電子化文書生成部が生成する電子化文書400のデータ構造の一例を示す図である。
【図10】しおりデータのデータ構造の一例を示す図である。
【図11】電子化文書の出力先の設定に関して、操作パネル部の表示パネルにおける表示内容の一例を示す図である。
【図12】この発明の実施の形態1に従う電子化文書の生成処理の具体例を示すフローチャートである。
【図13】この発明の実施の形態2に従う付属情報の生成処理を実現する機能構成を示すブロック図である。
【図14】この発明の実施の形態2に従う選別条件の設定に関して、操作パネル部の表示パネルにおける表示内容の一例を示す図である
【図15】この発明の実施の形態2に従う選別条件の設定に関して、操作パネル部の表示パネルにおける表示内容の一例を示す図である
【図16】この発明の実施の形態2に従う電子化文書の生成処理の具体例を示すフローチャートである。
【符号の説明】
【0101】
1,1# MFP、12 画像バッファ部、14 圧縮処理部、16 電子化文書生成部、18,18# 文書要素抽出部、20 要素種別判断部、22 しおりデータ生成部、24,24# 表示部、26,26# 設定操作部、28 送信部、32 設定データ格納部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110 操作パネル部、110a 表示パネル、110b ストップボタン、110c スタートボタン、110d 操作ボタン、112 記憶部、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部(HDD)、213 メモリ部、215 CD−ROMドライブ、215a CD−ROM、217 FDDドライブ、217a フレキシブルディスク、300 原稿、300A 文書画像、400 電子化文書、402 ヘッダ部、404 文書画像部、406 データ部、408 フッタ部、420 文書要素、450 種別出現度数グラフ、452 種別表示、454,792 チェックボックス、470 宛先ボタン、472 保存先ボタン、476 タブボタン、480 選別条件候補、494 種別表示、500 文書表示領域、502,504 しおり位置、510 付属情報表示領域、512,514 アイコン、PC,PC1,PC2,PC3
パーソナルコンピュータ、SRV サーバ装置。

【特許請求の範囲】
【請求項1】
文書画像を含む電子化文書を生成する文書処理装置であって、
前記文書画像から文書要素を抽出し、抽出した文書要素の種別と当該文書要素の前記文書画像内での位置とを取得する取得手段と、
前記文書要素の種別についての選別条件の設定を受付ける設定受付手段と、
抽出された前記文書要素の種別と前記選別条件とを比較する比較手段と、
前記選別条件を満たす文書要素の前記文書画像内での位置を特定するための付属情報を生成する付属情報生成手段とを備える、文書処理装置。
【請求項2】
抽出された前記文書要素の種別についての取得結果とともに、前記選別条件の設定画面を表示する表示手段をさらに備え、
前記設定受付手段は、前記設定画面に対する操作に応じて前記選別条件を受付け、
前記比較手段は、前記選別条件の設定動作に応答して比較動作を開始する、請求項1に記載の文書処理装置。
【請求項3】
前記表示手段は、前記取得結果として、前記文書画像から抽出された前記文書要素の数を種別毎に表示する、請求項2に記載の文書処理装置。
【請求項4】
前記文書画像は、少なくとも1つのページ領域を含み、
前記表示手段は、ページ領域に対応付けて、前記文書要素の数を種別毎に表示する、請求項3に記載の文書処理装置。
【請求項5】
前記設定受付手段は、前記文書画像のページ領域別に前記選別条件の設定を受付け可能である、請求項4に記載の文書処理装置。
【請求項6】
前記選別条件の設定を受付ける設定受付手段をさらに備え、
前記比較手段は、抽出された前記文書要素の種別と予め設定された前記選別条件とを比較する、請求項1に記載の文書処理装置。
【請求項7】
選択可能な少なくとも1つの選別条件候補を表示する表示手段をさらに備え、
前記選択条件候補の各々は、前記文書要素の種別のうち少なくとも1つの特定の種別を指定するものであり、
前記比較手段は、前記選択条件候補のうち選択された選択条件候補に対応する前記選別条件に基づいて比較処理を行なう、請求項6に記載の文書処理装置。
【請求項8】
前記文書画像に前記付属情報を付加することで前記電子化文書を生成する文書生成手段をさらに備える、請求項1〜7のいずれか1項に記載の文書処理装置。
【請求項9】
前記文書要素の種別は、表題、見出し、段落区切り、図、表、写真、手書き文字、下線付文字、装飾文字、色文字、の少なくともいずれかを含む、請求項1〜8のいずれか1項に記載の文書処理装置。
【請求項10】
原稿を読取ることで前記文書画像を生成する画像読取手段をさらに備える、請求項1〜9のいずれか1項に記載の文書処理装置。
【請求項11】
ネットワークを介して前記電子化文書を他の装置へ送信するための送信手段をさらに備える、請求項1〜10のいずれか1項に記載の文書処理装置。
【請求項12】
前記電子化文書を格納するための格納手段をさらに備える、請求項1〜11のいずれか
1項に記載の文書処理装置。
【請求項13】
文書画像を含む電子化文書を生成する文書処理方法であって、
前記文書画像から文書要素を抽出し、抽出した文書要素の種別と当該文書要素の前記文書画像内での位置とを取得するステップと、
前記文書要素の種別についての選別条件の設定を受付けるステップと、
抽出された前記文書要素の種別と前記選別条件とを比較するステップと、
前記選別条件を満たす文書要素の前記文書画像内での位置を特定するための付属情報を生成するステップとを備える、文書処理方法。
【請求項14】
請求項13に記載の文書処理方法をコンピュータに実行させる、文書処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2009−26122(P2009−26122A)
【公開日】平成21年2月5日(2009.2.5)
【国際特許分類】
【出願番号】特願2007−189479(P2007−189479)
【出願日】平成19年7月20日(2007.7.20)
【出願人】(303000372)コニカミノルタビジネステクノロジーズ株式会社 (12,802)
【Fターム(参考)】