文書管理システム、文書管理方法および文書管理プログラム
【課題】印刷された文書内の類似文字の判別率の向上を図る。
【解決手段】文書管理システム10は、外観が類似する文字群の中から第1の文字を判別するための判別情報を第1の文字の印刷像の光学特性に反映させて第1の文字を印刷するプリンターと、第1の文字を光学的に読み込んで印刷像の光学特性から判別情報を取得し、取得した判別情報に基づいて文字群の中から第1の文字を判別するスキャナー180と、を備える。
【解決手段】文書管理システム10は、外観が類似する文字群の中から第1の文字を判別するための判別情報を第1の文字の印刷像の光学特性に反映させて第1の文字を印刷するプリンターと、第1の文字を光学的に読み込んで印刷像の光学特性から判別情報を取得し、取得した判別情報に基づいて文字群の中から第1の文字を判別するスキャナー180と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書管理システム、文書管理方法および文書管理プログラムに関する。
【背景技術】
【0002】
文書をスキャナーで読み込み、読み込んだ文字部分の画像を文字コード化するOCR(Optical Character Reader)の技術が知られている。OCRでは、手書き文字や印字された文字などをスキャナーで光学的に読み取り、予め記憶されたパターンと照合して文字情報を特定し、特定した文字情報の文字コードを出力する。
このようなOCRは、読み込んだ文字画像を文字データとして利用できるため、事務処理における手間が軽減できることから広く用いられている技術であるが、OCRは文字のエッジの特徴を抽出することが多く、文字のエッジが類似する日本語文字(例えば、「島」と「鳥」)では誤認識する場合がある。このような誤認識を低減すべく、下記特許文献1に示すように、文書を印刷する際、文字色の黒色への置き換えや、文字のエッジやフォントの強調等の画像処理を施して印刷する画像処理装置が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−166287号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述の画像処理装置では、文字色の置き換えや文字の強調で文字の鮮明性は向上し、文字の抽出漏れは減少するが、類似文字の判別率を向上させることはできなかった。
そこで本発明は、前記課題に鑑みてなされたものであり、類似文字の判別率の向上を図ることを目的とする。
【課題を解決するための手段】
【0005】
本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態又は適用例として実現することが可能である。
【0006】
[適用例1]
本適用例にかかる文書管理システムは、外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像における対象領域の光学特性に反映させて前記第1の文字を印刷する印刷部と、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別する読込部と、を備えることを特徴とする。
【0007】
このような構成によれば、外観が類似する文字群の中から第1の文字を判別するための判別情報を第1の文字の印刷像の光学特性に反映させて第1の文字を印刷し、この第1の文字を光学的に読み込んで印刷像の光学特性から判別情報を取得し、取得した判別情報に基づいて文字群の中から第1の文字を判別するため、印刷された文書に含まれる類似文字群の文字に対する判別率が向上する。
【0008】
[適用例2]
上記適用例にかかる文書管理システムにおいて、前記印刷像の光学特性は、前記対象領域の濃度が前記対象領域以外の領域の濃度と異なることが好ましい。
【0009】
このような構成によれば、文字群に含まれる文字毎に決定された第1の文字の対象領域の濃度と第1の文字の他の領域の濃度とが異なるため、濃度の分布から文字を特定できる。
【0010】
[適用例3]
上記適用例にかかる文書管理システムにおいて、前記対象領域の濃度は、前記対象領域以外の領域の濃度よりも淡くても良い。
【0011】
[適用例4]
上記適用例にかかる文書管理システムにおいて、前記第1の文字は、エッジを有しており、前記エッジの濃度は前記対象領域および前記対象領域以外の領域において同一であり、前記対象領域において前記エッジで規定される内部の濃度は、前記対象領域以外の領域において前記エッジで規定される内部の濃度よりも淡いことが好ましい。
【0012】
このような構成によれば、エッジの濃度は変化しないため、エッジを確実に抽出できる。
【0013】
[適用例5]
上記適用例にかかる文書管理システムにおいて、前記第1の文字は、エッジを有しており、前記対象領域の濃度は、前記対象領域において前記エッジの画素密度に基づいて決定されることが好ましい。
【0014】
このような構成によれば、判別情報を印刷像の光学特性に反映させた文字間の濃度をエッジの画素密度に基づいて決定できる。
【0015】
[適用例6]
上記適用例にかかる文書管理システムにおいて、前記印刷部は、印刷設定に関する情報に基づいて、前記印刷像への前記光学特性の反映を決定しても良い。
【0016】
[適用例7]
本適用例にかかる文書管理方法は、外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像の光学特性に反映させて前記第1の文字を印刷し、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別することを特徴とする。
【0017】
このような方法によれば、外観が類似する文字群の中から第1の文字を判別するための判別情報を第1の文字の印刷像の光学特性に反映させて第1の文字を印刷し、この第1の文字を光学的に読み込んで印刷像の光学特性から判別情報を取得し、取得した判別情報に基づいて文字群の中から第1の文字を判別するため、印刷された文書に含まれる類似文字群の文字に対する判別率が向上する。
【0018】
[適用例8]
本適用例にかかる文書管理プログラムは、外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像の光学特性に反映させて前記第1の文字を印刷し、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別することをコンピューターに実行させることを特徴とする。
【0019】
このようなプログラムによれば、外観が類似する文字群の中から第1の文字を判別するための判別情報を第1の文字の印刷像の光学特性に反映させて第1の文字を印刷し、この第1の文字を光学的に読み込んで印刷像の光学特性から判別情報を取得し、取得した判別情報に基づいて文字群の中から第1の文字を判別するため、印刷された文書に含まれる類似文字群の文字に対する判別率が向上する。
【図面の簡単な説明】
【0020】
【図1】本発明の実施形態1に係る文書管理システムの機能構成を示す図。
【図2】類似文字DBの構成例を示す図。
【図3】類似文字変換機能および類似文字復元機能を説明する図。
【図4】本発明の実施形態1に係るプリンタードライバーの処理の流れを示すフローチャート。
【図5】スキャナードライバーの処理の流れを示すフローチャート。
【図6】印刷対象の文字画像例を示す図。
【図7】実施形態1の印刷結果を示す図。
【図8】本発明の実施形態2に係るプリンタードライバーの処理の流れを示すフローチャート。
【図9】エッジ画素の密度を示す図。
【図10】実施形態2の印刷結果を示す図。
【図11】本発明の実施形態3に係るプリンタードライバーの処理の流れを示すフローチャート。
【図12】実施形態3の印刷結果を示す図。
【発明を実施するための形態】
【0021】
以下、本発明の実施形態について図面を参照して説明する。
【0022】
(実施形態1)
図1は、文書管理システム10の機能構成を示す図である。文書管理システム10は、ホストコンピューター(100A、100B)、印刷部としてのプリンター150および読込部としてのスキャナー180を備え、文書を用紙Pに印刷し、印刷した用紙Pを読み込んで文書を電子データとして管理するためのシステムである。
ユーザーは、一方のホストコンピューター100Aを操作し、文書をプリンター150から印刷させる。次に、ユーザーは、他方のホストコンピューター100Bを操作し、文書が印刷された用紙Pをスキャナー180に読み込ませる。読み込まれた文書の電子データは、他方のホストコンピューター100Bに送られて記憶され、必要に応じて使用される。
【0023】
プリンター150は、レーザー光を利用して感光体にトナーを付着させ、それを熱と圧力で紙に転写して印刷を行うレーザー方式を想定するが、これには限定されず、インクジェット方式等も想定できる。また、スキャナー180は、走査を行う際にセンサーを通して情報をビット単位に読み込むイメージスキャナーを想定する。
ホストコンピューター(100A、100B)は、制御部(110A、110B)、操作部(120A、120B)、表示部(122A、122B)、記憶部(124A、124B)を備える。一方のホストコンピューター100Aにはプリンター150による印刷を制御するプログラムであるプリンタードライバー112が組み込まれている。また、他方のホストコンピューター100Bにはスキャナー180による光学的な読み込みを制御するプログラムであるスキャナードライバー115が組み込まれている。
ホストコンピューター(100A、100B)は、何れも図示を略したCPU、RAM、ROMおよび記憶装置等のハードウェアを備える。また、ホストコンピューター(100A、100B)には、例えば、Windows(登録商標)のようなOS(Operating System)が組み込まれ、OSはホストコンピューター(100A、100B)の各機能を管理している。
【0024】
記憶部(124A、124B)にはデーターベース(以下、DBと略す。)として類似文字DB126が記憶されている。類似文字とは、例えば、「鳥」と「島」のように外観が似た文字を示す。図2は類似文字DB126の構成例を示す。本実施形態1では、類似文字DB126は、類似文字判別用DB130と色変換処理規則DB135を備える。
類似文字判別用DB130は、外観が類似する文字群がグループ化され、それぞれの文字に判別コードが付与された情報を含む。尚、文字は漢字には限定されず、平仮名、カタカナおよび英数字等であっても良い。また、類似文字DB126に対して、ユーザーが類似文字としての文字の登録や類似文字グループを定義できる様態も想定できる。
色変換処理規則DB135は、類似文字判別用DB130で付与された判別コードに応じて規定された印刷濃度の情報を含む。本実施形態1では、印刷濃度の情報は黒色を100%とした濃淡度を示し、色変換の対象とする対象領域は文字の上半分(文字上部)または下半分(文字下部)の何れかである。
【0025】
図1に戻り、類似文字変換部114および類似文字復元部116について説明する。ここで、図3は類似文字変換部114および類似文字復元部116の機能を説明する図であり、図3も参照して説明する。
プリンタードライバー112は類似文字変換部114を備える。類似文字変換部114は、印刷対象の注目文字(第1の文字)200が類似文字判別用DB130の類似文字グループに属する場合、色変換処理規則DB135を参照し、印刷対象の注目文字200に付与された判別コードに対応する濃度情報を取得する。そして、取得した濃度情報で印刷すべく印刷データを書き換える。この結果、同一の文字内の異なる濃度は判別情報として文字画像に埋め込まれ、この文字画像が印刷された印刷像には判別情報が光学特性として反映される。
【0026】
例えば、印刷対象の注目文字200が「島」である場合、類似文字判別用DB130に判別コード「0x01」と規定されている。次に、色変換処理規則DB135には、判別コード「0x01」は、文字の文字上部が100%であって、文字下部が50%と規定されている。従って、類似文字変換部114は、印刷対象の注目文字200の文字下部の濃度が50%になるように印刷データを書き換える。この場合、印刷対象の注目文字200のエッジ濃度は文字上部および文字下部で同一であり、文字下部のエッジ内部の領域の濃度のみが淡くなるように印刷データが書き換えられる。このようにして書き換えられた印刷データは、印刷ジョブとしてプリンター150に出力され、プリンター150は濃度変換された注目文字210を印刷用紙Pに印刷する。
また、スキャナードライバー115は類似文字復元部116を備える。類似文字復元部116は、スキャナー180が読み込んだ注目文字220の画像の光学特性から判別情報である濃度分布に検出する。検出した結果、文字上部と文字下部の濃度が異なる場合、色変換処理規則DB135を参照して判別コードを取得し、取得した判別コードおよび読み込んだ文字の情報に基づいて、読み込んだ文字を特定する。
【0027】
例えば、類似文字復元部116は、読み込んだ文字をOCRソフトウェアで処理して文字コードを取得し、取得した文字コードから文字が「島」や「鳥」のような類似文字であって、文字下部の濃度が文字上部よりも淡いと判定した場合、色変換処理規則DB135を参照して判別コード「0x01」を取得し、更に、類似文字判別用DB130を参照して読み込んだ文字を「島」と特定する。このようにして特定された注目文字230は、画像から読み込んだ注目文字220と置換され、画像データとして他方のホストコンピューター100Bに保持される。
尚、色変換処理規則DB135において、文字上部および文字下部が100%である判別コード「0x00」を使用しないことで、スキャナードライバー115が文書管理システム10のプリンター150で印刷された用紙Pか否かを自動的に識別する様態も想定できる。
また、本実施形態1の色変換処理規則DB135では、類似文字の所定部分に対する濃度を淡くするように規定されているが、例えば、プリンター150の印刷モードがトナーセーブモードで全体的に濃度が淡く印刷される場合、類似文字の所定部分以外の濃度を濃くすることで類似文字を識別可能に印刷しても良い。尚、プリンタードライバー112およびスキャナードライバー115は、文書管理プログラムおよび文書管理方法の一実施形態である。
【0028】
図4は、プリンタードライバー112の処理の流れを示すフローチャートである。処理が開始されると、プリンタードライバー112は、類似文字判別用DB130を参照し、注目する文字が類似文字グループに含まれるか否かを判定して類似文字を抽出する(ステップS300)。
尚、図示は略すが、注目する文字が類似文字グループに含まれない場合、注目する文字は通常のラスタライズ処理を行った後、色変換処理を行う。
例えば、図6に示す文字画像を印刷対象とする場合、「島」および「札」に対してステップS300で類似文字と判定され、類似文字と判定されない文字画像の場合は、通常のラスタライズ処理および色変換処理が施される。
次に、プリンタードライバー112はラスタライズ処理を行い、抽出した類似文字の文字データをRGBデータに変換し、色変換処理規則DB135を参照して判別コードから濃度変換率を決定する(ステップS310)。
尚、図6においては、「島」の濃度変換率は文字上部が100%であり、文字下部が50%になる。また、「札」の濃度変換率は文字上部および文字下部が50%になる。
【0029】
本実施形態1では、RGBの色情報を規定するプレーンに加えて、濃度変換率を規定する類似文字判別情報プレーンを定義し、類似文字判別情報プレーンに濃度変換率を設定する。
次に、プリンタードライバー112は色変換処理を行い、RGBデータを色相、彩度および明度で示すHSVデータに変換し、類似文字判別情報プレーンに設定された濃度変換率に基づいてV値(明度)を変換することでHSVデータに類似文字の判別情報を埋め込み、HSVデータをRGBデータに変換する(ステップS330)。
以上の処理により、図6で示した文字画像は、図7で示すような文字画像として印刷される。
【0030】
図5は、スキャナードライバー115の処理の流れを示すフローチャートである。処理が開始されると、スキャナードライバー115は、スキャナー180が取り込んだ画像から文字画像を抽出し、抽出した文字画像をOCR処理することで候補となる文字データを取得する(ステップS350)。
例えば、図7で示す文字画像がスキャナー180に読み込まれた場合、文字濃度が他と異なる「島」と「札」が抽出され、OCR処理された結果、候補として「島・鳥」グループおよび「社・杜」グループがそれぞれ取得される。
次に、スキャナードライバー115は、文字画像の濃度分布に基づいて判別コードを取得する(ステップS352)。
【0031】
図7では、「島」の画像に対して判別コード「0x01」が取得される。また、「札」の画像に対して判別コード「0x03」が取得される。
次に、スキャナードライバー115は、判別コードと候補となる文字データの情報から文字画像の文字を特定し、特定した文字の文字データを取得する(ステップS354)。
以上の処理により、「島・鳥」グループの判別コード「0x01」に対応する「島」と、「社・杜」グループの判別コード「0x03」に対応する「札」が取得されて置き換えられ、図6で示す文字画像が他方のホストコンピューター100Bに保持される。
この結果、類似文字の中から所望の文字を認識するための判別情報を文字に埋め込んでプリンター150で印刷し、印刷した文字をスキャナー180で読み込んで判別情報に基づいて文字を認識するため、類似文字の中から所望の文字を精度良く識別できる。
【0032】
(実施形態2)
次に、本発明の実施形態2について、図8、図9および図10を参照して説明する。尚、以下の説明では、既に説明した部分と同じ部分については、同一符号を付してその説明を省略する。
本実施形態2では、エッジ密度に応じて濃度変換率を補正する機能を有する。図8は、プリンタードライバー112の処理の流れを示すフローチャートである。処理が開始されると、プリンタードライバー112は、類似文字判別用DB130を参照し、注目する文字が類似文字グループに含まれるか否かを判定して類似文字を抽出する(ステップS300)。
次に、プリンタードライバー112はラスタライズ処理を行い、抽出した類似文字の文字データをRGBデータに変換し、色変換処理規則DB135を参照して判別コードから濃度変換率を決定する(ステップS310)。
次に、プリンタードライバー112は文字識別ラベルを生成する(ステップS314)。本実施形態2では、文字識別ラベルは、複数の文字画像において各文字を識別するためのプレーンとして生成される。
【0033】
次に、プリンタードライバー112は、文字識別ラベルおよび類似文字判別情報プレーンに基づいて、エッジ画素の面積とエッジ内部画素の面積を検出してエッジ画素の密度を算出する(ステップS316)。
本実施形態2では、図9に示す「島」の場合、エッジ画素の密度Rは次式を用いて算出する。
R=(エッジ画素の面積)/(エッジ画素の面積+エッジ内部画素の面積)・・・(式1)
次に、プリンタードライバー112は、算出したエッジ画素の密度Rに基づいて、類似文字判別情報プレーンの値を変更することで濃度変換率を補正する(ステップS318)。この場合、基準値となるエッジ画素の密度Rが予め決められており、プリンタードライバー112は基準値になるように濃度変換率を決定する。
【0034】
次に、プリンタードライバー112は色変換処理を行い、RGBデータを色相、彩度および明度で示すHSVデータに変換し、類似文字判別情報プレーンに設定された濃度変換率に基づいてV値(明度)を変換することでHSVデータに類似文字の判別情報を埋め込み、HSVデータをRGBデータに変換する(ステップS330)。
以上の処理により、類似文字のエッジの濃度を維持しつつ文字内部の濃度を補正することで、用紙Pに印刷された複数の類似文字の濃度が均一に見える。
例えば、図7で示す文字画像において、「島」に比べて「札」はエッジ画素の密度Rが低いためにうすく見える。従って、「札」の濃度変換率を高くなるように修正することで、図10で示す文字画像のようになり、「島」と「札」に対する外観上の濃度差を小さくすることができる。
この結果、文字画像が印刷された用紙Pの視認性が向上し、ユーザーが読み易くなることに加え、スキャナー180の文字の読み込み精度が向上する。
【0035】
(実施形態3)
次に、本発明の実施形態3について、図11および図12を参照して説明する。本実施形態3では、類似文字のグループがランク付けされ、類似文字の中で誤認識され易いグループの類似文字に対しては、実施形態1および2のように濃度差を付けて印刷し、誤認識され難いグループの類似文字に対しては濃度差を付けないで印刷する。
図11は、プリンタードライバー112の処理の流れを示すフローチャートである。処理が開始されると、プリンタードライバー112は、類似文字に濃度差を付与する対象となる類似文字のグループを決定する(ステップS200)。
類似文字のグループの決定は、各グループに含まれる類似文字数に基づいて決定しても良く、また、ユーザーがプリンタードライバー112のユーザーインターフェイスから設定しても良い。また、トナーセーブモードのようなプリンタードライバー112での印刷設定に関する情報に基づいて決定しても良い。
【0036】
次に、プリンタードライバー112は、類似文字判別用DB130を参照し、注目する文字が類似文字グループに含まれるか否かを判定して類似文字を抽出する(ステップS300)。
次に、プリンタードライバー112はラスタライズ処理を行い、抽出した類似文字の文字データをRGBデータに変換し、色変換処理規則DB135を参照して判別コードから濃度変換率を決定する(ステップS310)。
次に、プリンタードライバー112は色変換処理を行い、RGBデータを色相、彩度および明度で示すHSVデータに変換し、類似文字判別情報プレーンに設定された濃度変換率に基づいてV値(明度)を変換することでHSVデータに類似文字の判別情報を埋め込み、HSVデータをRGBデータに変換する(ステップS330)。
【0037】
以上の処理により、濃度変換しない類似文字のグループを設定することで、印刷された用紙P上で濃度差のある領域を減らすことができる。
例えば、図7で示す文字画像において、類似文字判別用DB130が示す「札」の類似文字数に比べて「島」の類似文字数は少ない。従って、「島」については濃度変換を行わず、「札」に対して濃度変換を行うため、図12で示す文字画像のように濃度差のある領域が減って外観視上の喧しさが低減され、文字画像が見易くなる。
【0038】
本発明の実施形態について、図面を参照して説明したが、具体的な構成は、この実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、類似文字に埋め込む判別情報は、文字の濃淡には限定されない。例えば、判別コードに対応したドットパターン、ハッチパターンおよび色相等も想定できる。
また、以上のような手法を実施する装置は、単独の装置によって実現される場合もあれば、複数の装置を組み合わせることによって実現される場合もあり、各種の態様を含むものである。例えば、ホストコンピューター(100A、100B)は1台にまとめられた様態でも良い。また、ホストコンピューター(100A、100B)、プリンター150およびスキャナー180が1台にまとめられた複合機の様態でも良い。
【符号の説明】
【0039】
10…文書管理システム、100A…一方のホストコンピューター、100B…他方のホストコンピューター、112…プリンタードライバー、114…類似文字変換部、115…スキャナードライバー、116…類似文字復元部、126…類似文字DB、130…類似文字判別用DB、135…色変換処理規則DB、150…プリンター、180…スキャナー、200…印刷対象の注目文字、210…濃度変換された注目文字、220…読み込んだ注目文字、230…特定された注目文字。
【技術分野】
【0001】
本発明は、文書管理システム、文書管理方法および文書管理プログラムに関する。
【背景技術】
【0002】
文書をスキャナーで読み込み、読み込んだ文字部分の画像を文字コード化するOCR(Optical Character Reader)の技術が知られている。OCRでは、手書き文字や印字された文字などをスキャナーで光学的に読み取り、予め記憶されたパターンと照合して文字情報を特定し、特定した文字情報の文字コードを出力する。
このようなOCRは、読み込んだ文字画像を文字データとして利用できるため、事務処理における手間が軽減できることから広く用いられている技術であるが、OCRは文字のエッジの特徴を抽出することが多く、文字のエッジが類似する日本語文字(例えば、「島」と「鳥」)では誤認識する場合がある。このような誤認識を低減すべく、下記特許文献1に示すように、文書を印刷する際、文字色の黒色への置き換えや、文字のエッジやフォントの強調等の画像処理を施して印刷する画像処理装置が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−166287号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述の画像処理装置では、文字色の置き換えや文字の強調で文字の鮮明性は向上し、文字の抽出漏れは減少するが、類似文字の判別率を向上させることはできなかった。
そこで本発明は、前記課題に鑑みてなされたものであり、類似文字の判別率の向上を図ることを目的とする。
【課題を解決するための手段】
【0005】
本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態又は適用例として実現することが可能である。
【0006】
[適用例1]
本適用例にかかる文書管理システムは、外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像における対象領域の光学特性に反映させて前記第1の文字を印刷する印刷部と、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別する読込部と、を備えることを特徴とする。
【0007】
このような構成によれば、外観が類似する文字群の中から第1の文字を判別するための判別情報を第1の文字の印刷像の光学特性に反映させて第1の文字を印刷し、この第1の文字を光学的に読み込んで印刷像の光学特性から判別情報を取得し、取得した判別情報に基づいて文字群の中から第1の文字を判別するため、印刷された文書に含まれる類似文字群の文字に対する判別率が向上する。
【0008】
[適用例2]
上記適用例にかかる文書管理システムにおいて、前記印刷像の光学特性は、前記対象領域の濃度が前記対象領域以外の領域の濃度と異なることが好ましい。
【0009】
このような構成によれば、文字群に含まれる文字毎に決定された第1の文字の対象領域の濃度と第1の文字の他の領域の濃度とが異なるため、濃度の分布から文字を特定できる。
【0010】
[適用例3]
上記適用例にかかる文書管理システムにおいて、前記対象領域の濃度は、前記対象領域以外の領域の濃度よりも淡くても良い。
【0011】
[適用例4]
上記適用例にかかる文書管理システムにおいて、前記第1の文字は、エッジを有しており、前記エッジの濃度は前記対象領域および前記対象領域以外の領域において同一であり、前記対象領域において前記エッジで規定される内部の濃度は、前記対象領域以外の領域において前記エッジで規定される内部の濃度よりも淡いことが好ましい。
【0012】
このような構成によれば、エッジの濃度は変化しないため、エッジを確実に抽出できる。
【0013】
[適用例5]
上記適用例にかかる文書管理システムにおいて、前記第1の文字は、エッジを有しており、前記対象領域の濃度は、前記対象領域において前記エッジの画素密度に基づいて決定されることが好ましい。
【0014】
このような構成によれば、判別情報を印刷像の光学特性に反映させた文字間の濃度をエッジの画素密度に基づいて決定できる。
【0015】
[適用例6]
上記適用例にかかる文書管理システムにおいて、前記印刷部は、印刷設定に関する情報に基づいて、前記印刷像への前記光学特性の反映を決定しても良い。
【0016】
[適用例7]
本適用例にかかる文書管理方法は、外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像の光学特性に反映させて前記第1の文字を印刷し、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別することを特徴とする。
【0017】
このような方法によれば、外観が類似する文字群の中から第1の文字を判別するための判別情報を第1の文字の印刷像の光学特性に反映させて第1の文字を印刷し、この第1の文字を光学的に読み込んで印刷像の光学特性から判別情報を取得し、取得した判別情報に基づいて文字群の中から第1の文字を判別するため、印刷された文書に含まれる類似文字群の文字に対する判別率が向上する。
【0018】
[適用例8]
本適用例にかかる文書管理プログラムは、外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像の光学特性に反映させて前記第1の文字を印刷し、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別することをコンピューターに実行させることを特徴とする。
【0019】
このようなプログラムによれば、外観が類似する文字群の中から第1の文字を判別するための判別情報を第1の文字の印刷像の光学特性に反映させて第1の文字を印刷し、この第1の文字を光学的に読み込んで印刷像の光学特性から判別情報を取得し、取得した判別情報に基づいて文字群の中から第1の文字を判別するため、印刷された文書に含まれる類似文字群の文字に対する判別率が向上する。
【図面の簡単な説明】
【0020】
【図1】本発明の実施形態1に係る文書管理システムの機能構成を示す図。
【図2】類似文字DBの構成例を示す図。
【図3】類似文字変換機能および類似文字復元機能を説明する図。
【図4】本発明の実施形態1に係るプリンタードライバーの処理の流れを示すフローチャート。
【図5】スキャナードライバーの処理の流れを示すフローチャート。
【図6】印刷対象の文字画像例を示す図。
【図7】実施形態1の印刷結果を示す図。
【図8】本発明の実施形態2に係るプリンタードライバーの処理の流れを示すフローチャート。
【図9】エッジ画素の密度を示す図。
【図10】実施形態2の印刷結果を示す図。
【図11】本発明の実施形態3に係るプリンタードライバーの処理の流れを示すフローチャート。
【図12】実施形態3の印刷結果を示す図。
【発明を実施するための形態】
【0021】
以下、本発明の実施形態について図面を参照して説明する。
【0022】
(実施形態1)
図1は、文書管理システム10の機能構成を示す図である。文書管理システム10は、ホストコンピューター(100A、100B)、印刷部としてのプリンター150および読込部としてのスキャナー180を備え、文書を用紙Pに印刷し、印刷した用紙Pを読み込んで文書を電子データとして管理するためのシステムである。
ユーザーは、一方のホストコンピューター100Aを操作し、文書をプリンター150から印刷させる。次に、ユーザーは、他方のホストコンピューター100Bを操作し、文書が印刷された用紙Pをスキャナー180に読み込ませる。読み込まれた文書の電子データは、他方のホストコンピューター100Bに送られて記憶され、必要に応じて使用される。
【0023】
プリンター150は、レーザー光を利用して感光体にトナーを付着させ、それを熱と圧力で紙に転写して印刷を行うレーザー方式を想定するが、これには限定されず、インクジェット方式等も想定できる。また、スキャナー180は、走査を行う際にセンサーを通して情報をビット単位に読み込むイメージスキャナーを想定する。
ホストコンピューター(100A、100B)は、制御部(110A、110B)、操作部(120A、120B)、表示部(122A、122B)、記憶部(124A、124B)を備える。一方のホストコンピューター100Aにはプリンター150による印刷を制御するプログラムであるプリンタードライバー112が組み込まれている。また、他方のホストコンピューター100Bにはスキャナー180による光学的な読み込みを制御するプログラムであるスキャナードライバー115が組み込まれている。
ホストコンピューター(100A、100B)は、何れも図示を略したCPU、RAM、ROMおよび記憶装置等のハードウェアを備える。また、ホストコンピューター(100A、100B)には、例えば、Windows(登録商標)のようなOS(Operating System)が組み込まれ、OSはホストコンピューター(100A、100B)の各機能を管理している。
【0024】
記憶部(124A、124B)にはデーターベース(以下、DBと略す。)として類似文字DB126が記憶されている。類似文字とは、例えば、「鳥」と「島」のように外観が似た文字を示す。図2は類似文字DB126の構成例を示す。本実施形態1では、類似文字DB126は、類似文字判別用DB130と色変換処理規則DB135を備える。
類似文字判別用DB130は、外観が類似する文字群がグループ化され、それぞれの文字に判別コードが付与された情報を含む。尚、文字は漢字には限定されず、平仮名、カタカナおよび英数字等であっても良い。また、類似文字DB126に対して、ユーザーが類似文字としての文字の登録や類似文字グループを定義できる様態も想定できる。
色変換処理規則DB135は、類似文字判別用DB130で付与された判別コードに応じて規定された印刷濃度の情報を含む。本実施形態1では、印刷濃度の情報は黒色を100%とした濃淡度を示し、色変換の対象とする対象領域は文字の上半分(文字上部)または下半分(文字下部)の何れかである。
【0025】
図1に戻り、類似文字変換部114および類似文字復元部116について説明する。ここで、図3は類似文字変換部114および類似文字復元部116の機能を説明する図であり、図3も参照して説明する。
プリンタードライバー112は類似文字変換部114を備える。類似文字変換部114は、印刷対象の注目文字(第1の文字)200が類似文字判別用DB130の類似文字グループに属する場合、色変換処理規則DB135を参照し、印刷対象の注目文字200に付与された判別コードに対応する濃度情報を取得する。そして、取得した濃度情報で印刷すべく印刷データを書き換える。この結果、同一の文字内の異なる濃度は判別情報として文字画像に埋め込まれ、この文字画像が印刷された印刷像には判別情報が光学特性として反映される。
【0026】
例えば、印刷対象の注目文字200が「島」である場合、類似文字判別用DB130に判別コード「0x01」と規定されている。次に、色変換処理規則DB135には、判別コード「0x01」は、文字の文字上部が100%であって、文字下部が50%と規定されている。従って、類似文字変換部114は、印刷対象の注目文字200の文字下部の濃度が50%になるように印刷データを書き換える。この場合、印刷対象の注目文字200のエッジ濃度は文字上部および文字下部で同一であり、文字下部のエッジ内部の領域の濃度のみが淡くなるように印刷データが書き換えられる。このようにして書き換えられた印刷データは、印刷ジョブとしてプリンター150に出力され、プリンター150は濃度変換された注目文字210を印刷用紙Pに印刷する。
また、スキャナードライバー115は類似文字復元部116を備える。類似文字復元部116は、スキャナー180が読み込んだ注目文字220の画像の光学特性から判別情報である濃度分布に検出する。検出した結果、文字上部と文字下部の濃度が異なる場合、色変換処理規則DB135を参照して判別コードを取得し、取得した判別コードおよび読み込んだ文字の情報に基づいて、読み込んだ文字を特定する。
【0027】
例えば、類似文字復元部116は、読み込んだ文字をOCRソフトウェアで処理して文字コードを取得し、取得した文字コードから文字が「島」や「鳥」のような類似文字であって、文字下部の濃度が文字上部よりも淡いと判定した場合、色変換処理規則DB135を参照して判別コード「0x01」を取得し、更に、類似文字判別用DB130を参照して読み込んだ文字を「島」と特定する。このようにして特定された注目文字230は、画像から読み込んだ注目文字220と置換され、画像データとして他方のホストコンピューター100Bに保持される。
尚、色変換処理規則DB135において、文字上部および文字下部が100%である判別コード「0x00」を使用しないことで、スキャナードライバー115が文書管理システム10のプリンター150で印刷された用紙Pか否かを自動的に識別する様態も想定できる。
また、本実施形態1の色変換処理規則DB135では、類似文字の所定部分に対する濃度を淡くするように規定されているが、例えば、プリンター150の印刷モードがトナーセーブモードで全体的に濃度が淡く印刷される場合、類似文字の所定部分以外の濃度を濃くすることで類似文字を識別可能に印刷しても良い。尚、プリンタードライバー112およびスキャナードライバー115は、文書管理プログラムおよび文書管理方法の一実施形態である。
【0028】
図4は、プリンタードライバー112の処理の流れを示すフローチャートである。処理が開始されると、プリンタードライバー112は、類似文字判別用DB130を参照し、注目する文字が類似文字グループに含まれるか否かを判定して類似文字を抽出する(ステップS300)。
尚、図示は略すが、注目する文字が類似文字グループに含まれない場合、注目する文字は通常のラスタライズ処理を行った後、色変換処理を行う。
例えば、図6に示す文字画像を印刷対象とする場合、「島」および「札」に対してステップS300で類似文字と判定され、類似文字と判定されない文字画像の場合は、通常のラスタライズ処理および色変換処理が施される。
次に、プリンタードライバー112はラスタライズ処理を行い、抽出した類似文字の文字データをRGBデータに変換し、色変換処理規則DB135を参照して判別コードから濃度変換率を決定する(ステップS310)。
尚、図6においては、「島」の濃度変換率は文字上部が100%であり、文字下部が50%になる。また、「札」の濃度変換率は文字上部および文字下部が50%になる。
【0029】
本実施形態1では、RGBの色情報を規定するプレーンに加えて、濃度変換率を規定する類似文字判別情報プレーンを定義し、類似文字判別情報プレーンに濃度変換率を設定する。
次に、プリンタードライバー112は色変換処理を行い、RGBデータを色相、彩度および明度で示すHSVデータに変換し、類似文字判別情報プレーンに設定された濃度変換率に基づいてV値(明度)を変換することでHSVデータに類似文字の判別情報を埋め込み、HSVデータをRGBデータに変換する(ステップS330)。
以上の処理により、図6で示した文字画像は、図7で示すような文字画像として印刷される。
【0030】
図5は、スキャナードライバー115の処理の流れを示すフローチャートである。処理が開始されると、スキャナードライバー115は、スキャナー180が取り込んだ画像から文字画像を抽出し、抽出した文字画像をOCR処理することで候補となる文字データを取得する(ステップS350)。
例えば、図7で示す文字画像がスキャナー180に読み込まれた場合、文字濃度が他と異なる「島」と「札」が抽出され、OCR処理された結果、候補として「島・鳥」グループおよび「社・杜」グループがそれぞれ取得される。
次に、スキャナードライバー115は、文字画像の濃度分布に基づいて判別コードを取得する(ステップS352)。
【0031】
図7では、「島」の画像に対して判別コード「0x01」が取得される。また、「札」の画像に対して判別コード「0x03」が取得される。
次に、スキャナードライバー115は、判別コードと候補となる文字データの情報から文字画像の文字を特定し、特定した文字の文字データを取得する(ステップS354)。
以上の処理により、「島・鳥」グループの判別コード「0x01」に対応する「島」と、「社・杜」グループの判別コード「0x03」に対応する「札」が取得されて置き換えられ、図6で示す文字画像が他方のホストコンピューター100Bに保持される。
この結果、類似文字の中から所望の文字を認識するための判別情報を文字に埋め込んでプリンター150で印刷し、印刷した文字をスキャナー180で読み込んで判別情報に基づいて文字を認識するため、類似文字の中から所望の文字を精度良く識別できる。
【0032】
(実施形態2)
次に、本発明の実施形態2について、図8、図9および図10を参照して説明する。尚、以下の説明では、既に説明した部分と同じ部分については、同一符号を付してその説明を省略する。
本実施形態2では、エッジ密度に応じて濃度変換率を補正する機能を有する。図8は、プリンタードライバー112の処理の流れを示すフローチャートである。処理が開始されると、プリンタードライバー112は、類似文字判別用DB130を参照し、注目する文字が類似文字グループに含まれるか否かを判定して類似文字を抽出する(ステップS300)。
次に、プリンタードライバー112はラスタライズ処理を行い、抽出した類似文字の文字データをRGBデータに変換し、色変換処理規則DB135を参照して判別コードから濃度変換率を決定する(ステップS310)。
次に、プリンタードライバー112は文字識別ラベルを生成する(ステップS314)。本実施形態2では、文字識別ラベルは、複数の文字画像において各文字を識別するためのプレーンとして生成される。
【0033】
次に、プリンタードライバー112は、文字識別ラベルおよび類似文字判別情報プレーンに基づいて、エッジ画素の面積とエッジ内部画素の面積を検出してエッジ画素の密度を算出する(ステップS316)。
本実施形態2では、図9に示す「島」の場合、エッジ画素の密度Rは次式を用いて算出する。
R=(エッジ画素の面積)/(エッジ画素の面積+エッジ内部画素の面積)・・・(式1)
次に、プリンタードライバー112は、算出したエッジ画素の密度Rに基づいて、類似文字判別情報プレーンの値を変更することで濃度変換率を補正する(ステップS318)。この場合、基準値となるエッジ画素の密度Rが予め決められており、プリンタードライバー112は基準値になるように濃度変換率を決定する。
【0034】
次に、プリンタードライバー112は色変換処理を行い、RGBデータを色相、彩度および明度で示すHSVデータに変換し、類似文字判別情報プレーンに設定された濃度変換率に基づいてV値(明度)を変換することでHSVデータに類似文字の判別情報を埋め込み、HSVデータをRGBデータに変換する(ステップS330)。
以上の処理により、類似文字のエッジの濃度を維持しつつ文字内部の濃度を補正することで、用紙Pに印刷された複数の類似文字の濃度が均一に見える。
例えば、図7で示す文字画像において、「島」に比べて「札」はエッジ画素の密度Rが低いためにうすく見える。従って、「札」の濃度変換率を高くなるように修正することで、図10で示す文字画像のようになり、「島」と「札」に対する外観上の濃度差を小さくすることができる。
この結果、文字画像が印刷された用紙Pの視認性が向上し、ユーザーが読み易くなることに加え、スキャナー180の文字の読み込み精度が向上する。
【0035】
(実施形態3)
次に、本発明の実施形態3について、図11および図12を参照して説明する。本実施形態3では、類似文字のグループがランク付けされ、類似文字の中で誤認識され易いグループの類似文字に対しては、実施形態1および2のように濃度差を付けて印刷し、誤認識され難いグループの類似文字に対しては濃度差を付けないで印刷する。
図11は、プリンタードライバー112の処理の流れを示すフローチャートである。処理が開始されると、プリンタードライバー112は、類似文字に濃度差を付与する対象となる類似文字のグループを決定する(ステップS200)。
類似文字のグループの決定は、各グループに含まれる類似文字数に基づいて決定しても良く、また、ユーザーがプリンタードライバー112のユーザーインターフェイスから設定しても良い。また、トナーセーブモードのようなプリンタードライバー112での印刷設定に関する情報に基づいて決定しても良い。
【0036】
次に、プリンタードライバー112は、類似文字判別用DB130を参照し、注目する文字が類似文字グループに含まれるか否かを判定して類似文字を抽出する(ステップS300)。
次に、プリンタードライバー112はラスタライズ処理を行い、抽出した類似文字の文字データをRGBデータに変換し、色変換処理規則DB135を参照して判別コードから濃度変換率を決定する(ステップS310)。
次に、プリンタードライバー112は色変換処理を行い、RGBデータを色相、彩度および明度で示すHSVデータに変換し、類似文字判別情報プレーンに設定された濃度変換率に基づいてV値(明度)を変換することでHSVデータに類似文字の判別情報を埋め込み、HSVデータをRGBデータに変換する(ステップS330)。
【0037】
以上の処理により、濃度変換しない類似文字のグループを設定することで、印刷された用紙P上で濃度差のある領域を減らすことができる。
例えば、図7で示す文字画像において、類似文字判別用DB130が示す「札」の類似文字数に比べて「島」の類似文字数は少ない。従って、「島」については濃度変換を行わず、「札」に対して濃度変換を行うため、図12で示す文字画像のように濃度差のある領域が減って外観視上の喧しさが低減され、文字画像が見易くなる。
【0038】
本発明の実施形態について、図面を参照して説明したが、具体的な構成は、この実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、類似文字に埋め込む判別情報は、文字の濃淡には限定されない。例えば、判別コードに対応したドットパターン、ハッチパターンおよび色相等も想定できる。
また、以上のような手法を実施する装置は、単独の装置によって実現される場合もあれば、複数の装置を組み合わせることによって実現される場合もあり、各種の態様を含むものである。例えば、ホストコンピューター(100A、100B)は1台にまとめられた様態でも良い。また、ホストコンピューター(100A、100B)、プリンター150およびスキャナー180が1台にまとめられた複合機の様態でも良い。
【符号の説明】
【0039】
10…文書管理システム、100A…一方のホストコンピューター、100B…他方のホストコンピューター、112…プリンタードライバー、114…類似文字変換部、115…スキャナードライバー、116…類似文字復元部、126…類似文字DB、130…類似文字判別用DB、135…色変換処理規則DB、150…プリンター、180…スキャナー、200…印刷対象の注目文字、210…濃度変換された注目文字、220…読み込んだ注目文字、230…特定された注目文字。
【特許請求の範囲】
【請求項1】
外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像における対象領域の光学特性に反映させて前記第1の文字を印刷する印刷部と、
前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別する読込部と、を備えることを特徴とする文書管理システム。
【請求項2】
請求項1に記載の文書管理システムにおいて、
前記印刷像の光学特性は、前記対象領域の濃度が前記対象領域以外の領域の濃度と異なることを特徴とする文書管理システム。
【請求項3】
請求項1または2に記載の文書管理システムにおいて、
前記対象領域の濃度は、前記対象領域以外の領域の濃度よりも淡いことを特徴とする文書管理システム。
【請求項4】
請求項1乃至3のいずれか1項に記載の文書管理システムにおいて、
前記第1の文字は、エッジを有しており、前記エッジの濃度は前記対象領域および前記対象領域以外の領域において同一であり、前記対象領域において前記エッジで規定される内部の濃度は、前記対象領域以外の領域において前記エッジで規定される内部の濃度よりも淡いことを特徴とする文書管理システム。
【請求項5】
請求項1乃至4のいずれか1項に記載の文書管理システムにおいて、
前記第1の文字は、エッジを有しており、前記対象領域の濃度は、前記対象領域において前記エッジの画素密度に基づいて決定されることを特徴とする文書管理システム。
【請求項6】
請求項1乃至5のいずれか1項に記載の文書管理システムにおいて、
前記印刷部は、印刷設定に関する情報に基づいて、前記印刷像への前記光学特性の反映を決定することを特徴とする文書管理システム。
【請求項7】
外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像の光学特性に反映させて前記第1の文字を印刷し、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別することを特徴とする文書管理方法。
【請求項8】
外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像の光学特性に反映させて前記第1の文字を印刷し、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別することをコンピューターに実行させることを特徴とする文書管理プログラム。
【請求項1】
外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像における対象領域の光学特性に反映させて前記第1の文字を印刷する印刷部と、
前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別する読込部と、を備えることを特徴とする文書管理システム。
【請求項2】
請求項1に記載の文書管理システムにおいて、
前記印刷像の光学特性は、前記対象領域の濃度が前記対象領域以外の領域の濃度と異なることを特徴とする文書管理システム。
【請求項3】
請求項1または2に記載の文書管理システムにおいて、
前記対象領域の濃度は、前記対象領域以外の領域の濃度よりも淡いことを特徴とする文書管理システム。
【請求項4】
請求項1乃至3のいずれか1項に記載の文書管理システムにおいて、
前記第1の文字は、エッジを有しており、前記エッジの濃度は前記対象領域および前記対象領域以外の領域において同一であり、前記対象領域において前記エッジで規定される内部の濃度は、前記対象領域以外の領域において前記エッジで規定される内部の濃度よりも淡いことを特徴とする文書管理システム。
【請求項5】
請求項1乃至4のいずれか1項に記載の文書管理システムにおいて、
前記第1の文字は、エッジを有しており、前記対象領域の濃度は、前記対象領域において前記エッジの画素密度に基づいて決定されることを特徴とする文書管理システム。
【請求項6】
請求項1乃至5のいずれか1項に記載の文書管理システムにおいて、
前記印刷部は、印刷設定に関する情報に基づいて、前記印刷像への前記光学特性の反映を決定することを特徴とする文書管理システム。
【請求項7】
外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像の光学特性に反映させて前記第1の文字を印刷し、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別することを特徴とする文書管理方法。
【請求項8】
外観が類似する文字群の中から第1の文字を判別するための判別情報を前記第1の文字の印刷像の光学特性に反映させて前記第1の文字を印刷し、前記第1の文字を光学的に読み込んで前記印刷像の光学特性から前記判別情報を取得し、取得した前記判別情報に基づいて前記文字群の中から前記第1の文字を判別することをコンピューターに実行させることを特徴とする文書管理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2013−105362(P2013−105362A)
【公開日】平成25年5月30日(2013.5.30)
【国際特許分類】
【出願番号】特願2011−249422(P2011−249422)
【出願日】平成23年11月15日(2011.11.15)
【出願人】(000002369)セイコーエプソン株式会社 (51,324)
【Fターム(参考)】
【公開日】平成25年5月30日(2013.5.30)
【国際特許分類】
【出願日】平成23年11月15日(2011.11.15)
【出願人】(000002369)セイコーエプソン株式会社 (51,324)
【Fターム(参考)】
[ Back to top ]