説明

文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法

【課題】融通が利き、且つ精度低下も防止できる文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法を提供することを目的とする。
【解決手段】文書の属性に応じた処理を行う文書解析処理装置であって、例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段17に基づいて文書の例外属性を解析する例外属性解析手段64と、例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段16に基づいて文書の推定属性を解析する推定属性解析手段63と、推定属性解析手段63によって解析された文書の推定属性から例外属性解析手段64によって解析された文書の例外属性を除いた結果に基づき文書の属性を解析する文書属性解析手段62とを有することにより上記課題を解決する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法に係り、特に文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法に関する。
【背景技術】
【0002】
近年の自然言語処理技術の発達と計算機の処理能力の向上に伴い、従来の文書解析処理装置では、大量の蓄積文書の中から内容が類似する文書を抽出し、類似度に基づいて分類をすることが可能になっている。
【0003】
文書が類似するかどうかの判定方法としては、以下の手法が知られている。まず、従来の判定方法では、対象文書を文字列や単語や文節を単位とする要素に分解し、その要素の組み合わせに基づいて特徴量を計算する。そして、従来の判定方法では、全ての文書の組み合わせについて、特徴量の類似度を求め、類似度が一定以上であれば類似するとみなしていた。
【0004】
特徴量の計算方法としては様々な方式が考案されている。例えば、従来の計算方法では対象文書を文字列や単語や文節を単位とする要素に分解した後に、各要素の文書集合における出現頻度と、その対象文書における出現頻度とに基づいて要素の重みを求める。そして、従来の計算方法では各要素と、その重みによって構成されるベクトルとによって特徴量を表現していた。
【0005】
なお、類似度は、そのベクトルの内積を求めるなどして算出する。類似度に基づく従来の分類方法では、同じ分類のものとして定義された文書群の特徴量(ベクトル)の平均値を算出し、対象文書の特徴量(ベクトル)と、その平均ベクトルとの類似度が一定以上であれば、その対象文書はその分類であると判断していた。特許文献1には、上記のような類似文書の検索に関する技術の一例が記載されている。
【0006】
また、企業等の各組織では、扱う企業秘密や個人情報について、その情報漏えいを防止することが求められている。特許文献2には、各組織においてセキュリティポリシー(ポリシー)を掲げて、権限のある人にしか機密情報にアクセスできないようにアクセスを制御したり、機密情報を暗号化して権限のある人にしか閲覧できないようにしたりする技術の一例が記載されている。
【0007】
このように従来の文書解析処理装置では、文書にアクセスする際、上記のような類似文書の検索に関する技術を利用し、文書の内容から文書の属性を推定して、文書に対するアクセスがポリシーに違反していないかを監視することができた。
【特許文献1】特開2000−148770号公報
【特許文献2】特開2006−185153号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、ポリシーに従って文書に対するアクセスの監視を行う従来の文書解析処理装置では、以下のように、運用時にユーザが不便を感じることも起こり得た。例えばポリシーは「・・・は原則的に禁止、実行せざるをえない場合は管理責任者の許可を得た上で実行する。」というような原則運用である。したがって、原則以外が適用できない従来の文書解析処理装置は、例えば以下のケースについて、不便,融通が利かないなどの悪評を買うことがあった。
【0009】
第1のケースは、類似検索・分類の推定結果が論理的に正解であるが、運用上、その文書に推定属性を適用したくないような例である。原則以外が適用できない従来の文書解析処理装置は第1のケースに対して融通性がない。
【0010】
例えば開発商品単位のカテゴリの分類「商品A,商品B,商品C」で分類管理する体系があるとする。商品Aについては競合他社への漏洩対策の為、開発関係者のみ参照可が規定され、開発関係者以外に対して「極秘」扱いが規定されている。
【0011】
商品Aのパンフレット文書を分類すると、原則以外が適用できない従来の文書解析処理装置では「商品A」に判定される。しかし、パンフレット文書は、多くの人に公開したいため、「極秘」扱いとしたくない。また、商品Aの機能仕様書のドラフト文書は開発関係者以外「極秘」扱いだが、他の商品Bのチームでも参考にする記述がある場合、他の商品Bのチームも参照可としたい。
【0012】
このようなケースでは、次回以降、同じような文書が分類された場合、前回の判定結果と異なる結果を要求される。このような状況を解決する1つの方法として、「極秘,秘,社外秘」など、アクセス制御されている従来の文書解析処理装置ではコンテンツによらず文書にIDが付与されており、例外制御を扱う機能として許可証等も考案されている。しかし、許可証を利用する従来の文書解析処理装置は、文書に付与されたIDに基づくものであり、文書にIDが付与されていない文書に適応できなかった。
【0013】
第2のケースは、類似検索・分類の判定結果を変更する方法として、電子メールのスパムフィルタのフィードバック・再学習機能タイプを利用する例である。スパムフィルタのフィードバック・再学習機能タイプを利用する従来の文書解析処理装置では、学習データベースそのものを再学習させており、学習データベースの特徴量を変えることになってしまう。正解を正解でないと学習させることは、学習データベースの精度低下に繋がってしまう。
【0014】
本発明は、上記の点に鑑みなされたもので、融通が利き、且つ精度低下も防止できる文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法を提供することを目的とする。
【課題を解決するための手段】
【0015】
上記課題を解決するため、本発明は、文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置であって、例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段とを有することを特徴とする。
【0016】
また、本発明は、文書の属性を解析し、その属性に応じた処理を行うプロッタ部及びスキャナ部の少なくとも一方を有する画像処理装置であって、例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段とを有することを特徴とする。
【0017】
また、本発明は、文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置を、例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段として機能させるための文書解析処理プログラムであることを特徴とする。
【0018】
また、本発明は、文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置における文書解析処理方法であって、例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析ステップと、例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析ステップと、前記推定属性解析ステップにより解析された前記文書の推定属性から前記例外属性解析ステップにより解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析ステップとを有することを特徴とする。
【0019】
なお、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。
【発明の効果】
【0020】
本発明によれば、融通が利き、且つ精度低下も防止できる文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法を提供可能である。
【発明を実施するための最良の形態】
【0021】
次に、本発明を実施するための最良の形態を、以下の実施例に基づき図面を参照しつつ説明していく。
【0022】
図1は本発明によるシステムの一実施例の構成図である。図1のシステムは、文書属性学習・解析サーバ1,複合機2,文書学習連携プログラム3及び例外学習連携プログラム4を含む構成である。なお、文書属性学習・解析サーバ1は、文書解析処理装置の一例である。複合機2は、画像処理装置の一例である。
【0023】
図1の文書属性学習・解析サーバ1は、文書属性解析プログラム11,文書属性学習プログラム12,例外学習プログラム13,解析結果DB14,ポリシーDB15,属性特徴ベースDB16,例外情報DB17を含む構成である。
【0024】
文書属性学習は、学習クライアントである文書学習連携プログラム3と、学習サーバである文書属性学習プログラム12とで行われる。文書属性学習プログラム12は、文書属性学習の結果を属性特徴ベースDB16に登録する。また、例外学習は学習クライアントである例外学習連携プログラム4と、学習サーバである例外学習プログラム13とで行われる。例外学習プログラム13は、例外学習の結果を例外情報DB17に登録する。
【0025】
文書属性解析プログラム11は、複合機2から解析対象文書5を受信し、その文書の属性を後述のように解析する。そして、文書属性解析プログラム11はポリシーDB15を用いて後述のようにポリシー判定を行う。ポリシー違反を検出すると、文書属性解析プログラム11は例えば管理者に警告を行う。最後に、文書属性解析プログラム11は結果を解析結果DB14に登録する。
【0026】
文書属性学習・解析サーバ1は、例えば図2に示すようなハードウェア構成により実現される。図2は、文書属性学習・解析サーバの一実施例のハードウェア構成図である。
【0027】
文書属性学習・解析サーバ1は、それぞれバスBで相互に接続された入力装置21,出力装置22,ドライブ装置23,補助記憶装置24,主記憶装置25,演算処理装置26およびインターフェース装置27で構成される。
【0028】
入力装置21はキーボードやマウスなどで構成され、各種信号を入力するために用いられる。出力装置22はディスプレイ装置などで構成され、各種ウインドウやデータ等を表示するために用いられる。インターフェース装置27は、モデム,LANカードなどで構成されており、インターネットやLAN等のネットワークに接続する為に用いられる。
【0029】
本発明による文書解析処理プログラムは、文書属性学習・解析サーバ1を制御する各種プログラムの少なくとも一部である。文書解析処理プログラムは例えば記録媒体28の配布やネットワークからのダウンロードなどによって提供される。文書解析処理プログラムを記録した記録媒体28は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
【0030】
また、文書解析処理プログラムを記録した記録媒体28がドライブ装置23にセットされると、文書解析処理プログラムは記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。ネットワークからダウンロードされた文書解析処理プログラムはインターフェース装置27を介して補助記憶装置24にインストールされる。
【0031】
補助記憶装置24はインストールされた文書解析処理プログラムを格納すると共に、必要なファイル,データ等を格納する。主記憶装置25は、起動時に補助記憶装置24から文書解析処理プログラムを読み出して格納する。そして、演算処理装置26は主記憶装置25に格納された文書解析処理プログラムに従って、後述するような各種処理を実現している。
【0032】
本発明による文書解析処理プログラムは、文書属性解析プログラム11,文書属性学習プログラム12,例外学習プログラム13を含む構成である。文書属性学習処理は文書学習連携プログラム3及び文書属性学習プログラム12によって実現される。
【0033】
文書属性学習プログラム12は文書学習連携プログラム3から文書属性の学習依頼を受け付け、受け付けた文書を基に文書属性学習の結果を属性特徴ベースDB16に登録する登録処理を行う。なお、文書学習連携プログラム3及び文書属性学習プログラム12は所定のフォルダを監視し、フォルダに機密文書が保存されたとき、機密文書の文書属性学習を行って文書属性学習の結果を登録するような既存の技術を利用して実現できる。
【0034】
また、例外学習処理は例外学習連携プログラム4及び例外学習プログラム13によって実現される。図3は例外学習処理の手順を表したフローチャートである。ステップS1に進み、例外学習連携プログラム4は例えば管理者等のユーザから特別に例外扱いしたい文書と例外扱いしたい文書の属性(例外属性)とが入力される。
【0035】
図4は特別に例外扱いしたい文書と例外扱いしたい文書の属性とが入力される例外学習画面の一例のイメージ図である。図4の例外学習画面40は、例外扱いしたい文書を「対象ファイル」として入力し、例外扱いしたい文書の属性を「属性」として入力する例を表している。なお、「対象ファイル」の入力は、「参照」ボタン41を押下することで表示されるファイル管理画面を利用して行うこともできる。
【0036】
ステップS2に進み、例外学習連携プログラム4はユーザから入力された例外扱いしたい文書と例外扱いしたい文書の属性とに基づき、例外学習プログラム13へ例外情報の学習依頼を送信する。例外情報の学習依頼には、ユーザによって入力された例外扱いしたい文書と例外扱いしたい文書の属性とが、学習文書と例外属性として含まれる。
【0037】
さらに、ユーザから例外属性を適用するのに必要なコンテキスト(付帯条件)が入力された場合、例外情報の学習依頼にはコンテキストが更に含まれる。例えばコンテキストには例外属性を適用する人を特定するもの(XXXさんがコピーする場合だけ例外的に許可する等)や例外属性を適用する場所を特定するもの(xxxの部屋内であればコピーを許可する等)がある。
【0038】
ステップS3に進み、例外学習プログラム13は例外学習連携プログラム4から例外情報の学習依頼を受け付ける。ステップS4に進み、例外学習プログラム13は受け付けた例外情報の学習依頼を基に例外情報の登録処理を行う。
【0039】
例外情報の登録処理では、受け付けた例外情報の学習依頼に含まれる学習文書から全文検索の元になるテキスト情報を抽出する。なお、学習文書がスキャン文書等の画像である場合にはOCR処理によりテキスト情報を抽出する。
【0040】
ステップS5に進み、例外学習プログラム13はテキスト情報から全文検索用の特徴量を算出し、その特徴量と共に、受け付けた例外情報の学習依頼に含まれる指定された例外属性を紐付けて例外情報DB17へ登録する。
【0041】
なお、図3のフローチャートに表した例外学習処理は既存の技術を利用して実現することができる。例えばテキスト情報から全文検索用の特徴量を算出する処理は従来技術を応用して実現できる。全文検索用の特徴量は、文字列,単語又は文節の組み合わせの要素に分解されたテキスト情報における、各要素の出現頻度や重みのn次元ベクトルで表すことができる。
【0042】
全文検索用の特徴量をn次元ベクトルで表した場合、文書間の類似度は以下のように計算できる。類似度の計算は、例えば特開2000−148770号公報などに記載されているようなn次元ベクトル間の内積あるいは余弦によって算出する方法を用いることができる。類似度が閾値を超えていれば、2つの文書は類似すると判定される。
【0043】
図5は例外情報DBに登録されるレコードのイメージ図である。図5のレコードは例外扱いする文書(例外文書)の特徴データと、例外文書の属性(例外属性)と、例外属性を適用する人(ユーザ)を特定するコンテキスト1と、例外属性を適用する場所を特定するコンテキスト2とを含む構成である。なお、例外文書の特徴データはテキスト情報から算出した全文検索用の特徴量である。例外属性,コンテキスト1及び2は、受け付けた例外情報の学習依頼に含まれていたものである。
【0044】
さらに、文書属性解析処理は、文書属性解析プログラム11,解析結果DB14,ポリシーDB15,属性特徴ベースDB16,例外情報DB17によって実現される。図6は文書属性解析プログラムの一実施例の構成図である。図6の文書属性解析プログラム11は、文書解析依頼受付部61,文書解析判定処理部62,属性特徴ベース判定部63,例外情報判定部64,ポリシー判定部65を含む構成である。
【0045】
図7は文書属性解析処理の手順を表したフローチャートである。ステップS11では文書解析依頼受付部61が複合機2等の外部から解析対象文書5及びアクション情報(例えば誰が何をした等)をネットワーク経由で受信し、その解析対象文書5及びアクション情報を文書解析判定処理部62に送信する。
【0046】
ステップS12に進み、文書解析判定処理部62は例外情報判定部64へ例外判定を要求する。例外判定を要求された例外情報判定部64は例外情報DB17に登録されている例外文書の特徴データから解析対象文書5の特徴データと、ほぼ同一の例外文書を検索する類似文書検索を行う。そして、例外情報判定部64は検索された例外文書に紐付けされている例外属性を例外情報DB17から抽出する(結果1)。
【0047】
なお、例外情報判定部64は例外情報DB17に登録されている例外文書の特徴データから解析対象文書5の特徴データと、ほぼ同一の例外文書を検索するため、類似度の閾値を図8に示すように通常より高く設定する。図8は、ほぼ同一の例外文書を検索する為に利用する類似度の閾値を表した一例のグラフ図である。
【0048】
閾値のグラフ図は、利用する文書検索エンジンによって類似度の値、分布が違う。したがって、類似文書検索を行う場合には予め実験して閾値の推奨値を決める。類似文書検索を行う場合の閾値は、評価段階で、目的に近いサンプルデータ(学習文書)を使って決めることが望ましい。
【0049】
例外判定では、ほぼ同一に近い類似文書を抽出したい。そこで、例外判定では学習したものと同じ文書(質問文書)で質問した場合に100%となるように正規化した類似度を用いる。
【0050】
ただし、学習文書や質問文書が複合機2から得たスキャン画像である場合、毎回、全く同一の像やOCR結果を得ることが難しいので、同じ紙画像を質問しても100%は得られない。そこで、類似文書検索を行う場合には類似度の閾値を、多少の相違結果を考慮した高い値(2)とする。値(1)は、正解を誤りとしてしまう誤認と、誤りを正解としてしまう誤認とのバランスを考えた通常の閾値を表している。
【0051】
ステップS13に進み、文書解析判定処理部62は属性特徴ベース判定部63へ属性推定を要求する。属性推定を要求された属性特徴ベース判定部63は、属性特徴ベースDB16に登録されている文書属性学習の結果に基づき、通常のコンテンツ解析(類似文書検索&文書分類)により解析対象文書5の推定属性を抽出する(結果2)。
【0052】
ステップS14に進み、文書解析判定処理部62は結果1の例外属性と結果2の推定属性とに基づき、解析対象文書5の総合判定を行う。図9は、結果1の例外属性,結果2の推定属性および総合結果を表した構造イメージ図である。図9に示すように、結果1の例外属性の構造は、複数の例外属性及び信頼度から成る。結果2の推定属性の構造は、複数の推定属性及び信頼度から成る。解析対象文書5の総合結果は、結果2の推定属性の構造を表す属性リストから結果1の例外属性の構造を表す属性リストを除いたものである。
【0053】
図10は、結果1の例外属性,結果2の推定属性及び総合結果を表した処理イメージ図である。図10の例では、結果1の例外属性「カテゴリA」を結果2の推定属性「カテゴリA,カテゴリB」から除いて、総合結果「カテゴリB」が得られた例を表している。
【0054】
総合結果が得られた後、ポリシー判定部65はステップS15に進み、ステップS14で得られた総合結果とステップS11で受信したアクション情報とを元に、ポリシーDB15を用いてポリシー判定を行う。ポリシーDB15には、図11のようなポリシーが設定されている。
【0055】
図11はポリシーDBに設定されているポリシーの一例の構成図である。図11のポリシーは「CATEGORY_Aの文書がスキャンされたら、管理者に警告メールを送信する。」というものである。ポリシーDB15には、文書の属性「カテゴリA」及び文書に対するアクション情報「スキャン」が、処理「管理者に警告メールを送信する」と対応付けられている。
【0056】
ステップS15のポリシー判定の結果、ポリシー違反を検出すると、ポリシー判定部65はステップS16からステップS17に進み、ポリシーDB15に設定されているポリシーに従って警告メールや警告ログ等の責務処理を行った後、ステップS18に進む。
【0057】
ステップS15のポリシー判定の結果、ポリシー違反を検出しなければ、ポリシー判定部65はステップS16からステップS18に進む。ステップS18では、文書解析判定処理部62が総合結果を解析結果DB14に登録する。
【0058】
なお、本発明によるシステムは図1の構成に限るものでなく、図12,図13に示した構成であってもよい。図12は本発明によるシステムの他の実施例の構成図である。図12のシステムはサーバ及びクライアントの連携型でなく、複合機2へ各種機能を盛り込んだ構成となっている。
【0059】
図12のシステムは、学習も文書学習連携プログラム3及び例外学習連携プログラム4と連携するのでなく、複合機2側から学習元のファイルサーバ121を監視して文書を取り込む形式となる。
【0060】
複合機2は、文書属性解析プログラム11,文書属性学習プログラム12,例外学習プログラム13,解析結果DB14,ポリシーDB15,属性特徴ベースDB16,例外情報DB17,コピー,スキャナ,ファクシミリ等のアプリ120を含む構成である。
【0061】
文書属性解析プログラム11は自機のアプリ120から解析対象文書5を取得し、その文書の属性を前述のように解析する。そして、文書属性解析プログラム11はポリシーDB15を用いて前述のようにポリシー判定を行う。ポリシー違反を検出すると、文書属性解析プログラム11は例えばオペパネを利用して管理者に警告を行う。最後に、文書属性解析プログラム11は結果を解析結果DB14に登録する。
【0062】
図13は本発明によるシステムの他の実施例の構成図である。図13のシステムは図12のシステムと同様、複合機2へ各種機能を盛り込んだ構成となっているが、学習を文書学習連携プログラム3と連携して行っている。
【0063】
本発明によるシステムは、属性特徴ベースDB16とは別の独立した例外情報DB17を用意して、例外情報を独立して学習させることにより、属性特徴ベースDB16の精度を低下させることなく、融通性を高めることができる。
【0064】
また、類似文書検索による例外文書の特定には、曖昧性を低くする為に類似度の閾値を通常より高く設定することで、ほぼ同一の例外文書の検索を実現する。ほぼ同一の例外文書の検索を実現することで、本発明によるシステムは文書のコンテンツ自体が文書を特定する要素になる。
【0065】
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
【図面の簡単な説明】
【0066】
【図1】本発明によるシステムの一実施例の構成図である。
【図2】文書属性学習・解析サーバの一実施例のハードウェア構成図である。
【図3】例外学習処理の手順を表したフローチャートである。
【図4】特別に例外扱いしたい文書と例外扱いしたい文書の属性とが入力される例外学習画面の一例のイメージ図である。
【図5】例外情報DBに登録されるレコードのイメージ図である。
【図6】文書属性解析プログラムの一実施例の構成図である。
【図7】文書属性解析処理の手順を表したフローチャートである。
【図8】ほぼ同一の例外文書を検索する為に利用する類似度の閾値を表した一例のグラフ図である。
【図9】結果1の例外属性,結果2の推定属性および総合結果を表した構造イメージ図である。
【図10】結果1の例外属性,結果2の推定属性及び総合結果を表した処理イメージ図である。
【図11】ポリシーDBに設定されているポリシーの一例の構成図である。
【図12】本発明によるシステムの他の実施例の構成図である。
【図13】本発明によるシステムの他の実施例の構成図である。
【符号の説明】
【0067】
1 文書属性学習・解析サーバ
2 複合機
3 文書学習連携プログラム
4 例外学習連携プログラム
5 解析対象文書
11 文書属性解析プログラム
12 文書属性学習プログラム
13 例外学習プログラム
14 解析結果DB
15 ポリシーDB
16 属性特徴ベースDB
17 例外情報DB
21 入力装置
22 出力装置
23 ドライブ装置
24 補助記憶装置
25 主記憶装置
26 演算処理装置
27 インターフェース装置
61 文書解析依頼受付部
62 文書解析判定処理部
63 属性特徴ベース判定部
64 例外情報判定部
65 ポリシー判定部
120 アプリ
121 ファイルサーバ

【特許請求の範囲】
【請求項1】
文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置であって、
例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、
例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、
前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段と
を有することを特徴とする文書解析処理装置。
【請求項2】
前記文書及び前記文書に対するアクション情報を受信する受付手段と、
前記文書の属性及び前記文書に対するアクション情報と、前記文書の属性及び前記文書に対するアクション情報に応じた処理とが対応付けられたポリシー格納手段に基づいてポリシー判定を行い、そのポリシー判定の結果に基づいて前記文書の属性及び前記文書に対するアクション情報に応じた処理を行うポリシー判定手段と
を更に有することを特徴とする請求項1記載の文書解析処理装置。
【請求項3】
前記例外属性格納手段は、例外扱いする場合の付帯条件が、例外扱いする文書の特徴及び例外扱いする例外属性に対応付けられていることを特徴とする請求項1又は2記載の文書解析処理装置。
【請求項4】
前記文書は画像処理装置で処理された文書であることを特徴とする請求項1乃至3何れか一項記載の文書解析処理装置。
【請求項5】
文書の属性を解析し、その属性に応じた処理を行うプロッタ部及びスキャナ部の少なくとも一方を有する画像処理装置であって、
例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、
例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、
前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段と
を有することを特徴とする画像処理装置。
【請求項6】
前記文書及び前記文書に対するアクション情報を受信する受付手段と、
前記文書の属性及び前記文書に対するアクション情報と、前記文書の属性及び前記文書に対するアクション情報に応じた処理とが対応付けられたポリシー格納手段に基づいてポリシー判定を行い、そのポリシー判定の結果に基づいて前記文書の属性及び前記文書に対するアクション情報に応じた処理を行うポリシー判定手段と
を更に有することを特徴とする請求項5記載の画像処理装置。
【請求項7】
前記例外属性格納手段は、例外扱いする場合の付帯条件が、例外扱いする文書の特徴及び例外扱いする例外属性に対応付けられていることを特徴とする請求項5又は6記載の画像処理装置。
【請求項8】
文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置を、
例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析手段と、
例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析手段と、
前記推定属性解析手段によって解析された前記文書の推定属性から前記例外属性解析手段によって解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析手段と
して機能させるための文書解析処理プログラム。
【請求項9】
文書の属性を解析し、その属性に応じた処理を行う文書解析処理装置における文書解析処理方法であって、
例外扱いする文書の特徴と例外扱いする例外属性とが対応付けられた例外属性格納手段に基づいて前記文書の例外属性を解析する例外属性解析ステップと、
例外扱いしない文書の特徴と例外扱いしない推定属性とが対応付けられた推定属性格納手段に基づいて前記文書の推定属性を解析する推定属性解析ステップと、
前記推定属性解析ステップにより解析された前記文書の推定属性から前記例外属性解析ステップにより解析された前記文書の例外属性を除いた結果に基づき、前記文書の属性を解析する文書属性解析ステップと
を有することを特徴とする文書解析処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate