文書分類方法

【課題】学習に必要な分類されるカテゴリに属する文書の数とそのカテゴリに属さない非カテゴリ文書の数を減少させる。
【解決手段】利用者は、分類されるカテゴリに属する例題文書を収集し（Ｓ１０１）、例題文書を文書分類システムに入力する（Ｓ１０２）。文書分類システムは、入力された例題文書に含まれるレイアウト上特徴を有する語の中から特徴語を抽出し、反例文書の候補となる反例候補文書を既存文書の中から検索して、画面に表示する（Ｓ１０３）。利用者は、画面に表示された反例候補文書の中から、反例文書を選択する（Ｓ１０４）。文書分類システムは、特徴語に基づいて例題文書と反例文書の特徴ベクトルを生成し、生成された例題文書と反例文書の特徴ベクトルに基づいて分類パラメータを生成する（Ｓ１０５）。そして、文書分類システムは、生成された分類パラメータを用いて分類対象文書をカテゴリに分類する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書をカテゴリに分類する文書分類方法に関する。
【背景技術】
【０００２】
これまでに研究や実用化が行われてきたテキスト分類方法では、テキストを複数のカテゴリに分類している。
【０００３】
非特許文献1は、ニュース記事を政治や経済などのカテゴリに分類する技術を開示する。具体的には、非特許文献1に記載の分類技術は、ニュース記事のテキストから、名詞を中心とした単語が記事に含まれるか含まれないかを示す0/1の並びを特徴ベクトルとし、これをSupport Vector Machine
(SVM)と呼ばれる機械学習の技術を使ってカテゴリに分類している。
【０００４】
非特許文献２は、電子メールというテキストを分類対象とし、電子メールがスパムか否かSVMを使って分類する技術を開示する。非特許文献２に記載の分類技術では、単純に単語を使った特徴ベクトルではなく、URL (Uniform Resource Locator)やメールアドレス、伏字などスパムによく現れる文字列を所定の文字列に置換することで、スパムの判定精度を向上させる。
【０００５】
特許文献1は、分類時に注目する単語に関するものであり、分類済みの文書中の単語の出現頻度を調査、複数の分野で高い頻度で現れる単語を求め、この単語と同じ文書に現れる単語の出現頻度に着目して、文書を分類する技術を開示する。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開平10-254883号公報
【非特許文献】
【０００７】
【非特許文献１】平博順, 春野雅彦,Support Vector Machineによるテキスト分類における属性選択, 情報処理学会論文誌, Vol.41, No.4, pp.1113-1123, 2000.
【非特許文献２】伊加田恵志, spamメールフィルタ, 沖テクニカルレビュー, Vol.73, No.1, 2006年1月.
【発明の開示】
【発明が解決しようとする課題】
【０００８】
上述した各文献に記載された分類方法では、実際に分類する前にたくさんの学習用の分類済み文書を用いて分類器に学習させることが必要である。たとえば、非特許文献1では1,000の記事、非特許文献2では約3,000通のメールを使って分類器に学習させる。特許文献1には必要な分類済み文書数の記載はないが、非特許文献1や非特許文献2に記載の分類技術並みかそれ以上の文書が必要な可能性がある。
【０００９】
しかし、実際に数百、数千の分類済みの文書やメールを用意するのは大変である。しかも、学習の際には、正例となる分類済みで例題となる文書やメールだけではなく、分類されるカテゴリに属さない非カテゴリ文書を反例として用意する必要があり、分類済みの文書を用意するのと同様に手間のかかる人手の作業となる。
【００１０】
本発明の目的は、学習に必要な分類されるカテゴリに属する文書の数とそのカテゴリに属さない非カテゴリ文書の数を減少させることができる文書分類方法を提供することである。
【課題を解決するための手段】
【００１１】
上述した課題を解決するために、本発明の文書分類方法は、
分類されるカテゴリに属する正例の例題文書から、文書のレイアウト上特徴のある語に基づいて特徴語を抽出する特徴語抽出ステップと、
前記特徴語に基づいて、分類されるカテゴリに属する文書中に含まれていなければならない特徴語の度合いを定める含有パラメータを求める含有パラメータ生成ステップと、
記憶部に蓄積されている既存文書の中から、前記含有パラメータを満たす特徴語を含む文書を検索し、検索された文書から前記例題文書を除いた文書を反例候補文書として利用者に提示する反例候補文書提示ステップと、
前記特徴語に基づいて、前記例題文書の特徴ベクトルと、利用者によって前記反例候補文書の中から選択された反例文書の特徴ベクトルとを生成する特徴ベクトル生成ステップと、
生成された前記例題文書の特徴ベクトルと前記反例文書の特徴ベクトルとに基づいて分類パラメータを求める分類パラメータ生成ステップと、
前記特徴語と前記分類パラメータとに基づいて分類対象の文書が前記分類されるカテゴリに属するか否かを判定する文書分類判定ステップと、
を備えることを特徴とする。
【００１２】
好ましくは、
前記レイアウト上特徴のある語は、
文書の最初のページの中央または上部中央に表われ、文字サイズが大きい語、および／または目立つ色が使用されている語、
項目番号が割り振らており、所定の文字数以下の語、
前記例題文書が所定の帳票のフォーマットを有する場合、当該帳票に現れる帳票名称や項目名、
他の文字に比べて文字サイズが大きいという特徴、イタリック体であるという特徴、下線が引いてあるという特徴、強調文字が使用されているという特徴、他の文字に使われている色と異なる目立つ色であるという特徴、および他の文字に使われているフォントと異なるフォントであるという特徴のうちの少なくとも１つの特徴を有する語、
文書の右上または左上に記載され、資料の送付先または閲覧者を示す語、
箇条書きを示す所定の文字が行頭についており、所定の文字数以下の語、および
所定の括弧で括られた所定の文字数以下の語、
のいずれかである、
ことを特徴とする。
【００１３】
好ましくは、本発明の文書分類方法は、
前記特徴ベクトル生成ステップにおいて、前記例題文書全体に含まれる前記特徴語に基づいて前記例題文書の特徴ベクトルを求め、前記反例候補文書全体に含まれる前記特徴語に基づいて前記反例候補文書の特徴ベクトルを求めることを特徴とする。
【００１４】
好ましくは、本発明の文書分類方法は、
前記特徴ベクトル生成ステップにおいて、前記例題文書におけるレイアウト上特徴のある語に含まれる前記特徴語に基づいて前記例題文書の特徴ベクトルを求め、前記反例候補文書におけるレイアウト上特徴のある語に含まれる前記特徴語に基づいて前記反例候補文書の特徴ベクトルを求めることを特徴とする。
【００１５】
好ましくは、本発明の文書分類方法は、
前記反例候補文書提示ステップにおいて、特徴ベクトルの類似度が高い反例候補文書から順番に利用者に提示されることを特徴とする。
【発明の効果】
【００１６】
本発明によれば、学習に必要な分類されるカテゴリに属する文書の数とそのカテゴリに属さない非カテゴリ文書の数を減少させることができる。
【図面の簡単な説明】
【００１７】
【図１】利用者の作業を含めた学習の流れの一例を示す図である。
【図２】本発明の実施形態に係る文書分類方法が実施されるコンピュータの構成の一例を示す図である。
【図３】本発明の第１の実施形態に係る文書分類システムの構成の一例を示す図である。
【図４】学習器の処理の流れの一例を示す図である。
【図５】カテゴリが議事録である分類対象文書の一例を示す図である。
【図６】学習器コアに入力される特徴ベクトルの一例を示す図である。
【図７】学習器コアに入力される特徴ベクトルの別の例を示す図である。
【図８】分類器の処理の流れの一例を示す図である。
【図９】図４のステップＳ２０３において、特徴ベクトルの類似度が高い反例候補文書を上位に表示する処理の一例を示す図である。
【図１０】各例題文書の正規化された特徴ベクトルとの平均距離の短いものから順番に反例候補文書の文書名を表示したウィンドウの一例を模式的に示す図である。
【図１１】図１０とは異なる方法で反例候補文書を表示したウィンドウの一例を模式的に示す図である。
【図１２】本発明の第２の実施形態に係る文書分類システムの構成の一例を示す図である。
【図１３】本発明の第２の実施形態に係る文書分類システムの処理の流れの一例を示す図である。
【発明を実施するための形態】
【００１８】
最初に、図１を参照して利用者の作業を含めた学習の流れを説明する。
まず、利用者は分類されるカテゴリの文書（以下、例題文書という。）を収集する（Ｓ１０１）。例題文書は。例えばオフィス文書である。カテゴリとしては、契約文書、企画提案文書、見積書、システム提案資料、研究報告書、議事録などがある。本発明では、一つのカテゴリに属する文書の構成は、ほぼ同一であることを前提としている。ここで構成とは、文書に含まれる章/セクション/項目のことである。たとえば、議事録なら、タイトル、出席者、日時、場所、議事録配布先、決定事項、議事内容などの項目がある。例題文書は文書分類システムが学習する際の正例のデータとなる。
次に、利用者は例題文書を文書分類システムに入力する（Ｓ１０２）。
文書分類システムは、入力された例題文書に含まれるレイアウト上特徴を有する語の中から特徴語を抽出する。更に、文書分類システムは、分類されるカテゴリに属さず学習の反例となる文書の候補（以下、反例候補文書という。）を所定の記憶装置に蓄積されている既存文書の中から検索して、画面に表示し、利用者に選択を促す（Ｓ１０３）。
利用者は、画面に表示された反例候補文書の中から、分類されるカテゴリに属さない反例となる文書（以下、反例文書という。）を選択する（Ｓ１０４）。
文書分類システムは、特徴語に基づいて例題文書と反例文書の特徴ベクトルを生成する。そして、文書分類システムは、生成された例題文書と反例文書の特徴ベクトルに基づいて分類対象の文書（以下、分類対象文書という。）が分類されるカテゴリに属するか否かを判定するための分類パラメータを生成する（Ｓ１０５）。
上述した学習の後、文書分類システムは、生成された分類パラメータを用いて分類対象文書をカテゴリに分類する。
【００１９】
本発明の実施形態に係る文書分類方法は、図２に示すように、例えば、コンピュータ１００を用いて実施される。
コンピュータ１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１０と、メモリ１２０と、記憶部１３０と、入力部１４０と、表示部１５０とを有している。
メモリ１２０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等で構成される。メモリ１２０は、文書分類プログラム２００を記憶している。ＣＰＵ１１０が、文書分類プログラム２００を実行することにより、後述する第１の実施形態または第２の実施形態に係る文書分類システムの機能が実現される。
記憶部１３０は、ハードディスク装置等の磁気ディスク装置やＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等の光ディスク装置等で構成される。記憶部１３０は、例題文書３１０と、既存文書３２０と、分類対象文書３３０とを記憶する。
入力部１４０は、キーボードやマウス等で構成される。入力部１４０は、利用者による操作を受けつける。
表示部１５０は、ディスプレイやプリンタ等で構成される。表示部１５０は、例えば、分類対象文書３３０が分類されたカテゴリ等を表示する。
【００２０】
以下、本発明の実施形態に係る文書分類方法について、図面を参照しながら説明する。
【００２１】
図３は、本発明の第1の実施形態に係る文書分類システム１０１Ａの構成の一例を示す。
文書分類システム１０１Ａは、学習器２１０Ａと、分類器２２０Ａとを有する。
学習器２１０Ａは、例題文書３１０から特徴語を抽出する。そして、学習器２１０Ａは、抽出された特徴語に基づいて正例となる複数の例題文書３１０の特徴ベクトルと、既存文書３２０の中から選択された反例となる複数の反例文書の特徴ベクトルを生成する。
学習器コア２１１は、学習器２１０Ａの一部であり、学習器２１０Ａが生成した特徴ベクトルを入力とし、分類パラメータを生成する。
分類器２２０Ａは、学習器２１０Ａから渡された特徴語等を参照して、分類対象文書３３０の特徴ベクトルを生成する。
分類器コア２２１は、分類器２２０Ａの一部であり、学習器２１０Ａから渡された分類パラメータと分類器２２０Ａが生成した特徴ベクトルとを入力とし、分類されるカテゴリに属するか否かを判定する。
【００２２】
図４は、学習器２１０Ａの処理の流れの一例を示す。
学習器２１０Ａは、まず、分類されるカテゴリに属する正例の例題文書３１０から、そのカテゴリの特徴語を抽出する（Ｓ２０１）。ここで、特徴語は、例題文書３１０の構成を示す文字列であり、以下の特徴語の例（１）〜（７）に示すような文書のレイアウト上特徴のある語である。
（１）文書タイトルのように、文書の最初のページの中央または上部中央に表われ、文字サイズが大きかったり、目立つ色が使用されていたりする語
（２）見出し語のように、項目番号が割り振らており、所定の文字数以下の語
（３）文書が所定の帳票のフォーマットを有する場合、その帳票に現れる帳票名称や項目名
（４）他の文字に比べて文字サイズが大きかったり、イタリック体であったり、下線が引いてあったり、強調文字（太字）が使用されていたり、他の文字に使われている色と異なる目立つ色であったり、他の文字に使われているフォントと異なるフォントであったりというレイアウト上の特徴の少なくとも１つを有する語
（５）文書の右上または左上に記載され、XXXX会議資料、XXXX提出、XXXX御中、XXXX様などのように、資料の送付先または閲覧者を示す語
（６）番号、「・」、「●」等の箇条書きを示す文字が行頭についており、所定の文字数以下の語
（７）［発明の開示］のように、［］『』などの括弧で括られた所定の文字数以下の語
なお、「文字サイズ、下線付き、項目番号の有無等」をパラグラフや文字列のスタイルといい、「右上、左上、真ん中上部のような文字列のページ上の位置」をレイアウトという場合もあるが、本明細書と特許請求の範囲では、レイアウトという用語はスタイルを含むものとして用いる。
【００２３】
図５は、カテゴリが議事録である分類対象文書３３０の一例を示す。図５の議事録での特徴語として、環境対策会議議事録、日時、場所、出席者、決定事項、議事内容がある。これらの特徴語は、上述したような上部中央にあることや、番号が割り振られていること等のレイアウト上の特徴に基づいてコンピュータが識別することができる。
文字や文字列のフォント情報や位置情報を参照することで、このようなレイアウト上の特徴を持つ語を正例の例題文書３１０から抽出することができるのは明らかであり、そのアルゴリズムの説明は省略する。
文書のタイトルも特徴語となりえるが、タイトルには、第X回、YYYY/MM/DDなど、回数や日付を含む場合が多く、これらを除いたものを特徴語とする。
また、上述した特徴語の例（５）に示した、XXXX提出、XXXX御中、XXXX様などの例では、提出/御中/様などの部分を除いたものを特徴語とする。
【００２４】
次に、学習器２１０Ａは、各例題文書３１０に含まれる特徴語から、特徴語の含有パラメータを求める（Ｓ２０２）。含有パラメータは、分類されるカテゴリに属する文書中に含まれていなければならない特徴語の度合いを定める。含有パラメータとしては、例えば、分類されるカテゴリに属する文書が最低何語の特徴語を含むか、分類されるカテゴリに属する文書が出現頻度の高い特徴語を最低何語含むか、分類されるカテゴリに属する文書に必須の特徴語、特徴語の文書全体の単語に占める割合等がある。含有パラメータは、正例の各例題文書３１０が満たすように求められるのは当然であるが、ある程度の余裕を持って求められる。例えば、図５の議事録の例は、環境対策会議議事録、日時、場所、出席者、決定事項、議事内容の６つの特徴語を含むが、余裕を持って、分類されるカテゴリに属する文書は最低４つの特徴語を含む等である。
【００２５】
次に、学習器２１０Ａは、分類されるカテゴリに属さない反例文書を利用者に選択してもらうために、記憶部１３０に蓄積されている既存文書３２０の中から、ステップＳ２０２で定めた含有パラメータを満たす範囲で特徴語を含むものを検索し、検索された文書から正例の例題文書を除いた文書を、表示部１５０に表示し、反例候補文書として利用者に提示する（Ｓ２０３）。
【００２６】
利用者は、表示部１５０に表示された反例候補文書の中から反例文書を選択し、入力部１４０から選択された反例文書を示す情報を入力する。
学習器２１０Ａは、正例である各例題文書３１０の特徴ベクトルと利用者によって選択された各反例文書の特徴ベクトルとを生成する（Ｓ２０４）。次に、学習器２１０Ａは、各例題文書３１０の特徴ベクトルと各反例文書の特徴ベクトルとを学習器コア２１１に与え、各例題文書３１０の特徴ベクトルと各反例文書の特徴ベクトルに基づいて分類パラメータを求める（Ｓ２０５）。
学習器コア２１１自体は本発明の対象外であり、詳細は省略する。代表的学習器コアとしてSVMがある。
学習器コア２１１に入力される特徴ベクトルは、例えば、図６に示すように文書全体に各特徴語が含まれるか否かを示す0/1のベクトルデータや、図７に示すように文書全体に含まれる語に対する各特徴語が占める割合のベクトルデータである。図６のベクトルデータは、環境対策会議議事録、日時、場所、出席者、決定事項、議事内容という６つの特徴語の有無を示す0/1が並んでいる。また、図７のベクトルデータは、文書全体に含まれる語に占めるこれら６つの特徴語の割合が並んでいる。図６と図７のベクトルデータは、両方とも第５の要素が０となっているが、これは文書中に５番目の特徴語（決定事項）が含まれないことを示している。
最後に、学習器２１０Ａは、特徴語と含有パラメータと分類パラメータを分類器２２０に渡す（Ｓ２０６）。
【００２７】
図８は、分類器２２０Ａの処理の流れの一例を示す。
分類器２２０Ａは、学習器２１０Ａから渡された各特徴語と同一の特徴語を分類対象文書３３０から抽出し、特徴ベクトルを生成する（Ｓ３０１）。分類器２２０Ａによる特徴ベクトルの生成方法は、上述した学習器２１０Ａでの生成方法と同じである。
次に、分類器２２０Ａは、抽出した特徴ベクトルが含有パラメータを満たすか検査し、満たさない場合（Ｓ３０２：Ｎｏ）、分類されるカテゴリに属さないと判定する（Ｓ３０３）。
一方、特徴ベクトルが含有パラメータを満たす場合（Ｓ３０２：Ｙｅｓ）には、分類器２２０Ａは、ステップＳ３０１で生成した特徴ベクトルと、学習器２１０Ａから渡された分類パラメータとを分類器コア２２１に与えて、分類対象文書３３０が分類されるカテゴリに属するか否か分類器コア２２１に判定させる（Ｓ３０４）。
分類器コア２２１は、ステップＳ３０１で生成した分類対象文書３３０の特徴ベクトルと、学習器２１０Ａから渡された分類パラメータとに基づいて分類対象文書３３０が分類されるカテゴリに属するか否か判定する。なお、学習器コア２１０と同様に分類器コア２２０も本発明の対象外であり、代表的分類器コアもSVMである。ただし、入力データに当たる特徴ベクトルは本発明に含まれる。
なお、ステップＳ３０２とステップＳ３０３を省略することもできる。すなわち、ステップＳ３０１で生成した特徴ベクトルが含有パラメータを満たさない場合にも、特徴ベクトルを分類器コア２２１に与えて、分類対象文書３３０が分類されるカテゴリに属さないことを分類器コア２２１に判定させることもできる。
【００２８】
上述した第１の実施形態では、文書全体に特徴語が含まれるか否かを示す0/1のベクトルデータ（図６）や、文書全体に含まれる語に対する特徴語が占める割合のベクトルデータ（図７）を特徴ベクトルとしたが、ステップＳ２０４やステップＳ３０１における特徴ベクトルの生成処理において、文書全体を対象とするのではなく、特徴語の例（１）〜（７）に示したような文書のレイアウト上特徴のある語を抽出して、その抽出した語に特徴語が含まれるか否かを示す0/1のベクトルデータや、その抽出した語に対する特徴語の割合のベクトルデータを特徴ベクトルとすることもできる。一般に文書のレイアウト上特徴をもつ語を抽出して特徴ベクトルを生成した方が文書全体から特徴ベクトルを生成するよりも高精度と考えられる。
【００２９】
図４のステップＳ２０３においては、既存文書の中から、含有パラメータを満たす範囲で特徴語を含む文書を検索し、検索された文書から例題文書を除いて、反例候補文書として利用者に提示していたが、表示の順序については触れていなかった。学習器２１０Ａの学習精度を向上するためには、特徴語の出現の仕方が例題文書に類似しているのにもかかわらず、分類されるカテゴリに属さない文書を反例文書として用意することが望ましい。このためには、反例候補文書を表示部１５０に表示するとき、特徴ベクトルの類似度が高い反例候補文書を上位に表示して利用者に提示し、特徴ベクトルの類似度が高い反例候補文書を利用者が選択しやすくするのが望ましい。
【００３０】
図９は、図４のステップＳ２０３において、特徴ベクトルの類似度が高い反例候補文書を上位に表示する処理の一例を示す。
学習器２１０Ａは、各例題文書３０１と各反例候補文書の特徴ベクトルを生成する（Ｓ４０１）。
学習器２１０Ａは、各特徴ベクトルを長さ１に正規化する（Ｓ４０２）。具体的には、各特徴ベクトルの長さを求め、求めた長さで、各特徴ベクトルの要素を割る。
学習器２１０Ａは、反例候補文書の正規化された特徴ベクトル毎に、各例題文書３０１の正規化された特徴ベクトルとの平均距離を求める（Ｓ４０３）。
学習器２１０Ａは、各例題文書３０１の正規化された特徴ベクトルとの平均距離が短いほど特徴ベクトルの類似度が高いとみなし、平均距離の短いものから順番に反例候補文書を表示する（Ｓ４０４）。
なお、特徴ベクトルの長さは、特徴ベクトルの各要素の自乗の和の平方根を求めるのが一般的であるが、これに限る必要はない。反例候補文書の正規化された特徴ベクトルと例題文書の正規化された特徴ベクトルとの距離についても同様である。
また、上記説明では、各例題文書３０１の正規化された特徴ベクトルとの平均距離が短いものから順番に反例候補文書を表示したが、平均距離に替えて最短距離の短いものから表示してもよい。
更に、ステップＳ４０２で各特徴ベクトルを長さ1に正規化することなく、平均距離ないしは最短距離の短いものから表示することとしてもよい。
また、特徴ベクトル間の距離ではなく、特徴ベクトルのなす角度が小さいものほど特徴ベクトルの類似度が高いとみなし、特徴ベクトルのなす角度が小さいものから表示することとしてもよい。
更に、特徴ベクトルの類似度に基づいて反例候補文書の表示順序を決めるのではなく、特徴語を多く含む文書を上位に表示することとしてもよい。
【００３１】
図１０は、各例題文書３０１の正規化された特徴ベクトルとの平均距離の短いものから順番に反例候補文書の文書名を表示したウィンドウの一例を模式的に示す。
ウィンドウ右側のスクロールバー４０１を下に下ろすことで、平均距離が遠い文書名を表示することができる。マウスポインタ４０２で文書名を指定してマウスをクリックすることで、指定された文書を反例文書として選択することができる。また、マウスの別のクリック操作をすることで、文書のサムネール４０３を表示し、文書名だけではなく文書イメージを参考にして反例文書を選択することができる。
【００３２】
図１１は、図１０とは異なる方法で反例候補文書を表示したウィンドウの一例を模式的に示す。
図１０では、各例題文書３０１の正規化された特徴ベクトルとの平均距離が短いものから順番に表示していたが、図１１では、平均距離が一定値以下ないしは短いものから上位１００番目までの文書などと、何らかの条件で絞って、反例候補文書を表示する。
絞った後の表示方法は、Windows（登録商標）のExplorerなどOSに付属するファイル管理ツールと同様である。左側ウィンドウ５０１には反例候補文書のファイルがあるフォルダを階層的に表示する。スクロールバー５０３を用いて左側ウィンドウ５０１をスクロールすることができる。
【００３３】
フォルダを選択するとフォルダ名が反転し、そのフォルダにある反例候補文書のファイルが右側ウィンドウ５０２に表示される。スクロールバー５０４を用いて右側ウィンドウ５０２をスクロールすることができる。図１１では、個々のファイルは、ファイルのアイコンとファイル名で示されるが、ファイルのアイコンの変わりに反例候補文書のサムネールを表示する方法もある。
フォルダやファイルの表示順序は、フォルダ名やファイル名の順番に表示する方法もあるが、平均距離の短い反例候補文書から表示することも可能である。すなわち、一つのフォルダ内で平均距離の短い反例候補文書からファイルを表示したり、下位のフォルダも含めてフォルダに含まれるファイルで一番短い平均距離をそのフォルダの平均距離とみなして、短い平均距離のフォルダから表示したりする方法もある。
【００３４】
上記では、分類されるカテゴリに属さない反例候補文書を、特徴ベクトルの平均距離やなす角度に基づいて定まる順番で表示する方法について説明した。学習器コア２１１としてSVMを用いた場合には、正例である例題文書の特徴ベクトルと反例候補文書の特徴ベクトルのなす角度ではなく、SVMのカーネルに応じた角度が小さいものほど特徴ベクトルの類似度が高いとみなし、SVMのカーネルに応じた角度が小さいものから順番に表示することもできる。
【００３５】
ベクトルのなす角度はベクトルの内積から計算できるので、角度の計算方法を示す前に、SVMのカーネルにおける内積を説明する。
通常のベクトルの内積は、二つのベクトルの対応する要素の積の和である。3次元のベクトルx = (x1, x2, x3)とy = (y1, y2, y3)の内積x・yはx・y = x1 * y1 + x2 * y2 + x3 * y3で計算できる。一方でSVMの2次の多項式カーネルK(x, y)での内積はK(x, y) = (x・y)^2 = (x1 * y1 + x2 * y2 + x3
* y3)^2であり、ガウスカーネルK(x, y)での内積はK(x,
y) = exp(-(|x-y|^2)/2(s^2)) = exp(-((x1-y1)^2 + (x2-y2)^2 + (x3-y3)^2)/2(s^2))である。他のカーネルも知られているが、ここでは一般化してxとyのカーネルにおける内積をK(x,
y)と表す。すると、xとyのカーネルに応じたなす角のコサインの値はK(x, y)/(K(x, x)*K(y, y))^(1/2)であり、この値が大きいほどカーネルに応じたxとyとがなす角が小さい。
【００３６】
このなす角のコサイン値K(x, y)/(K(x, x)*K(y, y))^(1/2)を用いて、図1０に示した方法と同様に、反例候補文書と各例題文書との平均コサイン値が大きい反例候補文書、ないしは最大コサイン値が大きい反例候補文書から順に表示する。または、図１１に示した方法と同様に、一定以上のコサイン値をもつ反例候補文書ないしは大きいコサイン値から上位一定数の反例候補文書を表示する。
【００３７】
上述した第１の実施形態では、分類されるカテゴリ、すなわち、ある特定のカテゴリに属しているか否かを判定したが、複数あるカテゴリのうちどのカテゴリに属しているかを知りたい場合がある。このような場合には、第１の実施形態に係る文書分類システム１０１Ａを用いてカテゴリ毎に分類対象文書３３０の分類処理を繰り返すことで複数カテゴリに対応することができる。
【００３８】
ただし、複数カテゴリへの対応を効率化することもできる。
図１２は、本発明の第２の実施形態に係る文書分類システム１０１Ｂの構成の一例を示す。
文書分類システム１０１Ｂは、学習器２１０Ｂと、分類器２２０Ｂとを有する。なお、学習器コア２１１と分類器コア２２１は、文書分類システム１０１Ａと文書分類システム１０１Ｂとで同一である。
文書分類システム１０１Ｂは、カテゴリが複数ある場合に分類対象文書３３０が属するカテゴリを効率的に決定する。
学習器２１０Ｂは、複数のカテゴリ全てについて、それぞれ例題文書３１０から特徴語を抽出し、特徴語の含有パラメータを定める。そして、学習器２１０Ｂは、複数のカテゴリ全てについて、正例となる各例題文書３１０の特徴ベクトルと、既存文書３２０の中から選択された反例となる各反例文書の特徴ベクトルを生成する。
学習器コア２１１は、複数のカテゴリ全てについて、学習器２１０Ａが生成した特徴ベクトルを入力とし、分類パラメータを生成する。
分類器２２０Ｂは、学習器２１０Ｂから渡された特徴語と含有パラメータを参照して、分類対象文書３３０が属する可能性のある各カテゴリについて、分類対象文書３３０の特徴ベクトルを生成する。
分類器コア２２１は、学習器２１０Ｂから渡された分類パラメータと分類器２２０Ｂが生成した特徴ベクトルとを入力とし、分類対象文書３３０が属する可能性のある各カテゴリに属するか否かを判定する。
【００３９】
図１３は、本発明の第２の実施形態に係る文書分類システム１０１Ｂの処理の流れの一例を示す。
学習器２１０Ｂは、複数のカテゴリ全てについて、特徴語と含有パラメータと分類パラメータとを求め、これらを分類器２２０に渡す（Ｓ５０１）。
分類器２２０Ｂは、複数のカテゴリ全てについて、学習器２１０から渡された各特徴語と同一の特徴語を分類対象文書３３０から抽出する（Ｓ５０２）。
次に、分類器２２０Ｂは、複数のカテゴリ全てについて、分類対象文書３３０から抽出した特徴語が学習器２１０Ｂから渡された含有パラメータを満たしているか否か検査し、満たしているカテゴリ、すなわち、分類対象文書３３０が属する可能性のあるカテゴリを求める（Ｓ５０３）。
そして、分類器２２０Ｂは、ステップＳ５０３で求められた分類対象文書３３０が属する可能性のあるカテゴリ毎に特徴ベクトルと分類パラメータを分類器コア２２１に与え、カテゴリに属するか否か判定する（Ｓ５０４）。
【００４０】
以上説明したように、本発明によれば、記載する項目がほぼ決まっているが、項目内容量が異なり、項目が現れる文書中のページや位置が異なる文書においては、10数個の文書で学習すれば分類でき、学習に必要な文書が従来の1/100程度で済むという効果がある。これは、特徴語に注目して、学習と分類を行っているためであり、従来までの文書中の名詞やサ変名詞を特徴ベクトルに使った場合との違いである。
また、学習に必要なカテゴリに属さない反例候補文書を記憶装置に蓄積されている既存文書から検索して表示することで、カテゴリに属さない文書の収集の手間を削減することができる。また、表示の順序として、特徴ベクトルの類似度が高い反例候補文書や特徴語を多く含む反例候補文書を上位に表示することで、特徴語の出現の仕方が正例の例題文書に類似しているのにもかかわらず、分類されるカテゴリに属さない文書を利用者に選択させることができ、より高精度の学習が可能となる。
【符号の説明】
【００４１】
１００…コンピュータ、１１０…ＣＰＵ、１２０…メモリ、１３０…記憶部、１４０…入力部、１５０…表示部、２００…文書分類プログラム、１０１Ａ、１０１Ｂ…文書分類システム、２１０Ａ、２１０Ｂ…学習器、２１１…学習器コア、２２０Ａ、２２０Ｂ…分類器、２２１…分類器コア、…、３１０…例題文書、３２０…既存文書、３３０…分類対象文書

【特許請求の範囲】
【請求項１】
分類されるカテゴリに属する正例の例題文書から、文書のレイアウト上特徴のある語に基づいて特徴語を抽出する特徴語抽出ステップと、
前記特徴語に基づいて、分類されるカテゴリに属する文書中に含まれていなければならない特徴語の度合いを定める含有パラメータを求める含有パラメータ生成ステップと、
記憶部に蓄積されている既存文書の中から、前記含有パラメータを満たす特徴語を含む文書を検索し、検索された文書から前記例題文書を除いた文書を反例候補文書として利用者に提示する反例候補文書提示ステップと、
前記特徴語に基づいて、前記例題文書の特徴ベクトルと、利用者によって前記反例候補文書の中から選択された反例文書の特徴ベクトルとを生成する特徴ベクトル生成ステップと、
生成された前記例題文書の特徴ベクトルと前記反例文書の特徴ベクトルとに基づいて分類パラメータを求める分類パラメータ生成ステップと、
前記特徴語と前記分類パラメータとに基づいて分類対象の文書が前記分類されるカテゴリに属するか否かを判定する文書分類判定ステップと、
を備えることを特徴とする文書分類方法。
【請求項２】
前記レイアウト上特徴のある語は、
文書の最初のページの中央または上部中央に表われ、文字サイズが大きい語、および／または目立つ色が使用されている語、
項目番号が割り振らており、所定の文字数以下の語、
前記例題文書が所定の帳票のフォーマットを有する場合、当該帳票に現れる帳票名称や項目名、
他の文字に比べて文字サイズが大きいという特徴、イタリック体であるという特徴、下線が引いてあるという特徴、強調文字が使用されているという特徴、他の文字に使われている色と異なる目立つ色であるという特徴、および他の文字に使われているフォントと異なるフォントであるという特徴のうちの少なくとも１つの特徴を有する語、
文書の右上または左上に記載され、資料の送付先または閲覧者を示す語、
箇条書きを示す所定の文字が行頭についており、所定の文字数以下の語、および
所定の括弧で括られた所定の文字数以下の語、
のいずれかである、
ことを特徴とする請求項１に記載の文書分類方法。
【請求項３】
前記特徴ベクトル生成ステップにおいて、前記例題文書全体に含まれる前記特徴語に基づいて前記例題文書の特徴ベクトルを求め、前記反例候補文書全体に含まれる前記特徴語に基づいて前記反例候補文書の特徴ベクトルを求めることを特徴とする請求項１または２に記載の文書分類方法。
【請求項４】
前記特徴ベクトル生成ステップにおいて、前記例題文書におけるレイアウト上特徴のある語に含まれる前記特徴語に基づいて前記例題文書の特徴ベクトルを求め、前記反例候補文書におけるレイアウト上特徴のある語に含まれる前記特徴語に基づいて前記反例候補文書の特徴ベクトルを求めることを特徴とする請求項１または２に記載の文書分類方法。
【請求項５】
前記反例候補文書提示ステップにおいて、特徴ベクトルの類似度が高い反例候補文書から順番に利用者に提示されることを特徴とする請求項１ないし４のいずれか１項に記載の文書分類方法。

【図１】