説明

文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体

【課題】ユーザが容易に文書を分類するためのルールの作成、または、修正ができる文書分類方法を提供する。
【解決手段】予め分類された教師データに対して形態素解析を行い、教師データとして分類された文書において使用されている単語を抽出する(S11)。使用されている単語の集合から重要語を抽出しユーザに提示する(S12)。この表示の中から、ユーザに自分の分類したい内容に関連する主題語を選択させる(S13,S14))。ユーザによって選択された主題語を基に主題部を抽出し(S15)、抽出された主題部に、抽出元である教師データと同じ分類を示すタグが付与して主題部を教師データに追加する(S16,S17)。主題部が追加された新しい分類ルールを作成し(S18)、新しい分類ルールに基づいて新しい分類対象文書を分類する(S19)。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体に関し、特に、大量の文書を自動で分類する、文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体に関する。
【背景技術】
【0002】
従来、さまざまな事例の不具合傾向を分析するために、不具合報告書を分類するニーズがある。また、市場調査のための顧客アンケートのような大量の文書を分類するニーズがある。これらのニーズに対応して、事例文書の分類作業を支援するための技術が提案されている。これらによれば、文書を分類するには、(A)人手で文書を分類するための分類ルールを作成する、または、(B)人手で少数の文書を分類して分類済みデータ(教師データ)を準備し、それを用いて自動で分類ルールを作成する、のいずれかの方法があった。
【0003】
(A)の方法では、文書を分類するための知識の処理(以下、「知識処理」という)に関する経験やスキルがなければ適切な分類ルールを作成できない。(B)では、知識処理に関する経験やスキルは不要である。このような知識処理を用いた文書の分類方法として、SVM(Support Vector Machine)を用いた文書分類方法が、たとえば、特開2001−022727号公報(特許文献1)に開示されている。
【0004】
実際に事例文書の分類を行う担当者(不具合文書を分類する場合であれば品質管理部門の担当者等)は、知識処理に関する経験やスキルを保有していない場合が多いため、(B)の手法で自動分類を行うことが望ましい。しかし、通常、自動作成された分類ルールがどのような特徴に基づいているのかをユーザが理解することは困難である。これは、例えば、上記したSVMを用いて分類すると、分類ルールが数十次元の識別関数になることがあるからである。そのため、少数の教師データに対しては正しく分類できていても、その分類ルールがユーザの意図に合致するルールになっているかどうかの目安を得ることはできない。その結果、例えば、不具合を部品種で分類しているはずが、原因で分類されてしまうということが起こりうる。
【0005】
これに対処して、意図に合致した分類がされているか否かを確認するために、分類結果を可視化して、カテゴリーに分類された文書間の関係を分かり易くする方法が、たとえば、特開2006−004105号公報(特許文献2)に記載されている。
【0006】
同公報は、文書群に含まれている各文書について、登録済みのカテゴリーに属する確率と、属さない確率とをベクトルで表した事後確立ベクトルを推定する可視化装置を開示している。可視化装置は推定した事後確率ベクトルで表された各確率に従って、可視化空間上に各文書と各カテゴリーとの関係を配置し、配置した可視化空間を利用者端末に送信している。
【特許文献1】特開2001−022727号公報(要約)
【特許文献1】特開2006−004105号公報(要約)
【発明の開示】
【発明が解決しようとする課題】
【0007】
従来の、文書の分類方法、および、分類された文書間の関係を分かり易くする方法は上記のように行なわれていた。ユーザは分類結果が可視化されたマップを参照して、分類が意図と合致しているか否かを確認することができた。しかしながら、確認した結果、分類が意図と合致していないと判明した場合にユーザはどうしてよいか分からないという問題があった。すなわち、どのように分類ルールを修正すればよいのか分からないという問題があった。
【0008】
また、ユーザが文書を自動で所望の意図で分類するにも、どのようにして分類ルールを作成すればよいかわからないという問題があった。
【0009】
この発明は上記のような問題に鑑みてなされたもので、ユーザが容易に文書を分類するためのルールの作成、または、修正ができる文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0010】
この発明に係る、文書分類方法は、分類済みのデータから分類ルールに関連する第1用語を抽出するステップと、抽出された第1用語の中から分類ルールとして追加したい所望の第2用語を選択させるステップと、選択された第2用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加するステップとを含む。
【0011】
この発明によれば、分類済みのデータから分類ルールに関連する用語を抽出して、その中から分類ルールとして追加したい所望の用語をユーザに選択させて、選択された用語を含む文書の一部を新たな分類のためのデータとして追加するようにしたため、ユーザの意図に沿った分類が可能になる。
【0012】
その結果、ユーザが容易に文書を分類するためのルールの作成、または、修正ができる文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体を提供できる。
【0013】
好ましくは、分類済みのデータは予め準備された分類のためのデータを用いて分類され、予め準備された分類のためのデータと追加された分類のためのデータとを用いて分類ルールを新たに作成するステップを含む。
【0014】
さらに好ましくは、作成された新たな分類ルールを用いて分類されていない文書を分類するステップを含む。
【0015】
第1用語を抽出するステップは分類済みのデータの中に出現する用語の頻度に基づいて抽出してもよいし、所望の第2用語を選択させるステップは、ユーザに第1用語を表示してユーザに選択させるステップを含んでもよい。
【0016】
また、第2用語を含む文書の一部を分類済みのデータから抽出するステップは、第2用語を多く含む文書の一部を抽出するステップを含んでもよい。
【0017】
選択された第2用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加するステップは、第2用語を含む文書を、文書を構成する単位である構造単位に分けて、文書の一部を抽出するステップを含むのが好ましい。
【0018】
この発明の他の局面においては、文書分類装置は、分類済みのデータから分類ルールに関連する第1用語を抽出する第1用語抽出手段と、抽出手段によって抽出された第1用語の中から分類ルールとして追加したい所望の第2用語を選択させる選択手段と、選択手段によって選択された第2用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加する追加手段と、を含む。
【0019】
この発明のさらに他の局面においては、文書分類プログラムは、上記に記載の文書分類方法をコンピュータに実行させる。この文書分類プログラムはコンピュータ読取り可能記録媒体に格納してもよい。
【発明を実施するための最良の形態】
【0020】
まず、この発明の原理について説明する。図1はこの発明の文書分類ルールを作成する原理を説明するための図である。図1(A)は分類済みの文書の集合(すなわち、教師データ)を示す図であり、図1(B)は教師データから重要語を提示し、ユーザが主題語を選択する場合の画面表示例を示す。ここで、図1(B)の横軸は単語を示し、縦軸はその単語の出現回数を示す。図1(C)は主題部として、主題語を多く含む箇所を取出す状態を示し、図1(D)は取出した主題部を教師データに追加する状態を示す。
【0021】
図1(A)を参照して、予め定められた分類ルールにしたがって文書が2つに分類されているものとする。これらを教師データ21,31とする。本発明における教師データとは、分類済みの文書の集合のことをいう。
【0022】
これらの教師データ21,31から文書に含まれている重要な単語である、重要語(第1用語)を抽出する。重要語は、たとえば、出現頻度によって決定する。図1(B)に示すように、教師データ21,31から単語の出現頻度を表したヒストグラム22,32を作成してユーザに提示する。また、事前に同じ意味の単語は同一語として同義語辞書を作成しておき、これを用いて複数の異なる単語を同一語とみなして処理してもよい。ユーザはこの重要語の中から、自分が分類するのに必要と考える単語を、新たな分類のためのデータとしての、主題語(第2用語)として選択する。主題語としては、複数の単語を選択したり、複数の単語に順位を付けて選択してもよい。
【0023】
次に、図1(C)に示すように、分類済みの教師データ21,31から主題語を多く含む箇所だけを主題部23,33として取り出す。そして、図1(D)に示すように、この主題部23,33を教師データ21,31に追加した新しい分類のための教師データ24,34を作成し、これらの教師データから作成した新しい分類ルール用いて分類対象文書51を分類する。
【0024】
次に、具体的に例をあげて説明する。不具合事例を分類する場合に、教師データとしての不具合事例文書に「不具合現象」、「原因」、「対策」の3つの重要語が含まれていたとする。このとき、主題語として「原因」が選択され、「原因」が記述された箇所を主題部として取り出し、教師データに追加することで、より「原因」に焦点をあてた分類ルールが作成できる。上記のように、頻度によって抽出した重要語から主題語を選択させることによって、一度しか出現しない単語など、追加しても分類ルール作成結果に影響しないような単語が選択されることを防止できる。
【0025】
次に、上記原理に示したような文書分類ルールが組み込まれた文書分類装置について説明する。図2は、文書分類装置の機能ブロック図である。文書分類装置10は基本的にコンピュータであり、CPU(Central Processing Unit)を含む制御部11と、制御部11によって制御される表示部17やハードディスクのような記憶部18や、図示のない入出力装置とを含む。図2を参照して、この実施の形態に係る文書分類装置10の制御部11は、機能として、図示のない入力装置から予め分類された教師データ21,31を入力して、重要語を抽出する重要語抽出部12と、重要語抽出部12が抽出した重要語からユーザに主題語を選択させるための主題語選択部13と、抽出された主題語を含む主題部を教師データ21から抽出する主題部抽出部14と、主題部抽出部14で抽出された主題部を教師データ21に追加して新たな分類ルールを作成する分類ルール作成部15と、分類ルール作成部15が作成した新しい分類ルールで分類対象文書51を分類する分類実行部16とを含む。なお、表示部17は、制御部11が、重要語を基にユーザに主題語を選択させるとき等に使用され、記憶部18は、分類ルールを記憶するため等に使用される。
【0026】
次に、文書分類装置10における動作について説明する。図3は文書分類ルールの作成時に文書分類装置10の制御部のCPUが行なう動作を示すフローチャートである。図3と図2とを参照して、この場合の動作について説明する。まず、予め分類された教師データに対して形態素解析を行い、教師データとして分類された文書において使用されている単語を抽出する(ステップS11、以下ステップを省略する)。この時、事前に作成した同義語辞書を用いて、同じ意味の単語は同一語として処理してもよい。たとえば、「トランジスタ」、「TR」はどちらも「トランジスタ」として扱う。
【0027】
次に、使用されている単語の集合から重要語を抽出し、表示部17等を介してユーザに提示する(S12)。図4は重要語を抽出する処理を説明するための図である。図4(A)は図1(A)および(B)と同様の内容を示す図であり、分類された教師データ21,31ごとに出現回数が多い単語をヒストグラムで表示したものである。横軸は単語を示し、縦軸はその単語の出現回数を示す。図4(B)は2つの教師データ21,31をまとめて表示した状態を示す図である。図4(B)においては、教師データ21の頻度を白のヒストグラムで、教師データ31の頻度を黒のヒストグラムで表示している。いずれにおいても、出現回数の多い順に既定の個数の単語を重要語として抽出している。なお、重要語として抽出する単語の数は出現回数が既定値以上としてもよい。
【0028】
図4(A)に示すように、分類ごとに表示すれば、特定の分類でのみ出現回数が多い単語を評価できる。図4(B)に示すように、ある分類のグラフで選択された主題語を、別分類のグラフでも明示的に色を変えて表示するようにしてもよい。このように表示することにより、よりユーザが主題語を選択しやすくなる。
【0029】
また、出現回数が多い単語の評価方法として、2分類に限らず、全分類に共通して出現回数が多い単語を評価してもよいし、上記のように特定の分類でのみ出現回数が多い単語を評価してもよい。
【0030】
なお、このようなヒストグラムに限らず、任意の形態で表示を行なってもよいし、頻度のみを数値等で表示してもよい。
【0031】
このような表示の中から、ユーザに自分の分類したい内容に関連する主題語を選択させる(図3、S13)。図4に示すように、出現回数が可視化された状態で重要語を提示するため、ユーザは、この中から容易に主題語を選択できる。したがって、制御部11は、第1用語(重要語)抽出手段および選択手段として作動する。
【0032】
次に、重要語の抽出方法の他の例について説明する。重要語を抽出する他の例としては、分類された文書において出現する単語を評価して重要語を抽出する。単語を評価する方法としては、全分類に共通して出現回数が多い単語を評価する方法と、特定の分野でのみ出現回数の多い単語を評価する方法とがある。
【0033】
全分類に共通して出現回数が多い単語Wを評価する方法としては、
単語Wの評価値=((単語Wが含まれる分類数)/(全分類数))×単語Wの出現回数
として評価値を求める。評価値が高い単語から順に、重要語として抽出する。
【0034】
この方法であれば、「原因」、「対策」、「故障」など、主題部に共通して使用される単語Wを抽出できる。
【0035】
特定の分類でのみ出現回数が多い単語Wを評価する方法としては、
単語Wの評価値=((全分類数)/(単語Wが含まれる分類数))×単語Wの出現回数
として評価値を求める。この場合も評価値が高い単語Wから順に、重要語として抽出する。
【0036】
この方法であれば、「コンデンサ」、「ショート」など、各分類に特徴的な単語を抽出できる。
【0037】
なお、重要語の抽出方法としては、上記のいずれか一つの方法を用いて抽出してもよいし、これらの中から複数の方法を用いてもよい。さらに、重要語はユーザが決めた任意のルールに基づいて抽出されるものであってもよい。また、同様の効果が得られる公知技術を用いてもよい。
【0038】
次に、ユーザによって選択された主題語を基に主題部を抽出する(S15)。1件の教師データから主題部を抽出する方法について説明する。教師データが、WORD(登録商標)、HTML,XMLのような構造化された文書の場合は、章、節などの構造のうち、最小の単位で文書を複数の文章(単位)に分割する。構造化されていない文書の場合は、文単位で文書を分割する。ここでは、以下、分割された個々の文章(単位)を構造単位としているが、構造単位とは複数文章を含むものであってもよいし、この例に限らず、ユーザが任意に設定可能である。
【0039】
各構造単位に対して評価値を算出する。評価値として、各構造単位における主題語の出現回数を用いる。複数の主題語に優先順位が設定されている場合は、優先順位によって重み付けを行ってもよい。
【0040】
図5は、評価値を算出する方法を示す図である。主題語「故障」、「原因」、「異物」が優先順位によって図5(A)に示すように重み付けがされているものとする。ここで、構造単位は「故障原因は、異物によるショートと判明。異物は長さ2mmの金属片」であるものとする。すると、この構造単位上に出現する各々の主題語の出現回数は、「故障」が1回、「原因」が1回、「異物」が2回であるから、重みと出現回数をかけて合計して、評価値=3+2+1+1=7となる。
【0041】
次に、主題部の抽出方法について説明する。図6は複数の構造単位U1〜U3から主題部を抽出する方法を示す図である。図6(A)は複数の構造単位の評価値を示し、図6(B)は主題部の決定方法を示す。構造単位Uの評価値をUeval、構造単位U内の全単語数をUwordとする。連続した複数の構造単位U1からU3のうち、主題語比率R=Uevalの合計/Uwordの合計が最も高くなるものを主題部として抽出する。
【0042】
具体的には、図6(A)に示すようにそれぞれの構造単位U1からU3について、Uevalの合計とUwordの合計を求めたマトリックスを作成する。ここでは、極端に評価値や単語数が低い主題部が抽出されるのを避けるため、評価値および単語数が一定値以上の構造単位のみを対象とするように閾値を定めている。ここでは、評価値の閾値は3であり、単語数の閾値は10とする。
【0043】
次に、図6(B)に示すように、それぞれの構造単位U1からU3について、個別、隣接する2単位、連続する3単位について、主題語比率R=Uevalの合計/Uwordの合計を求める。
【0044】
ここで、図6(B)に示す6個の構造単位列のうち、構造単位U3は閾値を満たさないため、対象外となる。そして、他の5個のうち、主題語比率Rが最大である構造単位U2+U3を主題部とする。
【0045】
なお、教師データには予め分類を示す所定のタグが付与されており、このようにして抽出された主題部は、抽出元である教師データと同じ分類を示すタグが付与される(S16)。教師データに含まれる全ての文書に対して、主題部の抽出とタグの付与とを繰り返す(S14)。その結果、主題部は教師データに追加される(S17)。
【0046】
制御部11は主題部が追加された教師データを用いて新しい分類ルールを作成し(S18)、新しい分類ルールに基づいて新しい分類対象文書を分類する(S19)。したがって、制御部11は追加手段として作動する。
【0047】
以上のように、この実施の形態においては、重要語の中からユーザが選択した所望の主題語を含む主題部を新しい教師データとして追加し、分類ルールを新しく作成するようにしたため、分類ルールが複雑でユーザが理解できない場合であっても、容易に分類ルールをユーザの所望の方向へ変更できる。
【0048】
なお、上記実施の形態では、極端に評価値が低い、または、単語数が少ない主題部が抽出されるのを避けるため、評価値および単語数に閾値を設けたが、閾値は設けなくてもよい。
【0049】
また、教師データから主題部を抽出する方法は上記実施の形態に限らず、同様の結果が得られる公知技術を用いてもよい。
【0050】
また、上記実施の形態においては、予め分類された教師データを用いて新しい分類ルールを追加する場合について説明したが、これに限らず、ユーザが所望の分類ルールで文書を分類する場合に適用してもよい。この場合は、図3のフローチャートにおいて、基本となる1つの文書を決め、それを教師データとして処理を進めればよい。
【0051】
また、上記実施の形態においては、文書分類装置が専用のコンピュータである場合について説明したが、これに限らず、上記したCPUの行なう制御をプログラムとし、それを汎用コンピュータに実行させてもよい。また、この場合、プログラムは記録媒体に格納してもよい。
【0052】
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
【図面の簡単な説明】
【0053】
【図1】この発明の原理を説明するための図である。
【図2】文書分類装置の構成を示す機能ブロック図である。
【図3】文書分類装置の動作を示すフローチャートである。
【図4】重要語を表示する場合の例を示す図である。
【図5】評価値を算出する方法を示す図である。
【図6】主題部の抽出方法を説明する図である。
【符号の説明】
【0054】
10 文書分類装置、11 制御部、12 重要語抽出部、13 主題語選択部、14 主題部抽出部、15 分類ルール作成部、16 分類実行部、17 表示部、18 記憶部、21,31 教師データ。

【特許請求の範囲】
【請求項1】
文書を分類する方法であって、
分類済みのデータから分類ルールに関連する第1用語を抽出するステップと、
抽出された第1用語の中から分類ルールとして追加したい所望の第2用語を選択させるステップと、
選択された第2用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加するステップと、
を含む、文書分類方法。
【請求項2】
分類済みのデータは予め準備された分類のためのデータを用いて分類され、
予め準備された分類のためのデータと追加された分類のためのデータとを用いて分類ルールを新たに作成するステップを含む、請求項1に記載の文書分類方法。
【請求項3】
作成された新たな分類ルールを用いて分類されていない文書を分類するステップを含む、請求項2に記載の文書分類方法。
【請求項4】
第1用語を抽出するステップは分類済のデータの中に出現する用語の頻度に基づいて抽出するステップを含む、請求項1から3のいずれかに記載の文書分類方法。
【請求項5】
所望の第2用語を選択させるステップは、ユーザに第1用語を表示してユーザに選択させるステップを含む、請求項1から4のいずれかに記載の文書分類方法。
【請求項6】
第2用語を含む文書の一部を分類済みのデータから抽出するステップは、第2用語を多く含む文書の一部を抽出するステップを含む、請求項1から5のいずれかに記載の文書分類方法。
【請求項7】
選択された第2用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加するステップは、第2用語を含む文書を、文書を構成する単位である構造単位に分けて、文書の一部を抽出するステップを含む、請求項1から6のいずれかに記載の文書分類方法。
【請求項8】
分類済みのデータから分類ルールに関連する第1用語を抽出する第1用語抽出手段と、
前記抽出手段によって抽出された第1用語の中から分類ルールとして追加したい所望の第2用語を選択させる選択手段と、
前記選択手段によって選択された第2用語を含む文書の一部を、分類済みのデータから抽出して新たな分類のためのデータとして追加する追加手段と、
を含む、文書分類装置。
【請求項9】
請求項1から7のいずれかに記載の文書分類方法をコンピュータに実行させるための文書分類プログラム。
【請求項10】
請求項9に記載の文書分類プログラムを格納したコンピュータ読取り可能記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−26923(P2010−26923A)
【公開日】平成22年2月4日(2010.2.4)
【国際特許分類】
【出願番号】特願2008−189920(P2008−189920)
【出願日】平成20年7月23日(2008.7.23)
【出願人】(000002945)オムロン株式会社 (3,542)
【Fターム(参考)】