説明

文書処理プログラム及び文書処理装置

【課題】文書の分類精度を向上させることを可能とする。
【解決手段】重要語抽出部311は、文書格納部22に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて重要語を抽出する。対象文抽出部312は、抽出された重要語を含む要旨文を当該重要語が抽出された文書から抽出する。言い換え文生成部322は、抽出された要旨文に含まれる重要語及び要旨文の係り受け解析結果に基づいて当該重要語を含む言い換え文を生成する。素性抽出部42は、言い換え文生成部322によって生成された言い換え文に含まれる重要語を含む素性の組を抽出し、当該素性の組を素性格納部26に格納する。文書ベクトル生成部442は、文書格納部22に格納されている文書毎に、当該文書から抽出された要旨文における素性格納部26に格納された素性の組の出現頻度を示す文書ベクトル成分値に基づいて文書ベクトルを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、大量の文書群を分類するための文書処理プログラム及び文書処理装置に関する。
【背景技術】
【0002】
近年、大量な文書(文章)群を、幾つかの互いに似た文書集合(クラスタ)に分類する文書処理装置が知られている。
【0003】
この文書処理装置における文書の分類方法として、例えば文書に出現する単語から構成されるベクトル空間モデルを用いた文書間類似度算出方法がある。
【0004】
これに関連する技術として、例えばコールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能な技術(以下、先行技術と表記)が開示されている(例えば、特許文献1を参照)。
【0005】
なお、先行技術においては、既に分類されているデータ(正解セット)に基づいて、入力されたデータ(分類すべきデータ)を分類するという考え方、これらのデータを文章(テキストデータ)と非文章データ(狭義のデータ)とに分け、それぞれをマイニング(テキストマイニングとデータマイニング)により類似性を判断する基準値を算出し、その基準値に基づいて分類するという考え方が取り入れられている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2005−71229号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上記した先行技術においては、文書内で、当該文書に含まれる文の意味を考慮した分類は行われていない。つまり、文書内における「重要な記述部分」と「重要でない部分」とを対等な重みで扱っているため、分類精度が低い。
【0008】
ところで、分類精度の評価方法としては、同じクラスタに分類された文書が互いに同じ意味であるか、例えば「A(目的語)をB(動詞)する」が同じであるかに基づいて行われるのが一般的である。
【0009】
このため、分類精度を向上させるためには、「目的語」と「動詞」の組を考慮した分類を行う必要がある。
【0010】
そこで、本発明の目的は、文書の分類精度を向上させることができる文書処理プログラム及び文書処理装置を提供することにある。
【課題を解決するための手段】
【0011】
本発明の1つの態様によれば、文字列を含む文からなる複数の文書を格納する文書格納手段及び素性格納手段を有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、前記コンピュータに、前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、前記抽出された要旨文に含まれる重要語及び前記解析結果に基づいて、当該要旨文を言い換えることにより、当該重要語を含む言い換え文を生成するステップと、前記生成された言い換え文に含まれる重要語を含む素性の組を抽出するステップと、前記抽出された素性の組を、前記素性格納手段に格納するステップと、前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の組の出現頻度に基づいて文書ベクトル成分値を算出するステップと、前記算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成するステップとを実行させるための文書処理プログラムが提供される。
【発明の効果】
【0012】
本発明によれば、文書の分類精度を向上させることを可能とする。
【図面の簡単な説明】
【0013】
【図1】本発明の第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図。
【図2】図1に示す文書処理装置30の主として機能構成を示すブロック図。
【図3】本実施形態に係る文書処理装置30の処理手順を示すフローチャート。
【図4】係り受け解析部313による係り受け解析結果の一例を示す図。
【図5】重要語が1つである場合における言い換え処理の具体例について説明するための図。
【図6】重要語が2つである場合における言い換え処理の具体例について説明するための図。
【図7】本発明の第2の実施形態に係る文書処理装置の主として機能構成を示すブロック図。
【図8】本実施形態に係る文書処理装置40の処理手順を示すフローチャート。
【図9】重要語抽出部311によって抽出された重要語が「アナログ」である場合にテンプレート生成部41によって生成されるテンプレートの一例を示す図。
【図10】重要語抽出部311によって抽出された重要語が「アナログ」及び「変換」である場合にテンプレート生成部41によって生成されるテンプレートの一例を示す図。
【図11】言い換え文がテンプレートにマッチしない場合に抽出される素性の組について説明するための図。
【図12】本発明の第3の実施形態に係る文書処理装置の主として機能構成を示すブロック図。
【図13】本実施形態に係る文書処理装置50の処理手順を示すフローチャート。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本発明の各実施形態について説明する。
【0015】
[第1の実施形態]
まず、図1及び図2を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10及び外部記憶装置20は、文書処理装置30を構成する。
【0016】
図2は、図1に示す文書処理装置30の主として機能構成を示すブロック図である。図2に示すように、文書処理装置30は、要旨文特定部31、言い換え処理部32及びクラスタリング部33を含む。本実施形態において、これらの各部31乃至33は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
【0017】
また、文書処理装置30は、文書格納部22、類義句辞書格納部23、言い換え文格納部24及び文書クラスタ格納部25を含む。本実施形態において、文書格納部22、類義句辞書格納部23、言い換え文格納部24及び文書クラスタ格納部25は、例えば外部記憶装置20に格納される。
【0018】
文書格納部22には、複数の文書データ(テキストデータ)が格納されている。この文書データ(以下、文書と表記)は、文字列を含む文からなる。
【0019】
要旨文特定部31は、重要語抽出部311、対象文抽出部312及び係り受け解析部313を含む。
【0020】
重要語抽出部311は、文書格納部22に格納されている文書における文字列(単語)の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出する。
【0021】
対象文抽出部312は、重要語抽出部311によって抽出された重要語を含む文(対象文)を、当該重要語が抽出された文書から抽出する。この対象文は、重要語抽出部311によって抽出された重要語を含むため、当該対象文が抽出された文書における重要な記述部分である。よって、対象文抽出部312によって抽出された対象文を(文書の)要旨文と称する。
【0022】
係り受け解析部313は、対象文抽出部312によって抽出された要旨文に含まれる文字列間の係り受けを解析(係り受け解析)する。この係り受け解析結果の具体例については後述する。なお、この係り受け解析を実行することによって、例えば対象文抽出部312によって抽出された要旨文に含まれる文字列(重要語)の品詞等を取得することができる。
【0023】
類義句辞書格納部23には、単語(文字列)の類義表現が予め格納されている。具体的には、例えば単語「画像」の類義表現として「映像」が類義句辞書格納部23に格納されている。この類義句辞書格納部23は、例えば重要語抽出部311によって抽出された重要語等を統一するための同義語処理において用いられる。
【0024】
言い換え処理部32は、個数判定部321及び言い換え文生成部322を含む。個数判定部321は、対象文抽出部312によって抽出された要旨文に含まれる重要語の数(個数)が1つであるか、または2つ以上であるか否かを判定する。
【0025】
言い換え文生成部322は、重要語抽出部311によって抽出された重要語、係り受け解析部313による当該要旨文の係り受け解析結果及び類義句辞書格納部23に格納されている類義表現に基づいて、対象文抽出部312によって抽出された要旨文を言い換える。これにより、言い換え文生成部322は、対象文抽出部312によって抽出された要旨文の言い換え文を生成する処理(言い換え処理)を実行する。この言い換え文生成部322によって生成された言い換え文には、重要語抽出部311によって抽出された重要語が含まれる。
【0026】
また、言い換え文生成部322は、個数判定部321による判定結果に応じた言い換え処理を実行する。なお、言い換え処理の詳細については後述する。
【0027】
言い換え文生成部322は、生成された要旨文の言い換え文を言い換え文格納部24に格納する。つまり、言い換え文格納部24には、文書格納部22に格納されている各文書から抽出された要旨文の言い換え文、つまり、文書格納部22に格納されている文書毎の言い換え文が格納される。
【0028】
クラスタリング部51は、言い換え文格納部24に格納されている言い換え文を分類する。クラスタリング部51は、例えば言い換え文格納部24に格納されている言い換え文に含まれる文字列の出現頻度に基づいて、当該言い換え文を分類する。クラスタリング部51による分類結果は、文書クラスタ格納部27に格納される。
【0029】
次に、図3のフローチャートを参照して、本実施形態に係る文書処理装置30の処理手順について説明する。なお、以下に説明する処理は、例えばユーザに指示(操作)に応じて実行される。
【0030】
まず、要旨文特定部31に含まれる重要語抽出部311は、文書格納部22に格納されている文書(群)のうちの1つを、当該文書格納部22から取得する(ステップS1)。
【0031】
次に、重要語抽出部311は、取得された文書における文字列(単語)の出現頻度に基づいて、当該文書における重要語を抽出する(ステップS2)。具体的には、重要語抽出部311は、例えばTF/IDFの値(スコア)を基準に特徴的な単語を決定するといった特徴単語抽出方法を用いて重要語を抽出する。重要語抽出部311によって抽出される重要語は、複数であっても構わない。
【0032】
なお、重要語は、重要語抽出部311によって取得された文書全体から抽出される構成であってもよいし、当該文書中の重要な段落(例えば最初の段落等)のような特定の箇所から抽出される構成であっても構わない。つまり、重要語は、重要語抽出部311によって取得された文書中の位置に基づいて抽出されても構わない。
【0033】
対象文抽出部312は、重要語抽出部311によって取得された文書において、当該重要語抽出部311によって抽出された重要語が含まれる要旨文(対象文)を抽出する(ステップS3)。対象文抽出部312によって抽出される要旨文は、複数であっても構わない。
【0034】
なお、要旨文は、重要語抽出部311によって取得された文書全体から抽出される構成であってもよいし、当該文書中の特定の箇所(重要な段落)から抽出される構成であっても構わない。つまり、要旨文は、重要語抽出部311によって取得された文書中の位置に基づいて抽出されても構わない。
【0035】
係り受け解析部313は、対象文抽出部312によって抽出された要旨文を係り受け解析する(ステップS4)。
【0036】
ここで、図4は、係り受け解析部313による係り受け解析結果の一例を示す。図4は、例えば重要語抽出部311によって抽出された重要語が「アナログ」及び「変換」であり、対象文抽出部312によって抽出された要旨文が「アナログの画像を入力し変換を実行する」である場合における係り受け解析部313による係り受け解析結果である。
【0037】
なお、係り受け解析部313は、要旨文を係り受け解析することにより、当該要旨文に含まれる文字列(重要語)「アナログ」または「変換」等の品詞等を取得する。
【0038】
次に、言い換え処理部32に含まれる個数判定部321は、対象文抽出部312によって抽出された要旨文に含まれる重要語の数が1つであるか、2つ以上であるかを判定する。
【0039】
言い換え文生成部322は、重要語抽出部311によって抽出された重要語、係り受け解析部313による係り受け解析結果及び個数判定部321による判定結果に基づいて、対象文抽出部312によって抽出された要旨文を言い換える処理(言い換え処理)を実行する。これにより、言い換え文生成部322は、対象文抽出部312によって抽出された要旨文の言い換え文を生成する(ステップS5)。
【0040】
このとき、言い換え文生成部322は、類義句辞書格納部23に格納されている類義表現を用いて、対象文抽出部312によって抽出された要旨文に含まれる重要語等の文字列に対して同義語処理を実行する。
【0041】
また、言い換え文生成部322は、生成された言い換え文を言い換え文格納部24に格納する。
【0042】
ここで、上記した言い換え処理とは、対象文抽出部312によって抽出された要旨文の複雑な表現を、より単純な表現に言い換える処理である。この言い換え処理においては、例えば第1〜第4の言い換え処理が行われる。
【0043】
第1の言い換え処理は、名詞句の単純化である。第1の言い換え処理は、具体的には「AのB」の表現を単に「A」の表現に言い換える処理である。つまり、第1の言い換え処理においては、「AのB」の表現における「のB」の表現が省略される。
【0044】
第2の言い換え処理は、機能動詞句の単純化である。第2の言い換え処理は、具体的には「Aを実行する」の表現を単に「Aする」の表現に言い換える処理である。
【0045】
第3の言い換え処理は、従属句の単純化である。第3の言い換え処理は、具体的には「AをBしたらCする」の表現を単に「AをBしてCする」の表現に言い換える処理である。
【0046】
第4の言い換え処理は、格共有構造の単純化である。第4の言い換え処理は、具体的には「AをBしてCする」の表現を単に「AをCする」の表現に言い換える処理である。つまり、第4の言い換え処理においては、「AをBしてCする」の表現における「Bして」の表現が省略される。
【0047】
言い換え文生成部322は、上記した第1〜第4の言い換え処理により、対象文抽出部312によって抽出された要旨文の言い換え文を生成する。
【0048】
なお、上記した第1〜第4の言い換え処理により言い換え文が生成されるが、当該言い換え文が生成される際に当該要旨文に含まれる重要語は省略されない。換言すれば、全ての要旨文について第1〜第4の言い換え処理が全て適用されるわけではない。
【0049】
具体的には、要旨文が例えば「AをBしてCする」である場合、上記第4の言い換え処理によれば「AをCする」の表現に言い換えられるが、「B」が重要語である場合には、第4の言い換え処理が適用されると重要語が省略されてしまうため、当該「AをBしてCする」の要旨文には第4の言い換え処理は適用されない。
【0050】
また、言い換え文生成部322による言い換え処理は、上記した第1〜第4の言い換え処理以外に例えば係り受け解析結果(構文木)に対して枝狩り等を行うことにより言い換え処理が実行されても構わない。なお、枝狩りとは、構文木から不要な表現(文字列)を取り除く処理である。
【0051】
ここで、図5を参照して、要旨文に含まれる重要語が1つである場合における言い換え処理の具体例について説明する。ここでは、重要語抽出部311によって抽出された重要語は「アナログ」であり、対象文抽出部312によって抽出された要旨文は「アナログの画像を入力し変換を実行する」であるものとする。
【0052】
なお、図5においては、要旨文101及び当該要旨文101の言い換え文102〜104が上記した図4のような係り受け解析結果の形式で示されている。
【0053】
まず、要旨文101に対して上記した第1の言い換え処理を適用すると、要旨文「アナログの画像を入力し変換を実行する」101が言い換え文「アナログを入力し変換を実行する」102に言い換えられる(ステップS11)。
【0054】
次に、言い換え文102に対して上記した第2の言い換え処理を更に適用すると、当該言い換え文「アナログを入力し変換を実行する」102が言い換え文「アナログを入力し変換する」103に言い換えられる(ステップS12)。
【0055】
この言い換え文「アナログを入力し変換する」103から言い換え文「アナログを入力する」及び「アナログを変換する」104が生成される(ステップS13)。
【0056】
このように、言い換え文生成部322は、要旨文「アナログの画像を入力し変換を実行する」101に対して言い換え処理を実行することにより、言い換え文「アナログを入力する」及び「アナログを変換する」104を生成する。この言い換え文生成部322によって生成された言い換え文「アナログを入力する」及び「アナログを変換する」104は、言い換え文格納部24に格納される。
【0057】
なお、図5に示す例では、言い換え文「アナログを入力し変換する」103に対して上記した第4の言い換え処理を適用することで、言い換え文「アナログを変換する」に言い換えることが考えられる。しかしながら、言い換え文「アナログを入力し変換する」103において「入力」及び「変換」は、重要語である「アナログ」に対して並列であり重みは同一であると考えられるため、一方のみを省略するような言い換え処理は行われない。
【0058】
また、上記したように対象抽出部312によって抽出された要旨文に対する係り受け解析部313による係り受け解析の結果によっては、当該要旨文から生成される言い換え文は1つとは限られず、上記した図5に示すように2つ以上の言い換え文が生成される場合がある。
【0059】
次に、図6を参照して、要旨文に含まれる重要語が2つである場合における言い換え処理の具体例について説明する。ここでは、重要語抽出部311によって抽出された重要語は「アナログ」及び「変換」であり、対象文抽出部312によって抽出された要旨文は「アナログの画像を入力し変換を実行する」であるものとする。つまり、図6に示す要旨文201は、上記した図5に示す要旨文101と同様である。
【0060】
なお、図6においては、上記した図5と同様に、要旨文201及び当該要旨文201の言い換え文202〜204が係り受け解析結果の形式で示されている。
【0061】
まず、要旨文201に対して上記した第1の言い換え処理を適用すると、要旨文「アナログの画像を入力し変換を実行する」201が言い換え文「アナログを入力し変換を実行する」202に言い換えられる(ステップS21)。
【0062】
次に、言い換え文202に対して上記した第2の言い換え処理を更に適用すると、当該言い換え文「アナログを入力し変換を実行する」202が言い換え文「アナログを入力し変換する」203に言い換えられる(ステップS22)。
【0063】
ここで、図6に示す例では、上記した要旨文に含まれる重要語が1つである場合と異なり、重要語「アナログ」に対して「入力」及び「変換」は並列であるが当該「変換」は重要語であり、当該重要語である「変換」の方が「入力」より重みが大きいと考えられるため、言い換え文203に対して上記した第4の言い換え処理が適用される。これにより、言い換え文「アナログを入力し変換する」203は言い換え文「アナログを変換する」204に言い換えられる(ステップS23)。
【0064】
このように、言い換え文生成部322は、要旨文「アナログの画像を入力し変換を実行する」201に対して言い換え処理を実行することにより、言い換え文「アナログを変換する」204を生成する。この言い換え文生成部322によって生成された言い換え文「アナログを変換する」204は、言い換え文格納部24に格納される。
【0065】
なお、要旨文に重要語が3つ以上である場合には、当該重要語のうちの2つの重要語の組み合わせ毎に、上記した図6に示すような処理が実行される。
【0066】
再び図3に戻ると、文書格納部22に格納されている全ての文書について上記したステップS1〜ステップS5の処理が実行されたか否かが判定される(ステップS6)。
【0067】
文書格納部22に格納されている全ての文書について上記したステップS1〜ステップS5の処理が実行されていないと判定された場合(ステップS6のNO)、上記したステップS1に戻って処理が繰り返される。この場合、ステップS1においては、ステップS1〜ステップS5の処理が実行されていない文書が文書格納部22から取得される。
【0068】
一方、文書格納部22に格納されている全ての文書についてステップS1〜ステップS5の処理が実行されたと判定された場合(ステップS6のYES)、クラスタリング部33は、言い換え文格納部24に格納されている言い換え文を分類(クラスタリング)する(ステップS7)。クラスタリング部33は、例えば言い換え文に含まれる文字列の出現頻度に基づいて文書分類を実行する。ここでは、言い換え文に含まれる文字列の出現頻度に基づいて分類処理が実行されるものとして説明したが、言い換え文の分類方法についてはここで説明した方法以外にも種々の方法が考えられる。
【0069】
なお、言い換え文格納部24には、上記したように文書格納部22に格納されている文書毎に言い換え文が格納されている。
【0070】
つまり、クラスタリング部51は、言い換え文格納部24に格納されている言い換え文を分類することにより、文書格納部22に格納されている文書群の分類を行う。クラスタリング部33による文書格納部22に格納されている文書群の分類結果は、文書クラスタ格納部27に格納される。
【0071】
上記したように本実施形態においては、文書格納部22に格納されている文書毎に、重要語抽出部311によって抽出された重要語が含まれる要旨文を抽出する。本実施形態においては、抽出された要旨文に対して係り受け解析を実行し、重要語及び係り受け解析結果に基づいて要旨文に対して言い換え処理を行う。したがって、本実施形態においては、文書格納部22に格納されている文書毎の言い換え文を分類することにより、当該文書群の分類を行うことが可能となる。
【0072】
本実施形態においては、例えば文書格納部22に格納されている文書全体に基づいて当該文書の分類を行う場合と比較して、言い換え文のみについて係り受け解析等の分類処理が実行される、つまり、当該文書において重要でない文等については分類処理が実行されないため、分類精度を向上させ、かつ、処理量を軽減することが可能となる。
【0073】
[第2の実施形態]
次に、図7を参照して、本発明の第2の実施形態について説明する。図7は、本実施形態に係る文書処理装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
【0074】
また、本実施形態に係る文書処理装置のハードウェア構成は、前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。以下の実施形態についても同様である。
【0075】
本実施形態においては、言い換え文格納部24に格納された言い換え文(言い換え文生成部322によって生成された言い換え文)の文中から後述する素性の組を抽出し、当該素性の組に基づいて文書格納部22に格納されている文書毎に文書ベクトルを生成する点が、前述した第1の実施形態とは異なる。
【0076】
図7に示すように、文書処理装置40は、テンプレート生成部41、素性抽出部42、素性出力部43及び文書ベクトル処理部44を含む。本実施形態において、これらの各部41乃至44は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
【0077】
また、文書処理装置40は、素性格納部26及び文書ベクトル格納部27を含む。本実施形態において、素性格納部26及び文書ベクトル格納部27は、例えば外部記憶装置20に格納される。
【0078】
テンプレート生成部41は、重要語抽出部311によって抽出された重要語及び係り受け解析部313による要旨文の係り受け解析結果に基づいて、当該重要語から構成されるテンプレートを生成する。テンプレート生成部41によって生成されるテンプレートのデータ構造の詳細については後述する。
【0079】
素性抽出部42は、言い換え文格納部24に格納された言い換え文(言い換え文生成部322によって生成された言い換え文)の文中から素性の組を抽出する。素性抽出部42は、言い換え文格納部24に格納された言い換え文に対し、テンプレート生成部41によって生成されたテンプレートをマッチングさせる。これにより、素性抽出部42は、言い換え文格納部24に格納された言い換え文に含まれる重要語を含む素性の組を当該言い換え文から抽出する。素性抽出部42は、抽出された素性の組を素性格納部26に格納する。
【0080】
素性抽出部42によって抽出される素性の組には、例えば「目的語」及び「動詞」の組または「目的語」、「道具格」及び「動詞」の組等が含まれる。
【0081】
素性出力部43は、素性抽出部42によって抽出された素性の組をユーザに出力(表示)する。
【0082】
文書ベクトル処理部44は、文書ベクトル成分値算出部441及び文書ベクトル生成部442を含む。
【0083】
文書ベクトル成分値算出部441は、文書格納部22に格納されている文書毎に、文書ベクトル成分値を算出する。文書ベクトル成分値算出部441は、文書格納部22に格納されている文書から抽出された要旨文(対象文抽出部312によって抽出された要旨文)における素性格納部26に格納されている各素性の組の出現頻度に基づいて文書ベクトル成分値を算出する。文書ベクトル成分値算出部441は、1つの文書につき、素性格納部26に格納されている素性の組の数の文書ベクトル成分値を算出する。
【0084】
なお、文書ベクトル成分値は、例えば相互情報量のような単語の重み算出方法を用いて算出されてもよい。
【0085】
文書ベクトル生成部442は、文書ベクトル成分値算出部441によって算出された文書ベクトル成分値に基づいて、文書格納部22に格納されている文書毎に文書ベクトルを生成する。
【0086】
文書ベクトル生成部442は、文書格納部22に格納されている文書毎に生成された文書ベクトルを、文書ベクトル格納部27に格納する。この文書ベクトルは、例えば文書格納部22に格納されている文書(群)を分類する際に用いられる。
【0087】
次に、図8のフローチャートを参照して、本実施形態に係る文書処理装置40の処理手順について説明する。
【0088】
まず、前述した図3に示すステップS1〜ステップS5の処理に相当するステップS31〜ステップS35の処理が実行される。なお、ステップS35において生成された言い換え文は、前述したように言い換え文格納部24に格納される。
【0089】
次に、テンプレート生成部41は、重要語抽出部311によって抽出された重要語及び係り受け解析部313による係り受け解析結果に基づいて、当該重要語から構成されるテンプレートを生成する(ステップS36)。
【0090】
ここで、図9は、例えば重要語抽出部311によって抽出された重要語が「アナログ」である場合にテンプレート生成部41によって生成されるテンプレートの一例を示す。テンプレート生成部41は、係り受け解析部313による係り受け解析結果により、重要語「アナログ」の品詞(ここでは、名詞)を取得する。これにより、テンプレート生成部41は、図9に示すように重要語「アナログ」を「目的語」とするテンプレート301を生成する。
【0091】
また、図10は、例えば重要語抽出部311によって抽出された重要語が「アナログ」及び「変換」である場合にテンプレート生成部41によって生成されるテンプレートの一例を示す。テンプレート生成部41は、係り受け解析部313による係り受け解析結果により、重要語「アナログ」及び「変換」の品詞(ここでは、名詞及び動詞)を取得する。これにより、テンプレート生成部41は、図10に示すように重要語「アナログ」を「目的語」、重要語「変換」を「動詞」とするテンプレート302を生成する。
【0092】
なお、重要語抽出部311によって抽出された重要語が3つ以上である場合には、当該重要語の中から例えば名詞及び動詞の組がテンプレートとして生成される。また、重要語抽出部311によって抽出された重要語が2つである場合であっても、当該2つの重要語がともに名詞である場合には、それぞれの重要語について上記した図9で説明したようなテンプレート(当該重要語を「目的語」とするテンプレート)が生成される。つまり、重要語抽出部311によって抽出された重要語に応じて、複数のテンプレートが生成される場合がある。
【0093】
再び図8に戻ると、素性抽出部42は、テンプレート生成部41によって生成されたテンプレートを用いて、言い換え文格納部24に格納された言い換え文の文中から重要語または文字列(素性)から構成される組(素性の組)を抽出する(ステップS37)。素性抽出部42は、言い換え文格納部24に格納された言い換え文に対して、テンプレート生成部41によって生成されたテンプレートをマッチングさせることにより、素性の組を抽出する。素性の組とは、例えば「目的語」及び「動詞」から構成される。
【0094】
なお、言い換え文、重要語及びテンプレートによっては、上記した「目的語」、「道具格」及び「動詞」から構成される素性の組が抽出される場合もある。また、上記したように複数のテンプレートが生成された場合には、当該テンプレート毎に素性の組の抽出処理が実行される。
【0095】
素性抽出部42によって抽出された素性の組は、素性格納部26に格納される。このとき、素性格納部26においては、例えば異なる言い換え文から抽出された同一の素性の組は1つの素性の組として扱われる。
【0096】
また、素性出力部43は、素性抽出部42によって抽出された素性の組を例えばユーザに対して出力(表示)する。これにより、ユーザは、素性抽出部42によって抽出された素性の組、つまり、素性の組に含まれる表現(文字列)を確認することができる。
【0097】
ここで、素性抽出部42による素性の組の抽出処理について具体的に説明する。例えば重要語が「アナログ」の1つであり、当該重要語「アナログ」のテンプレートは上記した図9に示すテンプレート301であり、言い換え文格納部24に格納された言い換え文は、前述した図5において説明したように「アナログを入力する」及び「アナログを変換する」104であるものとする。この場合には、言い換え文「アナログを入力する」及び「アナログを変換する」104において重要語「アナログ」は目的語として用いられているため、素性抽出部42は、「目的語」及び「動詞」から構成される(アナログ,入力)及び(アナログ,変換)の素性の組を抽出する。
【0098】
一方、重要語が「アナログ」及び「変換」の2つであり、当該重要語「アナログ」及び「変換」のテンプレートは上記した図10に示すテンプレート302であり、言い換え文格納部24に格納された言い換え文は、前述した図6において説明したように「アナログを変換する」204であるものとする。この場合には、言い換え文「アナログを変換する」204において重要語「アナログ」は目的語として用いられており、重要語「変換」は動詞として用いられているため、この言い換え文は図10に示すテンプレート302にマッチする。このため、素性抽出部42は、「目的語」及び「動詞」から構成される(アナログ,変換)の素性の組を抽出する。
【0099】
ここでは、重要語が1つ及び2つの場合において言い換え文がテンプレートにマッチする場合について説明したが、以下、図11を参照して、言い換え文がテンプレートにマッチしない場合に抽出される素性の組について説明する。
【0100】
例えば重要語が「アナログ」及び「変換」の2つであり、当該重要語「アナログ」及び「変換」のテンプレートは上記した図10に示すテンプレート302であるものとする。
【0101】
また、対象文抽出部312によって抽出された要旨文は、「文字を音声に変換しアナログで出力する」であるものとする。
【0102】
なお、図11においては、要旨文「文字を音声に変換しアナログで出力する」402が係り受け解析結果の形式で示されている。
【0103】
図11に示すように、この要旨文402を例えば枝狩りすることにより、要旨文「文字を音声に変換しアナログで出力する」401が言い換え文「変換しアナログで出力する」402に言い換えられたものとする。つまり、言い換え文「変換しアナログで出力する」402が、言い換え文生成部322によって生成されたものとする。
【0104】
この場合、言い換え文「変換しアナログで出力する」402において重要語「変換」は動詞として用いられているが、重要語「アナログ」は目的語として用いられていないため、当該言い換え文402は、図10に示すテンプレート302にマッチしない。
【0105】
この場合、素性抽出部42は、重要語「アナログ」及び「変換」を素性の組とする。つまり、素性抽出部42は、素性の組として例えば(変換,アナログ)及び(アナログ,変換)を抽出する。この場合には、上記したテンプレートにマッチする場合と異なり、「目的語」及び「動詞」が考慮されていない素性の組が抽出されることになる。
【0106】
上記したように、対象文抽出部312によって抽出された要旨文によっては、言い換え文生成部322によって生成された言い換え文とテンプレート生成部41によって生成されたテンプレートがマッチせず、「目的語」及び「動詞」が考慮されていない素性の組が抽出される。
【0107】
なお、言い換え文に含まれる重要語が1つである場合に当該言い換え文がテンプレートにマッチしない場合には、重要語を素性の組にすることができないため、素性の組は抽出されない。
【0108】
再び図8に戻ると、文書格納部22に格納されている全ての文書について上記したステップS31〜ステップS37の処理が実行されたか否かが判定される(ステップS38)。
【0109】
文書格納部22に格納されている全ての文書について上記したステップS31〜ステップS37の処理が実行されていないと判定された場合(ステップS38のNO)、上記したステップS1に戻って処理が繰り返される。この場合、ステップS31においては、ステップS31〜ステップS37の処理が実行されていない文書が文書格納部22から取得される。
【0110】
一方、文書格納部22に格納されている全ての文書についてステップS31〜ステップS37の処理が実行されたと判定された場合(ステップS38のYES)、文書ベクトル処理部44に含まれる文書ベクトル成分値算出部441は、文書格納部22に格納されている文書の1つを、当該文書格納部22から取得する(ステップS39)。以下、文書ベクトル成分値算出部441によって取得された文書を対象文書と称する。
【0111】
次に、文書ベクトル成分値算出部441は、対象文書の文書ベクトル成分値を、当該対象文書から抽出された要旨文及び素性格納部26に格納されている素性の組に基づいて算出する(ステップS40)。文書ベクトル成分値算出部441は、対象文書から抽出された要旨文における当該素性の組の出現頻度を示す文書ベクトル成分値を、素性格納部26に格納されている素性の組毎に算出する。つまり、文書ベクトル成分値算出部441は、1つの対象文書について、素性格納部26に格納されている素性の組毎の文書ベクトル成分値を算出する。
【0112】
対象文書から抽出された要旨文において素性の組が出現するとは、当該要旨文において素性の組の例えば「目的語」及び「動詞」の組が出現することを言う。具体的には、例えば素性の組が(アナログ,入力)である場合を想定すると、対象文書から抽出された要旨文中において「アナログ」が目的語として、「入力」が動詞として用いられている場合には、当該要旨文におけるこの素性の組の出現頻度は例えば1となる。なお、1つの要旨文においてこの素性の組が2回以上出現する場合には、出現頻度の値は大きくなる。
【0113】
ここでは、文書ベクトル成分値算出部441が対象文書の要旨文における素性の組の出現頻度を文書ベクトル成分値として算出するものとして説明したが、上記したように例えば相互情報量のような単語の重み算出方法を用いて文書ベクトル成分値を算出する構成であっても構わない。相互情報量とは、文書中に出現する2つの単語が同時に出現する度合い等により、当該単語間の関連度を表す量である。
【0114】
文書ベクトル生成部442は、対象文書の文書ベクトルを、当該文書ベクトル成分値算出部441によって算出された文書ベクトル成分値に基づいて生成する(ステップS41)。
【0115】
文書ベクトル生成部441は、生成された文書ベクトルを文書ベクトル格納部27に格納する。この文書ベクトル格納部27に格納された文書ベクトルは、例えば文書格納部22に格納されている複数の文書を分類する際に用いられる。
【0116】
例えば素性の組(アナログ、入力)及び(アナログ、変換)が素性格納部26に格納されている場合を想定する。この場合、対象文書から抽出された要旨文中における素性の組(アナログ、入力)の出現頻度が1、素性の組(アナログ、変換)の出現頻度が0であれば、対象文書dの文書ベクトルは、d(1,0)となる。
【0117】
なお、この文書ベクトルd(1,0)の1は、対象文書における素性の組(アナログ,入力)の文書ベクトル成分値である。同様に、文書ベクトルd(1,0)の0は、対象文書における素性の組(アナログ,変換)の文書ベクトル成分値である。
【0118】
上記したように、文書ベクトルは、素性の組毎に算出された文書ベクトル成分値を組み合わせることによって生成される。
【0119】
上記したようにステップS41の処理が実行されると、文書格納部22に格納されている全ての文書について上記したステップS39〜ステップS41の処理が実行されたか否かが判定される(ステップS42)。
【0120】
文書格納部22に格納されている全ての文書について上記したステップS39〜ステップS41の処理が実行されていないと判定された場合(ステップS42のNO)、上記したステップS39に戻って処理が繰り返される。この場合、ステップS39においては、ステップS39〜ステップS41の処理が実行されていない文書が文書格納部22から取得される。
【0121】
一方、文書格納部22に格納されている全ての文書についてステップS39〜ステップS41の処理が実行されたと判定された場合(ステップS42NOYES)、処理は終了される。
【0122】
上記したように、文書格納部22に格納されている全ての文書から抽出された素性の組の数(異なり数)を次元数とするベクトルを文書ベクトルとし、当該文書毎に文書ベクトルの値を算出することにより当該各文書に対応する文書ベクトルが生成される。
【0123】
上記したように本実施形態においては、文書格納部22に格納されている文書毎に、重要語抽出部311によって抽出された重要語が含まれる要旨文を抽出する。本実施形態においては、抽出された要旨文に対して係り受け解析を実行し、重要語及び係り受け解析結果に基づいて要旨文に対して言い換え処理を行うことにより、文書分類に対して適切な素性の組の抽出が可能となる。したがって、本実施形態においては、文書分類において適切な素性の組に基づいて文書ベクトルを生成することができるため、当該文書ベクトルを用いて行われる文書分類の精度を向上させることができる。
【0124】
また、本実施形態においては、抽出された要旨文に対してのみ係り受け解析を実行するため、無駄な係り受け解析処理を削減することができる。また、本実施形態においては、抽出された素性の組数を文書ベクトルの次元数とすることで、文書分類精度を低下させることなく当該文書ベクトルの次元数を削減することができるため、文書分類処理の高速化を図ることができる。
【0125】
[第3の実施形態]
次に、図12を参照して、本発明の第3の実施形態について説明する。図12は、本実施形態に係る文書処理装置の主として機能構成を示すブロック図である。なお、前述した図2及び図7と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2及び図7と異なる部分について主に述べる。
【0126】
本実施形態においては、文書ベクトル格納部27に格納された文書ベクトルを用いて文書格納部22に格納されている文書(群)を文書分類(クラスタリング)する点が、前述した第1及び第2の実施形態とは異なる。
【0127】
図12に示すように、文書処理装置50は、文書分類処理部51を含む。本実施形態において、文書分類処理部51は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
【0128】
文書分類処理部51は、類似度算出部511及びクラスタリング部512を含む。類似度算出部511は、文書ベクトル格納部27に格納されている文書ベクトルを用いて、当該文書ベクトル間の類似度を算出する。
【0129】
クラスタリング部512は、類似度算出部511によって算出された類似度(の値)に基づいて、文書格納部22に格納されている文書群のクラスタリング(文書群の分類)を行う。
【0130】
クラスタリング部512は、文書格納部22に格納されている文書群の分類結果を文書クラスタ格納部25に格納する。
【0131】
次に、図13に示すフローチャートを参照して、本実施形態に係る文書処理装置50の処理手順について説明する。
【0132】
まず、前述した図8に示すステップS31〜ステップS42の処理に相当するステップS51〜ステップS62の処理が実行される。なお、ステップS61において生成された文書ベクトルは、前述したように文書ベクトル格納部27に格納される。
【0133】
次に、文書分類処理部51に含まれる類似度算出部511は、文書ベクトル格納部27に格納された文書毎の文書ベクトルに基づいて、当該文書ベクトル間の類似度を算出する(ステップS63)。類似度算出部511は、文書ベクトルにおける各素性の組毎の文書ベクトル成分値に基づいて、文書ベクトル間の類似度を算出する。
【0134】
クラスタリング部512は、類似度算出部511によって算出された類似度に基づいて文書格納部22に格納されている文書群のクラスタリング処理(分類処理)を実行する(ステップS64)。
【0135】
クラスタリング部512は、類似度算出部511によって算出された文書間の類似度の値が近い(似ている)文書同士を集めることにより、文書格納部22に格納されている文書群をクラスタリング(分類)する。
【0136】
クラスタリング部512は、文書格納部22に格納されている文書群の分類結果を、文書クラスタ格納部25に格納する。
【0137】
上記したように本実施形態においては、前述した第2の実施形態と同様に、文書分類において適切な素性の組に基づいて文書ベクトルを生成することができ、かつ、当該文書ベクトルを用いて文書格納部22に格納されている文書群の分類処理を実行することができる。したがって、本実施形態においては、文書格納部22に格納されている文書群の分類精度を向上させることが可能となる。
【0138】
なお、本実施形態においては、図13に示すステップS62において全ての文書について処理が実行されたと判定された場合にステップS63の処理が実行されるものとして説明したが、ステップS62において全ての文書について処理が実行されたと判定された場合、つまり、文書格納部22に格納されている全ての文書について文書ベクトルが生成された後、ユーザの指示があった場合にステップS63の処理が実行される構成であっても構わない。換言すれば、前述した第2の実施形態で説明した文書ベクトルの生成処理と、当該文書ベクトルを用いて行われる文書群の分類処理が別々に実行されてもよい。
【0139】
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
【符号の説明】
【0140】
10…コンピュータ、20…外部記憶装置、22…文書格納部、23…類義句辞書格納部、24…言い換え文格納部、25…文書クラスタ格納部、26…素性格納部、27…文書ベクトル格納部、30,40,50…文書処理装置、31…要旨文特定部、32…言い換え処理部、33…クラスタリング部、41…テンプレート生成部、42…素性抽出部、43…素性出力部、44…文書ベクトル処理部、51…文書分類処理部、311…重用語抽出部、312…対象文抽出部、313…係り受け解析部、321…個数判定部、322…言い換え文生成部、441…文書ベクトル成分値算出部、442…文書ベクトル生成部、511…類似度算出部、512…クラスタリング部。

【特許請求の範囲】
【請求項1】
文字列を含む文からなる複数の文書を格納する文書格納手段及び素性格納手段を有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、
前記コンピュータに、
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、
前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、
前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、
前記抽出された要旨文に含まれる重要語及び前記解析結果に基づいて、当該要旨文を言い換えることにより、当該重要語を含む言い換え文を生成するステップと、
前記生成された言い換え文に含まれる重要語を含む素性の組を、当該言い換え文から抽出するステップと、
前記抽出された素性の組を、前記素性格納手段に格納するステップと、
前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の組の出現頻度に基づいて文書ベクトル成分値を算出するステップと、
前記算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成するステップと
を実行させるための文書処理プログラム。
【請求項2】
前記コンピュータに、前記抽出された重要語及び前記解析結果に基づいて、当該重要語で構成されるテンプレートを生成するステップを更に実行させ、
前記素性の組を抽出するステップにおいて、前記生成された言い換え文に対し、前記生成されたテンプレートをマッチングさせることにより前記素性の組を抽出する
ことを特徴とする請求項1記載の文書処理プログラム。
【請求項3】
前記コンピュータに、
前記生成された前記文書格納手段に格納されている文書毎の文書ベクトルに基づいて、当該文書ベクトル間の類似度を算出するステップと、
前記算出された類似度に基づいて、前記文書格納手段に格納されている複数の文書を分類するステップと
を更に実行させることを特徴とする請求項1記載の文書処理プログラム。
【請求項4】
文字列を含む文からなる複数の文書を格納する文書格納手段及び言い換え文格納手段を有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、
前記コンピュータに、
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、
前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、
前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、
前記抽出された要旨文に含まれる前記抽出された重要語及び前記解析結果に基づいて、当該要旨文を言い換えることにより、当該重要語が抽出された文書に対応する言い換え文を生成するステップと、
前記生成された言い換え文を、前記言い換え文格納手段に格納するステップと、
前記言い換え文格納手段に格納された言い換え文に含まれる文字列に基づいて、当該言い換え文を分類するステップと、
前記言い換え文の分類結果に基づいて、当該言い換え文に対応する前記文書格納手段に格納されている文書を分類するステップと
を実行させるための文書処理プログラム。
【請求項5】
文字列を含む文からなる複数の文書を格納する文書格納手段と、
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出する重要語抽出手段と、
前記重要語抽出手段によって抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出する要旨文抽出手段と、
前記要旨文抽出手段によって抽出された要旨文に含まれる文字列間の係り受けを解析する解析手段と、
前記要旨文抽出手段によって抽出された要旨文に含まれる重要語及び前記解析手段による解析結果に基づいて、当該要旨文を言い換えることにより、当該重要語を含む言い換え文を生成する言い換え文生成手段と、
前記言い換え文生成手段によって生成された言い換え文に含まれる重要語を含む素性の組を、当該言い換え文から抽出する素性抽出手段と、
前記素性抽出手段によって抽出された素性の組を格納する素性格納手段と、
前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の出現頻度に基づいて文書ベクトル成分値を算出する算出手段と、
前記算出手段によって算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成する文書ベクトル生成手段と
を具備することを特徴とする文書処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−160645(P2010−160645A)
【公開日】平成22年7月22日(2010.7.22)
【国際特許分類】
【出願番号】特願2009−1851(P2009−1851)
【出願日】平成21年1月7日(2009.1.7)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】