文書処理プログラム及び文書処理装置

【課題】文書の分類精度を向上させることを可能とする。
【解決手段】重要語抽出部３１１は、文書格納部２２に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて重要語を抽出する。対象文抽出部３１２は、抽出された重要語を含む要旨文を当該重要語が抽出された文書から抽出する。言い換え文生成部３２２は、抽出された要旨文に含まれる重要語及び要旨文の係り受け解析結果に基づいて当該重要語を含む言い換え文を生成する。素性抽出部４２は、言い換え文生成部３２２によって生成された言い換え文に含まれる重要語を含む素性の組を抽出し、当該素性の組を素性格納部２６に格納する。文書ベクトル生成部４４２は、文書格納部２２に格納されている文書毎に、当該文書から抽出された要旨文における素性格納部２６に格納された素性の組の出現頻度を示す文書ベクトル成分値に基づいて文書ベクトルを生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、大量の文書群を分類するための文書処理プログラム及び文書処理装置に関する。
【背景技術】
【０００２】
近年、大量な文書（文章）群を、幾つかの互いに似た文書集合（クラスタ）に分類する文書処理装置が知られている。
【０００３】
この文書処理装置における文書の分類方法として、例えば文書に出現する単語から構成されるベクトル空間モデルを用いた文書間類似度算出方法がある。
【０００４】
これに関連する技術として、例えばコールセンターやメールセンター等、企業や自治体に集まる電子化された顧客や住民の声や営業マンが作成する営業報告書等の文章情報を、高精度で自動的に分類することが可能な技術（以下、先行技術と表記）が開示されている（例えば、特許文献１を参照）。
【０００５】
なお、先行技術においては、既に分類されているデータ（正解セット）に基づいて、入力されたデータ（分類すべきデータ）を分類するという考え方、これらのデータを文章（テキストデータ）と非文章データ（狭義のデータ）とに分け、それぞれをマイニング（テキストマイニングとデータマイニング）により類似性を判断する基準値を算出し、その基準値に基づいて分類するという考え方が取り入れられている。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００５−７１２２９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、上記した先行技術においては、文書内で、当該文書に含まれる文の意味を考慮した分類は行われていない。つまり、文書内における「重要な記述部分」と「重要でない部分」とを対等な重みで扱っているため、分類精度が低い。
【０００８】
ところで、分類精度の評価方法としては、同じクラスタに分類された文書が互いに同じ意味であるか、例えば「Ａ（目的語）をＢ（動詞）する」が同じであるかに基づいて行われるのが一般的である。
【０００９】
このため、分類精度を向上させるためには、「目的語」と「動詞」の組を考慮した分類を行う必要がある。
【００１０】
そこで、本発明の目的は、文書の分類精度を向上させることができる文書処理プログラム及び文書処理装置を提供することにある。
【課題を解決するための手段】
【００１１】
本発明の１つの態様によれば、文字列を含む文からなる複数の文書を格納する文書格納手段及び素性格納手段を有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、前記コンピュータに、前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、前記抽出された要旨文に含まれる重要語及び前記解析結果に基づいて、当該要旨文を言い換えることにより、当該重要語を含む言い換え文を生成するステップと、前記生成された言い換え文に含まれる重要語を含む素性の組を抽出するステップと、前記抽出された素性の組を、前記素性格納手段に格納するステップと、前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の組の出現頻度に基づいて文書ベクトル成分値を算出するステップと、前記算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成するステップとを実行させるための文書処理プログラムが提供される。
【発明の効果】
【００１２】
本発明によれば、文書の分類精度を向上させることを可能とする。
【図面の簡単な説明】
【００１３】
【図１】本発明の第１の実施形態に係る文書処理装置のハードウェア構成を示すブロック図。
【図２】図１に示す文書処理装置３０の主として機能構成を示すブロック図。
【図３】本実施形態に係る文書処理装置３０の処理手順を示すフローチャート。
【図４】係り受け解析部３１３による係り受け解析結果の一例を示す図。
【図５】重要語が１つである場合における言い換え処理の具体例について説明するための図。
【図６】重要語が２つである場合における言い換え処理の具体例について説明するための図。
【図７】本発明の第２の実施形態に係る文書処理装置の主として機能構成を示すブロック図。
【図８】本実施形態に係る文書処理装置４０の処理手順を示すフローチャート。
【図９】重要語抽出部３１１によって抽出された重要語が「アナログ」である場合にテンプレート生成部４１によって生成されるテンプレートの一例を示す図。
【図１０】重要語抽出部３１１によって抽出された重要語が「アナログ」及び「変換」である場合にテンプレート生成部４１によって生成されるテンプレートの一例を示す図。
【図１１】言い換え文がテンプレートにマッチしない場合に抽出される素性の組について説明するための図。
【図１２】本発明の第３の実施形態に係る文書処理装置の主として機能構成を示すブロック図。
【図１３】本実施形態に係る文書処理装置５０の処理手順を示すフローチャート。
【発明を実施するための形態】
【００１４】
以下、図面を参照して、本発明の各実施形態について説明する。
【００１５】
［第１の実施形態］
まず、図１及び図２を参照して、本発明の第１の実施形態について説明する。図１は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図１に示すように、コンピュータ１０は、例えばハードディスクドライブ（ＨＤＤ：Hard Disk Drive）のような外部記憶装置２０と接続されている。この外部記憶装置２０は、コンピュータ１０によって実行されるプログラム２１を格納する。コンピュータ１０及び外部記憶装置２０は、文書処理装置３０を構成する。
【００１６】
図２は、図１に示す文書処理装置３０の主として機能構成を示すブロック図である。図２に示すように、文書処理装置３０は、要旨文特定部３１、言い換え処理部３２及びクラスタリング部３３を含む。本実施形態において、これらの各部３１乃至３３は、図１に示すコンピュータ１０が外部記憶装置２０に格納されているプログラム２１を実行することにより実現されるものとする。このプログラム２１は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム２１が例えばネットワークを介してコンピュータ１０にダウンロードされても構わない。
【００１７】
また、文書処理装置３０は、文書格納部２２、類義句辞書格納部２３、言い換え文格納部２４及び文書クラスタ格納部２５を含む。本実施形態において、文書格納部２２、類義句辞書格納部２３、言い換え文格納部２４及び文書クラスタ格納部２５は、例えば外部記憶装置２０に格納される。
【００１８】
文書格納部２２には、複数の文書データ（テキストデータ）が格納されている。この文書データ（以下、文書と表記）は、文字列を含む文からなる。
【００１９】
要旨文特定部３１は、重要語抽出部３１１、対象文抽出部３１２及び係り受け解析部３１３を含む。
【００２０】
重要語抽出部３１１は、文書格納部２２に格納されている文書における文字列（単語）の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出する。
【００２１】
対象文抽出部３１２は、重要語抽出部３１１によって抽出された重要語を含む文（対象文）を、当該重要語が抽出された文書から抽出する。この対象文は、重要語抽出部３１１によって抽出された重要語を含むため、当該対象文が抽出された文書における重要な記述部分である。よって、対象文抽出部３１２によって抽出された対象文を（文書の）要旨文と称する。
【００２２】
係り受け解析部３１３は、対象文抽出部３１２によって抽出された要旨文に含まれる文字列間の係り受けを解析（係り受け解析）する。この係り受け解析結果の具体例については後述する。なお、この係り受け解析を実行することによって、例えば対象文抽出部３１２によって抽出された要旨文に含まれる文字列（重要語）の品詞等を取得することができる。
【００２３】
類義句辞書格納部２３には、単語（文字列）の類義表現が予め格納されている。具体的には、例えば単語「画像」の類義表現として「映像」が類義句辞書格納部２３に格納されている。この類義句辞書格納部２３は、例えば重要語抽出部３１１によって抽出された重要語等を統一するための同義語処理において用いられる。
【００２４】
言い換え処理部３２は、個数判定部３２１及び言い換え文生成部３２２を含む。個数判定部３２１は、対象文抽出部３１２によって抽出された要旨文に含まれる重要語の数（個数）が１つであるか、または２つ以上であるか否かを判定する。
【００２５】
言い換え文生成部３２２は、重要語抽出部３１１によって抽出された重要語、係り受け解析部３１３による当該要旨文の係り受け解析結果及び類義句辞書格納部２３に格納されている類義表現に基づいて、対象文抽出部３１２によって抽出された要旨文を言い換える。これにより、言い換え文生成部３２２は、対象文抽出部３１２によって抽出された要旨文の言い換え文を生成する処理（言い換え処理）を実行する。この言い換え文生成部３２２によって生成された言い換え文には、重要語抽出部３１１によって抽出された重要語が含まれる。
【００２６】
また、言い換え文生成部３２２は、個数判定部３２１による判定結果に応じた言い換え処理を実行する。なお、言い換え処理の詳細については後述する。
【００２７】
言い換え文生成部３２２は、生成された要旨文の言い換え文を言い換え文格納部２４に格納する。つまり、言い換え文格納部２４には、文書格納部２２に格納されている各文書から抽出された要旨文の言い換え文、つまり、文書格納部２２に格納されている文書毎の言い換え文が格納される。
【００２８】
クラスタリング部５１は、言い換え文格納部２４に格納されている言い換え文を分類する。クラスタリング部５１は、例えば言い換え文格納部２４に格納されている言い換え文に含まれる文字列の出現頻度に基づいて、当該言い換え文を分類する。クラスタリング部５１による分類結果は、文書クラスタ格納部２７に格納される。
【００２９】
次に、図３のフローチャートを参照して、本実施形態に係る文書処理装置３０の処理手順について説明する。なお、以下に説明する処理は、例えばユーザに指示（操作）に応じて実行される。
【００３０】
まず、要旨文特定部３１に含まれる重要語抽出部３１１は、文書格納部２２に格納されている文書（群）のうちの１つを、当該文書格納部２２から取得する（ステップＳ１）。
【００３１】
次に、重要語抽出部３１１は、取得された文書における文字列（単語）の出現頻度に基づいて、当該文書における重要語を抽出する（ステップＳ２）。具体的には、重要語抽出部３１１は、例えばＴＦ／ＩＤＦの値（スコア）を基準に特徴的な単語を決定するといった特徴単語抽出方法を用いて重要語を抽出する。重要語抽出部３１１によって抽出される重要語は、複数であっても構わない。
【００３２】
なお、重要語は、重要語抽出部３１１によって取得された文書全体から抽出される構成であってもよいし、当該文書中の重要な段落（例えば最初の段落等）のような特定の箇所から抽出される構成であっても構わない。つまり、重要語は、重要語抽出部３１１によって取得された文書中の位置に基づいて抽出されても構わない。
【００３３】
対象文抽出部３１２は、重要語抽出部３１１によって取得された文書において、当該重要語抽出部３１１によって抽出された重要語が含まれる要旨文（対象文）を抽出する（ステップＳ３）。対象文抽出部３１２によって抽出される要旨文は、複数であっても構わない。
【００３４】
なお、要旨文は、重要語抽出部３１１によって取得された文書全体から抽出される構成であってもよいし、当該文書中の特定の箇所（重要な段落）から抽出される構成であっても構わない。つまり、要旨文は、重要語抽出部３１１によって取得された文書中の位置に基づいて抽出されても構わない。
【００３５】
係り受け解析部３１３は、対象文抽出部３１２によって抽出された要旨文を係り受け解析する（ステップＳ４）。
【００３６】
ここで、図４は、係り受け解析部３１３による係り受け解析結果の一例を示す。図４は、例えば重要語抽出部３１１によって抽出された重要語が「アナログ」及び「変換」であり、対象文抽出部３１２によって抽出された要旨文が「アナログの画像を入力し変換を実行する」である場合における係り受け解析部３１３による係り受け解析結果である。
【００３７】
なお、係り受け解析部３１３は、要旨文を係り受け解析することにより、当該要旨文に含まれる文字列（重要語）「アナログ」または「変換」等の品詞等を取得する。
【００３８】
次に、言い換え処理部３２に含まれる個数判定部３２１は、対象文抽出部３１２によって抽出された要旨文に含まれる重要語の数が１つであるか、２つ以上であるかを判定する。
【００３９】
言い換え文生成部３２２は、重要語抽出部３１１によって抽出された重要語、係り受け解析部３１３による係り受け解析結果及び個数判定部３２１による判定結果に基づいて、対象文抽出部３１２によって抽出された要旨文を言い換える処理（言い換え処理）を実行する。これにより、言い換え文生成部３２２は、対象文抽出部３１２によって抽出された要旨文の言い換え文を生成する（ステップＳ５）。
【００４０】
このとき、言い換え文生成部３２２は、類義句辞書格納部２３に格納されている類義表現を用いて、対象文抽出部３１２によって抽出された要旨文に含まれる重要語等の文字列に対して同義語処理を実行する。
【００４１】
また、言い換え文生成部３２２は、生成された言い換え文を言い換え文格納部２４に格納する。
【００４２】
ここで、上記した言い換え処理とは、対象文抽出部３１２によって抽出された要旨文の複雑な表現を、より単純な表現に言い換える処理である。この言い換え処理においては、例えば第１〜第４の言い換え処理が行われる。
【００４３】
第１の言い換え処理は、名詞句の単純化である。第１の言い換え処理は、具体的には「ＡのＢ」の表現を単に「Ａ」の表現に言い換える処理である。つまり、第１の言い換え処理においては、「ＡのＢ」の表現における「のＢ」の表現が省略される。
【００４４】
第２の言い換え処理は、機能動詞句の単純化である。第２の言い換え処理は、具体的には「Ａを実行する」の表現を単に「Ａする」の表現に言い換える処理である。
【００４５】
第３の言い換え処理は、従属句の単純化である。第３の言い換え処理は、具体的には「ＡをＢしたらＣする」の表現を単に「ＡをＢしてＣする」の表現に言い換える処理である。
【００４６】
第４の言い換え処理は、格共有構造の単純化である。第４の言い換え処理は、具体的には「ＡをＢしてＣする」の表現を単に「ＡをＣする」の表現に言い換える処理である。つまり、第４の言い換え処理においては、「ＡをＢしてＣする」の表現における「Ｂして」の表現が省略される。
【００４７】
言い換え文生成部３２２は、上記した第１〜第４の言い換え処理により、対象文抽出部３１２によって抽出された要旨文の言い換え文を生成する。
【００４８】
なお、上記した第１〜第４の言い換え処理により言い換え文が生成されるが、当該言い換え文が生成される際に当該要旨文に含まれる重要語は省略されない。換言すれば、全ての要旨文について第１〜第４の言い換え処理が全て適用されるわけではない。
【００４９】
具体的には、要旨文が例えば「ＡをＢしてＣする」である場合、上記第４の言い換え処理によれば「ＡをＣする」の表現に言い換えられるが、「Ｂ」が重要語である場合には、第４の言い換え処理が適用されると重要語が省略されてしまうため、当該「ＡをＢしてＣする」の要旨文には第４の言い換え処理は適用されない。
【００５０】
また、言い換え文生成部３２２による言い換え処理は、上記した第１〜第４の言い換え処理以外に例えば係り受け解析結果（構文木）に対して枝狩り等を行うことにより言い換え処理が実行されても構わない。なお、枝狩りとは、構文木から不要な表現（文字列）を取り除く処理である。
【００５１】
ここで、図５を参照して、要旨文に含まれる重要語が１つである場合における言い換え処理の具体例について説明する。ここでは、重要語抽出部３１１によって抽出された重要語は「アナログ」であり、対象文抽出部３１２によって抽出された要旨文は「アナログの画像を入力し変換を実行する」であるものとする。
【００５２】
なお、図５においては、要旨文１０１及び当該要旨文１０１の言い換え文１０２〜１０４が上記した図４のような係り受け解析結果の形式で示されている。
【００５３】
まず、要旨文１０１に対して上記した第１の言い換え処理を適用すると、要旨文「アナログの画像を入力し変換を実行する」１０１が言い換え文「アナログを入力し変換を実行する」１０２に言い換えられる（ステップＳ１１）。
【００５４】
次に、言い換え文１０２に対して上記した第２の言い換え処理を更に適用すると、当該言い換え文「アナログを入力し変換を実行する」１０２が言い換え文「アナログを入力し変換する」１０３に言い換えられる（ステップＳ１２）。
【００５５】
この言い換え文「アナログを入力し変換する」１０３から言い換え文「アナログを入力する」及び「アナログを変換する」１０４が生成される（ステップＳ１３）。
【００５６】
このように、言い換え文生成部３２２は、要旨文「アナログの画像を入力し変換を実行する」１０１に対して言い換え処理を実行することにより、言い換え文「アナログを入力する」及び「アナログを変換する」１０４を生成する。この言い換え文生成部３２２によって生成された言い換え文「アナログを入力する」及び「アナログを変換する」１０４は、言い換え文格納部２４に格納される。
【００５７】
なお、図５に示す例では、言い換え文「アナログを入力し変換する」１０３に対して上記した第４の言い換え処理を適用することで、言い換え文「アナログを変換する」に言い換えることが考えられる。しかしながら、言い換え文「アナログを入力し変換する」１０３において「入力」及び「変換」は、重要語である「アナログ」に対して並列であり重みは同一であると考えられるため、一方のみを省略するような言い換え処理は行われない。
【００５８】
また、上記したように対象抽出部３１２によって抽出された要旨文に対する係り受け解析部３１３による係り受け解析の結果によっては、当該要旨文から生成される言い換え文は１つとは限られず、上記した図５に示すように２つ以上の言い換え文が生成される場合がある。
【００５９】
次に、図６を参照して、要旨文に含まれる重要語が２つである場合における言い換え処理の具体例について説明する。ここでは、重要語抽出部３１１によって抽出された重要語は「アナログ」及び「変換」であり、対象文抽出部３１２によって抽出された要旨文は「アナログの画像を入力し変換を実行する」であるものとする。つまり、図６に示す要旨文２０１は、上記した図５に示す要旨文１０１と同様である。
【００６０】
なお、図６においては、上記した図５と同様に、要旨文２０１及び当該要旨文２０１の言い換え文２０２〜２０４が係り受け解析結果の形式で示されている。
【００６１】
まず、要旨文２０１に対して上記した第１の言い換え処理を適用すると、要旨文「アナログの画像を入力し変換を実行する」２０１が言い換え文「アナログを入力し変換を実行する」２０２に言い換えられる（ステップＳ２１）。
【００６２】
次に、言い換え文２０２に対して上記した第２の言い換え処理を更に適用すると、当該言い換え文「アナログを入力し変換を実行する」２０２が言い換え文「アナログを入力し変換する」２０３に言い換えられる（ステップＳ２２）。
【００６３】
ここで、図６に示す例では、上記した要旨文に含まれる重要語が１つである場合と異なり、重要語「アナログ」に対して「入力」及び「変換」は並列であるが当該「変換」は重要語であり、当該重要語である「変換」の方が「入力」より重みが大きいと考えられるため、言い換え文２０３に対して上記した第４の言い換え処理が適用される。これにより、言い換え文「アナログを入力し変換する」２０３は言い換え文「アナログを変換する」２０４に言い換えられる（ステップＳ２３）。
【００６４】
このように、言い換え文生成部３２２は、要旨文「アナログの画像を入力し変換を実行する」２０１に対して言い換え処理を実行することにより、言い換え文「アナログを変換する」２０４を生成する。この言い換え文生成部３２２によって生成された言い換え文「アナログを変換する」２０４は、言い換え文格納部２４に格納される。
【００６５】
なお、要旨文に重要語が３つ以上である場合には、当該重要語のうちの２つの重要語の組み合わせ毎に、上記した図６に示すような処理が実行される。
【００６６】
再び図３に戻ると、文書格納部２２に格納されている全ての文書について上記したステップＳ１〜ステップＳ５の処理が実行されたか否かが判定される（ステップＳ６）。
【００６７】
文書格納部２２に格納されている全ての文書について上記したステップＳ１〜ステップＳ５の処理が実行されていないと判定された場合（ステップＳ６のＮＯ）、上記したステップＳ１に戻って処理が繰り返される。この場合、ステップＳ１においては、ステップＳ１〜ステップＳ５の処理が実行されていない文書が文書格納部２２から取得される。
【００６８】
一方、文書格納部２２に格納されている全ての文書についてステップＳ１〜ステップＳ５の処理が実行されたと判定された場合（ステップＳ６のＹＥＳ）、クラスタリング部３３は、言い換え文格納部２４に格納されている言い換え文を分類（クラスタリング）する（ステップＳ７）。クラスタリング部３３は、例えば言い換え文に含まれる文字列の出現頻度に基づいて文書分類を実行する。ここでは、言い換え文に含まれる文字列の出現頻度に基づいて分類処理が実行されるものとして説明したが、言い換え文の分類方法についてはここで説明した方法以外にも種々の方法が考えられる。
【００６９】
なお、言い換え文格納部２４には、上記したように文書格納部２２に格納されている文書毎に言い換え文が格納されている。
【００７０】
つまり、クラスタリング部５１は、言い換え文格納部２４に格納されている言い換え文を分類することにより、文書格納部２２に格納されている文書群の分類を行う。クラスタリング部３３による文書格納部２２に格納されている文書群の分類結果は、文書クラスタ格納部２７に格納される。
【００７１】
上記したように本実施形態においては、文書格納部２２に格納されている文書毎に、重要語抽出部３１１によって抽出された重要語が含まれる要旨文を抽出する。本実施形態においては、抽出された要旨文に対して係り受け解析を実行し、重要語及び係り受け解析結果に基づいて要旨文に対して言い換え処理を行う。したがって、本実施形態においては、文書格納部２２に格納されている文書毎の言い換え文を分類することにより、当該文書群の分類を行うことが可能となる。
【００７２】
本実施形態においては、例えば文書格納部２２に格納されている文書全体に基づいて当該文書の分類を行う場合と比較して、言い換え文のみについて係り受け解析等の分類処理が実行される、つまり、当該文書において重要でない文等については分類処理が実行されないため、分類精度を向上させ、かつ、処理量を軽減することが可能となる。
【００７３】
［第２の実施形態］
次に、図７を参照して、本発明の第２の実施形態について説明する。図７は、本実施形態に係る文書処理装置の主として機能構成を示すブロック図である。なお、前述した図２と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図２と異なる部分について主に述べる。
【００７４】
また、本実施形態に係る文書処理装置のハードウェア構成は、前述した第１の実施形態と同様であるため、適宜、図１を用いて説明する。以下の実施形態についても同様である。
【００７５】
本実施形態においては、言い換え文格納部２４に格納された言い換え文（言い換え文生成部３２２によって生成された言い換え文）の文中から後述する素性の組を抽出し、当該素性の組に基づいて文書格納部２２に格納されている文書毎に文書ベクトルを生成する点が、前述した第１の実施形態とは異なる。
【００７６】
図７に示すように、文書処理装置４０は、テンプレート生成部４１、素性抽出部４２、素性出力部４３及び文書ベクトル処理部４４を含む。本実施形態において、これらの各部４１乃至４４は、図１に示すコンピュータ１０が外部記憶装置２０に格納されているプログラム２１を実行することにより実現されるものとする。
【００７７】
また、文書処理装置４０は、素性格納部２６及び文書ベクトル格納部２７を含む。本実施形態において、素性格納部２６及び文書ベクトル格納部２７は、例えば外部記憶装置２０に格納される。
【００７８】
テンプレート生成部４１は、重要語抽出部３１１によって抽出された重要語及び係り受け解析部３１３による要旨文の係り受け解析結果に基づいて、当該重要語から構成されるテンプレートを生成する。テンプレート生成部４１によって生成されるテンプレートのデータ構造の詳細については後述する。
【００７９】
素性抽出部４２は、言い換え文格納部２４に格納された言い換え文（言い換え文生成部３２２によって生成された言い換え文）の文中から素性の組を抽出する。素性抽出部４２は、言い換え文格納部２４に格納された言い換え文に対し、テンプレート生成部４１によって生成されたテンプレートをマッチングさせる。これにより、素性抽出部４２は、言い換え文格納部２４に格納された言い換え文に含まれる重要語を含む素性の組を当該言い換え文から抽出する。素性抽出部４２は、抽出された素性の組を素性格納部２６に格納する。
【００８０】
素性抽出部４２によって抽出される素性の組には、例えば「目的語」及び「動詞」の組または「目的語」、「道具格」及び「動詞」の組等が含まれる。
【００８１】
素性出力部４３は、素性抽出部４２によって抽出された素性の組をユーザに出力（表示）する。
【００８２】
文書ベクトル処理部４４は、文書ベクトル成分値算出部４４１及び文書ベクトル生成部４４２を含む。
【００８３】
文書ベクトル成分値算出部４４１は、文書格納部２２に格納されている文書毎に、文書ベクトル成分値を算出する。文書ベクトル成分値算出部４４１は、文書格納部２２に格納されている文書から抽出された要旨文（対象文抽出部３１２によって抽出された要旨文）における素性格納部２６に格納されている各素性の組の出現頻度に基づいて文書ベクトル成分値を算出する。文書ベクトル成分値算出部４４１は、１つの文書につき、素性格納部２６に格納されている素性の組の数の文書ベクトル成分値を算出する。
【００８４】
なお、文書ベクトル成分値は、例えば相互情報量のような単語の重み算出方法を用いて算出されてもよい。
【００８５】
文書ベクトル生成部４４２は、文書ベクトル成分値算出部４４１によって算出された文書ベクトル成分値に基づいて、文書格納部２２に格納されている文書毎に文書ベクトルを生成する。
【００８６】
文書ベクトル生成部４４２は、文書格納部２２に格納されている文書毎に生成された文書ベクトルを、文書ベクトル格納部２７に格納する。この文書ベクトルは、例えば文書格納部２２に格納されている文書（群）を分類する際に用いられる。
【００８７】
次に、図８のフローチャートを参照して、本実施形態に係る文書処理装置４０の処理手順について説明する。
【００８８】
まず、前述した図３に示すステップＳ１〜ステップＳ５の処理に相当するステップＳ３１〜ステップＳ３５の処理が実行される。なお、ステップＳ３５において生成された言い換え文は、前述したように言い換え文格納部２４に格納される。
【００８９】
次に、テンプレート生成部４１は、重要語抽出部３１１によって抽出された重要語及び係り受け解析部３１３による係り受け解析結果に基づいて、当該重要語から構成されるテンプレートを生成する（ステップＳ３６）。
【００９０】
ここで、図９は、例えば重要語抽出部３１１によって抽出された重要語が「アナログ」である場合にテンプレート生成部４１によって生成されるテンプレートの一例を示す。テンプレート生成部４１は、係り受け解析部３１３による係り受け解析結果により、重要語「アナログ」の品詞（ここでは、名詞）を取得する。これにより、テンプレート生成部４１は、図９に示すように重要語「アナログ」を「目的語」とするテンプレート３０１を生成する。
【００９１】
また、図１０は、例えば重要語抽出部３１１によって抽出された重要語が「アナログ」及び「変換」である場合にテンプレート生成部４１によって生成されるテンプレートの一例を示す。テンプレート生成部４１は、係り受け解析部３１３による係り受け解析結果により、重要語「アナログ」及び「変換」の品詞（ここでは、名詞及び動詞）を取得する。これにより、テンプレート生成部４１は、図１０に示すように重要語「アナログ」を「目的語」、重要語「変換」を「動詞」とするテンプレート３０２を生成する。
【００９２】
なお、重要語抽出部３１１によって抽出された重要語が３つ以上である場合には、当該重要語の中から例えば名詞及び動詞の組がテンプレートとして生成される。また、重要語抽出部３１１によって抽出された重要語が２つである場合であっても、当該２つの重要語がともに名詞である場合には、それぞれの重要語について上記した図９で説明したようなテンプレート（当該重要語を「目的語」とするテンプレート）が生成される。つまり、重要語抽出部３１１によって抽出された重要語に応じて、複数のテンプレートが生成される場合がある。
【００９３】
再び図８に戻ると、素性抽出部４２は、テンプレート生成部４１によって生成されたテンプレートを用いて、言い換え文格納部２４に格納された言い換え文の文中から重要語または文字列（素性）から構成される組（素性の組）を抽出する（ステップＳ３７）。素性抽出部４２は、言い換え文格納部２４に格納された言い換え文に対して、テンプレート生成部４１によって生成されたテンプレートをマッチングさせることにより、素性の組を抽出する。素性の組とは、例えば「目的語」及び「動詞」から構成される。
【００９４】
なお、言い換え文、重要語及びテンプレートによっては、上記した「目的語」、「道具格」及び「動詞」から構成される素性の組が抽出される場合もある。また、上記したように複数のテンプレートが生成された場合には、当該テンプレート毎に素性の組の抽出処理が実行される。
【００９５】
素性抽出部４２によって抽出された素性の組は、素性格納部２６に格納される。このとき、素性格納部２６においては、例えば異なる言い換え文から抽出された同一の素性の組は１つの素性の組として扱われる。
【００９６】
また、素性出力部４３は、素性抽出部４２によって抽出された素性の組を例えばユーザに対して出力（表示）する。これにより、ユーザは、素性抽出部４２によって抽出された素性の組、つまり、素性の組に含まれる表現（文字列）を確認することができる。
【００９７】
ここで、素性抽出部４２による素性の組の抽出処理について具体的に説明する。例えば重要語が「アナログ」の１つであり、当該重要語「アナログ」のテンプレートは上記した図９に示すテンプレート３０１であり、言い換え文格納部２４に格納された言い換え文は、前述した図５において説明したように「アナログを入力する」及び「アナログを変換する」１０４であるものとする。この場合には、言い換え文「アナログを入力する」及び「アナログを変換する」１０４において重要語「アナログ」は目的語として用いられているため、素性抽出部４２は、「目的語」及び「動詞」から構成される（アナログ，入力）及び（アナログ，変換）の素性の組を抽出する。
【００９８】
一方、重要語が「アナログ」及び「変換」の２つであり、当該重要語「アナログ」及び「変換」のテンプレートは上記した図１０に示すテンプレート３０２であり、言い換え文格納部２４に格納された言い換え文は、前述した図６において説明したように「アナログを変換する」２０４であるものとする。この場合には、言い換え文「アナログを変換する」２０４において重要語「アナログ」は目的語として用いられており、重要語「変換」は動詞として用いられているため、この言い換え文は図１０に示すテンプレート３０２にマッチする。このため、素性抽出部４２は、「目的語」及び「動詞」から構成される（アナログ，変換）の素性の組を抽出する。
【００９９】
ここでは、重要語が１つ及び２つの場合において言い換え文がテンプレートにマッチする場合について説明したが、以下、図１１を参照して、言い換え文がテンプレートにマッチしない場合に抽出される素性の組について説明する。
【０１００】
例えば重要語が「アナログ」及び「変換」の２つであり、当該重要語「アナログ」及び「変換」のテンプレートは上記した図１０に示すテンプレート３０２であるものとする。
【０１０１】
また、対象文抽出部３１２によって抽出された要旨文は、「文字を音声に変換しアナログで出力する」であるものとする。
【０１０２】
なお、図１１においては、要旨文「文字を音声に変換しアナログで出力する」４０２が係り受け解析結果の形式で示されている。
【０１０３】
図１１に示すように、この要旨文４０２を例えば枝狩りすることにより、要旨文「文字を音声に変換しアナログで出力する」４０１が言い換え文「変換しアナログで出力する」４０２に言い換えられたものとする。つまり、言い換え文「変換しアナログで出力する」４０２が、言い換え文生成部３２２によって生成されたものとする。
【０１０４】
この場合、言い換え文「変換しアナログで出力する」４０２において重要語「変換」は動詞として用いられているが、重要語「アナログ」は目的語として用いられていないため、当該言い換え文４０２は、図１０に示すテンプレート３０２にマッチしない。
【０１０５】
この場合、素性抽出部４２は、重要語「アナログ」及び「変換」を素性の組とする。つまり、素性抽出部４２は、素性の組として例えば（変換，アナログ）及び（アナログ，変換）を抽出する。この場合には、上記したテンプレートにマッチする場合と異なり、「目的語」及び「動詞」が考慮されていない素性の組が抽出されることになる。
【０１０６】
上記したように、対象文抽出部３１２によって抽出された要旨文によっては、言い換え文生成部３２２によって生成された言い換え文とテンプレート生成部４１によって生成されたテンプレートがマッチせず、「目的語」及び「動詞」が考慮されていない素性の組が抽出される。
【０１０７】
なお、言い換え文に含まれる重要語が１つである場合に当該言い換え文がテンプレートにマッチしない場合には、重要語を素性の組にすることができないため、素性の組は抽出されない。
【０１０８】
再び図８に戻ると、文書格納部２２に格納されている全ての文書について上記したステップＳ３１〜ステップＳ３７の処理が実行されたか否かが判定される（ステップＳ３８）。
【０１０９】
文書格納部２２に格納されている全ての文書について上記したステップＳ３１〜ステップＳ３７の処理が実行されていないと判定された場合（ステップＳ３８のＮＯ）、上記したステップＳ１に戻って処理が繰り返される。この場合、ステップＳ３１においては、ステップＳ３１〜ステップＳ３７の処理が実行されていない文書が文書格納部２２から取得される。
【０１１０】
一方、文書格納部２２に格納されている全ての文書についてステップＳ３１〜ステップＳ３７の処理が実行されたと判定された場合（ステップＳ３８のＹＥＳ）、文書ベクトル処理部４４に含まれる文書ベクトル成分値算出部４４１は、文書格納部２２に格納されている文書の１つを、当該文書格納部２２から取得する（ステップＳ３９）。以下、文書ベクトル成分値算出部４４１によって取得された文書を対象文書と称する。
【０１１１】
次に、文書ベクトル成分値算出部４４１は、対象文書の文書ベクトル成分値を、当該対象文書から抽出された要旨文及び素性格納部２６に格納されている素性の組に基づいて算出する（ステップＳ４０）。文書ベクトル成分値算出部４４１は、対象文書から抽出された要旨文における当該素性の組の出現頻度を示す文書ベクトル成分値を、素性格納部２６に格納されている素性の組毎に算出する。つまり、文書ベクトル成分値算出部４４１は、１つの対象文書について、素性格納部２６に格納されている素性の組毎の文書ベクトル成分値を算出する。
【０１１２】
対象文書から抽出された要旨文において素性の組が出現するとは、当該要旨文において素性の組の例えば「目的語」及び「動詞」の組が出現することを言う。具体的には、例えば素性の組が（アナログ，入力）である場合を想定すると、対象文書から抽出された要旨文中において「アナログ」が目的語として、「入力」が動詞として用いられている場合には、当該要旨文におけるこの素性の組の出現頻度は例えば１となる。なお、１つの要旨文においてこの素性の組が２回以上出現する場合には、出現頻度の値は大きくなる。
【０１１３】
ここでは、文書ベクトル成分値算出部４４１が対象文書の要旨文における素性の組の出現頻度を文書ベクトル成分値として算出するものとして説明したが、上記したように例えば相互情報量のような単語の重み算出方法を用いて文書ベクトル成分値を算出する構成であっても構わない。相互情報量とは、文書中に出現する２つの単語が同時に出現する度合い等により、当該単語間の関連度を表す量である。
【０１１４】
文書ベクトル生成部４４２は、対象文書の文書ベクトルを、当該文書ベクトル成分値算出部４４１によって算出された文書ベクトル成分値に基づいて生成する（ステップＳ４１）。
【０１１５】
文書ベクトル生成部４４１は、生成された文書ベクトルを文書ベクトル格納部２７に格納する。この文書ベクトル格納部２７に格納された文書ベクトルは、例えば文書格納部２２に格納されている複数の文書を分類する際に用いられる。
【０１１６】
例えば素性の組（アナログ、入力）及び（アナログ、変換）が素性格納部２６に格納されている場合を想定する。この場合、対象文書から抽出された要旨文中における素性の組（アナログ、入力）の出現頻度が１、素性の組（アナログ、変換）の出現頻度が０であれば、対象文書ｄの文書ベクトルは、ｄ（１，０）となる。
【０１１７】
なお、この文書ベクトルｄ（１，０）の１は、対象文書における素性の組（アナログ，入力）の文書ベクトル成分値である。同様に、文書ベクトルｄ（１，０）の０は、対象文書における素性の組（アナログ，変換）の文書ベクトル成分値である。
【０１１８】
上記したように、文書ベクトルは、素性の組毎に算出された文書ベクトル成分値を組み合わせることによって生成される。
【０１１９】
上記したようにステップＳ４１の処理が実行されると、文書格納部２２に格納されている全ての文書について上記したステップＳ３９〜ステップＳ４１の処理が実行されたか否かが判定される（ステップＳ４２）。
【０１２０】
文書格納部２２に格納されている全ての文書について上記したステップＳ３９〜ステップＳ４１の処理が実行されていないと判定された場合（ステップＳ４２のＮＯ）、上記したステップＳ３９に戻って処理が繰り返される。この場合、ステップＳ３９においては、ステップＳ３９〜ステップＳ４１の処理が実行されていない文書が文書格納部２２から取得される。
【０１２１】
一方、文書格納部２２に格納されている全ての文書についてステップＳ３９〜ステップＳ４１の処理が実行されたと判定された場合（ステップＳ４２ＮＯＹＥＳ）、処理は終了される。
【０１２２】
上記したように、文書格納部２２に格納されている全ての文書から抽出された素性の組の数（異なり数）を次元数とするベクトルを文書ベクトルとし、当該文書毎に文書ベクトルの値を算出することにより当該各文書に対応する文書ベクトルが生成される。
【０１２３】
上記したように本実施形態においては、文書格納部２２に格納されている文書毎に、重要語抽出部３１１によって抽出された重要語が含まれる要旨文を抽出する。本実施形態においては、抽出された要旨文に対して係り受け解析を実行し、重要語及び係り受け解析結果に基づいて要旨文に対して言い換え処理を行うことにより、文書分類に対して適切な素性の組の抽出が可能となる。したがって、本実施形態においては、文書分類において適切な素性の組に基づいて文書ベクトルを生成することができるため、当該文書ベクトルを用いて行われる文書分類の精度を向上させることができる。
【０１２４】
また、本実施形態においては、抽出された要旨文に対してのみ係り受け解析を実行するため、無駄な係り受け解析処理を削減することができる。また、本実施形態においては、抽出された素性の組数を文書ベクトルの次元数とすることで、文書分類精度を低下させることなく当該文書ベクトルの次元数を削減することができるため、文書分類処理の高速化を図ることができる。
【０１２５】
［第３の実施形態］
次に、図１２を参照して、本発明の第３の実施形態について説明する。図１２は、本実施形態に係る文書処理装置の主として機能構成を示すブロック図である。なお、前述した図２及び図７と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図２及び図７と異なる部分について主に述べる。
【０１２６】
本実施形態においては、文書ベクトル格納部２７に格納された文書ベクトルを用いて文書格納部２２に格納されている文書（群）を文書分類（クラスタリング）する点が、前述した第１及び第２の実施形態とは異なる。
【０１２７】
図１２に示すように、文書処理装置５０は、文書分類処理部５１を含む。本実施形態において、文書分類処理部５１は、図１に示すコンピュータ１０が外部記憶装置２０に格納されているプログラム２１を実行することにより実現されるものとする。
【０１２８】
文書分類処理部５１は、類似度算出部５１１及びクラスタリング部５１２を含む。類似度算出部５１１は、文書ベクトル格納部２７に格納されている文書ベクトルを用いて、当該文書ベクトル間の類似度を算出する。
【０１２９】
クラスタリング部５１２は、類似度算出部５１１によって算出された類似度（の値）に基づいて、文書格納部２２に格納されている文書群のクラスタリング（文書群の分類）を行う。
【０１３０】
クラスタリング部５１２は、文書格納部２２に格納されている文書群の分類結果を文書クラスタ格納部２５に格納する。
【０１３１】
次に、図１３に示すフローチャートを参照して、本実施形態に係る文書処理装置５０の処理手順について説明する。
【０１３２】
まず、前述した図８に示すステップＳ３１〜ステップＳ４２の処理に相当するステップＳ５１〜ステップＳ６２の処理が実行される。なお、ステップＳ６１において生成された文書ベクトルは、前述したように文書ベクトル格納部２７に格納される。
【０１３３】
次に、文書分類処理部５１に含まれる類似度算出部５１１は、文書ベクトル格納部２７に格納された文書毎の文書ベクトルに基づいて、当該文書ベクトル間の類似度を算出する（ステップＳ６３）。類似度算出部５１１は、文書ベクトルにおける各素性の組毎の文書ベクトル成分値に基づいて、文書ベクトル間の類似度を算出する。
【０１３４】
クラスタリング部５１２は、類似度算出部５１１によって算出された類似度に基づいて文書格納部２２に格納されている文書群のクラスタリング処理（分類処理）を実行する（ステップＳ６４）。
【０１３５】
クラスタリング部５１２は、類似度算出部５１１によって算出された文書間の類似度の値が近い（似ている）文書同士を集めることにより、文書格納部２２に格納されている文書群をクラスタリング（分類）する。
【０１３６】
クラスタリング部５１２は、文書格納部２２に格納されている文書群の分類結果を、文書クラスタ格納部２５に格納する。
【０１３７】
上記したように本実施形態においては、前述した第２の実施形態と同様に、文書分類において適切な素性の組に基づいて文書ベクトルを生成することができ、かつ、当該文書ベクトルを用いて文書格納部２２に格納されている文書群の分類処理を実行することができる。したがって、本実施形態においては、文書格納部２２に格納されている文書群の分類精度を向上させることが可能となる。
【０１３８】
なお、本実施形態においては、図１３に示すステップＳ６２において全ての文書について処理が実行されたと判定された場合にステップＳ６３の処理が実行されるものとして説明したが、ステップＳ６２において全ての文書について処理が実行されたと判定された場合、つまり、文書格納部２２に格納されている全ての文書について文書ベクトルが生成された後、ユーザの指示があった場合にステップＳ６３の処理が実行される構成であっても構わない。換言すれば、前述した第２の実施形態で説明した文書ベクトルの生成処理と、当該文書ベクトルを用いて行われる文書群の分類処理が別々に実行されてもよい。
【０１３９】
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
【符号の説明】
【０１４０】
１０…コンピュータ、２０…外部記憶装置、２２…文書格納部、２３…類義句辞書格納部、２４…言い換え文格納部、２５…文書クラスタ格納部、２６…素性格納部、２７…文書ベクトル格納部、３０，４０，５０…文書処理装置、３１…要旨文特定部、３２…言い換え処理部、３３…クラスタリング部、４１…テンプレート生成部、４２…素性抽出部、４３…素性出力部、４４…文書ベクトル処理部、５１…文書分類処理部、３１１…重用語抽出部、３１２…対象文抽出部、３１３…係り受け解析部、３２１…個数判定部、３２２…言い換え文生成部、４４１…文書ベクトル成分値算出部、４４２…文書ベクトル生成部、５１１…類似度算出部、５１２…クラスタリング部。

【特許請求の範囲】
【請求項１】
文字列を含む文からなる複数の文書を格納する文書格納手段及び素性格納手段を有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、
前記コンピュータに、
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、
前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、
前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、
前記抽出された要旨文に含まれる重要語及び前記解析結果に基づいて、当該要旨文を言い換えることにより、当該重要語を含む言い換え文を生成するステップと、
前記生成された言い換え文に含まれる重要語を含む素性の組を、当該言い換え文から抽出するステップと、
前記抽出された素性の組を、前記素性格納手段に格納するステップと、
前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の組の出現頻度に基づいて文書ベクトル成分値を算出するステップと、
前記算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成するステップと
を実行させるための文書処理プログラム。
【請求項２】
前記コンピュータに、前記抽出された重要語及び前記解析結果に基づいて、当該重要語で構成されるテンプレートを生成するステップを更に実行させ、
前記素性の組を抽出するステップにおいて、前記生成された言い換え文に対し、前記生成されたテンプレートをマッチングさせることにより前記素性の組を抽出する
ことを特徴とする請求項１記載の文書処理プログラム。
【請求項３】
前記コンピュータに、
前記生成された前記文書格納手段に格納されている文書毎の文書ベクトルに基づいて、当該文書ベクトル間の類似度を算出するステップと、
前記算出された類似度に基づいて、前記文書格納手段に格納されている複数の文書を分類するステップと
を更に実行させることを特徴とする請求項１記載の文書処理プログラム。
【請求項４】
文字列を含む文からなる複数の文書を格納する文書格納手段及び言い換え文格納手段を有する外部記憶装置と当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、
前記コンピュータに、
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出するステップと、
前記抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出するステップと、
前記抽出された要旨文に含まれる文字列間の係り受けを解析するステップと、
前記抽出された要旨文に含まれる前記抽出された重要語及び前記解析結果に基づいて、当該要旨文を言い換えることにより、当該重要語が抽出された文書に対応する言い換え文を生成するステップと、
前記生成された言い換え文を、前記言い換え文格納手段に格納するステップと、
前記言い換え文格納手段に格納された言い換え文に含まれる文字列に基づいて、当該言い換え文を分類するステップと、
前記言い換え文の分類結果に基づいて、当該言い換え文に対応する前記文書格納手段に格納されている文書を分類するステップと
を実行させるための文書処理プログラム。
【請求項５】
文字列を含む文からなる複数の文書を格納する文書格納手段と、
前記文書格納手段に格納されている文書毎に、当該文書における文字列の出現頻度に基づいて、当該文書において重要となる文字列を重要語として抽出する重要語抽出手段と、
前記重要語抽出手段によって抽出された重要語を含む文を要旨文として当該重要語が抽出された文書から抽出する要旨文抽出手段と、
前記要旨文抽出手段によって抽出された要旨文に含まれる文字列間の係り受けを解析する解析手段と、
前記要旨文抽出手段によって抽出された要旨文に含まれる重要語及び前記解析手段による解析結果に基づいて、当該要旨文を言い換えることにより、当該重要語を含む言い換え文を生成する言い換え文生成手段と、
前記言い換え文生成手段によって生成された言い換え文に含まれる重要語を含む素性の組を、当該言い換え文から抽出する素性抽出手段と、
前記素性抽出手段によって抽出された素性の組を格納する素性格納手段と、
前記文書格納手段に格納されている文書毎に、当該文書から抽出された要旨文における前記素性格納手段に格納された素性の出現頻度に基づいて文書ベクトル成分値を算出する算出手段と、
前記算出手段によって算出された文書ベクトル成分値に基づいて、前記文書格納手段に格納されている文書毎に文書ベクトルを生成する文書ベクトル生成手段と
を具備することを特徴とする文書処理装置。

【図１】