説明

要約文生成装置及びプログラム

【課題】機器の使用に関する事項を含むテキストから、本質となる部分を抽出した要約文を生成する。
【解決手段】機器の使用に関する事項を含むテキストを、事項分割部24で、予め定めた事項分割ルールに従って、「状況」、「操作」、「現象」、「要望・意見・質問」に関する事項の各々に該当する部分毎に分割し、重要部分抽出部28で、重要単語辞書26を参照して、各部分に含まれる重要単語数をカウントし、最も多く重要単語を含む部分を重要部分として抽出し、要約文生成部30で、抽出された重要部分の終端に述部を連接するか、重要部分の終端を終止形に変形するか、または重要部分からガ格及び述語を抽出して要約文を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、要約文生成装置及びプログラムに係り、特に、機器の使用に関する事項を含むテキストの要約文を生成する要約文生成装置及びプログラム関する。
【背景技術】
【0002】
従来、入力された原文書から、所定の方法によって選定された複数個の重要語を用いて、物事または動作等の概念を木構造で表現した概念体系を検索し、原文書の重要語を支配する数の最も多い概念ノードを重要概念ノードとして抽出し、抽出した重要概念ノードを用いて要約文を生成する文書要約装置が提案されている(例えば、特許文献1参照)。
【0003】
また、メール本文から重要文の抽出処理を行い、抽出された重要文をメールの一覧表示に加えて表示するメールの表示方法が提案されている(例えば、特許文献2参照)。特許文献2では、メール本文全体に対して重要単語を検索することで、重要文を抽出している。
【0004】
また、アンケートの回答として自由記述文から、解析規則データベースに格納されている解析規則に基づいて抽出した意見記述部分と根拠記述部分とを解析結果として、多くの自由記述文で述べられている話題を論点として抽出し、それぞれの意見記述の断定性と根拠記述の具体性を表す数値とから、意見の強さの度合いを分析する意見分析方法が提案されている(例えば、特許文献3参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平7−219953号公報
【特許文献2】特開2002−288091号公報
【特許文献3】特開2004−227343号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の技術では、部分木を作成し、その中に出てくる単語を概念ノードと対応付け、頻度が高い概念が含まれる部分を重要部分として抽出しているが、各部分木の役割(「状況を述べている」、「現象を述べている」等)を考慮していないため、意味的に重要な部分を抽出できない可能性がある、という問題がある。
【0007】
また、特許文献2の技術では、各文の類似度を求め、意味的に近い文を重要文として抽出しているが、全文に対して意味の近さを計算するため、本質的な内容の書かれた部分だけでなく、付随する状況の部分も抽出する可能性がある、という問題がある。
【0008】
また、特許文献3の技術は、意見集約に限定した発明であるため、意見以外の入力に対する処理方法については定義されていない。
【0009】
本発明は、上記の問題点を解決するためになされたもので、機器の使用に関する事項を含むテキストから、本質となる部分を抽出した要約文を生成することができる要約文生成装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために、第1の発明の要約文生成装置は、機器の使用に関する事項を含むテキストを、状況に関する事項、操作に関する事項、現象に関する事項、並びに要望、意見及び質問に関する事項の各々に該当する部分毎に分割する分割手段と、前記分割手段により分割された各部分に含まれる予め定めた重要単語の数に基づいて、重要部分を抽出する抽出手段と、前記抽出手段により抽出された重要部分の終端に述部を連接するか、該重要部分の終端を終止形に変形するか、または重要部分からガ格及び述語を抽出して要約文を生成する生成手段と、を含んで構成されている。
【0011】
第1の発明の要約文生成装置によれば、分割手段が、機器の使用に関する事項を含むテキストを、状況に関する事項、操作に関する事項、現象に関する事項、並びに要望、意見及び質問に関する事項の各々に該当する部分毎に分割し、抽出手段が、分割手段により分割された各部分に含まれる予め定めた重要単語の数に基づいて、重要部分を抽出し、生成手段が、抽出手段により抽出された重要部分の終端に述部を連接するか、該重要部分の終端を終止形に変形するか、または重要部分からガ格及び述語を抽出して要約文を生成する。
【0012】
このように、テキストを意味のある事項で分割した部分毎に含まれる重要単語の数に基づいて重要部分を抽出することにより、要約文を作成することが可能な部分であって、付随的情報を示す部分を削除した本質的部分が重要部分として抽出されるため、機器の使用に関する事項を含むテキストから、本質となる部分を抽出した要約文を生成することができる。
【0013】
また、第1の発明において、前記抽出手段は、前記重要単語の数と、各部分が示す事項に応じた重みとの積に基づいて、前記重要部分を抽出することができる。これにより、優先させたい事項に応じて抽出された重要部分を用いた要約文を生成することができる。
【0014】
また、第1の発明において、前記重要単語は、前記事項毎に予め定められ、前記抽出手段は、前記分割手段により分割された部分に含まれる該部分に対応する事項に応じた重要単語の数に基づいて、前記重要部分を抽出することができる。これにより、より適切に重要部分を抽出することができる。
【0015】
また、第2の発明の要約文生成装置は、機器の使用に関する事項を含むテキストから、要望、意見及び質問に関する事項を含む文を判別する判別手段と、前記判別手段により前記要望、意見及び質問に関する事項を含む文であると判別されなかった文の各々に含まれる予め定めた重要単語の数に基づいて、重要文を抽出する抽出手段と、前記抽出手段により抽出された重要文を、状況に関する事項、操作に関する事項、及び現象に関する事項の各々に該当する部分毎に分割する分割手段と、前記分割手段により分割された部分が示す事項、及び該部分が重要単語を含むか否かに基づいて少なくとも1つの部分を選択し、選択された部分の終端に述部を連接するか、該部分の終端を終止形に変形するか、または該部分からガ格及び述語を抽出して要約文を生成する生成手段と、を含んで構成されている。
【0016】
第2の発明の要約文生成装置によれば、判別手段が、機器の使用に関する事項を含むテキストから、要望、意見及び質問に関する事項を含む文を判別し、抽出手段が、判別手段により要望、意見及び質問に関する事項を含む文であると判別されなかった文の各々に含まれる予め定めた重要単語の数に基づいて、重要文を抽出し、分割手段が、抽出手段により抽出された重要文を、状況に関する事項、操作に関する事項、及び現象に関する事項の各々に該当する部分毎に分割し、生成手段が、分割手段により分割された部分が示す事項、及び該部分が重要単語を含むか否かに基づいて少なくとも1つの部分を選択し、選択された部分の終端に述部を連接するか、該部分の終端を終止形に変形するか、または該部分からガ格及び述語を抽出して要約文を生成する。
【0017】
このように、文のタイプを判別して重要文を抽出し、重要文を意味のある事項で分割した部分毎が示す事項及び重要単語の有無に基づいて要約文を生成するため、機器の使用に関する事項を含むテキストから、本質となる部分を抽出した要約文を生成することができる。
【0018】
また、第2の発明において、前記生成手段は、前記重要文が前記現象に関する事項に該当する部分を含む場合において、前記現象に関する事項に該当する部分が重要単語を含む場合には、該現象に関する事項に該当する部分を用いて要約文を生成し、前記現象に関する事項に該当する部分が重要単語を含まない場合には、前記状況に関する事項、及び前記操作に関する事項のうち、予め定めた優先度が高い事項に該当する部分、または各部分に含まれる重要単語の数が多い方の部分と、前記現象に関する事項に該当する部分とを用いて要約文を生成することができる。これにより、現象に関する事項を重要事項とした場合に、適切な要約文を生成することができる。
【0019】
また、第2の発明において、前記重要単語は、前記事項毎に予め定められ、前記生成手段は、前記分割手段により分割された部分に該部分に対応する事項に応じた重要単語を含むか否かを判定することができる。これにより、より適切に要約文を生成するための部分を選択することができる。
【0020】
また、前記分割手段は、予め定めたキーワード、または該キーワードと品詞との組み合わせで表されるルールに従って、前記テキストを分割するか、または、各部分がいずれの事項に該当するかが既知の学習用テキストを用いて学習された、テキストの分割位置及び分割された各部分が示す事項を判別するための判別モデルを用いて、前記テキストを分割することができる。
【0021】
また、前記分割手段は、状況に関する内容をさらに、時、前記機器の状況、及び前記機器以外の状況に分割し、前記現象に関する内容をさらに、前記機器の現象、及び前記機器以外の現象に分割することができる。これにより、より詳細に解析された要約文を生成することができる。
【0022】
また、前記機器を車両とし、前記重要単語は、前記車両、該車両の部品、付属機器、及びサービスに関する単語を含むことができる。
【0023】
また、第3の発明の要約文生成プログラムは、コンピュータを、機器の使用に関する事項を含むテキストを、状況に関する事項、操作に関する事項、現象に関する事項、並びに要望、意見及び質問に関する事項の各々に該当する部分毎に分割する分割手段、前記分割手段により分割された各部分に含まれる予め定めた重要単語の数に基づいて、重要部分を抽出する抽出手段、及び前記抽出手段により抽出された重要部分の終端に述部を連接するか、該重要部分の終端を終止形に変形するか、または重要部分からガ格及び述語を抽出して要約文を生成する生成手段として機能させるためのプログラムである。
【0024】
また、第4の発明の要約文生成プログラムは、コンピュータを、機器の使用に関する事項を含むテキストから、要望、意見及び質問に関する事項を含む文を判別する判別手段、前記判別手段により前記要望、意見及び質問に関する事項を含む文であると判別されなかった文の各々に含まれる予め定めた重要単語の数に基づいて、重要文を抽出する抽出手段、前記抽出手段により抽出された重要文を、状況に関する事項、操作に関する事項、及び現象に関する事項の各々に該当する部分毎に分割する分割手段、及び前記分割手段により分割された部分が示す事項、及び該部分が重要単語を含むか否かに基づいて少なくとも1つの部分を選択し、選択された部分の終端に述部を連接するか、該部分の終端を終止形に変形するか、または該部分からガ格及び述語を抽出して要約文を生成する生成手段として機能させるためのプログラムである。
【0025】
なお、本発明のプログラムを記憶する記憶媒体は、特に限定されず、ハードディスクであってもよいし、ROMであってもよい。また、CD−ROMやDVDディスク、光磁気ディスクやICカードであってもよい。更にまた、該プログラムを、ネットワークに接続されたサーバ等からダウンロードするようにしてもよい。
【発明の効果】
【0026】
以上説明したように、本発明の要約文生成装置及びプログラムによれば、テキストを意味のある事項で分割した部分毎に含まれる重要単語の数に基づいて重要部分を抽出するか、または文のタイプを判別後、抽出された重要文を意味のある事項で分割した部分毎が示す事項及び重要単語の有無により重要部分を抽出することにより、要約文を作成することが可能な部分であって、付随的情報を示す部分を削除した本質的部分が重要部分として抽出されるため、機器の使用に関する事項を含むテキストから、本質となる部分を抽出した要約文を生成することができる、という効果が得られる。
【図面の簡単な説明】
【0027】
【図1】第1の実施の形態の要約文生成装置の概略構成を示すブロック図である。
【図2】入力文、形態素解析結果、節分割結果、及び事項分割結果の一例を示す図である。
【図3】事項分割ルールの一例を示す図である。
【図4】重要単語辞書に登録された重要単語の一例を示す図である。
【図5】要約文生成の一例を示す図である。
【図6】第1の実施の形態の要約文生成装置における要約文生成処理ルーチンの内容を示すフローチャートである。
【図7】要約文生成の他の例を示す図である。
【図8】要約文生成の他の例を示す図である。
【図9】第2の実施の形態の要約文生成装置の概略構成を示すブロック図である。
【図10】詳細な事項の一例を示す図である。
【図11】事項解析モデルの構築を説明するための図である。
【図12】事項解析モデルを用いた事項分割部の分割処理を説明するためのイメージ図である。
【図13】第2の実施の形態の要約文生成装置の各部の処理結果の一例を示す図である。
【図14】第2の実施の形態の要約文生成装置における要約文生成処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【0028】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、車両の使用に関する事項を含むテキストから、本質的な部分を抽出して要約文を作成する要約文作成装置に本発明を適用した場合を例に説明する。
【0029】
第1の実施の形態に係る要約文生成装置10は、要約文生成装置10全体の制御を司るCPU、後述する要約文生成処理ルーチンのプログラム等を記憶した記憶媒体としてのROM、ワークエリアとしてデータを一時格納するRAM、及びこれらを接続するバスを含むコンピュータ20で構成することができる。
【0030】
このコンピュータ20をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図1に示すように、入力された文章(テキストデータ)を形態素解析すると共に、節に分割する形態素節分割部22と、予め定めた事項分割ルールに従って、各節を分解する事項分割部24と、重要部分を抽出するための重要単語が登録された重要単語辞書26と、分解された各部分の中から重要部分を抽出する重要部分抽出部28と、抽出された重要部分を用いて要約文を生成する要約文生成部30と、を含んだ構成で表すことができる。
【0031】
形態素節分割部22は、まず、ChaSenやMecabといった一般的な形態素解析ツールを用いて、入力されたテキストデータを形態素解析する。次に、入力文を、述語を1つ含む単位である節に分割する。ここでは、節の分割は、動詞[自立,一般]を含むか否かで判断する。例えば、「動詞[自立,一般]+自立語以外の単語N個連接+文節区切り」を節分割ルールとし、この節分割ルールと形態素解析結果と照合して、一致する単語の後で分割する。図2に、入力文、形態素解析結果、節分割結果、及び後述する事項分割結果の一例を示す。「CD再生時にオーディオの音量を変えるとCDの音が飛ぶような感じになる。」という入力文は、「CD再生時にオーディオの音量を変えると」及び「CDの音が飛ぶような感じになる。」の2つの節に分割される。
【0032】
事項分割部24は、形態素節分割部22の形態素解析結果を用いて、分割された各節を、さらに「状況」、「操作」、「現象」、及び「要望・意見・質問」の各々に該当する部分毎に分割する。「状況」は、車両や車両の付属品の使用に関して、どんな時、またはどんな状況での使用であるかに関する事項をいう。「操作」は、運転操作、または車両の付属品の操作に関する事項をいう。「現象」は、「状況」や「操作」の結果として生じる車両や車両の付属品の現象に関する事項、及び「状況」や「操作」に関わらず車両や車両の付属品に生じた現象に関する事項をいう。「要望・意見・質問」は、ユーザからの要望、意見及び質問に関する事項をいう。
【0033】
各節をこれらの事項に該当する部分に分割するためには、各事項に応じたキーワード、またはキーワードと品詞との組み合わせで表される事項毎の分割ルールを予め定めておく。図3に事項分割ルールの一例を示す。例えば、「状況」であれば、(a)「キーワード:時[名詞,非自立]」や(b)「キーワード:時[名詞,非自立]+品詞:<助詞>」などのように分割ルールを定めておくことができる。このような事項分割ルールを用いて、形態素解析結果の各単語について、分割ルールに一致するか否かを順次判定していき、いずれかの分割ルールに一致した単語の後で各節を分割する。ただし、複数の分割ルールに一致する場合には、長い分割ルールとのマッチングを優先する最長一致を適用して、最も長い分割ルールに一致した箇所を分割箇所とする。例えば、形態素解析結果の一部が「/時/に/」の場合、上記の分割ルール(a)及び(b)のいずれにも一致するが、(a)の分割ルールに一致した「時」の後ではなく、長い方の分割ルール(b)に一致した「時に」の後で分割する。例えば、図2の形態素解析結果及び節分割結果の例に、図3の事項分割ルールを適用すると、上記の入力文は、「CD再生時に(状況)」、「オーディオの音量を変えると(操作)」、及び「CDの音が飛ぶような感じになる(現象)」の各部分に分割される。なお、( )内は、どの事項に対応する分割ルールに一致して分割されたかを示す。
【0034】
重要単語辞書26には、例えば、図4に示すように、対象機器である車両及び車両の付属品(部品、付属機器、サービス等)に関する単語が、重要単語として登録されている。
【0035】
重要部分抽出部28は、事項分割部24の解析により分割された各部分に、重要単語辞書26に登録されている重要単語が何個含まれているかをカウントし、重要単語が最も多く含まれる部分を重要部分として抽出する。重要部分の選択式は、下記(1)式で表される。
【0036】
重要部分=argmaxΣ重要単語 ・・・(1)
例えば、図5に示すように、入力文「オーディオの件で電話した。CD再生時にオーディオの音量を変えるとCDの音が飛ぶような感じになる。もともと車についていたオーディオではないが、非純正オーディオの故障もディーラーで見てもらえるか?」は、「オーディオの件で電話した。(節、1単語)」、「CD再生時に(状況、1単語)」、「オーディオの音量を変えると(操作、2単語)」、「CDの音が飛ぶような感じになる。(現象、1単語)」、「もともと車についていたオーディオではないが、(節、1単語)」、及び「非純正オーディオの故障もディーラーで見てもらえるか?(要望・意見・質問、3単語)」の各部分に分割され、部分毎に重要単語の数がカウントされる。( )内は、どの事項に対応するルールに一致して分割されたか、または節による分割か、及び各部分に含まれる重要単語数を示す。なお、同図中の下線部分が重要単語に相当する。これにより、含まれる重要単語の数が最も多い「非純正オーディオの故障もディーラーで見てもらえるか?」が重要部分として抽出される。
【0037】
仮に、事項分割部24による「状況」、「操作」、「現象」、及び「要望・意見・質問」に関する事項毎の分割を行わず、文の分割のみで重要部分を抽出した場合には、「オーディオの件で電話した。(1単語)」、「CD再生時にオーディオの音量を変えるとCDの音が飛ぶような感じになる。(4単語)」、「もともと車についていたオーディオではないが、非純正オーディオの故障もディーラーで見てもらえるか?(4単語)」となる。重要単語数が同率1位の文の中からランダムまたは所定のルールに従って1文を選択した場合に、「もともと車に・・・見てもらえるか?」が選択されると、「もともと車についていたオーディオではないが、」という付随する状況もまとめて選択されてしまう。
【0038】
一方、上記のように、事項分割部24で各部分に分割した上で、重要部分を抽出した場合には、「非純正オーディオの故障もディーラーで見てもらえるか?」という核の部分だけが選択でき、付随する情報の部分は、重要部分から削除することができる。また、単純に入力文を細かく分割するのではなく、「状況」、「操作」、「現象」、及び「要望・意見・質問」に関する事項毎に分割することで、意味を成さない部分に分割されることを回避して、要約文を作成することが可能な部分が抽出されるようになる。
【0039】
要約文生成部30は、重要部分抽出部28で抽出された重要部分を用いて、要約文を生成する。具体的には、重要部分の終端が述部になっている場合には、重要部分そのものを要約文とすることができる。重要部分の終端が述部になっていない場合には、重要部分から続く文末までを入力文から取得して、重要部分に連接したり、重要部分に応じた述部を生成して連接したり、重要部分の終端を終止形に変形したりすることにより、要約文を生成する。図5の例では、抽出された重要部分が「非純正オーディオの故障もディーラーで見てもらえるか?」であり、重要部分の終端が述部となっているため、この重要部分をそのまま要約文として出力する。
【0040】
次に、図6を参照して、第1の実施の形態の要約文生成装置10のコンピュータ20で実行される要約文生成処理ルーチンについて説明する。
【0041】
ステップ100で、入力文であるテキストデータを取得し、次に、ステップ102で、入力文を形態素解析し、さらに、節分割ルール(「動詞[自立,一般]+自立語以外の単語N個連接+文節区切り」)に従って、入力文を節に分割する。
【0042】
次に、ステップ104で、上記ステップ102で分割された各節を、例えば、図3に示すような事項分割ルールに従って、「状況」、「操作」、「現象」、及び「要望・意見・質問」の各々に該当する部分毎に分割する。
【0043】
次に、ステップ106で、重要単語辞書26を参照して、上記ステップ104で分割された部分毎に、重要単語が何個含まれているかをカウントし、重要単語が最も多く含まれる部分を重要部分として抽出する。
【0044】
次に、ステップ108で、上記ステップ106で抽出した重要部分の終端が述部になっている場合には、重要部分そのものを要約文とし、重要部分の終端が述部になっていない場合には、重要部分から続く文末までを入力文から取得して、重要部分に連接したり、重要部分に応じた述部を生成して連接したり、重要部分の終端を終止形に変形したりすることにより、要約文を生成して、生成した要約文を出力して、処理を終了する。
【0045】
以上説明したように、第1の実施の形態の要約文生成装置によれば、入力文を「状況」、「操作」、「現象」、及び「要望・意見・質問」の各々に該当する部分毎に分割した上で、各部分に含まれる重要単語をカウントして重要部分を抽出することにより、要約文を作成することが可能な部分であって、付随的情報を示す部分を削除した本質的部分が重要部分として抽出されるため、車両及び車両の付属品の使用に関する事項を含む入力文から、本質となる部分を抽出した要約文を生成することができる。
【0046】
なお、第1の実施の形態では、上記(1)式に示すように、各部分に含まれる重要単語の数が最大の部分を重要部分として抽出する場合について説明したが、抽出する重要部分は1つに限定されるものではない。例えば、所定の閾値を定めておき、含まれる重要単語がその閾値以上の部分を複数選択するようにしてもよい。例えば、上記の「オーディオの件で電話した。・・・見てもらえるか?」の入力文の例で、閾値を”2”とすると、図7に示すように、重要部分として、「オーディオの音量を変えると」及び「非純正オーディオの故障もディーラーで見てもらえるか?」の2つが抽出される。そして、要約文生成部30で、各重要部分について述部を連接する等の処理を行って要約文を生成する。例えば、重要部分「オーディオの音量を変えると」については、終端が述部になっていないため、入力文から、「オーディオの音量を変えると」に続く箇所から文末まで(「CDの音が飛ぶような感じになる。」)を取得し、重要部分に連接して、「オーディオの音量を変えるとCDの音が飛ぶような感じになる。」を要約文(1)として生成する。重要部分「非純正オーディオの故障もディーラーで見てもらえるか?」は、終端が述部になっているため、そのまま要約文(2)とし、要約文(1)と共に要約文として出力する。
【0047】
また、第1の実施の形態では、各部分に含まれる重要単語の数のみで重要部分を抽出する際場合について説明したが、各部分に含まれる重要単語の数と、各部分が示す事項に応じた重み係数との積に基づいて、重要部分を抽出するようにしてもよい。この場合、重要部分の選択式は、下記(2)式で表される。
【0048】
重要単語=argmax{(Σ重要単語)×重み係数} ・・・(2)
また、この場合、事項分割部24で各部分に分割する際には、分割された各部分には、「状況」、「操作」、「現象」、及び「要望・意見・質問」のいずれの分割ルールに一致したかを示すラベルを付与する。いずれの事項分割ルールにも該当せず、節で分割された箇所については、「その他」のラベルを付与する。そして、例えば、重み係数を「状況=重み3」、「操作=重み1」、「現象=重み4」、「要望・意見・質問=重み1」、「その他=重み1」と定めた場合、上記の入力文からは、図8に示すように、「CDの音が飛ぶような感じになる。」が重要部分として抽出される。このように、各部分が示す事項に応じた重み付けを行うことで、優先させたい事項に応じて抽出された重要部分を用いた要約文を生成することができる。
【0049】
また、第1の実施の形態では、重要単語辞書を1つのみ定めておく場合について説明したが、「状況」、「操作」、「現象」、及び「要望・意見・質問」の事項毎に重要単語辞書を定めておいてもよい。この場合、部分毎に重要単語の数をカウントする際には、その部分が「状況」であれば、「状況」の重要単語辞書を参照して、重要単語の数をカウントするようにするとよい。
【0050】
また、第1の実施の形態では、入力文を節に分割した上で、事項分割ルールに従って各部分に分割する場合について説明したが、必ずしも節に分割する必要はない。入力文を直接事項分割ルールで分割してもよいし、事項分割ルールでの分割と句読点での分割とを組み合わせるなどして、各部分に分割してもよい。
【0051】
次に、第2の実施の形態について説明する。なお、第1の実施の形態の要約文生成装置10と同様の構成については、同一または対応する符号を付して詳細な説明は省略する。
【0052】
第2の実施の形態に係る要約文生成装置210は、要約文生成装置210全体の制御を司るCPU、後述する要約文生成処理ルーチンのプログラム等を記憶した記憶媒体としてのROM、ワークエリアとしてデータを一時格納するRAM、及びこれらを接続するバスを含むコンピュータ220で構成することができる。
【0053】
このコンピュータ220をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図9に示すように、「要望・意見・質問」に関する事項を含む文か否かを判別する文タイプ判別部32と、「要望・意見・質問」に関する事項を含む文以外の文を形態素解析する形態素解析部222と、重要単語辞書26を参照して、「要望・意見・質問」に関する事項を含む文以外の文から重要文を抽出する重要文抽出部228と、事項解析モデル34に基づいて重要文を分解する事項分割部224と、要約文生成部230と、を含んだ構成で表すことができる。
【0054】
文タイプ判別部32は、予め定めた判別ルールに従って、「要望・意見・質問」に関する事項を含む文をフィルタリングする。例えば、「〜か?=質問」、「〜ほしい=要望」、「〜たい=要望」、「〜思う=意見」のような文末表現を判別ルールとして定めておく。そして、入力された文の文末と判別ルールとを照合して、各文が「要望・意見・質問」に関する事項を含む文か否かを判別し、「要望・意見・質問」に関する事項を含む文は、そのまま出力し、それ以外の文は、後段の処理へ出力する。
【0055】
例えば、「オーディオの件で電話した。CD再生時にオーディオの音量を変えるとCDの音が飛ぶような感じになる。もともと車についていたオーディオではないが、非純正オーディオの故障もディーラーで見てもらえるか?」という入力文からは、「もともと車についていたオーディオではないが、非純正オーディオの故障もディーラーで見てもらえるか?」という文が「質問」に関する事項を含む文であると判別される。
【0056】
重要文抽出部228は、文タイプ判別部32で「要望・意見・質問」に関する事項を含む文ではないと判別された各文に、重要単語辞書26に登録されている重要単語が何個含まれているかをカウントし、重要単語が最も多く含まれる文を重要文として抽出する。上記の入力文の場合、「オーディオの件で電話した。(1単語)」及び「CD再生時にオーディオの音量を変えるとCDの音が飛ぶような感じになる。(4単語)」となり、「CD再生時に・・・音が飛ぶような感じになる。」が重要文として抽出される。
【0057】
事項解析モデル34は、重要文抽出部228で抽出された重要文の各形態素(単語)が「区切りとなるかどうか」及び「その区切られた部分のクラスが何になるか」を同時に判別するためのモデルである。ここでは、クラスとして、図10に示すように、第1の実施の形態で述べた各事項(「状況」、「操作」及び「現象」)をより詳細にした「時・状況」、「車両状況」、「操作」、「現象」を用いる。事項解析モデル34は、図11に示すように、車両及び車両の付属品の使用について記載されたテキストに、上記のクラスを示すラベルを付与した学習用データを学習することにより生成される。学習には、ラベルと長さとを両方同時に説く手法として周知のCRF(Conditional Random Fields)を用いる。学習用データの特徴量としては、(1)単語の見出し語、品詞、活用型等の形態素情報、(2)文節区切りとなっているかどうかを示す文節情報、(3)超えて修飾する係り受けがあるかどうかを示す係り受け情報等を用いることができる。上記(3)の「超えて修飾する係り受け」とは、例えば、単語列「A B C」の「B」について、「B」の前の「A」の係り先が、「B」の後ろに存在する「C」となっているような場合を、超えて修飾する係り受けあり、とする。
【0058】
事項分割部224は、事項解析モデル34を用いて、重要文抽出部228で抽出された重要文を、「時・状況」、「車両状況」、「操作」、「現象」の各々に該当する部分毎に分割する。事項分割部224による解析のイメージは、図12に示すように、「区切りとなるかどうか」及び「その区切られた部分のクラスが何になるか」を形態素毎に判別しながら解析を進めるものである。例えば、「平坦/路/に/おいて/進入/速度」という形態素列に対して、「路」という単語の後ろに区切りがくるかどうか、そのクラスが何になるかを判別する。次に、「に」という単語の後ろに区切りがくるかどうか、そのクラスが何になるかを判別する。さらに、「おいて」という単語の後ろに区切りがくるかどうか、そのクラスが何になるかを判別する。
【0059】
なお、判別の単位を、形態素ではなく文節単位としてもよい。文節を単位とすると、「平坦路において」、「進入速度」、「50〜60km/hで」という文節の単位毎に、「区切りとなるかどうか」及び「その区切られた部分のクラスが何になるか」を判別する。
【0060】
ここでは、重要文「CD再生時にオーディオの音量を変えるとCDの音が飛ぶような感じになる。」が、「CD再生時に(時・状況)」、「オーディオの音量を変えると(操作)」、「CDの音が飛ぶような感じになる。(現象)」の各部分に分割される。
【0061】
要約文生成部230は、事項分割部224の解析結果を受けて、簡潔な要約文を生成する。例えば、上記のクラスについて、「現象」>「時・状況」>「車両状況」>「操作」の順に優先順位を定め、優先順位が高い順に、そのクラスが割り当てられた部分が重要単語を含むか否かを判定し、重要単語を含む場合にはその部分からガ格及び述語を抽出して要約文を生成する。例えば、「CDの音が飛ぶような感じになる」からは、「CDの音が飛ぶ」という簡潔な要約文が生成される。重要単語を含まない場合には、次に優先順位が高いクラスについて同様に重要単語の有無を判定して要約文を生成する。
【0062】
また、特に、「現象」に関する事項を重要事項と位置づけて、「現象」に該当する部分が重要単語を含まない場合でも、他の「時・状況」、「車両状況」、「操作」に該当する部分のうち、重要単語を含む部分と、「現象」に該当する部分とを用いて、要約文を作成するようにしてもよい。なお、ガ格及び述語が抽出できない場合には、選択した部分の全文を要約文として出力する。なお、文タイプ判別部32でフィルタリングされた「要望・意見・質問」に関する事項を含む文をあわせて出力するようにしてもよい。
【0063】
図13に、各部の処理結果の一例を示す。
【0064】
次に、図14を参照して、第2の実施の形態の要約文生成装置210のコンピュータ220で実行される要約文生成処理ルーチンについて説明する。
【0065】
ステップ100で、入力文であるテキストデータを取得し、次に、ステップ200で、予め定めた判別ルールに従って、「要望・意見・質問」に関する事項を含む文をフィルタリングする。次に、ステップ202で、上記ステップ200で、「要望・意見・質問」に関する事項を含む文ではないと判別された各文を形態素解析する。
【0066】
次に、ステップ204で、上記ステップ202の形態素解析結果を用いて、各文に重要単語辞書26に登録されている重要単語が何個含まれているかをカウントし、重要単語が最も多く含まれる文を重要文として抽出する。次に、ステップ206で、上記ステップ204で抽出された重要文を、事項解析モデル34を用いて、「時・状況」、「車両状況」、「操作」、「現象」の各々に該当する部分毎に分割する。
【0067】
次に、ステップ208で、上記ステップ206で解析結果を受けて、「現象」に該当する部分が存在するか否かを判定する。存在する場合には、ステップ209へ移行し、存在しない場合には、ステップ226へ移行する。
【0068】
ステップ209では、重要単語辞書26を参照して、「現象」に該当する部分が重要単語を含むか否かを判定する。含む場合には、ステップ212へ移行し、「現象」に該当する部分からガ格及び述語を抽出して、要約文を生成する。一方、「現象」に該当する部分が重要単語を含まない場合には、ステップ214へ移行する。
【0069】
ステップ214では、「時・状況」に該当する部分が重要単語を含むか否かを判定する。含む場合には、ステップ216へ移行し、「時・状況」及び「現象」に該当する部分から要約文を生成する。「時・状況」に該当する部分が重要単語を含まない場合には、ステップ218へ移行する。
【0070】
ステップ218では、「車両状況」に該当する部分が重要単語を含むか否かを判定する。含む場合には、ステップ219へ移行し、「車両状況」及び「現象」に該当する部分から要約文を生成する。「車両状況」に該当する部分が重要単語を含まない場合には、ステップ221へ移行する。
【0071】
ステップ221では、「操作」に該当する部分が重要単語を含むか否かを判定する。含む場合には、ステップ223へ移行し、「操作」及び「現象」に該当する部分から要約文を生成する。「操作」に該当する部分が重要単語を含まない場合には、ステップ226へ移行して、重要文全体から要約文を生成して、生成した要約文及び上記ステップ202で判別した「要望・意見・質問」に関する事項を含む文を出力して、処理を終了する。
【0072】
以上説明したように、第2の実施の形態の要約文生成装置によれば、「要望・意見・質問」の各々に該当する文をフィルタリングし、その他の文から重要文を抽出して、重要文を「状況」、「操作」及び「現象」に該当する部分に分割し、各部分が重要単語を含むか否かに基づいて要約文を生成するため、車両及び車両の付属品の使用に関する事項を含む入力文から、本質となる部分を抽出した要約文を生成することができる。
【0073】
なお、第2の実施の形態では、重要文の事項解析結果に基づいて、各部分が示す事項に基づく優先度順に、その部分を用いて要約文を生成する場合について説明したが、各部分の中で、最も多く重要単語を含む部分を選択して、要約文を生成するようにしてもよい。この場合も、「現象」に関する事項を重要事項と位置づけて、「現象」に該当する部分と、その他の部分のうち重要単語を最も多く含む部分とを抽出して、要約文を生成するようにしてもよい。
【0074】
また、第2の実施の形態では、重要単語辞書を1つのみ定めておく場合について説明したが、「状況」、「操作」、及び「現象」の事項毎に重要単語辞書を定めておいてもよい。この場合、部分毎に重要単語の有無を判定する際には、その部分が「状況」であれば、「状況」の重要単語辞書を参照して、重要単語の有無を判定するようにするとよい。
【0075】
また、第1の実施の形態では、事項分割ルールに従って、各節を各事項に該当する部分に分割する場合について、第2の実施の形態では、事項解析モデルを用いて、重要文を各事項に該当する部分に分割する場合について説明したが、第1の実施の形態において、第2の実施の形態と同様に事項解析モデルを用いてもよいし、第2の実施の形態において、第1の実施の形態と同様に事項分割ルールを適用してもよい。
【0076】
また、第1の実施の形態では、重要部分に述部を連接するなどして要約文を生成する場合について、第2の実施の形態では、選択された部分からガ格及び述語を抽出して要約文を生成する場合について説明したが、第1の実施の形態において、第2の実施の形態と同様にガ格及び述語を抽出して要約文を生成してもよいし、第2の実施の形態において、第1の実施の形態と同様に重要部分に述部を連接するなどして要約文を生成してもよい。また、いずれの実施の形態においても、重要部分を含んだ要約文を生成すればよく、要約文の生成の手法は、これに限定されない。
【0077】
また、上記実施の形態では、機器として車両に適用した場合について説明したが、これに限定されない。他の機器に適用した場合には、その機器に対応した重要単語を重要単語辞書に登録しておけばよい。
【符号の説明】
【0078】
10、210 要約文生成装置
20、220 コンピュータ
22 形態素節分割部
24 事項分割部
26 重要単語辞書
28 重要部分抽出部
30、230 要約文生成部
32 文タイプ判別部
34 事項解析モデル
222 形態素解析部
228 重要文抽出部

【特許請求の範囲】
【請求項1】
機器の使用に関する事項を含むテキストを、状況に関する事項、操作に関する事項、現象に関する事項、並びに要望、意見及び質問に関する事項の各々に該当する部分毎に分割する分割手段と、
前記分割手段により分割された各部分に含まれる予め定めた重要単語の数に基づいて、重要部分を抽出する抽出手段と、
前記抽出手段により抽出された重要部分の終端に述部を連接するか、該重要部分の終端を終止形に変形するか、または重要部分からガ格及び述語を抽出して要約文を生成する生成手段と、
を含む要約文生成装置。
【請求項2】
前記抽出手段は、前記重要単語の数と、各部分が示す事項に応じた重みとの積に基づいて、前記重要部分を抽出する請求項1記載の要約文生成装置。
【請求項3】
前記重要単語は、前記事項毎に予め定められ、
前記抽出手段は、前記分割手段により分割された部分に含まれる該部分に対応する事項に応じた重要単語の数に基づいて、前記重要部分を抽出する
請求項1または請求項2記載の要約文生成装置。
【請求項4】
機器の使用に関する事項を含むテキストから、要望、意見及び質問に関する事項を含む文を判別する判別手段と、
前記判別手段により前記要望、意見及び質問に関する事項を含む文であると判別されなかった文の各々に含まれる予め定めた重要単語の数に基づいて、重要文を抽出する抽出手段と、
前記抽出手段により抽出された重要文を、状況に関する事項、操作に関する事項、及び現象に関する事項の各々に該当する部分毎に分割する分割手段と、
前記分割手段により分割された部分が示す事項、及び該部分が重要単語を含むか否かに基づいて少なくとも1つの部分を選択し、選択された部分の終端に述部を連接するか、該部分の終端を終止形に変形するか、または該部分からガ格及び述語を抽出して要約文を生成する生成手段と、
を含む要約文生成装置。
【請求項5】
前記生成手段は、前記重要文が前記現象に関する事項に該当する部分を含む場合において、前記現象に関する事項に該当する部分が重要単語を含む場合には、該現象に関する事項に該当する部分を用いて要約文を生成し、前記現象に関する事項に該当する部分が重要単語を含まない場合には、前記状況に関する事項、及び前記操作に関する事項のうち、予め定めた優先度が高い事項に該当する部分、または各部分に含まれる重要単語の数が多い方の部分と、前記現象に関する事項に該当する部分とを用いて要約文を生成する請求項4記載の要約文生成装置。
【請求項6】
前記重要単語は、前記事項毎に予め定められ、
前記生成手段は、前記分割手段により分割された部分に該部分に対応する事項に応じた重要単語を含むか否かを判定する
請求項4または請求項5記載の要約文生成装置。
【請求項7】
前記分割手段は、予め定めたキーワード、または該キーワードと品詞との組み合わせで表されるルールに従って、前記テキストを分割するか、または、各部分がいずれの事項に該当するかが既知の学習用テキストを用いて学習された、テキストの分割位置及び分割された各部分が示す事項を判別するための判別モデルを用いて、前記テキストを分割する請求項1〜請求項6のいずれか1項記載の要約文生成装置。
【請求項8】
前記分割手段は、状況に関する内容をさらに、時、前記機器の状況、及び前記機器以外の状況に分割し、前記現象に関する内容をさらに、前記機器の現象、及び前記機器以外の現象に分割する請求項1〜請求項7のいずれか1項記載の要約文生成装置。
【請求項9】
前記機器を車両とし、
前記重要単語は、前記車車両、該車両の部品、付属機器、及びサービスに関する単語を含む
請求項1〜請求項8のいずれか1項記載の要約文生成装置。
【請求項10】
コンピュータを、
機器の使用に関する事項を含むテキストを、状況に関する事項、操作に関する事項、現象に関する事項、並びに要望、意見及び質問に関する事項の各々に該当する部分毎に分割する分割手段、
前記分割手段により分割された各部分に含まれる予め定めた重要単語の数に基づいて、重要部分を抽出する抽出手段、及び
前記抽出手段により抽出された重要部分の終端に述部を連接するか、該重要部分の終端を終止形に変形するか、または重要部分からガ格及び述語を抽出して要約文を生成する生成手段
として機能させるための要約文生成プログラム。
【請求項11】
コンピュータを、
機器の使用に関する事項を含むテキストから、要望、意見及び質問に関する事項を含む文を判別する判別手段、
前記判別手段により前記要望、意見及び質問に関する事項を含む文であると判別されなかった文の各々に含まれる予め定めた重要単語の数に基づいて、重要文を抽出する抽出手段、
前記抽出手段により抽出された重要文を、状況に関する事項、操作に関する事項、及び現象に関する事項の各々に該当する部分毎に分割する分割手段、及び
前記分割手段により分割された部分が示す事項、及び該部分が重要単語を含むか否かに基づいて少なくとも1つの部分を選択し、選択された部分の終端に述部を連接するか、該部分の終端を終止形に変形するか、または該部分からガ格及び述語を抽出して要約文を生成する生成手段
として機能させるための要約文生成プログラム。
【請求項12】
コンピュータを、請求項1〜請求項9のいずれか1項記載の要約文生成装置を構成する各手段として機能させるための要約文生成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2012−203460(P2012−203460A)
【公開日】平成24年10月22日(2012.10.22)
【国際特許分類】
【出願番号】特願2011−64798(P2011−64798)
【出願日】平成23年3月23日(2011.3.23)
【出願人】(000003609)株式会社豊田中央研究所 (4,200)
【Fターム(参考)】