説明

質問応答システム、質疑応答方法および質疑応答プログラム

【課題】 精度良く質問タイプを特定することによって、すなわち質問タイプ検出の結果を情報検索に利用し情報検索の精度を、情報検索結果を質問タイプ検出に利用し、質問タイプを特定する精度を、それぞれ向上させることによって回答の精度を高めることができる質問応答システムを提供する。
【解決手段】 質問応答システム100は、入力された質問文を解析し解析情報を出力する質問解析手段110と、解析情報に基づき情報源130に対し情報の検索を行う情報検索手段120と、解析情報に基づき質問文のタイプを検出する質問タイプ検出手段140と、情報検索結果または質問タイプ検出結果に基づき、質問タイプ検出手段140または情報検索手段120のフィードバック処理を指示するフィードバック制御手段200と、フィードバック処理された情報検索結果または質問タイプ検出結果に基づき質問文の回答候補を抽出する回答抽出手段150とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ等の電子機器を用いた自然言語処理技術に係わり、特に、ユーザから入力された質問に対する回答を抽出する質問応答システム、質疑応答方法および質疑応答プログラムに関する。
【背景技術】
【0002】
質問応答システムは、例えば「2004年にオリンピックが開催された都市はどこですか?」を入力すると、「アテネ」を出力するものである。つまり自然言語による質問文を入力として回答そのものを出力するシステムを指す。一般に質問応答システムの典型的なシステムは、大きく質問解析部、情報検索部、回答抽出および選択部から構成される。以降、各部分について詳述する。
【0003】
まず質問解析部では、質問文がどのようなタイプの質問なのかを判定する。例えば人名についての質問、場所についての質問、数量についての質問、日時についての質問などを判定する。主な方法としては、人手で記述した判定ルールを用いる方法と機械学習アルゴリズムで判定する方法に分類できる。
【0004】
情報検索部では、質問文中のキーワードを抽出し、検索式を生成し、回答を含みそうな文書を新聞コーパスやインターネット等の情報源から検索する。検索式では、キーワードのAND(アンド)を検索式とするのが基本とされている。
【0005】
回答抽出および選択部では、情報検索部により得られた検索結果文書から回答となり得る固有表現(回答候補)を抽出する。通常、検索結果文書から抽出された固有表現から最も確からしいと判定された回答候補を選択する。回答候補であるかどうかの適切さの評価の方法は、質問解析部と同様に、人手で記述した判定ルールを用いて計算する方法と機械学習アルゴリズムを用いて計算する方法に分類される。
【0006】
質問応答システムの詳細については、例えば非特許文献1およびその文献にて引用された文献に記載されている。図4に従来の質疑応答システムの一構成例を示す。質疑応答システム10は、コンピュータ、コンピュータシステムによる自然言語処理技術を用いて行われる。同システム10は、入力された質問文からキーワードの抽出等を行う質問解析手段12と、抽出されたキーワードからアンド検索式等を作成し、インターネット等の情報源16から情報を検索する情報検索手段14と、抽出されたキーワードから質問タイプの検出および判定を行う質問タイプ検出手段18と、検出された質問タイプに基づき検索された情報から質問に対する回答を抽出する回答抽出手段20とを有している。
【0007】
このような質問応答システムの代表例としては、例えば、特許文献1から4に記載されている質問応答システムが挙げられる。特許文献1の質問応答システムでは、質問解析部が質問文から検索集合と質問タイプの判定を行い、検索結果と質問タイプにしたがって情報検索部が検索対象文書を検索し、得られた検索結果文章から回答抽出部が質問文に対する回答を抽出する。
【0008】
特許文献2の質問応答システムでは、抽出されたキーワードに人名、地名、動詞概念等の質問タイプを付与し、質問タイプの分類(主要語か否か)によって検索結果を分類し、所望の回答を得ることを目的にしている。
【0009】
特許文献3の質問応答システムでは、質問タイプを特徴付ける単語の属性から素性を作成し、機械学習アルゴリズムの一つであるSupport Vecter Machineを利用して、高精度な質問タイプの特定を提供する。
【0010】
特許文献4の質問応答システムでは、インターネット上の情報を用いる事典システムであって、ユーザが入力する用語から、関連するウェブページを検索し、得られたページより用語説明部分を抽出し、抽出された用語説明文を整理し、事典情報を生成する機能を提供する。
【0011】
【非特許文献1】池野篤司、「質問応答システム−情報検索と情報抽出の頂点へ−」、沖テクニカルレビュー、2004年、Vol.71、No.2
【特許文献1】特開2002−132811号公報
【特許文献2】特開2004−139553号公報
【特許文献3】特開2004−94521号公報
【特許文献4】特開2003−85181号公報
【発明の開示】
【発明が解決しようとする課題】
【0012】
前記特許文献1および2は、質問文を解析し、質問タイプを抽出し、情報検索を行い、検索結果文章中から回答候補を選択する質問応答システムである。しかしながら、これらの質問応答システムでは、質問タイプと所望する回答として得たいタイプ(回答タイプ)が、必ずしも一致しない場合がある。
【0013】
例えば、以下の質問文(1)を、質問タイプの判定が可能な従来の質問応答システムに入力したとする。
質問文(1)「2004年にオリンピックが開催された都市はどこですか?」
【0014】
この質問文(1)に対して、従来の質問応答システムが解析すると、疑問詞「どこ」から、質問タイプは「場所に関する疑問」と特定される。質問文(1)の場合、質問タイプと回答タイプが一致しており、ユーザが所望する回答を得る可能性が高い。
【0015】
また、以下の質問文(2)を、質問タイプの判定が可能な従来の質問応答システムに入力したとする。
質問文(2)「ハイブリット車、プリウスを開発したのは、どこですか?」
【0016】
この質問文(2)に対して、質問文(1)と同様に従来の質問応答システムが質問文を解析すると、「どこ」が疑問詞であり、質問タイプは、「場所に関する疑問」と特定される。本来ならば、質問タイプは、「組織名に関する疑問」として得たいところであるが、従来の質問応答システムでは、質問文(2)のような質問文に対して、質問タイプと回答タイプが一致しないことがある。そのためユーザが所望する回答を得ることができず、質問応答システムの精度を向上させることができないという課題がある。
【0017】
特許文献3は、あらかじめ詳細な機械学習を行っておく必要があり、予測していない質問文には対応できないため、頑健なシステムではない。特許文献4は、カテゴリーがあらかじめ専門用語辞書等を用いて定義され、単語の出現確率(頻度)を用いて、キーワードが属している分野に特定される質問応答システムである。しかしながら、情報源が専門分野ごとに分類されたことにより、さらに精細になったものの質問タイプの特定で誤ると専門辞書を用いる方法もまた、特許文献1から3までの方法と同様、回答の精度を下げてしまう要因となり得る。
【0018】
さらに質問解析手段→情報検索手段→回答抽出手段という処理では、回答タイプを利用した情報検索の効率化を図れないといった課題があり、質問解析手段→質問タイプ検出手段→回答抽出手段という処理では、1回質問タイプを決定すると、リカバリーすることができないといった課題がある。
【0019】
本発明は、以上の問題点を鑑み、従来の質問応答システムの処理過程を改善することによって、さまざま質問文に対応することができる頑健なシステムを目指し、より精度を高く質問タイプを特定することによって、回答の精度を高める質問応答システム、質問応答方法および質問応答プログラムを提供することを目的とする。
【課題を解決するための手段】
【0020】
情報検索より質問タイプの特定を先に実施した場合、質問タイプから情報源(例えば、医学データベース等)を特定することが可能な場合がある。質問タイプの特定を先に実施した場合に情報検索に役立つ情報を入手できる質問文がある。
【0021】
また、上記した質問文(2)において、質問タイプの特定よりも情報検索を先に実施した場合、「ハイブリット車」、「プリウス」といったキーワードから、「場所」よりも「組織名」に関連する単語がパッセージに多く表れる。このように、情報検索を先に実施した場合に回答タイプの決定に役立つ情報を入手できる質問文がある。
【0022】
このように情報検索を行う前に質問タイプを特定すると、所望する回答がある情報源を検索できる場合がある。反対に質問タイプを特定する前に情報検索を施すと、所望する回答の回答タイプを得られる場合がある。本発明では、質問タイプを特定する質問タイプ検出手段と情報検索手段とにおいて、それぞれの手段で欠けている情報を照合し参照する、つまりフィードバック処理をさせることによって、高い精度で回答を得ることが可能となる。
【0023】
本発明は、上記の課題を解決するためになされたものであり、質問文が与えられるごとにキーワードを抽出し、質問タイプ検出手段で質問タイプを適切に特定することができない場合、情報検索手段の情報検索結果を参照し補完することによって、適切な質問タイプを選択することができる。また、質問文が与えられるごとにキーワードを抽出し、情報検索手段で情報源を特定することができない場合、質問タイプ検出手段の情報を参照し補完することによって、適切な情報源を選択することができる。
【0024】
本発明に係る質問応答システムは、入力された質問文を解析し、質問文の解析情報を提供する質問解析手段と、解析情報に基づき情報源に対し情報の検索を行い、情報検索結果を出力する情報検索手段と、解析情報に基づき入力された質問文のタイプを検出し、質問タイプ検出結果を出力する質問タイプ検出手段と、情報検索結果または質問タイプ検出結果に基づき、質問タイプ検出手段または情報検索手段のフィードバック処理を指示するフィードバック制御手段と、フィードバック処理された情報検索結果または質問タイプ検出結果に基づき入力された質問文の回答候補を抽出する回答抽出手段とを有する。本発明によれば、フィードバック制御手段により情報検出手段または質問タイプ検出手段の結果を利用して互いの精度を補完できるようにしたので、回答抽出精度を向上させることができる。
【0025】
好ましくは、質問応答システムは、入力された質問文に形態素解析および構文解析を施し、回答選択の手がかりとなる名詞または形容詞などのキーワードを抽出する質問解析手段と、質問解析手段により保持されたキーワードから検索式を生成し、コーパスならびにインターネット等の情報源から検索式を用いて検索結果を抽出する情報検索手段と、情報検索手段により保持された検索結果のすべての検索結果詳細文(パッセージ)を抽出し、パッセージに含まれる単語に形態素解析および構文解析を施し、統計手法を用いてパッセージの特徴を解析する検索結果解析手段と、質問解析手段により保持されたキーワードから固有表現を検出し、質問タイプを検出する質問タイプ検出手段と、質問タイプ検出手段により保持された質問文の固有表現から統計手法を用いて質問タイプを特定する質問タイプ検出手段と、情報検索手段により保持された検索結果、および検索結果解析手段により保持された解析結果、ならびに質問タイプ検出手段により保持された質問タイプから、入力された質問文の回答候補を抽出する回答抽出手段とを備える。このような処理を行うことで、情報検索結果による欠点、質問タイプ検索結果による欠点を互いに補完し合うことができ、従来の質問応答システムと比較して、1回の質問入力で、効率よくかつ誤りが少ない精度の高い回答抽出結果を得ることができる。
【0026】
好ましくは、質問タイプ検出手段は、検索結果判定手段からの質問タイプ特定情報に基づき質問タイプの絞込みを行うことができる。これにより、質問タイプ検出手段の精度が向上される。一方、情報検索手段は、質問タイプ判定手段からの質問タイプに基づき情報検索結果の絞込みを行うことができる。これにより、情報検索手段の精度が向上されることになる。
【0027】
好ましくは、検索結果解析手段は、パッセージからキーワードを除いた単語の頻度情報を抽出することにより質問タイプ候補を解析する。検索結果解析手段は、パッセージ中のキーワードとその他の単語のペアの頻度情報を抽出することにより質問タイプ候補を解析するようにしてもよい。さらに検索結果解析手段は、パッセージからキーワードを除いた単語の頻度情報を取得する場合、形態素解析結果を用いて、キーワード以外の単語から出現頻度を算出するようにしてよい。さらに検索結果解析手段は、パッセージからキーワードを除いた単語の頻度情報を取得する場合、形態素解析結果を用いて、キーワード以外の単語のtf/idf(term Frequency/inverse document frequency)値によるキーワード抽出法で算出するようにしてもよい。さらに検索結果解析手段は、パッセージ中のキーワードとその他の単語のペアの頻度情報を取得する場合、形態素解析結果を用いて、パッセージ中のキーワードと共起関係にある単語の頻度を算出するようにしてもよい。さらに検索結果解析手段は、パッセージ中のキーワードとその他の単語のペアの頻度情報を取得する場合、形態素解析結果および構文解析結果を用いて、パッセージ中のキーワードと修飾関係にある単語の出現頻度を算出するようにしてもよい。また、検索結果解析手段は、統計的手法に基づく機械学習アルゴリズムにより、検索結果を解析することも可能である。
【0028】
好ましくは質問タイプ検出手段は、統計的手法に基づく機械学習アルゴリズムにより、固有表現を解析し、質問タイプに分類するようにしてもよい。また、回答抽出手段は、質問文の回答選択において、どのようなタイプ(人名、場所、数量、日時など)で回答すればよいかを判定する項目が記述された定義辞書を有するようにしてもよい。これにより、回答抽出の効率化および精度の向上を図ることができる。
【0029】
さらに本発明に係る質問応答方法およびプログラムは、入力された質問文を解析し、質問文の解析情報を提供する質問解析ステップと、解析情報に基づき情報源に対し情報の検索を行い、情報検索結果を出力する情報検索ステップと、解析情報に基づき入力された質問文のタイプを検出し、質問タイプ検出結果を出力する質問タイプ検出ステップと、情報検索結果または質問タイプ検出結果に基づき、質問タイプ検出ステップまたは情報検索ステップのフィードバック処理を指示するフィードバック制御ステップと、フィードバック処理された情報検索結果および質問タイプ検出結果に基づき入力された質問文の回答候補を抽出する回答抽出ステップとを有する。質問応答プログラムは、例えば記録媒体に記憶され、コンピュータシステムにインストールしたり、ネットワークを通じてサーバなどからコンピュータにダウンロードするものであってもよい。
【発明の効果】
【0030】
以上のように本発明によれば、質問タイプ検出手段の検出結果を情報検索手段に利用することで情報検索の精度を向上させることが可能であり、情報検索手段の情報検索結果を質問タイプ検出手段に利用することで、質問タイプ検出手段の検出精度を向上させることが可能であり、その結果、質問応答システムにおける質問に対する回答抽出精度をより向上させることができる。
【発明を実施するための最良の形態】
【0031】
以下、本発明の質問応答システムの最良の実施の形態について図面を参照し、詳細に説明する。
【実施例】
【0032】
本実施例に係る質問応答システムは、例えばユーザが質問文を入力し、システム側によって回答を提示されるコンピュータシステムによって実現される。もちろん本発明の適用範囲はこのような質問応答システムのみならず、対話システム等にも該当する。また本実施例は、日本語文の入力で説明されるが、もちろん、本発明の適用言語は特定の言語に限定されない。
【0033】
本実施例に係る質問応答システムは、図1に示す典型的な機械学習システムにおいて実施される。同図において、質問応答システム100は、質問解析手段110、情報検索手段120、情報源130、質問タイプ検索手段140、回答抽出手段150、およびフィードバック制御手段200とを含んで構成される。フィードバック制御手段200はさらに、検索結果解析手段210、検索結果判定手段220、フィードバック判定手段230、および質問タイプ判定手段240とを含んでいる。
【0034】
質問解析手段110は、ユーザから入力された質問文に形態素解析および構文解析を施し、回答選択の手がかりとなる名詞または形容詞などのキーワードを抽出する。情報検索手段120は、質問解析手段120により抽出されたキーワードから検索式を作成し、コーパスならびにインターネット等の情報源130から該当する情報を検索する。本実施例の情報検索手段120は、後述するように、質問タイプ判定手段240による質問タイプの判定結果を参照して情報検索結果の絞込みを行う。例えば、質問タイプで特定される専門分野の情報源から情報検索を行ったり、あるいは絞込みを行うことができる。
【0035】
質問タイプ検出手段140は、質問解析手段110により解析されたキーワードから固有表現を検出し、質問タイプを検出する。本実施例の質問タイプ検出手段140は、後述するように、検索結果判定手段220による情報検索の判定結果を参照して質問タイプの絞込みを行ったり、あるいは質問タイプの再検出等を行うことができる。
【0036】
フィードバック制御手段200は、情報検索手段120による検索結果を質問タイプ検出手段140に利用するか、または質問タイプ検出手段140による検出結果を情報検索手段120に利用するかの制御を行う。情報解析手段210は、情報検索手段120により保持された検索結果のすべての検索結果詳細文(以下、パッセージという)を抽出し、パッセージに含まれる単語に形態素解析および構文解析を施し、統計手法を用いてパッセージの特徴を解析し、質問タイプ候補を抽出する。検索結果判定手段220は、検索結果解析手段により解析された質問タイプ候補に基づき情報検索結果に対する質問タイプを特定する。特定された質問タイプ情報は、フィードバック判定手段230によりフィードバックに利用すると判定されたとき、質問タイプ検出手段140へ出力される。
【0037】
質問タイプ判定手段240は、質問タイプ検出手段140により検出された質問タイプ候補から質問タイプの判定を行う。質問タイプ判定手段240による判定結果は、フィードバック判定手段230によりフィードバックに利用すると判定されたとき、情報検索手段120へ出力される。
【0038】
次に、質問文(3)を例に、本実施例に係る質問応答システムの処理過程を図2のフローチャートを参照して説明する。質問文(3)についての処理は、質問タイプ検出手段140による検出結果をフィードバック処理に利用し、情報源を特定させるものである。
質問文(3)「タクシードライバーに出てオスカーを取った俳優は誰ですか?」
【0039】
ユーザによって質問文(3)が入力されると(ステップS101)、質問解析手段110により質問文(3)の形態素解析および構文意味解析が行われ(ステップS102、S103)、そこから名詞、疑問詞等のキーワードが抽出される(ステップS104)。
【0040】
形態素解析は、公知の形態素解析システムを用いて実現することができる。形態素解析システムとは、茶筌(Chasen)など日本語形態素解析システムを指す。茶筌による形態素解析システムについては、例えば、松本裕治、北内啓、山下達雄、平野善隆、松田寛、高岡一馬、浅原 正幸著、日本語形態素解析システム 茶筌 version2.2.1、使用説明書、奈良先端科学技術大学院大学、2000に開示されている。
【0041】
キーワードの抽出では、キーワードを抽出する条件を、情報検索と質問タイプを判定する単語になり得る、名詞と疑問詞に限定する。質問文(3)では、「タクシー」、「ドライバー」、「オスカー」、「俳優」、「誰」がキーワードとして抽出される。形態素解析結果によって名詞が連続する場合には、これを複合名詞と定めキーワードとする処理を施す。この場合、「タクシードライバー」が該当することになる。
【0042】
キーワードが検索されると、これに基づいて情報検索および質問タイプ検出がそれぞれ並行して行われる。先ず、情報検索手段120は、計算機内部に保持するキーワードから検索式を生成し、インターネットや新聞コーパス、もしくは医療分野やスポーツ分野等の専門分野ごとに用意されたデータベースである情報源130を利用して、検索結果文章(パッセージ)を含む検索結果を取得する(ステップS105)。情報検索手段120のルールとして、疑問詞はキーワードになりにくいので、ストップワードとする。一般に、パッセージ検索については、例えば、佐々木裕、磯崎秀樹、鈴木潤、国領弘治、平尾努、加沢秀人、前田英作、“SVMを用いた学習型質問応答システムSAIQA-II”、情報処理学会論文誌、Vol.45、No.2、635−646頁、2004及び当該論文中の引用文献に開示されている。
【0043】
次に、検索結果解析手段210は、情報検索手段120により得られたすべての検索結果のパッセージに形態素解析を施し(ステップS106)、キーワードを除く単語の出現頻度を取得する。出現頻度は、パッセージ集合D(d1、d2、・・・di)のパッセージdごとに形態素解析を施し、パッセージdから単語W(w1、w2、・・・wj)の頻度を計数する。単語Wに、キーワードを含めない。質問文(3)では、検索結果のパッセージ中に含まれる「タクシードライバー」、「オスカー」、「俳優」のキーワードを除いた出現頻度を求める。
【0044】
検索結果判定手段220は、検索解析解析手段210の解析結果から質問タイプの特定を行う(ステップS107)。この判定結果は、フィードバック判定手段230に与えられる。
【0045】
一方、質問タイプ検出手段140は、計算機内部に保持するキーワードに基づき、質問タイプを検出する(ステップS108)。質問タイプを検出するために、人名や組織名等をあらかじめ記述している定義辞書を備えている。定義辞書は、図3に示すように、キーワードと質問タイプとの関係を規定している。質問タイプの検出には、人手で記述した検出ルールを用いる。一般的な質問タイプの検出ルールに関しては、例えば、Na, S., Kang, S., Lee, J.、“POSTECH Question-Answering Experiments at NTCIR-4 QAC”、Working Notes of NTCIR-4 Workshop、361−366頁、2004及び当該論文中の引用文献に開示されている。
【0046】
質問文(3)では、疑問詞「誰」から、定義辞書を用いて、質問タイプ「人名」が検出される。また特徴語判定により、質問文(3)の特徴語が、「俳優」と判定される。ここでは、「誰」を形容している「俳優」が特徴語と判定される。一般的な特徴語の判定については、例えば、上記した佐々木裕等の著書である“SVMを用いた学習型質問応答システムに開示されている。
【0047】
質問タイプが検出されると、次に、質問タイプ判定部240により質問タイプに応じた分野が特定される(ステップS109)。この判定結果は、フィードバック判定手段230に与えられる。
【0048】
次に、フィードバック判定手段230により、情報検索手段120により得られた情報結果または質問タイプ検出手段140により得られた検出結果のいずれかをフィードバック処理に利用するか否かが判定される(ステップS110)。
【0049】
フィードバック判定手段230は、質問タイプ検出手段140の検出結果をフィードバック処理させる場合には、質問タイプ判定手段240の判定結果FB1を情報検索手段120へ与え、フィードバック処理を指示する。反対に、情報検索手段120の検索結果をフィードバック処理させる場合には、検索結果判定手段220その判定結果FB2を質問タイプ検出手段140に与え、フィードバック処理を指示する。情報検索手段120または質問タイプ検出手段140は、この指示に応答してフィードバック処理を実行する(ステップS111)。
【0050】
最後に、フィードバック処理された結果を利用して、回答抽出手段150により質問に対する回答の抽出が行われ、ディスプレイまたは印字として出力される(ステップS112)。
【0051】
検索結果解析手段210により得られた解析結果が質問タイプを特定できる閾値をどれも満たしていない場合、フィードバック判定手段230は、質問タイプを特定することができないと判定する。質問文(3)の場合、検索結果解析手段210により得られた解析結果では、「オスカー」は会社名のパッセージを多く含むため質問タイプが組織名、「タクシードライバー」はタクシー会社やその運転手に関するパッセージを多く含むため質問タイプが組織名や人名、「俳優」は映画(役者)情報のパッセージが多く含まれ質問タイプが人名、とさまざま質問タイプが抽出されてしまう。また閾値は、質問タイプごとに、質問タイプを特定したパッセージ数/情報検索手段120によって得られた全ての検索結果数のような式を使うことによって、閾値(質問タイプ特定の可能性)を算出することができる。
【0052】
一方、フィードバック判定手段230は、質問タイプ判定手段240による判定結果により、質問文(3)における特徴語が、「俳優」であり、類義語辞典から「俳優」=「映画」関連情報という専門分野を特定できるため、インターネット上の情報ではなく、映画(役者)関連情報のデータベースを検索するように、情報検索手段120に指示を出す。
【0053】
フィードバック処理において、情報検索手段120では、映画(役者)関連情報のデータベースを検索対象とし、「俳優」以外のキーワードである「タクシードライバー」ならびに「オスカー」から、文(4)のパッセージを取得する。
文(4) 映画「タクシードライバー」で「オスカー」賞を受賞したロバート・デニーロ。
【0054】
フィードバック処理をした後、回答抽出手段150は、情報検索手段120より得られたパッセージより回答を抽出する。回答抽出手段150は、文(4)を解析し、人名である「ロバート・デニーロ」を回答候補として提示する。人名であるか否かの判定方法として、固有表現抽出システムを用いる。固有表現抽出システムとは、大量のテキスト文書情報に含まれる人名、組織名、地名、数量表現を自動的に判別し、固有表現を抽出するよう設計されたものである。例えば固有表現抽出システムについては、山田 寛康、工藤 拓、松本 裕治、Support Vector Machineを用いた日本語固有表現抽出、情報処理、Vol.43、No.01−005、2002及び当該論文中の引用文献に開示されている。
【0055】
次に、情報検索手段により得られた検索結果をフィードバック処理に利用する例を説明する。ここでは、質問文(5)を用いて、質問応答システムの処理過程を説明する。
質問文(5)「松坂・中村・小笠原がいたのはどこですか?」
【0056】
質問解析手段110は、入力された質問文(5)に形態素解析システムを用いて形態素解析を施し、キーワードを抽出する。質問文(5)では、「松坂」、「中村」、「小笠原」、「どこ」が抽出されることになる。
【0057】
情報検索手段120によって、質問解析手段110で抽出されたキーワードを検索式として、パッセージ検索を用いて検索する。検索結果解析手段210は、情報検索手段120で取得されたパッセージを解析する。この解析ステップを詳述する。
【0058】
(ステップ1)
出現頻度は、パッセージ集合D(d1、d2、・・・di)のパッセージdごとに形態素解析を施し、パッセージdから単語W(w1、w2、・・・wj)の頻度を計数して、取得する。単語Wに、キーワードを含めない。
【0059】
(ステップ2)
頻出単語の上位K種類の単語(Kは予め指定した整数)を取り出し、固有表現抽出システムを用いて、それぞれの単語の固有表現(質問タイプの候補)を抽出する。
【0060】
(ステップ3)
頻出単語の上位K位の単語をもとに質問タイプの候補を決定する。質問タイプの決定方法は、上位K位の単語のうち、同一の質問タイプ候補ごとの出現確率を求める。
【0061】
同一の質問タイプ候補ごとの出現確率は、次式(E)で示される。
Σ(質問タイプが同じ単語の出現頻度数) / (全単語の頻度数)・・・(E)
【0062】
例えば、質問文(5)では、「松坂」は岐阜県多治見市松坂町、「中村」は高知県中村市、「小笠原」は東京都小笠原村といった質問タイプ「地名」、または苗字である「人名」に関連する単語が検索結果に多く出現する。ただし、「松坂」「中村」「小笠原」をAND条件で検索式を生成し検索すると、例えば、パッセージに「オールスターゲーム、パ・リーグ選抜選手:投手 松坂(西武)、内野手 中村(近鉄)、小笠原(日ハム)・・」等の文を取得することができる。「地名」、「人名」以外に、「パ・リーグ」「長嶋ジャパン」「プロ野球機構」等、「組織名」に関連する単語がパッセージ中に多く出現する。
【0063】
質問文(5)では、出現確率が最も高い数値を示した質問タイプが「組織名」である。検索結果判定手段220は、情報検索手段210によって得られた解析結果を質問タイプ検出手段140にフィードバックし、質問タイプ検出手段140において、検索結果判定手段220によって判定された結果から、質問文の質問タイプを特定する。
【0064】
質問文(5)では、検索結果判定手段220によって出現確率が最も高い数値を示した質問タイプである「組織名」を質問文(5)の質問タイプと特定する。質問タイプ判定手段240は、質問タイプ検出手段140で検出された質問タイプを回答抽出手段150に出力する。
【0065】
回答抽出手段150は、質問タイプ判定手段240で特定された質問タイプのうち最も出現頻度の高い単語を回答として抽出する。質問文(5)では、質問タイプ「組織名」のうち最も出現頻度の高い単語は、「長嶋ジャパン」であるため、これを回答とする。
【0066】
また、フィードバック判定手段230により、どちらのフィードバック処理を優先させるか否かの判定基準は、質問タイプ判定手段240からの判定結果と検索結果判定手段220の判定結果とを比較し、精度の高い方の結果を、精度の低い方の結果に利用させる。例えば、それぞれの判定結果を、所定のルールに従い、数値化し、数値の高い方の結果をフィードバックに利用することができる。さらに、質問タイプ検出手段140による検索結果が、予め定められた質問タイプに該当する場合には、質問タイプ検出手段140の検出結果を情報検索手段120に利用するようにしてもよい。例えば、質問タイプ検出手段140により、「誰」、「何時」の疑問詞が検出された場合、これらの質問タイプの判定は明瞭であるから、この質問タイプの結果を情報検索手段120において利用するようにする。他方、「どこ」、「どれくらい」、「どのように」、「なぜ」、「何」の疑問詞を含む場合、質問タイプは必ずしも一義的にならないので、この場合には、情報検索手段による検索結果をフィードバック処理に利用するようにしてもよい。また質問文解析において、質問文に対して構文解析を施すことによって得られる文節間の修飾関係から質問タイプを特定してもよい。
【0067】
以上、本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【産業上の利用可能性】
【0068】
本発明に係る質問応答システムは、コンピュータまたはコンピュータシステムを利用した情報検索、情報処理システムにおいて利用される。特に、インターネットやLANなどを介して膨大な情報源から特定の回答を抽出する検索システムにおいても有用である。
【図面の簡単な説明】
【0069】
【図1】本発明の実施例に係る質問応答システムの構成を示すブロック図である。
【図2】質問応答システムの処理を示すフローチャートである。
【図3】定義辞書の一例を示す図である。
【図4】従来の質問応答システムの構成を示すブロック図である。
【符号の説明】
【0070】
100:質問応答システム 110:質問解析手段
120:情報検索手段 130:情報源
140:質問タイプ検出手段 150:回答抽出手段
200:フィードバック制御手段 210:検索結果解析手段
220:検索結果判定手段 230:フィードバック判定手段
240:質問タイプ判定手段

【特許請求の範囲】
【請求項1】
入力された質問文を解析し、質問文の解析情報を提供する質問解析手段と、
解析情報に基づき情報源に対し情報の検索を行い、情報検索結果を出力する情報検索手段と、
解析情報に基づき入力された質問文のタイプを検出し、質問タイプ検出結果を出力する質問タイプ検出手段と、
情報検索結果または質問タイプ検出結果に基づき、質問タイプ検出手段または情報検索手段のフィードバック処理を指示するフィードバック制御手段と、
フィードバック処理された情報検索結果または質問タイプ検出結果に基づき入力された質問文の回答候補を抽出する回答抽出手段と、
を有する質問応答システム。
【請求項2】
前記情報検索手段は、質問タイプ検出結果に基づきフィードバック処理された情報検索結果を出力し、前記質問タイプ検出手段は、情報検索結果に基づきフィードバック処理された質問タイプ検出結果を出力する、請求項1に記載の質問応答システム。
【請求項3】
前記フィードバック制御手段は、情報検索結果と質問タイプ検出結果とを比較し、その比較結果に基づき質問タイプ検出手段または情報検索手段のいずれかのフィードバック処理を指示する、請求項1に記載の質問応答システム。
【請求項4】
前記質問解析手段は、入力された質問文に形態素解析および構文解析を施し、名詞または疑問詞等を含むキーワードを抽出し、
前記情報検索手段は、質問解析手段から得られたキーワードまたは質問タイプ判定手段から得られた人名または組織名等の質問タイプに基づき情報検索結果を出力し、
前記質問タイプ検出手段は、質問解析手段から得られたキーワードまたは検索結果判定手段から得られた質問タイプ特定情報に基づき質問タイプを検出し、
前記フィードバック制御手段は、検索結果解析手段、検索結果判定手段および質問タイプ判定手段とを含み、
検索結果解析手段は、情報検索手段により保持された検索結果から検索結果詳細文章(以下、パッセージという)を抽出し、パッセージに含まれる単語に形態素解析および構文解析を施し、統計手法を用いてパッセージの質問タイプ候補を解析し、
検索結果判定手段は、検索結果解析手段により解析された質問タイプ候補から質問タイプを特定し前記質問タイプ特定情報を出力し、
質問タイプ判定手段は、質問タイプ検出手段の検出結果から質問タイプを判定する、請求項1ないし3いずれか1つに記載の質問応答システム。
【請求項5】
質問タイプ検出手段は、検索結果判定手段からの質問タイプ特定情報に基づき質問タイプの絞込みを行う、請求項4に記載の質問応答システム。
【請求項6】
情報検索手段は、質問タイプ判定手段からの質問タイプに基づき情報検索結果の絞込みを行う、請求項4に記載の質問応答システム。
【請求項7】
検索結果解析手段は、パッセージからキーワードを除いた単語の頻度情報を抽出することにより質問タイプ候補を解析する、請求項4に記載の質問応答システム。
【請求項8】
検索結果解析手段は、パッセージ中のキーワードとその他の単語のペアの頻度情報を抽出することにより質問タイプ候補を解析する、請求項4に記載の質問応答システム。
【請求項9】
検索結果解析手段は、パッセージからキーワードを除いた単語の頻度情報を取得する場合、形態素解析結果を用いて、キーワード以外の単語から出現頻度を算出する、請求項7に記載の質問応答システム。
【請求項10】
検索結果解析手段は、パッセージからキーワードを除いた単語の頻度情報を取得する場合、形態素解析結果を用いて、キーワード以外の単語のtf/idf値を算出する、請求項7に記載の質問応答システム。
【請求項11】
検索結果解析手段は、パッセージ中のキーワードとその他の単語のペアの頻度情報を取得する場合、形態素解析結果を用いて、パッセージ中のキーワードと共起関係にある単語の頻度を算出する、請求項8に記載の質問応答システム。
【請求項12】
検索結果解析手段は、パッセージ中のキーワードとその他の単語のペアの頻度情報を取得する場合、形態素解析結果および構文解析結果を用いて、パッセージ中のキーワードと修飾関係にある単語の出現頻度を算出する、請求項8に記載の質問応答システム。
【請求項13】
検索結果解析手段は、統計的手法に基づく機械学習アルゴリズムにより、検索結果を解析する、請求項4に記載の質問応答システム。
【請求項14】
質問タイプ検出手段は、統計的手法に基づく機械学習アルゴリズムにより、固有表現を解析し、質問タイプに分類する、請求項4に記載の質問応答システム。
【請求項15】
回答抽出手段は、質問文の回答選択において、どのようなタイプ(人名、場所、数量、日時など)で回答すればよいかを判定する項目が記述された定義辞書を有する、請求項4に質問応答システム
【請求項16】
検索結果解析手段は、機械学習アルゴリズムを用いて評価に必要な素性を作成する場合、検索結果手段により得られた検索結果のパッセージ中の単語の頻度情報のうち少なくとも1種類以上の頻度情報を用いる、請求項第4ないし15いずれか1つに記載の質問応答システム。
【請求項17】
入力された質問文を解析し、質問文の解析情報を提供する質問解析ステップと、
解析情報に基づき情報源に対し情報の検索を行い、情報検索結果を出力する情報検索ステップと、
解析情報に基づき入力された質問文のタイプを検出し、質問タイプ検出結果を出力する質問タイプ検出ステップと、
情報検索結果または質問タイプ検出結果に基づき、質問タイプ検出ステップまたは情報検索ステップのフィードバック処理を指示するフィードバック制御ステップと、
フィードバック処理された情報検索結果または質問タイプ検出結果に基づき入力された質問文の回答候補を抽出する回答抽出ステップと、
を有する質問応答方法。
【請求項18】
入力された質問文を解析し、質問文の解析情報を提供する質問解析ステップと、
解析情報に基づき情報源に対し情報の検索を行い、情報検索結果を出力する情報検索ステップと、
解析情報に基づき入力された質問文のタイプを検出し、質問タイプ検出結果を出力する質問タイプ検出ステップと、
情報検索結果または質問タイプ検出結果に基づき、質問タイプ検出ステップまたは情報検索ステップのフィードバック処理を指示するフィードバック制御ステップと、
フィードバック処理された情報検索結果または質問タイプ検出結果に基づき入力された質問文の回答候補を抽出する回答抽出ステップと、
を有する質問応答プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2006−119697(P2006−119697A)
【公開日】平成18年5月11日(2006.5.11)
【国際特許分類】
【出願番号】特願2004−303884(P2004−303884)
【出願日】平成16年10月19日(2004.10.19)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】