説明

情報処理装置及びプログラム

【課題】テキスト文書が正しくない照応解析の結果が得られやすいテキスト文書であるか否かの判別を図る分類器を生成する情報処理装置を提供すること。
【解決手段】標本解析部4は、複数の正解コーパスに対して照応解析を行う。教師データ取得部6は、正解コーパスごとに、該正解コーパスに対して行われた照応解析の精度が所定精度以上であるか否かの判定結果を教師データとして取得する。学習データ取得部8は、正解コーパスごとに、該正解コーパスの内容に基づいて、基準学習項目に対応する特徴量を学習データとして取得する。する。分類器生成部10は、教師データと学習データとに基づいて、第2分類器を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
名詞句の照応解析の手法は、大きく規則作成に基づく解析手法と機械学習に基づく解析手法とがある。例えば、下記非特許文献1には、機械学習に基づく照応解析の手法が紹介されている。
【非特許文献1】飯田 龍、乾 健太郎、松本 祐治、関根 聡、「最尤先行詞候補を用いた日本語名詞句同一指示解析」、情報処理学会論文誌、情報処理学会、2005年3月、第46巻、第3号、p.831−844
【発明の開示】
【発明が解決しようとする課題】
【0003】
本発明は、テキスト文書が正しくない照応解析の結果が得られやすいテキスト文書であるか否かの判別を図る分類器を生成する情報処理装置及びプログラムの提供を、その目的の一つとする。
【課題を解決するための手段】
【0004】
上記課題を解決するために、請求項1の発明に係る情報処理装置は、複数の標本テキスト文書に対して照応解析を行う標本解析手段と、標本テキスト文書ごとに、該標本テキスト文書に対して行われた照応解析の精度を算出する精度算出手段と、標本テキスト文書ごとに、照応解析の精度が予め定められた精度条件を満足するか否かの判定結果を教師データとして取得する教師データ取得手段と、標本テキスト文書ごとに、該標本テキスト文書の内容から、予め定められた学習項目に対応する特徴量を学習データとして抽出する学習データ抽出手段と、前記教師データ取得手段が標本テキスト文書ごとに取得した判定結果と、前記学習データ抽出手段が標本テキスト文書ごとに抽出した特徴量と、に基づいて、分類器を生成する分類器生成手段と、を含むことを特徴とする。
【0005】
また、請求項2の発明は、請求項1の発明に係る情報処理装置において、前記学習項目は、少なくとも、「主辞となっている名詞を修飾する文字列群の意味が類似しているか否か」、又は/及び、「主辞となっている名詞を修飾する文字列群に含まれる時間表現が類似しているか否か」、を含むことを特徴とする。
【0006】
また、請求項3の発明は、請求項1又は請求項2の発明に係る情報処理装置において、処理対象のテキスト文書に対して照応解析を行う照応解析制御手段をさらに含み、前記照応解析制御手段は、前記テキスト文書の内容から、前記学習項目に対応する特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により取得された特徴量を前記分類器に入力することにより、前記テキスト文書を第1のクラスか又は第2のクラスに分類する分類手段と、を含み、前記分類手段による前記テキスト文書の分類の結果に基づいて、前記テキスト文書に対する照応解析を制御することを特徴とする。
【0007】
また、請求項4の発明は、請求項3の発明に係る情報処理装置において、前記照応解析制御手段は、前記テキスト文書が第1のクラスに分類された場合に、前記テキスト文書に対する照応解析の実行を制限すること、を特徴とする。
【0008】
また、上記課題を解決するために、請求項5の発明に係るプログラムは、複数の標本テキスト文書に対して照応解析を行う標本解析手段、標本テキスト文書ごとに、該標本テキスト文書に対して行われた照応解析の精度を算出する精度算出手段、標本テキスト文書ごとに、照応解析の精度が予め定められた精度条件を満足するか否かの判定結果を教師データとして取得する教師データ取得手段、標本テキスト文書ごとに、該標本テキスト文書の内容から、予め定められた学習項目に対応する特徴量を学習データとして抽出する学習データ抽出手段、前記教師データ取得手段が標本テキスト文書ごとに取得した判定結果と、前記学習データ抽出手段が標本テキストごとに抽出した特徴量と、に基づいて、分類器を生成する分類器生成手段、として、パーソナルコンピュータ、携帯電話、及び携帯端末等のコンピュータを機能させることを特徴とする。
【0009】
なお、上記プログラムは、インターネットなどの通信ネットワークを介して提供されてもよいし、フレキシブルディスク、CD−ROM、DVD−ROMなどのコンピュータ読み取り可能な各種情報記録媒体に格納されて提供されてもよい。
【0010】
また、上記プログラムは、コンピュータ読み取り可能な情報記録媒体に記憶されてもよい。情報記録媒体としては、例えば、磁気テープ、フレキシブルディスク、ハードディスク、CD−ROM、MO、MD、DVD−ROM、ICカードなどを用いることができる。
【発明の効果】
【0011】
請求項1,5の発明によれば、テキスト文書が正しくない照応解析の結果が得られやすいテキスト文書であるか否かの判別を行う分類器が生成される。
【0012】
請求項2の発明によれば、本構成を有しない場合に比して、より高い精度で上記判別を行う分類器が生成される。
【0013】
請求項3の発明によれば、正しくない照応解析の結果が得られやすいテキスト文書であるか否かによって、テキスト文書に対する照応解析が制御される。
【0014】
請求項4の発明によれば、正しくない照応解析の結果が得られにくいテキスト文書に対してのみ照応解析が行われるようになる。
【発明を実施するための最良の形態】
【0015】
本発明の実施形態について図面を参照しながら説明する。本発明の実施形態に係る情報処理装置は、マイクロプロセッサ、主記憶、ハードディスク記憶装置、ディスク読み取り装置、通信インターフェイス、操作部、画像処理部、及びモニタ等を含んで構成されるコンピュータシステムとして実現される。操作部は、例えばキーボードやマウス等である。また、ディスク読み取り装置は、例えばDVD−ROM、CD−ROM等の情報記憶媒体の記憶内容を読み取る装置である。マイクロプロセッサは、この情報記憶媒体に記憶されるプログラムに従って動作する。また、通信インターフェイスは情報処理装置をネットワークに接続するためのインタフェースである。また、画像処理部はVRAMを含んで構成され、マイクロプロセッサから送られる画像データに基づいてVRAM上に画像を描画する。そして、画像処理部は画像の内容をビデオ信号に変換してモニタに出力する。情報処理装置としては、例えば従来公知のサーバコンピュータ、パーソナルコンピュータ、携帯電話、又は携帯情報端末等が用いられる。
【0016】
図1は、本発明の実施形態に係る情報処理装置が有する機能群を示す機能ブロック図である。同図に示すように、情報処理装置は、標本データベース2と、標本解析部4と、教師データ取得部6と、学習データ取得部8と、分類器生成部10と、情報ソースデータベース12と、照応解析制御部14と、索引付け処理部16と、情報検索部18とを、機能的に含む。これらの機能は、マイクロプロセッサが上記プログラムを実行することによって実現される。
【0017】
[標本データベース]
標本データベース2は、ハードディスク記憶装置を主として実現される。標本データベース2は、照応関係の正解を示す正解情報が予め付加されたテキスト文書(標本テキスト文書)を複数保持する。以下、標本データベース2に記憶されるテキスト文書を正解コーパスと記載する。なお、標本データベース2は、情報処理装置に接続されたデータベースサーバであってもよい。
【0018】
[標本解析部]
標本解析部4は、マイクロプロセッサを主として実現される。標本解析部4は、標本データベース2が保持する各正解コーパスに対して照応解析を行う。
【0019】
本実施形態では、標本解析部4は、非特許文献1に開示の技術と同様の機械学習の手法により、照応関係の正誤を判定するための2項分類器(以下、第1分類器と記載)を生成する。具体的には、以下に示す処理をいずれかの正解コーパスに実行する。
【0020】
すなわち、標本解析部4は、正解コーパスに対して形態素解析、構文解析等の前処理を行う。そして、各名詞句対について以下の処理を実行する。すなわち、標本解析部4は、名詞句対を構成する各名詞句が照応関係を有するか否かを、正解コーパスに付加された正解情報に基づいて判定する。そして、各名詞句が照応関係を有するとの第1判定結果が得られた場合には、第1判定結果を示す値「1」を正例クラスの教師データとして取得し、2つの名詞句が照応関係を有しないとの第2判定結果が得られた場合には、第2判定結果を示す値「−1」を負例クラスの教師データとして取得する。こうして、各名詞句対から正例クラスから又は負例クラスの教師データを取得する。
【0021】
また、標本解析部4は、各名詞句対について、予め定められた少なくとも1つの学習素性に関する特徴量を学習データとして取得する。ここで、学習素性は、例えば、学習素性A1:「名詞句対を構成する各名詞句が一致するか否か」等の文字列に関する学習素性や、学習素性A2:「名詞句対を構成する各名詞句の意味が一致するか否か」等の意味に関する学習素性や、各名詞句間の距離に関する学習素性等を含む。例えば、標本解析部4は、名詞句対を構成する各名詞句の文字列が一致する場合、学習素性A1に関する特徴量S1として「1」を学習データとして取得し、名詞句対を構成する各名詞句の文字列が一致しない場合、学習素性A1の特徴量S1として「−1」を学習データとして取得する。また、例えば、名詞句対を構成する各名詞句の意味が一致する場合、学習素性A2に関する特徴量S2として「1」を学習データとして取得し、名詞句対を構成する各名詞句の意味が一致しない場合、学習素性A2の特徴量S2として「−1」を学習データとして取得する。こうして、標本解析部4は、各名詞句対から学習データを取得する。
【0022】
こうした上で、標本解析部4は、各名詞句対から取得した教師データと学習データとを基に、公知の機械学習の手法(例えば、サポートベクター法など)を用いて、第1分類器を生成し、ハードディスク記憶装置に記憶する。
【0023】
こうして、第1分類器を生成すると、標本解析部4は、この第1分類器を用いて、各正解コーパスに対して照応解析を行う。なお、ここでは、第1分類器を用いて照応解析を行う例を上げたが、標本解析部4は、予め定められた規則を用いて照応解析を行うようにしてもよい。
【0024】
[教師データ取得部]
教師データ取得部6は、マイクロプロセッサを主として実現される。教師データ取得部6は、正解コーパスごとに、該正解コーパスに対して行われた照応解析の精度を算出する。また、正解コーパスごとに、照応解析の精度が予め定められた精度条件を満足するか否かの判定結果を教師データとして取得する。
【0025】
例えば、教師データ取得部6は、正解コーパスごとに、該正解コーパスに付加された照応解析の正解に基づいて、「標本解析部4の照応解析によって同定された先行詞と照応詞の対の数」に対する、「標本解析部4の照応解析によって同定された先行詞と照応詞の対のうち先行詞と照応詞とが実際に照応関係を有している対の数」の割合を照応解析の精度として算出する。また、正解コーパスごとに、照応解析の精度が予め定められた基準精度(例えば、0.8)以上であるか否かを判定し、「照応解析の精度が基準精度以上である(すなわち、精度条件を満足する)」との第1判定結果が得られた場合、第1判定結果を示す値「1」を正例クラス(第1クラス)の教師データとして取得し、「照応解析の精度が基準精度より小さい(すなわち、精度条件を満足しない)」との第2判定結果が得られた場合、第2判定結果を示す値「−1」を負例クラス(第2クラス)の教師データとして取得する。
【0026】
[学習データ取得部]
学習データ取得部8は、マイクロプロセッサを主として実現される。学習データ取得部8は、正解コーパスごとに、該正解コーパスの内容から、予め定められた基準学習素性(学習項目)に対応する特徴量を学習データとして取得する。
【0027】
本実施形態では、学習データ取得部8は、正解コーパスごとに、少なくとも、基準学習素性a1:「文書中で主辞となっている名詞句を修飾している文字列群の意味が類似しているか否か」に対応する特徴量s1と、基準学習素性a2:「文書中で主辞となっている名詞を修飾する文字列群に含まれる時間表現が類似しているか否か」に対応する特徴量s2と、を学習データとして取得する。例えば、学習データ取得部8は、正解コーパス中で主辞となっている名詞句を修飾している文字列群の意味が類似しているか否かを意味辞書に基づいて判断し、正解コーパス中で主辞となっている名詞句を修飾している文字列群の意味が類似している場合、基準学習素性a1に対応する特徴量s1の値「1」を学習データとして取得する。一方、正解コーパス中で主辞となっている名詞句を修飾している文字列群の意味が類似していない場合、基準学習素性a1に対応する特徴量s1の値「−1」を学習データとして取得する。また、例えば、正解コーパス中で主辞となっている名詞を修飾する文字列群に含まれる時間表現が類似している場合、基準学習素性a2に対応する特徴量s2の値「1」を学習データとして取得し、正解コーパス中で主辞となっている名詞を修飾する文字列群に含まれる時間表現が類似していない場合、特徴量s2の値「−1」を学習データとして取得する。
【0028】
具体例を以下の正解コーパス1を例に取り上げて説明する。
(正解コーパス1)
4年に一度のイベントと言えば、五輪。
2008年の五輪は、北京で開催された。
北京五輪で、日本はX個の金メダルを獲得した。
2004年の五輪は、アテネ五輪である。
【0029】
この場合、主辞は「五輪」となる。そして、主辞たる「五輪」を修飾する文字列群「北京」、「アテネ」、「2008年」、「2004年」の意味はそれぞれ異なるから、学習データ取得部8は、基準学習素性a1の特徴量s1の値「−1」を学習データとして取得する。また、主辞たる「五輪」を修飾する文字列群に含まれる時間表現群「2008年」、「2004年」が一致していないので、学習データ取得部8は、基準学習素性a2の特徴量s2の値「−1」を学習データとして取得する。
【0030】
なお、非特許文献1に記載の技術で生成された第1分類器では、文字列が一致する名詞句対が照応関係を有すると判定されやすい。そのため、第1分類器を用いて正解コーパス1に対して照応解析を行った場合、「五輪」と「北京五輪」とが照応関係を有すると判定され、「五輪」と「アテネ五輪」とが照応関係を有すると判定され、「五輪」と「2008年の五輪」とが照応関係を有すると判定され、「五輪」と「2004年の五輪」とが照応関係を有すると判定される結果、「北京五輪」及び「アテネ五輪」とが照応関係を有すると判定され、「2008年の五輪」と「アテネ五輪」とが照応関係を有すると判定され、「2004年の五輪」と「北京五輪」とが照応関係を有すると判定される場合(つまり、「北京五輪」、「アテネ五輪」、「2008年の五輪」、及び「2004年の五輪」が同じ名詞句「五輪」を参照していると判定される場合)がある。つまり、主辞を修飾する文字列の意味や時間表現が一貫していないため、誤った照応解析結果が得られやすい。そのため、基準精度の値によっては、負例クラスの教師データ「−1」が取得される可能性が高い。
【0031】
その他の具体例として、以下の正解コーパス2を例に取り上げて説明する。
(正解コーパス2)
4年に一度のイベントと言えば、五輪。
2008年の五輪は、北京で開催された。
北京五輪で、日本はX個の金メダルを獲得した。
【0032】
この場合、主辞たる「五輪」を修飾する文字列群「2008年」、「北京」の意味はそれぞれ異なるから、学習データ取得部8は、基準学習素性a1の特徴量s1の値「−1」を学習データとして取得する。但し、主辞たる「五輪」を修飾する文字列群に含まれる時間表現は「2008年」のみであるから、学習データ取得部8は、基準学習素性a2の特徴量s2の値「1」を学習データとして取得する。
【0033】
なお、第1分類器を用いて正解コーパス2に対して照応解析を行った場合、「五輪」と「北京五輪」とが照応関係を有すると判定され、「五輪」と「2008年の五輪」とが照応関係を有すると判定される結果、「北京五輪」と「2008年の五輪」とが照応関係を有すると判定される(つまり、「北京五輪」と「2008年の五輪」とが同じ名詞句「五輪」を参照していると判定される)。つまり、主辞を修飾する文字列の意味が一貫していないものの、主辞を修飾する時間表現が一貫しているため、誤った照応解析結果が得られにくい。そのため、正例クラスの教師データ「1」が取得される可能性が高い。
【0034】
その他の具体例として、以下の正解コーパス3を例に取り上げて説明する。
(正解コーパス3)
4年に一度のイベントと言えば、五輪。
北京五輪で、日本はX個の金メダルを獲得した。
【0035】
この場合、主辞たる「五輪」を修飾する文字列は、「北京」のみでから、学習データ取得部8は、基準学習素性a1の特徴量s1の値「1」を学習データとして取得する。また、主辞たる「五輪」を修飾する時間表現は存在しないから、学習データ取得部8は、基準学習素性a2の特徴量s2の値「1」を学習データとして取得する。なお、この場合において、第1分類器を用いて正解コーパス3に対して照応解析を行った場合、「五輪」と「北京五輪」とが照応関係を有すると判定される。つまり、主辞を修飾する文字列の意味が一貫しているので、誤った照応解析結果が得られにくい。そのため、正例クラスの教師データ「1」が取得される可能性が高い。
【0036】
[分類器生成部]
分類器生成部10は、マイクロプロセッサを主として実現される。分類器生成部10は、教師データ取得部6が正解コーパスごとに取得した教師データと、学習データ取得部8が正解コーパスごとに取得した学習データと、に基づいて、テキスト文書を正例クラスか又は負例クラスに分類する分類器(以下、第2分類器)を生成する。
【0037】
本実施形態では、分類器生成部10は、正解コーパスごとに取得した教師データと学習データとを基に、公知の機械学習手法(例えば、サポートベクター法など)を用いて、第2分類器を生成する。
【0038】
図2は、情報処理装置において実行される処理のうち、標本解析部4と、教師データ取得部6と、学習データ取得部8と、分類器生成部10と、に関連するものを示すフロー図である。マイクロプロセッサは、上記プログラムに従ってこの処理を実行する。
【0039】
まず、マイクロプロセッサは、いずれか一の正解コーパス(以下、代表正解コーパス)を選択し、第1分類器を生成するためのステップS101〜S103を、非特許文献1に記載の技術と同様にして実行する。
【0040】
すなわち、マイクロプロセッサは、代表正解コーパスに対して形態素解析、構文解析等の前処理を実行する(S101)。
【0041】
そして、マイクロプロセッサは、代表正解コーパスの内容に基づいて、第1分類器を生成するための教師データと学習データとを取得する(S102)。
【0042】
すなわち、マイクロプロセッサは、代表正解コーパスに付加された照応関係の正解に基づいて、代表正解コーパスに含まれる名詞句対ごとに、該名詞句対を構成する各名詞句が照応関係を有するか否かの判定結果を教師データとして取得する。より正確には、各名詞句が照応関係を有するとの第1判定結果が得られた場合には、第1判定結果を示す値「1」を正例クラスの教師データとして取得し、2つの名詞句が照応関係を有しないとの第2判定結果が得られた場合には、第2判定結果を示す値「−1」を負例クラスの教師データとして取得する。こうして、各名詞句対から正例クラス又は負例クラスの教師データを取得する。また、マイクロプロセッサは、代表正解コーパスに含まれる名詞句対ごとに、学習素性A1又は/及び学習素性A2を含む2つ以上の学習素性に対応する特徴量を学習データとして取得する。例えば、マイクロプロセッサは、名詞句対を構成する各名詞句が一致する場合、学習素性A1に関する特徴量S1として「1」を学習データとして取得し、名詞句対を構成する各名詞句が一致しない場合、学習素性A1の特徴量S1として「−1」を学習データとして取得する。また、例えば、名詞句対を構成する各名詞句の意味が一致する場合、学習素性A2に関する特徴量S2として「1」を学習データとして取得し、名詞句対を構成する各名詞句の意味が一致しない場合、学習素性A2の特徴量S2として「−1」を学習データとして取得する。こうして、マイクロプロセッサは、各名詞句対から学習データを取得する。
【0043】
そして、マイクロプロセッサは、各名詞句対から取得した教師データと学習データとを基に、公知の機械学習手法(例えば、サポートベクター法など)を用いて、第1分類器を生成し(S103)、ハードディスク記憶装置に記憶する。
【0044】
そして、マイクロプロセッサは、S104〜S108のステップを各正解コーパスに対して実行することにより、第2分類器を生成するための教師データと学習データとを正解コーパスごとに取得する。
【0045】
すなわち、マイクロプロセッサは、正解コーパスに対し、照応解析のための前処理を実行する(S104)。具体的には、正解コーパスに対して形態素解析や構文解析等を行う。こうした上で、マイクロプロセッサは、正解コーパスに対して照応解析を行う(S105)。
【0046】
そして、マイクロプロセッサは、正解コーパスに対して行われた照応解析の精度を、該正解コーパスに付加された照応解析の正解に基づいて、算出する(S106)。例えば、マイクロプロセッサは、「標本解析部4の照応解析によって同定された先行詞と照応詞の対の数」に対する、「標本解析部4の照応解析によって同定された先行詞と照応詞の対のうち先行詞と照応詞とが実際に照応関係を有している対の数」の割合を照応解析の精度として算出する。
【0047】
そして、マイクロプロセッサは、S106のステップで算出した照応解析の精度に基づいて、正例クラスの教師データ、又は、負例クラスの教師データを取得する(S107)。すなわち、マイクロプロセッサは、S106のステップで算出した照応解析の精度が基準精度以上であるか否かを判定することにより、正例クラスの教師データ、又は、負例クラスの教師データを取得する。より正確には、マイクロプロセッサは、「照応解析の精度が基準精度以上である(すなわち、精度条件を満足する)」との第1判定結果が得られた場合、第1判定結果を示す値「1」を正例クラス(第1クラス)の教師データとして取得し、「照応解析の精度が基準精度より小さい(すなわち、精度条件を満足しない)」との第2判定結果が得られた場合、第2判定結果を示す値「−1」を負例クラス(第2クラス)の教師データとして取得する。
【0048】
また、マイクロプロセッサは、正解コーパスの内容に基づいて、学習データを取得する(S108)。具体的には、正解コーパスの内容に基づいて、基準学習素性a1又は/及び基準学習素性a2を含む2つ以上の学習素性に対応する特徴量を学習データとして取得する。例えば、マイクロプロセッサは、正解コーパス中で主辞となっている名詞句を修飾している文字列群の意味が類似しているか否かを意味辞書に基づいて判断する。こうした上で、正解コーパス中で主辞となっている名詞句を修飾している文字列群の意味が類似している場合、基準学習素性a1に対応する特徴量s1の値「1」を学習データとして取得し、正解コーパス中で主辞となっている名詞句を修飾している文字列群の意味が類似していない場合、基準学習素性a1に対応する特徴量s1の値「−1」を学習データとして取得する。また、例えば、正解コーパス中で主辞となっている名詞を修飾する文字列群に含まれる時間表現が類似している場合、基準学習素性a2に対応する特徴量s2の値「1」を学習データとして取得し、正解コーパス中で主辞となっている名詞を修飾する文字列群に含まれる時間表現が類似していない場合、特徴量s2の値「−1」を学習データとして取得する。
【0049】
こうして各正解コーパスを対象にS104〜S108のステップを実行すると、テキスト文書を正例クラスか又は負例クラスに分類する第2分類器を生成する(S109)。具体的には、正解コーパスごとに取得した教師データと学習データとを基に、公知の機械学習手法(例えば、サポートベクター法など)を用いて、第2分類器を生成する。なお、マイクロプロセッサは、生成した第2分類器をハードディスク記憶装置に記憶することも行う。
【0050】
図2の処理によれば、正解コーパス2,3のような誤った照応解析の結果が得られにくいテキスト文書を正例のクラスに分類し、正解コーパス1のような誤った照応解析の結果が得られやすいテキスト文書を負例のクラスに分類する分類器が生成される。
【0051】
[情報ソースデータベース]
機能ブロックの説明に戻る。情報ソースデータベース12は、ハードディスク記憶装置を主として実現される。情報ソースデータベース12は、後述する照応解析制御部14による照応解析の候補となるテキスト文書を少なくとも1つ記憶する。なお、情報ソースデータベース12は、情報処理装置に接続されたデータベースサーバであってもよい。
【0052】
[照応解析制御部]
照応解析制御部14は、例えば、マイクロプロセッサ及びハードディスク記憶装置を主として実現される。照応解析制御部14は、特徴量抽出部と、テキスト文書分類部と、を含む。照応解析制御部14は、情報ソースデータベース12に記憶されるテキスト文書の各々に対する照応解析の実行を、特徴量抽出部及びテキスト文書分類部の機能に基づいて、制御する。以下、照応解析制御部14につき、特徴量抽出部及びテキスト文書分類部と併せて、説明する。
【0053】
特徴量抽出部は、テキスト文書ごとに、該テキスト文書の内容に基づいて、上述の基準学習素性に対応する特徴量を抽出する。例えば、特徴量の抽出対象であるテキスト文書が正解コーパス3と同様のテキスト文書である場合、特徴量抽出部により、基準学習素性a1に対応する特徴量s1の値として「1」が抽出され、基準学習素性a2に対応する特徴量s2の値として「1」が抽出される。
【0054】
テキスト文書分類部は、テキスト文書ごとに、特徴量抽出部により抽出された特徴量を第2分類器に入力することにより、該テキスト文書を正例クラスか又は負例クラスに分類する。例えば、分類対象のテキスト文書が正解コーパス2や正解コーパス3と同様のテキスト文書である場合、テキスト文書は正例クラスに分類される。一方、分類対象のテキスト文書が正解コーパス1と同様のテキスト文書である場合、テキスト文書は負例クラスに分類される。
【0055】
こうして、情報ソースデータベース12に記憶されるテキスト文書を正例クラス又は負例クラスに分類すると、照応解析制御部14は、正例クラスに分類されたテキスト文書にのみ、第1分類器を用いて照応解析を行う。すなわち、照応解析制御部14は、テキスト文書を正例クラスに分類した場合には、該テキスト文書に対し第1分類器を用いた照応解析を行い、テキスト文書を負例クラスに分類した場合には、該テキスト文書に対して第1分類器を用いた照応解析の実行を制限する。
【0056】
その結果、例えば、情報ソースデータベース12に、正解コーパス1と同様のテキスト文書と、正解コーパス2と同様のテキスト文書と、が記憶される場合、後者のテキスト文書に対してのみ第1分類器を用いた照応解析が行われることとなる。なお、照応解析制御部14は、テキスト文書に対して行った照応解析の結果をハードディスク記憶装置に記憶することも行う。
【0057】
図3は、情報処理装置において実行される処理のうち、照応解析制御部14に関連するものを示すフロー図である。マイクロプロセッサは、上記プログラムに従ってこの処理を実行する。なお、この処理は、情報ソースデータベース12に記憶されるテキスト文書ごとに行われる。
【0058】
マイクロプロセッサは、テキスト文書の内容に基づいて、基準学習素性に対応する特徴量を抽出する(S201)。そして、マイクロプロセッサは、S201のステップで抽出した特徴量を第2分類器に入力することにより、テキスト文書を正例クラスか又は負例クラスに分類する(S202)。そして、テキスト文書が正例クラスに分類された場合(S202のY)、第1分類器を用いて照応解析を行う(S203)。そして、S203のステップで実行された照応解析の結果をハードディスク記憶装置に記憶する(S204)。一方、テキスト文書が負例クラスに分類された場合(S202のN)、他のテキスト文書を対象に、図3に示す処理を実行する。なお、マイクロプロセッサは、照応解析の結果をモニタに出力するようにしてもよい。
【0059】
この処理によれば、第1分類器を用いて照応解析を行った場合に誤った照応解析結果が得られにくいテキスト文書に対してのみ照応解析が行われることとなる。
【0060】
[索引付け処理部]
機能ブロックの説明に戻る。索引付け処理部16は、マイクロプロセッサとハードディスク記憶装置とを主として実現される。索引付け処理部16は、ハードディスク記憶装置に記憶される照応解析結果に基づき、公知の索引付け処理を実行する。例えば、索引付け処理部16は、同一の名詞句を参照先としている1又は複数の名詞句に同一の索引語を付与する。例えば、照応解析の行われたテキスト文書が正解コーパス2と同様のテキスト文書である場合、同一の名詞句「五輪」を参照先としている「2008年の五輪」と「北京五輪」とに、同一の索引語「五輪」が付与される。なお、索引付け処理部16は、索引付け処理の結果をハードディスク記憶装置に記憶することも行う。
【0061】
図4は、情報処理装置において実行される処理のうち、索引付け処理部16に関連するものを示すフロー図である。マイクロプロセッサは、上記プログラムに従ってこの処理を実行する。この処理では、マイクロプロセッサは、ハードディスク記憶装置に記憶される照応解析結果に基づき、索引付け処理を実行する(S301)。そして、マイクロプロセッサは、索引付け処理の結果をハードディスク記憶装置に記憶する(S302)。
【0062】
[情報検索部]
機能ブロックの説明に戻る。情報検索部18は、マイクロプロセッサや操作部を主として実現される。情報検索部18は、利用者が操作部を用いて入力した問い合わせ文、例えば、問い合わせ文「北京五輪はいつ開催された?」を受け付ける。そして、情報検索部18は、公知の情報検索手法に従い、ハードディスク記憶装置に記憶される索引付け処理の結果に基づいて、問い合わせ文に対する回答を作成しモニタに出力する。例えば、問い合わせ文「北京五輪はいつ開催された?」に対する回答として、「2008年」を出力する。
【0063】
図5は、情報処理装置において実行される処理のうち、情報検索部18に関連するものを示すフロー図である。マイクロプロセッサは、上記プログラムに従ってこの処理を実行する。この処理は、例えば、利用者が操作部を用いて問い合わせ文を入力した上で、情報検索指示操作を行った場合に実行される。この処理では、マイクロプロセッサは、ハードディスク記憶装置に記憶される索引付け処理の結果に基づき、問い合わせ文に対する回答を生成する(S401)。そして、マイクロプロセッサは、回答をモニタに出力する(S402)。
【0064】
ところで、情報ソースデータベース12に記憶されるすべてのテキスト文書に対して照応解析が行われた場合、負例クラスに分類されるようなテキスト文書、すなわち、誤った照応解析の結果が得られやすいテキスト文書に対しても照応解析が行われることとなる。その結果、名詞句群がそれぞれ同一の名詞句を参照していないにも関わらず、各名詞句に同一の索引語が付与される可能性が高くなる。例えば、正解コーパス1のようなテキスト文書に対して照応解析が行われた場合、「北京五輪」、「アテネ五輪」、「2008年の五輪」、及び「2004年の五輪」に対して同一の索引語「五輪」が付与されることとなる。その結果、例えば、「北京五輪はいつ開催された?」との問い合わせ文が入力された場合に、回答の候補に誤った回答「2004年」が含まれる事態が発生する可能性がある。
【0065】
この点、上記情報処理装置では、正例クラスに分類されるようなテキスト文書、すなわち、誤った照応解析の結果が得られにくいテキスト文書に対してのみ照応解析が行われるので、上記のような事態の発生が抑制される。その結果、情報検索の精度の向上が実現される。
【0066】
なお、本発明は、以上に説明した実施形態に限定されるものではない。
【0067】
例えば、上記実施形態では、正例クラスに分類されるテキスト文書に対しては照応解析を実行し、負例クラスに分類されるテキスト文書に対しては照応解析の実行を制限するというかたちで、テキスト文書に対する照応解析を制御するようにしていた。しかしながら、負例クラスに分類されるテキスト文書に対しても照応解析を行うようにしてもよい。例えば、照応関係の正誤を判定するための分類器として、第1分類器とは異なる他の分類器を生成するようにしてもよい。こうした上で、負例クラスに分類されるテキスト文書に対して照応解析を行う場合、上記他の分類器を用いて照応解析を行うようにしてもよい。なお、この場合、上記他の分類器を、誤った照応解析の結果が得られにくくなるよう第1分類器の閾値を調整することによって生成すればよい。また、例えば、上記他の分類器を、誤った照応解析の結果が得られにくくなるよう文字列に関する学習素性(例えば、学習素性A1)に対応する、第1分類器の重み係数を調整することによって生成すればよい。
【図面の簡単な説明】
【0068】
【図1】本発明の実施形態に係る情報処理装置が有する機能群を示す機能ブロック図である。
【図2】本発明の実施形態に係る情報処理装置にて実行される処理の一例を示すフロー図である。
【図3】本発明の実施形態に係る情報処理装置にて実行される処理の一例を示すフロー図である。
【図4】本発明の実施形態に係る情報処理装置にて実行される処理の一例を示すフロー図である。
【図5】本発明の実施形態に係る情報処理装置にて実行される処理の一例を示すフロー図である。
【符号の説明】
【0069】
2 標本データベース、4 標本解析部、6 教師データ取得部、8 学習データ取得部、10 分類器生成部、12 情報ソースデータベース、14 照応解析制御部、16 索引付け処理部、18 情報検索部。

【特許請求の範囲】
【請求項1】
複数の標本テキスト文書に対して照応解析を行う標本解析手段と、
標本テキスト文書ごとに、該標本テキスト文書に対して行われた照応解析の精度を算出する精度算出手段と、
標本テキスト文書ごとに、照応解析の精度が予め定められた精度条件を満足するか否かの判定結果を教師データとして取得する教師データ取得手段と、
標本テキスト文書ごとに、該標本テキスト文書の内容から、予め定められた学習項目に対応する特徴量を学習データとして抽出する学習データ抽出手段と、
前記教師データ取得手段が標本テキスト文書ごとに取得した判定結果と、前記学習データ抽出手段が標本テキスト文書ごとに抽出した特徴量と、に基づいて、分類器を生成する分類器生成手段と、
を含むことを特徴とする情報処理装置。
【請求項2】
前記学習項目は、少なくとも、主辞となっている名詞を修飾する文字列群の意味が類似しているか否か、又は/及び、主辞となっている名詞を修飾する文字列群に含まれる時間表現が類似しているか否か、を含むこと、
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
処理対象のテキスト文書に対して照応解析を行う照応解析制御手段をさらに含み、
前記照応解析制御手段は、
前記テキスト文書の内容から、前記学習項目に対応する特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により取得された特徴量を前記分類器に入力することにより、前記テキスト文書を第1のクラスか又は第2のクラスに分類する分類手段と、を含み、
前記分類手段による前記テキスト文書の分類の結果に基づいて、前記テキスト文書に対する照応解析を制御すること、
を特徴とする請求項1又は請求項2に記載の情報処理装置。
【請求項4】
前記照応解析制御手段は、
前記テキスト文書が第1のクラスに分類された場合に、前記テキスト文書に対する照応解析の実行を制限すること、
を特徴とする請求項3に記載の情報処理装置。
【請求項5】
複数の標本テキスト文書に対して照応解析を行う標本解析手段、
標本テキスト文書ごとに、該標本テキスト文書に対して行われた照応解析の精度を算出する精度算出手段、
標本テキスト文書ごとに、照応解析の精度が予め定められた精度条件を満足するか否かの判定結果を教師データとして取得する教師データ取得手段、
標本テキスト文書ごとに、該標本テキスト文書の内容から、予め定められた学習項目に対応する特徴量を学習データとして抽出する学習データ抽出手段、
前記教師データ取得手段が標本テキスト文書ごとに取得した判定結果と、前記学習データ抽出手段が標本テキストごとに抽出した特徴量と、に基づいて、分類器を生成する分類器生成手段、
としてコンピュータを機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−61272(P2010−61272A)
【公開日】平成22年3月18日(2010.3.18)
【国際特許分類】
【出願番号】特願2008−224706(P2008−224706)
【出願日】平成20年9月2日(2008.9.2)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】