表現補完装置およびコンピュータプログラム

【課題】大量のルール等を予め準備する手間をかけずに、与えられる文データに基づき、文中において欠落している評価表現を補完する表現補完装置を提供する。
【解決手段】情報抽出処理部は、文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む。評価補完処理部は、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、コンピュータ等を用いた情報処理技術に関する。特に、コンピュータ等を用いた自然言語処理の技術に関する。
【背景技術】
【０００２】
商品やサービスやコンテンツ（放送番組や音楽や映像など）に対する反響、あるいはそれらを販売ないしは提供する企業体自体に対する反響等を収集し、収集した反響等を分析し、その分析結果を以後の商品やサービスやコンテンツ等の制作等に反映させるといったことが行なわれている。これらの反響は、多くの場合、自然言語で書かれた文として収集されるが、そのような反響文をすべて人手により分析するには多くの労力を要するため、その省力化が望まれる。
【０００３】
このように自然言語によって記述された文に基づいて評判分析する技術は、評価文の極性を判定する方法が主流であった。例えば、ある製品に対して、評判分析を行うと、その製品が肯定的に評価されているか（よい評判であるか）、あるいは、否定的に評価されているか（わるい評判であるか）のいずれかを判定することを行ってきた。
【０００４】
特許文献１には、極性（肯定的あるいは否定的）の知られている評価表現を予め登録表現記憶部に登録しておき、与えられたテキスト中に含まれる評価表現を抽出し、また同テキスト中に含まれる評価表現同士の接続関係を示す接続表現を抽出するとともに、抽出された評価表現のうち予め登録表現記憶部に登録されている評価表現を検出し、検出された評価表現と他の評価表現とを接続する接続表現（順接であるか逆接であるかなど）に応じて当該他の評価表現の極性を判断する技術が記載されている。
特許文献２には、対象事物の性質を表わす属性表現とその属性表現に対する評判情報を複数のカテゴリに分類し出力する技術が記載されており、この技術を用いることにより、評判情報から対象事物に関する知見を（人が）得ることができるとされている。
【特許文献１】特許第３９６２３８２号公報
【特許文献２】特開２００７−１７２０５１号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、自然言語により自由記述される文は、必ずしも評価表現を含むとは限らないという問題があった。このように評価を表す語が明示されていない文については、従来技術を用いる限りは、評価を推定することが困難もしくは不可能であった。
また例えば、「映像の迫力に驚いた」という文の場合、肯定的な評価を表すことが多い。また、「番組の構成に驚いた」という文の場合、否定的な評価を表すことが多い。これらの評価が肯定的であるか否定的であるかを決定するのは、「驚いた」という語の持つ性質だけによるものではなく、その対象となる「映像の迫力」や「番組の構成」がもつ性質も考慮する必要がある。従来技術による評判分析では、「驚いた」という語の持つ性質（極性）から文の極性を判断しようとしているために、必ずしも適切に文の極性を判断することができないという問題があった。
また、評価表現の判断として、単なる極性の判断に限らず、肯定的／否定的の二極以外の多様な判断を行ないたいという要求もあった。
また、文の性質（出現する語彙や構文特徴など）に関するルールを用意しておいて評価表現を判断するという方法も考え得るが、このアプローチを取る場合には膨大な量のルールを予め整備して登録しておくという前作業が必要であり、手間がかかるという問題がある。
【０００６】
本発明は、上記の課題認識に基づいて行なわれたものであり、大量のルール等を予め準備する手間をかけずに、与えられる文データ（反響文など）に基づき、文中において欠落している評価表現を補完することのできる表現補完装置およびそのプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
［１］上記の課題を解決するため、本発明の一態様による表現補完装置は、入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理部と、前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データに基づき、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報を補完済抽出情報記憶部に書き込む評価補完処理部を具備する。
【０００８】
ここで、特徴データとは、各々の文から抽出され得る情報であり、例えば、その文の中に出現する語等を分析することによって（反響の対象、値）という組の形式で得られるデータや、その文を構文解析して得られる構文解析木のデータ（反響の対象）や、その文の単語出現頻度ベクトルのデータ（反響の対象）などである。
上記の構成によれば、情報抽出処理部は、文の特徴データとその文の評価表現とを含む評価付き抽出情報を抽出するとともに、文の特徴データを含んでおり評価表現が欠落している評価欠落抽出情報を抽出する。そして、評価補完処理部は、特徴データに基づいて評価付き抽出情報と評価欠落抽出情報のクラスタリング処理を行なう。そして、評価補完処理部は、クラスタリング処理の結果に基づき、評価付き抽出情報が持つ評価表現を用いて評価欠落抽出情報の評価表現を補完する。
【０００９】
［２］また、本発明の一態様は、上記の表現補完装置において、前記特徴データは、前記文に含まれる特徴的な語である対象語と、前記文の係り受け構造において前記対象語の係り先となる述語である値との組であり、前記情報抽出処理部は、前記文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出し、前記評価補完処理部は、前記特徴データに含まれる前記対象語と前記値との組をクラスタリング処理することにより前記特徴データ間の類似度の算出を行なうことを特徴とする。
この構成によれば、評価補完処理部は、対象語と値の組によるクラスタリング処理を行ない、そのクラスタリング処理の結果に基づいて前記の評価表現の補完を行う。
【００１０】
［３］また、本発明の一態様は、上記の表現補完装置において、前記評価補完処理部は、前記文に含まれる単語についての潜在意味解析の処理の結果として得られる単語間の距離データに基づき、前記対象語間の距離データおよび前記値間の距離データを求めることにより前記クラスタリング処理を行なうことを特徴とする。
この構成によれば、評価補完処理部は、潜在意味解析の処理の結果に基づいて、それぞれ対象語と値からなる複数の組の間の距離を算出することができ、この距離に基づいてクラスタリング処理を行なう。
【００１１】
［４］また、本発明の一態様は、上記の表現補完装置において、前記特徴データは、前記文に対応する構文解析木のデータであり、前記情報抽出処理部は、前記文を構文解析処理することにより前記構文解析木のデータを前記特徴データとして抽出することを特徴とする。
この構成によれば、評価補完処理部は、構文解析木のデータが有する特徴に基づくクラスタリング処理を行ない、そのクラスタリング処理の結果に基づいて前記の評価表現の補完を行う。
【００１２】
［５］また、本発明の一態様は、上記の表現補完装置において、前記文集合のデータには文毎のドメイン識別データが付加されており、前記情報抽出処理部は、前記ドメイン識別データが付加された前記評価付き抽出情報を前記評価付き抽出情報記憶部に書き込むとともに、前記ドメイン識別データが付加された前記評価欠落抽出情報を前記評価欠落抽出情報記憶部に書き込み、評価補完処理部は、前記ドメイン識別データが同一である範囲の前記評価付き抽出情報および前記評価欠落抽出情報を用いてクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なうことを特徴とする。
ここで、ドメインには、所定の文の集合が属する。ドメイン識別データとは個々のドメインを一意に識別できるデータ（ドメイン識別ＩＤ）である。ドメインの一例は、ある放送番組やある商品などである。このとき、そのドメインに属する文の集合とは、例えば、その放送番組あるいはその商品に対する反響文の集合である。
上記の構成によれば、評価補完処理部は、同一のドメイン識別データを有する文から抽出された情報を用いてクラスタリング処理を行ない、その結果に基づいて評価表現の補完を行なう。同一ドメインに属する文同士は、異なるドメインに属する文同士に比べて、似ている傾向を有する。即ち、前記特徴データによるクラスタリング処理を行なったときに、互いに近い（類似度の高い）特徴データを有する抽出情報同士が互いに近い評価表現を本来有する傾向が強い。従って、たとえ一方の抽出情報において評価表現が欠落している場合においても、近い特徴データを有する抽出情報の評価表現を用いて行なう補完が、適切な補完である度合いがより一層高くなる。
【００１３】
［６］また、本発明のコンピュータプログラムは、入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理過程と、前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データに基づき、これら前記特徴データ間の類似度を算出する処理を行ない、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する評価補完処理過程と、の処理をコンピュータに実行させる。
【発明の効果】
【００１４】
本発明によれば、入力される文の中に評価表現が明示的に含まれていない文が含まれている場合にも、予めルールベース等を準備する必要なく、そのような文についての評価表現の補完を、適切且つ自動的に行なうことができる。このように補完された評価表現によって文を分類する（例えば円グラフ等で表現する）ことによって、評価表現が明示的に含まれていない文を含んでいる場合にも、手間をかけずに高精度な評価分析・評判分析を実現することができる。
【発明を実施するための最良の形態】
【００１５】
以下、図面を参照しながら、本発明の実施形態について説明する。
［第１の実施の形態］
図１は、本発明の第１の実施形態による表現補完装置の機能構成を示すブロック図である。同図において、符号１０が表現補完装置である。この表現補完装置１０は、反響文から反響内容に関する３つ組（ｔｒｉｐｌｅｔ）を抽出し、この３つ組を分析することによって評価表現を補完する処理を実行する。図示するように、表現補完装置１０は、情報抽出器処理部１と、評価補完器処理部２と、文書分類器処理部３と、反響文記憶部（入力文データベース）４と、評価付き反響３つ組データ記憶部５ａと、評価欠落反響３つ組データ記憶部５ｂと、補完済反響３つ組データ記憶部５ｃと、分類結果データ６と、評価表現記憶部７とを含んで構成される。
【００１６】
情報抽出器処理部１と、評価補完器処理部２と、文書分類器処理部３の各処理部は、例えば、電子回路を用いて実現されるものであり、それぞれ、入力されるデータを処理してその処理結果のデータを出力する。反響文記憶部４と、評価付き反響３つ組データ記憶部５ａと、評価欠落反響３つ組データ記憶部５ｂと、補完済反響３つ組データ記憶部５ｃと、評価表現記憶部７の各記憶部は、例えば、磁気ハードディスク装置や半導体メモリなどを用いて実現される。このうち、評価付き反響３つ組データ記憶部５ａと、評価欠落反響３つ組データ記憶部５ｂと、補完済反響３つ組データ記憶部５ｃとは、それぞれ、後述する抽出情報データベースに含まれる記憶領域である。
【００１７】
また、分類結果データ６は、文書分類器処理部３による処理の結果のデータであり、基になる多数の入力文に占める各々の評価表現の割合を表わすものである。また、分類結果データ６は、例えば、円グラフなどのグラフによってこれらの各割合を表現する携帯としても良い。
【００１８】
情報抽出器処理部１は、入力される文集合のデータを反響文記憶部４から読み込み、この文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報（評価付き反響３つ組のデータ）として評価付き反響３つ組データ記憶部５ａ（評価付き抽出情報記憶部）に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報（評価欠落反響３つ組のデータ）として評価欠落反響３つ組データ記憶部５ｂ（評価欠落抽出情報記憶部）に書き込む。
また、評価補完器処理部２は、評価付き反響３つ組記憶部５ａから読み出した評価付き抽出情報に含まれる文の特徴データと、評価欠落反響３つ組記憶部５ａから読み出した評価欠落抽出情報に含まれる文の特徴データとに基づき、クラスタリング処理を行なうことにより特徴データ間の類似度を算出し、評価欠落抽出情報に含まれる特徴データに近い（つまり、類似度の高い）範囲の特徴データを有する評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報（補完済み反響３つ組のデータ）を補完済反響３つ組データ記憶部５ｃ（補完済抽出情報記憶部）に書き込む。
文書分類器処理部３は、補完済反響３つ組のデータを読み込み、その評価表現（元々抽出されていた評価表現と補完された評価表現の両方）に基づいて、反響３つ組を分類する処理を行ない、その分類結果を円グラフ等のグラフとして出力する。
【００１９】
本実施形態で用いる反響文は、例えば、放送番組に対して寄せられる反響文である。寄せられる反響文は自然言語による自由記述文である。本実施形態の表現補完装置１０は、その自由記述文の中から、反響の対象（何に対しての反響なのか）、値（その対象がどういった状態なのか）、評価表現（それをどう評価するのか）という3つ組のデータを抽出して分析する。
【００２０】
図２は、反響文記憶部４に記憶される入力文データの構造およびデータ例を示す概略図である。図示するように、反響文記憶部４に記憶されるデータは、二次元の表形式のデータであり、ドメイン識別ＩＤと、ドメイン内文番号と、反響文の各項目を有する。ドメイン識別番号は、反響文がどのドメインに対するものであるかを識別するための情報である。例えば、テレビやラジオなどの放送番組に対する反響文を入力データとする場合には、このドメイン識別ＩＤによって個々の放送番組を識別できるようにする。また例えば、商品に対する反響文を入力データとする場合には、このドメイン識別ＩＤによって商品の種類を識別できるようにする。ドメイン内文番号は、同一のドメイン識別ＩＤを有する各々の反響文を識別するための情報であり、例えば、同一ドメインに属する反響文に対して、自然数による連番を付与するようにする。反響文は、例えば放送番組の視聴者や商品の購入者などによって自然言語（日本語や英語などなど）を用いて書かれた文である。反響文は特定の形式を有するものでなくてもよく、反響を自由記述したものでよい。また、これら反響文には、評価表現が含まれている反響文と評価表現が含まれていない反響文とが混在していて良い。
【００２１】
なお、図示しているデータ構造において、ドメイン識別ＩＤとドメイン内文番号の複合が、主キー（ｐｒｉｍａｒｙｋｅｙ）である。
図示するデータ例においては、ドメイン識別ＩＤが「２００８１１０１１９３０」である行が複数存在し、それらのドメイン内文番号が「１」から順次付与されており、ドメイン内文番号「１３１」に対応して反響文「村人が用水路によって戻ってきたのでよかった」が格納されている。同様に、ドメイン内文番号「１３２」に対応して反響文「灌漑により皆が戻り集落が又出来る。」が格納されている。
【００２２】
図３は、抽出情報データベースの構造およびデータ例を示す概略図である。図示するように、抽出情報データベースは、二次元の表形式のデータであり、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスと、反響３つ組の各項目を有する。このうち反響３つ組は、さらに、反響の対象と、値と、評価表現の各項目から構成されている。これらの項目のうち、ドメイン識別ＩＤとドメイン内文番号は、反響文記憶部４に記憶されていた入力文データにおけるドメイン識別ＩＤとドメイン内文番号にそれぞれ対応している。文内番号は、１つの反響文に複数の反響３つ組が対応する場合に、それぞれの反響３つ組を識別するための情報であり、例えば、同一の反響文に対応するそれぞれの反響３つ組に対して、自然数による連番が付与される。
【００２３】
抽出情報データベースにおいて、ドメイン識別ＩＤとドメイン内文番号と文内番号の複合が、主キーである。また、抽出情報データベースにおいて、各行は反響文から抽出された反響３つ組に対応する。ステータスは、当該行が表わす反響３つ組の状態を表わすデータであり、「評価付き」、「評価欠落」、「補完済」のいずれかの値を取り得る。
また、反響３つ組の中の反響の対象と値の項目が、文の特徴データに相当する。
【００２４】
同図に示しているデータ例は、図２に示した反響文に対応する反響３つ組の例を表わしている。図３の１行目のデータは、ドメイン識別ＩＤが「２００８１１０１１９３０」であり、ドメイン内文番号が「１３１」であり、文内番号が「１」である。これは、図２において対応している反響文「村人が用水路によって戻ってきたのでよかった」から抽出される反響３つ組を表わす。（反響の対象、対象の値、評価表現）の形で表わすと、この反響３つ組は、（村人、戻る、よい）である。図３の２行目および３行目のデータは、ドメイン識別ＩＤが「２００８１１０１１９３０」であり、ドメイン内文番号が「１３２」であり、文内番号がそれぞれ「１」と「２」である。これは、図２において対応している反響文「灌漑により皆が戻り集落が又出来る。」から抽出される２つの反響３つ組を表わす。それらは、それぞれ、（皆、戻る、φ）と（集落、出来る、φ）である。
【００２５】
ここで、「φ」は空（ヌル）を表わす。つまり、ドメイン内文番号が「１３１」で文内番号が「１」の行では評価表現として「よい」が抽出されているのに対して、ドメイン内文番号が「１３２」で文内番号が「１」あるいは「２」の行では評価表現が抽出されなかったことを表わしている。またこれに対応し、ドメイン内文番号が「１３１」で文内番号が「１」の行ではステータスが「評価付き」であるのに対して、ドメイン内文番号が「１３２」で文内番号が「１」および「２」の行はいずれもステータスが「評価欠落」である。なお、ステータスが「評価欠落」であるような反響３つ組について、後述する手順によって評価補完器処理部２が評価表現を補完して書き込んだときには、当該反響３つ組のステータスも「補完済」に置き換えられる。
【００２６】
ここで、抽出情報データベースにおいて、ステータスが「評価付き」であるようなデータが格納される領域が、前述の評価付き反響３つ組データ記憶部５ａである。また同様に、ステータスが「評価欠落」であるようなデータが格納される領域が、前述の評価欠落反響３つ組データ記憶部５ｂである。また同様に、ステータスが「補完済」であるようなデータが格納される領域が、前述の補完済反響３つ組データ記憶部５ｃである。
【００２７】
次に各処理部（符号１〜３）の動作の詳細について説明する。
【００２８】
情報抽出器処理部１は、反響文記憶部４から反響文を読み出し、読み出した各反響文から、（反響の対象、対象の値、評価表現）という形式の反響３つ組を抽出する。このとき、読み出す反響文のすべてが評価表現を明示的に含んでいるとは限らず、抽出された反響３つ組から評価表現が欠落する場合がある。評価表現が欠落する場合、情報抽出器処理部１は、（反響の対象、対象の値）という２つ組を抽出する。これを、評価表現が欠落した放送反響３つ組と呼ぶ。評価表現が欠落する場合にも、評価表現を「φ」で表わすことによって（反響の対象、対象の値、φ）という３つ組を抽出することが出来る。そして、情報抽出器処理部１は、反響文記憶部４から読み出した多数の反響文のそれぞれに対して情報抽出の処理を繰り返す。そして、情報抽出器処理部１は、抽出された評価表現付きの反響３つ組を評価付き反響３つ組データ記憶部５ａに書き込み、評価表現の欠落した反響３つ組を評価欠落反響３つ組データ記憶部５ｂに書き込む。このようにして、入力文に基づく反響３つ組の集合が得られる。
【００２９】
図４は、情報抽出器処理部１が反響文を基に反響３つ組を抽出する処理の詳細な手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
ステップＳ１１において、情報抽出器処理部１は、反響文記憶部４から、反響文を１文読み込む。
ステップＳ１２において、情報抽出器処理部１は、形態素解析処理を行ない、あるいは予め行なっておいた形態素解析処理の結果を利用して、読み込んだ１つの反響文について、ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ − ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ，単語出現頻度−逆（ドキュメント）出現頻度）などの方法によりキーワード検出指標値を算出し、この指標値の高い１つ又は複数の単語を反響の対象として抽出する。ＴＦ−ＩＤＦは、文内の特徴的単語、即ちその文を特徴付けるとみなせる重要な単語を抽出するためのアルゴリズムの一つである。文中のｉ番目ｔ_ｉの単語のＴＦ−ＩＤＦによる指標値ｔｆｉｄｆ_ｉは、下の式（１）により算出される。
【００３０】
【数１】

【００３１】
ここで、式（１）におけるｔｆ_ｉは、その単語の出現頻度であり、下の式（２）により算出される。
【００３２】
【数２】

【００３３】
また、式（１）におけるｉｄｆ_ｉは、逆出現頻度であり、下の式（３）により算出される。
【００３４】
【数３】

【００３５】
なお、ｎ_ｉはｉ番目の単語ｔ_ｉの当該反響文における出現頻度である。｜Ｄ｜は他のドメインの反響文をも含んだ総ドキュメント数（つまり、総反響文数）である。｜｛ｄ：ｔ_ｉ∈ｄ｝｜は、ｉ番目の単語ｔ_ｉを含むドキュメント数（つまり、反響文数）である。式（３）から明らかなように、ｉｄｆ_ｉ（逆出現頻度）はいずれの反響文にも出現しやすい一般的な語が対象として検出されにくくするように作用するフィルタの役割を果たす。ｔｆ_ｉにｉｄｆ_ｉを乗じて指標値とすることにより、多くの反響文に出現する一般的な語の重要度を下げ、特定のドメインの反響文にしか出現しない単語の重要度を上げて反響の対象を抽出することができる。
【００３６】
次に、ステップＳ１３において、情報抽出器処理部１は、反響文の係り受け構造の分析を行なう。自然言語の係り受け構造の分析処理自体は、既存技術を利用して行なうことができる。例えば、日本語の係り受け構造の分析に、ＣａｂｏＣｈａ（日本語係り受け解析システム「南瓜」マルチメディア言語学情報［１８］，月刊言語，Vol.32，No.6，pp.74-75，June 2003．）やＫＮＰなどといったツールプログラムを用いても良い。
【００３７】
次に、ステップＳ１４において、情報抽出器処理部１は、ステップＳ１２で抽出された反響の対象のうちの１つについて、ステップＳ１３で得られた係り受け構造に基づき当該反響の対象の係り先となっている述語を特定し、その係り先の述語を、当該反響の対象に対応する対象の値として抽出する。この段階で、反響３つ組（反響の対象、対象の値、評価表現）の中の最初の２つの要素が抽出できる。
次に、ステップＳ１５において、情報抽出器処理部１は、評価表現記憶部７を参照することによって、反響文中の評価表現を特定する。なお、評価表現記憶部７には、予め、評価表現となり得る述語のリストを書き込んでおく。情報抽出器処理部１は、この述語のリストに含まれる語を、反響文の中で探すことによって評価表現を特定する。このとき、述語のリストに含まれる語が１つの反響文の中で複数見つかった場合には、各々の述語を評価表現とする複数の反響３つ組みを抽出する。但し、これら複数の反響３つ組のうち特定のもの（例えば、文の後方の評価表現を優先する）のみを抽出するようにしてもよい。また、１つの反響文の中に複数の反響の対象が含まれる場合には、係り受けの構造（格構造、つまり、「が格」、「を格」など）に基づいて反響の対象と評価表現とを対応付けることによって反響３つ組を抽出する。このステップにおいて評価表現が特定できた場合には、この段階で、反響３つ組のすべての要素が抽出できる。評価表現が見つからなかった場合には、評価表現を空（ヌル、φ）とした（つまり、評価表現が欠落した）反響３つ組（反響の対象、対象の値、φ）が抽出できる。
【００３８】
次に、ステップＳ１６において、情報抽出器処理部１は、現在の反響文から抽出されたすべての対象（反響の対象）について、反響３つ組の抽出の処理を終えたか否かを判定する。終えている場合（ステップＳ１６：ＹＥＳ）には次のステップＳ１７に進む。まだ終えていない場合（ステップＳ１６：ＮＯ）には、次の対象の処理を行なうためにステップＳ１４に戻る。
次に、ステップＳ１７において、情報抽出器処理部１は、入力されたすべての反響文についての処理を終えたか否かを判定する。終えている場合（ステップＳ１７：ＹＥＳ）にはこのフローチャート全体の処理を終了する。まだ終えていない場合（ステップＳ１７：ＮＯ）には、次の反響文の処理を行なうためにステップＳ１１に戻る。
【００３９】
以上説明した手順により、情報抽出器処理部１は、全ての反響文について、反響３つ組を抽出できる。なお、情報抽出器処理部１は、評価表現付きの反響３つ組のデータを評価付き反響３つ組データ記憶部５ａに書き込み、評価表現の欠落した反響３つ組のデータを評価欠落反響３つ組データ記憶部５ｂに書き込む。
【００４０】
図５は、評価補完器処理部２が、評価表現付きの反響３つ組の集合と評価が欠落した反響３つ組の集合から、評価表現を補完し、補完済みの反響3つ組の集合を得るための処理手順を示したフローチャートである。以下、このフローチャートに沿って処理を説明する。
【００４１】
まずステップＳ２１において、評価補完器処理部２は、評価付き反響３つ組データ記憶部５ａから、あるドメイン識別ＩＤを有する評価表現付きの反響３つ組を読み込む。そして、ステップＳ２２において、評価補完器処理部２は、評価欠落反響３つ組データ記憶部５ｂから、そのドメイン識別ＩＤを有する評価表現の欠落した反響３つ組を読み込む。これら読み込んだ反響３つ組全体は同一のドメイン識別ＩＤを有するものであり、これが以下の補完処理に用いる反響３つ組集合である。例えばドメイン識別ＩＤが放送番組を識別するものである場合、同一の放送番組に関する反響３つ組の集合全体が、以下の補完処理の対象となる。
【００４２】
次に、ステップＳ２３において、評価補完器処理部２は、上記の反響３つ組の集合全体の階層クラスタリング処理を行なう。なお、階層クラスタリング処理そのものは、既存技術を用いることにより実行できる。そして、この際、評価補完器処理部２は、反響３つ組の中の最初の２つの要素である（反響の対象、対象の値）を指標としたクラスタリング処理を行なう。評価表現付きの反響３つ組と評価表現の欠落した反響３つ組のいずれも、「反響の対象」および「対象の値」の各要素は空（ヌル、φ）ではない。クラスタリングを行なう際のメトリックには、例えば、ベクトル空間法を利用することができる。ここでは例えば、（反響の対象、対象の値）の２次元の空間内での距離（例えばユークリッド距離）によってメトリックを定義する。つまり、２次元空間の座標軸は、それぞれ「反響の対象」と「対象の値」に対応する。
【００４３】
その空間における距離の定義の一例としては、各軸における語の値が同一である場合（あるいは、例えば自立語部分の活用形の異なる範囲を実質同一とみなしてもよい）にはその軸における距離を０とし、語の値が異なる場合にはその軸における距離を１とする。
また、距離の定義の他の例としては、上記に加え、類義語辞書データ等を参照することにより、類義語の範囲内の語相互のその軸における距離を０．５としてもよい。
そして、ユークリッド距離を用いる場合、各軸における距離の自乗の和の平方根を、２次元空間における反響３つ組間の距離とする。
【００４４】
上記の距離をメトリックとする階層クラスタリング処理の結果、評価補完器処理部２は、（反響の対象、対象の値）の近い反響３つ組がまとめあげられた木構造のデータを生成する。評価補完器処理部２は、生成された木構造のデータを一時的にメモリに書き込む。
図６は、評価補完器処理部２による階層クラスタリング処理の結果得られる木構造のデータの一例を示す概略図である。同図（ａ）において、木構造の終端ノード（terminal node）にあたる「○」印がそれぞれ反響３つ組に対応する。この木構造において、根は１つだけであり、つまりすべてのノードは連結されている。またそれぞれの非終端ノード（non-terminal node）は必ず２個の子ノード（それら子ノードは、終端ノードあるいは非終端ノード）を有する。ある非終端ノードに直接つながる２つのノードは、互いに距離の近いノードである。
【００４５】
図５に戻り、次のステップＳ２４において、評価補完器処理部２は、上で得られた階層クラスタリング処理の結果に基づき、その木構造のデータを辿りながら、評価表現の欠落していた１つの反響３つ組について、評価表現を補完する処理を行なう。その具体的方法は次の通りである。評価補完器処理部２は、上述した一時的メモリから前記の木構造のデータを読み取る。その反響３つ組は、その木構造のいずれかの終端ノードに対応する。評価補完器処理部２は、そのノードから木を１階層上る。そこには必ず非終端ノードが存在する。その非終端ノードの配下に含まれる終端ノードすべてが、当初の終端ノードの反響３つ組を補完するための反響３つ組の集合である。この集合を便宜的に評価表現が欠落した反響３つ組の「補完候補集合」と呼ぶ。
図６（ｂ）に示す例では、記号Ａで示す終端ノードからスタートし、そのノードから１階層上った位置にある非終端ノードが記号Ｂで示すものである。そして、この非終端ノードＢの配下に含まれる終端ノードの集合（補完候補集合）とは、図示する破線の四角の枠内に含まれるすべての終端ノードの集合である。
【００４６】
ある階層まで上ったときの補完候補集合で評価表現の補完ができる場合には、その反響３つ組に対する補完処理を終了する。
ある階層まで上ったときの補完候補集合で評価表現の補完ができない場合には、さらに１階層上の非終端ノードに上り、以後、当該反響３つ組に対する補完処理ができるまで順次階層を上る。仮に、根ノードまで上っても評価表現の補完ができない場合には、当該反響３つ組に対する補完処理を行なわない。
【００４７】
補完候補集合が与えられたときの補完処理の方法は次の通りである。
即ち、その補完候補集合の中に評価表現付きの反響３つ組が１つ以上存在する場合であって、その評価表現が１種類のみ存在する場合には、その評価表現を用いて欠落していた評価表現を補完する。例えば、補完候補集合が（対象１、値１、φ）、（対象２、値２、φ）、（対象３、値３、評価表現３）、（対象４、値４、評価表現３）の４要素からなる場合、ここに含まれる唯一の評価表現である評価表現３を用いた補完を行う。
また、その補完候補集合の中に評価表現付きの反響３つ組が１つ以上存在する場合であって、その中に複数の評価表現が存在する場合には、それらの複数の評価表現の中のいずれか（例えば、多数決により決めてもよい）を用いて、欠落していた評価表現を補完する。例えば、例えば、補完候補集合が（対象１、値１、評価表現１）、（対象２、値２、評価表現２）、（対象３、値３、評価表現２）、（対象４、値４、φ）の４要素からなる場合、この集合内では評価表現１が１度登場し、評価表現２が２度登場するため、多数決により評価表現２を用いた補完を行う。
また、その補完候補集合の中に評価表現付きの反響３つ組が１つも存在しない場合には、その補完候補集合では補完処理を行なわずに、前述の通り、より上の階層に上って補完候補集合を得るようにする。
あるいは、その補完候補集合の中に評価表現付きの反響３つ組が１つも存在しない場合には、予め与えられた事前確率の最も高い評価表現（デフォルトの補完表現）を用いて補完を行うようにしてもよい。
【００４８】
次に、ステップＳ２５において、評価補完器処理部２は、評価表現の欠落したすべての反響３つ組についてステップＳ２４の補完処理を終えたか否かを判定する。すべて終えている場合（ステップＳ２５：ＹＥＳ）にはこのフローチャート全体の処理を終了し、いずれかについて終えていない場合（ステップＳ２５：ＮＯ）にはステップＳ２４に戻って次の評価欠落反響３つ組の補完処理を行なう。
【００４９】
以上により、評価補完器処理部２は、評価表現の欠落していた反響３つ組のうちの可能なすべてのものについて、評価表現を補完する処理を行なう。なお、評価補完器処理部２は、補完済の反響３つ組のデータを補完済反響３つ組データ記憶部５ｃに書き込む。
【００５０】
次に、具体的な例文を用いて上述した補完処理を補足説明する。
図７は、例文の係り受け構造を示す概略図である。
同図（ａ）は、「村人が用水路によって戻ってきたのでよかった」という反響文の係り受け構造を示している。ＴＦ−ＩＤＦの方法により、「村人」が反響の対象として抽出される。図示するか係り受け構造においては、「村人が」の係り先の述語は「戻る」である。また、評価表現記憶部７を参照することにより「よい」が評価表現として選択される。よって、この例文からは、（村人、戻る、よい）という評価表現付きの反響３つ組が抽出される。
同図（ｂ）は、「灌漑により皆が戻り集落が又出来る。」という別の反響文の係り受け構造を示している。ＴＦ−ＩＤＦの方法により、「皆」と「集落」の２つが反響の対象として抽出される。図示するように、「皆が」の係り先が「戻る」であり、「集落が」の係り先が「出来る」である。また、この反響文に関しては、評価表現が存在しない。従って、この反響文からは、（皆、戻る、φ）と（集落、出来る、φ）という、評価表現がそれぞれ欠落した２つの反響３つ組が抽出される。
そして、クラスタリング処理によって、（村人、戻る、よい）と（皆、戻る、φ）の距離が近く、これらが同一クラスタに分類される。その結果、「よい」という評価表現が補完され、（皆、戻る、よい）という補完済の反響３つ組が得られる。
【００５１】
なお、本実施形態で利用するクラスタリング技術およびベクトル空間法の技術としては、下記の文献に記載されている技術を応用することもできる。
文献：Christopher D. Manning et. Al， "Foundations of Statistical Natural Language Processing"
【００５２】
以上述べたように、本実施形態では、文に含まれる特徴的な語である対象語（反響の対象）と、文の係り受け構造において対象語の係り先となる述語である値との組を特徴データとして用いる。そして、情報抽出器処理部１は、文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出する。そして、評価補完器処理部２は、この特徴データに含まれる対象語と値との組をクラスタリング処理することにより特徴データ間の類似度の算出を行なうものである。
また、本実施形態では、反響文にはドメイン識別ＩＤ（ドメイン識別データ）が付加されており、情報抽出器処理部１は、ドメイン識別ＩＤが付加された評価付き抽出情報および評価欠落抽出情報を抽出してそれぞれ記憶部に書き込む。そして、評価補完器処理部２は、ドメイン識別ＩＤ同一である範囲でクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なう。同一のドメイン識別ＩＤを有しているデータは、例えば、同一の放送番組に対する反響であり、その範囲内でクラスタリングおよび評価表現の補完を行なうことにより、良い精度の補完が行なえる。
【００５３】
［第１の実施の形態の変形例］
上記の実施形態では、評価補完器処理部２が補完すべき評価表現を決定する際（図５のフローチャートのステップＳ２４）、階層クラスタリング処理の結果得られた木構造を順次上り、最高で根ノードまで上って補完候補集合を得ることとしたが、その代わりに次のいずれかの方法をとってもよい。
第１の方法は、予め所定の最大階層数を決めておき、最大でもその階層の非終端ノードまでしか上らず、補完候補集合を当該非終端ノードの配下の範囲内のみに限定する。
第２の方法は、予め所定の最大３つ組数を決めておき、その最大３つ組数の範囲内の終端ノードを配下に有する非終端ノードまでしか上らず、補完候補集合を当該非終端ノードの配下の範囲内のみに限定する。
【００５４】
［第２の実施の形態］
次に、第２の実施形態について説明する。
図８は、同実施形態による表現補完装置２０の機能構成を示すブロック図である。この表現補完装置２０の構成が前実施形態の表現補完装置１０と異なる点は、入力文に基づいて単語概念を抽出する単語概念抽出処理部１８を有している点と、評価補完器処理部１２がこの単語概念抽出処理部１８によって出力される単語概念の情報に基づいて、ベクトル空間法における距離を決定し階層クラスタリングを行なう点である。なお、その他の各部の機能については、前実施形態と同様であるので、ここでは説明を省略する。
【００５５】
単語概念抽出処理部１８は、反響文記憶部４から読み出す反響文の集合に基づいて、これらの文に含まれる単語間の概念空間における距離を算出する。その方法は、以下の通りである。
【００５６】
まず、単語概念抽出処理部１８は、反響文記憶部４に記憶されている反響文を読み出す。このとき、例えば、同一のドメイン識別ＩＤを有する反響文をすべて読み出して処理対象としてもよいし、複数のドメイン識別ＩＤに跨る反響文を読み出して処理対象としてもよい。そして、単語概念抽出処理部１８は、それらの反響文の形態素解析処理を行ない、各反響文に含まれる単語の出現頻度をカウントし、その結果として下の式（４）で表わされるＢＯＷ（ＢａｇｏｆＷｏｒｄｓ、バッグ・オブ・ワーズ、単語の出現順序を考慮しない単語出現頻度情報）の行列Ｘのデータを作成する。
【００５７】
【数４】

【００５８】
この行列Ｘにおいて、各行が単語に対応し、各列がドキュメント（ここでは反響文）に対応する。そして、行列Ｘの要素ｘ_ｉ，ｊは、ｉ番目の単語がｊ番目の反響文において出現する頻度（回数）である。言いかえれば、行列Ｘに含まれる行ベクトルｔ_ｉ^Ｔは、ｉ番目の単語に対応したベクトルであり、各反響文での出現状況を表わしている。これらの定義からわかるように、行列Ｘは、大規模で、且つ通常は疎な行列である。
【００５９】
次に、単語概念抽出処理部１８は、行列Ｘに対して特異値分解（ＳＶＤ、ＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ）の処理を施す。特異値分解により、行列Ｘは、下の式（５）のように分解される。
【００６０】
【数５】

【００６１】
ここで、行列ＵとＶは直交する行列であり、行列Σは対角行列である。なお、行列Ｕはｍ行ｌ（エル）列、行列Ｖはｌ（エル）行ｎ列、行列Σは、ｌ（エル）行ｌ（エル）列である。ここで、行列Σの対角要素σ_１，・・・，σ_ｌを特異値と呼び、列ベクトルｕ_１，・・・，ｕ_ｌを左特異ベクトルと呼び、行ベクトルｖ_１，・・・，ｖ_ｌを右特異ベクトルと呼ぶ。そして、ｋ個の最大の特異値と、行列ＵとＶからそれらに対応する特異ベクトルを選ぶことにより、階数ｋの行列Ｘへの近似を得る。この近似は、下の式（６）のように表わせる。
【００６２】
【数６】

【００６３】
ベクトルｔ_ｉ（ハット）はｋ個の要素を有し、そのそれぞれの要素がｉ番目の単語ｋ個の概念の１つに対応した出現を表している。
単語概念抽出処理部１８は、このような計算で得られるベクトルを各単語に対応させる形で一時的にメモリに書き込んでおく。
【００６４】
そして、本実施形態による評価補完器処理部１２は、上記メモリから適宜ベクトルのデータを読み出すことにより、任意に選ばれた２つの単語について、それらの単語に対応するベクトルから、それらの単語間の距離を得る。単語間の距離としては、例えば、２つのベクトルのコサイン相関量の逆数を用いる。そして、評価補完器処理部１２は、反響３つ組の中の最初の２つの要素である「反響の対象」および「対象の値」のそれぞれの軸についての単語間の距離から、反響３つ組間のユークリッド距離を算出する。そして、評価補完器処理部１２は、このユークリッド距離を用いて評価表現付きの反響３つ組および評価が欠落した反響３つ組の集合の階層クラスタリングの処理を行なう。以後の処理については、前実施形態と同様であるので、個々での説明を省略する。
【００６５】
なお、本実施形態では、単語概念抽出器処理部１８が反響文記憶部４から読み出した反響文の集合に基づいて単語と概念との対応付け、言い換えれば概念上での単語間の距離の算出を行なうようにしているが、その変形として、反響文以外の一般的な文の集合を記憶媒体等から読み出して、その文集合を基に、上記と同様の方法で単語間の距離の算出を行うようにしてもよい。さらに、この距離の算出を単語概念抽出器処理部１８が予め行なうことによって算出された単語間の距離を予めメモリ等に記憶しておき、評価補完器処理部１２がそのメモリから単語間の距離を読み出して階層クラスタリング処理を行なうようにしてもよい。
【００６６】
以上述べたように、本実施形態も、第１の実施形態と同様に、文に含まれる特徴的な語である対象語（反響の対象）と、文の係り受け構造において対象語の係り先となる述語である値との組を特徴データとして用いてクラスタリング処理を行なう。本実施形態の特徴は、そのときの組間の距離を算出するために、単語についての潜在意味解析（ＬＳＩ，ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）の処理の結果として得られる単語間の距離データを用いる点である。つまり、本実施形態では、（反響の対象（対象語），値（述語））の２次元空間において、潜在意味解析を用いて意味的に近いもの同士の距離が近くなるような計算を行なう。
【００６７】
［第３の実施の形態］
次に、本発明の第３の実施形態について説明する。
図９は、同実施形態による表現補完装置３０の機能構成を示すブロック図である。この表現補完装置３０の構成が第１の実施形態の表現補完装置１０と異なる点は、評価付き反響３つ組データ記憶部５ａ、評価欠落反響３つ組データ記憶部５ｂ、補完済反響３つ組データ記憶部５ｃの代わりに、それぞれ、評価付き反響２つ組データ記憶部２５ａ、評価欠落反響２つ組データ記憶部２５ｂ、補完済反響２つ組データ記憶部２５ｃを含むことである。また、それに伴い、情報抽出器処理部２１は、反響文を基に、後述する反響２つ組のデータを抽出する。また、評価補完器処理部２２は、その反響２つ組のデータを用いて評価表現の補完処理を行なう。なお、その他の各部の機能については、前実施形態と同様であるので、ここでは説明を省略する。
【００６８】
図１０は、本実施形態による抽出情報データベースの構造およびデータ例を示す概略図である。図示するように、抽出情報データベースは、二次元の表形式のデータであり、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスと、反響２つ組の各項目を有する。これらの項目のうち、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスについては、第１の実施形態における抽出情報データベースと同様である。
【００６９】
ここで、抽出情報データベースにおいて、ステータスが「評価付き」であるようなデータが格納される領域が、評価付き反響２つ組データ記憶部２５ａである。同様に、ステータスが「評価欠落」であるようなデータが格納される領域が、評価欠落反響２つ組データ記憶部２５ｂである。同様に、ステータスが「補完済」であるようなデータが格納される領域が、補完済反響２つ組データ記憶部２５ｃである。
【００７０】
本実施形態で用いる反響２つ組のデータは、さらに、反響の対象と、評価表現の各項目から構成されている。このうち、反響の対象の項目には、入力される反響文に対応する構文解析木のデータが格納される。この構文解析木のデータは、適宜、木を表現する構造を有するテキストデータや、オブジェクトデータベース技術を用いたオブジェクトデータなどの形で表現される。評価表現の項目は、第１の実施形態におけるそれと同様である。
【００７１】
本実施形態における情報抽出器処理部２１は、構文解析処理の機能を備えており、反響文記憶部４から読み出したそれぞれの反響文について、構文解析処理を行ない、その結果として構文解析木のデータを得る。また、情報抽出器処理部２１は、第１の実施形態と同様の方法で評価表現の抽出を行なう。評価表現が抽出できた反響文については、情報抽出器処理部２１は、その評価表現を含む反響２つ組のデータを評価付き反響２つ組データ記憶部２５ａに書き込む。また評価表現が抽出できなかった反響文については、情報抽出器処理部２１は、評価表現が空（ヌル、φ）であるような、即ち評価表現の欠落した反響２つ組のデータを評価欠落反響２つ組データ記憶部２５ｂに書き込む。
【００７２】
また、評価補完器処理部２２は、反響２つ組データ記憶部２５ａおよび評価欠落反響２つ組データ記憶部２５ｂから読み出した反響２つ組の集合の階層クラスタリング処理を行なう。本実施形態においては、「反響の対象」の項目に格納されている構文解析木自体が元の反響文の特徴を表わすデータであり、評価補完器処理部２２は、この構文解析木のデータに基づいて反響２つ組の間の距離を求め、この距離を用いた階層クラスタリング処理を行なう。なお、反響２つ組の間の距離を算出するためには、構文解析木のデータに基づく各反響文の特徴ベクトルを生成し、この特徴ベクトルによりＬＳＩ（潜在意味解析）の処理を行なう。そして、評価補完器処理部２２は、階層クラスタリングの結果に基づき、第１の実施形態と同様に評価表現の補完を行ない、評価表現を補完した反響２つ組については、そのデータを補完済反響２つ組データ記憶部２５ｃに書き込む。
【００７３】
［第３の実施の形態の変形例］
なお、上記の実施形態では、反響２つ組の要素である「反響の対象」として構文解析木のデータを用いたが、代わりに例えば、各反響文に含まれる単語の出現頻度をカウントし、その結果として得られるＢＯＷ（バッグ・オブ・ワーズ）の単語出現頻度ベクトルを「反響の対象」のデータとして用いるようにしてもよい。この単語出現頻度ベクトルは、前記の式（４）で示した行列Ｘにおける１列のベクトル（ｘ_１，ｉ，・・・・・・，ｘ_ｍ，ｉ，）に相当する（１≦ｉ≦ｎ）。
【００７４】
以上述べたように、第３の実施形態では、文に対応する構文解析木のデータを特徴データとして用いる。つまり、情報抽出器処理部２１は、文を構文解析処理することにより構文解析木のデータを特徴データとして抽出する。そして、評価補完器処理部２２は、この構文解析木のデータ間の距離に基づくクラスタリング処理を行なう。
【００７５】
なお、上述した各実施形態における表現補完装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【００７６】
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
第１〜第３の実施形態においては、評価補完器処理部が階層クラスタリングを用いて近い反響３つ組（あるいは２つ組）同士をまとめ上げるようにしたが、代わりに、非階層クラスタリングを行なうようにしてもよい。非階層クラスタリングを用いた場合にも、評価表現が欠落した反響３つ組（あるいは２つ組）と同じクラスタに属する（あるいは近いクラスタに属する）評価表現付きの反響３つ組（あるいは２つ組）の評価表現を用いて、評価表現の補完処理を行なう。また、そのようなクラスタに複数種類の評価表現が含まれる場合には、適宜、多数決等の方法によって補完に用いるための評価表現を決定する。
【００７７】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、前記の各実施形態では反響文を入力文として用いたが、これに限らず、一般的に類似の性質を持つ文の集合を入力文集合としても良い。
【産業上の利用可能性】
【００７８】
本発明は、一例としては、放送番組視聴者や消費者（物品購買者やサービスの提供を受ける者）などからの反響を機械的に効率よく分析するために利用可能である。特に、明示的な評価表現を必ずしも含むとは限らない反響文の集合を基に、欠落している評価表現（即ち、反響文が暗示している評価表現）を機械的に補完して、反響の分析に生かすことが可能となる。
また、本発明は、同一のコンテンツに多数の反響が寄せられることに鑑みてなされたものであり、マスメディア（映画、番組、放送）の評判分析を行う場面に効果的に用いることが出来る。
【図面の簡単な説明】
【００７９】
【図１】第１の実施形態による表現補完装置の機能構成を示すブロック図である。
【図２】同実施形態における反響文記憶部４に記憶される入力文データの構造およびデータ例を示す概略図である。
【図３】同実施形態における抽出情報データベース（評価付き反響３つ組データ記憶部５ａ，評価欠落反響３つ組データ記憶部５ｂ，補完済反響３つ組データ記憶部５ｃ）の構造およびデータ例を示す概略図である。
【図４】同実施形態における情報抽出器処理部１が反響文を基に反響３つ組を抽出する処理の手順を示すフローチャートである。
【図５】同実施形態における評価補完器処理部２が、反響３つ組の集合から、評価表現を補完する処理の手順を示したフローチャートである。
【図６】同実施形態における評価補完器処理部２による階層クラスタリング処理の結果得られる木構造のデータの一例を示す概略図である。
【図７】同実施形態における情報抽出器処理部１が評価の値を抽出するために用いる係り受け構造の例を示す概略図である。
【図８】第２の実施形態による表現補完装置の機能構成を示すブロック図である。
【図９】第３の実施形態による表現補完装置の機能構成を示すブロック図である。
【図１０】同実施形態における抽出情報データベース（評価付き反響２つ組データ記憶部２５ａ，評価欠落反響２つ組データ記憶部２５ｂ，補完済反響２つ組データ記憶部２５ｃ）の構造およびデータ例を示す概略図である。
【図１１】第３の実施形態の変形例における抽出情報データベースの構造およびデータ例を示す概略図である。
【符号の説明】
【００８０】
１，２１情報抽出器処理部（情報抽出処理部、情報抽出処理過程）
２，１２，２２評価補完器処理部（評価補完処理部、評価補完処理過程）
３文書分類器処理部
４反響文記憶部（入力データベース）
５ａ評価付き反響３つ組データ記憶部（評価付き抽出情報記憶部）
５ｂ評価欠落反響３つ組データ記憶部（評価欠落抽出情報記憶部）
５ｃ補完済反響３つ組データ記憶部（補完済抽出情報記憶部）
２５ａ評価付き反響２つ組データ記憶部（評価付き抽出情報記憶部）
２５ｂ評価欠落反響２つ組データ記憶部（評価欠落抽出情報記憶部）
２５ｃ補完済反響２つ組データ記憶部（補完済抽出情報記憶部）
６分類結果データ
７評価表現記憶部
１８単語概念抽出器処理部

【特許請求の範囲】
【請求項１】
入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理部と、
前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データとに基づき、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報を補完済抽出情報記憶部に書き込む評価補完処理部と、
を具備することを特徴とする表現補完装置。
【請求項２】
前記特徴データは、前記文に含まれる特徴的な語である対象語と、前記文の係り受け構造において前記対象語の係り先となる述語である値との組であり、
前記情報抽出処理部は、前記文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出し、
前記評価補完処理部は、前記特徴データに含まれる前記対象語と前記値との組をクラスタリング処理することにより前記特徴データ間の類似度の算出を行なう、
ことを特徴とする請求項１に記載の表現補完装置。
【請求項３】
前記評価補完処理部は、前記文に含まれる単語についての潜在意味解析の処理の結果として得られる単語間の距離データに基づき、前記対象語間の距離データおよび前記値間の距離データを求めることにより前記クラスタリング処理を行なう、
ことを特徴とする請求項２に記載の表現補完装置。
【請求項４】
前記特徴データは、前記文に対応する構文解析木のデータであり、
前記情報抽出処理部は、前記文を構文解析処理することにより前記構文解析木のデータを前記特徴データとして抽出する、
ことを特徴とする請求項１に記載の表現補完装置。
【請求項５】
前記文集合のデータには文毎のドメイン識別データが付加されており、
前記情報抽出処理部は、前記ドメイン識別データが付加された前記評価付き抽出情報を前記評価付き抽出情報記憶部に書き込むとともに、前記ドメイン識別データが付加された前記評価欠落抽出情報を前記評価欠落抽出情報記憶部に書き込み、
評価補完処理部は、前記ドメイン識別データが同一である範囲の前記評価付き抽出情報および前記評価欠落抽出情報を用いてクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なう、
ことを特徴とする請求項１から４までのいずれか一項に記載の表現補完装置。
【請求項６】
入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理過程と、
前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データとに基づき、これら前記特徴データ間の類似度を算出する処理を行ない、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する評価補完処理過程と、
の処理をコンピュータに実行させるプログラム。

【図１】