表現補完装置およびコンピュータプログラム
【課題】大量のルール等を予め準備する手間をかけずに、与えられる文データに基づき、文中において欠落している評価表現を補完する表現補完装置を提供する。
【解決手段】情報抽出処理部は、文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む。評価補完処理部は、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する。
【解決手段】情報抽出処理部は、文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む。評価補完処理部は、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ等を用いた情報処理技術に関する。特に、コンピュータ等を用いた自然言語処理の技術に関する。
【背景技術】
【0002】
商品やサービスやコンテンツ(放送番組や音楽や映像など)に対する反響、あるいはそれらを販売ないしは提供する企業体自体に対する反響等を収集し、収集した反響等を分析し、その分析結果を以後の商品やサービスやコンテンツ等の制作等に反映させるといったことが行なわれている。これらの反響は、多くの場合、自然言語で書かれた文として収集されるが、そのような反響文をすべて人手により分析するには多くの労力を要するため、その省力化が望まれる。
【0003】
このように自然言語によって記述された文に基づいて評判分析する技術は、評価文の極性を判定する方法が主流であった。例えば、ある製品に対して、評判分析を行うと、その製品が肯定的に評価されているか(よい評判であるか)、あるいは、否定的に評価されているか(わるい評判であるか)のいずれかを判定することを行ってきた。
【0004】
特許文献1には、極性(肯定的あるいは否定的)の知られている評価表現を予め登録表現記憶部に登録しておき、与えられたテキスト中に含まれる評価表現を抽出し、また同テキスト中に含まれる評価表現同士の接続関係を示す接続表現を抽出するとともに、抽出された評価表現のうち予め登録表現記憶部に登録されている評価表現を検出し、検出された評価表現と他の評価表現とを接続する接続表現(順接であるか逆接であるかなど)に応じて当該他の評価表現の極性を判断する技術が記載されている。
特許文献2には、対象事物の性質を表わす属性表現とその属性表現に対する評判情報を複数のカテゴリに分類し出力する技術が記載されており、この技術を用いることにより、評判情報から対象事物に関する知見を(人が)得ることができるとされている。
【特許文献1】特許第3962382号公報
【特許文献2】特開2007−172051号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、自然言語により自由記述される文は、必ずしも評価表現を含むとは限らないという問題があった。このように評価を表す語が明示されていない文については、従来技術を用いる限りは、評価を推定することが困難もしくは不可能であった。
また例えば、「映像の迫力に驚いた」という文の場合、肯定的な評価を表すことが多い。また、「番組の構成に驚いた」という文の場合、否定的な評価を表すことが多い。これらの評価が肯定的であるか否定的であるかを決定するのは、「驚いた」という語の持つ性質だけによるものではなく、その対象となる「映像の迫力」や「番組の構成」がもつ性質も考慮する必要がある。従来技術による評判分析では、「驚いた」という語の持つ性質(極性)から文の極性を判断しようとしているために、必ずしも適切に文の極性を判断することができないという問題があった。
また、評価表現の判断として、単なる極性の判断に限らず、肯定的/否定的の二極以外の多様な判断を行ないたいという要求もあった。
また、文の性質(出現する語彙や構文特徴など)に関するルールを用意しておいて評価表現を判断するという方法も考え得るが、このアプローチを取る場合には膨大な量のルールを予め整備して登録しておくという前作業が必要であり、手間がかかるという問題がある。
【0006】
本発明は、上記の課題認識に基づいて行なわれたものであり、大量のルール等を予め準備する手間をかけずに、与えられる文データ(反響文など)に基づき、文中において欠落している評価表現を補完することのできる表現補完装置およびそのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
[1]上記の課題を解決するため、本発明の一態様による表現補完装置は、入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理部と、前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データに基づき、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報を補完済抽出情報記憶部に書き込む評価補完処理部を具備する。
【0008】
ここで、特徴データとは、各々の文から抽出され得る情報であり、例えば、その文の中に出現する語等を分析することによって(反響の対象、値)という組の形式で得られるデータや、その文を構文解析して得られる構文解析木のデータ(反響の対象)や、その文の単語出現頻度ベクトルのデータ(反響の対象)などである。
上記の構成によれば、情報抽出処理部は、文の特徴データとその文の評価表現とを含む評価付き抽出情報を抽出するとともに、文の特徴データを含んでおり評価表現が欠落している評価欠落抽出情報を抽出する。そして、評価補完処理部は、特徴データに基づいて評価付き抽出情報と評価欠落抽出情報のクラスタリング処理を行なう。そして、評価補完処理部は、クラスタリング処理の結果に基づき、評価付き抽出情報が持つ評価表現を用いて評価欠落抽出情報の評価表現を補完する。
【0009】
[2]また、本発明の一態様は、上記の表現補完装置において、前記特徴データは、前記文に含まれる特徴的な語である対象語と、前記文の係り受け構造において前記対象語の係り先となる述語である値との組であり、前記情報抽出処理部は、前記文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出し、前記評価補完処理部は、前記特徴データに含まれる前記対象語と前記値との組をクラスタリング処理することにより前記特徴データ間の類似度の算出を行なうことを特徴とする。
この構成によれば、評価補完処理部は、対象語と値の組によるクラスタリング処理を行ない、そのクラスタリング処理の結果に基づいて前記の評価表現の補完を行う。
【0010】
[3]また、本発明の一態様は、上記の表現補完装置において、前記評価補完処理部は、前記文に含まれる単語についての潜在意味解析の処理の結果として得られる単語間の距離データに基づき、前記対象語間の距離データおよび前記値間の距離データを求めることにより前記クラスタリング処理を行なうことを特徴とする。
この構成によれば、評価補完処理部は、潜在意味解析の処理の結果に基づいて、それぞれ対象語と値からなる複数の組の間の距離を算出することができ、この距離に基づいてクラスタリング処理を行なう。
【0011】
[4]また、本発明の一態様は、上記の表現補完装置において、前記特徴データは、前記文に対応する構文解析木のデータであり、前記情報抽出処理部は、前記文を構文解析処理することにより前記構文解析木のデータを前記特徴データとして抽出することを特徴とする。
この構成によれば、評価補完処理部は、構文解析木のデータが有する特徴に基づくクラスタリング処理を行ない、そのクラスタリング処理の結果に基づいて前記の評価表現の補完を行う。
【0012】
[5]また、本発明の一態様は、上記の表現補完装置において、前記文集合のデータには文毎のドメイン識別データが付加されており、前記情報抽出処理部は、前記ドメイン識別データが付加された前記評価付き抽出情報を前記評価付き抽出情報記憶部に書き込むとともに、前記ドメイン識別データが付加された前記評価欠落抽出情報を前記評価欠落抽出情報記憶部に書き込み、評価補完処理部は、前記ドメイン識別データが同一である範囲の前記評価付き抽出情報および前記評価欠落抽出情報を用いてクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なうことを特徴とする。
ここで、ドメインには、所定の文の集合が属する。ドメイン識別データとは個々のドメインを一意に識別できるデータ(ドメイン識別ID)である。ドメインの一例は、ある放送番組やある商品などである。このとき、そのドメインに属する文の集合とは、例えば、その放送番組あるいはその商品に対する反響文の集合である。
上記の構成によれば、評価補完処理部は、同一のドメイン識別データを有する文から抽出された情報を用いてクラスタリング処理を行ない、その結果に基づいて評価表現の補完を行なう。同一ドメインに属する文同士は、異なるドメインに属する文同士に比べて、似ている傾向を有する。即ち、前記特徴データによるクラスタリング処理を行なったときに、互いに近い(類似度の高い)特徴データを有する抽出情報同士が互いに近い評価表現を本来有する傾向が強い。従って、たとえ一方の抽出情報において評価表現が欠落している場合においても、近い特徴データを有する抽出情報の評価表現を用いて行なう補完が、適切な補完である度合いがより一層高くなる。
【0013】
[6]また、本発明のコンピュータプログラムは、入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理過程と、前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データに基づき、これら前記特徴データ間の類似度を算出する処理を行ない、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する評価補完処理過程と、の処理をコンピュータに実行させる。
【発明の効果】
【0014】
本発明によれば、入力される文の中に評価表現が明示的に含まれていない文が含まれている場合にも、予めルールベース等を準備する必要なく、そのような文についての評価表現の補完を、適切且つ自動的に行なうことができる。このように補完された評価表現によって文を分類する(例えば円グラフ等で表現する)ことによって、評価表現が明示的に含まれていない文を含んでいる場合にも、手間をかけずに高精度な評価分析・評判分析を実現することができる。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照しながら、本発明の実施形態について説明する。
[第1の実施の形態]
図1は、本発明の第1の実施形態による表現補完装置の機能構成を示すブロック図である。同図において、符号10が表現補完装置である。この表現補完装置10は、反響文から反響内容に関する3つ組(triplet)を抽出し、この3つ組を分析することによって評価表現を補完する処理を実行する。図示するように、表現補完装置10は、情報抽出器処理部1と、評価補完器処理部2と、文書分類器処理部3と、反響文記憶部(入力文データベース)4と、評価付き反響3つ組データ記憶部5aと、評価欠落反響3つ組データ記憶部5bと、補完済反響3つ組データ記憶部5cと、分類結果データ6と、評価表現記憶部7とを含んで構成される。
【0016】
情報抽出器処理部1と、評価補完器処理部2と、文書分類器処理部3の各処理部は、例えば、電子回路を用いて実現されるものであり、それぞれ、入力されるデータを処理してその処理結果のデータを出力する。反響文記憶部4と、評価付き反響3つ組データ記憶部5aと、評価欠落反響3つ組データ記憶部5bと、補完済反響3つ組データ記憶部5cと、評価表現記憶部7の各記憶部は、例えば、磁気ハードディスク装置や半導体メモリなどを用いて実現される。このうち、評価付き反響3つ組データ記憶部5aと、評価欠落反響3つ組データ記憶部5bと、補完済反響3つ組データ記憶部5cとは、それぞれ、後述する抽出情報データベースに含まれる記憶領域である。
【0017】
また、分類結果データ6は、文書分類器処理部3による処理の結果のデータであり、基になる多数の入力文に占める各々の評価表現の割合を表わすものである。また、分類結果データ6は、例えば、円グラフなどのグラフによってこれらの各割合を表現する携帯としても良い。
【0018】
情報抽出器処理部1は、入力される文集合のデータを反響文記憶部4から読み込み、この文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報(評価付き反響3つ組のデータ)として評価付き反響3つ組データ記憶部5a(評価付き抽出情報記憶部)に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報(評価欠落反響3つ組のデータ)として評価欠落反響3つ組データ記憶部5b(評価欠落抽出情報記憶部)に書き込む。
また、評価補完器処理部2は、評価付き反響3つ組記憶部5aから読み出した評価付き抽出情報に含まれる文の特徴データと、評価欠落反響3つ組記憶部5aから読み出した評価欠落抽出情報に含まれる文の特徴データとに基づき、クラスタリング処理を行なうことにより特徴データ間の類似度を算出し、評価欠落抽出情報に含まれる特徴データに近い(つまり、類似度の高い)範囲の特徴データを有する評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報(補完済み反響3つ組のデータ)を補完済反響3つ組データ記憶部5c(補完済抽出情報記憶部)に書き込む。
文書分類器処理部3は、補完済反響3つ組のデータを読み込み、その評価表現(元々抽出されていた評価表現と補完された評価表現の両方)に基づいて、反響3つ組を分類する処理を行ない、その分類結果を円グラフ等のグラフとして出力する。
【0019】
本実施形態で用いる反響文は、例えば、放送番組に対して寄せられる反響文である。寄せられる反響文は自然言語による自由記述文である。本実施形態の表現補完装置10は、その自由記述文の中から、反響の対象(何に対しての反響なのか)、値(その対象がどういった状態なのか)、評価表現(それをどう評価するのか)という3つ組のデータを抽出して分析する。
【0020】
図2は、反響文記憶部4に記憶される入力文データの構造およびデータ例を示す概略図である。図示するように、反響文記憶部4に記憶されるデータは、二次元の表形式のデータであり、ドメイン識別IDと、ドメイン内文番号と、反響文の各項目を有する。ドメイン識別番号は、反響文がどのドメインに対するものであるかを識別するための情報である。例えば、テレビやラジオなどの放送番組に対する反響文を入力データとする場合には、このドメイン識別IDによって個々の放送番組を識別できるようにする。また例えば、商品に対する反響文を入力データとする場合には、このドメイン識別IDによって商品の種類を識別できるようにする。ドメイン内文番号は、同一のドメイン識別IDを有する各々の反響文を識別するための情報であり、例えば、同一ドメインに属する反響文に対して、自然数による連番を付与するようにする。反響文は、例えば放送番組の視聴者や商品の購入者などによって自然言語(日本語や英語などなど)を用いて書かれた文である。反響文は特定の形式を有するものでなくてもよく、反響を自由記述したものでよい。また、これら反響文には、評価表現が含まれている反響文と評価表現が含まれていない反響文とが混在していて良い。
【0021】
なお、図示しているデータ構造において、ドメイン識別IDとドメイン内文番号の複合が、主キー(primary key)である。
図示するデータ例においては、ドメイン識別IDが「200811011930」である行が複数存在し、それらのドメイン内文番号が「1」から順次付与されており、ドメイン内文番号「131」に対応して反響文「村人が用水路によって戻ってきたのでよかった」が格納されている。同様に、ドメイン内文番号「132」に対応して反響文「灌漑により皆が戻り集落が又出来る。」が格納されている。
【0022】
図3は、抽出情報データベースの構造およびデータ例を示す概略図である。図示するように、抽出情報データベースは、二次元の表形式のデータであり、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスと、反響3つ組の各項目を有する。このうち反響3つ組は、さらに、反響の対象と、値と、評価表現の各項目から構成されている。これらの項目のうち、ドメイン識別IDとドメイン内文番号は、反響文記憶部4に記憶されていた入力文データにおけるドメイン識別IDとドメイン内文番号にそれぞれ対応している。文内番号は、1つの反響文に複数の反響3つ組が対応する場合に、それぞれの反響3つ組を識別するための情報であり、例えば、同一の反響文に対応するそれぞれの反響3つ組に対して、自然数による連番が付与される。
【0023】
抽出情報データベースにおいて、ドメイン識別IDとドメイン内文番号と文内番号の複合が、主キーである。また、抽出情報データベースにおいて、各行は反響文から抽出された反響3つ組に対応する。ステータスは、当該行が表わす反響3つ組の状態を表わすデータであり、「評価付き」、「評価欠落」、「補完済」のいずれかの値を取り得る。
また、反響3つ組の中の反響の対象と値の項目が、文の特徴データに相当する。
【0024】
同図に示しているデータ例は、図2に示した反響文に対応する反響3つ組の例を表わしている。図3の1行目のデータは、ドメイン識別IDが「200811011930」であり、ドメイン内文番号が「131」であり、文内番号が「1」である。これは、図2において対応している反響文「村人が用水路によって戻ってきたのでよかった」から抽出される反響3つ組を表わす。(反響の対象、対象の値、評価表現)の形で表わすと、この反響3つ組は、(村人、戻る、よい)である。図3の2行目および3行目のデータは、ドメイン識別IDが「200811011930」であり、ドメイン内文番号が「132」であり、文内番号がそれぞれ「1」と「2」である。これは、図2において対応している反響文「灌漑により皆が戻り集落が又出来る。」から抽出される2つの反響3つ組を表わす。それらは、それぞれ、(皆、戻る、φ)と(集落、出来る、φ)である。
【0025】
ここで、「φ」は空(ヌル)を表わす。つまり、ドメイン内文番号が「131」で文内番号が「1」の行では評価表現として「よい」が抽出されているのに対して、ドメイン内文番号が「132」で文内番号が「1」あるいは「2」の行では評価表現が抽出されなかったことを表わしている。またこれに対応し、ドメイン内文番号が「131」で文内番号が「1」の行ではステータスが「評価付き」であるのに対して、ドメイン内文番号が「132」で文内番号が「1」および「2」の行はいずれもステータスが「評価欠落」である。なお、ステータスが「評価欠落」であるような反響3つ組について、後述する手順によって評価補完器処理部2が評価表現を補完して書き込んだときには、当該反響3つ組のステータスも「補完済」に置き換えられる。
【0026】
ここで、抽出情報データベースにおいて、ステータスが「評価付き」であるようなデータが格納される領域が、前述の評価付き反響3つ組データ記憶部5aである。また同様に、ステータスが「評価欠落」であるようなデータが格納される領域が、前述の評価欠落反響3つ組データ記憶部5bである。また同様に、ステータスが「補完済」であるようなデータが格納される領域が、前述の補完済反響3つ組データ記憶部5cである。
【0027】
次に各処理部(符号1〜3)の動作の詳細について説明する。
【0028】
情報抽出器処理部1は、反響文記憶部4から反響文を読み出し、読み出した各反響文から、(反響の対象、対象の値、評価表現)という形式の反響3つ組を抽出する。このとき、読み出す反響文のすべてが評価表現を明示的に含んでいるとは限らず、抽出された反響3つ組から評価表現が欠落する場合がある。評価表現が欠落する場合、情報抽出器処理部1は、(反響の対象、対象の値)という2つ組を抽出する。これを、評価表現が欠落した放送反響3つ組と呼ぶ。評価表現が欠落する場合にも、評価表現を「φ」で表わすことによって(反響の対象、対象の値、φ)という3つ組を抽出することが出来る。そして、情報抽出器処理部1は、反響文記憶部4から読み出した多数の反響文のそれぞれに対して情報抽出の処理を繰り返す。そして、情報抽出器処理部1は、抽出された評価表現付きの反響3つ組を評価付き反響3つ組データ記憶部5aに書き込み、評価表現の欠落した反響3つ組を評価欠落反響3つ組データ記憶部5bに書き込む。このようにして、入力文に基づく反響3つ組の集合が得られる。
【0029】
図4は、情報抽出器処理部1が反響文を基に反響3つ組を抽出する処理の詳細な手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
ステップS11において、情報抽出器処理部1は、反響文記憶部4から、反響文を1文読み込む。
ステップS12において、情報抽出器処理部1は、形態素解析処理を行ない、あるいは予め行なっておいた形態素解析処理の結果を利用して、読み込んだ1つの反響文について、TF−IDF(Term Frequency − Inverse Document Frequency,単語出現頻度−逆(ドキュメント)出現頻度)などの方法によりキーワード検出指標値を算出し、この指標値の高い1つ又は複数の単語を反響の対象として抽出する。TF−IDFは、文内の特徴的単語、即ちその文を特徴付けるとみなせる重要な単語を抽出するためのアルゴリズムの一つである。文中のi番目tiの単語のTF−IDFによる指標値tfidfiは、下の式(1)により算出される。
【0030】
【数1】
【0031】
ここで、式(1)におけるtfiは、その単語の出現頻度であり、下の式(2)により算出される。
【0032】
【数2】
【0033】
また、式(1)におけるidfiは、逆出現頻度であり、下の式(3)により算出される。
【0034】
【数3】
【0035】
なお、niはi番目の単語tiの当該反響文における出現頻度である。|D|は他のドメインの反響文をも含んだ総ドキュメント数(つまり、総反響文数)である。|{d:ti∈d}|は、i番目の単語tiを含むドキュメント数(つまり、反響文数)である。式(3)から明らかなように、idfi(逆出現頻度)はいずれの反響文にも出現しやすい一般的な語が対象として検出されにくくするように作用するフィルタの役割を果たす。tfiにidfiを乗じて指標値とすることにより、多くの反響文に出現する一般的な語の重要度を下げ、特定のドメインの反響文にしか出現しない単語の重要度を上げて反響の対象を抽出することができる。
【0036】
次に、ステップS13において、情報抽出器処理部1は、反響文の係り受け構造の分析を行なう。自然言語の係り受け構造の分析処理自体は、既存技術を利用して行なうことができる。例えば、日本語の係り受け構造の分析に、CaboCha(日本語係り受け解析システム「南瓜」 マルチメディア言語学情報[18],月刊言語,Vol.32,No.6,pp.74-75,June 2003.)やKNPなどといったツールプログラムを用いても良い。
【0037】
次に、ステップS14において、情報抽出器処理部1は、ステップS12で抽出された反響の対象のうちの1つについて、ステップS13で得られた係り受け構造に基づき当該反響の対象の係り先となっている述語を特定し、その係り先の述語を、当該反響の対象に対応する対象の値として抽出する。この段階で、反響3つ組(反響の対象、対象の値、評価表現)の中の最初の2つの要素が抽出できる。
次に、ステップS15において、情報抽出器処理部1は、評価表現記憶部7を参照することによって、反響文中の評価表現を特定する。なお、評価表現記憶部7には、予め、評価表現となり得る述語のリストを書き込んでおく。情報抽出器処理部1は、この述語のリストに含まれる語を、反響文の中で探すことによって評価表現を特定する。このとき、述語のリストに含まれる語が1つの反響文の中で複数見つかった場合には、各々の述語を評価表現とする複数の反響3つ組みを抽出する。但し、これら複数の反響3つ組のうち特定のもの(例えば、文の後方の評価表現を優先する)のみを抽出するようにしてもよい。また、1つの反響文の中に複数の反響の対象が含まれる場合には、係り受けの構造(格構造、つまり、「が格」、「を格」など)に基づいて反響の対象と評価表現とを対応付けることによって反響3つ組を抽出する。このステップにおいて評価表現が特定できた場合には、この段階で、反響3つ組のすべての要素が抽出できる。評価表現が見つからなかった場合には、評価表現を空(ヌル、φ)とした(つまり、評価表現が欠落した)反響3つ組(反響の対象、対象の値、φ)が抽出できる。
【0038】
次に、ステップS16において、情報抽出器処理部1は、現在の反響文から抽出されたすべての対象(反響の対象)について、反響3つ組の抽出の処理を終えたか否かを判定する。終えている場合(ステップS16:YES)には次のステップS17に進む。まだ終えていない場合(ステップS16:NO)には、次の対象の処理を行なうためにステップS14に戻る。
次に、ステップS17において、情報抽出器処理部1は、入力されたすべての反響文についての処理を終えたか否かを判定する。終えている場合(ステップS17:YES)にはこのフローチャート全体の処理を終了する。まだ終えていない場合(ステップS17:NO)には、次の反響文の処理を行なうためにステップS11に戻る。
【0039】
以上説明した手順により、情報抽出器処理部1は、全ての反響文について、反響3つ組を抽出できる。なお、情報抽出器処理部1は、評価表現付きの反響3つ組のデータを評価付き反響3つ組データ記憶部5aに書き込み、評価表現の欠落した反響3つ組のデータを評価欠落反響3つ組データ記憶部5bに書き込む。
【0040】
図5は、評価補完器処理部2が、評価表現付きの反響3つ組の集合と評価が欠落した反響3つ組の集合から、評価表現を補完し、補完済みの反響3つ組の集合を得るための処理手順を示したフローチャートである。以下、このフローチャートに沿って処理を説明する。
【0041】
まずステップS21において、評価補完器処理部2は、評価付き反響3つ組データ記憶部5aから、あるドメイン識別IDを有する評価表現付きの反響3つ組を読み込む。そして、ステップS22において、評価補完器処理部2は、評価欠落反響3つ組データ記憶部5bから、そのドメイン識別IDを有する評価表現の欠落した反響3つ組を読み込む。これら読み込んだ反響3つ組全体は同一のドメイン識別IDを有するものであり、これが以下の補完処理に用いる反響3つ組集合である。例えばドメイン識別IDが放送番組を識別するものである場合、同一の放送番組に関する反響3つ組の集合全体が、以下の補完処理の対象となる。
【0042】
次に、ステップS23において、評価補完器処理部2は、上記の反響3つ組の集合全体の階層クラスタリング処理を行なう。なお、階層クラスタリング処理そのものは、既存技術を用いることにより実行できる。そして、この際、評価補完器処理部2は、反響3つ組の中の最初の2つの要素である(反響の対象、対象の値)を指標としたクラスタリング処理を行なう。評価表現付きの反響3つ組と評価表現の欠落した反響3つ組のいずれも、「反響の対象」および「対象の値」の各要素は空(ヌル、φ)ではない。クラスタリングを行なう際のメトリックには、例えば、ベクトル空間法を利用することができる。ここでは例えば、(反響の対象、対象の値)の2次元の空間内での距離(例えばユークリッド距離)によってメトリックを定義する。つまり、2次元空間の座標軸は、それぞれ「反響の対象」と「対象の値」に対応する。
【0043】
その空間における距離の定義の一例としては、各軸における語の値が同一である場合(あるいは、例えば自立語部分の活用形の異なる範囲を実質同一とみなしてもよい)にはその軸における距離を0とし、語の値が異なる場合にはその軸における距離を1とする。
また、距離の定義の他の例としては、上記に加え、類義語辞書データ等を参照することにより、類義語の範囲内の語相互のその軸における距離を0.5としてもよい。
そして、ユークリッド距離を用いる場合、各軸における距離の自乗の和の平方根を、2次元空間における反響3つ組間の距離とする。
【0044】
上記の距離をメトリックとする階層クラスタリング処理の結果、評価補完器処理部2は、(反響の対象、対象の値)の近い反響3つ組がまとめあげられた木構造のデータを生成する。評価補完器処理部2は、生成された木構造のデータを一時的にメモリに書き込む。
図6は、評価補完器処理部2による階層クラスタリング処理の結果得られる木構造のデータの一例を示す概略図である。同図(a)において、木構造の終端ノード(terminal node)にあたる「○」印がそれぞれ反響3つ組に対応する。この木構造において、根は1つだけであり、つまりすべてのノードは連結されている。またそれぞれの非終端ノード(non-terminal node)は必ず2個の子ノード(それら子ノードは、終端ノードあるいは非終端ノード)を有する。ある非終端ノードに直接つながる2つのノードは、互いに距離の近いノードである。
【0045】
図5に戻り、次のステップS24において、評価補完器処理部2は、上で得られた階層クラスタリング処理の結果に基づき、その木構造のデータを辿りながら、評価表現の欠落していた1つの反響3つ組について、評価表現を補完する処理を行なう。その具体的方法は次の通りである。評価補完器処理部2は、上述した一時的メモリから前記の木構造のデータを読み取る。その反響3つ組は、その木構造のいずれかの終端ノードに対応する。評価補完器処理部2は、そのノードから木を1階層上る。そこには必ず非終端ノードが存在する。その非終端ノードの配下に含まれる終端ノードすべてが、当初の終端ノードの反響3つ組を補完するための反響3つ組の集合である。この集合を便宜的に評価表現が欠落した反響3つ組の「補完候補集合」と呼ぶ。
図6(b)に示す例では、記号Aで示す終端ノードからスタートし、そのノードから1階層上った位置にある非終端ノードが記号Bで示すものである。そして、この非終端ノードBの配下に含まれる終端ノードの集合(補完候補集合)とは、図示する破線の四角の枠内に含まれるすべての終端ノードの集合である。
【0046】
ある階層まで上ったときの補完候補集合で評価表現の補完ができる場合には、その反響3つ組に対する補完処理を終了する。
ある階層まで上ったときの補完候補集合で評価表現の補完ができない場合には、さらに1階層上の非終端ノードに上り、以後、当該反響3つ組に対する補完処理ができるまで順次階層を上る。仮に、根ノードまで上っても評価表現の補完ができない場合には、当該反響3つ組に対する補完処理を行なわない。
【0047】
補完候補集合が与えられたときの補完処理の方法は次の通りである。
即ち、その補完候補集合の中に評価表現付きの反響3つ組が1つ以上存在する場合であって、その評価表現が1種類のみ存在する場合には、その評価表現を用いて欠落していた評価表現を補完する。例えば、補完候補集合が(対象1、値1、φ)、(対象2、値2、φ)、(対象3、値3、評価表現3)、(対象4、値4、評価表現3)の4要素からなる場合、ここに含まれる唯一の評価表現である評価表現3を用いた補完を行う。
また、その補完候補集合の中に評価表現付きの反響3つ組が1つ以上存在する場合であって、その中に複数の評価表現が存在する場合には、それらの複数の評価表現の中のいずれか(例えば、多数決により決めてもよい)を用いて、欠落していた評価表現を補完する。例えば、例えば、補完候補集合が(対象1、値1、評価表現1)、(対象2、値2、評価表現2)、(対象3、値3、評価表現2)、(対象4、値4、φ)の4要素からなる場合、この集合内では評価表現1が1度登場し、評価表現2が2度登場するため、多数決により評価表現2を用いた補完を行う。
また、その補完候補集合の中に評価表現付きの反響3つ組が1つも存在しない場合には、その補完候補集合では補完処理を行なわずに、前述の通り、より上の階層に上って補完候補集合を得るようにする。
あるいは、その補完候補集合の中に評価表現付きの反響3つ組が1つも存在しない場合には、予め与えられた事前確率の最も高い評価表現(デフォルトの補完表現)を用いて補完を行うようにしてもよい。
【0048】
次に、ステップS25において、評価補完器処理部2は、評価表現の欠落したすべての反響3つ組についてステップS24の補完処理を終えたか否かを判定する。すべて終えている場合(ステップS25:YES)にはこのフローチャート全体の処理を終了し、いずれかについて終えていない場合(ステップS25:NO)にはステップS24に戻って次の評価欠落反響3つ組の補完処理を行なう。
【0049】
以上により、評価補完器処理部2は、評価表現の欠落していた反響3つ組のうちの可能なすべてのものについて、評価表現を補完する処理を行なう。なお、評価補完器処理部2は、補完済の反響3つ組のデータを補完済反響3つ組データ記憶部5cに書き込む。
【0050】
次に、具体的な例文を用いて上述した補完処理を補足説明する。
図7は、例文の係り受け構造を示す概略図である。
同図(a)は、「村人が用水路によって戻ってきたのでよかった」という反響文の係り受け構造を示している。TF−IDFの方法により、「村人」が反響の対象として抽出される。図示するか係り受け構造においては、「村人が」の係り先の述語は「戻る」である。また、評価表現記憶部7を参照することにより「よい」が評価表現として選択される。よって、この例文からは、(村人、戻る、よい)という評価表現付きの反響3つ組が抽出される。
同図(b)は、「灌漑により皆が戻り集落が又出来る。」という別の反響文の係り受け構造を示している。TF−IDFの方法により、「皆」と「集落」の2つが反響の対象として抽出される。図示するように、「皆が」の係り先が「戻る」であり、「集落が」の係り先が「出来る」である。また、この反響文に関しては、評価表現が存在しない。従って、この反響文からは、(皆、戻る、φ)と(集落、出来る、φ)という、評価表現がそれぞれ欠落した2つの反響3つ組が抽出される。
そして、クラスタリング処理によって、(村人、戻る、よい)と(皆、戻る、φ)の距離が近く、これらが同一クラスタに分類される。その結果、「よい」という評価表現が補完され、(皆、戻る、よい)という補完済の反響3つ組が得られる。
【0051】
なお、本実施形態で利用するクラスタリング技術およびベクトル空間法の技術としては、下記の文献に記載されている技術を応用することもできる。
文献:Christopher D. Manning et. Al, "Foundations of Statistical Natural Language Processing"
【0052】
以上述べたように、本実施形態では、文に含まれる特徴的な語である対象語(反響の対象)と、文の係り受け構造において対象語の係り先となる述語である値との組を特徴データとして用いる。そして、情報抽出器処理部1は、文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出する。そして、評価補完器処理部2は、この特徴データに含まれる対象語と値との組をクラスタリング処理することにより特徴データ間の類似度の算出を行なうものである。
また、本実施形態では、反響文にはドメイン識別ID(ドメイン識別データ)が付加されており、情報抽出器処理部1は、ドメイン識別IDが付加された評価付き抽出情報および評価欠落抽出情報を抽出してそれぞれ記憶部に書き込む。そして、評価補完器処理部2は、ドメイン識別ID同一である範囲でクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なう。同一のドメイン識別IDを有しているデータは、例えば、同一の放送番組に対する反響であり、その範囲内でクラスタリングおよび評価表現の補完を行なうことにより、良い精度の補完が行なえる。
【0053】
[第1の実施の形態の変形例]
上記の実施形態では、評価補完器処理部2が補完すべき評価表現を決定する際(図5のフローチャートのステップS24)、階層クラスタリング処理の結果得られた木構造を順次上り、最高で根ノードまで上って補完候補集合を得ることとしたが、その代わりに次のいずれかの方法をとってもよい。
第1の方法は、予め所定の最大階層数を決めておき、最大でもその階層の非終端ノードまでしか上らず、補完候補集合を当該非終端ノードの配下の範囲内のみに限定する。
第2の方法は、予め所定の最大3つ組数を決めておき、その最大3つ組数の範囲内の終端ノードを配下に有する非終端ノードまでしか上らず、補完候補集合を当該非終端ノードの配下の範囲内のみに限定する。
【0054】
[第2の実施の形態]
次に、第2の実施形態について説明する。
図8は、同実施形態による表現補完装置20の機能構成を示すブロック図である。この表現補完装置20の構成が前実施形態の表現補完装置10と異なる点は、入力文に基づいて単語概念を抽出する単語概念抽出処理部18を有している点と、評価補完器処理部12がこの単語概念抽出処理部18によって出力される単語概念の情報に基づいて、ベクトル空間法における距離を決定し階層クラスタリングを行なう点である。なお、その他の各部の機能については、前実施形態と同様であるので、ここでは説明を省略する。
【0055】
単語概念抽出処理部18は、反響文記憶部4から読み出す反響文の集合に基づいて、これらの文に含まれる単語間の概念空間における距離を算出する。その方法は、以下の通りである。
【0056】
まず、単語概念抽出処理部18は、反響文記憶部4に記憶されている反響文を読み出す。このとき、例えば、同一のドメイン識別IDを有する反響文をすべて読み出して処理対象としてもよいし、複数のドメイン識別IDに跨る反響文を読み出して処理対象としてもよい。そして、単語概念抽出処理部18は、それらの反響文の形態素解析処理を行ない、各反響文に含まれる単語の出現頻度をカウントし、その結果として下の式(4)で表わされるBOW(Bag of Words、バッグ・オブ・ワーズ、単語の出現順序を考慮しない単語出現頻度情報)の行列Xのデータを作成する。
【0057】
【数4】
【0058】
この行列Xにおいて、各行が単語に対応し、各列がドキュメント(ここでは反響文)に対応する。そして、行列Xの要素xi,jは、i番目の単語がj番目の反響文において出現する頻度(回数)である。言いかえれば、行列Xに含まれる行ベクトルtiTは、i番目の単語に対応したベクトルであり、各反響文での出現状況を表わしている。これらの定義からわかるように、行列Xは、大規模で、且つ通常は疎な行列である。
【0059】
次に、単語概念抽出処理部18は、行列Xに対して特異値分解(SVD、Singular Value Decomposition)の処理を施す。特異値分解により、行列Xは、下の式(5)のように分解される。
【0060】
【数5】
【0061】
ここで、行列UとVは直交する行列であり、行列Σは対角行列である。なお、行列Uはm行l(エル)列、行列Vはl(エル)行n列、行列Σは、l(エル)行l(エル)列である。ここで、行列Σの対角要素σ1,・・・,σlを特異値と呼び、列ベクトルu1,・・・,ulを左特異ベクトルと呼び、行ベクトルv1,・・・,vlを右特異ベクトルと呼ぶ。そして、k個の最大の特異値と、行列UとVからそれらに対応する特異ベクトルを選ぶことにより、階数kの行列Xへの近似を得る。この近似は、下の式(6)のように表わせる。
【0062】
【数6】
【0063】
ベクトルti(ハット)はk個の要素を有し、そのそれぞれの要素がi番目の単語k個の概念の1つに対応した出現を表している。
単語概念抽出処理部18は、このような計算で得られるベクトルを各単語に対応させる形で一時的にメモリに書き込んでおく。
【0064】
そして、本実施形態による評価補完器処理部12は、上記メモリから適宜ベクトルのデータを読み出すことにより、任意に選ばれた2つの単語について、それらの単語に対応するベクトルから、それらの単語間の距離を得る。単語間の距離としては、例えば、2つのベクトルのコサイン相関量の逆数を用いる。そして、評価補完器処理部12は、反響3つ組の中の最初の2つの要素である「反響の対象」および「対象の値」のそれぞれの軸についての単語間の距離から、反響3つ組間のユークリッド距離を算出する。そして、評価補完器処理部12は、このユークリッド距離を用いて評価表現付きの反響3つ組および評価が欠落した反響3つ組の集合の階層クラスタリングの処理を行なう。以後の処理については、前実施形態と同様であるので、個々での説明を省略する。
【0065】
なお、本実施形態では、単語概念抽出器処理部18が反響文記憶部4から読み出した反響文の集合に基づいて単語と概念との対応付け、言い換えれば概念上での単語間の距離の算出を行なうようにしているが、その変形として、反響文以外の一般的な文の集合を記憶媒体等から読み出して、その文集合を基に、上記と同様の方法で単語間の距離の算出を行うようにしてもよい。さらに、この距離の算出を単語概念抽出器処理部18が予め行なうことによって算出された単語間の距離を予めメモリ等に記憶しておき、評価補完器処理部12がそのメモリから単語間の距離を読み出して階層クラスタリング処理を行なうようにしてもよい。
【0066】
以上述べたように、本実施形態も、第1の実施形態と同様に、文に含まれる特徴的な語である対象語(反響の対象)と、文の係り受け構造において対象語の係り先となる述語である値との組を特徴データとして用いてクラスタリング処理を行なう。本実施形態の特徴は、そのときの組間の距離を算出するために、単語についての潜在意味解析(LSI,Latent Semantic Indexing)の処理の結果として得られる単語間の距離データを用いる点である。つまり、本実施形態では、(反響の対象(対象語),値(述語))の2次元空間において、潜在意味解析を用いて意味的に近いもの同士の距離が近くなるような計算を行なう。
【0067】
[第3の実施の形態]
次に、本発明の第3の実施形態について説明する。
図9は、同実施形態による表現補完装置30の機能構成を示すブロック図である。この表現補完装置30の構成が第1の実施形態の表現補完装置10と異なる点は、評価付き反響3つ組データ記憶部5a、評価欠落反響3つ組データ記憶部5b、補完済反響3つ組データ記憶部5cの代わりに、それぞれ、評価付き反響2つ組データ記憶部25a、評価欠落反響2つ組データ記憶部25b、補完済反響2つ組データ記憶部25cを含むことである。また、それに伴い、情報抽出器処理部21は、反響文を基に、後述する反響2つ組のデータを抽出する。また、評価補完器処理部22は、その反響2つ組のデータを用いて評価表現の補完処理を行なう。なお、その他の各部の機能については、前実施形態と同様であるので、ここでは説明を省略する。
【0068】
図10は、本実施形態による抽出情報データベースの構造およびデータ例を示す概略図である。図示するように、抽出情報データベースは、二次元の表形式のデータであり、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスと、反響2つ組の各項目を有する。これらの項目のうち、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスについては、第1の実施形態における抽出情報データベースと同様である。
【0069】
ここで、抽出情報データベースにおいて、ステータスが「評価付き」であるようなデータが格納される領域が、評価付き反響2つ組データ記憶部25aである。同様に、ステータスが「評価欠落」であるようなデータが格納される領域が、評価欠落反響2つ組データ記憶部25bである。同様に、ステータスが「補完済」であるようなデータが格納される領域が、補完済反響2つ組データ記憶部25cである。
【0070】
本実施形態で用いる反響2つ組のデータは、さらに、反響の対象と、評価表現の各項目から構成されている。このうち、反響の対象の項目には、入力される反響文に対応する構文解析木のデータが格納される。この構文解析木のデータは、適宜、木を表現する構造を有するテキストデータや、オブジェクトデータベース技術を用いたオブジェクトデータなどの形で表現される。評価表現の項目は、第1の実施形態におけるそれと同様である。
【0071】
本実施形態における情報抽出器処理部21は、構文解析処理の機能を備えており、反響文記憶部4から読み出したそれぞれの反響文について、構文解析処理を行ない、その結果として構文解析木のデータを得る。また、情報抽出器処理部21は、第1の実施形態と同様の方法で評価表現の抽出を行なう。評価表現が抽出できた反響文については、情報抽出器処理部21は、その評価表現を含む反響2つ組のデータを評価付き反響2つ組データ記憶部25aに書き込む。また評価表現が抽出できなかった反響文については、情報抽出器処理部21は、評価表現が空(ヌル、φ)であるような、即ち評価表現の欠落した反響2つ組のデータを評価欠落反響2つ組データ記憶部25bに書き込む。
【0072】
また、評価補完器処理部22は、反響2つ組データ記憶部25aおよび評価欠落反響2つ組データ記憶部25bから読み出した反響2つ組の集合の階層クラスタリング処理を行なう。本実施形態においては、「反響の対象」の項目に格納されている構文解析木自体が元の反響文の特徴を表わすデータであり、評価補完器処理部22は、この構文解析木のデータに基づいて反響2つ組の間の距離を求め、この距離を用いた階層クラスタリング処理を行なう。なお、反響2つ組の間の距離を算出するためには、構文解析木のデータに基づく各反響文の特徴ベクトルを生成し、この特徴ベクトルによりLSI(潜在意味解析)の処理を行なう。そして、評価補完器処理部22は、階層クラスタリングの結果に基づき、第1の実施形態と同様に評価表現の補完を行ない、評価表現を補完した反響2つ組については、そのデータを補完済反響2つ組データ記憶部25cに書き込む。
【0073】
[第3の実施の形態の変形例]
なお、上記の実施形態では、反響2つ組の要素である「反響の対象」として構文解析木のデータを用いたが、代わりに例えば、各反響文に含まれる単語の出現頻度をカウントし、その結果として得られるBOW(バッグ・オブ・ワーズ)の単語出現頻度ベクトルを「反響の対象」のデータとして用いるようにしてもよい。この単語出現頻度ベクトルは、前記の式(4)で示した行列Xにおける1列のベクトル(x1,i,・・・・・・,xm,i,)に相当する(1≦i≦n)。
【0074】
以上述べたように、第3の実施形態では、文に対応する構文解析木のデータを特徴データとして用いる。つまり、情報抽出器処理部21は、文を構文解析処理することにより構文解析木のデータを特徴データとして抽出する。そして、評価補完器処理部22は、この構文解析木のデータ間の距離に基づくクラスタリング処理を行なう。
【0075】
なお、上述した各実施形態における表現補完装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0076】
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
第1〜第3の実施形態においては、評価補完器処理部が階層クラスタリングを用いて近い反響3つ組(あるいは2つ組)同士をまとめ上げるようにしたが、代わりに、非階層クラスタリングを行なうようにしてもよい。非階層クラスタリングを用いた場合にも、評価表現が欠落した反響3つ組(あるいは2つ組)と同じクラスタに属する(あるいは近いクラスタに属する)評価表現付きの反響3つ組(あるいは2つ組)の評価表現を用いて、評価表現の補完処理を行なう。また、そのようなクラスタに複数種類の評価表現が含まれる場合には、適宜、多数決等の方法によって補完に用いるための評価表現を決定する。
【0077】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、前記の各実施形態では反響文を入力文として用いたが、これに限らず、一般的に類似の性質を持つ文の集合を入力文集合としても良い。
【産業上の利用可能性】
【0078】
本発明は、一例としては、放送番組視聴者や消費者(物品購買者やサービスの提供を受ける者)などからの反響を機械的に効率よく分析するために利用可能である。特に、明示的な評価表現を必ずしも含むとは限らない反響文の集合を基に、欠落している評価表現(即ち、反響文が暗示している評価表現)を機械的に補完して、反響の分析に生かすことが可能となる。
また、本発明は、同一のコンテンツに多数の反響が寄せられることに鑑みてなされたものであり、マスメディア(映画、番組、放送)の評判分析を行う場面に効果的に用いることが出来る。
【図面の簡単な説明】
【0079】
【図1】第1の実施形態による表現補完装置の機能構成を示すブロック図である。
【図2】同実施形態における反響文記憶部4に記憶される入力文データの構造およびデータ例を示す概略図である。
【図3】同実施形態における抽出情報データベース(評価付き反響3つ組データ記憶部5a,評価欠落反響3つ組データ記憶部5b,補完済反響3つ組データ記憶部5c)の構造およびデータ例を示す概略図である。
【図4】同実施形態における情報抽出器処理部1が反響文を基に反響3つ組を抽出する処理の手順を示すフローチャートである。
【図5】同実施形態における評価補完器処理部2が、反響3つ組の集合から、評価表現を補完する処理の手順を示したフローチャートである。
【図6】同実施形態における評価補完器処理部2による階層クラスタリング処理の結果得られる木構造のデータの一例を示す概略図である。
【図7】同実施形態における情報抽出器処理部1が評価の値を抽出するために用いる係り受け構造の例を示す概略図である。
【図8】第2の実施形態による表現補完装置の機能構成を示すブロック図である。
【図9】第3の実施形態による表現補完装置の機能構成を示すブロック図である。
【図10】同実施形態における抽出情報データベース(評価付き反響2つ組データ記憶部25a,評価欠落反響2つ組データ記憶部25b,補完済反響2つ組データ記憶部25c)の構造およびデータ例を示す概略図である。
【図11】第3の実施形態の変形例における抽出情報データベースの構造およびデータ例を示す概略図である。
【符号の説明】
【0080】
1,21 情報抽出器処理部(情報抽出処理部、情報抽出処理過程)
2,12,22 評価補完器処理部(評価補完処理部、評価補完処理過程)
3 文書分類器処理部
4 反響文記憶部(入力データベース)
5a 評価付き反響3つ組データ記憶部(評価付き抽出情報記憶部)
5b 評価欠落反響3つ組データ記憶部(評価欠落抽出情報記憶部)
5c 補完済反響3つ組データ記憶部(補完済抽出情報記憶部)
25a 評価付き反響2つ組データ記憶部(評価付き抽出情報記憶部)
25b 評価欠落反響2つ組データ記憶部(評価欠落抽出情報記憶部)
25c 補完済反響2つ組データ記憶部(補完済抽出情報記憶部)
6 分類結果データ
7 評価表現記憶部
18 単語概念抽出器処理部
【技術分野】
【0001】
本発明は、コンピュータ等を用いた情報処理技術に関する。特に、コンピュータ等を用いた自然言語処理の技術に関する。
【背景技術】
【0002】
商品やサービスやコンテンツ(放送番組や音楽や映像など)に対する反響、あるいはそれらを販売ないしは提供する企業体自体に対する反響等を収集し、収集した反響等を分析し、その分析結果を以後の商品やサービスやコンテンツ等の制作等に反映させるといったことが行なわれている。これらの反響は、多くの場合、自然言語で書かれた文として収集されるが、そのような反響文をすべて人手により分析するには多くの労力を要するため、その省力化が望まれる。
【0003】
このように自然言語によって記述された文に基づいて評判分析する技術は、評価文の極性を判定する方法が主流であった。例えば、ある製品に対して、評判分析を行うと、その製品が肯定的に評価されているか(よい評判であるか)、あるいは、否定的に評価されているか(わるい評判であるか)のいずれかを判定することを行ってきた。
【0004】
特許文献1には、極性(肯定的あるいは否定的)の知られている評価表現を予め登録表現記憶部に登録しておき、与えられたテキスト中に含まれる評価表現を抽出し、また同テキスト中に含まれる評価表現同士の接続関係を示す接続表現を抽出するとともに、抽出された評価表現のうち予め登録表現記憶部に登録されている評価表現を検出し、検出された評価表現と他の評価表現とを接続する接続表現(順接であるか逆接であるかなど)に応じて当該他の評価表現の極性を判断する技術が記載されている。
特許文献2には、対象事物の性質を表わす属性表現とその属性表現に対する評判情報を複数のカテゴリに分類し出力する技術が記載されており、この技術を用いることにより、評判情報から対象事物に関する知見を(人が)得ることができるとされている。
【特許文献1】特許第3962382号公報
【特許文献2】特開2007−172051号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、自然言語により自由記述される文は、必ずしも評価表現を含むとは限らないという問題があった。このように評価を表す語が明示されていない文については、従来技術を用いる限りは、評価を推定することが困難もしくは不可能であった。
また例えば、「映像の迫力に驚いた」という文の場合、肯定的な評価を表すことが多い。また、「番組の構成に驚いた」という文の場合、否定的な評価を表すことが多い。これらの評価が肯定的であるか否定的であるかを決定するのは、「驚いた」という語の持つ性質だけによるものではなく、その対象となる「映像の迫力」や「番組の構成」がもつ性質も考慮する必要がある。従来技術による評判分析では、「驚いた」という語の持つ性質(極性)から文の極性を判断しようとしているために、必ずしも適切に文の極性を判断することができないという問題があった。
また、評価表現の判断として、単なる極性の判断に限らず、肯定的/否定的の二極以外の多様な判断を行ないたいという要求もあった。
また、文の性質(出現する語彙や構文特徴など)に関するルールを用意しておいて評価表現を判断するという方法も考え得るが、このアプローチを取る場合には膨大な量のルールを予め整備して登録しておくという前作業が必要であり、手間がかかるという問題がある。
【0006】
本発明は、上記の課題認識に基づいて行なわれたものであり、大量のルール等を予め準備する手間をかけずに、与えられる文データ(反響文など)に基づき、文中において欠落している評価表現を補完することのできる表現補完装置およびそのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
[1]上記の課題を解決するため、本発明の一態様による表現補完装置は、入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理部と、前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データに基づき、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報を補完済抽出情報記憶部に書き込む評価補完処理部を具備する。
【0008】
ここで、特徴データとは、各々の文から抽出され得る情報であり、例えば、その文の中に出現する語等を分析することによって(反響の対象、値)という組の形式で得られるデータや、その文を構文解析して得られる構文解析木のデータ(反響の対象)や、その文の単語出現頻度ベクトルのデータ(反響の対象)などである。
上記の構成によれば、情報抽出処理部は、文の特徴データとその文の評価表現とを含む評価付き抽出情報を抽出するとともに、文の特徴データを含んでおり評価表現が欠落している評価欠落抽出情報を抽出する。そして、評価補完処理部は、特徴データに基づいて評価付き抽出情報と評価欠落抽出情報のクラスタリング処理を行なう。そして、評価補完処理部は、クラスタリング処理の結果に基づき、評価付き抽出情報が持つ評価表現を用いて評価欠落抽出情報の評価表現を補完する。
【0009】
[2]また、本発明の一態様は、上記の表現補完装置において、前記特徴データは、前記文に含まれる特徴的な語である対象語と、前記文の係り受け構造において前記対象語の係り先となる述語である値との組であり、前記情報抽出処理部は、前記文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出し、前記評価補完処理部は、前記特徴データに含まれる前記対象語と前記値との組をクラスタリング処理することにより前記特徴データ間の類似度の算出を行なうことを特徴とする。
この構成によれば、評価補完処理部は、対象語と値の組によるクラスタリング処理を行ない、そのクラスタリング処理の結果に基づいて前記の評価表現の補完を行う。
【0010】
[3]また、本発明の一態様は、上記の表現補完装置において、前記評価補完処理部は、前記文に含まれる単語についての潜在意味解析の処理の結果として得られる単語間の距離データに基づき、前記対象語間の距離データおよび前記値間の距離データを求めることにより前記クラスタリング処理を行なうことを特徴とする。
この構成によれば、評価補完処理部は、潜在意味解析の処理の結果に基づいて、それぞれ対象語と値からなる複数の組の間の距離を算出することができ、この距離に基づいてクラスタリング処理を行なう。
【0011】
[4]また、本発明の一態様は、上記の表現補完装置において、前記特徴データは、前記文に対応する構文解析木のデータであり、前記情報抽出処理部は、前記文を構文解析処理することにより前記構文解析木のデータを前記特徴データとして抽出することを特徴とする。
この構成によれば、評価補完処理部は、構文解析木のデータが有する特徴に基づくクラスタリング処理を行ない、そのクラスタリング処理の結果に基づいて前記の評価表現の補完を行う。
【0012】
[5]また、本発明の一態様は、上記の表現補完装置において、前記文集合のデータには文毎のドメイン識別データが付加されており、前記情報抽出処理部は、前記ドメイン識別データが付加された前記評価付き抽出情報を前記評価付き抽出情報記憶部に書き込むとともに、前記ドメイン識別データが付加された前記評価欠落抽出情報を前記評価欠落抽出情報記憶部に書き込み、評価補完処理部は、前記ドメイン識別データが同一である範囲の前記評価付き抽出情報および前記評価欠落抽出情報を用いてクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なうことを特徴とする。
ここで、ドメインには、所定の文の集合が属する。ドメイン識別データとは個々のドメインを一意に識別できるデータ(ドメイン識別ID)である。ドメインの一例は、ある放送番組やある商品などである。このとき、そのドメインに属する文の集合とは、例えば、その放送番組あるいはその商品に対する反響文の集合である。
上記の構成によれば、評価補完処理部は、同一のドメイン識別データを有する文から抽出された情報を用いてクラスタリング処理を行ない、その結果に基づいて評価表現の補完を行なう。同一ドメインに属する文同士は、異なるドメインに属する文同士に比べて、似ている傾向を有する。即ち、前記特徴データによるクラスタリング処理を行なったときに、互いに近い(類似度の高い)特徴データを有する抽出情報同士が互いに近い評価表現を本来有する傾向が強い。従って、たとえ一方の抽出情報において評価表現が欠落している場合においても、近い特徴データを有する抽出情報の評価表現を用いて行なう補完が、適切な補完である度合いがより一層高くなる。
【0013】
[6]また、本発明のコンピュータプログラムは、入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理過程と、前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データに基づき、これら前記特徴データ間の類似度を算出する処理を行ない、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する評価補完処理過程と、の処理をコンピュータに実行させる。
【発明の効果】
【0014】
本発明によれば、入力される文の中に評価表現が明示的に含まれていない文が含まれている場合にも、予めルールベース等を準備する必要なく、そのような文についての評価表現の補完を、適切且つ自動的に行なうことができる。このように補完された評価表現によって文を分類する(例えば円グラフ等で表現する)ことによって、評価表現が明示的に含まれていない文を含んでいる場合にも、手間をかけずに高精度な評価分析・評判分析を実現することができる。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照しながら、本発明の実施形態について説明する。
[第1の実施の形態]
図1は、本発明の第1の実施形態による表現補完装置の機能構成を示すブロック図である。同図において、符号10が表現補完装置である。この表現補完装置10は、反響文から反響内容に関する3つ組(triplet)を抽出し、この3つ組を分析することによって評価表現を補完する処理を実行する。図示するように、表現補完装置10は、情報抽出器処理部1と、評価補完器処理部2と、文書分類器処理部3と、反響文記憶部(入力文データベース)4と、評価付き反響3つ組データ記憶部5aと、評価欠落反響3つ組データ記憶部5bと、補完済反響3つ組データ記憶部5cと、分類結果データ6と、評価表現記憶部7とを含んで構成される。
【0016】
情報抽出器処理部1と、評価補完器処理部2と、文書分類器処理部3の各処理部は、例えば、電子回路を用いて実現されるものであり、それぞれ、入力されるデータを処理してその処理結果のデータを出力する。反響文記憶部4と、評価付き反響3つ組データ記憶部5aと、評価欠落反響3つ組データ記憶部5bと、補完済反響3つ組データ記憶部5cと、評価表現記憶部7の各記憶部は、例えば、磁気ハードディスク装置や半導体メモリなどを用いて実現される。このうち、評価付き反響3つ組データ記憶部5aと、評価欠落反響3つ組データ記憶部5bと、補完済反響3つ組データ記憶部5cとは、それぞれ、後述する抽出情報データベースに含まれる記憶領域である。
【0017】
また、分類結果データ6は、文書分類器処理部3による処理の結果のデータであり、基になる多数の入力文に占める各々の評価表現の割合を表わすものである。また、分類結果データ6は、例えば、円グラフなどのグラフによってこれらの各割合を表現する携帯としても良い。
【0018】
情報抽出器処理部1は、入力される文集合のデータを反響文記憶部4から読み込み、この文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報(評価付き反響3つ組のデータ)として評価付き反響3つ組データ記憶部5a(評価付き抽出情報記憶部)に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報(評価欠落反響3つ組のデータ)として評価欠落反響3つ組データ記憶部5b(評価欠落抽出情報記憶部)に書き込む。
また、評価補完器処理部2は、評価付き反響3つ組記憶部5aから読み出した評価付き抽出情報に含まれる文の特徴データと、評価欠落反響3つ組記憶部5aから読み出した評価欠落抽出情報に含まれる文の特徴データとに基づき、クラスタリング処理を行なうことにより特徴データ間の類似度を算出し、評価欠落抽出情報に含まれる特徴データに近い(つまり、類似度の高い)範囲の特徴データを有する評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報(補完済み反響3つ組のデータ)を補完済反響3つ組データ記憶部5c(補完済抽出情報記憶部)に書き込む。
文書分類器処理部3は、補完済反響3つ組のデータを読み込み、その評価表現(元々抽出されていた評価表現と補完された評価表現の両方)に基づいて、反響3つ組を分類する処理を行ない、その分類結果を円グラフ等のグラフとして出力する。
【0019】
本実施形態で用いる反響文は、例えば、放送番組に対して寄せられる反響文である。寄せられる反響文は自然言語による自由記述文である。本実施形態の表現補完装置10は、その自由記述文の中から、反響の対象(何に対しての反響なのか)、値(その対象がどういった状態なのか)、評価表現(それをどう評価するのか)という3つ組のデータを抽出して分析する。
【0020】
図2は、反響文記憶部4に記憶される入力文データの構造およびデータ例を示す概略図である。図示するように、反響文記憶部4に記憶されるデータは、二次元の表形式のデータであり、ドメイン識別IDと、ドメイン内文番号と、反響文の各項目を有する。ドメイン識別番号は、反響文がどのドメインに対するものであるかを識別するための情報である。例えば、テレビやラジオなどの放送番組に対する反響文を入力データとする場合には、このドメイン識別IDによって個々の放送番組を識別できるようにする。また例えば、商品に対する反響文を入力データとする場合には、このドメイン識別IDによって商品の種類を識別できるようにする。ドメイン内文番号は、同一のドメイン識別IDを有する各々の反響文を識別するための情報であり、例えば、同一ドメインに属する反響文に対して、自然数による連番を付与するようにする。反響文は、例えば放送番組の視聴者や商品の購入者などによって自然言語(日本語や英語などなど)を用いて書かれた文である。反響文は特定の形式を有するものでなくてもよく、反響を自由記述したものでよい。また、これら反響文には、評価表現が含まれている反響文と評価表現が含まれていない反響文とが混在していて良い。
【0021】
なお、図示しているデータ構造において、ドメイン識別IDとドメイン内文番号の複合が、主キー(primary key)である。
図示するデータ例においては、ドメイン識別IDが「200811011930」である行が複数存在し、それらのドメイン内文番号が「1」から順次付与されており、ドメイン内文番号「131」に対応して反響文「村人が用水路によって戻ってきたのでよかった」が格納されている。同様に、ドメイン内文番号「132」に対応して反響文「灌漑により皆が戻り集落が又出来る。」が格納されている。
【0022】
図3は、抽出情報データベースの構造およびデータ例を示す概略図である。図示するように、抽出情報データベースは、二次元の表形式のデータであり、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスと、反響3つ組の各項目を有する。このうち反響3つ組は、さらに、反響の対象と、値と、評価表現の各項目から構成されている。これらの項目のうち、ドメイン識別IDとドメイン内文番号は、反響文記憶部4に記憶されていた入力文データにおけるドメイン識別IDとドメイン内文番号にそれぞれ対応している。文内番号は、1つの反響文に複数の反響3つ組が対応する場合に、それぞれの反響3つ組を識別するための情報であり、例えば、同一の反響文に対応するそれぞれの反響3つ組に対して、自然数による連番が付与される。
【0023】
抽出情報データベースにおいて、ドメイン識別IDとドメイン内文番号と文内番号の複合が、主キーである。また、抽出情報データベースにおいて、各行は反響文から抽出された反響3つ組に対応する。ステータスは、当該行が表わす反響3つ組の状態を表わすデータであり、「評価付き」、「評価欠落」、「補完済」のいずれかの値を取り得る。
また、反響3つ組の中の反響の対象と値の項目が、文の特徴データに相当する。
【0024】
同図に示しているデータ例は、図2に示した反響文に対応する反響3つ組の例を表わしている。図3の1行目のデータは、ドメイン識別IDが「200811011930」であり、ドメイン内文番号が「131」であり、文内番号が「1」である。これは、図2において対応している反響文「村人が用水路によって戻ってきたのでよかった」から抽出される反響3つ組を表わす。(反響の対象、対象の値、評価表現)の形で表わすと、この反響3つ組は、(村人、戻る、よい)である。図3の2行目および3行目のデータは、ドメイン識別IDが「200811011930」であり、ドメイン内文番号が「132」であり、文内番号がそれぞれ「1」と「2」である。これは、図2において対応している反響文「灌漑により皆が戻り集落が又出来る。」から抽出される2つの反響3つ組を表わす。それらは、それぞれ、(皆、戻る、φ)と(集落、出来る、φ)である。
【0025】
ここで、「φ」は空(ヌル)を表わす。つまり、ドメイン内文番号が「131」で文内番号が「1」の行では評価表現として「よい」が抽出されているのに対して、ドメイン内文番号が「132」で文内番号が「1」あるいは「2」の行では評価表現が抽出されなかったことを表わしている。またこれに対応し、ドメイン内文番号が「131」で文内番号が「1」の行ではステータスが「評価付き」であるのに対して、ドメイン内文番号が「132」で文内番号が「1」および「2」の行はいずれもステータスが「評価欠落」である。なお、ステータスが「評価欠落」であるような反響3つ組について、後述する手順によって評価補完器処理部2が評価表現を補完して書き込んだときには、当該反響3つ組のステータスも「補完済」に置き換えられる。
【0026】
ここで、抽出情報データベースにおいて、ステータスが「評価付き」であるようなデータが格納される領域が、前述の評価付き反響3つ組データ記憶部5aである。また同様に、ステータスが「評価欠落」であるようなデータが格納される領域が、前述の評価欠落反響3つ組データ記憶部5bである。また同様に、ステータスが「補完済」であるようなデータが格納される領域が、前述の補完済反響3つ組データ記憶部5cである。
【0027】
次に各処理部(符号1〜3)の動作の詳細について説明する。
【0028】
情報抽出器処理部1は、反響文記憶部4から反響文を読み出し、読み出した各反響文から、(反響の対象、対象の値、評価表現)という形式の反響3つ組を抽出する。このとき、読み出す反響文のすべてが評価表現を明示的に含んでいるとは限らず、抽出された反響3つ組から評価表現が欠落する場合がある。評価表現が欠落する場合、情報抽出器処理部1は、(反響の対象、対象の値)という2つ組を抽出する。これを、評価表現が欠落した放送反響3つ組と呼ぶ。評価表現が欠落する場合にも、評価表現を「φ」で表わすことによって(反響の対象、対象の値、φ)という3つ組を抽出することが出来る。そして、情報抽出器処理部1は、反響文記憶部4から読み出した多数の反響文のそれぞれに対して情報抽出の処理を繰り返す。そして、情報抽出器処理部1は、抽出された評価表現付きの反響3つ組を評価付き反響3つ組データ記憶部5aに書き込み、評価表現の欠落した反響3つ組を評価欠落反響3つ組データ記憶部5bに書き込む。このようにして、入力文に基づく反響3つ組の集合が得られる。
【0029】
図4は、情報抽出器処理部1が反響文を基に反響3つ組を抽出する処理の詳細な手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
ステップS11において、情報抽出器処理部1は、反響文記憶部4から、反響文を1文読み込む。
ステップS12において、情報抽出器処理部1は、形態素解析処理を行ない、あるいは予め行なっておいた形態素解析処理の結果を利用して、読み込んだ1つの反響文について、TF−IDF(Term Frequency − Inverse Document Frequency,単語出現頻度−逆(ドキュメント)出現頻度)などの方法によりキーワード検出指標値を算出し、この指標値の高い1つ又は複数の単語を反響の対象として抽出する。TF−IDFは、文内の特徴的単語、即ちその文を特徴付けるとみなせる重要な単語を抽出するためのアルゴリズムの一つである。文中のi番目tiの単語のTF−IDFによる指標値tfidfiは、下の式(1)により算出される。
【0030】
【数1】
【0031】
ここで、式(1)におけるtfiは、その単語の出現頻度であり、下の式(2)により算出される。
【0032】
【数2】
【0033】
また、式(1)におけるidfiは、逆出現頻度であり、下の式(3)により算出される。
【0034】
【数3】
【0035】
なお、niはi番目の単語tiの当該反響文における出現頻度である。|D|は他のドメインの反響文をも含んだ総ドキュメント数(つまり、総反響文数)である。|{d:ti∈d}|は、i番目の単語tiを含むドキュメント数(つまり、反響文数)である。式(3)から明らかなように、idfi(逆出現頻度)はいずれの反響文にも出現しやすい一般的な語が対象として検出されにくくするように作用するフィルタの役割を果たす。tfiにidfiを乗じて指標値とすることにより、多くの反響文に出現する一般的な語の重要度を下げ、特定のドメインの反響文にしか出現しない単語の重要度を上げて反響の対象を抽出することができる。
【0036】
次に、ステップS13において、情報抽出器処理部1は、反響文の係り受け構造の分析を行なう。自然言語の係り受け構造の分析処理自体は、既存技術を利用して行なうことができる。例えば、日本語の係り受け構造の分析に、CaboCha(日本語係り受け解析システム「南瓜」 マルチメディア言語学情報[18],月刊言語,Vol.32,No.6,pp.74-75,June 2003.)やKNPなどといったツールプログラムを用いても良い。
【0037】
次に、ステップS14において、情報抽出器処理部1は、ステップS12で抽出された反響の対象のうちの1つについて、ステップS13で得られた係り受け構造に基づき当該反響の対象の係り先となっている述語を特定し、その係り先の述語を、当該反響の対象に対応する対象の値として抽出する。この段階で、反響3つ組(反響の対象、対象の値、評価表現)の中の最初の2つの要素が抽出できる。
次に、ステップS15において、情報抽出器処理部1は、評価表現記憶部7を参照することによって、反響文中の評価表現を特定する。なお、評価表現記憶部7には、予め、評価表現となり得る述語のリストを書き込んでおく。情報抽出器処理部1は、この述語のリストに含まれる語を、反響文の中で探すことによって評価表現を特定する。このとき、述語のリストに含まれる語が1つの反響文の中で複数見つかった場合には、各々の述語を評価表現とする複数の反響3つ組みを抽出する。但し、これら複数の反響3つ組のうち特定のもの(例えば、文の後方の評価表現を優先する)のみを抽出するようにしてもよい。また、1つの反響文の中に複数の反響の対象が含まれる場合には、係り受けの構造(格構造、つまり、「が格」、「を格」など)に基づいて反響の対象と評価表現とを対応付けることによって反響3つ組を抽出する。このステップにおいて評価表現が特定できた場合には、この段階で、反響3つ組のすべての要素が抽出できる。評価表現が見つからなかった場合には、評価表現を空(ヌル、φ)とした(つまり、評価表現が欠落した)反響3つ組(反響の対象、対象の値、φ)が抽出できる。
【0038】
次に、ステップS16において、情報抽出器処理部1は、現在の反響文から抽出されたすべての対象(反響の対象)について、反響3つ組の抽出の処理を終えたか否かを判定する。終えている場合(ステップS16:YES)には次のステップS17に進む。まだ終えていない場合(ステップS16:NO)には、次の対象の処理を行なうためにステップS14に戻る。
次に、ステップS17において、情報抽出器処理部1は、入力されたすべての反響文についての処理を終えたか否かを判定する。終えている場合(ステップS17:YES)にはこのフローチャート全体の処理を終了する。まだ終えていない場合(ステップS17:NO)には、次の反響文の処理を行なうためにステップS11に戻る。
【0039】
以上説明した手順により、情報抽出器処理部1は、全ての反響文について、反響3つ組を抽出できる。なお、情報抽出器処理部1は、評価表現付きの反響3つ組のデータを評価付き反響3つ組データ記憶部5aに書き込み、評価表現の欠落した反響3つ組のデータを評価欠落反響3つ組データ記憶部5bに書き込む。
【0040】
図5は、評価補完器処理部2が、評価表現付きの反響3つ組の集合と評価が欠落した反響3つ組の集合から、評価表現を補完し、補完済みの反響3つ組の集合を得るための処理手順を示したフローチャートである。以下、このフローチャートに沿って処理を説明する。
【0041】
まずステップS21において、評価補完器処理部2は、評価付き反響3つ組データ記憶部5aから、あるドメイン識別IDを有する評価表現付きの反響3つ組を読み込む。そして、ステップS22において、評価補完器処理部2は、評価欠落反響3つ組データ記憶部5bから、そのドメイン識別IDを有する評価表現の欠落した反響3つ組を読み込む。これら読み込んだ反響3つ組全体は同一のドメイン識別IDを有するものであり、これが以下の補完処理に用いる反響3つ組集合である。例えばドメイン識別IDが放送番組を識別するものである場合、同一の放送番組に関する反響3つ組の集合全体が、以下の補完処理の対象となる。
【0042】
次に、ステップS23において、評価補完器処理部2は、上記の反響3つ組の集合全体の階層クラスタリング処理を行なう。なお、階層クラスタリング処理そのものは、既存技術を用いることにより実行できる。そして、この際、評価補完器処理部2は、反響3つ組の中の最初の2つの要素である(反響の対象、対象の値)を指標としたクラスタリング処理を行なう。評価表現付きの反響3つ組と評価表現の欠落した反響3つ組のいずれも、「反響の対象」および「対象の値」の各要素は空(ヌル、φ)ではない。クラスタリングを行なう際のメトリックには、例えば、ベクトル空間法を利用することができる。ここでは例えば、(反響の対象、対象の値)の2次元の空間内での距離(例えばユークリッド距離)によってメトリックを定義する。つまり、2次元空間の座標軸は、それぞれ「反響の対象」と「対象の値」に対応する。
【0043】
その空間における距離の定義の一例としては、各軸における語の値が同一である場合(あるいは、例えば自立語部分の活用形の異なる範囲を実質同一とみなしてもよい)にはその軸における距離を0とし、語の値が異なる場合にはその軸における距離を1とする。
また、距離の定義の他の例としては、上記に加え、類義語辞書データ等を参照することにより、類義語の範囲内の語相互のその軸における距離を0.5としてもよい。
そして、ユークリッド距離を用いる場合、各軸における距離の自乗の和の平方根を、2次元空間における反響3つ組間の距離とする。
【0044】
上記の距離をメトリックとする階層クラスタリング処理の結果、評価補完器処理部2は、(反響の対象、対象の値)の近い反響3つ組がまとめあげられた木構造のデータを生成する。評価補完器処理部2は、生成された木構造のデータを一時的にメモリに書き込む。
図6は、評価補完器処理部2による階層クラスタリング処理の結果得られる木構造のデータの一例を示す概略図である。同図(a)において、木構造の終端ノード(terminal node)にあたる「○」印がそれぞれ反響3つ組に対応する。この木構造において、根は1つだけであり、つまりすべてのノードは連結されている。またそれぞれの非終端ノード(non-terminal node)は必ず2個の子ノード(それら子ノードは、終端ノードあるいは非終端ノード)を有する。ある非終端ノードに直接つながる2つのノードは、互いに距離の近いノードである。
【0045】
図5に戻り、次のステップS24において、評価補完器処理部2は、上で得られた階層クラスタリング処理の結果に基づき、その木構造のデータを辿りながら、評価表現の欠落していた1つの反響3つ組について、評価表現を補完する処理を行なう。その具体的方法は次の通りである。評価補完器処理部2は、上述した一時的メモリから前記の木構造のデータを読み取る。その反響3つ組は、その木構造のいずれかの終端ノードに対応する。評価補完器処理部2は、そのノードから木を1階層上る。そこには必ず非終端ノードが存在する。その非終端ノードの配下に含まれる終端ノードすべてが、当初の終端ノードの反響3つ組を補完するための反響3つ組の集合である。この集合を便宜的に評価表現が欠落した反響3つ組の「補完候補集合」と呼ぶ。
図6(b)に示す例では、記号Aで示す終端ノードからスタートし、そのノードから1階層上った位置にある非終端ノードが記号Bで示すものである。そして、この非終端ノードBの配下に含まれる終端ノードの集合(補完候補集合)とは、図示する破線の四角の枠内に含まれるすべての終端ノードの集合である。
【0046】
ある階層まで上ったときの補完候補集合で評価表現の補完ができる場合には、その反響3つ組に対する補完処理を終了する。
ある階層まで上ったときの補完候補集合で評価表現の補完ができない場合には、さらに1階層上の非終端ノードに上り、以後、当該反響3つ組に対する補完処理ができるまで順次階層を上る。仮に、根ノードまで上っても評価表現の補完ができない場合には、当該反響3つ組に対する補完処理を行なわない。
【0047】
補完候補集合が与えられたときの補完処理の方法は次の通りである。
即ち、その補完候補集合の中に評価表現付きの反響3つ組が1つ以上存在する場合であって、その評価表現が1種類のみ存在する場合には、その評価表現を用いて欠落していた評価表現を補完する。例えば、補完候補集合が(対象1、値1、φ)、(対象2、値2、φ)、(対象3、値3、評価表現3)、(対象4、値4、評価表現3)の4要素からなる場合、ここに含まれる唯一の評価表現である評価表現3を用いた補完を行う。
また、その補完候補集合の中に評価表現付きの反響3つ組が1つ以上存在する場合であって、その中に複数の評価表現が存在する場合には、それらの複数の評価表現の中のいずれか(例えば、多数決により決めてもよい)を用いて、欠落していた評価表現を補完する。例えば、例えば、補完候補集合が(対象1、値1、評価表現1)、(対象2、値2、評価表現2)、(対象3、値3、評価表現2)、(対象4、値4、φ)の4要素からなる場合、この集合内では評価表現1が1度登場し、評価表現2が2度登場するため、多数決により評価表現2を用いた補完を行う。
また、その補完候補集合の中に評価表現付きの反響3つ組が1つも存在しない場合には、その補完候補集合では補完処理を行なわずに、前述の通り、より上の階層に上って補完候補集合を得るようにする。
あるいは、その補完候補集合の中に評価表現付きの反響3つ組が1つも存在しない場合には、予め与えられた事前確率の最も高い評価表現(デフォルトの補完表現)を用いて補完を行うようにしてもよい。
【0048】
次に、ステップS25において、評価補完器処理部2は、評価表現の欠落したすべての反響3つ組についてステップS24の補完処理を終えたか否かを判定する。すべて終えている場合(ステップS25:YES)にはこのフローチャート全体の処理を終了し、いずれかについて終えていない場合(ステップS25:NO)にはステップS24に戻って次の評価欠落反響3つ組の補完処理を行なう。
【0049】
以上により、評価補完器処理部2は、評価表現の欠落していた反響3つ組のうちの可能なすべてのものについて、評価表現を補完する処理を行なう。なお、評価補完器処理部2は、補完済の反響3つ組のデータを補完済反響3つ組データ記憶部5cに書き込む。
【0050】
次に、具体的な例文を用いて上述した補完処理を補足説明する。
図7は、例文の係り受け構造を示す概略図である。
同図(a)は、「村人が用水路によって戻ってきたのでよかった」という反響文の係り受け構造を示している。TF−IDFの方法により、「村人」が反響の対象として抽出される。図示するか係り受け構造においては、「村人が」の係り先の述語は「戻る」である。また、評価表現記憶部7を参照することにより「よい」が評価表現として選択される。よって、この例文からは、(村人、戻る、よい)という評価表現付きの反響3つ組が抽出される。
同図(b)は、「灌漑により皆が戻り集落が又出来る。」という別の反響文の係り受け構造を示している。TF−IDFの方法により、「皆」と「集落」の2つが反響の対象として抽出される。図示するように、「皆が」の係り先が「戻る」であり、「集落が」の係り先が「出来る」である。また、この反響文に関しては、評価表現が存在しない。従って、この反響文からは、(皆、戻る、φ)と(集落、出来る、φ)という、評価表現がそれぞれ欠落した2つの反響3つ組が抽出される。
そして、クラスタリング処理によって、(村人、戻る、よい)と(皆、戻る、φ)の距離が近く、これらが同一クラスタに分類される。その結果、「よい」という評価表現が補完され、(皆、戻る、よい)という補完済の反響3つ組が得られる。
【0051】
なお、本実施形態で利用するクラスタリング技術およびベクトル空間法の技術としては、下記の文献に記載されている技術を応用することもできる。
文献:Christopher D. Manning et. Al, "Foundations of Statistical Natural Language Processing"
【0052】
以上述べたように、本実施形態では、文に含まれる特徴的な語である対象語(反響の対象)と、文の係り受け構造において対象語の係り先となる述語である値との組を特徴データとして用いる。そして、情報抽出器処理部1は、文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出する。そして、評価補完器処理部2は、この特徴データに含まれる対象語と値との組をクラスタリング処理することにより特徴データ間の類似度の算出を行なうものである。
また、本実施形態では、反響文にはドメイン識別ID(ドメイン識別データ)が付加されており、情報抽出器処理部1は、ドメイン識別IDが付加された評価付き抽出情報および評価欠落抽出情報を抽出してそれぞれ記憶部に書き込む。そして、評価補完器処理部2は、ドメイン識別ID同一である範囲でクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なう。同一のドメイン識別IDを有しているデータは、例えば、同一の放送番組に対する反響であり、その範囲内でクラスタリングおよび評価表現の補完を行なうことにより、良い精度の補完が行なえる。
【0053】
[第1の実施の形態の変形例]
上記の実施形態では、評価補完器処理部2が補完すべき評価表現を決定する際(図5のフローチャートのステップS24)、階層クラスタリング処理の結果得られた木構造を順次上り、最高で根ノードまで上って補完候補集合を得ることとしたが、その代わりに次のいずれかの方法をとってもよい。
第1の方法は、予め所定の最大階層数を決めておき、最大でもその階層の非終端ノードまでしか上らず、補完候補集合を当該非終端ノードの配下の範囲内のみに限定する。
第2の方法は、予め所定の最大3つ組数を決めておき、その最大3つ組数の範囲内の終端ノードを配下に有する非終端ノードまでしか上らず、補完候補集合を当該非終端ノードの配下の範囲内のみに限定する。
【0054】
[第2の実施の形態]
次に、第2の実施形態について説明する。
図8は、同実施形態による表現補完装置20の機能構成を示すブロック図である。この表現補完装置20の構成が前実施形態の表現補完装置10と異なる点は、入力文に基づいて単語概念を抽出する単語概念抽出処理部18を有している点と、評価補完器処理部12がこの単語概念抽出処理部18によって出力される単語概念の情報に基づいて、ベクトル空間法における距離を決定し階層クラスタリングを行なう点である。なお、その他の各部の機能については、前実施形態と同様であるので、ここでは説明を省略する。
【0055】
単語概念抽出処理部18は、反響文記憶部4から読み出す反響文の集合に基づいて、これらの文に含まれる単語間の概念空間における距離を算出する。その方法は、以下の通りである。
【0056】
まず、単語概念抽出処理部18は、反響文記憶部4に記憶されている反響文を読み出す。このとき、例えば、同一のドメイン識別IDを有する反響文をすべて読み出して処理対象としてもよいし、複数のドメイン識別IDに跨る反響文を読み出して処理対象としてもよい。そして、単語概念抽出処理部18は、それらの反響文の形態素解析処理を行ない、各反響文に含まれる単語の出現頻度をカウントし、その結果として下の式(4)で表わされるBOW(Bag of Words、バッグ・オブ・ワーズ、単語の出現順序を考慮しない単語出現頻度情報)の行列Xのデータを作成する。
【0057】
【数4】
【0058】
この行列Xにおいて、各行が単語に対応し、各列がドキュメント(ここでは反響文)に対応する。そして、行列Xの要素xi,jは、i番目の単語がj番目の反響文において出現する頻度(回数)である。言いかえれば、行列Xに含まれる行ベクトルtiTは、i番目の単語に対応したベクトルであり、各反響文での出現状況を表わしている。これらの定義からわかるように、行列Xは、大規模で、且つ通常は疎な行列である。
【0059】
次に、単語概念抽出処理部18は、行列Xに対して特異値分解(SVD、Singular Value Decomposition)の処理を施す。特異値分解により、行列Xは、下の式(5)のように分解される。
【0060】
【数5】
【0061】
ここで、行列UとVは直交する行列であり、行列Σは対角行列である。なお、行列Uはm行l(エル)列、行列Vはl(エル)行n列、行列Σは、l(エル)行l(エル)列である。ここで、行列Σの対角要素σ1,・・・,σlを特異値と呼び、列ベクトルu1,・・・,ulを左特異ベクトルと呼び、行ベクトルv1,・・・,vlを右特異ベクトルと呼ぶ。そして、k個の最大の特異値と、行列UとVからそれらに対応する特異ベクトルを選ぶことにより、階数kの行列Xへの近似を得る。この近似は、下の式(6)のように表わせる。
【0062】
【数6】
【0063】
ベクトルti(ハット)はk個の要素を有し、そのそれぞれの要素がi番目の単語k個の概念の1つに対応した出現を表している。
単語概念抽出処理部18は、このような計算で得られるベクトルを各単語に対応させる形で一時的にメモリに書き込んでおく。
【0064】
そして、本実施形態による評価補完器処理部12は、上記メモリから適宜ベクトルのデータを読み出すことにより、任意に選ばれた2つの単語について、それらの単語に対応するベクトルから、それらの単語間の距離を得る。単語間の距離としては、例えば、2つのベクトルのコサイン相関量の逆数を用いる。そして、評価補完器処理部12は、反響3つ組の中の最初の2つの要素である「反響の対象」および「対象の値」のそれぞれの軸についての単語間の距離から、反響3つ組間のユークリッド距離を算出する。そして、評価補完器処理部12は、このユークリッド距離を用いて評価表現付きの反響3つ組および評価が欠落した反響3つ組の集合の階層クラスタリングの処理を行なう。以後の処理については、前実施形態と同様であるので、個々での説明を省略する。
【0065】
なお、本実施形態では、単語概念抽出器処理部18が反響文記憶部4から読み出した反響文の集合に基づいて単語と概念との対応付け、言い換えれば概念上での単語間の距離の算出を行なうようにしているが、その変形として、反響文以外の一般的な文の集合を記憶媒体等から読み出して、その文集合を基に、上記と同様の方法で単語間の距離の算出を行うようにしてもよい。さらに、この距離の算出を単語概念抽出器処理部18が予め行なうことによって算出された単語間の距離を予めメモリ等に記憶しておき、評価補完器処理部12がそのメモリから単語間の距離を読み出して階層クラスタリング処理を行なうようにしてもよい。
【0066】
以上述べたように、本実施形態も、第1の実施形態と同様に、文に含まれる特徴的な語である対象語(反響の対象)と、文の係り受け構造において対象語の係り先となる述語である値との組を特徴データとして用いてクラスタリング処理を行なう。本実施形態の特徴は、そのときの組間の距離を算出するために、単語についての潜在意味解析(LSI,Latent Semantic Indexing)の処理の結果として得られる単語間の距離データを用いる点である。つまり、本実施形態では、(反響の対象(対象語),値(述語))の2次元空間において、潜在意味解析を用いて意味的に近いもの同士の距離が近くなるような計算を行なう。
【0067】
[第3の実施の形態]
次に、本発明の第3の実施形態について説明する。
図9は、同実施形態による表現補完装置30の機能構成を示すブロック図である。この表現補完装置30の構成が第1の実施形態の表現補完装置10と異なる点は、評価付き反響3つ組データ記憶部5a、評価欠落反響3つ組データ記憶部5b、補完済反響3つ組データ記憶部5cの代わりに、それぞれ、評価付き反響2つ組データ記憶部25a、評価欠落反響2つ組データ記憶部25b、補完済反響2つ組データ記憶部25cを含むことである。また、それに伴い、情報抽出器処理部21は、反響文を基に、後述する反響2つ組のデータを抽出する。また、評価補完器処理部22は、その反響2つ組のデータを用いて評価表現の補完処理を行なう。なお、その他の各部の機能については、前実施形態と同様であるので、ここでは説明を省略する。
【0068】
図10は、本実施形態による抽出情報データベースの構造およびデータ例を示す概略図である。図示するように、抽出情報データベースは、二次元の表形式のデータであり、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスと、反響2つ組の各項目を有する。これらの項目のうち、ドメイン識別番号と、ドメイン内文番号と、文内番号と、ステータスについては、第1の実施形態における抽出情報データベースと同様である。
【0069】
ここで、抽出情報データベースにおいて、ステータスが「評価付き」であるようなデータが格納される領域が、評価付き反響2つ組データ記憶部25aである。同様に、ステータスが「評価欠落」であるようなデータが格納される領域が、評価欠落反響2つ組データ記憶部25bである。同様に、ステータスが「補完済」であるようなデータが格納される領域が、補完済反響2つ組データ記憶部25cである。
【0070】
本実施形態で用いる反響2つ組のデータは、さらに、反響の対象と、評価表現の各項目から構成されている。このうち、反響の対象の項目には、入力される反響文に対応する構文解析木のデータが格納される。この構文解析木のデータは、適宜、木を表現する構造を有するテキストデータや、オブジェクトデータベース技術を用いたオブジェクトデータなどの形で表現される。評価表現の項目は、第1の実施形態におけるそれと同様である。
【0071】
本実施形態における情報抽出器処理部21は、構文解析処理の機能を備えており、反響文記憶部4から読み出したそれぞれの反響文について、構文解析処理を行ない、その結果として構文解析木のデータを得る。また、情報抽出器処理部21は、第1の実施形態と同様の方法で評価表現の抽出を行なう。評価表現が抽出できた反響文については、情報抽出器処理部21は、その評価表現を含む反響2つ組のデータを評価付き反響2つ組データ記憶部25aに書き込む。また評価表現が抽出できなかった反響文については、情報抽出器処理部21は、評価表現が空(ヌル、φ)であるような、即ち評価表現の欠落した反響2つ組のデータを評価欠落反響2つ組データ記憶部25bに書き込む。
【0072】
また、評価補完器処理部22は、反響2つ組データ記憶部25aおよび評価欠落反響2つ組データ記憶部25bから読み出した反響2つ組の集合の階層クラスタリング処理を行なう。本実施形態においては、「反響の対象」の項目に格納されている構文解析木自体が元の反響文の特徴を表わすデータであり、評価補完器処理部22は、この構文解析木のデータに基づいて反響2つ組の間の距離を求め、この距離を用いた階層クラスタリング処理を行なう。なお、反響2つ組の間の距離を算出するためには、構文解析木のデータに基づく各反響文の特徴ベクトルを生成し、この特徴ベクトルによりLSI(潜在意味解析)の処理を行なう。そして、評価補完器処理部22は、階層クラスタリングの結果に基づき、第1の実施形態と同様に評価表現の補完を行ない、評価表現を補完した反響2つ組については、そのデータを補完済反響2つ組データ記憶部25cに書き込む。
【0073】
[第3の実施の形態の変形例]
なお、上記の実施形態では、反響2つ組の要素である「反響の対象」として構文解析木のデータを用いたが、代わりに例えば、各反響文に含まれる単語の出現頻度をカウントし、その結果として得られるBOW(バッグ・オブ・ワーズ)の単語出現頻度ベクトルを「反響の対象」のデータとして用いるようにしてもよい。この単語出現頻度ベクトルは、前記の式(4)で示した行列Xにおける1列のベクトル(x1,i,・・・・・・,xm,i,)に相当する(1≦i≦n)。
【0074】
以上述べたように、第3の実施形態では、文に対応する構文解析木のデータを特徴データとして用いる。つまり、情報抽出器処理部21は、文を構文解析処理することにより構文解析木のデータを特徴データとして抽出する。そして、評価補完器処理部22は、この構文解析木のデータ間の距離に基づくクラスタリング処理を行なう。
【0075】
なお、上述した各実施形態における表現補完装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0076】
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
第1〜第3の実施形態においては、評価補完器処理部が階層クラスタリングを用いて近い反響3つ組(あるいは2つ組)同士をまとめ上げるようにしたが、代わりに、非階層クラスタリングを行なうようにしてもよい。非階層クラスタリングを用いた場合にも、評価表現が欠落した反響3つ組(あるいは2つ組)と同じクラスタに属する(あるいは近いクラスタに属する)評価表現付きの反響3つ組(あるいは2つ組)の評価表現を用いて、評価表現の補完処理を行なう。また、そのようなクラスタに複数種類の評価表現が含まれる場合には、適宜、多数決等の方法によって補完に用いるための評価表現を決定する。
【0077】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、前記の各実施形態では反響文を入力文として用いたが、これに限らず、一般的に類似の性質を持つ文の集合を入力文集合としても良い。
【産業上の利用可能性】
【0078】
本発明は、一例としては、放送番組視聴者や消費者(物品購買者やサービスの提供を受ける者)などからの反響を機械的に効率よく分析するために利用可能である。特に、明示的な評価表現を必ずしも含むとは限らない反響文の集合を基に、欠落している評価表現(即ち、反響文が暗示している評価表現)を機械的に補完して、反響の分析に生かすことが可能となる。
また、本発明は、同一のコンテンツに多数の反響が寄せられることに鑑みてなされたものであり、マスメディア(映画、番組、放送)の評判分析を行う場面に効果的に用いることが出来る。
【図面の簡単な説明】
【0079】
【図1】第1の実施形態による表現補完装置の機能構成を示すブロック図である。
【図2】同実施形態における反響文記憶部4に記憶される入力文データの構造およびデータ例を示す概略図である。
【図3】同実施形態における抽出情報データベース(評価付き反響3つ組データ記憶部5a,評価欠落反響3つ組データ記憶部5b,補完済反響3つ組データ記憶部5c)の構造およびデータ例を示す概略図である。
【図4】同実施形態における情報抽出器処理部1が反響文を基に反響3つ組を抽出する処理の手順を示すフローチャートである。
【図5】同実施形態における評価補完器処理部2が、反響3つ組の集合から、評価表現を補完する処理の手順を示したフローチャートである。
【図6】同実施形態における評価補完器処理部2による階層クラスタリング処理の結果得られる木構造のデータの一例を示す概略図である。
【図7】同実施形態における情報抽出器処理部1が評価の値を抽出するために用いる係り受け構造の例を示す概略図である。
【図8】第2の実施形態による表現補完装置の機能構成を示すブロック図である。
【図9】第3の実施形態による表現補完装置の機能構成を示すブロック図である。
【図10】同実施形態における抽出情報データベース(評価付き反響2つ組データ記憶部25a,評価欠落反響2つ組データ記憶部25b,補完済反響2つ組データ記憶部25c)の構造およびデータ例を示す概略図である。
【図11】第3の実施形態の変形例における抽出情報データベースの構造およびデータ例を示す概略図である。
【符号の説明】
【0080】
1,21 情報抽出器処理部(情報抽出処理部、情報抽出処理過程)
2,12,22 評価補完器処理部(評価補完処理部、評価補完処理過程)
3 文書分類器処理部
4 反響文記憶部(入力データベース)
5a 評価付き反響3つ組データ記憶部(評価付き抽出情報記憶部)
5b 評価欠落反響3つ組データ記憶部(評価欠落抽出情報記憶部)
5c 補完済反響3つ組データ記憶部(補完済抽出情報記憶部)
25a 評価付き反響2つ組データ記憶部(評価付き抽出情報記憶部)
25b 評価欠落反響2つ組データ記憶部(評価欠落抽出情報記憶部)
25c 補完済反響2つ組データ記憶部(補完済抽出情報記憶部)
6 分類結果データ
7 評価表現記憶部
18 単語概念抽出器処理部
【特許請求の範囲】
【請求項1】
入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理部と、
前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データとに基づき、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報を補完済抽出情報記憶部に書き込む評価補完処理部と、
を具備することを特徴とする表現補完装置。
【請求項2】
前記特徴データは、前記文に含まれる特徴的な語である対象語と、前記文の係り受け構造において前記対象語の係り先となる述語である値との組であり、
前記情報抽出処理部は、前記文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出し、
前記評価補完処理部は、前記特徴データに含まれる前記対象語と前記値との組をクラスタリング処理することにより前記特徴データ間の類似度の算出を行なう、
ことを特徴とする請求項1に記載の表現補完装置。
【請求項3】
前記評価補完処理部は、前記文に含まれる単語についての潜在意味解析の処理の結果として得られる単語間の距離データに基づき、前記対象語間の距離データおよび前記値間の距離データを求めることにより前記クラスタリング処理を行なう、
ことを特徴とする請求項2に記載の表現補完装置。
【請求項4】
前記特徴データは、前記文に対応する構文解析木のデータであり、
前記情報抽出処理部は、前記文を構文解析処理することにより前記構文解析木のデータを前記特徴データとして抽出する、
ことを特徴とする請求項1に記載の表現補完装置。
【請求項5】
前記文集合のデータには文毎のドメイン識別データが付加されており、
前記情報抽出処理部は、前記ドメイン識別データが付加された前記評価付き抽出情報を前記評価付き抽出情報記憶部に書き込むとともに、前記ドメイン識別データが付加された前記評価欠落抽出情報を前記評価欠落抽出情報記憶部に書き込み、
評価補完処理部は、前記ドメイン識別データが同一である範囲の前記評価付き抽出情報および前記評価欠落抽出情報を用いてクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なう、
ことを特徴とする請求項1から4までのいずれか一項に記載の表現補完装置。
【請求項6】
入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理過程と、
前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データとに基づき、これら前記特徴データ間の類似度を算出する処理を行ない、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する評価補完処理過程と、
の処理をコンピュータに実行させるプログラム。
【請求項1】
入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理部と、
前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データとに基づき、クラスタリング処理を行なうことにより前記特徴データ間の類似度を算出し、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完し、この補完された評価表現を用いた補完済抽出情報を補完済抽出情報記憶部に書き込む評価補完処理部と、
を具備することを特徴とする表現補完装置。
【請求項2】
前記特徴データは、前記文に含まれる特徴的な語である対象語と、前記文の係り受け構造において前記対象語の係り先となる述語である値との組であり、
前記情報抽出処理部は、前記文に含まれる語の単語出現頻度および逆出現頻度に基づき前記対象語を抽出し、
前記評価補完処理部は、前記特徴データに含まれる前記対象語と前記値との組をクラスタリング処理することにより前記特徴データ間の類似度の算出を行なう、
ことを特徴とする請求項1に記載の表現補完装置。
【請求項3】
前記評価補完処理部は、前記文に含まれる単語についての潜在意味解析の処理の結果として得られる単語間の距離データに基づき、前記対象語間の距離データおよび前記値間の距離データを求めることにより前記クラスタリング処理を行なう、
ことを特徴とする請求項2に記載の表現補完装置。
【請求項4】
前記特徴データは、前記文に対応する構文解析木のデータであり、
前記情報抽出処理部は、前記文を構文解析処理することにより前記構文解析木のデータを前記特徴データとして抽出する、
ことを特徴とする請求項1に記載の表現補完装置。
【請求項5】
前記文集合のデータには文毎のドメイン識別データが付加されており、
前記情報抽出処理部は、前記ドメイン識別データが付加された前記評価付き抽出情報を前記評価付き抽出情報記憶部に書き込むとともに、前記ドメイン識別データが付加された前記評価欠落抽出情報を前記評価欠落抽出情報記憶部に書き込み、
評価補完処理部は、前記ドメイン識別データが同一である範囲の前記評価付き抽出情報および前記評価欠落抽出情報を用いてクラスタリング処理を行ない、当該範囲内において評価表現の補完を行なう、
ことを特徴とする請求項1から4までのいずれか一項に記載の表現補完装置。
【請求項6】
入力される文集合のデータを読み込み、前記文集合に含まれる文のうち、評価表現を含む文については当該文の特徴データと当該文の評価表現とを抽出して評価付き抽出情報として評価付き抽出情報記憶部に書き込み、評価表現を含まない文については当該文の特徴データを抽出して評価欠落抽出情報として評価欠落抽出情報記憶部に書き込む情報抽出処理過程と、
前記評価付き抽出情報記憶部から読み出した評価付き抽出情報に含まれる前記特徴データと、前記評価欠落抽出情報記憶部から読み出した評価欠落抽出情報に含まれる前記特徴データとに基づき、これら前記特徴データ間の類似度を算出する処理を行ない、前記評価欠落抽出情報に含まれる前記特徴データとの類似度が高い所定範囲の前記特徴データを有する前記評価付き抽出情報を特定し、該特定された評価付き抽出情報に含まれる前記評価表現を用いて当該評価欠落抽出情報の評価表現を補完する評価補完処理過程と、
の処理をコンピュータに実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2010−146171(P2010−146171A)
【公開日】平成22年7月1日(2010.7.1)
【国際特許分類】
【出願番号】特願2008−321098(P2008−321098)
【出願日】平成20年12月17日(2008.12.17)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
【公開日】平成22年7月1日(2010.7.1)
【国際特許分類】
【出願日】平成20年12月17日(2008.12.17)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
[ Back to top ]