説明

属性表現獲得方法及び評価表現獲得方法及び装置及びプログラム

【課題】入力評価表現との共起頻度が少ない属性表現であっても属性表現集合をも獲得し、入力属性表現との共起頻度が少ない評価表現であっても評価表現集合をも獲得する。
【解決手段】本発明は、1つの評価表現が入力されると、文書記憶手段から単語の出現位置に関する情報を基に属性表現候補を抽出し、属性表現候補の出現頻度を利用して、属性表現候補を絞り込み、絞り込まれた属性表現候補毎に、共起語を単語の出現位置に関する情報を基に文書記憶手段から抽出し、予め決められた数以上に同じ共起語を持つ属性表現候補をまとめて属性表現集合として抽出する。評価表現集合の抽出についても同様に行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、属性表現獲得方法及び評価表現獲得方法及び装置及びプログラムに係り、特に、属性表現を基にその属性表現の評価を表す評価表現を、または、評価表現を基にその評価表現が何についての評価であるかを表す属性表現を、文書から獲得するための属性表現獲得方法及び評価表現獲得方法及び装置及びプログラムに関する。
【背景技術】
【0002】
属性表現を基にその属性表現の評価を表す評価表現を、または、評価表現を基にその評価表現が何についての評価であるかを表す属性表現を、文書から獲得する場合、同一文内で属性表現と評価表現が同時に出現する頻度などの統計情報を利用した方法が知られている。例えば、携帯電話などの対象事物に関する評価表現(「小さい」「美しい」など)から、その対象物の性質を示す属性表現(「画面」「デザイン」など)を獲得する方法が知られている(例えば、非特許文献1参照)。
【非特許文献1】「意見抽出のための評価表現の収集」、言語処理学会論文集、Vol.12、No.3, pp.203-222, 2005年
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記従来の評価表現を獲得する方法は、統計情報を利用しているので、頻度が少ない単語については自動で獲得することが困難である。例えば、評価表現から属性表現を獲得する場合、属性表現は非常に多種類の表現が存在するため、評価表現と属性表現の特定の組み合わせが同一文中に同時に出現する頻度が少ない属性表現も多く、このような頻度が少ない多くの属性表現を自動で獲得できない問題があった。
【0004】
本発明は、上記の点に鑑みなされたもので、頻度が少ない属性表現であっても、属性表現候補が、入力評価表現以外で同じ共起語を持つかどうかについて調べることによって、属性表現と認定でき、また、頻度が少ない評価表現であっても、評価表現候補が、入力属性表現以外で同じ共起語を持つかどうかについて調べることによって、評価表現と認定できることが可能な属性表現獲得方法及び評価表現獲得方法及び装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
図1は、本発明の原理を説明するための図(その1)である。
【0006】
本発明(請求項1)は、評価表現入力手段、属性表現候補抽出手段、属性表現候補格納手段、属性表現候補絞り込み手段、共起語抽出手段、共起語格納手段、属性表現抽出手段及び複数の記憶手段を有する属性表現獲得装置における、対象事物に対して評価を表す表現である評価表現を基に、該対象事物の性質を表す属性表現を文書から獲得するための属性表現獲得方法であって、
評価表現入力手段が、1つの評価表現を入力する評価表現入力ステップ(ステップ1)と、
属性表現候補抽出手段が、評価表現入力ステップによって取得された1つの評価表現と同一文内で同時に出現する表現(属性表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶手段から、単語の出現位置に関する情報を基に抽出する属性表現候補抽出ステップ(ステップ2)と、
属性表現候補格納手段が、属性表現候補を文毎に属性表現候補記憶手段に格納する属性表現候補格納ステップ(ステップ3)と、
属性表現候補絞り込み手段が、属性表現候補記憶手段から属性表現候補の出現頻度を利用して、該属性表現候補を絞り込む属性表現候補絞り込みステップ(ステップ4)と、
共起語抽出手段が、属性表現候補絞り込みステップによって絞り込まれた属性表現候補毎に、該属性表現候補と同一文内で同時に出現する該評価表現以外の単語(共起語)を、単語の出現位置に関する情報を基に、単語区切り付き文書格納した文書記憶手段から抽出する共起語抽出ステップ(ステップ5)と、
共起語格納手段が、属性表現候補毎に共起語の集合を共起語記憶手段に格納する共起語格納ステップ(ステップ6)と、
属性表現抽出手段が、共起語記憶手段に格納されている共起語の集合のうち、予め決められた数以上に同じ共起語を持つ属性表現候補をまとめて属性表現集合として抽出する属性表現抽出ステップ(ステップ7)と、を行う。
【0007】
また、本発明(請求項2)は、属性表現候補抽出ステップ(ステップ2)において、
属性表現候補抽出手段が、予め用意した文書の単語自身に関する言語情報を格納した言語情報付き文書を格納した文書記憶手段から、該言語情報を利用して属性表現候補を抽出するステップを行い、
共起語抽出ステップ(ステップ5)において、
共起語抽出手段が、言語情報付き文書格納した文書記憶手段から、言語情報を利用して共起語を抽出するステップを行う。
【0008】
また、本発明(請求項3)は、属性表現候補抽出ステップ(ステップ2)において、
属性表現候補抽出手段が、予め用意した文書の単語間に係わる構文情報付き文書を格納した文書記憶手段から、該構文情報を利用して属性表現候補を抽出するステップを行い、
共起語抽出ステップ(ステップ5)において、
共起語抽出手段が、構文情報付き文書を格納した文書記憶手段から構文情報を利用して共起語を抽出するステップを行う。
【0009】
図2は、本発明の原理構成図(その1)である。
【0010】
本発明(請求項4)は、対象事物に対して評価を表す表現である評価表現を基に、該対象事物の性質を表す属性表現を文書から獲得するための属性表現獲得装置であって、
1つの評価表現を入力する評価表現入力手段110と、
評価表現入力手段110によって取得された1つの評価表現と同一文内で同時に出現する表現(属性表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶手段10から、単語の出現位置に関する情報を基に抽出する属性表現候補抽出手段120と、
属性表現候補を文毎に属性表現候補記憶手段20に格納する属性表現候補格納手段130と、
属性表現候補記憶手段20から属性表現候補の出現頻度を利用して、該属性表現候補を絞り込む属性表現候補絞り込み手段140と、
属性表現候補絞り込み手段140によって絞り込まれた属性表現候補毎に、該属性表現候補と同一文内で同時に出現する該評価表現以外の単語(共起語)を、単語の出現位置に関する情報を基に、単語区切り付き文書を格納した文書記憶手段10から抽出する共起語抽出手段150と、
属性表現候補毎に共起語の集合を共起語記憶手段30に格納する共起語格納手段160と、
共起語記憶手段30に格納されている共起語の集合のうち、予め決められた数以上に同じ共起語を持つ属性表現候補をまとめて属性表現集合として抽出する属性表現抽出手段170と、を有する。
【0011】
また、本発明(請求項5)は、属性表現候補抽出手段120において、
予め用意した文書の単語自身に関する言語情報付き文書を格納した文書記憶手段10から、該言語情報を利用して属性表現候補を抽出する手段を含み、
共起語抽出手段150は、
言語情報付き文書を格納した文書記憶手段10から、言語情報を利用して共起語を抽出する手段を含む。
【0012】
また、本発明(請求項6)は、属性表現候補抽出手段120において、
予め用意した文書の単語間に係わる構文情報付き文書を格納した文書記憶手段10から、該構文情報を利用して属性表現候補を抽出する手段を含み、
共起語抽出手段150は、
構文情報付き文書を格納した文書記憶手段10から構文情報を利用して共起語を抽出する手段を含む。
【0013】
本発明(請求項7)は、コンピュータを、請求項4乃至6記載の属性表現獲得装置として機能させる属性表現獲得プログラムである。
【0014】
図3は、本発明の原理を説明するための図(その2)である。
【0015】
本発明(請求項8)は、属性表現入力手段、評価表現候補抽出手段、評価表現候補格納手段、評価表現候補絞り込み手段、共起語抽出手段、共起語格納手段、評価表現抽出手段及び複数の記憶手段とを有する評価表現獲得装置における、対象事物の性質を表す属性表現を基に、該対象事物に対して評価を表す表現である評価表現を文書から獲得する評価表現獲得方法であって、
属性表現入力手段が、1つの属性表現を入力する属性表現入力ステップ(ステップ11)と、
評価表現候補抽出手段が、属性表現入力ステップによって取得された1つの属性表現と同一文内で同時に出現する表現(評価表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶手段から単語の出現位置に関する情報を基に抽出する評価表現候補抽出ステップ(ステップ12)と、
評価表現候補格納手段が、評価表現候補を文毎に評価表現候補記憶手段に格納する評価表現候補格納ステップ(ステップ13)と、
評価表現候補絞り込み手段が、評価表現候補記憶手段から、評価表現候補の出現頻度を利用して、評価表現候補を絞り込む評価表現候補絞り込みステップ(ステップ14)と、
共起語抽出手段が、評価表現候補絞り込みステップ(ステップ14)によって絞り込まれた評価表現候補毎に、該評価表現候補と同一文内で同時に出現する属性表現以外の単語(共起語)を、単語の出現位置に関する情報を基に、単語区切り付き文書を格納した文書記憶手段から抽出する共起語抽出ステップ(ステップ15)と、
共起語格納手段が、評価表現候補毎に共起語の集合を共起語記憶手段に格納する共起語格納ステップ(ステップ16)と、
評価表現抽出手段が、共起語記憶手段に格納されている共起語の集合のうち、予め決められた数以上に同じ共起語を持つ評価表現候補をまとめて評価表現集合として抽出する評価表現抽出ステップ(ステップ17)と、を行う。
【0016】
また、本発明(請求項9)は、評価表現候補抽出ステップ(ステップ12)において、
評価表現候補抽出手段が、予め用意した文書の単語自身に関する言語情報を格納した言語情報付き文書を格納した文書記憶手段から、言語情報を利用して評価表現候補を抽出するステップを行い、
共起語抽出ステップ(ステップ15)において、
共起語抽出手段が、言語情報付き文書を格納した文書記憶手段から言語情報を利用して共起語を抽出するステップを行う。
【0017】
また、本発明(請求項10)は、評価表現候補抽出ステップ(ステップ12)において、
評価表現候補抽出手段が、予め用意した文書の単語間に係わる構文情報付き文書を格納した文書記憶手段から、該構文情報を利用して評価表現候補を抽出するステップを行い、
共起語抽出ステップ(ステップ15)において、
共起語抽出手段が、構文情報付き文書を格納した文書記憶手段から、構文情報を利用して共起語を抽出するステップを行う。
【0018】
図4は、本発明の原理構成図(その2)である。
【0019】
本発明(請求項11)は、対象事物の性質を表す属性表現を基に、該対象事物に対して評価を表す表現である評価表現を文書から獲得する評価表現獲得装置であって、
1つの属性表現を入力する属性表現入力手段210と、
属性表現入力手段210によって取得された1つの属性表現と同一文内で同時に出現する表現(評価表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶手段40から、単語の出現位置に関する情報を基に抽出する評価表現候補抽出手段220と、
評価表現候補を文毎に評価表現候補記憶手段50に格納する評価表現候補格納手段230と、
評価表現候補記憶手段50から、評価表現候補の出現頻度を利用して、評価表現候補を絞り込む評価表現候補絞り込み手段240と、
評価表現候補絞り込み手段240によって絞り込まれた評価表現候補毎に、該評価表現候補と同一文内で同時に出現する属性表現以外の単語(共起語)を、単語の出現位置に関する情報を基に、単語区切り付き文書を格納した文書記憶手段40から抽出する共起語抽出手段250と、
評価表現候補毎に共起語の集合を共起語記憶手段60に格納する共起語格納手段260と、
共起語記憶手段60に格納されている共起語の集合のうち、予め決められた数以上に同じ共起語を持つ評価表現候補をまとめて評価表現集合として抽出する評価表現抽出手段270と、を有する。
【0020】
また、本発明(請求項12)は、評価表現候補抽出手段220において、
予め用意した文書の単語自身に関する言語情報付き文書を格納した文書記憶手段40から言語情報を利用して評価表現候補を抽出する手段を含み、
共起語抽出手段250は、
言語情報付き文書を格納した文書記憶手段40から言語情報を利用して共起語を抽出する手段を含む。
【0021】
また、本発明(請求項13)は、評価表現候補抽出手段220において、
予め用意した文書の単語間に係わる構文情報付き文書を格納した文書記憶手段40から、該構文情報を利用して評価表現候補を抽出する手段を含み、
共起語抽出手段250は、
構文情報付き文書を格納した文書記憶手段40から、構文情報を利用して共起語を抽出する手段を含む。
【0022】
本発明(請求項14)は、コンピュータを、請求項11乃至13記載の評価表現獲得装置として機能させる評価表現獲得プログラムである。
【発明の効果】
【0023】
上記のように本発明によれば、属性表現候補に対して、入力評価表現以外で同じ共起語を持つかどうかについて調べることによって、入力評価表現との共起頻度が少ない属性表現であっても獲得することが可能であり、また、評価表現候補に対して、入力属性表現以外で同じ共起語を持つかどうかについて調べることによって、入力属性表現との共起頻度が少ない評価表現であっても獲得することが可能であるという効果を奏する。
【発明を実施するための最良の形態】
【0024】
以下、図面と共に本発明の実施の形態を説明する。
【0025】
[第1の実施の形態]
本発明の第1の実施の形態として、属性表現獲得装置について説明する。
【0026】
図5は、本発明の第1の実施の形態における属性表現獲得装置の基本ブロック構成図である。
【0027】
属性表現獲得装置100は、評価表現入力部110、属性表現候補抽出部120、属性表現候補格納部130、属性表現候補絞込み部140、共起語抽出部150、共起語格納部160、属性表現抽出部170、言語情報・構文情報・単語区切り付き文書記憶部10、属性表現候補記憶部20、及び共起語記憶部30から構成される。
【0028】
言語情報・構文情報・単語区切り付き文書記憶部10、属性表現候補記憶部20、及び共起語記憶部30は、ディスク装置や、メモリなどの記憶媒体である。
【0029】
なお、以下で用いる「属性表現」とは、例えば、入力される表現が、携帯電話などの対象事物に関する評価表現(「広い」「美しい」など)であれば、同一文内で入力評価表現と対の関係として出現する、その対象事物の性質を表す属性表現(「エリア」「画面」など)のことを指す。
【0030】
評価表現入力部110は、1つの評価表現を入力する。
【0031】
属性表現候補抽出部120は、評価表現入力部110によって取得された1つの評価表現と同一文内で同時に出現する表現(属性表現候補)を、予め用意した言語情報・構文情報・単語区切り付き文書記憶部10から、品詞などの単語に関する情報、係り受けなどの構文に関する情報を基に抽出する。
【0032】
属性表現候補格納部130は、属性表現候補を文毎に属性表現候補記憶部20に格納する。
【0033】
属性表現候補絞込み部140は、属性表現候補記憶部20から、属性表現候補の出現頻度を利用して、属性表現候補を絞り込む。
【0034】
共起語抽出部150は、属性表現候補絞込み部140によって絞り込まれた属性表現候補毎に、属性表現候補と同一文内で同時に出現する入力評価表現以外の単語(共起語)を、予め用意した言語情報・構文情報・単語区切り付き文書記憶部10から、品詞などの単語に関する情報、係り受けなどの構文に関する情報を基に抽出する。
【0035】
共起語格納部160は、属性表現候補毎に共起語の集合を共起語記憶部30に格納する。
【0036】
属性表現抽出部170は、共起語記憶部30に格納されている共起語の集合のうち、予め決められた数以上同じ共起語を持つ属性表現候補をまとめて属性表現集合として抽出する。
【0037】
次に、属性表現獲得装置の動作について説明する。
【0038】
図6は、本発明の第1の実施の形態における属性表現獲得処理のフローチャートである。
【0039】
同図のフローチャートに基づいて、評価表現「多い」を入力した場合に属性表現を獲得する例について説明する。
【0040】
図7は、本実施の形態における文ID毎の文の例であり、図8〜図10は、言語情報、構文情報、単語区切り付き文書記憶部10の内容の例を示す。
【0041】
ステップ101) 評価表現入力部110によって、1つの評価表現を入力する。
【0042】
この例の場合、「多い」が入力される。ここでは、1つの評価表現を入力しているが、予め入力する評価表現の集合をメモリやディスク等の記憶媒体に格納しておき、そこから評価表現を1つずつ入力する方法でもよい。
【0043】
ステップ102) 属性表現候補抽出部120が、評価表現入力部10によって取得された1つの評価表現と同一文内で同時に出現する表現(属性表現候補)を、予め用意した言語情報、構文情報、単語区切り付き文書記憶部10から、品詞が名詞で、入力された評価表現と主語述語関係(主述関係)にある単語を抽出する。
【0044】
例えば、図7に示す文に関して、一般に知られている形態素解析器を用いて単語を区切り、言語情報として品詞を取り出し、また、一般に知られている構文解析器を用いて、構文情報として主述関係を取り出した結果を、言語情報、構文情報、単語区切り付き文書記憶部10に格納した例として図8に示す。図8の主述関係の欄「(主)」は、その単語と主語の関係にある語を示し、「(述)」は、その単語と述語の関係にある語を示す。
【0045】
例えば、文ID1「きれいな画面が多い」の「画面」の述語は「多い」なので、「画面」の主述関係の欄は「(述)多い」となる。一方、同じ文の「多い」の主語は「画面」なので、「多い」の主述関係の欄は「(主)画面」と記述されている。ここでは、言語情報として品詞、構文情報として主述関係を用いて説明しているが、本発明は、形態素解析器、構文解析器によって得られ、本発明で効果のある言語情報(例えば、時制、活用など)、及び、構文情報(例えば、主辞や主文を取り出すなど)であればこれに限定しない。この例では、名詞であって、入力された評価表現「多い」と主述関係にある語を属性表現候補として抽出するので、例えば、文ID1「きれいな画面が多い」の場合、「画面」は、名詞であって入力された評価表現「多い」と主述関係にある語なので、属性表現候補として出力する。この例では、各文に対して1つの属性表現候補しかないが、抽出条件に合えば、1文から複数の属性表現候補を抽出することもできる。
【0046】
ステップ103) 属性表現候補格納部130が、ステップ102で抽出された属性表現候補を文毎に属性表現候補記憶部20に格納する。
【0047】
入力された評価表現が「多い」の場合に抽出された属性表現候補の結果を図11に示す。同図の「−」は、その文からは属性表現候補が抽出されなかったことを表している。
【0048】
ステップ104) 属性表現候補絞り込み部140が、属性表現候補記憶部20から、1回しか出現しない属性表現候補に絞り込む。ここでは、1回としているが、これに限らず、例えば、属性表現候補全体の出現分布を参考にするなど、属性表現候補の頻度に係わる情報なら何でもよい。また、頻度が多いものは、この時点でそのまま属性表現と認定して取り出してもよい。例えば、頻度2回以上のものは、属性表現として信頼性が高いと判断する場合、図11からは、「回数」がそのまま属性表現として認定される。この場合、後述するステップ107での属性表現の抽出条件に係わらず、属性表現集合に加える。当該ステップ104において、この例の場合、属性表現候補記憶部20に格納されている図11からは、属性表現候補が「両面」と「エリア」と「ノイズ」に絞り込まれる。
【0049】
ステップ105) 共起語抽出部150が、ステップ104によって取得された属性表現候補毎に、属性表現候補と同一文内で同時に出現する入力評価表現以外の単語(共起語)を、予め用意した言語情報、構文情報、単語区切り付き文書記憶部10から、品詞が形容詞で、属性表現候補と主語述語関係(主述関係)にある単語を抽出する。
【0050】
ここでは、言語情報として品詞、構文情報として主述関係を用いて説明しているが、本発明は、形態素解析器、構文解析器によって得られ、本発明の効果のある言語情報(例えば、時制、活用など)、及び構文情報(例えば、主辞や主文を取り出すなど)であれば、これに限定しない。また、上記のステップ102で用いた情報と異なっていてもよい。
【0051】
この例では、形容詞であって、ステップ104で取り出された属性表現候補と主述関係にあり、入力された評価表現「多い」ではない語を共起語として抽出するので、例えば、図7に示す文ID6「この機種の画面は美しい」の場合、「美しい」は形容詞であって、属性表現候補「画面」と主述関係にある語で、入力された評価表現「多い」とは違う語なので、共起語として抽出する。図8〜図10に示す言語情報、構文情報、単語区切り付き文書記憶部10の例からは、図12に示す共起語が抽出される。この例では、1文に付き1つしか抽出されていないが、抽出条件に合えば複数の共起語を抽出することもできる。
【0052】
ステップ106) 共起語格納部160が、属性表現候補毎に共起語の集合を共起語記憶部30に格納する。この例の場合、上記のステップ105で抽出された共起語は、図13に示すように属性表現候補毎に共起語の集合が共起語記憶部30に格納される。
【0053】
ステップ107) 属性表現抽出部170が、共起語記憶部30に格納されている共起語の集合のうち、1つ以上同じ共起語を持つ属性表現候補をまとめて属性表現集合として抽出する。
【0054】
この例では、共起語記憶部30に格納されている図13の共起集合から、属性表現候補「画面」と「エリア」に対して、少なくとも1つの同じ共起語「広い」が格納されているので、属性表現集合として「画面」と「エリア」が抽出される。「ノイズ」は、抽出条件に合わないので抽出されない。この例では、同じ共起語の数を1つ以上としたが、整数であればこれに限らず指定できる。また、ステップ104で既に属性表現と認定された語を、無条件にステップ107で抽出された属性表現集合に追加することもできる。例えば、ステップ104で、2回以上出現した属性表現候補を属性表現と認定するならば、図11の例では「回数」が属性表現集合に加わる。
【0055】
このように、入力された評価表現と属性表現候補の組み合わせが同一文内で低頻度でしか出現しなくても、属性表現候補が入力評価表現以外で同じ共起語を持つかどうかについて調べることによって属性表現と認定し、属性表現集合を獲得することができる。
【0056】
[第2の実施の形態]
以下に、本発明の第2の実施の形態として、評価表現獲得装置について説明する。
【0057】
図14は、本発明の第2の実施の形態における評価表現獲得装置の基本ブロック構成図である。
【0058】
評価表現獲得装置200は、属性表現入力部210、評価表現候補抽出部220、評価表現候補格納部230、評価表現候補絞り込み部240、共起語抽出部250、共起語格納部260、評価表現抽出部270、言語情報・構文情報・単語区切り付き文書記憶部40、評価表現候補記憶部50、共起語記憶部60から構成される。
【0059】
上記の言語情報・構文情報・単語区切り付き文書記憶部40、評価表現候補記憶部50、共起語記憶部60は、ディスク装置や、メモリなどの記憶媒体である。
【0060】
属性表現入力部210は、1つの属性表現を入力する。
【0061】
評価表現候補抽出部220は、1つの属性表現と同一文内で同時に出現する表現(評価表現候補)を、予め用意した言語情報・構文情報・単語区切り付き文書記憶部40から、品詞などの単語に関する情報、係り受けなどの構文に関する情報を基に抽出する。
【0062】
評価表現候補格納部230は、評価表現候補を文毎に評価表現候補記憶部50に格納する。
【0063】
評価表現候補絞り込み部240は、評価表現候補記憶部50から評価表現候補の出現頻度を利用して、評価表現候補を絞り込む。
【0064】
共起語抽出部250は、評価表現候補絞り込み部240によって絞り込まれた評価表現候補毎に、評価表現候補と同一文内で同時に出現する入力属性表現以外の単語(共起語)を、予め用意した言語情報・構文情報・単語区切り付き文書記憶部40から、品詞などの単語に関する情報、係り受けなどの構文に関する情報を基に抽出する。
【0065】
共起語格納部260は、評価表現候補毎に共起語の集合を共起語記憶部60に格納する。
【0066】
評価表現抽出部270は、共起語記憶部60に格納されている共起語の集合のうち、予め決められた数以上同じ共起語を持つ評価表現候補をまとめて評価表現集合として抽出する。
【0067】
次に、評価表現獲得装置200の動作について説明する。
【0068】
図15は、本発明の第2の実施の形態における評価表現獲得処理のフローチャートである。同図のフローチャートに基づいて、属性表現「動作」を入力した場合に評価表現を獲得する例を説明する。
【0069】
ステップ201) 属性表現入力部210が1つの属性表現を入力する。
【0070】
この例の場合、「動作」が入力される。ここでは、1つの属性表現を入力しているが、予め入力する属性表現の集合をメモリやディスク等の記憶媒体に格納しておき、そこから属性表現を1つずつ入力する方法でもよい。
【0071】
ステップ202) 評価表現候補抽出部220が、属性表現入力部210によって取得された1つの属性表現と同一文内で同時に出現する表現(評価表現候補)を、予め用意した言語情報・構文情報・単語区切り付き文書記憶部40から、品詞が形容詞で、入力された属性表現と主語述語関係(主述関係)にある単語を抽出する。例えば、図16に示す文に関して、一般に知られている形態素解析器、構文解析器を用いて単語を区切り、言語情報として品詞、構文情報として主述関係を取り出した結果を、言語情報・構文情報・単語区切り付き文書記憶部40に格納した例として図17〜図19に示す。言語情報・構文情報・単語区切り付き文書記憶部40は、図8〜図10と同様に、図17〜図19の主述関係の欄「(主)」は、その単語と主語の関係にある語を示し、「(述)」は、その単語の述語の関係にある語を示す。例えば、文ID1「フォーカスの動作が速い」の「動作」の述語は「速い」なので、「動作」の主述関係の欄は、「(述)速い」となる。一方、同じ文の「速い」の主語は「動作」なので、「速い」の主述関係の欄は「(主)動作」と記述されている。
【0072】
ここでは、言語情報として品詞、構文情報として主述関係を用いて説明しているが、本発明は、形態素解析器、構文解析器によって得られ、本発明で効果のある言語情報(例えば、時制、活用など)、及び、構文情報(例えば、主辞や主文を取り出すなど)であればこれに限定しない。この例では、形容詞であって、入力された属性表現「動作」と主述関係にある語を評価表現候補として抽出するので、例えば、文ID1「フォーカスの動作が速い」の場合、「速い」は、形容詞であって入力された属性表現「動作」と主述関係にある語なので評価表現候補として抽出する。この例では、各文に対して1つの評価表現候補しかないが、抽出条件に合えば1文から複数の評価表現候補を抽出することもできる。
【0073】
ステップ203) 評価表現候補格納部230が、ステップ202で抽出された評価表現候補を文毎に評価表現候補記憶部50に格納する。入力された属性表現が「動作」の場合に抽出された評価表現候補の結果を図20に示す。図20の「−」は、その文からは評価表現候補が抽出されなかったことを表している。
【0074】
ステップ204) 評価表現候補絞り込み部240が、評価表現候補記憶部50から、1回しか出現しない評価表現候補に絞り込む。ここでは1回としているが、これに限らず、例えば、評価表現候補全体の出現分布を参考にするなど、評価表現候補の頻度に係わる情報なら何でもよい。また、頻度の多いものは、この時点でそのまま評価表現と認定して取り出してもよい。例えば、頻度2回以上のものは、評価表現として信頼性が高いと判断する場合、図20からは「速い」がそのまま評価表現として認定される。この場合、後述するステップ207での評価表現の抽出条件にかかわらず評価表現集合に加える。ステップ204において、この例の場合、評価表現候補記憶部50に格納されている図20の内容からは、評価表現候補が「鈍い」と「遅い」と「重い」に絞り込まれる。
【0075】
ステップ205) 共起語抽出部260が、ステップ204によって取得された評価表現候補毎に、評価表現候補と同一文内で同時に出現する入力属性表現以外の単語(共起語)を、予め用意した言語情報・構文情報・単語区切り付き文書記憶部40から、品詞が名詞で、評価表現候補と主語述語関係(主述関係)にある単語を抽出する。
【0076】
ここでは、言語情報として品詞、構文情報として主述関係を用いて説明しているが、本発明は、形態素解析器、構文解析器によって得られ、本発明で効果のある言語情報(例えば、時制、活用など)、及び構文情報(例えば、主辞や主文を取り出すなど)であれば、これに限定しない。また、ステップ202で用いた情報と異なっていてもよい。この例では、名詞であって、ステップ204で取り出された評価表現候補と主述関係にあり、入力された属性表現「動作」ではない語を共起語として抽出するので、例えば、文ID6「ボタンの反応が鈍い」の場合「反応」は、名詞であって、評価表現候補「鈍い」と主述関係にある語で、入力された属性表現「動作」とは違う語なので、共起語として抽出する。図17〜図19の例からは図21に示す共起語が抽出される。この例では、1文に付き1つしか抽出されていないが、抽出条件に合えば、複数の共起語を抽出することもできる。
【0077】
ステップ206) 共起語格納部260が、評価表現候補毎に共起語の集合を共起語記憶部60に格納する。この例の場合、ステップ205で抽出された共起語は、図22に示すように評価表現候補毎に共起語の集合が共起語記憶部60に格納される。
【0078】
ステップ207) 評価表現抽出部270が、共起語記憶部60に格納されている共起語集合のうち、1つ以上同じ共起語を持つ評価表現候補をまとめて評価表現集合として抽出する。この例では、共起語記憶部60に格納されている図22に示す内容から、評価表現候補「鈍い」と「遅い」に対して、少なくとも1つの同じ共起語「反応」が格納されているので、評価表現集合として「鈍い」と「遅い」が抽出される。「重い」は、抽出条件に合わないので抽出されない。この例では、同じ共起語の数を1つ以上としたが、整数であれば、これに限らず指定できる。また、上記のステップ204で既に評価表現と認定された語を、無条件に当該ステップ207で抽出された評価表現集合に追加することもできる。例えば、ステップ204で、2回以上出現した評価表現候補を評価表現と認定するならば、図20の例では、「速い」が評価表現集合に加わる。
【0079】
このように、入力された属性表現と評価表現候補の組み合わせが同一文内で低頻度でしか出現しなくても、評価表現候補が、入力属性表現以外で同じ共起語を持つかどうかについて調べることによって評価表現と認定し、評価表現集合を獲得する事ができる。
【0080】
なお、上記の第1の実施の形態及び第2の形態の機能をプログラムとして実現してもよい。
【0081】
つまり、上記の第1の実施の形態では、属性表現を獲得するプログラムとして、1つの評価表現を入力する評価表現入力手順と、その評価表現入力手順によって取得された1つの評価表現と同一文内で同時に出現する単語(属性表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶部から単語の出現位置に関する情報を基に抽出する属性表現候補抽出手順と、その属性表現候補を文毎に属性表現候補記憶部に格納する属性表現候補格納手順と、その属性表現候補記憶部から属性表現候補の出現頻度を利用して属性表現候補を絞り込む属性表現候補絞り込み手順と、その属性表現候補絞り込み手順によって絞り込まれた属性表現候補毎に、その属性表現候補と同一文内で同時に出現する入力評価表現以外の語(共起語)を、単語の出現位置に関する情報を基に予め用意した単語区切り付き文書を格納した文書記憶部から抽出する共起語抽出手順と、その属性表現候補毎に共起語の集合を共起語記憶部に格納する共起語格納手順と、その共起語記憶部に格納されている共起語の集合の内、予め決められた数以上同じ共起語を持つ属性表現候補をまとめて属性表現集合として抽出する属性表現抽出手順と、をコンピュータに実行させることで実現できる。
【0082】
また、上記の属性表現候補抽出手順に、予め用意した文書の単語自身に関する言語情報を格納した文書記憶部から、その言語情報を利用して属性表現候補を抽出する手順を含み、上記共起語抽出手順に予め用意した文書記憶部からその言語情報を利用して、共起語を抽出する手順を含むプログラムとしてもよい。
【0083】
また、上記の属性表現候補抽出手順に、予め用意した文書の単語間に係わる構文情報を格納した文書記憶部からその構文情報を利用して、属性表現候補を抽出する手順を含み、上記の共起語抽出手順に、予め用意した文書の単語間に係わる構文情報が格納された文書記憶部から、その構文情報を利用して、共起語を抽出する手順を含むプログラムとしてもよい。
【0084】
また、上記の第2の実施の形態における評価表現を獲得するプログラムとして、1つの属性表現を入力する属性表現入力手順と、その属性表現入力手順によって取得された1つの属性表現と同一文内で同時に出現する単語(評価表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶部から単語の出現位置に関する情報を基に抽出する評価表現候補抽出手順と、その評価表現候補記憶部に格納する評価表現候補格納手順と、その評価表現候補記憶部から評価表現候補の出現頻度を利用して、評価表現候補を絞り込む評価表現候補絞り込み手順と、その評価表現候補絞り込み手順によって絞り込まれた評価表現候補毎に、その評価表現候補と同一文内で同時に出現する入力属性表現以外の語(共起語)を、単語の出現位置に関する情報を基に、予め用意した単語区切り付き文書記憶媒体から抽出する共起語抽出手順と、その評価表現候補毎に共起語の集合を共起語記憶部に格納する共起語格納手順と、その共起語記憶部に格納されている共起語の集合のうち、予め決められた数以上同じ共起語を持つ評価表現候補をまとめて評価表現集合として抽出する評価表現抽出手順とを、コンピュータに実行させることで実現する。
【0085】
また、上記の評価表現候補抽出手順に、予め用意した文書の単語自身に関する言語情報が格納された文書記憶部から、その言語情報を利用して評価表現候補を抽出する手順を含み、上記共起語抽出手順に、予め用意した文書の単語自身に関する言語情報が格納された文書記憶部から、その言語情報を利用して、共起語を抽出する手順を含むプログラムとしてもよい。
【0086】
また、上記の評価表現候補抽出手順に、予め用意した文書の単語間に係わる構文情報を格納した文書記憶部から、その構文情報を利用して評価表現候補を抽出する手順を含み、上記の共起語抽出手順に、予め用意した文書の単語間に係わる構文情報を格納した文書記憶部から、その構文情報を利用して共起語を抽出する手順を含むプログラムとしてもよい。
【0087】
また、上記のプログラムを、ハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0088】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【産業上の利用可能性】
【0089】
本発明は、文書から対象事物の属性表現・評価表現を抽出するための技術に適用可能である。
【図面の簡単な説明】
【0090】
【図1】本発明の原理を説明するための図(その1)である。
【図2】本発明の原理構成図(その1)である。
【図3】本発明の原理を説明するための図(その2)である。
【図4】本発明の原理構成図(その2)である。
【図5】本発明の第1の実施の形態における属性表現獲得装置の基本ブロック構成図である。
【図6】本発明の第1の実施の形態における属性表現獲得処理のフローチャートである。
【図7】本発明の第1の実施の形態における文の例である。
【図8】本発明の第1の実施の形態における言語情報・構文情報・単語区切り付き文書記憶部の例(その1)である。
【図9】本発明の第1の実施の形態における言語情報・構文情報・単語区切り付き文書記憶部の例(その2)である。
【図10】本発明の第1の実施の形態における言語情報・構文情報・単語区切り付き文書記憶部の例(その3)である。
【図11】本発明の第1の実施の形態における属性表現候補の例である。
【図12】本発明の第1の実施の形態における共起語の例である。
【図13】本発明の第1の実施の形態における属性表現候補毎の共起語集合の例である。
【図14】本発明の第2の実施の形態における評価表現獲得装置の基本ブロック構成図である。
【図15】本発明の第2の実施の形態における評価表現獲得処理のフローチャートである。
【図16】本発明の第2の実施の形態における文の例である。
【図17】本発明の第2の実施の形態における言語情報・構文情報・単語区切り付き文書記憶部の例(その1)である。
【図18】本発明の第2の実施の形態における言語情報・構文情報・単語区切り付き文書記憶部の例(その2)である。
【図19】本発明の第2の実施の形態における言語情報・構文情報・単語区切り付き文書記憶部の例(その3)である。
【図20】本発明の第2の実施の形態における評価表現候補の例である。
【図21】本発明の第2の実施の形態における共起語の例である。
【図22】本発明の第2の実施の形態における共起語集合の例である。
【符号の説明】
【0091】
10 文書記憶手段、言語情報・構文情報・単語区切り付き文書記憶部
20 属性表現候補記憶手段、属性表現候補記憶部
30 共起語記憶手段、共起語記憶部
40 文書記憶手段、言語情報・構文情報・単語区切り付き文書記憶部
50 評価表現候補記憶手段、評価表現候補記憶部
60 共起語記憶手段、共起語記憶部
100 属性表現獲得装置
110 評価表現入力手段、評価表現入力部
120 属性表現候補抽出手段、属性表現候補抽出部
130 属性表現候補格納手段、属性表現候補格納部
140 属性表現候補絞り込み手段、属性表現候補絞り込み部
150 共起語抽出手段、共起語抽出部
160 共起語格納手段、共起語格納部
170 属性表現抽出手段、属性表現抽出部
200 評価表現獲得装置
210 属性表現入力手段、属性表現入力部
220 評価表現候補抽出手段、評価表現候補抽出部
230 評価表現候補格納手段、評価表現候補格納部
240 評価表現候補絞り込み手段、評価表現候補絞り込み部
250 共起語抽出手段、共起語抽出部
260 共起語格納手段、共起語格納部
270 評価表現抽出手段、評価表現抽出部

【特許請求の範囲】
【請求項1】
評価表現入力手段、属性表現候補抽出手段、属性表現候補格納手段、属性表現候補絞り込み手段、共起語抽出手段、共起語格納手段、属性表現抽出手段及び複数の記憶手段とを有する属性表現獲得装置における、対象事物に対して評価を表す表現である評価表現を基に、該対象事物の性質を表す属性表現を文書から獲得するための属性表現獲得方法であって、
前記評価表現入力手段が、1つの評価表現を入力する評価表現入力ステップと、
前記属性表現候補抽出手段が、前記評価表現入力ステップによって取得された前記1つの評価表現と同一文内で同時に出現する表現(属性表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶手段から、単語の出現位置に関する情報を基に抽出する属性表現候補抽出ステップと、
前記属性表現候補格納手段が、前記属性表現候補を文毎に属性表現候補記憶手段に格納する属性表現候補格納ステップと、
前記属性表現候補絞り込み手段が、前記属性表現候補記憶手段から前記属性表現候補の出現頻度を利用して、該属性表現候補を絞り込む属性表現候補絞り込みステップと、
前記共起語抽出手段が、前記属性表現候補絞り込みステップによって絞り込まれた属性表現候補毎に、該属性表現候補と同一文内で同時に出現する該評価表現以外の単語(共起語)を、単語の出現位置に関する情報を基に、前記単語区切り付き文書格納した文書記憶手段から抽出する共起語抽出ステップと、
前記共起語格納手段が、前記属性表現候補毎に前記共起語の集合を共起語記憶手段に格納する共起語格納ステップと、
前記属性表現抽出手段が、前記共起語記憶手段に格納されている前記共起語の集合のうち、予め決められた数以上に同じ共起語を持つ属性表現候補をまとめて属性表現集合として抽出する属性表現抽出ステップと、
を行うことを特徴とする属性表現獲得方法。
【請求項2】
前記属性表現候補抽出ステップにおいて、
前記属性表現候補抽出手段が、予め用意した文書の単語自身に関する言語情報を格納した言語情報付き文書を格納した文書記憶手段から、該言語情報を利用して前記属性表現候補を抽出するステップを行い、
前記共起語抽出ステップにおいて、
前記共起語抽出手段が、前記言語情報付き文書格納した文書記憶手段から、前記言語情報を利用して前記共起語を抽出するステップを行う、
請求項1記載の属性表現獲得方法。
【請求項3】
前記属性表現候補抽出ステップにおいて、
前記属性表現候補抽出手段が、予め用意した文書の単語間に係わる構文情報付き文書を格納した文書記憶手段から、該構文情報を利用して前記属性表現候補を抽出するステップを行い、
前記共起語抽出ステップにおいて、
前記共起語抽出手段が、前記構文情報付き文書を格納した文書記憶手段から前記構文情報を利用して前記共起語を抽出するステップを行う
請求項1または2記載の属性表現獲得方法。
【請求項4】
対象事物に対して評価を表す表現である評価表現を基に、該対象事物の性質を表す属性表現を文書から獲得するための属性表現獲得装置であって、
1つの評価表現を入力する評価表現入力手段と、
前記評価表現入力手段によって取得された前記1つの評価表現と同一文内で同時に出現する表現(属性表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶手段から、単語の出現位置に関する情報を基に抽出する属性表現候補抽出手段と、
前記属性表現候補を文毎に属性表現候補記憶手段に格納する属性表現候補格納手段と、
前記属性表現候補記憶手段から前記属性表現候補の出現頻度を利用して、該属性表現候補を絞り込む属性表現候補絞り込み手段と、
前記属性表現候補絞り込み手段によって絞り込まれた属性表現候補毎に、該属性表現候補と同一文内で同時に出現する該評価表現以外の単語(共起語)を、単語の出現位置に関する情報を基に、前記単語区切り付き文書を格納した文書記憶手段から抽出する共起語抽出手段と、
前記属性表現候補毎に前記共起語の集合を共起語記憶手段に格納する共起語格納手段と、
前記共起語記憶手段に格納されている前記共起語の集合のうち、予め決められた数以上に同じ共起語を持つ属性表現候補をまとめて属性表現集合として抽出する属性表現抽出手段と、
を有することを特徴とする属性表現獲得装置。
【請求項5】
前記属性表現候補抽出手段は、
予め用意した文書の単語自身に関する言語情報付き文書を格納した文書記憶手段から、該言語情報を利用して前記属性表現候補を抽出する手段を含み、
前記共起語抽出手段は、
前記言語情報付き文書を格納した文書記憶手段から、前記言語情報を利用して前記共起語を抽出する手段を含む
請求項4記載の属性表現獲得装置。
【請求項6】
前記属性表現候補抽出手段は、
予め用意した文書の単語間に係わる構文情報付き文書を格納した文書記憶手段から、該構文情報を利用して前記属性表現候補を抽出する手段を含み、
前記共起語抽出手段は、
前記構文情報付き文書を格納した文書記憶手段から前記構文情報を利用して前記共起語を抽出する手段を含む
請求項4または5記載の属性表現獲得装置。
【請求項7】
コンピュータを、
請求項4乃至6記載の属性表現獲得装置として機能させることを特徴とする属性表現獲得プログラム。
【請求項8】
属性表現入力手段、評価表現候補抽出手段、評価表現候補格納手段、評価表現候補絞り込み手段、共起語抽出手段、共起語格納手段、評価表現抽出手段及び複数の記憶手段とを有する評価表現獲得装置における、対象事物の性質を表す属性表現を基に、該対象事物に対して評価を表す表現である評価表現を文書から獲得する評価表現獲得方法であって、
前記属性表現入力手段が、1つの属性表現を入力する属性表現入力ステップと、
前記評価表現候補抽出手段が、前記属性表現入力ステップによって取得された前記1つの属性表現と同一文内で同時に出現する表現(評価表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶手段から単語の出現位置に関する情報を基に抽出する評価表現候補抽出ステップと、
前記評価表現候補格納手段が、前記評価表現候補を文毎に評価表現候補記憶手段に格納する評価表現候補格納ステップと、
前記評価表現候補絞り込み手段が、前記評価表現候補記憶手段から、前記評価表現候補の出現頻度を利用して、評価表現候補を絞り込む評価表現候補絞り込みステップと、
前記共起語抽出手段が、前記評価表現候補絞り込みステップによって絞り込まれた評価表現候補毎に、該評価表現候補と同一文内で同時に出現する属性表現以外の単語(共起語)を、単語の出現位置に関する情報を基に、前記単語区切り付き文書を格納した文書記憶手段から抽出する共起語抽出ステップと、
前記共起語格納手段が、前記評価表現候補毎に前記共起語の集合を共起語記憶手段に格納する共起語格納ステップと、
前記評価表現抽出手段が、前記共起語記憶手段に格納されている前記共起語の集合のうち、予め決められた数以上に同じ共起語を持つ評価表現候補をまとめて評価表現集合として抽出する評価表現抽出ステップと、
を行うことを特徴とする評価表現獲得方法。
【請求項9】
前記評価表現候補抽出ステップにおいて、
前記評価表現候補抽出手段が、予め用意した文書の単語自身に関する言語情報を格納した言語情報付き文書を格納した文書記憶手段から該言語情報を利用して前記評価表現候補を抽出するステップを行い、
前記共起語抽出ステップにおいて、
前記共起語抽出手段が、前記言語情報付き文書を格納した文書記憶手段から前記言語情報を利用して共起語を抽出するステップを行う、
請求項8記載の評価表現獲得方法。
【請求項10】
前記評価表現候補抽出ステップにおいて、
前記評価表現候補抽出手段が、予め用意した文書の単語間に係わる構文情報付き文書を格納した文書記憶手段から、該構文情報を利用して前記評価表現候補を抽出するステップを行い、
前記共起語抽出ステップにおいて、
前記共起語抽出手段が、前記構文情報付き文書を格納した文書記憶手段から、前記構文情報を利用して前記共起語を抽出するステップを行う、
請求項8または9記載の評価表現獲得方法。
【請求項11】
対象事物の性質を表す属性表現を基に、該対象事物に対して評価を表す表現である評価表現を文書から獲得する評価表現獲得装置であって、
1つの属性表現を入力する属性表現入力手段と、
前記属性表現入力手段によって取得された前記1つの属性表現と同一文内で同時に出現する表現(評価表現候補)を、予め用意した単語区切り付き文書を格納した文書記憶手段から、単語の出現位置に関する情報を基に抽出する評価表現候補抽出手段と、
前記評価表現候補を文毎に評価表現候補記憶手段に格納する評価表現候補格納手段と、
前記評価表現候補記憶手段から、前記評価表現候補の出現頻度を利用して、該評価表現候補を絞り込む評価表現候補絞り込み手段と、
前記評価表現候補絞り込み手段によって絞り込まれた評価表現候補毎に、該評価表現候補と同一文内で同時に出現する属性表現以外の単語(共起語)を、単語の出現位置に関する情報を基に、前記単語区切り付き文書を格納した文書記憶手段から抽出する共起語抽出手段と、
前記評価表現候補毎に前記共起語の集合を共起語記憶手段に格納する共起語格納手段と、
前記共起語記憶手段に格納されている前記共起語の集合のうち、予め決められた数以上に同じ共起語を持つ評価表現候補をまとめて評価表現集合として抽出する評価表現抽出手段と、
を有することを特徴とする評価表現獲得装置。
【請求項12】
前記評価表現候補抽出手段は、
予め用意した文書の単語自身に関する言語情報付き文書を格納した文書記憶手段から、該言語情報を利用して前記評価表現候補を抽出する手段を含み、
前記共起語抽出手段は、
前記言語情報付き文書を格納した文書記憶手段から前記言語情報を利用して前記共起語を抽出する手段を含む、
請求項11記載の評価表現獲得装置。
【請求項13】
前記評価表現候補抽出手段は、
予め用意した文書の単語間に係わる構文情報付き文書を格納した文書記憶手段から、該構文情報を利用して前記評価表現候補を抽出する手段を含み、
前記共起語抽出手段は、
前記構文情報付き文書を格納した文書記憶手段から、前記構文情報を利用して共起語を抽出する手段を含む、
請求項11または12記載の評価表現獲得装置。
【請求項14】
コンピュータを、
請求項11乃至13記載の評価表現獲得装置として機能させることを特徴とする評価表現獲得プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate