説明

換喩判定プログラム及び情報処理装置

【課題】換喩を考慮せずに格要素が記述された格フレーム辞書を用いた場合であっても、文に換喩が含まれるか否かを判定する換喩判定プログラム及び情報処理装置を提供する。
【解決手段】情報処理装置1は、文から動詞及び当該動詞の格要素を抽出する換喩判定対象抽出手段101と、格フレーム情報111から、抽出した動詞と動詞の格要素の少なくとも1つとが一致する格フレームを検索する格フレーム検索手段102と、検索した格フレームのうち抽出した動詞と動詞の格要素とが一致する数の最も多い格フレームを基本格フレームとし、他の格フレームと比較する格フレーム比較手段103と、基本格フレームと他の格フレームとで一致しない格に含まれる格要素どうしから予め定めた方法で用例を生成し、当該用例が換喩判定用情報112に予め定めた頻度で出現する場合、文に換喩が含まれると判定する換喩判定手段104とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、換喩判定プログラム及び情報処理装置に関する。
【背景技術】
【0002】
従来の技術として、比喩の一種であり他の言葉を言い換えた換喩を含む文を換喩の用例に基づいて解析する換喩候補抽出方法が提案されている(例えば、非特許文献1参照)。
【0003】
非特許文献1には、用言とそれに関係する名詞を用言の各用例ごとに整理した「格フレーム」を用意し、換喩の入力文を格フレームと照合することで、入力文中の用言と名詞を格フレームと照合しない場合に換喩になっている語(名詞a)を特定し、予め用意された用例であって「名詞aの名詞b」又は「名詞a名詞b」の形をとるものから、名詞aを含むものを集めて対応する名詞bを換喩解釈の候補として抽出する名詞bを決定する換喩候補抽出方法が示されている。
【0004】
また、従来の換喩判定方法は、入力文中の用言と名詞を格フレームと照合しない場合に、用言と名詞を換喩であると判定するが、換喩を考慮しないで格フレームの格要素を記述し、これらの格フレームを複数含む格フレーム辞書中に換喩表現が含まれているような場合には、換喩であっても当該格フレームに照合する。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】「人工知能学会誌 12巻1号」、村田 真樹、1997年1月、P1−P8
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、換喩を考慮せずに格要素が記述された格フレーム辞書を用いた場合であっても、文に換喩が含まれるか否かを判定する換喩判定プログラム及び情報処理装置を提供することにある。
【課題を解決するための手段】
【0007】
本発明の一態様は、上記目的を達成するため、以下の換喩判定プログラム及び情報処理装置を提供する。
【0008】
[1]コンピュータを、
構文解析された文から動詞及び当該動詞の格要素を抽出する抽出手段と、
予め記憶装置に格納された複数の格フレームを含む格フレーム情報から、前記抽出手段が抽出した前記動詞と前記動詞の格要素の少なくとも1つとが一致する格フレームを検索する検索手段と、
前記検索手段が検索した前記格フレームのうち前記抽出手段が抽出した前記動詞と前記動詞の格要素とが一致する数の最も多い格フレームを基本格フレームとし、当該基本格フレームと当該基本格フレーム以外の他の格フレームとを比較する比較手段と、
前記基本格フレームと前記他の格フレームとで一致しない格に含まれる格要素同士で組を生成し、当該組から予め定めた方法で用例を生成し、当該用例が前記記憶装置に格納された複数の用例を含む判定用情報に予め定めた頻度で出現する場合、前記文に換喩が含まれると判定する判定手段として機能させるための換喩判定プログラム。
【0009】
[2]前記判定手段は、前記予め定められた方法として、前記組に含まれる格要素を予め定めた順序で用いて前記用例を生成する前記[1]に記載の換喩判定プログラム。
【0010】
[3]構文解析された文から動詞及び当該動詞の格要素を抽出する抽出手段と、
予め記憶装置に格納された複数の格フレームを含む格フレーム情報から、前記抽出手段が抽出した前記動詞と前記動詞の格要素の少なくとも1つとが一致する格フレームを検索する検索手段と、
前記検索手段が検索した前記格フレームのうち前記抽出手段が抽出した前記動詞と前記動詞の格要素とが一致する数の最も多い格フレームを基本格フレームとし、当該基本格フレームと当該基本格フレーム以外の他の格フレームとを比較する比較手段と、
前記基本格フレームと前記他の格フレームとで一致しない格に含まれる格要素同士で組を生成し、当該組から予め定めた方法で用例を生成し、当該用例が前記記憶装置に格納された複数の用例を含む判定用情報に予め定めた頻度で出現する場合、前記文に換喩が含まれると判定する判定手段とを有する情報処理装置。
【発明の効果】
【0011】
請求項1又は3に係る発明によれば、換喩を考慮せずに格要素が記述された格フレーム辞書を用いた場合であっても、文に換喩が含まれるか否かを判定することができる。
【0012】
請求項2に係る発明によれば、予め定められた方法として、組に含まれる格要素を予め定めた順序で用いて用例を生成することができる。
【図面の簡単な説明】
【0013】
【図1】図1は、本発明の実施の形態に係る情報処理装置の構成の一例を示す概略図である。
【図2】図2(a)〜(e)は、換喩判定動作を説明するための概略図である。
【図3】図3は、情報処理装置の動作の概要の一例を示すフローチャートである。
【図4】図4は、情報処理装置の換喩判定処理の一例を示すフローチャートである。
【図5】図5は、情報処理装置の換喩判定処理の詳細の一例を示すフローチャートである。
【図6】図6は、情報処理装置の換喩判定処理の詳細の一例を示すフローチャートである。
【発明を実施するための形態】
【0014】
[実施の形態]
(情報処理装置の構成)
図1は、本発明の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。
【0015】
この情報処理装置1は、CPU(Central Processing Unit)等から構成され各部を制御するとともに各種のプログラムを実行する制御部10と、HDD(Hard Disk Drive)やフラッシュメモリ等の記憶媒体から構成され情報を記憶する記憶装置の一例としての記憶部11と、液晶ディスプレイ等の表示部12と、操作入力用のキーボード、マウス、タッチパッド等の操作部13とを備える。
【0016】
情報処理装置1は、入力された文を構文解析して格フレーム辞書を用いて比較することにより換喩が含まれているか否かを判定するものである。ここで、「換喩」とは、比喩の一種であり、例えば、「庭を掃く」のように「庭」は実際には「庭の落ち葉」を言い換えたものであるように、実際に意味する内容を他の語で置き換えて表現する比喩のことである。また、「格フレーム」とは、用言とそれに関係する名詞を用言の各用例ごとに整理したものであり、「格フレーム辞書」とは、格フレームを複数集めた辞書である。
【0017】
制御部10は、後述する換喩判定プログラム110を実行することで、構文解析手段100、換喩判定対象抽出手段101、格フレーム検索手段102、格フレーム比較手段103及び換喩判定手段104等として機能する。
【0018】
構文解析手段100は、入力された文を構文解析して品詞等に分ける。
【0019】
換喩判定対象抽出手段101は、構文解析手段100が構文解析した文から換喩の判定対象となる動詞と当該動詞の格要素を抽出する。
【0020】
格フレーム検索手段102は、換喩判定対象抽出手段101が抽出した動詞とその格要素を検索条件として、動詞と格要素の少なくとも1つとが一致する格フレームを後述する格フレーム情報111から検索する。
【0021】
格フレーム比較手段103は、格フレーム検索手段102が検索した格フレームのうち換喩判定対象抽出手段101が抽出した動詞とその格要素が最も一致するものを基本格フレームとし、基本格フレームとその他の格フレームとを比較して各格について一致する格要素の数を算出し、一致する格要素の数が多いものから順に出力する。
【0022】
換喩判定手段104は、基本格フレームとその他の格フレームのうち、一致していない格の格要素について後述する換喩判定用情報112を用いて換喩と被換喩の関係にあるかを判定する。
【0023】
記憶部11は、換喩判定プログラム110、格フレーム情報111及び換喩判定用情報112等を格納する。
【0024】
換喩判定プログラム110は、実行されることで制御部10を上記した各手段100〜104として機能させるプログラムである。
【0025】
格フレーム情報111は、一例として格フレーム辞書を意味しており、格フレーム辞書としては黒橋研究室の格フレーム辞書(Daisuke Kawahara and Sadao Kurohashi. “A Fully-Lexicalized Probabilistic Model for Japanese Syntactic and Case Structure Analysis”, In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL2006), pp.176-183, 2006. http://nlp.kuee.kyoto-u.ac.jp/nl-resource/caseframe.html)や、日本語語彙体系の格フレーム辞書(http://www.kecl.ntt.co.jp/icl/lirg/resources/GoiTaikei/)を用いることができる。
【0026】
換喩判定用情報112は、ある名詞と他の名詞が換喩と被換喩の関係にあるか否かを判定するための情報であり、「A名詞B名詞」や「A名詞のB名詞」等の形で収集した用例を用いることができる。なお、格フレーム情報111及び換喩判定用情報112ともに、記憶部11に予め格納する構成でなく、インターネット上を検索して情報を収集する構成としてもよい。
【0027】
なお、情報処理装置1は、例えば、パーソナルコンピュータであり、その他にPDA(Personal Digital Assistant)、携帯電話機等を用いることもできる。
【0028】
(情報処理装置の動作)
次に、本実施の形態の作用を、(1)動作の概要、(2)換喩判定処理、(3)換喩判定処理の詳細に分けて説明する。
【0029】
(1)動作の概要
図2(a)〜(e)は、換喩判定動作を説明するための概略図である。また、図3は、情報処理装置の動作の概要の一例を示すフローチャートである。
【0030】
まず、構文解析手段100は、換喩判定の対象とする文20を、例えば、テキスト形式で受け付ける(S1)。上記ステップS1において、構文解析手段は、一例として図2(a)に示すような文20「爺さんが庭を掃いていた」を受け付ける。
【0031】
次に、構文解析手段100は、受け付けた文20を構文解析処理し(S2)、換喩判定対象抽出手段101は、動詞と格要素を抽出することで図2(b)に示すように動詞21a「掃く」に対し、格要素21bとしてガ格の「爺さん」と格要素21cとしてヲ格の「庭」を抽出する(S3)。
【0032】
次に、格フレーム検索手段102、格フレーム比較手段103及び換喩判定手段104により換喩判定対象の動詞ごとに(図2(a)の例では動詞21a「掃く」のみ)換喩判定処理を実行し(S4)、得られた結果を出力する(S5)。
【0033】
以下に、ステップS4の換喩判定処理について詳細に説明する。
【0034】
(2)換喩判定処理
図4は、情報処理装置の換喩判定処理の一例を示すフローチャートである。
【0035】
まず、格フレーム検索手段102は、換喩判定対象抽出手段101が抽出した動詞21a「掃く」と、その格要素21bであるガ格の「爺さん」と格要素21cであるヲ格の「庭」を受け付け(S40)、これらの格要素21b、21cのいずれかに一致する格要素を含む格フレームを格フレーム情報111から検索する。
【0036】
次に、格フレーム検索手段102は、検索した格フレームを、格要素21b、21cと一致する格要素の数で並べ替え(S42)、最も一致している格要素の数が多い格フレームを基本格フレーム22とする(S43)。
【0037】
図2(c)に示す格フレームは、ガ格の「爺さん」とヲ格の「庭」のいずれも一致しているため基本格フレーム22である。また、図2(d)に示す格フレームは、基本格フレーム22以外の格フレーム23の一例である。
【0038】
次に、格フレーム比較手段103は、図2(c)に示す基本格フレーム22と、図2(d)に示す格フレーム23とを比較し、一致する格と不一致の格とを識別する(S44)。図2(e)は、基本格フレーム22と格フレーム23との識別結果24を示し、ガ格及びデ格が一致する格要素、ヲ格及びノ格が不一致の格要素である。具体的な認識方法は「(3)換喩判定処理の詳細」において説明する。
【0039】
次に、換喩判定手段104は、基本格フレーム22と格フレーム23の不一致の格要素に換喩関係があるか判定する(S45)。具体的な判定方法は「(3)換喩判定処理の詳細」において説明する。
【0040】
換喩判定手段104は、判定の結果不一致の格に換喩的言い換え関係がある場合(S46;Yes)、動詞と格要素(図2(b)の例では、動詞21aと格要素21cは換喩であると判定する(S47)。また、判定の結果不一致の格に換喩的言い換え関係がない場合(S46;No)、動詞と格要素は換喩ではないと判定する(S48)。
【0041】
(3)換喩判定処理の詳細
図5は、情報処理装置の換喩判定の詳細の一例を示すフローチャートである。
【0042】
格フレーム比較手段103は、ステップS44における識別動作において、以下に説明する動作を実行する。
【0043】
まず、格フレーム比較手段103は、基本格フレーム22と、他の格フレームの一例として格フレーム23を受け付ける(S440)。
【0044】
次に、基本格フレーム22と、格フレーム23において同じ種類の格ごとに、例えば、ガ格について、複数の格要素(以下、「格要素集合」という。)の一致度を算出する(S441)。
【0045】
一致する格要素の数が予め定めた閾値以上、例えば、2以上である場合(S442;Yes)、基本格フレーム22と格フレーム23の格が一致していると判定する(S443)。また、閾値より小さい場合(S442;No)基本格フレーム22と格フレーム23の格が不一致と判定する(S444)。
【0046】
以上のステップS441〜S444を他の格、ヲ格、デ格、ノ格についても行い(S445)、図2(e)に示すような識別結果を出力する(S446)。
【0047】
図6は、情報処理装置の換喩判定の詳細の一例を示すフローチャートである。
【0048】
換喩判定手段104は、ステップS45における判定動作において、以下に説明する動作を実行する。
【0049】
まず、換喩判定手段104は、不一致と判定された格、例えば、ヲ格について基本格フレーム22の格要素集合「床、庭、前、道、…」と格フレームの格要素集合「落ち葉、ゴミ、雪、砂、埃」を受け付ける(S450)。
【0050】
次に、換喩判定手段104は、基本格フレーム22の格要素集合「床、庭、前、道、…」と格フレームの格要素集合「落ち葉、ゴミ、雪、砂、埃」からそれぞれ格要素を用いて組(A、B)を生成する(S451)。
【0051】
次に、換喩判定手段104は、組(A、B)を「AのB」又は「AB」等の用例に適用する(S452)。例えば、「床のゴミ」、「庭の落ち葉」又は「庭雪」等とする。
【0052】
次に、換喩判定手段104は、換喩判定用情報112を参照して適用した用例(「床のゴミ」、「庭の落ち葉」又は「庭雪」等)の割合が換喩判定用情報112中で予め定めた閾値以上であった場合(S453;Yes)、基本格フレーム22と格フレーム23に換喩的な言い換えがあると判定する(S454)。つまり、「庭の落ち葉」が閾値以上であれば、「庭」は「落ち葉」の換喩であると判定できる。
【0053】
なお、ここで基本格フレーム22の格要素集合をAとするのが望ましい。例えば、「爺さんが落ち葉を掃いた」という文の場合は、「落ち葉」がAとなり「庭」がBとなるが、用例「AのB」は「落ち葉の庭」であるため用例が少なく換喩と判定されにくくなるためである。
【0054】
また、予め定めた閾値より少ない場合(S453;No)、基本格フレーム22と格フレーム23に換喩的な言い換えがないと判定する(S455)。
【0055】
(実施の形態の効果)
上記した実施の形態によると、換喩判定の対象となる文から動詞及び当該動詞の格要素を抽出し、抽出した動詞及び格要素に基づいて格フレーム情報111から類似する格フレームを検索して、検索結果どうしを換喩判定用情報112を用いて比較することで、動詞の格要素の関係及び用例を考慮するため、換喩を考慮せずに格要素が記述された格フレーム辞書を用いた場合であっても、文に換喩が含まれるか否かを判定することができる。
【0056】
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。例えば、ステップS451において基本格フレーム22と格フレーム23のヲ格の格要素の組(A、B)を生成した後、換喩判定手段104は、ステップS452において、Aがニ格又はデ格、Bがガ格又はヲ格で用いられる頻度を格フレーム情報111から検索し、その頻度が予め定めた閾値以上である場合に換喩の判定を行っても良い。つまり、換喩判定用情報112を上記方法によって格フレーム情報111から生成してもよい。
【0057】
上記実施の形態では制御部10内の各手段100〜104の機能をプログラムで実現したが、各手段100〜104の全て又は一部をASIC等のハードウエアによって実現してもよい。また、上記実施の形態で用いたプログラムをCD−ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入れ替え、削除、追加等は本発明の要旨を変更しない範囲内で可能である。
【符号の説明】
【0058】
1 情報処理装置
10 制御部
11 記憶部
12 表示部
13 操作部
20 文
21a 動詞
21b、21c 格要素
22 基本格フレーム
23 格フレーム
24 識別結果
100 構文解析手段
101 換喩判定対象抽出手段
102 格フレーム検索手段
103 格フレーム比較手段
104 換喩判定手段
110 換喩判定プログラム
111 格フレーム情報
112 換喩判定用情報


【特許請求の範囲】
【請求項1】
コンピュータを、
構文解析された文から格フレームとして動詞及び当該動詞の格要素を抽出する抽出手段と、
予め記憶装置に格納された複数の格フレームを含む格フレーム情報から、前記抽出手段が抽出した前記動詞と前記動詞の格要素の少なくとも1つとが一致する格フレームを検索する検索手段と、
前記検索手段が検索した前記格フレームのうち前記抽出手段が抽出した前記動詞と前記動詞の格要素とが一致する数の最も多い格フレームを基本格フレームとし、当該基本格フレームと当該基本格フレーム以外の他の格フレームとを比較する比較手段と、
前記基本格フレームと前記他の格フレームとで一致しない格に含まれる格要素同士で組を生成し、当該組から予め定めた方法で用例を生成し、当該用例が前記記憶装置に格納された複数の用例を含む判定用情報に予め定めた頻度で出現する場合、前記文に換喩が含まれると判定する判定手段として機能させるための換喩判定プログラム。
【請求項2】
前記判定手段は、前記予め定められた方法として、前記組に含まれる格要素を予め定めた順序で用いて前記用例を生成する請求項1に記載の換喩判定プログラム。
【請求項3】
構文解析された文から格フレームとして動詞及び当該動詞の格要素を抽出する抽出手段と、
予め記憶装置に格納された複数の格フレームを含む格フレーム情報から、前記抽出手段が抽出した前記動詞と前記動詞の格要素の少なくとも1つとが一致する格フレームを検索する検索手段と、
前記検索手段が検索した前記格フレームのうち前記抽出手段が抽出した前記動詞と前記動詞の格要素とが一致する数の最も多い格フレームを基本格フレームとし、当該基本格フレームと当該基本格フレーム以外の他の格フレームとを比較する比較手段と、
前記基本格フレームと前記他の格フレームとで一致しない格に含まれる格要素同士で組を生成し、当該組から予め定めた方法で用例を生成し、当該用例が前記記憶装置に格納された複数の用例を含む判定用情報に予め定めた頻度で出現する場合、前記文に換喩が含まれると判定する判定手段とを有する情報処理装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−58003(P2013−58003A)
【公開日】平成25年3月28日(2013.3.28)
【国際特許分類】
【出願番号】特願2011−194882(P2011−194882)
【出願日】平成23年9月7日(2011.9.7)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】