説明

意味属性推定装置、方法及びプログラム

【課題】単語の羅列による検索クエリであっても、その単語の意味を推定することができる意味属性推定装置、方法及びプログラムを提供すること。
【解決手段】検索クエリ取得手段(111)が端末から検索クエリを取得すると、助詞挿入手段(112)が検索クエリに助詞を挿入した複数の仮文を作成する。そして、作成された複数の仮文それぞれについて検索手段(113)が検索すると、最大頻度語句抽出手段(114)は、その検索結果から最も一致した数の多い仮文を抽出する。一致した数の多い仮文は、使用される頻度が高いといえるので、意味属性情報取得手段(115)は、その仮文に含まれる単語の意味属性情報を取得する。これにより、意味属性推定装置(10)は、検索クエリに使用された単語の意味属性情報を出力することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、意味属性推定装置、方法及びプログラムに関する。特に検索クエリに使用された単語の意味属性を推定する意味属性推定装置、方法及びプログラムに関する。
【背景技術】
【0002】
インターネットにおいて提供される検索サービスでは、ユーザが端末のブラウザに表示されたWebページに検索したい単語などを入力すると、その入力された単語などと完全一致又は部分一致するものを有するページの一覧が検索結果として表示される。
【0003】
このとき、検索に使用された単語に関連する広告も同時に表示される場合がある。広告を表示するには、まず、検索に使用されやすい単語について、広告を表示させるための入札が行われる。そして、入札の対象となった単語と同一の単語が検索に使用されたことを条件に、入札の対象となった単語を入札で落札した広告主の広告が表示される。
【0004】
このように、広告が表示される条件が落札した単語と検索に使用された単語とが一致することであるので、落札された単語が検索に使用されにくい場合には、落札した広告主の広告も表示されにくくなる場合がある。
また、その単語が同音異義語や多義語である場合には、単語が複数の意味を有することにより、当該単語を入力したユーザに興味のない分野の広告が表示される場合も生じるだけでなく、検索結果にも影響を与える。例えば、あるユーザが検索語として「おいなりさん」と入力した場合、この単語は、稲荷神社としての「お稲荷さん」という意味と、食べ物としての「お稲荷さん」(いなりずし)という意味の2つの意味を有する。このような場合、稲荷神社としての「お稲荷さん」に関する検索結果や広告と、いなりずしに関する検索結果と広告とが混在することになる。上記の例でいうと、「いなりずし」に関心のあるユーザの検索結果に神社に関する広告が表示されても、そのユーザが神社の広告に関心を持つことは考えにくく、表示された広告の効果を期待するのは困難である。
【0005】
検索に使用された単語が複数の意味を有するものである場合、検索に使用された単語の意味や属性を推定することができれば、その属性の範囲若しくは関連する範囲に関連付けられた広告や検索結果を表示することができる。上記の例であれば、「おいなりさん」が食べ物であるか、神社であるかの意味属性を判断することができれば、一方に関連する広告や検索結果をより多く表示させることができる。
そこで、格フレーム辞書を用いて、自然文に使用された単語の意味を推定して自然文のマッチングを行う装置が提案されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2002−297592号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
格フレーム辞書を用いた単語の意味属性の推定は、単語と単語の関係性を重視するために助詞と述語からなる単語の組み合わせが必要となる。しかし、検索する際に使用される検索文(検索クエリ)は、例えば「キリマンジャロに登山する」などの自然文であることは少なく、「キリマンジャロ 登山」などの複数の単語と空白を並べたものが多い。このような場合、単語間の関係性をコンピュータなどにより判断させることは困難であり、格フレーム辞書を用いて検索に用いられた単語の意味属性を正確に判断させることもまた、困難である。
【0008】
そこで、本発明は、単語の羅列による検索クエリであっても、その単語の意味を推定することができる意味属性推定装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
(1)複数の文字列からなる検索クエリに含まれる前記文字列の意味を推定する意味属性推定装置であって、入力された前記検索クエリを取得する検索クエリ取得手段と、取得した前記検索クエリに複数種類の助詞を挿入して複数の仮文を作成する助詞挿入手段と、前記複数の仮文それぞれについて検索する検索手段と、前記検索手段による検索結果から、前記複数の仮文ごとに一致した数を取得し、前記一致した数が最大である前記仮文を抽出する最大頻度語句抽出手段と、前記最大頻度語句抽出手段が抽出した前記仮文に含まれる文字列の意味属性情報を格フレーム辞書を検索して取得する意味属性情報取得手段と、前記意味属性情報を出力する出力手段と、を備える意味属性推定装置。
【0010】
(1)に記載の装置によれば、検索クエリ取得手段が端末から検索クエリを取得すると、助詞挿入手段が検索クエリに複数種類の助詞を挿入した複数の仮文を作成する。そして、作成された複数の仮文それぞれについて検索手段が検索すると、最大頻度語句抽出手段は、その検索結果から仮文と使用されている文章とが一致した数が最大の仮文を抽出する。一致した数が多い仮文は、使用される頻度が高いといえるので、意味属性情報取得手段は、その仮文に含まれる単語の意味属性情報を取得する。そして、意味属性情報取得手段が取得した意味属性情報を出力手段が出力する。これにより、意味属性推定装置は、検索クエリに使用された文字列の意味属性情報を出力することができる。
【0011】
(2)前記意味属性情報取得手段は、前記最大頻度語句抽出手段が抽出した前記仮文に含まれる前記文字列について、前記仮文に含まれる助詞とともに前記格フレーム辞書を検索して前記意味属性情報を取得する(1)に記載の意味属性推定装置。
【0012】
(2)に記載の装置によれば、(1)に記載の装置に加えて、意味属性情報取得手段は、仮文に含まれる文字列について、仮文に含まれる助詞とともに格フレーム辞書を検索して意味属性情報を取得することができる。
【0013】
(3)複数の文字列からなる検索クエリに含まれる前記文字列の意味を推定する意味属性推定方法であって、コンピュータを用いて、入力された前記検索クエリを取得するステップと、取得した前記検索クエリに複数種類の助詞を挿入して複数の仮文を作成するステップと、前記複数の仮文それぞれについて検索する検索ステップと、前記検索ステップでの検索結果から、前記複数の仮文ごとに一致した数を取得し、前記一致した数が最大である前記仮文を抽出する最大頻度語句抽出ステップと、前記最大頻度語句抽出ステップで抽出された前記仮文に含まれる文字列の意味属性情報を格フレーム辞書を検索して取得するステップと、前記意味属性情報を出力するステップと、を実行する意味属性推定方法。
【0014】
(3)に記載の方法によれば、(1)と同様の効果を奏することができる。
【0015】
(4)コンピュータに、複数の文字列からなる検索クエリに含まれる前記文字列の意味を推定させる意味属性推定プログラムであって、コンピュータが、入力された前記検索クエリを取得するステップと、取得した前記検索クエリに複数種類の助詞を挿入して複数の仮文を作成するステップと、前記複数の仮文それぞれについて検索する検索ステップと、前記検索ステップでの検索結果から、前記複数の仮文ごとに一致した数を取得し、前記一致した数が最大である前記仮文を抽出する最大頻度語句抽出ステップと、前記最大頻度語句抽出ステップで抽出された前記仮文に含まれる文字列の意味属性情報を格フレーム辞書を検索して取得するステップと、前記意味属性情報を出力するステップと、を実行する意味属性推定プログラム。
【0016】
(4)に記載のプログラムによれば、(1)と同様の効果を奏することができる。
【発明の効果】
【0017】
本発明によれば、単語の羅列による検索クエリであっても、その単語の意味を推定することができる意味属性推定装置、方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態に係る意味属性推定装置の機能構成図である。
【図2】本発明の実施形態に係る検索部及び最大頻度語句抽出部の処理結果の例を示す図である。
【図3】本発明の実施形態に係る単語辞書テーブルを示す図である。
【図4】本発明の実施形態に係る格フレームテーブルを示す図である。
【図5】本発明の実施形態に係る意味属性推定装置の処理を示すフローチャートを示す図である。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【0020】
図1を参照して、本実施形態の一例である、意味属性推定装置10を含むシステム1の全体構成について説明する。図1は、本発明の実施形態に係る意味属性推定装置10の機能構成図である。
【0021】
システム1は、意味属性推定装置10と、検索サーバ20と、端末30a,30bと、通信ネットワーク40と、で構成される。意味属性推定装置10、検索サーバ20及び端末30a,30bはそれぞれ通信ネットワーク40を介して互いに通信可能である。
【0022】
意味属性推定装置10は、端末30a,30bが有するWebブラウザにより表示された検索サイトにおいて入力された検索クエリを取得し、その検索クエリに使用された単語の意味属性を推定して検索サーバ20に出力する。意味属性推定装置10は、端末30a,30bで入力された検索クエリを端末30a,30bから直接受信してもよく、また、当該検索クエリを受信した検索サーバ20から受信してもよい。詳細は後述する。
【0023】
検索サーバ20は、いわゆる検索サイトを運営するサーバであり、端末30a,30bに通信ネットワーク40を介して検索サービスを提供する。
【0024】
端末30a,30bは、ユーザが使用する端末である。端末30aは、いわゆるパーソナルコンピュータであり、端末30bは携帯電話などの携帯端末である。図1では、端末30a,30bはそれぞれ一台ずつ示しているが、複数であってもよい。また、端末30a,30bは、公開されている情報を通信ネットワーク40から受信して表示させるアプリケーションとしてWebブラウザを有する。
【0025】
通信ネットワーク40は、本実施形態では、複数のコンピュータが相互に接続可能な、いわゆるインターネット通信網を指し、その他、企業や学校といった組織の内部で構築されたイントラネットであってもよい。
【0026】
図1から図4を参照して、意味属性推定装置10について説明する。図2は、検索部113及び最大頻度語句抽出部114の処理結果の例を示す図である。図3は、単語辞書テーブルを示す図である。図4は、格フレームテーブルを示す図である。意味属性推定装置10は、少なくとも制御部11と、記憶部12と、出力部13と、を備える。
【0027】
制御部11は、意味属性推定装置10の各処理の実行を制御する。また、制御部11は、検索クエリ取得手段としての入力検索クエリ取得部111と、助詞挿入手段としての助詞挿入部112と、検索手段としての検索部113と、最大頻度語句抽出手段としての最大頻度語句抽出部114と、意味属性情報取得手段としての意味属性情報取得部115と、を有する。
【0028】
入力検索クエリ取得部111は、端末30a,30b又は検索サーバ20から検索クエリを取得する。詳細には、入力検索クエリ取得部111は、端末30a,30bのブラウザに表示された検索サイトの入力欄に入力された検索クエリを受信する。そして、入力検索クエリ取得部111は、受信した検索クエリを助詞挿入部112に出力する。
【0029】
ここで、入力検索クエリ取得部111が受信した検索クエリは、複数の文字列により構成され、複数の文字列間は、所定の記号又は空白(スペース)により区切られた状態となっている。本実施形態では、複数の文字列は、空白により区切られるものとする。例えば検索クエリは、「キリマンジャロ 登山」などの複数の単語を空白を挟んで並記したものであるとする。
【0030】
助詞挿入部112は、検索クエリに複数種類の助詞を挿入して、検索クエリを文章に変換して仮文を作成する。詳細には、助詞挿入部112は、記憶部12の所定の領域に記憶された助詞テーブル(図示せず)から複数種類の助詞を読み出して、検索クエリに含まれる空白の部分をそれぞれ助詞に変換する。この助詞テーブルには、後述する図2で示すような複数の助詞が格納されており、助詞挿入部112は、検索クエリの空白部分を、助詞テーブルに記憶されている複数の助詞にそれぞれ変換し、複数の仮文を作成する。例えば、検索クエリが「キリマンジャロ 登山」である場合、「キリマンジャロ」と「登山」との間の空白部分を助詞に変換し、「キリマンジャロに登山」や「キリマンジャロが登山」などの仮文を作成する。
【0031】
検索部113は、助詞挿入部112が作成した複数の仮文それぞれについて、通信ネットワーク40を介して接続可能なWebサイトを検索する。そして、検索部113は、検索した結果を最大頻度語句抽出部114に出力する。具体的には、検索部113は、仮文と同一の表現を使用している文章を検索し、その結果を最大頻度語句抽出部114に出力する。
【0032】
最大頻度語句抽出部114は、検索部113が検索した検索結果に対して、複数の仮文それぞれについて、同一の文章に一致した数を計数して取得する。例えば、上述の例のように、「キリマンジャロ 登山」について助詞挿入部112が作成した複数の仮文を検索部113が検索した場合、その結果は図2に示すようなものとなる。
【0033】
ここで、図2について説明する。図2は、検索部113が複数の仮文についてそれぞれ検索し、その結果としてWebサイトで使用されている文章と仮文とが一致した数を示した図ある。図2では、検索クエリが「キリマンジャロ 登山」であった場合の検索結果及び一致した数を示している。図2には、「仮文」列、「助詞」列及び「頻度」列が示されている。「仮文」列には助詞挿入部112が作成した複数の仮文が示されており、「助詞」列には各仮文に挿入された助詞が示されており、「頻度」列には、Webサイトで使用されている文章と仮文とが一致したヒット数が示されている。したがって、「頻度」列の数値が大きいほど、その仮文と同一の表現が文章として使用されている頻度が高いことを示す。
【0034】
最大頻度語句抽出部114は、複数の仮文についてそれぞれ検索部113の検索によりWebサイトで使用されている文章と仮文とが一致した数を取得し、一致した数が最大であった仮文を抽出する。図2に示す例の場合、「キリマンジャロに登山」の仮文が「頻度」列において最大の値を示している。したがって、最大頻度語句抽出部114は、複数の仮文から「キリマンジャロに登山」の仮文を抽出し、その抽出した仮文を意味属性情報取得部115に出力する。
【0035】
意味属性情報取得部115は、最大頻度語句抽出部114が抽出した仮文に含まれる単語の意味属性情報を取得する。意味属性情報取得部115は、単語変換部116と、格フレーム辞書検索部117とを有する。また、意味属性情報取得部115は、記憶部12の単語辞書記憶部121と、格フレーム辞書記憶部122と、を参照して各処理を実行する。
【0036】
単語変換部116は、検索クエリのうち最後に並べられた単語について用言か名詞かを判別する。そして、単語変換部116は、単語が用言であると判別した場合には、その単語を仮文の述語となるような表現に変換する。具体的な処理としては、単語変換部116は、記憶部12の単語辞書記憶部121を参照して該当する単語を検索し、その単語を変換する。また、検索クエリのうち最後に並べられた単語が名詞である場合には、単語変換部116は、特に表現を変換せずに単語辞書記憶部121を参照して検索する。
【0037】
ここで、図3に示す単語辞書テーブルについて説明する。単語辞書テーブルは単語辞書記憶部121に格納されているテーブルである。
【0038】
単語辞書テーブルは、「単語」列、「変換語」列、及び「種類」列で構成される。
「単語」列には、検索対象の単語が登録されており、「変換語」列には、検索対象の単語を仮文の述語となるように変換した語が登録されている。なお、「単語」列に格納された単語のうち(例えば、単語辞書テーブルの「レシピ」など)、活用形がないなど、仮文の述語となるように変換できないものは変換されない。また、「種類」列には、当該単語の品詞の種類又は「変換後」列に格納されている語について活用形の種類が格納されている。
【0039】
図1に戻って、単語変換部116は、検索クエリのうち最後に並べられた語句について、単語辞書記憶部121を参照し、「単語」列に格納された単語を検索する。例えば、上記と同じく「キリマンジャロ 登山」を例にすると、検索クエリの最後に並べられた語句は「登山」である。そこで、単語変換部116は、単語「登山」について単語辞書記憶部121の単語辞書テーブルを検索する。そして、図3の単語辞書テーブルによると、単語「登山」は「サ変動詞」であり、「変換語」は「登山する」である。したがって、単語変換部116は、仮文「キリマンジャロに登山」について、「登山」の語「登山する」と変換して仮文を「キリマンジャロに登山する」に変換する。
【0040】
格フレーム辞書検索部117は、記憶部12に記憶されている格フレーム辞書記憶部122を参照して、意味属性情報を取得する。詳細には、格フレーム辞書検索部117は、単語変換部116が変換した文字列(単語)について、仮文に含まれる助詞とともに、格フレーム辞書記憶部122に格納された格フレームを検索する。又は、単語変換部116が単語を変換しなかった場合は、単語変換部116が単語辞書記憶部121を検索する際に使用した文字列(単語)について、仮文に含まれる助詞とともに格フレーム辞書記憶部122に格納された格フレーム辞書を検索する。そして、格フレーム辞書検索部117は、検索の結果、該当する格フレームテーブルから該当する表層格に対応する意味属性情報を出力部13に出力する。
ここで、格フレームは、動詞を基準として取り得る格とその値に関する制約を記述したものである。また、格フレーム辞書は、動詞が取り得る格やその動詞が持つ制約に大きな影響を与える格助詞などについてのパターンを、各動詞について予め作成しておき、検索可能に構成されたものである。本実施形態では、各用言(一部の名詞も含む)について、格フレームテーブルが作成されており、この格フレームテーブルが検索可能に構成されたものが格フレーム辞書として、格フレーム辞書記憶部122に格納されている。
【0041】
ここで、図4を参照して格フレームテーブルについて説明する。格フレームテーブルは、「語句」列、「助詞」列、「表層格」列及び「意味属性」列により構成され、各列において同じ行に格納された情報は互いに関連付けられている。図4には、語句「登山する」についての格フレームテーブルが示されているが、他の用語についてもそれぞれ形成されている。すなわち、格フレームテーブルは用言又は名詞ごとに作成されており、また用言又は名詞が同じ表記であっても複数の意味を有する場合には、その意味ごとに格フレームテーブルが作成されている。
【0042】
「語句」列には、格フレームテーブルが作成された用言又は名詞が格納される。格フレーム辞書検索部117は、まず、単語変換部116で変換した用言、又は、変換しなかった場合は単語変換部116が単語辞書記憶部121を検索する際に使用した単語をキーとして「語句」列に格納された単語を検索する。上記の例でいうと、単語変換部116は、仮文「キリマンジャロに登山」の「登山」の語を「登山する」と変換しているので、格フレーム辞書検索部117は「登山する」をキーとして格フレーム辞書記憶部122を検索する。
【0043】
「助詞」列には、「語句」列に格納された用言又は名詞に最も強い影響を与える直前項の助詞が格納される。また、これに関連して「表層格」の列には、文章にあらわれる表層格の種類が格納されている。表層格は、単語が文中にあらわれる形式面から捉えた格を示すものである。
【0044】
「意味属性」列には、格要素となっている名詞についてその意味属性を定義する単語が格納されている。例えば、動詞「登山する」で表層格が「ニ格」の場合、「登山する」の語は、「xxに登山する」という表現で文章中にあらわれる。このため、「xx」には「登山する」対象となる場所などが格要素となる。「登山する」とは日本語辞書によると「山に登ること」であるので、「xx」には「山」又は山の名称が入ることになる。この場合、意味属性としては上位概念となる「山」が格納される。
このように、「意味属性」列には、「語句」列に格納されている用言又は名詞の各要素の意味属性が予め定義され、これを表す用語が格納されている。
【0045】
このように、入力検索クエリ取得部111が取得した検索クエリとして使用された複数の単語について、助詞挿入部112が検索クエリの空白部分を助詞に変換して複数の仮文を検索する。そして、複数の仮文のうち、最も使われている表現と同一の仮文を検索部113の検索結果から最大頻度語句抽出部114が抽出する。さらに意味属性情報取得部115の単語変換部116は、仮文の最後に位置する単語が述語となるような表現に変換する。その後、その述語として変換された単語について、格フレーム辞書検索部117が格フレーム辞書記憶部122を検索して、該当する格フレームテーブルから、検索クエリのうち、単語変換部116で変換されなかった単語の意味属性情報を取得することができる。
最初に複数の仮文を作成して、使用される頻度の高い文章を抽出し、その抽出した文章について格フレーム辞書を検索するので、全ての単語について格フレーム辞書を検索するよりも処理負担が少なく、確実性の高い意味属性の推定結果を得ることができる。
【0046】
図1に戻って、記憶部12は、単語辞書記憶部121と、格フレーム辞書記憶手段として格フレーム辞書記憶部122とを有する。単語辞書記憶部121は、図3に示す単語辞書テーブルが格納される記憶部であり、格フレーム辞書記憶部122は、図4に示す格フレームテーブルが格納される記憶部である。
【0047】
単語辞書記憶部121及び格フレーム辞書記憶部122は、本実施形態では記憶部としているが、データベースとして機能する構成を含んでよい。また、これらの記憶部は、ハードディスク装置や光磁気ディスク装置、フラッシュメモリなどの不揮発性のメモリや、RAM(Random Access Memory)のような不揮発性のメモリ、あるいはこれらの組み合わせによるコンピュータ読み取り可能及び書き込み可能な記録媒体により構成されるものとする。また、これらのデータベースは必ずしも意味属性推定装置10の内部に設ける必要は無い。
【0048】
出力部13は、制御部11が処理した処理結果を出力する。本実施形態では、出力部13は、処理結果のデータを検索サーバ20に送信する。この検索サーバ20に送信するデータは、格フレーム辞書検索部117が格フレーム辞書記憶部122を検索して取得した意味属性情報である。また、出力部13は、入力検索クエリ取得部111が受信した検索クエリ又は検索クエリを識別する情報を合わせて送信してもよい。その他、出力部13として、ディスプレイなどの表示手段や、音声を出力するスピーカなど適宜任意の外部出力手段に出力するようにしてもよい。
【0049】
本実施形態の意味属性推定装置10のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部11として、中央処理装置(CPU)を備える。また、記憶部12として、メモリ(RAMやROM)、ハードディスク(HDD)及び光ディスク(CDやDVDなど)を備える。出力部13の一例としての通信手段としては、各種有線や無線LAN装置を適宜備える。そして、中央処理装置やメモリ、ハードディスク等、及びLAN装置は、それぞれバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、意味属性推定装置10を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。また、端末30a,30b及び検索サーバ20も同様の構成を備える。
【0050】
図5を参照して、意味属性推定装置10の処理の流れについて説明する。図5は意味属性推定装置10の処理を示すフローチャートである。
【0051】
ステップS11では、入力検索クエリ取得部111は、検索クエリを取得する。詳細には、入力検索クエリ取得部111は、検索サーバ20又は端末30a,30bから検索クエリを受信する。
【0052】
ステップS12では、助詞挿入部112は、検索クエリの空白部分を助詞に変換し、複数の仮文を作成する。助詞挿入部112は、記憶部12を参照し、記憶部12に記憶されている助詞テーブル(図示せず)を読み出して、検索クエリの空白部分を助詞テーブルに登録されている助詞にそれぞれ変換し、作成した複数の仮文を記憶部12に一時的に記憶させる。
【0053】
ステップS13では、検索部113は、助詞挿入部112が作成した複数の仮文それぞれについて検索を行う。この検索部113が行う検索は、通信ネットワーク40を介して接続可能なWebサイトを検索するものである。
【0054】
ステップS14では、最大頻度語句抽出部114は、検索部113が行った検索結果から、仮文と同一の表現が使用されている文章に一致した数を取得し、その一致した数が最大の仮文を抽出する。
【0055】
ステップS15では、意味属性情報取得部115の単語変換部116は、最大頻度語句抽出部114が抽出した仮文について、仮文に含まれる単語をキーとして単語辞書記憶部121を検索し、該当する場合は単語辞書テーブルに基づいて当該単語を変換する。
【0056】
ステップS16では、意味属性情報取得部115の格フレーム辞書検索部117は、単語変換部116が変換した単語について、格フレーム辞書記憶部122を検索し、該当する語句についての格フレームを取得する。
【0057】
ステップS17では、意味属性情報取得部115の格フレーム辞書検索部117は、ステップS16で検索した格フレームに基づいて、意味属性情報を取得する。詳細には、ステップS16で格フレーム辞書検索部117が格フレーム辞書記憶部122を検索した結果、ヒットした格フレームテーブルに基づき、当該語句の直前句から表層格を判断し、これに関連付けられた意味属性情報を取得する。
【0058】
ステップS18では、出力部13は、格フレーム辞書検索部117が取得した意味属性情報を処理結果として出力する。本実施形態では、出力部13は、出力先としての検索サーバ20に意味属性情報を送信する。
【0059】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【0060】
本実施形態では、制御部11の検索部113は、助詞挿入部112が作成した複数の仮文それぞれについて、通信ネットワーク40を介して接続可能なWebサイトを検索するとしたが、これに限らない。例えば、検索対象として、日本語による表現を蓄積したコーパスやその他のデータベースであってもよい。この場合、これらのデータベースは、記憶部12の位置構成として記憶領域に記憶するようにしてもよく、意味属性推定装置10の外部に別途データベースを設けてもよい。また、データベースは既存のものを使用してもよく、例えば定期的にWebを巡回して収集した表現を蓄積し、適宜アップデートするようにしたものであってもよい。
【0061】
本実施形態では、格フレーム辞書記憶部122に格納されている格フレームテーブルには、検索対象となる語句の表層格に関連した意味属性情報が「意味属性」欄に予め格納されているとしたが、これに限らない。例えば、別途属性辞書記憶部を記憶部12に設けて意味属性情報を取得するようにしてもよい。属性辞書としては、例えば、予め通信ネットワーク40で接続可能なWebサイトを巡回して、表層格ごとの使用例を蓄積して記憶しておく。例えば、「登山する」の表層格がニ格である場合、「山」だけでなく、富士山や高尾山などの山の具体的な名称などが表現として表れる。そして、例えば、日本語の語彙について意味を中心とした語彙体系などを構造化してデータベース化したものなどを参照して、上位にあるものを意味属性情報として取得するようにしてもよい。
【0062】
本実施形態では、意味属性推定装置10は、検索サーバ20又は端末30a,30bとは別体に設けられ、通信ネットワーク40を介して検索クエリを取得するとしたが、これに限らない。例えば、意味属性推定装置10は、検索サーバ10又は端末30a,30bの一部として構成されていてもよい。この場合、意味属性推定装置10は、通信ネットワーク40を介さずに検索クエリを検索サーバ10又は端末30a,30bから取得することができる。
【符号の説明】
【0063】
10 意味属性推定装置
20 検索サーバ
30a,30b 端末
40 通信ネットワーク
111 入力検索クエリ取得部
112 助詞挿入部
113 検索部
114 最大頻度語句抽出部
115 意味属性情報取得部
116 単語変換部
117 格フレーム辞書検索部
121 単語辞書記憶部
122 格フレーム辞書記憶部

【特許請求の範囲】
【請求項1】
複数の文字列からなる検索クエリに含まれる前記文字列の意味を推定する意味属性推定装置であって、
入力された前記検索クエリを取得する検索クエリ取得手段と、
取得した前記検索クエリに複数種類の助詞を挿入して複数の仮文を作成する助詞挿入手段と、
前記複数の仮文それぞれについて検索する検索手段と、
前記検索手段による検索結果から、前記複数の仮文ごとに一致した数を取得し、前記一致した数が最大である前記仮文を抽出する最大頻度語句抽出手段と、
前記最大頻度語句抽出手段が抽出した前記仮文に含まれる文字列の意味属性情報を格フレーム辞書を検索して取得する意味属性情報取得手段と、
前記意味属性情報を出力する出力手段と、を備える意味属性推定装置。
【請求項2】
前記意味属性情報取得手段は、前記最大頻度語句抽出手段が抽出した前記仮文に含まれる前記文字列について、前記仮文に含まれる助詞とともに前記格フレーム辞書を検索して前記意味属性情報を取得する請求項1に記載の意味属性推定装置。
【請求項3】
複数の文字列からなる検索クエリに含まれる前記文字列の意味を推定する意味属性推定方法であって、
コンピュータを用いて、
入力された前記検索クエリを取得するステップと、
取得した前記検索クエリに複数種類の助詞を挿入して複数の仮文を作成するステップと、
前記複数の仮文それぞれについて検索する検索ステップと、
前記検索ステップでの検索結果から、前記複数の仮文ごとに一致した数を取得し、前記一致した数が最大である前記仮文を抽出する最大頻度語句抽出ステップと、
前記最大頻度語句抽出ステップで抽出された前記仮文に含まれる文字列の意味属性情報を格フレーム辞書を検索して取得するステップと、
前記意味属性情報を出力するステップと、を実行する意味属性推定方法。
【請求項4】
コンピュータに、複数の文字列からなる検索クエリに含まれる前記文字列の意味を推定させる意味属性推定プログラムであって、
コンピュータが、
入力された前記検索クエリを取得するステップと、
取得した前記検索クエリに複数種類の助詞を挿入して複数の仮文を作成するステップと、
前記複数の仮文それぞれについて検索する検索ステップと、
前記検索ステップでの検索結果から、前記複数の仮文ごとに一致した数を取得し、前記一致した数が最大である前記仮文を抽出する最大頻度語句抽出ステップと、
前記最大頻度語句抽出ステップで抽出された前記仮文に含まれる文字列の意味属性情報を格フレーム辞書を検索して取得するステップと、
前記意味属性情報を出力するステップと、を実行する意味属性推定プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate