説明

キーワード獲得装置、キーワード獲得方法、キーワード獲得プログラム

【課題】入力されたキーワード集合の上位概念と関係のないキーワードの抽出を抑える。
【解決手段】キーワード獲得装置1において、表層パターン選択部108が、獲得したいキーワード集合と同一の上位概念を有するキーワード集合と関連性の高い表層パターンを抽出する際に、前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と、ログ統計DB202における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を前記全ての表層パターンについて算出し、表層パターン選択部108が一般性評価値の高い表層パターンを選択することで、前記獲得したいキーワード集合の上位概念と関係のないキーワードの抽出を抑制できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセスできる文書集合を、一つ以上のキーワードから構成される検索条件を元に検索する検索エンジンのログを利用して、予め入力されたキーワード集合と同様の上位概念を持つキーワード集合を獲得する技術に関する。
【背景技術】
【0002】
従来、特定の上位概念を持つキーワードを自動的に獲得しようとする手法として、大量のテキストデータを解析して、抽出しようとする方法がある。例えば、非特許文献1によると、英文のテキストから上位下位概念の組合せを獲得するため、例えば“A such as B,C,and D”のようなテキストパターンに基づき、ブートストラップ法を用いる手法が提案されている。
【0003】
また、非特許文献2は、大量のテキスト情報を対象に、特定の上位概念を持つキーワードの例に基づき、それらキーワードがよく出現するパターンを抽出しこのパターンを用いてキーワードを獲得するブートストラップ法によって、予め入力したキーワードの持つ上位概念を持つキーワードを獲得する方法を提案している。
【0004】
さらに、非特許文献3では、非特許文献2の手法を検索条件のログ(以下、クエリログ)に適用することで、計算コストを抑えながら、入力したキーワード集合と同等の上位概念を持つキーワード集合を特定する手法が提案されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Hearst,M.:“Automatic Acquisition of Hyponyms from Large Text Corpora.”,Proc.of COLING,NANTES,AUG,1992,p.539−545
【非特許文献2】Patrick Pantel,Marco Pennacchiotti:“Espresso:Leveraging Generic Patterns for Automatically Harvesting Semantic Relations”.Proc.of ACL,July,2006,p.113−120
【非特許文献3】小町守,鈴木久美,「検索ログからの半教師あり意味知識獲得の改善」,人工知能学会論文誌,Vol.23,No.3,March,2008,p.217−225
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、非特許文献1のキーワード獲得技術は、さまざまな上位概念、下位概念のキーワードの組合せを網羅的に取得する方法であり、ユーザが指定した上位概念のキーワードを抽出する方法ではない。
【0007】
非特許文献2,3のキーワード獲得技術の問題として、一般的なパターンの存在があげられる。ブートストラップ法でパターンとキーワードを交互に抽出する際に、このような一般的なパターンを採用した場合、獲得されるキーワードに目的外のキーワードが含まれる可能性がある。尚、一般的なパターンとは特定の上位概念を持つキーワードだけでなく、より一般的なキーワードとの関連性も高いパターンを意味する。
【0008】
また、非特許文献3の手法においては、クエリログを利用するにあたって、この点について対策が行われているが、パターンにより獲得されたキーワードの数を利用した手法であり、本質的な解決となっていない。
【0009】
本発明は上記の問題を鑑みなされたもので、その目的は、一般的なパターンの獲得を防ぎ、高い精度で入力されたキーワード集合と同一の上位概念を持つキーワード集合を獲得するキーワード獲得技術の提供にある。
【課題を解決するための手段】
【0010】
本発明は、検索条件のログに基づく検索キーワードのテキストパターンを採用するか否かを判定する際にそのパターンにより獲得されるキーワード集合と既に獲得されたキーワード集合の重複を考慮することにより、前記テキストパターンの一般性を評価し、一般的なパターンの採用を防ぐ。
【0011】
本発明のキーワード獲得装置の態様としては、同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得装置であって、獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出する表層パターン抽出手段と、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出する表層パターンスコア算出手段と、前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と、前記ログ統計情報における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を前記全ての表層パターンについて算出する表層パターン一般性評価手段と、前記算出された全ての表層パターンの一般性評価値とスコアとに基づき一定数の表層パターンを選択する表層パターン選択手段と、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するキーワードインスタンス抽出手段と、前記特定されたキーワードとその頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するキーワードインスタンススコア算出手段と、前記スコアが算出されたキーワードの集合から当該スコアの値に基づき複数のキーワードを前記獲得したいキーワード集合として選択するキーワードインスタンス選択手段とを備える。
【0012】
本発明のキーワード獲得方法の態様としては、同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得方法であって、表層パターン抽出手段が、獲得したいキーワード集合と同一の上位概念を有するキーワード集合を、処理対象キーワード集合として受け付けると、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出するステップと、表層パターンスコア算出手段が、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出するステップと、表層パターン一般性評価手段が、前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と、前記ログ統計情報における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を前記全ての表層パターンについて算出するステップと、表層パターン選択手段が前記算出された全ての表層パターンの一般性評価値とスコアとに基づき一定数の表層パターンを選択するステップと、キーワードインスタンス抽出手段が、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するステップと、キーワードインスタンススコア算出手段が、前記特定されたキーワードとその頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するステップと、キーワードインスタンス選択手段が、前記スコアが算出されたキーワードの集合から当該スコアの値に基づき複数のキーワードを前記獲得したいキーワード集合として選択するステップとを有する。
【0013】
尚、本発明は前記キーワード獲得装置を構成する各手段としてコンピュータを機能させるキーワード獲得プログラムの態様とすることもできる。
【発明の効果】
【0014】
以上の発明によれば、入力されたキーワード集合の上位概念と関係のないキーワードの抽出を抑えることができるので、高い精度でのキーワード集合の獲得ができる。
【図面の簡単な説明】
【0015】
【図1】発明の実施形態に係るキーワード獲得装置のブロック構成図。
【図2】発明の実施形態に係るキーワード獲得装置を実装するハードウェア構成図。
【図3】発明の実施形態に係る処理手順を説明したチャート図。
【図4】発明の実施形態に係るログ収集処理手順を説明したチャート図。
【図5】発明の実施形態に係るログ利用キーワード抽出処理手順を説明したフローチャート図。
【図6】ログ格納装置201のデータの一例。
【図7】ログ統計DB202に格納されたログ統計情報の一例。
【図8】出力結果一時記憶部203に格納されるデータの一例。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について図面を参照しながら説明する。
【0017】
[概要]
図1に示された本実施形態に係るキーワード獲得装置1は、検索ログに基づく表層パターンから獲得されるキーワード集合と既に獲得されたキーワード集合の重複に基づき、前記表層パターンの一般性を評価して一般的なパターンの採用を防ぐ。
【0018】
[装置の構成]
図1に示されたキーワード獲得装置1は、図2に示されたCPU21、メモリ22、記憶装置23,24、入力デバイス25、出力デバイス26等のハードウェアリソースと、記憶装置23に格納されたソフトウェアリソース(OS、アプリケーション等)との協働の結果、ログ取得部100、ログ処理部101、シードインスタンス取得部102、出力結果判定部103、結果出力部104、表層パターン抽出部105、表層パターンスコア算出部106、表層パターン一般性評価部107、表層パターン選択部108、キーワードインスタンス抽出部109、キーワードインスタンススコア算出部110、キーワードインスタンス選択部111、出力結果一時記憶部203を実装する。メモリ22としてはRAM等の揮発性のメモリが挙げられる。記憶装置23,24にはハードディスクドライブ装置等の周知の記憶手段を適用すればよい。
【0019】
図1に示されたキーワード獲得装置1を構成する各機能部100〜111,203について説明する。
【0020】
ログ取得部100は検索エンジンに対してユーザが入力した検索条件(クエリ)のログを当該検索エンジンから取得してログ格納装置201に格納する。
【0021】
ログ格納装置201はログ取得部100により取得された検索エンジンに入力された検索条件(クエリ)のログを格納している。検索条件の一例を図6に示した。ログ格納装置201はハードディスク装置、サーバ装置等に例示される周知の記憶手段によって実現できる。
【0022】
ログ処理部101は、ログ格納装置201に格納された前記ユーザの検索条件のログのうち、二語の組合せで構成されるクエリを取得し、その頻度を算出する。二語の組合せで構成されるクエリとは、半角もしくは全角のスペースで2つのキーワードが接続されたクエリのことを示し、それをキーワードペアと呼ぶ。前記算出された頻度が前記キーワードペアと対応付けられて記録されたログ統計情報が統計ログデータベース(以下、統計ログDB)202に格納される。前記頻度の算出方法は形態素分析等に採用されている周知の頻度算出方法を適用すればよい。
【0023】
統計ログDB202の一例を図7に示した。ログ統計DB202は、ログ処理部101により検索エンジンのログから抽出される、キーワードペアとその出現頻度を記録する記憶装置である。統計ログDB202はハードディスクドライブ装置やサーバ装置等に例示される記憶装置24によって実現すればよい。
【0024】
シードインスタンス取得部102は、ユーザが語彙獲得を行いたい上位概念に含まれる複数のキーワードの入力を受け付ける。
【0025】
表層パターン抽出部105は、シードインスタンス取得部102または出力結果判定部103から受信したキーワードのリスト(集合)に基づきログ格納装置201にアクセスしてログ統計DB202から前記キーワードを含むキーワードペアとその頻度を取得する。そして、この取得したキーワードペアのうち、問い合わせ(検索)に利用したキーワードを予め決められていた文字列(下記の事例では、###)で置き換えて表層パターンを抽出する。問い合わせキーワード、取得されるキーワードペアとその頻度、表層パターンの事例を表1に示した。表層パターン抽出部105はキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンを集計してキーワードスコア算出部110に送信する。
【0026】
【表1】

【0027】
表層パターンスコア算出部106は、表層パターン抽出部105から取得したキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンとその表層パターンの抽出に利用したキーワードの情報とに基づき、それぞれの表層パターンのスコアを算出する。表層パターンのスコアとは、初期の入力として与えられたキーワード集合の上位概念に関係するキーワードの取得しやすさを評価するための指標であり、例えば以下の式(1)で算出される。算出された表層パターンのスコアは当該表層パターンと共に表層パターン選択部108に供される。
【0028】
【数1】

【0029】
式(1)において、Scorepattern(p)は表層パターンpのスコアを表す。Scorekeyword(k)は、表層パターンの抽出に利用したキーワードの情報であって、キーワードkのスコア(スコアが定義されていない場合すなわち初期値の場合は1)を表し、後述の式(4)によって算出できる。Kは表層パターンpで取得できるキーワードの集合を表す。また、pmi(x,y)はキーワードxと表層パターンyの関連性の強さを表す相互情報量を示し、以下の式(2)で算出される(式(4)についても同様)。
【0030】
【数2】

【0031】
式(2)において、Nは全キーワードペアの数、|k,p|はキーワードkを持つキーワードペアの頻度、|k,*|はキーワードkを持つキーワードペアの数、|*,p|は表層パターンpを持つキーワードペアの数を表す。これらの情報はログ統計DB202から取得できる。
【0032】
表層パターン一般性評価部107は以下の処理1〜4によって表層パターンの一般性評価値を算出する。
【0033】
(処理1)表層パターン抽出部105からキーワード毎に抽出した表層パターンを取得する。取得される情報の一例を表2に示す。
【0034】
【表2】

【0035】
(処理2)処理1で得られた情報からパターン毎にどのキーワードから抽出されたかを示す情報を作成する。作成される情報の一例を表3に示す。そして、この情報における一つの表層パターンに対応するキーワード群をキーワード集合(K1)と特定する。表3の事例では表層パターン「### 偏差値」に対応したキーワード集合(K1)は「ABC大学 DE大学 JK大学」となる。
【0036】
【表3】

【0037】
(処理3)処理2で作成された情報における一つの表層パターンをキーとしてログ統計DB202にアクセスして当該表層パターンと一致するキーワードペア群を取得し、この取得したキーワードペア群から当該表層パターンに含まれるキーワード群を抽出する。この抽出されたキーワード群をキーワード集合(K2)と特定する。表層パターンとこれによって取得されるキーワード群の例を表4に示した。
【0038】
【表4】

【0039】
(処理4)処理2で取得されたキーワード集合(K1)と処理3で取得されたキーワード集合(K2)とに基づき前記一つの表層パターンの一般性評価値を算出する。一般性評価値は例えば以下の式(3)によって算出する。式(3)において、Generality(p)は表層パターンpの一般性を評価する値である。K1はキーワード集合(K1)を、K2はキーワード集合(K2)を示す。表層パターンとその一般性評価値は、表層パターン選択部108に供される。
【0040】
【数3】

【0041】
表層パターン選択部108は、表層パターンスコア算出部106から供された表層パターンとそのスコアと、表層パターン一般性評価部107から供された各表層パターンの一般性評価値とに基づき、キーワードを選択するための表層パターンを決定する。具体的には、一般性評価値に一定の閾値を設け、この閾値以上の一般性評価値の表層パターンの群を一般的ではない表層パターンの群と特定し、これらの特定した表層パターンをそのスコアの降順にならべ、スコアの高いものから順に一定数のパターンを取得する方法が採られる。
【0042】
キーワードインスタンス抽出部109は、表層パターン選択部108から供された表層パターン集合におけるそれぞれの表層パターンと一致するキーワードペアとその頻度をログ統計DB202から取得し、この取得したキーワードペアから前記表層パターンに含まれるキーワードの集合を特定する。表層パターン毎に抽出した全てのキーワードとその頻度をキーワードスコア算出部110に供する。
【0043】
キーワードインスタンススコア算出部110は、キーワードインスタンス抽出部109から供された表層パターン毎に含まれるキーワードの集合とこれに属する個々のキーワードの頻度に基づき、個々のキーワードのスコアを算出する。キーワードインスタンス(前記キーワードの集合)とこれに属する個々のキーワードのスコアは、表層パターン選択部108に供される。
【0044】
前記キーワードインスタンスのスコアは、キーワードの取得に利用した表層パターンとの関連性を元に、予め指定されたキーワード集合の上位概念と該キーワードの関連性を評価する指標である。このスコアの算出式の例としては以下の式(4)が挙げられる。
【0045】
【数4】

【0046】
式(4)において、Scorekeyword(k)はキーワードkのスコアを表す。Pはキーワードkが出現する表層パターンの集合を表し、pはその表層パターン集合中の一つの表層パターンを表す。これらの情報はログ統計DB202から取得できる。尚、Scorepattern(p)は式(1)で算出された値である。
【0047】
キーワードインスタンス選択部111はキーワードインスタンススコア算出部110からキーワードとそのスコアの一覧を取得し、スコアの高いものから予め決められた個数分のキーワードを選択する。
【0048】
出力結果判定部103は、キーワードインスタンス選択部110からキーワードの抽出結果を取得し、出力結果一時記憶部203にそのキーワード抽出結果を記憶する。出力結果一時記憶部203において既に記憶していたキーワード抽出結果が存在する場合には、既に存在する抽出結果に追加する態様で記憶させる。また、一度の入力に対して行ったキーワード抽出の回数が、予め決められている回数に到達したか否かを判定し、到達していれば、結果出力部104に結果をスコアと共に出力する旨を送信する。また、到達していなければ、キーワード抽出結果を表層パターン抽出部105に送信する。尚、前記回数は任意である。
【0049】
出力結果一時記憶部203は、出力結果判定部103から送信されたデータを一時的に記憶する記憶装置である。出力結果一時記憶部203に対しては結果出力部104からもアクセスできるようになっている。出力結果データの一例を図8に示す。出力結果一時記憶部203は図2に示されたメモリ22によって実現すればよい。
【0050】
結果出力部104は、出力結果判定部103から結果を出力する旨を受信すると、出力結果一時記憶部203にアクセスし、記憶しているキーワード抽出結果をすべて取得し、この取得した抽出結果を出力する。
【0051】
[処理手順の説明]
キーワード獲得装置1による処理手順について説明する。処理手順は図3に示したようにログ収集処理手順(S1)とログ利用キーワード抽出処理手順(S2)とからなる。
【0052】
ログ収集処理手順(S1)では、検索エンジンから検索条件のログを取得してログ格納装置201に格納し、このログ格納装置201に格納されたクエリの分析(頻度算出)をバッチ方式で実行して分析結果(ログ統計情報)をログ統計DB202に格納する。
【0053】
ログ利用キーワード抽出処理手順(S2)では、ログ収集処理手順(S1)で得られたログ統計DB202に含まれる分析結果を利用して、ユーザの指定したキーワード集合と同一の上位概念を持つキーワード集合の中で前記ユーザの指定したキーワード集合に含まれないキーワードを抽出する。
【0054】
以上のログ収集処理手順(S1),ログ利用キーワード抽出処理手順(S2)の具体的な手順について図4,図5を参照しながら説明する。
【0055】
先ず、ログ収集処理手順(S1)について説明する。処理手順(S1)は図4に示したステップS11,S12からなる。
【0056】
S11:ログ取得部100はWebサーチエンジン等の検索装置に対して利用者が入力した検索条件のログを当該検索装置から取得してログ格納装置201に格納する。例えば、図6に示したような検索条件のログが取得されログ格納装置201に格納される。
【0057】
S12:ログ処理部101はログ格納装置21に格納された検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアを取得し、これをその頻度と対応づけて記録したログ統計情報をログ統計DB202に格納する。例えば、図7に示したログ統計情報がログ統計DB202に格納される。
【0058】
次に、ログ利用キーワード抽出処理手順(S2)について説明する。処理手順(S2)は図4に示したステップS21〜S35からなる。
【0059】
S21:シードインスタンス取得部102は獲得したいキーワードと同じ上位概念を有するキーワード集合を処理対象キーワード集合として入力デバイス25から受ける。
【0060】
S22:シードインスタンス取得部102はS21で受け付けた処理対象キーワード集合を表層パターン抽出部105に供する。
【0061】
S23:表層パターン抽出部105はシードインスタンス取得部102から供された処理対象キーワード集合の情報に基づきログ統計DB202にアクセスして当該キーワード集合のキーワードを含むキーワードペアとその頻度を取得する。例えば、表1に示したようにキーワードを含むキーワードペア「ABC大学 偏差値」とその頻度「2000」が取得される。
【0062】
S24:表層パターン抽出部105はS23で取得されたキーワードペアのうち、問い合わせ(検索)に利用したキーワードを予め決められていた文字列(例えば、###)で置き換えて表層パターンを抽出する。例えば、表1に示したような表層パターン「### 偏差値」が取得される。そして、表層パターン抽出部105はキーワード毎に抽出した全てのキーワードペアとその頻度及び表層パターンを集計したものを表層パターンスコア算出部106と表層パターン一般性評価部107とに供する。
【0063】
S25:表層パターンスコア算出部106は、表層パターン抽出部105から供されたキーワード毎に抽出した表層パターンを式(1)の演算に供して各表層パターンのスコアを算出する。そして、この算出した全ての表層パターンのスコアを表層パターン選択部108に供する。
【0064】
S26:表層パターン一般性評価部107は、表層パターン抽出部105から供されたキーワード毎に抽出した表層パターンを前述の(処理2)〜(処理4)に供して各表層パターンの一般性評価値を算出する。そして、この算出した各表層パターンの一般性評価値を表層パターン選択部108に供する。
【0065】
S27:表層パターン選択部108は、表層パターン一般性評価部107から各表層パターンの一般性評価値を受けると、閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定する。次いで、この特定した表層パターンの群をS25で算出されたスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを取得する。そして、この特定した表層パターンの集合をキーワードインスタンス抽出部109に供する。
【0066】
S28:キーワードインスタンス抽出部109は、表層パターン選択部108から表層パターンの集合を受けると当該集合における各表層パターンと一致するキーワードペアとその頻度をログ統計DB202から取得する。そして、この取得したキーワードペアから表層パターンに含まれるキーワードの集合を特定する。表層パターン毎に抽出した全てのキーワードとその頻度をキーワードスコア算出部110に供する。
【0067】
S29:キーワードインスタンススコア算出部110は、キーワードインスタンス抽出部109から供されたキーワード集合とその頻度を式(4)の演算に供して各キーワードのスコアを算出する。そして、この算出された全てのキーワードのスコアをキーワードインスタンス選択部111に送信する。
【0068】
S30:キーワードインスタンス選択部111は、キーワードインスタンススコア算出部110から供された各キーワードのスコアを受けると、スコアの高いものから予め決められた個数分のキーワードを選択し、スコアと共に、出力結果判定部103に供する。
【0069】
S31:出力結果判定部103はS30で選択されたキーワードの集合を出力結果一時記憶部203に格納する。
【0070】
S32:出力結果判定部103はS23〜S31のキーワード抽出処理が予め決められた回数実行されたか否かを判定する。
【0071】
S33:出力結果判定部103は、S23〜S31のキーワード抽出処理の実行回数が決められた回数に達していると判断すると、S30で選択されたキーワードの集合を出力する旨のメッセージを結果出力部104に供する。
【0072】
S34:結果出力部104は、出力結果判定部103から前記メッセージを受けると、出力結果一時記憶部203に格納してあるキーワードの集合を取得し、この出力されたキーワードの集合がユーザにとって適切なキーワード集合として出力デバイス26から出力させる。例えば図8に示した出力結果データが出力される。
【0073】
S35:出力結果判定部103は、S23〜S31のキーワード抽出処理の実行回数が決められた回数に達していないと判断すると、出力結果一時記憶部203に格納してあるキーワードの集合をS23の表層パターン抽出処理に供する。
【0074】
[本実施形態の効果]
以上のように、キーワード獲得装置1は、ユーザが指定した初期キーワード集合と同一の上位概念を持つキーワードの集合を取得するタスクにおいて、与えられたキーワード集合と関連性の高い表層パターンを抽出する際に、該キーワード集合と該パターンで抽出できるキーワード集合の重なりを元に表層パターンの一般性を評価することで、一般性の高い表層パターンを把握できる。これにより、一般性の高い表層パターンのキーワードを利用しないようにすることができ、入力されたキーワード集合の上位概念と関係のないキーワードの抽出を抑えることできる。したがって、検索キーワードを精度高く収集できる。
【0075】
ブートストラッピングを用いた情報抽出においては、インスタンスを取得するためのパターンに広義なものを選択してしまうと、意にそぐわないインスタンスを抽出してしまう、意味ドリフトという問題がある。キーワード獲得装置1によると、パターン選択時に、今までに抽出したインスタンス集合とパターン選択によって得られるインスタンス集合の重複が、後者の集合の半分になると最も値が高くなる指標である一般性評価値を用いることで、キーワードの収集精度が向上する。
【0076】
特に、キーワード獲得装置1では、出力結果判定部103が、前記キーワードの選択の回数が予め決められた回数に達しているか否かの判定を行い、前記選択の回数が前記決められた回数に達していると判断すると前記キーワードインスタンス選択部111にて選択されたキーワードの集合を出力させる一方で、前記キーワードの選択の回数が予め決められた回数に達していないと判断すると前記選択部111にて選択されたキーワードの集合を前記処理対象キーワード集合として表層パターン抽出部105に供するようにすることで、より多くの適切なキーワードの集合を得られる。
【0077】
また、表層パターン選択部108が、前記算出された一般性評価値のうちで閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定し、この特定した表層パターンの群を当該各表層パターンのスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを選択することで、より一層確実に一般性の高い表層パターンを除外できる。
【0078】
さらに、キーワードインスタンス選択部111が、スコアが算出されたキーワードの集合からスコアの高いものから予め決められた個数分のキーワードを選択することで、一般性の高い表層パターンの除外能がさらに高まる。
【0079】
[本発明のプログラムとしての態様]
本発明は、専用のハードウェアにより実現されるもの以外に、上述のキーワード獲得装置1を構成する機能部100〜111,201〜203としてコンピュータを機能させるキーワード獲得プログラムの態様とすることもできる。また、この辞書作成プログラムを格納したコンピュータ読み取り可能な記録媒体も本発明の一態様となる。前記記録媒体としては、フレキシブルディスク、光磁気ディスク、CD−ROM、DVD−ROM、その他の既知の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置が例示される。さらに、前記記録媒体としては、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含まれる。
【符号の説明】
【0080】
1…キーワード獲得装置
101…ログ処理部(ログ処理手段)
102…シードインスタンス取得部(シード情報取得手段)
103…出力結果判定部(出力結果判定手段)
104…結果出力部(結果出力手段)
105…表層パターン抽出部(表層パターン抽出手段)
106…表層パターンスコア算出部(表層パターンスコア算出手段)
107…表層パターン一般性評価部(表層パターン一般性評価手段)
108…表層パターン選択部(表層パターン選択手段)
109…キーワードインスタンス抽出部(キーワードインスタンス抽出手段)
110…キーワードインスタンススコア算出部(キーワードインスタンススコア算出手段)
111…キーワードインスタンス選択部(キーワードインスタンス選択手段)
202…ログ統計DB(ログ統計情報)

【特許請求の範囲】
【請求項1】
同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得装置であって、
獲得したいキーワード集合と同一の上位概念を有するキーワード集合が処理対象キーワード集合として供され、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出する表層パターン抽出手段と、
前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出する表層パターンスコア算出手段と、
前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と、前記ログ統計情報における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を前記全ての表層パターンについて算出する表層パターン一般性評価手段と、
前記算出された全ての表層パターンの一般性評価値とスコアとに基づき一定数の表層パターンを選択する表層パターン選択手段と、
前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するキーワードインスタンス抽出手段と、
前記特定されたキーワードとその頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するキーワードインスタンススコア算出手段と、
前記スコアが算出されたキーワードの集合から当該スコアの値に基づき複数のキーワードを前記獲得したいキーワード集合として選択するキーワードインスタンス選択手段と
を備えたこと
を特徴とするキーワード獲得装置。
【請求項2】
前記キーワードの選択の回数が予め決められた回数に達しているか否かの判定を行い、前記選択の回数が前記決められた回数に達していると判断すると前記キーワードインスタンス選択手段にて選択されたキーワードの集合を出力させる一方で、前記キーワードの選択の回数が予め決められた回数に達していないと判断すると前記キーワードインスタンス選択手段にて選択されたキーワードの集合を前記処理対象キーワード集合として前記表層パターン抽出手段に供する出力結果判定手段をさらに備えたこと
を特徴とする請求項1に記載のキーワード獲得装置。
【請求項3】
前記表層パターン選択手段は、前記算出された一般性評価値のうちで閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定し、この特定した表層パターンの群を当該各表層パターンのスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを選択すること
を特徴とする請求項1または2に記載のキーワード獲得装置。
【請求項4】
前記キーワードインスタンス選択手段は前記スコアが算出されたキーワードの集合からスコアの高いものから予め決められた個数分のキーワードを選択すること
を特徴とする請求項1から3のいずれか1項に記載のキーワード獲得装置。
【請求項5】
同一の上位概念を有する複数のキーワードの集合と同一の上位概念を有し且つその集合に属さないキーワード集合を獲得するキーワード獲得方法であって、
表層パターン抽出手段が、獲得したいキーワード集合と同一の上位概念を有するキーワード集合を、処理対象キーワード集合として受け付けると、この集合に属するキーワードを含むキーワードペアの群を、複数のキーワードの検索条件のログから二つ以上のキーワードの組合せで構成されるキーワードペアをその頻度と対応づけて記録したログ統計情報から取得し、この取得したキーワードペアの群から前記処理対象キーワード集合に属するキーワード毎にそのキーワードを含んだ表層パターンを抽出するステップと、
表層パターンスコア算出手段が、前記抽出された全ての表層パターンとその表層パターンの抽出に利用したキーワードの情報と前記ログ統計情報とに基づき、前記処理対象キーワード集合の上位概念に関係するキーワードの取得しやすさを評価する指標である表層パターンのスコアを前記全ての表層パターンについて算出するステップと、
表層パターン一般性評価手段が、前記抽出された一つの表層パターンに対応するキーワード群からなるキーワード集合と、前記ログ統計情報における前記一つの表層パターンと一致するキーワードペア群から抽出した当該表層パターンに含まれるキーワード群からなるキーワード集合とに基づく前記一つの表層パターンの一般性評価値を前記全ての表層パターンについて算出するステップと、
表層パターン選択手段が前記算出された全ての表層パターンの一般性評価値とスコアとに基づき一定数の表層パターンを選択するステップと、
キーワードインスタンス抽出手段が、前記選択された各表層パターンと一致するキーワードペアを前記ログ統計情報から取得し、この取得したキーワードペアから当該表層パターンに含まれるキーワードの集合を特定するステップと、
キーワードインスタンススコア算出手段が、前記特定されたキーワードとその頻度に基づき、当該キーワードと前記処理対象キーワード集合の上位概念との関連性を評価する指標であるスコアを前記特定された集合に属する全てのキーワードについて算出するステップと、
キーワードインスタンス選択手段が、前記スコアが算出されたキーワードの集合から当該スコアの値に基づき複数のキーワードを前記獲得したいキーワード集合として選択するステップと
を有すること
を特徴とするキーワード獲得方法。
【請求項6】
前記出力結果判定手段が、前記キーワードの選択の回数が予め決められた回数に達しているか否かの判定を行い、前記選択の回数が前記決められた回数に達していると判断すると前記キーワードインスタンス選択手段にて選択されたキーワードの集合を出力させる一方で、前記キーワードの選択の回数が予め決められた回数に達していないと判断すると前記キーワードインスタンス選択手段にて選択されたキーワードの集合を前記処理対象キーワード集合として前記表層パターン抽出手段に供するステップ
をさらに有すること
を特徴とする請求項5に記載のキーワード獲得方法。
【請求項7】
前記表層パターンを選択するステップでは、前記算出された一般性評価値のうちで閾値以上の一般性評価値である表層パターンの群を一般的ではない表層パターンの群と特定し、この特定された表層パターンの群を当該各表層パターンのスコアの降順にならべ、スコアの高いものから順に一定数の表層パターンを選択すること
を特徴とする請求項5または6に記載のキーワード獲得方法。
【請求項8】
前記獲得したいキーワード集合として選択するステップでは、前記スコアが算出されたキーワードの集合からスコアの高いものから予め決められた個数分のキーワードを選択すること
を特徴とする請求項5から7のいずれか1項に記載のキーワード獲得方法。
【請求項9】
請求項1から4のいずれか1項に記載のキーワード獲得装置を構成する各手段としてコンピュータを機能させることを特徴とするキーワード獲得プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate