説明

サジェスチョンクエリ抽出装置及び方法、並びにプログラム

【課題】ジェネリックパターンの存在に起因して生ずる意味ドリフトを抑制し、サジェスチョンクエリの抽出の精度の向上を図ること。
【解決手段】インスタンスパターン行列生成部62のうち、正規化自己相互情報量演算部71は、インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する。エッジカット部72は、正規化自己相互情報量の値が閾値th以下である要素のエッジを削除する。正規化ラプラシアン行列演算部63は、このようなインスタンスパターン行列生成部62によって生成されたインスタンスパターン行列を用いて、正規化ラプラシアン行列を演算し、カーネルとして正規化ラプラシアン行列保持部43に保持させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サジェスチョンクエリ抽出装置及び方法、並びにプログラムに関する。
【背景技術】
【0002】
従来のWebページ検索では、ユーザによりクエリが入力されると、Webページ上の検索エンジンによって、複数のURL(Uniform Resource Locator)を含む検索結果がユーザに提示される。
【0003】
さらに、近年のWebページ検索では、検索結果の提示のみならず、入力されたクエリと関連するクエリが、代替クエリの候補として示唆される。このようなWebページ検索において代替クエリの候補として示唆されるクエリは、「サジェスチョンクエリ」と呼ばれている。
【0004】
一般的には、サジェスチョンクエリとして、クエリと構成要素(単語ならば語形)が類似するクエリが提示される。例えば、ユーザが、クエリとして「ホテル」と入力すべきところを誤って「ホデル」と入力してしまった場合、サジェスチョンクエリとして一般的に「ホテル」がユーザに提示される。このようなスペルミスを修正するものもサジェスチョンクエリの一種として捉えることができる。
【0005】
さらに、クエリと構成要素は非類似であるが、当該クエリと意味が類似するクエリ、例えばクエリが単語ならばいわゆる同義語や類義語についても、サジェスチョンクエリとして提示できれば、ユーザにとって便宜である。例えば上述の例でいえば、さらに「旅館」や「宿屋」といった「ホテル」の類義語についても、サジェスチョンクエリとして提示できれば、ユーザにとって便宜である。
【0006】
このようなクエリと意味が類似するクエリ(同義語や類義語等)をサジェスチョンクエリとして適切に抽出すべく、本発明者らは、検索クリックスルーログを用いたラベル伝播手法による意味カテゴリの獲得に関する技術を既に提案している(非特許文献1参照)。
【0007】
ここで、検索クリックスルーとは、ユーザが、クエリを入力した際に、検索エンジンが返す検索結果により示されるスニペット(当該クエリにヒットしたWebページのタイトル、当該クエリにヒットしたWebページのURL、当該クエリを含むWebページの一部の断片等で構成されるリスト)をみて、当該Webページの一をクリック(選択)することをいう。
【0008】
このような検索クリックスルーは、ユーザの意図を直接表していると考えられる。即ち、2以上のクエリの構成要素(語形等)が非類似であっても、同一のWebページに到達するものは、同じ意図で入力されたクエリである可能性が高いもの同士であると考えられる。特に、同一のWebページに到達する2以上のクエリは、同義語であることが多いと考えられる。従って、クエリと、クリック(選択)されたWebページのURL(クリック先URL)とを関連付けて記憶した検索クリックスルーログを用いることによって、ユーザにより入力されたクエリに対して、意味が類似するクエリ(同義語や類義語等)をサジェスチョンクエリとして適切に抽出することが可能になる。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】小町守、牧本信平、内海慶、颯々野学、“Webページ検索ログを用いたラベル伝播による意味カテゴリ獲得”、研究報告音声言語情報処理(SLP)、第2009−SLP−76巻、第9号、1乃至6ページ、2009年5月4日
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、検索クリックスルーログの中には、非常に多くのクエリと共起してしまうクリック先URL、即ちいわゆるジェネリックパターンが存在する。このため、意味の類似度が本来低いクエリ同士が、ジェネリックパターンを介して、意味の類似度が本来よりも高いと評価される、といった現象が生ずる。
【0011】
このような現象が生ずると、いわゆる意味ドリフトが発生して、サジェスチョンクエリの抽出の精度が悪化する。この点、非特許文献1によれば、ラベル伝播手法において、インスタンススコアベクトルは、シードのラベルとグラフ構造どちらを重視するかというパラメータα∈(0,1)を持ち、パラメータαが0に近づけばシードのラベルに偏った結果となり、パラメータαが1に近づけばラベルなしデータから作成されるグラフ構造を考慮した結果となる、とされている。このパラメータαを調整することにより、ある程度は意味ドリフトの発生を抑制することが可能である。しかしながら、あるクエリがジェネリックパターンを含むごく少数のクリック先URLのみと共起するような場合には、パラメータαを調整したとしても意味ドリフトの発生を抑制することはできない。
【0012】
そこで、本発明は、インスタンススコアベクトルのパラメータαの調整によることなくジェネリックパターンの存在に起因して生ずる意味ドリフトを抑制することによって、サジェスチョンクエリの抽出の精度を向上させる、サジェスチョンクエリ抽出装置及び方法、並びにプログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明では、具体的には以下のようなものを提供する。
【0014】
(1) クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置であって、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計手段と、
前記頻度集計手段により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成手段と、
前記インスタンスパターン行列生成手段により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算手段と、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算手段により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合における、クエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信手段と、
を備え、
前記インスタンスパターン行列演算手段は、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算手段と、
前記正規化自己相互情報量演算手段により各要素毎に演算された各々の前記正規化自己相互情報量のうち、所定の閾値以下の正規化自己相互情報量を持つ要素を削除することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除手段と、
を有するサジェスチョンクエリ抽出装置。
【0015】
本発明のこのような構成によれば、正規化ラプラシアン行列は、検索クリックスルーログに基づくインスタンスパターン行列を用いて作成される。このインスタンスパターン行列の各要素として、正規化自己相互情報量が採用されるため、いわゆるジェネリックパターンによる影響を抑制し、ラベル伝播手法におけるラベルの伝播の強度が適切に決定される。従って、このような正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して本来よりも類似度が高いと評価される、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を高めることが可能になる。
【0016】
(2) 前記クエリを複数含む言語資源DBに基づいて、尤度算出言語モデルを作成する尤度算出言語モデル作成手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記尤度算出言語モデル作成手段により作成された尤度算出言語モデルに基づいて、尤度を、クエリらしさを示す尤度スコアとして演算する尤度スコア演算手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記類似度に加えてさらに、前記尤度スコア演算手段により演算された前記尤度スコアに基づいて、リランキングするリランキング手段と、
をさらに備え、
前記サジェスチョンクエリ送信手段は、前記リランキング手段によるリランキングの結果に従って、前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する、
(1)に記載のサジェスチョンクエリ抽出装置。
【0017】
本発明のこのような構成によれば、尤度スコアに基づいてリランキングされた結果が用いられて、サジェスチョンクエリが抽出されるので、サジェスチョンクエリの抽出の精度がさらに向上する。
【0018】
なお、尤度スコアの演算に際して、言語資源DB及び尤度算出言語モデルとしては、文字や単語の分布に基づいてどのような文字或いは単語がクエリとして生成され易いかが演算可能なものであれば足り、様々なものが採用可能である。具体的には、文字ベースの言語資源DBに基づく文字Ngram言語モデル、単語ベースの言語資源DBに基づくwordNgram言語モデル等、様々なものを採用することができる。
また、尤度は、文字或いは単語の出現頻度等の確率分布を用いて表現することができるが、運用上は浮動小数点演算におけるアンダーフローを防ぐ観点から、自然対数尤度が好適に採用される。
【0019】
さらに、本発明では、(1)に係る装置に対応する方法及びプログラムを提供する。これにより、(1)と同様の効果が期待できる。
【発明の効果】
【0020】
本発明によれば、ジェネリックパターンの存在に起因して生ずる意味ドリフトを抑制することによって、サジェスチョンクエリの抽出の精度を向上させることができる。
【図面の簡単な説明】
【0021】
【図1】本発明に係るサジェスチョンクエリ抽出装置を含む情報処理システムの一実施の形態の機能的構成を示す機能ブロック図である。
【図2】図1のサジェスチョンクエリ抽出装置の関連クエリ抽出部に採用されているラベル伝播手法を説明する図である。
【図3】正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法を説明する図である。
【図4】図1のサジェスチョンクエリ抽出装置のうち、正規化ラプラシアン行列をカーネルとして生成するための準備部の機能的構成の詳細を示す機能ブロック図である。
【図5】図1のサジェスチョンクエリ抽出装置が実行するサジェスチョンクエリ抽出処理を例示するすフローチャートである。
【図6】図5のサジェスチョンクエリ抽出処理のうち正規化ラプラシアン行列作成処理を例示するすフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態について説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【0023】
本実施形態は、コンピュータ及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備える、ハードウェア及び該ハードウェアを制御するソフトウェアによって構成される。
【0024】
上記ハードウェアには、制御部としてのCPU(Central Processing Unit)の他、記憶部、通信装置、表示装置及び入力装置が含まれる。記憶部としては、例えば、メモリ(RAM:Random Access Memory、ROM:Read Only Memory等)、ハードディスクドライブ(HDD:Hard Disk Drive)及び光ディスク(CD:Compact Disk、DVD:Digital Versatile Disk等)ドライブが挙げられる。通信装置としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示装置としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
【0025】
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部により記憶され、制御部により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信回線を介して配布されることも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布されることも可能である。
【0026】
図1は、本発明に係るサジェスチョンクエリ抽出装置を含む情報処理システムの一実施の形態の機能的構成を示す機能ブロック図である。
【0027】
情報処理システムは、サジェスチョンクエリ抽出装置11と、ユーザ端末12とが相互に接続されることによって構成されている。
【0028】
なお、サジェスチョンクエリ抽出装置11とユーザ端末12との接続の形態は特に限定されないが、本実施形態では図示せぬインターネットを介してサジェスチョンクエリ抽出装置11とユーザ端末12とが接続されているものとする。また、ユーザ端末12は、実際には複数台存在し得るが、ここでは説明の便宜上1台であるものとする。
【0029】
サジェスチョンクエリ抽出装置11は、主処理部21と、準備部22,23とを備えている。
【0030】
主処理部21は、ユーザ端末12から入力されるクエリ(以下、「入力クエリ」と呼ぶ)に基づいて、サジェスチョンクエリを抽出して、ユーザ端末12に送信する。このため、主処理部21は、関連クエリ抽出部31と、尤度スコア演算部32と、クエリリストリランキング部33と、サジェスチョンクエリ送信部34とを備えている。
【0031】
関連クエリ抽出部31は、入力クエリと関連する1以上のクエリ(以下、「関連クエリ」と呼ぶ)を抽出してリスト化する。このような1以上の関連クエリを含むリストを、以下、「関連クエリリスト」と呼ぶ。
【0032】
関連クエリ抽出部31による関連クエリの抽出手法として、本実施形態では、正規化ラプラシンアン行列をカーネルとして用いるラベル伝播手法に従って、入力クエリをシードとした場合におけるクエリ同士の意味の類似度を演算し、当該類似度に基づいて関連クエリを抽出する、といった手法が採用されている。なお、正規化ラプラシア行列やラベル伝播手法の詳細については後述する。
【0033】
この場合、関連クエリ抽出部31は、意味の類似度に基づいて、1以上の関連クエリの各々に対する順位付け(ランキング)を行うこともできる。ここで、意味の類似度の高低を示す値を以下「類似度スコア」と呼ぶものとすると、1以上の関連クエリの各々は、類似度スコアが付加された上で、ランキング順にソートされてリスト化される。このようにして、類似度スコア付の関連クエリリストが生成されて、関連クエリリスト保持部35に保持される。
【0034】
尤度スコア演算部32は、関連クエリリストに含まれる1以上の関連クエリの各々について、文字Ngram言語モデルに基づいて、自然対数尤度を、クエリらしさを示す尤度スコアとして演算する。なお、文字Ngram言語モデル等の詳細については後述する。
【0035】
尤度スコア演算部32により演算された各尤度スコアは、各関連クエリと対応付けられて、関連クエリリストに付加される。即ち、尤度スコア及び類似度スコア付きの関連クエリリストが作成され、関連クエリリスト保持部35に保持される。
【0036】
クエリリストリランキング部33は、関連クエリリストに含まれる1以上の関連クエリの各々について、類似度スコアと尤度スコアの対数の和をそれぞれ演算し、各演算結果に基づいて、1以上の関連クエリのリランキング(再順位付け)を行う。そして、尤度スコア及び類似度スコア付きの関連クエリリストにおいて、1以上の関連クエリの各々が、リランキング順に再ソートされる。
【0037】
サジェスチョンクエリ送信部34は、リランキング後の再ソートされた関連クエリリストから、高順位の関連クエリを優先的にサジェスチョンクエリとして抽出して、ユーザ端末12に送信する。
【0038】
関連クエリリスト保持部35は、上述の如く、類似度スコア付きの関連クエリリストや、尤度スコア及び類似度スコア付きの関連クエリリストを保持する。なお、類似度スコア付きの関連クエリリストと、尤度スコア及び類似度スコア付きの関連クエリリストとは、別々のリストとして保持してもよいが、1つのリストとして保持してもよい。ここで、1つのリストとして保持するとは、類似度スコア付きの関連クエリリストに対して、尤度スコアを格納する項目を関連クエリ毎に追加することによって、尤度スコア及び類似度スコア付きの関連クエリリストとして保持することを意味する。
【0039】
以上、サジェスチョンクエリ抽出装置11の主処理部21の機能的構成の概略について説明した。さらに以下、図2及び図3を参照して、主処理部21のうち、特に関連クエリ抽出部31の詳細について説明する。
【0040】
図2は、関連クエリ抽出部31に採用されているラベル伝播手法を説明する図であって、シードクエリが旅行に関するものである場合におけるラベルの伝播の様子を示す図である。
【0041】
図2において、左側の丸印によって示されるノードは、クエリ(図2の例では単語のみ)を示している。右側の丸印によって示されるノードは、左側のクエリと共起するパターンを示している。このように、図2に示すグラフは、左側のノードがクエリとなっており、右側のノードがそのクエリと共起するパターンとなっている2部グラフである。当該グラフにおいて、左右のノードを結ぶ線の強さ(図中、太い直線が最も強く、以下、線が細くなるほど、さらに、点線の線部の長さが短くなる程弱くなっていく)が、当該左右のノード間の共起の度合を示している。なお、左右のノードを結ぶ線は、「エッジ」とも呼ばれている。また、各ノードの濃さ(図中丸印内の色の濃さ)が、シードクエリとの関連の強さを表わしている。
【0042】
ここで、パターンとして示されるURL(実際には、「http://・・・」といったURL)は、クリック先URLを意味している。即ち、本実施形態では、シードクエリとの関連の強さの演算に関する学習を高精度に行うべく、パターンとして、従来用いられていたクエリログのみならず、検索クリックスルーログも採用されている。
【0043】
図2において、左上のノードが、シードクエリとしての単語(以下、「シード単語」と呼ぶ)「航空会社A」であり、所定のラベルが付されているものとする。この場合、シード単語「航空会社A」に付されたラベルが、当該シード単語「航空会社A」と共起の度合いが強いパターン「URL:中部発」に伝搬する。ここで、パターン「URL:中部発」とは、飛行機の発着場所が日本国の中部空港であるという内容を含むWebページがクリック先URLであることを示すものとする。このようなパターン「URL:中部発」は、シードクエリとの関連が強いとして、シード単語「航空会社A」に付されていたラベルが伝播される。
【0044】
一方、パターン「URL:ツアー」は、歌手Bがコマーシャルの出演者として起用された所定のツアーを紹介するWebページがクリック先URLであることを示すものとする。この場合、パターン「URL:ツアー」は、単語「歌手B」というシードクエリとは異なるクエリとも共起するため、比較的中立なパターンである。
【0045】
単語「旅行会社C」は、パターン「URL:中部発」及びパターン「URL:ツアー」をシード単語「航空会社A」と共有しているため、当該シード単語「航空会社A」に付されていたラベルが伝播される。このようにしてラベルが伝播された単語「旅行会社C」は、シードクエリとの関連が強い単語として分類されることになる。
【0046】
このように、ラベル伝播手法とは、シードとして与えるノードに付されたラベルを、隣接ノードに順次伝播していく手法をいう。ラベル伝播手法では、最適なラベルは、ラベル伝播のプロセスが収束した状態におけるラベルとして与えられる。
【0047】
本実施形態では、このようなラベル伝播手法として、正規化ラプラシアン行列をカーネルとして用いる手法が採用されている。そこで、以下、図3を参照して、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法について説明する。
【0048】
図3は、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法を説明する図である。
【0049】
図3に示すように、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法では、入力として、シードインスタンスベクトルF(0)と、インスタンス類似度行列Aとが与えられる。また、学習におけるtステップ目(tは1以上の整数値)の出力としては、インスタンススコアベクトルF(t)が得られる。
【0050】
ここで、あらゆるインスタンスの集合をχと表わすものとする。インスタンスとは、図2における左側のノード、即ちクエリ(単語等)を意味する。あるシードクエリとの関連の強さについて学習する場合、例えば図2の例ではシードクエリが関係する旅行との関連の強さについて学習する場合、tステップ目に出力されるインスタンススコアベクトルF(t)は、集合χの要素数|χ|を次元数とするベクトルとして表わされる。インスタンススコアベクトルF(t)のi番目(iは、1乃至|χ|の範囲内の整数値)の次元の要素値としては、集合χのインスタンスxが、どの程度シードクエリと関連があるのか(図2の例では、どの程度旅行との関連があるのか)を示すスコアが採用される。即ち、集合χのインスタンスxの当該シードクエリとの関連の度合を示すスコアが、インスタンススコアベクトルF(t)のi番目の次元の要素値になる。
【0051】
従って、あるシードクエリとの関連の強さについて学習する場合において、入力として与えられるシードインスタンスベクトルF(0)とは、次のような要素値を有するベクトルとなる。即ち、シードインスタンスベクトルF(0)においては、シードとして与えられるインスタンス(図1の関連クエリ抽出部31にとっては入力クエリ)の集合に、インスタンスxが含まれる場合、i番目の次元の要素値が「1」となり、それ以外の次元の要素値が「0」となる。
【0052】
また、入力として与えられるインスタンス類似度行列Aは、インスタンスパターン行列Wを用いて、次の式(1)により演算される。
【数1】

・・・(1)
インスタンスパターン行列Wとは、例えば、インスタンスxとパターンpの関連性を示す値(従来は単純な共起回数であり、本実施形態では後述する正規化自己相互情報量)をi行j列の要素値として有する行列をいう。ここで、従来においては、インスタンスパターン行列Wは、次の式(2)によって正規化された上で、式(1)に代入されていた。
【数2】

・・・(2)
ここで、行列D(N)は、次の式(3)によって定まる行列Nの次数対角行列をいう。
【数3】

・・・(3)
【0053】
あるシードクエリとの関連の強さについて学習をする場合、シードインスタンスベクトルF(0)及びインスタンス類似度行列Aが入力として与えられて、図3の手順に従った処理が実行されることで、インスタンスベクトルF(t)が出力される。
【0054】
即ち、図3の手順のステップS1に示すように、次の式(4)に示す正規化ラプラシアン行列Lが作成される。
【数4】

・・・(4)
なお、本実施形態では、後述するように、正規化ラプラシアン行列Lは、図1の正規化ラプラシアン行列作成部42によって作成されて、正規化ラプラシアン行列保持部43に保持される。
【0055】
次に、図3の手順のステップS2に示すように、tステップの演算結果を用いるt+1ステップのインスタンスベクトルF(t+1)を式(5)の演算により求めるといった処理が、tが1ずつインクリメントされる毎に繰り返し実行される。そして、収束された段階における式(5)の演算結果が、t=t+1としてインクリメントされた後、インスタンスベクトルF(t)として出力される。
【数5】

・・・(5)
【0056】
このようにして出力されたインスタンスベクトルF(t)は、シードとして与えられたインスタンスに対して、意味の類似度順にインスタンス(クエリ)が整列したベクトルになっている。
【0057】
従って、関連クエリ抽出部31(図1)は、ユーザ端末12から供給された入力クエリをシードとして、上述のステップS1及びS2の処理を実行してインスタンスベクトルF(t)を演算することで、関連クエリを抽出することができる。即ち、関連クエリ抽出部31は、当該インスタンスベクトルF(t)に基づいて、入力クエリに対する意味の類似度が上位1乃至K番目(Kは1以上の整数値)のインスタンス、即ち、1乃至K次元の各要素に対応するインスタンスを、K個の関連クエリとしてそれぞれ抽出することができる。
【0058】
この場合、インスタンスベクトルF(t)の1乃至K次元の各要素値が、K個の関連クエリの各々に対して付加される類似度スコアとして採用される。即ち、上述のステップS2における式(5)の繰り返し演算とは、各インスタンス(各クエリ)について、類似度スコアに基づくランキング(順位付け)を行い、ランキングの結果順にソートすることと等価である。従って、関連クエリ抽出部31は、インスタンスベクトルF(t)の1乃至K次元の各要素を抽出することによって、類似度スコア付きの関連クエリリストを作成することができる。
【0059】
なお、式(5)において、パラメータαは、シードのラベルとグラフ構造とのうち何れを重視するラベル伝播手法であるのかを示すパラメータであって、0乃至1の範囲内で可変する。即ち、パラメータαが0に近付くほど、シードのラベルに偏った結果となり、αが1に近付くほど、ラベルなしデータ(インスタンス)から作成されるグラフ構造を考慮した結果となる。
【0060】
また、2つのシードクエリとの関連の強さについて学習する場合には、シードとして与えられるインスタンスの各々に対して「1」または「−1」の値が与えられることによって、シードインスタンスベクトルF(0)が作成される。そして、最終的なスコアyの符号の正負によって、インスタンスxのラベルが決定される。さらに、3以上のn個のシードクエリとの関連の強さについて学習する場合には、シードとしてはベクトルではなくn次元の行列が作成されて、ラベル付けが行われる。
【0061】
次に、図4を参照して、このようなラベル伝播手法においてカーネルとして用いられる正規化ラプラシアン行列の作成手法について説明する。
【0062】
図4は、図1のサジェスチョンクエリ抽出装置11のうち、正規化ラプラシアン行列をカーネルとして生成するための準備部22の機能的構成の詳細を示す機能ブロック図である。
【0063】
準備部22は、クリックスルーログDB41と、正規化ラプラシアン行列作成部42と、正規化ラプラシアン行列保持部43とを備えている。
【0064】
クリックスルーログDB41は、検索クリックスルーログを記憶している。即ち、クリックスルーログDB41は、クエリに対する検索結果のクリック先示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数記憶している。
【0065】
正規化ラプラシアン行列作成部42は、共起頻度集計部61と、インスタンスパターン行列生成部62と、正規化ラプラシアン行列演算部63とを備えている。
【0066】
共起頻度集計部61は、検索クリックスルーログをクリックスルーログDB41から参照して、各々のクエリについて、関連付けられたクリック先URLの数を集計する。ここで、共起頻度集計部61により集計されたクリック先URLの数は、上述の集合χにおけるインスタンスxとしてのクエリと、パターンpとしてのクリック先URLの共起回数wijに相当する。そこで、共起頻度集計部61により集計されたクリック先URLの数を、以下、「共起頻度」と呼ぶ。
【0067】
インスタンスパターン行列生成部62は、共起頻度集計部61により集計された共起頻度に基づいて、インスタンス(クエリ)とパターン(クリック先URL)の関連を示すインスタンスパターン行列を演算する。
【0068】
正規化ラプラシアン行列演算部63は、当該インスタンスパターン行列を用いて、上述した式(4)を演算することで、正規化ラプラシアン行列を演算する。
【0069】
正規化ラプラシアン行列保持部43は、正規化ラプラシアン行列作成部42により作成された正規化ラプラシアン行列を、カーネルとして保持する。
【0070】
なお、正規化ラプラシアン行列に必要なインスタンス類似度行列Aは、上述の如く式(1)に従って演算されるが、非常に大規模な行列であるため、記憶容量が非常に大きくなる場合がある。このような場合には、正規化ラプラシアン行列保持部43が、インスタンスパターン行列W及びその転置行列Wのみを保持し、正規化ラプラシアン行列演算部63が、式(1)を毎回演算することによって、記憶容量を削減することができる。インスタンス類似度行列Aが密行列であるのに対して、インスタンスパターン行列Wは疎行列であるからである。
【0071】
さらに、以下、正規化ラプラシアン行列をカーネルとして作成するために必要なインスタンスパターン行列について説明する。
【0072】
[背景技術]の欄でも上述したように、クリック先URLの中には、非常に多くのクエリと共起してしまうジェネリックパターンが存在する。このため、意味の類似度が低いクエリ同士がジェネリックパターンを介して本来よりも類似度が高いと評価されてしまう、といった現象が従来生じていた。
【0073】
換言すると、ラベル伝播手法においては、伝播元のインスタンス(クエリ)から、それと共通するパターン(クリック先URL)を持つ伝播先のインスタンスに対してラベルが伝搬される。この場合、伝播の強さは、伝播先のインスタンスからの伝播の広がりが考慮される。このため、従来のラベル伝播手法には、次のような第1の特徴及び第2の特徴が存在した。即ち、第1の特徴とは、伝播先のインスタンスが大量のパターンを持っているような場合には伝播が弱くなる、といった特徴である。また、第2の特徴とは、伝播先のインスタンスが少量のパターンしか持たない場合には強く伝搬する、といった特徴である。第2の特徴が顕著に表れた例としては、伝播先のインスタンスが、1つのパターンしか持たず、伝播元のインスタンスとそのパターンのみで繋がっている場合である。このような場合には、伝播先のインスタンスが、1つのジェネリックパターンのみを持つような場合であっても、強く伝搬されてしまうことになる。強く伝搬されるということは、たとえジェネリックパターン1つのみで繋がる伝播元と伝播先のインスタンス同士であっても、即ち意味の類似度が本来低いインスタンス同士であっても、意味の類似度が本来より高いと評価されてしまうことを意味する。
【0074】
ここで、従来のラベル伝播手法の第2の特徴、即ち、伝播先のインスタンスが少量のパターンしか持たない場合には強く伝搬するという特徴は、インスタンスパターン行列Wの正規化処理に起因して生ずる。
【0075】
即ち、従来においては、上述した式(2)に示すように、次数対角行列の逆行列D−1(W)が、インスタンスパターン行列Wの左側に掛けられることで、当該インスタンスパターン行列Wが正規化されていた。具体的には、インスタンスパターン行列Wの各行は、各インスタンス(各クエリ)に対応しており、所定行の各要素値は、対応するインスタンスと各パターン(クリック先URL)との共起回数(クリックされた回数)に基づく値である。このような各インスタンスに対応する各行において、各要素値の総和がそれぞれ「1」になるように正規化されていた。
【0076】
このため、従来においては、多くのパターンと共起するインスタンスに対応する行については、各要素値は小さくなっていた。また、共起するパターンの分布に偏りがあるインスタンスに対応する行については、偏って共起するパターンに対応する要素値が大きくなっていた。
【0077】
一方で、従来においては、共起するパターンが少数のインスタンスに対応する行については、各要素値は大きくなっていた。極端な例を挙げると、共起するパターンが1つしか存在しない場合には、当該パターンに対応する要素値は必ず「1」になっていた。このように要素値が必ず「1」になることは、当該パターンがジェネリックパターンであったとしても何ら変わらない。
【0078】
このように、式(2)によって正規化された従来のインスタンスパターン行列Wは、ジェネリックパターン以外に共起するパターンをほとんど持たないインスタンスに対応する行であって、当該ジェネリックパターンに対応する要素値が「1」に近くなっている行を有している。従来、このような式(2)によって正規化されたインスタンスパターン行列Wからラプラシアン行列Lが作成され、当該ラプラシアン行列Lを用いるラベル伝播手法に従って学習が行われていた。その結果、ジェネリックパターン以外に共起するパターン(クリック先URL)をほとんど持たないインスタンス(クエリ)が、シードとして与えられたインスタンス(シードのクエリ)との意味の類似度が高くなってしまう傾向にあった。即ち、ジェネリックパターン以外に共起するパターンをほとんど持たないインスタンスと、シードとして与えられたインスタンスとは、意味の類似度が本来低いクエリ同士に該当する。このような意味の類似度が本来低いクエリ同士が、ジェネリックパターンを介して、意味の類似度が本来よりも高いと評価されてしまう、といった現象が生じてしまう傾向にあった。
【0079】
そこで、このような現象が生ずることを抑制すべく、図4に示すように、本実施形態のインスタンスパターン行列生成部62は、正規化自己相互情報量演算部71と、エッジカット部72とを備えている。
【0080】
正規化自己相互情報量演算部71は、インスタンスパターン行列Wの各要素値として、正規化自己相互情報量(NPMI:Normalized Pointwise Mutual Information)を演算する。以下、この正規化自己相互情報量について説明する。
【0081】
正規化される前の自己相互情報量(PMI:Pointwise Mutual Information)は、次の式(6)により示される。
【数6】

・・・(6)
式(6)において、i(x,p)が、インスタンスxとパターンpとの自己相互情報量を示している。即ち、式(6)の右辺において、インスタンスxとパターンpとが互いに独立であると仮定して求めた確率分布がp(x)p(p)であり、実際に観測された確率分布がp(x,p)である。式(6)の右辺に示すように、これらの2つの確率分布の情報量の差が自己相互情報量i(x,p)として求められる。
【0082】
ここで、自己相互情報量i(x,p)の値として取り得る範囲は[−∞乃至+∞]であり、2つの確率分布が一致する際には自己相互情報量i(x,p)は0になる。従って、自己相互情報量i(x,p)をそのままインスタンスパターン行列Wの各要素値として採用すると、従来の共起回数を要素値としていた場合に「0」となっていた要素値が、全て「−∞」となってしまい、演算が不可能になってしまう。そこで、本実施形態では、次の式(7)に示すように、自己相互情報量i(x,p)が正規化され、その結果得られる正規化自己相互情報量in(x,p)が、原則、インスタンスパターン行列Wの各要素値として採用される。
【数7】

・・・(7)
【0083】
式(7)に示すように、正規化自己相互情報量in(x,p)は、自己相互情報量i(x,p)が(−lnp(x,p))で除算されることによって正規化されたものであり、その値が取り得る範囲は[−1乃至+1]となる。確率分布p(x,p)が0のとき、正規化自己相互情報量in(x,p)は−1になる。また、確率分布p(x),p(p)が相互に独立の場合には、正規化自己相互情報量in(x,p)は0になる。そして、インスタンスxとパターンpとが互いに共起する場合には、正規化自己相互情報量in(x,p)は1になる。
【0084】
本実施形態では、図4のインスタンスパターン行列生成部62の正規化自己相互情報量演算部71が、式(7)に従って、インスタンスパターン行列Wの各要素毎に、正規化自己相互情報量in(x,p)を演算する。
【0085】
しかしながら、インスタンスパターン行列Wの各要素値として何れも、式(7)の正規化自己相互情報量in(x,p)を採用すると、半正定値性が崩れるために、正規化ラプラシアン行列を用いたラベル伝播手法の適用が不可能になる。そこで、本実施形態では、次の式(8)に従って、インスタンスパターン行列Wの各要素値w(x,p)が演算される。
【数8】

・・・(8)
式(8)において、右辺の[α]thは、閾値th以下の場合、入力値αを削除し(入力値αを入力としてはみずに、出力せず)、閾値thを超えている場合、入力値αをそのまま出力する関数を意味している。ここで、閾値thは、半正定値性を満足させるために0以上の値である必要がある。
【0086】
例えば閾値thが0の場合には、式(8)の右辺は、正規化自己相互情報量in(x,p)が負の値であるときには、当該負の値はみないということを意味している。即ち、正規化自己相互情報量in(x,p)が負の値であるということは、インスタンスxとパターンpとの間に負の相関があるということであり、この組み合わせは発生しにくいことを表しているため、みないということである。
【0087】
ラベル伝播手法の観点で換言すると、正規化自己相互情報量in(x,p)が負の値であるということは、インスタンスxとパターンpとはエッジが張られにくいことを意味している。即ち、図2の例でいうと、インスタンスxを示す左側のノードと、パターンpを示す右側のノードとを結ぶ線(エッジ)の強さが弱いということを意味している。ここで、正規化自己相互情報量in(x,p)を用いる意義は、ラベルを伝搬させる強さが適切に決定される点にある。従って、エッジの張り方は直接観測したデータから決定されるため、負の値の正規化自己相互情報量in(x,p)を削除しても、即ちエッジを削除しても、ラベルの伝搬の強さを適切にするという点で特に問題とならない。また、正規化自己相互情報量in(x,p)が0となる要素については、インスタンスxとパターンpとは互いに独立であると判断できるので、エッジを削除しても、ラベルの伝搬の強さを適切にするという点で特に問題とならない。
【0088】
本実施形態では、図4のインスタンスパターン行列生成部62のエッジカット部72が、このような式(8)を演算することによって、正規化自己相互情報量in(x,p)の値が閾値th以下の要素におけるエッジを削除する。即ち、インスタンスパターン行列Wの各要素のうち、正規化自己相互情報量in(x,p)の値が閾値thを超える要素については、正規化自己相互情報量in(x,p)の値がそのまま要素値として採用される。これに対して、正規化自己相互情報量in(x,p)の値が閾値th以下の要素については、正規化自己相互情報量in(x,p)の値は要素値として採用されず、例えば所定の固定値が採用される。
【0089】
なお、上述したように、エッジを削除する基準となる閾値thは、半正定値性を満足させる必要があるため、負値は採用できないが、0を採用する必要は特になく、1以下の任意の正値を採用することができる。
【0090】
このように、本実施形態では、上述した正規化自己相互情報量演算部71及びエッジカット部72を含むインスタンスパターン行列生成部62が、式(7)及び式(8)に従ってインスタンスパターン行列Wを演算して、正規化ラプラシアン行列演算部63に供給する。当該インスタンスパターン行列Wの各要素は、原則として(閾値thを超えているものは)、正規化自己相互情報量が採用されているため、ラベル伝播手法におけるラベルの伝播の強度を適切に決定することができる。
【0091】
正規化ラプラシアン行列演算部63は、当該インスタンスパターン行列Wを用いて上述した式(1)を演算することによって、インスタンス類似度行列Aを演算する。そして、正規化ラプラシアン行列演算部63は、このインスタンス類似度行列Aを用いて式(4)を演算することで、正規化ラプラシアン行列Lを演算し、カーネルとして正規化ラプラシアン行列保持部43に保持させる。
【0092】
以上説明したように、本実施形態の正規化ラプラシアン行列作成部42により作成された正規化ラプラシアン行列Lをカーネルとして用いて、ラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して意味の類似度が本来よりも高いと評価されてしまう、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を高めることが可能になる。
【0093】
以上、図1のサジェスチョンクエリ抽出装置11のうち、正規化ラプラシアン行列Lをカーネルとして作成する準備部22について説明した。
次に、図1のサジェスチョンクエリ抽出装置11のうち、尤度算出言語モデルを作成する準備部23について説明する。
【0094】
準備部23は、言語資源DB51と、尤度算出言語モデル作成部52と、尤度算出言語モデル保持部53と、を備えている。なお、言語資源DB51、尤度算出言語モデル作成部52及び尤度算出言語モデル保持部53としては、具体的には、文字や単語の分布に基づいてどのような文字或いは単語がクエリとして生成され易いかが演算可能なものであれば足り、様々なものが採用可能である。例えば、文字ベースの言語資源DBに基づく文字Ngram言語モデル、単語ベースの言語資源DBに基づくwordNgram言語モデル等、様々なものを採用することができる。以下、これらの一例を取り上げて説明を続ける。
【0095】
言語資源DB51は、これまでにクエリとして用いられた多数のクエリのログ、即ちいわゆるクエリログを記憶している。
【0096】
尤度算出言語モデル作成部52は、言語資源DB51に記憶されたクエリログに基づいて、尤度算出言語モデルを作成する。即ち、尤度算出言語モデル作成部52は、クエリとしての文字或いは単語wを、w={x[1],x[2],・・・,x[n]}という文字或いは単語の並びと把握して、自然対数尤度を演算することによって、尤度算出言語モデルを作成する。
【0097】
より具体的には、例えば、尤度算出言語モデル作成部52は、
lnP(w)
=ΣlnP(x[i]|{x[i−N+1],...,x[i−1]})
=Σ{ln(freq({x[i−N+1],...,x[i]}))−ln(freq({x[i−N+1],...,x[i−1]}))}
の式に従って、自然対数尤度を計算する。
なお、この実施形態では自然対数尤度を計算しているが、あくまで一例であって、クエリらしさを表現可能な様々なものが採用可能である。
【0098】
尤度算出言語モデル保持部53は、尤度算出言語モデル作成部52により作成された文字Ngram言語モデルを保持する。
【0099】
以上、図1を参照して、本発明に係るサジェスチョンクエリ提供システムの一実施の形態の機能的構成について説明した。
次に、このようなサジェスチョンクエリ提供処理システムのうち、サジェスチョンクエリ抽出装置11が実行する一連の処理(以下、「サジェスチョンクエリ抽出処理」と称する)の流れについて説明する。
【0100】
図5は、サジェスチョンクエリ抽出処理を例示するすフローチャートである。
【0101】
ステップS11において、図1の正規化ラプラシアン行列作成部42は、正規化ラプラシアン行列保持部43を参照して、正規化ラプラシアン行列が作成済であるか否かを判定する。
【0102】
正規化ラプラシアン行列が作成済みの場合、ステップS11においてYESであると判定されて、処理はステップS13に進む。なお、ステップS13以降の処理については後述する。
【0103】
これに対して、正規化ラプラシアン行列が未作成の場合、ステップS11においてNOであると判定されて、処理はステップS12に進む。
ステップS12において、正規化ラプラシアン行列作成部42は、正規化ラプラシアン行列を作成し、カーネルとして正規化ラプラシアン行列保持部43に保持させる。なお、このようなステップS12の処理を、以下、「正規化ラプラシアン行列作成処理」と呼ぶ。正規化ラプラシアン行列作成処理の詳細については、図6を参照して後述する。
ステップS12の正規化ラプラシアン行列作成処理が実行されると、処理はステップS13に進む。
【0104】
ステップS13において、尤度算出言語モデル作成部52は、尤度算出言語モデル保持部53を参照して、尤度算出言語モデルが作成済であるか否かを判定する。
【0105】
尤度算出言語モデルが作成済みの場合、ステップS13においてYESであると判定されて、処理はステップS15に進む。なお、ステップS15以降の処理については後述する。
【0106】
これに対して、尤度算出言語モデルが未作成の場合、ステップS13においてNOであると判定されて、処理はステップS14に進む。
ステップS14において、尤度算出言語モデル作成部52は、尤度算出言語モデルを作成し、尤度算出言語モデル保持部53に保持させる。これにより、処理はステップS15に進む。
【0107】
ステップS15において、関連クエリ抽出部31は、ユーザ端末12から入力クエリが供給されたか否かを判定する。
ユーザ端末12から入力クエリが供給されてこない場合、ステップS15においてNOであると判定されて、処理はステップS15に再度戻される。即ち、ユーザ端末12から入力クエリが供給されてくるまでの間、ステップS15の判定処理が繰り返し実行されることで、サジェスチョンクエリ抽出処理が待機状態になる。
その後、ユーザ端末12から入力クエリが供給されてくると、ステップS15においてYESであると判定されて、処理はステップS16に進む。
【0108】
ステップS16において、関連クエリ抽出部31は、類似度スコア付きの関連クエリリストを作成する。即ち、関連クエリ抽出部31は、ステップS12の処理で作成された正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、入力クエリをシードとした場合におけるクエリ同士の意味の類似度スコアを演算する。そして、関連クエリ抽出部31は、類似度スコアが高いクエリを優先して、当該類似度スコア付きの関連クエリとして抽出し、これらを類似度スコアに基づくランキング順にソートすることによって、類似度スコア付き関連クエリリストを作成する。
【0109】
ステップS17において、尤度スコア演算部32は、ステップS16の処理で作成された関連クエリリストに含まれる1以上の関連クエリの各々について、尤度スコアを演算し、関連クエリリストに付加する。即ち、尤度スコア演算部32は、ステップS14の処理で作成された文字Ngram言語モデルに基づいて、自然対数尤度を、クエリらしさを示す尤度スコアとして演算する。そして、尤度スコア演算部32は、尤度スコア及び類似度スコア付きの関連クエリリストを作成する。
【0110】
ステップS18において、クエリリストリランキング部33は、関連クエリリストに含まれる1以上の関連クエリの各々について、類似度スコアと尤度スコアの対数の和をそれぞれ演算し、各演算結果に基づいて、1以上の関連クエリのリランキング(再順位付け)を行う。その結果、尤度スコア及び類似度スコア付きの関連クエリリストにおいて、1以上の関連クエリの各々が、リランキング順に再ソートされる。
【0111】
ステップS19において、サジェスチョンクエリ送信部34は、リランキング後の再ソートされた関連クエリリストから、リランキングの結果高順位となっている幾つかの関連クエリを優先して、サジェスチョンクエリとして抽出して、ユーザ端末12に送信する。これにより、サジェスチョンクエリ抽出処理は終了となる。
【0112】
なお、ステップS15乃至S19の処理は、正規化ラプラシアン行列及び尤度算出言語モデルが作成済みの状態であれば実行可能である。従って、ステップS15の処理の開始タイミングは、ステップS11乃至S14の処理の終了後であれば足りる。即ち、ステップS11乃至S14の処理の終了後、時間的に連続して即座に、ステップS15の処理が開始される必要は特になく、時間的に離間して、ステップS15の処理が開始されてもよい。
【0113】
換言すると、図1のサジェスチョンクエリ抽出装置に11において、主処理部21、準備部22、及び、準備部23の各々は、相互に独立かつ並行して処理を実行することができる。従って、例えば準備部22は、サジェスチョンクエリ抽出処理とは独立して、正規化ラプラシアン行列保持部43に保持されている正規化ラプラシアン行列を適宜更新しても構わない。同様に、例えば準備部23は、サジェスチョンクエリ抽出処理とは独立して、尤度算出言語モデル保持部53に保持されている尤度算出言語モデルを適宜更新しても構わない。
【0114】
次に、図5のサジェスチョンクエリ抽出処理のうち、ステップS12の正規化ラプラシアン行列作成処理の流れについて説明する。
【0115】
図6は、正規化ラプラシアン行列作成処理を例示するすフローチャートである。
【0116】
ステップS31において、図4の正規化ラプラシアン行列作成部42の共起頻度集計部61は、検索クリックスルーログに基づいて、共起頻度を集計する。即ち、共起頻度集計部61は、検索クリックスルーログをクリックスルーログDB41から参照して、各々のクエリについて、関連付けられたクリック先URL(検索クリックスロー)の数を、共起頻度として集計する。
【0117】
ステップS32において、インスタンスパターン行列生成部62は、ステップS31の処理で集計された共起頻度に基づいて、インスタンスパターン行列Wを生成する。
【0118】
具体的には、インスタンスパターン行列生成部62の正規化自己相互情報量演算部71は、インスタンスパターン行列Wの各要素毎に、上述した式(7)に従って、正規化自己相互情報量in(x,p)をそれぞれ演算する。次に、エッジカット部72は、上述した式(8)に従って、インスタンスパターン行列Wの各要素毎に演算された正規化自己相互情報量in(x,p)のうち、閾値th(例えばth=0)以下の要素を削除する。これにより、削除された要素におけるインスタンスxとパターンpとのエッジが削除される。このようにして、インスタンスパターン行列Wが演算されると、処理はステップS33に進む。
【0119】
ステップS33において、正規化ラプラシアン行列演算部63は、ステップS32の処理で演算されたインスタンスパターン行列Wを式(1)に代入して、インスタンス類似度行列Aを演算し、そのインスタンス類似度行列Aを式(4)に代入して、正規化ラプラシアン行列Lを演算する。
【0120】
演算された正規化ラプラシアン行列Lは、正規化ラプラシアン行列保持部43に保持される。これにより、正規化ラプラシアン行列作成処理は終了する。即ち、図5のステップS12の処理が終了し、処理はステップS13に進む。
【0121】
このように、正規化ラプラシアン行列Lは、正規化ラプラシアン行列作成処理により、検索クリックスルーログに基づくインスタンスパターン行列Wを用いて作成される。このインスタンスパターン行列Wの各要素は、原則として、正規化自己相互情報量が採用されるため、ラベル伝播手法におけるラベルの伝播の強度が適切に決定される。
【0122】
従って、このような正規化ラプラシアン行列Lをカーネルとして用いるラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して類似度が本来よりも高いと評価される、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を向上させることが可能になる。
【0123】
なお、上述したように、図1のサジェスチョンクエリ抽出装置に11において、主処理部21、準備部22、及び、準備部23の各々は、相互に独立かつ並行して処理を実行することができる。従って、図5の正規化ラプラシアン行列作成処理は、サジェスチョンクエリ抽出処理内のステップS12の処理としてのみならず、サジェスチョンクエリ抽出処理とは独立した処理として、実行可能である。例えば、正規化ラプラシアン行列保持部43に保持されている正規化ラプラシアン行列Lを更新する場合にも、正規化ラプラシアン行列作成処理を実行することが可能である。
【0124】
以上、本発明の実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれる。
【0125】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
【0126】
また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。
【符号の説明】
【0127】
11 サジェスチョンクエリ抽出装置
12 ユーザ端末
21 主処理部
22 準備部
23 準備部
31 関連クエリ抽出部
32 尤度スコア演算部
33 クエリリストリランキング部
34 サジェスチョンクエリ送信部
41 クリックスルーログDB
42 正規化ラプラシアン行列作成部
43 正規化ラプラシアン行列保持部
51 言語資源DB
52 尤度算出言語モデル作成部
53 尤度算出言語モデル保持部
61 共起頻度集計部
62 インスタンスパターン行列生成部
63 正規化ラプラシアン行列演算部
71 正規化自己相互情報量演算部
72 エッジカット部

【特許請求の範囲】
【請求項1】
クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置であって、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計手段と、
前記頻度集計手段により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成手段と、
前記インスタンスパターン行列生成手段により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算手段と、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算手段により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合におけるクエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信手段と、
を備え、
前記インスタンスパターン行列演算手段は、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算手段と、
前記正規化自己相互情報量演算手段により各要素毎に演算された各々の前記正規化自己相互情報量のうち、所定の閾値以下の正規化自己相互情報量を持つ要素を削除することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除手段と、
を有するサジェスチョンクエリ抽出装置。
【請求項2】
前記クエリを複数含む言語資源DBに基づいて、尤度算出言語モデルを作成する尤度算出言語モデル作成手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記尤度算出言語モデル作成手段により作成された尤度算出言語モデルに基づいて、尤度を、クエリらしさを示す尤度スコアとして演算する尤度スコア演算手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記類似度に加えてさらに、前記尤度スコア演算手段により演算された前記尤度スコアに基づいて、リランキングするリランキング手段と、
をさらに備え、
前記サジェスチョンクエリ送信手段は、前記リランキング手段によるリランキングの結果に従って、前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する、
請求項1に記載のサジェスチョンクエリ抽出装置。
【請求項3】
クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置が実行するサジェスチョンクエリ抽出方法であって、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計ステップと、
前記頻度集計ステップの処理により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成ステップと、
前記インスタンスパターン行列生成ステップの処理により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算ステップと、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算ステップの処理により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合における、クエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出ステップと、
前記関連クエリ抽出ステップの処理により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信ステップと、
を含み、
前記インスタンスパターン行列演算ステップは、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算ステップと、
前記正規化自己相互情報量演算ステップの処理により各要素毎に演算された各々の前記正規化自己相互情報量のうち、所定の閾値以下の正規化自己相互情報量を持つ要素を削除することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除ステップと、
を含むサジェスチョンクエリ抽出方法。
【請求項4】
クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置を制御するコンピュータに、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計ステップと、
前記頻度集計ステップの処理により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成ステップと、
前記インスタンスパターン行列生成ステップの処理により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算ステップと、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算ステップの処理により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合における、クエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出ステップと、
前記関連クエリ抽出ステップの処理により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する制御を実行するサジェスチョンクエリ送信制御ステップと、
を含み、
前記インスタンスパターン行列演算ステップは、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算ステップと、
前記正規化自己相互情報量演算ステップの処理により各要素毎に演算された各々の前記正規化自己相互情報量のうち、所定の閾値以下の正規化自己相互情報量を持つ要素を削除することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除ステップと、
を含む制御処理を実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−79029(P2012−79029A)
【公開日】平成24年4月19日(2012.4.19)
【国際特許分類】
【出願番号】特願2010−222789(P2010−222789)
【出願日】平成22年9月30日(2010.9.30)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】