説明

重要クエリ抽出装置、重要クエリ抽出方法および重要クエリ抽出プログラム

【課題】入力されたクエリに関連して、重要度の高いクエリを判定して出力できる重要クエリ抽出装置を提供する。
【解決手段】重要クエリ抽出装置10は、クエリを取得するクエリ取得部11と、クエリログを記憶するクエリログ記憶部17と、取得クエリを第1ノードに設定する第1ノード設定部121と、前記クエリログから第1ノードのクエリに含まれる単語を含むクエリを抽出して第2ノードに設定する第2ノード設定部122と、各ノード間に有向エッジを追加し、そのスコアを設定するスコア設定部13と、スコアに基づいて重要ノードを特定し、そのクエリを重要クエリとして出力するクエリ出力部14とを備える。スコア設定部13は、一方のノードから他方のノードに向かう有向エッジのスコアを、他方のノードに含まれる単語数と、各ノードに共通する単語の希少性を表す数値とに基づいて設定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のクエリのなかで重要なクエリを抽出する重要クエリ抽出装置、重要クエリ抽出方法および重要クエリ抽出プログラムに関する。
【背景技術】
【0002】
インターネット上の情報を検索するシステムとして、キーワード検索機能を備えたサーチエンジンが用いられている。
この際、検索を行うユーザが、適切なキーワードを入力できない可能性もある。このため、キーワードを入力したユーザに対して、より適切なクエリを提示する方法が提案されている(例えば、特許文献1参照)。
【0003】
特許文献1では、クエリの発生頻度と、前記クエリに関するユーザ満足度スコアとに基づいてクエリランクを計算し、このクエリランクが高順位のクエリを抽出する。そして、入力されたクエリに対して類似度の高いクエリであり、かつ、前記クエリランクが高順位のクエリを修正クエリとして提供する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−535090号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、前記特許文献1では、スペルミスを含むクエリであっても、そのクエリの入力頻度が高い場合には、高ランクと判定されてしまうため、必ずしもユーザの望むクエリが高ランクと判定されていないという問題があった。
【0006】
本発明の目的は、入力されたクエリに関連して、重要度の高いクエリを判定して出力できる重要クエリ抽出装置、重要クエリ抽出方法および重要クエリ抽出プログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の重要クエリ抽出装置は、検索キーワードとなる単語が含まれるクエリを取得するクエリ取得部と、前記クエリ取得部で取得されたクエリを、クエリログとして順次記憶するクエリログ記憶部と、前記クエリ取得部で取得したクエリを第1ノードに設定する第1ノード設定部と、前記クエリログ記憶部に記憶されているクエリログから、前記第1ノードのクエリに含まれる単語を含むクエリを抽出し、抽出されたクエリを第2ノードに設定する第2ノード設定部と、前記各ノード間に有向エッジを追加し、各有向エッジのスコアを設定するスコア設定部と、前記スコア設定部で設定されたスコアに基づいて重要ノードを特定し、そのノードに設定されたクエリを重要クエリとして出力するクエリ出力部とを備え、前記スコア設定部は、一方のノードから他方のノードに向かう有向エッジのスコアを、他方のノードに含まれる単語数と、各ノードに共通する単語の希少性を表す数値とに基づいて設定することを特徴する。
【0008】
本発明によれば、クエリログ記憶部は、端末装置からインターネットなどのネットワークを介して送信されるキーワード検索用のクエリを、順次記憶してクエリログとして記憶する。たとえば、ウェブページをキーワードで検索する検索サーバに対して、各端末装置からクエリが入力されると、このクエリは検索サーバから本発明の重要クエリ抽出装置に転送され、前記クエリログ記憶部に記憶される。従って、本発明の重要クエリ抽出装置は、ウェブページ等の各種検索サーバに組み込まれていてもよいし、検索サーバとデータ通信可能に構成されていてもよい。
そして、端末装置からクエリが入力されると、第1ノード設定部は、その入力クエリを第1ノードに設定する。第2ノード設定部は、第1ノードのクエリに含まれる単語を含むクエリを前記クエリログ記憶部から抽出して第2ノードに設定する。
たとえば、入力クエリとして、歌手名である「A」という固有名詞と、「曲」という歌手の属性に関連する言葉の二つの単語が入力された場合、第1ノード設定部は、「A 曲」という二つの単語を含むクエリを第1ノードに設定する。また、第2ノード設定部は、「A」という単語を含むクエリと、「曲」という単語を含むクエリを抽出し、第2ノードに設定する。たとえば、第2ノードとして設定されるクエリには、「A」、「A、画像」、「A、歌詞」など、過去に固有名詞「A」を含んで入力された各種クエリと、「歌詞、曲」など、過去に「曲」を含んで入力された各種クエリが抽出され、これらにより複数の第2ノードが設定される。
【0009】
スコア設定部は、各ノード間に有向エッジを追加し、有向エッジのスコアを設定する。この際、第2ノードが複数ある場合には、有向エッジは、第1ノードと各第2ノード間だけでなく、第2ノード間にも設定される。この際、スコア設定部は、2つのノード間の有向エッジのスコアを、有向エッジの方向によって設定する。すなわち、第1ノードおよび第2ノード間の有向エッジは、第2ノードから第1ノードに向かう第1の有向エッジと、逆方向の第2の有向エッジとの2つが設定され、各有向エッジはそれぞれスコアが設定される。
2つのノード間の各有向エッジのスコアは、2つのノードに共通する単語の希少性が高い場合に高くなる。希少性を表す数値とは、たとえば、クエリログ記憶部に記憶されたクエリログにおいて、その単語が含まれるクエリの数であり、このクエリの数が少ないほど希少性が高いと判断できる。たとえば、歌手名である「A」という単語は、「曲」といった普通名詞に比べると、クエリ履歴の数も少なくなる。「曲」という単語は、他の歌手名等と共に入力されることも多いからである。なお、この希少性は、たとえば、単語のデータベースを作成しておき、単語毎に希少性を表す数値を設定しておいてもよい。
【0010】
また、有向エッジのスコアは、有向エッジが向かう方向のノードにおける単語数も考慮して設定される。たとえば、単語数が多いほどスコアが低くなり、少ないほどスコアが高くなるように設定する。すなわち、第1ノードとして、「A(歌手名)、曲」の2つの単語が入力されている場合に、第2ノードとして歌手名「A」のみのノードと、「A、B、C」の3名の歌手名が設定されたノードとを想定した場合、歌手名Aと曲をクエリとして入力したユーザにとって、他の歌手名B,Cは検索キーワードとしては不要であり、ノイズとなってしまう。このため、歌手名「A」のみのクエリのほうが重要となる。前記「B,C」はいずれも固有名詞であるため、単語の希少性のみでスコアを設定しようとすると、前記2つのクエリでスコアの差が出にくい。一方、単語数もスコアの算出に加えれば、単語数が少ないほどスコアが高くなり、前記歌手名「A」のみのクエリのスコアを高くできる。
【0011】
以上のように、希少性の高い単語を入力している場合、ユーザはその単語に関係する情報を最も要求していると推定できる。また、希少性の高い単語を含んでいても、クエリ内の単語数が多い場合には、その他の単語がノイズとなって適切な検索結果が得られない可能性がある。従って、その単語を含むクエリで単語数が少ないものが最も重要度の高いクエリと判定でき、本発明によればクエリログ記憶部に記憶されたクエリログから重要クエリを的確に抽出できる。このようにして抽出した重要クエリは、クエリ出力部によって、ユーザの端末装置等に出力される。このため、端末装置を操作するユーザは、スペルミスや誤表記を含まない、例えば固有表現の正しい表記などの重要クエリを得ることができる。
【0012】
また、端末装置を操作するユーザは、クエリ候補として重要クエリを選択できる。従って、入力したクエリの検索結果として適切なものが無かった場合などに、本発明の重要クエリ抽出装置から出力された重要クエリを選択して再度検索することで、適切な検索結果を得ることができる。
【0013】
本発明の重要クエリ抽出装置において、前記スコア設定部は、入力されたクエリに含まれる単語の中で、最も希少性の高い単語のみで構成されるノードが存在する場合は、そのノードに向かう有向エッジのスコアを最も高く設定し、前記クエリ出力部は、前記有向エッジのスコアが最も高いノードのクエリを重要クエリとして出力することが好ましい。
スコア設定部は、単語数が少ないクエリほどエッジのスコアを高くし、希少性の高い単語ほどエッジのスコアを高くする。このため、入力されたクエリに含まれる単語のなかで、最も希少性の高い単語が1つのみ含まれたクエリのノードに向かうエッジのスコアが最も高い値となる。従って、クエリ出力部は、スコアの高いノードのクエリを重要クエリとして出力する。
このため、歌手名Aのように固有名詞のみのクエリがクエリログ記憶部の履歴に存在すれば、そのクエリが重要クエリとして出力され、ユーザがその重要クエリを用いて検索すれば、その固有名詞に関する検索結果を得ることができる。
【0014】
本発明の重要クエリ抽出装置において、前記スコア設定部は、ノードiからノードjに向かうエッジのスコアをH_{i,j}、ノードjに設定されたクエリを構成する単語数をN_q_j、前記クエリログ記憶部において単語wを含むクエリ数を示す数値をDF(w)、ノードiおよびノードjに含まれる単語に関するDF(w)の逆数を加算した値をΣ_{w∈q_i∩q_j}1/DF(w)とした場合に、前記エッジのスコアを以下の式(1)で求めることが好ましい。
[数1]
H_{i,j}=1/N_q_j*(Σ_{w∈q_i∩q_j} 1/DF(w)) ……(1)
【0015】
この式(1)を用いれば、ノードjの単語数が分母となっているので、単語数が多いほどスコアが小さくなる。また、各ノードに共通する単語に関し、その単語を含むクエリの数を示すDF(w)の逆数を、共通する単語分だけ加算している。従って、クエリ数が少ない単語、つまり希少性の高い単語ほど、スコアが大きくなる。
従って、前記スコアは、単語数が少なく、各ノードに共通する単語の希少性が高い場合に値が大きくなり、このスコアが大きくなればクエリの重要度も高くなると判定できる。
【0016】
本発明の重要クエリ抽出方法は、コンピュータにより、重要クエリを抽出する重要クエリ抽出方法であって、前記コンピュータは、クエリの履歴が記憶されたクエリログ記憶部を備え、検索キーワードとなる単語が含まれるクエリを取得するクエリ取得ステップと、前記クエリ取得ステップで取得したクエリを第1ノードに設定する第1ノード設定ステップと、前記クエリログ記憶部に記憶されているクエリの履歴から、前記第1ノードのクエリに含まれる単語を含むクエリを抽出し、抽出されたクエリを第2ノードに設定する第2ノード設定ステップと、前記各ノード間に有向エッジを追加し、各有向エッジのスコアを設定するスコア設定ステップと、前記スコア設定ステップで設定されたスコアに基づいて重要ノードを特定し、そのノードに設定されたクエリを重要クエリとして出力するクエリ出力ステップとを実行し、前記スコア設定ステップは、一方のノードから他方のノードに向かう有向エッジのスコアを、他方のノードに含まれる単語数と、各ノードに共通する単語の希少性を表す数値とに基づいて設定することを特徴する。
【0017】
本発明の重要クエリ抽出プログラムは、コンピュータに、検索キーワードとなる単語が含まれるクエリを取得するクエリ取得ステップと、前記クエリ取得ステップで取得したクエリを第1ノードに設定する第1ノード設定ステップと、クエリの履歴が記憶されたクエリログ記憶部に記憶されているクエリの履歴から、前記第1ノードのクエリに含まれる単語を含むクエリを抽出し、抽出されたクエリを第2ノードに設定する第2ノード設定ステップと、前記各ノード間に有向エッジを追加し、各有向エッジのスコアを設定するスコア設定ステップと、前記スコア設定ステップで設定されたスコアに基づいて重要ノードを特定し、そのノードに設定されたクエリを重要クエリとして出力するクエリ出力ステップとを実行させる重要クエリ抽出プログラムであって、前記スコア設定ステップは、一方のノードから他方のノードに向かう有向エッジのスコアを、他方のノードに含まれる単語数と、各ノードに共通する単語の希少性を表す数値とに基づいて設定することを特徴する。
【0018】
これらの重要クエリ抽出方法および重要クエリ抽出プログラムにおいても、前記重要クエリ抽出装置と同様の作用効果を奏することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の実施形態にかかる検索システムの構成を示すブロック図。
【図2】本実施形態の有向グラフを示す図。
【図3】本実施形態の重要クエリ抽出処理を示すフローチャート。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態を図面に基づいて説明する。
図1には、本発明の重要クエリ抽出装置10を用いた検索システム1を示す。
検索システム1は、重要クエリ抽出装置10と、ウェブページの情報を収集・検索する情報検索装置20と、端末装置30とを備えている。重要クエリ抽出装置10および情報検索装置20と、端末装置30とは、図示略のインターネットを介して通信可能に構成されている。また、重要クエリ抽出装置10および端末装置30によって、検索補助システムが構成されている。
【0021】
インターネットは、TCP/IPなどの汎用のプロトコルに基づくインターネットである。各端末装置30は、移動しながらインターネットに接続可能であることが好ましい。このため、端末装置30は、携帯電話網を介してインターネットに接続したり、無線LAN(LOCAL AREA NETWORK)を介してインターネットに接続する。
なお、端末装置30を重要クエリ抽出装置10や情報検索装置20に接続させるための構成は、インターネットに限定されず、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワーク、さらには、データを直接受信するための媒体となる無線媒体自体など、データを送受信させるいずれの構成も利用できる。
【0022】
重要クエリ抽出装置10や情報検索装置20は、ハードウェア構成として、RAM(RANDOM ACCESS MEMORY)やROM(READ ONLY MEMORY)等の図示しない記憶手段と、CPU(CENTRAL PROCESSING UNIT)等の制御手段と、を備えたサーバ装置で構成されている。RAMはデータなどを一時的に記憶できる一時領域などを有しており、ROMはOS(OPERATING SYSTEM:基本ソフトウェア)や各種サーバを制御するプログラム、各種アプリケーション、各種データ等が格納されている。CPUは、これらの記憶手段に格納されているプログラムを読み出し、このプログラムに従って各種処理を行う。特に、重要クエリ抽出装置10は、記憶手段に記憶された重要クエリ抽出プログラムを読み出して、後述する重要クエリ抽出方法を実行する。
【0023】
[情報検索装置]
情報検索装置20は、図1に示すように、クローラ部21と、ウェブページデータベース(WEBページDB)22と、サーチエンジン23を備えている。
クローラ部21は、インターネット上のウェブページを巡回し、その内容を収集し、前記WEBページDB22に登録する検索ロボットである。
サーチエンジン23は、全文検索などを行うものであり、端末装置30から検索用のキーワードが入力されると、前記WEBページDB22を用いてキーワードを検索し、その検索結果を端末装置30に出力する。
このような情報検索装置20は、従来から知られているものであり、詳細な説明は省略する。
【0024】
[重要クエリ抽出装置]
重要クエリ抽出装置10は、図1に示すように、クエリ取得部11、ノード設定部12、スコア設定部13、クエリ出力部14、クエリログ記憶部17、クエリ関係記憶部18を備えている。ノード設定部12は、第1ノード設定部121と、第2ノード設定部122とを備える。
【0025】
クエリ取得部11は、端末装置30から情報検索装置20に入力されるクエリを、情報検索装置20から入手し、クエリログ記憶部17に記憶する。このため、クエリログ記憶部17には、様々な端末装置30から情報検索装置20に入力された過去のクエリの履歴が記憶される。
また、クエリ取得部11は、今回、情報検索装置20から入力されたクエリをノード設定部12に出力する。
【0026】
ノード設定部12は、クエリ取得部11で取得した各クエリの関係を示す有向グラフのノードを設定し、クエリ関係記憶部18に記憶する。
このノード設定部12における処理を、具体例に基づいて説明する。
まず、ノード設定部12において設定されてクエリ関係記憶部18に記憶される有向グラフ(クエリの関係モデル)の一例について、図2に基づいて説明する。
図2に示す有向グラフは、歌手名ABCDEFと曲の2つの単語を含むクエリが入力された場合の例である。
【0027】
すなわち、ノード設定部12の第1ノード設定部121は、入力されたクエリ「ABCDEF、曲」を第1ノード41に設定する。
次に、第2ノード設定部122は、第1ノード41に含まれる単語「ABCDEF」と「曲」を含むクエリをクエリログ記憶部17から抽出し、第2ノードに設定する。図2の例では、第2ノードとして、歌手名「ABCDEF」のみのノード42、「ABCDEF、画像」の2つの単語からなるノード43、「ABCDEF、歌詞」の2つの単語からなるノード44、「歌詞、曲」の2つの単語からなるノード45、「曲」のみからなるノード46が設定されている。
なお、歌手名をスペルミスした「ABGDEF」というクエリ47も履歴に記憶されている。従来のように、類似クエリも抽出している場合は、このクエリ47も第2ノードに設定されて後述するエッジが設けられるが、本実施形態では類似クエリにはエッジは設定されない。このため、図2ではエッジ部分に「×」印を付けている。
【0028】
各ノード41〜45間には、有向エッジ51〜70が設定されている。すなわち、2つのノード間には、一方のノードから他方のノードに向かう有向エッジと、逆方向の有向エッジの2本のエッジが設定される。
ノード設定部12は、図2に示すような有効グラフを作成し、クエリ関係記憶部18に記憶する。
【0029】
スコア設定部13は、各有向エッジ51〜70のスコアを設定する。スコア設定部13は、一方のノードから他方のノードに向かう有向エッジのスコアを、他方のノードに含まれる単語数と、各ノードに共通する単語の希少性とに基づいて設定する。
具体的には、スコア設定部13は、入力されたクエリに含まれる単語の中で、最も希少性の高い単語のみで構成される有向ノードに向かうエッジのスコアを最も高く設定する。
単語の希少性は、クエリの履歴において、前記単語が含まれるクエリの数によって判定される。すなわち、クエリ数が少ないほど、希少性が高いと判定できる。歌手名のような固有名詞と、曲、画像、歌詞のような普通名詞とを比較すると、通常、固有名詞のほうが、その単語を含むクエリの数も少なくなり、希少性も高くなる。このため、図2のグラフでは、希少性の高い単語(歌手名ABCDEF)のみで構成されるノード42に向かう有向エッジ51,57,59が最も高いスコアになる。
【0030】
スコア設定部13における具体的なスコアの算出式の一例は以下の式(2)に示す通りである。
[数2]
H_{i,j}=1/N_q_j*(Σ_{w∈q_i∩q_j} 1/DF(w)) ……(2)
【0031】
ここで、H_{i,j}は、ノードiからノードjに向かう有向エッジのスコアを表す。また、N_q_jは、ノードjに設定されたクエリq_jを構成する単語数を表す。さらに、DF(w)は単語wの希少性を示す数値であり、本実施形態では、クエリログ記憶部17のクエリ履歴において、その単語wを含むクエリの数である。Σ_{w∈q_i∩q_j} 1/DF(w)は、ノードiに設定されたクエリq_iと、ノードjに設定されたクエリq_jに共通する単語wに関するDF(w)の逆数を、両クエリに共通する単語の分だけ加算した値を示す。
【0032】
有向エッジ51,52における前記スコアの算出例を説明する。
有向エッジ51は、ノード41(前記式2のノードi)からノード42(前記式2のノードj)に向かうエッジである。そして、ノード42に設定されたクエリの単語数(N_q_j)は、歌手名ABCDEFのみであるから「1」となる。また、歌手名ABCDEFを含むクエリの数が、クエリログ記憶部17の履歴の中に1000個あった場合、DF(ABCDEF)=1000となる。
ノード41,42に共通する単語はABCDEFのみであるから、Σ_{w∈q_i∩q_j} 1/DF(w)=1/1000である。すると、スコアH_{i,j}は、1/1*1/1000=0.001である。
【0033】
一方、有向エッジ52の場合、ノード41に設定されたクエリの単語数は「2」である。
ノード41,42に共通する単語はABCDEFのみであるから、Σ_{w∈q_i∩q_j} 1/DF(w)=1/1000である。すると、スコアH_{i,j}は、1/2*1/1000=0.0005であり、前記有向エッジ51に比べて小さくなる。
【0034】
有向エッジ57,59は、共通する単語がABCDEFで同じであり、かつ、エッジが向かう方向のノードの単語数が「1」で共通するため、有向エッジ51と同じスコアになる。
また、有向エッジ53〜62は、共通する単語がABCDEFで同じであり、かつ、エッジが向かう方向のノードの単語数が「2」で共通するため、有向エッジ52と同じスコアになる。
【0035】
一方、有向エッジ63〜70は、2つのノードに共通する単語が「曲」や「歌詞」である。このような普通名詞は、クエリログに記憶されているクエリ数も多くなる。単語「曲」のクエリ数が1万個であれば、DF(曲)=10000となる。このため、有向エッジ67、69のスコアは、1/1*1/10000=0.0001であり、有向エッジ63,64,68,70のスコアは、1/2*1/10000=0.00005である。
単語「歌詞」のクエリ数が8000個であれば、DF(歌詞)=8000となり、有向エッジ65,66のスコアは、1/2*1/8000=0.0000625である。
スコア設定部13は、各有向エッジのスコアを、クエリ関係記憶部18の有向グラフに記憶する。具体的には、スコアH_{i,j}を行列と見なしてスコアを設定する。
【0036】
クエリ出力部14は、スコア設定部13で設定された有向エッジのスコアのなかで最も高い値の有向エッジを探し、その有向エッジが向かう方向のノードを重要と判定する。前記図2の例では、有向エッジ51,57,59のスコアが最も高い値となる。従って、クエリ出力部14は、ノード42が重要と判定する。そこで、クエリ出力部14は、ノード42のクエリ「ABCDEF」を重要クエリとして、端末装置30に出力する。
このため、ユーザは、重要クエリ抽出装置10から提供された重要クエリを利用した検索を行うことができ、求める情報を得ることができる。
【0037】
[重要クエリ抽出装置の動作]
次に、重要クエリ抽出装置10における重要クエリ抽出処理に関し、図3のフローチャートに基づいて説明する。図3に示す処理は、前述したように、重要クエリ抽出プログラムを実行することで実施される。
重要クエリ抽出装置10のクエリ取得部11は、端末装置30から送信されるクエリを取得する(ステップS11)。クエリ取得部11は、取得したクエリをクエリログ記憶部17に記憶し、かつ、ノード設定部12に出力する。
ノード設定部12の第1ノード設定部121は、取得したクエリを第1ノードに設定する(ステップS12)。
【0038】
次に、第2ノード設定部122は、第1ノードの単語を含むクエリを、クエリログ記憶部17から抽出し、第2ノードを設定する(ステップS13)。また、第2ノード設定部122は、各ノード間に有向のエッジを設定して、クエリ間の関係を示すモデルとして有向グラフを作成し、クエリ関係記憶部18に記憶する(ステップS14)。
【0039】
次に、スコア設定部13は、前記各エッジのスコアを算出し、クエリ関係記憶部18に記憶する(ステップS15)。
クエリ出力部14は、前記各エッジのスコアで最も高い値を検索し、重要クエリを抽出する(ステップS16)。
さらに、クエリ出力部14は、抽出した重要クエリを、端末装置30に出力する(ステップS17)。
以上により、重要クエリの抽出処理が終了する。重要クエリ抽出装置10は、端末装置30からクエリが入力されるたびに、前記ステップS11〜S17の処理を実行する。
【0040】
端末装置30においては、重要クエリ抽出装置10から出力された重要クエリが表示される。そして、ユーザが表示されたクエリを選択すると、端末装置30は、サーチエンジン23にクエリを出力し、その検索結果を取得して表示する。
【0041】
[実施形態の作用効果]
以上の実施形態によれば、以下の作用効果を奏することができる。
重要クエリ抽出装置10は、端末装置30から入力されたクエリに含まれる単語を有するクエリをクエリログ記憶部17から抽出して各ノードに設定する。そして、各ノード間のエッジのスコアを、各ノード間に共通する単語の希少性を示す値と、エッジが向かう方向のノードの単語数に基づいて設定し、希少性の高い単語であり、かつ、単語数が少ないノードに向かうエッジのスコアが高くなるように設定した。このため、固有名詞と、普通名詞からなるクエリを入力した場合、その固有名詞単独のクエリがクエリログ記憶部17に記憶されていれば、そのクエリを重要クエリとして抽出し、端末装置30に出力できる。通常、固有名詞のような希少性の高い、つまりクエリログに記憶されている数が少ない単語を入力している場合、ユーザはその単語に関係する情報を最も要求していると推定できる。従って、その単語を含むクエリで単語数が少ないものが最も重要度の高いクエリと判定できる。
このため、端末装置30のユーザは、重要クエリ抽出装置10からスペルミスや誤表記を含まない、例えば固有表現の正しい表記などの重要クエリを得ることができ、この重要クエリを用いて新たな検索を行うことで、求める情報を入手できる可能性が高まる。
【0042】
また、本実施形態では、単語の希少性を表す数値として、前記クエリログ記憶部17に記憶されたクエリ数としている。このため、各ノードの設定も、エッジのスコアの算出も、クエリログ記憶部17に記憶されたクエリログ(履歴)のみに基づいて行うことができる。すなわち、本実施形態では、前記重要クエリを抽出するには、クエリ履歴をクエリログ記憶部17に記憶しておくだけでよく、たとえば、各ユーザが複数のクエリをどのように入力したか等の行動履歴が保存されたログなどを用意する必要がない。このため、システム的な負荷が小さく、簡易なシステムで重要クエリを抽出できる。
【0043】
さらに、スペルミスを含む類似クエリの入力頻度が高い場合であっても、本実施形態では、一致する単語を含むクエリのみをノードに設定し、類似する単語にはエッジが設定されない。このため、スペルミスを含む類似クエリが重要クエリと誤って判定されることを防止できる。
【0044】
[変形例]
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
たとえば、上記実施形態では、情報検索装置20と、重要クエリ抽出装置10とを別々のサーバ装置で構成していたが、これらを1つのサーバ装置で構成してもよい。
【0045】
また、エッジのスコアを算出するための式としては、前記式(2)に記載されたものに限定されない。すなわち、クエリの単語の希少性が高いほどスコアが高くなり、かつ、クエリに含まれる単語数が少ないほどスコアが高くなるような式であればよい。
【産業上の利用可能性】
【0046】
本発明は、入力されたクエリに関連して、重要度の高いクエリを判定して出力できる重要クエリ抽出装置、重要クエリ抽出方法および重要クエリ抽出プログラムとして利用できる。
【符号の説明】
【0047】
1…検索システム、10…重要クエリ抽出装置、11…クエリ取得部、12…ノード設定部、121…第1ノード設定部、122…第2ノード設定部、13…スコア設定部、14…クエリ出力部、17…クエリログ記憶部、18…クエリ関係記憶部、20…情報検索装置、30…端末装置。

【特許請求の範囲】
【請求項1】
検索キーワードとなる単語が含まれるクエリを取得するクエリ取得部と、
前記クエリ取得部で取得されたクエリを、クエリログとして順次記憶するクエリログ記憶部と、
前記クエリ取得部で取得したクエリを第1ノードに設定する第1ノード設定部と、
前記クエリログ記憶部に記憶されているクエリログから、前記第1ノードのクエリに含まれる単語を含むクエリを抽出し、抽出されたクエリを第2ノードに設定する第2ノード設定部と、
前記各ノード間に有向エッジを追加し、各有向エッジのスコアを設定するスコア設定部と、
前記スコア設定部で設定されたスコアに基づいて重要ノードを特定し、そのノードに設定されたクエリを重要クエリとして出力するクエリ出力部とを備え、
前記スコア設定部は、一方のノードから他方のノードに向かう有向エッジのスコアを、他方のノードに含まれる単語数と、各ノードに共通する単語の希少性を表す数値とに基づいて設定する
ことを特徴する重要クエリ抽出装置。
【請求項2】
請求項1に記載の重要クエリ抽出装置において、
前記スコア設定部は、入力されたクエリに含まれる単語の中で、最も希少性の高い単語のみで構成されるノードが存在する場合は、そのノードに向かう有向エッジのスコアを最も高く設定し、
前記クエリ出力部は、前記有向エッジのスコアが最も高いノードのクエリを重要クエリとして出力する
ことを特徴とする重要クエリ抽出装置。
【請求項3】
請求項1または請求項2に記載の重要クエリ抽出装置において、
前記スコア設定部は、ノードiからノードjに向かうエッジのスコアをH_{i,j}、ノードjに設定されたクエリを構成する単語数をN_q_j、前記クエリログ記憶部において単語wを含むクエリ数を示す数値をDF(w)、ノードiおよびノードjに含まれる単語に関するDF(w)の逆数を加算した値をΣ_{w∈q_i∩q_j} 1/DF(w)とした場合に、前記エッジのスコアを、
H_{i,j}=1/N_q_j*(Σ_{w∈q_i∩q_j} 1/DF(w))
で求める
ことを特徴とする重要クエリ抽出装置。
【請求項4】
コンピュータにより、重要クエリを抽出する重要クエリ抽出方法であって、
前記コンピュータは、
クエリの履歴が記憶されたクエリログ記憶部を備え、
検索キーワードとなる単語が含まれるクエリを取得するクエリ取得ステップと、
前記クエリ取得ステップで取得したクエリを第1ノードに設定する第1ノード設定ステップと、
前記クエリログ記憶部に記憶されているクエリの履歴から、前記第1ノードのクエリに含まれる単語を含むクエリを抽出し、抽出されたクエリを第2ノードに設定する第2ノード設定ステップと、
前記各ノード間に有向エッジを追加し、各有向エッジのスコアを設定するスコア設定ステップと、
前記スコア設定ステップで設定されたスコアに基づいて重要ノードを特定し、そのノードに設定されたクエリを重要クエリとして出力するクエリ出力ステップとを実行し、
前記スコア設定ステップは、一方のノードから他方のノードに向かう有向エッジのスコアを、他方のノードに含まれる単語数と、各ノードに共通する単語の希少性を表す数値とに基づいて設定する
ことを特徴する重要クエリ抽出方法。
【請求項5】
コンピュータに、
検索キーワードとなる単語が含まれるクエリを取得するクエリ取得ステップと、
前記クエリ取得ステップで取得したクエリを第1ノードに設定する第1ノード設定ステップと、
クエリの履歴が記憶されたクエリログ記憶部に記憶されているクエリの履歴から、前記第1ノードのクエリに含まれる単語を含むクエリを抽出し、抽出されたクエリを第2ノードに設定する第2ノード設定ステップと、
前記各ノード間に有向エッジを追加し、各有向エッジのスコアを設定するスコア設定ステップと、
前記スコア設定ステップで設定されたスコアに基づいて重要ノードを特定し、そのノードに設定されたクエリを重要クエリとして出力するクエリ出力ステップとを実行させる重要クエリ抽出プログラムであって、
前記スコア設定ステップは、一方のノードから他方のノードに向かう有向エッジのスコアを、他方のノードに含まれる単語数と、各ノードに共通する単語の希少性を表す数値とに基づいて設定する
ことを特徴する重要クエリ抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−88923(P2013−88923A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2011−227090(P2011−227090)
【出願日】平成23年10月14日(2011.10.14)
【出願人】(500257300)ヤフー株式会社 (1,128)