関連語抽出装置、関連語抽出方法、関連語抽出プログラム
【課題】多様性のある関連語をより少ないデータの解析で抽出し、ユーザに提示する。
【解決手段】バースト検出手段4は、検索ログDB3のクエリログを任意の日時単位で解析し、検索回数が急増した検索語を検出する。検出結果はバースト情報DB5に保存する。関連語抽出手段6は、前記DB5の保存データを参照して検出日毎に検索語を取得し、クエリログから検索語の関連語群を抽出する。抽出された関連語群はバースト関連語情報DB7に保存される。関連語出力手段8は、検索エンジン2からの要求としてユーザ入力の検索語を受け取る。受け取った検索語の関連語を前記DB7から取得し、検索エンジン2に返答する。
【解決手段】バースト検出手段4は、検索ログDB3のクエリログを任意の日時単位で解析し、検索回数が急増した検索語を検出する。検出結果はバースト情報DB5に保存する。関連語抽出手段6は、前記DB5の保存データを参照して検出日毎に検索語を取得し、クエリログから検索語の関連語群を抽出する。抽出された関連語群はバースト関連語情報DB7に保存される。関連語出力手段8は、検索エンジン2からの要求としてユーザ入力の検索語を受け取る。受け取った検索語の関連語を前記DB7から取得し、検索エンジン2に返答する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索エンジンの技術分野、特に検索ログから検索語(キーワード)の関連語を抽出し、抽出された関連語を追加の検索語としてユーザに推薦する技術に関する。
【背景技術】
【0002】
周知のように検索エンジンは、ユーザ入力の検索語の文字列(クエリ)に応じてインターネット上の文書のリストを応答し、ユーザはインターネット上の膨大な情報から必要な情報を得るために検索エンジンを利用している。ここでユーザが検索エンジンに入力する検索語としては、ユーザの知りたい「人、モノ、出来事」などの名詞が入力されることが多い。
【0003】
ところが、検索語が複数の意味を有する場合やユーザが検索語について何か特定の事柄を知りたいという検索要求を持っている場合がある。前者の例としては「ヤクルト(登録商標)」という検索語に対しては飲料品としての「ヤクルト」の他に、企業や野球球団の意味も存在する。また、後者の例としては、「京都」という検索語に対して、「京都」の「紅葉」について知りたいユーザや「花見」「土産」などについて知りたいユーザなども存在する。
【0004】
そこで、「goo(登録商標)」や「Google(登録商標)」などの検索エンジンは、図11に示すように、ユーザの検索補助などのために現在の流行を考慮した関連語を追加の検索語として推薦・提示するガイド機能を有し、ユーザの利便性を高めている。この関連語については、図12に示すように、クエリログにおける検索語の共起性や検索語同士におけるクリック先URLの共通性から抽出する方法、あるいは検索語による検索結果の上位にランクされた電子文書(Webページ)内で検索語の周辺に出現する単語から抽出する特許文献1の方法が知られている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−139484
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、ユーザに追加の検索語を提示するWebページ上のスペースは有限であるものの、関連語を関連度順に表示すると同じ意味合いの関連語(例えば「京都」に対して「桜」「花見」「さくら」など)が上位に並んでしまうおそれがある。
【0007】
また、多様な意図を持ったユーザが存在することから、検索の利便性を向上させるためには同じ意図と考えられる関連語ばかりではなく、異なる意図の関連語も幅広く推薦・提示することが好ましい。
【0008】
ところが、特許文献1などの従来手法で抽出した関連語の集合を意味的にクラスタリングするためには各語の意味情報を保持したうえで計算を実行しなければならない。この場合に検索語には膨大な種類の語が存在するため、すべての語の意味情報を保持することは困難である。
【0009】
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、多様性のある関連語をより少ないデータの解析で抽出し、ユーザに提示することを解決課題としている。
【課題を解決するための手段】
【0010】
そこで、本発明は、検索語に流行があることに着目し、検索語が急増した期間と検索語とを1つのグループ(バースト情報)とし、その期間の関連語(例えば検索語と同時に検索された語など)を求める。このグループ毎に検索エンジンの要求に応じて関連語群を抽出し、ユーザに提示する。
【0011】
本発明に係る関連語抽出装置は、検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、検索エンジンの要求に応じてデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、を備える。
【0012】
本発明に係る関連語抽出方法は、検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、検索エンジンの要求に応じてデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、を有する。
【0013】
前記各態様においてデータベースに保存されたグループあるいはグループ内の関連語群をクラスタリングすることもできる。クラスタリングには、グループ内の関連語の類似度・クリック先の情報などが利用される。
【0014】
なお、本発明は、前記抽出装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
【発明の効果】
【0015】
本発明によれば、多様性のある関連語をより少ないデータの解析で抽出し、ユーザに提示することができる。
【図面の簡単な説明】
【0016】
【図1】本発明の第1実施形態に係る関連語抽出装置の構成図。
【図2】同 関連語出力手段の説明図。
【図3】同 バースト検出日毎に関連語を抽出する説明図。
【図4】同 図3のイメージ図。
【図5】同 関連語出手段の出力データ例(キーワード=ヤクルト)
【図6】同 関連語出手段の出力データ例(キーワード=ディズニー)
【図7】同 関連語出手段の出力データ例(キーワード=ロールケーキ)
【図8】同 関連語抽出手段の他の処理例を示す図。
【図9】本発明の第2実施形態に係る関連語抽出装置の構成図。
【図10】同 関連語出力手段の説明図。
【図11】検索エンジンのガイド機能の説明図。
【図12】従来の関連語抽出方法を示す図。
【発明を実施するための形態】
【0017】
≪第1実施形態≫
図1に基づき本発明の第1実施形態に係る関連語抽出装置を説明する。この抽出装置1は、検索エンジン2の検索ログDB3から検索語に関連する関連語を抽出し、抽出された関連語を検索エンジン2の要求に応じて出力する。具体的には、前記抽出装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM).ハードディスクドライブ装置などを備える。
【0018】
このハードウェアリソースとソフトウェアリソースとの協働の結果、前記抽出装置1は、バースト検出手段4.バースト情報DB5.関連語抽出手段6.バースト関連語情報DB7.関連語出力手段8を実装する。この各DB3.5.7は、メモリ(RAM)やハードディスクドライブ装置などの記憶装置に構築されているものとする。ここで前記DB3には検索エンジン2の検索窓から得られた検索ログが記録されている。ここでは検索ログには、検索に利用した検索語のクエリログと、該検索語の検索結果に対するクリック先情報(URLやページ情報など)のクリックログとが含まれる。
【0019】
前記検出手段4は、前記DB3に記録されたクエリログのデータを任意の日時単位で解析する。ここでは一例として1日単位でクエリログのデータを解析し、検索回数が急増した検索語を検出する(バースト検出ステップ)。この検索回数が急増したか否か、即ちバーストしたか否かを判定するにあたっては閾値を用いる。例えば過去数日間(任意の期間)の移動平均値に対して3σ以上(σは標準偏差)で検索回数が上昇している場合に異常時と判定し、バーストと検出してよい。このとき前記検出手段4は、バーストの検出日とバーストした検索語とをペアにしたバースト情報を前記DB5に保存する。
【0020】
前記抽出手段6は、前記DB5の格納データを参照し検出日毎に検索語を取得し、クエリログのデータを解析して検索語の関連語群を抽出する(関連語抽出ステップ)。すなわち、前記DB5の格納データ中から検索日と検索語で絞り込んだクエリログのデータのみを解析し、検索語の関連語群を抽出する。関連語の抽出にあたっては、単に検索時に該検索語と同時に入力された語の共起回数や、該共起回数を該検索語の検索数で除算した「tf・idf」のような指標を用いてもよく、特許文献1のように検出日の検索結果の上位のWebページを解析して関連語を抽出してもよい。
【0021】
ここで抽出した関連語群は、バーストの検出日毎に関連語グループにグループ化され、検索語と併せて関連語グループ群が前記DB7に保存される。具体的には前記DB7には、「検索語.関連語グループ(検出日:「word|score,word|score,word|score),関連語グループ(検出日:「word|score,word|score,word|score),・・・」として記録される。ここで各関連語(word)と対に記録される「score」は、関連語の関連度や「tf・idf」のなどのスコア情報を示している。
【0022】
前記出力手段8は、ユーザが図示省略の端末(例えばPC.携帯電話など)を通じて検索エンジン2の検索窓に検索語を入力したときに、該検索エンジン2のフロントエンドからの要求としてユーザ入力の検索語を受け取る。受け取った検索語のレコードを前記DB7から取得し、図2に示すように、取得したレコードの関連語グループからラウンドロビン形式で重複無く関連語を選択する。
【0023】
ここで選択された任意数の関連語が検索エンジン2のフロントエンドに返答され、検索エンジン2の前記ガイド機能に利用される。すなわち、検索エンジン2が受け取った関連語群が、ユーザ入力の検索語に追加する推薦語として検索窓などの追加語の提示スペースに一覧表示される。
【0024】
これにより検索語の流行(バースト)を考慮して関連語群を抽出し、ユーザに検索の推薦語として提示することができる。すなわち、ある検索語の検索回数は一定ではなく、一時的に急増(バースト)することがある。この代表的な原因としては、TVや新聞などのメディアで取り上げられたり、あるWeb上のコミュニティ(掲示板やソーシャルメディアなど)で話題となったことなどが挙げられる。
【0025】
このような検索語の検索回数が一時的に急増したバースト検出日には、ある検索語は特定の検索意図に偏っているため(特定の検索意図の割合が多い)、その意図に沿った関連語をクエリログから抽出することができる。例えばバースト検出日ではなく、定常状態のときに「ヤクルト」という検索語を使うユーザのうち、(「飲料品」,「健康食品」,「ヤクルト球団」)の情報を意図するユーザの割合は、それぞれ(「40%」,「30%」,「30%」)であったとする。ところが、11月3日に球団としてのヤクルト(ヤクルトスワローズ)が優勝し、「ヤクルト」での検索回数が急増した場合(バーストした場合)、先ほどの検索意図の割合は(「5%」,「5%」,「90%」)になっている場合がある。このときのクエリログから抽出された関連語グループにはヤクルト球団の関連語が多数包含される。
【0026】
したがって、バースト検出日毎に関連語グループを作成すれば、多様な検索意図の関連語を抽出してユーザに提示でき、検索の利便性を向上させることができる。図3に基づき説明すれば、同一の検索語についてバースト1の関連語グループには意図Bの関連語が多く含まれているため、該意図Bの関連語が抽出され易い一方、バースト2の関連語グループには意図Aの関連語が多く含まれているため、該意図Aの関連語が抽出され易い。すなわち、バースト1.2の関連語グループは、図4に示すように、それぞれ定常状態(バースト前1週間の平均)よりも語a.bの割合が「0.3」増加している。このときバースト1から抽出した語bは、意図Bによるものである可能性が高く、バースト2から抽出した語aは意図Aによるものである可能性が高い。したがって、各関連語グループから抽出された関連語をユーザに提示することで、意図A.Bの推薦語を提示することができる。
【0027】
また、図5〜図7中、「キーワード」は前記検出手段4の検出した検索語を示し、「全体」は従来のガイド機能で提示される関連語群を示し、「バースト考慮」は前記抽出装置1を用いたガイド機能で提示される関連語群を示し、アンダーライン部は従来のガイド機能では提示されてない関連語を示し、前記抽出装置1を用いれば多様性のある関連語群をユーザに提示できることが分かる。
【0028】
このとき前記抽出装置1によれば、バースト検出日のクエリログのデータのみを用いて関連語を抽出するため、多様性のある関連語をより少ないデータの解析で抽出ができ、処理の効率化にも貢献できる。なお、バースト毎に関連語グループを作成して関連語を推薦語として提示するため、ユーザは過去の流行や出来事を容易に検索でき、この点でもユーザの検索活動を支援できる。
【0029】
図8は、前記抽出手段6の他の処理例を示している。ここではバースト検出日・定常状態間で関連語のスコア情報、即ち前記DB7に保存された「word」の「score」値の差分を算出することで、さらなる効果拡大を図っている。
【0030】
具体的には、バースト検出日前の任意の期間(ここでは一週間とする。)を定常状態とし、定常状態の各関連語の関連度や「tf・idf」などのスコア平均を、バースト検出日における同じ関連語のスコア情報、即ち前記DB7に保存された「score」の値から減算する。これにより定常状態で高いスコア値を得ていた関連語のスコア値は減少し、相対的にバースト検出日のみに高いスコア値の関連語が上位として抽出される。
【0031】
例えば図8中の関連語「東京ディズニーリゾート」は、定常状態において「tf・idf」の最高値「0.15」を得ているものの、検索語「ディズニー(登録商標)」のバースト検出日には最低値「0.05」なため、関連語群中の下位で抽出されている。一方、関連語「ディズニールームランプ」は、定常状態において「tf・idf」の最低値「0.02」であるものの、検索語「ディズニー」のバースト日には二番目の値「0.14」を得ているため、第2位で抽出されている。
【0032】
≪第2実施形態≫
図9は、本発明の第2実施形態に係る関連語抽出装置を示している。この抽出装置11には、前記DB7の保存データをクラスタリングするクラスタリング手段9が設けられている。ここではバーストした検索語に対する関連語グループを再グループ化する。
【0033】
すなわち、前記DB7に保存された検索語の関連語グループ群には、同じ意図の類似した検索語を含む関連語グループが存在する場合がある。例えば検索語「京都」は毎年春にバースト(流行)が存在し、そのバースト検出日の関連語群としては「桜」や「花見」、「吉野」などが同じように抽出される。これらを別々のブループとしてラウンドロビンで関連語を抽出すると、同じ意図の関連語が多くなってしまう。
【0034】
このとき検索窓などの追加語を提示するスペースは有限なため、同じ意味合いの関連語が上位に並んで多種多様な関連語をユーザに提示できないおそれが生じる。そこで、前記DB7に保存された関連語グループをクラスタリングし、類似するグループを一つのグループにまとめるためにクラスタリング手段9を前記抽出装置1に設けた。
【0035】
このクラスタリング手段9は、前記DB7のレコードを取得し、取得されたレコード中の関連語グループ群を、該グループ内に含まれる関連語の類似性でクラスタリングする(クラスタリングステップ)。この関連語の類似性判定には、関連語の種類や前記DB7に関連語と対で記録された「score」のスコア情報を利用する。クラスタリング手法としては代表的なウォード法やK平均法など、どの手段を用いてもよく、クラスタリングの際に作成されるクラスタ数も任意に指定してよいものとする。
【0036】
例えば検索語「京都」で20XX年4月xx日に検出されたバーストでは、「桜」「花見」が関連語グループとして保存され、200Y年4月yy日も「桜」「花見」が関連語グループとして保存されていれば同じ意図の関連語と考えられる。その際に関連語「桜」「花見」の種類やそれぞれの関連度(tf・idfなど)をスコア情報として、その分布の傾向などによって各関連語グループをクラスタリングする。
【0037】
また、前述のようにヤクルト球団(ヤクルトスワローズ)が優勝し、最初に検索語「ヤクルト」がバーストした場合、バースト検出日以降に同じ意図の関連語グループ群が連続すれば、同様に該各関連語グループをクラスタリングする。
【0038】
そして、各クラスタに含まれるレコードの関連語グループを統合して、関連度の高い順に関連語のリストをクラスタ毎に作成する。このとき統合する関連語グループ内の関連語が重複していれば、関連度はスコア情報の合計値を用いてもよく、最大値や中央値・平均値を用いてもよく、その他の方法を用いてもよい。
【0039】
図10に基づき説明すれば、G1〜G4は前記DB7のレコード、即ちある検索語の関連語グループを示している。ここではG1.G2内の各関連語は、共に検索意図A(yy/mm/dd)を持つため、スコア分布などが類似し、クラスタリングの結果、G1.G2が統合されている。
【0040】
そうすると、クラスタリングの結果、関連語グループ群がクラスタ毎に再構築されるため、前記DB7の当該レコードを更新して保存する。ここで更新された前記DB7から前記出力手段8が、ラウンドロビン形式で重複無く順に関連語を選択し、任意数の関連語を検索エンジン2のフロントエンドに返答する。
【0041】
このように同じ意図の関連語グループが統合されて再構築されることから、バースト検出日毎に作成した関連語グループが多くなりすぎたり、同じ意図の関連語グループが多数生じることが防止される。したがって、検索窓などの追加語の提示スペースに関連語群を有効に表示でき、検索エンジンでの表示に利用し易くなる。
【0042】
また、クラスタリングの結果、再構築される関連語グループ群には、同じ意図の関連語がまとめられていることから、関連語グループ毎に関連語を推薦語として検索窓などに表示すれば、多様な検索意図の推薦語をユーザに提示できる。このとき検索窓などのスペースが有限なことに鑑み、推薦語数が閾値(任意数)を超えている場合には関連語グループ単位(クラスタ単位)で代表の関連語を推薦語として表示してもよい。
【0043】
(1)他の処理例1
クラスタリング手段9は、前記DB7に格納された関連語グループ単位ではなく、関連語単位でクラスタリングすることもできる。このクラスタリングには前記DB3に保存されたクリックログを用いる。
【0044】
すなわち、クラスタリング手段9は、前記DB7から各レコード(検索語と関連語グループ群)を抽出する。抽出されたレコード毎に検索語・関連語のいずれからもクリックされたクリック先の情報を前記DB3のクリックログから取得し、取得されたクリック先の情報にて関連語群をクラスタリングする。このクリック先の情報としては、例えばクリック先URLのホスト名やパス名、あるいはクリック先URLのページ情報(高出現頻度の単語など)を用いることができる。これらの情報が共通していれば同じクラスタに関連語が配置され、「score」のスコア値順に関連語のリストがクラスタ毎に作成される。
【0045】
これによりクラスタリングの結果、関連語グループがクラスタ毎に再構築され、検索語と各クラスタとに前記DB7のレコードが更新され、前述と同様の効果が得られる。ここでも推薦語数が閾値(任意数)を超えている場合には、関連語グループ単位で代表の関連語を推薦語として表示できるものとする。
【0046】
(2)他の処理例2
クラスタリング手段9は、前記DB7の関連語グループ群を関連語の類似性ではなく、各関連語グループのクリック先の情報でクラスタリングすることもできる。
【0047】
ここでは関連語グループ内の各関連語からクリックされたクリック先の情報を前記DB3のクリックログから取得する。取得されたすべてのクリック先の情報で関連語グループ群をクラスタリングしてもよく、それぞれの関連語グループを代表するクリック先の情報でクラスタリングをしてもよい。代表するクリック先としては、例えばクリック回数が上位(事前に定められた順位以上)のクリック先を選定することができる。
【0048】
このときクリック先の情報としては、前記処理例1と同様にクリック先URLのホスト名やパス名、あるいはクリック先URLのページ情報(例えば高出現頻度の単語など)を用いることができ、これらの情報が共通する各関連語グループが統合され、関連度の高い順に関連語のリストがクラスタ毎に作成される。
【0049】
これによりクラスタリングの結果、関連語グループ群がクラスタ毎に再構築され、再構築された関連語グループ(クラスタ)に前記DB7のレコードが更新され、前述と同様の効果が得られる。ここでも推薦語数が閾値(任意数)を超えている場合には、関連語グループ単位で代表の関連語を推薦語として表示できる。
【0050】
≪プログラムなど≫
本発明は、前記抽出装置1.11の各手段4〜9の一部もしくは全部として、コンピュータを機能させる関連語抽出プログラムとして構成することもできる。この関連語抽出プログラムによれば、前記各ステップの一部あるいは全部をコンピュータに実行させることが可能となる。
【0051】
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【0052】
1.11…関連語抽出装置
2…検索エンジン
3…検索ログDB(データベース)
4…バースト検出手段(検出手段)
5…バースト情報DB(データベース)
6…関連語抽出手段
7…バースト関連語情報DB(データベース)
8…関連語出力手段
9…クラスタリング手段
【技術分野】
【0001】
本発明は、検索エンジンの技術分野、特に検索ログから検索語(キーワード)の関連語を抽出し、抽出された関連語を追加の検索語としてユーザに推薦する技術に関する。
【背景技術】
【0002】
周知のように検索エンジンは、ユーザ入力の検索語の文字列(クエリ)に応じてインターネット上の文書のリストを応答し、ユーザはインターネット上の膨大な情報から必要な情報を得るために検索エンジンを利用している。ここでユーザが検索エンジンに入力する検索語としては、ユーザの知りたい「人、モノ、出来事」などの名詞が入力されることが多い。
【0003】
ところが、検索語が複数の意味を有する場合やユーザが検索語について何か特定の事柄を知りたいという検索要求を持っている場合がある。前者の例としては「ヤクルト(登録商標)」という検索語に対しては飲料品としての「ヤクルト」の他に、企業や野球球団の意味も存在する。また、後者の例としては、「京都」という検索語に対して、「京都」の「紅葉」について知りたいユーザや「花見」「土産」などについて知りたいユーザなども存在する。
【0004】
そこで、「goo(登録商標)」や「Google(登録商標)」などの検索エンジンは、図11に示すように、ユーザの検索補助などのために現在の流行を考慮した関連語を追加の検索語として推薦・提示するガイド機能を有し、ユーザの利便性を高めている。この関連語については、図12に示すように、クエリログにおける検索語の共起性や検索語同士におけるクリック先URLの共通性から抽出する方法、あるいは検索語による検索結果の上位にランクされた電子文書(Webページ)内で検索語の周辺に出現する単語から抽出する特許文献1の方法が知られている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−139484
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、ユーザに追加の検索語を提示するWebページ上のスペースは有限であるものの、関連語を関連度順に表示すると同じ意味合いの関連語(例えば「京都」に対して「桜」「花見」「さくら」など)が上位に並んでしまうおそれがある。
【0007】
また、多様な意図を持ったユーザが存在することから、検索の利便性を向上させるためには同じ意図と考えられる関連語ばかりではなく、異なる意図の関連語も幅広く推薦・提示することが好ましい。
【0008】
ところが、特許文献1などの従来手法で抽出した関連語の集合を意味的にクラスタリングするためには各語の意味情報を保持したうえで計算を実行しなければならない。この場合に検索語には膨大な種類の語が存在するため、すべての語の意味情報を保持することは困難である。
【0009】
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、多様性のある関連語をより少ないデータの解析で抽出し、ユーザに提示することを解決課題としている。
【課題を解決するための手段】
【0010】
そこで、本発明は、検索語に流行があることに着目し、検索語が急増した期間と検索語とを1つのグループ(バースト情報)とし、その期間の関連語(例えば検索語と同時に検索された語など)を求める。このグループ毎に検索エンジンの要求に応じて関連語群を抽出し、ユーザに提示する。
【0011】
本発明に係る関連語抽出装置は、検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、検索エンジンの要求に応じてデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、を備える。
【0012】
本発明に係る関連語抽出方法は、検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、検索エンジンの要求に応じてデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、を有する。
【0013】
前記各態様においてデータベースに保存されたグループあるいはグループ内の関連語群をクラスタリングすることもできる。クラスタリングには、グループ内の関連語の類似度・クリック先の情報などが利用される。
【0014】
なお、本発明は、前記抽出装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
【発明の効果】
【0015】
本発明によれば、多様性のある関連語をより少ないデータの解析で抽出し、ユーザに提示することができる。
【図面の簡単な説明】
【0016】
【図1】本発明の第1実施形態に係る関連語抽出装置の構成図。
【図2】同 関連語出力手段の説明図。
【図3】同 バースト検出日毎に関連語を抽出する説明図。
【図4】同 図3のイメージ図。
【図5】同 関連語出手段の出力データ例(キーワード=ヤクルト)
【図6】同 関連語出手段の出力データ例(キーワード=ディズニー)
【図7】同 関連語出手段の出力データ例(キーワード=ロールケーキ)
【図8】同 関連語抽出手段の他の処理例を示す図。
【図9】本発明の第2実施形態に係る関連語抽出装置の構成図。
【図10】同 関連語出力手段の説明図。
【図11】検索エンジンのガイド機能の説明図。
【図12】従来の関連語抽出方法を示す図。
【発明を実施するための形態】
【0017】
≪第1実施形態≫
図1に基づき本発明の第1実施形態に係る関連語抽出装置を説明する。この抽出装置1は、検索エンジン2の検索ログDB3から検索語に関連する関連語を抽出し、抽出された関連語を検索エンジン2の要求に応じて出力する。具体的には、前記抽出装置1は、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM).ハードディスクドライブ装置などを備える。
【0018】
このハードウェアリソースとソフトウェアリソースとの協働の結果、前記抽出装置1は、バースト検出手段4.バースト情報DB5.関連語抽出手段6.バースト関連語情報DB7.関連語出力手段8を実装する。この各DB3.5.7は、メモリ(RAM)やハードディスクドライブ装置などの記憶装置に構築されているものとする。ここで前記DB3には検索エンジン2の検索窓から得られた検索ログが記録されている。ここでは検索ログには、検索に利用した検索語のクエリログと、該検索語の検索結果に対するクリック先情報(URLやページ情報など)のクリックログとが含まれる。
【0019】
前記検出手段4は、前記DB3に記録されたクエリログのデータを任意の日時単位で解析する。ここでは一例として1日単位でクエリログのデータを解析し、検索回数が急増した検索語を検出する(バースト検出ステップ)。この検索回数が急増したか否か、即ちバーストしたか否かを判定するにあたっては閾値を用いる。例えば過去数日間(任意の期間)の移動平均値に対して3σ以上(σは標準偏差)で検索回数が上昇している場合に異常時と判定し、バーストと検出してよい。このとき前記検出手段4は、バーストの検出日とバーストした検索語とをペアにしたバースト情報を前記DB5に保存する。
【0020】
前記抽出手段6は、前記DB5の格納データを参照し検出日毎に検索語を取得し、クエリログのデータを解析して検索語の関連語群を抽出する(関連語抽出ステップ)。すなわち、前記DB5の格納データ中から検索日と検索語で絞り込んだクエリログのデータのみを解析し、検索語の関連語群を抽出する。関連語の抽出にあたっては、単に検索時に該検索語と同時に入力された語の共起回数や、該共起回数を該検索語の検索数で除算した「tf・idf」のような指標を用いてもよく、特許文献1のように検出日の検索結果の上位のWebページを解析して関連語を抽出してもよい。
【0021】
ここで抽出した関連語群は、バーストの検出日毎に関連語グループにグループ化され、検索語と併せて関連語グループ群が前記DB7に保存される。具体的には前記DB7には、「検索語.関連語グループ(検出日:「word|score,word|score,word|score),関連語グループ(検出日:「word|score,word|score,word|score),・・・」として記録される。ここで各関連語(word)と対に記録される「score」は、関連語の関連度や「tf・idf」のなどのスコア情報を示している。
【0022】
前記出力手段8は、ユーザが図示省略の端末(例えばPC.携帯電話など)を通じて検索エンジン2の検索窓に検索語を入力したときに、該検索エンジン2のフロントエンドからの要求としてユーザ入力の検索語を受け取る。受け取った検索語のレコードを前記DB7から取得し、図2に示すように、取得したレコードの関連語グループからラウンドロビン形式で重複無く関連語を選択する。
【0023】
ここで選択された任意数の関連語が検索エンジン2のフロントエンドに返答され、検索エンジン2の前記ガイド機能に利用される。すなわち、検索エンジン2が受け取った関連語群が、ユーザ入力の検索語に追加する推薦語として検索窓などの追加語の提示スペースに一覧表示される。
【0024】
これにより検索語の流行(バースト)を考慮して関連語群を抽出し、ユーザに検索の推薦語として提示することができる。すなわち、ある検索語の検索回数は一定ではなく、一時的に急増(バースト)することがある。この代表的な原因としては、TVや新聞などのメディアで取り上げられたり、あるWeb上のコミュニティ(掲示板やソーシャルメディアなど)で話題となったことなどが挙げられる。
【0025】
このような検索語の検索回数が一時的に急増したバースト検出日には、ある検索語は特定の検索意図に偏っているため(特定の検索意図の割合が多い)、その意図に沿った関連語をクエリログから抽出することができる。例えばバースト検出日ではなく、定常状態のときに「ヤクルト」という検索語を使うユーザのうち、(「飲料品」,「健康食品」,「ヤクルト球団」)の情報を意図するユーザの割合は、それぞれ(「40%」,「30%」,「30%」)であったとする。ところが、11月3日に球団としてのヤクルト(ヤクルトスワローズ)が優勝し、「ヤクルト」での検索回数が急増した場合(バーストした場合)、先ほどの検索意図の割合は(「5%」,「5%」,「90%」)になっている場合がある。このときのクエリログから抽出された関連語グループにはヤクルト球団の関連語が多数包含される。
【0026】
したがって、バースト検出日毎に関連語グループを作成すれば、多様な検索意図の関連語を抽出してユーザに提示でき、検索の利便性を向上させることができる。図3に基づき説明すれば、同一の検索語についてバースト1の関連語グループには意図Bの関連語が多く含まれているため、該意図Bの関連語が抽出され易い一方、バースト2の関連語グループには意図Aの関連語が多く含まれているため、該意図Aの関連語が抽出され易い。すなわち、バースト1.2の関連語グループは、図4に示すように、それぞれ定常状態(バースト前1週間の平均)よりも語a.bの割合が「0.3」増加している。このときバースト1から抽出した語bは、意図Bによるものである可能性が高く、バースト2から抽出した語aは意図Aによるものである可能性が高い。したがって、各関連語グループから抽出された関連語をユーザに提示することで、意図A.Bの推薦語を提示することができる。
【0027】
また、図5〜図7中、「キーワード」は前記検出手段4の検出した検索語を示し、「全体」は従来のガイド機能で提示される関連語群を示し、「バースト考慮」は前記抽出装置1を用いたガイド機能で提示される関連語群を示し、アンダーライン部は従来のガイド機能では提示されてない関連語を示し、前記抽出装置1を用いれば多様性のある関連語群をユーザに提示できることが分かる。
【0028】
このとき前記抽出装置1によれば、バースト検出日のクエリログのデータのみを用いて関連語を抽出するため、多様性のある関連語をより少ないデータの解析で抽出ができ、処理の効率化にも貢献できる。なお、バースト毎に関連語グループを作成して関連語を推薦語として提示するため、ユーザは過去の流行や出来事を容易に検索でき、この点でもユーザの検索活動を支援できる。
【0029】
図8は、前記抽出手段6の他の処理例を示している。ここではバースト検出日・定常状態間で関連語のスコア情報、即ち前記DB7に保存された「word」の「score」値の差分を算出することで、さらなる効果拡大を図っている。
【0030】
具体的には、バースト検出日前の任意の期間(ここでは一週間とする。)を定常状態とし、定常状態の各関連語の関連度や「tf・idf」などのスコア平均を、バースト検出日における同じ関連語のスコア情報、即ち前記DB7に保存された「score」の値から減算する。これにより定常状態で高いスコア値を得ていた関連語のスコア値は減少し、相対的にバースト検出日のみに高いスコア値の関連語が上位として抽出される。
【0031】
例えば図8中の関連語「東京ディズニーリゾート」は、定常状態において「tf・idf」の最高値「0.15」を得ているものの、検索語「ディズニー(登録商標)」のバースト検出日には最低値「0.05」なため、関連語群中の下位で抽出されている。一方、関連語「ディズニールームランプ」は、定常状態において「tf・idf」の最低値「0.02」であるものの、検索語「ディズニー」のバースト日には二番目の値「0.14」を得ているため、第2位で抽出されている。
【0032】
≪第2実施形態≫
図9は、本発明の第2実施形態に係る関連語抽出装置を示している。この抽出装置11には、前記DB7の保存データをクラスタリングするクラスタリング手段9が設けられている。ここではバーストした検索語に対する関連語グループを再グループ化する。
【0033】
すなわち、前記DB7に保存された検索語の関連語グループ群には、同じ意図の類似した検索語を含む関連語グループが存在する場合がある。例えば検索語「京都」は毎年春にバースト(流行)が存在し、そのバースト検出日の関連語群としては「桜」や「花見」、「吉野」などが同じように抽出される。これらを別々のブループとしてラウンドロビンで関連語を抽出すると、同じ意図の関連語が多くなってしまう。
【0034】
このとき検索窓などの追加語を提示するスペースは有限なため、同じ意味合いの関連語が上位に並んで多種多様な関連語をユーザに提示できないおそれが生じる。そこで、前記DB7に保存された関連語グループをクラスタリングし、類似するグループを一つのグループにまとめるためにクラスタリング手段9を前記抽出装置1に設けた。
【0035】
このクラスタリング手段9は、前記DB7のレコードを取得し、取得されたレコード中の関連語グループ群を、該グループ内に含まれる関連語の類似性でクラスタリングする(クラスタリングステップ)。この関連語の類似性判定には、関連語の種類や前記DB7に関連語と対で記録された「score」のスコア情報を利用する。クラスタリング手法としては代表的なウォード法やK平均法など、どの手段を用いてもよく、クラスタリングの際に作成されるクラスタ数も任意に指定してよいものとする。
【0036】
例えば検索語「京都」で20XX年4月xx日に検出されたバーストでは、「桜」「花見」が関連語グループとして保存され、200Y年4月yy日も「桜」「花見」が関連語グループとして保存されていれば同じ意図の関連語と考えられる。その際に関連語「桜」「花見」の種類やそれぞれの関連度(tf・idfなど)をスコア情報として、その分布の傾向などによって各関連語グループをクラスタリングする。
【0037】
また、前述のようにヤクルト球団(ヤクルトスワローズ)が優勝し、最初に検索語「ヤクルト」がバーストした場合、バースト検出日以降に同じ意図の関連語グループ群が連続すれば、同様に該各関連語グループをクラスタリングする。
【0038】
そして、各クラスタに含まれるレコードの関連語グループを統合して、関連度の高い順に関連語のリストをクラスタ毎に作成する。このとき統合する関連語グループ内の関連語が重複していれば、関連度はスコア情報の合計値を用いてもよく、最大値や中央値・平均値を用いてもよく、その他の方法を用いてもよい。
【0039】
図10に基づき説明すれば、G1〜G4は前記DB7のレコード、即ちある検索語の関連語グループを示している。ここではG1.G2内の各関連語は、共に検索意図A(yy/mm/dd)を持つため、スコア分布などが類似し、クラスタリングの結果、G1.G2が統合されている。
【0040】
そうすると、クラスタリングの結果、関連語グループ群がクラスタ毎に再構築されるため、前記DB7の当該レコードを更新して保存する。ここで更新された前記DB7から前記出力手段8が、ラウンドロビン形式で重複無く順に関連語を選択し、任意数の関連語を検索エンジン2のフロントエンドに返答する。
【0041】
このように同じ意図の関連語グループが統合されて再構築されることから、バースト検出日毎に作成した関連語グループが多くなりすぎたり、同じ意図の関連語グループが多数生じることが防止される。したがって、検索窓などの追加語の提示スペースに関連語群を有効に表示でき、検索エンジンでの表示に利用し易くなる。
【0042】
また、クラスタリングの結果、再構築される関連語グループ群には、同じ意図の関連語がまとめられていることから、関連語グループ毎に関連語を推薦語として検索窓などに表示すれば、多様な検索意図の推薦語をユーザに提示できる。このとき検索窓などのスペースが有限なことに鑑み、推薦語数が閾値(任意数)を超えている場合には関連語グループ単位(クラスタ単位)で代表の関連語を推薦語として表示してもよい。
【0043】
(1)他の処理例1
クラスタリング手段9は、前記DB7に格納された関連語グループ単位ではなく、関連語単位でクラスタリングすることもできる。このクラスタリングには前記DB3に保存されたクリックログを用いる。
【0044】
すなわち、クラスタリング手段9は、前記DB7から各レコード(検索語と関連語グループ群)を抽出する。抽出されたレコード毎に検索語・関連語のいずれからもクリックされたクリック先の情報を前記DB3のクリックログから取得し、取得されたクリック先の情報にて関連語群をクラスタリングする。このクリック先の情報としては、例えばクリック先URLのホスト名やパス名、あるいはクリック先URLのページ情報(高出現頻度の単語など)を用いることができる。これらの情報が共通していれば同じクラスタに関連語が配置され、「score」のスコア値順に関連語のリストがクラスタ毎に作成される。
【0045】
これによりクラスタリングの結果、関連語グループがクラスタ毎に再構築され、検索語と各クラスタとに前記DB7のレコードが更新され、前述と同様の効果が得られる。ここでも推薦語数が閾値(任意数)を超えている場合には、関連語グループ単位で代表の関連語を推薦語として表示できるものとする。
【0046】
(2)他の処理例2
クラスタリング手段9は、前記DB7の関連語グループ群を関連語の類似性ではなく、各関連語グループのクリック先の情報でクラスタリングすることもできる。
【0047】
ここでは関連語グループ内の各関連語からクリックされたクリック先の情報を前記DB3のクリックログから取得する。取得されたすべてのクリック先の情報で関連語グループ群をクラスタリングしてもよく、それぞれの関連語グループを代表するクリック先の情報でクラスタリングをしてもよい。代表するクリック先としては、例えばクリック回数が上位(事前に定められた順位以上)のクリック先を選定することができる。
【0048】
このときクリック先の情報としては、前記処理例1と同様にクリック先URLのホスト名やパス名、あるいはクリック先URLのページ情報(例えば高出現頻度の単語など)を用いることができ、これらの情報が共通する各関連語グループが統合され、関連度の高い順に関連語のリストがクラスタ毎に作成される。
【0049】
これによりクラスタリングの結果、関連語グループ群がクラスタ毎に再構築され、再構築された関連語グループ(クラスタ)に前記DB7のレコードが更新され、前述と同様の効果が得られる。ここでも推薦語数が閾値(任意数)を超えている場合には、関連語グループ単位で代表の関連語を推薦語として表示できる。
【0050】
≪プログラムなど≫
本発明は、前記抽出装置1.11の各手段4〜9の一部もしくは全部として、コンピュータを機能させる関連語抽出プログラムとして構成することもできる。この関連語抽出プログラムによれば、前記各ステップの一部あるいは全部をコンピュータに実行させることが可能となる。
【0051】
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【0052】
1.11…関連語抽出装置
2…検索エンジン
3…検索ログDB(データベース)
4…バースト検出手段(検出手段)
5…バースト情報DB(データベース)
6…関連語抽出手段
7…バースト関連語情報DB(データベース)
8…関連語出力手段
9…クラスタリング手段
【特許請求の範囲】
【請求項1】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する関連語抽出装置であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、
検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、
検索エンジンの要求に応じてデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、
を備えることを特徴とする関連語抽出装置。
【請求項2】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する関連語抽出装置であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、
検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、
データベースに保存されたグループ群をそれぞれのグループ内の各関連語の類似性でクラスタリングして各グループを統合し、データベースを更新するクラスタリング手段と、
検索エンジンの要求に応じてクラスタリング手段により更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、
を備えることを特徴とする関連語抽出装置。
【請求項3】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する関連語抽出装置であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、
検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、
検索ログ中のクリックログからデータベース中の検索語および関連語からクリックされたクリック先の情報を抽出し、抽出されたクリック先の情報に応じてデータベース中の関連語群をクラスタリングし、データベースを更新するクラスタリング手段と、
検索エンジンの要求に応じてクラスタリング手段により更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、
を備えることを特徴とする関連語抽出装置。
【請求項4】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する関連語抽出装置であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、
検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、
データベースに保存されたグループ内の各関連語からクリックされたクリック先の情報を検索ログ中のクリックログから抽出し、抽出されたクリック先の情報でグループ群をクラスタリングして統合し、データベースのレコードを更新するクラスタリング手段と、
検索エンジンの要求に応じてクラスタリング手段により更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、
を備えることを特徴とする関連語抽出装置。
【請求項5】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する装置の実行する関連語抽出方法であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、
検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、
検索エンジンの要求に応じてデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、
を有することを特徴とする関連語抽出方法。
【請求項6】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する装置の実行する関連語抽出方法であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、
検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、
データベースに保存されたグループ群をそれぞれのグループ内の各関連語の類似性でクラスタリングして各グループを統合し、データベースを更新するクラスタリングステップと、
検索エンジンの要求に応じてクラスタリングステップで更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、
を有することを特徴とする関連語抽出方法。
【請求項7】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する装置の実行する関連語抽出方法であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、
検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、
検索ログ中のクリックログからデータベース中の検索語および関連語からクリックされたクリック先の情報を抽出し、抽出されたクリック先の情報に応じてデータベース中の関連語群をクラスタリングし、データベースを更新するクラスタリングステップと、
検索エンジンの要求に応じてクラスタリングステップで更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、
を有することを特徴とする関連語抽出方法。
【請求項8】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する装置の実行する関連語抽出方法であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、
検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、
データベースに保存されたグループ内の各関連語からクリックされたクリック先の情報を検索ログ中のクリックログから抽出し、抽出されたクリック先の情報でグループ群をクラスタリングして統合し、データベースのレコードを更新するクラスタリングステップと
検索エンジンの要求に応じてクラスタリングステップで更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、
を有することを特徴とする関連語抽出方法。
【請求項9】
請求項1〜4記載の関連語抽出装置の各手段としてコンピュータを機能させる関連語抽出プログラム。
【請求項1】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する関連語抽出装置であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、
検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、
検索エンジンの要求に応じてデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、
を備えることを特徴とする関連語抽出装置。
【請求項2】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する関連語抽出装置であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、
検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、
データベースに保存されたグループ群をそれぞれのグループ内の各関連語の類似性でクラスタリングして各グループを統合し、データベースを更新するクラスタリング手段と、
検索エンジンの要求に応じてクラスタリング手段により更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、
を備えることを特徴とする関連語抽出装置。
【請求項3】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する関連語抽出装置であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、
検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、
検索ログ中のクリックログからデータベース中の検索語および関連語からクリックされたクリック先の情報を抽出し、抽出されたクリック先の情報に応じてデータベース中の関連語群をクラスタリングし、データベースを更新するクラスタリング手段と、
検索エンジンの要求に応じてクラスタリング手段により更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、
を備えることを特徴とする関連語抽出装置。
【請求項4】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する関連語抽出装置であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出手段と、
検出手段の検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出手段と、
データベースに保存されたグループ内の各関連語からクリックされたクリック先の情報を検索ログ中のクリックログから抽出し、抽出されたクリック先の情報でグループ群をクラスタリングして統合し、データベースのレコードを更新するクラスタリング手段と、
検索エンジンの要求に応じてクラスタリング手段により更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力手段と、
を備えることを特徴とする関連語抽出装置。
【請求項5】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する装置の実行する関連語抽出方法であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、
検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、
検索エンジンの要求に応じてデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、
を有することを特徴とする関連語抽出方法。
【請求項6】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する装置の実行する関連語抽出方法であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、
検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、
データベースに保存されたグループ群をそれぞれのグループ内の各関連語の類似性でクラスタリングして各グループを統合し、データベースを更新するクラスタリングステップと、
検索エンジンの要求に応じてクラスタリングステップで更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、
を有することを特徴とする関連語抽出方法。
【請求項7】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する装置の実行する関連語抽出方法であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、
検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、
検索ログ中のクリックログからデータベース中の検索語および関連語からクリックされたクリック先の情報を抽出し、抽出されたクリック先の情報に応じてデータベース中の関連語群をクラスタリングし、データベースを更新するクラスタリングステップと、
検索エンジンの要求に応じてクラスタリングステップで更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、
を有することを特徴とする関連語抽出方法。
【請求項8】
あらかじめ検索エンジンの検索ログに基づき検索語に関連する関連語を抽出し、検索エンジンの要求に応じてユーザ入力の検索語の関連語を返答する装置の実行する関連語抽出方法であって、
検索ログを任意の単位で解析し、該解析単位ごとに検索回数が閾値以上の割合で増加している検索語を検出する検出ステップと、
検出ステップで検出した検索語に関連する関連語群を検索ログから抽出し、抽出された関連語群を前記解析単位ごとにグループ化し、該グループ群を検索語と併せてデータベースに保存する関連語抽出ステップと、
データベースに保存されたグループ内の各関連語からクリックされたクリック先の情報を検索ログ中のクリックログから抽出し、抽出されたクリック先の情報でグループ群をクラスタリングして統合し、データベースのレコードを更新するクラスタリングステップと
検索エンジンの要求に応じてクラスタリングステップで更新されたデータベースからユーザ入力の検索語の関連語を重複無く順に選択し、選択された関連語群を検索エンジンに出力する関連語出力ステップと、
を有することを特徴とする関連語抽出方法。
【請求項9】
請求項1〜4記載の関連語抽出装置の各手段としてコンピュータを機能させる関連語抽出プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2012−164242(P2012−164242A)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願番号】特願2011−25579(P2011−25579)
【出願日】平成23年2月9日(2011.2.9)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願日】平成23年2月9日(2011.2.9)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]