説明

減少クエリを推薦する検索システムおよび検索方法

【課題】減少クエリを推薦する検索システムおよび検索方法を提供すること。
【解決手段】検索システムは、入力されたクエリから2以上の用語を抽出する用語抽出部と、抽出された用語それぞれの加重値を算出する加重値算出部と、算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する減少クエリ推薦部と、を備え、クエリは、クエリを介した検索結果が予め選定された数以下であるクエリを含むことを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、減少クエリを推薦する検索システムおよび検索方法に関する。
【背景技術】
【0002】
従来技術における検索方法は、統合検索や商品検索でクエリに対する検索結果がない場合、または少ない数の検索結果のみを含む場合が極めて多い。このような場合、クエリが極めて長いか、クエリが詳細過ぎて、クエリと関係のない付加語が含まれることが大部分である。例えば、商品検索として「正官庄(登録商標)レッドマックスプラス」や「フィリップス(登録商標)スチームアイロン2860」または「アビーノ(登録商標)デイリーモイスチャーボディウォッシュ(354ml)+ストレスリリーフバブルバース(295ml)」のようなクエリは、クエリが極めて長く、詳細過ぎる場合に該当する。また、「ベネトン(登録商標)ファーフォックスマフラー」や「アブソリュート宮の本来価格」または「セルフ前髪パーマ」などのようなクエリは付加語によって検索結果がないか、少ない数の検索結果のみを含む場合に該当する。その他にも、「ジュエリー名品時計タグホイヤー」や「ラコステ(登録商標)・ゴンユ短靴」または「輸入アズナブールフランスエトロヘアピン」などのようにカテゴリー名/ブランド名/製造会社名を羅列する形態のクエリに対しても検索結果がないか、少ない数の検索結果のみを含む場合が存在する。すなわち、適した類似の商品や検索結果が存在するにも関わらず、全てのクエリに含まれた用語に全てが適する商品や検索結果がないか不足している。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明は、より効果的に検索結果を提供することのできるシステムおよび検索方法を提供する。
【0004】
本発明の目的は、入力されたクエリに含まれた用語それぞれの加重値を算出し、加重値を基準にして少なくとも1つの用語を除去して減少クエリ(reduction query)を提供することによって、極めて長いクエリや検索結果が存在しないか、または検索結果の数が少ないクエリに対しても効果的に検索結果を提供することのできる検索システムおよび検索方法を提供する。
【0005】
本発明の目的は、形態素分析によって抽出された用語間の相互の情報量をクエリログを用いて算出し、相互の情報量を用いてクエリから効果的に用語を抽出することのできる検索システムおよび検索方法を提供する。
【0006】
本発明の目的は、各用語に対して文書上における重要性、正確にマッチングされるクエリログ上のクエリの数、部分的にマッチングされるクエリログ上のクエリの数、および正確にマッチングされるクエリの数と部分的にマッチングされるクエリの数との間の比率などを用いて各用語の加重値を算出することによって、クエリに適する用語を選択することのできる検索システムおよび検索方法を提供する。
【0007】
本発明の目的は、算出された加重値を用いて予め選定された順位以下の用語を除去し、残りの用語を用いて減少クエリを推薦できる検索システムおよび検索方法を提供する。
【課題を解決するための手段】
【0008】
本発明の一実施形態に係る検索システムは、入力されたクエリから2以上の用語を抽出する用語抽出部と、抽出された用語それぞれの加重値を算出する加重値算出部と、算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する減少クエリ推薦部と、を備えることを特徴とする。
【0009】
クエリは、クエリを介した検索結果が予め選定された数以下であるクエリを含んでもよい。
【0010】
用語抽出部は、クエリを形態素分析して複数の用語を抽出する形態素分析部と、クエリログを用いて複数の用語のうちクエリ内で互いに隣接した用語間の相互の情報量を算出し、相互の情報量が閾値以上である互いに隣接した用語を1つの用語として結合するウィークコンセプト抽出部と、を備えてもよい。
【0011】
相互の情報量は、クエリログで互いに隣接した用語がそれぞれ用いられた回数および互いに隣接した用語が共に用いられた回数を用いて算出されてもよい。
【0012】
加重値算出部は、抽出された用語それぞれに対して、全体文書の数および該当用語が含まれた文書の数に基づいて算出される第1加重値、クエリログに含まれたクエリの数、および該当用語とクエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第2加重値、クエリログに含まれたクエリの数と該当用語とクエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第3加重値、および第2加重値の第3加重値に対する比率に基づいて算出される第4加重値のうち少なくとも1つの加重値を用いて抽出された用語それぞれの加重値を算出してもよい。
【0013】
減少クエリ推薦部は、抽出された用語から加重値を基準にして予め選定された順位以下の用語を除去する用語除去部と、除去された用語を除いた残りの用語を用いて少なくとも1つの減少クエリを生成する減少クエリ生成部と、を備えてもよい。
【0014】
減少クエリ生成部は、加重値が最も高い用語をキー用語として選定し、キー用語と残りの用語のうち他の用語の組合に基づいて少なくとも1つの減少クエリを生成してもよい。
【0015】
検索システムは、少なくとも1つの減少クエリを用いてクエリを入力したユーザに検索結果を提供する検索結果提供部をさらに備えてもよい。
【0016】
検索結果提供部は、少なくとも1つの減少クエリおよび少なくとも減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリに対する検索結果をユーザに提供してもよい。
【0017】
検索結果提供部は、少なくとも1つの減少クエリのうち検索結果が最も多い減少クエリに対する検索結果をユーザに提供するか、または少なくとも1つの減少クエリに対する全ての検索結果をユーザに提供してもよい。
【0018】
クエリは、商品検索のためにユーザから入力されたクエリとして、クエリによって検索された商品が予め選定された数以下であるクエリを含んでもよい。
【0019】
本発明の一実施形態に係る検索方法は、入力されたクエリから2以上の用語を抽出し、抽出された用語それぞれの加重値を算出し、算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供することを特徴とする。
【発明の効果】
【0020】
本発明によると、入力されたクエリに含まれた用語それぞれの加重値を算出し、加重値を基準にして少なくとも1つの用語を除去して減少クエリを提供することによって、極めて長いクエリや検索結果が存在しないか、検索結果の数が少ないクエリに対しても効果的に検索結果を提供することができる。
【0021】
本発明によると、形態素分析によって抽出された用語間の相互の情報量をクエリログを用いて算出し、相互の情報量を用いてクエリから効果的に用語を抽出することができる。
【0022】
本発明によると、各用語に対して文書上における重要性、正確にマッチングされるクエリログ上のクエリの数、部分的にマッチングされるクエリログ上のクエリの数、および正確にマッチングされるクエリの数と部分的にマッチングされるクエリの数との間の比率などを用いて各用語の加重値を算出することによって、クエリに適する用語を選択することができる。
【0023】
本発明によると、算出された加重値を用いて予め選定された順位以下の用語を除去し、残りの用語を用いて減少クエリを推薦できる。
【図面の簡単な説明】
【0024】
【図1】本発明の一実施形態に係る商品検索で任意の用語をユーザ人気および商品の特殊性に応じて示すグラフである。
【図2】本発明の一実施形態に係るウィークコンセプト抽出のための相互の情報量の閾値を説明するグラフである。
【図3】本発明の一実施形態に係る入力されたクエリで抽出された用語と用語ごとに算出された加重値を示した図である。
【図4】本発明の一実施形態に係る減少クエリを生成する方法を説明する図である。
【図5】本発明の一実施形態に係る検索システムの内部構成を説明するブロック図である。
【図6】本発明の一実施形態に係る検索方法を示すフローチャートである。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態を添付する図面を参照しながら詳細に説明する。
【0026】
図1は、本発明の一実施形態に係る商品検索で任意の用語をユーザの人気および商品の特殊性に応じて示すグラフである。図1に示したグラフ100において、x軸は用語に対するユーザ人気を示し、y軸は商品の特殊性を示す。図1に示すグラフ100は、商品検索でクエリが極めて長いか詳細な場合やクエリと関係のない付加語が含まれた場合、ユーザ人気の低い用語と商品の特殊性が低い用語を除去することでクエリによって検索された商品や検索結果が存在しないか、検索された商品や検索結果の数が少ないときに検索品質が落ちる問題を解決できる。例えば、グラフ100において、クエリに含まれる用語のうち「230ml」や「21インチ」、「ジュエリー」、「輸入」、「有名人の名前」、および「価格比較」などは、商品検索においてユーザ人気や商品の特殊性またはユーザ人気および商品の特殊性の両方が低いため、検索された商品や検索結果の数が予め選定された数以下である場合にはクエリから除去されてもよい。この場合、「230ml」や「21インチ」は、ユーザがあまり使用しない用語であり、「輸入」、「有名人の名前」および「価格比較」は単一ショッピングのクエリになり難い付加語であり、「ジュエリー」は商品の特殊性が足りない用語でありそれぞれ除去されてもよい。
【0027】
一方、図1に示す領域110内の用語「アズナブール」、「エアマックス(登録商標)」、「50d」、「ジーンズ」、「ワンピース」は、ユーザの人気や商品の特殊性、またはユーザの人気および商品の特殊性の両方が高いため、減少クエリ(reduction query)を構成する用語として用いてもよい。
【0028】
まず、ユーザから入力されるクエリで前述した用語を抽出するため、本実施形態に係る検索システムは、クエリを形態素分析によって形態素ごとに用語を抽出する。その後、用語間の相互の情報量を用いて必要に応じて互いに隣接した用語を結合してもよい。例えば、クエリの「輸入アズナブールフランスエトロヘアピン」を形態素分析する場合、「輸入」、「アズナ」、「ブール」、「フランス」、「エトロ」、「ヘア」、「ピン」のような用語が抽出される。しかし、用語の「アズナ」と「ブール」そして「ヘア」や「ピン」のような単語はそれぞれの用語に分離する場合、クエリの意図が曖昧になる。したがって、この場合には「アズナブール」および「ヘアピン」のように結合された場合がクエリの意図にさらに近いこともある。他の例として、「アビーノ(登録商標)」、「デイリー」、「モイスチャー」、「ボディ」、「ウォッシュ」の「ボディ/ウォッシュ」や、「フィリップス(登録商標)」、「スチーム」、「アイロン」、「2860」の「スチーム」、「アイロン」は、それぞれの用語に分離するより結合されることがクエリの意図にさらに近い。また、「バーバリー」、「トレンチ」、「コート」の「トレンチ」、「コート」などはそれぞれの用語に分離するより結合されることがクエリの意図にさらに近い。したがって、検索システムは、前述したように、「ボディ」、「ウォッシュ」、「スチーム」、「アイロン」、および「トレンチ」、「コート」をそれぞれ1つの用語「ボディウォッシュ」、「スチームアイロン」および「トレンチコート」に結合して用いる。
【0029】
このため、検索システムは、形態素分析によって抽出された用語のうち互いに隣接した用語に対して相互の情報量を算出する。例えば、相互の情報量は下記の数式(1)のように算出する。
【0030】
【数1】

・・・(1)
【0031】
ここで、「MI」は相互の情報量であり、「x」および「y」は互いに隣接した用語である。また、「n(x、y)」はクエリログで「x」および「y」が1つのクエリに含まれた場合の数であり、「n(x)」はクエリログで「x」が含まれたクエリの数であり、「n(y)」はクエリログで「y」が含まれたクエリの数である。また、「T」はクエリログで用語出現の全体の数である。
【0032】
このように、検索システムは互いに隣接した用語間の相互の情報量を算出した後、相互の情報量に対する閾値を用いて結合する用語のウィークコンセプト(weak concept)を抽出してもよい。このとき、ウィークコンセプトを抽出するための閾値は下記の数式(2)のように定義される。
【0033】
【数2】

・・・(2)
【0034】
ここで、「p(weakconcept=1|x、y)」は用語「x」、「y」がウィークコンセプトである確率、「p(weakconcept=0|x、y)」は用語「x」、「y」がウィークコンセプトではない確率である。
【0035】
図2は、本発明の一実施形態に係るウィークコンセプトを抽出するための相互の情報量の閾値を説明するグラフである。グラフ200において、x軸は相互の情報量の値を示し、y軸は比率を示す。より詳しくは、用語「x」、「y」に対する相互の情報量の値を区間ごとにヒストグラムに表すと、前述した「p(weakconcept=1|x、y)」と「p(weakconcept=0|x、y)」の頻度を確認することができ、このような頻度を比率として示してもよい。このとき、第1折れ線210は「p(weakconcept=1|x、y)」を示し、第2折れ線220は「p(weakconcept=0|x、y)」を示す。すなわち、グラフ200は相互の情報量の値が1.0に近いほど用語「x」、「y」がウィークコンセプトである確率の増加を示す。
【0036】
数式2を参照すると、「p(weakconcept=1|x、y)/p(weakconcept=0|x、y)」の値が1.0よりも大きいということは、グラフ200で第1折れ線210と第2折れ線220が交差する地点である。このときの相互の情報量区間を閾値に定義し、閾値以上の相互の情報量を有する用語「x」、「y」をウィークコンセプトとして抽出してもよい。この場合、閾値が極めて大きければ、ウィークコンセプトの抽出再現率(カバレッジ)は落ち、極めて小さければ、ウィークコンセプトの抽出正確率は落ちることがある。
【0037】
図3は、本発明の一実施形態に係る入力されたクエリから抽出された用語と用語ごとに算出された加重値を示す図である。加重値300は、クエリである「輸入アズナブールフランスエトロヘアピン」から図1を参照して説明した方法のように、「輸入」、「アズナブール」、「フランス」、「エトロ」、および「ヘアピン」を抽出した後、それぞれの用語に対して算出された加重値を示す。ここで、「加重値」はそれぞれの用語に対して検索の重要性を数値化し、除去する用語を選択するための基準として用いる。これによって、図3に示す加重値は説明の理解のための一例に過ぎず、本実施形態における「加重値」が図3に示す一例に限定されることはない。例えば、後述する第1加重値〜第4加重値の全てを用いてもよいが、第1加重値〜第4加重値のうち少なくとも1つの加重値を用いてもよい。また、第1加重値〜第4加重値ではない他の用語の重要性が数値化された加重値を用いてもよい。
【0038】
加重値300において「termNo」は用語を識別するために任意に付加した識別子であり、「term」は抽出されたそれぞれの用語である。
【0039】
「IDF(inverted document frequency)」は、文書で特定用語の露出頻度を用いて算出される第1加重値として、下記の数式(3)のように算出される。
【0040】
【数3】

・・・(3)
【0041】
ここで、「t」は該当用語であり、「n」は該当する全体文書の数である。また、「df」は用語「t」が含まれた文書の数であり、すなわち、用語「t」を含む文書の頻度である。また、「k」は変数であって、一例として、数字2のように予め設定された定数が代入される。
【0042】
「QE(Query Exactly match)」は、該当用語とクエリログに含まれたクエリが正確にマッチングされる数を用いて算出される第2加重値として、下記の数式(4)のように算出される。
【0043】
【数4】

・・・(4)
【0044】
ここで、「QE」は用語「t」に対する「QE」であり、「eqf」は該当用語「t」とクエリログに含まれたクエリが正確にマッチングされる数であり、「t」はクエリログに含まれた全体クエリの数である。このとき、「正確にマッチングされる」ことは該当用語がクエリとして入力された場合である。
【0045】
「QP(Query Partially match)」は、該当用語とクエリログに含まれたクエリが部分的にマッチングされる数を用いて算出される第3加重値として、下記の数式(5)のように算出される。
【0046】
【数5】

・・・(5)
【0047】
ここで、「QP」は用語「t」に対する「QP」であり、「pqf」は該当用語「t」とクエリログに含まれたクエリが部分的にマッチングされる数であり、「t」はクエリログに含まれた全体クエリの数である。このとき、「部分的にマッチングされる」とは該当用語がクエリに含まれた場合をいう。
【0048】
「QE/QP ratio」とは「QE」と「QP」の比率を用いて算出される第4加重値として、下記の数式(6)のように算出される。
【0049】
【数6】

・・・(6)
【0050】
ここで、「QEQP」は、用語「t」に対する「QE/QP ratio」である。
【0051】
「weight」は、用語に付与される最終加重値であり、第1加重値〜第4加重値のうち少なくとも1つの加重値を用いて算出される。図3の一例として、最終加重値は下記の数式(7)のように算出される。
【0052】
【数7】

・・・(7)
【0053】
ここで、「weight」は用語「t」の最終加重値であり、「a」、「b」、「c」および「d」は予め決定された値であり、それぞれ第1加重値〜第4加重値に対する加重値である。すなわち、図3の一例として、第1加重値〜第4加重値の加重和として最終加重値「weight」が算出される。
【0054】
検索システムは用語それぞれの加重値が算出されると、図4に示すように、算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する。
【0055】
図4は、本発明の一実施形態に係る減少クエリを生成する方法を説明する図である。図4において、数字が記載された四角ボックスそれぞれは1つの用語を意味し、四角ボックスの中の数字は該当用語の加重値を意味する。
【0056】
第1ステップは用語の加重値を算出するステップであり、第1点線ボックス410は任意のクエリから抽出された6個の用語および該当用語の算出された加重値を示す。
【0057】
第2ステップは、加重値を基準にして用語を整列するステップであり、第2点線ボックス420は前述した6個の用語が加重値を基準にして整列した場合を示す。
【0058】
第3ステップは予め選定された順位(図4では5位)以下の用語を除去するステップであり、第3点線ボックス430は2つの用語が除去された場合を示す。図4で除去された用語に該当する四角ボックスは点線で表示した。
【0059】
第4ステップは加重値が最も高い用語をキー用語として選定するステップであり、第4点線ボックス440は加重値が「1.0」の用語をキー用語として選定された場合を示す。
【0060】
第5ステップはキー用語と残り3つの候補用語として減少クエリを推薦するステップであり、第5点線ボックス450は加重値が「0.5」の用語、加重値が「0.7」の用語、および加重値が「0.9」の用語を順に除去し、残りの用語の組合せで減少クエリを生成する場合を示す。
【0061】
例えば、クエリである「輸入アズナブールフランスエトロヘアピン」に対して、用語「輸入」および「フランス」が削除された減少クエリ「アズナブールエトロヘアピン」、用語「フランス」および「エトロ」が削除された異なる減少クエリ「輸入アズナブールヘアピン」を推薦してもよい。商品検索または統合検索などからこのような用語減少の効果は、検索された商品の数または検索結果の増加のように表してもよい。
【0062】
図5は、本発明の一実施形態に係る検索システムの内部構成を説明するブロック図である。図5に示すように、本実施形態に係る検索システム500は、用語抽出部510、加重値算出部520、減少クエリ推薦部530、および検索結果提供部540を備える。ここで、検索結果提供部540は必要に応じて含んでもよい。例えば、検索システム500は減少クエリを提供し、他のシステムから提供される減少クエリをユーザに提供したり、減少クエリによる検索結果をユーザに提供したりしてもよい。
【0063】
用語抽出部510は入力されたクエリから2以上の用語を抽出する。ここで、クエリは、クエリを介した検索結果が予め選定された数以下のクエリを対象にしてもよい。他の例として、クエリは商品検索のためにユーザから入力されたクエリとして、クエリによって検索された商品が予め選定された数以下のクエリを対象にしてもよい。このとき、用語抽出部510は単純に形態素分析によって用語を抽出することなく、前述したように、ウィークコンセプト抽出によって相互の情報量が閾値以上の互いに隣接した用語を結合して1つの用語として抽出してもよい。このため、図5に示すように、用語抽出部510は、クエリを形態素分析して複数の用語を抽出する形態素分析部511およびクエリログを用いて複数の用語のうちクエリ内で互いに隣接した用語間の相互の情報量を算出し、相互の情報量が閾値以上である互いに隣接した用語を1つの用語として結合するウィークコンセプト抽出部512を備える。
【0064】
加重値算出部520は抽出された用語それぞれの加重値を算出する。この場合、加重値算出部520は抽出された用語それぞれに対して、全体文書の数および該当用語が含まれた文書の数に基づいて算出される第1加重値、クエリログに含まれたクエリの数および該当用語とクエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第2加重値、クエリログに含まれたクエリの数と該当用語とクエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第3加重値、および第2加重値の第3加重値に対する比率に基づいて算出される第4加重値のうち少なくとも1つの加重値を用いて抽出された用語それぞれの加重値を算出する。
【0065】
減少クエリ推薦部530は、算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する。すなわち、減少クエリ推薦部530は加重値が低い一定数の用語を除去し、残りの用語の組合せを用いて減少クエリを提供する。
【0066】
このため、減少クエリ推薦部530は、抽出された用語から加重値を基準にして予め選定された順位以下の用語を除去する用語除去部531、および除去された用語を除いた残りの用語を用いて少なくとも1つの減少クエリを生成する減少クエリ生成部532を備える。この場合、減少クエリ生成部532は加重値が最も高い用語をキー用語として選定し、キー用語と残りの用語のうち他の用語の組合せに基づいて少なくとも1つの減少クエリを生成する。
【0067】
検索結果提供部540は、少なくとも1つの減少クエリを用いてクエリを入力したユーザに検索結果を提供する。一例として、検索結果提供部540は、少なくとも1つの減少クエリおよび少なくとも1つの減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリに対する検索結果をユーザに提供する。例えば、第1減少クエリの検索結果が5個であり、第2減少クエリの検索結果が40個、第3減少クエリの検索結果が50個である場合、検索結果提供部540は「第1減少クエリ:5個、第2減少クエリ:40個、第3減少クエリ:50個」のように、減少クエリおよび減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリの検索結果をユーザに提供する。
【0068】
他の例として、検索結果提供部540は、少なくとも1つの減少クエリのうち検索結果が最も多い減少クエリに対する検索結果をユーザに提供したり、または、少なくとも1つの減少クエリに対する全ての検索結果をユーザに提供したりしてもよい。すなわち、前述した例で、検索結果提供部540は、最も多い検索結果を有する減少クエリの第3減少クエリに対する検索結果50個をユーザに提供したり、全ての検索結果95個をユーザに提供したりしてもよい。この場合、重複する検索結果は除去されて提供される。
【0069】
図5で省略された内容は図1〜図4を参照してもよい。
【0070】
図6は、本発明の一実施形態に係る検索方法を示すフローチャートである。本実施形態に係る検索方法は、図5を参照して説明した検索システム500によって行われてもよい。図6では検索システム500によって各ステップが行われる過程を説明することで検索方法について説明する。この場合、必要に応じてステップS640を含んでもよい。例えば、ステップS640は、検索システム500に関連する異なるシステムによって行われる。
【0071】
図6を参照すると、ステップS610において、検索システム500は入力されたクエリから2以上の用語を抽出する。ここで、クエリは、クエリを介した検索結果が予め選定された数以下のクエリを対象にしてもよい。他の例として、クエリは商品検索のためにユーザから入力されたクエリとして、クエリによって検索された商品が予め選定された数以下のクエリを対象にしてもよい。このとき、図5に示した検索システム500は、単に形態素分析によって用語を抽出することなく、既に前述したように、ウィークコンセプト抽出によって相互の情報量が閾値以上の互いに隣接した用語を結合して1つの用語として抽出してもよい。このために、検索システム500は、ステップS610にクエリを形態素分析して複数の用語を抽出するステップ(図示せず)およびクエリログを用いて複数の用語のうちクエリ内で互いに隣接した用語間の相互の情報量を算出し、相互の情報量が閾値以上である、互いに隣接した用語を1つの用語として結合するウィークコンセプト抽出部(図示せず)を備えて行ってもよい。
【0072】
次に、ステップS620において、検索システム500は抽出された用語それぞれの加重値を算出する。この場合、検索システム500は抽出された用語それぞれに対して、全体文書の数および該当用語を含む文書の数に基づいて算出される第1加重値、クエリログに含まれたクエリの数および該当用語とクエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第2加重値、クエリログに含まれたクエリの数と該当用語とクエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第3加重値、および第2加重値の第3加重値に対する比率に基づいて算出される第4加重値のうち少なくとも1つの加重値を用いて抽出された用語それぞれの加重値を算出する。
【0073】
次に、ステップS630において、検索システム500は算出された加重値を基準にして抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する。すなわち、検索システム500は加重値が低い一定数の用語を除去し、残りの用語の組合せを用いて減少クエリを提供する。
【0074】
このため、検索システム500は、抽出された用語から加重値を基準にして予め選定された順位以下の用語を除去するステップ(図示せず)および除去された用語を除いた残りの用語を用いて少なくとも1つの減少クエリを生成するステップ(図示せず)を含む。この場合、検索システム500は加重値が最も高い用語をキー用語として選定し、キー用語と残りの用語のうち他の用語の組合に基づいて少なくとも1つの減少クエリを生成する。
【0075】
次に、ステップS640において、検索システム500は、少なくとも1つの減少クエリを用いてクエリを入力したユーザに検索結果を提供する。一例として、検索システム500は、少なくとも1つの減少クエリおよび少なくとも1つの減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリに対する検索結果をユーザに提供する。例えば、第1減少クエリの検索結果が5個であり、第2減少クエリの検索結果が40個、第3減少クエリの検索結果が50個である場合、検索システム500は「第1減少クエリ:5個、第2減少クエリ:40個、第3減少クエリ:50個」のように、減少クエリおよび減少クエリそれぞれに係る検索結果の数をユーザに提供し、ユーザから選択された減少クエリの検索結果をユーザに提供する。
【0076】
他の例として、検索システム500は、少なくとも1つの減少クエリのうち検索結果が最も多い減少クエリに対する検索結果をユーザに提供したり、または、少なくとも1つの減少クエリに対する全ての検索結果をユーザに提供したりする。すなわち、前述した例で、検索システム500は、最も多い検索結果を有する減少クエリの第3減少クエリに対する検索結果50個をユーザに提供したり全ての検索結果95個をユーザに提供したりする。この場合、重複する検索結果は除去されて提供される。
【0077】
図6で省略された内容は図1〜図4を参照してもよい。
【0078】
このように、本発明の実施形態に係るシステムおよび方法を用いると、入力されたクエリに含まれた用語それぞれの加重値を算出し、加重値を基準にして少なくとも1つの用語を除去して減少クエリを提供することで極めて長いクエリや検索結果が存在しないか検索結果の数が少ないクエリに対しても効果的に検索結果を提供することができる。このとき、形態素分析によって抽出された用語間の相互の情報量をクエリログを用いて算出し、相互の情報量を用いてクエリから効果的に用語を抽出してもよく、各用語に対して文書上の重要性、正確にマッチングされるクエリログ上のクエリの数、部分的にマッチングされるクエリログ上のクエリの数、および正確にマッチングされるクエリの数と部分的にマッチングされるクエリの数との間の比率などを用いて各用語の加重値を算出することによって、クエリに適する用語を選択することができる。また、算出された加重値を用いて予め選定された順位以下の用語を除去し、残りの用語を用いて減少クエリを推薦できる。
【0079】
本発明の実施形態に係る検索方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などの単独または組み合わせたものを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フレキシブルディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含んでもよい。プログラム命令の例としては、コンパイラによって生成されるような機械コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成されてもよい。
【0080】
上述したように本発明を限定された実施形態と図面とによって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形をすることが可能である。
【0081】
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められる。
【符号の説明】
【0082】
500 検索システム
510 用語抽出部
520 加重値算出部
530 減少クエリ推薦部
540 検索結果提供部

【特許請求の範囲】
【請求項1】
入力されたクエリから2以上の用語を抽出する用語抽出部と、
前記抽出された用語それぞれの加重値を算出する加重値算出部と、
前記算出された加重値を基準にして前記抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供する減少クエリ推薦部と、
を備えることを特徴とする検索システム。
【請求項2】
前記クエリは、前記クエリを介した検索結果が予め選定された数以下であるクエリを含むことを特徴とする請求項1に記載の検索システム。
【請求項3】
前記用語抽出部は、
前記クエリを形態素分析して複数の用語を抽出する形態素分析部と、
クエリログを用いて前記複数の用語のうち前記クエリ内で互いに隣接した用語間の相互の情報量を算出し、前記相互の情報量が閾値以上である互いに隣接した用語を1つの用語として結合するウィークコンセプト抽出部と、
を備えることを特徴とする請求項1または2に記載の検索システム。
【請求項4】
前記相互の情報量は、
前記クエリログで前記互いに隣接した用語がそれぞれ用いられた回数および前記互いに隣接した用語が共に用いられた回数を用いて算出されることを特徴とする請求項3に記載の検索システム。
【請求項5】
前記加重値算出部は、
前記抽出された用語それぞれに対して、全体文書の数および該当用語が含まれた文書の数に基づいて算出される第1加重値、クエリログに含まれたクエリの数、および該当用語と前記クエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第2加重値、前記クエリログに含まれたクエリの数と該当用語と前記クエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第3加重値、および前記第2加重値の前記第3加重値に対する比率に基づいて算出される第4加重値のうち少なくとも1つの加重値を用いて前記抽出された用語それぞれの加重値を算出することを特徴とする請求項1〜4のいずれか1項に記載の検索システム。
【請求項6】
前記減少クエリ推薦部は、
前記抽出された用語から前記加重値を基準にして予め選定された順位以下の用語を除去する用語除去部と、
前記除去された用語を除いた残りの用語を用いて前記少なくとも1つの減少クエリを生成する減少クエリ生成部と、
を備えることを特徴とする請求項1〜5のいずれか1項に記載の検索システム。
【請求項7】
前記減少クエリ生成部は、
前記加重値が最も高い用語をキー用語として選定し、キー用語と前記残りの用語のうち他の用語の組合に基づいて前記少なくとも1つの減少クエリを生成することを特徴とする請求項6に記載の検索システム。
【請求項8】
前記少なくとも1つの減少クエリを用いて前記クエリを入力したユーザに検索結果を提供する検索結果提供部をさらに備えることを特徴とする請求項1〜7のいずれか1項に記載の検索システム。
【請求項9】
前記検索結果提供部は、
前記少なくとも1つの減少クエリによる検索結果を前記ユーザに提供することを特徴とする請求項8に記載の検索システム。
【請求項10】
前記クエリは商品検索のためにユーザから入力されたクエリとして、前記クエリによって検索された商品が予め選定された数以下であるクエリを含むことを特徴とする請求項1〜9のいずれか1項に記載の検索システム。
【請求項11】
入力されたクエリから2以上の用語を抽出し、
前記抽出された用語それぞれの加重値を算出し、
前記算出された加重値を基準にして前記抽出された用語のうち少なくとも1つの用語を除去し、残りの用語を用いて少なくとも1つの減少クエリを提供することを特徴とする検索方法。
【請求項12】
前記クエリは、前記クエリを介した検索結果が予め選定された数以下であるクエリを含むことを特徴とする請求項11に記載の検索方法。
【請求項13】
前記入力されたクエリから2以上の用語を抽出することは、
前記クエリを形態素分析して複数の用語を抽出し、
クエリログを用いて前記複数の用語のうち前記クエリ内で互いに隣接した用語間の相互の情報量を算出し、前記相互の情報量が閾値以上である互いに隣接した用語を1つの用語として結合することを特徴とする請求項11または12に記載の検索方法。
【請求項14】
前記抽出された用語それぞれの加重値を算出することは、
前記抽出された用語それぞれに対して、全体文書の数および該当用語が含まれた文書の数に基づいて算出される第1加重値、クエリログに含まれたクエリの数および該当用語と前記クエリログに含まれたクエリが正確にマッチングされる数に基づいて算出される第2加重値、前記クエリログに含まれたクエリの数と該当用語と前記クエリログに含まれたクエリが部分的にマッチングされる数に基づいて算出される第3加重値、および前記第2加重値の前記第3加重値に対する比率に基づいて算出される第4加重値のうち少なくとも1つの加重値を用いて前記抽出された用語それぞれの加重値を算出することを特徴とする請求項11〜13のいずれか1項に記載の検索方法。
【請求項15】
前記少なくとも1つの減少クエリを提供することは、
前記抽出された用語から前記加重値を基準にして予め選定された順位以下の用語を除去し、
前記除去された用語を除いた残りの用語を用いて前記少なくとも1つの減少クエリを生成することを特徴とする請求項11〜14のいずれか1項に記載の検索方法。
【請求項16】
前記少なくとも1つの減少クエリを用いて前記クエリを入力したユーザに検索結果を提供することを特徴とする請求項11〜15のいずれか1項に記載の検索方法。
【請求項17】
請求項11〜16のいずれか1項の方法を行うプログラムを記録したコンピュータで読み出し可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−133785(P2012−133785A)
【公開日】平成24年7月12日(2012.7.12)
【国際特許分類】
【出願番号】特願2011−279933(P2011−279933)
【出願日】平成23年12月21日(2011.12.21)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)