説明

多数のクエリー修正モデルの統合

【課題】ユーザクエリーを修正するためのシステムアーキテクチャを提供する。
【解決手段】情報検索システム100は、ユーザから最初のクエリーを受信し、これに対応する複数の修正クエリーを生成する。最初のクエリーと修正クエリーとからなる複数のクエリ対のそれぞれについて、発生頻度を計算する。各クエリー対の発生頻度とは1以上のユーザーセッションにおける最初のクエリーの発生回数に対する修正クエリーの発生回数の比である。複数のクエリー対の各クエリー対毎に、品質得点の改善分を計算する。品質得点の改善分は、該クエリー対内の前記最初のクエリーに関するクリック行動データに対比して、該クエリー対内の前記修正クエリーに関するクリック行動データから引き出される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、情報検索システムに関し、より詳細には、ユーザークエリーを修正するためのシステムアーキテクチャに関する。
【0002】
関連出願の相互参照
本出願は以下に関連し、それぞれを引用して本明細書に組み込む。
・2003年9月22日出願の米国特許出願第10/668,721号、発明の名称「検索クエリー絞り込みを提供するためのシステムおよび方法」。
・2003年9月30日出願の米国特許出願第10/676,571号、発明の名称「関連ワードのクラスタに基づいて文書を特徴付けるための方法および装置」。
・2003年12月15日出願の米国特許出願第10/734,584号、発明の名称「大規模マシン学習システムおよび方法」。
・2004年6月28日出願の米国特許出願第10/878,926号、発明の名称「相互作用プロファイルを導出し、使用するためのシステムおよび方法」。
・2004年7月26日出願の米国特許出願第10/900,021号、発明の名称「情報検索システムにおけるフレーズ識別」。
・2005年3月28日出願の米国特許出願第11/xxx,xxx号、発明の名称「重要性が希薄なクエリー用語の決定」。
・2005年3月30日出願の米国特許出願第11/xxx,xxx号、発明の名称「クエリー文脈内のクエリー用語の類語決定」。および、
・米国特許第6,285,999号。
【背景技術】
【0003】
インターネット検索エンジンにより具体化されているような情報検索システムは、一般に、ユーザークエリーに概ね関連する文書を迅速に提供できる。検索エンジンは、文書間および用語間の結び付きと併せて、用語および文書の出現頻度に各種統計的尺度を用いて、クエリーに対する文書の関連性を決定できる。大部分の検索エンジン設計の基底をなす主要な技術的仮定は、ユーザークエリーが、ユーザが所望する情報目標を正確に表しているということである。
【0004】
現実には、ユーザが有効なクエリーを考えるのは困難なのが普通である。単一のクエリーでは所望の結果をもたらさないことが多いので、ユーザは、同一の話題について幾つかの異なるクエリーを入力することが多い。これら多数のクエリーは、クエリー用語や推測企業名の範囲または特異性の変形、ワード順序やワード数の変形等を含むのが普通である。クエリーをうまく修正するよう幅広く変化させる能力を有している様々なユーザ達がいるので、クエリー修正を自動化した各種の方法がこれまでに提案されている。
【0005】
ごく普通には、クエリー絞り込みを通じて、より一般的なクエリーから、より正確な(すなわちより狭い)クエリーを自動生成する。その上位検索結果がユーザの情報必要性に関連する文書の上位セット(上位集合)を含む、範囲が広すぎるクエリーをユーザが入力する場合、クエリー絞り込み法は最も有効である。例えば、三菱ギャラン自動車に関する情報を求めるユーザが、自動車会社だけでなく多くの異なる三菱企業を検索結果が含む広すぎるクエリー「三菱」を、入力するかもしれない。従って、クエリーを絞り込みすることが望ましい(ユーザの特定情報の必要性を決定するのは、追加文脈欠如によりここでは困難であるが)。
【0006】
しかし、正しい修正法がクエリー範囲を広げる場合において具体的過ぎるクエリーをユーザが入力する場合、または上位結果がユーザの情報必要性に無関連である場合は、クエリー絞り込み法は有効ではない。例えば、クエリー「三菱ギャラン情報」は、用語「情報」のために貧弱な結果をもたらすかもしれない(この場合には、三菱ギャラン自動車についての結果はほとんどない)。この場合、正しい修正はクエリー範囲を「三菱ギャラン」へ広げることである。従って、クエリー絞り込み法は幾つかの状況では作用するが、他のクエリー修正技法を用いることにより、ユーザの情報必要性が最も満たされる状況が、非常に多く存在する。
【0007】
別のクエリー修正戦略は、類義語リストつまりシソーラスを用いてクエリーを拡張し、ユーザの潜在的情報必要性を取得することである。しかし、クエリー絞り込み法と同様に、クエリー拡張法が、常にクエリー修正の適切な方法であるとは限らず、結果の品質はクエリー用語の文脈に大きく依存する。
【0008】
一つのクエリー修正技法だけでは、あらゆる事例で所望する結果を提供できないので、幾つかの異なるクエリー修正方法(つまり戦略)を提供する方法論を持つことが望ましい。
【発明の概要】
【0009】
情報検索システムは、自己のクエリー修正戦略をそれぞれが実施する幾つかの異なるクエリー修正手段を提供する、クエリー修正アーキテクチャを含む。それぞれのクエリー修正手段は、ユーザクエリーを評価して、ユーザクエリーの一つ以上の潜在的修正クエリーを決定する。修正サーバは、クエリー修正手段と相互交流して潜在的修正クエリーを得る。修正サーバは、情報検索システム内の検索エンジンとも相互交流して、潜在的修正クエリー毎に一組の検索結果を得る。修正サーバは、ユーザへ提示するために修正クエリーの内の一つ以上を選定し、選定した修正クエリー毎に検索結果のサブセットを添える。従って、ユーザは修正クエリーに対する検索結果の品質を観察でき、修正クエリーの内の一つを選択して、その修正クエリーに対する検索結果の全セットを得ることができる。
【0010】
次に、各種の図、ダイヤグラム、および技術情報と関連させて本発明を説明する。図は、本発明の多様な実施の形態を、説明だけを目的として示す。当該分野の技術者には言うまでもなく、以下の説明から、図示し、かつ説明する構造、方法、および機能の代替の実施の形態は、本発明の原理から逸脱することなく利用できる。
【図面の簡単な説明】
【0011】
【図1a】クエリー修正を提供する情報検索システムの実施の形態の全体システム図である。
【0012】
【図1b】代替の情報検索システムの全体システム図である。
【0013】
【図2】元のユーザクエリーへのサンプル結果ページの図である。
【0014】
【図3】サンプルの修正クエリーページの図である。
【発明を実施するための形態】
【0015】
システム概観
【0016】
図1aは、本発明の一実施の形態によるシステム100を示す。システム100は、フロントエンドサーバ102、検索エンジン104ならびに関係するコンテンツサーバ106、修正サーバ107、および幾つかのクエリー修正手段(reviser: リバイザ)108を備える。動作中は、ユーザが、ネットワーク(不図示のインターネット等)上の任意の種類のクライアントコンピュータ装置上で動作する、例えば、インターネット関連プロトコル(例えばTCP/IPおよびHTTP)で通信するよう適合しているブラウザーアプリケーションまたは他のアプリケーションを実行する従来型クライアント118を経由して、システム100にアクセスする。単一のクライアント118を示しているが、システム100は、多くのクライアントに対して大量の同時セッションをサポートできる。一実施の形態では、システム100は、高性能サーバークラスコンピュータ上で動作し、クライアント装置118は任意の種類のコンピュータ装置でよい。サーバおよびクライアントコンピュータのハードウエア面についての詳細は、当該分野の技術者には周知であり、本明細書ではこれ以上言及しない。
【0017】
フロントエンドサーバ102は、クライアント118が提出した検索クエリーの受信に関与する。フロントエンドサーバ102はそのクエリーを検索エンジン104へ提供し、検索エンジンはクエリーを評価して、一セットの検索結果を検索クエリーにより検索し、その結果をフロントエンドサーバ102へ返す。検索エンジン104は、コンテンツサーバ106の内の一台以上と通信して、ユーザの検索クエリーと関連する複数の文書を選定する。コンテンツサーバ106は、異なるウェブサイトからインデックスされる(および/または検索される)大量の文書を格納する。代替としてまたは追加して、コンテンツサーバ106は、各種のウェブサイト上に格納される文書のインデックスを格納する。「文書」は、本明細書では、任意のテキスト形式または画像形式のテキスト文書、画像、ビデオ、オーディオ、マルチメディア、プレゼンテーション、ウェブページ(組込み型ハイパーリンクおよび他のメタデータ、および/またはプログラム、例えばJava(登録商標)スクリプト、を含めることができる)等を含む、任意の形式のインデックス可能なコンテンツであると理解される。一実施の形態では、インデックスされる各文書は、文書のリンク構造によるページランクを割り当てられる。ページランクは、クエリーとは無関係の、文書の重要性尺度として機能する。ページランクの例示の形式は、引用して本明細書に組み込まれた、米国特許第6,285,999号に記載されている。検索エンジン104は、文書のページランク(および/または他のクエリーと無関係な、文書の重要性尺度)に基づく各文書の得点、および文書の重要性のクエリーと関係する一つ以上の信号(例えば、文書内の検索用語の場所および頻度)を割り当てる。
【0018】
フロントエンドサーバ102は、修正サーバ107にもクエリーを提供する。修正サーバ107は、複数の異なるクエリー修正手段108とインターフェース(相互交流)し、該クエリー修正手段108の各々は、異なるクエリー修正戦略(修正計画又は修正手法)または一組のクエリー修正戦略(修正計画又は修正手法)を実行する。一実施の形態では、該クエリー修正手段108として、拡張型修正手段108.1、構文(syntax)型修正手段108.2、絞り込み型修正手段108.3、およびセッション基準型修正手段108.4などが含まれる。修正サーバ107は、クエリーを各修正手段108へ提供し、各修正手段108からの応答内で、一つ以上の潜在的修正クエリー(ここで「潜在的」と呼ぶのは、この時点では修正サーバ107がまだその修正クエリーを採用していないから)を得る。システムアーキテクチャは、任意の数の異なるクエリー修正手段108を用いることができ、低性能のクエリー修正手段108については削除し、新規クエリー修正手段108(ジェネリック修正手段108.nで示す)に対しては将来要望されるとして追加することができるよう、特別に設計されている。これはシステム100に特別なフレキシビリティを与え、特定の主題の分野(例えば、医薬品、法律等の分野で用いるための修正手段)、企業(内部情報検索システムのための、特定ビジネス分野または企業領域に特有の修正手段)、または異なる言語(例えば、特定言語および方言のための修正手段)に対して、カスタム化し適合することもできる。
【0019】
好ましくは、その修正が良好な修正である確率、すなわち、元のクエリーよりユーザの情報必要性に一層深く関連する結果を生成する確率、を表す信頼性尺度と、それぞれの修正クエリーが関係していることである。従って、それぞれの潜在的修正クエリーは、タプル(組)(Ri、Ci)で表すことができ、ここでRは潜在的修正クエリー、Cは修正クエリーと関係する信頼性尺度である。一実施の形態では、これらの信頼性尺度は、各修正手段108の各修正戦略について予め手動で評価する。尺度は、試験中のサンプルクエリーおよび修正クエリーの結果解析から導出できる。例えば、絞り込み型修正手段108.3には、元の短いクエリー(例えば、3つ以下の用語)からの修正クエリーへ高い信頼性尺度を、元の長いクエリー(4つ以上の用語)からの修正クエリーへ低い信頼性尺度を割り当てることができる。これらの割り当ては、短いクエリーへの用語追加が、基底となる情報の必要性に対するクエリーの関連性を著しく改良する傾向がある(すなわち、短いクエリーは範囲が広くなりやすいので、そのようなクエリーの絞り込みは、より狭く、より関連のある結果セットに絞りやすい)ことを示す経験的評価に基づく。逆に、拡張型修正手段108.1は、長いクエリーから一つ以上の用語を削除するか、または長いクエリーへ類義語を追加した修正クエリーに、高い信頼性尺度を割り当てることができる。他の実施の形態では、一つ以上の修正手段108が、潜在的修正クエリーの内の一つ以上に対して、信頼性尺度を動的に(例えば、実行時間に)生成できる。このような実施の形態は、図1bと併せて詳細に後述する。信頼性尺度の割り当ては、他の構成体(例えば、修正サーバ107)により実行でき、クエリー関係データおよびクエリー無関係データをともに考慮することができる。
【0020】
修正サーバ107は、前記潜在的修正クエリーの内の一つ以上(または全て)からなる該潜在的修正クエリーのサブセットを選択し、これらを検索エンジン104へ提供できる。検索エンジン104は、通常のクエリーと同一の方法で修正クエリーを処理し、提示される修正クエリーそれぞれの結果を修正サーバ107へ提供する。修正サーバ107は、修正クエリーの結果と元のクエリーの結果との比較を含む、各修正クエリーの結果を評価する。次いで、修正サーバ107は、以下に説明するように、最良の修正クエリー(または少なくとも、元のクエリーによく適合している修正クエリー)であるとして、修正クエリーの内の一つ以上を選定できる。
【0021】
修正サーバ107は、潜在的修正クエリーRを全て受信し、それらが関係する信頼性尺度Cにより、最高信頼度から最低信頼度に至るまで順にそれらを分類する。修正サーバ107は、潜在的修正クエリーの分類リストを通して繰り返し、潜在的修正クエリーそれぞれを検索エンジン104へ渡して、一セットの検索結果を得る。(代替として、修正サーバ107は、潜在的修正クエリーのサブセット、例えば、閾値を越える信頼性尺度を持つものを最初に選択してもよい)。場合によっては、上位検索結果は、修正戦略を実行しながらまたは信頼性尺度を評価中に、既に取得してあり(例えば、修正手段108または修正サーバ107が)、その場合、修正サーバ107は、そのようにして得られた検索結果を用いることができる。
【0022】
それぞれの潜在的修正クエリーに対して、修正サーバ107は、潜在的修正クエリーを選択するか、またはそれを破棄するかを決定する。選択は、元のクエリーの検索結果と独立させた、および関係させた両方の、修正クエリーの上位N個の検索結果の評価に応じて行うことができる。一般に、修正クエリーは、元のクエリーよりユーザの情報必要性を正確に反映していると考えられる検索結果を生成すべきである。必要に応じて、それより多いかまたは少ない結果を処理できるが、普通は上位10個の結果を評価する。
【0023】
一実施の形態では、以下の条件が維持される場合、潜在的修正クエリーを選択する。
【0024】
i)修正クエリーが少なくとも最小数の検索結果を生成する。例えば、このパラメータを1に設定すると、検索結果がない全ての(かつ唯一の)修正を破棄する。許容できる最小数の結果の範囲は、概ね1から100までである。
【0025】
ii)修正クエリーは、修正の上位結果内に最小数の「新規」検索結果を生成する。元のクエリーまたは以前に選択した修正クエリーの上位結果内にも生成されない場合、検索結果は「新規」である。例えば、このパラメータを2に設定すると、以前に選択したどれかの修正クエリーの上位結果内に生成されず、または元のクエリーの上位結果内にも生成されない少なくとも二つの上位結果を有するよう、それぞれの選択した修正に要求することになる。この制約により、選択した修正内に多様な結果が存在することが確実になり、修正の内の少なくとも一つが有用であることを証明する機会が最多となる。例えば、図3に見られるように、修正クエリーそれぞれに対する上位3つの結果304は、他の結果セットと異なっている。これにより、ユーザは、修正クエリーとの関連性が高い検索結果を幅広く見渡すことができる。
【0026】
iii)最大数の修正クエリーはまだ選択されていない。換言すると、最大数の修正クエリーが既に選択されている場合、残りの全ての修正クエリーは破棄される。一実施の形態では、修正クエリーの最大数は4に設定される。別の実施の形態では、修正クエリーの最大数は2〜10の間に設定される。
【0027】
上記選択パラメータの結果は、修正クエリーのページ300上に含まれる選択した修正クエリーのセットである。修正サーバ107は、先に説明したように、このページへのリンクを構築し、このリンクをフロントエンドサーバ102へ提供する。修正サーバ107は、修正クエリーのページ300上の、修正クエリーの順序およびレイアウトを決定する。修正クエリーは信頼性尺度の順に(最高から最低まで)リストアップされることが好ましい。
【0028】
フロントエンドサーバ102は、検索結果ページ内に提供されたリンクを含み、次いで、クライアント118へ送信される。ユーザは次いで、元のクエリーに対する検索結果を概観でき、または修正クエリーへのリンクを選択して、それにより、選択された修正クエリーおよび関係する結果を見る。
【0029】
修正クエリーの提示
【0030】
図2は、クライアント118へ提供されるサンプル結果のページ200である。この単純な実施では、検索結果200のページに、元のクエリー202の[シーツ]が、このクエリーへの結果204と併せて含まれる。一セットの修正クエリーへのリンク206が、ページ200の下部に含まれる。次いでユーザは、リンク206上をクリックし、修正クエリーのページにアクセスできる。例示のページ300を図3に示す。ここでは、修正クエリー[リネン]、[寝具類]、および[ベッドシーツ]それぞれに対する修正クエリーリンク302.1、302.2、および302.3が示すように、上位3つの修正クエリーが提示される。各修正クエリーリンク302の下が、そのクエリーに対する上位3つの検索結果304である。
【0031】
元の結果ページ200とは別のページ300上に修正クエリーを提供するのには、様々な利点がある。第1に、画面領域は制約のあるリソースなので、修正クエリー自体によるそのリスト化は、可能ではあるが、ユーザが彼らの検索結果の文脈で修正クエリーを見ないので望ましくない。別のページ300に修正クエリーを置くことにより、ユーザは、最良の修正クエリーおよびそれと関係する上位結果を見ることができ、ユーザは、どの修正クエリーが彼らの情報必要性を最も満たしているように見えるかを選択してから、修正クエリー自体を選択できる。元のクエリーおよび修正クエリーの結果を両方とも、単一ページ(長くはなるが)に含めることは可能ではあるが、この手法は、ユーザにページをスクロールダウンして、全ての修正クエリーを評価するよう要求するか、またはそのページの最初に見える部分に詰め込むかのどちらかとなる。代替として、図2および図3に示す好適な実施の形態では、ユーザは、クエリー修正と関係する結果を見て、それぞれの修正クエリーリンク302をクリックし、選択した修正クエリーに対する検索結果の全セットにアクセスすることができる。また多くの場合、この手法は、自動的に修正クエリーを用いて検索結果を取得し、それをユーザに自動的に提示することが好ましい(例えば、ユーザ選択または相互作用がなくても)。さらにこの手法は、最良の潜在的修正を示すことにより、有効なクエリーを生み出す方法をユーザに間接的に教示する、という利点を付け加える。別の実施の形態では、修正サーバ107は、クエリー修正を元の結果ページ200上に、例えば別のウィンドウとするか、元の結果ページ200内に表示させることができる。
【0032】
クエリー修正についての追加情報(例えば検索結果304)を表示して、ユーザに修正をよく理解させるのに役立てる方法は、メインの結果ページ200上で用いることもできる。これは、スペルを補正する修正の状況のような、単一の非常に高品質の修正クエリー(または少数の非常に高品質の修正)がある場合に特に有用である。スペル補正の修正クエリーは、タイトル、URL、および上位結果の抜粋等の、追加情報と併せて結果ページ200上に表示し、スペル補正の示唆が正しいものかどうかをユーザが決定するのに役立てることができる。
【0033】
別の実施の形態では、修正サーバ107は、信頼性尺度を用いて、クエリー修正をとにかく表示するかどうかを決定し、もし表示するなら、修正または修正へのリンクを目立つように配置する方法を決定する。この実施の形態は、後述する。
【0034】
クエリー修正手段
【0035】
再び図1を参照して、様々なクエリー修正手段108について説明する。拡張型修正手段108.1は、元のクエリー範囲を効果的に広げた一つ以上の修正クエリーを生成する。これらの修正は、元のクエリーが狭すぎる場合に特に有用である。拡張型修正手段108.1が使用できる幾つかの異なる戦略がある。
【0036】
第1に、この修正手段108.1は、離接として類義語および関連用語を追加することにより、クエリーを拡張できる。ユーザは一般的概念を説明する特定ワードを何気なく選択するので、クエリーが具体的すぎることが多い。対象の文書がそのワードを含まない場合、ユーザの情報必要性は満たされないままとなる。離接として類義語を追加するクエリー修正は、クエリーを拡張し、結果セットに所望の文書をもたらすことができる。同様に、離接として、類義語そのものではなく関連語を追加することが有用なことがある。関連語、類義語、シソーラスまたは辞書等のような、クエリーを拡張する任意の適切な方法を、ここで用いることができる。クエリー拡張の一方法は、引用して本明細書に組み込まれた、2005年3月30日出願の米国特許出願第11/xxx,xxx号、発明の名称「クエリー文脈内のクエリー用語の類語決定」、に開示されている。
【0037】
第2に、修正手段108.1は、一つ以上のクエリー用語を削除することにより、クエリーを広げることができる。先に示した例示のように、時には、クエリー用語を削除すると(例示のクエリー「三菱ギャラン情報」内の「情報」のように)、良好なクエリー修正を生み出すことができる。この手法では、拡張型修正手段108.1は、そのクエリー用語が存在しても、それが欠如しているのと比較すると検索結果をさほど絞り込みしないという点から、クエリーのどの用語が重要でないかを決定する。検索のためには重要でない用語を識別するための技法は、引用して本明細書に組み込まれた、2005年3月28日出願の米国特許出願第11/xxx,xxx号、発明の名称「重要性が希薄なクエリー用語の決定」、に記載されている。このような技法の結果を用いて、重要でない用語を削除することによりクエリーを修正できる。
【0038】
構文型修正手段108.2は、元のクエリーに様々な種類の構文変更を加えることによりクエリーを修正できる。これらは以下の修正戦略を含む:
・元のクエリーに引用符があれば除去する。引用符内のクエリーは検索エンジン104が単一の文字として取り扱い、その全てのクエリー文字列をもつ文書だけが返される。この修正は、クエリー用語のどれかと文書との全関連性に基づく文書を、検索エンジン104に返させるので検索結果数が増加する。
・クエリー全体の前後に引用符を追加する。場合によっては、クエリーを全体フレーズとして取り扱う方が適切である。
・現実のフレーズであるかのように、クエリーのnグラム(クエリー内の連続用語の或る数)の前後に引用符を追加する。クエリー内のnグラムは、様々なソースを用いて識別できる。
【0039】
A)常用フレーズの手作り辞書
【0040】
B)頻出データから作製したフレーズリスト。ここで、フレーズは、統計的に有意差のある頻度を伴って発生する連続用語に基づいて識別される。例えば、良好なバイグラム[t1 t2]は、[t1]および[t2]の両者がともに、ランダムより高い尤度(可能性)で文書内に現れる場合、バイグラム[t1 t2]として現れるという特性を有する。フレーズのリストを構築するための一方法は、引用して本明細書に組み込まれた、2004年7月26日出願の米国特許出願第10/900,021号、発明の名称「情報検索システムにおけるフレーズ識別」、に開示されている。
【0041】
C)普通の姓および名前のリスト(例えば、人口統計データまたは何らかの他のソースから得たもの)。構文型修正手段108.2は、連続するクエリー用語の対[t1 t2]に対して、[t1]が普通の名前のリストに含まれるかどうか、[t2]が普通の姓のリストに含まれるかどうか決定する。含まれていれば、クエリー[t1 t2]の下位部分を引用符内に置いて、潜在的修正クエリーを形成する。
【0042】
共通する問題は、クエリー内のストップワード(無視されるワード)使用である。ランク(序列)付けアルゴリズムは、「the」、「a」、「an」、「to」等のような頻出用語を無視するのが普通である。場合によっては、これらがクエリー内の、実際に重要な用語である(「to be or not to be」のようなクエリーを考えてみるとよい)。従って、構文型修正手段108.2は、「+」演算子(または同様な演算子)を用いて、その演算子がクエリーに存在しているときは常に、このような用語を含めさせる幾つかの修正クエリーも創出する。例えば、クエリー[the link]に対して[+the link]を提案する。
・句読点や他のシンボルを削除する。ユーザは、時折、クエリーの意味を変化させる句読点や他の構文(シンボルのような)を付け加える。これを行うほとんどのユーザは、無意識にそれを行うので、構文型修正手段108.2もまた、句読点や他の同様な構文があるときは常に、それを削除することにより修正クエリーを生成する。例えば、クエリー[rear window+ movie]に対して、構文型修正手段はクエリー[rear window movie]を生成して、結果を何も生みそうにない文字列「widow+」に対して検索エンジン104が検索するのを防ぐ。
【0043】
絞り込み型修正手段108.3は、クエリーを絞り込みする、つまり狭くする、何らかの適切な方法を用いて、ユーザの潜在的情報必要性をより特定して記述することができる。一実施の形態では、絞り込み型修正手段108.3は、検索クエリーの用語ベクトル表現を、以前から既に、それぞれの検索結果と関係付けられ、重み付けされている既知の検索クエリーの用語ベクトルと比較することにより、クエリー修正を生成する。最も近いベクトルを持つ既知の検索クエリー(または複数のクエリー)を潜在的修正クエリーとして選択する。
【0044】
より詳細には、一実施の形態では、絞り込み型修正手段108.3は、以下のように動作する。絞り込み型修正手段108.3は、ユーザの元のクエリーを用いて、選定した幾つかの検索結果を検索エンジン104から取得する(例えば、上位100個の結果)。絞り込み型修正手段108.3は、以前から存在するデータベースにアクセスし、これらの文書それぞれを、以前に用いて、結果としてその文書を含むことになった一つ以上の検索クエリーと一致させる。以前から存在するデータベースは、検索クエリーと関係する文書を格納し、クエリーと文書との関係付けは、その文書に対するクエリーの関連姓得点により重み付けされる。
【0045】
第2に、絞り込み型修正手段108.3は、クラスター化アルゴリズムを用いて、一致した格納クエリーの用語から形成される用語ベクトルおよび一致の重み付けに基づいて検索結果文書のクラスターを形成する。用語ベクトルは、単位長さの正規化した多次元ベクトルであり、それぞれの次元は、個々のワードまたはワードの組み合わせとすることができる用語に対応する。クラスターは、一致する格納文書と対応する元の検索文書の関連性得点、およびクラスター毎に発生する格納文書の数に基づいてランク付けされる。最高ランクのクラスターは、潜在的細分クラスターとして選択される。クラスターは、「情報検索」(W. Frakes & R. Baeza-Yates eds. 92)内のE. Rasmussen著「クラスター化アルゴリズム」に記載されているような、階層型凝集(agglomerative)クラスター化アルゴリズム等の、各種クラスター化アルゴリズムを用いて形成することができる。この開示を引用して本明細書に組み込む。
【0046】
第3に、絞り込み型修正手段108.3は、潜在的絞り込みクラスター毎にクラスター重心を計算する。絞り込み型修正手段108.3は次いで、クラスター毎に潜在的修正クエリーを決定する。所与の絞り込みクラスター内で、そのクラスター内の文書と関係する以前格納した検索クエリー毎に、クラスター重心までのその用語ベクトルの距離および検索クエリーが関係する格納文書の数に基づいて、絞り込み型修正手段108.3は格納した検索クエリーを採点する。各潜在的絞り込みクラスター内で、最高得点の以前格納したクエリーを潜在的修正クエリーとして選択する。
【0047】
最後に、絞り込み型修正手段108.3は、選択した修正絞り込みクエリーを修正サーバ107へ提供する。適切な一絞り込み型修正手段の詳細については、引用して本明細書に組み込まれた、2003年9月22日出願の米国特許出願第10/668,721号、発明の名称「検索クエリー絞り込みを提供するためのシステムおよび方法」、に記載されている。
【0048】
セッション基準型修正手段108.4は、セッション基準ユーザーデータを用いる任意の適切な方法を用いて、他のユーザが過去に行った変更の解析に基づいて、ユーザの潜在的情報必要性をより正確に取得することができる。一実施の形態では、セッション基準型修正手段108.4は、多くの個々のユーザーセッションから収集したクリックデータに基づいて一つ以上の修正クエリーを提供する。最初に、セッション基準型修正手段108.4が生成した2つのテーブルを用いて、クエリー対の発生頻度を計算する。クエリー対は、単一のユーザーセッションで発生する2つのクエリーのシーケンス、例えば、第1クエリー[シーツ]、続く第2クエリー[リネン]または第2クエリー[絹シーツ]である。繰り返し発生する個々のクエリーの第1のテーブルは、例えば、図1bのログファイル110に格納されるユーザーセッションのクエリーデータから生成される。一実施の形態では、繰り返し発生するクエリーは、最小頻度、例えば一日一回、発生する。繰り返し発生するクエリー対の第2のテーブルは、同様にログファイル110から生成され、各クエリー対は第1クエリーとそれに続く第2クエリーとを含む。二つのテーブルから、各クエリー対の発生頻度は、第1のテーブルの第1クエリーに対する発生カウントの比として計算される。例えば、第1クエリー[シーツ]が100回発生し、続いて第2クエリー[リネン]が100回の内の30回発生する場合、クエリー対[シーツ、リネン]の発生頻度は、第1クエリーに対する発生カウントの比として、30/100または30%である。任意の所与の第1クエリーに対して、クエリー対は、発生頻度が特定閾値を越える場合、第1クエリーの修正候補としての第2クエリーにより維持される。一実施の形態では、この閾値は1%である。
【0049】
候補の修正クエリーについて、クエリー対の第2クエリーの品質が該クエリー対の第1クエリーの品質を越える増加量を、セッション基準型修正手段108.4が、ユーザークリックデータから生成した2つの追加のテーブルを用いて計算する。対となるクエリーそれぞれに対して品質得点のテーブルを生成する。対の第1クエリーを越える該対の第2クエリーの品質の改善がもしあるなら、そのテーブルから、それを計算する。
【0050】
一実施の形態では、品質得点は、クリック行動データからユーザ満足度を評価することにより決定する。品質得点を決定するためのそのような一方法は、引用して本明細書に組み込まれた、2004年6月28日出願の米国特許出願第10/878,926号、発明の名称「相互交流プロファイルを導出し、使用するためのシステムおよび方法」に記載されているような、相互交流プロファイルの使用である。
【0051】
一実施の形態では、品質得点計算は、例えば、ログファイル110内に格納されている、ユーザクリックデータに基づく。品質得点は、検索結果上の最初のクリックの推定の継続時間に基づく。一実施の形態では、特定クリックの継続時間は、例えば図1bのログファイル110内の、他のユーザーセッションクエリーデータとともに格納できる、最初のクリックおよび後続のクリックが発生した時間から推定する。採点は、クリックがない検索結果には得点ゼロを割り当て、最初のクリックと後続のクリックとの間の持続時間へ適用されるS曲線に沿って進み、より長いクリックは品質得点1に近づく。一実施の形態では、20秒は0.1に、40秒は0.5に、そして60秒は0.9に対応する。関連のないコンテンツ、例えばバナー広告上のクリックはデータから排除する。別の実施の形態では、最初のクリックだけでなく、クエリーに対する全ての結果のクリックを収集する。
【0052】
次いでセッション基準型修正手段108.4は、発生頻度および上記の品質得点データを用いて、最初のクエリーを越える候補の修正クエリーとしての第2クエリーについての予測実用性を計算できる。一実施の形態では、予測実用性は、クエリー対の発生頻度と、その対の第1クエリーを越える第2クエリーの品質改善分との積である。この実施例では、品質改善分は、第2クエリーの品質得点が、第1クエリーの品質得点より高い場合に発生する。第2クエリーの予測実用性が閾値を越える場合、第2クエリーは潜在的修正クエリーとしてマークされる。一実施の形態では、閾値は0.02であり、これは例えば、10%頻度と品質得点の0.2増加に対応し、あるいは20%頻度と品質得点の0.1増加に対応する。予測実用性計算の他の変形を同様に用いることができる。
【0053】
上記説明のように、各修正クエリーは、修正が有効な修正となる確率を表す信頼性尺度と関係付けることができる。セッション基準型修正手段108.4の場合には、その修正クエリーに対する信頼性尺度として、修正クエリーの予測実用性を用いることができる。
【0054】
セッション基準型修正手段108.4を用いるクエリー修正の実施例を以下に挙げる。第1ユーザークエリーは[シーツ]である。格納されているデータは、[シーツ]に続く通常ユーザ入力の(第2の)クエリーは[リネン]であり、別の通常入力の第2のクエリー入力は[絹シーツ]であることを示す。ログファイル110に格納されるデータに基づくと、第1クエリー[シーツ]に対する発生率としては、クエリー対[シーツ、リネン]の頻度は30%であり、クエリー対[シーツ、絹シーツ]の頻度は1%である。例えば、クエリー[シーツ]が表中で100回発生した場合、[シーツ、リネン]は30回発生し、[シーツ、絹シーツ]は一回発生している。候補の修正として第2クエリーに対して1%閾値を仮定すると、これらのクエリーはともに維持される。
【0055】
次にデータが示すところによれば、[シーツ]の品質得点は0.1であり、一方、第2クエリー[リネン]および[絹シーツ]の品質得点はそれぞれ0.7および0.8である。従って、[シーツ]を越える[リネン]の品質改善分は0.6(0.7−0.1)であり、[シーツ]を越える[絹シーツ]の品質改善分は0.7(0.8−0.1)である。
【0056】
次いで、セッション基準型修正手段108.4は、各修正の予測実用性を頻度得点と品質改善分との積として計算する。[シーツ、リネン]に対しては、頻度(30%)と品質増加(0.6)との積は、予測実用性0.18となる。[シーツ、絹シーツ]に対しては、頻度(1%)と品質増加(0.7)との積は、予測実用性0.007となる。このように、第1クエリー[シーツ]を入力するユーザにとって、第2クエリー[リネン]は、クエリー[絹シーツ]より高い予測実用性を有し、従って、[リネン]はより有効なクエリー修正の示唆である。上記説明のように、これらの予測実用性は修正クエリーの信頼性尺度として用いることができる。
【0057】
実行時に修正信頼性尺度を生成
【0058】
次に図1bを参照して、本発明による情報検索システムの別の実施の形態を示す。図1aの先に説明した要素の他に、ログファイル110、セッション追跡器114、および修正手段信頼性評価器112がある。上記説明のように、クエリー修正手段108は、修正サーバ107へ提供する修正クエリーの内の一つ以上と併せて信頼性尺度を提供する。修正サーバ107は、信頼性尺度を用いて、修正クエリーページ300上に含めるためにどの潜在的修正クエリーを選択するかを決定する。一実施の形態では、所与の元のクエリーに対して修正クエリーを選択する際のユーザ活動履歴に少なくとも一部基づいて、信頼性尺度を実行時に導出できる。
【0059】
図1bの実施の形態では、フロントエンドサーバ102は、元のクエリーおよび修正クエリー情報を伴うユーザのクリックスルー行動を、セッション追跡器114に提供する。セッション追跡器114は、ユーザがアクセスしたクエリー修正リンク302と関係付けられている各ユーザークエリーを格納し、修正クエリーの品質をモデル化するための元のクエリーおよび修正クエリーの様々な特徴に加えて、各修正クエリーと関係する結果を格納するログファイル110を維持する。格納される情報は、例えば、以下を含む。
【0060】
元のクエリーに対しては、
・元のクエリー自体
・元のクエリー内の各ワード
・元のクエリーの長さ
・元のクエリーのトピッククラスタ
・元のクエリーの情報検索得点
・元のクエリーの結果の数。
【0061】
修正クエリーに対しては、
・修正クエリー自体
・修正クエリー内の各ワード
・それを生成した修正技法の識別
・修正クエリーの長さ
・修正クエリーと関係するトピッククラスタ
・上位検索結果の情報検索得点(例えば、ページランク)
・修正クエリーの見付けた結果の数
・修正クエリーリンク302上のクリックの長さ
・修正クエリー結果304上をクリックする長さ。
【0062】
クエリーのトピッククラスタは、任意の適切なトピック識別法を用いて識別される。適切な一方法は、引用して本明細書に組み込まれた、2003年9月30日出願の米国特許出願第10/676,571号、発明の名称「関連ワードのクラスタに基づいて文書を特徴付けるための方法および装置」、に記載されている。
【0063】
修正手段信頼性評価器112は、予測モデル、例えば論理的重回帰モデル、を用いてログファイル110を解析し、所与のクエリーに対して有効な修正となる修正クエリーの尤度を評価するために用いることができるクエリーおよび修正クエリーの特徴に基づく1セットの規則を生成する。適切な一回帰モデルは、引用して本明細書に組み込まれた、2003年12月15日出願の米国特許出願第10/734,584号、発明の名称「大規模マシン学習システムおよび方法」に記載されている。修正手段信頼性評価器112は、修正クエリーリンク302上のユーザによる長時間クリックが、ユーザの元の情報必要性の正確な提示となるような修正により、満足していることを示すという仮定の上で動作する。長時間クリックは、ある最小時間経過、例えば最低60秒、の間、クリックスルーページにユーザが留まる場合に、発生すると見なすことができる。修正クエリーリンク302上のクリックの長さから、修正手段信頼性評価器112は、予測モデルを教育して、修正クエリーおよび元のクエリーの各種の特徴を与える長いクリックの尤度を予測できる。長いクリックの高い予測尤度を有する修正クエリーは、それが関係する元のクエリーに対してより良好な(すなわちより成功率が高い)修正であると考えることができる。
【0064】
予測モデルの一実施の形態では、信頼性評価器112は、修正クエリーと関係する特徴を選定し、ログファイルからクリックデータを収集し、その特徴およびクリックデータを用いて規則を定式化し、そして予測モデルへその規則を加える。さらに信頼性評価器112は、クリックデータを用いて追加規則を公式化でき、モデルへ追加規則を選択的に追加する。
【0065】
実行時に、修正サーバ107は、元のクエリー、および各種のクエリー修正手段108から受信するそれぞれの修正クエリーを修正手段信頼性評価器112に提供する。修正手段信頼性評価器112は、元のクエリーおよび修正クエリーを予測モデルに適用して、前述の信頼性尺度として役立つ予測尺度を得る。代替として、各クエリー修正手段108は、修正手段信頼性評価器112を直接呼び出し、予測尺度を得てこれらの値を修正サーバ107へ戻す。図示した実施の形態は、修正手段信頼性評価器112を別のモジュールとして示すが、代替として修正サーバ107が、信頼性評価器の機能を提供してもよい。いずれの場合でも、修正サーバ107は、上記説明のように信頼性尺度を用いて、どの修正クエリーがユーザに示されるかを選択し順序を定める。
【0066】
一実施の形態では、修正サーバ107は、信頼性尺度を用いて、クエリー修正を全て表示するかどうか、表示するならその修正またはそれへのリンクを、どれくらい目立つように配置するかを決定する。そのために、修正サーバ107は、先に説明した最初の信頼性尺度か、上記の動的に生成した信頼性尺度のどちらかを用いることができる。例えば、最良の信頼性尺度が閾値未満になる場合、これは、どの潜在的候補修正も非常に良好とは言えず、その場合は、元の結果ページ200に修正が行われないことを示唆する。他方、一つ以上の修正クエリーが、別の閾値を越える非常に高い信頼性尺度を有する場合、修正サーバ107は、クエリー修正、または修正クエリーページ300へのリンクを、元の結果ページ200上に非常に目立つように、例えば、ページの上部近くに、かつ目立つフォントで、またはどこか他の目立つ場所に、表示させることができる。信頼性尺度が、二つの閾値の間にある場合、修正クエリーページ300へのリンクは少し目立たない場所、例えば、検索結果ページ200の最後に、例えばリンク206について示すように、配置することができる。
【0067】
上記説明の処理ステップは、並列で(例えば、クエリー修正の結果を得るステップと、クエリー修正の信頼性尺度を計算するステップとを並列に)、および/または交互に(例えば、全てのクエリー修正を受信してからクエリー修正リストを分類するステップではなく、クエリー修正手段から多数のクエリー修正を受信するステップと、オンザフライでクエリー修正の格納リストを構築するステップとを交互に)実行できる。さらに、上記実施の形態はクライアント/サーバ検索システムに関連して説明しているが、本発明は、スタンドアロン型マシン(例えば、スタンドアロン型PC)の一部として実施することもできる。これは例えば、Google Desktop Searchのようなデスクトップ検索アプリケーションの状況では有用である。
【0068】
一つの可能性のある実施の形態に対して、特に詳細に本発明を説明してきた。当該分野の技術者には言うまでもなく、本発明は他の実施の形態で実践できる。第1に、構成体の特定の名称、用語の大文字化、属性、データ構造、または何らかの他のプログラミングもしくは構造的局面は、必須でも重要でもなく、本発明またはその特徴を実施するメカニズムは、異なる名称、フォーマット、またはプロトコルを持っていてもよい。さらに、本システムは、上記したように、ハードウエアとソフトウエアとの組み合わせにより実施してもよく、または全体的にハードウエア要素で実施してもよい。また、本明細書で説明した各種システム構成体間の特定の機能分割は、単なる例示であって必須ではなく;単一システム構成体により実行される機能は、代替として多数の構成体により実行することができ、多数の構成体により実行される機能は、代替として単一構成体により実行してもよい。
【0069】
上記説明の幾つかの部分は、情報に関する操作のアルゴリズムおよびシンボル表現の点から本発明の特徴を表している。これらのアルゴリズム説明および表現は、データ処理分野の技術者が、彼らの業務内容を他の当該分野の技術者に伝えるために用いる最も効果的な手段である。これらの操作は、機能的または論理的に説明したが、言うまでもなくコンピュータプログラムにより実施される。さらに、これらの操作の編成を、一般性を失わずにモジュールとしてまたは機能名称により参照するのは、時として便利であることも判明している。
【0070】
上記説明から明らかなように他に特別に言及しない限り、言うまでもなく、説明全体を通じて説明した行動および処理は、コンピュータシステムメモリもしくはレジスタまたは他のそのような情報の格納、送信、もしくはディスプレイ装置内の物理量(電子量)として表されるデータを操作し、変換するコンピュータシステム、または類似の電子計算装置によるものである。このようなコンピュータシステムの基底をなすハードウエアの詳細な説明は、コンピュータ工学分野の技術者には周知の情報なので、本明細書では提供しない。
【0071】
本発明の特定態様は、本明細書においてアルゴリズムの形式で説明した処理ステップおよび命令を含む。注意すべきは、本発明の処理ステップおよび命令は、ソフトウエア、ファームウエア、またはハードウエアで組み込むことができ、ソフトウエアに組み込む場合は、リアルタイムのネットワークオペレーティングシステムが用いる異なるプラットフォームに常駐させて、操作するようダウンロードできる、ということである。
【0072】
本発明の特定態様について個々または単一の実施例について説明してきたが;言うまでもなく、本発明の動作はこの観点に制限されない。従って、単一の要素または構成体への全ての参照は、複数のこのような構成体をも参照していると解釈すべきである。同様に、「或る」、または「その」への参照は、他に特別に言及しない限り、複数への参照を含むと解釈すべきである。最後に、用語「複数」の意味は、説明中の本発明の部分に見合う二つ以上の実体やデータ項目等を指し、無限またはさもなくば過剰なほどの項目数を含む。
【0073】
本発明は、本明細書の動作を実行するための装置にも関連する。本装置は、要求する目的のために特別に構成してもよく、またはコンピュータがアクセスできるコンピュータ可読媒体上に格納されるコンピュータプログラムにより、選択的に作動または再構成される汎用コンピュータを備えてもよい。このようなコンピュータプログラムは、限定はしないが、フレキシブル磁気ディスク、光ディスク、CD−ROM、光磁気ディスクを含む任意の種類のディスク、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カードや光カード、または電子命令を格納するための、それぞれがコンピュータシステムバスに接続される任意の種類の媒体、のような、コンピュータ可読格納媒体内に格納できる。集積回路設計およびビデオコーデックの分野の技術者には言うまでもなく、本発明は、上記機能および構造説明に基づいて、特定用途向け集積回路(ASIC)を含む多様な種類の集積回路内で容易に製作できる。さらに、本発明は、多様な種類のビデオコーディング装置内に組み込むことができる。
【0074】
本明細書で提示したアルゴリズムおよび操作は、何らかの特定コンピュータまたは他の装置とは本質的に関連しない。多様な汎用システムを本明細書の教示に基づくプログラムとともに用いることもでき、またはより専用化した装置を構築して、要求される方法ステップを実行すると好都合であることがわかる。これらの多様なシステムに要求される構成は、等価な改変と併せて、当該分野の技術者には明らかであろう。さらに、何らかの特定プログラミング言語を参照して本発明を説明していない。言うまでもなく、多様なプログラミング言語を用いて、本明細書で説明した本発明の教示を実施でき、どのような特定言語の参照であっても、本発明の可能性の開示および最良の態様が提供される。
【0075】
最後に、注意すべきは、本明細書で用いられる言語は、原則として可読性および説明目的のために選択されていて、進歩性のある主題を範囲設定したり、または制限するために選択したものではない。従って、本発明の開示は、本発明の説明を意図したものであって、制限する意図はない。
【符号の説明】
【0076】
102 フロントエンドサーバ
107 修正サーバ
118 クライアント

【特許請求の範囲】
【請求項1】
サーバコンピュータシステムによって実行される方法であって、
複数のクエリー対のそれぞれについての発生頻度を計算するステップと、前記各クエリー対は最初のクエリーと修正クエリーとからなり、前記各クエリー対の発生頻度とは1以上のユーザーセッションにおける前記最初のクエリーの発生回数に対する前記修正クエリーの発生回数の比であり、
前記複数のクエリー対の各クエリー対毎に品質得点の改善分を計算するステップと、ここで、前記品質得点の改善分は、該クエリー対内の前記最初のクエリーに関するクリック行動データに対比して、該クエリー対内の前記修正クエリーに関するクリック行動データから引き出されるものであり、
前記各クエリー対の前記計算した発生頻度と前記品質得点に少なくとも部分的に基づいて、各クエリー対の信頼性尺度を計算するステップと、
計算した前記各信頼性尺度に基づき、前記複数のクエリー対の1又は複数を選択するステップと、
前記選択された1又は複数のクエリー対のそれぞれの前記修正クエリーを、該選択されたクエリー対の前記最初のクエリーについての示唆された修正として、提供するステップと、
を備える方法。
【請求項2】
前記修正クエリーに関するクリック行動データは、該修正クエリーに応じた検索結果に対するユーザによる複数クリックの持続時間に基づくものである、請求項1の方法。
【請求項3】
前記複数クリックにおける1クリックの持続時間とは、連続的に生じた2クリック間の発生時間間隔に基づくものである、請求項2の方法。
【請求項4】
前記クエリー対における前記修正クエリーに関するクリック行動データは、該クエリー対における前記最初のクエリーに関するクリック行動データよりも高いレベルのユーザ満足度を示すものである、請求項1乃至3のいずれかの方法。
【請求項5】
前記複数のクエリー対の1又は複数を選択するステップは、各信頼性尺度に基づき複数のクエリー対を序列化することからなる、請求項1乃至4のいずれかの方法。
【請求項6】
前記選択された1又は複数のクエリー対のそれぞれは、所定の最小数以上の検索結果を生ずるものである、請求項1乃至5のいずれかの方法。
【請求項7】
前記選択された1又は複数のクエリー対のそれぞれは、所定の最小数以上の新たな検索結果を生ずるものである、請求項1乃至5のいずれかの方法。
【請求項8】
前記新たな検索結果とは、前記修正クエリーの各最初のクエリーに応じて最も高く序列化された複数の検索結果において発生していないものである、請求項7の方法。
【請求項9】
命令群を記憶したコンピュータ読み取り可能な記憶媒体と、
前記命令群を実行するために動作する1又は複数のコンピュータと
を備えるシステムであって、
前記命令群は、該コンピュータに、
複数のクエリー対のそれぞれについての発生頻度を計算する手順と、前記各クエリー対は最初のクエリーと修正クエリーとからなり、前記各クエリー対の発生頻度とは1以上のユーザーセッションにおける前記最初のクエリーの発生回数に対する前記修正クエリーの発生回数の比であり、
前記複数のクエリー対の各クエリー対毎に品質得点の改善分を計算する手順と、ここで、前記品質得点の改善分は、該クエリー対内の前記最初のクエリーに関するクリック行動データに対比して、該クエリー対内の前記修正クエリーに関するクリック行動データから引き出されるものであり、
前記各クエリー対の前記計算した発生頻度と前記品質得点に少なくとも部分的に基づいて、各クエリー対の信頼性尺度を計算する手順と
計算した前記各信頼性尺度に基づき、前記複数のクエリー対の1又は複数を選択する手順と、
前記選択された1又は複数のクエリー対のそれぞれの前記修正クエリーを、該選択されたクエリー対の前記最初のクエリーについての示唆された修正として、提供する手順と、
を実行させるものである、システム。
【請求項10】
前記修正クエリーに関するクリック行動データは、該修正クエリーに応じた検索結果に対するユーザによる複数クリックの持続時間に基づくものである、請求項9のシステム。
【請求項11】
前記複数クリックにおける1クリックの持続時間とは、連続的に生じた2クリック間の発生時間間隔に基づくものである、請求項10のシステム。
【請求項12】
前記クエリー対における前記修正クエリーに関するクリック行動データは、該クエリー対における前記最初のクエリーに関するクリック行動データよりも高いレベルのユーザ満足度を示すものである、請求項9乃至11のいずれかのシステム。
【請求項13】
前記複数のクエリー対の1又は複数を選択することは、各信頼性尺度に基づき複数のクエリー対を序列化することからなる、請求項9乃至12のいずれかのシステム。
【請求項14】
前記選択された1又は複数のクエリー対のそれぞれは、所定の最小数以上の検索結果を生ずるものである、請求項9乃至13のいずれかのシステム。
【請求項15】
前記選択された1又は複数のクエリー対のそれぞれは、所定の最小数以上の新たな検索結果を生ずるものである、請求項9乃至13のいずれかのシステム。
【請求項16】
前記新たな検索結果とは、前記修正クエリーの各最初のクエリーに応じて最も高く序列化された複数の検索結果において発生していないものである、請求項15のシステム。
【請求項17】
命令群を記憶したコンピュータ読み取り可能な記憶媒体であって、前記命令群は、コンピュータに、
複数のクエリー対のそれぞれについての発生頻度を計算する手順と、前記各クエリー対は最初のクエリーと修正クエリーとからなり、前記各クエリー対の発生頻度とは1以上のユーザーセッションにおける前記最初のクエリーの発生回数に対する前記修正クエリーの発生回数の比であり、
前記複数のクエリー対の各クエリー対毎に品質得点の改善分を計算する手順と、ここで、前記品質得点の改善分は、該クエリー対内の前記最初のクエリーに関するクリック行動データに対比して、該クエリー対内の前記修正クエリーに関するクリック行動データから引き出されるものであり、
前記各クエリー対の前記計算した発生頻度と前記品質得点に少なくとも部分的に基づいて、各クエリー対の信頼性尺度を計算する手順と
計算した前記各信頼性尺度に基づき、前記複数のクエリー対の1又は複数を選択する手順と、
前記選択された1又は複数のクエリー対のそれぞれの前記修正クエリーを、該選択されたクエリー対の前記最初のクエリーについての示唆された修正として、提供する手順と、
を実行させるものである、コンピュータ読み取り可能な記憶媒体。
【請求項18】
前記修正クエリーに関するクリック行動データは、該修正クエリーに応じた検索結果に対するユーザによる複数クリックの持続時間に基づくものである、請求項17のコンピュータ読み取り可能な記憶媒体。
【請求項19】
前記複数クリックにおける1クリックの持続時間とは、連続的に生じた2クリック間の発生時間間隔に基づくものである、請求項18のコンピュータ読み取り可能な記憶媒体。
【請求項20】
前記クエリー対における前記修正クエリーに関するクリック行動データは、該クエリー対における前記最初のクエリーに関するクリック行動データよりも高いレベルのユーザ満足度を示すものである、請求項17乃至19のいずれかのコンピュータ読み取り可能な記憶媒体。
【請求項21】
前記複数のクエリー対の1又は複数を選択することは、各信頼性尺度に基づき複数のクエリー対を序列化することからなる、請求項17乃至20のいずれかのコンピュータ読み取り可能な記憶媒体。
【請求項22】
前記選択された1又は複数のクエリー対のそれぞれは、所定の最小数以上の検索結果を生ずるものである、請求項17乃至21のいずれかのコンピュータ読み取り可能な記憶媒体。
【請求項23】
前記選択された1又は複数のクエリー対のそれぞれは、所定の最小数以上の新たな検索結果を生ずるものである、請求項17乃至21のいずれかのコンピュータ読み取り可能な記憶媒体。
【請求項24】
前記新たな検索結果とは、前記修正クエリーの各最初のクエリーに応じて最も高く序列化された複数の検索結果において発生していないものである、請求項23のコンピュータ読み取り可能な記憶媒体。

【図1a】
image rotate

【図1b】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2011−248914(P2011−248914A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願番号】特願2011−158495(P2011−158495)
【出願日】平成23年7月19日(2011.7.19)
【分割の表示】特願2008−504001(P2008−504001)の分割
【原出願日】平成17年3月30日(2005.3.30)
【出願人】(505281067)グーグル インコーポレイテッド (58)
【氏名又は名称原語表記】GOOGLE INC.