説明

文書順位決定システムおよび方法

【課題】文書順位決定システムおよび方法が開示される。
【解決手段】ユーザからクエリが入力される前に文書と関連するキーワードを用いて少なくとも1つのキーワードを含むクエリ候補を生成するクエリ候補生成部と、前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出する重要度算出部と、前記文書の重要度および前記クエリ候補の重要度を用いて文書順位を決定する文書順位決定部と、を備えることを特徴とする文書順位決定システム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書順位決定システムおよび方法に関し、より詳しくは、ユーザのクエリが入力される前に文書の内容および文書のリンク情報を用いて文書の順位を決定するシステムおよび方法に関する。
【背景技術】
【0002】
近年、インターネットの使用が増加し、Web上に生成される文書の種類も持続的に増加している。検索エンジンは生成される文書を巡回(crawling)して索引し、索引された情報に基づいて検索結果を提供する。
【0003】
このとき、Web上の文書は頻繁に更新されるため、検索エンジンは文書が位置するサイトにたびたび訪問して文書の内容を最新状態に維持しなければならない。しかし、インターネット上に存在する文書の数が多いため、全ての文書を同じ重要度に設定してサイトをたびたび巡回すると、検索エンジンに負荷がかかるという問題がある。
【0004】
また、検索エンジンが継続的に生成される文書を格納するためには検索エンジンが文書を格納する格納場所の容量を増加しなければならないが、このような格納場所の維持による負担が増加してしまう。検索結果に該当する文書を表示する際に、より高い品質の検索結果を提供するため文書の重要度を活用されている。
【0005】
従来、リンク情報に基づいて文書の重要度を決定する方法が提案されている。しかし、リンク情報以外の他の情報を介してクエリの入力前においても文書の重要度を正確に決定する方法が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、文書と関連するキーワードを用いてクエリの入力前においても文書と関連する1つ以上のキーワードを含むクエリ候補を生成した後、クエリ候補に対する文書の重要度とクエリ候補の重要度とを算出し、算出された重要度を用いて文書の重要度を算出することにより、ユーザがクエリを入力する前のステップにおいてクエリの入力とは無関係に文書の重要度に基づく検索結果における順位を正確に決定するシステムおよび方法を提供することにある。
【0007】
また、本発明の目的は、文書の内容とリンク情報を用いてユーザからクエリが入力される前に文書の重要度を算出することによって、検索の前処理ステップにおいてもより正確に検索結果における文書の順位を決定することのできるシステムおよび方法を提供することにある。
【0008】
さらに、本発明の目的は、文書の重要度に加えて、クエリ候補の重要度を用いて文書の順位を決定することによって、検索品質の高い文書を検索結果の上位に配置することのできるシステムおよび方法を提供することにある。
【0009】
さらにまた、本発明の目的は、文書の重要度とクエリ候補の重要度に基づいて文書の検索順位を決定することによって、文書を収集するときに訪問するウェブサイトの訪問順位、検索エンジンの文書の格納場所の容量に余裕がないときに削除する文書の優先順位、検索サービスに用いられるコレクションに含まれる重要文書の優先順位を効率的に決定することのできるシステムおよび方法を提供することにある。
【課題を解決するための手段】
【0010】
本発明の一実施形態に係る文書順位決定システムは、文書と関連するキーワードを用いて少なくとも1つのキーワードを含むクエリ候補を生成するクエリ候補生成部と、前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出する重要度算出部と、前記文書の重要度および前記クエリ候補の重要度を用いて文書順位を決定する文書順位決定部とを備えてもよい。
【0011】
本発明の一実施形態に係る文書順位決定方法は、文書と関連するキーワードを用いて少なくとも1つのキーワードを含むクエリ候補を生成するステップと、前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出するステップと、前記文書の重要度および前記クエリ候補の重要度を用いて文書順位を決定するステップとを含んでもよい。
【発明の効果】
【0012】
本発明の一実施形態によれば、ユーザからクエリが入力される前でも、文書と関連するキーワードを用いて文書と関連する少なくとも1つのキーワードを含むクエリ候補を生成した後、クエリ候補に対する文書の重要度とクエリ候補の重要度を算出し、算出された重要度を用いて文書の重要度を算出することによって、ユーザがクエリを入力する前のステップにおいてクエリとは関係なく文書の順位を正確に決定することができる。
【0013】
本発明の一実施形態によれば、文書の内容とリンク情報を用いてユーザからクエリが入力される前に文書の重要度を算出することによって、検索の前処理ステップであってもより正確に文書の順位を決定することができる。
【0014】
本発明の一実施形態によれば、文書の重要度のみならず、クエリ候補の重要度を用いて文書の順位を決定することによって、検索品質の高い文書を検索結果の上位に配置することができる。
【0015】
本発明の一実施形態によれば、文書の重要度とクエリ候補の重要度に基づいて文書の検索順位を決定することによって、文書を収集するとき訪問するウェブサイトの訪問順位、検索エンジンの文書の格納場所の容量に余裕がないときに削除する文書の優先順位、検索サービスに用いられるコレクションに含まれる重要文書の優先順位を効率的に決定することができる。
【図面の簡単な説明】
【0016】
【図1】本発明の一実施形態に係る文書順位決定システムの動作を説明するための図である。
【図2】本発明の一実施形態に係る文書順位決定システムの細部構成を示すブロックダイアグラムである。
【図3】本発明の一実施形態に係る文書順位を決定するための全体的な過程を説明するための図である。
【図4】本発明の一実施形態に係るクエリ候補を生成する過程を示す図である。
【図5】本発明の一実施形態に係る文書順位スコアを算出する過程を説明するための図である。
【図6】本発明の一実施形態に係る共通キーワードに対する文書の寄与係数を決定する過程を説明するための図である。
【図7】本発明の一実施形態に係る共通キーワードに対する文書の蓄積係数を算出する過程を説明するための図である。
【図8】本発明の一実施形態に係る文書順位決定方法の全体構成を示す図である。
【発明を実施するための形態】
【0017】
以下、添付された図面に記載された内容を参照して本発明に係る実施形態を詳細に説明する。ただし、本発明が実施形態によって制限されたり限定されたりすることはない。各図面に提示された同一の参照符号は同一の部材を示す。本発明の一実施形態に係る文書順位決定方法は、文書順位決定システムの各構成によって行われてもよい。
【0018】
図1は、本発明の一実施形態に係る文書順位決定システムの動作を説明するための図である。
【0019】
文書順位決定システム100は、ユーザからクエリが入力される前に文書101を収集してもよい。このとき、各文書101は少なくとも1つのクエリ候補と関連することがある。図1において、クエリ候補qは文書101Pと関連する。すなわち、クエリ候補qは文書101のpに含まれるキーワードの組み合わせであってもよい。ここで、クエリ候補は、ユーザからクエリが入力される前に、文書に含まれるキーワードを組み合わせて生成されるものであり、ユーザが検索のために入力できる予想可能なクエリを意味する。また、クエリ候補は文書101に含まれるキーワードと類似のキーワードを組み合せてもよいが、文書101の順位102を決定するときの算出量が増加するため、好ましくは、文書順位決定システム100は、文書101に含まれたキーワードの組み合せでクエリ候補を設定して文書の順位102を決定してもよい。
【0020】
したがって、文書順位決定システム100は、文書101の重要度およびクエリ候補の重要度に基づいて文書101の順位102を決定してもよい。これにより、文書順位決定システム100は、ユーザのクエリが入力される前の前処理ステップにおいて文書101の内容と文書101のリンク情報を用いて文書101の順位102を決定することができる。
【0021】
図2は、本発明の一実施形態に係る文書順位決定システムの細部構成を示すブロックダイアグラムである。
【0022】
図2に示すように、文書順位決定システム200は、クエリ候補生成部201、重要度算出部202、および文書順位決定部203を含んでもよい。
【0023】
クエリ候補生成部201は、文書と関連するキーワードを用いて文書と関連する少なくとも1つのキーワードを含むクエリ候補を生成してもよい。文書ごとに異なるクエリ候補が生成されてもよい。前述したように、クエリ候補は、ユーザがクエリを入力する前に文書に含まれたキーワードを組み合わせることで生成されたものであり、ユーザから検索のために入力されることが予想されるクエリを意味する。このとき、キーワードは文書を構成する単語であってもよく、クエリ候補は文書に含まれたキーワードの組み合せであってもよい。キーワードの数が増加することによって、クエリ候補が増加してもよい。クエリ候補については図4に基づいて具体的に後述する。
【0024】
重要度算出部202は、クエリ候補と関連する文書の重要度およびクエリ候補の重要度を算出してもよい。図2に示すように、文書重要度算出部204およびクエリ候補重要度算出部205を含んでもよい。
【0025】
本発明の一実施形態によれば、文書重要度算出部204は、スコアベース方式と順位ベース方式に基づいて文書の重要度を算出してもよい。スコアベース方式によれば、文書重要度算出部204は、クエリ候補と関連する文書の文書順位スコア(C−Rank)に基づいて文書の重要度を算出してもよい。このとき、文書順位スコア(C−Rank)はクエリ候補に基づいて算出されてもよい。文書順位スコア(C−Rank)を算出する具体的な方法については、図5、図6、および図7を参照して後述される。
【0026】
順位ベース方式によれば、文書重要度算出部204は、クエリ候補と関連する文書の順位に基づいて文書の重要度を算出してもよい。クエリ候補と関連する文書の文書順位スコア(C−Rank)が算出された場合、文書重要度算出部204は、文書順位スコア(C−Rank)に基づいて文書を整列して文書の順位を決定してもよい。これにより、文書重要度算出部204は、文書の順位が高いほど文書の重要度を高く算出することができる。
【0027】
本発明の一実施形態によれば、文書のリンク情報を用いる文書順位スコアを介して決定された文書の重要度だけではなく、文書の内容と関連するクエリ候補の重要度もともに参照することによって、より正確に文書の順位を決定することができる。
【0028】
本発明の一実施形態によれば、クエリ候補重要度算出部205は複数のクエリ候補に同じ重要度を割り当ててもよい。
【0029】
本発明の一実施形態によれば、クエリ候補重要度算出部205は用いた文書数に基づいてクエリ候補の重要度を算出してもよい。
【0030】
本発明の一実施形態によれば、クエリ候補重要度算出部205はクエリとしてユーザに用いられる頻度に基づいてクエリ候補の重要度を算出してもよい。
【0031】
本発明の一実施形態によれば、クエリ候補重要度算出部205はユーザに用いられるクエリの長さに基づいてクエリ候補の重要度を算出してもよい。
【0032】
本発明の一実施形態によれば、クエリ候補重要度算出部205はユーザの関心度に基づいてクエリ候補の重要度を算出してもよい。
【0033】
クエリ候補の重要度に関しては、図3に基づいて具体的に後述する。
【0034】
本発明の一実施形態によれば、文書順位決定部203は、文書の重要度およびクエリ候補の重要度を用いて文書順位を決定してもよい。このとき、文書順位決定部203は、クエリ候補またはクエリ候補を構成するキーワードのうちいずれか1つに基づいて文書順位を決定してもよい。
【0035】
文書順位の決定に関しては、図3に基づいて具体的に説明する。
【0036】
図3は、本発明の一実施形態に係る文書順位を決定するための全体過程を説明するための図である。
【0037】
1.クエリ候補生成
本発明の一実施形態によれば、文書順位決定システムはクエリ候補を生成してもよい。このとき、文書順位決定システムは、文書と関連するキーワードを用いて少なくとも1つのキーワードを含むクエリ候補を生成してもよい。
【0038】
2.重要度算出
本発明の一実施形態によれば、文書順位決定システムは文書の重要度とクエリ候補の重要度を算出してもよい。
【0039】
(1)文書の重要度算出
文書順位決定システムは、クエリ候補と関連して文書の重要度を算出してもよい。一例として、文書順位決定システムは、スコアベース方式と順位ベース方式によって算出されてもよい。
【0040】
(a)スコアベース方式
スコアベース方式によれば、文書順位決定システムは、クエリ候補と関連する文書の文書順位スコア(C−Rank)に基づいて文書の重要度を算出してもよい。一例として、文書順位決定システムは、文書のリンク情報と文書のコンテンツ情報に基づいてクエリ候補qを構成するキーワードtそれぞれに対して文書pの文書順位スコア(C−Rank)CR(p)を算出してもよい。
【0041】
このとき、文書順位決定システムは、下記の数1によってクエリ候補qに対する文書pの文書順位スコア(C−Rank)に基づいて文書pの重要度F(p)を算出してもよい。
【数1】

【0042】
文書順位スコア(C−Rank)の詳細については、図5、図6、および図7を参照して後述する。
【0043】
(b)順位ベース方式
順位ベース方式によれば、文書順位決定システムは、クエリ候補と関連する文書の順位に基づいて文書の重要度を算出してもよい。もし、スコアベース方式によってクエリ候補qに対する全ての文書の文書順位スコア(C−Rank)が算出されれば、文書順位決定システムは、文書順位スコア(C−Rank)により文書を整列して文書の順位を算出してもよい。したがって、文書順位決定システムは、下記の数2によってクエリ候補qと関連する文書pの順位Rank(p)に基づいて文書pの重要度F(p)を算出してもよい。
【数2】

【0044】
すなわち、文書の重要度は文書の順位に反比例して決定されてもよい。
【0045】
一例として、文書順位決定システムは、以下の順位ベース方式によってキーワードで組み合せ可能な全てのクエリ候補について効率よく文書の重要度を算出することができる。
【0046】
1)文書順位決定システムは、クエリ候補qが含んでいるキーワードをアルファベット順や、五十音順に整列する。例えば、クエリ候補が「car taxi roof」というキーワードを含む場合、修正されたクエリ候補は「car roof taxi」に該当する。2)文書順位決定システムは、修正されたクエリ候補をスペースを含む新しい1つの単語と見なし、各文書を新しいキーワードの集合として表す。例えば、「car roof taxi」は中間にスペースの2つある1つの新しい単語に該当し、car、roofとtaxiをキーワードとして有する文書は「car roof taxi」という新しい単語を含む文書になる。3)全ての文書の新しい単語を集めてユニーク(unique)単語を抽出してアルファベット順や、五十音順に整列する。4)各ユニーク単語qを含む文書pを抽出し、抽出された文書をクエリ候補qに対する予め算出された文書順位スコア(C−Rank)の降順に整列して文書の順位を決定してもよい。
【0047】
(2)クエリ候補の重要度算出
文書の順位はクエリ候補別に決定された文書の重要度を併合した結果である。したがって、重要なクエリ候補で重要な文書は相対的に上位に位置することがある。本発明の一実施形態によれば、クエリ候補重要度は、(i)同一の重要度指定、(ii)文書内の統計による重要度指定、(iii)ユーザクエリの統計による重要度指定、(iv)重要クエリ候補の指定方式によって算出されてもよい。
【0048】
(a)同一の重要度指定
本発明の一実施形態によれば、文書順位決定システムは全てのクエリ候補に対して同一に重要度を設定してもよい。この方法は、クエリ候補の重要度を算出する異なる方法が性能向上したか否かを判断するとき用いられてもよい。
【0049】
(b)文書内の統計による重要度指定
複数の文書で用いられるクエリ候補よりも少数の文書で用いられるクエリ候補を重要なものとしてもよい。本発明の一実施形態によれば、クエリ候補qを含む文書が多いほどクエリ候補qの重要度を低く指定してもよい。一例として、TF(Term Frequency)−IDF(Inverse Document Frequency)を適用する場合、クエリ候補の重要度は下記の数3のように決定されてもよい。
【数3】

【0050】
このとき、w(q)はクエリ候補qの重要度を表し、Dはクエリ候補qを含む文書の数を意味する。
【0051】
(c)ユーザクエリの統計による重要度指定
ユーザクエリの統計を用いてクエリ候補の重要度を算出する方法においては、ユーザに多く用いられるクエリ候補を重要なクエリ候補として決定してもよい。本発明の一実施形態によれば、クエリ候補の長さごとの使用頻度と各クエリ候補の使用頻度を用いてクエリ候補の重要度を算出する方法を提供する。
【0052】
(i)クエリ候補の長さごとの使用頻度
本発明の一実施形態に係る文書順位決定システムは、次のような過程を介してクエリ候補の長さごとの使用頻度を算出してもよい。例えば、クエリ候補の長さとは、クエリ候補を構成するキーワードの数であってもよい。クエリ候補の長さごとの使用頻度は、クエリ候補の重要度を算出するとき用いられてもよい。
【0053】
文書順位決定システムは、予め設定した時間ユーザが入力したクエリを収集する。また、文書順位決定システムは、収集されたクエリを含む単語の数に応じて分類する。その後、文書順位決定システムは、収集された全体クエリ数対比単語数に分類された各クエリ集合に含まれたクエリ数をクエリ候補の長さごとの使用頻度に決定する。
【0054】
一例として、文書順位決定システムは、クエリ候補の長さごとの使用頻度を用いて下記の数4によってクエリ候補qの重要度を算出してもよい。
【数4】

【0055】
数4において、w(q)はクエリ候補の長さごとの使用頻度により算出されるクエリ候補qの重要度を意味する。数4は、クエリ候補の長さごとの使用頻度に比例してクエリ候補qの重要度が決定されることを意味する。|Q|は収集したクエリの総数を意味し、|q|はクエリ候補qを構成するキーワードの数を意味する。また、δ(|q|,|q|)は|q|=|q|であるとき1の値を有する関数である。すなわち、δ(|q|,|q|)は収集された全体クエリの数のうちクエリ候補qを構成するキーワード数で構成されたクエリの比率を意味する。例えば、収集されたユーザのクエリが100個で、そのうち1つの単語から構成されたクエリが40個、2つの単語から構成されたクエリが30個、3つの単語から構成されたクエリが20個、4つ以上の単語から構成されたクエリが10個である場合、w(1)=0.4、w(2)=0.3、w(3)=0.2、w(i>3)=0.1に算出される。
【0056】
(ii)クエリ候補の使用頻度
本発明の一実施形態に係る文書順位決定システムは、クエリ候補の使用頻度を用いてクエリ候補の重要度を算出してもよい。一例として、文書順位決定システムは、クエリ候補の使用頻度を用いて下記の数5によってクエリ候補の重要度を算出してもよい。
【数5】

【0057】
このとき、w(q)はクエリ候補qの重要度を意味し、Nはクエリ候補の使用頻度を意味し、|Q|は収集したクエリの数を意味する。
【0058】
また、本発明の一実施形態によれば、文書順位決定システムは、クエリ候補の長さとクエリ候補の使用頻度のいずれも用いて、下記の数6によってクエリ候補の重要度を算出してもよい。
【数6】

【0059】
(q)はクエリ候補qの長さに基づいた重要度であり、w(q)はクエリ候補qの使用頻度に基づいた重要度である。λはクエリ候補の長さの加重値を意味する。
【0060】
(d)重要クエリ候補の指定方式
本発明の一実施形態によれば、文書順位決定システムは、最近、使用頻度が急上昇し、または社会的なイシューによってユーザの関心度が増加するクエリ候補と関連する文書をユーザへ優先的に表示してもよい。このようなクエリ候補は重要クエリ候補として設定されてもよい。重要クエリ候補として指定されたクエリ候補の集合をQと仮定する。重要クエリ候補に基づいたクエリ候補の重要度は下記の数7によって算出されてもよい。
【数7】

【0061】
すなわち、Qに属するクエリ候補qの重要度は1に算出され、Qに属しないクエリ候補qの重要度は0に算出される。
【0062】
3.文書順位の決定
本発明の一実施形態によれば、文書の順位はクエリ候補またはクエリ候補を構成するキーワードのうちいずれか1つに基づいて文書の順位を決定してもよい。
【0063】
(1)クエリ候補ベースの文書順位
本発明の一実施形態によれば、文書の順位はクエリ候補と関連する文書の重要度とクエリ候補の重要度との組み合せにより決定されてもよい。これは、本発明の一実施形態によれば、2種類の要素を組み合わせて文書の順位を決定する方式であり、加重和(weighted−sum)と重み付き最大値(weighted−max)を用いてもよい。
【0064】
一例として、文書順位決定システムは、下記の数8によって加重和、すなわちある数値に重み付けを行い、その集合内での総和を求める方式に基づいて文書の順位を決定してもよい。
【数8】

【0065】
数8によれば、文書順位決定システムは、クエリ候補qと関連する文書の重要度F(p)とクエリ候補の重要度Wとを乗算した後、集合Q(p)に属するクエリ候補qにおいて合算してもよい。加重和は、全てのクエリ候補と関連する文書の重要度を算出するときに用いてもよい。
【0066】
他の一例として、文書順位決定システムは、下記の数9によって重み付き最大値に基づいて文書の順位を決定してもよい。
【数9】

【0067】
数9によれば、文書順位決定システムは、クエリ候補qと関連する文書の重要度F(p)とクエリ候補の重要度Wとを乗算した後、集合Q(p)に属するクエリ候補qにおけるその最大値を求めてもよい。クエリ候補qと関連した文書pが他の文書よりも重要度が極めて高い場合、文書pの順位はクエリ候補qとの関係において順位を高く算出してもよい。文書順位決定システムは、数9によって全ての文書の順位を算出した後、文書を整列して最終的な文書の順位を算出してもよい。
【0068】
(2)キーワードベースの文書順位
本発明の一実施形態によれば、文書順位決定システムは、クエリ候補を構成するキーワードに基づいて文書の順位を決定してもよい。すなわち、文書pと関連するクエリ候補集合Q(p)は文書pのキーワード集合Kに制限されることがある。したがって、上記に説明された加重和と重み付き最大値とを用いる場合、文書の順位はそれぞれ下記の数10、11により決定してもよい。
【数10】


【数11】

【0069】
クエリ候補に基づいて文書の順位を決定する方法とキーワードに基づいて文書の順位を決定する方法との間の共通点は次の通りである。
【0070】
例えば、クエリ候補に基づいて文書の順位を決定する方法において、文書の重要度は、スコアベース方法によって算出されてクエリ候補の重要度は全てのクエリ候補の重要度を同一に設定する方法によって算出されると仮定する。この場合、クエリ候補に基づいた文書の順位は、数1および数8を結合して数12によって決定される。
【数12】

【0071】
クエリ候補qを構成するキーワードの数がkであると仮定する。この場合、数12においてRank(p)が算出されるとき、Q(p)に含まれるキーワードtのCR(p)は、クエリ候補qに含まれたキーワードのうちキーワードtを除いた残りキーワードに組み合せ可能な回数だけ繰り返して合算される。このとき、Rank(p)は下記の数13によって決定されてもよい。
【数13】

【0072】


【数14】

【0073】
Rank(p)よりも、Rank(p)によって整列される文書の順位が重要である。すなわち、文書の重要度を算出するとき、スコアベース方法を用いてクエリ候補の重要度を同一に設定する場合、クエリ候補ベースで算出した文書の順位はキーワードベースで算出した文書の順位と同一である。
【0074】
図4は、本発明の一実施形態に係るクエリ候補を生成する過程を示す図である。
【0075】
本発明の一実施形態に係る文書順位決定システムは、文書と関連するキーワードを用いて少なくとも1つのキーワードを含むクエリ候補を生成してもよい。前述したように、クエリ候補とは、ユーザからクエリが入力される前に文書に含まれたキーワードを組み合わせた結果であり、ユーザからの入力が予想されるクエリの集合を意味する。
【0076】
一例として、文書P401と関連するキーワードの集合をK={A、B、C}であると仮定する。このとき、文書Pと関連するクエリ候補Q(p)は、Kに含まれるキーワードの組み合せで構成されてもよい。すなわち、Q(p)は{A、B、C、AB、AC、BC、ABC}で構成されてもよい。
【0077】
もし、図4に示すように、文書P401と関連するキーワードの数がn個である場合、クエリ候補はq402−1、q402−2…q402−nになる。このとき、クエリ候補の数はsum()である2−1になる。
【0078】
したがって、クエリ候補は文書に含まれるキーワードが組み合わせられたものに制限されてもよく、文書に含まれないキーワードが組み合わせられたクエリ候補において文書の重要度は0に設定されてもよい。
【0079】
図5は、本発明の一実施形態に係る文書順位スコアを算出する過程を説明するための図である。
【0080】
図5に示すように、文書<X>501とリンクで接続された文書<Y>502、文書<Z>503、文書<Y>504、および文書<Z>505が示される。このとき、文書<X>501、文書<Y>502、文書<Z>503はキーワードA506を含み、文書<X>501、文書<Y>504、文書<Z>505はキーワードB507を含む。
【0081】
このとき、キーワードA506は、文書<X>501、文書<Y>502、文書<Z>503に共通に含まれた共通キーワードであり、キーワードB507は、文書<X>501、文書<Y>504、文書<Z>505に共通に含まれた共通キーワードである。すなわち、共通キーワードは、リンクで接続された文書に共通して含まれたキーワードであり、文書ごとに1つ以上の共通キーワードを含んでもよい。
【0082】
本発明の一実施形態に係る文書順位決定システムは、検索結果の正確性を維持しながら検索時間を最適化するために次のようなウェブ環境を活用することがある。
【0083】
1)ウェブページの開発者は不足する情報については他の文書の情報を利用するためにある文書をリンクにより他の文書へ接続してもよい。2)リンクによって接続されたとしても他の文書とのリンクを繰り返して距離が遠くなるほど情報の活用度は低くなることがある。3)接続された2つの文書が含んでいる共通キーワードの数は2つの文書が関連する程度に関係があり、関連のない文書であるほど共通キーワードの数は少ない。4)検索エンジンのユーザは検索結果として示されたうち、検索順が1位であるものに敏感であり、検索結果中での順位が落ちるほど順位についての注目度は下がることがある。
【0084】
このとき、キーワードA506およびキーワードB507は、ユーザが入力した検索クエリを構成しているキーワードであってもよい。本発明の一実施形態に係る文書順位決定システムは、各キーワードにおける文書の順位を決定してもよい。このとき、文書順位決定システムは、文書の内容とリンク情報とを組み合わせて各キーワードにおける文書の順位を決定してもよい。具体的に、文書順位決定システムは、文書に含まれた少なくとも1つのキーワードそれぞれに対する文書との内容的な関連を示す内容スコアとキーワードを共通に含む他の文書の利用度合いを示す寄与スコアとを組み合わせて文書順位スコアを算出し、文書順位スコアに基づいて文書順位を決定してもよい。
【0085】
一例として、文書の順位を決定する時、次のような基本概念を予め定義することができる。
【0086】
(1)重要文書の基準
文書が生成されるとき、ユーザに提供しようとする主要情報で本文が構成され、本文の詳細説明または関連する追加情報は他の文書へとリンクで接続し、他の文書を参照する方式によって提供されることがある。このとき、リンクに接続された文書(図5において、文書<Y>502、文書<Y>504)はリンクを含む文書(図5において、文書<X>501)で示されるテーマについて説明している文書であるか、細部事項に対して補完説明している文書、またはキーワード(図5において、キーワードA506およびキーワードB507)に対する詳細説明の文書であってもよい。あるいは、場合に応じて、リンクで接続された文書は広告のようにリンクを含む文書の内容と全く関係のない内容の文書であってもよい。
【0087】
文書の品質を評価するときに重要な要素は文書の内容である。ユーザは、所望の内容を含む文書を品質の優れた文書として、検索結果に示されることを期待する。また、文書順位決定システムは、文書の本文の品質の向上に寄与する重要文書をリンクで接続してもよい。
【0088】
本発明の一実施形態に係る文書順位決定システムは、次のような条件のいずれか又は全てを満たす文書を重要文書として規定してもよい。1)与えられたキーワードに対する内容スコアが高い文書、2)与えられたキーワードに対する内容スコアが高い文書にリンクで接続された文書、3)他の文書からその内容が多く活用される文書として、リンクで接続された文書。
【0089】
(2)リンクに接続された文書の寄与スコア
リンクに接続された文書(図5において、文書<Y>502、文書<Y>504)がリンクを含む文書(図5において、文書<X>501)に対する寄与スコアは、与えられた検索クエリに対する2つの文書の内容スコアに基づいて決定されてもよい。
【0090】
2つの文書が与えられた検索クエリにおいてその関連度が高いほど、リンクに接続された文書はリンクを含む文書の品質に大きく寄与するものとして扱ってもよい。ただし、リンクを含む文書が検索クエリに対して関連度は高いものの、リンクで接続された文書が検索クエリに対して関連度が低ければ、リンクで接続された文書はリンクを含む文書の品質に寄与しないものとして扱ってもよい。
【0091】
例えば、自動車に関する文書に書籍に関する文書がリンクに接続されている場合、2つの文書が自動車に関連するキーワードを複数含んでいれば、書籍関連の文書は自動車関連の本に対する内容を含んでいる場合があるため、自動車関連の文書の品質に寄与していると判断してもよい。
【0092】
しかし、書籍関連の文書が自動車と関連するキーワードを含んでいなければ、単なる広告文書であるか他の意図により接続された文書であるといえる。この場合、書籍関連の文書は自動車関連の文書の品質に寄与しないと判断してもよい。
【0093】
(3)順位によるユーザの関心度
検索結果においては文書の相対的な順位が重要であり、ユーザは自身が所望する情報が検索結果の1ページ目に表示されることを所望するものと考えられる。もし、文書順位決定システムが上位1〜10位に該当する順位の文書を出力する場合、ユーザは順位が1位の文書には敏感であるが、順位が200〜300位の間の文書はいずれの順位であっても重要とは判断しない。
【0094】
したがって、本発明の一実施形態に係る文書順位決定システムは、予め設定した上位順位に該当する文書間の相対的な順位について、下位順位に該当する文書の場合よりも正確に決定することができる。上位順位に該当する文書間の相対的な順位を正確に決定すれば、下位順位に該当する文書間の相対的な順位を正確に決定しなくとも、ユーザは検索結果に満足すると考えられ、数多くの文書に対して正確な順位を決定する必要がなく、検索結果を導き出すために求められる資源を節約することができる。
【0095】
以上で説明した基本的なモデルに基づいて図5を参照すると、文書順位決定システムは、キーワードA506について文書<X>501、文書<Y>502および文書<Z>503の内容スコアと寄与スコアを算出し、内容スコアと寄与スコアとを組み合わせてキーワードA506に対する文書順位を決定するための文書順位スコア(C−Rank)を決定してもよい。
【0096】
同様に、文書順位決定システムは、キーワードB507について文書<X>501、文書<Y>504および文書<Z>505の内容スコアと寄与スコアを算出し、内容スコアと寄与スコアとを組み合わせてキーワードB507に対する文書順位を決定するための文書順位スコア(C−Rank)を決定してもよい。最終的な文書順位は、文書とキーワードの組み合わせに対して決定された文書順位スコアを配列して決定してもよい(図5を参照すると、例えばC(X)など)。
【0097】
図6は、本発明の一実施形態に係る共通キーワードに対する文書の寄与係数(contribution coefficient)を決定する過程を説明するための図である。
【0098】
文書順位決定システムは、共通キーワードにおける第1文書の第2文書への寄与係数を決定してもよい。このとき、寄与係数は、第1文書が第2文書の価値に寄与する度合いを示す係数である。
【0099】
図6に示すように、文書<q>601が複数のステップdのリンクを経て、文書<p>604まで到達する経路における文書の集合が示されている。このようなリンクにおける経路中の文書の集合をD(p、d)と仮定する。このとき、文書<p>604を第1文書とし、文書<p>604に到達する文書の集合を第2文書としてもよい。
【0100】
一例として、文書順位決定システムは、下記の数15によって文書順位を決定してもよい。このとき、数15は、基本的なモデルによって文書順位を決定することを意味する。
【数15】

【0101】
ここで、tはキーワード605を意味し、C(p)はキーワードt605に対して第1文書である文書<p>604の文書順位を算出するための寄与スコア(C−Rank)を意味する。
【0102】

【0103】

【0104】
数15から分かるように、文書順位決定システムは、第1文書である文書<p>604の第2文書である文書<q>601に対する寄与係数として第2文書の内容スコアを適用して第1文書の寄与スコアを算出してもよい。
【0105】
もし、図6に示すように、第2文書(文書<q>601)から第1文書(文書<p>604)に達する複数のステップのリンクを含むリンク経路が存在する場合、文書順位決定システムは、リンク経路に対応する文書(文書<r>602〜文書<rd−1>603)の寄与係数を用いて第1文書の第2文書に対する寄与係数を決定してもよい。例えば、文書順位決定システムは下記の数16によって寄与係数を決定してもよい。
【数16】

【0106】

【0107】
本発明の一実施形態によれば、文書順位決定システムは、第1文書と第2文書が1つのリンクに接続されている場合、第1文書の内容スコア、第2文書の内容スコア、および第2文書のアウトリンクで接続される第3文書の内容スコアを用いて、第1文書の第2文書に対する寄与係数を決定してもよい。一例として、第1文書および第2文書が1つのリンクで接続される場合、文書順位決定システムは、下記の数17のように第1文書の第2文書に対する寄与係数を決定してもよい。
【数17】

【0108】

【0109】

【0110】

【0111】
例えば、文書p、文書q、および文書rがr→q→pのようにリンクで接続されていると仮定する。このようなリンクを図6の説明を適用すれば次の通りである。
【0112】

【0113】

【0114】
図7は、本発明の一実施形態に係る共通キーワードに対する文書の蓄積係数を算出する過程を説明するための図である。
【0115】
文書順位決定システムは、共通キーワードに対して第1文書の寄与スコアのうち第1文書が直接寄与したスコアの比率である第1文書の蓄積係数を算出してもよい。蓄積係数は、文書順位を決定する方式のうち総合不変モデルおよびハイブリッドモデルに適用されてもよい。
【0116】
一例として、文書順位決定システムは、内容スコアおよび寄与スコアに蓄積係数を適用するか(総合不変モデル)、または寄与スコアに蓄積係数を適用して(ハイブリッドモデル)文書順位を決定してもよい。
【0117】
一例として、文書順位決定システムは、下記の数18によって蓄積係数を算出してもよい。
【数18】

【0118】

【0119】
例えば、図7に示すように、文書<q>701に寄与する文書が文書<p>702と文書o(<r>703、<r>704、<r>705)であるとする。文書<q>701に対する寄与スコアは、文書oの文書<q>701に対する寄与スコアと文書<p>702の文書<q>701に対する寄与スコアとを和したものを意味する。このとき、文書<p>702の蓄積係数は、文書<q>701に対する寄与スコアのうち文書<p>702が文書<q>701に直接寄与した寄与スコアの比率を意味する。このとき、寄与スコアおよび蓄積係数はキーワードt704に対するものである。
【数19】

【0120】
このとき、総合不変モデルによれば、第1文書(文書<p>702)の蓄積係数と第7文書(文書<r>703〜文書<r>704〜文書<r>705)の寄与係数を適用した総合が予め設定した値(数19によれば1である)と同一であってもよい。ここで、数19によれば、文書pの蓄積係数と文書pのアウトリンクで接続される文書rの寄与係数の総合は1である。
【0121】
これは共通キーワードに対して該当文書(図7において、文書<p>702)の上位文書(文書<q>701)に対する寄与スコアは、該当文書の自身の寄与スコアと該当文書のアウトリンクで接続された下位文書(図7において、文書<r>703〜文書<r>706)による寄与スコアの和と同一であることを意味する。
【0122】
上位文書に対する寄与スコアが固定されている分だけ、該当文書のアウトリンクでの接続先が増加して下位文書による寄与スコアが増加すれば、該当文書の自身の寄与スコアは減少することがある。結局、全体のウェブグラフで全ての文書の文書順位スコアの総合は、下記の数20のように全ての文書の内容スコアの総合と同一である。
【数20】

【0123】
したがって、数20によれば、文書(図7の文書<p>702)にアウトリンクでの接続先が追加されるほど、文書(図7の文書<p>702)の文書順位スコアが減少するため、アウトリンクの乱用を防止することができる。
【0124】
最終的に、総合不変モデルで文書順位スコアは下記の数21のように決定されてもよい。
【数21】

【0125】

【0126】
また、ハイブリッドモデルで文書順位スコアは、下記の数22のように決定されてもよい。
【数22】

【0127】

【0128】
数20と数22とのハイブリッドモデルとして、下記の数23が導き出されてもよい。
【数23】

【0129】
ここで、Tはハイブリッドモデルであって文書順位スコアを総合したものである。数23によれば、ハイブリッドモデルにおいて、全ての文書順位スコアの合計は、全ての文書の内容スコアの合計の2倍よりも小さいか同一であることが分かる。
【0130】
与えられたキーワードに対する全ての文書の文書順位スコアは、下記の数24のように決定されてもよい。下記の数24は、ハイブリッドモデルによるものであり、以下の説明は基本モデルおよび総合不変モデルに同一に適用されてもよい。
【数24】

【0131】

【0132】
キーワードtに対する文書pの文書順位スコアは次のような前処理過程と反復算出過程によって算出されてもよい。
【0133】

【0134】
ここで、S1、S2は前処理過程であり、S3、S4、S5およびS6は反復算出過程を意味する。前処理ステップS1によれば、文書順位決定システムは、全ての文書(文書p)に対して含むキーワードtに対する内容スコアを算出する。前処理ステップS2によれば、文書順位決定システムは共通キーワードに対して寄与係数を算出し、共通キーワードに対する蓄積係数を算出する。
【0135】
反復算出ステップS3によれば、文書順位決定システムは内容スコアを文書順位スコア(C−Rank)に合算する。反復算出ステップS4によれば、文書順位決定システムは、各文書に対してアウトリンクで接続された文書の寄与価値を算出する。反復算出ステップS5によれば、文書順位決定システムは、算出された寄与価値と蓄積係数とを乗算した結果を文書順位スコア(C−Rank)に合算する。反復算出ステップS6によれば、文書順位決定システムは、寄与価値が与えられた閾値ε以上である文書とキーワードとの対に対してS7およびS5を繰り返す。全ての文書とキーワードとの対に対して寄与価値がε以下であれば算出を終了する。
【0136】
このとき、反復作業のうち一部文書の寄与価値が閾値以下である場合が発生すれば、その値を未合算寄与価値に累積して保管する。反復算出が行われると、リンク経路上で遠距離にある文書または他の経路にある文書においては未合算寄与価値が閾値以上になることがある。この状況において、文書順位決定システムは蓄積係数を乗算した後、文書順位スコア(C−Rank)に累積してアウトリンクで接続された文書の寄与価値算出に用いる。
【0137】
文書順位決定システムは、様々なステップのリンクに接続された文書の寄与係数に対する関係に応じてリンク構造の上位文書に対する寄与係数が分かれば、当該文書の寄与係数が算出できるという特性を介して文書順位スコア(C−Rank)の動的更新を可能にする。
【0138】
その後、文書内容が変更される場合、文書順位決定システムは、これを反映して文書順位を決定してもよい。文書内容が変更されれば、文書の内容スコアが変更され、文書のインリンクでの文書に関連する寄与係数とアウトリンクでの接続先に関連する寄与係数が変更されてもよい。したがって、内容が変更された文書をリンクに指示している文書と内容が変更された文書から始まってリンクに沿って到達できる文書の文書順位スコアが変更されてもよい。
【0139】
同様に、リンクが追加または削除される場合、文書の寄与係数が変更されてもよい。リンクが追加される場合、追加されたリンクによって寄与係数が発生することがあり、リンクが削除される場合、削除されたリンクによって寄与係数が発生しないことがある。
【0140】
また、文書が追加または削除される場合、リンクの追加または削除に応じて文書順位スコアが決定されてもよい。
【0141】
図8は、本発明の一実施形態に係る文書順位決定方法の全体の構成を示す図である。
【0142】
文書順位決定システムは、文書と関連するクエリ候補を生成してもよい(S801)。具体的に、文書順位決定システムは、文書と関連するキーワードを用いて少なくとも1つのクエリ候補を生成してもよい。
【0143】
文書順位決定システムは、クエリ候補と関連する文書の重要度を算出してもよい(S802)。
【0144】
一例として、文書順位決定システムは、クエリ候補と関連する文書の文書順位スコアに基づいて文書の重要度を算出してもよい。具体的に、文書順位決定システムは、文書順位スコアが高いほど文書の重要度を高く算出してもよい。
【0145】
他の一例として、文書順位決定システムは、クエリ候補と関連する文書の順位に基づいて文書の重要度を算出してもよい。すなわち、文書順位決定システムは文書の順位が高いほど文書の重要度を高く算出してもよい。
【0146】
文書順位決定システムはクエリ候補の重要度を算出してもよい(S803)。
【0147】
一例として、文書順位決定システムはクエリ候補に同一の重要度を割り当ててもよい。
【0148】
他の一例として、文書順位決定システムは、用いた文書数に基づいてクエリ候補に含まれたクエリ候補の重要度を算出してもよい。具体的に、文書順位決定システムは、より多くの文書で用いられるクエリ候補よりも、より少ない文書で用いられるクエリ候補をより重要に判断してもよい。
【0149】
更なる一例として、文書順位決定システムは、クエリとしてユーザに用いられる頻度に基づいてクエリ候補に含まれたクエリ候補の重要度を算出してもよい。具体的に、文書順位決定システムは、全て収集されたクエリのうちユーザに用いられた頻度を考慮してクエリ候補の重要度を算出してもよい。
【0150】
更なる一例として、文書順位決定システムは、ユーザが用いるクエリ候補の長さに基づいてクエリ候補に含まれたクエリ候補の重要度を算出してもよい。具体的に、文書順位決定システムは、全て収集されたクエリのうちクエリ候補の長さに応じて分類した後、クエリの長さごとにクエリ候補の重要度を算出してもよい。
【0151】
更なる一例として、文書順位決定システムは、ユーザの関心度に基づいてクエリ候補の重要度を算出してもよい。すなわち、文書順位決定システムは、最近ユーザの関心度の高いクエリ候補の重要度を高く評価してもよい。
【0152】
文書順位決定システムは、文書の重要度およびクエリ候補の重要度を用いて文書順位を決定してもよい(S804)。このとき、文書順位決定システムは、クエリ候補またはクエリ候補を構成するキーワードのうちいずれか1つに基づいて文書順位を決定してもよい。すなわち、文書順位決定システムはクエリ候補単位で文書順位を決定するか、またはクエリ候補を構成するキーワード単位に文書順位を決定してもよい。
【0153】
以上のように、本発明の実施形態により、ユーザがクエリを入力する前のステップにおいてクエリとは関係なく文書の順位を正確に決定することができる。また、ユーザからクエリが入力される前に文書の重要度を算出することによって、検索の前処理ステップであってもより正確に文書の順位を決定することができる。さらに、文書の重要度のみならず、クエリ候補の重要度を用いて文書の順位を決定することによって、検索品質の高い文書を検索結果の上位に配置することができる。本発明の実施形態によれば、文書の重要度とクエリ候補の重要度に基づいて文書の検索順位を決定することによって、文書を収集するとき訪問するウェブサイトの訪問順位、検索エンジンの文書の格納場所の容量に余裕がないときに削除する文書の優先順位、検索サービスに用いられるコレクションに含まれる重要文書の優先順位を効率的に決定することができる。
【符号の説明】
【0154】
200 文書順位決定システム
201 クエリ候補生成部
202 重要度算出部
203 文書順位決定部
204 文書重要度算出部
205 クエリ候補重要度算出部

【特許請求の範囲】
【請求項1】
ユーザからクエリが入力される前に文書と関連するキーワードを用いて少なくとも1つのキーワードを含むクエリ候補を生成するクエリ候補生成部と、
前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出する重要度算出部と、
前記文書の重要度および前記クエリ候補の重要度を用いて文書順位を決定する文書順位決定部と、
を備えることを特徴とする文書順位決定システム。
【請求項2】
前記重要度算出部は、前記クエリ候補と関連する文書の文書順位スコアに基づいて前記文書の重要度を算出する文書重要度算出部を備えることを特徴とする請求項1に記載の文書順位決定システム。
【請求項3】
前記重要度算出部は、前記クエリ候補と関連する文書の順位に基づいて前記文書の重要度を算出する文書重要度算出部を備えることを特徴とする請求項1に記載の文書順位決定システム。
【請求項4】
前記重要度算出部は、前記クエリ候補に同一の重要度を割り当てるクエリ候補重要度算出部を備えることを特徴とする請求項1に記載の文書順位決定システム。
【請求項5】
前記重要度算出部は、用いた文書数、クエリとしてユーザに用いられる頻度、ユーザに用いられるクエリの長さ、またはユーザの関心度のうち少なくともいずれかに基づいて前記クエリ候補の重要度を算出するクエリ候補重要度算出部を備えることを特徴とする請求項1に記載の文書順位決定システム。
【請求項6】
前記文書順位決定部は、クエリ候補またはクエリ候補を構成するキーワードのうちのいずれか1つに基づいて文書順位を決定することを特徴とする請求項1に記載の文書順位決定システム。
【請求項7】
前記クエリ候補と関連する検索クエリを受信すると、前記検索クエリに対応する文書を文書順位に応じて整列して検索結果を提供する検索結果提供部をさらに備えることを特徴とする請求項1に記載の文書順位決定システム。
【請求項8】
ユーザからクエリが入力される前に文書と関連するキーワードを用いて少なくとも1つのキーワードを含むクエリ候補を生成するステップと、
前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出するステップと、
前記文書の重要度および前記クエリ候補の重要度を用いて文書順位を決定するステップと、
を含むことを特徴とする文書順位決定方法。
【請求項9】
前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出するステップは、前記クエリ候補と関連する文書の文書順位スコアに基づいて前記文書の重要度を算出することを特徴とする請求項8に記載の文書順位決定方法。
【請求項10】
前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出するステップは、前記クエリ候補と関連する文書の順位に基づいて前記文書の重要度を算出することを特徴とする請求項8に記載の文書順位決定方法。
【請求項11】
前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出するステップは、前記クエリ候補に同一の重要度を割り当てることを特徴とする請求項8に記載の文書順位決定方法。
【請求項12】
前記クエリ候補と関連する文書の重要度および前記クエリ候補の重要度を算出するステップは、用いた文書数、ユーザが用いる頻度、ユーザが用いるクエリの長さ、またはユーザの関心度のうち少なくともいずれかに基づいて前記クエリ候補の重要度を算出することを特徴とする請求項8に記載の文書順位決定方法。
【請求項13】
前記文書順位を決定するステップは、クエリ候補またはクエリ候補を構成するキーワードのうちのいずれか1つに基づいて文書順位を決定することを特徴とする請求項8に記載の文書順位決定方法。
【請求項14】
前記クエリ候補と関連する検索クエリを受信するステップと、
前記検索クエリに対応する文書を前記文書順位に応じて整列して検索結果に提供するステップと、
をさらに含むことを特徴とする請求項8に記載の文書順位決定方法。
【請求項15】
請求項8から請求項14のいずれかに記載の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−33167(P2012−33167A)
【公開日】平成24年2月16日(2012.2.16)
【国際特許分類】
【出願番号】特願2011−159293(P2011−159293)
【出願日】平成23年7月20日(2011.7.20)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)