説明

検索装置

【課題】検索意図が違うと検索者の閲覧行動に基づくランキング付けは間違ったものになってしまうこと。
【解決手段】この検索装置は、閲覧程度情報記憶手段110と検索手段120とを備える。閲覧程度情報記憶手段110は、文書の閲覧程度情報を検索条件別に記憶する。検索手段120は、指定された検索条件に合致する文書を検索し、この検索した文書ごとに、上記指定された検索条件と同じ検索条件に対応して閲覧程度情報記憶手段110に記憶されている閲覧程度情報を考慮してスコアを算出し、この算出したスコアでランキング付けした検索結果を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索結果をランキング付けする機能を有する検索装置に関する。
【背景技術】
【0002】
検索者から入力された検索条件に合致する文書を検索する検索装置において、検索結果の一覧を表示する際のランキング手法が各種提案ないし実用化されている。その内の一つに、検索者の閲覧行動に基づく手法がある。
【0003】
検索者の閲覧行動に基づいて検索結果をランキング付けする手法を用いた検索装置の一例が特許文献1に記載されている。特許文献1に記載された検索装置は、検索対象となる各文書ごとに、その文書の閲覧の程度情報をサーバ装置が記憶している。文書の閲覧の程度情報としては、その文書の閲覧時間、一定期間におけるその文書の表示頻度などが用いられている。これらの閲覧の程度は、検索者の使用するクライアント装置側で測定されて、サーバ装置へ送信されるようになっている。そして、サーバ装置は、検索者から指定された検索条件に合致する文書を検索した際、検索した各文書ごとに、上記記憶している閲覧の程度情報に基づいて、閲覧の程度が高いほど重要な文書である、という考え方の下にランキング付けを行う。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−52579号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般に検索された文書の重要度は、検索者の検索意図によって変化する。例えば、X社、Y社、Z社など各社の携帯電話を主に紹介している文書B1の場合、各社の携帯電話の情報を知りたい検索者U1にとっては重要であるが、X社の事業全般を知りたい検索者U2にとってはあまり重要ではない。反対に、X社の事業全般についての説明が主であり、X社の携帯電話に関して少しだけ触れている文書B2の場合、逆の結果、つまり検索者U2にとって重要であるが、検索者U1にはあまり重要でない。
【0006】
しかるに、上述した特許文献1では、検索者の閲覧意図と閲覧行動とを考慮したランキング付けが行えない。例えば上述した例で説明すれば、検索者U1が閲覧した文書B1、B2の閲覧時間を例えば100秒、5秒、検索者U2が閲覧した文書B1、B2の閲覧時間を例えば5秒、200秒とすると、特許文献1では、文書B1の閲覧時間を105秒、文書B2の閲覧時間を205秒として管理する。そして、後の任意の検索者による検索時に、文書B1、B2が検索結果に含まれた場合に、文書B2の閲覧の程度が文書B1より高いので、検索者の検索意図にかかわらず文書B2を文書B1より重要な文書としてランキング付けする。この結果、各社の携帯電話の情報を知りたい検索者に対して、正しくないランキング付けとなってしまう。
【0007】
本発明の目的は、上述した課題、すなわち検索意図が違うと検索者の閲覧行動に基づくランキング付けは間違ったものになってしまう、という課題を解決する検索装置を提供することにある。
【課題を解決するための手段】
【0008】
本発明の一形態にかかる検索装置は、文書の閲覧程度情報を検索条件別に記憶する閲覧程度情報記憶手段と、指定された検索条件に合致する文書を検索し、該検索した文書ごとに、上記指定された検索条件と同じ検索条件に対応して上記閲覧程度情報記憶手段に記憶されている閲覧程度情報を考慮してスコアを算出し、該算出したスコアでランキング付けした検索結果を出力する検索手段とを備える。
【発明の効果】
【0009】
本発明は上述したように構成されているため、検索者の検索意図と閲覧行動とに基づいて検索結果をランキング付けすることができる。
【図面の簡単な説明】
【0010】
【図1】本発明の第1の実施形態のブロック図である。
【図2】本発明の第2の実施形態のブロック図である。
【図3】本発明の第2の実施形態における閲覧行動ログの構成例を示す図である。
【図4】本発明の第2の実施形態における閲覧時間ログの構成例を示す図である。
【図5】本発明の第2の実施形態における閲覧時間ログ生成プログラムの動作例を示すフローチャートである。
【図6】本発明の第2の実施形態における文書情報のスコア計算手順の一例を示す図である。
【図7】本発明の第2の実施形態における文書情報のスコア計算式を示す図である。
【発明を実施するための形態】
【0011】
次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1を参照すると、本発明の第1の実施形態にかかる検索装置100は、一般的にはサーバ装置から構成され、ユーザから入力される検索条件に合致する文書を検索し、検索結果をランキング付けしてユーザに返却する機能を有している。この検索装置100は、閲覧程度情報記憶手段110と、検索手段120と、閲覧履歴記憶手段130と、閲覧程度情報算出手段140とを備えている。
【0012】
閲覧程度情報記憶手段110は、文書の閲覧程度情報を検索条件別に記憶する機能を有する。検索条件とは、例えば、検索者が検索要求時に入力する検索キーワードである。文書の閲覧程度情報とは、その文書が閲覧された程度を表す情報であり、例えば、その文書の閲覧時間である。ただし、文書の閲覧程度情報は、文書の閲覧時間にのみ限定されず、他の種類の情報、例えば文書が閲覧された回数であってもよい。
【0013】
検索手段120は、ユーザから指定された検索条件に合致する文書を検索する機能と、検索した文書ごとに、指定された検索条件と同じ検索条件に対応して閲覧程度情報記憶手段110に記憶されている閲覧程度情報を考慮してスコアを算出する機能と、算出したスコアでランキング付けした検索結果を出力する機能とを有する。
【0014】
検索手段120が検索の対象とする文書或いはそのインデックスは、検索装置100内の記憶装置あるいは検索装置100からアクセス可能な外部の記憶装置に記憶されている。検索装置100が企業内検索(Enterprise Search)を行う装置である場合、検索の対象となる文書は、データベース内のデータ、ファイルサーバ内のデータや、業務アプリケーションなど、様々な形態の構造データ、非構造データが含まれる。また検索装置100がインターネット検索を行う装置である場合、検索の対象となるコンテンツは、ウェブサイトのページなどが含まれる。
【0015】
検索手段120は、検索したコンテンツのスコアを算出する際、検索した文書ごとに、上記指定された検索条件と同じ検索条件に対応して閲覧程度情報記憶手段110に記憶されている閲覧程度情報を考慮した補正スコアを算出し、この算出した補正スコアを考慮して上記スコアを算出してよい。
【0016】
また検索手段120は、検索したコンテンツのスコアを算出する際、検索した文書ごとに、仮スコアと、上記指定された検索条件と同じ検索条件に対応して閲覧程度情報記憶手段110に記憶されている閲覧程度情報を考慮した補正スコアとを算出し、この算出した仮スコアと補正スコアとから上記スコアを算出してよい。その際、算出した仮スコアから補正スコアを減算することにより上記スコアを算出してよい。仮スコアは、任意のスコアリングアルゴリズムで算出することができる。
【0017】
閲覧履歴記憶手段130は、文書の閲覧履歴を記憶する機能を有する。文書の閲覧履歴は、例えば、閲覧された文書を一意に識別するための識別子と、その文書が検索された際の検索条件とを少なくとも含む。また、閲覧程度情報として、閲覧時間を用いる場合、閲覧履歴は、閲覧時間を算出する基礎となる閲覧時刻を含む。
【0018】
閲覧程度情報算出手段140は、閲覧履歴記憶手段130に記憶された文書の閲覧履歴からその文書の閲覧程度情報を算出して、閲覧程度情報記憶手段110に記憶する機能を有している。閲覧程度情報算出手段140は、新たな閲覧履歴が閲覧履歴記憶手段130に記憶される都度、閲覧程度情報を算出してもよいし、一定時間毎にその期間内に新たに蓄積された閲覧履歴から閲覧程度情報を算出するようにしてもよい。
【0019】
次に本実施形態の動作を説明する。
【0020】
ユーザから図示しないクライアント端末などの端末を通じて、検索キーワードなどの検索条件を指定した検索要求が入力されると、検索装置100の検索手段120は、検索条件に合致する文書を検索する。
【0021】
次に検索手段120は、検索した文書ごとに、今回の検索要求で指定された検索条件と同じ検索条件に対応して閲覧程度情報記憶手段110に記憶されている閲覧程度情報を考慮してスコアを算出する。
【0022】
次に検索手段120は、上記算出したスコアで検索結果をソートし、検索要求を行ったユーザの端末へ送信する。これにより、検索要求を行ったユーザの端末の画面に、ランキング付けされた検索結果が表示される。
【0023】
その後にユーザが、検索結果中の何れかの文書を閲覧すると、その閲覧された文書の識別子と上記検索条件とを含む閲覧履歴が閲覧履歴記憶手段130に記録される。そして、閲覧程度情報算出手段140は、閲覧履歴記憶手段130に記録された閲覧履歴に基づいて、閲覧程度情報を算出し、閲覧程度情報記憶手段110に記憶する。これにより、新たな閲覧が行われるのに従って、閲覧程度情報記憶手段110中の閲覧程度情報が更新されていく。
【0024】
次に、本実施形態の効果を説明する。
【0025】
一般に検索条件は、検索者の検索意図を表現している。このため、文書の閲覧程度情報を検索条件別に記録することで、検索意図別に閲覧程度情報を管理することができる。そして、指定された検索条件と同じ検索条件に対応して閲覧程度情報記憶手段110に記憶されている閲覧程度情報を考慮してスコアを算出し、この算出したスコアでランキング付けすることにより、検索者の検索意図と閲覧行動とに基づいて、検索結果をランキング付けすることが可能になる。
【0026】
[第2の実施形態]
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。
【0027】
[構成]
図2を参照すると、本発明の第2の実施形態は、端末装置1と、検索システム2とから構成されている。また、検索システム2は、検索サーバ21と、スコアリングサーバ22と、ウェブサーバ23と、ログサーバ24とを備えている。図1との関係では、検索サーバ21、ウェブサーバ23、およびスコアリングサーバ22のスコア計算機能部分が検索手段120に相当し、ログサーバ24が閲覧履歴記憶手段130に相当し、閲覧時間ログ生成プログラム222が閲覧程度情報算出手段140に相当し、閲覧時間ログ221が閲覧程度情報記憶手段110に相当する。
【0028】
端末装置1は、パーソナルコンピュータ等のコンピュータで構成され、ウェブブラウザ11を備えている。ウェブブラウザ11は、HTTPプロトコルを介して、検索サーバ21への検索式の送信およびウェブサーバ23からの検索結果画面231の受信を行う。
【0029】
検索サーバ21は、ウェブブラウザ11が送信した検索式を受信し、検索式に合致する文書を検索インデックス211から探索し、スコアリングサーバ22から検索結果として得た文書毎のスコアを取得後、検索結果をウェブサーバ23に送信する。
【0030】
スコアリングサーバ22は、検索サーバ21が送信した文書情報を受信し、閲覧時間ログ221をもとに文書のスコアを計算し、検索サーバ21に送信する。また、閲覧時間ログ生成プログラム222を使用して、ログサーバ24が収集した閲覧行動ログ241から閲覧時間ログ221を生成する。
【0031】
ウェブサーバ23は、検索サーバ21から検索結果を受信し、検索結果から検索結果画面231(ウェブ文書)を生成し、ウェブブラウザ11に送信する。
【0032】
ログサーバ24は、ウェブブラウザ11が送信するリンク232のクリック情報を受信し、閲覧行動ログ241に格納する。
【0033】
[動作]
次に、図2から図7を参照して本実施形態の動作について詳細に説明する。
【0034】
本実施形態の動作は、大きく分けて、検索者の閲覧行動を収集し閲覧行動ログ241を作成するフェーズと、作成した閲覧行動ログ241から閲覧時間ログ221を作成するフェーズと、作成した閲覧時間ログ221をもとに検索結果画面231に表示する検索結果をランキング付けするフェーズとからなる。
【0035】
はじめに、検索者の閲覧行動を収集し閲覧行動ログ241を作成するフェーズについて説明する。
【0036】
検索者が、ウェブサーバ23から受信した検索結果231に含まれる検索対象文書へのリンク232をクリックすると、周知の技術により、リンク先の文書がウェブブラウザ11に表示される。これにより、検索者は検索対象文書の内容を閲覧することができる。本実施形態の場合、ウェブブラウザ11は、上記クリック時にクリック情報をログサーバ24へ送信する。クリック情報には、クリックされたURL、クリックされた時刻、検索者がその検索結果を得るのに使用した検索式、およびウェブサーバ23がウェブブラウザ11に発行したセッションID(ウェブサーバがウェブブラウザを識別するために、各ウェブブラウザに発行する一意なハッシュ値)が含まれる。検索者がクリックしたウェブ文書のURL等の所定の情報を含むクリック情報を収集する方法は、ウェブ文書にあらかじめJavascriptを埋め込むことで実現することができる。
【0037】
ログサーバ24は、ウェブブラウザ11から受信した検索者のクリック情報を受信し、閲覧行動ログ241に記録する。閲覧行動ログの記録例を図3に示す。図3の1行が一つの閲覧行動ログのレコードに相当する。閲覧行動ログ中の文書URL、検索式およびセッションIDは、ウェブブラウザ11から受信したクリック情報から取得する。また、閲覧行動ログ中のログ記録時刻は、クリック情報中のクリックされた時刻から取得しても良いし、ウェブブラウザ11から検索者のクリック情報を受信した時刻を記録するようにしても良い。
【0038】
次に、作成した閲覧行動ログ241から閲覧時間ログ221を作成するフェーズについて説明する。
【0039】
閲覧時間ログ221は、図4に示すように、検索式および文書URLの対に対する総閲覧時間を保持するデータ構造であり、閲覧時間ログ生成プログラム222を使用して閲覧行動ログ241から作成する。
【0040】
閲覧時間ログ生成プログラム222の動作仕様を図5に示す。閲覧時間ログ生成プログラム222は、閲覧行動ログ241の1行目から処理を開始し、各行毎にレコード(セッションID、ログ記録時刻、検索式、文書URL)を取得して処理を行い、最終行で処理を終了する(図5のステップA1、A2、A10、A11)。
【0041】
各行毎の処理では、はじめに、閲覧行動ログ241から取得したレコード(以下、レコードX)の位置を開始位置として、レコードのセッションIDおよび検索式が合致する直近のレコード(以下、レコードY)を探索する(ステップA3)。レコードYが存在する場合、レコードXとレコードYのログ記録時刻の差(以下、時間T)を計算する(ステップA5)。時間Tは、レコードXの文書URLの閲覧時間の近似値として使用する。レコードYが存在しない場合、時間Tにはゼロを設定する(ステップA6)。レコードYが存在しない原因としては、検索者が最後にクリックした検索結果画面231のリンク232がレコードXの場合、または検索者のクリック情報が何らかの理由によりログサーバ24に送信されなかった場合などが考えられる。
【0042】
次に、閲覧時間ログ221から、レコードXの検索式および文書URLに合致するレコード(以下、レコードZ)を探索する(ステップA7)。レコードZが存在する場合、レコードZの総閲覧時間に時刻Tを加算する(ステップA8)。レコードZが存在しない場合、閲覧時間ログ221にレコードZを追加し、総閲覧時間に時間Tを設定する。
【0043】
以上の処理の結果、閲覧時間ログ221には、検索式および文書URLの対に対する総閲覧時間が算出される。
【0044】
最後に、作成した閲覧時間ログ221をもとに検索結果画面231に表示する検索結果をランキング付けするフェーズについて説明する。
【0045】
ウェブブラウザ11は、検索式を検索サーバ21に送信する。検索サーバ21は、検索式を受信し、検索式に合致する文書情報の一覧を検索インデックス211から取得する。次に、検索サーバ21は、取得した文書情報毎に、検索式および文書URLをスコアリングサーバ22に送信する。
【0046】
スコアリングサーバ22は、検索式および文書URLを受信し、文書URLのスコアを計算し(計算方法の詳細は後述する)、検索サーバ21に送信する。検索サーバ21は、文書情報の一覧および文書情報毎のスコアをウェブサーバ23に送信する。ウェブサーバ23は、検索結果の文書情報一覧をスコアの降順にソートし、検索結果画面231を生成し、ウェブブラウザ11に送信する。
【0047】
スコアリングサーバ22が、検索式および文書URLをもとに、文書情報のスコアを計算する際の動作仕様を図6に示す。スコアリングサーバ22は、閲覧時間ログ221から、検索サーバ21から受信した検索式および文書URLに合致するレコード(以下、レコードV)を探索する(図6のステップB1)。
【0048】
レコードVが存在する場合、レコードVの総閲覧時間を使用して、図7の式E1を計算する(ステップB2、B3、B5)。レコードVが存在しない場合、総閲覧時間を0として、図7の式E1を計算する(ステップB2、B4、B5)。
【0049】
式E1は、検索式qに対する文書URLLのスコアscore(q,L)を、検索式qに対する文書URLLの仮スコアf(q,L)から、補正スコアu(q,L)を減算して計算することを示している。仮スコアf(q,L)は、汎用的なスコアリングエンジンなどを利用して算出することができる。また、全文書に対して同じスコアを仮スコアとして付与しておいてもよい。
【0050】
補正スコアu(q,L)は、図7の式E2により、検索式qに対する文書URLLの総閲覧時間TqLと、重み値α、βとを用いて計算される。補正スコアu(q,L)は、総閲覧時間TqLが大きくなるほど小さくなる傾向を示す。
【0051】
スコアリングサーバ22は、式E1を計算して得た値を、文書のスコアとして検索サーバ21に返却する。
【0052】
このように本実施形態では、検索者による総閲覧時間の短い文書ほど有用でない文書である確率が高いという仮定に基づき、検索者による総閲覧時間の短さに応じて、検索システムが返却する検索結果のランキングを下降させることで、検索者による総閲覧時間の長い文書ほど検索結果の上位に表示されるようにする。これにより、検索者の閲覧行動を反映した検索結果のランキング付けを実現することができる。
【0053】
以上本発明の実施形態について説明したが、本発明は以上の実施形態にのみ限定されず、その他各種の付加変更が可能である。また、本発明の検索装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における検索装置、検索システムとして機能させる。
【産業上の利用可能性】
【0054】
本発明によれば、さまざまな検索対象(ファイルサーバ、ウェブサーバ、データベース、Lotus Notes、業務アプリケーションなど)に格納された文書を横断的に検索する必要のある、企業内検索システムにおける検索結果のランキング方法という用途などに適用できる。
【符号の説明】
【0055】
1 端末装置
2 検索システム
11 ウェブブラウザ
21 検索サーバ
22 スコアリングサーバ
23 ウェブサーバ
24 ログサーバ
100 検索装置
110 閲覧程度情報記憶手段
120 検索手段
130 閲覧履歴記憶手段
140 閲覧程度情報算出手段

【特許請求の範囲】
【請求項1】
文書の閲覧程度情報を検索条件別に記憶する閲覧程度情報記憶手段と、
指定された検索条件に合致する文書を検索し、該検索した文書ごとに、前記指定された検索条件と同じ検索条件に対応して前記閲覧程度情報記憶手段に記憶されている閲覧程度情報を考慮してスコアを算出し、該算出したスコアでランキング付けした検索結果を出力する検索手段と
を備えることを特徴とする検索装置。
【請求項2】
前記検索手段は、前記検索した文書ごとに、前記指定された検索条件と同じ検索条件に対応して前記閲覧程度情報記憶手段に記憶されている閲覧程度情報を考慮した補正スコアを算出し、該算出した補正スコアを考慮して前記スコアを算出する
ことを特徴とする請求項1に記載の検索装置。
【請求項3】
前記検索手段は、前記検索した文書ごとに、仮スコアと、前記指定された検索条件と同じ検索条件に対応して前記閲覧程度情報記憶手段に記憶されている閲覧程度情報を考慮した補正スコアとを算出し、前記算出した仮スコアと前記補正スコアとから前記スコアを算出する
ことを特徴とする請求項1または2に記載の検索装置。
【請求項4】
前記検索手段は、前記検索した文書ごとに、仮スコアと、前記指定された検索条件と同じ検索条件に対応して前記閲覧程度情報記憶手段に記憶されている閲覧程度情報を考慮した補正スコアとを算出し、前記算出した仮スコアから前記補正スコアを減算することにより前記スコアを算出する
ことを特徴とする請求項1乃至3の何れか1項に記載の検索装置。
【請求項5】
前記文書の閲覧履歴を記憶する閲覧履歴記憶手段と、
前記閲覧履歴記憶手段に記憶された前記文書の閲覧履歴から前記文書の閲覧程度情報を算出して前記閲覧程度情報記憶手段に記憶する閲覧程度情報算出手段と
を備えることを特徴とする請求項1乃至4の何れか1項に記載の検索装置。
【請求項6】
前記閲覧程度情報は、閲覧総時間を含む
ことを特徴とする請求項1乃至5の何れか1項に記載の検索装置。
【請求項7】
前記閲覧程度情報は、閲覧総回数を含む
ことを特徴とする請求項1乃至6の何れか1項に記載の検索装置。
【請求項8】
文書の閲覧程度情報を検索条件別に記憶する閲覧程度情報記憶手段と、検索手段とを備えた検索装置で実行する検索方法であって、
前記検索手段が、指定された検索条件に合致する文書を検索し、該検索した文書ごとに、前記指定された検索条件と同じ検索条件に対応して前記閲覧程度情報記憶手段に記憶されている閲覧程度情報を考慮してスコアを算出し、該算出したスコアでランキング付けした検索結果を出力する
ことを特徴とする検索方法。
【請求項9】
文書の閲覧程度情報を検索条件別に記憶する閲覧程度情報記憶手段を有するコンピュータを、
指定された検索条件に合致する文書を検索し、該検索した文書ごとに、前記指定された検索条件と同じ検索条件に対応して前記閲覧程度情報記憶手段に記憶されている閲覧程度情報を考慮してスコアを算出し、該算出したスコアでランキング付けした検索結果を出力する検索手段
として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−175342(P2011−175342A)
【公開日】平成23年9月8日(2011.9.8)
【国際特許分類】
【出願番号】特願2010−37188(P2010−37188)
【出願日】平成22年2月23日(2010.2.23)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】