説明

検索ランキング装置、検索ランキング方式、及び、検索ランキングプログラム

【課題】 情報検索、情報推薦や情報提供サービス、システムにおいて、ハブ的なコンテンツをより迅速、的確に提供できるようにすること。
【解決手段】 検索されたコンテンツ情報を受け取り、前記コンテンツ情報のスコアを返却する制御部と、前記コンテンツ情報と、アウトリンクに関する情報とのどちらか又は両方を基に前記コンテンツ情報の属性値を求めるコンテンツ解析部と、前記コンテンツ情報の属性値を基に前記コンテンツ情報の前記スコアを算出するスコア計算部とを備えることを特徴とする検索ランキング装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワークのコンテンツを検索対象とした検索ランキング装置、検索ランキング方法、及び、検索ランキングプログラムに関する。
【背景技術】
【0002】
インターネット(Internet)のウェブ(Web:World Wide Web)など、ネットワーク(network)上には、参照などのリンク(link、関連付け)構造を持ついろいろな情報(以下、コンテンツ(contents)と言う)が大量に蓄積されている。このコンテンツにおけるリンク構造には、自コンテンツから他のコンテンツへのリンクと、他のコンテンツからの自コンテンツへのリンクとの2種類がある。このうち、他コンテンツから自コンテンツに張られたリンクのことを、インリンク(in link)(、バックリンク(back link)、又は、被リンクなど)と言う。また、自コンテンツから他コンテンツへのリンク、つまりインリンクの逆のリンクをアウトリンク(out link)と言う。
【0003】
また、これらのネットワーク上のコンテンツから、利用者が必要としているコンテンツを探し出し(検索)、提示するために、検索ランキング(ranking、順位付け)装置などが使用されている。
【0004】
このような検索の対象となるコンテンツは、いろいろな基準で分類することができる。コンテンツの分類としては、例えば、それ自身が重要な情報を持つコンテンツ(以下、オーソリティ(authority)と言う)と、オーソリティに対して総覧的にアクセスする情報などを提供するコンテンツ(以下、ハブ(hub)と言う)とに分類することができる。
【0005】
検索ランキング装置などが、あるコンテンツをオーソリティと判別する手法としては、例えば、そのコンテンツに対するインリンクを解析する手法などがある。(例えば、非特許文献1、2を参照)また、あるコンテンツをハブと判別する手法としては、インリンクとアウトリンクとを解析するHits(Hyperlink-Induced Topic Search)などの手法がある。(例えば、非特許文献3を参照)
さらに、検索ランキング装置は、コンテンツの重要度を決定するページランキング(Page Ranking)も行う。このページランキングを行うために、検索ランキング装置は、コンテンツのリンク構造などから求めたコンテンツの属性値を基に、コンテンツのスコア(score、得点)を計算するスコアリング(scoring)も行う。(例えば、特許文献1、2を参照)
このようなインターネットのウェブの検索を想定した一般的な検索ランキング装置は、ハブではなく、重要な情報に持つオーソリティを上位に提示することを目的とするものが多い。
【0006】
また、一般的な検索ランキング装置は、コンテンツのリンクに関しても、大量のリンクの存在を想定している。例えば、Hitsは、ハブに対するインリンクを多く持つコンテンツをオーソリティ、オーソリティへのアウトリンクを多く持つコンテンツをハブと認識する。そして、Hitsは、ハブとオーソリティとを再帰的に計算することにより、コンテンツのランキングを求める。つまり、Hitsは、オーソリティとハブとの関係が、多対多であることを想定している。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2006−127529
【特許文献2】特開2005−056206
【非特許文献】
【0008】
【非特許文献1】S. Brin and L. Page. The anatomy of a large-scale hypertextual Web searchengine. Computer Networks and ISDN Systems, Vol. 30, No. 1-7, pp. 107.117,1998.
【非特許文献2】L. Page, S. Brin, R. Motwani, and T. Winograd. The pagerank citation ranking:Bringing order to the web, 1998.
【非特許文献3】J.O.N.M. Kleinberg. Authoritative Sources in a Hyperlinked Environment. Journal of the ACM, Vol. 46, No. 5, pp. 604.632, 1999.
【発明の概要】
【発明が解決しようとする課題】
【0009】
このようなリンク構造を備えたコンテンツには、企業内など、いわゆるイントラネット(intranet)で使用されるものがある。
【0010】
企業内などのイントラネットでは、検索対象となるコンテンツの多くが業務に関連するものである。一般的に、業務に関連するコンテンツの多くは、その業務を担当する部署が作成及び管理を統括している。そのため、各業務に関するコンテンツは、例えば、その担当部署のホスト(host)となるサーバ(server)など1つのサイト(site)に集中して保存される場合が多い。さらに、その業務のポータルサイト(portal site、入り口となるサイト)となるハブも、そのサイトに保存される場合が多い。そして、その業務の利用者は、まず、その業務についてのポータルサイトであるその業務のハブを検索する場合が多いと考えられる。
【0011】
また、企業の業務には、ある程度シーケンシャル(sequential、逐次的)に処理する業務が多い。そのような逐次的な業務に関連するコンテンツは、前後の業務が固定かつ少数となるため、リンクするコンテンツが少ない。さらに、企業には、他の部署の業務との関連が少ない部署がある。そのような他の部署と関連が少ない部署のコンテンツは、他の部署のコンテンツとのリンクも少ない。
【0012】
このように、企業内のイントラネットなどのコンテンツは、次のような特徴を備えている。
【0013】
(1)最初にハブが使用される。
【0014】
(2)コンテンツ間のリンクが少ない。
【0015】
つまり、企業内のイントラネットなどのコンテンツを検索する検索ランキング装置は、次のような機能を備えていることが必要となる。
【0016】
(1)ハブをランキングの上位に提示する。
【0017】
(2)コンテンツ間のリンクが少なくてもランキングを行うことができる。
【0018】
しかし、既に説明したとおり、インターネットなどで使用されている一般的な検索ランキング装置は、リンクが多くあることを前提とし、また、オーソリティを上位に提示するものである。そのため、一般的な検索ランキング装置は、企業内のイントラネットなどの検索において、適切な検索結果を求め、提示することができない。
【0019】
本発明の目的は、上記問題点を解決し、検索対象となるコンテンツのリンクが少ない場合でも、ハブを上位にランキングさせることが出来る検索ランキング装置、検索ランキング方法、及び、検索ランキングプログラムを提供することにある。
【課題を解決するための手段】
【0020】
本発明の検索ランキング装置は、検索されたコンテンツ又はコンテンツに関する情報(以下まとめて、コンテンツ情報と言う)を受け取り、前記コンテンツ情報のスコアを返却する制御部と、前記コンテンツ情報と前記コンテンツ情報から他コンテンツ情報へのリンク(以下、アウトリンクと言う)に関する情報とのどちらか又は両方を基に前記コンテンツ情報の属性値を求めるコンテンツ解析部と、前記コンテンツ情報の属性値を基に前記コンテンツ情報の前記スコアを算出するスコア計算部とを備えることを特徴とする。
【0021】
本発明の検索ランキング方法は、検索されたコンテンツ又はコンテンツに関する情報(以下まとめて、コンテンツ情報と言う)を受け取り、前記コンテンツ情報と前記コンテンツ情報から他コンテンツ情報へのリンク(以下、アウトリンクと言う)に関する情報とのどちらか又は両方を基に前記コンテンツ情報の属性値を求め、前記コンテンツ情報の属性値を基に前記コンテンツ情報のスコアを算出し、前記コンテンツ情報の前記スコアを返却することを特徴とする。
【0022】
本発明の検索ランキングプログラムは、検索されたコンテンツ又はコンテンツに関する情報(以下まとめ、コンテンツ情報と言う)を受け取る処理と、前記コンテンツ情報と前記コンテンツ情報から他コンテンツ情報へのリンク(以下、アウトリンクと言う)に関する情報とのどちらか又は両方を基に前記コンテンツ情報の属性値を求める処理と、前記コンテンツ情報の属性値を基に前記コンテンツ情報のスコアを算出する処理と、前記コンテンツ情報の前記スコアを返却する処理とをコンピュータに実行させることを特徴とする。
【発明の効果】
【0023】
本発明によれば、検索対象となるコンテンツ情報のリンクが少ない場合でも、ハブを上位にランキングさせることが出来る。
【図面の簡単な説明】
【0024】
【図1】本発明における第1の実施形態に係る検索ランキング装置の一例を示すブロック図である。
【図2】第1の実施形態に係るクロール処理の一例を示すシーケンス図である。
【図3】第1の実施形態に係るインデックス情報の一例を示す図である。
【図4】第1の実施形態に係るコンテンツ表示情報の一例を示す図である。
【図5】第1の実施形態に係るコンテンツリンク情報の一例を示す図である。
【図6】第1の実施形態に係るアウトリンク抽出処理の一例を示すシーケンス図である。
【図7】第1の実施形態に係るアウトリンク構造データの一例を示す図である。
【図8】第1の実施形態に係る検索処理の一例を示すシーケンス図である。
【図9】第2の実施形態に係る検索ランキング装置の一例を示すブロック図である。
【図10】第2の実施形態に係る検索処理の一例を示すシーケンス図である。
【図11】第2の実施形態に係るURI構造の構成の一例を示す図である。
【図12】第3の実施形態に係る検索ランキング装置の一例を示すブロック図である。
【図13】第3の実施形態に係る検索ランキングシステムの一例を示すブロック図である。
【図14】第3の実施形態に係るコンテンツ作成方法の一例を示すフローチャート図である。
【図15】第4の実施形態に係る検索ランキング装置の一例を示すブロック図である。
【図16】第4の実施形態に係る検索処理の一例を示すシーケンス図である。
【発明を実施するための形態】
【0025】
次に、本発明について図面を参照して詳細に説明する。
(第1の実施形態)
本発明の第1の実施形態に係る検索ランキング装置1について、図面を参照して説明を行う。
【0026】
まず、第1の実施形態に係る検索ランキング装置1の構成について説明を行う。
【0027】
図1は、第1の実施形態に係る検索ランキング装置1の一例を示すブロック図である。
【0028】
検索ランキング装置1は、クローラ(crawler)部10と、コンテンツ保持部20と、アウトリンク抽出部30と、アウトリンク保持部40と、検索エンジン(engine)部50と、スコアリング部60とを含んで構成されている。
【0029】
クローラ部10は、ネットワーク(例えば、イントラネットなど)上にあるコンテンツのデータ又はアドレスやファイル名などコンテンツに関する情報(以下、まとめてコンテンツ情報と言う)を収集する。さらに、クローラ部10は、収集したコンテンツ情報の構造を解析し、リンクなどコンテンツ情報のネットワーク上での構造に関する情報(以下、コンテンツ構造データと言う)を作成する。そして、クローラ部10は、収集したコンテンツ情報と作成したコンテンツ構造データとをコンテンツ保持部20に渡して保持させる。
【0030】
コンテンツ保持部20は、クローラ部10が作成したコンテンツ構造データと収集したコンテンツ情報とを受け取り、保持する。また、コンテンツ保持部20は、他の構成などからの要求に応じて、コンテンツ情報又はコンテンツ構造データを渡す。
【0031】
アウトリンク抽出部30は、コンテンツ保持部20が保持しているコンテンツ構造データなどを基にコンテンツ情報のアウトリンクの構造に関する情報(以下、アウトリンク構造データと言う)を抽出する。また、アウトリンク抽出部30は、抽出したアウトリンク構造データをアウトリンク保持部40に渡し、保持させる。
【0032】
アウトリンク保持部40は、アウトリンク抽出部30が抽出したアウトリンク構造データを受け取り保持する。また、アウトリンク保持部40は、他の構成などの要求に応じて、保持しているアウトリンク構造データを渡す。
【0033】
検索エンジン部50は、図示しない利用者又は装置などから受け取った検索要求を基に、コンテンツ保持部20に保持されているコンテンツ情報から、検索要求に合致するコンテンツ情報を収集する。また、検索エンジン部50は、収集したコンテンツ情報をスコアリング部60に渡し、コンテンツ情報のランキングに使用するスコア(score)の算出を依頼し、算出されたスコアを受け取る。さらに、検索エンジン部50は、受け取ったスコアを基にコンテンツ情報のランキングを行い、検索要求を送った利用者などに、検索結果としてランキングに沿ったコンテンツ情報を返す。
【0034】
スコアリング部60は、検索エンジン部50から受け取ったコンテンツ情報を基に、検索エンジン部50がランキングで使用するコンテンツ情報のスコアを算出し、その算出したスコアを検索エンジン部50に返す。なお、スコアリング部60は、このコンテンツ情報のスコアの算出において、アウトリンク保持部40が保持しているアウトリンク構造データを使用するため、アウトリンク保持部40から、コンテンツ情報に関連するアウトリンク構造データを受け取る。
【0035】
次に、第1の実施形態に係る検索ランキング装置1の動作について、図面を参照して説明を行う。
【0036】
まず、クロール(crawl)処理について図面を参照して説明を行う。
【0037】
図2は、第1の実施形態に係るクロール処理の一例を示すシーケンス図である。
【0038】
クロール処理は、クローラ部10及びコンテンツ保持部20などにより、ネットワークからのコンテンツ情報の収集・保持、必要に応じて保持されているコンテンツ情報の更新、及び、コンテンツ構造データの作成・保持などを行う処理である。なお、第1の実施形態に係るクロール処理は、所定の時間間隔で定期的に起動されているものとして、起動などに関する詳細な説明は省略する。ただし、これは、あくまで説明の便宜のためである。本発明のクロール処理は、他のタイミングで起動されてもよく、図示しない別の管理装置などから起動されるようにしてもよい。
【0039】
まず、クローラ部10は、ネットワーク上にあるコンテンツ情報を収集するため、ネットワークにコンテンツ情報要求2001を送付し、ネットワークからコンテンツ情報2002を受け取り、収集する(ステップ201)。一方、ネットワークは、ステップ201に対応し、コンテンツ情報要求2001を受け、コンテンツ情報2002を返却する(ステップ202)。ここで、本発明に関するクローラ部10は、コンテンツ情報の収集動作として、いろいろな手法を使用することが可能である。なお、第1の実施形態に係るクローラ部10は、インターネットなどの検索サイトで使用されている一般的なクローラで使用される手法を使用することとし、詳細な説明は省略する。
【0040】
さらに、クローラ部10は、収集したコンテンツ情報を分析し、コンテンツ構造データを作成する(ステップ203)。
【0041】
クローラ部10は、コンテンツ構造データを作成後、収集したコンテンツ情報と作成したコンテンツ構造データとを有する情報2003をコンテンツ保持部20に渡し、データの保持を依頼する(ステップ204)。情報2003を受け取ったコンテンツ保持部20は、コンテンツ情報とコンテンツ構造データとなどを保持する(ステップ205)。なお、既に保存しているコンテンツ情報を受け取ったコンテンツ保持部20は、保持していたコンテンツ情報を受け取ったコンテンツ情報に更新する。ただし、コンテンツ保持部20は、更新履歴などとともに、保持していたコンテンツ情報を残すようにしてもよい。
【0042】
なお、第1の実施形態に係るコンテンツ保持部20は、例えば、コンテンツ情報の検索に関する情報、利用者のための情報、又は、コンテンツ情報のリンクに関する情報の一部又は全てを含んだコンテンツ情報又はコンテンツ構造データを保持している。コンテンツ保持部20は、これらの情報を、1つデータとして保持してもよく、2つ以上の複数のデータに分けて保持してもよい。
【0043】
コンテンツ保持部20が保持するコンテンツ情報及びコンテンツ構造データについて、図面を参照してさらに詳細に説明を行う。ただし、ここで説明を行うコンテンツ情報及びコンテンツ構造データは、あくまで一例であり、これに限られるわけではない。また、コンテンツ保持部20は、コンテンツ情報をまとめて保持するとして説明を行うが、これも説明の便宜のためであり、コンテンツ情報毎に分けるなど、別の形式で保持してもよい。
【0044】
図3は、検索要求などと一致するコンテンツ情報を検索するための情報(以下、インデックス(index)情報と言う)の一例を示す図である。第1の実施形態の説明において、インデックス情報は、コンテンツ保持部20が保持するコンテンツ情報に含まれるとするが、これに限られず、コンテンツ構造データに含まれてもよい。
【0045】
図3に一例を示すインデックス情報は、コンテンツ情報のネットワーク上での位置を示す情報(以下、コンテンツURI(Uniform Resource Identifier)と言う)と、コンテンツ情報の検索で使用するインデックスとを含んで構成されている。例えば、1行目のデータは、コンテンツURIが「http://a.nec.com/a/」であるコンテンツ情報が、検索のためのインデックスとして「部署A」を備えることを示している。また、6行目のデータは、同じコンテンツURI「http://a.nec.com/a/」が、別のインデックス「セキュリティ」も備えていることを示している。逆に、インデックスが「部署A」と合致するコンテンツURIは、「http://a.nec.com/a/」「http://a.nec.com/b/」「http://a.nec.com/b/a/」となる。
【0046】
図4は、検索要求を出した利用者に表示するコンテンツ情報(以下、コンテンツ表示情報と言う)の一例を示している。第1の実施形態の説明では、コンテンツ表示情報をコンテンツ保持部20が保持するコンテンツ情報に含まれるとするが、これに限られず、コンテンツ構造データに含まれてもよい。
【0047】
図4に一例を示すコンテンツ表示情報は、コンテンツ情報のネットワーク上での位置を示すコンテンツURIとコンテンツ情報の内容として利用者に表示する情報とを含んで構成されている。例えば、1行目のデータは、コンテンツURIが「http://a.nec.com/a/」のコンテンツ情報は、利用者に「部署A:セキュリティ対策」として表示することを示している。
【0048】
図5は、コンテンツ情報のリンクに関する情報(以下、コンテンツリンク情報と言う)の一例を示す図である。第1の実施形態の説明では、コンテンツリンク情報をコンテンツ保持部20が保持するコンテンツ構造データに含まれるとするが、これに限られず、コンテンツ情報に含まれてもよい。
【0049】
図5に一例を示すコンテンツリンク情報は、コンテンツURIと、そのコンテンツ情報のアウトリンクURIと、そのコンテンツ情報においてアウトリンクが設定された文字列(アンカーテキスト(anchor text))とを含んで構成されている。例えば、1行目のデータは、コンテンツURIが「http://a.nec.com/」であるコンテンツ情報は、そのコンテンツ情報の「部署A セキュリティ」との文字列に、URIが「http://a.nec.com/a/」であるアウトリンクが設定されていることを示している。
【0050】
次に、第1の実施形態に係るアウトリンク抽出処理について図面を参照して説明を行う。
【0051】
アウトリンク抽出処理は、アウトリンク抽出部30が、コンテンツ保持部20に保持されているコンテンツ構造データなどから、コンテンツ情報のアウトリンク構造データを抽出する処理である。
【0052】
図6は、第1の実施形態に係るアウトリンク抽出処理の一例を示すシーケンス図である。
【0053】
アウトリンク抽出部30は、アウトリンク構造データを抽出するため、コンテンツ保持部20にコンテンツ構造データを要求する。そのため、アウトリンク抽出部30は、コンテンツ構造データ要求3001をコンテンツ保持部20に送付し、コンテンツ構造データ3002を受け取る(ステップ301)。一方、コンテンツ保持部20は、ステップ301に対応し、コンテンツ構造データ要求3001を受け、コンテンツ構造データ3002をアウトリンク抽出部30に返す(ステップ302)。なお、アウトリンク抽出部30は、全てのコンテンツ構造データを受け取ってもよいが、抽出するコンテンツ情報などをコンテンツ保持部20に渡し、関連するコンテンツ構造データを受け取るようにしてもよい。コンテンツ構造データ3002を受け取ったアウトリンク抽出部30は、コンテンツ構造データから、アウトリンク構造データを抽出する(ステップ303)。アウトリンク構造データを抽出したアウトリンク抽出部30は、抽出したアウトリンク構造データ3003をアウトリンク保持部40に渡し、保持させる(ステップ304)。アウトリンク構造データ3003を受け取ったアウトリンク保持部40は、アウトリンク構造データ3003を保持する(ステップ305)。
【0054】
この処理を図5に示したデータを参照して詳細に説明を行う。アウトリンク抽出部30は、コンテンツ保持部20からコンテンツ構造データとして、例えば、図5に示すコンテンツリンク情報を含むコンテンツ構造データを受け取る。アウトリンク抽出部30は、受け取ったコンテンツ構造データからアウトリンク構造データを抽出する。図5に示すコンテンツリンク情報を含む場合、アウトリンク抽出部30は、例えば、図5の1列目のコンテンツURIと2列目のアウトリンクURIとの部分を抽出する。そして、アウトリンク抽出部30は、このように抽出したアウトリンク構造データを所定のデータ形式でアウトリンク保持部40に保持させる。
【0055】
図7は、アウトリンク抽出部30が抽出し、アウトリンク保持部40が保持している、アウトリンク構造データの一例を示す図である。図7−(A)に示すアウトリンク構造データは、コンテンツURIとアウトリンクURIとを1対1対応として保持している場合の一例である。図7−(B)に示すアウトリンク構造データは、コンテンツURI毎にアウトリンクのURIをまとめて保持する場合の一例である。
【0056】
なお、図7に示す「http://c.nec.com/」は、他のコンテンツ情報へのリンクが無い、つまり、アウトリンクが0個のコンテンツ情報の一例である。そのため、「http://c.nec.com/」のアウトリンクURIの欄は、アウトリンクが無いことを示す「−」となっている。
【0057】
図7に示すように、第1の実施形態に係るアウトリンク構造データは、各コンテンツURIのアウトリンクに関する情報(例えばアウトリンクURI)を保持している。
【0058】
ただし、図7に示すアウトリンク構造データは、あくまで一例であり、他のデータを保持してもよく、また、他のデータ構造でもよい。例えば、アウトリンク抽出部30は、アウトリンク構造データとして、図7のような表構造のデータではなく、木構造としてもよい。また、アウトリンク抽出部30は、アウトリンク構造データとして、B−Tree(Balanced Tree(バランス木)、B木)など、インデックス情報を含んだデータ構造としてもよい。
【0059】
続いて、第1の実施形態に係る検索処理について図面を参照して説明を行う。
【0060】
検索処理とは、検索ランキング装置1が利用者などからの検索要求を受け、その検索要求を基にコンテンツ情報の検索を行い、検索結果を利用者に返す処理である。
【0061】
図8は、第1の実施形態に係る検索処理についての一例を示すシーケンス図である。
【0062】
検索エンジン部50は、図示しない利用者などから検索要求を受けると、まず、検索要求に合致するコンテンツ情報を検索・収集する。そのため、検索エンジン部50は、検索要求に合致するコンテンツ情報要求4001をコンテンツ保持部20に送付し、コンテンツ情報4002を受け取る(ステップ401)。一方、コンテンツ保持部20は、ステップ401に対応し、検索エンジン部50からコンテンツ情報要求4001を受け、要求に合致するコンテンツ情報4002を検索エンジン部50に返却する(ステップ402)。
【0063】
図3を参照して、この動作について、さらに詳細に説明を行う。
【0064】
検索エンジン部50から検索要求を受けたコンテンツ保持部20は、例えば、図3のインデックス情報を検索して、検索要求に含まれる検索のためのインデックスと一致するインデックスを持つコンテンツURIを取得する。より具体的に説明を行う。例えば、検索要求に「部署A」が含まれていた場合、コンテンツ保持部20は、インデックスが「部署A」である「http://a.nec.com/a/」「http://a.nec.com/b/」「http://a.nec.com/b/a/」を検索結果として取り出し、検索エンジン部50に返却する。ここまでの動作により、検索エンジン部50は、検索要求に合致するコンテンツ情報の検索・収集することができる。
【0065】
なお、第1の実施形態の説明では、コンテンツ保持部20が検索を行うとしたが、本発明は、これに限られず、例えば、検索エンジン部50がコンテンツ情報の検索を行ってもよい。
【0066】
図8に戻り、検索動作の説明を続ける。
【0067】
次に、検索エンジン部50は、収集したコンテンツ情報のランキングを行うため、コンテンツ情報のスコアを求める(ステップ403)。
【0068】
そのため、検索エンジン部50は、収集したコンテンツ情報の一部又は全て(例えばコンテンツURIの集合)を含むスコア要求4003をスコアリング部60に渡す。
【0069】
スコア要求4003を受けたスコアリング部60は、コンテンツ情報のスコアを求めるために、コンテンツ情報のアウトリンク構造データを使用する。そこで、スコアリング部60は、コンテンツ情報のアウトリンク構造データを得るため、受け取ったコンテンツ情報(この説明ではコンテンツURIの集合)を含むアウトリンク構造データ要求4004をアウトリンク保持部40に渡し、アウトリンク構造データ4005を受け取る(ステップ404)。一方、アウトリンク構造データ要求4004を受けたアウトリンク保持部40は、要求に合致するアウトリンク構造データ4005をスコアリング部60に返す(ステップ405)。ここで、アウトリンク保持部40が返却するアウトリンク構造データとしては、例えば、図7に示したアウトリンク構造データの中で、受け取ったコンテンツ情報(今の場合コンテンツURI)と一致する部分である。
【0070】
この動作について図7−(A)のデータを参照して、より詳細に説明を行う。アウトリンク保持部40が、例えば、コンテンツ情報(本説明ではコンテンツURI)として「http://a.nec.com/」を受け取ったとする。アウトリンク保持部40は、図7−(A)のデータの中でコンテンツURIが「http://a.nec.com/」となっているデータを選択する。この場合、アウトリンク保持部40は、アウトリンクのURIとして「http://a.nec.com/a/」、「http://a.nec.com/b/」、「http://a.nec.com/b/a/」を選び出すこととなる。そして、アウトリンク保持部40は、この選び出したアウトリンクのURIをスコアリング部60に返却する。なお、スコアリング部60は、コンテンツ情報毎にアウトリンク構造データを要求するようにしてもよく、また、まとめてコンテンツ情報をアウトリンク保持部40に渡して、アウトリンク構造データを受け取るようにしてもよい。
【0071】
図8に戻り、検索動作の説明を続ける。
【0072】
アウトリンク構造データ4005を受け取ったスコアリング部60は、受け取ったアウトリンク構造データとコンテンツ情報とに基づいて、コンテンツ情報のスコアを算出する(ステップ406)。
【0073】
第1の実施形態に係るスコアリング部60は、スコアの算出処理として次の処理を行う。
【0074】
最初にスコアリング部60が行う処理は、コンテンツ情報のスコアの算出に利用する各コンテンツ情報の値(以下、属性値と言う)を算出する処理である。第1の実施形態に係るスコアリング部60は、コンテンツ情報の属性値として、次に示す属性値を含むものとする。ただし、コンテンツ情報の属性値は、後ほど説明するコンテンツ情報のスコアの算出に使用するものであり、これに限られるわけではなく、採用するスコアによっても異なってよい。
【0075】
(1)コンテンツ情報に基づく属性値
この属性値は、コンテンツ情報、例えば、コンテンツの内容の文字列、又は、コンテンツURIに関する情報などに基づく属性値である。
【0076】
第1の実施形態に係るスコアリング部60は、一例として、次の値を使用する。
【0077】
X:コンテンツURIに所定の文字列が含まれるかどうかを示す属性値。
【0078】
なお、第1の実施形態における所定の文字列は、予め管理者などが、スコアリング部60に設定しておくものとする。この所定の文字列とは、コンテンツURIのファイル名などが想定される。例えば、所定の文字列を「index」とした場合、コンテンツURI「http://a.nec.com/a/index.html」は、所定の文字列を含み、コンテンツURI「http://a.nec.com/a/document.html」は、所定の文字列を含まない。
【0079】
本実地形態に係るスコアリング部60は、Xを
X=1:コンテンツURIに所定の文字列が含まれる
X=0:コンテンツURIに所定の文字列が含まれない
とする。
【0080】
なお、コンテンツ情報に基づく属性は、コンテンツURIのファイル名に対応する部分に限られるわけではない。例えば、スコアリング部60は、コンテンツURIのパス名やプロトコル名などを使用してもよい。また、スコアリング部60は、コンテンツURIが、「http://a.nec.com/a/index.html」などのようにコンテンツの名前を示す情報で終わるか、「http://a.nec.com/a/」などのようにパス(pass、コンテンツの位置)で終わるかなどを示す属性値としてもよい。さらに、スコアリング部60は、コンテンツURIではなく、コンテンツ情報自体に含まれる情報、例えば、アウトリンクのアンカーテキストに所定の文字が含まれるかどうかを属性値としてもよい。また、スコアリング部60は、コンテンツ情報に含まれるアウトリンクURIに所定の文字が含まれるかどうかを属性値として使用してもよい。
【0081】
なお、スコアリング部60は、1つではなく2つ以上の属性値を使用してもよい。例えば、スコアリング部60は、コンテンツURIに「index」を含むかどうかをX1、アンカーテキストに「索引」を含むかどうかをX2とした属性値を使用してもよい。
【0082】
(2)アウトリンクの基づく属性値
この属性値は、コンテンツ情報のアウトリンク、例えば、アウトリンクの数、又は、アウトリンクURIの構造などに基づく属性である。
【0083】
第1の実施形態に係るスコアリング部60は、一例として、次の値を使用する。
【0084】
C:各コンテンツ情報のアウトリンクの総数
R:各コンテンツ情報のアウトリンクのうち、検索結果に含まれる数。つまり、各コンテンツ情報のアウトリンクの中で、スコアリング部60が検索エンジン部50から受け取ったコンテンツ情報に含まれるアウトリンクの数。
【0085】
なお、アウトリンクに基づく属性値も、ここで説明した属性値に限られるわけではない。例えば、スコアリング部60は、異なるサイトへのアウトリンク数と、同一サイト内でのアウトリンク数とで、異なる重み付けをして合計した数を使用してもよい。
【0086】
コンテンツ情報の属性値を算出したスコアリング部60は、次の処理として、コンテンツ情報の属性値を基に、コンテンツ情報のスコアを算出する。スコアとしてはいろいろな関数を想定することができるが、第1の実施形態に係るスコアリング部60は、一例として、次に示す関数を、コンテンツ情報のスコアとして使用する。
【0087】
スコア = a*X + b*f(Y,Z)
ただし、各パラメータは次のとおりである。
【0088】
a、b:所定の定数(予め管理者などがスコアリング部60に設定しておく)
Y:検索結果全体に対する、検索結果に含まれるコンテンツ情報のアウトリンクの割合。Nを検索結果の総数、つまり、スコアリング部60が検索エンジン部50から受け取ったコンテンツ情報の数とした場合の、R/N。
【0089】
Z:コンテンツ情報の全てのアウトリンクに対する、検索結果に含まれるコンテンツ情報のアウトリンクの割合、つまり、R/C。
【0090】
f(Y,Z):YとZを基に値を算出する関数。第1の実施形態の説明では、YとZとの調和平均を使用する。ただし、本発明に適用できる関数は、調和平均に限られず、例えば、相乗平均、相加平均などを使用してもよく、平均とは異なる他の関数を使用してもよい。
【0091】
ここで、Yを検索結果に対するアウトリンクの適合率、Zをアウトリンク全体に対する検索されたアウトリンクの再現率と見なすと、fは、情報検索分野の検索性能評価に使用されるF値(F-measure)に相当する。
【0092】
なお、第1の実施形態に係るスコアリング部60は、第1項又は第2項のどちらかをスコアとして使用してもよい。さらに、スコアリング部60は、第1項として、例えば、既に説明したX1とX2など2以上の属性値を使用して、スコアの関数を
スコア = Σai*Xi + b*f(Y,Z)
ただし、ai:所定の定数、Xi:コンテンツ属性に基づく属性値、i=1、…、n(ただし、nは、2以上の自然数)。
としてもよい。
【0093】
また、スコアリング部60が行うスコアの算出は、これらの項に限られず、他の値や式を使用してもよい。例えば、スコアリング部60は、アウトリンクの割合だけではなく、アウトリンクの数を使用してもよく、インリンクの情報を使用してもよい。
【0094】
なお、スコアリング部60は、Y,Zを含めてコンテンツ情報の属性値としてもよい。
【0095】
スコアリング部60は、受け取ったスコア要求4003に関する全てのコンテンツ情報に対して、このスコアの算出を行う。全てのコンテンツ情報のスコアの算出が終了すると、スコアリング部60は、コンテンツ情報(本実施形態の説明ではコンテンツURI)とそのコンテンツ情報に対応するスコアとの組合せ情報4006を検索エンジン部50に返す。
【0096】
コンテンツ情報とスコアとの組合せ情報4006を受け取った検索エンジン部50は、コンテンツ情報のスコアを基にコンテンツ情報のランキングを決め、そのランキングに沿って所定の書式にコンテンツ情報を並べるなどの処理を行ったコンテンツ情報の検索結果を作成する。そして、検索エンジン部50は、検索要求を出した利用者に、作成した検索結果を返す。ここで検索エンジン部50は、利用者などに返す検索結果に、例えば、図4に一例を示したコンテンツ表示情報を表示内容として含めてもよい。また、検索エンジン部50は、利用者などに返す検索結果に、必要に応じてHTML(HyperText Markup Language)タグなどを付与してもよい。
【0097】
なお、検索エンジン部50が、コンテンツ情報をまとめてスコアリング部60から受け取るとして説明を行ったが、本発明は、これに限られるわけではない。例えば、検索エンジン部50は、コンテンツ情報のスコアを1つずつ、又は、数個分ずつスコアリング部60から受け取るようにしてもよい。
【0098】
このように動作することにより、第1の実施形態に係る検索ランキング装置1は、利用者などからの検索要求に対して、アウトリンクなどからコンテンツ情報のスコアを算出し、そのスコアを基にしてランキングを行った検索結果を返却することが出来る。
【0099】
なお、第1の実施形態に係る検索ランキング装置1は、各構成を別構成として説明を行ったが、これは説明の便宜のためであり、本発明は、これに限定されるわけではない。これらの構成の一部又は全体をまとめた構成としてもよい。例えば、コンテンツ保持部20とアウトリンク保持部40とを1つの記憶部で実現してもよく、クローラ部10及びアウトリンク抽出部30など2つ以上の構成をまとめて1つの制御部などとしてもよい。
【0100】
逆に、検索ランキング装置1の各構成を別装置、例えば、ネットワークなどを介して接続した別装置とした検索ランキングのシステムとして構成してもよい。
【0101】
また、検索ランキング装置1を、1つ又は2つ以上のコンピュータ上で動作するプログラムとして実現してもよい。
【0102】
このように第1の実施形態に係る検索ランキング装置1は、リンクが少ないリンク構造となっているコンテンツ情報をおいても、コンテンツ情報のスコアを算出してランキングを行うことができる効果を得ることが出来る。
【0103】
その理由は、第1の実施形態に係る検索ランキング装置1は、コンテンツ情報のランキングに使用するスコアを、コンテンツ情報と、各コンテンツ情報に対するアウトリンクに基づく情報とから算出するようにしたためである。その結果、第1の実施形態に係る検索ランキング装置1は、コンテンツ情報のリンクの多寡にかかわらずスコアを算出することが出来るためである。
【0104】
さらに第1の実施形態に係る検索ランキング装置1は、ハブを上位にランキングさせる効果も得ることが出来る。
【0105】
その理由は、第1の実施形態に係る検索ランキング装置1は、スコアの算出にアウトリンクを使用しているため、アウトリンクが多いハブのスコアを高くすることができるためである。
(第2の実施形態)
第1の実施形態に係る検索ランキング装置1のスコアリング部60は、使用するアウトリンクとして、各コンテンツ情報から直接リンクしているアウトリンクを使用していた。
【0106】
しかし、ネットワークに存在するコンテンツのアウトリンクは、そのコンテンツから直接リンクされていない場合もある。例えば、フレームを使用したウェブページなどのコンテンツの場合、実際のアウトリンクとなるコンテンツは、フレームを備えたコンテンツがそのフレームのコンテンツとして指定したコンテンツからリンクされている。つまり、ネットワークに存在するコンテンツのアウトリンクは、コンテンツを経由する回数(以下、ホップ(hop)数と言う。あるコンテンツから直接リンクしているコンテンツを1ホップとする)が2ホップ以上となる場合もある。
【0107】
第2の実施形態に係る検索ランキング装置2は、アウトリンクの構造などを基に、所定ホップ先のアウトリンクも考慮してスコアを算出するようにしている。
【0108】
まず、第2の実施形態に係る検索ランキング装置2の構成について、図面を参照して説明を行う。
【0109】
図9は、第2の実施形態に係る検索ランキング装置2の一例を示すブロック図である。
【0110】
図9において、図1と同じ構成には同じ番号を付してある。第2の実施形態に係る検索ランキング装置2は、スコアリング部70を除き第1の実施形態に係る検索ランキング装置1と同じ構成である。そのため、第2の実施形態に係るスコアリング部70について詳細な説明を行い、他の構成についての詳細な説明は省略する。
【0111】
スコアリング部70は、スコアリング制御部71と、URI階層解析部72と、スコアリング計算部73を含んで構成されている。
【0112】
スコアリング制御部71は、検索エンジン部50とのインターフェース処理と、スコアリング部70の各部の制御とを行う。より詳細に説明すると、スコアリング制御部71は、検索エンジン部50からコンテンツ情報(一例として、第2の実施形態の説明ではコンテンツURIの集合とする)を受け取り、そのコンテンツ情報をURI階層解析部72に渡し、コンテンツ情報のスコアの算出を依頼する。また、スコアリング制御部71は、URI階層解析部72から算出結果としてスコアとコンテンツ情報との組合せを受け取り検索エンジン部50に返す処理などを行う。
【0113】
URI階層解析部72は、検索エンジン部50から受け取ったコンテンツ情報から所定のコンテンツ情報の構造(第2の実施形態の説明では、一例としてコンテンツURIに基づいたコンテンツ情報の木構造(以下、URI構造とする)を使用することとする)を構築する。そして、URI階層解析部72は、その構築したURI構造に基づき各コンテンツ情報の属性値を求める。さらに、URI階層解析部72は、求めたコンテンツ情報の属性値などをスコアリング計算部73に渡してコンテンツ情報のスコアの算出を依頼し、スコアリング計算部73が算出したスコアを受け取る。コンテンツ情報のスコアを受け取ったURI階層解析部72は、コンテンツ情報とコンテンツ情報のスコアとの組合せを、スコアリング制御部71に返却する。なお、第2の実施形態の説明において、URI階層解析部72は、コンテンツ情報の構造として木構造を構築するが、本発明は木構造に限られず、他の構造でもよい。
【0114】
スコアリング計算部73は、URI階層解析部72からコンテンツ情報の属性値などを受け取り、コンテンツ情報のスコアを算出し、URI階層解析部72に返す。
【0115】
次に第2の実施形態に係る検索ランキング装置2の動作について図面を参照して説明を行う。
【0116】
第2の実施形態に係る検索ランキング装置2の動作のうち、検索処理を除き他の動作は、第1の実施形態に係る検索ランキング装置1と同等のため、他の処理の詳細な説明は省略し、第2の実施形態に特有の検索処理について詳細に説明を行う。
【0117】
図10は、第2の実施形態に係る検索処理の一例を示すシーケンス図である。
【0118】
検索エンジン部50は、図示しない利用者などから検索要求を受けると、検索要求に合致するコンテンツ情報要求5001をコンテンツ保持部20に送付し、要求に合致したコンテンツ情報5002を受け取る(ステップ501)。一方、コンテンツ保持部20は、ステップ501に対応し、コンテンツ情報要求5001を受け取り、要求に合致するコンテンツ情報5002を検索エンジン部50に返却する(ステップ502)。
【0119】
次に、検索エンジン部50は、取得したコンテンツ情報(例えば、コンテンツURIの集合)を含むスコア要求5003をスコアリング制御部71に渡し、コンテンツ情報のスコアの算出を要求する(ステップ503)。
【0120】
スコアリング制御部71は、受け取ったスコア要求5003を含むコンテンツ情報の構造(URI構造)の構築要求5004をURI階層解析部72に渡し、URI構造構築の完了通知5005を待つ(ステップ504)。
【0121】
一方、URI構造の構築要求5004を受け取ったURI階層解析部72は、受け取った構築要求5004に含まれるコンテンツ情報を解析し、コンテンツ情報に基づいたURI構造を構築する(ステップ505)。
【0122】
図11は、コンテンツ情報のURI構造の構成の一例を示す図である。図11のURI構造の各ノード(node:節)は、コンテンツ情報に相当する。また、各ノードは、ノード情報を保持している。このノード情報は、コンテンツ情報と、スコアの算出に使用する各コンテンツ情報の属性値となどを含んでいる。図11において、ノードA(URIがhttp://nec.com/)が、ルート(root、根)ノードとなっている。また、ノードH(URIがhttp://nec.com/a/a/)などは、子ノードが無いため、リーフ(leaf、葉)ノードとなっている。また、各ノード間の線が、ブランチ(branch、枝)である。
【0123】
なお、既に説明したとおり、第2の実施形態の説明では、コンテンツ情報の構造として木構造を使用するが、これは説明の便宜のためであり、本発明の係るURI構造としては、他の構造でもよい。
【0124】
図10に戻り、検索処理の説明を続ける。
【0125】
URI階層解析部72は、URI構造の構築が完成すると、スコアリング処理を構築の完了通知5005をスコアリング制御部71に送付する。ただし、URI階層解析部72が、例えば、URI構造の作成と並行してスコアリング制御部71からの後ほど説明を行うスコア要求に対応できる、又は、スコア要求をため込むことができるなどの場合は、完了の通知を行わなくてもよい。
【0126】
URI構造の構築が終了した後、スコアリング制御部71は、スコアリング処理を実施する。すなわち、スコアリング制御部71は、URI階層解析部72に、コンテンツ情報のスコア要求5006を送付し、コンテンツ情報とスコアとの組合せ情報5011を受け取る(ステップ506)。なお、スコアリング制御部71は、URI階層解析部72への、URI構造構築要求とスコア要求とを1つの要求にまとめてもよい。
【0127】
コンテンツ情報のスコア要求5006を受けたURI階層解析部72は、まず、構成したURI構造の各コンテンツ情報の属性値を算出するため、アウトリンク構造データ要求5007をアウトリンク保持部40に送り、アウトリンク構造データ5008を受け取る(ステップ507)。アウトリンク保持部40は、ステップ507に対応して、アウトリンク構造データ要求5007を受け取り、URI階層解析部72にアウトリンク構造データ5008を返却する(ステップ508)。
【0128】
アウトリンク構造データ5008を受け取ったURI階層解析部72は、コンテンツ情報の属性値を算出する。ただし、第2の実施形態に係る検索ランキング装置2は、アウトリンクの数として、各コンテンツ情報からのアウトリンクだけではなく、所定の範囲のコンテンツ情報のアウトリンクを含む。第2の実施形態の説明では、次に示す範囲のアウトリンクの範囲を、属性値を算出する範囲とする。
【0129】
アウトリンクの範囲:
a)各コンテンツ情報からリンクしているアウトリンク先。
【0130】
b)URI構造において各コンテンツ情報のパス配下にあり、かつ、所定のホップ数内に入っている全てのコンテンツ情報からのアウトリンク先。
【0131】
つまり、第2の実施形態に係るURI階層解析部72は、コンテンツ情報のアウトリンクの数として、コンテンツ情報から直接リンクされているアウトリンクの数に加え、そのコンテンツのURI構造のパス配下に含まれるコンテンツ情報のアウトリンクの数も加える。ただし、第2の実施形態に係るURI階層解析部72は、処理量及び処理時間を考慮して、パス配下のコンテンツ情報のうち所定のホップ数以内(例えば2ホップなど)の配下のコンテンツ情報までのアウトリンクを含めるとしている。もちろん、2ホップは説明の便宜のために設定した値であり、本発明は、これに限られるわけではない。例えば、本発明は、ホップ数を2より大きな数としてもよく、1ホップとしてもよい。また、本発明は、アウトリンクの算出先を別の範囲(例えば配下だけでなく上位を含むなど)としてもよい。なお、第2の実施形態の説明では、URI構造として木構造を使用しているため、配下となるコンテンツ情報は、木構造の下位のコンテンツ情報(子ノードや孫ノードなど)となる。
【0132】
この動作について図11を参照してさらに詳細に説明する。なお、既に説明したとおり、以下の説明におけるノードは、コンテンツ情報のことである。また、繰り返しとなるが、URI構造は、木構造として説明を行う。
【0133】
第2の実施形態に係るURI階層解析部72は、URI構造のルートノード(ノードA)からどれかの経路で最下位のノードであるリーフノード(今回ノードHとする)までたどる。URI階層解析部72は、リーフノード(ノードH)に着いたら、リーフノードのアウトリンクの数を求める。リーフノード(ノードH)は、下位ノードが無いため、自ノードから直接リンクしているアウトリンクの数がそのノードのアウトリンクの数となる。
【0134】
リーフノード(ノードH)のアウトリンクの数を求めた後、URI階層解析部72は、その上位の親ノード(図11ではノードC)のアウトリンクの数を求める。この場合、URI階層解析部72は、まず、その親ノード(ノードC)の子ノードで、アウトリンクの数が求まってない子ノードが有るかどうかを確認する。求まっていない子ノードがある場合(今回はノードGとする)、URI階層解析部72は、URI構造に沿って階層を降り、子ノード(ノードG)のアウトリンクの数を求める。この場合も、URI階層解析部72は、子ノード(ノードG)の下位、つまり孫ノード(ノードI)のアウトリンクの数が求まっているかどうかを確認する。もし、孫ノード(ノードI)のアウトリンクの数が求まっていない場合、URI階層解析部72は、さらに下位に降りて孫ノード(ノードI)のアウトリンクの数を求める。つまり、URI階層解析部72は、あるノードのアウトリンクの数を求める前に、そのノードの下位の全てのノードのアウトリンクの数を求めてこととなる。今回の場合、URI階層解析部72は、ノード(ノードC)の全ての下位ノード(ノードG、ノードH、ノードI)のアウトリンクの数が求めた後、そのノード(ノードC)のアウトリンクの数を求める。そして、URI階層解析部72は、そのノードが直接リンクしているアウトリンクの数と、所定のホップ数、つまり所定の下位の階層のノードのアウトリンクの数を基に、そのノードのアウトリンクの数を求める。例えば、ホップ数を2とすると、URI階層解析部72は、ノードCのアウトリンクの数を算出するときに、ノードG、ノードH、ノードIのアウトリンクの数を考慮することとなる。URI階層解析部72は、このアウトリンクの数の算出処理をルートノード(ノードA)まで再帰的に繰り返して行い、全てのノードのアウトリンクの数を算出する。なお、URI階層解析部72は、アウトリンクの数の算出に併せ、他のコンテンツ情報の属性値も求めておく。
【0135】
また、URI階層解析部72は、求めたアウトリンクの属性値などを既に説明したノード情報に保存する。ここでもし、既にノード情報が保存されている場合、URI階層解析部72は、ノード情報を更新する。また、URI階層解析部72は、各ノードに保存するアウトリンクの数として、既に説明した所定の下位ノードまで含んだアウトリンクの数と、直接リンクしているアウトリンクの数とのどちらか又は両方を保存するようにしてもよい。
【0136】
図10に戻り、検索処理の説明を続ける。
【0137】
コンテンツ情報の属性値が求まると、URI階層解析部72は、各コンテンツ情報のスコア要求5009をスコアリング計算部73送付して、スコア5010を受け取る(ステップ509)この場合、スコアの依頼処理は、URI階層解析部72が、コンテンツ情報の属性値をURI構造の各ノード情報から取り出して、1つずつスコアリング計算部73にスコアの算出を依頼してもよい。また、URI階層解析部72が、URI構造をスコアリング計算部73に渡してスコアの算出を依頼してもよい。
【0138】
スコアリング計算部73におけるスコアの算出(ステップ510)は、第1の実施形態と同じため、詳細な説明は省略する。
【0139】
スコアリング計算部73からコンテンツ情報のスコア5010を受け取ったURI階層解析部72は、コンテンツ情報とスコアとの組合せ情報5011をスコアリング制御部71に返す。
【0140】
コンテンツ情報とコンテンツ情報のスコアとの組合せ情報5011を受け取ったスコアリング制御部71は、コンテンツ情報とスコアとの組合せを含むスコア要求の結果5012を検索エンジン部50に返す。
【0141】
スコア要求の結果5012を受け取った検索エンジン部50は、コンテンツ情報のランキング(例えば、スコアの順に並べる)を行う。さらに、検索エンジン部50は、必要に応じてHTMLタグなどを付与して、検索結果を作成し、検索結果を図示しない検索要求を送付してきた利用者などに返す。
【0142】
なお、第2の実施形態に係る検索ランキング装置2の説明において、URI構造の作成をURI階層解析部72が行うとしたが、URI構造などの作成は、URI階層解析部72に限られるわけではない。例えば、スコアリング制御部71がURI構造を作成してURI階層解析部72に渡してもよく、図示しない別の構成が作成するようにしてもよい。
【0143】
第2の実施形態に係る検索ランキング装置2は、第1の実施形態に係る効果に加え、コンテンツ情報のアウトリンクに関連するリンクが2ホップ以上離れている場合でも、ハブを上位とする検索ランキングを得る効果を得ることが出来る。
【0144】
その理由は、第2の実施形態に係る検索ランキング装置2は、コンテンツ情報の構造に沿って所定数のホップ先のアウトリンクの数を求め、そのアウトリンクの数などを基にコンテンツ情報のスコアを求めるようにしたためである。
(第3の実施形態)
第1の実施形態に係る検索ランキング装置1などが返却するランキングの結果は、コンテンツの相対的な順番であり、各コンテンツ間の有効性の程度(以下、有効度と言う)の差までは表していない。検索ランキング装置1などの一般的な利用者は、有効なハブを見つけることが目的で検索ランキング装置1などを使用するため、コンテンツの相対的なランキングが分かれば目的を達成することができる。しかし、コンテンツのスコアは、ランキングより詳細なコンテンツの有効度を表している。このようにコンテンツの有効度を表すスコアは、コンテンツを作成又は管理している部署及び担当者(以下、コンテンツ管理者と言う)などにとって、有効な情報である。
【0145】
第3の実施形態に係る検索ランキング装置3は、コンテンツ情報のスコアを返却することができるようになっている。
【0146】
図12は、第3の実施形態に係る検索ランキング装置3の構成の一例を示すブロック図である。検索ランキング装置3は、第2の実施形態に係るスコアリング部70と同様に、スコアリング制御部71とURI階層解析部72とスコアリング計算部73とを含んで構成されている。ただし、検索ランキング装置3のスコアリング制御部71は、ネットワークなどを介して他の装置と接続して動作を行う。
【0147】
図13は、第3の実施形態に係る検索ランキング装置3を含む検索ランキングシステム5の一例を示すブロック図である。
【0148】
検索ランキングシステム5は、コンテンツサーバ81と、クローラ装置82と、アウトリンク抽出装置83と、検索装置84と、検索ランキング装置3とを含んで構成されている。なお、検索ランキングシステム5を構成する各装置は、一般的なネットワークのプロトコルを使用して、相手装置との接続を確立し、データのやり取りを行えばよく、接続などに関する詳細な説明は省略する。また、図13において、各装置を1つとして表示しているのは、あくまで説明の便宜のためである。検索ランキングシステム5において、各装置は、2台以上であってもよい。
【0149】
コンテンツサーバ81は、ネットワークに接続し、ネットワークに公開しているコンテンツを保持している装置である。このコンテンツは、クローラ装置82のクロール処理に対象となるコンテンツである。
【0150】
クローラ装置82は、第1の実施形態などと同様のクローラ部10とコンテンツ保持部20とを含んで構成され、第1の実施形態などと同様のクロール処理を行う。つまり、クローラ装置82は、ネットワークからコンテンツ情報(例えば、コンテンツサーバ81のコンテンツのコンテンツ情報)を収集し、収集したコンテンツ情報からコンテンツ構造データを作成し保持する。また、クローラ装置82は、他の装置からの要求に応じ、コンテンツ情報又はコンテンツ構成データを送信する。
【0151】
アウトリンク抽出装置83は、第1の実施形態などと同様のアウトリンク抽出部30とアウトリンク保持部40とを含んで構成され、第1の実施形態などと同様のアウトリンク抽出処理を行う。つまり、アウトリンク抽出装置83は、クローラ装置82が保持しているコンテンツ構造データを基に、アウトリンク構造データを作成し保持する。また、アウトリンク抽出装置83は、他の装置の要求などにより、アウトリンク構造データを送信する。
【0152】
検索装置84は、第1の実施形態などと同様の検索エンジン部50を含んで構成され、クローラ装置82及び検索ランキング装置3などと協調し、第1の実施形態などと同様の検索処理を行う。つまり、検索装置84は、図示しない利用者から検索要求を受け、クローラ装置82から検索要求に合致するコンテンツ情報を受信し、そのコンテンツ情報を検索ランキング装置3に送信して、スコアの算出を依頼する。さらに、検索装置84は、検索ランキング装置3からスコアを受け取り、スコアを基にコンテンツ情報のランキングを行い、その結果を検索結果として利用者に返却する。
【0153】
検索ランキング装置3は、アウトリンク抽出装置83から受け取ったアウトリンク構造データを利用して、検索装置84から受け取ったコンテンツ情報のスコアを算出し、検索装置84に返信する。
【0154】
このように動作することにより、本発明の最小構成である検索ランキング装置3を含む検索ランキングシステム5は、第1の実施形態に係る検索ランキング装置1などと同様に、検索要求に合致した検索結果のランキングを行うことが出来る。
【0155】
さらに、検索ランキング装置3は、ネットワークに接続している。そのためネットワークに接続している検索装置84以外の装置、例えば、コンテンツサーバ81などからも、検索装置84と同様に、コンテンツ情報を検索ランキング装置3に送信することができる。コンテンツサーバ81などからコンテンツ情報を受け取った検索ランキング装置3は、検索装置84から受け取った場合と同様に、コンテンツ情報を基にスコアを算出し、コンテンツサーバ81などに返信する。このように、第3の実施形態に係る検索ランキング装置3は、コンテンツ情報のスコアを、検索装置84以外の装置にも返却することができる。
【0156】
コンテンツ管理者は、このような検索ランキング装置3を使用することにより、コンテンツの作成、及び、維持管理を有効に行うことができる。コンテンツ管理者などのコンテンツ作成時の作業の一例を、図面を参照して詳細に説明を行う。
【0157】
図14は、第3の実施形態に係る検索ランキング装置3を使用して、コンテンツを作成する方法の一例を示すフローチャート図である。なお、第3の実施形態の説明において、コンテンツサーバ81は、コンテンツ管理者の指示などにより、第3の実施形態に係る検索ランキング装置3を使用して、コンテンツを発生・保存・確認・修正などを行うものとする。ただし、コンテンツを発生・保存・確認・修正などを行う装置は、同じである必要はなく、別装置でもよい。
【0158】
コンテンツ管理者の指示になどに基づき、ネットワークに接続しているコンテンツサーバ81は、コンテンツを発生し(ステップ601)、保存する(ステップ602)。この場合、図示しないコンテンツ管理者の端末などが、コンテンツを発生し、ネットワークを介してコンテンツサーバ81に保存するようにしてもよい。また、コンテンツ管理者の端末などが、コンテンツサーバ81を経由して情報のやり取りを行ってもよい。次に、コンテンツ管理者又はコンテンツサーバ81は、所定の時間、例えば、クローラ装置82のクロール処理がネットワークを一巡する時間など、発生したコンテンツがクロール処理の結果に反映されるまでの時間を待つ(ステップ603)。なお、コンテンツサーバ81は、所定の時間を待つ代わりに、発生したコンテンツがクロール処理の結果に反映するように、クローラ装置82にクロール処理を依頼し、そのクロール処理の完了を待つようにしてもよい。所定の時間を待った後、コンテンツサーバ81は、発生したコンテンツを含んで検索する検索要求をクローラ装置82に送信し、検索結果として、その検索要求に合致するコンテンツ情報を受け取る(ステップ604)。そして、コンテンツサーバ81は、受け取ったコンテンツ情報を検索ランキング装置3に送信してスコアの算出を依頼し、検索ランキング装置3からのコンテンツ情報とスコアとの組合せを受け取る(ステップ605)。この後、コンテンツサーバ81は、受け取ったコンテンツ情報とスコアとの組合せの中から、発生したコンテンツのスコアを分析する(ステップ606)。もし発生したコンテンツのスコアが、検索結果の所定の範囲(例えば上位5位以内)に入っている場合(ステップ606のyes)、そのコンテンツは、検索要求に対して有効であり、コンテンツの修正作業は必要ない。そのため、コンテンツサーバ81は、コンテンツの作成作業を終了する。
【0159】
一方、発生したコンテンツのスコアが悪い場合(ステップ606のno)、コンテンツサーバ81は、コンテンツ管理者の指示などに基づき、コンテンツの内容の改善を行う(ステップ607)。なお、コンテンツを改善する場合、コンテンツ管理者は、例えば、スコアが上位のコンテンツ情報をコンテンツの改善の有効な参考情報として使用することができる。また、コンテンツ管理者は、他のコンテンツとのスコアの差を確認することにより、コンテンツの改善の方針を決めることなどもできる。例えば、ランキングがすぐ上のコンテンツとのスコアの差が小さい場合、コンテンツ管理者は、現在のコンテンツ内容を基に改善を進めればよいと判断できる。一方、スコアの差が大きい場合、コンテンツ管理者は、コンテンツを発生し直すなど、かなり大きな変更が必要であると判断することができる。
【0160】
コンテンツを変更後、コンテンツサーバ81は、コンテンツ管理者の指示などにより、ステップ602と同様に変更後のコンテンツを保存し(ステップ602)、以降の作業を、コンテンツのスコアが所定の範囲に入るまで繰り返す。
【0161】
このように、コンテンツ管理者は、第3の実施形態に係る検索ランキング装置3を使用することにより、コンテンツのスコアを確認することができ、その結果、所定の有効度を確保したコンテンツを作成することができる。
【0162】
さらに、コンテンツ管理者は、コンテンツを作成後も、定期的にコンテンツのスコアを監視してもよい。そして、もしコンテンツのスコアが下がった場合、コンテンツ管理者は、コンテンツのスコアの維持又は改善を行うため、コンテンツの修正や、新しいコンテンツの発生などを行う。なお、コンテンツのスコアの維持を行う場合、コンテンツ管理者は、図14のステップ604から作業を始めればよい。
【0163】
第3の実施形態に係る検索ランキング装置3は、第1の実施形態の効果に加え、コンテンツ管理者などの作業を援助する効果を得ることができる。
【0164】
その理由は、第3の実施形態に係る検索ランキング装置3は、ネットワークを介して、検索装置84以外の装置からもコンテンツ情報を受け取り、受け取ったコンテンツ情報に関するスコアを返却することができるためである。コンテンツ管理者などは、このスコアを使用することにより、ランキングより細かなスコアを基にコンテンツの有効性の管理を行うことができるためである。
(第4の実施形態)
第1の実施形態に係る検索ランキング装置1などは、クローラ部10が作成したコンテンツ構造データを基に、アウトリンク抽出部30が抽出したアウトリンク構造データを使用して、コンテンツ情報のランキングを行っていた。しかし、ネットワークを介してのデータのやり取りは、データ抜けなど発生し、クローラ部10がアウトリンクに関連する情報を収集することができない場合もある。
【0165】
そこで、第4の実施形態に係る検索ランキング装置4は、アウトリンクの情報が取れなかったコンテンツ情報において、アウトリンクが有る場合に相当するようなスコアの算出を行うようにしている。
【0166】
まず、第4の実施形態に係る検索ランキング装置4の構成について図面を参照して説明を行う。
【0167】
図15は、第4の実施形態に係る検索ランキング装置4の構成の一例を示すブロック図である。
【0168】
図15に示す第4の実施形態に係る検索ランキング装置4は、説明の便宜のため、第2の実施形態に係る検索ランキング装置2からアウトリンク抽出部30及びアウトリンク保持部40を除いた構成としている。ただし、第4の実施形態に係る検索ランキング装置4の構成は、第2の実施形態に係る検索ランキング装置2と同等の構成を備え、アウトリンク構造データの無い場合に、第4の実施形態で説明を行う処理を実行するようにしてもよい。
【0169】
なお、図15において、第2の実施形態と同等の構成は、同じ番号を付し、構成及び動作の詳細な説明は省略し、第4の実施形態に係る検索ランキング装置4に特有の動作である検索動作について詳細に説明を行う。
【0170】
図16は、第4の実施形態に係る検索処理の一例を示すシーケンス図である。
【0171】
第4の実施形態に係る検索処理において、第2の実施形態などに係る検索処理と異なる点は、第2の実施形態に係る図10のシーケンス図のステップ507に相当する動作である。つまり、第2の実施形態などに係るURI階層解析部72が、アウトリンク保持部40からアウトリンク構造データを受け取る動作の変わりに、第4の実施形態に係るURI階層解析部72は、所定の仮定を基にアウトリンクの数を推定する点が異なる(アウトリンク推定のステップ707)。そのため、第2の実施形態と同等の動作の詳細な説明は省略し、第4の実施形態に係るURI階層解析部72のアウトリンクの数を求める処理について詳細に説明を行う。なお、第4の実施形態の説明においても、URI構造を木構造として説明を行うが、本発明は、木構造に限られるものではない。
【0172】
第4の実施形態に係るURI階層解析部72は、アウトリンクの数を求める処理において、所定の仮定を基にアウトリンクの数を求める。一例として、次の仮定を置いた場合のURI階層解析部72の動作について説明を行う。
【0173】
(仮定1)
同じURIパス内のコンテンツ情報は、相互にリンクを張るとする。つまり、同じパス内のコンテンツ情報は、相互にアウトリンクを張るとする。例えば、同じパス内に3つのコンテンツ情報がある場合、各コンテンツ情報は、2つのアウトリンクを張るとする。
【0174】
(仮定2)
パスが直下のURIのコンテンツ情報には、木構造の枝方向にリンクを張るとする。つまり、ある階層のコンテンツ情報は、ひとつ下の階層のコンテンツ情報にアウトリンクを張るとする。例えば、図11のノードCは、ノードGとノードHにアウトリンクを張るとする。
【0175】
そして、URI階層解析部72は、この仮定に沿ってアウトリンクが張られているとして、URI構造に従いアウトリンクの数を算出する。なお、URI階層解析部72は、その他のコンテンツ情報の属性値などは、第2の実施形態などと同じ値を使用する。また、第2の実施形態などと同様に、URI階層解析部72は、算出したアウトリンクの数などコンテンツ情報の属性値をノード情報に保存する。
【0176】
アウトリンク推定ステップ707で所定の仮定を基にアウトリンクの数と他のコンテンツ情報の属性値を求めたURI階層解析部72は、そのコンテンツ情報の属性値を基にスコアリング計算部73にコンテンツ情報のスコアの算出を依頼する(ステップ509)。
【0177】
なお、第4の実施形態の説明として、各仮定のアウトリンクの数を1としたが、アウトリンクの数として仮定する値は、1に限られるわけではない。例えば、同じパス内のコンテンツ情報間の平均アウトリンクの数、又は、直下のコンテンツ情報への平均アウトリンクの数などのデータ(例えば、同じパス内は平均0.8、直下は平均1.0)がある場合は、そのデータに沿ったアウトリンクの数を割り当てるようにしてもよい。
【0178】
第4の実施形態に係る検索ランキング装置4は、アウトリンクの情報がないコンテンツ情報でもランキングが行える効果を得ることが出来る。
【0179】
その理由は、第4の実施形態に係る検索ランキング装置4は、所定の仮定とURI構造とを基にコンテンツ情報のアウトリンクの数などのコンテンツ情報の属性値を求め、そのコンテンツ情報の属性値を基にスコアの算出を行うようにしたためである。
(付記)
(付記1)
コンテンツ又はコンテンツに関する情報(以下、コンテンツ情報と言う)を収集し、前記コンテンツ情報の構造に関する情報を作成するクローラ部と、前記コンテンツ情報と前記コンテンツ情報の構造に関する情報を保存するコンテンツ保持部とを備えるクローラ装置と、
前記コンテンツ保持部に保持されている前記コンテンツ情報の構造に関する情報を基に前記コンテンツ情報の他コンテンツ情報へのリンク(以下、アウトリンクと言う)の構造を解析し前記コンテンツ情報の前記アウトリンクに関する情報を作成するアウトリンク抽出部と、前記アウトリンク抽出部が作成した前記アウトリンクに関する情報を保持するアウトリンク保持部とを備えるアウトリンク抽出装置と、
前記コンテンツ情報と前記アウトリンクに関する情報とのどちらか又は両方を基に前記コンテンツ情報の属性値を求めるコンテンツ解析部と、前記コンテンツ情報の属性値を基に前記コンテンツ情報のスコアを算出するスコア計算部と、前記コンテンツ情報を受け取り前記コンテンツ情報の前記スコアを返却する制御部とを備える検索ランキング装置と、
コンテンツの検索要求を受け取り前記コンテンツ保持部から前記検索要求に合致する検索された前記コンテンツ情報を受け取り、前記制御部に前記コンテンツ情報の前記スコアの算出を依頼し、算出した前記スコアを受け取り、受け取った前記スコアを基に前記コンテンツ情報のランキングを行う検索エンジン装置と
を備えることを特徴とする検索ランキングシステム。
【符号の説明】
【0180】
1 検索ランキング装置
2 検索ランキング装置
3 検索ランキング装置
4 検索ランキング装置
5 検索ランキングシステム
10 クローラ部
20 コンテンツ保持部
30 アウトリンク抽出部
40 アウトリンク保持部
50 検索エンジン部
60 スコアリング部
70 スコアリング部
71 スコアリング制御部
72 URI階層解析部
73 スコアリング計算部
81 コンテンツサーバ
82 クローラ装置
83 アウトリンク抽出装置
84 検索装置

【特許請求の範囲】
【請求項1】
検索されたコンテンツ又はコンテンツに関する情報(以下、コンテンツ情報と言う)を受け取り、前記コンテンツ情報のスコアを返却する制御部と、
前記コンテンツ情報と、前記コンテンツ情報から他コンテンツ情報へのリンク(以下、アウトリンクと言う)に関する情報とのどちらか又は両方を基に前記コンテンツ情報の属性値を求めるコンテンツ解析部と、
前記コンテンツ情報の属性値を基に前記コンテンツ情報の前記スコアを算出するスコア計算部と
を備えることを特徴とする検索ランキング装置。
【請求項2】
前記属性値として
前記検索された前記コンテンツ情報の検索結果の数と、
前記コンテンツ情報の前記アウトリンクの数と、
前記検索されたコンテンツ情報の検索結果に含まれる前記アウトリンクの数と、
を含むことを特徴とする請求項1に記載の検索ランキング装置。
【請求項3】
前記属性値として
前記コンテンツ情報若しくは前記アウトリンクのネットワークでの位置、又は、
前記コンテンツ情報若しくは前記アウトリンクの名称に関する情報
を含むことを特徴とする請求項1又は請求項2に記載の検索ランキング装置。
【請求項4】
前記スコア計算部が、
前記コンテンツ情報の全ての前記アウトリンクに対する前記検索結果に含まれる前記アウトリンクの数の割合と、
全ての前記検索結果に対する前記検索結果に含まれる前記アウトリンクの数の割合と
に基づいて前記スコアを算出することを特徴とする請求項2又は請求項3に記載の検索ランキング装置。
【請求項5】
前記コンテンツ情報を収集し、前記コンテンツ情報の構造に関する情報を作成するクローラ部と、
前記コンテンツ情報と、前記コンテンツ情報の構造に関する情報を保存するコンテンツ保持部と、
コンテンツの検索要求を受け取り、前記コンテンツ保持部から前記検索要求に合致する検索された前記コンテンツ情報を受け取り、前記制御部に前記コンテンツ情報の前記スコアの算出を依頼し、算出した前記スコアを受け取り、受け取った前記スコアを基に前記コンテンツ情報のランキングを行う検索エンジン部と
を備えることを特徴とする請求項1乃至請求項4のいずれかに記載の検索ランキング装置。
【請求項6】
前記コンテンツ保持部に保持されている前記コンテンツ情報の構造に関する情報を基に、前記コンテンツ情報の前記アウトリンクの構造を解析し、前記コンテンツ情報の前記アウトリンクに関する情報を作成するアウトリンク抽出部と、
前記アウトリンク抽出部が作成した前記アウトリンクに関する情報を保持するアウトリンク保持部と
を備えることを特徴とする請求項5に記載の検索ランキング装置。
【請求項7】
前記属性値として、
前記コンテンツ情報が直接リンクしている前記アウトリンクに関する情報と、
前記コンテンツ情報から所定のホップ数以下のリンク先
又は
前記コンテンツ情報と同じパスの配下の
どちらか又は両方にとなるコンテンツ情報の前記アウトリンクに関する情報の一部又は全てと
を含むことを特徴とする請求項1乃至請求項6のいずれかに記載の検索ランキング装置。
【請求項8】
前記コンテンツ情報にアウトリンクが無い場合、
前記コンテンツ情報と同じパス内のコンテンツ情報の数と、
前記同じパスの配下にあるコンテンツ情報の数を基に
前記属性値を求めること
を特徴とする請求項1乃至請求項7のいずれかに記載の検索ランキング装置。
【請求項9】
検索されたコンテンツ又はコンテンツに関する情報(以下、コンテンツ情報と言う)を受け取り、
前記コンテンツ情報と、前記コンテンツ情報から他コンテンツ情報へのリンク(以下、アウトリンクと言う)に関する情報とのどちらか又は両方を基に前記コンテンツ情報の属性値を求め、
前記コンテンツ情報の属性値を基に前記コンテンツ情報の前記スコアを算出し、
前記コンテンツ情報のスコアを返却する
ことを特徴とする検索ランキング方法。
【請求項10】
検索されたコンテンツ又はコンテンツに関する情報(以下、コンテンツ情報と言う)を受け取る処理と、
前記コンテンツ情報と、前記コンテンツ情報から他コンテンツ情報へのリンク(以下、アウトリンクと言う)に関する情報とのどちらか又は両方を基に前記コンテンツ情報の属性値を求める処理と、
前記コンテンツ情報の属性値を基に前記コンテンツ情報のスコアを算出する処理と、
前記コンテンツ情報の前記スコアを返却する処理と
をコンピュータに実行させることを特徴とする検索ランキングプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−186776(P2011−186776A)
【公開日】平成23年9月22日(2011.9.22)
【国際特許分類】
【出願番号】特願2010−51296(P2010−51296)
【出願日】平成22年3月9日(2010.3.9)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】