説明

情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

【課題】 有効な検索付随情報の提供、および効率的な検索処理を可能とする情報処理装置および方法を提供する。
【解決手段】 クライアントからの検索要求に基づいて、ヒットコンテンツの情報を取得し、ヒットコンテンツの属するコンテナ(フォルダ、カテゴリ、サイトなど)全体に含まれるヒットコンテンツのスコア分布を計算し、計算されたスコア分布情報を、ヒットコンテンツ情報とともにクライアントに提示する構成とした。本構成により、クライアント側のユーザは、興味のある有効情報が含まれるコンテナを効率的に判定することが可能となり、コンテナ指定の検索などによって目的とするコンテンツを効率的に取得することを可能とした検索システムが実現される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに、詳細には、検索処理において取得される検索結果に付随情報としてヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を設定し、効率的な有効情報の所在判定を可能とした情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
【背景技術】
【0002】
インターネットあるいはイントラネットなどのネットワーク通信が盛んになり、このようなネットワークを介したサービスの1つとして検索サービスがある。ネットワーク接続されたパーソナルコンピュータ等のユーザ端末からの検索要求に応じた処理をサーバ側で実行し、その処理結果をユーザ端末に送信する。
【0003】
例えば、インターネットを介した検索処理を実行する場合、検索サービスを提供しているWebサイトにアクセスし、Webサイトの提示メニューに従って、キーワード、カテゴリなどの検索条件を入力しサーバに送信する。サーバは、これらの検索条件に従って、処理を実行し、処理結果をユーザ端末に表示する。
【0004】
データ検索処理の実行機能を持つ検索エンジンは、例えば検索条件を設定した検索式に基づいてデータベースを検索し、それぞれの検索式に合致するデータをデータベースから抽出し、これを検索結果としてユーザ端末に出力する。
【0005】
検索エンジンでの検索結果の出力態様としては様々なものがある。例えば、検索条件に該当するコンテンツやコンテナ(フォルダ、カテゴリ、サイトなど)を検索結果画面に表示するものがある。例えば、Web検索として多く利用されているGoogleのように、検索結果のコンテンツリストの各コンテンツ情報の側にコンテナ(カテゴリ)を表示するものがある。ユーザはこのコンテナ(ホットスポット)をクリックすると、そのコンテナに含まれるコンテンツを閲覧することができる。
【0006】
しかし、検索結果画面にはコンテナに含まれるヒット文書に関する情報(ヒット件数やスコア分布情報)がないために、検索条件に適合した他の文書がそのコンテナに何件ぐらい含まれるか、あるいはそのコンテンツには検索条件に一致する他の文書が全く無いか等の判断をすることができない。
【0007】
すなわち、ある検索処理を実行した場合に抽出されるヒット文書の属するコンテナ(カテゴリ)が、ユーザの画面に複数提示された場合、さらにコンテナを選択した検索を実行したくても、どのコンテナを選択して検索を実行するのが効率的であるのかを判定することができないという問題がある。
【0008】
また、Web検索の例として、例えばYAHOO SHOPPINGというサイトがある。本サイトで検索を実行すると、コンテンツ(商品情報)のほかに、「商品が一致した店舗」というエリアが提示される。そこには店舗情報(コンテナに相当)と店舗に含まれる商品の数が表示される。この数によってユーザはその店舗の希望商品の取り扱い規模を知ることができ、店舗アクセスの判断材料とすることができる。
【0009】
一般に、検索条件にヒットしたコンテンツはシステム固有のロジックで検索条件への適合度(以下スコア)を算出し、スコアが高いものを優先的に表示する。例えば、テキスト検索では、ユーザの検索式に含まれるキーワードの出現回数が多い文書を上位に設定したり、あるいは最新の文書を上位に設定したり、あるいはアクセス頻度の高い文書を上位に設定したりなどである。
【0010】
しかし、ユーザにとっては、スコアの高いコンテンツを知ることも重要であるが、スコアの高いコンテンツがどのコンテナに含まれているかを知ることも重要である。すなわち、上述したように、さらに検索を継続して実行する場合、どのコンテナを選択して検索を行えば興味の高いデータを効率的に抽出することができるかを判定できるからである。
【0011】
上述した従来技術では、コンテンツ毎にコンテナを表示したり(Googleウェブ検索)、そのコンテナに含まれるヒットコンテンツ数を知ることはできるが(YAHOO SHOPPING)、それに含まれるコンテンツのスコア情報を知ることはできない。そのコンテナにはスコアの高いコンテンツがどのくらい含まれているのか、スコアの低いコンテンツが含まれているかを知ることができない。
【発明の開示】
【発明が解決しようとする課題】
【0012】
本発明は、上述の問題点に鑑みてなされたものであり、検索処理において取得される検索結果に付随情報としてヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を設定し、効率的な有効情報の所在判定を可能とした情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
【0013】
具体的には、本発明は検索処理において取得される検索結果に、検索結果としてヒットしたコンテンツを含むコンテナ(フォルダ、カテゴリ、サイトなど)全体に含まれるヒットコンテンツのスコア分布を計算し、このスコア分布情報をヒットコンテンツに関する情報とともに、クライアントに提示するコンテナ付随情報とする構成により、クライアント側のユーザが、興味のある有効情報を含むコンテナを効率的に選択することを可能とし、検索効率を高めた情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明の第1の側面は、
データ検索処理を実行する情報処理装置であり、
検索条件に従った検索処理を実行し、検索条件に対応するヒットコンテンツの抽出処理を実行する検索部と、
前記検索部の検索結果に基づいて、前記ヒットコンテンツの検索条件適応度としてのコテンツスコアを算出するコンテンツスコア算出部と、
前記コンテンツスコア算出部の算出したコンテンツスコアを、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報として集計するコンテナ評価部と、
前記コンテナ評価部の集計データであるスコア分布情報を含む検索結果データを表示データとして生成する表示情報生成部と、
を有することを特徴とする情報処理装置にある。
【0015】
さらに、本発明の情報処理装置の一実施態様において、前記コンテンツスコア算出部は、検索条件として設定された検索キーワードの各ヒットコンテンツにおける出現頻度と、前記キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出するインバース・ドキュメント頻度とをパラメータとして含む算出式を適用してコンテンツスコアを算出する構成であることを特徴とする。
【0016】
さらに、本発明の情報処理装置の一実施態様において、前記コンテンツスコア算出部は、検索条件として設定された検索キーワードの各ヒットコンテンツにおける出現頻度と、前記キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出するインバース・ドキュメント頻度と、コンテンツ更新日付の新しいものを大きな値として算出する日付に基づく関数算出値をパラメータとして含む算出式を適用してコンテンツスコアを算出する構成であることを特徴とする。
【0017】
さらに、本発明の情報処理装置の一実施態様において、前記コンテナ評価部は、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を、n段階(nは整数)に区分した集計情報として生成する構成であることを特徴とする。
【0018】
さらに、本発明の情報処理装置の一実施態様において、前記コンテナ評価部は、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を、グラフィカルデータとして生成する構成であることを特徴とする。
【0019】
さらに、本発明の情報処理装置の一実施態様において、前記表示情報生成部は、ヒットコンテンツのリスト表示部に表示される各コンテンツに対応付けて、前記スコア分布情報を設定した表示情報の生成処理を行なう構成であることを特徴とする。
【0020】
さらに、本発明の情報処理装置の一実施態様において、前記表示情報生成部は、ヒットコンテンツのリスト表示部と、前記スコア分布情報の表示部とを区分した表示情報の生成処理を行なう構成であることを特徴とする。
【0021】
さらに、本発明の情報処理装置の一実施態様において、前記検索部は、コンテンツに対応するインデックス情報に基づく検索処理を実行する構成であることを特徴とする。
【0022】
さらに、本発明の第2の側面は、
データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、
検索条件に従った検索処理を実行し、検索条件に対応するヒットコンテンツの抽出処理を実行する検索ステップと、
前記検索ステップにおける検索結果に基づいて、前記ヒットコンテンツの検索条件適応度としてのコテンツスコアを算出するコンテンツスコア算出ステップと、
前記コンテンツスコア算出ステップにおいて算出したコンテンツスコアを、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報として集計するコンテナ評価ステップと、
前記コンテナ評価ステップにおける集計データであるスコア分布情報を含む検索結果データを表示データとして生成する表示情報生成ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
【0023】
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記コンテンツスコア算出ステップは、検索条件として設定された検索キーワードの各ヒットコンテンツにおける出現頻度と、前記キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出するインバース・ドキュメント頻度とをパラメータとして含む算出式を適用してコンテンツスコアを算出するステップであることを特徴とする。
【0024】
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記コンテンツスコア算出ステップは、検索条件として設定された検索キーワードの各ヒットコンテンツにおける出現頻度と、前記キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出するインバース・ドキュメント頻度と、コンテンツ更新日付の新しいものを大きな値として算出する日付に基づく関数算出値をパラメータとして含む算出式を適用してコンテンツスコアを算出するステップであることを特徴とする。
【0025】
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記コンテナ評価ステップは、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を、n段階(nは整数)に区分した集計情報として生成することを特徴とする。
【0026】
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記コンテナ評価ステップは、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を、グラフィカルデータとして生成することを特徴とする。
【0027】
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記表示情報生成ステップは、ヒットコンテンツのリスト表示部に表示される各コンテンツに対応付けて、前記スコア分布情報を設定した表示情報の生成処理を行なうことを特徴とする。
【0028】
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記表示情報生成ステップは、ヒットコンテンツのリスト表示部と、前記スコア分布情報の表示部とを区分した表示情報の生成処理を行なうことを特徴とする。
【0029】
さらに、本発明のコンピュータ・プログラムの一実施態様において、前記検索ステップは、コンテンツに対応するインデックス情報に基づく検索処理を実行することを特徴とする。
【0030】
さらに、本発明の第3の側面は、
データ検索処理を実行する情報処理方法であり、
検索部において検索条件に従った検索処理を実行し、検索条件に対応するヒットコンテンツの抽出処理を実行する検索ステップと、
コンテンツスコア算出部における処理であり、前記検索ステップにおける検索結果に基づいて、前記ヒットコンテンツの検索条件適応度としてのコテンツスコアを算出するコンテンツスコア算出ステップと、
コンテナ評価部における処理であり、前記コンテンツスコア算出ステップにおいて算出したコンテンツスコアを、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報として集計するコンテナ評価ステップと、
表示情報生成部における処理であり、前記コンテナ評価ステップにおける集計データであるスコア分布情報を含む検索結果データを表示データとして生成する表示情報生成ステップと、
を有することを特徴とする情報処理方法にある。
【0031】
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
【0032】
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【発明の効果】
【0033】
本発明の構成によれば、クライアントからの検索要求に基づいて、ヒットコンテンツの情報を取得し、ヒットコンテンツの属するコンテナ(フォルダ、カテゴリ、サイトなど)全体に含まれるヒットコンテンツのスコア分布を計算し、計算結果としてのスコア分布情報をクライアントに提示する構成としたので、クライアント側のユーザは、興味のある有効情報が含まれるコンテナを効率的に判定することが可能となり、コンテナ指定の検索などによって目的とするコンテンツを効率的に取得することを可能とした検索システムが実現される。
【発明を実施するための最良の形態】
【0034】
以下、図面を参照しながら本発明の情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。
【0035】
図1は本発明の適用可能な情報検索システムの全体構成を示す図である。情報検索システムは、検索処理を実行する検索実行装置としての情報処理装置110、情報処理装置110に対してネットワーク150を介して検索の依頼を行い、検索結果を受領するクライアント131〜134、情報処理装置110における検索対象データを格納したデータベースを持つデータ管理サーバ120、さらに、データ管理サーバ120の予め定められた文書収集対象位置(たとえばあるディレクトリ以下の文書)から文書の収集を実行する収集サーバ140によって構成される。
【0036】
クライアント131〜134、検索実行装置としての情報処理装置110、データベースを持つデータ管理サーバ120は、ネットワーク150を介して接続されている。ネットワークは、インターネット、イントラネット等の通信ネットワークである。
【0037】
検索実行装置としての情報処理装置110は、検索部111、インデックス格納部112、通信部113、表示情報生成部114、コンテナ評価部115、コンテンツスコア算出部116、記憶部117、登録部118を有する。データ管理サーバ120は、検索対象データを格納したデータベース123〜125、通信部121を有する。クライアントは、ネットワーク150を介した通信の可能な情報処理装置、例えばPC(パーソナルコンピュータ)によって構成される。
【0038】
データ管理サーバ120の管理するデータベース123〜125は、例えばネットワークを介して接続された文書管理システム、ファイルサーバーなどによって構成され、様々なドキュメントが格納されている。
【0039】
収集サーバ140は通信部141、収集部142を有し、データ管理サーバ120の管理するファイルサーバー等、予め定められた文書収集対象位置(たとえばあるディレクトリ以下の文書)から文書の収集を行なう。収集サーバ140の収集部142は、収集位置の文書の更新状況を常に監視し、変化(新規文書が存在する、文書が更新された、文書が削除された、など)があれば、その情報を収集する。収集部142はネットワーク150を介して接続されたデータ管理サーバ120の管理するファイルサーバーから文書やその属性情報を取得し、取得文書からテキストを抽出し、属性情報とあわせて情報処理装置110内の登録部118へ送信する。
【0040】
情報処理装置110内の登録部118はテキスト情報を解析(形態素解析)し、語(キーワード)を抽出し、語と属性情報をインデックスへ登録する。例えば、文書のメタデータ(キーワード、ファイル名、フォルダ名、要約など)をインデックスと情報として、インデックス格納部112に登録、格納する。
【0041】
検索実行装置としての情報処理装置110は、通信部113を介してクライアント131〜134検索要求を受信し、検索部111が、クライアントからの検索条件、例えばキーワード等によって構成される検索条件に基づいて、インデックス格納部112に格納されたインデックス情報に基づく検索処理を実行する。インデックス格納部112には、上述した登録部118の処理によってデータ登録サーバ120のデータベース123〜125に登録されたデータに対応するインデックス情報が格納されており、検索処理は、インデックス格納部112に格納されたインデックスに基づいて実行される。検索部111は、クライアントからの検索条件に適合するインデックス情報をインデックス格納部112から取得する。
【0042】
インデックス格納部112から取得する情報には、コンテンツの情報として、文書ID、コンテナID、さらに、ユーザ端末としてのクライアントに提供する表示情報(例えば文書名、コンテナ名など)、さらにスコア算出のための情報が含まれる。
【0043】
図2に、インデックス格納部112に格納されるインデックスの例を示す。インデックス格納部112に格納されるインデックス情報としては、例えば図2に示すように、
(1)キーワードに基づいて、文書ID、日付データ、出現頻度の情報を取得可能としたインデックス1
(2)文書IDに基づいて、文書名、フォルダ名(コンテナ)、更新日付、要約などの書誌情報を取得可能としたインデックス2
これら2つのインデックス情報がある。
【0044】
検索部111において実行する検索処理では、例えば、クライアントから受領した検索式に含まれるキーワードに基づいて、まず、図2に示すインデックス1を参照して、各キーワードからヒットする文書IDを探す処理を実行し、さらに、日付データ、出現頻度などからスコアを算出する。さらに、ヒットした文書IDから表示用の書誌情報をインデックス2から検索する。検索部111は、この検索結果として取得した情報を記憶部117に格納する。
【0045】
記憶部117は、検索部111の実行した検索結果の情報を一時的に記憶するメモリであり、この記憶部117に格納された情報に基づいて、以下に説明する各種の処理が実行される。
【0046】
まず、コンテンツスコア算出部116は、記憶部117に格納された検索結果データからスコア算出のための情報を抽出し、ヒットしたコンテンツの属するコンテナ、すなわちヒットコンテンツの所属集合であるコンテナに含まれるコンテンツ各々のスコア値を算出する。コンテンツスコア算出部116は、予め定められたスコア算出アルゴリズムに従って、検索部111の抽出したヒットコンテンツの属するコンテナに含まれるコンテンツ各々のスコア値を算出する。
【0047】
スコアとは、検索システムに設定されたシステム固有のロジックに基づいて算出される検索条件への適応度である。コンテンツスコア算出部116は、検索部111の検索結果に基づいて、ヒットコンテンツの検索条件適応度としてのコテンツスコアを算出する。
【0048】
例えば、テキスト検索では、ユーザの検索式に含まれるキーワードの出現回数が多い文書が高いスコアとする、あるいは最新の文書を高いスコアとする、あるいはアクセス頻度の高い文書を高いスコアとするなど、様々な設定がある。このようなスコア算出に適用する情報は、検索システムによって異なるが、例えば、キーワードの出現位置や頻度、コンテンツの更新日付などである。
【0049】
具体的なスコア算出アルゴリズムの2つの例について、図3、図4を参照して説明する。まず、図3を参照して、あるキーワード[A]に対応するコンテンツのスコア算出アルゴリズムの第1の例について説明する。
【0050】
図3のステップS11は、ターム頻度[tf]の算出ステップであり、コンテンツにおけるキーワード[A]の出現頻度[tf(term frequency)]を求めるステップである。ステップS12は、インバース・ドキュメント頻度[idf]を算出するステップであり、
N:全文書数
f:キーワード[A]を含むコンテンツ数
としたとき、
idf=log(N/f)
を算出するステップである。
【0051】
ステップS12において算出するインバース・ドキュメント頻度[idf]は、キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出される。これは、あるキーワードが含まれるコンテンツが全コンテンツに対して少ない場合は、そのコンテンツの価値が高いという考え方に基づいて算出される値である。
【0052】
ステップS13は、キーワード[A]に対応するコンテンツスコアを算出するステップであり、ステップS11で算出したターム頻度[tf]と、ステップS12で算出したインバース・ドキュメント頻度[idf]との乗算を実行し、
コンテンツスコア=tf×idf
としてコンテンツスコアを算出する。
【0053】
なお、上述のコンテンツスコアは1つのキーワード[A]に対応するコンテンツスコアである。複数のキーワードを含む検索式をクライアントが提示している場合は、各キーワードについて、ステップS11〜S13の処理を実行し、各キーワードについてのコンテンツスコア:idf1,idf2,idf3・・・idfkを算出した後、これらを合計した値、すなわちΣidfnをそのコンテンツのコンテンツスコアとする。
【0054】
図4は、コンテンツスコア算出アルゴリズムの第2の例を示している。図4のアルゴリズムもあるキーワード[A]に対応するコンテンツのスコア算出アルゴリズムの例である。
【0055】
図4のステップS21は、図3のステップS11と同様のステップである。すなわち、ターム頻度[tf]の算出ステップであり、コンテンツにおけるキーワード[A]の出現頻度[tf(term frequency)]を求めるステップである。ステップS22は、図3のステップS12と同様のステップであり、インバース・ドキュメント頻度[idf]を算出するステップである。
【0056】
ステップS23は、図3のアルゴリズムには設定されていない日付に基づく重みデータ[f(日付)]を求めるステップである。日付はコンテンツ(文書)の更新日付であり、f(日付)は、更新日時が新しいものほど、大きな値を出力する関数である。
【0057】
ステップS24は、キーワード[A]に対応するコンテンツスコアを算出するステップであり、ステップS21で算出したターム頻度[tf]と、ステップS22で算出したインバース・ドキュメント頻度[idf]と、ステップS23で算出した日付に基づく重みデータ[f(日付)]の乗算を実行し、
コンテンツスコア=tf×idf×f(日付)
としてコンテンツスコアを算出する。
【0058】
なお、本アルゴリズムも、上述の算出式において求められるコンテンツスコアは1つのキーワード[A]に対応するコンテンツスコアであり、複数のキーワードを含む検索式をクライアントが提示している場合は、各キーワードについて、ステップS21〜S24の処理を実行し、各キーワードについてのコンテンツスコア:idf1,idf2,idf3・・・idfkを算出した後、これらを合計した値、すなわちΣidfnをそのコンテンツのコンテンツスコアとする。
【0059】
コンテンツスコア算出部116は、例えば、上述した図3、図4を参照して説明したスコア算出アルゴリズムに従って、検索部111の抽出したヒットコンテンツ各々のスコアを算出する。コンテンツスコア算出部116の算出した各ヒットコンテンツ対応のスコアは、記憶部117に格納される。
【0060】
コンテナ評価部115は、記憶部117に格納されたデータに基づいて、検索部111の検索結果としての複数のヒットコンテンツに対して、各コンテンツの付随情報として設定されているコンテナID(フォルダID)に基づくソート処理を実行し、各コンテナに含まれるコンテンツのスコア分布情報を生成する。すなわち、コンテンツスコア算出部116の算出した各コンテンツのスコアを利用して、コンテナ毎にスコアの分布を計算する。コンテナ評価部115は、コンテナIDに基づくヒットコンテンツのソート結果、およびスコア分布算出結果を記憶部117に格納する。
【0061】
表示情報生成部114は、記憶部117に格納されたデータに基づいて、ユーザ端末としてのクライアントに提供する表示情報、すなわち、クライアントからの検索要求に基づいて抽出されたヒットコンテンツやコンテナの表示情報を生成する。
【0062】
図5、図6を参照して、クライアントに提供する表示情報の構成例について説明する。図5に示すように、検索結果320は、クライアントからの検索条件に合致したコンテンツを検索システムの適用しているロジックに従って算出したスコア順にコンテンツ名321をリスト化して表示される。図5の例は、コンテンツ名を、
1.xxx.doc
2.xxx.xls
3.xxx.ppt
の順番で、スコア順に設定されたコンテンツリストを提示した例を示している。スコアは、前述したように、ユーザの検索式に含まれるキーワードの出現回数、文書の新旧、あるいはアクセス頻度の高低など、検索システムの適用しているロジックに従って決定される。
【0063】
本発明の情報処理装置100の生成する表示情報には、各コンテンツ名に対応する付随情報として、要約322、コンテナ名323、スコア分布323が設定される。
【0064】
要約322は、リストアップされた各ヒットコンテンツの要約情報である。
コンテナ名323は、リストアップされた各ヒットコンテンツの属するコンテナ、例えば、フォルダ、カテゴリ、サイトなどの識別情報である。
【0065】
スコア分布324は、コンテナに対応するデータであり、コンテナに含まれる全ヒットコンテンツについてのスコア分布を示している。このスコアは、コンテンツスコア算出部116の算出したスコアであり、予め定められたスコア算出アルゴリズムに従って、検索部111の抽出したヒットコンテンツの属するコンテナに含まれるヒットコンテンツ各々のスコア値に基づいている。
【0066】
図に示すスコア分布の表示例では、「高」、「中」、「低」の3段階のレベルに各コンテンツを区分した表示形式を示している。
【0067】
具体的には、例えば、リストの先頭にあるコンテンツ[1.xxx.doc]の属するコンテナは、[¥1¥2¥3]であり、このコンテナ[¥1¥2¥3]に含まれるコンテンツのスコア分布は、
高スコア:12コンテンツ
中スコア:44コンテンツ
低スコア:1コンテンツ
であることを示している。
【0068】
また、リストの2番目にあるコンテンツ[1.xxx.xls]の属するコンテナは、[¥1¥5¥11]であり、このコンテナ[¥1¥5¥11]に含まれるコンテンツのスコア分布は、
高スコア:12コンテンツ
中スコア:44コンテンツ
低スコア:1コンテンツ
である。
【0069】
前述したように、スコアは検索システムの適用しているロジックによって異なるものである。たとえば検索キーワードの出現頻度に基づくスコア算出を適用していると仮定すると、各コンテナに含まれる複数コンテンツの各々について、検索キーワードの出現頻度を高、中、低の3段階にレベル分けした結果が、それぞれ高スコアコンテンツ、中スコアコンテンツ、低スコアコンテンツに区分され、それぞれのコンテンツ数が、各コンテナのスコア分布として表示されることになる。
【0070】
また、コンテンツアクセス回数の頻度に基づくスコア算出を適用していると仮定すると、各コンテナに含まれる複数コンテンツの各々について、アクセス回数の頻度を高、中、低の3段階にレベル分けした結果が、それぞれ高スコアコンテンツ、中スコアコンテンツ、低スコアコンテンツに区分され、それぞれのコンテンツ数が、各コンテナのスコア分布として表示されることになる。
【0071】
なお、図5に示す例では、3段階のスコア区分として各コンテナのスコア分布を表示した例を示しているが、3段階のスコア分布にかぎらず5段階、10段階など、任意の段階のスコア分布の表示が適用可能であり、また、高いスコアのコンテンツ数のみを表示してもよい。また、数値によって表示するのではなく、ヒストグラムや、色彩分布データなどのグラフィカルデータとして表示する形式としてもよい。
【0072】
図5に示す検索結果表示例と異なる表示形式を持つ検索結果の表示例を図6に示す。図5に示す例では、リスト化されたヒットコンテンツの各々に対応するコンテナと、コンテナのスコア分布をコンテンツに対応付けて表示する形式であったが、図6に示す検索結果340の表示形式は、ヒットコンテンツ表示部341と、コンテナリスト表示部342とを区分して表示した例である。
【0073】
ヒットコンテンツ表示部341には、所定のロジックに従って順番の設定されたコンテンツリスト、すなわちクライアントの検索条件に合致するヒットコンテンツのリストが表示される。リストは、コンテンツ名345、要約346、コンテンツの属するコンテナン名347が含まれるリストとして設定される。
【0074】
図5を参照して説明した表示例と異なり、コンテナに対応するスコア分布344は、コンテンツリストと別のコンテナリスト表示部342にまとめて表示される。
【0075】
コンテナリスト表示部342には、ヒットコンテンツ表示部341に表示される各コンテンツの属するコンテナが提示され、各提示コンテナに含まれるコンテンツについてのスコア分布348についての情報が表示される。スコアは、コンテンツスコア算出部116の算出したスコアであり、予め定められたスコア算出アルゴリズムに従って、検索部111の抽出したヒットコンテンツの属するコンテナに含まれるヒットコンテンツ各々のスコアである。検索キーワードの出現頻度、文書の新旧、あるいはアクセス頻度の高低などによって各コンテンツのスコアが算出される。
【0076】
図6の例においても、3段階のスコア区分として各コンテナのスコア分布を表示した例を示しているが、3段階のスコア分布にかぎらず5段階、10段階など、任意の段階のスコア分布の表示が適用可能であり、また、高いスコアのコンテンツ数のみを表示してもよい。また、数値によって表示するのではなく、ヒストグラムや、色彩分布データなどのグラフィカルデータとして表示する形式としてもよい。
【0077】
クライアントは、図5、あるいは図6に示すような検索結果、すなわち、各コンテナに含まれるヒットコンテンツのスコア分布を含む検索結果をディスプレイに提示することで、検索条件に適合するコンテンツを多く含むコンテナ、あるいはほとんど適合コンテンツを含まないコンテナなどを一目瞭然にして判別することが可能となる。従って、検索条件に適合するコンテンツを多く含むコンテナを指定したコンテンツ検索を実行、あるいはコンテナに含まれるコンテンツリストの取得、表示処理などを実行することにより、ユーザの目的とするコンテンツを効率的に抽出することが可能となる。
【0078】
次に、図7のフローチャートを参照して、検索処理及び検索結果の生成、提示処理を実行する情報処理装置110の処理手順について説明する。
【0079】
ステップS101において、まず、クライアントからの検索要求を受領し、検索要求に基づいて、検索部111(図1参照)がインデックス格納部112からインデックス情報(図2参照)を取得して検索処理を実行する。インデックス情報に基づく検索は、先に図2を参照して説明したように、キーワードに基づく文書IDなどの情報取得、文書IDに基づく書誌情報取得などの処理によって実行される。ただし、検索処理はインデックス情報の形態によって異なる処理シーケンスとなる。
【0080】
次に、ステップS102において、検索部111の実行した検索結果が記憶部117へ格納される。ステップS103ではコンテンツスコア算出部116において、記憶部117に格納された検索結果に基づくコンテンツスコア算出処理が実行される。コンテンツスコア算出処理は、例えば先に図3、図4を参照して説明したコンテンツスコア算出アルゴリズムに従って実行される。
【0081】
次に、ステップS105において、コンテナ評価部115が、コンテンツの属するコンテナ(フォルダなど)毎にヒットコンテンツのスコアを集計し、スコア分布情報を算出し、算出結果を記憶部117へ格納する。コンテナ評価部115は、記憶部117に格納されたヒットコンテンツのスコアデータに基づいて、コンテンツの属するコンテナに基づくソート処理を実行し、各コンテナに含まれるコンテンツのスコア分布情報を生成する。スコア分布情報は、先に、図5、図6を参照して説明した検索結果に含まれるようなスコア分布情報、例えば高、中、低の3段階評価情報である。この他、n段階評価、グラフィカル表現に基づくスコア分布情報などを生成する構成としてもよい。
【0082】
次に、ステップS105において、表示情報生成部114が記憶部117格納データに基づいて表示情報を生成する。この表示情報は、先に、図5、図6を参照して説明した検索結果であり、図5に示すように、スコア分布情報を各ヒットコンテンツに対応する情報として設定した態様や、図6に示すように、ヒットコンテンツ情報と、スコア分布情報とを別領域に表示す態様などの設定が可能である。
【0083】
このように、本発明の構成においては、クライアントからの検索要求に基づくヒットコンテンツの情報を取得し、提示するのみならず、ヒットコンテンツの属するコンテナ(フォルダ、カテゴリ、サイトなど)全体に含まれるヒットコンテンツのスコア分布を計算し、計算結果としてのスコア分布情報をクライアントに提示する構成としたので、クライアント側のユーザは、興味のある有効情報が含まれるコンテナを効率的に判定することが可能となり、コンテナ指定の検索などを効率的に実行することができ、目的とするコンテンツを効率的に取得することができる。
【0084】
最後に、上述した検索処理を実行する情報処理装置110のハードウェア構成例について、図8を参照して説明する。
【0085】
CPU(Central Processing Unit)501は、OS(Operating System)、上述の実施例において説明した検索処理、コンテンツスコア算出処理、スコア分布情報生成処理を含むコンテナ評価処理、表示情報生成処理等の各処理の実行シーケンスを記述した各種コンピュータ・プログラムに従った処理を実行する制御部である。
【0086】
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
【0087】
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
【0088】
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
【0089】
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、図1に示すインデックス格納部112、記憶部117としての役割、および各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【0090】
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
【0091】
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、CPU501、またはHDD511等からの供給データの送信、データ受信を実行する。
【0092】
なお、図8に示す情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の情報処理装置は、図8に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
【0093】
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
【0094】
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
【0095】
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
【0096】
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
【0097】
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【産業上の利用可能性】
【0098】
以上、説明したように、本発明の構成によれば、クライアントからの検索要求に基づいて、ヒットコンテンツの情報を取得し、ヒットコンテンツの属するコンテナ(フォルダ、カテゴリ、サイトなど)全体に含まれるヒットコンテンツのスコア分布を計算し、計算結果としてのスコア分布情報をクライアントに提示する構成としたので、クライアント側のユーザは、興味のある有効情報が含まれるコンテナを効率的に判定することが可能となり、コンテナ指定の検索などによって目的とするコンテンツを効率的に取得することを可能とした検索システムが実現される。
【図面の簡単な説明】
【0099】
【図1】本発明の適用可能な情報検索システムの全体構成を示す図である。
【図2】インデックス格納部112に格納されるインデックスの例を示す図である。
【図3】コンテンツのスコア算出アルゴリズムの第1の例について説明する図である。
【図4】コンテンツのスコア算出アルゴリズムの第2の例について説明する図である。
【図5】クライアントに提供する表示情報の構成例について説明する図である。
【図6】クライアントに提供する表示情報の構成例について説明する図である。
【図7】検索処理及び検索結果の生成、提示処理を実行する情報処理装置の処理手順について説明するフロー図である。
【図8】検索処理及び検索結果の生成、提示処理を実行する情報処理装置のハードウェア構成例について説明する図である。
【符号の説明】
【0100】
110 情報処理装置
111 検索部
112 インデックス格納部
113 通信部
114 表示情報生成部
115 コンテナ評価部
116 コンテンツスコア算出部
117 記憶部
118 登録部
120 データ管理サーバ
121 通信部
123〜125 データベース
131〜134 クライアント
140 収集サーバ
141 通信部
142 収集部
150 ネットワーク
320 検索結果
321 コンテンツ名
322 要約
323 コンテナ名
324 スコア分布
340 検索結果
341 ヒットコンテンツ表示部
342 コンテナリスト表示部
345 コンテンツ名
346 要約
347 コンテナン名
348 スコア分布
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

【特許請求の範囲】
【請求項1】
データ検索処理を実行する情報処理装置であり、
検索条件に従った検索処理を実行し、検索条件に対応するヒットコンテンツの抽出処理を実行する検索部と、
前記検索部の検索結果に基づいて、前記ヒットコンテンツの検索条件適応度としてのコテンツスコアを算出するコンテンツスコア算出部と、
前記コンテンツスコア算出部の算出したコンテンツスコアを、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報として集計するコンテナ評価部と、
前記コンテナ評価部の集計データであるスコア分布情報を含む検索結果データを表示データとして生成する表示情報生成部と、
を有することを特徴とする情報処理装置。
【請求項2】
前記コンテンツスコア算出部は、
検索条件として設定された検索キーワードの各ヒットコンテンツにおける出現頻度と、
前記キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出するインバース・ドキュメント頻度とをパラメータとして含む算出式を適用してコンテンツスコアを算出する構成であることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記コンテンツスコア算出部は、
検索条件として設定された検索キーワードの各ヒットコンテンツにおける出現頻度と、
前記キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出するインバース・ドキュメント頻度と、コンテンツ更新日付の新しいものを大きな値として算出する日付に基づく関数算出値をパラメータとして含む算出式を適用してコンテンツスコアを算出する構成であることを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記コンテナ評価部は、
前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を、n段階(nは整数)に区分した集計情報として生成する構成であることを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記コンテナ評価部は、
前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を、グラフィカルデータとして生成する構成であることを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記表示情報生成部は、
ヒットコンテンツのリスト表示部に表示される各コンテンツに対応付けて、前記スコア分布情報を設定した表示情報の生成処理を行なう構成であることを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記表示情報生成部は、
ヒットコンテンツのリスト表示部と、前記スコア分布情報の表示部とを区分した表示情報の生成処理を行なう構成であることを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記検索部は、
コンテンツに対応するインデックス情報に基づく検索処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
【請求項9】
データ検索処理をコンピュータ上で実行させるコンピュータ・プログラムであり、
検索条件に従った検索処理を実行し、検索条件に対応するヒットコンテンツの抽出処理を実行する検索ステップと、
前記検索ステップにおける検索結果に基づいて、前記ヒットコンテンツの検索条件適応度としてのコテンツスコアを算出するコンテンツスコア算出ステップと、
前記コンテンツスコア算出ステップにおいて算出したコンテンツスコアを、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報として集計するコンテナ評価ステップと、
前記コンテナ評価ステップにおける集計データであるスコア分布情報を含む検索結果データを表示データとして生成する表示情報生成ステップと、
を有することを特徴とするコンピュータ・プログラム。
【請求項10】
前記コンテンツスコア算出ステップは、
検索条件として設定された検索キーワードの各ヒットコンテンツにおける出現頻度と、
前記キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出するインバース・ドキュメント頻度とをパラメータとして含む算出式を適用してコンテンツスコアを算出するステップであることを特徴とする請求項9に記載のコンピュータ・プログラム。
【請求項11】
前記コンテンツスコア算出ステップは、
検索条件として設定された検索キーワードの各ヒットコンテンツにおける出現頻度と、
前記キーワードを含むコンテンツの、全コンテンツ数に対する存在割合の逆数に基づく値として算出するインバース・ドキュメント頻度と、コンテンツ更新日付の新しいものを大きな値として算出する日付に基づく関数算出値をパラメータとして含む算出式を適用してコンテンツスコアを算出するステップであることを特徴とする請求項9に記載のコンピュータ・プログラム。
【請求項12】
前記コンテナ評価ステップは、
前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を、n段階(nは整数)に区分した集計情報として生成することを特徴とする請求項9に記載のコンピュータ・プログラム。
【請求項13】
前記コンテナ評価ステップは、
前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報を、グラフィカルデータとして生成することを特徴とする請求項9に記載のコンピュータ・プログラム。
【請求項14】
前記表示情報生成ステップは、
ヒットコンテンツのリスト表示部に表示される各コンテンツに対応付けて、前記スコア分布情報を設定した表示情報の生成処理を行なうことを特徴とする請求項9に記載のコンピュータ・プログラム。
【請求項15】
前記表示情報生成ステップは、
ヒットコンテンツのリスト表示部と、前記スコア分布情報の表示部とを区分した表示情報の生成処理を行なうことを特徴とする請求項9に記載のコンピュータ・プログラム。
【請求項16】
前記検索ステップは、
コンテンツに対応するインデックス情報に基づく検索処理を実行することを特徴とする請求項9に記載のコンピュータ・プログラム。
【請求項17】
データ検索処理を実行する情報処理方法であり、
検索部において検索条件に従った検索処理を実行し、検索条件に対応するヒットコンテンツの抽出処理を実行する検索ステップと、
コンテンツスコア算出部における処理であり、前記検索ステップにおける検索結果に基づいて、前記ヒットコンテンツの検索条件適応度としてのコテンツスコアを算出するコンテンツスコア算出ステップと、
コンテナ評価部における処理であり、前記コンテンツスコア算出ステップにおいて算出したコンテンツスコアを、前記ヒットコンテンツの所属集合であるコンテナ単位のスコア分布情報として集計するコンテナ評価ステップと、
表示情報生成部における処理であり、前記コンテナ評価ステップにおける集計データであるスコア分布情報を含む検索結果データを表示データとして生成する表示情報生成ステップと、
を有することを特徴とする情報処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−85563(P2006−85563A)
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願番号】特願2004−271456(P2004−271456)
【出願日】平成16年9月17日(2004.9.17)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】