情報検索装置、情報検索方法、及び情報検索プログラム
【課題】検索対象コンテンツの検索処理時に使用するパラメータの数が多い場合であっても、効率的に検索処理を実行すること。
【解決手段】この情報検索システム1は、コンテンツ関連情報を予め格納するWebコンテンツデータベース101と、コンテンツ関連情報に基づいてパラメータを導出するコンテンツ解析部103と、パラメータを格納する中間コンテンツデータベース105と、基準値を差し引いたパラメータを中間コンテンツデータベース105に格納させるパラメータ計算部107と、検索語を基にパラメータを所定の演算式に適用することによって表示順序を決定するスコア計算部108とを備え、中間コンテンツデータベース105は、零値である場合にはパラメータを格納しないように構成されており、スコア計算部108は、格納されていないパラメータに関しては演算式における該当する項を省略して計算する。
【解決手段】この情報検索システム1は、コンテンツ関連情報を予め格納するWebコンテンツデータベース101と、コンテンツ関連情報に基づいてパラメータを導出するコンテンツ解析部103と、パラメータを格納する中間コンテンツデータベース105と、基準値を差し引いたパラメータを中間コンテンツデータベース105に格納させるパラメータ計算部107と、検索語を基にパラメータを所定の演算式に適用することによって表示順序を決定するスコア計算部108とを備え、中間コンテンツデータベース105は、零値である場合にはパラメータを格納しないように構成されており、スコア計算部108は、格納されていないパラメータに関しては演算式における該当する項を省略して計算する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報検索装置、情報検索方法、及び情報検索プログラムに関するものである。
【背景技術】
【0002】
従来から、携帯電話機やパーソナルコンピュータ等の端末装置において、インターネット上のウェブサイトから所望の情報を得るために検索サイトが広く利用されている。この検索サイトは情報検索サービスの為の情報処理を実行する情報検索用のサーバ装置によって構成されており、このサーバ装置の中には数多くのパラメータが保持されている。そして、このサーバ装置によって、特定の検索用演算式を用いて検索語(検索キーワード)と検索対象ドキュメントとの適合度を示すランキングスコアが算出され、端末装置でこのランキングスコアに従った表示順で検索対象ドキュメントの検索結果が表示される。
【0003】
一方で、複写機、ファクシミリ等の画像形成装置に代表されるパラメータを利用した演算処理技術の分野では、過大なメモリブロック領域を不要とするために、動作に必要なパラメータを格納する際に設定値パラメータ群と初期値パラメータ群との差分値を記憶する技術が知られている(下記特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−4515号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記情報検索用のサーバ装置では、検索サイト数やパラメータの種類に応じてパラメータの数が膨大になる傾向にあり、検索用演算式によってランキングスコアを算出するための演算量が多くなり検索レスポンスが遅くなるという問題があった。このような問題に対処するために、検索処理時ではなく検索処理前に演算処理を済ませておき、検索処理時には簡略化された演算式により負荷の小さい演算のみを実行させることも考えられる。このような場合でも、演算対象のパラメータの数が多いと、1つの検索対象ドキュメントあたりに要する演算時間が長くなり、全ての検索対象ドキュメントに関する事前の演算処理が完了できなくなる場合も想定される。その結果、検索対象ドキュメントの数の低下をもたらし、有益な情報検索が実行できなくなる場合がある。
【0006】
一方、上記特許文献1記載の技術を適用することにより、パラメータとして予め初期値からの差分値を記憶する場合であっても、検索処理自体の演算処理時間の短縮化は期待できない。
【0007】
そこで、本発明は、かかる課題に鑑みて為されたものであり、検索対象コンテンツの検索処理時に使用するパラメータの数が多い場合であっても、効率的に検索処理を実行することが可能な情報検索装置、情報検索方法、及び情報検索プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明の情報検索装置は、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索装置であって、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段と、関連情報格納手段に格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段と、数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段と、パラメータ導出手段によって導出される複数の数値パラメータを用いて該数値パラメータの基準値を求め、基準値を差し引いた該数値パラメータを、パラメータ格納手段に格納させるパラメータ計算手段と、パラメータ格納手段から複数の検索対象コンテンツデータ毎の数値パラメータを参照し、検索語を基に数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、パラメータ格納手段は、基準値が差し引かれた数値パラメータが零値である場合には、数値パラメータを格納しないように構成されており、順序算出手段は、パラメータ格納手段に格納されていない数値パラメータを特定した際に、所定の演算式における該数値パラメータの項を省略して所定の演算式を計算する。
【0009】
或いは、本発明の情報検索方法は、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索方法であって、情報検索装置が、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納ステップと、情報検索装置が、関連情報格納ステップで格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出ステップと、情報検索装置が、数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納ステップと、情報検索装置が、パラメータ導出ステップによって導出される複数の数値パラメータを用いて該数値パラメータの基準値を求め、基準値を差し引いた該数値パラメータを格納させるパラメータ計算ステップと、情報検索装置が、複数の検索対象コンテンツデータ毎の数値パラメータを参照し、検索語を基に数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出ステップとを備え、パラメータ格納ステップでは、基準値が差し引かれた数値パラメータが零値である場合には、数値パラメータを格納しないようにされており、順序算出ステップでは、パラメータ格納ステップで格納されていない数値パラメータを特定した際に、所定の演算式における該数値パラメータの項を省略して所定の演算式を計算する。
【0010】
或いは、本発明の情報検索プログラムは、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索プログラムであって、コンピュータを、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段、関連情報格納手段に格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段、数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段、パラメータ導出手段によって導出される複数の数値パラメータを用いて該数値パラメータの基準値を求め、基準値を差し引いた該数値パラメータを、パラメータ格納手段に格納させるパラメータ計算手段、及びパラメータ格納手段から複数の検索対象コンテンツデータ毎の数値パラメータを参照し、検索語を基に数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段として動作させ、パラメータ格納手段は、基準値が差し引かれた数値パラメータが零値である場合には、数値パラメータを格納しないように構成されており、順序算出手段は、パラメータ格納手段に格納されていない数値パラメータを特定した際に、所定の演算式における該数値パラメータの項を省略して所定の演算式を計算する。
【0011】
このような情報検索装置、情報検索方法、及び情報検索プログラムによれば、予め記憶されたコンテンツ関連情報を基に検索対象コンテンツデータ毎に数値パラメータが導出され、それらの数値パラメータの基準値が求められた後に、基準値が差し引かれた数値パラメータが検索対象コンテンツデータに対応付けてパラメータ格納手段に格納される。この際、数値パラメータが零値である場合にはパラメータ格納手段には格納されない。さらに、パラメータ格納手段から数値パラメータが参照され、数値パラメータが所定の演算式に適用されて複数の検索対象コンテンツデータに対する表示順序が決定される。このとき、パラメータ格納手段に格納されていない数値パラメータが存在する場合には、所定の演算式における該当する数値パラメータの項の演算は省略されるので、コンテンツデータの検索処理時の処理時間を効果的に短縮することができ、検索要求元の端末装置におけるレスポンスが向上する。
【0012】
また、本発明の情報検索装置は、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索装置であって、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段と、関連情報格納手段に格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段と、パラメータ導出手段によって導出される複数の数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段と、正規化数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段と、パラメータ導出手段によって導出される複数の数値パラメータを用いて該数値パラメータに対応する正規化数値パラメータの基準値を求め、基準値を差し引いた該正規化数値パラメータを、パラメータ格納手段に格納させるパラメータ計算手段と、パラメータ格納手段から複数の検索対象コンテンツデータ毎の正規化数値パラメータを参照し、検索語を基に正規化数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、パラメータ格納手段は、基準値が差し引かれた正規化数値パラメータが零値である場合には、正規化数値パラメータを格納しないように構成されており、順序算出手段は、パラメータ格納手段に格納されていない正規化数値パラメータを特定した際に、所定の演算式における該正規化数値パラメータの項を省略して所定の演算式を計算する。
【0013】
或いは、本発明の情報検索方法は、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索方法であって、情報検索装置が、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納ステップと、情報検索装置が、関連情報格納ステップで格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段と、情報検索装置が、パラメータ導出ステップによって導出される複数の数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段と、情報検索装置が、正規化数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納ステップと、情報検索装置が、パラメータ導出ステップによって導出される複数の数値パラメータを用いて該数値パラメータに対応する正規化数値パラメータの基準値を求め、基準値を差し引いた該正規化数値パラメータを格納させるパラメータ計算手段と、情報検索装置が、複数の検索対象コンテンツデータ毎の正規化数値パラメータを参照し、検索語を基に正規化数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、パラメータ格納ステップでは、基準値が差し引かれた正規化数値パラメータが零値である場合には、正規化数値パラメータを格納しないようにされており、順序算出ステップでは、パラメータ格納ステップで格納されていない正規化数値パラメータを特定した際に、所定の演算式における該正規化数値パラメータの項を省略して所定の演算式を計算する。
【0014】
或いは、本発明の情報検索プログラムは、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索プログラムであって、コンピュータを、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段、関連情報格納手段に格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段、パラメータ導出手段によって導出される複数の数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段、正規化数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段、パラメータ導出手段によって導出される複数の数値パラメータを用いて該数値パラメータに対応する正規化数値パラメータの基準値を求め、基準値を差し引いた該正規化数値パラメータを、パラメータ格納手段に格納させるパラメータ計算手段、及びパラメータ格納手段から複数の検索対象コンテンツデータ毎の正規化数値パラメータを参照し、検索語を基に正規化数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段として動作させ、パラメータ格納手段は、基準値が差し引かれた正規化数値パラメータが零値である場合には、正規化数値パラメータを格納しないように構成されており、順序算出手段は、パラメータ格納手段に格納されていない正規化数値パラメータを特定した際に、所定の演算式における該正規化数値パラメータの項を省略して所定の演算式を計算する。
【0015】
このような情報検索装置、情報検索方法、及び情報検索プログラムによれば、予め記憶されたコンテンツ関連情報を基に検索対象コンテンツデータ毎に数値パラメータが導出され、それらの数値パラメータを正規化した正規化数値パラメータの基準値が求められた後に、基準値が差し引かれた正規化数値パラメータが検索対象コンテンツデータに対応付けてパラメータ格納手段に格納される。この際、正規化数値パラメータが零値である場合にはパラメータ格納手段には格納されない。さらに、パラメータ格納手段から正規化数値パラメータが参照され、正規化数値パラメータが所定の演算式に適用されて複数の検索対象コンテンツデータに対する表示順序が決定される。このとき、パラメータ格納手段に格納されていない正規化数値パラメータが存在する場合には、所定の演算式における該当する正規化数値パラメータの項の演算は省略されるので、コンテンツデータの検索処理時の処理時間を効果的に短縮することができ、検索要求元の端末装置におけるレスポンスが向上する。
【0016】
ここで、パラメータ計算手段は、基準値として数値パラメータの最頻値を求める、または、基準値として正規化数値パラメータの最頻値を求める、ことが好ましい。この場合、パラメータ格納手段に格納されるパラメータの数が効果的に削減され、コンテンツ検索処理時の処理時間も効果的に短縮することができる。
【0017】
また、パラメータ計算手段は、基準値として数値パラメータの最大値或いは最小値を求める、または、基準値として正規化数値パラメータの最大値或いは最小値を求める、ことも好ましい。こうすれば、パラメータの基準値を求める際の処理が簡略化され、情報検索前の事前処理がより確実に実行される。
【0018】
また、パラメータ計算手段は、零値の数値パラメータに対してパラメータ正規化手段によって求められる正規化数値パラメータを、基準値として用いる、ことも好ましい。この場合、パラメータの基準値を求める際の処理が簡略化され、情報検索処理時間の短縮化が実現される。
【0019】
さらに、パラメータ計算手段は、所定の演算式において線形演算処理の対象となる数値パラメータを特定し、該数値パラメータから基準値を差し引く、または、所定の演算式において線形演算処理の対象となる正規化数値パラメータを特定し、該正規化数値パラメータから基準値を差し引く、ことも好ましい。かかる構成を採れば、数値パラメータ又は正規化数値パラメータを用いた表示順序決定の精度が向上し、ユーザのニーズにあった検索結果を提供することができる。
【発明の効果】
【0020】
本発明によれば、検索対象コンテンツの検索処理時に使用するパラメータの数が多い場合であっても、効率的に検索処理を実行することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の好適な一実施形態である情報検索システム1を示す概略構成図である。
【図2】図1の情報検索システム1のハードウェア構成を示すブロック図である。
【図3】図1のWebコンテンツデータベース101に格納されたコンテンツ関連情報のデータ構成を示す図である。
【図4】図1のログ情報データベース102に格納された検索ログ情報のデータ構成を示す図である。
【図5】図1のログ情報データベース102に格納されたアクセスログ情報のデータ構成を示す図である。
【図6】図1の中間コンテンツデータベース105に格納された解析結果のデータ構成を示す図である。
【図7】図1の検索インデックスデータベース109に格納されたインデックスデータのデータ構成を示す図である。
【図8】図1の検索インデックスデータベース109に格納されたインデックスデータのデータ構成を示す図である。
【図9】図1の情報検索システム1の検索要求前の事前動作を示すフローチャートである。
【図10】図1の情報検索システム1の検索要求前の事前動作を示すフローチャートである。
【図11】記録媒体に記憶されたプログラムを実行するためのコンピュータの斜視図である。
【図12】本発明の変形例にかかる情報検索システムの検索要求前の事前動作を示すフローチャートである。
【図13】本発明の変形例にかかる情報検索システムの検索要求前の事前動作を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、図面とともに本発明による情報検索装置、情報検索方法、及び情報検索プログラムの好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0023】
図1は、本発明の好適な一実施形態である情報検索システム1を示す概略構成図である。同図に示す情報検索システム1は、IMT(International Mobile Telecommunications)2000等の移動体通信規格に準拠した移動体通信網NWに接続されたサーバ装置或いはサーバ装置の集合体(サーバシステム)であり、移動体通信網NWを介して携帯電話機、PDA(Personal Digital Assistance)等の移動通信端末2と相互にデータ通信が可能なように接続されている。
【0024】
この情報検索システム1は、移動通信端末2から入力及び送信された検索語(検索キーワード)に適合するコンテンツデータの検索結果を生成して、移動通信端末2に送信するサーバシステムである。情報検索システム1の検索対象のコンテンツデータは、移動体通信網NWに接続されたインターネット上のWebサイトによって提供されるものが対象となり、このようなコンテンツデータとしては、文章(ドキュメント)データ、画像データ、音楽データ、プログラムデータ等のWebサイトからのダウンロードデータ、及びそれらに付加されるメタデータが対象になる。
【0025】
次に、情報検索システム1のハードウェア構成及び機能構成について詳細に説明する。
【0026】
図2に示すように、情報検索システム1は、物理的には、CPU21と、主記憶装置であるRAM22及びROM23と、ハードディスク装置等の補助記憶装置24と、入力デバイスである入力キー、マウス等の入力装置25、ディスプレイ、スピーカ等の出力装置26と、他の移動体通信網NWに接続された装置との間でのデータの送受信を司る通信モジュール27とを含む情報処理装置、或いは情報処理装置の集合体として構成されている。情報検索システム1によって実現される機能は、図2に示すCPU21、RAM22等のハードウェア上に所定のプログラムを読み込ませることにより、CPU21の制御のもとで通信モジュール27、入力装置25、出力装置26を動作させるとともに、RAM22や補助記憶装置24におけるデータの読み出し及び書き込みを行うことで実現される。
【0027】
図1に戻って、情報検索システム1は、機能的な構成要素として、Webコンテンツデータベース(関連情報格納手段)101、ログ情報データベース102、コンテンツ解析部(パラメータ導出手段)103、ログ情報解析部(パラメータ導出手段)104、中間コンテンツデータベース(パラメータ格納手段)105、正規化処理部(パラメータ正規化手段)106、パラメータ計算部(パラメータ計算手段)107、スコア計算部(順序算出手段)108、検索インデックスデータベース109、検索実行部(順序算出手段)110を備える。
【0028】
Webコンテンツデータベース101には、クローリング機能により移動体通信網NWに接続されたWebサイトから予め収集されたコンテンツデータの内容及びその属性を示すコンテンツ関連情報が、予め保持される。クローリング機能とは、クローラと呼ばれるプログラムがインターネット上のWebページのリンクを辿りながら自律的に情報を収集する機能を指す。クローラは情報検索システム1に実装されていてもよいし、クローラが別のサーバ装置に実装されて、そこで収集された情報が情報検索システム1に転送されてもよい。
【0029】
図3には、Webコンテンツデータベース101に格納されたコンテンツ関連情報のデータ構成の一例を示している。このように、コンテンツ関連情報には、コンテンツデータを識別する情報“ドキュメントID”、インターネット上のコンテンツデータの格納先アドレスを示す情報“URL”、及びコンテンツデータの内容を示す情報“本文”が含まれている。また、コンテンツ関連情報は、検索対象となる複数のコンテンツデータに対応して複数格納されている。
【0030】
ログ情報データベース102は、情報検索システム1を用いて移動通信端末2のユーザがコンテンツデータを検索したり、検索結果に対してユーザがダウンロードのためにコンテンツデータを選択(クリック)した履歴を示す検索ログ情報や、移動通信端末2のWebブラウザ、或いは移動体通信網NW内のプロキシサーバ等の通信装置から取得されたアクセスログ情報を蓄積して記憶する。
【0031】
図4には、ログ情報データベース102に格納された検索ログ情報のデータ構成の一例を示している。同図に示すように、検索ログ情報には、検索した日時を示す“日付”及び“時刻”、検索要求元のユーザを識別する“ユーザID”、検索キーワード“キーワード”、及び閲覧のために選択したコンテンツデータの格納先アドレスである“閲覧URL”等が含まれている。また、図5には、ログ情報データベース102に格納されたアクセスログ情報のデータ構成の一例を示している。同図に示すように、アクセスログ情報には、アクセスした日時を示す“日付”及び“時刻”、アクセス元のユーザを識別する“ユーザID”、及びアクセス先の格納先アドレスである“閲覧URL”等が含まれている。
【0032】
図1に戻って、コンテンツ解析部103は、Webコンテンツデータベース101に格納されたコンテンツ関連情報を参照することにより、複数のコンテンツデータの内容を解析する。例えば、コンテンツ解析部103は、コンテンツ関連情報に含まれるコンテンツデータの内容である“本文”を解析し、その内容に含まれるタイトルや本文等のテキストデータを形態素に分割したり、本文のデータ長を算出したり、コンテンツ関連情報に含まれる“URL”のデータ長を算出する。そして、コンテンツ解析部103は、このようにして導出した形態素、及び本文のデータ長やURLのデータ長等の数値パラメータを、解析対象の複数のコンテンツデータ毎に中間コンテンツデータベース105に格納する。
【0033】
ログ情報解析部104は、ログ情報データベース102から検索ログ情報及びアクセスログ情報を読み出し、それらのログ情報を解析する。例えば、ログ情報解析部104は、閲覧URL毎にアクセスログ及び/又は検索ログの件数を計数することにより、ページビュー数を計算したり、閲覧URL毎にアクセスログ及び/又は検索ログに含まれるユーザIDを計数することにより、訪問者数を計算したりする。さらに、ログ情報解析部104は、計算したページビュー数、訪問者数等の数値パラメータを、閲覧URLに対応する複数のコンテンツデータ毎に中間コンテンツデータベース105に格納する。
【0034】
図6は、中間コンテンツデータベースに格納された解析結果のデータ構成の一例を示している。このように、中間コンテンツデータベース105には、解析されたコンテンツデータを識別する情報“ドキュメントID”、それに対応する格納先アドレス“URL”、タイトル中の形態素を示す“タイトル解析結果”、本文中の形態素を示す“本文解析結果”、本文のデータ長を示す“ドキュメント長”、URLのデータ長を示す“URL長”、“ページビュー数”、及び“訪問者数”が、互いに関連づけられて1つのデータレコードを構成している。このようなデータレコードは、複数の検索対象のコンテンツデータに対応して複数格納される。
【0035】
正規化処理部106は、コンテンツ解析部103及びログ情報解析部104によって算出されて中間コンテンツデータベース105に格納された数値パラメータを正規化して複数の正規化数値パラメータを求め、それらをパラメータ計算部107に渡す。具体的には、正規化処理部106は、複数のコンテンツデータに対応して記憶されている“ドキュメント長”、“URL長”、“ページビュー数”、及び“訪問者数”のそれぞれを対象に、所定の正規化関数を用いて“正規化ドキュメント長”、“正規化URL長”、“正規化ページビュー数”、及び“正規化訪問者数”を導出する。
【0036】
ここで、正規化関数には様々な関数が用いられ、例えば、正規化数値パラメータをxとしたときに下記式(1);
S(x)=1/(1+e−x) …(1)
で表されるシグモイド関数S(x)が用いられる。このようなシグモイド関数を用いることで正規化後の値として0〜1の範囲に限定された出力値を得ることができる。また、パラメータの種類によっては、下記式(2);
X=K(x−x0) …(2)
によって正規化数値パラメータxを値Xにいったん変換し、その値Xにシグモイド関数を適用して出力値S(X)を得てもよい(K,x0は正規化対象の数値パラメータの種類毎にパラメータ値の分布によって予め定められる定数)。すなわち、下記式(3);
S(x)=1/(1+eK(x0−x)) …(3)
によって、正規化してもよい。
【0037】
例えば、正規化処理部106は、x0=40、K=0.1と定められている場合、ドキュメントdに対応するURL長UL(d)を、次のようにして正規化する。UL(d)=27であった場合、正規化URL長UUL(d)は、下記式(4);
UUL(d)=S(27)=1/(1+e0.1×(40−27))=0.214 …(4)
と計算される。また、UL(d)=50であった場合、正規化後URL長UUL(d)は、下記式(5);
UUL(d)=S(50)=1/(1+e0.1×(40−50))=0.731 …(5)
と計算される。このようにシグモイド関数によってパラメータ値xを変換することにより、あらゆる種類のパラメータが0〜1の数値範囲を持つことになる。
【0038】
パラメータ計算部107は、正規化処理部106によって正規化された数値パラメータを用いてパラメータの種類毎に基準値を求め、求めた基準値を差し引いた正規化数値パラメータを、中間コンテンツデータベース105に格納する。詳細には、パラメータ計算部107は、複数のコンテンツデータに対応する数値パラメータの最頻値、最小値、又は最大値を基準値として数値パラメータの種類毎に求める。「最頻値」とは、複数のコンテンツデータに対応する数値パラメータの値の中で最も度数の多い値を意味し、「最大値」及び「最小値」とは、それらの数値パラメータの中での最も大きい値、及び最も小さい値を意味する。これらのうちどの値を基準値にするかは、数値パラメータの分布に応じて適宜決定してよいが、メモリ容量の削減、演算時間の短縮の観点からは、最頻値を選択することが好適である。
【0039】
例えば、上述したURL長UL(d)を対象にし、その最頻値が27である場合、パラメータ計算部107は、正規化後のURL長UUL(d)の最頻値Mを0.214と算出し、正規化後の数値パラメータS(x)から最頻値Mを引いた値S’(x)=S(x)−M=S(x)−0.214を算出する。なお、パラメータ計算部107は、正規化後の数値パラメータを参照して最頻値Mを求めてもよいし、正規化前の数値パラメータの最頻値mを求め、計算式M=S(m)により、最頻値mを正規化して最頻値Mを算出してもよい。より具体的には、URL長UL(d)=27の場合、調整後の正規化URL長としてNUL(d)=S’(27)=0と算出され、URL長UL(d)=50の場合、調整後の正規化URL長としてNUL(d)=S’(50)=S(50)−0.214=0.517と算出される。
【0040】
また、パラメータ計算部107は、このようにして求めた調整後の正規化数値パラメータを、該当のコンテンツデータに対応するデータレコードに格納する。すなわち、図6に示すように、パラメータ計算部107は、求めた正規化数値パラメータ“正規化ドキュメント長”、“正規化ページビュー数”、“正規化訪問者数”を、対応する“ドキュメントID”を含むデータレコード中に追加して格納する。ここで、パラメータ計算部107は、正規化数値パラメータを調整した後にその値が零値になった場合(図6に示すURL長の場合)には、その正規化数値パラメータは中間コンテンツデータベース105の該当データレコードには追加及び格納しないように動作する。ここでいう「零値」とは、値そのものが零である場合はもちろん、所定の誤差の範囲で零値と近似される場合も含む概念である。
【0041】
スコア計算部108は、移動通信端末2から送信される検索要求に先立って、中間コンテンツデータベース105を参照して、コンテンツデータ毎に予めコンテンツデータ検索用の指標情報である検索インデックスデータを生成する。具体的には、中間コンテンツデータベース105に格納された“タイトル解析結果”及び“本文解析結果”を元にして、予め設定された特定語が含まれている形態素の個数tf(TermFrequency)や、タイトルや本文の重み付けを考慮した特定語とドキュメントの適合度を示すBM25f値等を算出する。また、コンテンツデータの人気度を示す指標として、正規化ページビュー数NPV(d)や、正規化訪問者数NUU(d)、及び正規化URL長NUL(d)を参照して、下記式(6);
PS(d)=wPV×NPV(d)+wUU×NUU(d)+wUL×NUL(d) …(6)
を用いて、コンテンツデータ毎に人気度スコアPS(d)を算出する(wPV,wUU,wULは重み付け係数)。そして、スコア計算部108は、算出した検索インデックスデータを、コンテンツデータを特定する“ドキュメントID”に関連づけて検索インデックスデータベース109に格納する。
【0042】
図7及び図8には、検索インデックスデータベース109に格納されたインデックスデータのデータ構成を示している。図7に示すように、検索語“A社”を用いてドキュメントID“DOC01234”で識別されるコンテンツデータを対象にして算出されたBM25f値“0.5”が、検索語及びドキュメントIDに関連づけて格納され、各検索語に対する検索対象の複数のコンテンツデータのBM25f値も併せて格納される。また、図8に示すように、ドキュメントID“DOC01234”で識別されるコンテンツデータを対象にして算出された人気度スコアPS(d)“0.3”が、ドキュメントIDに関連づけて格納され、検索対象の複数のコンテンツデータの人気度スコアPS(d)も併せて格納される。
【0043】
なお、スコア計算部108は、中間コンテンツデータベース105を参照した際に格納されていない正規化数値パラメータを特定した場合には、検索インデックスデータを算出する演算式から当該正規化数値パラメータの項を省略してその演算式を計算する。例えば、図6に示す例では、ドキュメントID“DOC01234”に対する正規化URL長がデータレコードに含まれていない。このような場合、スコア計算部108は、演算式(6)から正規化URL長NUL(d)の項を省略する。
【0044】
検索実行部110は、移動通信端末2から入力された検索語qを含む検索要求を受信し、その要求に対してコンテンツデータの検索結果を返信する。すなわち、検索実行部110は、検索インデックスデータベース109から検索語qに合致する検索インデックスデータを読み出し、読み出した検索インデックスデータを所定の演算式に適用することにより、検索結果におけるコンテンツデータの表示順序を決定する。詳細には、検索実行部110は、検索語qに一致する検索語を含むドキュメントID及びBM25f値BM(q,d)と、それぞれのドキュメントIDに対応する人気度スコアPS(d)を読み出し、各コンテンツデータdに関して、下記式(7);
RS(q,d)=wBM×BM(q,d)+wPS×PS(d) …(7)
を用いて表示順序を決定するランキングスコアRS(q,d)を算出する。ここで、wBM,wPSは予め設定された重み付け係数である。さらに、検索実行部110は、複数の検索対象のコンテンツデータdに関してランキングスコアRS(q,d)を算出し、このランキングスコアRS(q,d)の高い順にコンテンツデータに関する検索結果が表示されるように検索結果データを作成し、その検索結果データを移動通信端末2に返信する。
【0045】
以下、図9〜図10を参照して、情報検索システム1の移動通信端末2による検索要求前の事前動作について説明するとともに、併せて情報検索システム1における情報検索方法について詳述する。図9および図10は、情報検索システム1の検索処理前の事前動作を示すフローチャートである。
【0046】
まず、情報検索システム1のWebコンテンツデータベース101及びログ情報データベース102には、事前にコンテンツ関連情報、検索ログ情報、アクセスログ情報が収集されて記憶されている。これらの情報がコンテンツ解析部103及びログ情報解析部104によって解析されることにより、複数のコンテンツデータに関する解析結果が中間コンテンツデータベース105に格納される。
【0047】
そこで、図9に示すように、正規化処理部106が、中間コンテンツデータベース105から検索対象となる複数のコンテンツデータに関する全ての数値パラメータxを取り出す(ステップS01)。次に、正規化処理部106は、それぞれの数値パラメータxに正規化関数Sを適用することにより、正規化数値パラメータS(x)を算出する(ステップS02)。そして、パラメータ計算部107は、全ての正規化数値パラメータS(x)を用いて、パラメータの種類毎に最頻値Mを求める(ステップS03)。その後、パラメータ計算部107は、対応する最頻値Mを差し引いた正規化数値パラメータS’(x)を計算し(ステップS04)、零値でない正規化数値パラメータS’(x)を、中間コンテンツデータベース105の該当するデータレコード内に記憶する(ステップS05)。
【0048】
図10に移って、スコア計算部108は、中間コンテンツデータベース105から検索対象の全てのコンテンツデータに関する正規化数値パラメータ及び形態素を取り出す(ステップS06)。次に、スコア計算部108は、形態素を用いてtf値やBM25f値等の検索インデックスデータを算出する(ステップS07)。同時に、スコア計算部108は、正規化数値パラメータを用いて全てのコンテンツデータに関する人気度スコアPS(d)等の検索インデックスデータを算出する(ステップS08)。そして、スコア計算部108は、算出した全ての検索インデックスデータを検索語及びコンテンツデータ毎に検索インデックスデータベース109に格納する(ステップS09)。その後、移動通信端末2から検索語を含む検索要求が送信されると、検索実行部110によって検索インデックスデータベース109が参照されることにより、検索結果が生成および返信される。
【0049】
以上説明した情報検索システム1及び情報検索方法によれば、予め記憶されたコンテンツ関連情報を基に検索対象コンテンツデータ毎に数値パラメータxが導出され、それらの数値パラメータを正規化した正規化数値パラメータS(x)の基準値Mが求められた後に、基準値Mが差し引かれた正規化数値パラメータS’(x)が検索対象コンテンツデータに対応付けて中間コンテンツデータベース105に格納される。この際、正規化数値パラメータS’(x)が零値である場合には中間コンテンツデータベース105には格納されない。さらに、中間コンテンツデータベース105から正規化数値パラメータS’(x)が参照され、正規化数値パラメータS’(x)が所定の演算式に適用されて複数の検索対象コンテンツデータに対する表示順序が決定される。このとき、中間コンテンツデータベース105に格納されていない正規化数値パラメータS’(x)が存在する場合には、所定の演算式における該当する正規化数値パラメータの項の演算は省略されるので、コンテンツデータの検索処理時の処理時間を効果的に短縮することができ、検索要求元の移動通信端末2におけるレスポンスが向上する。
【0050】
以下、コンピュータを情報検索システム1として動作させる情報検索プログラムについて説明する。
【0051】
本発明による情報検索プログラムは、記録媒体に格納されて提供される。記録媒体としては、フロッピーディスク、CD−ROM、DVD、あるいはROM等の記録媒体、あるいは半導体メモリ等が例示される。
【0052】
図7は、記録媒体に記録されたプログラムを実行するためのコンピュータの斜視図である。コンピュータとして、CPUを具備しソフトウエアによる処理や制御を行なうサーバ装置、パーソナルコンピュータなどを含み、ハードウェア構成は図2に示した構成と同様な構成を有する。
【0053】
図2及び図11に示すように、コンピュータ30は、フロッピーディスクドライブ装置、CD−ROMドライブ装置、DVDドライブ装置等の読取装置12と、オペレーティングシステムを常駐させるとともに、記録媒体10に記憶されたプログラムを記憶する作業用メモリ(RAM)22と、ディスプレイといった出力装置26と、入力装置25であるマウス14及びキーボード16と、データ等の送受を行うための通信モジュール27と、プログラムの実行を制御するCPU21とを備えている。コンピュータ30は、記録媒体10が読取装置12に挿入されると、読取装置12から記録媒体10に格納された情報検索プログラムにアクセス可能になり、当該情報検索プログラムによって、本発明による情報検索システム1として動作することが可能になる。
【0054】
図11に示すように、情報検索プログラムは、搬送波に重畳されたコンピュータデータ信号40としてネットワークを介して提供されるものであってもよい。この場合、コンピュータ30は、通信モジュール27によって受信した情報検索プログラムをメモリ22に格納し、当該情報検索プログラムを実行することができる。
【0055】
なお、本発明は、前述した実施形態に限定されるものではない。例えば、情報検索システム1の正規化処理部106及びパラメータ計算部107は、正規化数値パラメータを調整する際に最頻値Mを用いていたが、他の方法によって調整してもよい。例えば、図12に示すような計算手順で正規化数値パラメータS’(x)を求めてもよい。図12におけるステップS101,S102,S105の各処理は、図9のステップS01,S02,S05の処理と全く同じである。この場合、正規化処理部106は、数値パラメータx=0に対する正規化値S(0)を算出する(ステップS103)。そして、パラメータ計算部107が、その正規化値S(0)を差し引くことにより、正規化数値パラメータS’(x)=S(x)−S(0)を算出する(ステップS104)。このようにすれば、最頻値Mを求める余分な演算処理を削減することができる。また、パラメータの種類によってはページビュー数や訪問者数など、パラメータ値が0である確率が高い数値パラメータもあり、零値を正規化関数Sで正規化してから再度零値に変換し直すだけの処理で、検索処理時間の短縮の効果が十分に期待できる。
【0056】
また、情報検索システム1における正規化処理部106による正規化の処理は省略されてもよい。すなわち、図13に示すように、パラメータ計算部107が、中間コンテンツデータベース105から数値パラメータxを取り出し(ステップS201)、数値パラメータxを用いて、パラメータの種類毎に最頻値mを求める(ステップS202)。そして、パラメータ計算部107は、対応する最頻値mを差し引いた数値パラメータx’=x−mを計算し(ステップS203)、零値でない数値パラメータx’を、中間コンテンツデータベース105に記憶する(ステップS204)。これにより、正規化処理を必要としない数値パラメータに関して、メモリ領域の削減と検索処理の演算量の軽減が実現できる。
【0057】
また、情報検索システム1では、中間コンテンツデータベース105に格納される数値パラメータに関して正規化処理を行い、調整後の値が零値のものを格納しないように動作しているが、このような動作は、検索インデックスデータに関しても同様に適用できる。すなわち、検索インデックスデータベース109のBM25f値や人気度スコアPS(d)に関しても正規化処理を施し、最頻値については零値として検索インデックスデータベース109に格納しないようにしてもよい。例えば、スコア計算部108が、人気度スコアPS(d)に関して最頻値Mを求め、人気度スコアの調整値PS’(d)=PS(d)−Mを計算して、零値でない調整値PS’(d)を検索インデックスデータベース109に格納する。そして、移動通信端末2からの検索要求時に、検索実行部110が、下記式(8);
RS’(q,d)=wBM×BM(q,d)+wPS×PS’(d) …(8)
を計算してランキングスコアを求める。このとき、人気度スコアPS’(d)が格納されていない場合には、演算式(8)の第2項の演算を省略することができるので、メモリ領域のさらなる削減と検索処理の演算量の一層の軽減が実現できる。
【0058】
また、情報検索システム1においては、スコア計算部108や検索実行部110において使用される表示順序を決定する演算式において線形演算の対象となる数値パラメータに対してのみ、最頻値等の基準値を差し引くようにしてもよい。上述した実施形態においては、検索実行部110が用いる演算式(7)が線形式であるため、正規化数値パラメータの調整を行ってもランキングスコアの順番には影響を与えない。例えば、ある数値パラメータx1を持つドキュメントd1と、別の数値パラメータx2を持つドキュメントd2では、最終的に計算されるランキングスコアの差RS(q,d1)−RS(q,d2)は基準値による調整の有無によって変化はない。一方で、非線形な演算式を用いる場合、基準値による調整を行うと最終的に算出されるランキングスコアの順番に影響を与える場合がある。そこで、スコア計算部108又は検索実行部110における演算式のうち、線形演算の対象となる数値パラメータのみ基準値を用いた調整を行うことで、表示順序決定の精度が向上し、ユーザのニーズにあった検索結果を提供することができる。
【0059】
ただし、情報検索システム1は、非線形な演算式を用いる場合であっても、次のようにして線形式に変換後に基準値による調整を実行してもよい。例えば、スコア計算部108による演算において数値パラメータPA,PBを対象に演算式(PA+PB)2=PA2+2PAPB+PB2が使用されており、2次の項が含まれている場合を考える。このとき、パラメータ計算部107は、3つの項PA2,PAPB,PB2の数値それぞれについて、最頻値による調整処理を行って中間コンテンツデータベース105に格納してもよい。詳細には、PA2の最頻値MPA2、PB2の最頻値MPB2、及びPAPBの最頻値MPAPBを求め、PA2に代えてPA2−MPA2、PB2に代えてPB2−MPB2、PAPBに代えてPAPB−MPAPBを、中間コンテンツデータベース105に格納してもよい。このようにすれば、上記演算式はパラメータPA2、PB2、及びPAPBに関しては線形式となっているため調整処理によってスコアの順番に影響を及ぼすことがない。
【符号の説明】
【0060】
1…情報検索システム、101…Webコンテンツデータベース(関連情報格納手段)、102…ログ情報データベース、103…コンテンツ解析部(パラメータ導出手段)、105…中間コンテンツデータベース(パラメータ格納手段)、106…正規化処理部(パラメータ正規化手段)、107…パラメータ計算部(パラメータ計算手段)、108…スコア計算部(順序算出手段)、109…検索インデックスデータベース(パラメータ格納手段)、110…検索実行部(順序算出手段)。
【技術分野】
【0001】
本発明は、情報検索装置、情報検索方法、及び情報検索プログラムに関するものである。
【背景技術】
【0002】
従来から、携帯電話機やパーソナルコンピュータ等の端末装置において、インターネット上のウェブサイトから所望の情報を得るために検索サイトが広く利用されている。この検索サイトは情報検索サービスの為の情報処理を実行する情報検索用のサーバ装置によって構成されており、このサーバ装置の中には数多くのパラメータが保持されている。そして、このサーバ装置によって、特定の検索用演算式を用いて検索語(検索キーワード)と検索対象ドキュメントとの適合度を示すランキングスコアが算出され、端末装置でこのランキングスコアに従った表示順で検索対象ドキュメントの検索結果が表示される。
【0003】
一方で、複写機、ファクシミリ等の画像形成装置に代表されるパラメータを利用した演算処理技術の分野では、過大なメモリブロック領域を不要とするために、動作に必要なパラメータを格納する際に設定値パラメータ群と初期値パラメータ群との差分値を記憶する技術が知られている(下記特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−4515号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記情報検索用のサーバ装置では、検索サイト数やパラメータの種類に応じてパラメータの数が膨大になる傾向にあり、検索用演算式によってランキングスコアを算出するための演算量が多くなり検索レスポンスが遅くなるという問題があった。このような問題に対処するために、検索処理時ではなく検索処理前に演算処理を済ませておき、検索処理時には簡略化された演算式により負荷の小さい演算のみを実行させることも考えられる。このような場合でも、演算対象のパラメータの数が多いと、1つの検索対象ドキュメントあたりに要する演算時間が長くなり、全ての検索対象ドキュメントに関する事前の演算処理が完了できなくなる場合も想定される。その結果、検索対象ドキュメントの数の低下をもたらし、有益な情報検索が実行できなくなる場合がある。
【0006】
一方、上記特許文献1記載の技術を適用することにより、パラメータとして予め初期値からの差分値を記憶する場合であっても、検索処理自体の演算処理時間の短縮化は期待できない。
【0007】
そこで、本発明は、かかる課題に鑑みて為されたものであり、検索対象コンテンツの検索処理時に使用するパラメータの数が多い場合であっても、効率的に検索処理を実行することが可能な情報検索装置、情報検索方法、及び情報検索プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明の情報検索装置は、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索装置であって、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段と、関連情報格納手段に格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段と、数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段と、パラメータ導出手段によって導出される複数の数値パラメータを用いて該数値パラメータの基準値を求め、基準値を差し引いた該数値パラメータを、パラメータ格納手段に格納させるパラメータ計算手段と、パラメータ格納手段から複数の検索対象コンテンツデータ毎の数値パラメータを参照し、検索語を基に数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、パラメータ格納手段は、基準値が差し引かれた数値パラメータが零値である場合には、数値パラメータを格納しないように構成されており、順序算出手段は、パラメータ格納手段に格納されていない数値パラメータを特定した際に、所定の演算式における該数値パラメータの項を省略して所定の演算式を計算する。
【0009】
或いは、本発明の情報検索方法は、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索方法であって、情報検索装置が、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納ステップと、情報検索装置が、関連情報格納ステップで格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出ステップと、情報検索装置が、数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納ステップと、情報検索装置が、パラメータ導出ステップによって導出される複数の数値パラメータを用いて該数値パラメータの基準値を求め、基準値を差し引いた該数値パラメータを格納させるパラメータ計算ステップと、情報検索装置が、複数の検索対象コンテンツデータ毎の数値パラメータを参照し、検索語を基に数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出ステップとを備え、パラメータ格納ステップでは、基準値が差し引かれた数値パラメータが零値である場合には、数値パラメータを格納しないようにされており、順序算出ステップでは、パラメータ格納ステップで格納されていない数値パラメータを特定した際に、所定の演算式における該数値パラメータの項を省略して所定の演算式を計算する。
【0010】
或いは、本発明の情報検索プログラムは、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索プログラムであって、コンピュータを、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段、関連情報格納手段に格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段、数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段、パラメータ導出手段によって導出される複数の数値パラメータを用いて該数値パラメータの基準値を求め、基準値を差し引いた該数値パラメータを、パラメータ格納手段に格納させるパラメータ計算手段、及びパラメータ格納手段から複数の検索対象コンテンツデータ毎の数値パラメータを参照し、検索語を基に数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段として動作させ、パラメータ格納手段は、基準値が差し引かれた数値パラメータが零値である場合には、数値パラメータを格納しないように構成されており、順序算出手段は、パラメータ格納手段に格納されていない数値パラメータを特定した際に、所定の演算式における該数値パラメータの項を省略して所定の演算式を計算する。
【0011】
このような情報検索装置、情報検索方法、及び情報検索プログラムによれば、予め記憶されたコンテンツ関連情報を基に検索対象コンテンツデータ毎に数値パラメータが導出され、それらの数値パラメータの基準値が求められた後に、基準値が差し引かれた数値パラメータが検索対象コンテンツデータに対応付けてパラメータ格納手段に格納される。この際、数値パラメータが零値である場合にはパラメータ格納手段には格納されない。さらに、パラメータ格納手段から数値パラメータが参照され、数値パラメータが所定の演算式に適用されて複数の検索対象コンテンツデータに対する表示順序が決定される。このとき、パラメータ格納手段に格納されていない数値パラメータが存在する場合には、所定の演算式における該当する数値パラメータの項の演算は省略されるので、コンテンツデータの検索処理時の処理時間を効果的に短縮することができ、検索要求元の端末装置におけるレスポンスが向上する。
【0012】
また、本発明の情報検索装置は、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索装置であって、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段と、関連情報格納手段に格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段と、パラメータ導出手段によって導出される複数の数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段と、正規化数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段と、パラメータ導出手段によって導出される複数の数値パラメータを用いて該数値パラメータに対応する正規化数値パラメータの基準値を求め、基準値を差し引いた該正規化数値パラメータを、パラメータ格納手段に格納させるパラメータ計算手段と、パラメータ格納手段から複数の検索対象コンテンツデータ毎の正規化数値パラメータを参照し、検索語を基に正規化数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、パラメータ格納手段は、基準値が差し引かれた正規化数値パラメータが零値である場合には、正規化数値パラメータを格納しないように構成されており、順序算出手段は、パラメータ格納手段に格納されていない正規化数値パラメータを特定した際に、所定の演算式における該正規化数値パラメータの項を省略して所定の演算式を計算する。
【0013】
或いは、本発明の情報検索方法は、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索方法であって、情報検索装置が、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納ステップと、情報検索装置が、関連情報格納ステップで格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段と、情報検索装置が、パラメータ導出ステップによって導出される複数の数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段と、情報検索装置が、正規化数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納ステップと、情報検索装置が、パラメータ導出ステップによって導出される複数の数値パラメータを用いて該数値パラメータに対応する正規化数値パラメータの基準値を求め、基準値を差し引いた該正規化数値パラメータを格納させるパラメータ計算手段と、情報検索装置が、複数の検索対象コンテンツデータ毎の正規化数値パラメータを参照し、検索語を基に正規化数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、パラメータ格納ステップでは、基準値が差し引かれた正規化数値パラメータが零値である場合には、正規化数値パラメータを格納しないようにされており、順序算出ステップでは、パラメータ格納ステップで格納されていない正規化数値パラメータを特定した際に、所定の演算式における該正規化数値パラメータの項を省略して所定の演算式を計算する。
【0014】
或いは、本発明の情報検索プログラムは、入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、数値パラメータを利用して算出された表示順序で表示されるように、複数の検索対象コンテンツデータの検索結果を送信する情報検索プログラムであって、コンピュータを、複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段、関連情報格納手段に格納されたコンテンツ関連情報に基づいて、複数の検索対象コンテンツデータ毎に数値パラメータを導出するパラメータ導出手段、パラメータ導出手段によって導出される複数の数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段、正規化数値パラメータを検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段、パラメータ導出手段によって導出される複数の数値パラメータを用いて該数値パラメータに対応する正規化数値パラメータの基準値を求め、基準値を差し引いた該正規化数値パラメータを、パラメータ格納手段に格納させるパラメータ計算手段、及びパラメータ格納手段から複数の検索対象コンテンツデータ毎の正規化数値パラメータを参照し、検索語を基に正規化数値パラメータを所定の演算式に適用することによって、複数の検索対象コンテンツデータの表示順序を決定する順序算出手段として動作させ、パラメータ格納手段は、基準値が差し引かれた正規化数値パラメータが零値である場合には、正規化数値パラメータを格納しないように構成されており、順序算出手段は、パラメータ格納手段に格納されていない正規化数値パラメータを特定した際に、所定の演算式における該正規化数値パラメータの項を省略して所定の演算式を計算する。
【0015】
このような情報検索装置、情報検索方法、及び情報検索プログラムによれば、予め記憶されたコンテンツ関連情報を基に検索対象コンテンツデータ毎に数値パラメータが導出され、それらの数値パラメータを正規化した正規化数値パラメータの基準値が求められた後に、基準値が差し引かれた正規化数値パラメータが検索対象コンテンツデータに対応付けてパラメータ格納手段に格納される。この際、正規化数値パラメータが零値である場合にはパラメータ格納手段には格納されない。さらに、パラメータ格納手段から正規化数値パラメータが参照され、正規化数値パラメータが所定の演算式に適用されて複数の検索対象コンテンツデータに対する表示順序が決定される。このとき、パラメータ格納手段に格納されていない正規化数値パラメータが存在する場合には、所定の演算式における該当する正規化数値パラメータの項の演算は省略されるので、コンテンツデータの検索処理時の処理時間を効果的に短縮することができ、検索要求元の端末装置におけるレスポンスが向上する。
【0016】
ここで、パラメータ計算手段は、基準値として数値パラメータの最頻値を求める、または、基準値として正規化数値パラメータの最頻値を求める、ことが好ましい。この場合、パラメータ格納手段に格納されるパラメータの数が効果的に削減され、コンテンツ検索処理時の処理時間も効果的に短縮することができる。
【0017】
また、パラメータ計算手段は、基準値として数値パラメータの最大値或いは最小値を求める、または、基準値として正規化数値パラメータの最大値或いは最小値を求める、ことも好ましい。こうすれば、パラメータの基準値を求める際の処理が簡略化され、情報検索前の事前処理がより確実に実行される。
【0018】
また、パラメータ計算手段は、零値の数値パラメータに対してパラメータ正規化手段によって求められる正規化数値パラメータを、基準値として用いる、ことも好ましい。この場合、パラメータの基準値を求める際の処理が簡略化され、情報検索処理時間の短縮化が実現される。
【0019】
さらに、パラメータ計算手段は、所定の演算式において線形演算処理の対象となる数値パラメータを特定し、該数値パラメータから基準値を差し引く、または、所定の演算式において線形演算処理の対象となる正規化数値パラメータを特定し、該正規化数値パラメータから基準値を差し引く、ことも好ましい。かかる構成を採れば、数値パラメータ又は正規化数値パラメータを用いた表示順序決定の精度が向上し、ユーザのニーズにあった検索結果を提供することができる。
【発明の効果】
【0020】
本発明によれば、検索対象コンテンツの検索処理時に使用するパラメータの数が多い場合であっても、効率的に検索処理を実行することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の好適な一実施形態である情報検索システム1を示す概略構成図である。
【図2】図1の情報検索システム1のハードウェア構成を示すブロック図である。
【図3】図1のWebコンテンツデータベース101に格納されたコンテンツ関連情報のデータ構成を示す図である。
【図4】図1のログ情報データベース102に格納された検索ログ情報のデータ構成を示す図である。
【図5】図1のログ情報データベース102に格納されたアクセスログ情報のデータ構成を示す図である。
【図6】図1の中間コンテンツデータベース105に格納された解析結果のデータ構成を示す図である。
【図7】図1の検索インデックスデータベース109に格納されたインデックスデータのデータ構成を示す図である。
【図8】図1の検索インデックスデータベース109に格納されたインデックスデータのデータ構成を示す図である。
【図9】図1の情報検索システム1の検索要求前の事前動作を示すフローチャートである。
【図10】図1の情報検索システム1の検索要求前の事前動作を示すフローチャートである。
【図11】記録媒体に記憶されたプログラムを実行するためのコンピュータの斜視図である。
【図12】本発明の変形例にかかる情報検索システムの検索要求前の事前動作を示すフローチャートである。
【図13】本発明の変形例にかかる情報検索システムの検索要求前の事前動作を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、図面とともに本発明による情報検索装置、情報検索方法、及び情報検索プログラムの好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0023】
図1は、本発明の好適な一実施形態である情報検索システム1を示す概略構成図である。同図に示す情報検索システム1は、IMT(International Mobile Telecommunications)2000等の移動体通信規格に準拠した移動体通信網NWに接続されたサーバ装置或いはサーバ装置の集合体(サーバシステム)であり、移動体通信網NWを介して携帯電話機、PDA(Personal Digital Assistance)等の移動通信端末2と相互にデータ通信が可能なように接続されている。
【0024】
この情報検索システム1は、移動通信端末2から入力及び送信された検索語(検索キーワード)に適合するコンテンツデータの検索結果を生成して、移動通信端末2に送信するサーバシステムである。情報検索システム1の検索対象のコンテンツデータは、移動体通信網NWに接続されたインターネット上のWebサイトによって提供されるものが対象となり、このようなコンテンツデータとしては、文章(ドキュメント)データ、画像データ、音楽データ、プログラムデータ等のWebサイトからのダウンロードデータ、及びそれらに付加されるメタデータが対象になる。
【0025】
次に、情報検索システム1のハードウェア構成及び機能構成について詳細に説明する。
【0026】
図2に示すように、情報検索システム1は、物理的には、CPU21と、主記憶装置であるRAM22及びROM23と、ハードディスク装置等の補助記憶装置24と、入力デバイスである入力キー、マウス等の入力装置25、ディスプレイ、スピーカ等の出力装置26と、他の移動体通信網NWに接続された装置との間でのデータの送受信を司る通信モジュール27とを含む情報処理装置、或いは情報処理装置の集合体として構成されている。情報検索システム1によって実現される機能は、図2に示すCPU21、RAM22等のハードウェア上に所定のプログラムを読み込ませることにより、CPU21の制御のもとで通信モジュール27、入力装置25、出力装置26を動作させるとともに、RAM22や補助記憶装置24におけるデータの読み出し及び書き込みを行うことで実現される。
【0027】
図1に戻って、情報検索システム1は、機能的な構成要素として、Webコンテンツデータベース(関連情報格納手段)101、ログ情報データベース102、コンテンツ解析部(パラメータ導出手段)103、ログ情報解析部(パラメータ導出手段)104、中間コンテンツデータベース(パラメータ格納手段)105、正規化処理部(パラメータ正規化手段)106、パラメータ計算部(パラメータ計算手段)107、スコア計算部(順序算出手段)108、検索インデックスデータベース109、検索実行部(順序算出手段)110を備える。
【0028】
Webコンテンツデータベース101には、クローリング機能により移動体通信網NWに接続されたWebサイトから予め収集されたコンテンツデータの内容及びその属性を示すコンテンツ関連情報が、予め保持される。クローリング機能とは、クローラと呼ばれるプログラムがインターネット上のWebページのリンクを辿りながら自律的に情報を収集する機能を指す。クローラは情報検索システム1に実装されていてもよいし、クローラが別のサーバ装置に実装されて、そこで収集された情報が情報検索システム1に転送されてもよい。
【0029】
図3には、Webコンテンツデータベース101に格納されたコンテンツ関連情報のデータ構成の一例を示している。このように、コンテンツ関連情報には、コンテンツデータを識別する情報“ドキュメントID”、インターネット上のコンテンツデータの格納先アドレスを示す情報“URL”、及びコンテンツデータの内容を示す情報“本文”が含まれている。また、コンテンツ関連情報は、検索対象となる複数のコンテンツデータに対応して複数格納されている。
【0030】
ログ情報データベース102は、情報検索システム1を用いて移動通信端末2のユーザがコンテンツデータを検索したり、検索結果に対してユーザがダウンロードのためにコンテンツデータを選択(クリック)した履歴を示す検索ログ情報や、移動通信端末2のWebブラウザ、或いは移動体通信網NW内のプロキシサーバ等の通信装置から取得されたアクセスログ情報を蓄積して記憶する。
【0031】
図4には、ログ情報データベース102に格納された検索ログ情報のデータ構成の一例を示している。同図に示すように、検索ログ情報には、検索した日時を示す“日付”及び“時刻”、検索要求元のユーザを識別する“ユーザID”、検索キーワード“キーワード”、及び閲覧のために選択したコンテンツデータの格納先アドレスである“閲覧URL”等が含まれている。また、図5には、ログ情報データベース102に格納されたアクセスログ情報のデータ構成の一例を示している。同図に示すように、アクセスログ情報には、アクセスした日時を示す“日付”及び“時刻”、アクセス元のユーザを識別する“ユーザID”、及びアクセス先の格納先アドレスである“閲覧URL”等が含まれている。
【0032】
図1に戻って、コンテンツ解析部103は、Webコンテンツデータベース101に格納されたコンテンツ関連情報を参照することにより、複数のコンテンツデータの内容を解析する。例えば、コンテンツ解析部103は、コンテンツ関連情報に含まれるコンテンツデータの内容である“本文”を解析し、その内容に含まれるタイトルや本文等のテキストデータを形態素に分割したり、本文のデータ長を算出したり、コンテンツ関連情報に含まれる“URL”のデータ長を算出する。そして、コンテンツ解析部103は、このようにして導出した形態素、及び本文のデータ長やURLのデータ長等の数値パラメータを、解析対象の複数のコンテンツデータ毎に中間コンテンツデータベース105に格納する。
【0033】
ログ情報解析部104は、ログ情報データベース102から検索ログ情報及びアクセスログ情報を読み出し、それらのログ情報を解析する。例えば、ログ情報解析部104は、閲覧URL毎にアクセスログ及び/又は検索ログの件数を計数することにより、ページビュー数を計算したり、閲覧URL毎にアクセスログ及び/又は検索ログに含まれるユーザIDを計数することにより、訪問者数を計算したりする。さらに、ログ情報解析部104は、計算したページビュー数、訪問者数等の数値パラメータを、閲覧URLに対応する複数のコンテンツデータ毎に中間コンテンツデータベース105に格納する。
【0034】
図6は、中間コンテンツデータベースに格納された解析結果のデータ構成の一例を示している。このように、中間コンテンツデータベース105には、解析されたコンテンツデータを識別する情報“ドキュメントID”、それに対応する格納先アドレス“URL”、タイトル中の形態素を示す“タイトル解析結果”、本文中の形態素を示す“本文解析結果”、本文のデータ長を示す“ドキュメント長”、URLのデータ長を示す“URL長”、“ページビュー数”、及び“訪問者数”が、互いに関連づけられて1つのデータレコードを構成している。このようなデータレコードは、複数の検索対象のコンテンツデータに対応して複数格納される。
【0035】
正規化処理部106は、コンテンツ解析部103及びログ情報解析部104によって算出されて中間コンテンツデータベース105に格納された数値パラメータを正規化して複数の正規化数値パラメータを求め、それらをパラメータ計算部107に渡す。具体的には、正規化処理部106は、複数のコンテンツデータに対応して記憶されている“ドキュメント長”、“URL長”、“ページビュー数”、及び“訪問者数”のそれぞれを対象に、所定の正規化関数を用いて“正規化ドキュメント長”、“正規化URL長”、“正規化ページビュー数”、及び“正規化訪問者数”を導出する。
【0036】
ここで、正規化関数には様々な関数が用いられ、例えば、正規化数値パラメータをxとしたときに下記式(1);
S(x)=1/(1+e−x) …(1)
で表されるシグモイド関数S(x)が用いられる。このようなシグモイド関数を用いることで正規化後の値として0〜1の範囲に限定された出力値を得ることができる。また、パラメータの種類によっては、下記式(2);
X=K(x−x0) …(2)
によって正規化数値パラメータxを値Xにいったん変換し、その値Xにシグモイド関数を適用して出力値S(X)を得てもよい(K,x0は正規化対象の数値パラメータの種類毎にパラメータ値の分布によって予め定められる定数)。すなわち、下記式(3);
S(x)=1/(1+eK(x0−x)) …(3)
によって、正規化してもよい。
【0037】
例えば、正規化処理部106は、x0=40、K=0.1と定められている場合、ドキュメントdに対応するURL長UL(d)を、次のようにして正規化する。UL(d)=27であった場合、正規化URL長UUL(d)は、下記式(4);
UUL(d)=S(27)=1/(1+e0.1×(40−27))=0.214 …(4)
と計算される。また、UL(d)=50であった場合、正規化後URL長UUL(d)は、下記式(5);
UUL(d)=S(50)=1/(1+e0.1×(40−50))=0.731 …(5)
と計算される。このようにシグモイド関数によってパラメータ値xを変換することにより、あらゆる種類のパラメータが0〜1の数値範囲を持つことになる。
【0038】
パラメータ計算部107は、正規化処理部106によって正規化された数値パラメータを用いてパラメータの種類毎に基準値を求め、求めた基準値を差し引いた正規化数値パラメータを、中間コンテンツデータベース105に格納する。詳細には、パラメータ計算部107は、複数のコンテンツデータに対応する数値パラメータの最頻値、最小値、又は最大値を基準値として数値パラメータの種類毎に求める。「最頻値」とは、複数のコンテンツデータに対応する数値パラメータの値の中で最も度数の多い値を意味し、「最大値」及び「最小値」とは、それらの数値パラメータの中での最も大きい値、及び最も小さい値を意味する。これらのうちどの値を基準値にするかは、数値パラメータの分布に応じて適宜決定してよいが、メモリ容量の削減、演算時間の短縮の観点からは、最頻値を選択することが好適である。
【0039】
例えば、上述したURL長UL(d)を対象にし、その最頻値が27である場合、パラメータ計算部107は、正規化後のURL長UUL(d)の最頻値Mを0.214と算出し、正規化後の数値パラメータS(x)から最頻値Mを引いた値S’(x)=S(x)−M=S(x)−0.214を算出する。なお、パラメータ計算部107は、正規化後の数値パラメータを参照して最頻値Mを求めてもよいし、正規化前の数値パラメータの最頻値mを求め、計算式M=S(m)により、最頻値mを正規化して最頻値Mを算出してもよい。より具体的には、URL長UL(d)=27の場合、調整後の正規化URL長としてNUL(d)=S’(27)=0と算出され、URL長UL(d)=50の場合、調整後の正規化URL長としてNUL(d)=S’(50)=S(50)−0.214=0.517と算出される。
【0040】
また、パラメータ計算部107は、このようにして求めた調整後の正規化数値パラメータを、該当のコンテンツデータに対応するデータレコードに格納する。すなわち、図6に示すように、パラメータ計算部107は、求めた正規化数値パラメータ“正規化ドキュメント長”、“正規化ページビュー数”、“正規化訪問者数”を、対応する“ドキュメントID”を含むデータレコード中に追加して格納する。ここで、パラメータ計算部107は、正規化数値パラメータを調整した後にその値が零値になった場合(図6に示すURL長の場合)には、その正規化数値パラメータは中間コンテンツデータベース105の該当データレコードには追加及び格納しないように動作する。ここでいう「零値」とは、値そのものが零である場合はもちろん、所定の誤差の範囲で零値と近似される場合も含む概念である。
【0041】
スコア計算部108は、移動通信端末2から送信される検索要求に先立って、中間コンテンツデータベース105を参照して、コンテンツデータ毎に予めコンテンツデータ検索用の指標情報である検索インデックスデータを生成する。具体的には、中間コンテンツデータベース105に格納された“タイトル解析結果”及び“本文解析結果”を元にして、予め設定された特定語が含まれている形態素の個数tf(TermFrequency)や、タイトルや本文の重み付けを考慮した特定語とドキュメントの適合度を示すBM25f値等を算出する。また、コンテンツデータの人気度を示す指標として、正規化ページビュー数NPV(d)や、正規化訪問者数NUU(d)、及び正規化URL長NUL(d)を参照して、下記式(6);
PS(d)=wPV×NPV(d)+wUU×NUU(d)+wUL×NUL(d) …(6)
を用いて、コンテンツデータ毎に人気度スコアPS(d)を算出する(wPV,wUU,wULは重み付け係数)。そして、スコア計算部108は、算出した検索インデックスデータを、コンテンツデータを特定する“ドキュメントID”に関連づけて検索インデックスデータベース109に格納する。
【0042】
図7及び図8には、検索インデックスデータベース109に格納されたインデックスデータのデータ構成を示している。図7に示すように、検索語“A社”を用いてドキュメントID“DOC01234”で識別されるコンテンツデータを対象にして算出されたBM25f値“0.5”が、検索語及びドキュメントIDに関連づけて格納され、各検索語に対する検索対象の複数のコンテンツデータのBM25f値も併せて格納される。また、図8に示すように、ドキュメントID“DOC01234”で識別されるコンテンツデータを対象にして算出された人気度スコアPS(d)“0.3”が、ドキュメントIDに関連づけて格納され、検索対象の複数のコンテンツデータの人気度スコアPS(d)も併せて格納される。
【0043】
なお、スコア計算部108は、中間コンテンツデータベース105を参照した際に格納されていない正規化数値パラメータを特定した場合には、検索インデックスデータを算出する演算式から当該正規化数値パラメータの項を省略してその演算式を計算する。例えば、図6に示す例では、ドキュメントID“DOC01234”に対する正規化URL長がデータレコードに含まれていない。このような場合、スコア計算部108は、演算式(6)から正規化URL長NUL(d)の項を省略する。
【0044】
検索実行部110は、移動通信端末2から入力された検索語qを含む検索要求を受信し、その要求に対してコンテンツデータの検索結果を返信する。すなわち、検索実行部110は、検索インデックスデータベース109から検索語qに合致する検索インデックスデータを読み出し、読み出した検索インデックスデータを所定の演算式に適用することにより、検索結果におけるコンテンツデータの表示順序を決定する。詳細には、検索実行部110は、検索語qに一致する検索語を含むドキュメントID及びBM25f値BM(q,d)と、それぞれのドキュメントIDに対応する人気度スコアPS(d)を読み出し、各コンテンツデータdに関して、下記式(7);
RS(q,d)=wBM×BM(q,d)+wPS×PS(d) …(7)
を用いて表示順序を決定するランキングスコアRS(q,d)を算出する。ここで、wBM,wPSは予め設定された重み付け係数である。さらに、検索実行部110は、複数の検索対象のコンテンツデータdに関してランキングスコアRS(q,d)を算出し、このランキングスコアRS(q,d)の高い順にコンテンツデータに関する検索結果が表示されるように検索結果データを作成し、その検索結果データを移動通信端末2に返信する。
【0045】
以下、図9〜図10を参照して、情報検索システム1の移動通信端末2による検索要求前の事前動作について説明するとともに、併せて情報検索システム1における情報検索方法について詳述する。図9および図10は、情報検索システム1の検索処理前の事前動作を示すフローチャートである。
【0046】
まず、情報検索システム1のWebコンテンツデータベース101及びログ情報データベース102には、事前にコンテンツ関連情報、検索ログ情報、アクセスログ情報が収集されて記憶されている。これらの情報がコンテンツ解析部103及びログ情報解析部104によって解析されることにより、複数のコンテンツデータに関する解析結果が中間コンテンツデータベース105に格納される。
【0047】
そこで、図9に示すように、正規化処理部106が、中間コンテンツデータベース105から検索対象となる複数のコンテンツデータに関する全ての数値パラメータxを取り出す(ステップS01)。次に、正規化処理部106は、それぞれの数値パラメータxに正規化関数Sを適用することにより、正規化数値パラメータS(x)を算出する(ステップS02)。そして、パラメータ計算部107は、全ての正規化数値パラメータS(x)を用いて、パラメータの種類毎に最頻値Mを求める(ステップS03)。その後、パラメータ計算部107は、対応する最頻値Mを差し引いた正規化数値パラメータS’(x)を計算し(ステップS04)、零値でない正規化数値パラメータS’(x)を、中間コンテンツデータベース105の該当するデータレコード内に記憶する(ステップS05)。
【0048】
図10に移って、スコア計算部108は、中間コンテンツデータベース105から検索対象の全てのコンテンツデータに関する正規化数値パラメータ及び形態素を取り出す(ステップS06)。次に、スコア計算部108は、形態素を用いてtf値やBM25f値等の検索インデックスデータを算出する(ステップS07)。同時に、スコア計算部108は、正規化数値パラメータを用いて全てのコンテンツデータに関する人気度スコアPS(d)等の検索インデックスデータを算出する(ステップS08)。そして、スコア計算部108は、算出した全ての検索インデックスデータを検索語及びコンテンツデータ毎に検索インデックスデータベース109に格納する(ステップS09)。その後、移動通信端末2から検索語を含む検索要求が送信されると、検索実行部110によって検索インデックスデータベース109が参照されることにより、検索結果が生成および返信される。
【0049】
以上説明した情報検索システム1及び情報検索方法によれば、予め記憶されたコンテンツ関連情報を基に検索対象コンテンツデータ毎に数値パラメータxが導出され、それらの数値パラメータを正規化した正規化数値パラメータS(x)の基準値Mが求められた後に、基準値Mが差し引かれた正規化数値パラメータS’(x)が検索対象コンテンツデータに対応付けて中間コンテンツデータベース105に格納される。この際、正規化数値パラメータS’(x)が零値である場合には中間コンテンツデータベース105には格納されない。さらに、中間コンテンツデータベース105から正規化数値パラメータS’(x)が参照され、正規化数値パラメータS’(x)が所定の演算式に適用されて複数の検索対象コンテンツデータに対する表示順序が決定される。このとき、中間コンテンツデータベース105に格納されていない正規化数値パラメータS’(x)が存在する場合には、所定の演算式における該当する正規化数値パラメータの項の演算は省略されるので、コンテンツデータの検索処理時の処理時間を効果的に短縮することができ、検索要求元の移動通信端末2におけるレスポンスが向上する。
【0050】
以下、コンピュータを情報検索システム1として動作させる情報検索プログラムについて説明する。
【0051】
本発明による情報検索プログラムは、記録媒体に格納されて提供される。記録媒体としては、フロッピーディスク、CD−ROM、DVD、あるいはROM等の記録媒体、あるいは半導体メモリ等が例示される。
【0052】
図7は、記録媒体に記録されたプログラムを実行するためのコンピュータの斜視図である。コンピュータとして、CPUを具備しソフトウエアによる処理や制御を行なうサーバ装置、パーソナルコンピュータなどを含み、ハードウェア構成は図2に示した構成と同様な構成を有する。
【0053】
図2及び図11に示すように、コンピュータ30は、フロッピーディスクドライブ装置、CD−ROMドライブ装置、DVDドライブ装置等の読取装置12と、オペレーティングシステムを常駐させるとともに、記録媒体10に記憶されたプログラムを記憶する作業用メモリ(RAM)22と、ディスプレイといった出力装置26と、入力装置25であるマウス14及びキーボード16と、データ等の送受を行うための通信モジュール27と、プログラムの実行を制御するCPU21とを備えている。コンピュータ30は、記録媒体10が読取装置12に挿入されると、読取装置12から記録媒体10に格納された情報検索プログラムにアクセス可能になり、当該情報検索プログラムによって、本発明による情報検索システム1として動作することが可能になる。
【0054】
図11に示すように、情報検索プログラムは、搬送波に重畳されたコンピュータデータ信号40としてネットワークを介して提供されるものであってもよい。この場合、コンピュータ30は、通信モジュール27によって受信した情報検索プログラムをメモリ22に格納し、当該情報検索プログラムを実行することができる。
【0055】
なお、本発明は、前述した実施形態に限定されるものではない。例えば、情報検索システム1の正規化処理部106及びパラメータ計算部107は、正規化数値パラメータを調整する際に最頻値Mを用いていたが、他の方法によって調整してもよい。例えば、図12に示すような計算手順で正規化数値パラメータS’(x)を求めてもよい。図12におけるステップS101,S102,S105の各処理は、図9のステップS01,S02,S05の処理と全く同じである。この場合、正規化処理部106は、数値パラメータx=0に対する正規化値S(0)を算出する(ステップS103)。そして、パラメータ計算部107が、その正規化値S(0)を差し引くことにより、正規化数値パラメータS’(x)=S(x)−S(0)を算出する(ステップS104)。このようにすれば、最頻値Mを求める余分な演算処理を削減することができる。また、パラメータの種類によってはページビュー数や訪問者数など、パラメータ値が0である確率が高い数値パラメータもあり、零値を正規化関数Sで正規化してから再度零値に変換し直すだけの処理で、検索処理時間の短縮の効果が十分に期待できる。
【0056】
また、情報検索システム1における正規化処理部106による正規化の処理は省略されてもよい。すなわち、図13に示すように、パラメータ計算部107が、中間コンテンツデータベース105から数値パラメータxを取り出し(ステップS201)、数値パラメータxを用いて、パラメータの種類毎に最頻値mを求める(ステップS202)。そして、パラメータ計算部107は、対応する最頻値mを差し引いた数値パラメータx’=x−mを計算し(ステップS203)、零値でない数値パラメータx’を、中間コンテンツデータベース105に記憶する(ステップS204)。これにより、正規化処理を必要としない数値パラメータに関して、メモリ領域の削減と検索処理の演算量の軽減が実現できる。
【0057】
また、情報検索システム1では、中間コンテンツデータベース105に格納される数値パラメータに関して正規化処理を行い、調整後の値が零値のものを格納しないように動作しているが、このような動作は、検索インデックスデータに関しても同様に適用できる。すなわち、検索インデックスデータベース109のBM25f値や人気度スコアPS(d)に関しても正規化処理を施し、最頻値については零値として検索インデックスデータベース109に格納しないようにしてもよい。例えば、スコア計算部108が、人気度スコアPS(d)に関して最頻値Mを求め、人気度スコアの調整値PS’(d)=PS(d)−Mを計算して、零値でない調整値PS’(d)を検索インデックスデータベース109に格納する。そして、移動通信端末2からの検索要求時に、検索実行部110が、下記式(8);
RS’(q,d)=wBM×BM(q,d)+wPS×PS’(d) …(8)
を計算してランキングスコアを求める。このとき、人気度スコアPS’(d)が格納されていない場合には、演算式(8)の第2項の演算を省略することができるので、メモリ領域のさらなる削減と検索処理の演算量の一層の軽減が実現できる。
【0058】
また、情報検索システム1においては、スコア計算部108や検索実行部110において使用される表示順序を決定する演算式において線形演算の対象となる数値パラメータに対してのみ、最頻値等の基準値を差し引くようにしてもよい。上述した実施形態においては、検索実行部110が用いる演算式(7)が線形式であるため、正規化数値パラメータの調整を行ってもランキングスコアの順番には影響を与えない。例えば、ある数値パラメータx1を持つドキュメントd1と、別の数値パラメータx2を持つドキュメントd2では、最終的に計算されるランキングスコアの差RS(q,d1)−RS(q,d2)は基準値による調整の有無によって変化はない。一方で、非線形な演算式を用いる場合、基準値による調整を行うと最終的に算出されるランキングスコアの順番に影響を与える場合がある。そこで、スコア計算部108又は検索実行部110における演算式のうち、線形演算の対象となる数値パラメータのみ基準値を用いた調整を行うことで、表示順序決定の精度が向上し、ユーザのニーズにあった検索結果を提供することができる。
【0059】
ただし、情報検索システム1は、非線形な演算式を用いる場合であっても、次のようにして線形式に変換後に基準値による調整を実行してもよい。例えば、スコア計算部108による演算において数値パラメータPA,PBを対象に演算式(PA+PB)2=PA2+2PAPB+PB2が使用されており、2次の項が含まれている場合を考える。このとき、パラメータ計算部107は、3つの項PA2,PAPB,PB2の数値それぞれについて、最頻値による調整処理を行って中間コンテンツデータベース105に格納してもよい。詳細には、PA2の最頻値MPA2、PB2の最頻値MPB2、及びPAPBの最頻値MPAPBを求め、PA2に代えてPA2−MPA2、PB2に代えてPB2−MPB2、PAPBに代えてPAPB−MPAPBを、中間コンテンツデータベース105に格納してもよい。このようにすれば、上記演算式はパラメータPA2、PB2、及びPAPBに関しては線形式となっているため調整処理によってスコアの順番に影響を及ぼすことがない。
【符号の説明】
【0060】
1…情報検索システム、101…Webコンテンツデータベース(関連情報格納手段)、102…ログ情報データベース、103…コンテンツ解析部(パラメータ導出手段)、105…中間コンテンツデータベース(パラメータ格納手段)、106…正規化処理部(パラメータ正規化手段)、107…パラメータ計算部(パラメータ計算手段)、108…スコア計算部(順序算出手段)、109…検索インデックスデータベース(パラメータ格納手段)、110…検索実行部(順序算出手段)。
【特許請求の範囲】
【請求項1】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索装置であって、
前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段と、
前記関連情報格納手段に格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段と、
前記数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段と、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを用いて該数値パラメータの基準値を求め、前記基準値を差し引いた該数値パラメータを、前記パラメータ格納手段に格納させるパラメータ計算手段と、
前記パラメータ格納手段から前記複数の検索対象コンテンツデータ毎の前記数値パラメータを参照し、前記検索語を基に前記数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、
前記パラメータ格納手段は、前記基準値が差し引かれた前記数値パラメータが零値である場合には、前記数値パラメータを格納しないように構成されており、
前記順序算出手段は、前記パラメータ格納手段に格納されていない前記数値パラメータを特定した際に、前記所定の演算式における該数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索装置。
【請求項2】
前記パラメータ計算手段は、前記基準値として前記数値パラメータの最頻値を求める、
ことを特徴とする請求項1記載の情報検索装置。
【請求項3】
前記パラメータ計算手段は、前記基準値として前記数値パラメータの最大値或いは最小値を求める、
ことを特徴とする請求項1記載の情報検索装置。
【請求項4】
前記パラメータ計算手段は、前記所定の演算式において線形演算処理の対象となる前記数値パラメータを特定し、該数値パラメータから前記基準値を差し引く、
ことを特徴とする請求項1〜3のいずれか一項に記載の情報検索装置。
【請求項5】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索装置であって、
前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段と、
前記関連情報格納手段に格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段と、
前記正規化数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段と、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを用いて該数値パラメータに対応する前記正規化数値パラメータの基準値を求め、前記基準値を差し引いた該正規化数値パラメータを、前記パラメータ格納手段に格納させるパラメータ計算手段と、
前記パラメータ格納手段から前記複数の検索対象コンテンツデータ毎の前記正規化数値パラメータを参照し、前記検索語を基に前記正規化数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、
前記パラメータ格納手段は、前記基準値が差し引かれた前記正規化数値パラメータが零値である場合には、前記正規化数値パラメータを格納しないように構成されており、
前記順序算出手段は、前記パラメータ格納手段に格納されていない前記正規化数値パラメータを特定した際に、前記所定の演算式における該正規化数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索装置。
【請求項6】
前記パラメータ計算手段は、前記基準値として前記正規化数値パラメータの最頻値を求める、
ことを特徴とする請求項1記載の情報検索装置。
【請求項7】
前記パラメータ計算手段は、前記基準値として前記正規化数値パラメータの最大値或いは最小値を求める、
ことを特徴とする請求項1記載の情報検索装置。
【請求項8】
前記パラメータ計算手段は、零値の前記数値パラメータに対して前記パラメータ正規化手段によって求められる前記正規化数値パラメータを、前記基準値として用いる、
ことを特徴とする請求項1記載の情報検索装置。
【請求項9】
前記パラメータ計算手段は、前記所定の演算式において線形演算処理の対象となる前記正規化数値パラメータを特定し、該正規化数値パラメータから前記基準値を差し引く、
ことを特徴とする請求項5〜8のいずれか一項に記載の情報検索装置。
【請求項10】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索方法であって、
情報検索装置が、前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納ステップと、
前記情報検索装置が、前記関連情報格納ステップで格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出ステップと、
前記情報検索装置が、前記数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納ステップと、
前記情報検索装置が、前記パラメータ導出ステップによって導出される複数の前記数値パラメータを用いて該数値パラメータの基準値を求め、前記基準値を差し引いた該数値パラメータを格納させるパラメータ計算ステップと、
前記情報検索装置が、前記複数の検索対象コンテンツデータ毎の前記数値パラメータを参照し、前記検索語を基に前記数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出ステップとを備え、
前記パラメータ格納ステップでは、前記基準値が差し引かれた前記数値パラメータが零値である場合には、前記数値パラメータを格納しないようにされており、
前記順序算出ステップでは、前記パラメータ格納ステップで格納されていない前記数値パラメータを特定した際に、前記所定の演算式における該数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索方法。
【請求項11】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索方法であって、
情報検索装置が、前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納ステップと、
前記情報検索装置が、前記関連情報格納ステップで格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段と、
前記情報検索装置が、前記パラメータ導出ステップによって導出される複数の前記数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段と、
前記情報検索装置が、前記正規化数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納ステップと、
前記情報検索装置が、前記パラメータ導出ステップによって導出される複数の前記数値パラメータを用いて該数値パラメータに対応する前記正規化数値パラメータの基準値を求め、前記基準値を差し引いた該正規化数値パラメータを格納させるパラメータ計算手段と、
前記情報検索装置が、前記複数の検索対象コンテンツデータ毎の前記正規化数値パラメータを参照し、前記検索語を基に前記正規化数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、
前記パラメータ格納ステップでは、前記基準値が差し引かれた前記正規化数値パラメータが零値である場合には、前記正規化数値パラメータを格納しないようにされており、
前記順序算出ステップでは、前記パラメータ格納ステップで格納されていない前記正規化数値パラメータを特定した際に、前記所定の演算式における該正規化数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索方法。
【請求項12】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索プログラムであって、
コンピュータを、
前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段、
前記関連情報格納手段に格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段、
前記数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを用いて該数値パラメータの基準値を求め、前記基準値を差し引いた該数値パラメータを、前記パラメータ格納手段に格納させるパラメータ計算手段、及び
前記パラメータ格納手段から前記複数の検索対象コンテンツデータ毎の前記数値パラメータを参照し、前記検索語を基に前記数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段として動作させ、
前記パラメータ格納手段は、前記基準値が差し引かれた前記数値パラメータが零値である場合には、前記数値パラメータを格納しないように構成されており、
前記順序算出手段は、前記パラメータ格納手段に格納されていない前記数値パラメータを特定した際に、前記所定の演算式における該数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索プログラム。
【請求項13】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索プログラムであって、
コンピュータを、
前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段、
前記関連情報格納手段に格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段、
前記正規化数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを用いて該数値パラメータに対応する前記正規化数値パラメータの基準値を求め、前記基準値を差し引いた該正規化数値パラメータを、前記パラメータ格納手段に格納させるパラメータ計算手段、及び
前記パラメータ格納手段から前記複数の検索対象コンテンツデータ毎の前記正規化数値パラメータを参照し、前記検索語を基に前記正規化数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段として動作させ、
前記パラメータ格納手段は、前記基準値が差し引かれた前記正規化数値パラメータが零値である場合には、前記正規化数値パラメータを格納しないように構成されており、
前記順序算出手段は、前記パラメータ格納手段に格納されていない前記正規化数値パラメータを特定した際に、前記所定の演算式における該正規化数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索プログラム。
【請求項1】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索装置であって、
前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段と、
前記関連情報格納手段に格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段と、
前記数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段と、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを用いて該数値パラメータの基準値を求め、前記基準値を差し引いた該数値パラメータを、前記パラメータ格納手段に格納させるパラメータ計算手段と、
前記パラメータ格納手段から前記複数の検索対象コンテンツデータ毎の前記数値パラメータを参照し、前記検索語を基に前記数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、
前記パラメータ格納手段は、前記基準値が差し引かれた前記数値パラメータが零値である場合には、前記数値パラメータを格納しないように構成されており、
前記順序算出手段は、前記パラメータ格納手段に格納されていない前記数値パラメータを特定した際に、前記所定の演算式における該数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索装置。
【請求項2】
前記パラメータ計算手段は、前記基準値として前記数値パラメータの最頻値を求める、
ことを特徴とする請求項1記載の情報検索装置。
【請求項3】
前記パラメータ計算手段は、前記基準値として前記数値パラメータの最大値或いは最小値を求める、
ことを特徴とする請求項1記載の情報検索装置。
【請求項4】
前記パラメータ計算手段は、前記所定の演算式において線形演算処理の対象となる前記数値パラメータを特定し、該数値パラメータから前記基準値を差し引く、
ことを特徴とする請求項1〜3のいずれか一項に記載の情報検索装置。
【請求項5】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索装置であって、
前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段と、
前記関連情報格納手段に格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段と、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段と、
前記正規化数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段と、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを用いて該数値パラメータに対応する前記正規化数値パラメータの基準値を求め、前記基準値を差し引いた該正規化数値パラメータを、前記パラメータ格納手段に格納させるパラメータ計算手段と、
前記パラメータ格納手段から前記複数の検索対象コンテンツデータ毎の前記正規化数値パラメータを参照し、前記検索語を基に前記正規化数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、
前記パラメータ格納手段は、前記基準値が差し引かれた前記正規化数値パラメータが零値である場合には、前記正規化数値パラメータを格納しないように構成されており、
前記順序算出手段は、前記パラメータ格納手段に格納されていない前記正規化数値パラメータを特定した際に、前記所定の演算式における該正規化数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索装置。
【請求項6】
前記パラメータ計算手段は、前記基準値として前記正規化数値パラメータの最頻値を求める、
ことを特徴とする請求項1記載の情報検索装置。
【請求項7】
前記パラメータ計算手段は、前記基準値として前記正規化数値パラメータの最大値或いは最小値を求める、
ことを特徴とする請求項1記載の情報検索装置。
【請求項8】
前記パラメータ計算手段は、零値の前記数値パラメータに対して前記パラメータ正規化手段によって求められる前記正規化数値パラメータを、前記基準値として用いる、
ことを特徴とする請求項1記載の情報検索装置。
【請求項9】
前記パラメータ計算手段は、前記所定の演算式において線形演算処理の対象となる前記正規化数値パラメータを特定し、該正規化数値パラメータから前記基準値を差し引く、
ことを特徴とする請求項5〜8のいずれか一項に記載の情報検索装置。
【請求項10】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索方法であって、
情報検索装置が、前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納ステップと、
前記情報検索装置が、前記関連情報格納ステップで格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出ステップと、
前記情報検索装置が、前記数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納ステップと、
前記情報検索装置が、前記パラメータ導出ステップによって導出される複数の前記数値パラメータを用いて該数値パラメータの基準値を求め、前記基準値を差し引いた該数値パラメータを格納させるパラメータ計算ステップと、
前記情報検索装置が、前記複数の検索対象コンテンツデータ毎の前記数値パラメータを参照し、前記検索語を基に前記数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出ステップとを備え、
前記パラメータ格納ステップでは、前記基準値が差し引かれた前記数値パラメータが零値である場合には、前記数値パラメータを格納しないようにされており、
前記順序算出ステップでは、前記パラメータ格納ステップで格納されていない前記数値パラメータを特定した際に、前記所定の演算式における該数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索方法。
【請求項11】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索方法であって、
情報検索装置が、前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納ステップと、
前記情報検索装置が、前記関連情報格納ステップで格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段と、
前記情報検索装置が、前記パラメータ導出ステップによって導出される複数の前記数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段と、
前記情報検索装置が、前記正規化数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納ステップと、
前記情報検索装置が、前記パラメータ導出ステップによって導出される複数の前記数値パラメータを用いて該数値パラメータに対応する前記正規化数値パラメータの基準値を求め、前記基準値を差し引いた該正規化数値パラメータを格納させるパラメータ計算手段と、
前記情報検索装置が、前記複数の検索対象コンテンツデータ毎の前記正規化数値パラメータを参照し、前記検索語を基に前記正規化数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段とを備え、
前記パラメータ格納ステップでは、前記基準値が差し引かれた前記正規化数値パラメータが零値である場合には、前記正規化数値パラメータを格納しないようにされており、
前記順序算出ステップでは、前記パラメータ格納ステップで格納されていない前記正規化数値パラメータを特定した際に、前記所定の演算式における該正規化数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索方法。
【請求項12】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索プログラムであって、
コンピュータを、
前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段、
前記関連情報格納手段に格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段、
前記数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを用いて該数値パラメータの基準値を求め、前記基準値を差し引いた該数値パラメータを、前記パラメータ格納手段に格納させるパラメータ計算手段、及び
前記パラメータ格納手段から前記複数の検索対象コンテンツデータ毎の前記数値パラメータを参照し、前記検索語を基に前記数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段として動作させ、
前記パラメータ格納手段は、前記基準値が差し引かれた前記数値パラメータが零値である場合には、前記数値パラメータを格納しないように構成されており、
前記順序算出手段は、前記パラメータ格納手段に格納されていない前記数値パラメータを特定した際に、前記所定の演算式における該数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索プログラム。
【請求項13】
入力された検索語を基に複数の検索対象コンテンツデータに関する数値パラメータを導出し、前記数値パラメータを利用して算出された表示順序で表示されるように、前記複数の検索対象コンテンツデータの検索結果を送信する情報検索プログラムであって、
コンピュータを、
前記複数の検索対象コンテンツデータの内容及び属性に関するコンテンツ関連情報を予め格納する関連情報格納手段、
前記関連情報格納手段に格納された前記コンテンツ関連情報に基づいて、前記複数の検索対象コンテンツデータ毎に前記数値パラメータを導出するパラメータ導出手段、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを正規化して複数の正規化数値パラメータを求めるパラメータ正規化手段、
前記正規化数値パラメータを前記検索対象コンテンツデータの特定情報とともに格納するパラメータ格納手段、
前記パラメータ導出手段によって導出される複数の前記数値パラメータを用いて該数値パラメータに対応する前記正規化数値パラメータの基準値を求め、前記基準値を差し引いた該正規化数値パラメータを、前記パラメータ格納手段に格納させるパラメータ計算手段、及び
前記パラメータ格納手段から前記複数の検索対象コンテンツデータ毎の前記正規化数値パラメータを参照し、前記検索語を基に前記正規化数値パラメータを所定の演算式に適用することによって、前記複数の検索対象コンテンツデータの表示順序を決定する順序算出手段として動作させ、
前記パラメータ格納手段は、前記基準値が差し引かれた前記正規化数値パラメータが零値である場合には、前記正規化数値パラメータを格納しないように構成されており、
前記順序算出手段は、前記パラメータ格納手段に格納されていない前記正規化数値パラメータを特定した際に、前記所定の演算式における該正規化数値パラメータの項を省略して前記所定の演算式を計算する、
ことを特徴とする情報検索プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2011−108176(P2011−108176A)
【公開日】平成23年6月2日(2011.6.2)
【国際特許分類】
【出願番号】特願2009−265252(P2009−265252)
【出願日】平成21年11月20日(2009.11.20)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【出願人】(504126835)エヌ・ティ・ティ レゾナント株式会社 (60)
【Fターム(参考)】
【公開日】平成23年6月2日(2011.6.2)
【国際特許分類】
【出願日】平成21年11月20日(2009.11.20)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【出願人】(504126835)エヌ・ティ・ティ レゾナント株式会社 (60)
【Fターム(参考)】
[ Back to top ]