説明

検索ナビゲーション装置及び方法

【課題】作業者が予め情報の分類作業を行わずとも、利用者の検索意図に従った情報を容易に特定できる。
【解決手段】検索ナビゲーションサーバは、文書データを検索する検索クエリの入力を受け付ける入力受付部と、検索クエリで文書データを検索する検索部と、検索された文書データを分類してクラスタを生成するクラスタリング部と、クラスタ毎にクラスタラベルを生成するラベル生成部と、クラスタ毎に、クラスタラベルと文書データとが記載されている画面情報を生成する画面情報生成部と、画面情報に示されたクラスタラベルの選択を受け付ける選択受付部と、複数のクラスタラベルの選択を受け付けた場合、複数のクラスタラベルで示される複数のクラスタを一つのクラスタに併合する併合部と、を備え、クラスタリング部は、併合される度に、併合されたクラスタを分類して、クラスタを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、情報を利用者に対して提示する検索ナビゲーション装置及び方法に関するものである。
【背景技術】
【0002】
従来から、電子データの蓄積に伴い、所望の電子データを特定するためにさまざまな手法が提案されている。この電子データを特定するための手法の例として検索ナビゲーションなどが提案されている。
【0003】
この検索ナビゲーションでは、予め蓄積されたナビゲーション用の知識を利用することで、利用者を所望の電子データを閲覧するまでの案内を行う。
【0004】
この検索ナビゲーションの例としては、非特許文献1に記載された技術がある。非特許文献1に記載された技術では、事前に作成された単語の階層ツリーにおいて、利用者が興味のある単語あるいは短い説明文を逐次選択することで、閲覧するデータを絞り込むことができる。
【0005】
【非特許文献1】“Yahooカテゴリ”、[online]、[平成19年11月20日検索]、インターネット<URL:http://www.yahoo.co.jp/>
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献1に記載された技術は、上記カテゴリを作成するための作業者がインターネット上のサイトを収集、登録によりナビゲーション用の知識を構築している。このために、このような検索ナビゲーションシステムでは、ナビゲーション用の知識を利用するナビゲーション用の知識を構築するコストが大きいという問題がある。さらに、ナビゲーション用の知識で想定されていないナビゲーションをすることができないため、意外性、発見性のあるデータへのナビゲーションが困難という問題点がある。
【0007】
本発明は、上記に鑑みてなされたものであって、作業者の作業により構築されたナビゲーション用の知識を利用せずに利用者の検索の案内を可能とする検索ナビゲーション装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明にかかる検索ナビゲーション装置は、利用者が情報を検索するために入力した検索条件を受け付ける入力受付部と、前記検索条件で情報の検索を行う検索部と、前記検索部により検索された情報を分類し、クラスタを生成するクラスタリング部と、前記クラスタ毎に、当該クラスタを表現する文字列を示すクラスタラベルを生成するラベル生成部と、前記クラスタ毎に、当該クラスタを表す前記クラスタラベルと、当該クラスタに分類された前記情報と、が記載されている画面情報を生成し、前記利用者に提示する画面情報生成部と、前記画面情報に示された前記クラスタラベルの選択を受け付ける選択受付部と、前記選択受付部が前記クラスタラベルの選択を複数受け付けた場合、複数の当該クラスタラベルで示される複数のクラスタを一つのクラスタに併合する併合部と、を備え、前記クラスタリング部は、併合される度に、さらに前記併合部に併合された前記クラスタを分類して、新たなクラスタを生成し、前記ラベル生成部は、さらに、新たな前記クラスタを表現する、新たなクラスタラベルを生成し、前記画面情報生成部は、さらに、新たな前記クラスタラベルが記載されている、新たな画面情報を生成し、前記利用者に提示すること、を特徴とする。
【0009】
また、本発明にかかる検索ナビゲーション方法は、入力受付部が、利用者が情報を検索するために入力した検索条件の入力を受け付ける入力受付ステップと、検索部が、前記検索条件で情報の検索を行う検索ステップと、クラスタリング部が、前記検索ステップにより検索された情報を分類して、当該情報の群を示すクラスタを生成するクラスタリングステップと、ラベル生成部が、前記クラスタ毎に、当該クラスタを表現する文字列を示すクラスタラベルを生成するラベル生成ステップと、画面情報生成部が、前記クラスタ毎に、当該クラスタを表す前記クラスタラベルと、当該クラスタに分類された前記情報と、が記載されている画面情報を生成し、前記利用者に提示する画面情報生成ステップと、選択受付部が、前記画面情報に示された前記クラスタラベルの選択を受け付ける選択受付ステップと、前記選択受付ステップにより前記クラスタラベルの選択を複数受け付けた場合、併合部が、複数の当該クラスタラベルで示される複数のクラスタを一つのクラスタに併合する併合ステップと、を有し、前記クラスタリングステップは、併合される度に、さらに前記併合ステップに併合された前記クラスタを分類して、新たなクラスタを生成し、前記ラベル生成ステップは、さらに、新たな前記クラスタを表現する、新たなクラスタラベルを生成し、前記画面情報生成ステップは、さらに、新たな前記クラスタラベルが記載されている、新たな画面情報を生成し、前記利用者に提示すること、を特徴とする。
【発明の効果】
【0010】
本発明によれば、作業者が予め情報の分類作業を行わずとも、利用者の検索意図に従った情報を容易に特定することができるという効果を奏する。
【発明を実施するための最良の形態】
【0011】
以下に添付図面を参照して、この発明にかかる検索ナビゲーション装置及び方法の最良な実施の形態を詳細に説明する。本実施の形態では、検索ナビゲーション装置及び方法を検索システム内の検索ナビゲーションサーバに適用した例について説明するが、他の装置に対して適用しても良い。他の装置の例としては、ネットワークを介さずにスタンドアローンで検索する機能を提供する検索装置などが考えられる。
【0012】
図1に示すように、実施の形態にかかる検索システムでは、検索ナビゲーションサーバ100と、クライアント端末150と、文書管理サーバ160とを備える。検索ナビゲーションサーバ100と、クライアント端末150とはネットワークを介して接続されている。このネットワークは、公衆ネットワークなどどのようなネットワークであっても良い。また、検索ナビゲーションサーバ100及び文書管理サーバ160もネットワークを介して接続されている。
【0013】
文書管理サーバ160は、文書記憶部161を備える。文書記憶部161は、検索対象となる文書データを記憶している。そして、文書管理サーバ160は、検索ナビゲーションサーバ100からの検索要求を受け付けた場合、文書記憶部161に対して行った検索結果を検索ナビゲーションサーバ100に出力する。
【0014】
クライアント端末150は、操作処理部151と、表示処理部152と、通信処理部153とを備える。
【0015】
操作処理部151は、利用者から入力された操作を処理する。表示処理部152は、図示しないモニタに対して情報の表示処理を行う。
【0016】
通信処理部153は、検索ナビゲーションサーバ100との間で情報の送受信を行う。送信する情報の例としては、操作処理部151により処理された操作等とし、受信する情報としては、表示処理部152で表示処理するための画面情報等が考えられる。
【0017】
検索ナビゲーションサーバ100は、クラスタラベル記憶部114と、シソーラス記憶部111と、制御部101と、通信処理部110と、入力受付部102と、検索部103と、クラスタリング部104と、ラベル生成部105と、順序設定部106と、画面情報生成部107と、選択受付部108と、併合部109と、確率算出部113と、構築部112と、を備える。
【0018】
本実施の形態にかかる検索ナビゲーションサーバ100では、文書データの検索が行われた場合に、検出された文書データをクラスタリング(分類)する。このクラスタリングされた文書データの群それぞれをクラスタと呼ぶ。そして、各クラスタを表すものとして付加されたラベルをクラスタラベルと呼ぶ。このクラスタラベルは、1又は複数の単語で構成されているものとする。
【0019】
そして、本実施の形態にかかる検索システムでは、上記の各クラスタとクラスタに分類された文書データとを含む画面情報を生成し、利用者に対して提示する。その後、利用者が画面情報からクラスタを選択する度に、検索ナビゲーションサーバ100が、選択されたクラスタに含まれる文書データをさらにクラスタリングし、新たなクラスタを生成する。そして、検索システムは、新たに生成された各クラスタと、当該クラスタに分類された文書とを含む画面情報を生成し、利用者に対して提示する。なお、検索システムでは、生成されたクラスタ毎に、クラスタを表すクラスタラベルが付与される。
【0020】
また、利用者が、画面情報から複数のクラスタを選択した場合、検索ナビゲーションサーバ100は、当該複数のクラスタを併合して1つのクラスタを生成した後、生成された1つのクラスタに含まれる文書データに対してクラスタリングを行い、新たなクラスタを生成する。そして、検索ナビゲーションサーバ100は、新たなクラスタと、新たなクラスタに分類された文書データとを含む、新たな画面情報を生成し、利用者に提示する。また、検索システムでは、新たなクラスタを生成した際に、当該クラスタを表すクラスタラベルも生成され、当該クラスタラベルも画面情報に表示される。
【0021】
これを繰り返すことで利用者は、所望する文書データ、又は所望する文書データが格納されたクラスタに辿り着くことができる。次に、検索システム内の検索ナビゲーションサーバ100の各構成について説明する。
【0022】
制御部101は、以下に示す各部の制御を行う。
【0023】
クラスタラベル記憶部114は、利用者が選択した一連のクラスタのクラスタラベルの遷移を記憶する。図2に示すように、クラスタラベル記憶部114は、対象文字列と、次クラスタラベルと、関連度と、時刻と、を対応付けて記憶している。対象文字列は、ナビゲーション開始時に利用者により入力された検索クエリに含まれる検索キーや、利用者により選択されたクラスタのクラスタラベルを構成する単語などとする。次クラスタラベルは、対象文字列が検索クエリに含まれる検索キーの場合、検索結果として表示されたクラスタ一覧から選択されたクラスタのクラスタラベルとなる。対象文字列がクラスタラベルの場合、当該クラスタラベルのクラスタの次に選択されたクラスタのクラスタラベルとなる。
【0024】
本実施の形態においては、利用者により選択されるクラスタラベルの時系列に従った移り変わりを、クラスタラベルの遷移と呼ぶ。そして、クラスタラベル記憶部114では利用者により選択されたクラスタラベルの遷移を保持する。
【0025】
関連度は、対象文字列と、次クラスタラベル間の関連度合いを示した係数とする。時刻は、次クラスタラベルが生成された時刻とする。このようにして、クラスタラベル記憶部114は、クラスタラベルの遷移を記憶する。
【0026】
図1に戻り、シソーラス記憶部111は、シソーラスを記憶する。図3に示すように、シソーラス記憶部111は、遷移前単語と、遷移後単語と、遷移確率値と、を対応付けて記憶する。各単語をノードとした場合、遷移前単語を上位ノードとすると、遷移後単語は当該上位ノードの下位に位置するノードとなる。そして、遷移前単語から、遷移後単語に遷移する(類推できる)確率を遷移確率値として表す。
【0027】
シソーラス記憶部111におけるデータの蓄積形式について特に制限するものではないが、例えば関係データベース形式で蓄積することが考えられる。関係データベース形式で蓄積する場合、ある遷移前の単語に対して、遷移後の単語と遷移確率値の一覧などを問い合わせることが可能となる。
【0028】
また、検索ナビゲーションサーバ100が処理を行うことで、シソーラスが蓄積されていくことになるが、蓄積されたシソーラスは、本実施の形態の検索ナビゲーション以外の様々な用途に使用することもできる。つまり、現在提案されているシソーラスを用いた処理を含め、あらゆる用途に利用できる。
【0029】
図1に戻り、通信処理部110は、クライアント端末150との間で情報の送受信処理を行う。受信する情報の例としては、クライアント端末150で行われた操作情報等とし、送信する情報としては、後述する画面情報生成部107が生成した画面情報等が考えられる。
【0030】
入力受付部102は、通信処理部110が受信した操作情報に含まれている、検索クエリの入力を受け付ける。当該検索クエリは、利用者が文書データを検索するために入力した検索条件等が含まれている。
【0031】
また、本実施の形態のような検索システムではなく、ネットワークを介して送受信を行わないスタンドアローンな検索装置の場合、入力受付部102は、入力デバイスにより入力された検索クエリの入力を受け付ける。また入力デバイスの例としては、キーボード、タッチパネル、又は音声を検出するマイクなどが考えられる。なお、入力受付手法は、このような手法に限らず、例えばあらかじめ検索装置が用意した選択肢の中から選ぶ方式でも良い。
【0032】
本実施の形態に戻り、検索部103は、入力受付部102が入力を受け付けた検索クエリで、文書管理サーバ160内の文書記憶部161に対して検索を行う。この検索のアルゴリズムは、いずれの手法を用いても良いが、例えば「北 研二(著),津田 和彦(著),獅々堀 正幹(著)、“情報検索アルゴリズム”、共立出版」等を用いることが考えられる。このように、本実施の形態は、検索のアルゴリズムの方式を限定するものではない。
【0033】
なお、検索先としては、文書管理サーバ160に制限するものではなく、検索ナビゲーションサーバ100内に文書データを蓄積し、当該文書データに対して検索を行ってもよい。また、インターネット上で提供されている検索エンジンなどを利用しても良い。
【0034】
クラスタリング部104は、検索された文書データをクラスタリングすることで、文書データをクラスタ毎に分類する。文書データのクラスタリング方式はいずれの手法を用いても良いが、例えば、「岸田和明、“文書クラスタリングの技法:文献レビュー”、Library and Information Science、No.49、2003、pp.33-75」等を用いることが考えられる。このように、本実施の形態は、クラスタリング方式を限定するものではない。
【0035】
また、クラスタリング部104は、生成されたクラスタが、後述する選択受付部108により選択された場合に、当該クラスタに含まれる文書データをさらにクラスタリングし、1以上の文書データからなるクラスタの再生成を行う。このように本実施の形態の検索ナビゲーションサーバ100では、利用者のクラスタの選択に応じて、クラスタの再生成を繰り返す。
【0036】
ラベル生成部105は、各クラスタに対して1つ以上の単語で構成されるクラスタラベルを生成し、付与する。本実施の形態のラベル生成部105は、クラスタ毎にクラスタラベルとして付加された各単語に対して、クラスタラベルとしての妥当性を示す評価値(以下、ラベル妥当値とする)を算出する。
【0037】
また、ラベル生成部105は、クラスタリング部104により行われたクラスタリングで、新たなクラスタが生成される度に、新たなクラスタに対して、新たなクラスタラベルを生成し、付与する。
【0038】
また、ラベル生成部105のラベル生成手法としては、既に提案されている手法を問わずさまざまな手法を用いることができる。なお、各単語のラベル妥当値を出力することが可能なクラスタラベルの生成方式の例としては、以下の2つなどがある。
【0039】
まず、第1の例としては、「K. Lagus, and S. Kaski, Keyword selection method for characterizing text document maps, in Proceedings of the 9th International Conference on Artificial Neural Networks (ICANN99), Vol.1, pp.371-376,1999.」で提案されている技術がある。この例では、各クラスタに含まれる文書中の単語の出現頻度に基づいてラベルの自動作成を行っている。
【0040】
第2の例としては、「森 正輝、三浦 孝夫、塩谷 勇、“Webからの時制クラスタの解釈”、日本データベース学会、平成 16 年(2004)、Letters (DBSJ Letters) Vol.3、No.2、pp.109-112」で提案されている技術がある。この例では、単語の出現頻度だけではなく文書中に出現する単語同士の共起を考慮してラベルの自動生成を行っている。
【0041】
他には、ラベル妥当値の算出手法の例として、クラスタを代表する単語の取得にtf-idfを利用した場合、当該tf-idf値を用いることが考えられる。
【0042】
これら技術を利用することで、ラベル生成部105は、クラスタ毎にクラスタラベルを生成し、各クラスタに対してクラスタラベルを付加する。
【0043】
順序設定部106は、シソーラス記憶部111を参照して、クラスタリング部104で生成されたクラスタを、画面上に配置する順序を設定する。なお、シソーラス記憶部111に十分なシソーラスが格納されていない場合には、順序の設定を行わずともよい。
【0044】
画面情報生成部107は、クライアント端末150に対して出力する画面情報を生成する。画面情報生成部107が生成する画面情報の例では、クラスタリング部104により分類されたクラスタ毎に、クラスタラベルと、当該クラスタに含まれる文書データに関する情報と、が記載されている。また、生成された画面情報では、複数のクラスタの選択を可能とする。
【0045】
そして、画面情報生成部107は、生成した画面情報を、通信処理部110を介してクライアント端末150に送信することで、利用者に対して画面情報を提示する。
【0046】
また、画面情報生成部107は、ラベル生成部105により、新たなクラスタに対して、新たなクラスタラベルの生成、付与が終了した後、新たな画面情報を生成する。この新たな画面情報には、新たなクラスタ毎に、新たなクラスタラベルと、当該クラスタに含まれる文書データに関する情報と、が記載されている。この生成された画面情報も、通信処理部110を介してクライアント端末150に送信され、利用者に対して画面情報が提示される。
【0047】
図4に示す画面例では、検索結果として分類されたクラスタ1〜3が表示されている。図4に示すように、クラスタ1においては、クラスタヘッダ402と、当該クラスタに含まれる文書データ一覧401とが、表示されている。なお、クラスタ2,3についても同様の構成として説明を省略する。
【0048】
クラスタヘッダ402には、当該クラスタラベル(または当該クラスタラベルが指し示すクラスタ)の選択の有無を示すチェックボックス403と、クラスタラベルを構成する単語A404、単語B405及び単語C406と、が表示されている。利用者は、このクラスタラベルを参照することで、いずれのクラスタに興味があるか判断できる。そして、利用者は、興味があると判断した、一つ又は複数のクラスタラベルを選択する。
【0049】
文書データ一覧401には、クラスタ1に含まれる各々の文書データの情報(例えば、文書のタイトル、URL、要約、キーワードなど)が箇条書きで記述されている。
【0050】
そして、画面情報生成部107は、生成した画面情報の送信を通信処理部110に対して指示することで、通信処理部110が、クライアント端末150に画面情報を送信する。そして、クライアント端末150の表示処理部152が、当該画面情報を表示する。このようにして生成されたクラスタ及びクラスタラベルの組が、利用者に対して提示される。したがって、本実施の形態にかかる検索システムでは、従来から用いられているナビゲーション用の知識を利用せずとも、利用者に対して閲覧するデータを絞り込むための選択肢を提供することができる。
【0051】
これにより、通信処理部110が、クライアント端末150から、画面上に記載されたクラスタラベルの選択を受け付ける操作情報を受信することとなる。
【0052】
選択受付部108は、受信した操作情報に含まれているクラスタラベルの選択を受け付ける。図4に示した画面例で、チェックボックス403とチェックボックス407が選択された場合、選択受付部108は、クラスタ1のクラスタラベル及びクラスタ2のクラスタラベルの選択を受け付ける。なお、本実施の形態においては、クラスタラベルの選択をチェックボックスにより行うこととしたが、チェックボックスに限らず、あらゆる選択受付手法を用いて良い。
【0053】
登録部115は、関連度取得部121を備え、クラスタラベルの選択を受け付けた場合に、前回選択されたクラスタラベルと、今回選択されたクラスタラベルと、関連度と、今回選択を受け付けた時刻と、を対応付けてクラスタラベル記憶部114に登録する。なお、登録に用いる関連度の取得は、関連度取得部121で行われる。
【0054】
関連度取得部121は、今回選択されたクラスタラベルのラベル妥当値に基づいて、関連度を取得する。関連度の取得手法としては、どのような手法を用いても良いが、例として以下の計算方法を用いて取得することが考えられる。
【0055】
まず、計算手法の第1の例としては、“関連度=ラベル妥当値”とする。第2の例としては、“関連度=ラベル妥当値+α”とする。第3の例としては、“関連度=log(ラベル妥当値)”とする。
【0056】
併合部109は、選択受付部108がクラスタラベルの選択を複数受け付けた場合、複数の当該クラスタラベルで示される複数のクラスタを1つのクラスタへの併合処理を行う。
【0057】
確率算出部113は、クラスタラベル記憶部114に記憶されたクラスタラベルの遷移の集合から、クラスタラベル間の遷移確率値を算出する。当該遷移確率値の算出手法について説明する。なお、説明においては、文字列Xが検索キー又は選択されたクラスタラベルとし、文字列Xの次に選択されたクラスタラベルを文字列Yと仮定する。
【0058】
クラスタラベル記憶部114において、文字列Xがフィールド“対象文字列”に格納されているレコードの頻度をFbefore(X)とする。また、クラスタラベル記憶部114において、文字列Yがフィールド“次クラスタラベル”に格納されているレコードの頻度をFafter(Y)とする。
【0059】
そして、ΣRi(X,Y)は、クラスタラベル記憶部114において、文字列Xが“対象文字列”に、文字列Yが“次クラスタラベル”に対応付けて登録されている全レコードにおける関連度の合計とする。
【0060】
そして、確率算出部113は、以下に示す式(1)で、XとYとの遷移確率値P(X,Y)を算出する。
P(X,Y) = (ΣRi(X,Y))/(Fbefore(X) × Fafter(Y))…(1)
【0061】
また、本実施の形態においては、確率算出部113は、クラスタラベル記憶部114に登録された各遷移が行われた時刻を考慮していなかった。しかしながら、一般的には、新しい情報は古い情報に比べて重要であると考えられる。このため、クラスタラベル記憶部114に記憶されている全ての単語間の遷移を一様に扱うのではなく、時刻を考慮して、遷移確率を算出しても良い。
【0062】
このような時刻を考慮した遷移確率の算出手法の例としては、確率算出部113が、現在時刻から所定の時間前のレコードのみ遷移確率の算出に用いる。または、確率算出部113は、新しい時刻と対応付けられている関連度ほど重み付けが大きくして、遷移確率値を計算するなどしても良い。
【0063】
構築部112は、遷移前の文字列と、遷移後の文字列と、確率算出部113により算出された遷移確率と、を対応付けてシソーラス記憶部111に登録する。これにより、シソーラス記憶部111にシソーラスが蓄積されていくことになる。つまり、シソーラス記憶部111には、利用者の興味の移り変わりが格納されるので、さまざまな用途に用いることができる。
【0064】
次に、本実施の形態にかかる検索ナビゲーションサーバ100における検索処理の手順について、図5を用いて説明する。
【0065】
当該検索手順においては、シソーラス記憶部111にシソーラスが蓄積されている場合と、蓄積されていない場合とでは処理手順が異なる。そこで、最初にシソーラスが蓄積されていない場合について説明する。
【0066】
まず、入力受付部102は、通信処理部110を介して、検索条件を含む検索クエリの入力を受け付ける(ステップS501)。この検索クエリでは、検索キーとして“単語st”が設定されているものとする。
【0067】
次に、検索部103が、当該検索クエリに従って、文書管理サーバ160の文書記憶部161に対して、文書データの検索を行う(ステップS502)。これにより、“単語st”に関連する文書データの検索が行われる。
【0068】
そして、クラスタリング部104は、検出された“単語st”に関連する文書データ群をクラスタリングの対象として設定する(ステップS503)。
【0069】
次に、クラスタリング部104は、クラスタリングの対象として設定された文書データ群のクラスタリングを行い、クラスタ毎に文書データを分類する(ステップS504)。例えばステップS504の後に行う処理の場合、クラスタリング部104は、検索された単語stに関連する文書データのクラスタリングを行う。
【0070】
本処理手順のクラスタリングの例では、図6に示すように、検索された単語stに関連する文書データが、文書管理サーバ160の文書記憶部161内の領域601のクラスタ1と、領域602のクラスタ2と、領域603のクラスタ3とに分類される。
【0071】
そして、ラベル生成部105は、各クラスタに対して1つ以上の単語で構成されるクラスタラベルを生成し、付与する(ステップS505)。
【0072】
次に、順序設定部106が、クラスタ毎に付与されたクラスタラベル内に含まれる、それぞれの単語が、シソーラス記憶部111のシソーラスに一致するか否か判断する(ステップS506)。本処理手順では、シソーラスが蓄積されていないために、一致しないと判断されることになる。
【0073】
そこで、画面情報生成部107では、クラスタ毎に、クラスタラベル及び文書データが記載されている画面情報を生成する(ステップS508)。この画面情報の例としては、図4に示す画面情報が考えられる。図4に示すように、分類されたクラスタ1〜3のそれぞれに対して、クラスタラベルと文書データが記載されている。
【0074】
そして、通信処理部110が、生成した画面情報をクライアント端末150に送信する(ステップS509)。これにより、送信された画面情報がクライアント端末150で表示される。
【0075】
そのあと、通信処理部110が、クライアント端末150から操作情報を受信する。その際、選択受付部108は、当該操作情報に画面情報内のクラスタの選択が含まれているか否か判断する(ステップS510)。本処理手順では、クラスタの選択が含まれているものとする。
【0076】
そして、選択受付部108が、操作情報にクラスタの選択が含まれていると判断した場合(ステップS510:Yes)、選択受付部108は、当該クラスタの選択を受け付ける(ステップS511)。本処理手順では、図4に示す画面例において、チェックボックス403と、チェックボックス407とのチェックがなされていたものとする。この場合、選択受付部108は、クラスタ1のクラスタラベル及びクラスタ2のクラスタラベルの選択を受け付ける。
【0077】
そして、登録部115が、クラスタラベル記憶部114に、選択されたクラスタラベルの登録を、選択順を保持しつつ行う(ステップS512)。なお、登録する際に、予め関連度取得部121が、選択前のクラスタラベルと、選択後のクラスタラベルとの関連度を取得しておき、登録部115は、当該関連度もクラスタラベルと対応付けて登録する。
【0078】
本処理手順では、検索クエリに含まれている単語stが、“対象文字列”となり、選択受付部108が選択を受け付けたクラスタ1及びクラスタ2のクラスタラベルに含まれる単語(単語1a、単語1b、単語1c、単語2a)が“次クラスタラベル”となる。これにより、本処理手順では、登録部115は、図2に示すレコードを登録する。
【0079】
次に、選択受付部108が選択を受け付けたクラスタが複数存在する場合、併合部109が、これら複数のクラスタを併合して、ひとまとまりの文書データ群とする(ステップS513)。図6に示す例では、斜線領域605が、併合された領域となる。なお、本実施の形態においては、クラスタ1及び2の選択を受け付けたので、併合領域を(クラスタ1∪クラスタ2)―クラスタ3とする。なお、併合されたクラスタ領域をこのような併合領域に制限するものではなく、例えば「クラスタ1∪クラスタ2」でも良いし、「クラスタ1∩クラスタ2」や「(クラスタ1∩クラスタ2)―クラスタ3」等でもよい。
【0080】
次に、クラスタリング部104は、選択を受け付けたクラスタが一つの場合には当該クラスタをクラスタリングの対象と設定し、選択を受け付けたクラスタが複数の場合には併合されたクラスタをクラスタリングの対象と設定する(ステップS514)。
【0081】
そして、クラスタリング部104は、再び、クラスタリングの対象とされた文書データ群に対して、クラスタリングを行い、クラスタ毎に文書データを分類する(ステップS504)。
【0082】
図7に示す領域701は、図6の領域604を拡大したものとする。そして、領域705は、クラスタ1及び2を併合した領域である。当該処理で生成されたクラスタは、領域702のクラスタ11、領域703のクラスタ12、及び領域704のクラスタ13とする。なお、本処理手順で生成されたクラスタは例として示したものであり、実際に生成されるクラスタはクラスタリング方式に依存し、どのようなクラスタが生成されても良い。
【0083】
そして、検索ナビゲーションサーバ100は、再びステップS505〜S508までの処理を行い、生成されたクラスタ毎のクラスタラベルの生成、及び画面情報の生成を行う。
【0084】
この画面情報の例としては、図8に示す画面情報が考えられる。図8に示すように、分類されたクラスタ11〜13のそれぞれに対して、クラスタラベルと文書データが記載されている。
【0085】
そして、通信処理部110が、再び、生成した画面情報をクライアント端末150に送信する(ステップS509)。そのあと、通信処理部110が受信した操作情報から、選択受付部108が、当該操作情報に画面情報内のクラスタラベルの選択が含まれているか否か判断する(ステップS510)。クラスタラベルの選択が含まれる場合には(ステップS510:Yes)、選択受付部108は、当該クラスタラベルの選択を受け付ける(ステップS511)。
【0086】
例えば、利用者が図8に示す画面例で、チェックボックス801がチェックされた場合、選択受付部108は、クラスタ12のクラスタラベルの選択を受け付ける。
【0087】
これにより、ステップS512において、登録部115が、図9に示されたレコードを、クラスタラベル記憶部114に登録する。つまり、登録部115は、前回選択を受け付けたクラスタ1及び2のクラスタラベルを構成する単語1a、1b、1c及び2aのそれぞれに対し、今回選択を受け付けたクラスタ12のクラスタラベルを構成する単語2´aと単語2´bとを対応付けて登録する。
【0088】
その後、チェックされたクラスタ12に含まれる文書データ群に対してクラスタリングが行われることになる。このような処理を、利用者が所望するクラスタ又は所望する文書データを特定するまで繰り返し行われる。
【0089】
そして、利用者が所望するクラスタ又は所望する文書データを特定して、クラスタラベルの選択を受け付けなくなった場合(ステップS510:No)、処理を終了する。
【0090】
上述した処理手順では、利用者からの選択に従って逐次クラスタリングを行うことで、予めナビゲーション用の知識を構築する必要がなくなることになる。また、クラスタリングにより自動的に生成された選択肢(クラスタ)を利用するので、ナビゲーション用の知識を利用する場合においては困難であった意外性、発見性のあるデータへのナビゲーションが可能となる。
【0091】
また、上述した処理手順が行われることで、クラスタラベル記憶部114にクラスタラベルの遷移が格納されていく。そして、クラスタラベル記憶部114を用いてシソーラスの構築が行われることになる。
【0092】
本実施の形態にかかるシソーラスの構築は、所定時間毎に行うこととするが、処理のタイミングを制限するものではなく、例えばクラスタラベル記憶部114に所定の数のレコードが追加される毎、どのタイミングで行ってもよいものとする。
【0093】
次に、図10に示すシソーラスの構築処理の手順について説明する。図10は、シソーラスの構築処理の手順を示すフローチャートである。当該処理を行うために、クラスタラベル記憶部114に一定量のレコードが蓄積されているものとする。
【0094】
まず、確率算出部113は、クラスタラベル記憶部114に基づいて、クラスタラベルを構成する単語間の遷移確率値を算出する(ステップS1001)。
【0095】
次に、構築部112が、算出された単語間の遷移確率値と、遷移前の単語と、遷移後の単語とを対応付けて、シソーラス記憶部111に登録することで、シソーラスの構築を行う(ステップS1002)。
【0096】
そして、制御部101が、シソーラスの構築終了後、所定の時間が経過したか否か判断する(ステップS1003)。所定の時間が経過していないと判断した場合(ステップS1003:No)、なにも処理を行わず、再び所定の時間が経過したか否かの判断を行うこととする(ステップS1003)。
【0097】
そして、制御部101が、所定の時間経過したと判断した場合(ステップS1003:Yes)、制御部101からの呼出により、確率算出部113が再び遷移確率値の算出を行う(ステップS1001)。
【0098】
上述した処理手順により、利用者がクラスタの選択等を行った情報がクラスタラベル記憶部114に記憶されると、シソーラスが構築されることとなる。
【0099】
また、上述した処理手順でシソーラスを構築するため、検索ナビゲーションと切り離して利用することが可能となる。つまり、検索ナビゲーションサーバ100では、利用者がどの選択肢を選択したかという情報がシソーラスとして構築されるが、当該シソーラスを検索ナビゲーション以外の用途で再利用することが可能となる。
【0100】
図10に示す処理が行われることで、シソーラス記憶部111に情報が蓄積される。これにより検索処理の手順が異なることになる。そこで、図5に示す検索処理で、シソーラス記憶部111に情報が蓄積されている場合について説明する。
【0101】
まずは、上述した処理と同様にステップS501〜S505の処理を行う。そして、次に、順序設定部106が、クラスタ毎に付与されたクラスタラベル内に含まれる、それぞれの単語が、シソーラス記憶部111のシソーラスに一致するか否か判断する(ステップS506)。本処理手順では、シソーラスが十分に蓄積されているために、一致すると判断されることになる。
【0102】
そして、順序設定部106は、シソーラス記憶部111を参照して、クラスタリング部104で生成されたクラスタを、画面上に配置する順序を設定する(ステップS507)。
【0103】
配置する順序は、各クラスタの優先度を算出し、当該優先度の大きい値から順にクラスタを配置することとする。
【0104】
そこで、優先度の算出手法について、説明する。まず前回利用者により選択されたクラスタラベルXに含まれる単語の集合を、X=(x1、x2、x3・・・)とする。なお、初めて配置する順序を設定する際は、例えば検索キーが単語stのみの場合、X=(単語st)とする。
【0105】
そして、今回クラスタリング部104により生成されたクラスタiのクラスタラベルを構成する単語の集合を、Yi=(yi1、yi2、yi3・・・)とする。
【0106】
ところで、シソーラス記憶部111において、遷移前の単語aと、遷移後の単語bとの遷移確率値をP(a,b)とする。なお、シソーラス記憶部111に記憶されていない遷移前の単語aと、遷移後の単語b´との間の遷移確率値P(a,b´)=0となる。
【0107】
以上の条件を用いて、クラスタiの優先度は前回のクラスタラベルX中の1単語(x)と、今回のクラスタラベルYi中の1単語(yi)と、のペアによる遷移確率値P(x,yi)の総和で算出される。なお、ペアの数は(クラスタラベルXを構成する単語数 × クラスタラベルYiを構成する単語数)となる。
【0108】
当該処理により、各クラスタのクラスタラベルYiの優先度が算出される。そして、順序設定部106は、当該優先度が大きい順に、当該クラスタラベルYiで表されるクラスタの配置順を設定する。
【0109】
そして、画面情報生成部107は、ステップS508において、クラスタおよびクラスタラベルの組を、優先度の高い順に配置した画面情報を生成する。この際、縦向きにクラスタ及びクラスタラベルの組みを並べる場合、上部から順に配置する。また、横向きにクラスタ及びクラスタラベルの組みを並べる場合、左部から順に配置する。
【0110】
また、画面情報生成部107は、画面情報に対して、優先度の高い組について、フォントサイズを大きくしたり、フォントカラーを変えたり、フォントに修飾を加えてもよい。このように、優先度の高い組みを、優先順位の低い組よりも目立つような画面情報を生成しても良い。
【0111】
上述した処理手順で、クラスタ及びクラスタラベルの組みを配置するので、クラスタの重要度に応じて、利用者に対して選択肢(クラスタ及びクラスタラベルの組み)を提示することが可能となる。
【0112】
本実施の形態にかかる検索ナビゲーションサーバ100では、クラスタラベルの遷移の蓄積、利用、及びシソーラス構築、蓄積、利用を2単語間(2グラム)の関係のみを扱った場合について説明した。しかしながら、本実施の形態は、2単語間(2グラム)の処理に制限するものではなく、3単語間(3グラム)や4単語間(4グラム)などより多くの単語間の関係で処理を行ってもよい。
【0113】
また、本実施の形態にかかる検索ナビゲーションサーバ100では、文書データの検索の例について説明したが、検索対象を文書データに制限するものではなく、検索対象となる情報であればよい。
【0114】
また、本実施の形態にかかる検索ナビゲーションサーバ100では、シソーラス記憶部111を用いて、クラスタ及びクラスタラベルの組みの優先度を算出し、配置することとした。しかしながら、本実施の形態は、このような配置手法に制限するものではなく、クラスタ及びクラスタラベルの配置順を、シソーラス記憶部111以外の情報を利用して決定しても良い。
【0115】
本実施の形態にかかる検索ナビゲーションサーバ100では、利用者により選択されたクラスタのクラスタラベルの遷移を蓄積し、当該蓄積に従ってクラスタ及びクラスタラベルの組みを提示することで、利用者によりいずれの選択肢(クラスタ)を選択したかという情報の再利用が可能となる。
【0116】
また、本実施の形態にかかる検索ナビゲーションサーバ100では、利用者の検索意図が明確でない場合や、検索意図は明確であるが、この検索意図に合う検索クエリをどのように入力して良いかわからない場合に、とりあえず検索クエリを入力し、逐次的に提示されるクラスタラベルを選択していくことで、次第に利用者の検索意図が表現されたクラスタラベルが提示されていくことになる。特に、利用者が複数のクラスタラベルを選択した場合に、併合部109が複数のクラスタラベルのクラスタを一つのクラスタに併合してから、クラスタリング部104が併合したクラスタを分類して、クラスタを生成する。このような処理を繰り返し行うことで、利用者の興味がある内容のクラスタが生成されると共に当該クラスタのクラスタラベルも生成される。この生成されたクラスタラベルは、利用者の検索意図を適切に表している。これにより、利用者は自分の検索意図を認識できると共に、当該検索意図に従ったデータを特定することが可能となる。
【0117】
また、本実施の形態にかかる検索ナビゲーションサーバ100では、利用者がどの選択肢を選択したかという情報を、シソーラスの形式で蓄積することで、当該シソーラスを検索ナビゲーションやそれ以外の用途に利用することが可能となる。
【0118】
本実施の形態にかかる検索ナビゲーションサーバ100では、予めナビゲーション用の知識を構築せずとも、ナビゲーションを行うことができる。また、利用者の選択に応じて、クラスタ及びクラスタラベルの組みが生成されるので、予めナビゲーション用の知識が登録されている場合と比べて、意外性、発見姓のあるデータへのナビゲーションを可能とする。
【0119】
また、検索ナビゲーションサーバ100では、シソーラス記憶部111を用いることで、各選択肢(クラスタ)の重要度に応じて、選択肢を提示することが可能とする。
【0120】
図11に示すように、上述した実施の形態の検索ナビゲーションサーバ100は、ハードウェア構成として、上述した処理を行う検索ナビゲーションプログラムなどが格納されているROM1102と、ROM1102内のプログラムに従って検索ナビゲーションサーバ100の各部を制御するCPU1101と、データの格納領域となるRAM1103と、動画像の入出力を行うためにネットワークに接続して通信を行う通信I/F1104と、各部を接続するバス1105とを備えている。
【0121】
検索ナビゲーションプログラムは、インストール可能な形式又は実行可能な形式のファイルで光磁気ディスク(例えばCD−ROM、DVD)、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
【0122】
この場合には、検索ナビゲーションプログラムは、検索ナビゲーションサーバ100において上記記録媒体から読み出して実行することによりRAM1103上にロードされ、上記ソフトウェア構成で説明した各部がRAM1103上に生成されるようになっている。
【0123】
また、上述した実施の形態の検索ナビゲーションプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
【0124】
以上、本発明を実施の形態を用いて説明したが、上記実施の形態の構成を組み合わせたり、上記実施の形態に多様な変更または改良を加えることができる。
【図面の簡単な説明】
【0125】
【図1】実施の形態にかかる検索システムの構成を示すブロック図である。
【図2】クラスタラベル記憶部のテーブル構成を示す図である。
【図3】シソーラス記憶部のテーブル構成を示す図である。
【図4】画面情報生成部が生成する画面情報の第1の例を示す図である。
【図5】実施の形態にかかる検索ナビゲーションサーバの検索処理の手順を示したフローチャートである。
【図6】クラスタリング部により生成されたクラスタの第1の例を示した図である。
【図7】クラスタリング部により生成されたクラスタの第2の例を示した図である。
【図8】画面情報生成部が生成する画面情報の第2の例を示す図である。
【図9】クラスタラベル記憶部に登録されるレコードの例を示す図である。
【図10】実施の形態にかかる検索ナビゲーションサーバのシソーラス構築処理の手順を示したフローチャートである。
【図11】検索ナビゲーションサーバのハードウェア構成を示した図である。
【符号の説明】
【0126】
100 検索ナビゲーションサーバ
101 制御部
102 入力受付部
103 検索部
104 クラスタリング部
105 ラベル生成部
106 順序設定部
107 画面情報生成部
108 選択受付部
109 併合部
110 通信処理部
111 シソーラス記憶部
112 構築部
113 確率算出部
114 クラスタラベル記憶部
115 登録部
121 関連度取得部
150 クライアント端末
151 操作処理部
152 表示処理部
153 通信処理部
160 文書管理サーバ
161 文書記憶部
1101 CPU
1102 ROM
1103 RAM
1104 通信I/F
1105 バス

【特許請求の範囲】
【請求項1】
利用者が情報を検索するために入力した検索条件を受け付ける入力受付部と、
前記検索条件で情報の検索を行う検索部と、
前記検索部により検索された情報を分類し、クラスタを生成するクラスタリング部と、
前記クラスタ毎に、当該クラスタを表現する文字列を示すクラスタラベルを生成するラベル生成部と、
前記クラスタ毎に、当該クラスタを表す前記クラスタラベルと、当該クラスタに分類された前記情報と、が記載されている画面情報を生成し、前記利用者に提示する画面情報生成部と、
前記画面情報に示された前記クラスタラベルの選択を受け付ける選択受付部と、
前記選択受付部が前記クラスタラベルの選択を複数受け付けた場合、複数の当該クラスタラベルで示される複数のクラスタを一つのクラスタに併合する併合部と、を備え、
前記クラスタリング部は、併合される度に、さらに前記併合部に併合された前記クラスタを分類して、新たなクラスタを生成し、
前記ラベル生成部は、さらに、新たな前記クラスタを表現する、新たなクラスタラベルを生成し、
前記画面情報生成部は、さらに、新たな前記クラスタラベルが記載されている、新たな画面情報を生成し、前記利用者に提示すること、
を特徴とする検索ナビゲーション装置。
【請求項2】
文字列と、当該文字列から類推される他の文字列と、類推が行われる確率値と、を対応付けて記憶する類推記憶部と、
前記選択受付部が前回選択を受け付けた前記クラスタラベルと、前記クラスタリング部により今回生成された前記クラスタの前記クラスタラベルと、前記類推記憶部と、に基づいて、今回生成された前記クラスタ毎に前記選択受付部が今回選択を受け付ける選択確率を算出する確率算出部と、
前記クラスタ毎の前記選択確率に従って、前記クラスタリング部により今回生成されたクラスタを前記画面情報上に配置する順序を設定する順序設定部と、をさらに備え、
前記画面情報生成部は、前記クラスタの前記配置する順序に従って、当該クラスタの前記クラスタラベルと前記情報とが記載される前記画面情報を生成すること、
を特徴とする請求項1に記載の検索ナビゲーション装置。
【請求項3】
前記選択受付部が選択を受け付けた第1のクラスタラベルと、当該第1のクラスタラベルの次に前記選択受付部が選択を受け付けた第2のクラスタラベルと、を対応付けて記憶するクラスタラベル記憶部と、
前記クラスタラベル記憶部に基づいて、前記第1のクラスタラベルの次に前記第2のクラスタラベルが選択される確率を、前記第1のクラスタラベルから前記第2のクラスタラベルが類推される確率として確率値を算出する確率算出部と、
前記第1のクラスタラベルと、前記第2のクラスタラベルと、前記確率値と、を対応付けて前記類推記憶部を構築する構築部と、
をさらに備えることを特徴とする請求項2に記載の検索ナビゲーション装置。
【請求項4】
前記クラスタラベル記憶部は、さらに、前記第1のクラスタラベルと前記第2のクラスタラベルとの間の関連度を対応付けて記憶し、
前記確率算出部は、前記第1のクラスタラベルの次に前記第2のクラスタラベルが選択される確率、及び前記クラスタラベル記憶部において前記第1のクラスタラベル及び前記第2のクラスタラベルと対応付けられた前記関連度に基づいて、前記確率値を算出すること、
を特徴とする請求項3に記載の検索ナビゲーション装置。
【請求項5】
前記ラベル生成部は、さらに、前記クラスタラベル毎に、前記クラスタラベルとして適切か否かを示す妥当値を出力し、
前記クラスタラベル毎の前記妥当値に基づいて、前記第1のクラスタラベルと前記第2のクラスタラベルとの間の関連度を取得する関連度取得部と、
前記クラスタラベル記憶部に前記第1のクラスタラベルと前記第2のクラスタラベルと前記関連度とを対応付けて登録する登録部と、
をさらに備えることを特徴とする請求項4に記載の検索ナビゲーション装置。
【請求項6】
前記クラスタラベル記憶部は、さらに、前記第1のクラスタラベルと前記第2のクラスタラベルとの対応関係の登録時の時刻情報を対応付けて記憶し、
前記確率算出部は、前記クラスタラベル記憶部において前記第1のクラスタラベルと前記第2のクラスタラベルと対応付けられた前記時刻情報に基づいて、前記第1のクラスタラベルから、前記第2のクラスタラベルの類推が行われる確率値を算出すること、
を特徴とする請求項3に記載の検索ナビゲーション装置。
【請求項7】
入力受付部が、利用者が情報を検索するために入力した検索条件の入力を受け付ける入力受付ステップと、
検索部が、前記検索条件で情報の検索を行う検索ステップと、
クラスタリング部が、前記検索ステップにより検索された情報を分類して、当該情報の群を示すクラスタを生成するクラスタリングステップと、
ラベル生成部が、前記クラスタ毎に、当該クラスタを表現する文字列を示すクラスタラベルを生成するラベル生成ステップと、
画面情報生成部が、前記クラスタ毎に、当該クラスタを表す前記クラスタラベルと、当該クラスタに分類された前記情報と、が記載されている画面情報を生成し、前記利用者に提示する画面情報生成ステップと、
選択受付部が、前記画面情報に示された前記クラスタラベルの選択を受け付ける選択受付ステップと、
前記選択受付ステップにより前記クラスタラベルの選択を複数受け付けた場合、併合部が、複数の当該クラスタラベルで示される複数のクラスタを一つのクラスタに併合する併合ステップと、を有し、
前記クラスタリングステップは、併合される度に、さらに前記併合ステップに併合された前記クラスタを分類して、新たなクラスタを生成し、
前記ラベル生成ステップは、さらに、新たな前記クラスタを表現する、新たなクラスタラベルを生成し、
前記画面情報生成ステップは、さらに、新たな前記クラスタラベルが記載されている、新たな画面情報を生成し、前記利用者に提示すること、
を特徴とする検索ナビゲーション方法。
【請求項8】
文字列と、当該文字列から類推される他の文字列と、類推が行われる確率値と、を対応付けて類推記憶部に記憶する類推記憶ステップと、
前記選択受付ステップにより前回選択を受け付けた前記クラスタラベルと、前記クラスタリングステップにより今回生成された前記クラスタの前記クラスタラベルと、前記類推記憶部と、に基づいて、今回生成された前記クラスタ毎に前記選択受付部が今回選択を受け付ける選択確率を算出する確率算出ステップと、
前記クラスタ毎の前記選択確率に従って、前記クラスタリングステップにより今回生成されたクラスタを前記画面情報上に配置する順序を設定する順序設定ステップと、をさらに有し、
前記画面情報生成ステップは、前記クラスタの前記配置する順序に従って、当該クラスタの前記クラスタラベルと前記情報とが記載される前記画面情報を生成すること、
を特徴とする請求項7に記載の検索ナビゲーション方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate