情報処理装置およびプログラム

【課題】検索条件との適合度に応じて検索された文書群を分類して検索結果を提供する情報処理装置およびプログラムを提供すること。
【解決手段】本情報処理装置１１０は、登録された各文書の索引データを格納する１以上の索引データ格納手段１３０と、登録された各文書から項目毎に得られた特徴語データを格納する各項目の特徴語データ格納手段１４２，１４４とを含む。本情報処理装置１１０は、さらに、検索要求にかかる検索条件に適合した適合文書を索引データから検索する検索手段１１４と、検索された適合文書各々を、所定の複数の項目の特徴語データを合成した合成特徴語データを用いて、適合文書間の類似度を計算し、分類する分類手段１２０と、検索要求に対応して、分類された適合文書を含む検索結果データを出力する出力手段１２２とを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報検索技術に関し、より詳細には、検索条件との適合度に応じて取得された文書群を分類して検索結果を提供する情報処理装置、および該情報処理装置を実現するためのプログラムに関する。
【背景技術】
【０００２】
従来、全文検索において、データベース内の文書毎にスコアを算出し、上記スコアに従ってランク付けして検索結果を提供する検索技術が知られている。例えば、Ｇｏｏｇｌｅ社が提供する検索エンジンでは、ＰａｇｅＲａｎｋ（登録商標）と呼ばれるウェブ・ページの重要度を決定するためのアルゴリズムを用いて、ウェブ・ページ間のリンク情報から検索語に対する文書のスコアが算出されている。上記アルゴリズムは、インターネット上のコンテンツを対象とした検索に対して効果的である。しかしながら、企業内の文書データに関しては、文書データ間に充分なリンク情報が存在しないことが多いため、上記リンク情報を利用したスコアの算出方法はあまり有効ではない。
【０００３】
組織内文書を対象としたエンタープライズ検索に好適に適用できる技術として、非特許文献１に開示される自然言語処理を利用したランキング検索技術が知られている。非特許文献１は、自然言語で表現された検索要求に対し、文書データベース中からその検索要求に適合する文書群を確率モデルに基づきランク付けして提供する技術を開示する。
【０００４】
一方、エンタープライズ検索では、オリジナルの文書のみが検索対象として登録されていることは少なく、各部署において複製された複製文書が登録されている場合や、バージョンが異なる改訂文書が登録されている場合があるなど、オリジナルから派生した派生文書が多数登録されている場合が多い。上記の場合に、ランキング検索を行うと、上記派生文書のスコアがほぼ同じ値になるので、スコア順でソートすると、上記派生文書が連続して表示され、目的の文書になかなかたどり着けないという問題があった。
【０００５】
情報検索の分野では、非特許文献２に開示されるような特徴語ベクトルを利用した文書クラスタリング技術も知られており、文書クラスタリング技術を適用して予め検索対象を分類し、検索結果にクラスタ毎の代表文書のみを表示させる技術も知られている。上記従来技術では、同じような内容を有する派生文書を分類して検索結果を表示できるようになるが、検索対象数が増加すると、分類のため文書間の類似度を計算する計算量が増大するため、現実的ではなかった。
【０００６】
クラスタリングの計算量を低減する技術として、特開２０１０−００９５７７号公報（特許文献１）が知られている。上記特許文献１の従来技術では、文書の適合度スコアに基づいて検索結果をグループ化し、計算対象を少なくした上で文書クラスタリング技術を適用することにより、クラスタリングの計算量を低減している。
【０００７】
ところで、検索対象となる文書は、通常、タイトル、要約、本文、作成者および作成日などの一定の構造を有している場合が多い。全文検索では、通常、タイトル、要約および本文の項目が検索対象となる。そして、上記タイトル、要約および本文すべてを対象とした索引ファイルを準備することにより、タイトル、要約および本文の少なくとも１つにヒットする文書を検索することが可能となる。
【０００８】
一方、タイトル、要約および本文のうち１つの項目のみを検索対象として、適切なランキング検索を可能とするためには、上記すべてを対象とした索引ファイルの他に、タイトル用索引ファイル、要約用索引ファイルおよび本文用索引ファイルというように、項目毎に索引ファイルを準備する必要がある。タイトル、要約および本文の任意の組み合わせを検索対象として検索可能とするためには、各組み合わせに対応した索引ファイルを用意する必要があり、２倍以上の記憶容量が必要となってしまう。
【発明の概要】
【発明が解決しようとする課題】
【０００９】
文書クラスタリングにおいても、同様に、すべての項目から計算した特徴語ベクトルを用いてクラスタリングを行いたい場合、本文、タイトルおよび要約の任意の組み合わせから計算した特徴語ベクトルを用いてクラスタリングを行いたい場合などが想定される。例えば、タイトルだけを検索対象とした場合でも、タイトル、本文および要約すべてから計算した特徴語ベクトルを用いてクラスタリングを行えると有用である。また、各項目に重み付けを行ってクラスタリングを行えると有用である。
【００１０】
しかしながら、上記従来技術の全文検索システムでは、上述した多様な検索およびクラスタリングを行うためには、検索およびクラスタリングの対象となる項目のあらゆる組み合わせに対応して、それぞれ索引ファイルおよび特徴語データベースを準備する必要があった。したがって、任意の組み合わせでの検索およびクラスタリングを実現しようとすると、膨大な記憶容量を必要とするという問題点があった。
【００１１】
本発明は、上記従来技術における不充分な点に鑑みてなされたものであり、本発明は、文書の項目毎の特徴語データを準備するだけで、項目の任意の組み合わせを対象として文書が分類された検索結果を提供できる情報処理装置、および該情報処理装置を実現するためのプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１２】
本発明は、上記課題を解決するために、以下の特徴を有する、複数の項目が含まれる文書を検索するための情報処理装置を提供する。本情報処理装置は、登録された各文書の索引データを格納する１以上の索引データ格納手段と、登録された各文書から項目毎に抽出された特徴語データを格納する各項目の特徴語データ格納手段とを含む。本情報処理装置は、さらに、検索要求にかかる検索条件に適合した適合文書を上記索引データから検索する検索手段と、上記適合文書各々を、所定の複数の項目の特徴語データを合成した合成特徴語データを用いて、適合文書間の類似度を計算し、分類する分類手段と、上記検索要求に対応して、分類された適合文書を含む検索結果データを出力する出力手段とを含む。
【発明の効果】
【００１３】
上記構成によれば、文書を構成する複数の項目のあらゆる組み合わせの特徴語ベクトル・データを必要とせずに、利用者が希望する項目の任意の組み合わせで、検索結果に含まれる文書を分類して整理することが可能となる。これにより、記憶容量が節約され、登録性能が向上する。
【図面の簡単な説明】
【００１４】
【図１】第１の実施形態の情報検索サーバが配置されるネットワーク環境の構成図。
【図２】第１の実施形態による情報検索サーバのハードウェア構成図。
【図３】第１の実施形態による情報検索サーバ上に実現される機能ブロック図。
【図４】第１の実施形態の情報検索サーバにおいて管理される文書データのデータ構造を示す図。
【図５】第１の実施形態による索引ファイルのデータ構造を模式的に示す図。
【図６】第１の実施形態によるタイトル特徴語ベクトル格納ファイルのデータ構造を示す図。
【図７】第１の実施形態による本文特徴語ベクトル格納ファイルのデータ構造を示す図。
【図８】第１の実施形態において索引ファイルおよび特徴語ベクトル格納ファイルが作成されるまでの処理の流れについて説明するフローチャート。
【図９】第１の実施形態による情報検索サーバが実行する検索処理のメインフローを示すフローチャート。
【図１０】スコア計算部により適合文書に対して適合度スコアが算出され、適合文書がスコア降順にソートされた様子を説明する図。
【図１１】第１の実施形態によるグループ分け部が実行する、グループ化処理を説明する図。
【図１２】第１の実施形態によるクラスタリング部が実行する、クラスタリング処理を示すフローチャート。
【図１３】第１の実施形態によるクラスタリング処理を説明する図。
【図１４】第１の実施形態による出力部が出力する、検索結果表示画面を一例として示す図。
【図１５】第２の実施形態による情報検索サーバ上に実現される機能ブロック図。
【図１６】第２の実施形態によるクラスタ間結合部が実行する、クラスタ結合処理を示すフローチャート。
【図１７】第２の実施形態によるクラスタ結合処理を説明する図。
【発明を実施するための形態】
【００１５】
以下、本発明の実施形態について説明するが、本発明の実施形態は、以下に説明する実施形態に限定されるものではない。なお、以下に説明する実施形態では、情報処理装置として、ネットワーク上に存在する種々の文書を検索対象として登録し、外部からの検索要求に応答して、検索条件に適合した文書群を検索する情報検索サーバを一例に説明する。
【００１６】
（１）全体構成
以下、図１を参照して、第１の実施形態による情報検索サーバが配置されるネットワーク環境の全体構成について説明する。図１は、第１の実施形態の情報検索サーバが配置されるネットワーク環境の構成図である。図１に示すネットワーク環境１００は、インターネットやローカル・エリア・ネットワークなどのネットワーク１０２と、それぞれネットワーク１０２に接続される情報検索サーバ１１０と、文書保管サーバ１５０と、利用者端末１６０とを含む。
【００１７】
文書保管サーバ１５０は、本実施形態において検索対象となる文書データを保管する装置である。文書保管サーバ１５０は、特に限定されるものではないが、例えば、ドキュメント管理システム（ＤＭＳ：Document Management System）、コンテンツ管理システム（ＣＭＳ：Content management System）、ファイル・サーバ、データベース管理システム、ウェブ・サーバなどとして構成される。
【００１８】
検索対象となる文書データとしては、特に限定されるものではないが、ＰＤＦ（Portable Document Format）などの共通形式や各プロプライエタリまたはオープンソースの各種ワードプロセッサ固有形式のドキュメント・ファイル、スプレッドシート・ファイル、プレゼンテーション・ファイル、ウェブ・ページ、テキスト・データなど、テキストが含まれる種々の形式の文書データを挙げることができる。
【００１９】
利用者端末１６０は、情報検索サーバ１１０を利用するクライアント端末である。利用者端末１６０は、ネットワーク１０２を介して情報検索サーバ１１０にアクセスし、情報検索サーバ１１０に対し検索要求を行い、取得した検索結果をディスプレイ装置などに画面表示させる。
【００２０】
情報検索サーバ１１０は、文書保管サーバ１５０内に保管される文書データを検索対象として索引付け登録する。なお、登録されている文書には、オリジナルの文書の他、オリジナル文書から複製された文書（以下、複製文書と参照する。）、オリジナル文書が改訂された文書（以下、改訂文書と参照する。）など、種々のオリジナル文書から派生した文書（以下、派生文書と参照する。）が含まれることがある。本情報検索サーバ１１０は、詳細を後述するように、利用者端末１６０からの検索要求に応答して、文書保管サーバ１５０内の複数文書の中から検索条件に適合する文書群を検索し、類似する派生文書が整理された状態で検索結果を作成し、利用者端末１６０に提供する。
【００２１】
なお、図１に示すネットワーク環境１００は、例示したものであり、情報検索サーバ１１０が置かれるネットワーク環境は、特に限定されるものではない。例えば、文書保管サーバ１５０および利用者端末１６０がそれぞれ複数あってもよいし、情報検索サーバ１１０自身が検索対象の文書を保管する態様では、文書保管サーバ１５０を省略してもよい。また、説明する実施形態では、外部クライアントに対し検索機能を提供する情報検索サーバを例示する。しかしながら、他の実施形態では、情報処理装置自身が保管する文書を検索対象として、情報処理装置自身が接続されるディスプレイに検索結果を提供する、デスクトップ検索機能を備えたパーソナル・コンピュータして構成することもできる。
【００２２】
（２）ハードウェア構成
以下、情報検索サーバ１１０のハードウェア構成について説明する。図２は、第１の実施形態による情報検索サーバのハードウェア構成図である。情報検索サーバ１１０は、マイクロプロセッサ・ユニット（ＭＰＵ）１２と、ＢＩＯＳ（Basic Input Output System）を格納する不揮発性メモリ１４と、ＭＰＵ１２によるプログラム処理を可能とする実行記憶空間を提供するメモリ１６とを含む。ＭＰＵ１２は、起動時に、不揮発性メモリ１４からＢＩＯＳを読み出し、システム診断を行う。
【００２３】
ＭＰＵ１２は、内部バス２２を介して記憶制御用インタフェース１８に接続され、ハードディスク２０が、ＭＰＵ１２からの入出力要求に応答してデータの書込または読み出しを実行する。記憶制御用インタフェース１８としては、ＡＴＡ（AT Attachment）、ＳＡＴＡ（Serial ATA）、ｅＳＡＴＡ（external ATA）などの規格により、ハードディスク２０の入出力を管理するインタフェースを使用することができる。ＭＰＵ１２は、また、内部バス２２を介して、ＵＳＢ、ＩＥＥＥ１３９４などのシリアルまたはパラレル・インタフェース２４を制御して、キーボード、マウスなどの入出力装置２６と通信し、ユーザからの入力を受け取ることができる。
【００２４】
情報検索サーバ１１０は、さらにＶＲＡＭ２８とグラフィック・チップ３０とを含むことができる。グラフィック・チップ３０は、ＭＰＵ１２からの指令に応答してビデオ信号を処理し、ディスプレイ装置３２へと表示させている。ＭＰＵ１２は、また、内部バス２２を介してネットワークＩ／Ｆ（ＮＩＣ；Network Interface Card）３４と接続する。これにより、情報検索サーバ１１０をネットワーク１０２に接続させている。
【００２５】
情報検索サーバ１１０は、不揮発性メモリ１４やハードディスク２０、その他ＮＶ−ＲＡＭ（図示せず）やＳＤカード（図示せず）などの記憶装置に格納されたプログラム（図示せず）を読み出し、メモリ１６のメモリ領域に展開する。これにより、情報検索サーバ１１０は、適切なオペレーティング・システム（ＯＳ）のもとで、後述する各機能手段および各処理を実現する。上記ＯＳとしては、Ｗｉｎｄｏｗｓ（登録商標）、ＵＮＩＸ（登録商標）またはＬＩＮＵＸ（登録商標）など、如何なるアーキテクチャを有するＯＳを採用することができる。情報検索サーバ１１０は、仮想マシンとして実現される実施形態では、適切なハイパーバイザまたはホストＯＳ上にゲストＯＳを稼働させて、後述する各機能手段および各処理を実現することができる。
【００２６】
なお、詳細な説明は割愛するが、本実施形態の文書保管サーバ１５０および利用者端末１６０についても、図２に示すハードウェア構成と同様の構成とすることができる。上記利用者端末１６０としては、パーソナル・コンピュータやワークステーションなどの汎用コンピュータ装置、および携帯電話やスマートフォン、タブレット端末、ＰＤＡ（Personal Digital Assistance）などの携帯情報端末を挙げることができる。
【００２７】
（３）機能構成
以下、図３〜図７を参照しながら、第１の実施形態の情報検索サーバ１１０が提供する検索機能について説明する。図３は、第１の実施形態による情報検索サーバ上に実現される機能ブロックを示す図である。図３には、検索サーバ１１０の他、利用者端末１６０が示されている。
【００２８】
情報検索サーバ１１０は、類似する派生文書を整理して検索結果を提供するための主な機能部として、検索要求受付部１１２と、文書検索部１１４と、スコア計算部１１６と、グループ分け部１１８と、クラスタリング部１２０と、出力部１２２とを含む。図３には、さらに、類似する派生文書を整理して検索結果を提供するための主なデータとして、情報検索サーバ１１０がアクセス可能な索引ファイル群１３０と、特徴語ベクトル格納ファイル群１４０とが示されている。
【００２９】
以下、まず、派生文書を整理して検索結果を提供するための各種データについて説明する。上記検索対象となる文書データは、全文データとして、タイトルおよび本文など複数の構造上の部分を含んで構成され得る。本実施形態では、この構造上の部分を「項目」と参照する。本実施形態においては、上記文書データは、文書データを構成する項目毎の全文データに分割され、該文書データに紐付けて管理される。
【００３０】
図４は、第１の実施形態の情報検索サーバにおいて管理される文書データのデータ構造を示す図である。なお、説明する実施形態では、便宜上、文書データは、タイトルおよび本文の２つの項目に分割されて管理されるものとして説明する。図４に示すように文書データは、文書を識別する文書識別子と、文書のタイトルの項目に対応するテキストと、文書の本文の項目に対応するテキストとからなるデータ構造の形式で管理される。各文書識別子は、図示しないが、文書保管サーバ１５０上の文書データの格納位置を示すＵＲＬなどポインタ情報に紐付けられる。
【００３１】
索引ファイル群１３０および特徴語ベクトル格納ファイル群１４０は、上述した文書データの管理構造に対応して、それぞれ、複数の索引ファイルおよび複数の特徴語ベクトル格納ファイルを含み構成される。説明する実施形態では、索引ファイル群１３０は、タイトル用の第１索引ファイル（以下、タイトル用索引ファイルと参照する。）１３２と、本文用の第２索引ファイル（以下、本文用索引ファイルと参照する。）１３４とを含む。特徴語ベクトル格納ファイル群１４０は、タイトル用の第１特徴語ベクトル格納ファイル（以下、タイトル用特徴語ベクトル格納ファイルと参照する。）１４２と、本文用の第２特徴語ベクトル格納ファイル（以下、本文用特徴語ベクトル格納ファイルと参照する。）１４４とを含む。
【００３２】
索引ファイル１３２，１３４は、それぞれ、項目毎の索引データを登録する。索引ファイル１３２，１３４は、文書検索を高速に行うことができるようなデータ構造を持ったファイルである。索引ファイル１３２，１３４は、文書保管サーバ１５０などに保管される文書データの全文データから予め作成され、文書検索部１１４が検索条件に該当する検索文書を検索する際に参照される。入力された文書の全文データは、まず、タイトルおよび本文の項目に分割され、各項目の全文データから、Ｎグラム方式または形態素解析方式などにより、単語が抽出されて、転置索引が作成される。
【００３３】
図５は、第１の実施形態による索引ファイルのデータ構造を模式的に示す図である。なお、図５は、本文用索引ファイル１３４を例示するが、タイトル用索引ファイル１３２についても、同様のデータ構造を採用することができる。図５に示す索引ファイル１３４は、転置方式の索引を有し、文書保管サーバ１５０に保管された文書データの本文（全文データ）から作成された転置索引（Inverted Index）が登録されている。
【００３４】
具体的には、索引ファイル１３４は、単語と、該単語が出現する文書頻度（ＤＦ：Document Frequency）とを対応付けて保持する（図５（Ａ））。索引ファイル１３４は、また、単語毎に、各単語が出現する文書の文書識別子と、該文書内での各単語の出現頻度を表す文書内頻度（ＴＦ：Term Frequency）とを対応付けて保持する（図５（Ｂ））。索引ファイル１３４は、さらに、文書識別子と、本文の全文データの文書長とを対応付けて保持することができる（図５（Ｃ））。
【００３５】
特徴語ベクトル格納ファイル１４２，１４４は、項目毎に、各文書を特徴付ける特徴語とその特徴語の重みを表す重み値とからなる特徴語ベクトルが格納されているファイルである。特徴語ベクトル格納ファイル１４２，１４４は、上述の索引ファイルと同様に、文書保管サーバ１５０などに保管される文書データから予め作成され、クラスタリング部１２０がクラスタリング処理を実行する際に参照される。
【００３６】
図６および図７は、それぞれ、第１の実施形態による特徴語ベクトル格納ファイルのデータ構造を示す図である。図６に示すタイトル用特徴語ベクトル格納ファイル１４２は、文書を識別する文書識別子と、該文書のタイトルの全文データから計算されたタイトル特徴語ベクトル・データとを含み構成される。タイトル特徴語ベクトル・データは、上記文書のタイトルに含まれる特徴語と、特徴語に割り当てられた重み値との１以上の組を含んで構成され、タイトル特徴語ベクトルを表現する。
【００３７】
図７に示す本文用特徴語ベクトル格納ファイル１４４も同様に、文書を識別する文書識別子と、該文書の本文テキストから計算された本文特徴語ベクトル・データとを含み構成される。本文特徴語ベクトル・データは、上記文書の本文に含まれる１以上の特徴語と、特徴語に割り当てられた重み値とを含んで構成され、本文特徴語ベクトルを表現する。
【００３８】
図６および図７に示すように、第１の実施形態では、文書データは、複数の項目により管理され、各文書について、項目毎に特徴語ベクトルが計算される。説明する実施形態では、索引ファイルおよび特徴語ベクトル格納ファイル共に、タイトルおよび本文の２つの項目に分割されるものとしたが、文書データの管理構造は、特に限定されるものではない。他の実施形態では、要約やコメントなど文書データのテキスト全体から切り出される他の項目についても、同様に分割して管理することができる。また、本実施形態は、項目毎の特徴語ベクトル格納ファイル１４２，１４４を設けることに特徴を有するが、索引ファイルが項目毎に分割されない態様においても適用することができる。
【００３９】
以下、再び図３を参照して、派生文書を整理して検索結果を提供するための機能部について説明する。上記検索要求受付部１１２は、利用者端末１６０からの検索要求を受け付ける手段である。検索要求受付部１１２は、利用者端末１６０から検索要求を受信すると、検索要求から検索条件を取得する。
【００４０】
文書検索部１１４は、上記抽出された検索条件を用いて全文検索を行い、該検索条件に適合した文書を検索する。文書検索部１１４は、より具体的には、検索条件から検索語を抽出し、索引ファイル群１３０内の所定の項目に対応する索引ファイル１３２，１３４を参照して、該検索語が含まれる文書を検索する。検索対象となる項目は、予め指定されており、指定された項目に対応する索引ファイルが用いられる。例えば、タイトルが検索対象に指定される場合は、文書検索部１１４は、タイトル用索引ファイル１３２を参照して全文検索を行う。上記検索対象の項目の指定は、利用者の発意により、例えば検索要求中に指定される。なお、文書検索部１１４は、本実施形態における検索手段を構成する。
【００４１】
スコア計算部１１６は、文書検索部１１４により検索された文書（以下、適合文書と参照する。）に対して、検索条件との適合度を表す適合度スコアを算出し、その適合度スコアによって適合文書をランク付ける。適応度スコアは、検索対象として指定された項目に対応する索引ファイル１３２，１３４を用いて算出される。上記適合文書は、例えば、文書の適合度スコアの降順にソートされる。なお、スコア計算については詳細を後述する。なお、スコア計算部１１６は、本実施形態におけるスコア計算手段を構成する。
【００４２】
グループ分け部１１８は、スコア計算部１１６により適合度スコアが計算された適合文書群を対象として、適合度スコアに応じてグループ分けを行う。スコア降順にソートされた適合文書において、前後の文書は、ある検索語を入力して得られたスコアが近接する文書であるのため、内容が似たような文書であると考えることができる。本実施形態では、この点に着目して、後述するクラスタリングの前処理として、適合文書のグループ分けを行う。なお、グループ分けについては詳細を後述する。なお、グループ分け部１１８は、本実施形態におけるグループ分け計算手段を構成する。
【００４３】
クラスタリング部１２０は、特徴語ベクトル格納ファイル群１４０内の、所定の項目に対応する特徴語ベクトル格納ファイル１４２，１４４を参照して、特徴語ベクトルを取得し、クラスタリング処理を実行する。より具体的には、クラスタリング部１２０は、所定の項目の組み合わせで複数の特徴語ベクトルを合成した合成特徴語ベクトルを用いて、適合文書間の類似度を計算し、該類似度が基準を満たすか否かに応じて適合文書を各文書クラスタに分類する。上記クラスタリング処理は、グループ分け部１１８によりグループ化されたグループ毎に、各グループ内の適合文書群を対象として行われる。
【００４４】
クラスタリング処理で用いる項目は、利用者の発意等により、上記スコア計算で指定された項目の指定とは独立に予め指定することができる。例えば、タイトルおよび本文が対象に指定される場合は、クラスタリング部１２０は、タイトル用および本文用の特徴語ベクトル格納ファイル１４２，１４４を参照してクラスタリング処理を行う。なお、本実施形態のクラスタリング処理は、複数の項目の特徴語ベクトルから合成される合成特徴語ベクトルを用いることを特徴としているが、本文のみまたはタイトルのみを対象に指定したクラスタリング・モードが存在することは妨げられない。クラスタリング処理については詳細を後述する。また、クラスタリング部１２０は、本実施形態における分類手段を構成する。
【００４５】
出力部１２２は、クラスタリング部１２０により分類された文書クラスタ毎に適合文書を整理し、スコア計算部１１６によって算出された適合文書毎の適合度を表示するための表示データを生成し、利用者端末１６０に出力する。出力部１２２は、情報検索サーバ１１０がウェブ・アプリケーション・サーバで実装される場合は、ＨＴＴＰ（HyperText Transfer Protocol）プロトコルにより、検索結果表示画面を記述するウェブ・ページを出力する。利用者端末１６０は、上記表示データを受信して、自身が備えるディスプレイ装置に検索結果表示画面を表示することができる。詳細は後述するが、上記検索結果表示画面においては、スコア降順にソートされ、クラスタごとの代表文書が検索結果として表示される。出力部１２２は、本実施形態における出力手段を構成する。
【００４６】
（４）索引ファイルおよび特徴語ベクトル格納ファイルの準備
以下、図８を参照しながら、索引ファイルおよび特徴語ベクトル格納ファイルが準備されるまでの処理について詳細を説明する。図８は、索引ファイルおよび特徴語ベクトル格納ファイルが作成されるまでの流れについて説明するフローチャートである。なお、図８に示す処理は、特定の項目に対する処理であり、文書を構成する項目毎に図８に示す処理が行われる。
【００４７】
図８に示す処理は、索引付け処理実行の契機となる管理者からのマニュアル指令やスケジュールされた日時の到来などに応答して、ステップＳ１００から開始される。ステップＳ１０１では、情報検索サーバ１１０は、入力された文書データの特定の項目の全文データから、Ｎグラム方式や形態素解析方式などにより、各単語に分割する。ステップＳ１０２では、情報検索サーバ１１０は、上記抽出された単語を検索語として検索できるように、索引ファイル１３２，１３４内に単語毎に、該単語が含まれる文書識別子を登録する。索引ファイル１３２，１３４内には、各単語について、単語の文書頻度（ＤＦ）および単語の出現文書毎の文書内頻度（ＴＦ）も付加される。
【００４８】
ステップＳ１０３では、情報検索サーバ１１０は、入力された文書データの特定の項目の全文データから、形態素解析方式などにより単語を抽出し、その単語の出現頻度などに基づいて、その文書を特徴付ける特徴語を抽出する。特徴語の抽出は、簡便には、文書内頻度（ＴＦ）が大きい単語から所定個数を選択することにより行うことができる。あるいは、特徴語の抽出は、ＴＦ−ＩＤＦ値のＩＤＦの代わりに形態素解析の生起コストを利用して、ＴＦ×（生起コスト）を計算し、その値の大きいものから選択することにより行うことができる。その他、特徴語は、単語からストップワードが捨てられて、適宜取捨選択が行われる。
【００４９】
ステップＳ１０４では、情報検索サーバ１１０は、入力文書の文書識別子をキーとして、上記抽出した各特徴語を重み付けして、特徴語とその重み値とを、特徴語ベクトル格納ファイルとして保存し、ステップＳ１０５で本処理を終了する。なお、特徴語ベクトルを構成する重み値は、図６および図７に示されるように、文書の特定の項目に特徴語が存在すれば、その特徴語の重み値を「１」に設定するような設定手法とすることができる。他の実施形態では、非特許文献２に開示されるように、予め定義された計算式を用いて算出することもできる。
【００５０】
（５）検索処理
図８に示した処理により、登録された文書が検索可能となる。以下、図９〜図１４を参照しながら、第１の実施形態による派生文書を整理して検索結果を提供する検索処理について、詳細を説明する。図９は、第１の実施形態による情報検索サーバ１１０が実行する検索処理のメインフローを示すフローチャートである。図９に示す処理は、検索要求受付部１１２が検索要求を受信したことに応答して、ステップＳ２００から開始される。ステップＳ２０１では、文書検索部１１４は、検索語が含まれる適合文書を、検索対象として指定された項目の索引ファイル１３２，１３４から検索し、適合文書の集合を取得する。
【００５１】
ステップＳ２０２では、スコア計算部１１６は、取得された各適合文書と検索条件との適合度を表す適合度スコアを算出し、検索文書を適合度スコアの降順にソートする。各適合文書の適合度スコアは、特に限定されるものではないが、文書における指定の項目に対して算出された部分スコアの合計値または最大値などとして計算することができる。項目の部分スコアは、例えば、下記式（１）または下記式（２）により算出することができる。
【００５２】
【数１】

【００５３】
上記式（１）および（２）中のＤ_ｊは、識別番号ｊで識別される文書を意味し、Ｑ_ｉは、識別番号ｉで識別される単語を意味する。上記式（１）および（２）中のスコアｓｃｏｒｅ_１およびｓｃｏｒｅ_２は、それぞれ、特定の項目について算出される文書Ｄ_ｊの単語Ｑ_ｉについての部分スコアを表す。上記式（１）および（２）中、ｔｆ_iｊは、文書Ｄ_jの特定項目における単語Ｑ_ｉの出現数、すなわち文書内頻度（ＴＦ）である。ｄｆ_iは、単語Ｑ_iを含む文書の数、すなわち文書頻度（ＤＦ）である。上記式（２）中、ｌ_ｊは、文書Ｄ_ｊの特定項目の文書長であり、Ｌは、平均文書長である。なお、検索条件中に検索語が複数ある場合は、上記ｓｃｏｒｅ（Ｄ_ｊ，Ｑ_ｉ）の検索語Ｑ_ｉにわたる合計値とすることができる。
【００５４】
上記式（１）において、部分スコアｓｃｏｒｅ（Ｄ_ｊ，Ｑ_ｉ）は、ＤＦの値が小さい程大きくなる。これは、ＤＦの値が小さい程、つまりその単語を含む文書の数が少ない程、特徴的な単語であるという考え方に基づく。部分スコアｓｃｏｒｅ（Ｄ_ｊ，Ｑ_ｉ）は、また、ＴＦの値が大きい程大きくなる。これは、ＴＦの値が大きい程、つまりその単語を数多く含む文書である程、検索条件に合致した文書であるという考え方に基づく。
【００５５】
タイトルおよび本文の両方が指定される場合は、上記ステップＳ２０２では、スコア計算部１１６は、図５を参照して説明したタイトル用索引ファイル１３２および本文用索引ファイル１３４を検索し、タイトルおよび本文それぞれの項目毎に、検索語Ｑ_ｉの各文書Ｄ_Ｊでの文書内頻度（ＴＦ）を取得する。また、スコア計算部１１６は、索引ファイル１３２，１３４を参照して、項目毎に、検索語Ｑ_ｉのＤＦを取得する。上記式（２）を用いる場合は、スコア計算部１１６は、さらに、図５に示した索引ファイル１３２，１３４を検索して、項目毎に、各文書Ｄ_ｊの特定項目の文書長ｌ_ｊを取得する。スコア計算部１１６は、上記式（１）または（２）を用いて算出された各項目の部分スコアの合計値または最大値を計算し、得られた合計値または最大値を適合度スコアとする。図１０は、スコア計算部１１６により適合文書に対して適合度スコアが算出され、スコア降順にソートされた様子を示す図である。
【００５６】
再び図９を参照すると、ステップＳ２０２で示した適合度スコアの算出およびソートが完了すると、ステップＳ２０３へ処理が進められる。ステップＳ２０３では、グループ分け部１１８は、スコア計算部１１６がスコアリングした適合文書を対象に、適合度スコアに応じて、後述するクラスタリング処理の前処理としてグループ化処理を実行する。
【００５７】
図１０を再度参照すると、スコア降順（文書識別子１，４，１０，２の順）にソートされた適合文書は、ある検索語を入力して得られた適合度スコアが近い文書であるので、その内容は類似する文書であると考えられる。そこで、グループ分け部１１８は、適合度スコアを一定の範囲で区切って、グループ分けを行う。例えば、適合度スコア値のとり得る値が０以上１未満の範囲である場合、グループ分け部１１８は、適合度スコア値が０以上０．１未満のもの、０．１以上０．２未満のもの…０．９以上１未満のもの、といったように１０区分のグループに分類することができる。
【００５８】
図１１は、第１の実施形態によるグループ化処理を説明する図であり、図１０に示すソート結果に対してグループ分けを行った結果を示す。図１１（Ａ）に示す例では、適合度スコア順にソートされた検索結果の上位４件（文書識別子が「１」，「４」，「１０」，「２」である適合文書を含む。）がグループＡに分けられ、中位４件（文書識別子が「５」，「６」，「７」，「３」である適合文書を含む。）がグループＢに分けられている。図１１（Ｂ）は、各グループの管理情報を示しており、各グループは、所属する文書識別子を要素とする配列で管理される。
【００５９】
また、上記グループ化の変形例の実施形態として、グループ化の精度を高めるため、下記式（３）により計算される平均変化率ΔＳを用いることもできる。下記式（３）中、Ｓ_ｉは結果のi番目の適合度スコアであり、下記式（３）中、Ｍは検索結果件数である。この変形例の実施形態では、下記式（３）で算出される平均変化率Δよりも大きくスコアが変動している箇所で、グループを区切ることができる。
【００６０】
【数２】

【００６１】
ステップＳ２０３で示したグループ化処理が終了すると、ステップＳ２０４へ処理が進められる。ステップＳ２０４では、クラスタリング部１２０は、各適合文書の文書識別子をキーとして、各特徴語と各特徴語の重み値とを取得し、ステップＳ２０３でグループ分けされたグループ毎に、そのグループ内の適合文書群を対象として、図１２を参照して説明するクラスタリング処理を実行する。
【００６２】
図１２は、第１の実施形態によるクラスタリング部１２０が実行するクラスタリング処理を示すフローチャートである。なお、図１２は、クラスタリングの対象として、タイトルおよび本文の両方の項目が指定された場合を例示している。図１２に示す処理は、図９に示すステップＳ２０４で呼び出されて、ステップＳ３００から開始される。
【００６３】
ステップＳ３０１では、クラスタリング部１２０は、図９で示したステップＳ２０３でグループ分けされたグループのうち、未処理のグループが存在するか否かを判定する。ステップＳ３０１で、未処理のグループが存在すると判定された場合（ＹＥＳ）は、ステップＳ３０２へ処理が分岐される。
【００６４】
ステップＳ３０２では、クラスタリング部１２０は、処理対象とする未処理のグループに含まれる適合文書の文書識別子を取り出す。ステップＳ３０３では、クラスタリング部１２０は、タイトル特徴語ベクトル格納ファイル１４２および本文特徴語ベクトル格納ファイル１４４それぞれから、当該グループに含まれる各適合文書について、文書識別子をキーとしてタイトル特徴語ベクトルおよび本文特徴語ベクトルを取り出す。ステップＳ３０４では、クラスタリング部１２０は、当該グループに含まれる各適合文書について、得られたタイトル特徴語ベクトルおよび本文特徴語ベクトルを合成し、合成特徴語ベクトルを算出する。
【００６５】
特徴語ベクトルの合成手法としては、複数の特徴語ベクトルいずれかに存在する特徴語を合成特徴語ベクトルの特徴語として含ませる手法を挙げることができる。以下、タイトル特徴語ベクトルおよび本文特徴語ベクトルの合成手法の一例を説明する。図６における文書識別子が「１」である文書のタイトル特徴語ベクトルｄｔ１（＝｛（全文，１），（検索，１），（システム，１）｝と、図７における文書識別子が「１」である文書の本文特徴語ベクトルｄｈ１（＝｛（全文，１），（検索，１），（転置，１），（スコア，１）｝とを上記手法で合成すると、合成語特徴ベクトルｄ１（＝｛（全文，１），（検索，１）,（システム，１），（転置，１），（スコア，１）｝）が得られる。同様に、図６および図７における文書識別子が「２」である文書のタイトル特徴語ベクトルｄｔ２，ｄｈ２を上記手法で合成すると、合成語特徴ベクトルｄ２（＝｛（テキスト，１），（マイニング，１），（全文，１），（データ，１），（高速，１）｝）が得られる。
【００６６】
ステップＳ３０５では、クラスタリング部１２０は、得られた各適合文書の合成特徴語ベクトルから適合文書間の類似度を算出して、各適合文書を文書クラスタに分類する。文書間の類似度は、類似度算出にかかる２つの適合文書において、合成特徴ベクトル間のなす角の余弦またはユークリッド距離によって好適に計算することができる。なお、合成特徴語ベクトルが正規化されている場合は、余弦尺度もユークリッド距離も同一の結果を与えるが、説明する実施形態では、合成特徴ベクトルの余弦尺度で類似度を算出するものとする。合成特徴ベクトル間のなす角の余弦は、ｊ番目の文書Ｄ_ｊの特徴語ベクトルが、特徴語Ｑ_ｉ毎の重みｗ_ｊｉ（ｉ＝１，・・・，Ｍ：Ｍは異なり数（特徴語数））から構成されるベクトル（ｗ_ｊ１，ｗ_ｊ２，ｗ_ｊ３，…_ｗｊＭ）^Ｔで表されるとして、下記式（４）によって算出できることができる。
【００６７】
【数３】

【００６８】
上記文書識別子「１」の合成語特徴ベクトルｄ１と、文書識別子「２」の合成語特徴ベクトルｄ２との間の類似度は、これら２つの合成特徴語ベクトルｄ１，ｄ２のなす角の余弦で求めることができる。上記式（４）を用いてベクトルｄ１，ｄ２とのなす角の余弦Ｃ（１，２）を計算すると、０．２０が得られる。同様に、上記文書識別子「１」の合成語特徴ベクトルｄ１と、文書識別子「１０」の合成語特徴ベクトルｄ１０との間のなす角の余弦Ｃ（１，１０）を計算すると、０．８０が得られる。
【００６９】
上記なす角の余弦が大きいほど、２つの特徴語ベクトルが類似しているため、算出された類似度が基準を満たすか否かに応じて適合文書を文書クラスタに分類することができる。例えば、基準値０．７以上の文書が同一文書クラスタに分類されるとして、各適合文書を各文書クラスタに分類することができる。上記の例では、図１３に示すように上記文書識別子「１」の文書と上記文書識別子「１０」の文書とが同一の文書クラスタに分類されることになる。
【００７０】
ステップＳ３０６では、クラスタリング部１２０は、得られた各適合文書に対し、文書クラスタを識別する文書クラスタ識別子を付与し、ステップＳ３０１へ戻り、次のグループの処理を移す。図１３は、第１の実施形態によるクラスタリング処理を説明する図であり、図１１に示したグループ化結果に対してクラスタリング処理を行った結果を示す。
【００７１】
なお、説明する実施形態では、複数の特徴語ベクトルの合成手法として、いずれかのベクトルに存在する特徴語を合成特徴語ベクトルに含ませるという方法を採用した。しかしながら、複数の特徴語ベクトルの合成手法は、上記手法に限定されるものではない。
【００７２】
他の実施形態では、タイトル特徴語ベクトルと、本文特徴語ベクトルとを合成する際に、共通の特徴語が存在した場合に、該共通語の重み値を増加させることができる。より具体的には、共通語の重み値の合計値を合成特徴語ベクトルにおけるその特徴語の重み値とすることができる。例えば、図６におけるタイトル特徴語ベクトルｄｔ１（＝｛（全文，１），（検索，１），（システム，１）｝と、図７における本文特徴語ベクトルｄｈ１（＝｛（全文，１），（検索，１），（転置，１），（スコア，１）｝とを上記手法で合成すると、合成語特徴ベクトルｄ１（＝｛（全文，２），（検索，２）,（システム，１），（転置，１），（スコア，１）｝）が得られることになる。
【００７３】
さらに他の実施形態では、複数の項目の特徴語ベクトルを合成する際に、項目に重み値を設定して合成することができる。例えば、タイトルに重み値「２」を設定すると、タイトル特徴語ベクトルに存在する特徴語の重み値が２倍にされ、合計される。例えば図６におけるタイトル特徴語ベクトルｄｔ１と、図７における本文特徴語ベクトルｄｈ１とからは、合成語特徴ベクトルｄ１（＝｛（全文，３），（検索，３）,（システム，２），（転置，１），（スコア，１）｝）が得られることになる。
【００７４】
再び図１２を参照すると、ステップＳ３０１で、図９のステップＳ２０３でグループ分けされたグループすべてに対する処理が完了し、未処理のグループが存在しないと判定された場合（ＮＯ）は、ステップＳ３０７へ処理を分岐させ、ステップＳ３０７で本処理を終了し、図９に示す処理に戻す。
【００７５】
ここで、再び図９を参照する。図１２を参照して説明したクラスタリング処理が完了すると、ステップＳ２０４からステップＳ２０５へ処理が進められる。ステップＳ２０５では、出力部１２２は、分類された文書クラスタ毎に適合文書が整理された検索結果を表示するための表示データを生成し、利用者端末１６０に出力する。ステップＳ２０６では、情報検索サーバ１１０は、検索要求に応答した本処理を終了する。上記検索結果においては、検索結果に含まれる複製文書や改訂文書などの派生文書が整理され、各派生文書群の代表文書がメインとして検索結果に表示される。
【００７６】
図１４は、第１の実施形態による出力部が出力する検索結果を表す検索結果表示画面を一例として示す図である。図１４に示す検索結果表示画面１７０は、利用者端末１６０が表示データを受信して、例えばブラウザ上に表示される。検索結果表示画面１７０は、検索条件が入力されるテキストボックス１７２と、検索結果を一覧表示する検索結果テーブル１７４とを含む。検索結果テーブル１７４の各レコード１７４ａ〜１７４ｄは、スコア１７８降順にソートされ、文書クラスタごとの代表文書１７６を表示している。上記代表文書は、例えば、適合度スコアが最も大きい先頭の適合文書としたり、更新日時が最も古い適合文書としたり、または文書クラスタの重心または中心に近接する適合文書としたりすることができる。
【００７７】
また、図１４に示す検索結果表示画面において、文書クラスタ識別子「３」の文書クラスタには、文書識別子が「５」，「６」，「３」である３つの文書が属しており、文書識別子「６」、「３」の文書は、代表文書である文書識別子「４」の文書に紐付けられて参照可能になっている。検索結果テーブル１７４内の展開記号１８０がクリックされると、対応する文書クラスタに属する各適合文書が展開表示される。
【００７８】
上述した第１の実施形態によれば、項目毎の特徴語ベクトル格納ファイルを準備するだけで、利用者が希望する項目の任意の組み合わせで、適合文書をクラスタリングした上で検索結果を提供することができる。したがって、複数の項目すべての組み合わせによる特徴語ベクトル格納ファイルを準備する必要がなく、あらゆる項目の組み合わせを準備する場合と比較して、記憶容量を節約し、登録性能を向上させることができる。
【００７９】
さらに、上記第１の実施形態によれば、上記クラスタリング処理は、グループ化により計算対象が削減された上で行われる。このため、適合文書を効率的に分類することが可能となり、ひいては、検索結果を迅速に提供することが可能となる。
【００８０】
（６）第２の実施形態
以下、図１５〜図１７を参照しながら、第２の実施形態による情報検索サーバが提供する全文検索機能について説明する。図１５は、第２の実施形態による情報検索サーバ上に実現される機能ブロックを示す図である。なお、第２の実施形態は、ネットワーク環境および情報検索サーバのハードウェア構成を含めて、第１の実施形態と同様の構成を備えるため、以下、相違点を中心に説明する。
【００８１】
第２の実施形態の情報検索サーバ２１０は、検索結果を提供するための主な機能部として、第１の実施形態と同様の機能部２１２〜２２２に加えて、クラスタ間結合部２２４を備える。図１５には、第１の実施形態と同様に、類似する派生文書を整理して検索結果を提供するための主なデータとして、索引ファイル群２３０と、特徴語ベクトル格納ファイル群２４０とが示されている。なお、索引ファイルおよび特徴語ベクトル格納ファイルについては、第１の実施形態と同様であるため、説明は割愛する。
【００８２】
検索要求受付部２１２は、第１の実施形態と同様に、利用者端末２６０からの検索要求を受け付ける。文書検索部２１４は、同様に、検索条件から検索語を抽出し、指定の項目に対応する索引ファイル２３２，２３４を参照して、該検索語が含まれる文書を検索する。スコア計算部２１６も同様に、検索された適合文書に対して、検索条件との適合度を表す適合度スコアを算出してランク付けを行う。
【００８３】
グループ分け部２１８も同様に、適合度スコアが計算された適合文書群を対象として、適合度スコアに応じてグループ分けを行う。クラスタリング部２２０は、所定の項目に対応する特徴語ベクトル格納ファイル２４２，２４４を参照して、合成特徴語ベクトルを計算し、グループ毎に、適合文書間の類似度を計算して、該類似度が基準を満たすか否かに応じて適合文書を各文書クラスタに分類する。
【００８４】
本実施形態のクラスタ間結合部２２４は、上述したクラスタリング処理と同様の手法により、合成特徴語ベクトルを用いて、文書クラスタ間の類似度を計算して、該類似度が基準を満たす文書クラスタ同士を結合する。上記文書クラスタ間の類似度は、分類された各文書クラスタに属する代表文書の合成特徴語データを用いて計算される。クラスタ間結合部２２４は、本実施形態における結合手段を構成する。
【００８５】
出力部２２２は、第１の実施形態と同様に、検索結果を示す表示データを生成し、利用者端末２６０に出力する。上記検索結果においては、クラスタリング処理部２２０により分類され、その後、クラスタ間結合部２２４により適宜結合されて構成された文書クラスタ毎に、適合文書が整理されている。
【００８６】
図１６は、第２の実施形態によるクラスタ間結合部２２４が実行するクラスタ結合処理を示すフローチャートである。なお、図１６は、クラスタリングの対象として、タイトルおよび本文の両方の項目が指定された場合を例示している。図１６に示す処理は、図９に示すステップＳ２０４の処理が終了した後に呼び出されて、ステップＳ４００から開始される。
【００８７】
ステップＳ４０１では、クラスタ間結合部２２４は、各文書クラスタ各々に属する適合文書の文書識別子を取り出す。ステップＳ４０２では、クラスタ間結合２２４は、タイトル特徴語ベクトル格納ファイル２４２および本文特徴語ベクトル格納ファイル２４４それぞれから、各代表文書について、文書識別子をキーとしてタイトル特徴語ベクトルおよび本文特徴語ベクトルを取り出す。
【００８８】
ステップＳ４０３では、クラスタ間結合部２２４は、各文書クラスタを代表する各代表文書について、得られたタイトル特徴語ベクトルおよび本文特徴語ベクトルを合成し、合成特徴語ベクトルを算出する。特徴語ベクトルの合成手法としては、上記クラスタリング処理と同様に、複数の特徴語ベクトルいずれかに存在する特徴語を合成特徴語ベクトルの特徴語として含ませる手法などを採用することができる。
【００８９】
以下、タイトル特徴語ベクトルおよび本文特徴語ベクトルの合成手法の一例を説明する。ここでは、クラスタ結合処理の前に行われた図９に示すステップＳ２０４の処理により、図１３に示す結果が得られたとする。クラスタ識別子「４」の文書クラスタを代表する代表文書が文書識別子「７」の文書であるとすると、合成特徴語ベクトルｄ７（＝｛（テキスト，１），（マイニング，１），（全文，１），（データ，１），（索引，１）｝が得られる。
【００９０】
ステップＳ４０４では、クラスタ間結合部２２４は、得られた各文書クラスタの代表文書の合成特徴語ベクトルから文書クラスタ間の類似度を算出する。文書クラスタ間の類似度は、文書間の類似度と同様に、２つの代表文書において、合成特徴ベクトル間のなす角の余弦またはユークリッド距離によって好適に計算することができる。説明する実施形態では、合成特徴ベクトルの余弦尺度で類似度を算出するものとする。文書識別子が「２」である文書の合成語特徴ベクトルｄ２（＝｛（テキスト，１），（マイニング，１），（全文，１），（データ，１），（高速，１）｝）が与えられると、上記文書識別子「７」の合成特徴語ベクトルｄ７と文書２のものとのなす角の余弦Ｃ（２，７）を計算すると、０．８０が得られる。
【００９１】
ステップＳ４０５では、クラスタ間結合部２２４は、上記文書クラスタ間に計算された類似度のうち、基準以上の類似度を有するものがあるか否かを判定する。ステップＳ４０５で、基準以上の類似度を有するものがあると判定された場合（ＹＥＳ）は、ステップＳ４０６へ処理を進める。ステップＳ４０６では、クラスタ間結合部２２４は、基準を満たし代表文書が類似する文書クラスタ同士を結合する。ステップＳ４０７では、クラスタ間結合部２２４は、各文書クラスタ内の適合文書各々に対し、文書クラスタを識別する文書クラスタ識別子を再度付与し直す。
【００９２】
図１７は、第２の実施形態によるクラスタ結合処理を説明する図であり、図１３に示したクラスタリング結果に対して、クラスタ結合処理を行った結果を示す。図１７に示すように、文書クラスタ間の類似度が０．７以上を基準とすると、図１３におけるクラスタ識別子「４」，「２」の文書クラスタが結合される。その結果、図１７に示すように、文書識別子「４」，「２」「７」を含む結合された文書クラスタにクラスタ識別子「２」がふり直される。
【００９３】
上述した第２の実施形態によれば、上記グループ毎にクラスタリングされた文書クラスタを、グループにまたがって、類似度が基準を満たすもの同士結合することにより、少ない計算量で、第２の実施形態に比較してより高い精度で、検索結果に含まれる文書を分類することが可能となる。
【００９４】
以上説明したように、上述までの実施形態によれば、文書の項目毎の特徴語データを準備するだけで、項目の任意の組み合わせを対象として文書が分類された検索結果を提供できる情報処理装置、および該情報処理装置を実現するためのプログラムを提供することができる。なお、上記情報処理装置は、データベース管理システムや文書管理システム、エンタープライズ情報検索システムなどに適用することができる。
【００９５】
なお、上記機能部は、アセンブラ、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、などのレガシープログラミング言語やオブジェクト指向プログラミング言語などで記述されたコンピュータ実行可能なプログラムにより実現でき、ＲＯＭ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、フラッシュメモリ、フレキシブルディスク、ＣＤ−ＲＯＭ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ブルーレイディスク、ＳＤカード、ＭＯなど装置可読な記録媒体に格納して、あるいは電気通信回線を通じて頒布することができる。
【００９６】
これまで本発明の実施形態について説明してきたが、本発明の実施形態は上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【００９７】
１２…ＭＰＵ、１４…ＢＩＯＳ、１６…メモリ、１８…記憶制御用インタフェース、２０…ハードディスク、２２…バス、２４…インタフェース、２６…入出力装置、２８…ＶＲＡＭ、３０…グラフィック・チップ、３２…ディスプレイ装置、３４…ネットワークＩ/Ｆ、１００…ネットワーク環境、１０２…ネットワーク、１１０，２１０…情報検索サーバ、１１２，２１２…検索要求受付部、１１４，２１４…文書検索部、１１６，２１６…スコア計算部、１１８，２１８…グループ分け部、１２０、２２０…クラスタリング部、１２２，２２２…出力部、１３０，２３０…索引ファイル群、１３２，２３２…タイトル用索引ファイル、１３４，２３４…本文用索引ファイル、１４０，２４０…特徴語ベクトル格納ファイル群、１４２，２４２…タイトル用特徴語ベクトル格納ファイル、１４４，２４４…本文用特徴語ベクトル格納ファイル、１５０…文書保管サーバ、１６０，２６０…利用者端末、１７０…検索結果表示画面、１７２…テキストボックス、１７４…検索テーブル、１７６…代表文書、１７８…スコア、１８０…展開記号、２２４…クラスタ間結合部
【先行技術文献】
【特許文献】
【００９８】
【特許文献１】特開２０１０−００９５７７号公報
【非特許文献】
【００９９】
【非特許文献１】真野博子，伊藤秀夫，小川泰嗣、「文書検索におけるランキング検索技術」、リコーテクニカルレポート、株式会社リコー・研究開発本部、平成15年12月1日、No.29、p.21-30
【非特許文献２】岸田和明、「文書クラスタリングの技法：文献レビューTechniques of Document Clustering: A Review」、Library and Information Science、三田図書館・情報学会、No.49、2003、p33-75

【特許請求の範囲】
【請求項１】
複数の項目が含まれる文書を検索するための情報処理装置であって、
登録された各文書の索引データを格納する１以上の索引データ格納手段と、
登録された各文書から項目毎に得られた特徴語データを格納する各項目の特徴語データ格納手段と、
検索要求にかかる検索条件に適合した適合文書を前記索引データから検索する検索手段と、
前記適合文書各々を、所定の複数の項目の特徴語データを合成した合成特徴語データを用いて、前記適合文書間の類似度を計算し、分類する分類手段と、
前記検索要求に対応して、分類された前記適合文書を含む検索結果データを出力する出力手段と
を含む、情報処理装置。
【請求項２】
前記情報処理装置は、文書に対し、前記検索条件に対する適合度を表すスコアを計算するスコア計算手段と、前記適合文書各々をスコアに応じてグループ分けするグループ分け計算手段とをさらに含み、
前記分類手段は、分けられたグループ内で前記適合文書間の類似度を計算する、請求項１に記載の情報処理装置。
【請求項３】
前記情報処理装置は、分類された各文書クラスタに属する代表文書の合成特徴語データを用いて、該文書クラスタ間の類似度を計算し、該類似度が基準を満たす文書クラスタ同士を結合する結合手段をさらに含む、請求項１または２に記載の情報処理装置。
【請求項４】
前記分類手段は、前記所定の複数の項目の特徴語データ間に共通語がある場合には、前記合成特徴語データ内の該共通語の重み値を増加させる、請求項１〜３のいずれか１項に記載の情報処理装置。
【請求項５】
前記分類手段は、前記所定の複数の項目の特徴語データを指定の重み付けで合成する、請求項１〜４のいずれか１項に記載の情報処理装置。
【請求項６】
前記１以上の索引データ格納手段は、登録された各文書の項目毎の索引データを格納する各項目の索引データ格納手段を含み、前記スコア計算手段は、指定された１以上の項目の索引データから得られる部分スコアを用いて前記スコアを計算し、
前記合成特徴語データを合成するための前記所定の複数の項目は、スコア計算での前記１以上の項目の指定とは独立に指定される、請求項２に記載の情報処理装置。
【請求項７】
複数の項目が含まれる文書を検索するための情報処理装置を実現するためのコンピュータ実行可能なプラグラムであって、コンピュータを、
登録された各文書の索引データを格納する１以上の索引データ格納手段、
登録された各文書から項目毎に得られた特徴語データを格納する各項目の特徴語データ格納手段、
検索要求にかかる検索条件に適合する適合文書を前記索引データから検索する検索手段、
前記適合文書各々を、所定の複数の項目の特徴語データを合成した合成特徴語データを用いて、適合文書間の類似度を計算し、分類する分類手段、および
前記検索要求に対応して、分類された前記適合文書を含む検索結果データを出力する出力手段
として機能させるためのプログラム。
【請求項８】
前記プログラムは、コンピュータを、文書に対し、前記検索条件に対する適合度を表すスコアを計算するスコア計算手段、および前記適合文書各々をスコアに応じてグループ分けするグループ分け計算手段としてさらに機能させ、
前記分類手段は、分けられたグループ内で前記適合文書間の類似度を計算する、請求項７に記載のプログラム。

【図１】