説明

文書インデックス作成装置

【課題】文書ファイルの記述内容に可及的に即した文書インデックスを作成する。
【解決手段】ネットワークシステムSは、文書データベース10と、この文書データベース10に対して所定の検索アルゴリズムを用いて検索処理を行う検索エンジン20と、ユーザが利用する端末装置30と、文書検索用の文書インデックスの作成処理を行うデータ処理装置40とを含む。データ処理装置40は、一の文書ファイルの文書データを複数の段落に区分すると共に、注目単語Aを含む第1単位文章(段落)と、注目単語Aを含まない第2単位文章(段落)とに区別する。そして、第1単位文章と第2単位文章との文章関連度を評価し、第2単位文章の段落重み値を求める。注目単語Aの出現頻度に基づく基礎重み値に、前記段落重み値を加算することで、当該注目単語Aの重み値を設定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の文書ファイルを蓄積する文書データベースに対して文書検索処理が行われる際に用いられる文書インデックスの作成装置に関する。
【背景技術】
【0002】
例えばインターネットのようなワールドワイドな通信ネットワーク若しくは企業内の社内ネットワークのようなローカル通信ネットワーク上において、多数の文書ファイルを蓄積する文書データベースに対して端末機からクエリを入力して検索処理を実行させ、所望の文書ファイルを抽出する検索システムが汎用されている。このような検索システムにおいては、端末機から入力されたクエリを解析して作成される検索インデックスと、蓄積された文書ファイルの各々について予め作成された文書インデックスとを、所定の検索アルゴリズムを用いて照合させて、類似度の高い文書ファイルをヒット文書として抽出する手法が取られている。
【0003】
上記文書インデックスは、通常は単語で構成される。そして、検索精度を上げるため、特定の単語について重み付けを高くし、そのような特定の単語を含む文書ファイルが検索において優先的に(ランキング上位として)抽出されるように工夫されている。この重み付け付与方法の一つとして、文書ファイル中において出現頻度が高い単語について、高い重み付けを付与するという手法がある。また、他の文書ファイルからリンク(ブックマーク)されている数が多いほど重要度が高い文書ファイルとみなし、そのような文書ファイルに含まれている単語の全てについて高い重み付けを付与するという、いわゆるページランク方式(特許文献1参照)も知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】USP6,285,999号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、単純に文書ファイル中において出現頻度が高い単語に対して高い重み値を与えるという方式では、その文書ファイルの本来的なコンテンツにマッチしない文書インデックスが作成されてしまう怖れがある。例えば、ある「単語A」が文書ファイルX中の記述に1回だけ出現している場合、出現頻度という観点だけを考慮するならば、ただ1回だけの出現であるので「単語A」には低い重み値が与えられることになる。しかし、文書ファイルXの記述において、たまたま「単語A」を繰り返して使用していないものの、「単語A」に極めて関連深い内容を包含しているケースは多々ある。このような文書ファイルXは、キーワードとして「単語A」を設定したユーザにとって有用な文書ファイルである可能性が高いと言える。しかしながら、当該文書ファイルXは、「単語A」について低い重み値が与えられることから、検索結果のランキング上位には表れず、ユーザがこれを看過してしまうという問題があった。
【0006】
本発明の目的は、文書ファイルの記述内容に可及的に即した文書インデックスを作成することができる文書インデックス作成装置を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成する本発明の一の局面に係る文書インデックス作成装置は、複数の文書ファイルを蓄積する文書データベースと、前記文書データベースから文書インデックスの作成対象とする1の文書ファイルを抽出する抽出手段と、前記1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る文章分離手段と、前記文書データに対して文書解析処理を行って単語群を抽出する文書解析手段と、前記単語群の中から1の注目単語を指定し、前記複数の単位文章を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する選別手段と、前記第1単位文章と前記第2単位文章との文章関連度を評価する評価手段と、前記文書解析手段により抽出された単語群の各々に重み値を与えて文書インデックスを作成する作成手段と、を備え、前記作成手段は、前記注目単語の出現頻度と、前記文章関連度の評価値とを用いて前記注目単語に対する前記重み値を設定する装置である(請求項1)。
【0008】
この構成によれば、単純に1の文書ファイル中における注目単語の出現頻度だけで単語重み値が設定されない。すなわち、注目単語を含む第1単位文章と、注目単語を含まない第2単位文章との文章関連度が評価され、その評価値を注目単語の出現頻度に加味して文書インデックスが作成される。文章関連度が高いということは、第2単位文章には直接的に注目単語が用いられていなくとも、当該第2単位文章には注目単語に関連する記述が含まれている可能性が高いと推定することができる。この場合、注目単語の出現頻度が低くとも、注目単語を含まない第2単位文章において関連記述が存在する可能性が高いことを根拠として、当該注目単語に比較的高い重み値を与えることで、1の文書ファイルについて実際の記述内容に即した文書インデックスを作成できるようになる。
【0009】
上記構成において、前記評価手段は、前記第1単位文章に含まれる単語群の出現頻度と、前記第2単位文章に含まれる単語群の出現頻度との類似性に基づいて、前記文章関連度を評価することが望ましい(請求項2)。
【0010】
この構成によれば、第1単位文章と第2単位文章との文章関連度を、簡易に判定することができる。
【0011】
この場合、前記評価手段は、前記文章関連度の評価値として、さらに前記第1単位文章が含む全単語の出現頻度に対する前記注目単語の出現頻度の比に基づき当該注目単語の単語密度を求め、前記作成手段は、前記文章関連度に前記単語密度を乗じて、前記第2単位文章の重み値を求め、前記注目単語の出現頻度に基づく基礎重み値に、前記第2単位文章の重み値を加算して、前記注目単語に対する重み値を設定することが望ましい(請求項3)。
【0012】
この構成によれば、第1単位文章において注目単語の単語密度が高い程、第2単位文章の重み値の重み値が高くなる。これは、第1単位文章において注目単語が頻出している程、第2単位文章において注目単語に関連する記述が為されている可能性が高いという推定に基づく。従って、一層、文書ファイルの記述内容に沿った文書インデックスを作成することができる。
【0013】
上記構成において、文章分離手段は、改行を示す識別子、及び/又は空白行の存在を示す識別子に基づいて、前記文章を段落単位に区切ることが望ましい(請求項4)。
【0014】
この構成によれば、文章の通常の区切りである段落単位で文章を区切ることができる。従って、単位文章同士の比較を、的確に行うことができる。
【0015】
また、前記1の文書ファイルの文書データを構成する文字数に基づいて、前記注目単語に対する重み値を正規化する正規化手段をさらに備えることが望ましい(請求項5)。
【0016】
この構成によれば、文書データの長短の影響を是正して、重み値を設定することができる。
【発明の効果】
【0017】
本発明によれば、文書データベースに対する文書検索システムにおいて、文書ファイルの記述内容に即した文書インデックスを作成する文書インデックス作成装置を提供することができる。これにより、検索精度を向上させ、文書検索システムを用いた各種の処理業務の効率化を図ることが可能となる。
【図面の簡単な説明】
【0018】
【図1】本発明に係る文書インデックス作成装置が適用されるネットワークシステムのハードウェア構成を概略的に示す構成図である。
【図2】上記ネットワークシステムを用いた検索システムの概要を示す模式的フローチャートである。
【図3】文書検索の一般例を示す図である。
【図4】本発明の実施形態における単語重み付与の考え方を示す模式図である。
【図5】ネットワークシステムの機能構成を示す機能ブロック図である。
【図6】本発明の実施形態における単語重み付与の手法を示す図であって、(a)は文書ファイルの模式図、(b)は段落重みの算出処理を説明するための表形式の図である。
【図7】文書インデックスの作成処理を示すフローチャートである。
【図8】文書インデックスの作成処理を示すフローチャートである。
【発明を実施するための形態】
【0019】
以下、図面に基づいて本発明の実施形態につき詳細に説明する。図1は、本発明に係る文書インデックス作成装置が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、通信ネットワーク上において利用可能な文書データベース10と、この文書データベース10に対して所定の検索アルゴリズムを用いて検索処理を行う検索エンジン20と、ユーザが利用する端末装置30と、主に文書検索用の文書インデックスの作成処理を行うデータ処理装置40とが、インターネットIN又はローカルネットLNを介してデータ通信可能に接続されてなる。
【0020】
文書データベース10は、検索対象となる多数の文書ファイルが大量に記憶されているデータベースである。文書データベース10がインターネットINに接続されるものである場合、この文書データベース10は各々ドメイン名を持つ多数のウエブサイトの集合となる。このような文書データベース10としては、例えばYahoo(登録商標)やGoogle(登録商標)などのポータルサイトを通してアクセス可能なデータベースを例示することができる。また、文書データベース10が企業等の内部で構築されているローカルネットLNに接続されるものである場合、この文書データベース10は当該企業内の共用文書ファイルを保管するデータベースとなる。
【0021】
検索エンジン20は、所定のパラメータを有する検索アルゴリズムが搭載され、文書データベース10に対し、与えられたクエリに対応する文書ファイルの検索処理を行う。すなわち検索エンジン20は、クエリを文書解析して検索インデックスを作成すると共に、文書データベース10に記憶されている検索対象の文書ファイル毎にキーワードや属性(メタデータ)を抽出して作成された検索用の文書インデックスを読み出す。さらに検索エンジン20は、前記検索アルゴリズムを用いて、前記文書インデックスと前記検索インデックスとの照合処理を行い、合致度合いの高い(クエリに適合する)文書ファイルを抽出する。
【0022】
端末装置30は、多数のユーザに各々保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機31、32、33、34・・・である。端末装置30は、インターネットIN又はローカルネットLNを介して検索エンジン20及び文書データベース10にアクセス可能とされている。例えば端末機31は、検索処理条件となるキーワードや文章(クエリ)を入力するためのキーボード311と、検索画面、ヒット文書のリスト、文書のコンテンツ等を表示するディスプレイ312と、ディスプレイ312上の表示画面に対してコマンド(文書の選択指示や選択終了指示等)を入力するためのマウス313を備えている。
【0023】
各ユーザは、各自の通信端末機31、32、33、34・・・のキーボード311を介して、検索エンジン20にクエリを与え、そのクエリでの検索処理によりヒットした文書ファイルのリストを取得する。さらにユーザは、前記リストの中から希望する文書ファイルを選択し、その文書ファイルの内容を自身のディスプレイ312で表示させることができる。
【0024】
データ処理装置40は、文書データベース10に記憶されている検索対象の文書ファイル毎に文書解析処理を行ってキーワードや属性を抽出し、検索用の文書インデックスを作成する。この文書インデックスは、各文書ファイルから抽出された単語等と、この単語の各々に付与される重み値とを含む。重み値は、各々の単語の各文書ファイル中における重要度を表すもので、その文書ファイルにおいて高い値が重み値として与えられている単語が検索クエリとなった場合、当該文書ファイルが検索ヒットランキングの上位にランクされることとなる。通常、重み値は単語の出現頻度をベースとして設定されるが、本実施形態では、検索クエリとされ得る単語(キーワード)を含む段落と、この単語を含まない段落との関連性を考慮して重み値を設定する点に特徴を有する。この点については、後記で詳述する。
【0025】
図2は、ネットワークシステムSにより実行される文書ファイル検索処理の概要を示す模式的なフローチャートである。検索エンジン20は、検索元側の処理として、端末装置30からクエリが与えられると、このクエリ文書に対して例えば形態素解析等を含む文書解析処理を行う(ステップS1)。次いで、上記の文書解析処理で得られた単語をベースにして検索インデックスが作成される(ステップS2)。この検索インデックスは、主に質問事象に関連深いキーワード群からなる。そして、当該検索インデックスを用いて、大量のデータを含む文書データベース10に対して文書の検索処理を行う(ステップS3)。
【0026】
また、検索先側の処理として、データ処理装置40は、メタデータの抽出のための文書解析(ステップS01)、及び文書インデックスの作成(ステップS02)を定期的に行う。本実施形態は、この文書インデックス作成のステップに特徴を有する。ステップS3の検索処理で得られた結果は、前記クエリを入力したユーザの端末装置30に、検索アルゴリズムでの合致度合いに応じた順位付けをしてリスト出力(ランキング表示)される(ステップS4)。
【0027】
図3は、従来の一般的な文書検索例を示す模式図である。端末装置30から、検索クエリとしてキーワード「A」が与えられた場合、検索エンジンにより文書データベース10に対して検索処理が行われる。すると、単語Aを含む文書ファイルがヒット文書として抽出され、とりわけ単語Aの出現頻度が高い文書ファイルが、端末装置30においてランキング上位に表示されることになる。ここでは、単語Aが5回出現している文書ファイルXを示している。
【0028】
しかしながら、文書ファイルの本来的なコンテンツは、単語の出現頻度だけでは計れない場合が多々ある。例えば、「単語A」が文書ファイルX中の記述に5回も出現しているが、実は「単語A」に関連した記述が文書全体としては浅い場合や、逆に、「単語A」が1回しか出現しない文書ファイルであっても、文書全体としてみれば「単語A」に極めて関連深い内容を包含している場合がある。このような場合、ユーザにとって有用な文書ファイルは明らかに後者であるが、「単語A」の出現頻度が低いことから後者の文書ファイルは上位にランキングされず、結果的にユーザが看過してしまうことが生じ得る。従って、単純に文書ファイル中において出現頻度が高い単語に対して高い重み値を与えるという方式では、その文書ファイルの本来的なコンテンツにマッチしない文書インデックスが作成されてしまう怖れがあると言うことができる。
【0029】
図4は、本実施形態における単語への重み付与の考え方を示す模式図である。本実施形態では、単純に単語A(注目単語)の出現頻度に依拠するのではなく、単語Aを含む段落(第1単位文章)と、当該段落に近接し単語Aが出現しない段落(第2単位文章)との文章関連性を評価する。そして、その文章関連度に応じた段落重み値を、単語Aの本来の重み値(単語出現頻度に依拠)に対して付加する。
【0030】
ユーザが端末装置30から与えたキーワード(例えば単語A)を含む段落は、当然、ユーザが希望する記述を含む段落であると言うことができる。その一方で、単語Aを含まない段落の記述が、ユーザが期待する話題と全く無関係であると言うことはできない。むしろ、単語Aを含む段落に近接する段落では、たとえ単語Aが用いられていなくとも、単語Aに関連した話題に関する記述が存在している可能性が高いと言える。この場合、ユーザにとって、当該文書ファイルの情報価値は高いものとなる。そこで、単語Aを含んでいないが文章関連度の高い段落が、単語Aを含む先行段落に近接して存在している場合には、それ相応の重み値を単語Aに追加して、文書インデックスを作成することとする。これにより、単語Aが検索クエリとして与えられた場合に、当該文書ファイルが上位にランキングされるようになり、ユーザが当該文書ファイルを看過してしまう確率を抑制することができる。
【0031】
図5は、ネットワークシステムSの機能構成を示す機能ブロック図である。文書データベース10は、各種の文書ファイルが記憶された複数の文書サーバ11、12、13・・・(Webサーバ又は社内ローカルサーバ)を含む。検索エンジン20は、文書インデックス記憶部21、検索インデックス作成部22、検索処理部23及びランキング表示処理部24を機能的に備えている。端末装置30は、既述の通り、クエリ入力部301、表示部302及び操作部303を備えている。データ処理装置40(文書インデックス作成装置)は、文書抽出部41、文書解析部42(文書解析手段)、文書インデックス作成部43(作成手段)及び記憶部40Mを備えている。
【0032】
文書インデックス記憶部21は、文書データベース10に含まれる文書ファイルを検索させるための文書インデックスを記憶する。文書インデックスは、所定の作成タイミング(例えば1日1回)にデータ処理装置40により作成され、記憶内容が更新される。
【0033】
検索インデックス作成部22は、端末装置30から与えられたクエリ(キーワードや質問文書)を文書解析し、検索インデックスを作成する処理を行う。例えば、クエリが質問文書である場合は、その文書内において自立する単語として抽出すると共に、これら単語の出現頻度等を参照して重み付けする等して、検索インデックスを作成する。
【0034】
検索処理部23は、検索アルゴリズムを用いて、文書データベース10に対して文書ファイルの検索処理を行う。具体的には、前記検索インデックスと前記文書インデックスとを照合し、検索インデックス(クエリ)に対する類似度が高い文書ファイルを抽出する。ここで、この検索処理には、予め設定された検索アルゴリズムが用いられる。この検索アルゴリズムとしては、コサイン尺度、Dice係数、Jaccard係数、Tスコア、相互情報量、Simpson係数などを例示することができる。
【0035】
ランキング表示処理部24は、検索処理部23による検索処理でヒットした複数の文書ファイルに、クエリに対する類似度(合致度合い)が高い順に順位付けしたリストを作成する。このリストは、端末装置30によりブラウジングが可能であり、実際は検索処理の完了後に表示部302で表示される。
【0036】
端末装置30のクエリ入力部301は、ユーザから検索処理のためのキーワード等のクエリの入力を受け付ける部位であって、例えば図1に示すキーボード311である。
【0037】
表示部302は、例えば図1に示すディスプレイ312であって、検索エンジン20のブラウジング画面(クエリ入力画面)、ヒット文書ファイルのリスト並びにその抜粋文、及び前記リストからユーザによって選択された文書ファイルの内容等を表示する。
【0038】
操作部303は、例えば図1に示すマウス313であって、表示部302に表示された画像上の選択部、リンク部、タスクバー等に対して操作指示を与える。ユーザは、表示部302に表示されたヒット文書ファイルのリストのいずれかを選択しその内容を表示させる選択指示、及び、その表示を停止させる選択終了指示を、この操作部303を介して与える。
【0039】
データ処理装置40は、文書データベース10に含まれる文書ファイルを検索させる文書インデックスを作成するために、文書ファイルを文書データベース10から抽出し、当該文書ファイルに記述されている文章を文書解析して単語を抽出し、各単語に重み値を設定する。
【0040】
文書抽出部41は、文書インデックスの作成処理のトリガとして、所定の周期毎に、文書データベース10から複数の文書ファイルを抽出する処理を行う。
【0041】
文書解析部42は、文書抽出部41により抽出された各文書ファイルが含む文書データに対して、正規化処理、文書構造解析処理、同義語処理などの文書解析処理を行い、文書データを単語単位に分割する。正規化処理は、文書構造解析を正常に行い得るようにするために、解析対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。同義語処理は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用して、表現が異なる用語を単一の単語と扱うようにする処理である。かかる文書解析処理により、自立する単語が導出される。
【0042】
文書インデックス作成部43は、文書解析部42にて抽出された単語をベースとして、文書ファイル毎に、文書インデックスの素地となる基礎インデックス(重みが未だ与えられていないインデックス)を作成する。そして、前記基礎インデックスに列記された単語について、単語の出現頻度と図4に基づき説明した段落重み値とを用いて各単語に重み付けをして、文書インデックスを完成させる。
【0043】
記憶部40Mは、データ処理装置40における各種の作業データ等を一次的に記憶する作業領域として用いられるメモリである。記憶部40Mは、例えば文書解析部42により抽出された文書ファイル毎の単語リストや、文書インデックス作成部43が算出する文章関連度データ、単語密度データ、段落重みデータ、単語頻度データ等を一時的に記憶する。また、各種の設定値や演算式等も、この記憶部40Mに格納される。
【0044】
文書インデックス作成部43は、上記の処理を実行させるため機能的に、文章分離部44(文章分離手段)、選別部45(選別手段)、関連度算出部46(評価手段)、単語密度算出部47、段落重み算出部48及び重み設定部49を備えている。
【0045】
文章分離部44は、1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る処理を行う。本実施形態では、単位文章は、空白行で区切られた一つの段落と定義している。このため文章分離部44は、文書データに含まれる改行を示す識別子、及びこれに続く空白行の存在を示す識別子に基づいて、文書データを段落単位の文章に区切る処理を行う。もちろん、空白行が存在を要求せず、改行を示す識別子の存在をベースに文章を分離させても良い。あるいは、改行を示す識別子を検出せず、空白行を示すタグ等だけに依拠して、文章を分離させるようにしても良い。
【0046】
選別部45は、上記文書解析部42により抽出され記憶部40Mに格納されている単語群の中から1の注目単語を指定し、文章分離部44により区分された段落単位の文章(単位文章)を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する処理を行う。
【0047】
図6(a)は、文章分離部44及び選別部45による処理を説明するための模式図である。ここでは、文書ファイルX中に記述されている文章が、文章分離部44によって、段落1〜段落7の7個の段落に区分されている例を示している。そして、選別部45が、「単語A」を注目単語に設定し、この「単語A」が含まれる段落1及び段落5を第1単位文章とし、「単語A」が含まれていない段落2、段落3、段落4、段落6及び段落7を第2単位文章として区分した事例を示している。
【0048】
関連度算出部46は、前記第1単位文章と前記第2単位文章との文章関連度を評価する。具体的には、文書データの記述順でみて、最初に登場する1の第1単位文章を基準として、これに続いて登場する1又は複数の第2単位文章との文章関連度を評価する。新たな第1単位文章が登場すると、この第1単位文章を基準として、これに続いて登場する1又は複数の第2単位文章との文章関連度を評価する。文章関連度の評価は、第1単位文章となる段落に含まれる単語群の出現頻度(例えば単語A=3回、単語B=1回、単語C=5回・・・のような、当該段落から抽出される単語とその出現回数とのテーブル)と、第2単位文章となる段落に含まれる単語群の出現頻度とを用い、コサイン尺度のようなベクトル計算手法を利用して両者の類似度(文章関連度)を数値で評価する方法を採ることができる。
【0049】
図6(a)の例ならば、関連度算出部46は、段落1(第1単位文章)と、これに続く段落2、段落3及び段落4(第2単位文章)との文章関連度を、上述のベクトル計算手法等を用いてそれぞれ算出する。一方、続く段落5は「単語A」を含む第1単位文章となる段落であるので、関連度算出部46は、以降は段落5(第1単位文章)と、これに続く段落6及び段落7(第2単位文章)との文章類似度を算出する。図6(b)の「関連度」の欄には、関連度算出部46により求められた関連度の数値が表示されている。
【0050】
単語密度算出部47は、第1単位文章が含む全単語の出現頻度に対する注目単語(例えば単語A)の出現頻度の比に基づき、当該注目単語の第1単位文章中における単語密度を求める。例えば、段落1において、「単語A=3回、単語B=1回、単語C=5回・・・」というようなテーブルが求められているとして、次式
単語Aの単語密度=単語Aの出現頻度(3回)/単語A、B、C・・・の出現頻度の合計(3回+1回+5回+・・・)
にて単語密度を求める。
【0051】
この単語密度は、注目単語の出現頻度が高い段落(第1単位文章)の後には、注目単語の影響を受ける記述が続く可能性が高いという推定に基づき、1の第1単位文章と、これに続く1又は複数の第2単位文章との文章セットの評価のための係数として用いられる。図6(b)の例では、段落1における単語Aの単語密度が0.05、段落5における単語Aの単語密度が0.03である例を示している。
【0052】
段落重み算出部48は、関連度算出部46が算出した第2単位文章毎の文章関連度に、単語密度算出部47が求めた単語密度を乗じて、第2単位文章毎の段落重み値を算出する。図6(b)に示す通り、段落1における単語Aの単語密度=0.05を、これに続く段落2、段落3及び段落4の文章関連度=0.82、0.62及び0.41にそれぞれ乗じることで、各段落の段落重み値が導出される。段落5以降については、段落5における単語Aの単語密度=0.03を、これに続く段落6及び段落7の文章関連度=0.66及び0.33にそれぞれ乗じることで、各段落の段落重み値が導出される。
【0053】
重み設定部49は、注目単語の通常の重み値(基礎重み値;例えばその注目単語の出現頻度、或いは該出現頻度に文書頻度の逆数を乗じた値)に、段落重み算出部48により求められた第2単位文章毎の段落重み値の合計を加算して、注目単語についての重み値を設定する。図6(b)の例では、重み設定部49は、単語Aの出現頻度に基づく基礎重み値に、段落2、段落3、段落4、段落6及び段落7の段落重みの合計値=0.13を加算して、単語Aについての重み値を設定する。これにより、文書ファイルXにおける単語Aの文書インデックスの作成が完了することになる。
【0054】
続いて、本実施形態のデータ処理装置40による文書インデックス作成処理動作を、図7及び図8に示すフローチャートに基づいて説明する。データ処理装置40は、処理対象とする文書データベース10中の文書ファイル群の各々に付与されているナンバリングに対応するカウンタpを“0”に設定した上で(ステップS11)、p=p+1にカウンタを進める(ステップS12)。そして、p番目の文書ファイル(初回は、1番のナンバーが付与されている文書ファイル)が、文書抽出部41により抽出される(ステップS13)。
【0055】
次に、文書解析部42は、p番目の文書ファイルに対して文書解析処理を施し、その文書データから単語群を抽出する(ステップS14)。そして、文書解析部42は、抽出した単語について重複出現数を求め、各々の単語の単語頻度を求める(ステップS15)。この単語群及びその出現頻度のデータは、記憶部40Mに格納される。
【0056】
続いて、文章分離部44により、p番目の文書ファイルの文書データが段落単位に分割される(ステップS16)。そして、p番目の文書ファイルに対して抽出されている文書インデックス用の単語群の各々に付与されているナンバリングに対応するカウンタqを“0”に設定した上で(ステップS17)、q=q+1にカウンタを進める(ステップS18)。これにより、q番目の単語が注目単語として設定される。
【0057】
次に、選別部45が、上記分割された段落について、q番目の単語が出現する第1単位文章(段落)と、q番目の単語が出現しない第2単位文章(段落)とに選別する(ステップS19)。そして、関連度算出部46が、ベクトル計算手法等を用いて、前記第1単位文章と前記第2単位文章の各々との文章関連度を評価する(ステップS20)。
【0058】
その後、単語密度算出部47が、q番目の単語の第1単位文章中における単語密度を求める(ステップS21)。続いて、段落重み算出部48が、ステップS21で得られた単語密度と、ステップS20で得られた各第2単位文章の文章関連度とを乗じることで、各第2単位文章の段落重みを算出する(ステップS22)。最後に、重み設定部49が、q番目の単語の出現頻度の基づく基礎重み値に、前記段落重み値を加算し(ステップS23)、q番目の単語の重み値を決定する(ステップS24)。求められた重み値は、記憶部40Mに格納される。
【0059】
なお、ステップS24において、重み設定部49が、p番目の文書ファイルの文書データを構成する文字数に基づいて、q番目の単語の重み値を正規化する処理を加えることが望ましい。これは、文書データが長い程、段落数が多くなり、その分だけ段落重み値の加算値も大きくなってしまう不具合を抑制するためである。例えば、求められた重み値を文字数で除算する方法が、前記正規化処理の簡易例として挙げることができる。
【0060】
続いて、単語群のカウンタqが最終であるか否かが確認され(ステップS25)、最終でない場合は(ステップS25でNO)、ステップS18に戻って次の注目単語について同様な重み値算出処理が繰り返される。一方、カウンタqが最終である場合(ステップS25でYES)、文書ファイルのカウンタpが最終であるか否かが確認される(ステップS26)。カウンタpが最終でない場合は(ステップS26でNO)、ステップS12に戻って次の文書ファイルについて同じ処理が繰り返される。一方、カウンタpが最終である場合(ステップS26でYES)、処理を終える。
【0061】
以上説明した本実施形態に係るネットワークシステムSによれば、文書データベース10に対する文書検索システムにおいて、文書ファイルの記述内容に即した文書インデックスを作成することができる。これにより、検索精度を向上させ、ユーザが必要とする文書ファイルを検索ランキング上位で提供できる確率を高めることができ、ひいては文書検索システムを用いた各種の処理業務の効率化を図ることが可能となる。
【符号の説明】
【0062】
S ネットワークシステム
10 データベース
20 検索エンジン
21 文書インデックス記憶部
22 検索インデックス作成部
23 検索処理部
24 ランキング表示処理部
30 端末装置
40 データ処理装置
41 文書抽出部
42 文書解析部(文書解析手段)
43 文書インデックス作成部(作成手段)
44 文章分離部(文章分離手段)
45 選別部(選別手段)
46 関連度算出部(評価手段)
47 単語密度算出部
48 段落重み算出部
49 重み設定部



【特許請求の範囲】
【請求項1】
複数の文書ファイルを蓄積する文書データベースと、
前記文書データベースから文書インデックスの作成対象とする1の文書ファイルを抽出する抽出手段と、
前記1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る文章分離手段と、
前記文書データに対して文書解析処理を行って単語群を抽出する文書解析手段と、
前記単語群の中から1の注目単語を指定し、前記複数の単位文章を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する選別手段と、
前記第1単位文章と前記第2単位文章との文章関連度を評価する評価手段と、
前記文書解析手段により抽出された単語群の各々に重み値を与えて文書インデックスを作成する作成手段と、を備え、
前記作成手段は、前記注目単語の出現頻度と、前記文章関連度の評価値とを用いて前記注目単語に対する前記重み値を設定する、文書インデックス作成装置。
【請求項2】
前記評価手段は、前記第1単位文章に含まれる単語群の出現頻度と、前記第2単位文章に含まれる単語群の出現頻度との類似性に基づいて、前記文章関連度を評価する、
請求項1に記載の文書インデックス作成装置。
【請求項3】
前記評価手段は、
前記文章関連度の評価値として、さらに前記第1単位文章が含む全単語の出現頻度に対する前記注目単語の出現頻度の比に基づき当該注目単語の単語密度を求め、
前記作成手段は、
前記文章関連度に前記単語密度を乗じて、前記第2単位文章の重み値を求め、
前記注目単語の出現頻度に基づく基礎重み値に、前記第2単位文章の重み値を加算して、前記注目単語に対する重み値を設定する、
請求項2に記載の文書インデックス作成装置。
【請求項4】
文章分離手段は、改行を示す識別子、及び/又は空白行の存在を示す識別子に基づいて、前記文章を段落単位に区切る、
請求項1〜3のいずれかに記載の文書インデックス作成装置。
【請求項5】
前記1の文書ファイルの文書データを構成する文字数に基づいて、前記注目単語に対する重み値を正規化する正規化手段をさらに備える、
請求項1〜4のいずれかに記載の文書インデックス作成装置。




【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate