文書処理装置、文書処理方法および文書処理プログラム

【課題】構造化文書ファイルに含まれる情報の中からユーザに提供すべき情報を合理的に選択する。
【解決手段】本実施例に示す文書処理装置は、ＸＭＬやＸＨＴＭＬ、ＨＴＭＬなどによる構造化文書ファイルを処理対象とする。文書処理装置は、構造化文書ファイルから基準タグと比較タグを選択し、基準タグと比較タグの階層構造上における位置の近さをタグ隣接度として算出する。基準タグに対するタグ隣接度が所定の閾値以上となる比較タグを、近傍タグとして特定し、１以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書処理技術に関し、特に、構造化文書ファイルを対象とした情報検索技術、に関する。
【背景技術】
【０００２】
コンピュータの普及とネットワーク技術の進展にともない、ネットワークを介した電子情報の交換が盛んになっている。これにより、従来においては紙ベースで行われていた事務処理の多くが、ネットワークベースの処理に置き換えられつつある。特に、近年では多くの文書ファイルが、ＸＭＬ（eXtensible Markup Language）やＨＴＭＬ（Hyper Text Markup Language）、ＸＨＴＭＬ（eXtensible HyperText Markup Language）とよばれる構造化文書ファイルとして作成されるようになってきている。ネットワーク技術の進展と情報検索性に優れた構造化文書ファイルの普及は、情報取得コストを急激に低下させている。
【特許文献１】特開２００６−０４８５３６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
通常、文書検索処理では、データの検索条件が入力され、検索条件に適合するデータを含む文書ファイルが特定される。文書ファイルが特定されると、ユーザはその文書ファイルの内容を閲読することにより、求める情報が確かに存在しているかを確認する。
本発明者は、この閲読にともなうユーザの負荷に着目し、情報取得効率をいっそう高めるためには、求める情報を含む可能性が高い文書ファイルを高精度で特定する技術だけでなく、文書ファイルに含まれる情報をユーザに効果的に提供するための技術も重要であると想到した。
【０００４】
本発明は、本発明者による上記着目に基づいて完成された発明であり、その主たる目的は、構造化文書ファイルに含まれる情報の中からユーザに提供すべき情報を合理的に選択するための技術、を提供することにある。
【課題を解決するための手段】
【０００５】
本発明のある態様における文書処理装置は、ＸＭＬやＸＨＴＭＬ、ＨＴＭＬなどによる構造化文書ファイルを処理対象とする。この装置は、構造化文書ファイルから基準タグと比較タグを選択し、基準タグと比較タグの階層構造上における位置の近さをタグ隣接度として算出する。基準タグに対するタグ隣接度が所定の閾値以上となる比較タグを、近傍タグとして特定し、１以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する。
【０００６】
ここでいう「出力」とは、画面表示のための画像出力であってもよいし、電気通信回線を通じた他のデバイスへの送信出力であってもよい。基準タグにより特定される情報がユーザにとって関心のある情報（以下、「関心情報」とよぶ）であるとするならば、近傍データの出力により、関心情報だけでなく関心情報との関連性が高い情報をユーザに提供できる。いいかえれば、関心情報との関連性が低い情報を除外しやすくなる。構造化文書ファイルに含まれるさまざまなトピックはタグの階層構造により整理・分類・階層化されるため、このような態様の文書処理装置によれば、基準タグによって特定される関心情報との関連性が高い情報の範囲を合理的に特定できる。
【０００７】
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、システム、プログラム、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【０００８】
本発明によれば、構造化文書ファイルに含まれる情報の中から、ユーザにとって関心の高い情報を提供しやすくなる。
【発明を実施するための最良の形態】
【０００９】
本実施例における文書処理装置１００は、構造化文書ファイルにおける関心情報の周囲に関連情報領域を設定し、関連情報領域に含まれる近傍データだけを画面表示する機能を備える。ここでいう関心情報とは、ユーザによって特定される任意の情報であってよいが、以下においては検索条件に適合するデータであるとして説明する。
【００１０】
図１は、文書処理装置１００の検索画面１６０を示す図である。
ユーザが検索文入力領域１７０に検索文字列を入力し、検索ボタン１８０をマウスクリックすると、文書処理装置１００は所定の文書ファイル群の中から検索文字列を含む文書ファイルを検索する。同図においては、「カブトムシの生態」という検索文字列を含む文書ファイルが検出される。こうして検出された構造化文書ファイルのことを、「被検出文書」とよぶ。
【００１１】
文書ファイル名欄１８２ａ、ｂには、被検出文書の名前が表示される。また、内容表示領域１８４ａ〜ｃには、被検出文書の内容の一部が表示される。同図においては、文書ＩＤ＝００８２の「カブトムシＱ＆Ａ」という被検出文書の一部が内容表示領域１８４ａに表示され、文書ＩＤ＝０１２４の「昆虫の生態」という被検出文書の一部は内容表示領域１８４ｂに表示され、別の一部は内容表示領域１８４ｃに表示されている。これは、文書ＩＤ＝０１２４の「昆虫の生態」という被検出文書からは、「カブトムシの生態」という検索文字列が２箇所検出されたためである。同図においては、２つの被検出文書だけが表示されている。ユーザは、ページ変更ボタン１８６をマウスクリックすることにより、表示対象となる被検出文書を切り換えることができる。
【００１２】
内容表示領域１８４においては、各被検出文書について、検索文字列「カブトムシの生態」があらわれる位置の周辺の内容も表示される。そのため、ユーザは被検出文書を実際に開かなくても、検索画面１６０上にて、各被検出文書において検索文字列「カブトムシの生態」がどのような文脈で使用されているか確認できる。
文書処理装置１００による情報検索の利便性を高める上で、内容表示領域１８４にどの程度の量の情報を表示させるかは重要なポイントとなる。
【００１３】
内容表示領域１８４に多くの情報を表示させれば、ユーザは検索画面１６０上にて被検出文書の内容を把握しやすくなる。反面、１つの被検出文書あたりの確認負荷が大きくなる。また、検索画面１６０に一度に表示できる被検出文書の数が少なくなる。関心情報とは関連性が低い内容まで表示される可能性が高くなるというデメリットもある。
一方、内容表示領域１８４において表示対象となる情報を限定すれば、確認負荷は小さくなる。反面、ユーザは検索画面１６０だけで各被検出文書の内容を把握するのが難しくなる。
本実施例に示す文書処理装置１００は、内容表示領域１８４に表示すべき情報の量や範囲を被検出文書におけるタグの階層構造に基づいて特定している。具体的な処理方法を説明する前に、被検出文書における関連情報領域について説明する。
【００１４】
図２は、構造化文書ファイル１５０の一例を示す図である。
本実施例において処理対象となる文書ファイルは、ＸＭＬファイルやＸＨＴＭＬファイルのようにタグによって構造化された構造化文書ファイルである。同図に示す構造化文書ファイル１５０は、ＸＴＨＭＬファイルである。この文書ファイルにおいては、経路式「//body/div/head/title」の＜title＞というタグの要素データに「カブトムシの生態」という検索文字列が存在する。文書処理装置１００は、この＜title＞タグを「基準タグ」として特定する。基準タグの位置を基準領域１５２とよぶ。以下、所定のタグの要素データや属性、属性値、あるいはタグ名といったタグに関連するデータ、または、そのようなデータの範囲を、そのタグの「スコープ」とよぶことにする。同図に示す構造化文書ファイル１５０の場合、基準タグ＜title＞のスコープは、「＜title＞カブトムシの生態＜/title＞」であり、そのスコープ内に検索文字列を含むことになる。同様にして、その上位の＜head＞タグのスコープは、「＜head＞・・・＜/head＞」であり、＜no＞タグのスコープや＜title＞タグのスコープを包含している。
【００１５】
基準タグ＜title＞の位置に基づいて後述する処理方法により関連情報領域１５４が特定される。同図に示す構造化文書ファイル１５０の場合、経路式「//body/div/head」の＜head＞タグのスコープは関連情報領域１５４に含まれているが、経路式「//front/div/head」の＜head＞タグのスコープは関連情報領域１５４に含まれていない。また、経路式「//body」の＜body＞タグのスコープは、その一部だけが関連情報領域１５４に含まれている。内容表示領域１８４において表示対象となるのは、この関連情報領域１５４に含まれるデータ（以下、「近傍データ」とよぶ）である。
以下、文書処理装置１００の構成について説明した上で、関連情報領域１５４を特定するための処理方法について述べる。
【００１６】
図３は、文書処理装置１００の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
【００１７】
文書処理装置１００は、ユーザインタフェース処理部１１０、データ処理部１２０および文書保持部１４０を含む。
ユーザインタフェース処理部１１０は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。本実施例においては、ユーザインタフェース処理部１１０により文書処理装置１００のユーザインタフェースサービスが提供されるものとして説明する。別例として、ユーザはインターネットを介して文書処理装置１００を操作してもよい。この場合、図示しない通信部が、ユーザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処理結果情報をユーザ端末に送信することになる。
文書保持部１４０は、検索対象となる構造化文書ファイルを保持する。
【００１８】
データ処理部１２０は、ユーザインタフェース処理部１１０や文書保持部１４０から取得されたデータを元にして各種のデータ処理を実行する。データ処理部１２０は、ユーザインタフェース処理部１１０と文書保持部１４０の間のインタフェースの役割も果たす。
【００１９】
ユーザインタフェース処理部１１０は、入力部１１２と表示部１１４を含む。入力部１１２は、ユーザからの入力操作を受け付ける。表示部１１４は、ユーザに対して各種情報を表示する。図１に示した検索画面１６０は、表示部１１４により画面表示される。検索条件は、入力部１１２を介して取得される。検索条件は、ＸＰａｔｈ（XML Path Language）に基づく構文であるＸＰａｔｈ式のようなタグの経路式として指定されてもよい。あるいは、検索文字列として指定されてもよい。検索文字列は、要素データに限らず、属性値や属性名、タグ名から検出されてもよい。いずれにしても、検索条件とは、検索対象となるデータが充足すべき条件であればよい。
【００２０】
データ処理部１２０は、基準タグ選択部１２２、比較タグ選択部１２４、近傍データ特定部１２６およびタグ隣接度計算部１２８を含む。
基準タグ選択部１２２は、検索条件に適合するデータ（以下、「検索対象データ」とよぶ）を含む文書ファイルを文書保持部１４０から検出し、検索対象データをスコープに含むタグを基準タグとして選択する。比較タグ選択部１２４は、被検出文書から、基準タグ以外のタグを順次選択する。比較タグ選択部１２４に選択されているタグのことを「比較タグ」とよぶ。ただし、＜/head＞のようないわゆる「終了タグ」は比較タグとして選択対象とはならない。
【００２１】
タグ隣接度計算部１２８は、基準タグと比較タグの階層構造上における位置の近さを、後述する処理方法によって「タグ隣接度」として指標化する。近傍データ特定部１２６は、タグ隣接度が所定の閾値Ｔ以上、すなわち、基準タグからある程度近い位置にある比較タグを「近傍タグ」として特定する。図２に示した構造化文書ファイル１５０であれば、「//body/div/head」の＜head＞タグは、近傍タグとして特定されることになる。近傍タグのスコープに基づいて、近傍データ特定部１２６は関連情報領域を特定する。関連情報領域に含まれるデータのことを「近傍データ」とよぶ。近傍タグのスコープと関連情報領域の関係については、図４に関連して更に詳述する。表示部１１４は、内容表示領域１８４において関連情報領域の近傍データを画面表示させる。
【００２２】
タグ隣接度計算部１２８は、共通タグ特定部１３０、深度要素値計算部１３２、順序要素値計算部１３４および統合計算部１３６を含む。
共通タグ特定部１３０は、基準タグと比較タグの親タグのうち、最もルートノードからみてタグ階層が深い位置にあるタグを「共通タグ」として特定する。たとえば、図２の構造化文書ファイル１５０の場合、「//body/div/head/no」のタグ＜no＞を比較タグとすると、「//body/div/head/title」の基準タグ＜title＞と比較タグ＜no＞の親タグは、＜head＞や＜div＞、＜body＞である。このうち、ルートからみて最も深い位置にあるのは「//body/div/head」の＜head＞タグであるから、この＜head＞タグが共通タグとなる。
【００２３】
深度要素値計算部１３２は深度要素値を算出し、順序要素値計算部１３４は順序要素値を算出する。そして、統合計算部１３６は、深度要素値と順序要素値から、基準タグと比較タグのタグ隣接度を算出する。深度要素値と順序要素値、タグ隣接度の計算式は以下の通りである。
【００２４】
【数１】

【００２５】
式（１）は、基準タグn₁と比較タグn₂のタグ隣接度Near(n₁,n₂)の計算式である。Near_Depth(n₁,n₂)は、基準タグn₁と比較タグn₂の深さに関する隣接度としての深度要素値を示す。また、Near_Width(n₁,n₂)は、基準タグn₁と比較タグn₂の経路に関する隣接度としての順序要素値を示す。βは０以上１以下の任意の数である。統合計算部１３６は、深度要素値Near_Depth(n₁,n₂)と順序要素値Near_Width(n₁,n₂)をβに応じて加重平均することにより、タグ隣接度Near(n₁,n₂)を算出する。すなわち、タグ隣接度Near(n₁,n₂)は、深度要素値Near_Depth(n₁,n₂)が大きいほど大きく、同じく、順序要素値Near_Width(n₁,n₂)が大きいほど大きくなる値である。
【００２６】
式（２）は、深度要素値Near_Depth(n₁,n₂)の計算式である。ここで、depth(n)は、ルートノードのタグ階層を０としたときのタグnのタグ階層の深さを示す。たとえば、経路式「/A/B/C/D」の場合、＜Ａ＞タグの深さは「１」、＜Ｄ＞タグの深さは「４」である。common(n₁,n₂)は、基準タグn₁と比較タグn₂の共通タグを示す。深度要素値Near_Depth(n₁,n₂)は、共通タグが深い位置にあり、共通タグの深さと基準タグn₁の深さの差、共通タグの深さと比較タグn₂が深さの差が小さいほど大きくなる。すなわち、タグの階層において、深い位置で深さに関して近い関係にある基準タグn₁と比較タグn₂の深度要素値は大きくなる。深度要素値に関しては、後に、図６に関連して更に考察する。
【００２７】
式（３）は、順序要素値Near_Width(n₁,n₂)の計算式である。αは１以上の任意の数である。brotherhood(n₁,n₂)は、共通タグから基準タグn₁への経路と共通タグから比較タグn₂への経路の近さを示す。たとえば、
＜A＞
＜B＞
＜C＞・・＜/C＞
＜D＞・・＜/D＞
＜E＞・・＜/E＞
＜/B＞
＜/A＞
というタグ構造において、＜C＞タグと＜D＞タグの共通タグ、＜C＞タグと＜E＞の共通タグはいずれも＜B＞である。＜B＞タグから＜C＞タグへの経路と＜C＞タグから＜D＞タグへの経路は隣り合っている。このとき、brotherhood（C,D）は「１」となる。これに対し、＜C＞タグへの経路と＜E＞タグへの経路の間には、＜D＞タグへの経路が挟まっている。このとき、brotherhood（C,E）は「２」となる。すなわち、brotherhood(n₁,n₂)は、基準タグn₁への経路と比較タグn₂への経路の間に存在する経路の数に１を加算した値である。なお、＜B＞タグと＜C＞タグの共通タグは＜B＞であり、「//A/B/C」のように２つのタグは同じ経路式上に並ぶことになる。この場合、brotherhood（B,C）は「０」となる。
【００２８】
順序要素値Near_Width(n₁,n₂)は、共通タグが深い位置にあり、共通タグから基準タグn₁への経路と共通タグから比較タグn₂への経路が近い関係にあるほど大きくなる。すなわち、順序要素値Near_Width(n₁,n₂)は、タグの階層において深い位置で経路に関して近い関係にある基準タグn₁と比較タグn₂については大きな値となる。順序要素値に関しても、図６に関連して更に考察する。
次に、上記した式（１）に基づいて、実際にタグ隣接度を計算し、関連情報領域を特定するまでの処理を例示する。
【００２９】
図４は、所定の構造化文書ファイルにおけるタグの階層構造の一例を示す図である。
ノードとは、構造化文書ファイルにおいてタグに基づいて特定されるデータの単位であるが、特に断らない限りは、タグと同義であるとして説明する。ここでは、ノードＣのタグ（以下、単に「タグＣ」のように表記する）を基準タグとして説明する。また、α＝２、β＝０．５として説明する。
【００３０】
ノードＤ（タグＤ）：
比較タグ選択部１２４がタグＤを比較タグとして選択するとき、共通タグ特定部１３０はタグＢを共通タグとして特定する。このとき、タグＣ、タグＤの深さは共に「３」、タグＢの深さは「２」であるから
深度要素値Near_Depth(C,D)＝（２×２／（３＋３））＝２／３
となる。また、共通タグＢからタグＣへの経路と共通タグＢからタグＤへの経路の間には、他の経路が存在しないので、brotherhood（C,D）は「１」となる。したがって、
順序要素値Near_Width(C,D)＝（２＾２／（１＋１））＝２
となる。「＾」は、べき乗を示す。以上により、
タグ隣接度Near(C,D)＝０．５×（２／３）＋０．５×（２）＝４／３＝１．３３・・
となる。
【００３１】
ノードＥ（タグＥ）：
比較タグ選択部１２４がタグＥを比較タグとして選択するとき、共通タグ特定部１３０はタグＢを共通タグとして特定する。共通タグＢからタグＣへの経路と共通タグＢからタグＥへの経路の間には、タグＤへの経路が存在するので、brotherhood（C,D）は「２」となる。したがって、
タグ隣接度Near(C,E)＝０．５×（２×２／（３＋３））＋０．５×（２＾２／（１＋２））＝１となる。
【００３２】
ノードＢ（タグＢ）：
比較タグ選択部１２４がタグＢを比較タグとして選択するときには、共通タグ特定部１３０は、タグＢを共通タグとして特定する。タグＢとタグＣは、同じ経路上に並ぶため、brotherhood（C,B）は「０」となる。したがって、
タグ隣接度Near(C,B)＝０．５×（２×２／（２＋３））＋０．５×（２＾２／（１＋０））＝２．４となる。
【００３３】
ノードＡ（タグＡ）：
タグ隣接度Near(C,A)＝０．５×（２×１／（１＋３））＋０．５×（１＾２／（１＋０））＝０．７５となる。
ルートノード（ルートタグ）：
タグ隣接度Near(C,root)＝０．５×（２×０／（０＋３））＋０．５×（０＾２／（１＋０））＝０となる。
【００３４】
ノードＦ（タグＦ）：
比較タグ選択部１２４がタグＦを比較タグとして選択するときには、共通タグ特定部１３０はタグＡを共通タグとして特定する。共通タグＡからタグＣへの経路と共通タグＡからタグＦへの経路は、タグＢへの経路とタグＦへの経路において枝分かれしている。このような場合、brotherhood（C,F）=brotherhood（B,F）=１とする。したがって、
タグ隣接度Near(C,F)＝０．５×（２×１／（２＋３））＋０．５×（１＾２／（１＋１））＝０．４５となる。以下、同様にしてタグ隣接度を計算すると、
【００３５】
ノードＧ（タグＧ）：
タグ隣接度Near(C,G)＝０．５×（２×１／（３＋３））＋０．５×（１＾２／（１＋１））＝０．４１６・・・となる。
ノードＨ（タグＨ）：
タグ隣接度Near(C,H)＝０．５×（２×１／（３＋３））＋０．５×（１＾２／（１＋１））＝０．４１６・・・となる。
ノードＩ（タグＩ）：
タグ隣接度Near(C,I)＝０．５×（２×１／（３＋４））＋０．５×（１＾２／（１＋１））＝０．３９２・・・となる。
【００３６】
ここで、タグ隣接度の閾値Ｔを０．５とすると、近傍データ特定部１２６は、基準タグＣについて、タグＡ、Ｂ、Ｄ、Ｅを近傍タグとして特定する。近傍データ、いいかえれば、関連情報領域は以下の条件により特定される。
１．ある近傍タグαが子タグを持たないときには、近傍タグαのスコープにある全てのデータが近傍データに含まれる。
２．ある近傍タグβが子タグを持つときには、近傍タグβの開始タグから最初の子タグの開始タグの直前までのデータが近傍データに含まれる。ただし、近傍タグβの全ての子タグも近傍タグであれば、近傍タグβのスコープにある全てのデータが近傍データに含まれる。
【００３７】
したがって、同図に示すタグ構造の場合、
＜A＞
＜B＞
＜C＞＜/C＞
＜D＞＜/D＞
＜E＞＜/E＞
＜/B＞
＜F＞
＜G＞＜/G＞
＜H＞
＜I＞＜/I＞
＜/H＞
＜/F＞
＜/A＞
となるので、「＜A＞・・・＜/B＞」までが関連情報領域となる。すなわち、＜Ａ＞のスコープの一部に含まれるデータと、＜Ｂ＞のスコープの全てに含まれるデータが近傍データとなる。
【００３８】
図５は、検索条件の取得から近傍データを出力するまでの処理過程を示すフローチャートである。
入力部１１２が検索条件を取得すると（Ｓ１０）、基準タグ選択部１２２は検索対象データを含む文書ファイルを特定した上で、基準タグを選択する（Ｓ１２）。比較タグ選択部１２４は、被検出文書から比較タグを選択する（Ｓ１４）。タグ隣接度計算部１２８は、上述した計算式に基づいて、基準タグと比較タグのタグ隣接度を算出する（Ｓ１６）。近傍データ特定部１２６は、タグ隣接度が所定の閾値Ｔ以上であれば（Ｓ１８のＹ）、その比較タグを近傍タグとして特定するとともに、近傍タグのスコープにあるデータの一部または全部を近傍データとして追加する（Ｓ２０）。タグ隣接度が閾値Ｔ未満であれば（Ｓ１８のＮ）、Ｓ２０の処理はスキップされる。
【００３９】
被検出文書に、Ｓ１４にて未選択のタグが存在し（Ｓ２２のＹ）、かつ、近傍データのデータ量が所定の閾値Ｖ以下であれば（Ｓ２４のＮ）、処理はＳ１４に戻って、次の比較タグが選択される（Ｓ１４）。ここでいう近傍データのデータ量とは、近傍データの行数、文字数、文の数、バイト数などのいずれであってもよい。すなわち、内容表示領域１８４に表示される情報の量が、大きくなりすぎないように閾値Ｖより歯止めを設けている。未選択のタグが存在しないときや（Ｓ２２のＮ）、近傍データのデータ量が閾値Ｖを超えたときには（Ｓ２４のＹ）、表示部１１４は近傍データを内容表示領域１８４に表示させる（Ｓ２６）。なお、表示部１１４は、近傍データに代えて、あるいは、近傍データに加えて近傍タグ名を表示させてもよい。
最後に、深度要素値と順序要素値の全般的な特性について説明する。
【００４０】
図６は、所定の構造化文書ファイルにおけるタグの階層構造の別例を示す図である。
ここでは、タグＢとタグＢの共通タグはタグＡであるとする。タグＡの深さをｄ、タグＢやタグＣのタグＡからの深さをａとする。また、brotherhood（B,C）を「w」とする。
【００４１】
［深度要素値］
親子間（タグＡとタグＢ）：
親子関係にあるタグＡとタグＢの深度要素値は、
深度要素値Near_Depth(A,B)＝２×ｄ／（ｄ＋ｄ＋ａ）＝２ｄ／（２ｄ＋ａ）となる。深度要素値Near_Depth(A,C)についても同様である。
兄弟間（タグＢとタグＣ）：
兄弟関係にあるタグＢとタグＣの深度要素値は、
深度要素値Near_Depth(B,C)＝２×ｄ／（ｄ＋ａ＋ｄ＋ａ）＝ｄ／（ｄ＋ａ）となる。
いずれの場合においても、深度要素値は、ｄが大きいほど、また、ａが小さいほど大きな値となる。ただし、深度要素値は１以上とはならない値である。
【００４２】
［順序要素値］
親子間（タグＡとタグＢ）：
親子関係にあるタグＡとタグＢの順序要素値は、
順序要素値Near_Width(A,B)＝ｄ＾２／（１＋０）＝ｄ＾２となる。深度要素値Near_Width(A,C)についても同様である。深度要素値は、ｄが大きいほど、無限に大きくなる値となる。
兄弟間（タグＢとタグＣ）：
兄弟関係にあるタグＢとタグＣの順序要素値は、
順序要素値Near_Width(B,C)＝ｄ＾２／（１＋w）となる。深度要素値は、ｄが大きいほど、また、wが小さいほど無限に大きくなる値となる。
【００４３】
タグ隣接度は、深度要素値と順序要素値に加重平均であるため、ｄが大きく、ａやｗが小さいほど無限に大きくなる。すなわち、共通タグが深い位置にあり、基準タグや比較タグが共通タグからみて深さ的に近い位置にあり、共通タグから基準タグへの経路と共通タグから比較タグへの経路が近いほど、タグ隣接度は大きくなる。
【００４４】
通常、タグの階層構造は文章構造をそのまま規定することが多く、タグの階層構造によって文書の内容がある程度構造化される。たとえば、共通タグが深いほど、共通タグのスコープにおいて示される情報が詳細化・具体化されることが多い。また、共通タグに対して、基準タグや比較タグが深さや経路の面で近い位置にあるほど、共通タグのスコープに含まれる情報のうちでも、基準タグのスコープにある情報と比較タグのスコープにある情報が密接な関係にあることが多い。文書処理装置１００は、このような知見に基づいて、タグの階層構造に基づいて近傍データの範囲を合理的に特定することができる。
【００４５】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【００４６】
たとえば、ある閾値Ｔに基づいて特定した近傍データのデータ量が所定値Ｗよりも小さいときには、近傍データ特定部１２６は閾値Ｔをより小さい値に設定変更してもよい。このような処理方法によれば、近傍データのデータ量が過度に小さくなるのを防ぐことができる。同様の理由から、近傍データ特定部１２６は、αやβの値を動的に変更することにより近傍データのデータ量を調整してもよい。
【００４７】
ユーザは、入力部１１２を介して、αやβ、閾値Ｔや閾値Ｖを任意に調整してもよい。たとえば、所定の文書ファイルについて、閾値Ｔを小さくしたり、閾値Ｖやαを大きく設定することにより、関連情報領域を拡大させることができる。また、近傍データ特定部１２６は、検索画面１６０の画面サイズや解像度に応じて、近傍データの範囲を変化させてもよい。たとえば、モバイル端末のように比較的一画面あたりの情報量が少ないときには近傍データの範囲を狭め、ＰＣモニタのように一画面当たりの情報量が多いときには近傍データの範囲を広げれば、ユーザ環境に応じて近傍データのサイズを好適に調整できる。
【００４８】
なお、請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることは当業者には理解されるところである。
【図面の簡単な説明】
【００４９】
【図１】文書処理装置の検索画面を示す図である。
【図２】構造化文書ファイルの一例を示す図である。
【図３】文書処理装置の機能ブロック図である。
【図４】所定の構造化文書ファイルにおけるタグの階層構造の一例を示す図である。
【図５】検索条件の取得から近傍データを出力するまでの処理過程を示すフローチャートである。
【図６】所定の構造化文書ファイルにおけるタグの階層構造の別例を示す図である。
【符号の説明】
【００５０】
１００文書処理装置、１１０ユーザインタフェース処理部、１１２入力部、１１４表示部、１２０データ処理部、１２２基準タグ選択部、１２４比較タグ選択部、１２６近傍データ特定部、１２８タグ隣接度計算部、１３０共通タグ特定部、１３２深度要素値計算部、１３４順序要素値計算部、１３６統合計算部、１４０文書保持部、１５０構造化文書ファイル、１５２基準領域、１５４関連情報領域、１６０検索画面、１７０検索文入力領域、１８０検索ボタン、１８２文書ファイル名欄、１８４内容表示領域、１８６ページ変更ボタン。

【特許請求の範囲】
【請求項１】
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルから、調査対象となるタグとして基準タグを選択する基準タグ選択部と、
前記構造化文書ファイルから、比較対象となるタグとして比較タグを選択する比較タグ選択部と、
前記構造化文書ファイルにおける基準タグと比較タグの階層構造上における位置の近さを所定の計算式によりタグ隣接度として算出するタグ隣接度計算部と、
タグ隣接度が所定の閾値以上となる比較タグを近傍タグとして特定する近傍タグ特定部と、
前記構造化文書ファイルにおいて１以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する近傍データ出力部と、
を備えることを特徴とする文書処理装置。
【請求項２】
前記構造化文書ファイルにおいて検出対象となるデータが充足すべき検索条件の入力を受け付ける検索条件入力部、を更に備え、
前記基準タグ選択部は、前記検索条件に適合するデータを特定するタグを基準タグとして選択することを特徴とする請求項１に記載の文書処理装置。
【請求項３】
前記比較タグ選択部は、既に特定されている近傍データの大きさが所定値以下であることを条件として、新たな比較タグを選択することを特徴とする請求項１に記載の文書処理装置。
【請求項４】
前記タグ隣接度計算部は、
基準タグと比較タグの最も近い共通の親タグを共通タグとして特定する共通タグ特定部と、
タグの階層構造における共通タグの深さに対する所定の単調増加関数により、深度要素値を算出する深度要素値計算部と、
共通タグから基準タグに至る経路と共通タグから比較タグに至る経路の間に存在する経路の数に対する所定の単調減少関数により、順序要素値を算出する順序要素値計算部と、
深度要素値と順序要素値のそれぞれに対する所定の単調増加関数によりタグ隣接度を算出する統合計算部と、
を含むことを特徴とする請求項１から３のいずれかに記載の文書処理装置。
【請求項５】
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルから、調査対象となるタグとして基準タグを選択するステップと、
前記構造化文書ファイルから、比較対象となるタグとして比較タグを選択するステップと、
前記構造化文書ファイルにおける基準タグと比較タグの階層構造上における位置の近さを所定の計算式によりタグ隣接度として算出するステップと、
タグ隣接度が所定の閾値以上となる比較タグを近傍タグとして特定するステップと、
前記構造化文書ファイルにおいて１以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力するステップと、
を備えることを特徴とする文書処理方法。
【請求項６】
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルから、調査対象となるタグとして基準タグを選択する機能と、
前記構造化文書ファイルから、比較対象となるタグとして比較タグを選択する機能と、
前記構造化文書ファイルにおける基準タグと比較タグの階層構造上における位置の近さを所定の計算式によりタグ隣接度として算出する機能と、
タグ隣接度が所定の閾値以上となる比較タグを近傍タグとして特定する機能と、
前記構造化文書ファイルにおいて１以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する機能と、
をコンピュータに発揮させることを特徴とする文書処理プログラム。

【図１】