説明

文書処理装置、文書処理方法および文書処理プログラム

【課題】構造化文書ファイルに含まれる情報の中からユーザに提供すべき情報を合理的に選択する。
【解決手段】本実施例に示す文書処理装置は、XMLやXHTML、HTMLなどによる構造化文書ファイルを処理対象とする。文書処理装置は、構造化文書ファイルから基準タグと比較タグを選択し、基準タグと比較タグの階層構造上における位置の近さをタグ隣接度として算出する。基準タグに対するタグ隣接度が所定の閾値以上となる比較タグを、近傍タグとして特定し、1以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書処理技術に関し、特に、構造化文書ファイルを対象とした情報検索技術、に関する。
【背景技術】
【0002】
コンピュータの普及とネットワーク技術の進展にともない、ネットワークを介した電子情報の交換が盛んになっている。これにより、従来においては紙ベースで行われていた事務処理の多くが、ネットワークベースの処理に置き換えられつつある。特に、近年では多くの文書ファイルが、XML(eXtensible Markup Language)やHTML(Hyper Text Markup Language)、XHTML(eXtensible HyperText Markup Language)とよばれる構造化文書ファイルとして作成されるようになってきている。ネットワーク技術の進展と情報検索性に優れた構造化文書ファイルの普及は、情報取得コストを急激に低下させている。
【特許文献1】特開2006−048536号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
通常、文書検索処理では、データの検索条件が入力され、検索条件に適合するデータを含む文書ファイルが特定される。文書ファイルが特定されると、ユーザはその文書ファイルの内容を閲読することにより、求める情報が確かに存在しているかを確認する。
本発明者は、この閲読にともなうユーザの負荷に着目し、情報取得効率をいっそう高めるためには、求める情報を含む可能性が高い文書ファイルを高精度で特定する技術だけでなく、文書ファイルに含まれる情報をユーザに効果的に提供するための技術も重要であると想到した。
【0004】
本発明は、本発明者による上記着目に基づいて完成された発明であり、その主たる目的は、構造化文書ファイルに含まれる情報の中からユーザに提供すべき情報を合理的に選択するための技術、を提供することにある。
【課題を解決するための手段】
【0005】
本発明のある態様における文書処理装置は、XMLやXHTML、HTMLなどによる構造化文書ファイルを処理対象とする。この装置は、構造化文書ファイルから基準タグと比較タグを選択し、基準タグと比較タグの階層構造上における位置の近さをタグ隣接度として算出する。基準タグに対するタグ隣接度が所定の閾値以上となる比較タグを、近傍タグとして特定し、1以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する。
【0006】
ここでいう「出力」とは、画面表示のための画像出力であってもよいし、電気通信回線を通じた他のデバイスへの送信出力であってもよい。基準タグにより特定される情報がユーザにとって関心のある情報(以下、「関心情報」とよぶ)であるとするならば、近傍データの出力により、関心情報だけでなく関心情報との関連性が高い情報をユーザに提供できる。いいかえれば、関心情報との関連性が低い情報を除外しやすくなる。構造化文書ファイルに含まれるさまざまなトピックはタグの階層構造により整理・分類・階層化されるため、このような態様の文書処理装置によれば、基準タグによって特定される関心情報との関連性が高い情報の範囲を合理的に特定できる。
【0007】
なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、システム、プログラム、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0008】
本発明によれば、構造化文書ファイルに含まれる情報の中から、ユーザにとって関心の高い情報を提供しやすくなる。
【発明を実施するための最良の形態】
【0009】
本実施例における文書処理装置100は、構造化文書ファイルにおける関心情報の周囲に関連情報領域を設定し、関連情報領域に含まれる近傍データだけを画面表示する機能を備える。ここでいう関心情報とは、ユーザによって特定される任意の情報であってよいが、以下においては検索条件に適合するデータであるとして説明する。
【0010】
図1は、文書処理装置100の検索画面160を示す図である。
ユーザが検索文入力領域170に検索文字列を入力し、検索ボタン180をマウスクリックすると、文書処理装置100は所定の文書ファイル群の中から検索文字列を含む文書ファイルを検索する。同図においては、「カブトムシの生態」という検索文字列を含む文書ファイルが検出される。こうして検出された構造化文書ファイルのことを、「被検出文書」とよぶ。
【0011】
文書ファイル名欄182a、bには、被検出文書の名前が表示される。また、内容表示領域184a〜cには、被検出文書の内容の一部が表示される。同図においては、文書ID=0082の「カブトムシQ&A」という被検出文書の一部が内容表示領域184aに表示され、文書ID=0124の「昆虫の生態」という被検出文書の一部は内容表示領域184bに表示され、別の一部は内容表示領域184cに表示されている。これは、文書ID=0124の「昆虫の生態」という被検出文書からは、「カブトムシの生態」という検索文字列が2箇所検出されたためである。同図においては、2つの被検出文書だけが表示されている。ユーザは、ページ変更ボタン186をマウスクリックすることにより、表示対象となる被検出文書を切り換えることができる。
【0012】
内容表示領域184においては、各被検出文書について、検索文字列「カブトムシの生態」があらわれる位置の周辺の内容も表示される。そのため、ユーザは被検出文書を実際に開かなくても、検索画面160上にて、各被検出文書において検索文字列「カブトムシの生態」がどのような文脈で使用されているか確認できる。
文書処理装置100による情報検索の利便性を高める上で、内容表示領域184にどの程度の量の情報を表示させるかは重要なポイントとなる。
【0013】
内容表示領域184に多くの情報を表示させれば、ユーザは検索画面160上にて被検出文書の内容を把握しやすくなる。反面、1つの被検出文書あたりの確認負荷が大きくなる。また、検索画面160に一度に表示できる被検出文書の数が少なくなる。関心情報とは関連性が低い内容まで表示される可能性が高くなるというデメリットもある。
一方、内容表示領域184において表示対象となる情報を限定すれば、確認負荷は小さくなる。反面、ユーザは検索画面160だけで各被検出文書の内容を把握するのが難しくなる。
本実施例に示す文書処理装置100は、内容表示領域184に表示すべき情報の量や範囲を被検出文書におけるタグの階層構造に基づいて特定している。具体的な処理方法を説明する前に、被検出文書における関連情報領域について説明する。
【0014】
図2は、構造化文書ファイル150の一例を示す図である。
本実施例において処理対象となる文書ファイルは、XMLファイルやXHTMLファイルのようにタグによって構造化された構造化文書ファイルである。同図に示す構造化文書ファイル150は、XTHMLファイルである。この文書ファイルにおいては、経路式「//body/div/head/title」の<title>というタグの要素データに「カブトムシの生態」という検索文字列が存在する。文書処理装置100は、この<title>タグを「基準タグ」として特定する。基準タグの位置を基準領域152とよぶ。以下、所定のタグの要素データや属性、属性値、あるいはタグ名といったタグに関連するデータ、または、そのようなデータの範囲を、そのタグの「スコープ」とよぶことにする。同図に示す構造化文書ファイル150の場合、基準タグ<title>のスコープは、「<title>カブトムシの生態</title>」であり、そのスコープ内に検索文字列を含むことになる。同様にして、その上位の<head>タグのスコープは、「<head>・・・</head>」であり、<no>タグのスコープや<title>タグのスコープを包含している。
【0015】
基準タグ<title>の位置に基づいて後述する処理方法により関連情報領域154が特定される。同図に示す構造化文書ファイル150の場合、経路式「//body/div/head」の<head>タグのスコープは関連情報領域154に含まれているが、経路式「//front/div/head」の<head>タグのスコープは関連情報領域154に含まれていない。また、経路式「//body」の<body>タグのスコープは、その一部だけが関連情報領域154に含まれている。内容表示領域184において表示対象となるのは、この関連情報領域154に含まれるデータ(以下、「近傍データ」とよぶ)である。
以下、文書処理装置100の構成について説明した上で、関連情報領域154を特定するための処理方法について述べる。
【0016】
図3は、文書処理装置100の機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
【0017】
文書処理装置100は、ユーザインタフェース処理部110、データ処理部120および文書保持部140を含む。
ユーザインタフェース処理部110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。本実施例においては、ユーザインタフェース処理部110により文書処理装置100のユーザインタフェースサービスが提供されるものとして説明する。別例として、ユーザはインターネットを介して文書処理装置100を操作してもよい。この場合、図示しない通信部が、ユーザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処理結果情報をユーザ端末に送信することになる。
文書保持部140は、検索対象となる構造化文書ファイルを保持する。
【0018】
データ処理部120は、ユーザインタフェース処理部110や文書保持部140から取得されたデータを元にして各種のデータ処理を実行する。データ処理部120は、ユーザインタフェース処理部110と文書保持部140の間のインタフェースの役割も果たす。
【0019】
ユーザインタフェース処理部110は、入力部112と表示部114を含む。入力部112は、ユーザからの入力操作を受け付ける。表示部114は、ユーザに対して各種情報を表示する。図1に示した検索画面160は、表示部114により画面表示される。検索条件は、入力部112を介して取得される。検索条件は、XPath(XML Path Language)に基づく構文であるXPath式のようなタグの経路式として指定されてもよい。あるいは、検索文字列として指定されてもよい。検索文字列は、要素データに限らず、属性値や属性名、タグ名から検出されてもよい。いずれにしても、検索条件とは、検索対象となるデータが充足すべき条件であればよい。
【0020】
データ処理部120は、基準タグ選択部122、比較タグ選択部124、近傍データ特定部126およびタグ隣接度計算部128を含む。
基準タグ選択部122は、検索条件に適合するデータ(以下、「検索対象データ」とよぶ)を含む文書ファイルを文書保持部140から検出し、検索対象データをスコープに含むタグを基準タグとして選択する。比較タグ選択部124は、被検出文書から、基準タグ以外のタグを順次選択する。比較タグ選択部124に選択されているタグのことを「比較タグ」とよぶ。ただし、</head>のようないわゆる「終了タグ」は比較タグとして選択対象とはならない。
【0021】
タグ隣接度計算部128は、基準タグと比較タグの階層構造上における位置の近さを、後述する処理方法によって「タグ隣接度」として指標化する。近傍データ特定部126は、タグ隣接度が所定の閾値T以上、すなわち、基準タグからある程度近い位置にある比較タグを「近傍タグ」として特定する。図2に示した構造化文書ファイル150であれば、「//body/div/head」の<head>タグは、近傍タグとして特定されることになる。近傍タグのスコープに基づいて、近傍データ特定部126は関連情報領域を特定する。関連情報領域に含まれるデータのことを「近傍データ」とよぶ。近傍タグのスコープと関連情報領域の関係については、図4に関連して更に詳述する。表示部114は、内容表示領域184において関連情報領域の近傍データを画面表示させる。
【0022】
タグ隣接度計算部128は、共通タグ特定部130、深度要素値計算部132、順序要素値計算部134および統合計算部136を含む。
共通タグ特定部130は、基準タグと比較タグの親タグのうち、最もルートノードからみてタグ階層が深い位置にあるタグを「共通タグ」として特定する。たとえば、図2の構造化文書ファイル150の場合、「//body/div/head/no」のタグ<no>を比較タグとすると、「//body/div/head/title」の基準タグ<title>と比較タグ<no>の親タグは、<head>や<div>、<body>である。このうち、ルートからみて最も深い位置にあるのは「//body/div/head」の<head>タグであるから、この<head>タグが共通タグとなる。
【0023】
深度要素値計算部132は深度要素値を算出し、順序要素値計算部134は順序要素値を算出する。そして、統合計算部136は、深度要素値と順序要素値から、基準タグと比較タグのタグ隣接度を算出する。深度要素値と順序要素値、タグ隣接度の計算式は以下の通りである。
【0024】
【数1】

【0025】
式(1)は、基準タグn1と比較タグn2のタグ隣接度Near(n1,n2)の計算式である。Near_Depth(n1,n2)は、基準タグn1と比較タグn2の深さに関する隣接度としての深度要素値を示す。また、Near_Width(n1,n2)は、基準タグn1と比較タグn2の経路に関する隣接度としての順序要素値を示す。βは0以上1以下の任意の数である。統合計算部136は、深度要素値Near_Depth(n1,n2)と順序要素値Near_Width(n1,n2)をβに応じて加重平均することにより、タグ隣接度Near(n1,n2)を算出する。すなわち、タグ隣接度Near(n1,n2)は、深度要素値Near_Depth(n1,n2)が大きいほど大きく、同じく、順序要素値Near_Width(n1,n2)が大きいほど大きくなる値である。
【0026】
式(2)は、深度要素値Near_Depth(n1,n2)の計算式である。ここで、depth(n)は、ルートノードのタグ階層を0としたときのタグnのタグ階層の深さを示す。たとえば、経路式「/A/B/C/D」の場合、<A>タグの深さは「1」、<D>タグの深さは「4」である。common(n1,n2)は、基準タグn1と比較タグn2の共通タグを示す。深度要素値Near_Depth(n1,n2)は、共通タグが深い位置にあり、共通タグの深さと基準タグn1の深さの差、共通タグの深さと比較タグn2が深さの差が小さいほど大きくなる。すなわち、タグの階層において、深い位置で深さに関して近い関係にある基準タグn1と比較タグn2の深度要素値は大きくなる。深度要素値に関しては、後に、図6に関連して更に考察する。
【0027】
式(3)は、順序要素値Near_Width(n1,n2)の計算式である。αは1以上の任意の数である。brotherhood(n1,n2)は、共通タグから基準タグn1への経路と共通タグから比較タグn2への経路の近さを示す。たとえば、
<A>
<B>
<C>・・</C>
<D>・・</D>
<E>・・</E>
</B>
</A>
というタグ構造において、<C>タグと<D>タグの共通タグ、<C>タグと<E>の共通タグはいずれも<B>である。<B>タグから<C>タグへの経路と<C>タグから<D>タグへの経路は隣り合っている。このとき、brotherhood(C,D)は「1」となる。これに対し、<C>タグへの経路と<E>タグへの経路の間には、<D>タグへの経路が挟まっている。このとき、brotherhood(C,E)は「2」となる。すなわち、brotherhood(n1,n2)は、基準タグn1への経路と比較タグn2への経路の間に存在する経路の数に1を加算した値である。なお、<B>タグと<C>タグの共通タグは<B>であり、「//A/B/C」のように2つのタグは同じ経路式上に並ぶことになる。この場合、brotherhood(B,C)は「0」となる。
【0028】
順序要素値Near_Width(n1,n2)は、共通タグが深い位置にあり、共通タグから基準タグn1への経路と共通タグから比較タグn2への経路が近い関係にあるほど大きくなる。すなわち、順序要素値Near_Width(n1,n2)は、タグの階層において深い位置で経路に関して近い関係にある基準タグn1と比較タグn2については大きな値となる。順序要素値に関しても、図6に関連して更に考察する。
次に、上記した式(1)に基づいて、実際にタグ隣接度を計算し、関連情報領域を特定するまでの処理を例示する。
【0029】
図4は、所定の構造化文書ファイルにおけるタグの階層構造の一例を示す図である。
ノードとは、構造化文書ファイルにおいてタグに基づいて特定されるデータの単位であるが、特に断らない限りは、タグと同義であるとして説明する。ここでは、ノードCのタグ(以下、単に「タグC」のように表記する)を基準タグとして説明する。また、α=2、β=0.5として説明する。
【0030】
ノードD(タグD):
比較タグ選択部124がタグDを比較タグとして選択するとき、共通タグ特定部130はタグBを共通タグとして特定する。このとき、タグC、タグDの深さは共に「3」、タグBの深さは「2」であるから
深度要素値Near_Depth(C,D)=(2×2/(3+3))=2/3
となる。また、共通タグBからタグCへの経路と共通タグBからタグDへの経路の間には、他の経路が存在しないので、brotherhood(C,D)は「1」となる。したがって、
順序要素値Near_Width(C,D)=(2^2/(1+1))=2
となる。「^」は、べき乗を示す。以上により、
タグ隣接度Near(C,D)=0.5×(2/3)+0.5×(2)=4/3=1.33・・
となる。
【0031】
ノードE(タグE):
比較タグ選択部124がタグEを比較タグとして選択するとき、共通タグ特定部130はタグBを共通タグとして特定する。共通タグBからタグCへの経路と共通タグBからタグEへの経路の間には、タグDへの経路が存在するので、brotherhood(C,D)は「2」となる。したがって、
タグ隣接度Near(C,E)=0.5×(2×2/(3+3))+0.5×(2^2/(1+2))=1となる。
【0032】
ノードB(タグB):
比較タグ選択部124がタグBを比較タグとして選択するときには、共通タグ特定部130は、タグBを共通タグとして特定する。タグBとタグCは、同じ経路上に並ぶため、brotherhood(C,B)は「0」となる。したがって、
タグ隣接度Near(C,B)=0.5×(2×2/(2+3))+0.5×(2^2/(1+0))=2.4となる。
【0033】
ノードA(タグA):
タグ隣接度Near(C,A)=0.5×(2×1/(1+3))+0.5×(1^2/(1+0))=0.75となる。
ルートノード(ルートタグ):
タグ隣接度Near(C,root)=0.5×(2×0/(0+3))+0.5×(0^2/(1+0))=0となる。
【0034】
ノードF(タグF):
比較タグ選択部124がタグFを比較タグとして選択するときには、共通タグ特定部130はタグAを共通タグとして特定する。共通タグAからタグCへの経路と共通タグAからタグFへの経路は、タグBへの経路とタグFへの経路において枝分かれしている。このような場合、brotherhood(C,F)=brotherhood(B,F)=1とする。したがって、
タグ隣接度Near(C,F)=0.5×(2×1/(2+3))+0.5×(1^2/(1+1))=0.45となる。以下、同様にしてタグ隣接度を計算すると、
【0035】
ノードG(タグG):
タグ隣接度Near(C,G)=0.5×(2×1/(3+3))+0.5×(1^2/(1+1))=0.416・・・となる。
ノードH(タグH):
タグ隣接度Near(C,H)=0.5×(2×1/(3+3))+0.5×(1^2/(1+1))=0.416・・・となる。
ノードI(タグI):
タグ隣接度Near(C,I)=0.5×(2×1/(3+4))+0.5×(1^2/(1+1))=0.392・・・となる。
【0036】
ここで、タグ隣接度の閾値Tを0.5とすると、近傍データ特定部126は、基準タグCについて、タグA、B、D、Eを近傍タグとして特定する。近傍データ、いいかえれば、関連情報領域は以下の条件により特定される。
1.ある近傍タグαが子タグを持たないときには、近傍タグαのスコープにある全てのデータが近傍データに含まれる。
2.ある近傍タグβが子タグを持つときには、近傍タグβの開始タグから最初の子タグの開始タグの直前までのデータが近傍データに含まれる。ただし、近傍タグβの全ての子タグも近傍タグであれば、近傍タグβのスコープにある全てのデータが近傍データに含まれる。
【0037】
したがって、同図に示すタグ構造の場合、
<A>
<B>
<C></C>
<D></D>
<E></E>
</B>
<F>
<G></G>
<H>
<I></I>
</H>
</F>
</A>
となるので、「<A>・・・</B>」までが関連情報領域となる。すなわち、<A>のスコープの一部に含まれるデータと、<B>のスコープの全てに含まれるデータが近傍データとなる。
【0038】
図5は、検索条件の取得から近傍データを出力するまでの処理過程を示すフローチャートである。
入力部112が検索条件を取得すると(S10)、基準タグ選択部122は検索対象データを含む文書ファイルを特定した上で、基準タグを選択する(S12)。比較タグ選択部124は、被検出文書から比較タグを選択する(S14)。タグ隣接度計算部128は、上述した計算式に基づいて、基準タグと比較タグのタグ隣接度を算出する(S16)。近傍データ特定部126は、タグ隣接度が所定の閾値T以上であれば(S18のY)、その比較タグを近傍タグとして特定するとともに、近傍タグのスコープにあるデータの一部または全部を近傍データとして追加する(S20)。タグ隣接度が閾値T未満であれば(S18のN)、S20の処理はスキップされる。
【0039】
被検出文書に、S14にて未選択のタグが存在し(S22のY)、かつ、近傍データのデータ量が所定の閾値V以下であれば(S24のN)、処理はS14に戻って、次の比較タグが選択される(S14)。ここでいう近傍データのデータ量とは、近傍データの行数、文字数、文の数、バイト数などのいずれであってもよい。すなわち、内容表示領域184に表示される情報の量が、大きくなりすぎないように閾値Vより歯止めを設けている。未選択のタグが存在しないときや(S22のN)、近傍データのデータ量が閾値Vを超えたときには(S24のY)、表示部114は近傍データを内容表示領域184に表示させる(S26)。なお、表示部114は、近傍データに代えて、あるいは、近傍データに加えて近傍タグ名を表示させてもよい。
最後に、深度要素値と順序要素値の全般的な特性について説明する。
【0040】
図6は、所定の構造化文書ファイルにおけるタグの階層構造の別例を示す図である。
ここでは、タグBとタグBの共通タグはタグAであるとする。タグAの深さをd、タグBやタグCのタグAからの深さをaとする。また、brotherhood(B,C)を「w」とする。
【0041】
[深度要素値]
親子間(タグAとタグB):
親子関係にあるタグAとタグBの深度要素値は、
深度要素値Near_Depth(A,B)=2×d/(d+d+a)=2d/(2d+a)となる。深度要素値Near_Depth(A,C)についても同様である。
兄弟間(タグBとタグC):
兄弟関係にあるタグBとタグCの深度要素値は、
深度要素値Near_Depth(B,C)=2×d/(d+a+d+a)=d/(d+a)となる。
いずれの場合においても、深度要素値は、dが大きいほど、また、aが小さいほど大きな値となる。ただし、深度要素値は1以上とはならない値である。
【0042】
[順序要素値]
親子間(タグAとタグB):
親子関係にあるタグAとタグBの順序要素値は、
順序要素値Near_Width(A,B)=d^2/(1+0)=d^2となる。深度要素値Near_Width(A,C)についても同様である。深度要素値は、dが大きいほど、無限に大きくなる値となる。
兄弟間(タグBとタグC):
兄弟関係にあるタグBとタグCの順序要素値は、
順序要素値Near_Width(B,C)=d^2/(1+w)となる。深度要素値は、dが大きいほど、また、wが小さいほど無限に大きくなる値となる。
【0043】
タグ隣接度は、深度要素値と順序要素値に加重平均であるため、dが大きく、aやwが小さいほど無限に大きくなる。すなわち、共通タグが深い位置にあり、基準タグや比較タグが共通タグからみて深さ的に近い位置にあり、共通タグから基準タグへの経路と共通タグから比較タグへの経路が近いほど、タグ隣接度は大きくなる。
【0044】
通常、タグの階層構造は文章構造をそのまま規定することが多く、タグの階層構造によって文書の内容がある程度構造化される。たとえば、共通タグが深いほど、共通タグのスコープにおいて示される情報が詳細化・具体化されることが多い。また、共通タグに対して、基準タグや比較タグが深さや経路の面で近い位置にあるほど、共通タグのスコープに含まれる情報のうちでも、基準タグのスコープにある情報と比較タグのスコープにある情報が密接な関係にあることが多い。文書処理装置100は、このような知見に基づいて、タグの階層構造に基づいて近傍データの範囲を合理的に特定することができる。
【0045】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0046】
たとえば、ある閾値Tに基づいて特定した近傍データのデータ量が所定値Wよりも小さいときには、近傍データ特定部126は閾値Tをより小さい値に設定変更してもよい。このような処理方法によれば、近傍データのデータ量が過度に小さくなるのを防ぐことができる。同様の理由から、近傍データ特定部126は、αやβの値を動的に変更することにより近傍データのデータ量を調整してもよい。
【0047】
ユーザは、入力部112を介して、αやβ、閾値Tや閾値Vを任意に調整してもよい。たとえば、所定の文書ファイルについて、閾値Tを小さくしたり、閾値Vやαを大きく設定することにより、関連情報領域を拡大させることができる。また、近傍データ特定部126は、検索画面160の画面サイズや解像度に応じて、近傍データの範囲を変化させてもよい。たとえば、モバイル端末のように比較的一画面あたりの情報量が少ないときには近傍データの範囲を狭め、PCモニタのように一画面当たりの情報量が多いときには近傍データの範囲を広げれば、ユーザ環境に応じて近傍データのサイズを好適に調整できる。
【0048】
なお、請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることは当業者には理解されるところである。
【図面の簡単な説明】
【0049】
【図1】文書処理装置の検索画面を示す図である。
【図2】構造化文書ファイルの一例を示す図である。
【図3】文書処理装置の機能ブロック図である。
【図4】所定の構造化文書ファイルにおけるタグの階層構造の一例を示す図である。
【図5】検索条件の取得から近傍データを出力するまでの処理過程を示すフローチャートである。
【図6】所定の構造化文書ファイルにおけるタグの階層構造の別例を示す図である。
【符号の説明】
【0050】
100 文書処理装置、 110 ユーザインタフェース処理部、 112 入力部、 114 表示部、 120 データ処理部、 122 基準タグ選択部、 124 比較タグ選択部、 126 近傍データ特定部、 128 タグ隣接度計算部、 130 共通タグ特定部、 132 深度要素値計算部、 134 順序要素値計算部、 136 統合計算部、 140 文書保持部、 150 構造化文書ファイル、 152 基準領域、 154 関連情報領域、 160 検索画面、 170 検索文入力領域、 180 検索ボタン、 182 文書ファイル名欄、 184 内容表示領域、 186 ページ変更ボタン。

【特許請求の範囲】
【請求項1】
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルから、調査対象となるタグとして基準タグを選択する基準タグ選択部と、
前記構造化文書ファイルから、比較対象となるタグとして比較タグを選択する比較タグ選択部と、
前記構造化文書ファイルにおける基準タグと比較タグの階層構造上における位置の近さを所定の計算式によりタグ隣接度として算出するタグ隣接度計算部と、
タグ隣接度が所定の閾値以上となる比較タグを近傍タグとして特定する近傍タグ特定部と、
前記構造化文書ファイルにおいて1以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する近傍データ出力部と、
を備えることを特徴とする文書処理装置。
【請求項2】
前記構造化文書ファイルにおいて検出対象となるデータが充足すべき検索条件の入力を受け付ける検索条件入力部、を更に備え、
前記基準タグ選択部は、前記検索条件に適合するデータを特定するタグを基準タグとして選択することを特徴とする請求項1に記載の文書処理装置。
【請求項3】
前記比較タグ選択部は、既に特定されている近傍データの大きさが所定値以下であることを条件として、新たな比較タグを選択することを特徴とする請求項1に記載の文書処理装置。
【請求項4】
前記タグ隣接度計算部は、
基準タグと比較タグの最も近い共通の親タグを共通タグとして特定する共通タグ特定部と、
タグの階層構造における共通タグの深さに対する所定の単調増加関数により、深度要素値を算出する深度要素値計算部と、
共通タグから基準タグに至る経路と共通タグから比較タグに至る経路の間に存在する経路の数に対する所定の単調減少関数により、順序要素値を算出する順序要素値計算部と、
深度要素値と順序要素値のそれぞれに対する所定の単調増加関数によりタグ隣接度を算出する統合計算部と、
を含むことを特徴とする請求項1から3のいずれかに記載の文書処理装置。
【請求項5】
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルから、調査対象となるタグとして基準タグを選択するステップと、
前記構造化文書ファイルから、比較対象となるタグとして比較タグを選択するステップと、
前記構造化文書ファイルにおける基準タグと比較タグの階層構造上における位置の近さを所定の計算式によりタグ隣接度として算出するステップと、
タグ隣接度が所定の閾値以上となる比較タグを近傍タグとして特定するステップと、
前記構造化文書ファイルにおいて1以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力するステップと、
を備えることを特徴とする文書処理方法。
【請求項6】
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書ファイルから、調査対象となるタグとして基準タグを選択する機能と、
前記構造化文書ファイルから、比較対象となるタグとして比較タグを選択する機能と、
前記構造化文書ファイルにおける基準タグと比較タグの階層構造上における位置の近さを所定の計算式によりタグ隣接度として算出する機能と、
タグ隣接度が所定の閾値以上となる比較タグを近傍タグとして特定する機能と、
前記構造化文書ファイルにおいて1以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する機能と、
をコンピュータに発揮させることを特徴とする文書処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−90402(P2008−90402A)
【公開日】平成20年4月17日(2008.4.17)
【国際特許分類】
【出願番号】特願2006−267887(P2006−267887)
【出願日】平成18年9月29日(2006.9.29)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】