説明

構造化文書処理装置、構造化文書処理方法、構造化文書処理システム、および、コンピュータ・プログラム

【課題】ある構造化文書に含まれる例示部分に類似する部分構造を有する部分を、他の構造化文書において特定する際に、類似構造判定精度をより向上させる例示部分を取得可能な構造化文書処理装置を提供すること。
【解決手段】構造化文書を構成する各部分を選択可能に表示する構造化文書表示部11と、そのような部分のうち例示部分として選択された選択部分を取得する選択部分取得部12と、構造化文書を構成する任意の部分が、類似構造判定において有用であることを示す有用性条件を満たすか否かを判断する有用性判断部13と、構造化文書を構成する部分のうち、前記選択部分に対して表示領域における視覚的特徴が類似する視覚的特徴類似部分を抽出する視覚的特徴類似部分抽出部14と、有用性条件を満たさないと判断される選択部分の代わりに、有用性条件を満たすと判断される視覚的特徴類似部分を例示部分として出力する例示部分出力部15とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、構造化文書を処理する構造化文書処理装置、構造化文書処理システム、構造化文書処理方法、および、コンピュータ・プログラムに関する。
【背景技術】
【0002】
文書の内容を構造化し、構造を表す情報とともに文書の内容を格納した構造化文書が知られている。例えば、構造化文書の構造は、マークアップ言語によって記述される。構造化文書の構造を記述する代表的なマークアップ言語としては、XML言語(Extensible Markup Language)やHTML言語(Hyper Text Markup Language)等が普及している。
【0003】
このような構造化文書の集合に対して、類似構造を有する構造化文書を特定する構造化文書処理装置の一例が、特許文献1に記載されている。この特許文献1に記載された構造化文書処理装置は、構造化文書の集合から、所定の長さの文字列を全て抽出してその出現頻度をカウントし、出現頻度が所定の割合以上の文字列を高頻出文字列とする。特許文献1では、このようにして特定された高頻出文字列は、構造化文書における構造を表す情報である傾向が強いとみなされる。そして、この構造化文書処理装置は、各構造化文書において、高頻出文字列に該当する部分の文字数である高頻度文字数をカウントする。高頻出文字列が構造を表す情報であれば、類似構造を有する各構造化文書の高頻度文字数は、ほぼ等しくなると考えられる。そこで、この構造化文書処理装置は、各構造化文書の高頻度文字数に基づいて、構造化文書の集合を複数のクラスタに分割する。なお、この構造化文書処理装置は、含まれる構造化文書数が少ないクラスタをノイズクラスタとして除去する。
【0004】
ところで、このような類似構造を有する構造化文書を特定する構造化文書処理装置において、ある構造化文書の一部分である例示部分に類似する部分構造を有する部分を、他の構造化文書において特定することが考えられる。このような構造化文書処理装置では、例示部分が、類似構造の判定に有用な情報を含んでいることが重要となる。
【0005】
このような例示部分を抽出する構造化文書処理装置の一例が、特許文献2に記載されている。この特許文献2に記載された構造化文書処理装置は、ある構造化文書において指定された部分に基づいて、例示部分を抽出する。具体的には、この構造化文書処理装置は、指定された部分の始点より前で、かつ、始点から最も近くに記述されている所定の種類のタグを始点タグとして抽出する。また、この構造化文書処理装置は、指定された部分の終点より後で、かつ、終点から最も近くに記述されている所定の種類のタグを終点タグとして抽出する。そして、この構造化文書処理装置は、始点タグおよび終点タグの組合せを、例示部分に類似する部分を他の構造化文書において抽出するための抽出条件として生成する。ここで、この構造化文書処理装置は、所定の種類のタグとして、出現頻度の低いタグを採用することにより、始点タグおよび終点タグの組合せの、抽出条件としての有用性を高くしている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2004−310360号公報
【特許文献2】特開2010−238125号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1には、構造化文書の一部分を類似構造の判定対象とする場合の動作については記載されていない。また、特許文献1に記載された高頻度文字数に基づく類似構造判定処理を、構造化文書の一部分に適用した場合であっても、構造化文書の一部分として指定される例示部分に、類似構造判定に有用となる情報が適切に含まれないことがある場合の動作については記載されていない。例えば、例示部分に、本来対象としたい部分との関連が薄い部分までが含まれるケースや、本来対象としたい部分の特徴的な構造を表す情報を除いたテキスト情報などだけが含まれるようなケースがあると考えられる。このような場合、特許文献1に記載された構造化文書処理装置は、類似構造の判定精度を低下させるという問題が生じる。
【0008】
また、特許文献2に記載された構造化文書処理装置は、指定された部分を含み、出現頻度の低い所定の種類のタグに挟まれた部分を例示部分として抽出する。しかしながら、そのような出現頻度の低いタグは、必ずしも構造化文書に含まれているとは限らない。したがって、この構造化文書処理装置は、そのような出現頻度の低いタグを抽出できないこともあると考えられる。この場合、この構造化文書処理装置は、有用な例示部分を抽出できないことになる。また、この構造化文書処理装置は、元の指定部分に、類似構造判定に有用な情報が既に含まれていた場合であっても、さらに広範囲を例示部分として抽出することになる。このような場合、この構造化文書処理装置が抽出する例示部分は、本来対象としたい部分との関連が薄い部分までを含んでしまう可能性がある。また、この構造化文書処理装置は、元の指定部分に、類似構造判定に有用な情報が含まれていなかった場合には、類似構造判定に有用な情報を含む例示部分を抽出することができるかもしれない。しかしながら、この構造化文書処理装置が抽出する所定種類のタグは、出現頻度の低いものであるため、指定された部分から遠く離れている可能性が高い。そのような場合、この構造化文書処理装置が抽出する例示部分は、粒度の粗いものとなり、本来対象としたい部分との関連性が薄い部分までを含んでしまう可能性がある。
【0009】
このように、特許文献1および特許文献2に記載されたものは、ある構造化文書の一部分の例示部分に類似する部分構造を有する部分を、他の構造化文書において特定する際に、類似構造判定において有用な例示部分を精度よく取得することができない。
【0010】
本発明は、上述の課題を解決するためになされたもので、ある構造化文書の一部分の例示部分に類似する部分構造を有する部分を、他の構造化文書において特定する際に、類似構造判定精度をより向上させる例示部分を取得することができる構造化文書処理装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明の構造化文書処理装置は、構造化文書を構成する各部分を選択可能に表示領域に表示する構造化文書表示部と、前記構造化文書を構成する部分のうち、前記構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得する選択部分取得部と、前記構造化文書を構成する任意の部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断する有用性判断部と、前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出する視覚的特徴類似部分抽出部と、前記有用性判断部によって前記選択部分が前記有用性条件を満たさないと判断される場合、前記視覚的特徴類似部分抽出部によって抽出される前記視覚的特徴類似部分のうち、前記有用性判断部によって前記有用性条件を満たすと判断される部分を、前記選択部分の代わりに前記例示部分として出力する例示部分出力部と、を備える。
【0012】
また、本発明の構造化文書処理システムは、前記構造化文書処理装置と、前記構造化文書処理装置から出力された例示部分に類似する部分構造を有する部分を他の構造化文書において特定する類似構造判定装置と、を備える。
【0013】
また、本発明の構造化文書処理方法は、構造化文書を構成する各部分を選択可能に表示領域に表示し、前記構造化文書を構成する部分のうち、前記構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得し、前記選択部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断し、前記選択部分が前記有用性条件を満たさない場合、前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出し、前記有用性条件を満たさない前記選択部分の代わりに、前記有用性条件を満たす前記視覚的特徴類似部分を前記例示部分として出力する。
【0014】
また、本発明のコンピュータ・プログラムは、構造化文書を構成する各部分を選択可能に表示領域に表示する構造化文書表示ステップと、前記構造化文書を構成する部分のうち、構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得する選択部分取得ステップと、前記選択部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断する有用性判断ステップと、前記選択部分が前記有用性条件を満たさないと判断される場合、前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出する視覚的特徴類似部分抽出ステップと、前記有用性条件を満たさない前記選択部分の代わりに、前記有用性条件を満たす前記視覚的特徴類似部分を前記例示部分として出力する例示部分出力ステップと、をコンピュータ装置に実行させる。
【発明の効果】
【0015】
本発明は、ある構造化文書の一部分の例示部分に類似する部分構造を有する部分を、他の構造化文書において特定する際に、類似構造判定精度をより向上させる例示部分を取得することができる構造化文書処理装置を提供することができる。
【図面の簡単な説明】
【0016】
【図1】本発明の第1の実施の形態としての構造化文書処理システムの構成を示すブロック図である。
【図2】本発明の第1の実施の形態としての構造化文書処理装置のハードウェア構成図である。
【図3】本発明の第1の実施の形態としての構造化文書処理装置の機能ブロック図である。
【図4】本発明の第1の実施の形態としての構造化文書処理装置の動作を説明するフローチャートである。
【図5】本発明の第2の実施の形態としての構造化文書処理装置の機能ブロック図である。
【図6】本発明の第2の実施の形態としての構造化文書処理装置の動作を説明するフローチャートである。
【図7】本発明の第3の実施の形態としての構造化文書処理装置の構成を説明するブロック図である。
【図8】本発明の第3の実施の形態におけるクリッピング開発サイトを構成するHTML文書の一例を示す図である。
【図9】本発明の第3の実施の形態においてクリッピング対象のウェブサイトを構成するHTML文書の一例を示す図である。
【図10】(a)、(b)および(c)は、本発明の第3の実施の形態において構造化文書表示部によって表示される表示領域の一例を示す図である。
【図11】本発明の第4の実施の形態としての構造化文書処理装置の機能ブロック図である。
【図12】本発明の第4の実施の形態において例示部分保持部によって保持される情報の一例を説明する図である。
【図13】本発明の第4の実施の形態としての構造化文書処理装置の動作を説明するフローチャートである。
【図14】本発明の第4の実施の形態としての構造化文書処理装置の構成を説明するブロック図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0018】
(第1の実施の形態)
本発明の第1の実施の形態としての構造化文書処理システム1の構成を図1に示す。図1において、構造化文書処理システム1は、構造化文書処理装置10と、類似構造判定装置90とを備える。構造化文書処理装置10は、構造化文書の一部分の類似構造判定の対象となる例示部分を取得し、類似構造判定装置90に出力する装置である。類似構造判定装置90は、構造化文書処理装置10から出力された例示部分に類似する部分構造を有する部分を、他の構造化文書において特定する装置である。構造化文書処理装置10および類似構造判定装置90は、互いに通信可能に接続されている。
【0019】
なお、構造化文書は、文字データ、画像情報を含む文書データであり、たとえばマークアップ言語で記述された文書データや、その他の形式のデータ構造を有する文書データでも良い。
【0020】
次に、構造化文書処理装置10のハードウェア構成を図2に示す。図2において、構造化文書処理装置10は、CPU(Central Processing Unit)1001と、RAM(Random Access Memory)1002と、ROM(Read Only Memory)1003と、ハードディスク等の記憶装置1004と、表示装置1005と、入力装置1006と、ネットワークインタフェース1007とを備えたコンピュータ装置によって構成されている。
【0021】
ROM1003および記憶装置1004には、コンピュータ装置を本実施の形態としての構造化文書処理装置10として機能させるためのコンピュータ・プログラムおよび各種データが記憶されている。
【0022】
CPU1001は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行する。
【0023】
表示装置1005は、液晶ディスプレイ等によって構成され、CPU1001の制御にしたがって各種情報を表示領域に表示する。
【0024】
入力装置1006は、マウスやキーボードによって構成され、CPU1001の制御にしたがって各種の入力情報を取得する。
【0025】
ネットワークインタフェース1007は、CPU1001の制御にしたがって、ネットワークを介して情報を送受信する。
【0026】
類似構造判定装置90は、CPU、RAM、ROM、記憶装置、および、ネットワークインタフェースを少なくとも備えるコンピュータ装置によって構成される。類似構造判定装置90を構成するコンピュータ装置のROMおよび記憶装置には、コンピュータ装置を本実施の形態における類似構造判定装置90として機能させるためのコンピュータ・プログラムおよび各種データが記憶されている。このコンピュータ・プログラムとしては、構造化文書の一部分の類似構造を判定する一般的な技術を適用したものが記憶される。CPUは、記憶装置からこのコンピュータ・プログラムおよび各種データをRAMに読み込んで実行する。
【0027】
なお、構造化文書処理装置10および類似構造判定装置90は、互いに通信可能に接続される代わりに、同一のコンピュータ装置によって構成されていてもよい。
【0028】
次に、構造化文書処理装置10の機能ブロック構成を図3に示す。図3において、構造化文書処理装置10は、構造化文書表示部11と、選択部分取得部12と、有用性判断部13と、視覚的特徴類似部分抽出部14と、例示部分出力部15と、を有する。ここで、構造化文書表示部11は、表示装置1005と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001とによって構成される。また、選択部分取得部12は、入力装置1006と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001とによって構成される。また、有用性判断部13および視覚的特徴類似部分抽出部14は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001によって構成される。また、例示部分出力部15は、ネットワークインタフェース1007と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001とによって構成される。なお、構造化文書処理装置10の各機能ブロックを構成するハードウェア構成は、上述の構成に限定されない。
【0029】
構造化文書表示部11は、構造化文書を、表示装置1005の表示領域に表示する。具体的には、構造化文書表示部11は、対象の構造化文書を解析することにより、その構造および内容に応じてレンダリングした画像を、表示装置1005の表示領域に表示する。
【0030】
また、構造化文書表示部11は、構造化文書を表示する際に、その構造を構成する各部分を選択可能に表示する。構造化文書を構成する各部分とは、例えば、構造化文書がHTML文書またはXML文書であれば、その文書をDOM(Document Object Model)に基づくツリー構造で表現した際の各要素であってもよい。また、選択可能な表示例について説明する。例えば、構造化文書表示部11は、対象の構造化文書をレンダリングした画像において、その構造を構成する各部分の領域をあらかじめ算出しておく。そして、構造化文書表示部11は、入力装置1006としてのマウスの操作に基づくマウスオーバを検知した部分の領域の背景色を変化させてもよい。さらに、選択部分取得部12は、背景色を変化させた領域における右クリックの検知に応じて、該当する部分を例示部分として選択するか否かを問うメニューを表示するようにしてもよい。
【0031】
選択部分取得部12は、構造化文書表示部11によって表示された構造化文書において、例えば入力装置1006の選択操作により例示部分として選択された選択部分を取得する。例えば、構造化文書がHTML文書またはXML文書であれば、選択部分取得部12は、その文書をDOMに基づくツリー構造で表現した際のいずれかの要素を選択するようにしてもよい。また、選択部分取得部12は、選択部分を表す情報を、有用性判断部13と、視覚的特徴類似部分抽出部14と、例示部分出力部15とに出力する。ここで、選択部分取得部12が出力する選択部分を表す情報は、選択部分の文書データそのものであってもよいし、構造化文書の構造においてその選択部分を一意に識別可能な情報であってもよい。
【0032】
有用性判断部13は、構造化文書を構成する任意の部分が、構造化文書の一部分の類似構造判定において有用であることを示す有用性条件を満たすか否かを判断する。ここで、有用性が判断される任意の部分は、選択部分取得部12で例示部分として選択された選択部分でも、後述の視覚的特徴類似部分抽出部14で抽出される視覚的特徴類似部分でもよい。また、類似構造判定において有用であることを示す有用性条件は、例えば、任意の部分が、その構造化文書内で識別性を有することであってもよい。これは、ある構造化文書においてある部分が有する識別性は、その識別性に基づき同様に識別される他の部分に対して、類似構造を有するか否かの判定要因になり得るからである。
【0033】
例えば、W3C(World Wide Web Consortium)勧告のHTML 4.01 Specificationでは、要素の属性として設定され得るid属性は、その構造化文書内においてユニークな属性値を持つよう規定されている。したがって、このようなW3C勧告にしたがって記述された構造化文書において、id属性が設定されている要素は、その構造化文書における識別性を有するものとみなすことができる。そこで、有用性判断部13は、構造化文書における任意の部分が、id属性が設定された要素である場合には、その部分は、類似構造判定における有用性条件を満たすと判断してもよい。また、有用性判断部13は、id属性に限らず、ユニークな属性値を持つよう規定されたその他の属性を有する部分を、有用性条件を満たす部分と判断してもよい。
【0034】
また、例えば、上述のW3C勧告において、要素の属性として設定され得るclass属性は、要素にクラスを割り当てるものとして規定されている。すなわち、1つの構造化文書内に、同一のクラス属性値が割り当てられた要素は1つ以上存在し得る。また、1つの要素に、複数のクラス属性値が割り当てられてもよいと規定されている。したがって、このようなW3C勧告にしたがって記述された構造化文書において、同一のclass属性値の出現回数が少ない要素は、その構造化文書における識別性が高いとみなすことができる。そこで、有用性判断部13は、構造化文書における任意の部分が、class属性が設定された要素であり、かつ、その構造化文書においてそのclass属性値の出現回数が閾値以下であれば、その部分は、類似構造判定における有用性条件を満たすと判断してもよい。また、有用性判断部13は、class属性に限らず、同一の属性値の出現回数が閾値以下の他の属性を有する部分を、有用性条件を満たす部分と判断してもよい。
【0035】
なお、有用性判断部13が用いる有用性条件は、上述の例に限らない。例えば、有用性判断部13は、要素の属性および要素のツリー構造における位置関係を組み合わせた有用性条件を用いてもよい。例えば、有用性判断部13は、id属性を有する要素よりも上にあり、class属性を有する要素よりも下にある要素であることを、有用性条件としてもよい。なお、ここで、「上にある」とは、ツリー構造においてよりルートに近いことを表し、「下にある」とは、ツリー構造においてより末端のノードに近いことを表すものとする。その他、例えば、有用性判断部13は、要素の視覚的属性に設定された属性値の出現回数が閾値以下であることや、イベント属性の属性値として設定された関数の出現回数が閾値以下であることを、有用性条件としてもよい。
【0036】
視覚的特徴類似部分抽出部14は、構造化文書を構成する部分のうち、選択部分取得部12において例示部分として入力された選択部分に対して、表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出する。ここで、類似構造判定対象として適切な例示部分に対して視覚的特徴が類似する部分は、利用者により例示部分として誤選択される可能性がある。したがって、適切な例示部分は、選択部分ではなく視覚的特徴類似部分である可能性がある。なお、視覚的特徴類似部分抽出部14は、複数の視覚的特徴類似部分を抽出してもよい。
【0037】
ここで、視覚的特徴とは、例えば、表示領域における選択部分の領域の表示位置であってもよい。もし、選択部分の領域が矩形であれば、視覚的特徴類似部分抽出部14は、構造化文書を構成する部分のうち、選択部分の領域の左上の座標との距離が閾値以下の距離に左上の頂点が位置する矩形の領域に対応する部分を、視覚的特徴類似部分として抽出してもよい。
【0038】
また、例えば、視覚的特徴類似部分抽出部14は、視覚的特徴として、表示領域における選択部分の領域の表示上の大きさをさらに用いてもよい。この場合、視覚的特徴類似部分抽出部14は、選択部分の領域の表示位置との距離が閾値以下の表示位置に表示される領域であって、かつ、その表示上の大きさの選択部分に対する差分が閾値以下である部分を、視覚的特徴類似部分として抽出する。なお、領域の形状が矩形であれば、表示上の大きさの差分は、幅および高さの各差分であってもよい。あるいは、表示上の大きさの差分は、領域の面積の差分であってもよい。
【0039】
なお、視覚的特徴類似部分抽出部14が視覚的特徴類似部分の抽出に用いる視覚的特徴は、上述の表示位置や表示上の大きさに限らない。例えば、視覚的特徴類似部分抽出部14は、選択部分に設定されたフォントサイズ、フォント色、背景色、背景イメージ等の視覚的特徴に基づく条件を用いて、視覚的特徴類似部分を抽出してもよい。例えば、HTML文書では、このような視覚的特徴がstyle属性によって指定されることが多い。そこで、視覚的特徴類似部分抽出部14は、選択部分と同一のstyle属性値が設定された要素を視覚的特徴類似部分として抽出してもよい。
【0040】
例示部分出力部15は、選択部分または視覚的特徴類似部分を、類似構造判定の例示部分(適切な例示部分)として類似構造判定装置90に出力する。具体的には、有用性判断部13によって選択部分が有用性条件を満たすと判断された場合は、選択部分を例示部分として出力する。一方、例示部分出力部15は、選択部分が有用性条件を満たさないと判断された場合、視覚的特徴類似部分抽出部14によって抽出される視覚的特徴類似部分のうち、有用性判断部13によって有用性条件を満たすと判断された部分を、例示部分として出力する。
【0041】
以上のように構成された構造化文書処理装置10の動作について、図4を参照して説明する。
【0042】
まず、構造化文書表示部11は、任意の構造化文書を、その構造を構成する各部分を選択可能に表示領域に表示する(ステップS1)。例えば、構造化文書表示部11は、この任意の構造化文書を構成する各部分に対応する領域をマウスオーバに応じてハイライトさせ、右クリックに応じて選択可否を問うメニューを表示してもよい。また、この任意の構造化文書は、コンピュータ装置の記憶装置1004にあらかじめ記憶された構造化文書のうち、利用者により入力装置1006を介して指定されたものであってもよい。あるいは、この任意の構造化文書は、利用者により入力装置1006を介して指定されたURL(Uniform Resource Locator)から、ネットワークインタフェース1007を介して取得されたものであってもよい。
【0043】
次に、選択部分取得部12は、表示領域に表示された構造化文書を構成する部分のうち、利用者によって入力装置1006を用いて指定される選択部分を取得する(ステップS2)。例えば、選択部分取得部12は、上述の右クリックで表示されたメニューにおいて「選択」との選択肢が選択されたことを検知すると、その領域に対応する部分を選択部分として取得するようにしてもよい。
【0044】
次に、有用性判断部13は、ステップS2で取得された選択部分が、類似構造判定における有用性があることを表す有用性条件を満たすか否かを判断する(ステップS3)。このとき、前述のように、構造化文書における識別性に基づき有用性を判断する場合は、有用性判断部13は、ステップS1で表示した構造化文書全体の情報も用いて、選択部分が識別性を有するか否かを判断する。
【0045】
ここで、有用性条件を満たすと判断された場合、例示部分出力部15は、ステップS2で取得された選択部分を、類似構造判定の例示部分として、類似構造判定装置90に出力する(ステップS4)。このとき、利用者に対するわかりやすさのために、例示部分出力部15は、選択部分を例示部分として出力したことを表す情報を、表示装置1005に表示してもよい。そして、構造化文書処理装置10は、動作を終了する。
【0046】
一方、ステップS3において、有用性条件を満たさないと判断された場合、視覚的特徴類似部分抽出部14は、選択部分に対する視覚的特徴類似部分を抽出する(ステップS5)。このとき、視覚的特徴類似部分抽出部14は、ステップS1で表示した構造化文書全体から、視覚的特徴類似部分を抽出する。
【0047】
次に、例示部分出力部15は、ステップS5において、視覚的特徴類似部分が抽出されたか否かを判断する(ステップS6)。
【0048】
ここで、視覚的特徴類似部分が抽出されていないと判断された場合、例示部分出力部15は、ステップS4を実行し、ステップS2で取得された選択部分を、類似構造判定の例示部分として、類似構造判定装置90に出力する。
【0049】
一方、ステップS6において、視覚的特徴類似部分が抽出されたと判断された場合、有用性判断部13は、視覚的特徴類似部分が有用性条件を満たすか否かを判断する(ステップS7)。
【0050】
ここで、有用性があると判断された場合、例示部分出力部15は、視覚的特徴類似部分を、類似構造判定の例示部分として類似構造判定装置90に出力する(ステップS8)。
【0051】
一方、ステップS7において、視覚的特徴類似部分が有用性条件を満たさないと判断された場合、例示部分出力部15は、ステップS4を実行し、ステップS2で取得された選択部分を、類似構造判定の例示部分として類似構造判定装置90に出力する。
【0052】
以上で、構造化文書処理装置10は動作を終了する。
【0053】
そして、類似構造判定装置90は、ステップS4またはステップS8において出力された例示部分に類似する部分構造を有する部分を、他の構造化文書において特定する。
【0054】
なお、ステップS5において、複数の視覚的特徴類似部分が抽出された場合、ステップS7において有用性判断部13は、各視覚的特徴類似部分について有用性条件を満たすか否か判断すればよい。また、この場合、ステップS8において、例示部分出力部15は、有用性条件を満たすいずれかの視覚的特徴類似部分を出力すればよい。
【0055】
次に、本発明の第1の実施の形態の効果について述べる。
【0056】
本発明の第1の実施の形態としての構造化文書処理装置は、ある構造化文書の一部分の例示部分に類似する部分構造を有する部分を、他の構造化文書において特定する際に、類似構造判定精度をより向上させる例示部分を取得することができる。
【0057】
その理由は、有用性判断部が、利用者により選択される選択部分の類似構造判定における有用性を判断し、有用性がないと判断された場合は、視覚的特徴類似部分抽出部が、選択部分に対して視覚的特徴が類似する視覚的特徴類似部分を抽出するからである。そして、視覚的特徴類似部分に前述の有用性があると判断されれば、例示部分出力部が、利用者により選択された選択部分の代わりに視覚的特徴類似部分を、例示部分として出力するからである。これにより、本実施の形態としての構造化文書処理装置は、類似構造判定対象として適切な例示部分に視覚的特徴が類似している部分が誤って選択されてしまったケースに対応できる。このような場合、間違えて選択された選択部分には、類似構造判定上有用となる情報が含まれないことが多い。そのような場合であっても、本実施の形態としての構造化文書処理装置は、選択部分に視覚的特徴が類似する部分のうち、類似構造判定の上で有用性があると判断される部分を、選択部分の代わりに例示部分として出力することになる。このように、本実施の形態としての構造化文書処理装置は、例示部分として指定された部分が類似構造判定において有用であるか否かをチェックし、有用でない場合は、その指定された部分に視覚的特徴が類似する部分のうち有用である部分を用いて、指定された部分を置き換える。これにより、本実施の形態としての構造化文書処理装置は、類似構造判定精度をより向上させる例示部分を出力することができる。
【0058】
また、本発明の第1の実施の形態としての構造化文書処理システムは、構造化文書の一部分を対象とした類似構造判定精度を向上させることができる。
【0059】
その理由は、本発明の第1の実施の形態としての構造化文書処理装置によって取得される、類似構造判定の上で有用性があると判断された例示部分を用いて類似構造判定処理を行うからである。
【0060】
(第2の実施の形態)
次に、本発明の第2の実施の形態について、図面を参照して説明する。本発明の第2の実施の形態としての構造化文書処理システム2は、本発明の第1の実施の形態としての構造化文書処理システム1に対して、構造化文書処理装置10に替えて構造化文書処理装置20を備える点が異なる。
【0061】
本発明の第2の実施の形態としての構造化文書処理装置20の機能ブロック構成を図5に示す。なお、構造化文書処理装置20のハードウェア構成については、本発明の第1の実施の形態としての構造化文書処理装置10を構成するコンピュータ装置と同様なコンピュータ装置によって構成されるため、本実施の形態における詳細な説明を省略する。
【0062】
図5において、構造化文書処理装置20は、本発明の第1の実施の形態としての構造化文書処理装置10に対して、構造化文書表示部11に替えて構造化文書表示部21と、選択部分取得部12に替えて選択部分取得部22と、例示部分出力部15に替えて例示部分出力部25とを備える点が異なる。
【0063】
構造化文書表示部21は、本発明の第1の実施の形態における構造化文書表示部11と同様に構成されることに加えて、次のように構成される。構造化文書表示部21は、選択部分取得部22によって取得された選択部分が有用性条件を満たさない場合に、その選択部分、および、有用性条件を満たす視覚的特徴類似部分をそれぞれ選択可能に表示する。例えば、構造化文書表示部21は、表示中の構造化文書において、有用性条件を満たさないと判断された選択部分の領域の背景色と、有用性条件を満たすと判断された視覚的特徴類似部分の領域の背景色とを、他の領域と異なる各色にそれぞれ変化させてもよい。例えば、構造化文書表示部21は、有用性条件を満たさないと判断された選択部分の領域の背景色を赤色に変化させ、有用性条件を満たすと判断された視覚的特徴類似部分の領域の背景色を青色に変化させてもよい。これにより、構造化文書表示部21は、各領域がクリック操作により選択可能であることを認識可能に表示することができる。
【0064】
選択部分取得部22は、本発明の第1の実施の形態における選択部分取得部12と同様に構成されることに加えて、選択部分および視覚的特徴類似部分のいずれが選択されたかを判断する。例えば、選択部分取得部22は、有用性条件を満たさない選択部分の領域、および、有用性条件を満たす視覚的特徴類似部分の領域のいずれかに対するクリック操作を検知すると、検知した領域に対応する部分が選択されたと判断してもよい。
【0065】
例示部分出力部25は、有用性判断部13によって選択部分が有用性条件を満たさないと判断された場合で、視覚的特徴類似部分の少なくとも1つが有用性条件を満たすと判断された場合には、選択部分取得部22による判断にしたがって、選択部分および視覚的特徴類似部分のいずれかを例示部分として出力する。
【0066】
以上のように構成された構造化文書処理装置20の動作について、図6を参照して説明する。
【0067】
まず、構造化文書処理装置20は、ステップS1〜S7まで、本発明の第1の実施の形態としての構造化文書処理装置10と同様に動作する。
【0068】
ステップS7において、視覚的特徴類似部分に有用性が有ると判断された場合、構造化文書表示部21は、ステップS1で選択された選択部分、および、ステップS7で有用性が有ると判断された視覚的特徴類似部分のそれぞれに対応する領域を選択可能に表示する(ステップS21)。もし、ステップS5で複数の視覚的特徴類似部分が抽出され、ステップS7で複数の視覚的特徴類似部分に有用性が有ると判断された場合、構造化文書表示部21は、選択部分、および、有用性がある各視覚的特徴類似部分の領域を、それぞれ選択可能に表示すればよい。
【0069】
次に、選択部分取得部22は、ステップS21で表示された選択部分および視覚的特徴類似部分の各領域のいずれが選択されたかを判断する(ステップS22)。
【0070】
ここで、視覚的特徴類似部分の領域が選択された場合、例示部分出力部25は、ステップS8を実行し、該当する視覚的特徴類似部分を、類似構造判定の例示部分として、類似構造判定装置90に出力する。
【0071】
一方、選択部分の領域が選択された場合、例示部分出力部25は、ステップS4を実行し、ステップS2で取得された選択部分を、類似構造判定の例示部分として、類似構造判定装置90に出力する。
【0072】
以上で、構造化文書処理装置20は動作を終了する。
【0073】
そして、類似構造判定装置90は、ステップS4またはステップS8において出力された例示部分に類似する部分構造を有する部分を、他の構造化文書において特定する。
【0074】
次に、本発明の第2の実施の形態の効果について述べる。
【0075】
本発明の第2の実施の形態としての構造化文書処理装置は、ある構造化文書の一部分の例示部分に対して類似する部分構造を有する部分を、他の構造化文書において特定する際に、類似構造判定精度をさらに向上させる例示部分を取得することができる。
【0076】
その理由は、任意の構造化文書において利用者によって指定された選択部分に類似構造判定上の有用性が無く、選択部分に類似する視覚的特徴類似部分に有用性がある場合、構造化文書表示部および選択部分取得部が、選択部分および視覚的特徴類似部分のいずれを例示部分とするかを利用者に問い合わせるからである。つまり、本実施の形態としての構造化文書処理装置は、任意の構造化文書において利用者によって選択部分が指定されたとき、後段の類似構造判定装置における類似構造判定の例示部分として選択部分より有用な部分があれば、その有用な部分を利用者に示唆するからである。そして、本実施の形態としての構造化文書処理装置は、いずれの部分が例示部分として適切であるかのフィードバック情報に基づいて、例示部分を出力するからである。その結果、本実施の形態としての構造化文書処理装置は、選択部分に有用性がなく、視覚的特徴類似部分に有用性があると判定した場合であっても、利用者の意図と異なる視覚的特徴類似部分を例示部分とすることがないからである。
【0077】
(第3の実施の形態)
次に、本発明の第3の実施の形態について、図面を参照して説明する。本発明の第3の実施の形態では、本発明の第2の実施の形態としての構造化文書処理装置20を用いて、企業内イントラネット上のウェブサイトから所望の部分をクリッピングするシステム開発において所望部分のサンプルとなる例示部分を設定する具体例について説明する。
【0078】
なお、本実施の形態において、本発明における構造化文書として、HTML文書を適用するものとする。また、本実施の形態において、本発明における構造化文書を構成する部分として、HTML文書の構造をDOMによって表現した際の各要素を適用するものとする。また、本実施の形態において、選択部分および視覚的特徴類似部分は、DOMの要素単位で選択または抽出されるものとする。また、本実施の形態において、選択部分および視覚的特徴類似部分は、XPath(XML Path Language)で表現されるものとする。
【0079】
まず、本実施の形態における構造化文書処理装置20の構成について、図7を参照して説明する。なお、構造化文書処理装置20は、図2に示したようなハードウェア構成を備えたコンピュータ装置単体によって構成することも可能であるが、本実施の形態では、端末およびプロクシサーバによって構成される例について説明する。図7において、構造化文書処理装置20は、端末201およびプロクシサーバ202によって構成される。ここで、端末201およびプロクシサーバ202は、それぞれ図2に示したようなハードウェア構成を備えたコンピュータ装置によって構成可能である。ただし、プロクシサーバ202は、表示装置1005および入力装置1006を有していなくてもよい。また、端末201およびプロクシサーバ202は、LAN(Local Area Network)によって接続されているものとする。
【0080】
端末201には、指定されたURLにアクセスすることによりURLが示す構造化文書をダウンロードし、構造を解析してレンダリング表示するブラウザアプリケーション(以下、単にブラウザとも記載する)があらかじめインストールされているものとする。また、このブラウザは、JavaScript(登録商標)によって記載されたコンピュータ・プログラムを実行する機能も有するものとする。
【0081】
プロクシサーバ202は、クリッピング開発サイトを構成するファイル群をあらかじめ記憶している。クリッピング開発用のサイトは、クリッピング開発サイトの初期ページに該当するHTML文書、および、構造化文書処理装置20の各機能ブロックを実現するJavaScript(登録商標)ファイル等によって構成される。
【0082】
また、プロクシサーバ202には、要求されたURLに対応する構造化文書を要求元に返信するウェブサーバアプリケーションがあらかじめインストールされているものとする。また、プロクシサーバ202は、イントラネットに接続されている。そして、プロクシサーバ202は、端末201から要求されたURLに対応する構造化文書を自装置で保持していない場合は、イントラネット上のそのURLに対応するノードにアクセスする。これにより、プロクシサーバ202は、要求されたURLに対応する構造化文書を取得し、端末201に返信するものとする。
【0083】
このように、本実施の形態では、構造化文書処理装置20を構成する各機能ブロックは、プロクシサーバ202の記憶装置に記憶されたJavaScript(登録商標)ファイルが、端末201にダウンロードされ、ブラウザによって実行されることによって実現される。
【0084】
以上のように構成された構造化文書処理装置20の動作の具体例について以下に説明する。
【0085】
まず、端末201は、プロクシサーバ202に要求することにより、クリッピング開発サイトの初期ページに相当するHTML文書を取得して、表示装置に表示する。例えば、クリッピング開発サイトの初期ページに相当するHTML文書の一例は、図8に示すようなものとなる。端末201は、このようなHTML文書を解析してレンダリングすることにより、URLの入力フォームを表示装置に表示する。
【0086】
次に、端末201は、入力装置を介して、クリッピング対象となるイントラネット上のウェブサイトのURLを取得する。例えば、端末201は、前述のURLの入力フォームに入力されたテキストデータを、クリッピング対象のURLとして取得すればよい。そして、端末201は、取得したURLをプロクシサーバ202に送信することにより、プロクシサーバ202を介して所望のウェブサイトを構成するHTML文書を取得する。このとき、プロクシサーバ202は、要求されたURLのHTML文書に、各機能ブロックを実現するJavaScript(登録商標)ファイルを読み込むためのタグを埋め込む。図9に、そのようなタグが埋め込まれたHTML文書の一例を示す。図9において、網掛けで示した部分が、JavaScript(登録商標)ファイルを読み込むためのタグである。この例では、本実施の形態としての構造化文書処理装置20を構成する機能ブロックごとに、対応するJavaScript(登録商標)ファイルがあらかじめ用意されている。そして、プロクシサーバ202は、このようなタグが埋め込まれたHTML文書と、読み込み対象のJavaScript(登録商標)ファイルとを、端末201に対して送信する。
【0087】
端末201は、プロクシサーバ202から取得した構造化文書を、レンダリングして表示する。また、端末201は、取得した構造化文書に埋め込まれたタグにしたがってJavaScript(登録商標)ファイルを読み込み、そのJavaScript(登録商標)ファイルに記載されたコンピュータ・プログラムを実行する。これにより、構造化文書表示部21、選択部分取得部22、有用性判断部13、視覚的特徴類似部分抽出部14、および、例示部分出力部25の各機能ブロックが、端末201において展開される。
【0088】
次に、構造化文書表示部21は、表示中のHTML文書のDOMの各要素に対応する領域におけるマウスオーバを検知すると、その領域の背景色を変化させる。また、構造化文書表示部21は、各要素に対応する領域における右クリックを検知すると、「この部分をクリッピングする」という選択肢を含むメニューを表示する(図6のステップS1)。
【0089】
次に、選択部分取得部22は、上述のメニューにおける「この部分をクリッピングする」選択肢に対するクリックを検知すると、対応する要素を選択部分として取得する(図6のステップS2)。
【0090】
例えば、図10(a)に示すような構造化文書が、図10(b)に示すようにレンダリングされて表示されていることを想定する。図10(b)における領域Aは、図10(a)に示した構造化文書の要素Aに対応する領域である。要素Aは、id属性やclass属性が設定されていないdiv要素である。また、図10(b)における領域Bは、図10(a)に示した構造化文書の要素Bに対応する領域である。要素Bは、要素Aの親要素であり、かつ、id属性が設定されたdiv要素である。このとき、構造化文書表示部21は、領域Aに対するマウスオーバを検知して領域Aの背景色を変化させたとする。さらに、構造化文書表示部21は、領域Aにおける右クリックを検知して、前述のようなメニューを表示したとする。そして、選択部分取得部22は、「この部分をクリッピングする」という選択肢のクリックを検知したとする。その結果、選択部分取得部22は、領域Aに対応する要素AのXPathを、選択部分として取得する。以降、選択部分として取得された要素Aを、選択部分Aとも記載する。
【0091】
次に、有用性判断部13は、選択部分Aが有用性条件を満たすか否かを判断する(図6のステップS3)。
【0092】
ここで、本実施の形態における有用性判断部13による有用性判断例について説明する。
【0093】
例えば、有用性判断部13は、id属性が設定されている要素を識別性有りとみなし、その要素は有用性条件を満たすと判断する。
【0094】
また、有用性判断部13は、id属性が設定されておらずclass属性値が設定されている要素について、次のようにして識別性の有無を判断する。ここで、ある要素に、“<div class=”category1 category2”>”のように、1つ以上のclass属性値が設定されていることを想定する。このとき、有用性判断部13は、このHTML文書内でcategory1をclass属性値に持つ要素と、category2をclass属性値に持つ要素とを検索する。そして、有用性判断部13は、category1およびcategory2のうち、ヒット数が最小となるclass属性値を特定する。そして、有用性判断部13は、最小のヒット数が閾値以下であれば、そのclass属性値が設定された要素は識別性を有するとみなし、有用性条件を満たすと判断する。例えば、category1をclass属性値に持つ要素のヒット数が2であり、category2をclass属性値に持つ要素のヒット数が5であり、閾値が2に設定されていれば、有用性判断部13は、“<div class=”category1 category2”>”を識別性有りとみなし、この要素を有用性ありと判断する。
【0095】
このようにして、有用性判断部13は、選択部分Aが、有用性条件を満たす要素であるか否かを判断する。この動作例では、選択部分Aが、id属性およびclass属性のいずれも有していないので、有用性判断部13は、選択部分Aが有用性条件を満たさないと判断する。
【0096】
次に、選択部分Aが有用性条件を満たさないと判断されたため、視覚的特徴類似部分抽出部14は、選択部分Aの視覚的特徴類似部分を検索する(図6のステップS5)。具体的には、視覚的特徴類似部分抽出部14は、選択部分Aの表示上の領域を特定し、特定した領域の絶対座標、幅、高さを算出する。また、視覚的特徴類似部分抽出部14は、このHTML文書内の他の要素のうち、選択部分Aの要素と同一種類の要素を検出する。ここで、同一種類の要素とは、HTML文書においては、同一のタグ名を持つ要素であるといえる。例えば、要素Aがdiv要素であれば、視覚的特徴類似部分抽出部14は、他のdiv要素を検出する。そして、視覚的特徴類似部分抽出部14は、検出した各要素についても、表示上の領域の絶対座標、幅、高さをそれぞれ算出する。そして、視覚的特徴類似部分抽出部14は、検出した他の要素のうち、選択部分Aに対して絶対座標、幅、高さの差が全て閾値以内である要素を、視覚的特徴類似部分として抽出する。
【0097】
この例では、要素Bは、選択部分Aと同一のdiv要素である。また、選択部分Aおよび要素Bの表示上の領域の絶対座標、幅、高さの差が閾値以内であったものとする。そこで、視覚的特徴類似部分抽出部14は、要素Bを視覚的特徴類似部分Bとして抽出する。以降、要素Bを、視覚的特徴類似部分Bとも記載する。
【0098】
次に、有用性判断部13は、視覚的特徴類似部分Bが、有用性条件を満たす要素であるか否かを判断する(図6のステップS7)。この例では、視覚的特徴類似部分Bは、id属性を有する要素である。そこで、有用性判断部13は、視覚的特徴類似部分Bは有用性条件を満たすと判断する。
【0099】
次に、視覚的特徴類似部分Bが有用性条件を満たすと判断されたので、構造化文書表示部21は、選択部分Aに対応する領域と、視覚的特徴類似部分Bに対応する領域とをそれぞれ選択可能に表示する(図6のステップS21)。例えば、図10(c)に示すように、構造化文書表示部21は、選択部分Aの領域Aの背景色と、視覚的特徴類似部分Bの領域Bの背景色をそれぞれ変化させるとともに、いずれかの領域をクリックするようメッセージを表示してもよい。
【0100】
ここで、選択部分取得部22によって、領域Bにおけるクリック操作が検出されたとする(図6のステップS22)。そこで、例示部分出力部25は、視覚的特徴類似部分BのXPathを、後段の類似構造判定装置90に出力する(図6のステップS8)。
【0101】
一方、ステップS22において、選択部分取得部22によって、領域Aにおけるクリックが検出されたとする。この場合、例示部分出力部25は、選択部分AのXPathを、類似構造判定装置90に出力する(図6のステップS4)。
【0102】
あるいは、ステップS2において、選択部分取得部22によって要素Bが選択部分として取得された場合を想定する。この場合、ステップS3において、選択部分Bは、id属性を有するため、有用性条件を満たすと判断されることになる。そこで、例示部分出力部25は、ステップS4を実行し、選択部分BのXPathを、類似構造判定装置90に出力する。
【0103】
以上で、構造化文書処理装置20の動作の具体例の説明を終了する。
【0104】
なお、本実施の形態において、類似構造判定装置90には、ウェブサイトを構成するHTML文書群から、例示部分に類似する部分構造を有する部分を収集(クリッピング)する装置を適用可能である。また、このような類似構造判定装置90は、収集した部分に対する適切性の正誤を表すフィードバック情報を取得することにより、その後の類似構造判定処理の精度を向上させる(学習する)機能を有するものであってもよい。また、類似構造判定装置90は、プロクシサーバ202によって構成されてもよい。
【0105】
次に、本発明の第3の実施の形態の効果について述べる。
【0106】
本発明の第3の実施の形態としての構造化文書処理装置は、クリッピングに関する技術的知識量の少ない利用者に利用される場合であっても、クリッピング対象のサンプルとして有用な例示部分を取得することができる。
【0107】
その理由は、有用性判断部が、選択部分取得部によって取得された選択部分について、HTML文書における識別性を有していないと判断すると、視覚的特徴類似部分抽出部が、選択部分と同一種類の他の要素の中から、選択部分の表示領域との絶対座標、幅、高さの差が閾値以内である要素を視覚的特徴類似部分として抽出するからである。そして、例示部分出力部が、選択部分および識別性を有する視覚的特徴類似部分うち、利用者により選択された一方を例示部分として、類似構造判定装置に出力するからである。
【0108】
これにより、本実施の形態としての構造化文書処理装置は、HTML言語、JavaScript(登録商標)、および、類似構造判定アルゴリズム等に関する技術的知識の少ない利用者によって、HTML文書における識別性を有していない要素が例示部分として選択された場合であっても、識別性を有する要素に置き換えて類似構造判定装置に出力することが可能となる。その結果、類似構造判定装置は、そのような例示部分に対する類似構造判定精度を向上させることができる。
【0109】
また、本発明の第3の実施の形態としての構造化文書処理装置は、例示部分として指定された選択部分の有用性を、より適切に判断することができる。
【0110】
その理由は、属性値が一意であるよう規定されたid属性を有することや、属性値の出現回数が閾値以下のclass属性を有することを、有用性条件として用いるからである。ここで、例えば、id属性などのように属性値が一意であるよう規定された属性や、class属性などのように要素の分類を表すクラス名が属性値に設定される属性は、構造化文書の構造に関する作成者の意図がその属性値に反映されていることが多い。したがって、このような属性を有する例示部分は、構造化文書の構造に関する作成者の意図をより確実に反映した類似構造の判定に有用であるといえるからである。
【0111】
(第4の実施の形態)
次に、本発明の第4の実施の形態について、図面を参照して説明する。本発明の第4の実施の形態としての構造化文書処理システム4は、本発明の第2の実施の形態としての構造化文書処理システム2に対して、構造化文書処理装置20に替えて構造化文書処理装置40を備える点が異なる。
【0112】
本発明の第4の実施の形態としての構造化文書処理装置40の機能ブロック構成を図11に示す。なお、構造化文書処理装置40のハードウェア構成については、本発明の第1の実施の形態としての構造化文書処理装置10を構成するコンピュータ装置と同様なコンピュータ装置によって構成されるため、本実施の形態における詳細な説明を省略する。
【0113】
図11において、構造化文書処理装置40は、本発明の第2の実施の形態としての構造化文書処理装置20に対して、構造化文書表示部21に替えて構造化文書表示部41と、選択部分取得部22に替えて選択部分取得部42と、例示部分出力部25に替えて例示部分出力部45とを備え、さらに、例示部分保持部47と、例示部分候補特定部48とを備える点が異なる。ここで、構造化文書処理装置40が、図2に示したようなハードウェア構成を備えるコンピュータ装置によって構成される場合、例示部分保持部47は、記憶装置1004によって構成される。また、例示部分候補特定部48は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001によって構成される。なお、構造化文書処理装置40の各機能ブロックを構成するハードウェア構成は、上述の構成に限定されない。
【0114】
例示部分保持部47は、過去に例示部分出力部45から出力された例示部分を表す情報を保持する。例示部分保持部47が保持する情報の一例を図12に示す。図12の例では、例示部分保持部47は、例示部分を表す情報として、その例示部分を含む構造化文書を一意に示すURLと、例示部分を表すXPathと、属性マップ情報とを保持している。ここで、属性マップ情報とは、例示部分に含まれる全ての属性および属性値のペアである。
【0115】
例示部分候補特定部48は、構造化文書表示部41で表示対象となっている構造化文書において、例示部分保持部47に保持された例示部分に類似する例示部分候補を特定する。例えば、例示部分保持部47に図12に示すような情報が保持されている場合、例示部分候補特定部48は、対象の構造化文書のURLと同一ドメインのURLに対応付けられた例示部分の属性マップ情報に基づいて、例示部分候補を特定してもよい。具体的には、例示部分候補特定部48は、対象の構造化文書を構成する要素のうち、含まれる属性およびその属性値のペアが、同一ドメインのURLに対応付けられた例示部分の属性マップ情報にマッチする割合が閾値以上の要素を、例示部分候補としてもよい。
【0116】
構造化文書表示部41は、表示対象の構造化文書において、例示部分候補に対応する領域を選択可能に表示する。例えば、構造化文書表示部41は、例示部分候補に対応する領域の背景色をその他の領域と異なる色に変化させることにより、その例示部分候補がクリック可能であることを認識可能に表示してもよい。
【0117】
選択部分取得部42は、例示部分候補が選択されたか否かを判断する。そして、選択部分取得部42は、例示部分候補が選択されたと判断すると、例示部分候補を表す情報を例示部分出力部45に通知する。例えば、選択部分取得部42は、例示部分候補の領域におけるクリック操作を検知すると、例示部分候補を表す情報を例示部分出力部45に通知するようにしてもよい。なお、選択部分取得部42は、例示部分候補が選択されなかったことを表す情報を取得した場合(例えば、例示部分候補の領域外におけるクリック操作を検知した場合)、本発明の第2の実施の形態における選択部分取得部22と同様に構成される。
【0118】
例示部分出力部45は、本発明の第2の実施の形態における例示部分出力部25と同様に構成されることに加えて、選択部分取得部42から例示部分候補が通知された場合は、その例示部分候補を例示部分として出力する。
【0119】
以上のように構成された構造化文書処理装置40の動作について、図13を参照して説明する。
【0120】
まず、構造化文書表示部41は、任意の構造化文書を取得する(ステップS31)。この任意の構造化文書は、コンピュータ装置の記憶装置1004にあらかじめ記憶された構造化文書のうち、利用者により入力装置1006を介して指定されたものであってもよい。あるいは、この任意の構造化文書は、利用者により入力装置1006を介して指定されたURLから、ネットワークインタフェース1007を介して取得されたものであってもよい。
【0121】
次に、例示部分候補特定部48は、例示部分保持部47に保持されている例示部分を参照することにより、取得された構造化文書において例示部分候補を特定する(ステップS32)。例えば、例示部分候補特定部48は、例示部分保持部47に保持されている例示部分のうち、取得された構造化文書と同一ドメインのURLに対応付けられたものを特定する。そして、例示部分候補特定部48は、取得された構造化文書を構成する各要素について、含まれる属性および属性値のペアが、特定した例示部分の属性マップ情報にマッチする割合が閾値以上のものを、例示部分候補として特定するようにしてもよい。
【0122】
ここで、例示部分候補が特定されなかった場合(ステップS33でNo)、以降、構造化文書処理装置40は、図6のステップS1〜S8およびステップS21〜S22まで、本発明の第2の実施の形態としての構造化文書処理装置20と同様に動作して、例示部分を出力する。
【0123】
一方、ステップS32で例示部分候補が特定された場合(ステップS33でYes)、構造化文書表示部41は、ステップS31で取得した構造化文書を表示する。このとき、構造化文書表示部41は、例示部分候補の領域を選択可能に表示する(ステップS34)。例えば、前述のように、構造化文書表示部41は、例示部分候補の領域の背景色を他の部分と異なる色に設定して構造化文書を表示するようにしてもよい。
【0124】
次に、選択部分取得部42は、例示部分候補が選択されたか否かを判断する(ステップS35)。例えば、選択部分取得部42は、例示部分候補の領域におけるクリックを検知した場合、例示部分候補が選択されたと判断し、例示部分候補の領域の外部におけるクリックを検知した場合、例示部分候補が選択されなかったと判断してもよい。
【0125】
ここで、例示部分候補が選択されたと判断された場合、選択部分取得部42は、選択された例示部分候補を例示部分出力部45に通知する。そして、例示部分出力部45は、通知された例示部分候補を例示部分として、後段の類似構造判定装置90に出力する(ステップS36)。そして、構造化文書処理装置40は、動作を終了する。
【0126】
一方、ステップS35において、例示部分候補が選択されなかったと判断された場合、以降、構造化文書処理装置40は、図6のステップS1〜S8およびステップS21〜S22まで、本発明の第2の実施の形態としての構造化文書処理装置20と同様に動作して、例示部分を出力する。なお、ステップS35において、例示部分候補が選択されなかったと判断された場合、例示部分候補特定部48は、例示部分候補が特定された元となった例示部分を、例示部分保持部47から削除するようにしてもよい。
【0127】
以上で、構造化文書処理装置40の動作の説明を終了する。
【0128】
なお、本実施の形態において、例示部分保持部47が、例示部分を表す情報として、URL、XPath、および、属性マップ情報を保持する例について説明したが、例示部分として保持する情報はこれに限らない。例えば、例示部分保持部47は、属性マップ情報の代わりに例示部分に含まれる全ての情報を保持するようにしてもよい。例示部分保持部47は、過去に決定された例示部分と類似する部分を、任意の構造化文書において特定するために必要な情報を保持していればよい。
【0129】
また、例示部分保持部47は、例示部分を表す情報に加えて、その例示部分に対する処理内容を表すタスク情報を含んでいてもよい。例えば、タスク情報は、「クリッピング」であってもよいし、「背景色の変更」や「削除」などであってもよい。このようなタスク情報は、後段の類似構造判定装置90において、例示部分に類似する部分構造を有する部分が特定された際に、特定された部分に対する処理内容として利用される。
【0130】
次に、本発明の第4の実施の形態の効果について述べる。
【0131】
本発明の第4の実施の形態としての構造化文書処理装置は、類似構造判定精度をより向上させるような例示部分を連続的に指定する利用者の作業をより効率化することができる。
【0132】
その理由は、過去に出力された例示部分を例示部分保持部が保持しておくことにより、例示部分候補特定部が、過去の例示部分に類似する例示部分候補を特定するからである。そして、例示部分候補が適切であることを表すフィードバック情報が取得された場合に、例示部分出力部が、例示部分候補を例示部分として出力するからである。これにより、利用者は、類似構造判定のための例示部分を選択するために新たな構造化文書を開いたときに、過去に指定した例示部分が適切であるか否かを確認することができるからである。さらに、利用者は、過去に指定した例示部分が適切であると確認できれば、新たに例示部分を指定する作業を省略することができるからである。さらに、例示部分候補特定部が、選択されなかった例示部分候補に対応する元の例示部分を削除する構成とした場合、利用者は、過去に選択した例示部分が適切でない場合に、その例示部分の指定を取り消す作業を省略することができるからである。その結果、本発明の第4の実施の形態としての構造化文書処理装置は、例示部分の出力を繰り返すたびに、類似構造判定精度をより高める例示部分を出力することができることになる。これにより、本発明の第4の実施の形態としての構造化文書処理システムは、類似構造判定精度をより向上させることができる。
【0133】
(第5の実施の形態)
次に、本発明の第5の実施の形態について、図面を参照して説明する。本発明の第5の実施の形態では、本発明の第3の実施の形態と同様に、企業内イントラネット上のウェブサイトから所望の部分をクリッピングするシステム開発における本発明の適用例について説明する。ただし、本実施の形態では、所望部分のサンプルとなる例示部分として、複数のHTML文書からそれぞれ例示部分を連続的に取得する装置として、本発明の第4の実施の形態としての構造化文書処理装置40を適用する点が、本発明の第3の実施の形態に対して異なる。
【0134】
なお、本実施の形態において、本発明の第3の実施の形態と同様に、本発明における構造化文書として、HTML文書を適用するものとする。また、本発明における構造化文書を構成する部分として、HTML文書の構造をDOMによって表現した際の各要素を適用するものとする。また、本実施の形態において、選択部分および視覚的特徴類似部分は、DOMの要素単位で選択または抽出されるものとする。また、本実施の形態において、選択部分および視覚的特徴類似部分は、XPathで表現されるものとする。
【0135】
まず、本実施の形態における構造化文書処理装置40の構成について、図14を参照して説明する。構造化文書処理装置40は、図2に示したようなハードウェア構成を備えたコンピュータ装置単体によって構成することも可能であるが、本実施の形態では、端末およびプロクシサーバによって構成される例について説明する。図14において、構造化文書処理装置40は、端末401およびプロクシサーバ402によって構成される。なお、端末401およびプロクシサーバ402は、それぞれ図2に示したようなハードウェア構成を備えたコンピュータ装置によって構成可能である。ただし、プロクシサーバ402は、表示装置1005および入力装置1006を有していなくてもよい。また、端末401およびプロクシサーバ402は、LANによって接続されているものとする。
【0136】
本実施の形態において、構造化文書処理装置40を構成する各機能ブロックのうち、構造化文書表示部41、選択部分取得部42、有用性判断部13、視覚的特徴類似部分抽出部14、および、例示部分出力部45は、本発明の第3の実施の形態と同様に、JavaScript(登録商標)ファイルとしてプロクシサーバ402に格納され、端末401にダウンロードされブラウザによって実行されることにより実現される。例示部分保持部47は、プロクシサーバ402の記憶装置によって構成される。例示部分候補特定部48は、Java(登録商標)のコンピュータ・プログラムモジュールとしてプロクシサーバ402の記憶装置に格納され、プロクシサーバ402においてサーブレットとして実行されることにより実現される。
【0137】
以上のように構成された構造化文書処理装置40の動作の具体例について説明する。
【0138】
まず、端末401は、本発明の第3の実施の形態における端末201と同様に動作して、クリッピング開発サイトの初期ページを表示装置に表示する。
【0139】
そして、端末401は、本発明の第3の実施の形態における端末201と同様に動作することにより、入力装置を介してクリッピング対象のウェブサイトのURLを取得する。そして、端末401は、取得したURLをプロクシサーバ402に送信する。
【0140】
次に、プロクシサーバ402は、端末401から受信したURLで特定されるHTML文書をイントラネット上から取得する(図13のステップS31)。
【0141】
次に、プロクシサーバ402で動作する例示部分候補特定部48は、取得されたHTML文書において、例示部分保持部47に保持された例示部分に類似する例示部分候補を特定する(図13のステップS32)。例えば、前述のように、例示部分候補特定部48は、例示部分保持部47に保持された例示部分のうち、該当のHTML文書と同一ドメインのURLに対応づけられた過去の例示部分を特定する。そして、例示部分候補特定部48は、該当のHTML文書を構成する要素のうち、特定した例示部分の属性マップにマッチする属性および属性値のペアの割合が閾値以上の要素を、例示部分候補として特定してもよい。
【0142】
次に、例示部分候補特定部48は、該当のHTML文書において、例示部分候補として特定した要素に、例示部分候補であることを示す属性を付加する。
【0143】
そして、プロクシサーバ402は、例示部分候補の属性が付加されたHTML文書に対して、さらに、各機能ブロックを実現するJavaScript(登録商標)ファイルを読み込むためのタグを埋め込む処理を行う。そして、プロクシサーバ402は、処理後のHTML文書および各JavaScript(登録商標)ファイルを、端末401に対して送信する。
【0144】
次に、端末401は、プロクシサーバ402から取得したHTML文書を、ブラウザによってレンダリングして表示する。また、端末401は、構造化文書に埋め込まれたタグにしたがってJavaScript(登録商標)ファイルを読み込み、そのファイルに記載されたコンピュータ・プログラムモジュールを実行する。これにより、本実施の形態としての構造化文書表示部41、選択部分取得部42、有用性判断部13、視覚的特徴類似部分抽出部14、および、例示部分出力部45の各機能ブロックが、端末401において展開される。
【0145】
次に、構造化文書表示部41は、例示部分候補であることを示す属性が付加された要素に対応する領域の背景色を変化させる(図13のステップS34)。
【0146】
次に、選択部分取得部42は、例示部分候補の領域におけるクリック操作を検知すると(図13のステップS35でYes)、例示部分候補のXPathを、例示部分出力部45に通知する。そして、例示部分出力部45は、通知されたXPathを例示部分として、類似構造判定装置90に出力する(図13のステップS36)。そして、構造化文書処理装置40は、動作を終了する。
【0147】
一方、選択部分取得部42によって、例示部分候補の領域の外部におけるクリック操作が検知された場合(図13のステップS35でNo)、以降、構造化文書処理装置40は、本発明の第3の実施の形態としての構造化文書処理装置20と同様に、図6のステップS1から動作する。
【0148】
なお、選択部分取得部42は、ステップS35において例示部分候補の領域の外部におけるクリック操作が検知された場合、その例示部分候補が選択されなかったことを表す情報を、プロクシサーバ402に送信するようにしてもよい。この場合、選択されなかったことを表す情報を受信したプロクシサーバ402の例示部分候補特定部48は、その例示部分候補を特定した元となった例示部分を、例示部分保持部47から削除するようにしてもよい。このように動作する場合、例示部分候補特定部48は、例示部分候補を特定した際に、その例示部分候補と、例示部分とを対応付けて一時的に記憶しておくようにすればよい。
【0149】
ステップS36、ステップS4またはステップS8において、例示部分を出力すると、構造化文書処理装置40は、動作を終了する。
【0150】
以上で、構造化文書処理装置40の動作の具体例の説明を終了する。
【0151】
次に、本発明の第5の実施の形態の効果について述べる。
【0152】
本発明の第5の実施の形態としての構造化文書処理装置は、クリッピングシステムの開発において、クリッピング対象としたい例示部分を1つ以上のHTML文書から連続的に指定する利用者の作業を、より効率化するよう支援することができる。
【0153】
その理由は、例示部分保持部が、利用者によって過去に指定された例示部分を保持しておき、例示部分の指定のために新たなHTML文書が要求されたときに、例示部分候補特定部が、保持しておいた例示部分に類似する例示部分候補を特定するからである。そして、例示部分候補が適切であるとのフィードバック情報が取得された場合、例示部分出力部が、例示部分候補を例示部分として出力するからである。これにより、利用者は、過去に指定した例示部分が適切であるか否かを確認しながら、複数のHTML文書からそれぞれクリッピング対象とする例示部分を連続して指定する際の開発工数を削減することができる。また、適切でないとされた例示部分候補を例示部分保持部から削除する構成とする場合、本発明の第5の実施の形態としての構造化文書処理装置は、複数のHTML文書のそれぞれから取得される例示部分の出力を繰り返す度に、保持している例示部分の有用性を向上させていくことができることになる。
【0154】
なお、上述した本発明の各実施の形態において、各フローチャートを参照して説明した構造化文書処理装置の動作を、本発明のコンピュータ・プログラムとして構造化文書処理装置の記憶装置(記憶媒体)に格納しておき、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコード或いは記憶媒体によって構成される。
【0155】
また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。
【0156】
また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。
【0157】
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
構造化文書を構成する各部分を選択可能に表示領域に表示する構造化文書表示部と、
前記構造化文書を構成する部分のうち、前記構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得する選択部分取得部と、
前記構造化文書を構成する任意の部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断する有用性判断部と、
前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出する視覚的特徴類似部分抽出部と、
前記有用性判断部によって前記選択部分が前記有用性条件を満たさないと判断される場合、前記視覚的特徴類似部分抽出部によって抽出される前記視覚的特徴類似部分のうち、前記有用性判断部によって前記有用性条件を満たすと判断される部分を、前記選択部分の代わりに前記例示部分として出力する例示部分出力部と、
を備えた構造化文書処理装置。
(付記2)
前記有用性判断部は、前記構造化文書における識別性を有する部分を、前記有用性条件を満たす部分として前記判断を行うことを特徴とする付記1に記載の構造化文書処理装置。
(付記3)
前記有用性判断部は、前記構造化文書において一意に特定される属性値が設定されるよう規定された所定種類の属性を有することにより識別性を有する部分を、前記有用性条件を満たす部分として前記判断を行うことを特徴とする付記2に記載の構造化文書処理装置。
(付記4)
前記有用性判断部は、前記構造化文書における出現回数が閾値以下の属性値が設定された属性を有することにより識別性を有する部分を、前記有用性条件を満たす部分として前記判断を行うことを特徴とする付記2または付記3に記載の構造化文書処理装置。
(付記5)
前記視覚的特徴類似部分抽出部は、前記表示領域における前記選択部分の表示位置に対して閾値以下の距離の表示位置に表示される部分を、前記視覚的特徴類似部分として抽出することを特徴とする付記1から付記4のいずれか1つに記載の構造化文書処理装置。
(付記6)
前記視覚的特徴類似部分抽出部は、前記表示領域における前記選択部分の表示上の大きさとの差が閾値以下の大きさを有する部分を、前記視覚的特徴類似部分として抽出することを特徴とする付記5に記載の構造化文書処理装置。
(付記7)
前記構造化文書表示部は、前記選択部分が前記有用性条件を満たさない場合に、該選択部分および前記有用性条件を満たす視覚的特徴類似部分をそれぞれ選択可能にさらに表示し、
前記選択部分取得部は、前記選択部分および前記視覚的特徴類似部分のいずれが選択されたかを判断し、
前記例示部分出力部は、前記選択部分取得部の判断にしたがって前記選択部分および前記視覚的特徴類似部分のいずれか1つを前記例示部分として出力することを特徴とする付記1から付記6のいずれか1つに記載の構造化文書処理装置。
(付記8)
前記例示部分を保持する例示部分保持部と、
前記構造化文書において、前記例示部分保持部に保持された例示部分に類似する部分構造を有する例示部分候補を特定する例示部分候補特定部と、
をさらに備え、
前記構造化文書表示部は、前記例示部分候補を選択可能にさらに表示し、
前記選択部分取得部は、前記例示部分候補が選択されたか否かを判断し、
前記例示部分出力部は、前記例示部分候補が選択された場合は、前記例示部分候補を前記例示部分として出力することを特徴とする付記1から付記7のいずれか1つに記載の構造化文書処理装置。
(付記9)
付記1から付記8のいずれか1つに記載の構造化文書処理装置と、
前記構造化文書処理装置から出力された例示部分に類似する部分構造を有する部分を他の構造化文書において特定する類似構造判定装置と、
を備えた構造化文書処理システム。
(付記10)
構造化文書を構成する各部分を選択可能に表示領域に表示し、
前記構造化文書を構成する部分のうち、前記構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得し、
前記選択部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断し、
前記選択部分が前記有用性条件を満たさない場合、前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出し、
前記有用性条件を満たさない前記選択部分の代わりに、前記有用性条件を満たす前記視覚的特徴類似部分を前記例示部分として出力する、構造化文書処理方法。
(付記11)
前記構造化文書における識別性を有することを前記有用性条件として用いることを特徴とする付記10に記載の構造化文書処理方法。
(付記12)
構造化文書を構成する各部分を選択可能に表示領域に表示する構造化文書表示ステップと、
前記構造化文書を構成する部分のうち、構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得する選択部分取得ステップと、
前記選択部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断する有用性判断ステップと、
前記選択部分が前記有用性条件を満たさないと判断される場合、前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出する視覚的特徴類似部分抽出ステップと、
前記有用性条件を満たさない前記選択部分の代わりに、前記有用性条件を満たす前記視覚的特徴類似部分を前記例示部分として出力する例示部分出力ステップと、
をコンピュータ装置に実行させるコンピュータ・プログラム。
(付記13)
前記有用性判断ステップで、前記構造化文書において識別性を有する部分を、前記有用性条件を満たす部分として前記判断を行うことを特徴とする付記12に記載のコンピュータ・プログラム。
【符号の説明】
【0158】
1、2、4 構造化文書処理システム
10、20、40 構造化文書処理装置
11、21、41 構造化文書表示部
12、22、42 選択部分取得部
13 有用性判断部
14 視覚的特徴類似部分抽出部
15、25、45 例示部分出力部
47 例示部分保持部
48 例示部分候補特定部
90 類似構造判定装置
201、401 端末
202、402 プロクシサーバ
1001 CPU
1002 RAM
1003 ROM
1004 記憶装置
1005 表示装置
1006 入力装置
1007 ネットワークインタフェース

【特許請求の範囲】
【請求項1】
構造化文書を構成する各部分を選択可能に表示領域に表示する構造化文書表示部と、
前記構造化文書を構成する部分のうち、前記構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得する選択部分取得部と、
前記構造化文書を構成する任意の部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断する有用性判断部と、
前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出する視覚的特徴類似部分抽出部と、
前記有用性判断部によって前記選択部分が前記有用性条件を満たさないと判断される場合、前記視覚的特徴類似部分抽出部によって抽出される前記視覚的特徴類似部分のうち、前記有用性判断部によって前記有用性条件を満たすと判断される部分を、前記選択部分の代わりに前記例示部分として出力する例示部分出力部と、
を備えた構造化文書処理装置。
【請求項2】
前記有用性判断部は、前記構造化文書における識別性を有する部分を、前記有用性条件を満たす部分として前記判断を行うことを特徴とする請求項1に記載の構造化文書処理装置。
【請求項3】
前記有用性判断部は、前記構造化文書において一意に特定される属性値が設定されるよう規定された所定種類の属性を有することにより識別性を有する部分を、前記有用性条件を満たす部分として前記判断を行うことを特徴とする請求項2に記載の構造化文書処理装置。
【請求項4】
前記有用性判断部は、前記構造化文書における出現回数が閾値以下の属性値が設定された属性を有することにより識別性を有する部分を、前記有用性条件を満たす部分として前記判断を行うことを特徴とする請求項2または請求項3に記載の構造化文書処理装置。
【請求項5】
前記視覚的特徴類似部分抽出部は、前記表示領域における前記選択部分の表示位置に対して閾値以下の距離の表示位置に表示される部分を、前記視覚的特徴類似部分として抽出することを特徴とする請求項1から請求項4のいずれか1項に記載の構造化文書処理装置。
【請求項6】
前記構造化文書表示部は、前記選択部分が前記有用性条件を満たさない場合に、該選択部分および前記有用性条件を満たす視覚的特徴類似部分をそれぞれ選択可能にさらに表示し、
前記選択部分取得部は、前記選択部分および前記視覚的特徴類似部分のいずれが選択されたかを判断し、
前記例示部分出力部は、前記選択部分取得部の判断にしたがって前記選択部分および前記視覚的特徴類似部分のいずれか1つを前記例示部分として出力することを特徴とする請求項1から請求項5のいずれか1項に記載の構造化文書処理装置。
【請求項7】
前記例示部分を保持する例示部分保持部と、
前記構造化文書において、前記例示部分保持部に保持された例示部分に類似する例示部分候補を特定する例示部分候補特定部と、
をさらに備え、
前記構造化文書表示部は、前記例示部分候補を選択可能にさらに表示し、
前記選択部分取得部は、前記例示部分候補が選択されたか否かを判断し、
前記例示部分出力部は、前記例示部分候補が選択された場合は、前記例示部分候補を前記例示部分として出力することを特徴とする請求項1から請求項6のいずれか1項に記載の構造化文書処理装置。
【請求項8】
請求項1から請求項7のいずれか1項に記載の構造化文書処理装置と、
前記構造化文書処理装置から出力された例示部分に類似する部分構造を有する部分を他の構造化文書において特定する類似構造判定装置と、
を備えた構造化文書処理システム。
【請求項9】
構造化文書を構成する各部分を選択可能に表示領域に表示し、
前記構造化文書を構成する部分のうち、前記構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得し、
前記選択部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断し、
前記選択部分が前記有用性条件を満たさない場合、前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出し、
前記有用性条件を満たさない前記選択部分の代わりに、前記有用性条件を満たす前記視覚的特徴類似部分を前記例示部分として出力する、構造化文書処理方法。
【請求項10】
構造化文書を構成する各部分を選択可能に表示領域に表示する構造化文書表示ステップと、
前記構造化文書を構成する部分のうち、構造化文書の一部分の類似構造判定の対象となる例示部分として選択された選択部分を取得する選択部分取得ステップと、
前記選択部分が、前記類似構造判定において有用であることを示す有用性条件を満たすか否かを判断する有用性判断ステップと、
前記選択部分が前記有用性条件を満たさないと判断される場合、前記構造化文書を構成する部分のうち、前記選択部分に対して、前記表示領域における表示上の視覚的特徴が類似する視覚的特徴類似部分を抽出する視覚的特徴類似部分抽出ステップと、
前記有用性条件を満たさない前記選択部分の代わりに、前記有用性条件を満たす前記視覚的特徴類似部分を前記例示部分として出力する例示部分出力ステップと、
をコンピュータ装置に実行させるコンピュータ・プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2013−89149(P2013−89149A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2011−231282(P2011−231282)
【出願日】平成23年10月21日(2011.10.21)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】