説明

文書構造抽出装置,文書構造抽出方法及びその方法を実装した文書構造抽出プログラム

【課題】構造化文書を構成する文字の特徴に基づいて、該構造化文書から文書構造を抽出する。
【解決手段】まず、情報蓄積部1dが、文字の特徴に基づいて文書構造を特定し判定する判定基準を記憶する。次に、情報解析部1cが、構造化文書を解析し、文章と該文章を構成する文字の特徴を抽出する。そして、情報解析部1cが、その抽出された文字の特徴を、前記判定基準に照合し判定して文書構造を特定し抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、構造化文書を解析する技術に関するものである。
【背景技術】
【0002】
インターネットの普及によって、様々な情報が得られるようになってきた。インターネットの利用方法のうちの一つにウェブコンテンツの閲覧が知られている。ウェブコンテンツはHTML(HyperText Markup Language)文書や画像などからなり、HTML文書で記述されたとおりに、テキストや画像をブラウザ上に表示するものである。
【0003】
しかし、ウェブコンテンツはブラウザを使って利用されるだけでなく、音声ブラウザを始め様々なソフトウェアや装置を使って利用されている。様々なソフトウェアや装置、すなわち、様々なブラウザに対応できるように、ウェブコンテンツをデザインすることが求められている。
【0004】
言い換えれば、ウェブコンテンツに対しアクセシビリティの確保が求められ、多くの研究が行われている(例えば、特許文献1参照)。2004年のJIS(Japanese Industrial Standard) X8341−3の制定以来、特に自治体等の公共向けサイトではウェブアクセシビリティに対応することが求められており、対応したサイトも増えている。アクセシビリティの観点から悪いデザインの部分を指摘し、修正を促すチェックツールが開発されている。
【0005】
近年、スタイルシートの普及によって、HTML文書の要素に頼らなくとも見栄えを自由にデザインできるようになってきた。本来、スタイルシートは誤ったHTMLの記述をなくすことが目的の仕組みであった。しかし、HTML文書が適切に構造化されなくても、スタイルシートで外観の構造を制御できるようになってきた。
【特許文献1】特開2005−56151号公報(段落[0035]〜[0038]等)。
【発明の開示】
【発明が解決しようとする課題】
【0006】
上述のように、様々なブラウザ等に対応するためには、HTML文書(即ち、構造化文書)の構造を明確に記述することが必要である。特に、見出し部分をHTMLにおけるH要素(Hタグ、構造化要素のうちの一つであって構文的かつ明示的に見出し示すタグ)で記述することにより、音声ブラウザで読み上げても、見出しであることを伝えることができる。
【0007】
ウェブコンテンツは視覚的に情報を伝えることを中心に発展してきた。そのため、外観上は見出しに見えるものの、HTML文書には見出しを表わすH要素が無いものもある。これは、アクセシビリティの観点からは悪いデザインのHTML文書といえる。
【0008】
ウェブコンテンツにH要素が適切に付与されてあれば、可視情報(見た目)以外で情報を表現するブラウザ、例えば、音声ブラウザでは、見出しの部分を判断し、効果音を鳴らすなどして、見出しであることを伝えることができる。しかし、H要素が適切に付与されてなければ、音声ブラウザでは、HTML文書中のどこが見出しであるかを表現できないという問題があった。
【0009】
また、HTML文書の悪いデザインを抽出するチェックツールを使ってチェックできる項目は、主に、HTML文書の文法チェックであった。すなわち、HTML文書内を調べて、主に、不適当なHTML要素の有無を判定することであった。そのため、H要素が付与されていない箇所で、本来的な意味ではどこにH要素を付与すべき(即ち、見出しとなりうる箇所である)か、というチェックは、従来のチェックツールでは不可能であった。つまり、本来的意味の(あるいは、暗黙的な)見出しの部分を識別できず、さらに、従来のチェックツールでは、HTML文書の意味的な文章構造に関する問題を抽出することはできないという問題があった。
【0010】
本発明は、前記課題に基づいてなされたものであって、構造化文書を構成する文字の特徴に基づいて、意味的な文章構造を定義付け、該構造化文書から該文書構造を抽出する文書構造抽出装置,文書構造抽出方法及びその方法を実装した文書構造抽出プログラムを提供することにある。
【課題を解決するための手段】
【0011】
前記課題の解決を図るために、請求項1記載の発明は、記憶装置,構造化文書取得手段を備え、該構造化文書取得手段から構造化文書を取得し、該構造化文書から文書構造を抽出する文書構造抽出装置であって、文字の特徴に基づいて前記文書構造を特定し判定する判定基準を前記記憶装置に記憶する情報蓄積手段と、前記構造化文書を解析し、文章と該文章を構成する文字の特徴を抽出する文字特徴抽出手段と、抽出された文字の特徴を、前記判定基準に照合し判定して文書構造を特定し抽出する文書構造抽出手段と、を備えることを特徴とする。
【0012】
請求項2記載の発明は、請求項1に記載の発明において、前記情報蓄積手段が、文字の特徴に基づいて見出しを特定し判定する判定基準を前記記憶装置に記憶する手段を備え、前記文字特徴抽出手段が、見出しに関する文字の特徴を抽出する見出し特徴抽出手段を備え、前記文書構造抽出手段が、前記見出しに関する文字の特徴を、前記見出しを特定する要素を判定する判定基準に照合し判定して、その文字の特徴を有する文字で構成された文章を見出しと見做して特定し抽出する見出し抽出手段を備える、ことを特徴とする。
【0013】
請求項3記載の発明は、請求項2に記載の発明において、前記見出し特徴抽出手段が、前記構造化文書中に前記文字の特徴が出現する度合いを示す希少度を取得する手段を備え、前記見出し抽出手段が、取得した希少度に基づいて、前記文字で構成された文章を見出しと見做して判定する手段を備える、ことを特徴とする。
【0014】
請求項4記載の発明は、請求項1に記載の発明において、前記情報蓄積手段が、文字の特徴に基づいてリストを特定し判定する判定基準を前記記憶装置に記憶する手段を備え、前記文字特徴抽出手段が、リストに関する文字の特徴を抽出するリスト特徴抽出手段を備え、前記文書構造抽出手段が、前記リストに関する文字の特徴を、前記リストを特定する要素を判定する判定基準に照合し判定して、その文字の特徴を有する文字で構成された文章をリストと見做して特定し抽出するリスト抽出手段を備える、ことを特徴とする。
【0015】
請求項5記載の発明は、記憶装置,構造化文書取得手段を備え、該構造化文書取得手段から構造化文書を取得し、該構造化文書から文書構造を抽出する装置に使用される文書構造抽出方法であって、文字の特徴に基づいて前記文書構造を特定し判定する判定基準を前記記憶装置に記憶する情報蓄積ステップと、前記構造化文書を解析し、文章と該文章を構成する文字の特徴を抽出する文字特徴抽出ステップと、抽出された文字の特徴を、前記判定基準に照合し判定して文書構造を特定し抽出する文書構造抽出ステップと、を有することを特徴とする。
【0016】
請求項6記載の発明は、請求項5に記載の発明において、前記情報蓄積ステップが、文字の特徴に基づいて見出しを特定し判定する判定基準を前記記憶装置に記憶するステップを有し、前記文字特徴抽出ステップが、見出しに関する文字の特徴を抽出する見出し特徴抽出ステップを有し、前記文書構造抽出ステップが、前記見出しに関する文字の特徴を、前記見出しを特定する要素を判定する判定基準に照合し判定して、その文字の特徴を有する文字で構成された文章を見出しと見做して判定する見出し抽出ステップを有する、ことを特徴とする。
【0017】
請求項7記載の発明は、請求項6に記載の発明において、前記見出し特徴抽出ステップが、前記構造化文書中に前記文字の特徴が出現する度合いを示す希少度を取得するステップを有し、前記見出し抽出ステップが、取得した希少度に基づいて、前記文字で構成された文章を見出しと見做して特定し抽出するステップを有する、ことを特徴とする。
【0018】
請求項8記載の発明は、請求項5に記載の発明において、前記情報蓄積ステップが、文字の特徴に基づいてリストを特定し判定する判定基準を前記記憶装置に記憶するステップを有し、前記文字特徴抽出ステップが、リストに関する文字の特徴を抽出するリスト特徴抽出ステップを有し、前記文書構造抽出ステップが、前記リストに関する文字の特徴を、前記リストを特定する要素を判定する判定基準に照合し判定して、その文字の特徴を有する文字で構成された文章をリストと見做して特定し抽出するリスト抽出ステップを有する、ことを特徴とする。
【0019】
請求項9記載の発明は、文書構造抽出プログラムであって、請求項5乃至8のいずれかに記載の文書構造抽出方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする。
【0020】
前記請求項1,5記載の発明は、文書構造を特定し判定する前記判定基準に基づいて、その文書構造を有する文章部分の有無が判明し、該文章部分を特定できる。
【0021】
前記請求項2,6記載の発明は、見出しを特定し判定する前記判定基準に基づいて、その見出しを有する文章部分の有無が判明し、見出しを特定できる。
【0022】
前記請求項3,7記載の発明は、文字に関する希少度を取得できる。
【0023】
前記請求項4,8記載の発明は、リストを特定し判定する前記判定基準に基づいて、そのリストを有する文章部分の有無が判明し、リストを特定できる。
【0024】
前記請求項9記載の発明は、請求項5乃至8のいずれかに記載の文書構造抽出方法をコンピュータプログラムとして記載できる。
【発明の効果】
【0025】
以上示したように請求項1,5の発明によれば、構造化文書から特定の文書構造を抽出できる。
【0026】
請求項2,6の発明によれば、構造化文書から見出しを抽出できる。
【0027】
請求項3,7の発明によれば、希少度に基づいた判定を行うことができる。
【0028】
請求項4,8の発明によれば、構造化文書からリストを抽出できる。
【0029】
請求項9の発明によれば、請求項5乃至8のいずれかに記載の文書構造抽出方法を実装したコンピュータプログラムを提供できる。
【0030】
これらを以ってコンテンツサービス技術分野に貢献できる。
【発明を実施するための最良の形態】
【0031】
以下、本実施形態における文書構造抽出装置を図面等に基づいて詳細に説明する。
図1中の文書構造抽出装置1は、各部を制御する制御部1a,ウェブコンテンツを受信し解析結果を送信する送受信部(例えば、HTTP(HyperText Transfer Protocol)プロトコルを実装した構造化文書取得手段を有する送受信部)1b,受信したウェブコンテンツを解析する情報解析部1c,解析に関する情報を蓄積する情報蓄積部1d,解析結果に基づいて情報を構成する情報構成部1e,キーボード、マウス等の入力装置を有する情報入力部1f,モニタやスピーカを有する情報出力部1gを備える。
【0032】
また、図1の文書構造抽出装置1は、ネットワーク100を介して、ウェブサーバ2と通信し、ウェブコンテンツ(即ち、HTMLで構成されたウェブコンテンツ、あるいは、HTML文書、あるいは、構造化文書)を受信し表示する。
【0033】
なお、本実施形態における文書構造抽出装置をパーソナルコンピュータで実現することもできる。例えば、CPU(Central Processing Unit)を含む制御部1a,送受信部1b,情報解析部1c,ハードディスク装置やメモリなどの記憶装置を含む情報蓄積部1d,情報構成部1eは、パーソナルコンピュータ本体に備えられても良い。また、本実施形態における文書構造抽出装置をブラウザ(例えば、インターネットブラウザ)の機能に含めても良い。本実施形態における文書構造抽出装置の処理で使用される情報(データ)は、予め備えられたハードディスク装置やメモリなどの記憶装置に記憶されても良い。
【0034】
[実施例1]
実施例1は、文字の特徴に基づいて文書構造の一つである見出しを抽出する例である。
【0035】
実施例1ではHTML文書の中の見出しを抽出する。まず、HTML文書の中の文字を抽出する。以下の説明における文字はテキストで表現されているとは限らない。例えば、画像中に文字の図形情報を含む場合、その画像を文字の特徴のひとつとして扱うこととする。
【0036】
HTML文書の明示的な文書構造を構成するHTML要素(すなわち、タグ)は、二種類に大別される。それらは、ブロックレベル要素とインライン要素である。ブロックレベル要素とは、見出しを表すH要素、段落を表すp要素、リストを表すol要素やul要素、テーブルを表すtable要素などである。一般的にこれらの要素の前後は改行される。一方、インライン要素は文章の一部分として含まれる要素で、リンク要素、強調要素などである。
【0037】
なお、以下の説明では、前記ブロックレベル要素が正しく使用されている、とは限らないため、改行を表すbr要素でタグ付けされたときにも別の文章として扱う。
【0038】
以上を考慮した、本実施例1における文章とその特徴の抽出手順を図2に基づいて説明する。なお、以下の説明で、図1中の符号と同じ符号のものの説明は省略する。
【0039】
まず、キーボードなどの情報入力部1fからURL(Uniform Resource Locator)を入力する(S101)。
【0040】
続いて、制御部1aを介し送受信部1bから、ネットワーク100を介して、入力されたURLのウェブサーバ2と通信し、ウェブコンテンツを送受信部1bにて受信する(S102)。
【0041】
続いて、受信したウェブコンテンツを情報蓄積部1dに記録する(S103)。
【0042】
続いて、記録されたウェブコンテンツを情報解析部1cで解析し、文章とそれを構成する文字の特徴を抽出し、その結果を情報蓄積部1dに記録する(S104:文字特徴抽出)。
【0043】
このときの抽出方法を以下に詳細に説明する。
【0044】
まず、HTML文書からタグを除いた部分を文章単位で抜き出す。なお、文章単位とは、前述したようにインライン要素である場合の他にも、br要素などによって改行されているときには、改行の前後で別文章とみなして抽出する。その際、文章に付加されているタグから、文字の特徴を合わせて抽出する。
【0045】
一般的に、外観で(目で見たときに)見出しであることを示すために、様々な工夫が施されている。例えば、見出しの次に本文があるとしたとき、見出しの文字が本文の文字よりも大きくなっているなどの方法がある。その他にも以下のような方法が考えられる。
(1)見出しと本文の文字の色が異なる。
(2)見出しと本文の文字のフォントが異なる。
(3)見出しが太字であり、本文の文字は太字ではない。
(4)見出しの部分のみ、文字の前にアイコンが付いている。
(5)見出しの部分のみ、文字が枠で囲まれている。
(6)見出しの部分のみ、周りの余白が広い。
(7)見出しと本文の文字の背景色が異なる。
(8)見出しと本文の文字の始まりの位置が異なる。
【0046】
なお、文字の特徴とは、上記のようなものとして説明するが、これらに限るものではない。
【0047】
また、上記の文字の特徴の表現方法としては、例えば、次のようなタグ付けされたものがある。
【0048】
<font=12px>タイトル</font>
上述のようにタグ付けされた場合には、文字の大きさを12px(pixel)として情報蓄積部1dに記録する。
【0049】
また、文字の大きさを指定するために、スタイルシートが使われている場合もある。例えば、対象となる文字にクラスやID(Identifier)でタグ付けして、そのクラスやIDに対応する表現方法をスタイルシートに記述する場合である。
【0050】
その場合には、スタイルシートを参照して文字の特徴を記録する。こうして、情報蓄積部1dには図3中の解析データT1のようなデータが記録される。なお、解析データT1は、ウェブページ内の行番号を示す行番号フィールドF11,判定結果フィールドF12,H要素の有無フィールドF13,文字列を含む文章フィールドF14,文字の特徴フィールドF15から構成される。さらに、前記文字の特徴フィールドF15は、大きさフィールドF151,フォント種類フィールドF152,文字色フィールドF153,背景色フィールドF154,太字フィールドF155,文字表現フィールドF156から構成される。
【0051】
本実施例1では、文字自体の特徴だけでなく、背景色も文字の特徴として記録する。例えば、図4に示すようなウェブページw1を解析すると図3のような結果となる。
【0052】
また、文字の図形情報を含む画像中の該文字を認識する場合には、一般的な画像認識の技術を使って、文字を抽出する。なお、同じ画像の中は一つの文章として認識する。その文字の特徴についても、画像認識技術を使って認識するが、その際に、文字画像であるというのも大きな特徴となるので、その旨を図3中の解析データT1の文字表現フィールドF156のように記録する。
【0053】
ここで、文字の特徴に基づいて、意味的に、その文字で構成された文(文字列)が見出しであるか否かを判定する(文書構造抽出)方法について説明する。
【0054】
前記見出しであるか否かを判定する方法は、見出しを特定する絶対的な特徴(即ち、意味的に見出しを判定するための文字の特徴から成る判定基準)を、あらかじめ情報蓄積部1dに記録しておき、その基準によって判定する方法である。即ち、前記判定基準が文字の特徴に基づいて意味的な文章構造を定義付けるものである。
【0055】
その際の判定基準の要素の一例が、図5中の判定基準表T2である。判定基準表T2に対象となる特徴フィールドF21の「文字の大きさ」の基準として、予め定めることができる基準である絶対基準フィールドF22が「14px以上」とあるため、解析データT1の1、2、4、7行目の文章が見出しとして判断される。この結果は解析データT1に追記され、図6の解析データT1Aの判定結果フィールドF12のように記録される。なお、判定結果フィールドF12では、見出し以外のものを本文として記録している。
【0056】
なお、判定基準表T2には判断基準が複数存在するが、これらの判断基準をすべて満たしたときに見出しと判断してもよいし、上記のように、最低ひとつの基準を満たしたときに見出しと判断してもよい。
【0057】
また、判定基準となる特徴は、あらかじめ定まらない場合もある。例えば、文字の大きさが相対的に大きい場合や、文字の色が他と異なる場合である。このような場合には、相対的な基準に、文字の特徴の希少度を計算し、比較する。
【0058】
この相対的な文字の特徴の希少度(即ち、文字の特徴が出現する度合い、出現頻度)に関する基準の例が、図7中の判定基準表T3である。判定基準表T3は、対象となる特徴フィールドF31,相対基準の採用順位フィールドF32から構成される。前記希少度は、各特徴(例えば、対象となる特徴フィールドF31の「文字の大きさ」)に当てはまる文章の文字数を数える。以下では、文字の大きさを数えた例について説明する。
【0059】
前記文字数を数えた結果が図8中の集計結果T4である。集計結果T4は、ウェブページ内の行番号を示す行番号フィールドF41,文章を構成する文字数を示す文字数フィールドF42,文章本体を示す文章フィールドF43,文章を表示する際の文字の大きさを示す大きさフィールドF44から構成される。また、それらを解析した結果が図9中の解析データT5である。解析データT5は、文字の大きさフィールドF51,順位フィールドF52,文字数フィールドF53から構成される。判定基準表T4及び解析データT5において、最も文字数の多い12pxの文字以外は見出しと判定する。例えば、20pxの文章はH1要素(第一の見出し)、16pxの文字はH2要素(第二の見出し)などと判定できる。
【0060】
また、文字の大きさ以外の特徴を合わせて判定する場合、矛盾が発生することが考えられるが、図7の判定基準表T3の相対基準の採用順位フィールドF32における採用順位に従って、対象となる特徴フィールドF31に関して、例えば、文字表現よりもフォントを、フォントよりも文字の大きさを基準として判定すればよい。
【0061】
また、図10中の判定基準表T6が、絶対的な基準(絶対基準フィールドF62)と相対的な基準(相対基準フィールドF63)とを組み合わせて使った例である。判定基準表T6は、対象となる特徴フィールドF61,絶対基準フィールドF62,相対基準フィールドF63,基準の採用順位フィールドF64から構成される。
【0062】
ここで、図2中のステップS105に戻ると、見出しと判定された部分にH要素でタグ付けされているか否かをチェックする。すなわち、図6中の解析データT1において、見出しと判断された1,2,4,7行目にH要素が付与されているか否かを判定する。次に、図11の解析データT1Bに示すような結果(H要素の有無フィールドF13)を得て、その結果を情報蓄積部1dに記録しておく。
【0063】
そして、情報構成部1eが、図12中の符号w2で示すように、H要素でタグ付けする必要がある箇所を示すように出力情報を構成し、該出力情報を情報出力部1gを介して表示する(S106)。
【0064】
以上のように、本実施例1によれば、前記抽出された見出しに対して適切な処理を施すように促す(あるいは、警告する)チェックツールを構成できる。
【0065】
[実施例2]
本実施例2は、文字の特徴に基づいて、意味的に文書構造の一つであるリスト(あるいは、リスト構造)を抽出し、抽出されたリスト情報をチェックツールではなく、ブラウザに応用した例である。
【0066】
本実施例2の動作フローを図13に基づいて説明する。なお、図13中のステップS201〜S203は、図2中のステップS101〜S103と同じ動作のため、説明を省略する。以下では、図13中のステップS204〜S208を説明する。
【0067】
ステップS204では、HTML文書の情報を解析する。なお、以下では、実施例1と同様に図4のウェブページの解析を一例として説明する。
【0068】
図4中の解析データT1の最後の3行はリストと考えられる。リストの特徴は、例えば、リスト要素を構成する文字列の先頭に同じ印(即ち、リスト要素先頭文字)「・」が付与されていることである。また、インデントの位置が同じという特徴も有る。ここでは、これら2つの特徴を用いて、リストを判別する方法を説明する。ただし、リストの特徴は、これらの特徴に限るものではない。
【0069】
また、図4のようなウェブページを表現するために、テーブル(或いは、テーブル構造)を使うことが広く知られている。テーブルでウェブページの外観(見た目)を制御しても、HTML文書では適切なタグ付けされていない(例えば、H要素やul要素、ol要素などが使われていない)ということになるため、適切な文書構造を抽出するには問題となる。以下では、テーブルが使用されているウェブページの解析方法も説明する。
【0070】
ステップS204は、図14のようなHTML文書の構造HTを解析する。構造HTは、テーブルで区切られているので、テーブルのセルの中を文章として定義すると、例えば、1行1列目に「A社サイト」、2行1列目は空欄、2行2列目には「企業理念」と記載されている。このようなテーブルによる構造を解析すると図15中の解析データT7のようになる。解析データT7は、行番号フィールドF71,文章フィールドF72,文章が位置する行番号を示す行フィールドF73,文章の先頭が位置する列番号を示す列フィールドF74,対象要素の有無フィールドF75,要素の種別フィールドF76から構成される。
【0071】
前記解析データT7の列フィールドF74によってインデントの位置を解析できるため、8,9,10行目はともに3,4列目にある文章となっており、同じインデントの位置であることがわかる。
【0072】
次に、リスト要素の先頭に同じ印が付与されているか否かを判定する。例えば、その判定方法の一つは、リストである絶対的な特徴を、情報蓄積部1dにあらかじめ記録しておき、その特徴に基づく基準によって判定する方法である。
【0073】
例えば、その基準とは、「・」、「○」、「●」などの印(リスト要素先頭文字)を情報蓄積部1dに記録しておくものである。また、数字で表されるリストはol要素で表されるため、数字である場合も判定できる。図15中の解析データT7では、8,9,10行目に、あらかじめ登録してあった「・」を構造HT中に発見したため、要素の種別フィールドF76にその旨を記載されている。
【0074】
ここで、「・」がリストの印(リスト要素先頭文字)であると判定できたため、その直後の文章、例えば、「サイトマップ」,「プライバシーポリシー」,「このサイトについて」の三つの文章をリスト要素で表されるべき文章であると判定できる。
【0075】
また、サイト特有の画像などを使っている場合には、判定基準となる印は、あらかじめ決めた候補の中にない場合もある。このような場合には、構造HT中に複数表れる印を調べればよい。
【0076】
文章を総当りで同じものか否かを判定するには、同じ印があるか否かを判別し、同じ印があれば、図16中の解析データT7Aの同じ要素の有無フィールドF75のように設定する。
【0077】
文章が画像である場合には、画像ファイル名が同じものか否かを判別すればよい。その画像ファイル名直後の文章(例えば、「サイトマップ」、「プライバシーポリシー」、「このサイトについて」の三つの文章)がリスト要素で表されるべき文章と判定できる。
【0078】
また、実施例1のように、印をあらかじめ登録しておく方法と同じ印があるかを判別する方法を合わせて使ってもよい。
【0079】
さて、図13の説明に戻ると、ステップS205では、リストを表す印(リスト要素先頭文字)が数字であるか、「・」などの記号であるかを判別する。前記印が数字であれば、ステップS207へ進み、その印の直後の文章をol要素でタグ付けして、情報蓄積部1dに記録する。
【0080】
ステップS205において、リストを表す印が数字でなければ、ステップS206へ進み、印の直後の文章をul要素でタグ付けして、情報蓄積部1dに記録する。
【0081】
そして、ステップS208で、情報蓄積部1dからol要素またul要素でタグ付けされた文章をリストと見做し、それらの文章を音声ブラウザで読み上げる。
【0082】
また、図15の解析データT7、図16の解析データT7Aでは、文章の始まる位置、インデントの位置が、列フィールドF74に列数で表されている。例えば、1行目の「A社サイト」は1列目、2,4,7行目は2列目、3,5,8,9,10行目は3列目、と設定されている。これらの列数を考慮し、最も下位の列にある文章を本文として、その他を見出しと判定することもできる。
【0083】
さらに、階層を考慮すれば、図17中の解析データT8のようにまとめられる。解析データT8は、行番号フィールドF81,付与すべき要素フィールドF82,文章フィールドF83,行フィールドF84,列フィールドF85,同じ要素の有無フィールドF86,要素の種別フィールドF87から構成される。例えば、図17の解析データT8の8,9,10行目の文章構造は、8,9,10行目の「・」を削除し、同じリスト群に属するので全体をul要素でタグ付けし、各行をli要素でタグ付けすればよい。
【0084】
以上のように、本実施例2では、文書構造を把握した上で、ウェブページの外観(見た目)から推測される情報構造にHTML文書を改変し、記録して、その記録されたHTML文書を音声ブラウザで読み上げるという、文書構造を補って読み上げる音声ブラウザを構成できる。
【0085】
なお、本実施形態の文書構造抽出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文書構造抽出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。
【0086】
以上のように、本実施形態は、一般的なウェブコンテンツは見栄えのよさを主にデザインされているため、見出しの部分はいくつかの特徴を持ってデザインされていることが多いこと、に着目して、構成されている。
【0087】
そのため、ウェブページの外観上、見出しに見える部分の有するHTML要素以外の特徴を抽出できれば、その特徴を持つ部分に対して、適切な警告(例えば、H要素を付与すべきであるという警告)を行うことができる。
【0088】
本実施形態では、見出しを表わす部分の有する特徴をあらかじめ登録しておき、その特徴を持つ部分の有無を調べ、見出し部分を抽出できる。
【0089】
以上、本発明の実施形態について説明したが、本発明は説明した実施形態に限定されるものでなく、各請求項に記載した範囲において各種の変形を行うことが可能である。
【0090】
例えば、上述の実施例では、HTML文書を対象にしたが、同じく構造化文書であるXML(eXtensible Markup Language)文書を対象にしても良い。
【図面の簡単な説明】
【0091】
【図1】本実施形態における文書構造抽出装置の構成図。
【図2】実施形例1における文書構造抽出装置の動作を示すフローチャート。
【図3】ウェブコンテンツに関する解析データの例1を示す図。
【図4】ウェブページの一例を示す図。
【図5】判定基準表の例1を示す図。
【図6】ウェブコンテンツに関する解析データの例2を示す図。
【図7】判定基準表の例2を示す図。
【図8】特定の文字の大きさに当てはまる文章の文字数を数えた結果を示す図。
【図9】ウェブコンテンツに関する解析データの例3を示す図。
【図10】判定基準表の例3を示す図。
【図11】ウェブコンテンツに関する解析データの例4を示す図。
【図12】H要素でタグ付けする必要がある箇所を表示した例を示す図。
【図13】実施形例2における文書構造抽出装置の動作を示すフローチャート。
【図14】文章におけるテーブルの一例を示す図。
【図15】ウェブコンテンツに関する解析データの例5を示す図。
【図16】ウェブコンテンツに関する解析データの例6を示す図。
【図17】ウェブコンテンツに関する解析データの例7を示す図。
【符号の説明】
【0092】
1…文書構造抽出装置
1a…制御部
1b…送受信部
1c…情報解析部
1d…情報蓄積部
1e…情報構成部
1f…情報入力部
1g…情報出力部
2…ウェブサーバ
100…ネットワーク
T1,T1A,T1B,T5,T7,T7A,T8…解析データ
F11…行番号フィールド
F12…判定結果フィールド
F13…H要素の有無フィールド
F14…文章フィールド
F15…文字の特徴フィールド
F151…大きさフィールド
F152…フォント種類フィールド
F153…文字色フィールド
F154…背景色フィールド
F155…太字フィールド
F156…文字表現フィールド
F21…特徴フィールド
F22…絶対基準フィールド
F31…対象となる特徴フィールド
F32…相対基準の採用順位フィールド
F41…行番号フィールド
F42…文字数フィールド
F43…文章フィールド
F44…大きさフィールド
F51…文字の大きさフィールド
F52…順位フィールド
F53…文字数フィールド
F61…対象となる特徴フィールド
F62…絶対基準フィールド
F63…相対基準フィールド
F64…基準の採用順位フィールド
F71…行番号フィールド
F72…文章フィールド
F73…行フィールド
F74…列フィールド
F75…対象要素の有無フィールド
F76…要素の種別フィールド
F81…行番号フィールド
F82…付与すべき要素フィールド
F83…文章フィールド
F84…行フィールド
F85…列フィールド
F86…同じ要素の有無フィールド
F87…要素の種別フィールド
HT…文書構造
w1…ウェブページ
w2…解析結果表示画面
T2,T3,T6…判定基準表
T4…集計結果

【特許請求の範囲】
【請求項1】
記憶装置,構造化文書取得手段を備え、該構造化文書取得手段から構造化文書を取得し、該構造化文書から文書構造を抽出する文書構造抽出装置であって、
文字の特徴に基づいて前記文書構造を特定し判定する判定基準を前記記憶装置に記憶する情報蓄積手段と、
前記構造化文書を解析し、文章と該文章を構成する文字の特徴を抽出する文字特徴抽出手段と、
抽出された文字の特徴を、前記判定基準に照合し判定して文書構造を特定し抽出する文書構造抽出手段と、
を備えることを特徴とする文書構造抽出装置。
【請求項2】
請求項1に記載の文書構造抽出装置において、
前記情報蓄積手段が、文字の特徴に基づいて見出しを特定し判定する判定基準を前記記憶装置に記憶する手段を備え、
前記文字特徴抽出手段が、見出しに関する文字の特徴を抽出する見出し特徴抽出手段を備え、
前記文書構造抽出手段が、前記見出しに関する文字の特徴を、前記見出しを特定する要素を判定する判定基準に照合し判定して、その文字の特徴を有する文字で構成された文章を見出しと見做して特定し抽出する見出し抽出手段を備える、
ことを特徴とする文書構造抽出装置。
【請求項3】
請求項2に記載の文書構造抽出装置において、
前記見出し特徴抽出手段が、前記構造化文書中に前記文字の特徴が出現する度合いを示す希少度を取得する手段を備え、
前記見出し抽出手段が、取得した希少度に基づいて、前記文字で構成された文章を見出しと見做して判定する手段を備える、
ことを特徴とする文書構造抽出装置。
【請求項4】
請求項1に記載の文書構造抽出装置において、
前記情報蓄積手段が、文字の特徴に基づいてリストを特定し判定する判定基準を前記記憶装置に記憶する手段を備え、
前記文字特徴抽出手段が、リストに関する文字の特徴を抽出するリスト特徴抽出手段を備え、
前記文書構造抽出手段が、前記リストに関する文字の特徴を、前記リストを特定する要素を判定する判定基準に照合し判定して、その文字の特徴を有する文字で構成された文章をリストと見做して特定し抽出するリスト抽出手段を備える、
ことを特徴とする文書構造抽出装置。
【請求項5】
記憶装置,構造化文書取得手段を備え、該構造化文書取得手段から構造化文書を取得し、該構造化文書から文書構造を抽出する装置に使用される文書構造抽出方法であって、
文字の特徴に基づいて前記文書構造を特定し判定する判定基準を前記記憶装置に記憶する情報蓄積ステップと、
前記構造化文書を解析し、文章と該文章を構成する文字の特徴を抽出する文字特徴抽出ステップと、
抽出された文字の特徴を、前記判定基準に照合し判定して文書構造を特定し抽出する文書構造抽出ステップと、
を有することを特徴とする文書構造抽出方法。
【請求項6】
請求項5に記載の文書構造抽出方法において、
前記情報蓄積ステップが、文字の特徴に基づいて見出しを特定し判定する判定基準を前記記憶装置に記憶するステップを有し、
前記文字特徴抽出ステップが、見出しに関する文字の特徴を抽出する見出し特徴抽出ステップを有し、
前記文書構造抽出ステップが、前記見出しに関する文字の特徴を、前記見出しを特定する要素を判定する判定基準に照合し判定して、その文字の特徴を有する文字で構成された文章を見出しと見做して判定する見出し抽出ステップを有する、
ことを特徴とする文書構造抽出方法。
【請求項7】
請求項6に記載の文書構造抽出方法において、
前記見出し特徴抽出ステップが、前記構造化文書中に前記文字の特徴が出現する度合いを示す希少度を取得するステップを有し、
前記見出し抽出ステップが、取得した希少度に基づいて、前記文字で構成された文章を見出しと見做して特定し抽出するステップを有する、
ことを特徴とする文書構造抽出方法。
【請求項8】
請求項5に記載の文書構造抽出方法において、
前記情報蓄積ステップが、文字の特徴に基づいてリストを特定し判定する判定基準を前記記憶装置に記憶するステップを有し、
前記文字特徴抽出ステップが、リストに関する文字の特徴を抽出するリスト特徴抽出ステップを有し、
前記文書構造抽出ステップが、前記リストに関する文字の特徴を、前記リストを特定する要素を判定する判定基準に照合し判定して、その文字の特徴を有する文字で構成された文章をリストと見做して特定し抽出するリスト抽出ステップを有する、
ことを特徴とする文書構造抽出方法。
【請求項9】
請求項5乃至8のいずれかに記載の文書構造抽出方法を、コンピュータで実行可能なコンピュータプログラムとして記述したことを特徴とする文書構造抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2008−129894(P2008−129894A)
【公開日】平成20年6月5日(2008.6.5)
【国際特許分類】
【出願番号】特願2006−314978(P2006−314978)
【出願日】平成18年11月22日(2006.11.22)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】