説明

文書処理装置及び文書処理方法

【課題】多様な文書に適切な意味タグを付与できる文書処理装置を提供すること。
【解決手段】入力文書100から、汎用固有表現抽出部11及び意味役割語抽出部12により汎用的な固有表現及び意味役割語を抽出するとともに、汎用文書構造解析部13により基本的な文書構造を求める。文書タイプ判定部15は、これらをもとに作成された汎用的な固有表現及び意味役割語に基づく文書モデルと、各文書タイプ毎に定義された汎用的な固有表現及び意味役割語に基づく文書モデルの各々とを比較して、入力文書の文書タイプを選択する。詳細文書構造検出部16は、この文書タイプについて定義された汎用的な固有表現及び意味役割語に基づく詳細な文書構造の情報に基づいて入力文書の部分構造を検出する。意味タグ付与部17は、該詳細な文書構造に対して予め定義されている意味タグを、該検出された部分構造に付与して、出力文書101を作成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書に含まれる固有表現を計算機によって自動抽出する文書処理装置及び文書処理方法に関する。
【背景技術】
【0002】
近年、Web文書や企業内文書などの多様な電子化文書に対して、文書中から日付や地名、人名、組織名、製品名といった固有表現を自動抽出することが試みられている。
【0003】
固有表現や数量表現を自動抽出してタグを付与しておくことにより、このタグを手掛かりとした機械処理が可能となる。
【0004】
例えば、検索対象を特定のタグ(<会社名>や<著者名>など)に限定するような絞込検索が可能となる。また、文書中や文中でタグが出現するパターンと、それに対する特定の処理ルールを定義しておくことにより、文書分類、QA検索、情報抽出、カタログ化、フォーマット変換といった様々な応用が可能となる。
【0005】
こうした目的のために付与されたタグは、機械処理のために文書中の意味を抽出したものと考えることができ、その役割と目的から「意味タグ」などと呼ばれることがある。
【0006】
この意味タグすなわち固有表現や数量表現を自動抽出するための手段としては、抽出したい表現を予め辞書として登録したり、あるいは、より柔軟な抽出を可能とするために、抽出したい表現を品詞の組み合わせパターンとして用意しておくことによって、入力文書と照合した表現を得る方法などがある。また、正解つきサンプル文書を用意し、機械学習の手法により半自動でルールを生成する手段などがある。
【特許文献1】特許2001−325284号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、処理対象となる文書に新語や造語が多く含まれている場合、従来の技術では、継続的にサンプル文書を収集するとともに、固有表現抽出のための辞書やルールを拡充し続ける必要があった。
【0008】
このような作業は多くのコストを必要とするため、広範囲にわたる文書から新語や造語を的確に抽出し、適切な意味タグを自動付与することは困難であった。
【0009】
本発明は、上記事情を考慮してなされたもので、多様な文書に対して適切な意味タグを付与することのできる文書処理装置及び文書処理方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係る文書処理装置は、文書構造を有する入力文書から、汎用的な固有表現に関する情報を抽出する第1の抽出手段と、前記入力文書の意味役割を特徴付ける意味役割語に関する情報を抽出する第2の抽出手段と、前記入力文書を解析して基本的な文書構造に関する情報を求める解析手段と、求められた前記文書構造に関する情報と、抽出された前記汎用固有表現に関する情報及び前記意味役割語に関する情報とを関連付けて保持する保持手段と、複数の文書タイプのそれぞれについて予め定義された、汎用的な固有表現及び意味役割語に基づく文書モデルの各々と、前記保持手段に保持されている前記情報をもとに作成された、汎用的な固有表現及び意味役割語に基づく文書モデルとを比較して、前記入力文書の文書タイプを選択する選択手段と、前記入力文書について選択された前記文書タイプに基づいて、前記入力文書の部分構造を検出する検出手段と、前記文書タイプに対して予め定義されている意味タグを、前記入力文書から検出された前記部分構造に付与する付与手段とを備えたことを特徴とする。
【0011】
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
【発明の効果】
【0012】
本発明は、上記事情を考慮してなされたもので、多様な文書に対して適切な意味タグを付与することのできる文書処理装置及び文書処理方法を提供することを目的とする。
【発明を実施するための最良の形態】
【0013】
以下、図面を参照しながら本発明の実施形態について説明する。
【0014】
図1に、本発明の一実施形態に係る文書処理装置の構成例を示す。
【0015】
図1に示されるように、文書処理装置は、汎用固有表現抽出部11、意味役割語抽出部12、汎用文書構造解析部13、文書構造記述部14、文書タイプ判定部15、詳細文書構造検出部16、意味タグ付与部17、入力部(図示せず)、出力部(図示せず)を備えている。
【0016】
また、文書処理装置は、汎用固有表現抽出辞書及び又は汎用固有表現抽出ルールを含む汎用固有表現抽出辞書・ルール21、意味役割語辞書22、文書モデルデータベース23、意味タグ付与ルール24(の各記憶部)を備えている。なお、これら種々の辞書等の情報の保持には、同一の記憶装置を用いてもよいし、異なる記憶装置を用いてもよい。
【0017】
図2に、本実施形態の文書処理装置の処理手順例を示す。
【0018】
まず、入力部(図示せず)により、処理対象となる文書(入力文書)を入力する(ステップS1)。例えば、記録媒体に記録された文書を入力するようにしてもよいし、ネットワークを介して文書を入力あるいは受け付けするようにしてもよいし、ユーザがキーボードから文書を入力するようにしてもよい。
【0019】
次に、汎用固有表現抽出部11により、汎用固有表現抽出処理を行う(ステップS2)。汎用固有表現抽出処理では、入力文書から、例えば、日時表現、一般的な人名、製品のカテゴリ名などの汎用的な固有表現を抽出する。
【0020】
次に、意味役割語抽出部12により、意味役割語抽出処理を行う(ステップS3)。意味役割語抽出処理では、入力文書から、例えば、「ニュースリリース」、「トラックバック」などの部分文書の意味役割を表現している意味役割語を抽出する。
【0021】
次に、汎用文書構造解析部13により、汎用文書構造解析処理を行う(ステップS4)。汎用文書構造解析処理では、入力文書の汎用文書構造情報を解析し、例えば、タイトル、章見出し、表、箇条書き、図、パラグラフ、フォント、文字修飾情報などの構造を検出する。
【0022】
次に、文書構造記述部14により、文書構造記述処理を行う(ステップS5)。文書構造記述処理では、汎用固有表現と意味役割語と文書構造とを関連付けて、入力文書の文書構造形式を作成する。
【0023】
なお、ステップS2〜S4の処理は、上記の順番以外の任意の順番で行ってもよいし、それらの全部又は一部を並行して行ってもよい。
【0024】
次に、文書タイプ判定部15により、文書タイプ判定処理を行う(ステップS6)。文書タイプ判定処理では、入力文書の文書構造と、あらかじめ複数の文書タイプ(文書の種別)ごとに作成してある文書モデルの文書構造それぞれとを比較して、入力文書の文書タイプを判定する。
【0025】
次に、詳細文書構造検出部16により、詳細文書構造検出処理を行う(ステップS7)。詳細文書構造検出処理では、判定された文書タイプに対してあらかじめ定義されている詳細文書構造に基づいて、入力文書の部分構造を検出する。
【0026】
次に、意味タグ付与部17により、意味タグ付与処理を行う(ステップS8)。意味タグ付与処理では、文書タイプの詳細文書構造に対してあらかじめ定義されている意味タグを、入力文書の部分構造に付与する。
【0027】
そして、出力部(図示せず)から、入力文書に意味タグを付与したもの(出力文書)を出力する(ステップS9)。例えば、出力文書を記録媒体に保存するようにしてもよいし、出力文書をネットワークを介して提供あるいは返送するようにしてもよいし、表示装置の表示画面に出力文書を表示するようにしてもよい。
【0028】
本実施形態では、あらかじめ複数の文書タイプごとに文書構造に応じたタグ付与ルールを定義しておくとともに、入力文書の文書タイプを自動判別して意味タグの付与を行うことにより、多様な文書に対する適切な意味タグ付けを実現することができる。
【0029】
本実施形態によれば、多様な文書において、語や部分構造に対する適切な意味を自動付与することが可能となるため、QA検索や文書分類、自動要約、デバイスや制約に応じた文書変換、さらには、自動処理を目的とした文書へのメタデータ自動付与など様々な文書自動処理が可能となる。
【0030】
以下、本実施形態について具体例を参照しながらより詳しく説明する(なお、以下で用いる具体例は、個々の処理等について説明することを主目的とするものである)。
【0031】
まず、本実施形態において処理対象とする入力文書について説明する。
【0032】
図3に、第1の入力文書例を示す。
【0033】
この入力文書例は、近年、web上で広く流通しているHTML形式やXHTML形式などのタグ付き文書を想定したものである。これらの文書形式は、文書内容を表すテキストの他に、構造情報や表示に関する制御情報などがタグ“<>”によって文中に埋め込まれている。タグで示す情報とは、文字の強調や拡大・縮小といった文字装飾等の表示制御情報のほか、表構造や箇条書きといった構造定義情報、あるいは他文書へのリンクや画像へのリンク情報などがある。これらのタグは、ブラウザによって閲覧時に解釈されるため、通常、ユーザは、タグの示す情報が解釈されたレンダリング結果を見ることになる(なお、ユーザは、例えば、HTML文書のソースを表示させることによって、タグを見ることができる)。本実施形態では、このような性質を持つ文書を処理対象として想定して説明する。
【0034】
なお、本実施形態は、HTML形式やXHTML形式だけでなく、それら以外の形式を持つ文書にも適用可能である。
【0035】
<汎用固有表現抽出処理>
次に、汎用固有表現抽出部11による汎用固有表現抽出処理(図2のステップS2)について説明する。
【0036】
汎用固有表現抽出部11は、入力文書から、汎用的な固有表現を抽出する。ここで、汎用的な固有表現とは、分野を問わず汎用的に意味付けが期待できる表現であり、例えば、数量の表現、日付や日時の表現、一般的な人名、会社名あるいは企業名、製品のカテゴリ名、地名等の場所の名称、URL、電話番号など、種々のものが考えられる。
【0037】
図4に、汎用固有表現抽出処理の手順例を示す。
【0038】
まず、入力文書からタグ情報を除去し、文書内容が記載されたテキスト文を取り出す処理(これを入力文書解析処理と呼ぶ)を行う(ステップS11)。図3の入力文書例に対する処理結果例を図5に示す。
【0039】
次に、上記処理にて取り出されたテキスト文から順に一文を取り出し(ステップS12)、以下の繰り返し処理を行う。
【0040】
まず、取り出した一文に対して形態素解析処理を施す(ステップS13)。形態素解析処理とは、事前に定義してある形態素解析辞書(図示せず)に基づき、文書を文節に区切った上で、各々の文節に品詞付けを行う処理であり、種々の既存手法が知られている。
【0041】
次に、汎用固有表現抽出辞書・ルール21の記憶部から、事前に用意してある汎用固有表現抽出辞書及び又は汎用固有表現抽出ルールを読み込む(ステップS14)。
【0042】
汎用固有表現抽出ルールには、例えば、品詞の組み合わせや、正規表現記述などを利用した定義を記載しておくことによって、テキスト文中から、日付表現や時間表現、URL、人名、企業名などを抽出する。また、汎用固有表現抽出辞書には、例えば、汎用的な製品のカテゴリ名などを直接登録しておき、文書中にこれらの表現が出現した場合には、対応するカテゴリ名と合わせて抽出する。図6に、汎用固有表現抽出辞書例を示す。
【0043】
次に、読み込んだ汎用固有表現抽出辞書・ルールを、文節に区切られた形態素解析結果に対して適用する(ステップS15)。
【0044】
そして、形態素解析結果中に汎用固有表現抽出辞書・ルールに適合するパターンがある場合には(ステップS16)、その抽出された汎用的な固有表現を出力する(ステップS17)。
【0045】
ここで、上記取り出されたテキスト文に含まれる各一文のうち、未処理の一文があれば(ステップS18)、ステップS12に戻って繰り返し処理を続ける。
【0046】
なお、上記取り出されたテキスト文に含まれる全ての一文に対して処理を終えたならば(ステップS18)、この処理を終了する。
【0047】
図7に、汎用固有表現の抽出結果例を示す。この例では、(汎用固有)表現、意味分類名、文書の先頭から何番目のテキスト内容(ノード)か、該当する番号のテキストで、文頭から何文字目から何文字目にわたって出現しているか、といった項目が、順にセミコロンによって区切られて出力されている。図7に記述した具体例では、表現“メモリーオーディオプレーヤー”が抽出されており、これは“IT_PRODUCT”という意味分類名を持ち、文書の先頭から数えて3番目のテキストノードに出現しており、さらにそのテキスト中の1文字目から14文字目の位置に当たることを示している。
【0048】
<意味役割語抽出処理>
次に、意味役割語抽出部12による意味役割語抽出処理(図2のステップS3)について説明する。
【0049】
意味役割語抽出部12は、入力文書から、意味役割語を抽出する。
【0050】
まず、入力文書解析処理と同様、入力文書からタグ情報を除去することによってテキスト文を取り出す。
【0051】
取り出されたテキスト文に対し、意味役割語辞書記憶部22に事前に用意してある意味役割語辞書22を適用する。
【0052】
意味役割語辞書には、文書の種別や文書中の部分構造を特徴付けるような表現として、“ニュース”や“プレスリリース”あるいは“ニュースリリース”、“新聞”、“発売”、“順位”、“アルバム”、“トラックバック”、“仕様”、“特長”といった表現を登録しておき、文書中にこれらの表現が出現した場合には、対応付けられている意味役割と併せて抽出する。図8に、意味役割語辞書例を示す。
【0053】
これらの辞書登録作業は、人手によって各文書タイプに特徴的な語句を目視で拾い出して登録してもよい。また、事前に対象分野の文書を収集しておき、それらの文書中に出現する語にTF−IDF値を算出するなどして得られた特徴的な語を登録してもよい。
【0054】
図9に、意味役割語の抽出結果例を示す。この例では、汎用固有表現抽出結果例と同様、抽出結果の各項目が、(意味役割)表現、対応する意味役割、文書中の何番目のテキストノードに出現しているか、該当するテキストノードの何文字目から何文字目に出現したか、といった情報が、順にセミコロンによって区切られて出力されている。図9に記述した具体例では、表現“ニュースリリース”は、“NEWS”という意味役割名が関連付けられており、それは入力文書中の第1番目のテキストノード中に出現していて、さらにそのテキストにおいて1文字目から8文字目の文字列に相当していることを示している。
【0055】
<汎用文書構造解析処理>
次に、汎用文書構造解析部13による汎用文書構造解析処理(図2のステップS4)について説明する。
【0056】
汎用文書構造解析部13は、入力文書に事前に付与されている構造情報(本例では、HTML(XHTML)の構造情報)を解析する。ここでは、この汎用文書構造解析結果を、木構造の形式で保持する。
【0057】
図10に、汎用文書構造解析処理の手順例を示す。
【0058】
まず、格納先構造である木構造のルートを作成する(ステップS21)。以下、解析結果は、このルートノードの子要素として付与されていくことになる。
【0059】
これ以降は、以下のような繰り返し処理を行う。
【0060】
まず、入力文書から一文字を取り出す(ステップS22)。
【0061】
取り出した一文字が、入力文書の終端であれば(ステップS23)、処理を終了する。
【0062】
読み込んだ文字が開きタグ記号“<”であれば(ステップS24)、文書からさらに一文字読み込み(ステップS25)、それが開始タグか終了タグかの判定を行う。
【0063】
開始タグであった場合には(ステップS25)、格納先の現在着目しているノードから深さを1増加させ(ステップS29)、親ノードからリンクを張り(ステップS30)、さらに、閉じタグ記号“>”が出現するまで入力文書から文字列を読み込み、読み込んだ文字列をタグ名として格納し(ステップS31)、ステップS22に戻る。
【0064】
また、終端タグであった場合には(ステップS27)、ノードの深さを1減少させた上で、タグ名を読み飛し(ステップS32)、ステップS22に戻る。
【0065】
また、ステップS24で開始タグでなかった場合またはステップS27で終端タグでなかった場合には、テキスト内容として文字を格納し(ステップS28)、ステップS22に戻る。
【0066】
図11に、上記処理の結果、格納された木構造形式の一例を示す。この具体例では、入力文書のBODYタグをルートとして、出現したタグ名<A href>、<H2>、<IMG>等を順に読み込み、そのタグで囲まれているテキストを子要素として保持しておく。また、<TABLE>の下には、<TR>タグ、<TD>タグが出現しているが、これらも子要素として順に構造を保持したまま、出現しているテキストをぶら下げていく。
【0067】
このようにして、入力文書構造を木構造として保持したまま、続く処理に移る。
【0068】
<文書構造記述処理>
次に、文書構造記述部14による文書構造記述処理(図2のステップS5)について説明する。
【0069】
文書構造記述部14は、これまでの処理(図2のステップS2〜S4)で得られた汎用固有表現抽出結果及び意味役割語抽出結果、並びに汎用文書構造解析結果をもとに、これらの解析結果を統合し、文書構造形式で格納する。
【0070】
図12に、文書構造記述処理の手順例を示す。
【0071】
まず、文書構造を記述し、解析結果を蓄えておくための、汎用固有表現格納リストと意味役割語格納リストを初期化する(ステップS41)。
【0072】
図13に、汎用固有表現格納リストの構造例を示し、図14に、意味役割語格納リストの構造例を示す。図13及び図14に示すように、これらのリストは、これまでの解析の結果得られた汎用固有表現抽出結果又は意味役割語抽出結果から、出現した語彙をそれぞれベクトル表記したものである(なお、リスト中の数値は、対応する語彙の重み(例えば、出現回数)を表している)。この初期化とは、出現した語彙の種類数の次元を持ったベクトルを作成することに相当する。
【0073】
次に、汎用文書構造解析結果からテキストノードを、深さ優先で順に読み込むとともに、ノード深さの値を保持しておく(ステップS42)。ノードの深さは、後段の処理で処理順序に依存するために、この時点で確保しておく。
【0074】
次に、汎用文書構造解析結果に未処理にテキストノードが存在しない限り(ステップS43)、それぞれのテキストノードに対して、抽出済み汎用固有表現が存在するかどうか確認し、存在した場合には(ステップS44)、汎用固有表現格納リストの対応するデータを+1する(ステップS45)とともに、意味役割語が含まれているかどうかを確認し、意味役割語が含まれている場合には(ステップS46)、同様に意味役割語格納リストの対応する値を+1する(ステップS47)。
【0075】
なお、ステップS44/S45の処理と、ステップS46/S47の処理とは、この逆の順序で行ってもよいし、並行して行ってもよい。
【0076】
さて、上記のようにして全てのテキストノードに対して、汎用固有表現抽出結果と意味役割語抽出結果が存在しているかどうかの確認を行うことが終えたら、次に、処理対象ノードを最も深いテキストノードとして(ステップS48)、次の操作を行う。
【0077】
まず、テキストノードの情報を文書構造記述に追加する(ステップS49)。
【0078】
次に、追加したノードの兄弟ノードにテキストノードが存在すれば(ステップS50)、兄弟ノードに含まれるテキストノードの情報を文書構造記述に追加する(ステップS51)。
【0079】
ここでは、文書構造の要素をNLで表現することし、その引数“[]”には、あるノード以下に含まれる兄弟ノードの数(ノードリスト数)を記すものとする。
【0080】
図15において、文書構造記述例では、テキストノード“品名”、“WE−MP720X”、“WE−MP730X”の3点のテキストノードを1段まとめ上げた表記として、NL[3]が記載されている。同様に、 “A社マーケティング本部は・・・”については、 “NL[1]”となる。
【0081】
次に、追加したノードを処理対象から除外し、深さを一段上がる(ステップS52)。
【0082】
このようにして兄弟ノードに存在するテキスト情報を文書構造記述に追加しながら文書構造記述をまとめ上げていくが、このまとめ上げで木構造を深いほうから浅いほうへ上がっていく際に、兄弟ノードが存在しない場合には、それまでの結果を括弧で囲む。
【0083】
例えば、上記のNL[3]の例では、<TR>、<TABLE>と上がって行く場合にテキストノードが存在しないため、それ以降のテキストノードとまとめ上げる際の区別のために、“(NL[3])”と表記する。このようにして、テキストノードの出現位置と各テキストノードリストの数を保持したまま、例えば、図15の “(NL[1] (NL[3]) NL[1] NL[1])”などのように、文書構造記述を作成することができる。
【0084】
このようにして、文書構造結果に未処理のテキストノードが存在しなくなるまで(ステップS53)、テキストノードのまとめ上げを行う。
【0085】
なお、この文書構造記述の各要素には、汎用固有表現格納リスト及び意味役割語格納リストを関連付けておく。
【0086】
<文書タイプ判定処理>
次に、文書タイプ判定部15による文書タイプ判定処理(図2のステップS6)について説明する。
【0087】
文書タイプ判定部15は、これまでの処理により得られた文書構造形式と、文書モデルデータベース23に事前に登録されている、複数の文書タイプごとに作成された文書モデルとを比較し、入力文書の文書タイプを判定する。
【0088】
図16に、文書タイプ判定処理の手順例を示す。
【0089】
まず、入力文書の解析結果である文書構造記述情報を読み込む(ステップS61)。
【0090】
次に、事前に定義してあるスコア表に基づき、入力文書の文書構造記述情報を更新する(ステップS62)。
【0091】
ここでは、文書中に出現した汎用固有表現抽出結果と意味役割解析結果について、その重み付けを、後述する補正値に従って、変更する(すなわち、汎用固有表現格納リストと意味役割語格納リストの各要素の重みを変更する)。
【0092】
図17(a)、(b)に、このスコア表の例を示す。まず、それぞれの結果である抽出した表現や語の出現状況が特徴的な場合について加点を行う。具体的には、抽出した表現や語が、兄弟ノードの先頭に出現している場合や、テキストノード中に、その表現や語が単独で出現している場合、あるいは、見出しタグとして“<H1>,<H2>,<H3>”などのタグ以下に記載されている場合などには、それぞれの表現や語に、表定義に基づき加点することによって、重み付けを増す。また、文書構造の深さで見た場合に、例えば出現深さが浅いところに出ている語句に重みづけを持たせるなどのスコア付けを行う。図17(c)に、補正値の例を示す。
【0093】
なお、上記のスコア表や、補正値の算出結果は一例であり、これ以外にも種々のバリエーションが可能である。
【0094】
このようにして、文書構造記述の各要素に出現した固有表現や意味役割語の重みに対して、補正値を考慮して更新を行う。
【0095】
その更新の結果を受けて、スコアの高い固有表現、そして、スコアの高い意味役割語の順に、リスト形式で並べる。
【0096】
図18(a)に補正情報の一例、(b)に汎用固有表現格納リスト及び意味役割語格納リストの一例、(c)に作成された最終的な文書構造記述リストの一例を示す。この例では、意味役割語として“ニュースリリース”であるNEWSや、“品名”であるCATALOG、さらに“発売”を意味するRELEASEに相当する意味役割語が重要な語となってリストの前方に出現している他、汎用固有表現の抽出結果として製品カテゴリ名を意味するIT_PRODUCT、および会社名を意味するCOMPANYが出現しているものとする。
【0097】
次に、文書モデルデータベース23から、ある文書タイプの文書モデルを一つ取り上げる(ステップS63)。
【0098】
図18(d)に、この文書モデルの例で文書タイプのタイプ定義例を示す。この文書モデルには、文書タイプごとに文書中に出現することが期待される意味役割語や汎用固有表現が記載されている。
【0099】
例えば、『ニュース一般』という文書タイプには、意味役割語では“ニュース”や“新聞”などを意味するNEWSや、“事件”、“事故”といった表記を意味するINCIDENTが比較的重要視されて含まれる他、汎用固有表現として人名や企業名の出現も記載されている。
【0100】
同様に、文書タイプ『ニュースIT』というIT系のニュースの場合には、意味役割語のNEWSに相当する文言の他、CATALOGとして“品名”,“仕様”,“型番”やRELEASEに相当する“新発売”,“発表”,“リリース”などの意味役割語の出現を仮定している。さらに固有表現として、<IT_PRODUCT>というIT系の製品カテゴリ名や、<COMPANY>という企業名の出現も仮定している。
【0101】
このようにして定義されている文書モデルに対し、入力文書解析結果を比較して類似度を算出する(ステップS64)。
【0102】
そして、ステップS61〜S65を、各文書タイプの文書モデルについて行った後、最も高い類似度を持つ文書モデルの文書タイプを、入力文書の文書タイプとして判定する(ステップS66)。なお、ここでの類似タイプの出力では、出力を上位1件に限って出力する他に、例えば、適当な閾値を設定することにより10以上のスコアのものを提示するなど、種々の方法が可能である。
【0103】
例えば、上記の具体例において、入力文書の解析の結果、出現した語彙・表現を、先頭から順に点数付けして、類似度を求める例を示すと、
ニュース一般={NEWS:8}=8,
ニュースIT={NEWS:8 CATALOG:3 RELEASE:8+3 IT_PRODUCT:2 COMPANY:2}=26
カタログ={CATALOG:3 NEWS:8 IT_PRODUCT:2}=13,
ブログ={TRACKBACK:0 DIARY:0 DATE_DAY:0 PERSON:0}=0
となる。
【0104】
従って、類似度の順に例えば上位2件を取り出すと、本入力文書のタイプは『ニュースIT』、もしくは次候補として『カタログIT』であることがわかる。
【0105】
なお、上記の類似度を求める方法は一例であり、これ以外にも種々のバリエーションが可能である。
【0106】
また、上記処理手順例において、繰り返し処理の途中で、あらかじめ定められた類似度を越える類似度を持つ文書モデルが、1又は2以上の所定数得られた場合には、繰り返し処理を打ち切って、当該文書モデルの文書タイプを、入力文書の文書タイプとして判定する方法も可能である。
【0107】
<詳細文書構造検出処理>
次に、詳細文書構造検出部16による詳細文書構造検出処理(図2のステップS7)について説明する。
【0108】
詳細文書構造検出部16は、文書タイプに対してあらかじめ定義されている詳細文書構造情報に基づいて、入力文書の部分構造を検出し、詳細情報のラベルを付与する。
【0109】
なお、ここでは、入力文書タイプは前段の類似度判定により最も類似度が高かった『ニュースIT』であるという前提で処理を続ける場合を例にとって説明する。
【0110】
図19に、文書タイプ『ニュースIT』の場合の文書モデルに対して予め定義された詳細文書構造情報の例を示す。
【0111】
この詳細文書構造情報は、リスト形式で記述されており、これを宣言的言語と見た場合に、それぞれの述語に相当する“spec_table”、“para”、“title”、“keyword”が目的とする詳細情報のラベル名であり、それぞれの引数は入力文書中に該当する箇所を探し出すための条件記述となっている。
【0112】
図19の例では、まず、右側からkeyword([NEWS])となっており、これは、文書中の先頭から見た場合に意味役割語“NEWS”が出現している箇所に“keyword”という詳細情報のラベルを付与することを意味する。
【0113】
次に、“title([(H1|H2|H3),(NEWS|IT_PRODUCT|RELEASE)]”という記載があるが、これは、先程の“keyword”と特定された箇所よりも後方の位置から、文書構造として“H1”,“H2”,“H3”が出現するいわゆる見出しの文書構造を有し、かつ、そのテキストノード中の語に、意味役割語として“NEWS”か“IT_PRODUCT”か“RELEASE”を含む箇所が出現していれば、その部分構造に“title”という詳細情報をラベル付けするという意味である。
【0114】
さらに、“spec_table([(NL,TD),CATALOG)])|para([p],)”という記載があるが、これは先程の“title”付けされた箇所よりも後方の位置に対して、まず、文書構造としてpが出現していれば詳細情報のparaというラベル付けを、さらに、テキストノードのリスト(NL)が出現しており、そこが“TD”タグでまとめ上げられており、かつ、そのテキストノード中に意味役割語として“CATALOG”が出現している箇所があれば、それら(テキストノード)に対して、詳細情報“spec_table”という仕様の表を意味するラベル付けを与えるというものである。
【0115】
このようにして、『ニュースIT』と推定された文書に対しては、文書モデルの詳細情報が適用され、“title=タイトル”、“spec_table=仕様の表”、“para=パラグラフ”、“keyword=キーワード”に該当する箇所が特定され、ラベル付けして保持される。
【0116】
<意味タグ付与処理>
最後に、意味タグ付与部17による意味タグ付与処理(図2のステップS8)について説明する。
【0117】
意味タグ付与部17は、これまでの処理により、入力文書について判定された文書タイプに基づいて特定された詳細な文書構造をもとに、該詳細な文書構造に対してあらかじめ定義されている意味タグを、入力文書の部分構造に付与する。
【0118】
ここでは、意味タグ付与ルールに従って、意味タグを付与するものとする。
【0119】
図20に、この意味タグ付与ルール例を示す。
【0120】
まず、
rule1:−keyword(X)
<span class=“keyword”>X</span>
という記述(図20(a))は、先の詳細文書構造検出によってラベル付けされた“keyword”の箇所に関して適用されるルールである。なお、このルールには、便宜的にrule1という番号付けがされている。このルールの内容は、条件としてkeywordラベルの内容を変数Xにて保持し、その結果を<span class=“keyword”>タグにて詳細化するということを表している。
【0121】
入力文書中を例にとれば、“ニュースリリース”というテキストノードに対して、<span class=“keyword”>ニュースリリース</span>という出力が得られる。
【0122】
次に、
rule2:−title(X Y=SR[“unknown_num”])
<span class=“title”>X</span>
<span class=“IT_PRODUCT”>Y</span>
という記述(図20(b))は、先の詳細文書構造検出によってラベル付けされた“title”の箇所に関して適用されるルールであり、まず、先のrule1と同様に、内容をXで保持し、その内容を<span class=“title”>タグで囲むということを意味している。
【0123】
さらに、この“title”とラベル付けされた部分構造の中に、汎用固有表現として“unknown_num(未知の番号)”とされている箇所に対しては、IT_PRODUCTという固有表現を付与する。
【0124】
次に、
rule3:−title(SR[X] Y=SR[“unknown_num”]|Z=[“TD”])
<span class=“spec_table_label”>X</span>
<span class=“IT_PRODUCT”>Y</span>
<span class=“spec_table”>Z</span>
という記述(図20(c))は、3つの内容から成り立っており、まず、先の詳細文書構造検出によってtitleラベルが付与された最初の意味役割語に関しては、<span class=“spec_table_label”>のタグを付与する。次に、汎用固有表現にて“unknown_num”と付与されている箇所に対しては、新たにIT_PRODUCTというIT製品名を意味する固有表現を付与する。そして最後に、titleラベルが付与されている内部構造のうち“TD”タグで囲まれている箇所に関しては、それらを<span class=“spec_table”>というタグで囲んで出力するということを表している。
【0125】
また、ルール
rule4:−para(X)
<span class=“para”>X</span>
という記述(図20(d))は、rule1、rule2と同様、詳細文書構造検出によってparaと判定された部分構造に関しては、<span class=“para”>のタグを付与することを示している。
【0126】
次に、
rule_x:−SR[X]
<span class=“$SR”>X</span>
という記述(図20(e))は、以上のルールが適用されていない意味役割語Xに関して、その意味役割をclassの属性値としてタグを付与しておくことを意味している。
【0127】
例えば、“発売”という意味役割語に関しては、RELEASEという意味役割が割り当てられていたが、その内容をタグ名(の属性値)として付与し、<span class=“RELEASE”>発売</span>とタグ付けを行う。
【0128】
次に、
rule_y:−SC[Y]
<span class=“$SC”>Y</span>
という記述(図20(f))は、以上のルールが適用されていない汎用固有表現に対して、その汎用固有表現のクラスをclassの属性値として付与することを示している。
【0129】
例えば、“A社”という固有表現には“COMPANY”という固有表現のクラスが割り当てられていたが、その情報を元に、<span class=“COMPANY”>A社</span>というタグを付与する。
【0130】
図21に、このように、以上のルールの適用によって得られた最終出力結果例を示す。
【0131】
以下では、これまでの説明で用いた第1の入力文書例とは異なる第2の入力文書例を用いて本実施形態について説明する。
【0132】
図22〜図25に、第2の入力文書例を示す。
【0133】
<汎用固有表現抽出処理>
この入力文書に対して、汎用固有表現抽出部11により、まず、テキストノードから、解析対象となるテキスト文が収集される。
【0134】
図26に、テキスト文の抽出結果を示す。
【0135】
このテキスト文に対して、汎用固有表現の抽出が行なわれる。
【0136】
図27に、この結果を示す。
【0137】
<意味役割語抽出処理>
次に、意味役割語抽出部12により、先の汎用固有表現抽出処理と同様、まず、テキストノードからテキスト文が抽出された後、そのテキスト文を対象として意味役割語抽出が行なわれる。
【0138】
図28に、抽出された意味役割語の例を示す。
【0139】
<汎用文書構造解析処理>
続いて、汎用文書構造解析部13により、入力文書構造の解析が行なわれる。
【0140】
入力文書中の構造情報を解析し、タグ間の上下・兄弟関係と、どのタグ(ノード)にどのテキストが属するかの関係を保持しながら、入力文書の構造を木構造形式で格納していく。
【0141】
図29に、格納された結果である木構造の例を示す。
【0142】
<文書構造記述処理>
さらに、文書構造記述部14により、ここまでの処理結果である汎用固有表現抽出結果と、意味役割語抽出結果と、汎用構造解析結果をもとに、入力文書の文書構造記述形式をリストの形で作成する。
【0143】
図30に、構造記述形式の作成例を示す。
【0144】
まず、入力文書構造には“☆J−POP/アルバム”の記載がある部分ノード(アーティスト毎の情報)が3点あるが、これらの構造は同等のため、作成例中ではそのうち1点を代表して記載する。
【0145】
まず、最も深いテキストノードである、“karaha”、“[NEW]!”、“z−inds.”に関しては、テキストノードが兄弟ノードであるため、これらをまとめ上げて“(NL[1] NL[1] NL[1])”と表記する。このまとめ上げに対して、更にノードをルート方向に上ると兄弟方向にテキストノードとして“2005年“、“店在庫検索&通販”、“☆J−POP/アルバム”が出現する。
【0146】
これらの出現をリストとして左右の出現状況を保存しながら、リストを追加していくと、まずリスト“NL[1] NL[1] (NL[1] NL[1] NL[1]) NL[1]”が得られる。
【0147】
さらに、ノードをルート方向に上ると、解説文であるテキスト“アイドルグループz−indsは・・・”が出現するため、これをリストに追加して、“(NL[1] (NL[1] NL[1] (NL[1] NL[1] NL[1]) NL[1]))”が得られる。
【0148】
また、文書前方に出現している“邦楽作品”や“新作情報”が記載されているノードに関しても、同様に纏め上げを行なっていくと、“(NL[4] ((NL[2]) NL[1]))”の記載結果が得られる。
【0149】
同様に、文書末尾に出現している“個人情報に対する考え方”、“サービス利用規約”に関して纏め上げを行なうと“(NL[2])”の記載結果が得られる。
【0150】
最後にこれらを統合して“((NL[2]) (NL[1] (NL[1] NL[1] (NL[1] NL[1] NL[1]) NL[1])3 (NL[4] ((NL[2]) NL[1])))”を得ることができるが、この場合、アーティスト毎の情報を示したノードに関しては3つのリストは同様の構造を有しているため、繰り返し表現として“3”として表記を簡素化した。
【0151】
リストのこの位置には、実際には“(NL[1] (NL[1] NL[1] (NL[1] NL[1] NL[1]) NL[1])”の表記が繰り返して3回出現することを意味している。
【0152】
<文書タイプ判定処理>
続いて、文書タイプ判定部15において、このようにして得られた文書構造をもとに、文書タイプの判定を行なう。
【0153】
ここでは、文書タイプとして“カタログリスト”が得られたものとする。
【0154】
<詳細文書構造検出処理>
続いて、詳細文書構造検出部16において、詳細な文書構造の検出を行う。
【0155】
ここでは、文書タイプ“カタログリスト”に関する構造詳細化の具体例を、入力文書と比較しながら詳述する。
【0156】
まず、図31に、文書タイプ“カタログリスト”に関する構造詳細化ルールを示す。
【0157】
ここで、構造詳細化ルールは、宣言的な述語形式で記述するものとする。
【0158】
まず、All(A)で始まる1行目に記載されている内容であるが、これは対象文書に3つの部分構造情報を付与することを意味し、それぞれartist(アーティスト名)、title(タイトル名)、description(解説文)であり、さらにその出現が、artist,title,descriptionの出現順であることを定義している。
【0159】
さらにAll(A)で始まる2行目に記載されている内容は、先の定義と同様、対象文書に3つの部分構造情報を付与することを意味し、それぞれartist(アーティスト名)、title(タイトル名)、description(解説文)であるが、さらにその出現順序は先ほどの定義に冗長性を加え、title,artist,descriptionの出現順でもよいことを示している。
【0160】
次の行に記載されている内容は、artistの付与される入力文書構造の条件を示しており、まず述語“LCN(X)”を満たす必要がある。
【0161】
この条件は、解析された入力文書において、繰り返しがあるような汎化構造を特定することを意味している。
【0162】
述語“LCN”の具体例を図32を用いて説明する。まず、構造記述形式リストから繰り返し構造を意味する数値の値で例えば平均よりも多いものを取り出す。
【0163】
ここでは、文書の前方に出現している“NL[4]”のテキスト構造として“タイトル”、“アーティスト”、“曲名”、“品番で検索”が出現している構造の他、各アーティスト情報が記載された“(NL[1] (NL[1] NL[1] (NL[1] NL[1] NL[1]) NL[1])3”のリストおよびその部分構造が該当する。
【0164】
このうち、汎化構造としてのリスト内部の情報を見てみると、“NL[4]”はリスト数4である。一方各アーティスト情報が記載されたリストは、まず最も深い部分に存在するリスト構造は、要素数が3であり、ノードリストは1階層である。次に、それを包含する一段大きなリスト構造は、要素数が6であり、ノードリストは2階層をなしていることがわかる。さらにこれらを包含するリスト構造は、そのリスト数が7であり、さらにリストも3階層の構造を有していることがわかる。
【0165】
このことから後者の“(NL[1] (NL[1] NL[1] (NL[1] NL[1] NL[1]) NL[1])3”が最も複雑な内部構造を有しているため、この条件を満たす繰り返し汎化構造であるとする。
【0166】
ここでartist付与のための条件説明に戻ると、次にtext(X, [unknown#1])の記載がある。
【0167】
これは、意味付けの対象がテキストノードであり、その値を#1とラベル付けすることを意味する。このラベル付け“#1”は、他のルールで適合する箇所との排他制御のためであり、ここでマッチングした結果に対しては、ラベル付けが異なる他のルール処理は適用しないものとする。
【0168】
次の条件として、“SC(X,[PERSON],0.1)”の記載があるが、これは意味付け対象が汎用固有表現抽出で“[PERSON](人名)”と付与された箇所に関しては、artist付与の確度を高めるという意味を示している。
【0169】
図33の(1)の部分構造例では対象となるテキストノードに対して汎用固有表現抽出として人名が付与される箇所がないが、(3)の部分構造例においては、“[NEW!]”の兄弟ノードに“佐藤”の出現があるため、部分構造のこの位置に出現するテキストへartistの付与が他の位置への付与よりも確度が高くなる。結局、artist付与の条件は以上であるため、最終的に“佐藤静香”が出現しているテキストノードと同じ位置に出現している全4つのテキストノードに対して、artistの意味が付与される。
【0170】
次に、titleで始まる条件記述であるが、これは先のartistの場合と同様、繰り返し構造が確認できる汎化構造を特定しており、先ほどのアーティスト情報が記載された3箇所の部分構造が特定される。更に、条件の限定として、対象となる部分構造がテキストノードであり、その文字列は繰り返して出現しておらず(=“unknown”)、かつartistで特定されたテキストとも異なる(=“#2”)ことを示している。
【0171】
従って、“LCN”で特定された部分構造のテキストのうちで、“☆J−POP/アルバム”および“[NEW!]”は、同様の文言が部分構造に共通に出現しているため除外される。
【0172】
その結果、図33の部分構造(1)を例に取ると“kareha”の文字列が位置するテキストノードが、このtitleの意味付与対象となる。
【0173】
次に、descriptionで始まる条件記述であるが、これも先までの例と同様に、繰り返し構造が認められる汎化構造を特定した上で、さらに対象がテキストであって、その長さが10以上であるという条件を対象箇所の8割が満たすことを指定している。
【0174】
さらに対象箇所に付与される条件として、意味役割語で音楽(=“MUSIC”)に関連する“ベスト”や“アルバム”、“インディーズ”といった文言が少なくとも1割の箇所で含まれなければならないことを指定している。その結果、対象となるテキストでは、図33の(1)の例における“アイドルグループz−inds.・・・”の文書が長さの条件を満たしている一方、他の2つの部分構造でも長さの制約を満たしており、かつ意味役割語の出現制約も満たしていることから、この位置に出現するテキストに関して、descriptionの意味付けが行なわれる。
【0175】
最後のcatalog_itemの例であるが、これもartistやtitleと同様、“LCN”が指定する繰り返しの汎化構造を対象として、その部分構造に対してcatalog_itemという意味を付与するという指定である。
【0176】
<意味タグ付与処理>
最後に、意味タグ付与部17において、これまでの処理により特定された詳細な文書構造をもとに、入力文書に対してタグ付与を行う。
【0177】
ここでは、部分構造の詳細化結果に対して、図34に例示するような意味タグ付与ルール24を適用するものとする。
【0178】
図35〜図38に、この結果得られた出力文書構造例を示す。
【0179】
楽曲タイトルに“<span class=“title“>”タグ、アーティスト名に“<span class=“artist“>”タグ、更に解説のあるテキスト文に“<span class=“description”>”タグ、またこれらの構造を包含する部分構造に“<span class=“catalog_item”>”タグが付与される。
【0180】
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
【0181】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0182】
【図1】本発明の一実施形態に係る文書処理装置の構成例を示す図
【図2】同実施形態に係る文書処理装置の処理手順の一例を示すフローチャート
【図3】第1の入力文書例を示す図
【図4】汎用固有表現の抽出手順の一例を示すフローチャート
【図5】入力文書からタグ情報を除去して得られるテキスト文の一例を示す図
【図6】汎用固有表現抽出辞書の一例を示す図
【図7】汎用固有表現の抽出結果の一例を示す図
【図8】意味役割語辞書の一例を示す図
【図9】意味役割語の抽出結果の一例を示す図
【図10】汎用文書構造解析の処理手順の一例を示すフローチャート
【図11】汎用文書構造の解析結果の一例を示す図
【図12】文書構造記述の処理手順の一例を示すフローチャート
【図13】汎用固有表現格納リストの一例を示す図
【図14】意味役割語格納リストの一例を示す図
【図15】文書構造記述の一例を示す図
【図16】文書タイプ判定の処理手順の一例を示すフローチャート
【図17】スコア表の例及び補正情報の例を示す図
【図18】文書構造記述リストの例及び文書モデルの例を示す図
【図19】文書モデルの詳細情報の一例及び入力文書への適用例を示す図
【図20】意味タグ付与ルールの例を示す図
【図21】第1の出力文書例を示す図
【図22】第2の入力文書例を示す図
【図23】第2の入力文書例(図22の続きの部分)を示す図
【図24】第2の入力文書例(図23の続きの部分)を示す図
【図25】第2の入力文書例(図24の続きの部分)を示す図
【図26】テキスト抽出結果の一例を示す図
【図27】汎用固有表現の抽出結果の一例を示す図
【図28】意味役割語の抽出結果の一例を示す図
【図29】汎用構造の解析結果の一例を示す図
【図30】文書構造記述の一例を示す図
【図31】構造詳細化の一例を示す図
【図32】繰り返し汎化構造特定について説明するための図
【図33】意味付与について説明するための図
【図34】意味タグ付与ルールの例を示す図
【図35】第2の出力文書例を示す図
【図36】第2の出力文書例(図35の続きの部分)を示す図
【図37】第2の出力文書例(図36の続きの部分)を示す図
【図38】第2の出力文書例(図37の続きの部分)を示す図
【符号の説明】
【0183】
11…汎用固有表現抽出部、12…意味役割語抽出部、13…汎用文書構造解析部、14…文書構造記述部、15…文書タイプ判定部、16…詳細文書構造検出部、17…意味タグ付与部、21…汎用固有表現抽出辞書・ルール、22…意味役割語辞書、23…文書モデルデータベース、24…意味タグ付与ルール、100…入力文書、101…出力文書

【特許請求の範囲】
【請求項1】
文書構造を有する入力文書から、汎用的な固有表現に関する情報を抽出する第1の抽出手段と、
前記入力文書の意味役割を特徴付ける意味役割語に関する情報を抽出する第2の抽出手段と、
前記入力文書を解析して基本的な文書構造に関する情報を求める解析手段と、
求められた前記文書構造に関する情報と、抽出された前記汎用固有表現に関する情報及び前記意味役割語に関する情報とを関連付けて保持する保持手段と、
複数の文書タイプのそれぞれについて予め定義された、汎用的な固有表現及び意味役割語に基づく文書モデルの各々と、前記保持手段に保持されている前記情報をもとに作成された、汎用的な固有表現及び意味役割語に基づく文書モデルとを比較して、前記入力文書の文書タイプを選択する選択手段と、
前記入力文書について選択された前記文書タイプに基づいて、前記入力文書の部分構造を検出する検出手段と、
前記文書タイプに対して予め定義されている意味タグを、前記入力文書から検出された前記部分構造に付与する付与手段とを備えたことを特徴とする文書処理装置。
【請求項2】
前記第1の抽出手段により抽出された前記汎用的な固有表現に関する情報は、前記入力文書から抽出された汎用的な固有表現と、前記入力文書から構造を除去してなるテキスト文の集合において当該汎用的な固有表現が出現する行を示す情報と、この行において当該汎用的な固有表現が出現する文字位置を示す情報と、当該汎用的な固有表現について予め定義されている意味分類名を示す情報とを含むものであることを特徴とする請求項1に記載の文書処理装置。
【請求項3】
前記第2の抽出手段により抽出された前記意味役割語に関する情報は、前記入力文書から抽出された意味役割語と、前記入力文書から構造を除去してなるテキスト文の集合において当該意味役割語が出現する行を示す情報と、この行において当該意味役割語が出現する文字位置を示す情報と、当該意味役割語について予め定義されている意味役割を示す情報とを含むものであることを特徴とする請求項1に記載の文書処理装置。
【請求項4】
前記解析手段は、前記入力文書中に記述されている、タイトル、章見出し、表、箇条書き、図、パラグラフ、フォント又は文字修飾を含む構造に係る情報を検出することを特徴とする請求項1に記載の文書処理装置。
【請求項5】
前記保持手段は、前記文書構造に関する情報を木構造の形式で保持するとともに、任意の部分構造に関する情報として、包含するテキストノード数と、抽出された汎用的な固有表現に関する情報及び抽出された意味役割語に関する情報とを保持することを特徴とする請求項1に記載の文書処理装置。
【請求項6】
前記保持手段は、前記入力文書に含まれるテキストノードに基づく文書構造をリストの形式で表現し、前記入力文書に出現するテキストノードを構造の深いものから優先して該リストの要素に追加していくことで階層に関する情報を保持することを特徴とする請求項1に記載の文書処理装置。
【請求項7】
前記選択手段は、前記入力文書中に出現する汎用的な固有表現の重み付け及び意味役割語の重み付けを、それが属する構造又はその周辺の構造に関して予め定義された重み付け補正情報に基づいて、変更することを特徴とする請求項1に記載の文書処理装置。
【請求項8】
前記選択手段は、前記入力文書中に出現する汎用的な固有表現及び意味役割語並びにそれらの属する構造をもとに、複数の文書タイプのそれぞれについて予め定義された文書モデルとの比較を行い、重み付けされた固有表現及び意味役割語の出現の類似性から、類似度の高い文書モデルに係る文書タイプを優先して選択することを特徴とする請求項1に記載の文書処理装置。
【請求項9】
前記検出手段は、選択された前記文書タイプについて予めルール定義されている宣言的な条件の記述を適用することにより、前記入力文書の大局的な構造が条件と適合することが確認された場合にのみ、さらに詳細な部分構造を検出する処理を行うことを特徴とする請求項1に記載の文書処理装置。
【請求項10】
前記検出手段は、前記入力文書の部分構造を検出する際に、繰り返し出現する部分構造を特定する手段と、繰り返しの部分構造に係るテキストノード数及び階層深さに基づき、繰り返しの部分構造の複雑さの順序付けを行なう手段と、最も複雑な部分構造を選択する手段とを含むことを特徴とする請求項1に記載の文書処理装置。
【請求項11】
前記検出手段は、選択された前記文書タイプについて予めルール定義されている詳細化条件の記述である構造又は語の一致条件の指定に、確率的な指定記述を可能としたことを特徴とする請求項1に記載の文書処理装置。
【請求項12】
前記検出手段は、選択された前記文書タイプについて予めルール定義されている詳細化条件を適用する際に、前記入力文書に出現している部分構造の出現頻度、意味役割語の出現頻度、又は汎用固有表現抽出の出現頻度の統計情報の利用を可能としたことを特徴とする請求項1に記載の文書処理装置。
【請求項13】
前記検出手段は、前記入力文書の部分構造に繰り返して出現する同表記の文字列を特定する手段を有するとともに、部分構造の意味指定を排他的に定義することを可能としたことを特徴とする請求項1に記載の文書処理装置。
【請求項14】
前記付与手段は、前記検出手段により得られた検出結果に基づき、特定された部分構造又は表現を変数として変換後の構造を記述するルールに従い、未知語又はタグが未付与の箇所を含んだ部分構造へのタグ付与を行うことを特徴とする請求項1に記載の文書処理装置。
【請求項15】
文書構造を有する入力文書から、汎用的な固有表現に関する情報を抽出するステップと、
前記入力文書の意味役割を特徴付ける意味役割語に関する情報を抽出するステップと、
前記入力文書を解析して基本的な文書構造に関する情報を求めるステップと、
求められた前記文書構造に関する情報と、抽出された前記汎用固有表現に関する情報及び前記意味役割語に関する情報とを関連付けて保持手段に保持するステップと、
複数の文書タイプのそれぞれについて予め定義された、汎用的な固有表現及び意味役割語に基づく文書モデルの各々と、前記保持手段に保持されている前記情報をもとに作成された、汎用的な固有表現及び意味役割語に基づく文書モデルとを比較して、前記入力文書の文書タイプを選択するステップと、
前記入力文書について選択された前記文書タイプに基づいて、前記入力文書の部分構造を検出するステップと、
前記文書タイプに対して予め定義されている意味タグを、前記入力文書から検出された前記部分構造に付与するステップとを有することを特徴とする文書処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate

【図35】
image rotate

【図36】
image rotate

【図37】
image rotate

【図38】
image rotate