説明

文書処理装置、方法及びプログラム

【課題】関連する文書データを特定する際の操作負担を軽減させる。
【解決手段】文書処理装置は、テキスト情報を抽出するテキスト文書抽出部と、テキスト情報に含まれている文字列の係り受け関係を解析する構文解析部と、係り受け関係の内容を示すタグを、当該係り受け関係が示す文字列に割り当て、テキスト情報に埋め込む論理構造埋込部と、タグが割り当てられた文字列に文書名が含まれている場合、文書名を識別するタグを、テキスト情報に対して埋め込む文書タグ埋込部と、文字列の入力を受け付けるユーザ入力受付部と、テキスト情報に埋め込まれたタグに基づいて、入力を受け付けた文字列と係り受け関係を有する文書名を含む文字列が存在するか否か判断する判断部と、文書名が存在すると判断された場合、文書名で示されたXML文書又は文書データを検索する検索部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、文書処理装置、方法及びプログラムに関するものである。
【背景技術】
【0002】
従来から、企業内では、規程等が記載された文書を電子化して、サーバ等で管理している。
【0003】
企業内における規程文書が業務活動の基盤である以上、日々の企業活動や世の動向と共に生じる業務プロセスの変更、又は組織名の変更が生じた場合、当該変更を正しく反映させるために各規程文書に適切な修正や更新を行う必要がある。
【0004】
しかしながら、実際の規程文書自体は、特定のファイルフォーマットで記述等がなされ、企業内データベースにフラットに格納されていることが多い。また、規程文書が分類されていても、組織階層と部分的に対応付けられている程度の単純な分類しか行われていないことが多い。
【0005】
また、これら規程文書を管理する管理者は、規程文書を新規作成し、その後も継続的に改訂・更新を行う。この改訂・更新として、管理者は、業務活動に沿って実施する必要がある。このような訂正・更新を容易にするために、規程文書の作成時に、将来的に行われるであろう修正箇所を予測し、当該箇所を再利用可能な部分として他の箇所から分割する等のモジュール化することは、日々改変される業務の性質上、非常に困難である。
【0006】
つまり、規程文書には改訂すべき箇所と改訂不要な箇所とが混在することになる。このため、業務プロセスや組織名の変更等が生じた場合、膨大な規程文書で修正の影響が波及する箇所を見つけることは非常に作業負担が大きかった。
【0007】
そこで、特許文献1に記載された技術は、文書管理データベースに法律類の文書データを登録する際、関連する法令やチェックポイント、証跡等を同時に記憶しておく。これにより、例えば法律を閲覧画面上に表示した際、同時に関連情報を提示することで、容易に関連情報を参照できる。この技術を適用することで、修正の影響が波及する箇所を見つけることが可能となる。
【0008】
【特許文献1】特開2003−108598号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、特許文献1に記載された技術は、文書の登録時に予め関連情報を登録するため、登録後の業務の改変や組織名の変更に対して、事前に想定していないリンク識別情報や検索キーを辿って、修正を要する文書データや関連文書データを特定することは難しいという問題がある。
【0010】
本発明は、上記に鑑みてなされたものであって、関連する文書データを容易に特定する文書処理装置、方法及びプログラムを提供するものである。
【課題を解決するための手段】
【0011】
上述した課題を解決し、目的を達成するために、本発明に係る文書処理装置は、テキスト文書情報を取得するテキスト文書取得部と、前記テキスト文書情報に含まれている文字列の係り受け関係を解析する構文解析部と、前記係り受け関係の内容を示す属性を、当該係り受け関係が示す文字列に割り当て、前記テキスト文書情報に埋め込む属性埋込部と、前記属性埋込部により前記属性が埋め込まれた前記テキスト文書情報から、文書を特定する文字列を示す文書特定文字列を特定する文書特定部と、前記文書特定部により特定された前記文書特定文字列に対して、当該文書特定文字列を識別する文書識別情報を割り当て、前記テキスト文書情報に埋め込む文書識別情報埋込部と、文字列の入力を受け付ける入力受付部と、前記テキスト文書情報に埋め込まれた前記属性及び前記文書識別情報に基づいて、前記文字列と係り受け関係を有する文書特定文字列を含む文字列が存在するか否か判断する判断部と、前記文書特定文字列が存在すると判断された場合、当該文書特定文字列で示されたテキスト文書情報を特定する特定部と、を備えることを特徴とする。
【0012】
また、本発明に係る文書処理方法は、テキスト文書取得部が、テキスト文書情報を取得するテキスト文書取得ステップと、構文解析部が、前記テキスト文書情報に含まれている文字列の係り受け関係を解析する構文解析ステップと、属性埋込部が、前記係り受け関係の内容を示す属性を、当該係り受け関係が示す文字列に割り当て、前記テキスト文書情報に埋め込む属性埋込ステップと、文書特定部が、前記属性埋込ステップにより前記属性が埋め込まれた前記テキスト文書情報から、他のテキスト文書情報を特定する文字列を示す文書特定文字列を特定する文書特定ステップと、文書識別情報埋込部が、前記文書特定ステップにより特定された前記文書特定文字列に対して、当該文書特定文字列を識別する文書識別情報を割り当て、前記テキスト文書情報に埋め込む文書識別情報埋込ステップと、入力受付部が、文字列の入力を受け付ける入力受付ステップと、判断部が、前記テキスト文書情報に埋め込まれた前記属性及び前記文書識別情報に基づいて、前記文字列と係り受け関係を有する文書特定文字列を含む文字列が存在するか否か判断する判断ステップと、特定部が、前記文書特定文字列が存在すると判断された場合、当該文書特定文字列で示されたテキスト文書情報を特定する特定ステップと、を有することを特徴とする。
【0013】
また、本発明は、テキスト情報について処理を行う手段として、コンピュータを機能させるプログラムであって、テキスト文書情報を取得するテキスト文書取得手段と、前記テキスト文書情報に含まれている文字列の係り受け関係を解析する構文解析手段と、前記係り受け関係の内容を示す属性を、当該係り受け関係が示す文字列に割り当て、前記テキスト文書情報に埋め込む属性埋込手段と、前記属性埋込手段により前記属性が埋め込まれた前記テキスト文書情報から、他のテキスト文書情報を特定する文字列を示す文書特定文字列を特定する文書特定手段と、前記文書特定手段により特定された前記文書特定文字列に対して、当該文書特定文字列を識別する文書識別情報を割り当て、前記テキスト文書情報に埋め込む文書識別情報埋込手段と、文字列の入力を受け付ける入力受付手段と、前記テキスト文書情報に埋め込まれた前記属性及び前記文書識別情報に基づいて、前記文字列と係り受け関係を有する文書特定文字列を含む文字列が存在するか否か判断する判断手段と、前記文書特定文字列が存在すると判断された場合、当該文書特定文字列で示されたテキスト文書情報を特定する特定手段、としてコンピュータを機能させることを特徴とする。
【発明の効果】
【0014】
本発明によれば、入力された文字列と関連する文書データを特定できるので、関連する文書データを特定するための操作負担を軽減させるという効果を奏する。
【発明を実施するための最良の形態】
【0015】
以下に添付図面を参照して、この発明にかかる文書処理装置、方法及びプログラムの最良な実施の形態を詳細に説明する。
【0016】
(第1の実施の形態)
図1に示すように、第1の実施の形態にかかる文書処理装置100は、形態素辞書101と、構造化ルール記憶部102と、文書論理構造化ルール記憶部103と、ファイル内容判定ルール記憶部104と、ファイル名解析ルール記憶部105と、文書記憶部106と、入力部107と、テキスト文書抽出部108と、形態素解析部109と、構文解析部110と、論理構造埋込部111と、文書構造埋込部112と、ファイルタイプ判定部113と、リンク情報埋込部114と、表示部115と、ユーザ入力受付部116と、検索部117と、文書取得部118と、登録部119と、候補生成部120と、判断部121と、を備える。
【0017】
形態素辞書101は、形態素と、品詞と、品詞番号とを対応付けて記憶している。これにより、文書データに含まれている形態素に対して、品詞及び品詞番号を割り当てることができる。また、品詞番号とは、品詞毎に割り当てられたユニークな番号とする。
【0018】
構造化ルール記憶部102は、文書データに含まれる文字列に対して、当該文字列を示す属性を示すタグを割り当てるためのルールを記憶する。図2の構造化ルールのテンプレートに示すように、タグ201が割り当てられるべき表層表現の開始位置を決定するタグ202と、表層表現の終了位置を決定するタグ203とが定義されている。
【0019】
このように、構造化ルールは、属性タグ(構造情報)を割り当てるための条件と、付与すべき属性(構造情報)との組を宣言的に記載されている。つまり、構造化ルールでは、文書データ中の語や正規表現、文書中の品詞並びや係り受け関係を特定して、これらを表すタグを割り当てるための情報が定義されている。
【0020】
これらタグ202及びタグ203内において、attには“E”、“S”、“C”のうちいずれか一つを、hidには品詞番号を定義可能としている。そして、タグ<range>204にはタグで囲むべき範囲を特定するためのシフト移動を定義可能としている。
【0021】
そして、図3に示す例では、“(任意の名詞+)責任者”に対して、タグ<position>が割り当てられることになる。なお、当該構造化ルールを用いて詳細なタグの割り当てられる範囲の決定手法については後述する。
【0022】
文書論理構造化ルール記憶部103は、テキスト文書情報の構造を解析して、構造情報を示すタグを割り当てるためのルールを記憶する。図4に示す文書論理構造化ルールにより、テキスト文書情報に含まれる文字列に対して、タグ<s-title>や、タグ<s-body>などを割り当てることが可能となる。テキスト文書情報とは、文書データを構成するテキスト情報とし、例えば、文書データから抽出されたテキスト情報の他、XMLタグが埋め込まれたテキスト情報や、文書データそのものが該当する。
【0023】
ファイル内容判定ルール記憶部104は、テキスト文書情報の内容から、当該文書のファイルタイプを判定するためのファイル内容判定ルールを記憶する。図5に示すように、ファイル内容判定ルール記憶部104は、ルール番号と、文字列と、文書構造と、文書タイプと、付与ポイントとを対応付けて記憶している。つまり、文書構造で示された領域に、文字列が含まれていた場合、これら文書構造及び文字列と対応付けられているファイルタイプに対して、対応付けられている付与ポイントを加算していくことで、ファイルタイプを決定できる。
【0024】
ファイル名解析ルール記憶部105は、文書データのファイル名から、対応するラベルを割り当てるためのルールを記憶する。図6に示すように、ファイル名に含まれる情報として、時間情報、タイプ情報及び所属情報等があり、それぞれに設定されている条件表記がファイル名に含まれていた場合に、対応付けられている対応ラベルが割り当てられることになる。
【0025】
文書記憶部106は、文書処理装置100の処理でタグ等が埋め込まれたテキスト文書情報を、(構造解析結果済み)XML文書として格納する。また、文書記憶部106は、当該テキスト文書情報に対応付けられた文書名、及び文書IDも格納する。なお、当該文書IDは、ユーザ等が文書作成時等に文書に対してユニークに割り当てられたIDとする。
【0026】
入力部107は、文書処理装置100で管理する文書データを入力処理する。この文書データはいずれのフォーマット形式でも良く、ワードプロセッサや表計算アプリケーション、又はプレゼンテーションソフト等で作成された文書データなどが考えられる。これらのフォーマット形式で、企業内で通常流通している形式の規程文書や業務マニュアル、各種の企業内文書が作成されているものと仮定する。本実施の形態においては、図7に示す入力文書に対して、処理を行っていくものとする。
【0027】
テキスト文書抽出部108は、入力処理された文書データから、テキスト文書情報を抽出する。本実施の形態においては、テキスト文書情報として、テキスト情報が抽出されるものとする。さらに、テキスト文書抽出部108は、文字列や段落に付与されている書式やスタイル情報、ページ情報なども抽出する。テキスト文書抽出部108は、抽出テキストを取得する以上、換言するとテキスト文書取得部としての機能を有することになる。また、テキスト文書抽出部108は、文書データから、当該文書データの文書名及び文書IDも抽出し、抽出したテキスト情報と対応付ける。
【0028】
そして、以下に示す構成が、文書データから抽出された情報とそれらの書式スタイル情報とから、文書の特徴を判定した後、当該特徴を示すタグなどの埋込を行う。
【0029】
形態素解析部109は、抽出されたテキスト情報に対して、形態素解析を行い、当該テキスト情報を形態素毎に分割すると共に、当該形態素毎に品詞情報を解析結果として割り当てる。これにより、図8に示すように、形態素毎に品詞情報が割り当てられることになる。
【0030】
さらに、形態素解析部109は、図示していないが、形態素毎に、割り当てた品詞情報と対応する品詞番号を割り当てる。さらに、形態素解析部109は、名詞のうち人名や企業名等の固有名詞に対して、形態素解析辞書により、姓や企業名であることを示すプロパティを付与する。
【0031】
構文解析部110は、テキスト情報に含まれている文字列の係り受け関係を解析する。本実施の形態にかかる構文解析部110は、形態素解析部109による形態素解析の結果を用いて、テキスト情報に対して、日本語の文法に基づく構文解析を行う。これにより、テキスト情報に含まれていた文それぞれについて、主語、述語及び目的語等の係り受け関係や、単語間の係り受け情報などを特定できる。
【0032】
図9に示すように、構文解析部110は、テキスト情報に含まれる文に対して、係り受け関係を特定すると共に、主語(S)、目的語(O)、述語(V)を特定する。また、構文解析部110は、補語(C)等についても特定しても良い。
【0033】
論理構造埋込部111は、文書特定部141と、文書タグ埋込部142と、を備え、テキスト文書情報に対して、属性を示すタグを埋め込む。
【0034】
例えば、論理構造埋込部111は、構造化ルール記憶部102に記憶された構造化ルールを利用して、テキスト情報に含まれている文字列に対して、これら文字列の属性を示すタグの割当を行う。割り当てられるタグとしては、人名や企業名、場所や日付表現、役職・部署名等を示すタグが考えられる。このような処理を行うために、論理構造埋込部111は、予めテキスト情報と共に、形態素解析部109及び構文解析部110による解析結果を取得しておく必要がある。
【0035】
また、論理構造埋込部111は、構文解析部110による構文解析結果に基づいて、係り受け関係の内容を示す属性を示すタグを、テキスト文書情報内の、当該係り受け関係が指し示す各文字列に対して埋め込む。この各文字列に対して割り当てられる属性としては、主語、述語及び目的語などの係り受け関係や、単語間の係り受け等とする。
【0036】
このように属性を割り当てる手法の例としては、論理構造埋込部111は、構文解析結果で係り受け関係が特定された各文字列の語尾表現に基づいて、動作の主体、対象物、主体が行うアクションを特定し、これらを示す属性のタグを割り当てる。動作の主体、対象物、主体が行うアクションは、構文解析部110による係り受け情報、例えば図9に示す解析結果から特定できる。
【0037】
なお、他の例としては、文節末に表層表現「は、」が出現している場合に当該文節を動作の主体としてもよい。この場合、文節末に表層表現「を、」が出現していれば、当該文節を対象物とする。さらに、文節の品詞情報が動詞の場合に主体が行うアクションとする。
【0038】
図9に示した構文解析結果を用いた場合、図10に示すように、論理構造埋込部111は、文字列“情報セキュリティ管理責任者は、”に対して、タグ<subject>を割り当て、文字列“「新規サーバ登録申請書」を”に対して、タグ<object>を割り当て、さらに、「提出する」に対して、タグ<action>を割り当てる。また、これらのタグが埋め込まれるために所定の条件を設けても良い。このような条件としては、例えば、タグ<object>に、他の文書とリンクするための情報が含まれている場合に限る等が考えられる。
【0039】
論理構造埋込部111が備える文書特定部141は、テキスト情報内から文書名、文書ID及び文中で参照されている節・句等を特定する。以降、文書名、文書ID及び文中で参照されている節・句等の文書を特定する文字列を、文書特定文字列とする。
【0040】
論理構造埋込部111が備える文書タグ埋込部142は、文書特定部141により特定された文書特定文字列に対して、文書を示すタグ<document>を割り当てる。
【0041】
次に、論理構造埋込部111のタグを割り当てる範囲の特定手法について説明する。図11に示す例では、論理構造埋込部111が、図3に示した構造化ルールを用いることで、タグ<position>の割り当てる範囲が特定されている。この際、図3の構造化ルールに従って、まず、論理構造埋込部111は、文字列“責任者”を特定する。当該構造化ルールでは、eshift(最後尾の移動制御)=0のため、最後尾は“責任者”で固定されるが、bshift=1のため、品詞番号が“97”又は“98”である限り前(読み始め)方向にシフト移動し続け、始点を探索する。これにより、論理構造埋込部111は、“情報セキュリティ管理責任者”が、タグ<position>の割り当てられる範囲として特定される。
【0042】
他にも様々な構造化ルールが考えられる。次に、文書特定文字列の一種である文書名の特定するための構造化ルールについて説明する。上述した構造化ルールと同様のロジックを用いた例としては、文書特定部141が、“責任者”の代わりに“申請書”を特定し、特定された“申請書”から品詞番号が“97”又は“98”である限り前(読み始め)方向にシフト移動し続け、始点を探索し、最終的に“新規計算機登録申請書”という文字列を特定する。そして、文書タグ埋込部142は、この特定された“新規計算機登録申請書”に対して、タグ<document>を割り当て、テキスト情報に埋め込む。このような構造化ルールにより、文書タグ埋込部142は、テキスト情報に含まれている文書名に対して、タグ<document>を割り当てることができる。また、文書名以外の文書特定文字列についても同様の手順でタグ<document>を割り当てることができる。
【0043】
他には、論理構造埋込部111は、テキスト情報に、数値+“年”や“月”、“日”のパタン、若しくは“YYYY/MM/DD”などの表記(YMDはそれぞれ年月日に相当する数値)が含まれている場合、当該文字列に対して日付表現を示すタグを割り当てる。
【0044】
さらに、論理構造埋込部111は、形態素解析結果で固有名詞の姓・名と判定された連接文字列に対して人名を示すタグを割り当てる。このように、形態素解析結果に基づいて、文字列に対して当該 文字列を表すタグを割り当てる。
【0045】
このようにして、論理構造埋込部111は、形態素解析結果および構文解析結果を利用することで、テキスト情報内に含まれる、意味的な用言や明示的な書誌情報に対して、これら属性を示すタグを割り当てることができる。
【0046】
文書構造埋込部112は、文書論理構造化ルール記憶部103に記憶されている構造化ルールを用いて、抽出されたテキスト情報、文字列や段落に付与されている書式やスタイル情報、ページ情報、さらには形態素解析部109や構文解析部で解析された品詞情報や係り受け関係等から、文書の論理構造を判定する。
【0047】
これにより、文書構造埋込部112は、テキスト情報に含まれている文字列に対して文書の論理構造を示すタグを割り当て、当該タグをテキスト情報に埋め込む。これら割り当てられる論理構造としては、文書タイトル、文書中の大見出しや小見出し、箇条書き表現、又は章節構造等がある。例えば、図4に示す文書論理構造化ルールの場合、領域401に示す構造化ルールでは、“第[1-9][0-9]+{条|章|項}”又は“第[一-九][〇-九]+{条|章|項}”が含まれていた場合に、これら文字列に対してタグ<s-title>を割り当る。
【0048】
さらに、文書構造埋込部112は、割り当てたタグを手がかりにして、他のタグを割り当てる処理も行う。例えば、図4に示す構造化ルールを利用する場合、領域402にしめす文書論理構造化ルールでは、文書構造埋込部112は、タグ<s-title>が割り当てられた領域以外に、タグ<s-body>を割り当てる。
【0049】
つまり、図4に示す文書論理構造化ルールによれば、<s-body>は<s-title>と排他的な関係で、かつ<s-title>に後続として<s-body>が割り当てられるという関係から、テキスト情報中のタグ<s-title>に対して相補的に付与する。
【0050】
図12に示すように、文書構造埋込部112までの処理が終了した場合、抽出されたテキスト情報を構成する文書要素に対してさまざまなタグが割り当てられていることになる。例えば、文書のタイトルには、<document_title>や、章や節に対しては、<section>や<subsection>などの論理構造ラベルが割り当てられている。また、当然ながら論理構造埋込部111及び文書タグ埋込部142により埋め込まれたタグも存在する。例えば、“「新規計算機登録申請書」”に対するタグ<document>、“情報セキュリティ管理責任者”に対するタグ<position>、“セキュリティ管理部”に対するタグ<department>、また前半には書誌情報として日付表現に対応するタグ<date>が存在し、当該タグ<date>内に発行日と改訂日を示す詳細な属性値が埋め込まれている。
【0051】
ファイルタイプ判定部113は、本文内容判定部131と、ファイル名判定部132とを備え、入力された文書データのファイルタイプを判定する。具体的には、ファイルタイプ判定部113は、本文内容判定部131の本文内容によるファイルタイプの判定結果、及びファイル名判定部132のファイル名によるファイルタイプの判定結果に基づいて、総合的にファイルタイプを判定する。
【0052】
本文内容判定部131は、文書データから抽出されたテキスト情報、及び文書構造埋込部112により埋め込まれたタグに基づいて、本文内容によるファイルタイプを決定する。例えば、本文内容判定部131は、上述した処理によりタグが埋め込まれたテキスト情報に対し、図5に示したファイル内容判定ルールを用いて、本文内容のファイルタイプを決定する。つまり、図5に示したファイル内容判定ルールに定義された文字列及び文書構造が、テキスト情報に含まれる文字列、及び当該文字列に割り当てられた文書構造(タグ)が一致した場合に、当該ルールで対応付けられたファイルタイプに対して、設定されたポイントを付与する。そして、本文内容判定部131は、当該処理をテキスト情報全体に対して行い、最も高いポイントから順に所定の数のファイルタイプを、本文内容のファイルタイプとして決定する。
【0053】
図5の例を具体的に示すと、ルールID1は、“議事録”の文字列が文書データ中のタグ“title_area”が割り当てられたタイトル領域に含まれていれば、本文内容判定部131は、当該文書データのファイルタイプが“minute”(議事録)であるという判定に、100ポイント加算することを意味する。
【0054】
ルールID2も同様に、文字列“提案書”が、文書構造(タグ)“title_area”が割り当てられたタイトル領域に含まれていれば、本文内容判定部131は、ファイルタイプが“proposal”であるという判定に、80ポイント加算することを意味している。このように、以下同様にファイル内容判定ルールをそれぞれ適用し、最終的に最も高いポイントから順に所定の数のファイルタイプを、当該文書データの本文内容における判定結果とする。
【0055】
ファイル名判定部132は、ファイル名解析ルール記憶部105に記憶されたファイル名解析ルールに基づいて、文書データのファイル名を解析し、当該ファイル名による、当該文書データのファイルタイプを判定する。また、ファイル名判定部132は、ファイル名から解析した内容を、メタ情報として、テキスト情報に埋め込む。
【0056】
例えば、ファイル名判定部132は、ファイル名「070614情報セキュリティ会議議事録.doc」から、日付表現、文書のタイプを示す特徴語(ここでは“議事録”)の有無、さらにファイル形式(.doc)等の情報を取得する。
【0057】
続いて、ファイル名判定部132は、ファイル名解析ルールを読み込む。例えば、図6に示すファイル名解析ルールでは、時間情報、タイプ情報、所属情報の各属性に関するルールが定義されているので、ファイル名判定部132は、これらファイル名解析ルールで設定されている条件表記に一致した表記がファイル名に含まれている場合、当該条件表記と対応付けられている対応ラベル(属性)をメタ情報として、テキスト情報に埋め込む。
【0058】
詳細な例としては、ファイル名判定部132は、ファイル名中に、四桁の数値の表記が含まれていることを検出した場合、当該数値の表記を、YEARラベル(年を表す表記)と対応づけて、テキスト情報に埋め込む。他の例としては、ファイル名判定部132は、ファイル名中に、六桁の数値の表記が含まれていることを検出した場合、それぞれ2桁ごとに年、月、日の表記であるとみなし、それぞれの数値と対応するラベルとをメタ情報として、テキスト情報に埋め込む。
【0059】
同様にして、ファイル名判定部132は、ファイル名中に、“議事録”、“配布資料”、“仕様書”等の表記が含まれていることを検出した場合、これらの表記を、当該表記に該当するラベルと対応付けて、テキスト情報に埋め込む。さらに、ファイル名判定部132は、その詳細情報として、それぞれの内容(議事録、配布資料、仕様書等々)を属性値として埋め込む。
【0060】
そして、このような判定結果から、ファイル名判定部132は、ファイル名に基づくファイルタイプを判定する。つまり、図6に示すファイル名解析ルールによれば、ファイル名中に“議事録”が含まれていれば、ファイルタイプを“minute”と判定し、“配付資料”が含まれていれば、ファイルタイプを“handout”と判定し、“仕様書”が含まれていれば、ファイルタイプを“spec”と判定する。
【0061】
また、ファイル名判定部132は、ファイル名中に、形態素解析適用の結果である固有名詞(姓・名表現や企業名)が含まれることを検出した場合、これら表記についても、当該表に該当するラベルと対応付けて、テキスト情報に埋め込む。
【0062】
ファイルタイプ判定部113は、本文内容判定部131によるファイルタイプの判定結果と、ファイル名判定部132によるファイルタイプの判定結果に対し、それぞれ重み付けを行い、両者の結果を組み合わせることで、判定結果に冗長性を持たせてファイルタイプを最終的に決定する。決定されたファイルタイプは、例えばテキスト情報内にメタ情報として格納してもよいし、文書記憶部106にテキスト情報と対応付けて格納しても良い。
【0063】
例として、ファイル本文の解析に基づく判定結果で“議事録”及び“お知らせ”が判定結果として得られ、ファイル名の解析に基づく判定結果で“議事録”が得られた場合について説明する。この場合、ファイルタイプ判定部113は、単純に各結果に同等の重み付けで評価することで、“議事録”の判定結果をより際立たせて、ファイルタイプを決定する。このように、本実施の形態においては、ファイルタイプ判定部113が複数のファイルタイプを決定するものの、これらファイルタイプにおいては重み付けされた結果を出力する。
【0064】
一方で、文書データの性質上、より確度が高く判定できるファイルタイプや、逆に判定が困難なファイルタイプには、結果を判定するときに重み付けの値を増減させてもよい。これにより、ファイルタイプ判定部113は、ファイルタイプの判定結果にバイアスを掛けることで、適切な結果を得ることが可能となる。
【0065】
リンク情報埋込部114は、テキスト情報内の表記から、参照又は引用されている文書特定文字列を特定し、当該文書特定文字列に割り当てられたタグ“document”内に、リンク識別情報を埋め込む。
【0066】
本実施の形態におけるリンク情報埋込部114においては、まず、論理構造埋込部111によりタグが埋め込まれたテキスト情報から、文書を示すタグ<document>が割り当てられている文書特定文字列を抽出する。
【0067】
また、リンク情報埋込部114は、異なる文書データ間で、文書データに類似した単語や概念が出現している等の関係に基づいて、異なる文書データ間の類似性や改訂関係を判定し、当該テキスト情報と類似性や改訂関係のある文書データに対してリンクするためのリンク識別情報を埋め込む。
【0068】
そして、リンク情報埋込部114は、抽出されたタグ<document>が割り当てられている表記、文書名、及び文書IDが、当該テキスト情報の抽出元の文書データ又は当該文書データ内の論理構造(例えば章、節)を指しているのか、当該文書データと異なる文書データを示しているのか判定する。
【0069】
その後、リンク情報埋込部114は、判定結果に基づいて、表記などが当該文書データと異なる文書データを指し示していると判断した場合、指し示している文書データが文書記憶部106に格納されているか否か判断する。そして、格納されていると判断した場合に、当該表記などに割り当てられたタグ<document>に対して、例えばリンク識別情報“val="external"”を埋め込む。これにより、タグ<document>に“val="external"”を埋め込まれているのであれば、外部の文書が存在し、検索部117で検索を行うことで、当該文書を参照可能であることを意味する。
【0070】
一方、リンク情報埋込部114は、判定結果に基づいて、表記などが当該文書データ又は当該文書データ内の章や節を指し示していると判断した場合、当該表記に割り当てられたタグ<document>に対して、例えばリンク識別情報“val="internal"”を埋め込む。さらに、リンク情報埋込部114は、章や節番号などの指定がある場合、target="2章3節"などの属性により、詳細な指定情報をタグ<document>に対して埋め込む。このようにして、リンク情報埋込部114は、リンク識別情報の埋め込み処理を行う。
【0071】
なお、本実施の形態においては、外部の文書とリンクするためのリンク識別情報として、当該テキスト情報内の章・節を示すか、他の文書データを示しているかを表す文字列である、“val="external"”と、“val="internal"”とを埋め込むこととした。しかしながら、実際に文書データが格納されているパスなどをリンク識別情報として埋め込んでも良い。
【0072】
このように、本実施の形態においては、各種の解析結果が、テキスト情報にタグとして埋め込まれる、又はメタデータとして埋め込まれる。
【0073】
図13に示す例では、ファイル名判定部132が、ファイル名“情報セキュリティ管理規程_071003案_rev2.doc”に対して行った解析結果を、タグ<fileinfo>の領域1301内に書き込まれている。さらに、リンク情報埋込部114が、リンク識別情報として“val="external"”1302を、タグ<document>内に書き込んでいる。
【0074】
また、本実施の形態とは異なるが、当該テキスト情報と対応付けられた外部ファイルに、解析結果を書き込んでも良い。この外部ファイルは容易に参照・再利用可能な形式で原文と対応づけて保持される。
【0075】
登録部119は、入力された文書データと、上述した処理によりタグが埋め込まれたテキスト情報(構造解析結果済みXML文書)とを対応付けて、文書記憶部106に登録する。換言すれば、文書データ及びXML文書は、検索対象となるテキスト文書情報として、文書記憶部106に登録されたことになる。また、これらのXML文書は、文書記憶部106内のXMLデータベースに階層構造を保持した状態で格納される。これにより、上述した処理で埋め込まれたタグを検索キーとして検索を行うことができる。本実施の形態では、テキスト情報に対応付けられた、文書データの文書特定文字列(例えば、文書名、文書ID)も、XML文書と対応付けて記憶する。これにより、文書特定文字列から、XML文書を特定することも可能とし、文書特定文字列から、XML文書の検索が可能となる。
【0076】
こうして格納された文書記憶部106に格納されたXML文書及び文書データは、ユーザの検索要求に応じて、選択的に提示される。
【0077】
表示部115は、図示しないモニタに対してさまざまな情報の表示処理を行う。例えば、文書記憶部106に格納された文書データまたはXML文書の検索画面や、検索結果の画面などの表示処理を行う。他の例としては、後述する候補生成部120により生成された検索候補を含む検索絞込画面などの表示処理を行う。また、検索絞込画面などにおいてプルダウンメニューなどを表示しても良い。
【0078】
ユーザ入力受付部116は、図示しない入力デバイスを介して、ユーザからの入力情報の入力を受け付ける。ユーザ入力受付部116が受け付ける入力情報としては、例えば検索要求、検索候補の選択など、ユーザが入力可能なあらゆる情報が考えられる。
【0079】
また、ユーザ入力受付部116は、組織の改変等の伴い、名称などの文字列が変更される場合、表示部115に表示された文書データ又はXML文書に含まれる当該文字列の入力を受け付ける。
【0080】
判断部121は、ユーザ入力受付部116が文字列の入力を受け付けた場合に、テキスト文書情報に埋め込まれた係り受け関係の内容を示すタグ(例えば<subject>, <object>, <action>)及びタグ<document>に基づいて、入力を受け付けた文字列と関連する文書名が存在するか否か判断する。
【0081】
本実施の形態において、判断部121は、入力された文字列と同じ文にタグ<document>で囲まれた文字列が存在すると共に、入力された文字列と、タグ<document>で囲まれた文字列に係り受け関係を有する場合に、入力を受け付けた文字列と関連する文書特定文字列が存在すると判断する。
【0082】
そして、判断部121が、文書特定文字列が存在すると判断した場合、検索部117が当該文書特定文字列で、文書記憶部106に対して検索を行い、文書取得部118が検出されたXML文書又は当該XML文書と対応付けられた文書データを取得する。
【0083】
この文書データ又はXML文書を特定するためには、リンク識別情報を用いる。すなわち、文書名に割り当てられたリンク識別情報が“val="external"”であれば、検索部117が文書記憶部106に格納されているものとして検索を行い、文書取得部118が検索された文書データ又はXML文書を取得する。そして、リンク識別情報が“val="internal"”であれば、現在参照している文書データ又はXML文書内の章又は節などを指し示しているとして、文書取得部118が当該文書データ又はXMLデータの章又は節などを特定する。
【0084】
また、本実施の形態とは異なるが、リンク識別情報に文書データ又はXML文書のパスが記載されている場合、文書取得部118はリンク識別情報から文書データ又はXML文書を取得できる。
【0085】
検索部117は、ユーザからの検索要求に応じて、文書記憶部106内のXMLデータベースに対してXML文書の検索を行う。検索を行うために、検索部117は、ユーザから入力された検索要求を解析し、検索を行うためのクエリを生成する。そして、生成したクエリを文書記憶部106に出力することで、XML文書の検索を行うことができる。そして、XML文書と入力された文書データは対応付けられているため、当該文書データも特定することができる。
【0086】
換言すれば検索部117は、検索を行うことで、文書名で示されたXML文書、又は当該XML文書に対応する文書データを特定する特定部としての機能を有している。
【0087】
文書取得部118は、ユーザが要求する文書データ又はXML文書を、文書記憶部106から取得する。例えば、文書取得部118は、検索部117からの入力されたクエリによる検索が行われた場合、当該検索結果となるXML文書及びXML文書と対応付けられた文書データとを取得する。
【0088】
候補生成部120は、ユーザが所望するXML文書又は文書データを絞り込むための検索条件の候補を生成する。このために、候補生成部120は、ユーザにより入力された検索条件に従って検索が行われた結果である複数のXML文書を、文書取得部118から取得し、当該複数のXML文書のそれぞれに含まれている情報(例えばタグが割り当てられた文書要素)を組み合わせることで、さらなる絞込を行うための検索条件の候補を生成する。このように、候補生成部120は、文書要素単位で組み合わせて検索結果を、要約的に纏め上げ等を行う。
【0089】
そして、候補生成部120で生成された検索条件の候補を、表示部115が表示処理し、ユーザ入力受付部116が、検索条件の候補の選択を受け付けた場合、検索部117が選択された候補を検索キーとして検索を行う。そして、検索されたXML文書を文書取得部118が取得して、再び候補生成部120が候補の生成を行う。当該処理を繰り返すことで、ユーザが所望する文書データを絞り込むことができる。
【0090】
図14に示す検索を行うためのインターフェースに基づいて、行われる検索の手順について説明する。
【0091】
まず、「人物/役職」のプルダウンメニュー内に表示する文書要素を抽出するために、検索部117が文書記憶部106に対して検索を行う。例えば、検索部117は、タグ<subject>又はタグ<position>が割り当てられた文書要素の検索を行う。そして、候補生成部120が、検出された文書要素から、プルダウンメニューに表示される候補を生成する。そして、表示部115が、生成された候補を含む「人物/役職」のプルダウンメニューを表示する。図14に示す例では、当該プルダウンメニュー1401には、“情報管理責任者”などが列挙されているものとする。そして、ユーザ入力受付部116が、ユーザからの“情報管理責任者”の選択を受け付けたものとする。
【0092】
その後、検索部117が選択された「人物/役職」とXML文書で関連するタグ<action>内の文書要素を検索する。この検索例としては、選択された「人物/役職」を含む文中に埋め込まれたタグ<action>内の文書要素を検索する等が考えられる。
【0093】
そして、検索部117が、当該タグ<action>内の文書要素を検索した後、候補生成部120が、検出された文書要素から、検索候補を生成し、表示部115が「アクション」のプルダウンメニュー1402を表示する。当該プルダウンメニュー1402は、例として、申請する、管理する、掌る、参加する等を提示する。そして、ユーザ入力受付部116が、ユーザからの“申請する”の選択を受け付けたものとする。
【0094】
次に、検索部117が、“情報管理責任者”と“申請する”に関連付けられたタグ<object>内の文書要素を検索する。その後、タグ<action>の場合と同様の処理が行われる。これにより、タグ<object>内の文書要素が抽出され、表示部115が、「対象物」のプルダウンメニュー1403を表示する。当該プルダウンメニュー1403は、例として、外部サーバ管理申込書、新規ユーザ登録申請書、ドメイン参加申込書、終夜運転申請書等を提示する。そして、ユーザ入力受付部116が、ユーザからの“外部サーバ管理申込書”の選択を受け付けたものとする。
【0095】
選択された“外部サーバ管理申込書”は、タグ<document>が割り当てられている他、リンク情報埋込部114により“val="external"”がタグ<document>の属性値として埋め込まれているものとする。これにより、当該XML文書とは異なる文書データを指し示していることが認識できる。
【0096】
そこで、検索部117は、文書記憶部106に対して、“外部サーバ管理申込書”のタイトルを有する文書データを取得するクエリを生成し、文書記憶部106に対して出力する。これにより、“外部サーバ管理申込書”のタイトルを有する文書データを検索することができる。
【0097】
そして、該当する文書データが検出された場合、文書取得部118が当該文書データを取得して、表示部115が当該文書データの表示を行う。これにより、ユーザはプルダウンメニューで絞り込んだ検索条件と一致する文書データを閲覧できる。
【0098】
このようにして、ユーザは検索語を入力することなく、文書記憶部106に格納されている文書データを取得することが可能となる。
【0099】
また、ユーザがプルダウンメニューで検索候補を絞り込んでいった結果、対象物として“外部サーバ管理申込書の第三条二項”というような、文書データの特定の部分構造を指し示している場合、検索部117は、当該文書データ「外部サーバ管理申込書」の第三条二項を検索するクエリを生成し、文書記憶部106に対して検索を行う。当該検索は、上述した文書構造埋込部112によりタグ<section>、<subsection>を埋め込み、当該XML形式を保持した状態で文書記憶部106に格納しているために容易に実現できる。
【0100】
そして、文書取得部118は、図13に示したXML文書の例のように、該当するタグ<section>及び<subsection>を探索して、特定することで、第三条二項の部分構造のみ抽出して、ユーザに対して優先的に提示することが可能となる。
【0101】
次に、関連する文書データを提示する例について説明する。本例は、文書記憶部106に格納されている解析済みXML文書に対して、業務内容や組織の見直し等の改変に伴い、文書データ内の文言や部署名を変更する例とする。
【0102】
本例は、旧名称「情報セキュリティ管理責任者」を、組織改変と業務見直しに伴い新名称「情報セキュリティ管理エキスパート」に改称する例とする。そして、ユーザが現在参照している文書データでは、旧名称「情報セキュリティ管理責任者」が記載されているものとする。そして、ユーザは、当該文書データ以外に影響がある文書データを参照することを要求しているものとする。
【0103】
図15に示す例では、ユーザが、文書表示ビュー1501で参照している文書データから、変更したい文字列を選択する。これにより、ユーザ入力受付部116が、当該文書データに含まれている「情報セキュリティ管理責任者」1502の選択を受け付けたものとする。
【0104】
そして、文書取得部118が、当該文書データと対応付けられているXML文書を取得し、表示部115が、所定の表示領域1503に、選択された文字列に割り当てられているタグが示す属性と、選択された文字列を含む文書名(例えば規程が記載された文書名)を表示する。
【0105】
図15に示す例では、表示部115は、「情報セキュリティ管理責任者」に対して、人物/役職、及び主体を示すタグが割り当てられていることを表示する。さらに、表示部115は、「情報セキュリティ管理責任者」が含まれている規程文書名を表示する。
【0106】
この際、判断部121が、選択された文字列「情報セキュリティ管理責任者」と関係を有する文書名が存在するか否か判定する。本実施の形態ではXML文書に対して、係り受け関係に応じてタグ<subject>、タグ<action>及びタグ<object>が割り当てられている。そこで、タグ<subject>に含まれている文字列について改称する場合に、当該文字列を含む<subject>と、同じ文中で係り受け関係があることを示すタグ<object>内の含まれている文字列であってタグ<document>が割り当てられている文書名又は文書IDが存在するか否か判定する。なお、変換する文字列がタグ<object>に含まれている場合、タグ<subject>に含まれている文字列に文書名が存在するか否か判定する。
【0107】
判断部121は文書名が存在すると判定した場合、検索部117が、当該文書名で文書記憶部106を検索することで、文書取得部118が、該当するXML文書又は、当該XML文書と対応付けられた文書データを取得する。この取得したXML文書又は文書データは、「情報セキュリティ管理責任者」に関係する業務が出現している文書データとなる。そこで、表示部115が、これら取得したXML文書又は文書データを、関連する業務(アクション)が出現している規程などとして表示する。
【0108】
これにより、文字列を変更する場合に、特に関連が高いXML文書又は、文書データを特定することができる。具体的には、「情報セキュリティ管理責任者」が主体として、関係する業務(アクション)が出現している規程をユーザに対して提示できる。
【0109】
なお、本実施の形態は、取得する文書データを、このように係り受け関係を有する文書データに限るものではなく、文書表示ビュー1501で表示されている文書データに埋め込まれたタグ<document>でリンクを貼られた文書データ全てを取得しても良い。
【0110】
さらには、検索部117が、表示している文書データに対してリンクを張っているXML文書を検索する。当該検索は、文書表示ビュー1501で表示されている文書データ又はXML文書の文書名を含むタグ<document>を検索キーとして、文書記憶部106に対して行う。
【0111】
また、検索部117は、「情報セキュリティ管理責任者」を含むXML文書の検索を、文書記憶部106に対して行う。そして、文書取得部118は、検索されたXML文書、又は当該XML文書と対応付けられた文書データを取得する。
【0112】
つまり、文書取得部118は、変換する文字列と関連を有するXML文書、表示しているXML文書に対してリンクを貼っているXML文書、変換する文字列を含むXML文書、及びこれらXML文書と対応付けられた文書データを取得する。
【0113】
これにより、関連を有すると考えられるXML文書又は、文書データを全て取得できるので、ユーザは変更が必要な文書範囲について容易に確認することができる。
【0114】
その際、例えばこの文字列「情報セキュリティ管理責任者」を変更することによる影響を異なる軸で提示し、ユーザのナビゲートと注意を促す。
【0115】
そして、表示部115は、例えば、取得した文書データのうち、関連規程と、既に表示されている文書データ中で表現されている規程文書を、アイコンやファイル名で表示する。さらには、表示部115は、関連する「申請書」が、組織や業務の変更に伴って見直す箇所がないかを促すために、「波及可能性あり」などのメッセージと共に、ファイル名や該当箇所を表示する。これにより、ユーザへ確認を推奨できる。
【0116】
さらに、変更に伴い要確認などのメッセージと共に、対象業務の記述内容の確認を促すことができる。
【0117】
また、ユーザが、改称語の文字列「情報セキュリティ管理エキスパート」を入力した場合、ユーザ入力受付部116が、関連規程として取得した文書データの全てに対して、該当する文字列を置換する。さらには、表示部115が、関連規程として取得した文書データのうち、置換対象となった文書データや該当文書データの変更箇所(部分構造)のみ表示することで、変更箇所が容易に区別可能とする。
【0118】
また、表示部115は、文書取得部118が取得した文書データを、文書の種別毎に分けて表示しても良い。図15に示す例では、表示部115は、閲覧のみ可能な関連規程と、入力可能なフォームを含む申請書とを分けて表示している。この分類は、ファイルタイプに応じて分けられたものとする。さらには、表示部115は、文書データの変更箇所に応じて、リンクが張られている文書データのうち特に関連文書を光らせて表示などを行ってもよい。
【0119】
次に、文書処理装置100の文書データを格納するまでの手順について、図16を用いて説明する。
【0120】
まず、入力部107は、文書データの入力処理を行う(ステップS1601)。次に、テキスト文書抽出部108は、文書データから、テキスト文書情報として、テキスト情報を抽出する(ステップS1602)。
【0121】
そして、形態素解析部109は、抽出されたテキスト情報に対して形態素解析を行い、形態素毎に品詞及び品詞番号が割り当てられる(ステップS1603)。
【0122】
次に、構文解析部110が、ステップS1603の形態素解析の結果を用いて、テキスト情報に対して、日本語の文法に基づく構文解析を行う(ステップS1604)。
【0123】
そして、論理構造埋込部111は、構造化ルール記憶部102に記憶された構造化ルールを利用して、テキスト情報に含まれている文字列に対して、属性を示すタグを割り当て、テキスト情報に属性タグの埋め込みを行う(ステップS1605)。
【0124】
次に、ファイルタイプ判定部113が、テキスト情報及び当該テキスト情報の抽出元の文書データについて、ファイルタイプの判定を行う(ステップS1606)。判定されたファイルタイプは、テキスト情報に埋め込むこととする。なお、ファイルタイプの際に行われたファイル名の解析結果は、メタ情報として、テキスト情報に埋め込まれる。
【0125】
リンク情報埋込部114は、テキスト情報内の文字列に文書名が含まれている場合に、当該文書データ名にリンク識別情報を埋め込む(ステップS1607)。
【0126】
そして、登録部119は、上述した処理によりタグが埋め込まれたテキスト情報を、XML文書として、文書記憶部106に登録する(ステップS1608)。この際、XML文書は、入力された文書データと対応付けられる。
【0127】
上述した処理により、解析結果が埋め込まれたXML文書を検索可能に格納することができる。
【0128】
次に、ステップS1605の属性タグの割り当て手順について、図17を用いて説明する。まず、論理構造埋込部111は、形態素解析部109の形態素解析結果を取得する(ステップS1701)。
【0129】
次に、論理構造埋込部111は、構文解析部110の構文解析結果を取得する(ステップS1702)。
【0130】
そして、論理構造埋込部111は、文書論理構造化ルール記憶部103から、文書論理構造化ルールを読み込む(ステップS1703)。
【0131】
次に、論理構造埋込部111は、読み込んだ文書論理構造化ルールの条件記述パタンと、テキスト情報の文字列、当該文字列の品詞(番号)及び構文解析結果と、が一致するか否か判定する(ステップS1704)。一致しないと判定した場合(ステップS1704:No)、特に処理を行わない。
【0132】
そして、論理構造埋込部111が一致すると判定した場合(ステップS1704:Yes)、条件記述パタンと対応付けられている条件定義に基づく属性のタグを、テキスト情報の該当箇所に埋め込む(ステップS1705)。
【0133】
また、ステップS1704において、文書特定部141が、読み込んだ文書論理構造化ルールの条件記述パタンに従って、テキスト文書情報内に文書特定文字列を特定する。そして、S1705において、文書タグ埋込部142は、特定された文書特定文字列に対して、当該条件記述パタンと対応付けられている条件定義に従ってタグ<document>を、テキスト情報の該当箇所に埋め込む。
【0134】
そして、論理構造埋込部111は、読み込んだ文書論理構造化ルールに、割り当てたタグを利用した文書論理構造化ルールが存在する場合、タグの埋込結果が、文書論理構造化ルールの条件記述パタンと一致するか否か判定する(ステップS1706)。一致しないと判定した場合(ステップS1706:No)、特に処理を行わない。
【0135】
一方、論理構造埋込部111が、一致すると判定した場合(ステップS1706:Yes)、条件記述パタンと対応付けられている条件定義に基づく属性のタグを、テキスト情報の該当箇所に埋め込む(ステップS1707)。なお、文書タグ埋込部142も同様の処理を行う。
【0136】
その後、論理構造埋込部111は、全ての文書論理構造化ルールについて処理を終了したか否か判断する(ステップS1708)。全ての文書論理構造化ルールについて処理を終了していないと判断した場合(ステップS1708:No)、再びステップS1704から処理を開始する。
【0137】
一方、全ての構造化ルールについて処理を終了したと判断した場合(ステップS1708:Yes)、論理構造埋込部111による処理を終了する。
【0138】
上述した処理手順により、テキスト情報内にさまざまなタグが埋め込まれることになる。例えば、文書名について、タグ<document>が割り当てられたり、係り受け関係に応じて<subject>、<object>及び<action>等が割り当てられる等がある。
【0139】
次に、図16のステップS1606のファイルタイプの判定手順について、図18を用いて説明する。
【0140】
まず、ファイルタイプ判定部113の本文内容判定部131は、図16のステップS1605でタグが埋め込まれたテキスト情報を取得する(ステップS1801)。
【0141】
次に、本文内容判定部131は、ファイル内容判定ルール記憶部104のファイル内容判定ルールを用いて、テキスト情報の所定の文書構造内に所定の文字列が含まれているか否か判断し、該当する文字列が含まれている場合にファイル内容判定ルールで対応付けられているファイルタイプに対して付加ポイントを加算する(ステップS1802)。
【0142】
そして、本文内容判定部131は、テキスト情報全域についてステップS1802の処理を終了した後、各ファイルタイプの合計ポイント数を参照し、最も高いポイントから順に所定の数のファイルタイプを、当該文書データの本文内容における判定結果とする(ステップS1803)。
【0143】
次に、ファイル名判定部132は、ファイル名解析ルールを用いて、テキスト情報の抽出元の文書データのファイル名の解析を行う(ステップS1804)。
【0144】
そして、ファイル名判定部132は、ファイル名の解析結果を、メタ情報としてテキスト情報に埋め込む(ステップS1805)。
【0145】
次に、ファイル名判定部132は、ファイル名の解析結果から、ファイルタイプを判定する(ステップS1806)。
【0146】
そして、ファイルタイプ判定部113は、本文内容判定部131によるファイルタイプの判定結果と、ファイル名判定部132によるファイルタイプの判定結果に対し、それぞれ重み付けを行う(ステップS1807)。
【0147】
最後に、ファイルタイプ判定部113は各ファイルタイプに重み付けを行った結果に基づいて、最終的にファイルタイプを決定する(ステップS1808)。
【0148】
次に、図16のステップS1607のリンク識別情報の埋込手順について、図19を用いて説明する。
【0149】
まず、リンク情報埋込部114は、タグが埋め込まれたテキスト情報を取得する(ステップS1901)。
【0150】
次に、リンク情報埋込部114は、取得したテキスト情報から、文書名、文書ID、章又は節などに割り当てられたタグ情報を抽出する(ステップS1902)。つまり、リンク情報埋込部114は、タグ<document>内の情報を取得する。
【0151】
そして、リンク情報埋込部114は、抽出されたタグ内の情報が、当該文書内部を参照しているか否か判断する(ステップS1903)。リンク情報埋込部114が、当該文書内部を参照していると判断した場合(ステップS1903:Yes)、内部参照を示すリンク識別情報(“val="internal"”)をタグ<document>内部に埋め込む(ステップS1904)。
【0152】
一方、リンク情報埋込部114が、当該文書内部を参照していないと判断した場合(ステップS1903:No)、外部を参照していると判断し、外部参照先の文書データが存在するか否か文書記憶部106を確認する(ステップS1905)。
【0153】
そして、リンク情報埋込部114は、外部参照先を示すリンク識別情報(“val="external"”)をタグ<document>内部に埋め込む(ステップS1906)。
【0154】
次に、リンク情報埋込部114は、抽出した全てのタグ情報について処理を終了したか否か判断する(ステップS1907)。処理を終了していないと判断した場合(ステップS1907:No)、再びステップS1903から処理を開始する。
【0155】
一方、リンク情報埋込部114は、抽出した全てのタグ情報について処理を終了したと判断した場合(ステップS1907:Yes)、処理を終了する。
【0156】
次に、文書処理装置100における、置換対象語を置換する場合、影響あるXML文書を提示する処理手順について、図20を用いて説明する。
【0157】
まず、表示部115が、テキスト文書情報の一種である、XML文書を表示する(ステップS2001)。なお、表示対象は文書データでも良い。
【0158】
次に、ユーザ入力受付部116が、XML文書内の置換対象語(文字列)の入力を受け付ける(ステップS2002)。図15に示す例では、「情報セキュリティ管理責任者」が置換対象語となる。なお、表示対象が文書データの場合は、文書データ内の置換対象語の入力を受け付けることになる。また、文書データの場合、以降の処理は、当該文書データと対応付けられたXML文書に対して、処理を行うものとする。
【0159】
そして、判断部121が、入力を受け付けた置換対象語と関連する文書名が存在するか否か判断する(ステップS2003)。存在しないと判断した場合(ステップS2003:No)、特に処理を行わない。なお、関連する文書の判断基準については、上記に示したので説明を省略する。
【0160】
一方、判断部121が置換対象語と関連する文書名が存在すると判断した場合(ステップS2003:Yes)、検索部117が、文書記憶部106に対し、文書名でXML文書を検索する(ステップS2004)。
【0161】
次に、検索部117が、参照しているXML文書に対応付けられた文書名に対してリンクを張っているXML文書を、文書記憶部106に対して検索する(ステップS2005)。
【0162】
さらに、検索部117は、置換対象語を含むXML文書を、文書記憶部106に対して検索する(ステップS2006)。
【0163】
そして、文書取得部118が、検出されたXML文書、又は当該XML文書と対応付けられた文書データを取得する(ステップS2007)。
【0164】
その後、表示部115が、取得したXML文書又は文書データを、XML文書に対して判定されたファイルタイプに基づいて分類して表示する(ステップS2008)。
【0165】
上述した本実施の形態にかかる文書処理装置100は、文字列に対して修正等を加える場合に、当該文字列と関連のある文書データ又はXML文書をユーザに対して提示することができるので、ユーザの操作負担を軽減することができる。
【0166】
さらに、参照しているXML文書からリンクが張られているXML文書や、参照しているXML文書に対してリンクを張っているXML文書、及び置換対象となる文字列を含むXML文書、並びにこれらXMLと対応付けられた文書データをユーザに提示できるので、影響を及ぼす文書の範囲や箇所がわかるため、改訂のコストや見直しを軽減することができる。
【0167】
さらに、本実施の形態にかかる文書処理装置100においては、ユーザがプルダウンメニューで適切な文字列を選択することで、所望する文書データ又はXML文書を参照できるので、検索時に検索語を考えて入力する手間を省略することで操作負担を軽減できる。さらに、適切な検索語を思いつかない場合でも、適切な文字列群を提示できるので、関連する文書データを容易に特定することが可能となる。
【0168】
また、本実施の形態にかかる文書処理装置100においては、上述した効果を得るために、文書処理装置100自体が文書データに対して構造解析などを行い、当該構造解析結果を登録している。これにより、ユーザが文書データ間の関係を入力する負担を軽減させることができる。
【0169】
また、上述した各実施の形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
【0170】
(変形例)
上述した第1の実施の形態にかかる文書処理装置100においては、文書データの絞込検索を行う場合に、図14に示した検索画面から、特定の文書データ内に含まれている係り受け関係から文書データの絞込を行った。しかしながら、上述した実施の形態は、XML文書内のタグ<object>が指し示すXML文書の絞込に制限するものではない。
【0171】
本変形例では、当該係り受け関係が指し示している文書データ又は当該係り受け関係を含む文書データを選択する例とする。
【0172】
図21に示す検索を行うためのインターフェースに基づいて、行われる検索の手順について説明する。
【0173】
まず、「人物/役職」のプルダウンメニュー内に表示する文書要素を抽出するために、検索部117が文書記憶部106に対して検索を行う。例えば、検索部117は、タグ<subject>又はタグ<position>が割り当てられた文書要素の検索を行う。そして、候補生成部120が、検出された文書要素から、プルダウンメニューに表示される候補を生成する。そして、表示部115が、生成された候補を含む「人物/役職」のプルダウンメニュー2101を表示する。図21に示す例では、当該プルダウンメニュー2101には、“情報管理責任者”などが列挙されているものとする。そして、ユーザ入力受付部116が、ユーザからの“情報管理責任者”の選択を受け付けたものとする。
【0174】
次に、検索部117が、“情報管理責任者”に関連付けられたタグ<object>内の文書要素を検索する。そして、検索部117が、当該タグ<action>内の文書要素を検索した後、候補生成部120が、検出された文書要素から、検索候補を生成し、表示部115が「対象物」のプルダウンメニュー2102を表示する。当該プルダウンメニュー2102は、例として、外部計算機管理申込書、新規ユーザ登録申請書、ドメイン参加申込書、終夜運転申請書等を提示する。そして、ユーザ入力受付部116が、ユーザからの“外部計算機管理申込書”の選択を受け付けたものとする。
【0175】
その後、表示部115が、「閲覧対象」のプルダウンメニュー2103を表示する。当該プルダウンメニュー2103は、例として、文書、及び作業内容を提示する。
【0176】
プルダウンメニュー2103における“文書”の選択は、プルダウンメニュー2102で選択を受け付けた“文書”を選択することを意味する。また、プルダウンメニュー2103における“作業内容”の選択は、プルダウンメニュー2102で選択を受け付けた“文書”の名称、及びプルダウンメニュー2101で選択された“人物/役職”の名称を含む文書を選択することを意味する。
【0177】
つまり、プルダウンメニュー2103で、“文書”を選択した場合は、第1の実施の形態と同様に、文書名を検索キーとして検索を行う。そして、“作業内容”を選択した場合、選択された“人物/役職”及び“文書”を含むXML文書の検索を、検索部117が行う。
【0178】
本変形例によれば、ユーザが閲覧したい文書データ又はXML文書を容易に提供することが可能となる。
【0179】
図22に示すように、上述した実施の形態の文書処理装置100は、ハードウェア構成として、上述した処理を行う画像処理プログラムなどが格納されているROM52と、ROM52内のプログラムに従って文書処理装置100の各部を制御するCPU51と、データの格納領域となるRAM53と、ネットワークに接続して通信を行う通信I/F56と、表示装置54と、情報を格納するHDD(Hard Disk Drive)55と、各部を接続するバス62とを備えている。
【0180】
画像処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
【0181】
この場合には、画像処理プログラムは、文書処理装置100において上記記録媒体から読み出して実行することによりRAM53上にロードされ、上記ソフトウェア構成で説明した各部がRAM53上に生成されるようになっている。
【0182】
また、上述した実施の形態の画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
【0183】
以上、本発明を実施の形態を用いて説明したが、上記実施の形態の構成を組み合わせたり、上記実施の形態に多様な変更または改良を加えることができる。
【図面の簡単な説明】
【0184】
【図1】第1の実施形態にかかる文書処理装置の構成を示すブロック図である。
【図2】構造化ルール記憶部に格納される構造化ルールのテンプレートを示した図である。
【図3】構造化ルール記憶部に格納される構造化ルールの例を示した図である。
【図4】文書論理構造化ルール記憶部に格納される文書論理構造化ルールの例を示した図である。
【図5】ファイル内容判定ルール記憶部に格納されるファイル内容判定ルールの例を示した図である。
【図6】ファイル名解析ルール記憶部に格納されるファイル名解析ルールの例を示した図である。
【図7】入力部が入力する文書データの例を示した図である。
【図8】形態素解析部が文書データに対して行った形態素解析結果の例を示した図である。
【図9】構文解析部による構文解析結果の例を示した図である。
【図10】論理構造埋込部によりテキスト文書情報に対して、係り受け関係を示す属性タグを埋め込んだ例を示した図である。
【図11】論理構造埋込部による、図3に示す構造化ルールを用いて、属性タグを割り当てる範囲の特定手法の例を示した図である。
【図12】文書構造埋込部による属性タグを埋め込み後のテキスト文書情報の例を示した図である。
【図13】論理構造埋込部により属性タグを埋め込んだ後、ファイル名判定部によるメタ情報の埋め込み及びリンク情報埋込部によるリンク識別情報の埋め込み後のテキスト文書情報の例を示した図である。
【図14】第1の実施の文書処理装置における、プルダウンメニューにより文書データを特定する検索インターフェースの例を示した図である。
【図15】文書データに含まれている文字列を置換する場合のインターフェースの例を示した図である。
【図16】第1の実施の形態にかかる文書処理装置において、文書データを格納するまでの処理手順を示したフローチャートである。
【図17】第1の実施の形態にかかる論理構造埋込部において、属性タグの埋め込み処理の手順を示したフローチャートである。
【図18】第1の実施の形態にかかるファイルタイプ判定部において、ファイルタイプの判定手順を示したフローチャートである。
【図19】第1の実施の形態にかかるリンク情報埋込部において、リンク識別情報の埋込手順を示したフローチャートである。
【図20】第1の実施の形態にかかる文書処理装置における、置換対象語を置換する場合、影響あるXML文書を提示する処理手順を示したフローチャートである。
【図21】変形例の文書処理装置における、プルダウンメニューにより文書データを特定する検索インターフェースの例を示した図である。
【図22】画像処理装置のハードウェア構成を示す図である。
【符号の説明】
【0185】
51 CPU
52 ROM
53 RAM
54 表示装置
55 HDD
56 通信I/F
62 バス
100 文書処理装置
101 形態素辞書
102 構造化ルール記憶部
103 文書論理構造化ルール記憶部
104 ファイル内容判定ルール記憶部
105 ファイル名解析ルール記憶部
106 文書記憶部
107 入力部
108 テキスト文書抽出部
109 形態素解析部
110 構文解析部
111 論理構造埋込部
112 文書構造埋込部
113 ファイルタイプ判定部
114 リンク情報埋込部
115 表示部
116 ユーザ入力受付部
117 検索部
118 文書取得部
119 登録部
120 候補生成部
121 判断部
131 本文内容判定部
132 ファイル名判定部
141 文書タグ埋込部

【特許請求の範囲】
【請求項1】
テキスト文書情報を取得するテキスト文書取得部と、
前記テキスト文書情報に含まれている文字列の係り受け関係を解析する構文解析部と、
前記係り受け関係の内容を示す属性を、当該係り受け関係が示す文字列に割り当て、前記テキスト文書情報に埋め込む属性埋込部と、
前記属性埋込部により前記属性が埋め込まれた前記テキスト文書情報から、他のテキスト文書情報を特定する文字列を示す文書特定文字列を特定する文書特定部と、
前記文書特定部により特定された前記文書特定文字列に対して、当該文書特定文字列を識別する文書識別情報を割り当て、前記テキスト文書情報に埋め込む文書識別情報埋込部と、
文字列の入力を受け付ける入力受付部と、
前記テキスト文書情報に埋め込まれた前記属性及び前記文書識別情報に基づいて、前記文字列と係り受け関係を有する文書特定文字列を含む文字列が存在するか否か判断する判断部と、
前記文書特定文字列が存在すると判断された場合、当該文書特定文字列で示されたテキスト文書情報を特定する特定部と、
を備えることを特徴とする文書処理装置。
【請求項2】
前記特定部により特定された前記テキスト文書情報を取得する文書取得部をさらに備えることを特徴する請求項1に記載の文書処理装置。
【請求項3】
前記文書取得部は、さらに前記入力受付部により入力された前記文字列を含む前記テキスト文書情報を指し示す前記文書特定文字列が記載されているテキスト文書情報、及び前記入力受付部により入力を受け付けた前記文字列を含むテキスト文書情報を取得すること、
を特徴とする請求項2に記載の文書処理装置。
【請求項4】
前記テキスト文書情報について、前記テキスト文書情報の種別を判定し、当該種別を前記テキスト文書情報に埋め込む種別判定部と、
前記文書取得部が取得した前記テキスト文書情報を、当該テキスト文書情報に埋め込まれた種別毎に分類して表示する表示部と、
をさらに備えることを特徴とする請求項2又は3に記載に文書処理装置。
【請求項5】
前記属性が割り当てられた前記文字列を表示する候補表示部と、
前記候補表示部により表示された前記文字列の選択を受け付ける選択受付部と、
前記選択受付部により選択された前記文字列を含む前記テキスト文書情報を検索する検索部と、
をさらに備えることを特徴とする請求項1に記載の文書処理装置。
【請求項6】
前記検索部により検索された複数の前記テキスト文書情報のそれぞれから、前記選択受付部により選択を受け付けた前記文字列と係り受け関係を有する前記文字列を、選択候補として抽出する候補抽出部と、をさらに備え、
前記候補表示部は、さらに、前記選択候補として抽出された前記文字列を表示すること、
を特徴とする請求項5に記載の文書処理装置。
【請求項7】
他の文書情報を示しているか否かを示すリンク識別情報を、前記テキスト文書情報に埋め込むリンク名情報埋込部をさらに備え、
前記特定部は、前記文書名が存在すると判断された場合、前記リンク識別情報に基づいて、当該文書名で示された文書情報を特定すること、
を特徴とする請求項1に記載の文書処理装置。
【請求項8】
前記文書特定部が特定する前記文書特定文字列は、文書名、文書を識別する文書識別情報、及び文書の節又は句、のうちいずれか一方であること、
を特徴とする請求項1に記載の文書処理装置。
【請求項9】
テキスト文書取得部が、テキスト文書情報を取得するテキスト文書取得ステップと、
構文解析部が、前記テキスト文書情報に含まれている文字列の係り受け関係を解析する構文解析ステップと、
属性埋込部が、前記係り受け関係の内容を示す属性を、当該係り受け関係が示す文字列に割り当て、前記テキスト文書情報に埋め込む属性埋込ステップと、
文書特定部が、前記属性埋込ステップにより前記属性が埋め込まれた前記テキスト文書情報から、他のテキスト文書情報を特定する文字列を示す文書特定文字列を特定する文書特定ステップと、
文書識別情報埋込部が、前記文書特定ステップにより特定された前記文書特定文字列に対して、当該文書特定文字列を識別する文書識別情報を割り当て、前記テキスト文書情報に埋め込む文書識別情報埋込ステップと、
入力受付部が、文字列の入力を受け付ける入力受付ステップと、
判断部が、前記テキスト文書情報に埋め込まれた前記属性及び前記文書識別情報に基づいて、前記文字列と係り受け関係を有する文書特定文字列を含む文字列が存在するか否か判断する判断ステップと、
特定部が、前記文書特定文字列が存在すると判断された場合、当該文書特定文字列で示されたテキスト文書情報を特定する特定ステップと、
を有することを特徴とする文書処理方法。
【請求項10】
テキスト情報について処理を行う手段として、コンピュータを機能させるプログラムであって、
テキスト文書情報を取得するテキスト文書取得手段と、
前記テキスト文書情報に含まれている文字列の係り受け関係を解析する構文解析手段と、
前記係り受け関係の内容を示す属性を、当該係り受け関係が示す文字列に割り当て、前記テキスト文書情報に埋め込む属性埋込手段と、
前記属性埋込手段により前記属性が埋め込まれた前記テキスト文書情報から、他のテキスト文書情報を特定する文字列を示す文書特定文字列を特定する文書特定手段と、
前記文書特定手段により特定された前記文書特定文字列に対して、当該文書特定文字列を識別する文書識別情報を割り当て、前記テキスト文書情報に埋め込む文書識別情報埋込手段と、
文字列の入力を受け付ける入力受付手段と、
前記テキスト文書情報に埋め込まれた前記属性及び前記文書識別情報に基づいて、前記文字列と係り受け関係を有する文書特定文字列を含む文字列が存在するか否か判断する判断手段と、
前記文書特定文字列が存在すると判断された場合、当該文書特定文字列で示されたテキスト文書情報を特定する特定手段、
としてコンピュータを機能させることを特徴とする文書処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate


【公開番号】特開2009−181166(P2009−181166A)
【公開日】平成21年8月13日(2009.8.13)
【国際特許分類】
【出願番号】特願2008−17441(P2008−17441)
【出願日】平成20年1月29日(2008.1.29)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】