説明

文書理解支援装置、文書理解支援方法、及びコンピュータプログラム

【課題】小規模であり限定的な情報のみで文書データを解析することで現実的な文書理解支援を行うことができる文書理解支援装置、文書理解支援方法、及びコンピュータプログラムを提供する。
【解決手段】文書の論理構造に関する情報、文書の修辞構造に関する情報、カテゴリ情報と対応付けた、特定の観点から語句群を抽出する条件に関する情報、及び複数のカテゴリ情報間の対応関係に関する対応情報を記憶してあり、受け付けた文書データに含まれる記載内容に関する情報に基づいて、論理構造に関する情報及び修辞構造に関する情報を抽出し、抽出された論理構造に関する情報及び修辞構造に関する情報に基づいて、条件に関する情報ごとに語句群を抽出し、抽出された語句群及び記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定し、特定された語句の組み合わせ及び順序に関する情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特許文書のように一定の論理構造及び修辞構造を有する文書を解析して、文書の内容を容易に理解することができる形式へと変換することができる文書理解支援装置、文書理解支援方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
近年のコンピュータ技術の急速な進展に伴い、一般家庭においてでさえ情報過多な状態となっており、溢れる情報の中から本当に必要な情報を取捨選択することが困難になってきている。これらの溢れる情報の中から、確実に必要な情報を取り出すためには、情報の意味内容を瞬時に理解することが可能な状態で取得することが効果的である。
【0003】
情報、特に文書として提供される情報の理解を支援するために、様々な情報処理方法が開示されている。例えば特許文献1では、文書データに対して形態素解析、構文解析等を行うことにより、自然言語が表す意味を把握することが容易な形式で解析結果を表示することができる構文解析結果表示方式が開示されている。特許文献1では、構文解析用の適切な文法情報等を事前に準備しておく必要がある。また、これに加えて文書データに対して意味解析を行うこともある。この場合であっても意味解析用の適切な概念辞書が必要となる。
【0004】
また、文書データから得ることができる語句等の情報と、読み手が既知であると理解するための知識とを、ニューラルネットワークとして構成し、文章を読み進めながらネットワークのノードの活性化を制御して統合的な理解の状態に収束させるモデルを生成する研究も行われている(非特許文献1参照)。非特許文献1では、読解に必要な一般知識、読解プロセスの生成用情報等を事前にニューラルネットワークの各ノードに設定しておく必要がある。
【0005】
また、特許文献2では、文書データ中での語句の出現頻度等の統計的な基準に基づいて、文書中の重要文・文節等を判断し、圧縮率に応じて一定の重要度以上の文章・文節等を抽出することで文書を要約する文書要約装置が開示されている。
【特許文献1】特開平6−274530号公報
【特許文献2】特開2004−220111号公報
【非特許文献1】ウォルター キンチュ( Walter Kintsch)、「談話理解における知識の役割(The Role ofKnowledge in Discourse Comprehension):構成統合モデル」、心理学レビュー、第95巻、第2号、1988年
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1では、構文解析用の文法情報、場合によっては意味解析用の概念辞書等、大規模な辞書又は情報データベースを準備する必要があり、斯かる大規模な辞書等の作成コストが増大するとともに、そのメンテナンス自体が困難であり、実用的ではないという問題点があった。すなわち、あらゆる文書データに対応する文法情報、概念辞書等を事前に準備しておくことは不可能に近い。また、構文解析のアルゴリズムは一般的に計算量が膨大であることから、計算機処理負荷が過大となり、実用的な解析速度を得ることが困難であるという問題点もあった。さらに、意味解析を行って意味内容を特定する場合、該当する意味内容の候補を絞り込むアルゴリズムは未だ確立されておらず、大規模な概念辞書の探索問題に帰着するため、上述の処理と同様に計算機処理負荷が過大となるおそれがあるという問題点があった。
【0007】
また、非特許文献1では、不特定の記述対象に関係する全ての事象や、その意味的な関係をニューラルネットワークのノードに事前に定義する必要があるため非現実的であり、ニューラルネットワークの入力となる情報は自然言語処理等の技術により解析が完備していることを前提としているため入力条件を満たすことが困難であるという問題点があった。
【0008】
さらに、特許文献2では、アルゴリズムによる重要文の判定結果と、読み手による重要文の判定結果とは必ずしも一致しないことから、要約された文章が文書全体の要約として適切であることを保証することができないという問題点があった。また、適切に要約された場合であっても元の文書自体は不変であることから、読み手の読解労力自体が軽減されるわけではない。
【0009】
本発明は斯かる事情に鑑みてなされたものであり、大規模な概念辞書、文法情報、読み手の取得済み知識情報等を必要とすることなく、小規模であり限定的な情報のみで文書データを解析することで現実的な文書理解支援を行うことができる文書理解支援装置、文書理解支援方法、及びコンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために第1発明に係る文書理解支援装置は、固有の論理構造及び修辞構造を有する文書の記載内容に関する情報を含む文書データを受け付け、受け付けた文書データに基づいて、文書の意味理解を支援することが可能な情報を出力する文書理解支援装置において、文書の論理構造に関する情報を、記載内容に関する情報と対応付けて記憶してある論理構造記憶手段と、文書の修辞構造に関する情報を、記載内容に関する情報と対応付けて記憶してある修辞構造記憶手段と、文書データから特定の観点から語句群を抽出する条件に関する情報を、該条件の意味づけを識別するカテゴリ情報と対応付けて複数記憶してある抽出条件記憶手段と、複数のカテゴリ情報間の対応関係に関する対応情報を記憶してある対応情報記憶手段と、受け付けた文書データに含まれる記載内容に関する情報に基づいて、前記論理構造記憶手段及び前記修辞構造記憶手段から、論理構造に関する情報及び修辞構造に関する情報を抽出する情報抽出手段と、該情報抽出手段で抽出された論理構造に関する情報、修辞構造に関する情報、及び前記抽出条件記憶手段に記憶してある前記条件に関する情報に基づいて、該条件に関する情報ごとに前記文書データから語句群を抽出する語句群抽出手段と、該語句群抽出手段で抽出された語句群を、抽出に係る前記条件に関する情報に対応する前記カテゴリ情報ごとに記憶する抽出結果記憶手段と、該抽出結果記憶手段に記憶された語句群及び前記対応情報記憶手段に記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定する語句対応特定手段と、特定された語句の組み合わせ及び順序に関する情報を出力する結果出力手段とを備えることを特徴とする。
【0011】
また、第2発明に係る文書理解支援装置は、第1発明において、前記語句対応特定手段は、前記対応情報ごとに、該対応情報に含まれるカテゴリ情報が、前記抽出結果記憶手段に記憶された語句群に含まれる語句ごとに対応付けられたカテゴリ情報に含まれるか否かを判断する判断手段と、該判断手段で含まれると判断した場合、含まれると判断されたカテゴリ情報に対応する語句の組み合わせ及び順序に関する情報を記憶する結果記憶手段とを備えることを特徴とする。
【0012】
また、第3発明に係る文書理解支援装置は、第1又は第2発明において、前記結果出力手段が、前記語句対応特定手段で特定された語句の組み合わせ及び順序を示す木構造にて出力するようにしてあることを特徴とする。
【0013】
また、第4発明に係る文書理解支援方法は、固有の論理構造及び修辞構造を有する文書の記載内容に関する情報を含む文書データを受け付け、受け付けた文書データに基づいて、文書の意味理解を支援することが可能な情報を出力する文書理解支援方法において、文書の論理構造に関する情報を、記載内容に関する情報と対応付けて記憶し、文書の修辞構造に関する情報を、記載内容に関する情報と対応付けて記憶し、文書データから特定の観点から語句群を抽出する条件に関する情報を、該条件の意味づけを識別するカテゴリ情報と対応付けて複数記憶し、複数のカテゴリ情報間の対応関係に関する対応情報を記憶し、受け付けた文書データに含まれる記載内容に関する情報に基づいて、論理構造に関する情報及び修辞構造に関する情報を抽出し、抽出された論理構造に関する情報、修辞構造に関する情報、及び記憶してある前記条件に関する情報に基づいて、該条件に関する情報ごとに前記文書データから語句群を抽出し、抽出された語句群を、抽出に係る前記条件に関する情報に対応する前記カテゴリ情報ごとに記憶し、記憶された語句群及び記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定し、特定された語句の組み合わせ及び順序に関する情報を出力することを特徴とする。
【0014】
また、第5発明に係る文書理解支援方法は、第4発明において、前記対応情報ごとに、該対応情報に含まれるカテゴリ情報が、記憶された語句群に含まれる語句ごとに対応付けられたカテゴリ情報に含まれるか否かを判断し、含まれると判断した場合、含まれると判断されたカテゴリ情報に対応する語句の組み合わせ及び順序に関する情報を記憶することを特徴とする。
【0015】
また、第6発明に係る文書理解支援装置は、第4又は第5発明において、特定された語句の組み合わせ及び順序を示す木構造にて出力することを特徴とする。
【0016】
また、第7発明に係るコンピュータプログラムは、固有の論理構造及び修辞構造を有する文書の記載内容に関する情報を含む文書データを受け付け、受け付けた文書データに基づいて、文書の意味理解を支援することが可能な情報を出力するコンピュータで実行することが可能なコンピュータプログラムにおいて、前記コンピュータの記憶手段に、記載内容に関する情報と対応付けた文書の論理構造に関する情報、記載内容に関する情報と対応付けた文書の修辞構造に関する情報、意味づけを識別するカテゴリ情報と対応付けた、文書データから特定の観点から語句群を抽出する条件に関する情報、及び複数のカテゴリ情報間の対応関係に関する対応情報を記憶しておき、前記コンピュータを、受け付けた文書データに含まれる記載内容に関する情報に基づいて、論理構造に関する情報及び修辞構造に関する情報を抽出する情報抽出手段、該情報抽出手段で抽出された論理構造に関する情報、修辞構造に関する情報、及び記憶してある前記条件に関する情報に基づいて、該条件に関する情報ごとに前記文書データから語句群を抽出する語句群抽出手段、該語句群抽出手段で抽出された語句群を、抽出に係る前記条件に関する情報に対応する前記カテゴリ情報ごとに記憶する抽出結果記憶手段、該抽出結果記憶手段に記憶された語句群及び記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定する語句対応特定手段、及び特定された語句の組み合わせ及び順序に関する情報を出力する結果出力手段として機能させることを特徴とする。
【0017】
また、第8発明に係るコンピュータプログラムは、第7発明において、前記コンピュータを、前記対応情報ごとに、該対応情報に含まれるカテゴリ情報が、前記抽出結果記憶手段に記憶された語句群に含まれる語句ごとに対応付けられたカテゴリ情報に含まれるか否かを判断する判断手段、及び該判断手段で含まれると判断した場合、含まれると判断されたカテゴリ情報に対応する語句の組み合わせ及び順序に関する情報を記憶する結果記憶手段として機能させることを特徴とする。
【0018】
また、第9発明に係るコンピュータプログラムは、第7又は第8発明において、前記コンピュータを、前記語句対応特定手段で特定された語句の組み合わせ及び順序を示す木構造にて出力する結果出力手段として機能させることを特徴とする。
【0019】
第1発明、第4発明、及び第7発明では、固有の論理構造及び修辞構造を有する文書の記載内容に関する情報を含む文書データを受け付け、受け付けた文書データに基づいて、文書の意味理解を支援することが可能な情報を出力する。記載内容に関する情報と対応付けた文書の論理構造に関する情報、記載内容に関する情報と対応付けた文書の修辞構造に関する情報、意味づけを識別するカテゴリ情報と対応付けた、文書データから特定の観点から語句群を抽出する条件に関する情報、及び複数のカテゴリ情報間の対応関係に関する対応情報を記憶しておく。ここで、「記載内容に関する情報」とは、理解支援対象となる文書の種類、特徴等を識別する情報であり、例えば特許文書、法律文書等の識別を示す情報である。また、「意味づけを識別するカテゴリ情報」とは、文書の中からどのような観点、注意点、着目点等で語句群を抽出するのか識別する情報を意味しており、例えば装置・部品の種別、照応関係等をカテゴリ情報として識別しておく。また、前述の論理構造に関する情報及び修辞構造に関する情報を識別する情報を含んでも良い。さらに、「条件に関する情報」とは具体的な抽出条件を意味しており、「対応情報」とは特定のカテゴリ情報とカテゴリ情報との間の結びつき関係に関する情報を意味しており、例えば概念の順列関係、上下関係、係り受け関係等を意味している。
【0020】
受け付けた文書データに含まれる記載内容に関する情報に基づいて、論理構造に関する情報及び修辞構造に関する情報を抽出し、抽出された論理構造に関する情報、修辞構造に関する情報、及び記憶してある条件に関する情報に基づいて、該条件に関する情報ごとに前記文書データから語句群を抽出する。抽出された語句群を、条件に関する情報に対応するカテゴリ情報ごとに記憶し、記憶された語句群及び記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定し、特定された語句の組み合わせ及び順序に関する情報を出力する。
【0021】
文書の記載内容に応じた固有の論理構造、修辞構造、及び所定の観点から語句群を抽出する条件に基づいて語句群を抽出することにより、それぞれ異なる観点、注意点、着目点等で抽出された語句群、例えば係り受け関係から抽出された語句群、全体装置と部品との区別に基づいて抽出された語句群、機能別に抽出された語句群等を一時記憶する。このようにすることで、1つの観点等から抽出しただけでは抽出することができない新造語等が含まれている場合であっても、いずれかの条件で抽出することができ、全ての語句に関する情報を記憶してある大容量辞書を必要としない。また、記憶されている語句群と、記憶してある対応情報とに基づいて、語句群に含まれる語句の組み合わせ及び順序を特定することにより、語句と語句との対応関係をすべて記憶した大容量辞書が存在しない場合であっても、カテゴリ情報単位で語句の組み合わせ及び順序を特定することができる。さらに、大容量辞書に対する抽出処理と比べて演算処理量が少なく、計算機処理負荷を軽減することにより演算時間を短縮することが可能となる。
【0022】
第2発明、第5発明、及び第8発明では、対応情報ごとに、該対応情報に含まれるカテゴリ情報が、記憶された語句群に含まれる語句ごとに対応付けられたカテゴリ情報に含まれるか否かを判断し、含まれると判断した場合、含まれると判断されたカテゴリ情報に対応する語句の組み合わせ及び順序に関する情報を記憶する。これにより、全ての語句について、他の語句との対応関係、例えば係り受け関係、概念の上位・下位等に関する情報を事前に記憶しておく必要が無く、カテゴリ情報単位で対応関係を把握していれば足りることから、計算機資源の消費を抑制することができ、演算時間も短縮することが可能となる。
【0023】
第3発明、第6発明、及び第9発明では、特定された語句の組み合わせ及び順序を示す木構造にて結果を出力する。これにより、対象物の機能的構造を、「何を達成するか」という機能ノードと、「どのように達成するか」という方式ノードを交互に記述することで明示化する機能分解木等の形式で文書の内容を表示出力あるいは印刷出力することができ、視覚的に文書の内容を把握することが容易な形式で出力することが可能となる。
【0024】
なお、後述する実施の形態では、論理構造記憶手段、修辞構造記憶手段、抽出条件記憶手段、及び対応情報記憶手段は、それぞれ記憶手段12の論理構造記憶部121、修辞構造記憶部122、抽出条件記憶部123、及び対応情報記憶部124に該当する。また、情報抽出手段はCPU11のステップS302の処理が、語句群抽出手段はCPU11のステップS305の処理が、抽出結果記憶手段はCPU11のステップS306の処理が、語句対応特定手段はCPU11のステップS307の処理が、それぞれ該当する。さらに、判断手段はCPU11のステップS803の処理が、結果記憶手段はCPU11のステップS805の処理が、結果出力手段はCPU11のステップS308の処理が、それぞれ該当する。
【発明の効果】
【0025】
第1発明、第4発明、及び第7発明によれば、文書の記載内容に応じた固有の論理構造、修辞構造、及び所定の観点から語句群を抽出する条件に基づいて語句群を抽出することにより、それぞれ異なる観点、注意点、着目点等で抽出された語句群、例えば係り受け関係から抽出された語句群、全体装置と部品との区別に基づいて抽出された語句群、機能別に抽出された語句群等を一時記憶する。このようにすることで、1つの観点等から抽出しただけでは抽出することができない新造語等が含まれている場合であっても、いずれかの条件で抽出することができ、全ての語句に関する情報を記憶してある大容量辞書を必要としない。また、記憶されている語句群と、記憶してある対応情報とに基づいて、語句群に含まれる語句の組み合わせ及び順序を特定することにより、語句と語句との対応関係をすべて記憶した大容量辞書が存在しない場合であっても、カテゴリ情報単位で語句の組み合わせ及び順序を特定することができる。さらに、大容量辞書に対する抽出処理と比べて演算処理量が少なく、計算機処理負荷を軽減することにより演算時間を短縮することが可能となる。
【0026】
第2発明、第5発明、及び第8発明によれば、全ての語句について、他の語句との対応関係、例えば係り受け関係、概念の上位・下位等に関する情報を事前に記憶しておく必要が無く、カテゴリ情報単位で対応関係を把握していれば足りることから、計算機資源の消費を抑制することができ、演算時間も短縮することが可能となる。
【0027】
第3発明、第6発明、及び第9発明によれば、対象物の機能的構造を、「何を達成するか」という機能ノードと、「どのように達成するか」という方式ノードを交互に記述することで明示化する機能分解木等の形式で文書の内容を表示出力あるいは印刷出力することができ、視覚的に文書の内容を把握することが容易な形式で出力することが可能となる。
【発明を実施するための最良の形態】
【0028】
以下、本発明の実施の形態に係る文書理解支援装置について図面に基づいて具体的に説明する。本発明の実施の形態に係る文書理解支援装置は、読み手の理解の枠組みを認知スキーマとし、スキーマ要素の充足でもって近似的な理解状態とみなす文書の意味理解モデルを用いることにより、事前に準備しておく情報量を減少させ、計算機処理負荷を軽減させている。
【0029】
なお、「認知スキーマ」とは、読み手による読解プロセスでのいわゆるボトムアップ処理及びトップダウン処理に用いられる知識情報である。例えばボトムアップ処理では、取得した文書データから得た情報に対してスキーマ要素に対応する候補となる語句群を抽出する。一方、トップダウン処理では、抽出された語句群同士の対応関係に基づいて認知スキーマを構成する。本実施の形態では、ボトムアップ処理において論理構造記憶部121に記憶してある論理構造に関する情報、修辞構造記憶部122に記憶してある修辞構造に関する情報、及び抽出条件記憶部123に記憶してある語句群を抽出する条件に関する情報を用いてスキーマ要素の候補語句群を抽出する。また、トップダウン処理において対応情報記憶部124に記憶してある対応情報を用いてスキーマ要素の候補語句の確定及び認知スキーマの統合を行っている。
【0030】
以下、文書の論理構造、修辞構造が比較的明確である特許文書の「特許請求の範囲」の記載を例に挙げて、具体的な処理について説明する。もちろん対象となる文書がこれに限定されるものでないことは言うまでもない。
【0031】
図1は、本発明の実施の形態に係る文書理解支援装置10の機能を模式的に示す機能ブロック図である。図1において、本実施の形態に係る文書理解支援装置10は、文書データ100を受け付け、情報抽出手段101は、形態素解析等を実行することで語句単位に分割し、記載内容に関する情報をキー情報として論理構造記憶手段106及び修辞構造記憶手段107を照会することにより、受け付けた文書データ100に固有の論理構造及び修辞構造を特定する。
【0032】
語句群抽出手段102は、抽出条件記憶手段108を照会して、複数の条件に対してそれぞれ語句群を抽出し、カテゴリ情報に対応付けられた条件ごとに抽出される語句群を抽出結果記憶手段103に記憶する。語句対応特定手段104は、対応情報記憶手段109に記憶してあるカテゴリ情報間の対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定し、結果出力手段105は特定された語句の組み合わせ及び順序に関する情報を出力する。
【0033】
図2は、本発明の実施の形態に係る文書理解支援装置10を、CPU11を用いて具現化した場合のハードウェア構成を示すブロック図である。図2において、本実施の形態に係る文書理解支援装置10は、少なくとも、CPU(中央演算装置)11、記憶手段12、RAM13、入力手段14、出力手段15、補助記憶手段16、通信手段17及び上述したハードウェアを接続する内部バス18で構成されている。
【0034】
CPU11は、内部バス18を介して文書理解支援装置10の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶手段12に記憶されているコンピュータプログラム80に従って、種々のソフトウェア的機能を実行する。RAM13は、SRAM、フラッシュメモリ等で構成され、コンピュータプログラム80の実行時にロードモジュールが展開され、コンピュータプログラム80の実行時に発生する一時的なデータ等を記憶する。
【0035】
記憶手段12は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成されている。記憶手段12に記憶されているコンピュータプログラム80は、プログラム及びデータ等の情報を記録したDVD、CD−ROM等の可搬型記録媒体90から、補助記憶手段16によりダウンロードされ、実行時には記憶手段12からRAM13へ展開して実行される。もちろん、通信手段17を介して外部コンピュータからダウンロードされたコンピュータプログラムであっても良い。
【0036】
また記憶手段12は、文書の論理構造に関する情報を、記載内容に関する情報と対応付けて記憶してある論理構造記憶部121(論理構造記憶手段)、文書の修辞構造に関する情報を、記載内容に関する情報と対応付けて記憶してある修辞構造記憶部122(修辞構造記憶手段)、文書データ100から特定の観点・注意点等に基づいて語句群を抽出する条件に関する情報を、該条件の意味づけを識別するカテゴリ情報と対応付けて複数記憶してある抽出条件記憶部123(抽出条件記憶手段)、及び複数のカテゴリ情報間の対応関係に関する対応情報を記憶してある対応情報記憶部124(対応情報記憶手段)を備えている。CPU11は、文書データ100に含まれる記載内容に関する情報に基づいて、論理構造記憶部121及び修辞構造記憶部122から、論理構造に関する情報及び修辞構造に関する情報を抽出する。また、CPU11は、抽出された論理構造に関する情報及び修辞構造に関する情報に基づいて、抽出条件記憶部123に記憶してある条件に関する情報ごとに語句群を抽出する。さらに、CPU11は、抽出された語句群及び対応情報記憶部124に記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定する。
【0037】
通信手段17は内部バス18に接続されており、インターネット、LAN、WAN等の外部のネットワーク網に接続されることにより、外部のコンピュータ等とデータ送受信を行うことが可能となっている。すなわち、上述した記憶手段12は、文書理解支援装置10に内蔵される構成に限定されるものではなく、通信手段17を介して接続されている外部のサーバコンピュータ等に設置されているハードディスク等の外部記憶媒体であっても良い。
【0038】
入力手段14は、キーボード及びマウス等のデータ入力媒体であり、出力手段15は、CRTモニタ、LCD等の表示装置、あるいはレーザプリンタ、ドットプリンタ等の印刷装置等である。
【0039】
上述した構成の文書理解支援装置10の処理の流れについて説明する。図3は、本発明の実施の形態に係る文書理解支援装置10のCPU11の処理手順を示すフローチャートである。文書理解支援装置10のCPU11は、文書データ100として「特許請求の範囲」を示す文書データ100を受け付ける(ステップS301)。なお、文書データのデータフォーマットは特に限定されるものではなく、文書に記載されている内容を示す記載内容に関する情報、例えばタイトル、文書種類の識別情報等が付与されていれば特に限定されるものではない。また、受け付ける手段についても、テキストデータの受信、ウエブからのXMLデータとしての自動取込、入力手段14からの入力等、特に限定されるものではない。
【0040】
図4は、受け付ける文書データ100の例示図である。特許文書の場合、その性質上、論理構造、修辞構造に一定のルールが存在する。斯かるルールを背景知識として用いることができる。また、文書の記載内容に関する情報としては、特許公報番号、特許公開番号等を検出することができるか否かで判断することができる。あるいは、文書中の項目名、例えば「背景技術」、「発明の開示」、「発明が解決しようとする課題」等の項目が順番どおりに記載されているか否かで判断することも可能である。
【0041】
上述した記載内容に関する情報に応じて、特許文書、法律文書、契約書等を識別する情報である文書種類IDを付与しておき、文書種類IDごとに、論理構造記憶部121にタイトル、章立て、節等の論理構造に関する情報を記憶しておく。文書データ100が特許文書である場合には、文書の記載項目が法律で規定されていることから、文書種類IDに対応付けて記載項目名及びその順序に関する情報を記憶しておく。
【0042】
また、文書種類IDごとに、修辞構造記憶部122に、あらかじめ特定されている記載様式、慣習的に用いられている記載様式等の修辞構造に関する情報を記憶しておく。もちろん、固有の記載様式が繰り返し出現する場合には、CPU11がそれを検出することにより、修辞構造に関する情報として抽出することも可能である。
【0043】
CPU11は、受け付けた文書データ100に含まれている文書種類IDに基づいて、論理構造記憶部121及び修辞構造記憶部122を照会して、対応する論理構造に関する情報及び修辞構造に関する情報を抽出する(ステップS302)。CPU11は、受け付けた文書データ100を、文書に含まれる最小限の単語単位に分割する(ステップS303)。
【0044】
具体的な処理としては、汎用の形態素解析辞書を用いて形態素解析を実行し、最小限の単語単位に分割する。その後、記憶手段12に記憶しておく文法規則に関する情報等を用いて、名詞句、動詞句等の語句単位に集約する。
【0045】
CPU11は、分割された語句ごとに、抽出された論理構造に関する情報及び修辞構造に関する情報と照合し、所定の観点から語句群を抽出する条件、すなわちボトムアップ処理における認知スキーマに対応する情報で検索可能な語句単位に分類する(ステップS304)。CPU11は、抽出条件記憶部123に記憶してある条件に関する情報ごとに語句群を抽出する(ステップS305)。CPU11は、抽出された語句群をカテゴリ情報に対応付けて記憶手段12に記憶する(ステップS306)。
【0046】
語句群を抽出する場合、通常は汎用の概念辞書を用いる。本実施の形態では、名詞系の概念辞書はあえて構築せず、文書中に登場する定義、説明等を利用して動的に概念辞書を生成するようにしてある。このようにすることで、無限に拡張する可能性がある固有名詞、新造語等を含む可能性が高い名詞系の概念辞書を事前に準備する必要が無く、良く用いられる語句は動的に概念辞書に登録される。また、語句の説明等が文書中に存在しない場合であっても、例えば通信手段17を介し、ネットワーク網により通信可能な外部コンピュータで既に提供されている辞書ウエブサービスにアクセスして必要な情報を取得する等、既知の外部情報を取り込むことによって動的に概念辞書を生成することもできる。
【0047】
一方、動詞の概念辞書は事前に生成して記憶手段12に記憶しておく。これは、動詞の概念は多くても100個前後であり、無限に拡張する概念ではないからである。一の概念に複数の動詞が存在するが、動詞の総数は辞書の見出し語ベースで数千個であり、大きく記憶容量が増大するおそれが無い。
【0048】
本実施の形態では、カテゴリ情報として、既定の言語情報、及び抽出された論理構造に関する情報、修辞構造に関する情報等の限定的な情報を用いる。ここで既定の言語情報とは、名詞、動詞等の形態素解析での出力品詞そのもの、又は「名詞+助詞」等既知の組み合わせで得ることが可能な情報、呼応関係、照応関係等の言語学的に規定される統語的情報を意味している。これらの情報は無限に存在するわけではなく、文書として成立するために求められる制約条件によって有限な情報となる。
【0049】
図5は、本発明の実施の形態に係る文書理解支援装置10の語句群抽出手段102におけるCPU11の処理を模式的に示す概念図である。語句群を抽出するために複数の条件1、条件2、・・・条件nを抽出条件記憶部123に記憶しておき、CPU11は、同一の文書データ100に対して条件ごとに語句群の抽出処理を実行する。図5の例では、条件1での抽出処理では語句NP1、NP2、NP3・・・が抽出され、条件2での抽出処理では語句VP1、VP2、VP3・・・が抽出されている。これら抽出された語句群を、各条件が属するカテゴリ情報に対応付けて、抽出結果記憶手段103に一時記憶する。
【0050】
図6は、本発明の実施の形態に係る文書理解支援装置10の抽出結果記憶手段103に記憶されているデータのデータ構造の例示図である。図6(a)に示すように、修辞構造に関する情報は、カテゴリ情報として「rhetoric」を修辞構造に関する情報である旨を示す識別子として付与し、修辞構造に関する情報を抽出条件とした抽出結果を「term」、「position」、「pattern_name」により特定している。「term」は抽出された語句を、「position」は抽出された語句の出現位置を、「pattern_name」は修辞語句の識別名、例えば「“と”後置詞句」等を、それぞれ意味している。
【0051】
同様に図6(b)では、装置・部品の種別に関する情報の場合のデータ構造を示しており、カテゴリ情報として「device」を装置・部品の種別に関する情報である旨を示す識別子として付与し、装置・部品の種別に関する情報を抽出条件とした抽出結果を「term」、「position」、「device_type」により特定している。「term」及び「position」は図6(a)と同様の意味であり、「device_type」は全体装置、部分装置等の区分を示す情報を意味している。
【0052】
以下図6(c)では、抽出条件が照応関係に関する情報の場合のデータ構造を示しており、図6(d)では、抽出条件が機能に関する情報の場合のデータ構造を示している。図6(c)の抽出条件「relation」は参照語句であるか被参照語句であるかの区分を示す情報を意味しており、図6(d)の抽出条件「function」は本記号のままで機能表現であることを意味している。以下、抽出結果記憶手段103には、複数のカテゴリ情報について、それぞれのデータ構造にて抽出結果が記憶される。
【0053】
このようにカテゴリ情報とは、語句群を抽出するための観点を示す情報であり、どのような観点から語句群を抽出したのか抽出結果と対応付けて記憶しておく情報である。したがって、語句と語句との直接的な対応関係をすべて記憶しておくのではなく、カテゴリ情報間の対応関係のみを用いることにより、カテゴリ情報に対応する語句と語句との組み合わせ及び順序を特定することができる。
【0054】
図7は、図4に示す文書データ100の「〜において、」までの文書データについて、図6(a)〜(d)に示す抽出条件で抽出した語句群の例示図である。図7では、図6(a)〜(d)に示す抽出条件で抽出した語句群を太字でそれぞれ示している。図7(a)〜(d)の抽出結果の下に記載してあるのは、抽出された最初の語句に対する抽出結果記憶手段103に記憶するためのデータ構造の一例である。「position」は文書データに含まれる語句の最初の文字の位置を示している。例えば最初の文字である場合には「position」=‘0(ゼロ)’となる。「specific_pattern」は固有の修辞構造(この場合特許文書である旨の識別子)である旨を示し、「device」は全体装置である旨を示し、「referred」は被参照語句である旨を示している。
【0055】
CPU11は、記憶された語句群及び記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定する(ステップS307)。対応情報を事前に対応情報記憶部124に記憶しておくことにより、特定のカテゴリ情報とカテゴリ情報との間の結びつき関係に関する情報を取得することができる。抽出結果記憶手段103にて記憶手段12には、語句群に含まれる語句ごとにカテゴリ情報と対応付けられていることから、カテゴリ情報間の関係に基づいて語句間の関係を特定することができる。
【0056】
図8は、語句対応特定手段104でのCPU11の処理手順を示すフローチャートである。CPU11は、対応情報記憶部124に記憶されている最初の対応情報を抽出し(ステップS801)、抽出した対応情報に含まれるカテゴリ情報を特定する(ステップS802)。対応情報は、カテゴリ情報間の対応関係を示す情報であることから、通常は少なくとも2つのカテゴリ情報が特定される。
【0057】
CPU11は、特定されたカテゴリ情報が、抽出結果記憶手段103で記憶された抽出結果に含まれているか否かを判断する(ステップS803)。すなわち語句間の対応関係ではなくカテゴリ情報間の対応関係のみが記憶してあることから、抽出された語句群に含まれる語句ごとに対応付けられているカテゴリ情報を対象に検索し、記憶してある対応情報に合致するカテゴリ情報の存否を確認する。CPU11が、含まれていないと判断した場合(ステップS803:NO)、CPU11は、対応情報で関係を特定することが可能なカテゴリ情報がないと判断し、ステップS806へスキップする。CPU11が、含まれていると判断した場合(ステップS803:YES)、CPU11は、抽出した対応情報にしたがって、含まれると判断されたカテゴリ情報に対応する語句の組み合わせ及び順序を特定する(ステップS804)。CPU11は、特定された語句の組み合わせ及び順序に関する情報を、記憶手段12又はRAM13に一時記憶する(ステップS805)。
【0058】
CPU11は、全ての対応情報について上述の処理を実行したか否かを判断し(ステップS806)、CPU11が、まだ全ての対応情報について処理を実行していないと判断した場合(ステップS806:NO)、CPU11は、次の対応情報を抽出して(ステップS807)、処理をステップS802へ戻す。CPU11が、全ての対応情報について処理を実行したと判断した場合(ステップS806:YES)、CPU11は、処理を終了して、記憶手段12に一時記憶されている語句の組み合わせ及び順序に関する情報を出力手段15へと渡す。
【0059】
なお、対応情報は、ほとんどの場合が2つのカテゴリ情報を組み合わせて得ることができる情報であることから、カテゴリ情報の総数をN(Nは自然数)とした場合、対応情報の総数はN個から2個を取り出す組み合わせの総数に一致する。例えばカテゴリ情報の総数Nが100である場合、最大数は
1002 =4950個となる。しかし実際には有意な組み合わせはきわめて限られている。本実施の形態のような特許文書の場合、多くとも数十個程度になると想定され、従来の大規模辞書を用いる場合と比べてCPU11の演算処理負荷を大きく軽減することができる。
【0060】
CPU11は、特定された語句の組み合わせ及び順序に関する情報を出力する(ステップS308)。具体的には、語句対応特定手段104で特定された語句の組み合わせ及び順序に関する情報に基づいて、「何を達成するか」という機能ノードと「どのように達成するか」という方式ノードとを交互に記述する機能分解木のような木構造で出力される。図9は、図4の例に基づいて本発明の実施の形態に係る文書理解支援装置10で生成された機能分解木の例示図である。図9に示すように、本請求項は「物」の発明に関する請求項であることから、機能を達成する主体である主体構成要素はそれぞれ「物」で表現されており(楕円部分の直上に位置する四角部分)、何を達成するのかという機能構成要素(機能ノード)が主体構成要素ごとに明示されている(楕円部分)。また、機能をどのように達成するのかに関する方式構成要素(方式ノード)が、機能構成要素に対して直下に付置され(楕円部分下方に位置する四角部分)、方式構成要素からはさらに詳細な機能構成要素の系列が記述されている。そして、該系列は請求項に現れる順序で左から右へと表示されていることから、いわゆるヨーロピアンスタイルで記載されている請求項である場合、従来技術は左側に、特徴部分が右側に整理されて表示出力される。したがって、特許請求の範囲に記載されている従来技術部分と特徴部分とを視覚的に区分することができ、発明の内容を明確に把握することが可能となる。
【0061】
なお、出力手段15は表示装置等のディスプレイに表示出力するものに限定されるものではなく、印刷装置等で印刷出力しても良いし、外部のコンピュータへデータ送信するものであっても良いことは言うまでもない。
【0062】
また、属性に関する情報(例えば温度が700℃等)、条件に関する情報(例えば100℃で10分間加熱等)等は、木構造で表現するのになじまない。これらの情報は、例えば表構造で出力しても良いし、出力の構成は特に限定されるものではない。
【0063】
さらに、機能分解木を用いて表示出力又は印刷出力する場合には、生成された機能分解木を構成する情報を記憶手段12に履歴情報として記憶しておくことが好ましい。場合によっては、過去に生成された機能分解木を参照することにより、より明確な機能分解木を生成することが出来るからである。
【0064】
例えば、図9の左端に表示されている「燃焼部」には、機能として「unknown」と表示されている。これは、図4の記載からも明らかなように、「燃焼部」に対する修飾句が存在しないこと、すなわち機能表現を抽出することができなかったことを示している。しかし、同一発明者、同一出願人が、同一物に対して異なる発明を行っており、該発明の特許文書に対して既に機能分解木を生成している場合等には、既に生成されている機能分解木を参照することにより、機能として「unknown」と表示されている部分を補完することができる可能性がある。
【0065】
そこで、CPU11は、生成された機能分解木を構成する情報を、出願人、発明者、発明の名称等と対応付けて記憶手段12に記憶しておき、新たに機能分解木を生成する場合には、CPU11は、出願人、発明者、発明の名称等をキー情報として既に生成されている機能分解木を参照する。CPU11は、参照対象となる機能分解木を構成する情報に、機能が「unknown」と示されている構成要素、例えば「燃焼部」が存在するか否かを判断し、CPU11が存在すると判断した場合には、CPU11は、参照した機能分解木を構成する情報の構成要素「燃焼部」の機能に関する情報をコピーして、新たな機能分解木を生成する。
【0066】
このようにすることで、1つの発明に対して改良が重ねられた場合、表示出力されている機能分解木がより詳細になることから、従来技術と特徴部分とがより明確になり、発明の内容をより正確に理解することができる。
【0067】
以上のように本実施の形態によれば、文書の記載内容に応じた固有の論理構造、修辞構造、及び所定の観点から語句群を抽出する条件に基づいて語句群を抽出することにより、1つの観点から抽出しただけでは、抽出できない新造語等であっても、いずれかの条件で抽出することができ、全ての語句に関する情報を記憶可能な大容量辞書を必要としない。また、記憶されている語句群と、記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定することにより、語句と語句との対応関係をすべて記憶した大容量辞書が存在しない場合であっても、カテゴリ情報単位で語句の組み合わせ及び順序を特定することができる。さらに、大容量辞書に対する抽出処理と比べて演算処理量が少なく、計算機処理負荷を軽減することにより演算時間を短縮することが可能となる。
【0068】
また、対象物の機能的構造を、「何を達成するか」という機能ノードと、「どのように達成するか」という方式ノードを交互に記述することで明示化する機能分解木等の形式で文書の内容を表示出力あるいは印刷出力することができ、視覚的に文書の内容を把握することが容易な形式で出力することが可能となる。
【0069】
なお、本発明は上記実施例に限定されるものではなく、特許請求の範囲内の記載であれば多種の変形、置換等が可能であることは言うまでもない。
【図面の簡単な説明】
【0070】
【図1】本発明の実施の形態に係る文書理解支援装置の機能を模式的に示す機能ブロック図である。
【図2】本発明の実施の形態に係る文書理解支援装置を、CPUを用いて具現化した場合のハードウェア構成を示すブロック図である。
【図3】本発明の実施の形態に係る文書理解支援装置のCPUの処理手順を示すフローチャートである。
【図4】受け付ける文書データの例示図である。
【図5】本発明の実施の形態に係る文書理解支援装置の語句群抽出手段におけるCPUの処理を模式的に示す概念図である。
【図6】本発明の実施の形態に係る文書理解支援装置の抽出結果記憶手段に記憶されているデータのデータ構造の例示図である。
【図7】抽出条件で抽出した語句群の例示図である。
【図8】語句対応特定手段でのCPUの処理手順を示すフローチャートである。
【図9】本発明の実施の形態に係る文書理解支援装置で生成された機能分解木の例示図である。
【符号の説明】
【0071】
10 文書理解支援装置
11 CPU
12 記憶手段
13 RAM
14 入力手段
15 出力手段
16 補助記憶手段
17 通信手段
18 内部バス
80 コンピュータプログラム
90 可搬型記録媒体
100 文書データ
101 情報抽出手段
102 語句群抽出手段
103 抽出結果記憶手段
104 語句対応特定手段
105 結果出力手段
106 論理構造記憶手段
107 修辞構造記憶手段
108 抽出条件記憶手段
109 対応情報記憶手段

【特許請求の範囲】
【請求項1】
固有の論理構造及び修辞構造を有する文書の記載内容に関する情報を含む文書データを受け付け、受け付けた文書データに基づいて、文書の意味理解を支援することが可能な情報を出力する文書理解支援装置において、
文書の論理構造に関する情報を、記載内容に関する情報と対応付けて記憶してある論理構造記憶手段と、
文書の修辞構造に関する情報を、記載内容に関する情報と対応付けて記憶してある修辞構造記憶手段と、
文書データから特定の観点から語句群を抽出する条件に関する情報を、該条件の意味づけを識別するカテゴリ情報と対応付けて複数記憶してある抽出条件記憶手段と、
複数のカテゴリ情報間の対応関係に関する対応情報を記憶してある対応情報記憶手段と、
受け付けた文書データに含まれる記載内容に関する情報に基づいて、前記論理構造記憶手段及び前記修辞構造記憶手段から、論理構造に関する情報及び修辞構造に関する情報を抽出する情報抽出手段と、
該情報抽出手段で抽出された論理構造に関する情報、修辞構造に関する情報、及び前記抽出条件記憶手段に記憶してある前記条件に関する情報に基づいて、該条件に関する情報ごとに前記文書データから語句群を抽出する語句群抽出手段と、
該語句群抽出手段で抽出された語句群を、抽出に係る前記条件に関する情報に対応する前記カテゴリ情報ごとに記憶する抽出結果記憶手段と、
該抽出結果記憶手段に記憶された語句群及び前記対応情報記憶手段に記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定する語句対応特定手段と、
特定された語句の組み合わせ及び順序に関する情報を出力する結果出力手段と
を備えることを特徴とする文書理解支援装置。
【請求項2】
前記語句対応特定手段は、
前記対応情報ごとに、該対応情報に含まれるカテゴリ情報が、前記抽出結果記憶手段に記憶された語句群に含まれる語句ごとに対応付けられたカテゴリ情報に含まれるか否かを判断する判断手段と、
該判断手段で含まれると判断した場合、含まれると判断されたカテゴリ情報に対応する語句の組み合わせ及び順序に関する情報を記憶する結果記憶手段と
を備えることを特徴とする請求項1記載の文書理解支援装置。
【請求項3】
前記結果出力手段は、
前記語句対応特定手段で特定された語句の組み合わせ及び順序を示す木構造にて出力するようにしてあることを特徴とする請求項1又は2記載の文書理解支援装置。
【請求項4】
固有の論理構造及び修辞構造を有する文書の記載内容に関する情報を含む文書データを受け付け、受け付けた文書データに基づいて、文書の意味理解を支援することが可能な情報を出力する文書理解支援方法において、
文書の論理構造に関する情報を、記載内容に関する情報と対応付けて記憶し、
文書の修辞構造に関する情報を、記載内容に関する情報と対応付けて記憶し、
文書データから特定の観点から語句群を抽出する条件に関する情報を、該条件の意味づけを識別するカテゴリ情報と対応付けて複数記憶し、
複数のカテゴリ情報間の対応関係に関する対応情報を記憶し、
受け付けた文書データに含まれる記載内容に関する情報に基づいて、論理構造に関する情報及び修辞構造に関する情報を抽出し、
抽出された論理構造に関する情報、修辞構造に関する情報、及び記憶してある前記条件に関する情報に基づいて、該条件に関する情報ごとに前記文書データから語句群を抽出し、
抽出された語句群を、抽出に係る前記条件に関する情報に対応する前記カテゴリ情報ごとに記憶し、
記憶された語句群及び記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定し、
特定された語句の組み合わせ及び順序に関する情報を出力することを特徴とする文書理解支援方法。
【請求項5】
前記対応情報ごとに、該対応情報に含まれるカテゴリ情報が、記憶された語句群に含まれる語句ごとに対応付けられたカテゴリ情報に含まれるか否かを判断し、
含まれると判断した場合、含まれると判断されたカテゴリ情報に対応する語句の組み合わせ及び順序に関する情報を記憶することを特徴とする請求項4記載の文書理解支援方法。
【請求項6】
特定された語句の組み合わせ及び順序を示す木構造にて出力することを特徴とする請求項4又は5記載の文書理解支援方法。
【請求項7】
固有の論理構造及び修辞構造を有する文書の記載内容に関する情報を含む文書データを受け付け、受け付けた文書データに基づいて、文書の意味理解を支援することが可能な情報を出力するコンピュータで実行することが可能なコンピュータプログラムにおいて、
前記コンピュータの記憶手段に、
記載内容に関する情報と対応付けた文書の論理構造に関する情報、
記載内容に関する情報と対応付けた文書の修辞構造に関する情報、
意味づけを識別するカテゴリ情報と対応付けた、文書データから特定の観点から語句群を抽出する条件に関する情報、及び
複数のカテゴリ情報間の対応関係に関する対応情報
を記憶しておき、
前記コンピュータを、
受け付けた文書データに含まれる記載内容に関する情報に基づいて、論理構造に関する情報及び修辞構造に関する情報を抽出する情報抽出手段、
該情報抽出手段で抽出された論理構造に関する情報、修辞構造に関する情報、及び記憶してある前記条件に関する情報に基づいて、該条件に関する情報ごとに前記文書データから語句群を抽出する語句群抽出手段、
該語句群抽出手段で抽出された語句群を、抽出に係る前記条件に関する情報に対応する前記カテゴリ情報ごとに記憶する抽出結果記憶手段、
該抽出結果記憶手段に記憶された語句群及び記憶してある対応情報に基づいて、語句群に含まれる語句の組み合わせ及び順序を特定する語句対応特定手段、及び
特定された語句の組み合わせ及び順序に関する情報を出力する結果出力手段
として機能させることを特徴とするコンピュータプログラム。
【請求項8】
前記コンピュータを、
前記対応情報ごとに、該対応情報に含まれるカテゴリ情報が、前記抽出結果記憶手段に記憶された語句群に含まれる語句ごとに対応付けられたカテゴリ情報に含まれるか否かを判断する判断手段、及び
該判断手段で含まれると判断した場合、含まれると判断されたカテゴリ情報に対応する語句の組み合わせ及び順序に関する情報を記憶する結果記憶手段
として機能させることを特徴とする請求項7記載のコンピュータプログラム。
【請求項9】
前記コンピュータを、
前記語句対応特定手段で特定された語句の組み合わせ及び順序を示す木構造にて出力する結果出力手段として機能させることを特徴とする請求項7又は8記載のコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2008−310635(P2008−310635A)
【公開日】平成20年12月25日(2008.12.25)
【国際特許分類】
【出願番号】特願2007−158581(P2007−158581)
【出願日】平成19年6月15日(2007.6.15)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】