説明

特許明細書分析装置、及び文章分析装置。

【課題】
特許請求の範囲を限定する格成分を、正確に抽出する。
【解決手段】
構成要件区分手段11は、複数の構成要件を備えた請求項を、構成要件ごとに区分する。係り受け解析手段12は、構成要件を形態素解析して、単語と単語の品詞とを有する文節に分解し、且つ前記文節の係り受けを解析する。文節構造構成手段13は、前記文節の係り受けを、ツリー状の文節構造に構成する。複数の格成分のパターン15及び格成分の除外パターン16は、単語と単語の品詞とを有する文節によってツリー状に構成されている。格成分抽出手段14は、文節構造を、複数の格成分のパターン15及び格成分の除外パターン16と比較し、格成分として抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特許明細書分析装置、及び文章分析装置、特に、特許請求項を分析して表示する特許明細書分析装置や、契約書等の条件を分析して表示する文章分析装置に関するものである。
【背景技術】
【0002】
従来、特許明細書分析装置、及び文章分析装置では、特許明細書における特許請求の範囲に定義された発明の限定度合をカウントして表示する技術が知られている。
【0003】
特許文献1には、電子データ化された特許明細書における特定の欄に記載されている文字列を抽出したのち、格成分数を全てカウントして発明の限定度合として表示する技術が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−259154号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の特許明細書分析装置、及び文章分析装置は、
(A)〜(C)の課題があった。
【0006】
(A) 手掛かり句の文字列のみを指標として格成分を抽出しているため、品詞が全く異なる部分であっても手掛かり句文字列と一致してしまい、誤って格成分でない文字列を格成分として抽出してしまう虞があった。
【0007】
(B) 手がかり句の文字列を指標として格成分を抽出していた。よって、格成分の語句に含まれている品詞の語尾変化により、その語句を誤って格成分ではないと判断してしまう虞があった。
【0008】
(C) 例えば、手がかり句の文字列の重複のみを指標として格成分でないパターンを抽出して、これを格成分でないものとして除外しているため、品詞の語尾変化の場合、例えば同一の動詞が能動態と受動態とで重複記載されていた場合、誤って重複した記載でないものとして判断してしまう虞があった。
【課題を解決するための手段】
【0009】
本発明の特許明細書分析装置は、複数の構成要件を備えた請求項を、前記構成要件ごとに区分する構成要件区分手段と、前記構成要件を形態素解析して、単語と単語の品詞とを有する文節に分解し、且つ前記文節の係り受けを解析する係り受け解析手段と、前記文節の係り受けを、ツリー状の文節構造に構成する文節構造構成手段と、単語と単語の品詞とを有する文節によってツリー状に構成された複数の格成分のパターン及び格成分の除外パターンと、前記文節構造を前記複数の格成分のパターン及び格成分の除外パターンと比較し、格成分として抽出する格成分抽出手段とを備えたことを特徴とする。
【発明の効果】
【0010】
本発明の特許明細書分析装置、及び文章分析装置によれば、以下(A),(B)の効果がある。
【0011】
(A) 文節構造と複数の格成分のパターン及び格成分の除外パターンと比較して格成分として抽出する際には、手掛かり句の文字列ではなく、単語と単語の品詞とを有する文節によって構成されたツリー状の文節構造を比較している。よって、手掛かり句の文字列に比べて、より正確に格成分を抽出できる
【0012】
(B) 格成分のパターンと格成分の除外パターンは、動詞の原形をもとに判断しているので、例えば動詞が能動態と受動態とで記載されていた場合であっても、これを同一のものとして判断することが可能である。
【図面の簡単な説明】
【0013】
【図1】図1は、本発明の実施例1における特許明細書分析装置の概略の構成を示す図である。
【図2】図2は、図1の格成分のパターン(その1)を示す図である。
【図3】図3は、図1の格成分のパターン(その2)を示す図である。
【図4】図4は、図1の格成分の除外パターンを示す図である。
【図5】図5は、図1の特許明細書分析装置の動作を示すフローチャートである。
【図6】図6は、図1の構成要件区分手段の動作を示すフローチャートである。
【図7】図7は、図1の係り受け解析手段における動作を示すフローチャートである。
【図8】図8は、図1の文節構造構成手段におけるXML化の動作を示すフローチャートである。
【図9】図9は、図1の文節構造構成手段におけるツリー化の動作を示すフローチャートである。
【図10】図10は、図1の格成分抽出手段の動作を示すフローチャートである。
【図11】図11は、図1における文節の係り受け解析結果を示す図である。
【図12】図12は、図8に示す処理による係り受け解析XMLを示す図である。
【図13】図13は、図1におけるツリー状の文節構造を示す図である。
【図14】図14は、図1における格成分を抽出したツリー状の文節構造を示す図である。
【図15】図15は、本発明の実施例2における契約書分析装置の概略の構成を示す図である。
【図16】図16は、図15の契約書分析装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0014】
本発明を実施するための形態は、以下の好ましい実施例の説明を添付図面と照らし合わせて読むと、明らかになるであろう。但し、図面はもっぱら解説のためのものであって、本発明の範囲を限定するものではない。
【実施例1】
【0015】
(実施例1の構成)
図1は、本発明の実施例1における特許明細書分析装置の概略の構成を示す図である。
【0016】
特許明細書分析装置10は、構成要件区分手段11と、係り受け解析手段12と、文節構造構成手段13と、格成分抽出手段14とを有している。格成分抽出手段14は、格成分のパターン15及び格成分の除外パターン16とを備えている。
【0017】
構成要件区分手段11は、請求項の文章21を構成要件で区分し、各構成要件に区分された請求項の文章22を出力する。係り受け解析手段12は、各構成要件に区分された請求項の文章22を係り受け解析し、文節の係り受け解析結果23を出力する。文節構造構成手段13は、文節の係り受け解析結果23をXML形式に変換したのち、文節の係り受けに応じたツリー化を行い、ツリー状の文節構造24を出力する。ツリー状の文節構造24は、単語と単語の品詞とを有する文節によってツリー状に構成されている。格成分抽出手段14は、ツリー状の文節構造24を格成分のパターン15及び格成分の除外パターン16と照合し、格成分を抽出したツリー状の文節構造25を出力する。格成分のパターン15及び格成分の除外パターン16は、単語と単語の品詞とを有する文節によってツリー状に構成されている。
【0018】
図2は、図1の格成分のパターン(その1)を示す図であり、左側に格が何を示すかが示されており、右側にツリー状の文節構造である格成分のパターン15が示されている。右側のツリー状の文節構造は、1行が1つの文節に対応している。格成分のパターン15のツリー状の文節構造は、単語と単語の品詞とを有する文節によってツリー状に構成されている。
【0019】
対象を示す格その1の1行目において、括弧で括られている〔名詞句〕は、名詞で終了する単語列を示している。「名詞句」の次に記載されている「を(助詞)」は、単語は「を」であることと、この単語「を」の品詞は、助詞であることを示している。「を(助詞)」の次に記載されている「−D」は、この文節が係り受けている先の文節の位置を示している。
【0020】
対象を示す格その1の2行目において、括弧で括られている〔動詞句〕は、動詞の単語を有している文節を示している。「動詞句」の次に記載されている「−+」は、この文節が係り受けている元の文節の位置を示している。この文節の「−+」は、直前の文節の「−D」の位置と同じ位置であり、よって直前の文節を係り受けていることを示している。「−+」の次に記載されている「−*」は、動詞句以降の文節がどのような単語で構成されているか、また動詞句以降の係り受け構造がどのようになっているかは問わないことを示している。対象を示す格その1は、これらの記号によって、〔名詞句〕の次に助詞「を」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
【0021】
係り受けている文節とは、単に「ラプラシアンフィルタ処理を行う」で示されるように、「〔名詞句〕を」の次に出現する文節のことではなく、日本語の文法上において係り受けている文節である。よって、「ラプラシアンフィルタ処理をRGB信号毎に行う」の文章は、この係り受けのパターンに含まれている。
同様に、対象を示す格その2は、〔名詞句〕の次に助詞「が」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
条件を示す格その1は、〔名詞句〕の次に助詞「に」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
条件を示す格その2は、〔名詞句〕の次に助詞「に」と、助詞「より」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
条件を示す格その3は、任意の文節の次に動詞「基づい」と、助詞「て」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
条件を示す格その4は、任意の文節の次に動詞「応じ」と、助詞「て」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
【0022】
条件を示す格その5は、任意の文節の次に動詞「対応させ」と、助詞「て」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
【0023】
条件を示す格その6は、任意の文節の次に名詞「場合」と、助詞「に」と、助詞「は」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
時期を示す格その1は、任意の文節の次に名詞「とき」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
【0024】
図3は、図1の格成分のパターン(その2)を示す図であり、図2と同様に、左側に格が何を示すかが示されており、右側にツリー状の文節構造である格成分のパターン15が示されている。図2と同様に、右側のツリー状の文節構造は、1行が1つの文節に対応している。
始点を示す格その1は、〔名詞句〕の次に助詞「から」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
着点を示す格その1は、〔名詞句〕の次に助詞「へ」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
着点を示す格その2は、〔名詞句〕の次に助詞「に」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
【0025】
着点を示す格その3は、〔名詞句〕の次に助詞「に」からなる文節が、動詞「対し」と助詞「て」からなる文節に係り受けており、更に動詞である単語を有する文節に係り受けているパターンを示している。
【0026】
媒介を示す格その1は、〔名詞句〕の次に助詞「を」からなる文節が、動詞「介し」と助詞「て」からなる文節に係り受けており、更に動詞である単語を有する文節に係り受けているパターンを示している。
【0027】
媒介を示す格その2は、〔名詞句〕の次に助詞「に」からなる文節が、動詞「媒介させ」と助詞「て」からなる文節に係り受けており、更に動詞である単語を有する文節に係り受けているパターンを示している。
【0028】
用途役割を示す格その1は、〔名詞句〕の次に助詞「として」と助詞「の」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
状態を示す格その1は、〔名詞句〕の次に名詞「状態」と、助詞「で」からなる文節が、動詞である単語を有する文節に係り受けているパターンを示している。
【0029】
原料・材料を示す格その1は、〔名詞句〕の次に助詞「から」からなる文節が、動詞「なる」からなる文節に係り受けており、更に任意の文節に係り受けているパターンを示している。
【0030】
原料・材料を示す格その2は、〔名詞句〕の次に助詞「を」からなる文節が、動詞「有する」からなる文節に係り受けており、更に任意の文節に係り受けているパターンを示している。
比較を示す格その1は、〔名詞句〕の次に助詞「より」からなる文節が、形容詞の単語を有する文節に係り受けているパターンを示している。
図4は、図1の格成分の除外パターンを示す図である。
【0031】
格成分の除外パターン16は、特徴部を除外する4パターンと、前記による繰り返しを除外する2パターンと、特定の動詞への助詞「を」の係り受けを除外する4パターンとを有している。格成分の除外パターン16のツリー状の文節構造は、単語と単語の品詞とを有する文節によってツリー状に構成されている。
【0032】
特徴部その1は、〔名詞句〕の次に助詞「を」からなる文節が、動詞「有する」に係り受け、名詞「こと」の次に助詞「を」からなる文節に係り受け、名詞「特徴」の次に助詞「を」からなる文節に係り受け、動詞「する」に係り受け、更に「・・・装置/方法。」等で示される請求項の文章の末尾且つ特許請求の範囲の対象に係り受けているパターンを示している。
【0033】
特徴部その2は、〔名詞句〕の次に助詞「を」からなる文節が、動詞「備える」に係り受け、名詞「こと」の次に助詞「を」からなる文節に係り受け、名詞「特徴」の次に助詞「を」からなる文節に係り受け、動詞「する」に係り受け、更に「・・・装置/方法。」等で示される請求項の文章の末尾且つ特許請求の範囲の対象に係り受けているパターンを示している。
【0034】
特徴部その3は、〔名詞句〕の次に助詞「を」からなる文節が、動詞「有する」に係り受け、更に「・・・装置/方法。」等で示される請求項の文章の末尾且つ特許請求の範囲の対象に係り受けているパターンを示している。
【0035】
特徴部その4は、〔名詞句〕の次に助詞「を」からなる文節が、動詞「備える」に係り受け、更に「・・・装置/方法。」等で示される請求項の文章の末尾且つ特許請求の範囲の対象に係り受けているパターンを示している。
【0036】
特徴部その1〜4は、いずれも特許の対象を示す文節に係り受けている動詞を含んでいるパターンである。このパターンは、極めて形式的かつ定型的であり、特許権の技術的範囲に影響を与えるものではない。更に、格成分とは構成要件に対する動詞を限定するものである。よって、特許の対象に対する動詞を限定する部分は、たとえ形式的に格成分のパターンと一致した部分があったとしても、これを格成分から除外している。
【0037】
前記による繰り返し・その1は、名詞「前記」を先頭に、助詞「に」と助詞「より」を末尾に有する文節構造が、更に動詞である単語を有する文節に係り受けているパターンを示している。
【0038】
前記による繰り返し・その2は、名詞「前記」を先頭に、助詞「が」を末尾に有する文節構造が、更に動詞である単語を有する文節に係り受けているパターンを示している。
【0039】
前記による繰り返し・その1とその2は、更に、名詞「前記」に引き続いている名詞句が、既に出現している名詞句と同一であることと、ここで出現している動詞句の原形は、既に出現している動詞句の原形と同一であることを判断している。これにより、能動態で記載されている動詞句が、受動態で再度記載されたとしても検出可能としている。
【0040】
前記による繰り返し・その1とその2は、特許請求の範囲を明確化するために重複記載された部分であり、記載されて無くてもよい。これを格成分として抽出すると、記載形式によって格成分が変化することとなり望ましくない。よって、これを格成分から除外している。
【0041】
特定の動詞への係り受け・その1は、名詞句の次に助詞「を」からなる文節が、動詞「行う」に係り受けているパターンを示している。動詞「行う」は語尾変化していてもよい。この場合は、形式的には対象を示す格のパターンに該当するが、実際には格ということはできないためである。
【0042】
動詞「行う」は特定の意味を有しておらず、名詞句の次に助詞「を」からなる文節が係り受けることによって、初めて動詞の意味が確定する。仮に、名詞句の次に動詞「する」を記述したならば、同一の意味を表すことができるが、このように書き換えることで格成分数が変化することで望ましくない。
【0043】
例えば、「受信データにRGB変換処理を行う変換手段」の文章を考える。形式的には「RGB変換処理を」は、対象を表す格に該当するが、この文章は「受信データにRGB変換処理する変換手段」と書き直すことができ、これを格成分とすると、表現方法の形式的な変化のみで格成分が変化する為、望ましくない。よって、このパターンは格成分としない。
【0044】
特定の動詞への係り受け・その2は、名詞句の次に助詞「を」からなる文節が、動詞「実行する」に係り受けているパターンを示している。動詞「実行する」は語尾変化していてもよい。
【0045】
特定の動詞への係り受け・その2は、名詞句の次に助詞「を」からなる文節が、動詞「処理する」に係り受けているパターンを示している。動詞「処理する」は語尾変化していてもよい。
【0046】
特定の動詞への係り受け・その2は、名詞句の次に助詞「を」からなる文節が、動詞「する」に係り受けているパターンを示している。動詞「する」は語尾変化していてもよい。
(実施例1の動作)
図5は、図1の特許明細書分析装置の動作を示すフローチャートである。
【0047】
特許明細書分析装置10は、処理を開始すると、ステップS1において、各行ごとに特許公報や公開公報の情報を含んでいるCSV形式のファイルから、個々の特許公報や公開公報の請求項の文章21を抽出する。
【0048】
ステップS2において、構成要件区分手段11によって請求項の文章21を構成要件ごとに区切る。ステップS3において、係り受け解析手段12によって、構成要件ごとに係り受け解析してCSV化する。ステップS4において、文節構造構成手段13によって、係り受け解析CSVをXMLに変換し、ステップS5において、係り受け解析XMLを係り受けに応じてツリー化する。ステップS6において、ツリー化した係り受け解析XMLから格成分を抽出し、図5の動作を終了する。
図6は、図1の構成要件区分手段の動作を示すフローチャートである。
【0049】
処理が開始すると、ステップS10において、構成要件区分手段11は、構成要件列挙形式の区切り「と、」をカウントしてSk1とする。ステップS11において、書き流し形式の区切り「し、」をカウントしてSk2とする。ステップS12において、ジェプソン形式の区切り「を特徴とする・・・であって、」をカウントしてSjとする。
ステップS13において、Sjが0よりも大きくなかったならば、ステップS14の処理を行い、Sjが0よりも大きいならば、ステップS17の処理を行う。
【0050】
ステップS14において、Sk1がSk2以上であったならば、ステップS15において、構成要件列挙形式の区切りで分節し、そうでなかったならば、ステップS16において、書き流し形式の区切りで分節し、図6の処理を終了する。
【0051】
ステップS17において、Sk1がSk2以上であったならば、ステップS18において、ジェプソン形式及び構成要件列挙形式の区切りで分節し、そうでなかったならば、ステップS19において、ジェプソン形式及び書き流し形式の区切りで分節し、図6の処理を終了する。
【0052】
特許請求の範囲の書き方には、大きく分けて構成要件列挙形式と書き流し形式とがある。構成要件列挙形式は、構成要件が名詞句で記述されており、この名詞句に助詞「と」と記号「、」が付与されて列挙されている。よって、助詞「と」と記号「、」で区切ることによって、構成要件ごとに区切ることができる。
【0053】
書き流し形式は、構成要件が動詞で記述されている。構成要件は、主に動詞「する」の語尾変化である「し」と記号「、」が付与されている。よって、動詞「し」と記号「、」で区切ることによって、構成要件ごとに区切ることができる。
【0054】
ジェプソン形式は、公知部分の末尾に「を特徴とする・・・であって、」を有し、更に構成要件列挙形式又は書き流し形式と組み合わされている。よって、構成要件列挙形式又は書き流し形式の構成要件の末尾パターンに加えて、ジェプソン形式の構成要件の末尾パターンで区切ることによって、構成要件ごとに区切ることができる。
図7は、図1の係り受け解析手段における動作を示すフローチャートである。
【0055】
処理が開始すると、ステップS20において、係り受け解析手段12は、構成要件ごとに分節されている請求項の文章21を読み込む。ステップS21〜S26に渡って、構成要件毎に処理を繰り返す。
【0056】
ステップS22において、現在の構成要件の文章を形態素変換し、単語と文節とを抽出する。ステップS23〜S25に渡って、現在の構成要件に含まれている文節毎に処理を繰り返す。ステップS24において、現在の文節がどの文節に係り受けているかを判断する。ステップS25において、構成要件に含まれている全ての文節の処理が終了したならば、ステップS26の処理を行う。ステップS26において、現在の請求項に含まれている全ての構成要件の処理が終了したならば、図7の処理を終了する。
図8は、図1の文節構造構成手段におけるXML化の動作を示すフローチャートである。
【0057】
処理が開始すると、ステップS30において、文節構造構成手段13は、ルートのみからなるXMLのデータ構造を生成する。ステップS31〜S40に渡って、入力されたCSV形式の文節の係り受け解析結果23を、構成要件毎に処理を繰り返す。ステップS32において、XMLのルートに構成要件のノードを追加する。ステップS33〜S39に渡って、当該構成要件の文節毎に処理を繰り返す。ステップS34において、当該構成要件に構造のノードを追加する。ステップS35において、当該構成ノードに文節のノードを追加する。ステップS36〜S38に渡って、当該文節の単語毎に処理を繰り返す。ステップS37において、当該文節に単語ノードを追加し、単語の読みと品詞を記録する。ステップS38において、当該文節における全ての単語の処理が終了したならば、ステップS39の処理を行う。ステップS39において、当該構成要件における全ての文節の処理が終了したならば、ステップS40の処理を行う。ステップS40において、全ての構成要件の処理が終了したならば、図8の処理を終了する。
【0058】
図9(a),(b)は、図1の文節構造構成手段におけるツリー化の動作を示すフローチャートである。図9(a)は、上位処理を示すフローチャートであり、図9(b)は、上位処理と当該再帰処理から呼び出される再帰処理を示すフローチャートである。
【0059】
上位処理が開始すると、ステップS50において、構成要件の先頭の構造を対象とし、構成要件の末尾の構造を指定先として、(b)の再帰処理を呼び出して、図9(a)の上位処理を終了する。
【0060】
再帰処理が開始すると、ステップS51〜S55に渡って、対象の構造から指定先の構造までを現在の構造として処理を繰り返す。ステップS52において、現在の構造は、次の構造に係り受けているか否かを判断する。次の構造に係り受けていたならば、ステップS53の処理を行い、係り受けていなかったならば、ステップS54の処理を行う。 ステップS53において、現在の構造を、次の構造における子ノードの先頭に追加する。ステップS54において、次の構造を新たな対象とし、係り受け先の構造を新たな指定先として当該再帰処理を再帰的に呼び出す。ステップS55において、指定先の構造まで全てを繰り返したならば、図9(b)の処理を終了する。
図10は、図1の格成分抽出手段の動作を示すフローチャートである。
【0061】
処理が開始すると、格成分抽出手段14は、ステップS60において、を読み込こむ。ステップS61〜S67に渡って、全ての構成要件において処理を繰り返す。ステップS62〜S66に渡って、現在の構成要件に含まれている全ての文節を末尾から順に処理を繰り返す。ステップS63において、格成分のパターン15であるか否かを判断し、ステップS64において、格の除外パターンであるか否かを判断する。格成分のパターン15且つ格成分の除外パターン16でない場合のみステップS65の処理を行い、それ以外ならばステップS66の処理を行う。ステップS66において、全ての文節の処理が終了したならば、ステップS67の処理を行う。ステップS67において、全ての構成要件の処理が終了したならば、図10の処理を終了する。
図11は、図1における文節の係り受け解析結果を示す図である。
【0062】
原則として、各行に1つの単語が記載されている。単語が記載されている行は、単語を構成する文字列と、読みと、単語を構成する文字列を、品詞と、その品詞に係わる詳細情報とがタブで区切られて記載されている。
【0063】
単語は、先頭に「*」アスタリスクが記載されている行によって、文節に区切られている。先頭に「*」アスタリスクが記載されている行は、当該文節のID番号と、当該文節が係り受けている先の文節のID番号と「D」とがスペースで区切られて記載されている。
文節は、先頭に半角の「EOS」が記載されている行によって、構成要件毎に文節されている。
図12は、図8に示す処理による係り受け解析XMLを示す図である。
【0064】
図示しないルートノードに、「構成要件」ノードが接続されている。この「構成要件」ノードには、複数の「構造」ノードが接続されている。この「構造」ノードの属性には、この「構造」ノードの子ノードである「文節」ノードのIDと係り受け先の「文節」ノードのIDとが記載されている。この「構造」ノードは、「構成要件」ノード直下に全て接続されており、「構造」ノードの係り受けを反映した接続ではない。
【0065】
この「構造」ノードには1つの「文節」ノードが接続されている。この「文節」ノードの属性には、この「文節」ノードのIDと、係り受け先の「文節」ノードIDとが記載されている。
【0066】
「文節」ノードには、複数の単語ノードが接続されている。この「単語」ノードの属性には、単語の品詞が記載されており、「単語」ノードの値には、この単語の読みが記載されている。
図13は、図1におけるツリー状の文節構造を示す図である。
【0067】
図示しないルートノードに、「構成要件」ノードが接続されている。この「構成要件」ノードには、複数の「構造」ノードが接続されている。この「構造」ノードの兄弟ノードの末尾は、係り受け先の「文節」ノードである。
図14は、図1における格成分を抽出したツリー状の文節構造を示す図である。
【0068】
「構造」ノードの属性に、格成分であるか否かと、この格成分の種類と、この格成分がどのようなパターンによって抽出されたかが記載されている。例えば5行目の「構造」ノードは、着点をあらわす格成分であり、「〜に」のパターンによって抽出されたことを示している。
(実施例1の効果)
【0069】
本実施例1の特許明細書分析装置によれば、文節構造と複数の格成分のパターン15及び格成分の除外パターン16と比較して格成分として抽出する際には、手掛かり句の文字列ではなく、単語と単語の品詞と文節によって構成されたツリー状の文節構造を比較している。よって、手掛かり句の文字列に比べて、より正確に格成分を抽出できる効果がある。
【実施例2】
【0070】
(実施例2の構成)
図15は、本発明の実施例2における契約書分析装置の概略の構成を示す図であり、実施例1を示す図1と同一の要素には同一の符号が付与されている。
【0071】
本実施例2の契約書分析装置10Aは、実施例1に示す特許明細書分析装置10が有する構成要件区分手段11とは異なる条項区分手段11Aを有し、実施例1に示す格成分の除外パターン16とは異なる格成分の除外パターン16Aを有しているほかは、実施例1に示す特許明細書分析装置10と同様の構成を有している。
(実施例2の動作)
図16は、図15の契約書分析装置の動作を示すフローチャートである。
【0072】
処理が開始すると、ステップS70において、要素区分手段は、条文の名称を抽出すると格抽出の対象外という属性を付与し、ステップS71において、条文の前書きを抽出して格抽出の対象外という属性を付与し、条文の本文に格抽出の対象という属性を付与する。ステップS72〜S74において、全条文の処理を繰り返す。
【0073】
ステップS73において、条文ごとに区切り、ステップS74において、格抽出の対象という属性が付与された部分について、格成分を抽出する。全条文の処理が終了したならば、図16の処理を終了する。
【0074】
このように、契約書においても特許明細書と同様に、格成分を自動抽出することが可能である。また、格成分は、特許明細書と同様に、契約書の効力範囲を限定する定量的指標として役立てることが可能である。
(実施例2の効果)
【0075】
本実施例2の契約書分析装置10Aによれば、文節構造と複数の格成分のパターン15及び格成分の除外パターン16と比較して格成分として抽出する際には、手掛かり句の文字列ではなく、単語と単語の品詞と文節によって構成されたツリー状の文節構造を比較している。よって、手掛かり句の文字列に比べて、より正確に格成分を抽出できる効果がある。
(変形例)
本発明は、上記実施例に限定されず、種々の利用形態や変形が可能である。この利用形態や変形例としては、例えば、次の(a)のようなものがある。
【0076】
(a) 実施例1,2では、係り受け解析結果をツリー状の構造を有するXMLに変換したが、ツリー状のデータ構造が取り扱えるならばバイナリ形式であってもよい。
【産業上の利用可能性】
【0077】
格成分と無効審判の請求認容率とは高い相関性を有し、かつ格成分と侵害訴訟における侵害認容率とは高い相関性を示す。これは、格成分の数と、特許の技術的範囲の広さとは高い相関性を示すことを意味しており、格成分によって、特許の質の定量的評価が可能であることを示している。
本発明は、格成分の自動抽出装置を示している。本発明により、人間の判断に依らず、機械的且つ定量的に特許の質を判断可能である。
【符号の説明】
【0078】
10 特許明細書分析装置
10A 契約書分析装置
11 構成要件区分手段
11A 条項区分手段
12 係り受け解析手段
13 文節構造構成手段
14 格成分抽出手段
15 格成分のパターン
16,16A 格成分の除外パターン
21 請求項の文章
22 各構成要件に区分された請求項の文章
23 文節の係り受け解析結果
24 ツリー状の文節構造
25 格成分を抽出したツリー状の文節構造


【特許請求の範囲】
【請求項1】
複数の構成要件を備えた請求項を、前記構成要件ごとに区分する構成要件区分手段と、
前記構成要件を形態素解析して、単語と単語の品詞とを有する文節に分解し、且つ前記文節の係り受けを解析する係り受け解析手段と、
前記文節の係り受けを、ツリー状の文節構造に構成する文節構造構成手段と、
単語と単語の品詞とを有する文節によってツリー状に構成された複数の格成分のパターン及び格成分の除外パターンと、
前記文節構造を、前記複数の格成分のパターン及び格成分の除外パターンと比較し、格成分として抽出する格成分抽出手段と、
を備えたことを特徴とする特許明細書分析装置。
【請求項2】
前記構成要件区分手段は、前記請求項の記載形式を判断したのちに、前記請求項を前記記載形式に対応したパターンに応じて、前記構成要件ごとに区分すること
を特徴とする請求項1記載の特許明細書分析装置。
【請求項3】
前記格成分抽出手段は、少なくとも前期単語の原形及び前期単語の品詞によって、前記文節構造を前記複数の格成分のパターン及び格成分の除外パターンと比較し、格成分として抽出すること、
を特徴とする請求項1記載の特許明細書分析装置。
【請求項4】
前記格成分の除外パターンは、
特許の対象を示す文節に係り受けている動詞を含んでいることを特徴とする請求項3記載の特許明細書分析装置。
【請求項5】
前記格成分の除外パターンは、
助詞「を」で終了する文節が、動詞「行う」に係り受けているパターン、
助詞「を」で終了する文節が、動詞「実行する」に係り受けているパターン、
助詞「を」で終了する文節が、動詞「処理する」に係り受けているパターン、
助詞「を」で終了する文節が、動詞「する」に係り受けているパターンのいずれかであることを特徴とする請求項3記載の特許明細書分析装置。
【請求項6】
複数の要素を備えた文章を、前記要素ごとに区分する要素区分手段と、
前記要素を形態素解析して、単語と単語の品詞とを有する文節に分解し、且つ前記文節の係り受けを解析する係り受け解析手段と、
前記文節の係り受けを、ツリー状の文節構造に構成する文節構造構成手段と、
単語と単語の品詞とを有する文節によってツリー状に構成された複数の格成分のパターン及び格成分の除外パターンと、
前記文節構造を、前記複数の格成分のパターン及び格成分の除外パターンと比較し、格成分として抽出する格成分抽出手段と、
を備えたことを特徴とする文章分析装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate