説明

特許明細書分析システム及び特許明細書分析方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

【課題】特許出願又は特許に係る明細書(以下、特許明細書という)を分析する特許明細書分析システムに関し、明細書に含まれる語句を抽出し、その頻度を視覚的に表示し、利用者による明細書の内容把握を容易にすることを課題とする。
【解決手段】語句抽出部5は、明細書文書データ取得部1で取得した特許明細書の文書データ中から、記載されている欄と対応付けて語句を抽出し、語句出現頻度算出部3は、記載欄の重み付けに従って、1以上の欄からなるグループ毎の出現頻度を算出し、出現頻度出力部4により、語句毎の出現頻度をグループ毎に積み上げたグラフとして表示する。

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、特許出願又は特許に係る明細書(以下、特許明細書という)を分析する特許明細書分析システムに関し、明細書に含まれる語句を抽出し、その頻度を視覚的に表示する特許明細書分析システムに関する。
【0002】
【従来の技術】
大量のテキストから効率良く情報を得るための抄録の自動作成方法が提案されている。例えば、特開平10−040267号公報の「文書要約ビューア」には、指定した部分のうち、必須構成要素とされた部分に含まれる単語(必須単語)をヒストグラム化する技術、その結果を語句の使用頻度として視覚的に表示する技術、同じ意味の語句を同じグループとして認識する技術等が開示されている。
【0003】
このような技術を特許明細書の分析に用いることも可能であるが、特許明細書に記載されている内容が、高度かつ複雑な技術に関する場合などには、必ずしも有効な結果が得られない。そのため、特許明細書の抄録の作成は、専門的知識を有する者の熟練した技能に頼らざるを得ない。
【0004】
【特許文献1】
特開平10−040267号公報
【特許文献2】
特開2001−290840号公報
【0005】
【発明が解決しようとする課題】
本発明は、上記した従来技術の欠点を除くためになされたものであって、その目的とするところは、特許明細書に含まれる語句を抽出し、その頻度を視覚的に表示することにより発明の内容を分析した結果を提示し、発明の把握を支援することを目的とする。
【0006】
【課題を解決するための手段】
本発明に係る特許明細書分析システムは、
以下の要素を有することを特徴とする
(1)特許出願又は特許に係る明細書の文字コードを含む文書データを取得する明細書文書データ取得部
(2)上記文書データ中から、明細書を構成する欄のうち、当該語句が記載されている欄と対応付けて語句を抽出する語句抽出部
(3)明細書を構成する欄を1つ以上含むグループ毎に、語句の出現頻度を算出する語句出現頻度算出部
(4)語句毎に上記グループ別の出現頻度を出力する出現頻度出力部。
【0007】
上記グループは、特許請求の範囲の欄と、課題を解決するための手段の欄と、発明の実施の形態の欄とからなる発明情報グループ、発明の属する技術分野の欄と、従来の技術の欄とからなる背景情報グループ、発明が解決しようとする課題の欄からなる課題グループ、及び発明の効果の欄からなる効果グループであることを特徴とする。
【0008】
上記語句出現頻度算出部は、明細書を構成する欄の重み付けに従って、語句毎に上記グループ別の出現頻度を算出することを特徴とする。
【0009】
上記出現頻度出力部は、語句毎に上記グループ別の出現頻度をグラフ形式で表示することを特徴とする。
【0010】
上記出現頻度出力部は、語句毎に上記グループ別の出現頻度を上記グループごとに積み上げたグラフを表示することを特徴とする。
【0011】
特許明細書分析システムは、更に、明細書を構成する欄と上記グループとのグルーピングの関係を設定する範囲指定部を有することを特徴とする。
【0012】
本発明に係る特許明細書分析システムは、
複数の明細書の文書データを入力し、明細書を構成する欄の欄名の表記を探索し、本来の表記と類似する表記を収集する欄表記ゆれ収集部を有し、
上記語句抽出部は、明細書の文書データの中で、前記類似する欄名の表記と一致する表記を検出した場合に、その表記部分を前記本来の欄名の表記に置き換えて処理することを特徴とする。
【0013】
本発明に係る特許明細書分析方法は、
以下の要素を有することを特徴とする
(1)特許出願又は特許に係る明細書の文字コードを含む文書データを取得する工程
(2)上記文書データ中から、明細書を構成する欄のうち、当該語句が記載されている欄と対応付けて語句を抽出する工程
(3)明細書を構成する欄を1つ以上含むグループ毎に、語句の出現頻度を算出する工程
(4)語句毎に上記グループ別の出現頻度を出力する工程。
【0014】
本発明に係るプログラムを記録したコンピュータ読み取り可能な記録媒体は、
特許明細書分析システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする
(1)特許出願又は特許に係る明細書の文字コードを含む文書データを取得する処理
(2)上記文書データ中から、明細書を構成する欄のうち、当該語句が記載されている欄と対応付けて語句を抽出する処理
(3)明細書を構成する欄を1つ以上含むグループ毎に、語句の出現頻度を算出する処理
(4)語句毎に上記グループ別の出現頻度を出力する処理。
【0015】
本発明に係るプログラムは、
特許明細書分析システムとなるコンピュータに、以下の手順を実行させるためのプログラムであることを特徴とする
(1)特許出願又は特許に係る明細書の文字コードを含む文書データを取得する手順
(2)上記文書データ中から、明細書を構成する欄のうち、当該語句が記載されている欄と対応付けて語句を抽出する手順
(3)明細書を構成する欄を1つ以上含むグループ毎に、語句の出現頻度を算出する手順
(4)語句毎に上記グループ別の出現頻度を出力する手順。
【0016】
【発明の実施の形態】
実施の形態1.
以下本発明を図面に示す実施例に基づいて説明する。図1は、特許明細書分析システムの構成を示す図である。
1は、明細書文書データ取得部、2は、語句抽出部、3は、語句出現頻度算出部、4は、出現頻度出力部、5は、範囲指定部、6は、欄名表記ゆれ収集部、7は、特許明細書文書データ群、8は、グルーピングデータ記憶部、9は、欄名表記ゆれデータ記憶部である。
【0017】
特許明細書文書データ群7は、電子化された特許出願又は特許に係る明細書(以下、特許明細書という)の文書データを格納するように構成されているデータ記憶部である。この文書データは、文字コードにより明細書の内容を記述したテキストデータを含むデータである。プレーンテキストデータの他、たとえばSGML(Standard Generalized Markup Language)、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)などの汎用タグ言語による記述を含む文書データでも良い。また、テキストデータの抽出が可能であれば、PDF(Portable Document Format)や汎用のワードプロセッサの文書フォーマット、RTF(Rich TextFormat)フォーマット等の他のフォーマットであっても構わない。
特許明細書文書データ群7は、特許明細書分析システムの外部に設けられていてもよい。その場合には、ネットワーク等介して特許明細書分析システムから特許明細書文書データ群7に接続し、特許明細書の文書データを取得する。
【0018】
明細書文書データ取得部1は、利用者が指定した特許明細書の文書データを特許明細書文書データ群7より取得するように構成されている。特許明細書の指定は、出願番号、公開番号、あるいは特許番号等を用いて直接指定してもよいし、検索結果から選択するようにしてもよい。
【0019】
語句抽出部2は、明細書文書データ取得部1で取得した文書データに含まれる語句を、その語句が記載されている欄(「発明の属する技術分野」等の明細書の項目)を特定して抽出するように構成されている。
語句抽出のための文章のわかち書きには、形態素解析、N−グラム方式等の一般に知られている方法を用いることができる。そして、そのわかち書きの結果から、語句を抽出する。抽出する語句の選定の方法としては、品詞情報による選定の他、字種情報や文字数を用いて選定しても良い。結果として、語句と欄とを対応付けて出力する。
【0020】
語句出現頻度算出部3は、語句抽出部2により出力された(欄と対応付けられた)語句を入力として、欄ごとに、語句の出現頻度(出現回数)をカウントするように構成されている。つまり、語句と欄の組合せが共通する毎に計数されたカウント値を出現頻度とする。また、後述するグルーピングデータ(図3)に従って、グループ毎の出現頻度を算出する。具体的には、各語句について、グループ毎に、当該グループに含まれる欄毎の出現頻度を合計して、グループ中の出現頻度を得る。
また、このとき、後述するように、明細書を構成する欄の重み付けに従って、グループ別の出現頻度を算出するように構成することも有効である。
【0021】
出現頻度出力部4は、語句出現頻度算出部3により算出されたグループ別出現頻度を入力として、語句すべてに対して、グループ別の出現頻度データを積み上げて表示する。この例では、後述するように語句毎にグループ別の出現頻度をグラフ形式で表示する(図5)。語句毎に、グループ別出現頻度をグループ毎に色やパターンを変えて、累積した形式で表示する。
出力の形態として、表示の例を示したが、印刷や画面の送信による出力でも構わない。
【0022】
続いて、特許明細書分析処理の動作について説明する。図2は、特許明細書分析処理のフローを示す図である。
まず、明細書文書データ取得部1により、特許明細の文書データを取得する(S21)。そして、語句抽出部2により、読込んだ特許明細の文書データに含まれる語句に対して、記述されている欄を識別しながら、語句(例えば、名詞、名詞句(複合語を含む))を抽出し、語句出現頻度算出部3により、欄ごとに語句の出現頻度をカウントする(S22、S23、S24)。
【0023】
すべての語句に対するS23とS24の処理が終了した後、語句出現頻度算出部3により、グルーピングデータ記憶部8に記憶されているグルーピングデータに従い、グループ別の出現頻度を算出する(S25)。図3は、グルーピングデータの例を示す図である。グループとそのグループに属する欄の欄名を1つ以上対応付けて記憶している。図3の例では、特許請求の範囲の欄と、課題を解決するための手段の欄と、発明の実施の形態の欄とからなる発明情報グループ、発明の属する技術分野の欄と、従来の技術の欄とからなる背景情報グループ、発明が解決しようとする課題の欄からなる課題グループ、及び発明の効果の欄からなる効果グループから構成されている。
この例では、更に、欄毎に重みを付与している。これは、グループ別出現頻度を算出する際に用いる各欄の寄与率を示すものである。尚、このグルーピングデータは、後述する実施の形態で説明するように、本処理に先立って、範囲指定部5により設定されている。
【0024】
ここで、グループ別の出現頻度を算出する方法について説明する。単純には、グループに含まれる欄における出現頻度を合計するが、この例では、欄毎に設定されている重付けに基づいて、グループ別出現頻度データを算出している。算出に用いる計算式は、次式のとおりである。
グループ別算出頻度=Σ(欄(i)の重み)×(欄(i)における出現頻度)(i=1〜グループに属する欄の数)
処理としては、欄毎に以下の処理を繰り返す。グルーピングデータ記憶部8から欄の重みを取得し、更に、当該欄における出現頻度を取得する。そして、欄の重みと、欄の出現頻度を積算する。積の値を一時記憶する。これらの処理をグループ内の欄のすべてについて処理した時点で、一時記憶している各積の値の合計を求め、これをグループ別出現頻度とする。
これらの処理を、すべての語句のすべてのグループに対して行う。図4は、グループ別出現頻度の例を示す図である。
【0025】
最後に、出現頻度出力部4により、算出したグループ別出現頻度を表示する。算出したグループ別出現頻度を、グループごとに積み上げたグラフを表示する(S26)。図5は、語句の出現頻度の表示例を示す図である。この例では、棒グラフの形式で表示しているが、円グラフ等の他の形式であっても構わない。円グラフの場合には、総出現頻度に応じて円の大きさを調整することが有効である。
【0026】
実施の形態2.
この形態では、グルーピングデータ記憶部8に記憶するグルーピングデータの設定について説明する。また、欄名(例えば、「発明が解決しようとする課題」)の表記のゆれに対する処理についても述べる。
【0027】
範囲指定部4は、利用者が、欄と当該欄が属するグループとの対応付けを入力すると、これらの対応付けをグルーピングデータとしてグルーピングデータ記憶部8に記憶させるように構成されている。更に、利用者は、グループ内における欄の重みを指定することができる。この場合、指定された欄ごとの重みも、グルーピングデータ記憶部8中に対応付けて記憶させるように構成されている。
【0028】
欄名表記ゆれ収集部6は、欄名の表記ゆれを検索可能な検索条件式を入力し、特許明細書の文書データを全文検索し、本来の欄名に類似する欄名(例えば、「発明が解決する課題」)の記述を出力するように構成されている。例えば、括弧書きとキーワードを条件とする。「発明が解決しようとする課題」に対する条件式としては、括弧書きに挟まれ、「発明」と「解決」と「課題」を含む文字列を条件として指定する。キーワードの代わりに、表記ゆれが生じることが予想される箇所(例えば、「しようとする」の文字列)に任意文字列を指定した検索条件式を作成する。あるいは、本来の欄名に対する特定の文字数(バイト数)の差異、脱落、あるいは追加を許容した検索条件式を作成する。
上述の検索を、複数の特許明細書に対して行い、検索結果を収集する。同一の表現が検索された場合は、同一表現を除外して重複を避けて出力する。除外の際に、同一表現の数をカウントして、該カウント結果を出力してもよい。本来の欄名の表記と、収集した類似する欄名の表記を対応付けて、欄名表記ゆれデータ記憶部9に記憶させる。
【0029】
欄名表記ゆれ収集部6の処理について詳述する。図6は、欄名表記ゆれ収集処理フローを示す図である。図7は、欄名表記ゆれデータの例を示す図である。
上述のように、欄名の表記ゆれを検索するための検索条件式を作成する(S61)。作成した検索条件式で、複数の特許明細書の文書データを対象として全文検索を繰り返す(S62)。検索結果から、本来の欄名の表記に類似する表記の文字列を抽出する(S63)。同一表現が重複してヒットする可能性もあるため、同一表現は削除し、重複をさける(S64)。更に、欄名の本来の表記が検索結果に含まれる場合は、それも削除する(S65)。その際、検索結果数をカウントしてデータとして保持しても良い。
また、最終的に操作者が確認したもののみを、欄名表記ゆれデータ記憶部9に記憶させるようにしてもよい。
【0030】
語句抽出部2は、処理の際に特許明細書の文書データの中で、欄名表記ゆれデータ記憶部9に記憶している類似する欄名の表記と一致する表記を検出した場合には、その表記部分を、欄名表記ゆれデータ記憶部9で対応付けている本来の欄名の表記に置き換えて処理する。また、置き換えの際に、利用者に確認を促し、確認された場合にのみ置き換え処理するようにしてもよい。
【0031】
特許明細書分析システムは、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。
【0032】
【発明の効果】
本発明においては、特許明細書に含まれる語句を抽出し、グループ別の出現頻度を出力するので、記載されている欄の趣旨に従って、説明内容が概念的に共通する範囲の記載における出現頻度を視覚的に認識させ、利用者による発明内容の理解を支援することができる。これにより、抄録の作成も容易になる。
【0033】
特許請求の範囲の欄と、課題を解決するための手段の欄と、発明の実施の形態の欄とからなる発明情報グループとし、発明の属する技術分野の欄と、従来の技術の欄とからなる背景情報グループとし、発明が解決しようとする課題の欄を課題グループとし、発明の効果の欄を効果グループとするので、発明の内容を、発明情報、背景情報、課題、及び効果の観点から効率的に把握することができる。
【0034】
明細書を構成する欄の重み付けに従って、語句毎にグループ別の出現頻度を算出するので、明細書全体に対する欄の重要性を考慮した分析が可能となる。
【0035】
語句毎にグループ別の出現頻度をグラフ形式で表示するので、視覚的な認識に役立つ。特に、グループ別の出現頻度を上記グループごとに積み上げたグラフを表示するので、全体における出現頻度と、各グループにおける出現頻度の割合を同時に把握することができる。
【0036】
グルーピングの関係を設定する範囲指定部を有するので、フレキシブルな運用が可能となる。
【0037】
本来の表記と類似する表記を収集し、明細書の文書データの中で、前記類似する欄名の表記と一致する表記を検出した場合に、その表記部分を前記本来の欄名の表記に置き換えて処理するので、欄の表記が本来の表記と異なる特許明細書に関しても一律に扱うことが可能になる。
【図面の簡単な説明】
【図1】特許明細書分析システムの構成を示す図である。
【図2】特許明細書分析処理のフローを示す図である。
【図3】グルーピングデータの例を示す図である。
【図4】グループ別出現頻度の例を示す図である。
【図5】語句の出現頻度の表示例を示す図である。
【図6】欄名表記ゆれ収集処理フローを示す図である。
【図7】欄名表記ゆれデータの例を示す図である。
【符号の説明】
1 明細書文書データ取得部、2 語句抽出部、3 語句出現頻度算出部、4出現頻度出力部、5 範囲指定部、6 欄名表記ゆれ収集部、7 特許明細書文書データ群、8 グルーピングデータ記憶部、9 欄名表記ゆれデータ記憶部。

【特許請求の範囲】
【請求項1】
以下の要素を有することを特徴とする特許明細書分析システム
(1)特許出願又は特許に係る明細書の文字コードを含む文書データを取得する明細書文書データ取得部
(2)上記文書データ中から、明細書を構成する欄のうち、当該語句が記載されている欄と対応付けて語句を抽出する語句抽出部
(3)明細書を構成する欄を1つ以上含むグループ毎に、語句の出現頻度を算出する語句出現頻度算出部
(4)語句毎に上記グループ別の出現頻度を出力する出現頻度出力部。
【請求項2】
上記グループは、特許請求の範囲の欄と、課題を解決するための手段の欄と、発明の実施の形態の欄とからなる発明情報グループ、発明の属する技術分野の欄と、従来の技術の欄とからなる背景情報グループ、発明が解決しようとする課題の欄からなる課題グループ、及び発明の効果の欄からなる効果グループであることを特徴とする請求項1記載の特許明細書分析システム。
【請求項3】
上記語句出現頻度算出部は、明細書を構成する欄の重み付けに従って、語句毎に上記グループ別の出現頻度を算出することを特徴とする請求項1記載の特許明細書分析システム。
【請求項4】
上記出現頻度出力部は、語句毎に上記グループ別の出現頻度をグラフ形式で表示することを特徴とする請求項1記載の特許明細書分析システム。
【請求項5】
上記出現頻度出力部は、語句毎に上記グループ別の出現頻度を上記グループごとに積み上げたグラフを表示することを特徴とする請求項4の特許明細書分析システム。
【請求項6】
請求項1記載の特許明細書分析システムであって、更に、明細書を構成する欄と上記グループとのグルーピングの関係を設定する範囲指定部を有することを特徴とする特許明細書分析システム。
【請求項7】
複数の明細書の文書データを入力し、明細書を構成する欄の欄名の表記を探索し、本来の表記と類似する表記を収集する欄表記ゆれ収集部を有し、
上記語句抽出部は、明細書の文書データの中で、前記類似する欄名の表記と一致する表記を検出した場合に、その表記部分を前記本来の欄名の表記に置き換えて処理することを特徴とする請求項6記載の特許明細書分析システム。
【請求項8】
以下の要素を有することを特徴とする特許明細書分析方法
(1)特許出願又は特許に係る明細書の文字コードを含む文書データを取得する工程
(2)上記文書データ中から、明細書を構成する欄のうち、当該語句が記載されている欄と対応付けて語句を抽出する工程
(3)明細書を構成する欄を1つ以上含むグループ毎に、語句の出現頻度を算出する工程
(4)語句毎に上記グループ別の出現頻度を出力する工程。
【請求項9】
特許明細書分析システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
(1)特許出願又は特許に係る明細書の文字コードを含む文書データを取得する処理
(2)上記文書データ中から、明細書を構成する欄のうち、当該語句が記載されている欄と対応付けて語句を抽出する処理
(3)明細書を構成する欄を1つ以上含むグループ毎に、語句の出現頻度を算出する処理
(4)語句毎に上記グループ別の出現頻度を出力する処理。
【請求項10】
特許明細書分析システムとなるコンピュータに、以下の手順を実行させるためのプログラム
(1)特許出願又は特許に係る明細書の文字コードを含む文書データを取得する手順
(2)上記文書データ中から、明細書を構成する欄のうち、当該語句が記載されている欄と対応付けて語句を抽出する手順
(3)明細書を構成する欄を1つ以上含むグループ毎に、語句の出現頻度を算出する手順
(4)語句毎に上記グループ別の出現頻度を出力する手順。

【図1】
image rotate



【図2】
image rotate



【図3】
image rotate



【図4】
image rotate



【図5】
image rotate



【図6】
image rotate



【図7】
image rotate


【公開番号】特開2004−280756(P2004−280756A)
【公開日】平成16年10月7日(2004.10.7)
【国際特許分類】
【出願番号】特願2003−75027(P2003−75027)
【出願日】平成15年3月19日(2003.3.19)
【出願人】(501305453)株式会社 パトリス (7)
【出願人】(591102095)三菱スペース・ソフトウエア株式会社 (148)
【Fターム(参考)】