説明

文書解析システム、および文書解析方法、並びにコンピュータ・プログラム

【課題】専門用語からの精度の高い用語(形態素)抽出を実現する。
【解決手段】例えば医療分野などの専門分野における用語、例えば形態素としての用語抽出を行なう構成において、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行し、文書データベースの格納文書を検索し、抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成して、生成した用語テキストを解析対象として、第一用語抽出手段の抽出した用語候補の出現頻度に依存した評価を行い、出現頻度の高い用語候補を出力用語として選択する。本構成によりノイズ成分の少ない形態素として最適な専門用語の抽出を効率的に行なうことが可能となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書解析システム、および文書解析方法、並びにコンピュータ・プログラムに関する。さらに詳細には、例えば医療分野などの専門性の高い分野の文書から、データ検索などに適用するための言語単位としての区分語である形態素を抽出する処理を行なう文書解析システム、および文書解析方法、並びにコンピュータ・プログラムに関する。
【背景技術】
【0002】
例えばデータベース検索などにおいて適用する検索キーや、用語辞書の索引としてのインデックス、文書分類情報の設定など、データ処理において適用する用語を自然言語の文書から抽出する処理は、様々なデータ処理分野において必要となる技術である。文書検索の検索キーや文書分類に用いるインデックス等、文書処理に適用する言語単位は形態素と呼ばれる。
【0003】
自然言語の文書から形態素を抽出する研究は従来から行われている。例えば、[車が道路を走る]といったありふれた文書であれば、一般的な形態素解析システムを適用することで、[車]、[道路]、[走る]といった形態素を抽出することが可能である。形態素解析システムは、予め定めた形態素解析ルールを適用して、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なうシステムとして知られている。
【0004】
しかしながら、医療分野のように専門性の高い分野の専門用語を適切な形態素に区切ることは難しい。例えば、特定の病名である、
「強皮症」
この病名を表す本来一つの単語に対して、標準的な形態素解析処理を施すと「強(強い)」「皮」「症」という3つの単語(形態素)に分割されてしまう。
【0005】
形態素解析処理は、文書検索や文書分類等の言語処理技術で用いる基盤的な技術である。例えば文書分類において、「強皮症」が3つの単語に分割されてしまうと、「強皮症」を含む2つの文書間の類似性と、「強皮症」を含む文書と「強」「皮」「症」の3つの単語を離れた位置に含む文書の間の類似性が等しくなってしまい、文書分類の精度低下を招くことになる。
【0006】
このような問題を解決するためには、予め専門用語の一覧を作成しておき、形態素解析時に使用する形態素解析用辞書に、該専門用語一覧を追加しておく必要がある。このような専門用語一覧を作成するために専門分野のテキスト集合から専門用語を抽出する技術の典型的な例を開示した従来技術して、特許文献1(特開2004−151926号公報)がある。
【0007】
この特許文献1では、専門用語が多くの場合複合名詞であることに注目し、複合名詞を構成する各形態素(名詞あるいは接辞)の出現頻度に基づいて計算される修正出現頻度(複合名詞自体の出現頻度を表す尺度)と、複合名詞の長さ(複合名詞を構成する形態素の数)とから、複合名詞が専門用語であるか否かを判断する手法を提案している。
【0008】
この特許文献1に開示された手法、すなわち、複合名詞の出現頻度と複合名詞の長さを二つのパラメータとして、複合名詞が専門用語であるか否かを判断する手法には以下のような問題点がある。
(問題点1)複合名詞の長さのパラメータを重視した場合の問題点
長い複合名詞を優先して専門用語とする場合、例えば、医学分野のテキストを対象とした場合以下のような複合名詞が専門用語として抽出されることになる。
(A)「慢性びまん性管状増殖性糸球体リンパ腫」
(B)「慢性管状増殖性糸球体リンパ腫」
【0009】
複合名詞(A)(B)は共に専門用語であり、かつ、ほぼ同じ病気を表現する専門用語である。しかしながら上記手法では、これらの2つの専門用語が全く異なる2つの専門用語として抽出されることになってしまう。したがって、例えば文書分類において、(A)を含む文書と(B)を含む文書の類似性が全く認められないことになり、文書分類の精度低下を招くことになる。すなわち、形態素解析用辞書に登録すべき形態素としては不適切に長い文字列が抽出されてしまう。
【0010】
(問題点2)複合名詞の出現頻度のパラメータを重視した場合の問題点
頻出する複合名詞を優先して専門用語とする場合、長い複合名詞が頻出することは稀であるため、上記(問題点1)の問題は生じない。すなわち、形態素解析辞書に登録する上で適切な長さの単語を抽出することが可能である。しかしながら、この場合、長さの短い複合名詞は、書き手のくせ等によってたまたま高い頻度で出現する可能性が高いため、専門用語のみが抽出できるとは限らない。例えば、抽出対象であるテキスト集合にたまたま、
「明日手術を行なうことにする。」
「前回実施した検査によれば、・・・」
といった表現が高い頻度で出現していると、「明日手術」「前回実施」が専門用語として抽出されてしまうことになる。すなわち、この場合には専門用語の抽出精度が著しく低下することになる。
【特許文献1】特開2004−151926号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
本発明は、上述の問題点に鑑みてなされたものであり、医療分野など専門性の高い分野の専門用語を解析して、文書検索の検索キーや文書分類に用いるインデックス等、文書処理に適用する言語単位としての形態素を効率的にかつ高精度に抽出する文書解析システム、および文書解析方法、並びにコンピュータ・プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明の第1の側面は、
文書中の用語の抽出処理を実行する用語抽出手段であり、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出手段と、
文書データベースに格納された文書集合を検索し、前記第一用語抽出手段の抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成手段と、
前記用語再構成手段の生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出手段と、
を有することを特徴とする文書解析システムにある。
【0013】
本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行する構成としたので、専門用語を高精度に抽出することが可能となる。
【0014】
さらに、本発明の文書解析システムの一実施態様において、前記第一用語抽出手段は、特定の専門分野、例えば医療分野の文書を解析対象とした用語抽出処理を実行する構成であり、前記用語再構成手段は、前記特定の専門分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行し、前記第二用語抽出手段は、医療分野の用語としての形態素の抽出を行なう構成であることを特徴とする。
【0015】
本構成によれば、医療分野などの専門分野に多く見られる複合名詞としての専門用語を高精度に抽出することが可能となる。
【0016】
さらに、本発明の文書解析システムの一実施態様において、前記文書解析システムは、さらに、前記用語再構成手段の生成した用語テキストから、前記第二用語抽出手段の抽出した用語を削除した更新用語テキストを生成する用語テキスト更新手段を有し、前記第二用語抽出手段は、前記用語テキスト更新手段の生成した更新用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する構成であることを特徴とする。
【0017】
本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行し、さらに、第二用語抽出手段の抽出した用語を削除した更新用語テキストを生成して、更新用語テキストを解析対象として、出現頻度の高い用語候補を出力用語として選択する構成としたので、より多くの出力用語を取得することが可能となる。
【0018】
さらに、本発明の文書解析システムの一実施態様において、前記文書解析システムは、さらに、前記第二用語抽出手段の抽出した用語から他の抽出用語の組み合わせ構成を持つ用語を選択し、選択した用語の出現頻度が予め定めた閾値以下である場合に出力用語から削除する処理を実行する用語選択手段を有することを特徴とする。
【0019】
本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行し、さらに、第二用語抽出手段の抽出した用語から、不適切に長い用語を削除することが可能となり、適切な長さの用語出力が実現される。
【0020】
さらに、本発明の第2の側面は、
文書解析システムにおいて実行する文書解析方法であり、
文書中の用語の抽出処理を実行する第一用語抽出手段が、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出ステップと、
用語再構成手段が、文書データベースに格納された文書集合を検索し、前記第一用語抽出ステップにおいて抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成ステップと、
第二用語抽出手段が、前記用語再構成ステップにおいて生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出ステップと、
を有することを特徴とする文書解析方法にある。
【0021】
本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行する構成としたので、専門用語を高精度に抽出することが可能となる。
【0022】
さらに、本発明の文書解析方法の一実施態様において、前記第一用語抽出ステップは、特定の専門分野、例えば医療分野の文書を解析対象とした用語抽出処理を実行するステップであり、前記用語再構成ステップは、前記特定の専門分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行し、前記第二用語抽出ステップは、医療分野の用語としての形態素の抽出を行なうステップであることを特徴とする。
【0023】
本構成によれば、医療分野などの専門分野に多く見られる複合名詞としての専門用語を高精度に抽出することが可能となる。
【0024】
さらに、本発明の文書解析方法の一実施態様において、前記文書解析方法は、さらに、用語テキスト更新手段が、前記用語再構成ステップにおいて生成した用語テキストから、前記第二用語抽出ステップで抽出した用語を削除した更新用語テキストを生成する用語テキスト更新ステップを有し、前記第二用語抽出ステップは、前記用語テキスト更新ステップにおいて生成した更新用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択するステップであることを特徴とする。
【0025】
本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行し、さらに、第二用語抽出手段の抽出した用語を削除した更新用語テキストを生成して、更新用語テキストを解析対象として、出現頻度の高い用語候補を出力用語として選択する構成としたので、より多くの出力用語を取得することが可能となる。
【0026】
さらに、本発明の文書解析方法の一実施態様において、前記文書解析方法は、さらに、用語選択手段が、前記第二用語抽出ステップにおいて抽出した用語から他の抽出用語の組み合わせ構成を持つ用語を選択し、選択した用語の出現頻度が予め定めた閾値以下である場合に出力用語から削除する処理を実行する用語選択ステップを有することを特徴とする。
【0027】
本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行し、さらに、第二用語抽出手段の抽出した用語から、不適切に長い用語を削除することが可能となり、適切な長さの用語出力が実現される。
【0028】
さらに、本発明の第3の側面は、
文書解析システムにおいて文書解析処理を実行させるコンピュータ・プログラムであり、
文書中の用語の抽出処理を実行する第一用語抽出手段に、用語の長さに依存した評価を行わせ、長さ重視の用語候補抽出処理を実行させる第一用語抽出ステップと、
用語再構成手段に、文書データベースに格納された文書集合を検索し、前記第一用語抽出ステップにおいて抽出した用語候補と同じ用語の出現回数をカウントさせ、出現回数に応じた用語の複製を含む用語テキストを生成させる用語再構成ステップと、
第二用語抽出手段に、前記用語再構成ステップにおいて生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行わせ、出現頻度の高い用語を出力用語として選択させる第二用語抽出ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
【0029】
本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行する構成としたので、専門用語を高精度に抽出することが可能となる。
【0030】
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。
【0031】
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【発明の効果】
【0032】
本発明の構成によれば、例えば医療分野などの専門分野における用語、例えば形態素としての用語抽出を行なう構成において、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行し、文書データベースの格納文書を検索し、抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成して、生成した用語テキストを解析対象として、第一用語抽出手段の抽出した用語候補の出現頻度に依存した評価を行い、出現頻度の高い用語候補を出力用語として選択する構成としたので、ノイズ成分の少ない形態素として最適な専門用語の抽出を効率的に行なうことが可能となる。
【発明を実施するための最良の形態】
【0033】
以下、図面を参照しながら本発明の実施形態に係る文書解析システム、および文書解析方法、並びにコンピュータ・プログラムの詳細について説明する。
【0034】
[第1実施例]
図1を参照して、本発明の一実施形態に係る文書解析システムの構成および処理について説明する。図1に示すように本発明の一実施形態に係る文書解析システム100は、第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104、文書格納手段121を有する。
【0035】
以下、各手段の構成および処理について、具体的な例を示しながら説明を行なう。なお、本発明の文書解析システムは、専門分野の専門用語を含む文書の解析を行なうシステムであり、以下の実施例では、専門分野の一例として医療分野を取り上げて説明するが、本発明は医療分野に限らず、その他の専門分野、例えば経済、建築、技術などの様々な専門分野の専門用語の解析に適用可能である。
【0036】
図1に示す文書解析システム100を構成する各手段について説明する。
[文書格納手段]
文書格納手段121は、専門分野に関する文書、本実施例では医学分野の日本語文書を格納した記憶手段、すなわち文書データベースである。
【0037】
[第一専門用語抽出手段]
第一専門用語抽出手段101は、文書格納手段121の格納文書を解析対象として、解析対象文書から専門用語であると判別される用語の抽出処理を実行する。第一専門用語抽出手段101は、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する。具体的には、複合名詞などの用語の長さのパラメータを重視した用語抽出処理を実行する。例えば解析対象とした文書の品詞解析を行い、複数の名詞によって構成される複合名詞などを専門用語として選択して、より長い複合名詞などの用語に高い評価値を設定して評価値の上位の用語を抽出する。なお、第一専門用語抽出手段101の実行する長さのパラメータを重視した用語抽出処理は、先に説明した特許文献1(特開2004−151926号公報)に開示された長さ重視の用語抽出処理と同様の処理として実行可能である。
【0038】
以下、一例として、第一専門用語抽出手段101が文書格納手段121の格納文書を解析対象とした用語抽出処理において、以下の専門用語である複合名詞が抽出されたものとして説明する。
(a)慢性びまん性管状増殖性糸球体リンパ腫
(b)びまん性管内糸球体腎炎ネフローゼ症候群
(c)急性びまん性メサンギウム表層角膜炎
・・・
【0039】
[専門用語再構成手段]
専門用語再構成手段102は、第一専門用語抽出手段101で抽出された各専門用語候補が、文書格納手段121中に格納されている全文書中に出現する回数をそれぞれカウントし、各専門用語候補を出現回数分だけ複製する。すなわち、専門用語再構成手段102は、特定の専門分野の文書を格納した文書データベースに格納された文書集合を検索し、第一専門用語抽出手段101の抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する。
【0040】
例えば、上記例において、
「慢性びまん性管状増殖性糸球体リンパ腫」の出現回数が5回、
「びまん性管内糸球体腎炎ネフローゼ症候群」の出現回数が4回、
「急性びまん性メサンギウム表層角膜炎」の出現回数が3回、
これらの出現回数であれば、専門用語再構成手段102は、各用語の出現回数(5,4,3・・)に応じて、以下のような複製テキストを生成する。
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
急性びまん性メサンギウム表層角膜炎
急性びまん性メサンギウム表層角膜炎
急性びまん性メサンギウム表層角膜炎
・・・
【0041】
[専門用語テキスト格納手段]
専門用語テキスト格納手段103は、専門用語再構成手段で作成されたテキストを格納する記憶手段である。
【0042】
[第二専門用語抽出手段]
第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納されたテキストを対象として、専門用語候補の抽出を行なう。第二専門用語抽出手段104では、複合名詞の出現頻度のパラメータを重視した用語抽出を行なう。第二専門用語抽出手段104は、専門用語再構成手段103の生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する。
【0043】
第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納されたテキストのみを対象とした解析を行い、その格納テキスト中に含まれる複合名詞などの用語の出現頻度をカウントして出現頻度の高い用語に高い評価値を設定して評価値の上位の用語を抽出する。なお、この出現頻度重視の用語抽出処理は、前述の特許文献1(特開2004−151926号公報)に開示された頻度重視の用語抽出処理と同様の処理として実行可能である。
【0044】
上記の例では、専門用語テキスト格納手段103には、
(テキストa)「慢性びまん性管状増殖性糸球体リンパ腫」が5個
(テキストb)「びまん性管内糸球体腎炎ネフローゼ症候群」が4個
(テキストc)「急性びまん性メサンギウム表層角膜炎」が3個
これらのテキストデータが格納されており、第二専門用語抽出手段104は、複合名詞の出現頻度のパラメータを重視した抽出により、上記のテキストから以下のような部分文字列を抽出する。なお、得られた上位N個の部分文字列を最終的な抽出結果とする。Nは予め設定した閾値である。
(1)びまん性
(2)糸球体
・・・
【0045】
上記テキストa〜cを解析対象とした場合、
「びまん性」は、テキストaに5個、テキストbに4個、テキストcに3個、検出され、計12回の出現頻度となる。
また、「糸球体」は、テキストaに5個、テキストbに4個検出され、計9回の出現頻度となる。
このように、第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納されたテキストのみを対象とした解析を行い、その格納テキスト中に含まれる複合名詞などの用語の出現頻度をカウントして出現頻度の高い用語に高い評価値を設定して評価値の上位の用語を抽出する。抽出した用語が、文書検索の検索キーや文書分類に用いるインデックス等、文書処理に適用する言語単位としての形態素として辞書に登録される。
【0046】
以上のように本発明に従った文書解析システムでは、第一専門用語抽出手段101において、複合名詞などからなる用語の長さのパラメータを重視した専門用語候補抽出を行い、かつ、第二専門用語抽出手段104において、用語の出現頻度のパラメータを重視した専門用語抽出を行なう構成であり、第一専門用語抽出手段101によって、高い確率で複合名詞などの専門用語候補が得られ、それらのみを対象にして第二専門用語抽出手段103が専門用語を抽出するため、「明日手術」「前回実施」等の不適切な専門用語が抽出されることはなく、高い抽出精度を実現することができる。さらに、第二専門用語抽出手段104で抽出される専門用語は、出現頻度のパラメータ重視で抽出されるため、形態素解析用辞書に登録する上で適切な長さの形態素となる。
【0047】
図2に示すフローチャートを参照して本実施例に係る文書解析システムの実行する処理のシーケンスについて説明する。まず、ステップS101において、第一専門用語抽出手段101が、解析対象文書、例えば文書格納手段121の格納文書を解析対象として解析対象文書から複合名詞などからなる用語の長さのパラメータを重視した用語抽出処理を実行する。具体的には、前述したように文書の品詞解析を行い、複数の名詞によって構成される複合名詞などの用語から、より長い用語に高い評価値を設定して評価値の上位の用語を専門用語候補として抽出する。
【0048】
次に、ステップS102において、専門用語再構成手段102が、ステップS101において抽出した専門用語の各々について、文書格納手段121中に格納されている全文書中に出現する回数をそれぞれカウントし、各専門用語を出現回数分だけ複製する。複製テキストデータは、専門用語テキスト格納手段103に格納する。
【0049】
次に、ステップS103において、第二専門用語抽出手段104が、専門用語テキスト格納手段103に格納されたテキストを対象として、専門用語候補の抽出を行なう。第二専門用語抽出手段104は、複合名詞などの用語の出現頻度のパラメータを重視した用語抽出を行なう。具体的には、前述したように、専門用語テキスト格納手段103に格納されたテキスト中に含まれる用語の出現頻度をカウントして出現頻度の高い用語に高い評価値を設定して評価値の上位の用語を抽出する。
【0050】
これらの処理によって、ノイズの少ない精度の高い専門用語抽出処理が実現される。すなわち、第一の専門用語選択処理として長さ重視による専門用語候補が抽出され、さらに、専門分野の文書を格納した文書データベース(文書格納手段121)に格納された全文書、あるいは複数の文書集合を参照して、抽出した専門用語候補と同じ用語の出現回数をカウントしてカウント数分の複製テキストを生成してこれを一時的に記憶、すなわち、専門用語テキスト格納手段103に格納し、次に、この専門用語テキスト格納手段103に格納したテキストデータを対象として、第二専門用語抽出手段104が、用語の出現頻度のパラメータを重視した用語抽出を行なう。具体的には、前述したように、専門用語テキスト格納手段103に格納されたテキスト中に含まれる複合名詞の出現頻度をカウントして出現頻度の高い複合名詞に高い評価値を設定して評価値の上位の用語を出力用語として抽出する。
【0051】
第一専門用語抽出手段101の長さ重視の用語抽出において、高い確率で専門用語に相当する専門用語候補が得られ、それらをデータベースに格納した文書に出現する回数分の複製テキストを対象にして第二専門用語抽出手段103が頻度重視で専門用語を抽出するため、「明日手術」「前回実施」等の不適切な専門用語が抽出されることはなく、高い抽出精度を実現することができ、第二専門用語抽出手段104で抽出する専門用語は、出現頻度のパラメータ重視での抽出処理として実行されるため適切な長さの形態素の抽出がなされる。
【0052】
[実施例2]
上述の実施例1において説明した文書解析システムを一部変形した実施例2について図3を参照して説明する。図2に示すように本発明の実施例2に係る文書解析システム200は、図1に示した実施例1の構成と同様の第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104、文書格納手段121に、専門用語テキスト更新手段201を加えた構成を持つ。
【0053】
本発明の実施例2に係る文書解析システム200において、第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104が最初に実行する処理は、実施例1の処理と同様である。
【0054】
実施例2では、第二専門用語抽出手段104の生成した専門用語データを適用して、専門用語テキスト更新手段201が、専門用語テキスト格納手段103に格納されたテキストの更新処理を実行し、更新したテキストデータを専門用語テキスト格納手段103に再格納して、第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納された更新テキストデータに基づいて、頻度情報に基づく用語抽出処理を実行する。この専門用語テキスト更新手段201におけるテキスト更新と、第二専門用語抽出手段104による更新テキストに基づく用語抽出を繰り返し実行する構成である。
【0055】
具体例について説明する。まず、実施例1と同様の処理が実行されたとして、専門用語再構成手段102が、専門用語テキスト格納手段103にテキストを格納したものとする。すなわち、第一専門用語抽出手段101で抽出された各専門用語候補が、文書格納手段121中に格納されている全文書中に出現する回数をそれぞれカウントし、各専門用語候補を出現回数分だけ複製したテキストを格納する。
【0056】
例えば、前述の実施例1と同様において、
「慢性びまん性管状増殖性糸球体リンパ腫」の出現回数が5回、
「びまん性管内糸球体腎炎ネフローゼ症候群」の出現回数が4回、
「急性びまん性メサンギウム表層角膜炎」の出現回数が3回、
これらの出現回数であれば、専門用語再構成手段102は、各用語の出現回数(5,4,3・・)に応じて、以下のような複製テキストを生成して専門用語テキスト格納手段103に格納する。
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
急性びまん性メサンギウム表層角膜炎
急性びまん性メサンギウム表層角膜炎
急性びまん性メサンギウム表層角膜炎
・・・
【0057】
第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納されたテキストを対象として、テキスト中に含まれる複合名詞などの用語の出現頻度をカウントして出現頻度の高い用語に高い評価値を設定して評価値の上位の用語を抽出する。
上記の例では、専門用語テキスト格納手段103には、
(テキストa)「慢性びまん性管状増殖性糸球体リンパ腫」が5個
(テキストb)「びまん性管内糸球体腎炎ネフローゼ症候群」が4個
(テキストc)「急性びまん性メサンギウム表層角膜炎」が3個
これらのテキストデータが格納されており、第二専門用語抽出手段104は、複合名詞などの用語の出現頻度のパラメータを重視した抽出により、上記のテキストから以下のような部分文字列を抽出する。なお、得られた上位N個の部分文字列を最終的な抽出結果とする。Nは予め設定した閾値である。
(1)びまん性
(2)糸球体
・・・
【0058】
[専門用語テキスト更新手段]
専門用語テキスト更新手段201は、専門用語テキスト格納手段103に格納されたテキストから、第二専門用語抽出手段104において抽出された専門用語を削除し、さらに、削除部分に改行を設定し、削除された前後の名詞または名詞群を区分したデータを生成する。具体的には、上記の例では、
(1)びまん性
(2)糸球体
これらの用語が第二専門用語抽出手段104において抽出されているので、これらの用語の削除と改行設定による区分処理を実行する。
【0059】
抽出用語の削除と区分処理により、以下のテキストが更新テキストデータとして設定される。
慢性
管状増殖性
リンパ腫
慢性
管状増殖性
リンパ腫
慢性
管状増殖性
リンパ腫
慢性
管状増殖性
リンパ腫
慢性
管状増殖性
リンパ腫
管内
腎炎ネフローゼ症候群
管内
腎炎ネフローゼ症候群
管内
腎炎ネフローゼ症候群
管内
腎炎ネフローゼ症候群
急性
メサンギウム表層角膜炎
急性
メサンギウム表層角膜炎
急性
メサンギウム表層角膜炎
・・・
【0060】
これらのテキストが更新テキストとして専門用語テキスト格納手段103に再格納される。第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納された更新テキストデータに基づいて、頻度情報に基づく用語抽出処理を実行する。例えば、上記の更新テキストデータから出現頻度の高い用語として、
慢性
管状増殖性
リンパ腫
これらの用語が新たな抽出用語として選択されることになる。抽出した複合名詞(専門用語)が、文書検索の検索キーや文書分類に用いるインデックス等、文書処理に適用する言語単位としての形態素として辞書に登録される。
【0061】
この専門用語テキスト更新手段201におけるテキスト更新と、第二専門用語抽出手段104による更新テキストに基づく用語抽出は、必要に応じて繰り返し実行する。
【0062】
本実施例によれば、既に専門用語として確定された形態素を削除した上で再度専門用語抽出を行なう処理を繰り返すことにより、高精度かつより多くの形態素を抽出することができる。
【0063】
図4に示すフローチャートを参照して本実施例に係る文書解析システムの実行する処理のシーケンスについて説明する。図4に示すフローチャートは、第二専門用語抽出手段104による抽出用語数がM以上となるまで、専門用語テキスト更新手段201におけるテキスト更新と、第二専門用語抽出手段104による更新テキストに基づく用語抽出処理の繰り返し実行する処理を規定したフローである。
【0064】
まず、ステップS201において、初期設定として、
抽出用語数:i=0
とする設定を行なう。
次に、ステップS202において、第一専門用語抽出手段101が、解析対象文書、例えば文書格納手段121の格納文書を解析対象として解析対象文書から複合名詞などの用語の長さのパラメータを重視した用語抽出処理を実行する。具体的には、前述したように文書の品詞解析を行い、複数の名詞によって構成される複合名詞などの用語を選択し、より長い用語に高い評価値を設定して評価値の上位の専門用語(複合名詞など)を抽出する。
【0065】
次に、ステップS203において、専門用語再構成手段102が、ステップS202において抽出した専門用語候補の各々について、文書格納手段121中に格納されている全文書中に出現する回数をそれぞれカウントし、各専門用語を出現回数分だけ複製する。複製テキストデータは、専門用語テキスト格納手段103に格納する。
【0066】
次に、ステップS204において、第二専門用語抽出手段104が、専門用語テキスト格納手段103に格納されたテキストを対象として、専門用語候補の抽出を行なう。第二専門用語抽出手段104は、複合名詞などの用語の出現頻度のパラメータを重視した用語抽出を行なう。具体的には、前述したように、専門用語テキスト格納手段103に格納されたテキスト中に含まれる複合名詞の出現頻度をカウントして出現頻度の高い複合名詞に高い評価値を設定して評価値の上位の複合名詞を抽出する。
【0067】
ステップS205において、ステップS204において、第二専門用語抽出手段104が抽出した用語数が予め設定した規定数[M]以上となったか否かを判定する。[M]以上となった場合は処理を終了する。[M]未満である場合は、ステップS206に進み、専門用語テキスト格納手段103に格納されたテキストの更新処理を実行する。
【0068】
すなわち、専門用語テキスト更新手段201が、専門用語テキスト格納手段103に格納されたテキストから、第二専門用語抽出手段104において抽出された専門用語を削除し、さらに、削除部分に改行を設定し、削除された前後の名詞または名詞群を区分したデータを生成する。
【0069】
さらに、ステップS204に戻り、更新テキストを対象として、第二専門用語抽出手段104が、出現頻度のパラメータを重視した用語抽出を行なう。ステップS204〜S206の処理は、ステップS205の判定において、第二専門用語抽出手段104が抽出した用語数が予め設定した規定数[M]以上となったと判定されるまで繰り返される。あるいは予め上限回数を設定して、その上限回数にいたった段階で処理を停止してもよい。
【0070】
これらの処理によって、ノイズの少ない精度の高い専門用語抽出処理が実現され、予め、予定した数の専門用語を抽出することができる。
【0071】
[実施例3]
さらに、本発明の文書解析システムの実施例3について図5を参照して説明する。図5に示すように本発明の実施例3に係る文書解析システム300は、図1に示した実施例1の構成と同様の第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104、文書格納手段121に、専門用語選択手段301を加えた構成を持つ。
【0072】
本発明の実施例3に係る文書解析システム300において、第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104が最初に実行する処理は、実施例1の処理と同様である。
【0073】
実施例3では、専門用語選択手段301が、第二専門用語抽出手段104の抽出した専門用語データ形態素として登録するデータを再選択する処理を行なう。
【0074】
専門用語選択手段301は、第二専門用語抽出手段104で得られたN個の部分文字列のうち、他のN−1個の部分文字列の組み合わせによって構成される部分文字列Xを全て抽出し、Xの出現頻度が予め設定された閾値以下である場合に、Xをから出力用語から削除する、すなわち専門用語(形態素)リストから削除する。
【0075】
例えば、第二専門用語抽出手段104で得られたN個の部分文字列として、
びまん性管状
びまん性
管状
・・・
これらの用語が抽出用語として選択されているとする。
【0076】
専門用語選択手段301は、例えば、
「びまん性管状」は、
他の抽出用語[びまん性]、[管状]の組み合わせによって構成されると判定し、
[びまん性管状]を、他のN−1個の部分文字列の組み合わせによって構成される部分文字列Xとして抽出する。専門用語選択手段301は、専門用語テキスト格納手段103に格納されたテキストを解析対象として、Xの出現頻度を検証し、Xの出現頻度が、予め設定された閾値以下である場合に、Xを登録する専門用語(形態素)から削除する。
【0077】
この処理により、出現頻度が多くない不適切に長い形態素が登録候補から削除されることになり、より適切な形態素の登録処理が実行され、形態素解析に適切な形態素リストを得ることができる。
【0078】
最後に、上述した処理を実行する文書解析システムを構成する情報処理装置のハードウェア構成例について、図6を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明した第一専門用語抽出処理、専門用語再構成処理、第二専門用語抽出処理、専門用語テキスト更新処理、専門用語選択処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
【0079】
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
【0080】
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
【0081】
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
【0082】
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば文書の格納手段、専門用語テキスト、例えば、専門用語再構成手段の生成するテキストや、専門用語テキスト更新手段の更新テキストの格納手段、抽出した専門用語の格納手段としても利用される。さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
【0083】
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
【0084】
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、各種データベースや他の情報処理装置との通信を実行する。
【0085】
なお、図6に示す文書解析システムとしての情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の文書解析システムは、図6に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
【0086】
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
【0087】
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
【0088】
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【産業上の利用可能性】
【0089】
以上、説明したように、本発明の構成によれば、例えば医療分野などの専門分野における用語、例えば形態素としての用語抽出を行なう構成において、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行し、文書データベースの格納文書を検索し、抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成して、生成した用語テキストを解析対象として、第一用語抽出手段の抽出した用語候補の出現頻度に依存した評価を行い、出現頻度の高い用語候補を出力用語として選択する構成としたので、ノイズ成分の少ない形態素として最適な専門用語の抽出を効率的に行なうことが可能となる。
【図面の簡単な説明】
【0090】
【図1】本発明の文書解析システムの実施例1の構成例を示す図である。
【図2】本発明の実施例1の文書解析システムの実行する処理シーケンスを説明するフローチャートを示す図である。
【図3】本発明の文書解析システムの実施例2の構成例を示す図である。
【図4】本発明の実施例2の文書解析システムの実行する処理シーケンスを説明するフローチャートを示す図である。
【図5】本発明の文書解析システムの実施例3の構成例を示す図である。
【図6】本発明の一実施形態に係る文書解析システムのハードウェア構成例について説明する図である。
【符号の説明】
【0091】
100 文書解析システム
101 第一専門用語抽出手段
102 専門用語再構成手段
103 専門用語テキスト格納手段
104 第二専門用語抽出手段
121 文書格納手段
201 専門用語テキスト更新手段
301 専門用語選択手段
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

【特許請求の範囲】
【請求項1】
文書中の用語の抽出処理を実行する用語抽出手段であり、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出手段と、
文書データベースに格納された文書集合を検索し、前記第一用語抽出手段の抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成手段と、
前記用語再構成手段の生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出手段と、
を有することを特徴とする文書解析システム。
【請求項2】
前記第一用語抽出手段は、特定の専門分野の文書を解析対象とした用語抽出処理を実行する構成であり、
前記用語再構成手段は、前記特定の専門分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行する構成であることを特徴とする請求項1に記載の文書解析システム。
【請求項3】
前記第一用語抽出手段は、医療分野の文書を解析対象とした用語抽出処理を実行し、
前記用語再構成手段は、医療分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行し、
前記第二用語抽出手段は、医療分野の用語としての形態素の抽出を行なう構成であることを特徴とする請求項1に記載の文書解析システム。
【請求項4】
前記文書解析システムは、さらに、
前記用語再構成手段の生成した用語テキストから、前記第二用語抽出手段の抽出した用語を削除した更新用語テキストを生成する用語テキスト更新手段を有し、
前記第二用語抽出手段は、前記用語テキスト更新手段の生成した更新用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する構成であることを特徴とする請求項1から3いずれかに記載の文書解析システム。
【請求項5】
前記文書解析システムは、さらに、
前記第二用語抽出手段の抽出した用語から他の抽出用語の組み合わせ構成を持つ用語を選択し、選択した用語の出現頻度が予め定めた閾値以下である場合に出力用語から削除する処理を実行する用語選択手段を有することを特徴とする請求項1から4いずれかに記載の文書解析システム。
【請求項6】
文書解析システムにおいて実行する文書解析方法であり、
文書中の用語の抽出処理を実行する第一用語抽出手段が、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出ステップと、
用語再構成手段が、文書データベースに格納された文書集合を検索し、前記第一用語抽出ステップにおいて抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成ステップと、
第二用語抽出手段が、前記用語再構成ステップにおいて生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出ステップと、
を有することを特徴とする文書解析方法。
【請求項7】
前記第一用語抽出ステップは、特定の専門分野の文書を解析対象とした用語抽出処理を実行するステップであり、
前記用語再構成ステップは、前記特定の専門分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行するステップであることを特徴とする請求項6に記載の文書解析方法。
【請求項8】
前記第一用語抽出ステップは、医療分野の文書を解析対象とした用語抽出処理を実行するステップであり、
前記用語再構成ステップは、医療分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行するステップであり、
前記第二用語抽出ステップは、医療分野の用語としての形態素の抽出を行なうステップであることを特徴とする請求項6に記載の文書解析方法。
【請求項9】
前記文書解析方法は、さらに、
用語テキスト更新手段が、前記用語再構成ステップにおいて生成した用語テキストから、前記第二用語抽出ステップで抽出した用語を削除した更新用語テキストを生成する用語テキスト更新ステップを有し、
前記第二用語抽出ステップは、前記用語テキスト更新ステップにおいて生成した更新用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択するステップであることを特徴とする請求項6から8いずれかに記載の文書解析方法。
【請求項10】
前記文書解析方法は、さらに、
用語選択手段が、前記第二用語抽出ステップにおいて抽出した用語から他の抽出用語の組み合わせ構成を持つ用語を選択し、選択した用語の出現頻度が予め定めた閾値以下である場合に出力用語から削除する処理を実行する用語選択ステップを有することを特徴とする請求項6から9いずれかに記載の文書解析方法。
【請求項11】
文書解析システムにおいて文書解析処理を実行させるコンピュータ・プログラムであり、
文書中の用語の抽出処理を実行する第一用語抽出手段に、用語の長さに依存した評価を行わせ、長さ重視の用語候補抽出処理を実行させる第一用語抽出ステップと、
用語再構成手段に、文書データベースに格納された文書集合を検索し、前記第一用語抽出ステップにおいて抽出した用語候補と同じ用語の出現回数をカウントさせ、出現回数に応じた用語の複製を含む用語テキストを生成させる用語再構成ステップと、
第二用語抽出手段に、前記用語再構成ステップにおいて生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行わせ、出現頻度の高い用語を出力用語として選択させる第二用語抽出ステップと、
を有することを特徴とするコンピュータ・プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate