説明

専門用語抽出ルール取得システム、専門用語抽出ルール取得処理方法及び専門用語抽出ルール取得プログラム

【課題】信頼性の高い専門用語の抽出ルールを得ることが可能な専門用語抽出ルール取得システム、専門用語抽出ルール取得処理方法及び専門用語抽出ルール取得プログラムを提供するものである。
【解決手段】
PC100は,第1言語の専門用語辞書に登録された専門用語と、第1言語の文書とに基づいて、第1言語の専門用語抽出ルールの候補を生成する第1言語抽出ルール候補生成部30と、第1言語と第2言語の対訳辞書に基づいて、第1言語の専門用語抽出ルール候補を第2言語の専門用語抽出ルール候補に翻訳する抽出ルール候補翻訳部50と、第2言語の専門用語辞書に登録された専門用語と、第2言語の文書とに基づいて、第2言語の専門用語抽出ルール候補のいずれかに対応する第1言語の専門用語抽出ルール候補を、第1言語の専門用語抽出ルールとして特定する抽出ルール特定部80とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書に含まれる、専門用語辞書に登録されるべき専門用語の抽出ルールを取得する専門用語抽出ルール取得システム、当該専門用語抽出ルール取得システムにおける処理方法、及び、当該専門用語抽出ルール取得システムにおいて実行されるプログラムに関する。
【背景技術】
【0002】
医療分野のように専門性の高い分野の専門用語について、専門用語辞書としてのリストを作成することは、自然言語処理において重要な処理である。網羅的な専門用語辞書が得られれば、当該専門用語辞書により、対象の専門分野の文書を高い精度で形態素解析することが可能となる。また、文書検索システムは形態素(単語)を単位とするインデックスを持つことが一般的であり、高い精度の形態素解析が実現できれば、当該専門分野の文書検索を高い精度で実現することも可能になる。
【0003】
しかし、人手で対象分野の全体を網羅するような専門用語辞書を作成することは、膨大な時間コストが必要であり、事実上困難である。このため、既存の専門用語辞書に登録されている専門用語が、対応する専門分野の文書集合中でどのようなパターンで出現しているかを特定し、得られた出現パターンを新たな専門用語を抽出するためのルールとして用いる手法が提案されている(例えば、特許文献1参照)。
【0004】
上述した手法では、情報技術(IT)分野の専門用語リストとして、ソフトウェア名の網羅的な専門用語辞書が作成される場合、既存の専門用語辞書であるソフトウェア名リストに含まれる各ソフトウェア名が、IT分野の文書集合中でどのようなパターンで出現しているかが特定される。例えば、ソフトウェア名を含む文書集合において、「[ソフトウェア名]を[OS名]にインストールする」というパターン([ ]内は専門用語の属性を表す)が高い頻度で出現していれば、そのパターンがソフトウェア名の抽出ルールとして用いられる。すなわち、IT分野の文書集合中で「Xを[OS名]にインストールする」というパターンに合致する「X」が新たなソフトウェア名としてソフトウェア名リストに加えられる。
【特許文献1】特開2005−322120号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した手法では、既存の専門用語、及び、対応する専門分野の文書集合が大量に存在していなければ、信頼性の高い抽出ルールを得ることができない。すなわち、専門用語の数あるいは文書の数が少ない場合には、信頼性の高い抽出ルールを得ることができないという問題が生じる。
【0006】
本発明の目的は、上述した問題を解決するものであり、信頼性の高い専門用語の抽出ルールを得ることが可能な専門用語抽出ルール取得システム、専門用語抽出ルール取得処理方法及び専門用語抽出ルール取得プログラムを提供するものである。
【課題を解決するための手段】
【0007】
本発明に係る、文書に含まれる専門用語の抽出ルールを取得する専門用語抽出ルール取得システムは、第1言語の専門用語辞書に登録された専門用語と第1言語の文書とに基づいて、第1言語の専門用語の抽出ルールの候補を生成する生成手段と、前記第1言語と第2言語の対訳辞書に基づいて、前記第1言語の専門用語の抽出ルールの候補を第2言語の専門用語の抽出ルールの候補に翻訳する翻訳手段と、第2言語の専門用語辞書に登録された専門用語と第2言語の文書とに基づいて、前記第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして特定する特定手段とを有することを特徴とする。
【0008】
この構成によれば、第1言語の専門用語や文書の数が少ないために、信頼性の高い専門用語抽出ルールを得ることができなくても、第2の専門用語や文書の数が多い場合には、当該第2言語の専門用語の抽出ルールを第1言語に転用して、信頼性の高い専門用語の抽出ルールを得ることができる。
【0009】
また、本発明の専門用語抽出ルール取得システムは、前記生成手段が、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を含む前記第1言語の文書を取得する第1の取得手段と、前記取得された第1言語の文書の構文意味解析を行う第1の解析手段と、前記第1言語の文書の構文意味解析の結果に含まれる、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を、属性名に置換し、更に、抽出対象の専門用語に対応する前記属性名を変数に置換する置換手段と、前記第1言語の文書の構文意味解析の結果、前記変数、及び、抽出対象以外の専門用語に対応する前記属性名からなるパターン情報のうち、出現回数の多い所定数を、前記第1言語の専門用語の抽出ルールの候補として取得する第2の取得手段とを有するようにしてもよい。
【0010】
この構成によれば、第1言語の文書の構文意味解析によって適切な第1言語の専門用語の抽出ルールの候補を得ることが可能となる。
【0011】
また、本発明の専門用語抽出ルール取得システムは、前記生成手段が、表層文字列に基づく前記第1言語の専門用語の抽出ルールの候補を生成するようにしてもよい。
【0012】
また、本発明の専門用語抽出ルール取得システムは、前記特定手段が、 前記第2言語の文書の構文意味解析を行う第2の解析手段と、前記第2言語の文書の構文意味解析の結果と、前記第2言語の専門用語辞書に登録された専門用語とに基づいて、前記第2言語の文書のうち、前記第2言語の専門用語の抽出ルールの候補に合致するものの数を計測する計測手段と、前記第2言語の専門用語の抽出ルールの候補のうち、合致する前記取得された第2言語の文書の数が多い所定数を取得する第3の取得手段と、前記取得された所定数の第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして選択する選択手段とを有するようにしてもよい。
【0013】
この構成によれば、第2言語の文書の構文意味解析によって適切な第2言語の専門用語の抽出ルールの候補、更には、第1言語の専門用語の抽出ルールを得ることが可能となる。
【0014】
また、本発明の専門用語抽出ルール取得システムは、前記特定手段が、対応する専門用語の候補が実際の専門用語である割合が所定値以上となる前記第2言語の専門用語の抽出ルールに対応する前記第1言語の専門用語の抽出ルールの候補を、前記第1言語の専門用語の抽出ルールとして特定するようにしてもよい。
【0015】
本発明に係る、文書に含まれる専門用語の抽出ルールを取得する専門用語抽出ルール取得システムにおける処理方法は、第1言語の専門用語辞書に登録された専門用語と第1言語の文書とに基づいて、第1言語の専門用語の抽出ルールの候補を生成する生成ステップと、前記第1言語と第2言語の対訳辞書に基づいて、前記第1言語の専門用語の抽出ルールの候補を第2言語の専門用語の抽出ルールの候補に翻訳する翻訳ステップと、第2言語の専門用語辞書に登録された専門用語と第2言語の文書とに基づいて、前記第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして特定する特定手段とを有することを特徴とする。
【0016】
また、本発明の処理方法は、前記生成ステップが、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を含む前記第1言語の文書を取得する第1の取得ステップと、前記取得された第1言語の文書の構文意味解析を行う第1の解析ステップと、前記第1言語の文書の構文意味解析の結果に含まれる、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を、属性名に置換し、更に、抽出対象の専門用語に対応する前記属性名を変数に置換する置換ステップと、前記第1言語の文書の構文意味解析の結果、前記変数、及び、抽出対象以外の専門用語に対応する前記属性名からなるパターン情報のうち、出現回数の多い所定数を、前記第1言語の専門用語の抽出ルールの候補として取得する第2の取得ステップとを有するようにしてもよい。
【0017】
また、本発明の処理方法は、前記特定ステップが、前記第2言語の文書の構文意味解析を行う第2の解析ステップと、前記第2言語の文書の構文意味解析の結果と、前記第2言語の専門用語辞書に登録された専門用語とに基づいて、前記第2言語の文書のうち、前記第2言語の専門用語の抽出ルールの候補に合致するものの数を計測する計測ステップと、前記第2言語の専門用語の抽出ルールの候補のうち、合致する前記取得された第2言語の文書の数が多い所定数を取得する第3の取得ステップと、前記取得された所定数の第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして選択する選択ステップとを有するようにしてもよい。
【0018】
本発明に係る、文書に含まれる専門用語の抽出ルールを取得する専門用語抽出ルール取得システムにおいて実行されるプログラムは、第1言語の専門用語辞書に登録された専門用語と第1言語の文書とに基づいて、第1言語の専門用語の抽出ルールの候補を生成する生成ステップと、前記第1言語と第2言語の対訳辞書に基づいて、前記第1言語の専門用語の抽出ルールの候補を第2言語の専門用語の抽出ルールの候補に翻訳する翻訳ステップと、第2言語の専門用語辞書に登録された専門用語と第2言語の文書とに基づいて、前記第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして特定する特定手段とを有することを特徴とする。
【0019】
また、本発明のプログラムは、前記生成ステップが、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を含む前記第1言語の文書を取得する第1の取得ステップと、前記取得された第1言語の文書の構文意味解析を行う第1の解析ステップと、前記第1言語の文書の構文意味解析の結果に含まれる、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を、属性名に置換し、更に、抽出対象の専門用語に対応する前記属性名を変数に置換する置換ステップと、前記第1言語の文書の構文意味解析の結果、前記変数、及び、抽出対象以外の専門用語に対応する前記属性名からなるパターン情報のうち、出現回数の多い所定数を、前記第1言語の専門用語の抽出ルールの候補として取得する第2の取得ステップとを有するようにしてもよい。
【0020】
また、本発明のプログラムは、前記特定ステップが、 前記第2言語の文書の構文意味解析を行う第2の解析ステップと、前記第2言語の文書の構文意味解析の結果と、前記第2言語の専門用語辞書に登録された専門用語とに基づいて、前記第2言語の文書のうち、前記第2言語の専門用語の抽出ルールの候補に合致するものの数を計測する計測ステップと、前記第2言語の専門用語の抽出ルールの候補のうち、合致する前記取得された第2言語の文書の数が多い所定数を取得する第3の取得ステップと、前記取得された所定数の第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして選択する選択ステップとを有するようにしてもよい。
【発明の効果】
【0021】
本発明によれば、1の言語において、信頼性の高い専門用語抽出ルールを得ることができなくても、他の言語の専門用語の抽出ルールを転用して、信頼性の高い専門用語の抽出ルールを得ることができる。
【発明を実施するための最良の形態】
【0022】
本発明の実施の形態について、図面を参照して具体的に説明する。図1は、専門用語抽出ルール取得システムとしてのパーソナルコンピュータ(PC)ハードウェア構成を示す図である。図1に示すPC100は、パーソナルコンピュータ(PC)であり、内部バス107に接続されたCPU101、メモリ102、ハードディスクドライブ(HDD)103、操作部105及びモニタ106によって構成される。
【0023】
図2は、専門用語抽出ルール取得システムとしてのPC100の機能ブロック図である。図2に示すPC100は、第1言語である日本語の文書に含まれる、専門用語辞書に登録されるべき専門用語の抽出ルールを取得するものであり、第1言語専門用語辞書記憶部10と、第1言語文書記憶部20と、生成手段に対応する第1言語抽出ルール候補生成部30と、対訳辞書記憶部40と、翻訳手段に対応する抽出ルール候補翻訳部50と、第2言語専門用語辞書記憶部60と、第2言語文書記憶部70と、抽出ルール特定部80とにより構成される。これら各機能ブロックは、図1のハードウェア構成においては、CPU101が操作部105の操作に応じて、HDD103から読み出してメモリ102に記憶させた所定のプログラムを実行することによって実現される。
【0024】
第1言語専門用語辞書記憶部10は、人手によって作成された、第1言語である日本語の医療分野の専門用語辞書を記憶している。この第1言語の専門用語辞書には、専門用語と、当該専門用語の属性とが対応付けられて登録されている。例えば、専門用語である「悪性エナメル上皮腫」、「壊疽性口内癌」、「潰瘍性舌炎」等は、それぞれ「病名」属性を有し、専門用語「外側大腿回旋動脈」、「大腿筋膜張筋」、「頤下リンパ節」、「下顎」、「口腔粘膜」等は、それぞれ「身体部位名」属性を有する。また、第1言語の専門用語辞書に登録されている専門用語の総数は、少量(例えば数千乃至数万)である。
【0025】
第1言語文書記憶部20は、第1言語である日本語で記述された医療分野の文書を複数記憶している。この第1言語の文書の総数は少量である。
【0026】
抽出ルール候補生成部30は、第一言語専門用語辞書記憶部10に記憶されている第1言語の専門用語辞書に登録されている専門用語と、第一言語文書記憶部20に記憶されている第1言語の文書の集合とに基づいて、新たな第1言語の専門用語を取得するための抽出ルールの候補(第1言語専門用語抽出ルール候補)を生成する。
【0027】
対訳辞書記憶部40は、第1言語である日本語と第2言語である英語との対訳辞書を記憶している。
【0028】
抽出候補ルール翻訳部50は、第1言語抽出ルール候補生成部30によって生成された第1言語専門用語抽出ルール候補を入力すると、対訳辞書字億部40に記憶された対訳辞書に基づいて、第1言語専門用語抽出ルール候補を翻訳し、第2言語の専門用語を取得するための抽出ルールの候補(第2言語専門用語抽出ルール候補)を生成する。
【0029】
第2言語専門用語辞書記憶部60は、人手によって作成された、第2言語である英語の医療分野の専門用語辞書を記憶している。この第2言語の専門用語辞書には、第1言語の専門用語辞書と同様、専門用語と、当該専門用語の属性とが対応付けられて登録されている。また、第2言語の専門用語辞書に登録されている専門用語の総数は、第1言語の専門用語辞書に登録された専門用語の総数よりも多い。
【0030】
第2言語文書記憶部70は、第2言語である英語で記述された医療分野の文書を複数記憶している。この第2言語の文書の総数は、第1言語の文書の総数よりも多い。
【0031】
抽出ルール特定部80は、第2言語専門用語辞書記憶部60に記憶されている第2言語の専門用語辞書に登録された専門用語と、第2言語文書記憶部70に記憶されている第2言語の文書とに基づいて、第2言語専門用語抽出ルール候補のいずれかを選択し、その選択した第2言語専門用語抽出ルール候補に対応する第1言語専門用語抽出ルール候補を、第1言語の専門用語の抽出ルールとして特定する。
【0032】
以下、フローチャートを参照しつつ、PC100の詳細な動作を説明する。図3は、PC100の動作を示すフローチャートである。
【0033】
第1言語抽出ルール候補生成部30は、第1言語専門用語辞書記憶部10に記憶されている第1言語の専門用語辞書を読み出し、当該第1言語の専門用語辞書に登録されている専門用語の属性を特定する。更に、第1言語抽出ルール候補生成部30は、第1言語の専門用語辞書に登録されている専門用語と同一の属性を有する専門用語が含まれる第1言語の文書を、第1言語文書記憶部20に記憶された第1言語の文書集合から検索し、読み出す(S101)。
【0034】
例えば、第1言語専門用語辞書に、「病名」属性を有する専門用語と「身体部位名」属性とを有する専門用語とが登録されている場合、第1言語抽出ルール候補生成部30は、それぞれの属性の専門用語を含んだ、図4(1)乃至(4)のような第1言語の文書を得ることができる。
【0035】
次に、第1言語抽出ルール候補生成部30は、読み出した第1言語の文書について、構文意味解析を行う(構文意味解析の詳細については、非特許文献(増市、大熊著、「Lexical Functional Grammarに基づく実用的な日本語解析システムの構築」、自然言語処理、Vol.10 No.2、p.79-109、2003年を参照)(S102)。
【0036】
更に、第1言語抽出ルール候補生成部30は、構文意味解析の結果における、第1言語の専門用語辞書に登録された専門用語と同一属性の用語を、属性名に置換し、更に、抽出対象の専門用語に対応する属性名を変数に置換することによって、パターン情報を生成する(S103)。
【0037】
例えば、第1言語抽出ルール候補生成部30は、図4(1)乃至(4)のような第1言語の文書を得た場合、構文意味解析により、当該第1言語の文書内の動詞と、当該動詞の修飾語句の格関係を得る。更に、第1言語抽出ルール候補生成部30は、構文意味解析の結果における、「病名」属性を有する専門用語を、属性名[病名]に、「身体部位名」属性を有する専門用語を、属性名[身体部位名]に置換する。これにより、図4(1)乃至(4)に示す、「病名」属性及び「身体部位名」属性を有する専門用語を含んだ第1言語の文書は、図5(1´)乃至(4´)に示す情報に変換される。更に、第1言語抽出ルール候補生成部30は、第1言語の専門用語辞書に登録されるべき専門用語の属性名を変数(パターンマッチ変数)「X」に置換して、パターン情報とする。
【0038】
次に、第1言語抽出ルール候補生成部30は、生成したパターン情報を出現回数の多い順に並べ替える処理を行い、上位N個のパターン情報を、第1言語の専門用語抽出ルール候補とする(S104)。ここで、Nは予め設定される閾値である。例えば、Nが2であり、図5(3´)及び(4´)に示す情報において、属性名[身体部位名]をパターンマッチ変数「X」に変換したパターン情報の出現回数が6回と最も多く、図5(1´)及び’(2´)に示す情報において、属性名[病名]をパターンマッチ変数「X」に変換したパターン情報の出現回数が5回と2番目に多い場合には、図6(a)に示す、第1言語の専門用語辞書に登録されるべき属性名[病名]の専門用語を抽出するための第1言語の専門用語抽出ルール候補と、図6(b)に示す、第1言語の専門用語辞書に登録されるべき属性名[身体部位名]の専門用語を抽出するための第1言語の専門用語抽出ルール候補とが得られる。
【0039】
しかしながら、ここで得られる第1言語の専門用語抽出ルール候補は、信頼性の点で問題がある。例えば、図6(a)に示す第1言語の専門用語抽出ルール候補が用いられることによって、精度よく[病名]属性を有する専門用語を抽出することが可能であると考えられるが、図6(b)に示す第1言語の専門用語抽出ルール候補が用いられる場合には、「まずは、下顎から痛みを取り除くことが重要である。」という文書や「口腔粘膜から不純物を取り除いた。」という文書等から専門用語でない「痛み」や「不純物」が抽出されてしまうことになる。
【0040】
このような問題は、第1言語専門用語辞書記憶部10に記憶された第1言語の専門用語辞書に登録されている専門用語の数と、第1言語文書記憶部20に記憶された第1言語の文書の数とが、統計的に有意な結果を出すに足る量に至っていないことに起因する。十分な数の第1言語の専門用語及び文書が存在すれば、図6(b)に示す第1言語の専門用語抽出ルール候補(パターン情報)の出現回数は、図6(a)に示す第1言語の専門用語抽出ルール候補等の出現回数よりも、相対的に少なくなり、その結果、図6(b)に示すパターン情報が第1言語の専門用語抽出ルール候補として取得される可能性は低くなる。
【0041】
そこで、適切な第1言語の専門用語抽出ルールを取得すべく、以下の動作が行われる。抽出ルール候補翻訳部50は、第1言語抽出ルール候補生成部30によって生成された第1言語の専門用語抽出ルール候補を入力する。更に、抽出ルール候補翻訳部50は、対訳辞書記憶部40に記憶された対訳辞書に基づいて、第1言語の専門用語抽出ルール候補内の用語を第2言語に翻訳し、第2言語の専門用語抽出ルール候補とする(S105)。例えば、図6(a)に示す第1言語の専門用語抽出ルール候補は、図7(a´)に示すように翻訳され、図6(b)に示す第1言語の専門用語抽出ルール候補は、図7(b´)に示すように翻訳される。
【0042】
抽出ルール特定部80は、抽出ルール候補翻訳部50によって得られた第2言語の専門用語抽出ルール候補と、第1言語の専門用語抽出ルール候補とを入力すると、第2言語文書記憶部70に記憶された第2言語の文書集合を読み出し、当該第2言語の文書について、構文意味解析を行う(S106)。
【0043】
更に、抽出ルール特定部80は、第2言語の文書の構文意味解析の結果に基づいて、当該第2言語の文書の構文意味解析の結果に対応する第2言語の文書のうち、第2言語の専門用語抽出ルール候補と合致するものの数を計測する(S107)。この処理において、抽出ルール特定部80は、第2言語の専門用語抽出ルール候補における属性名及びパターンマッチ変数「X」を、第2言語専門用語辞書記憶部60に記憶された第2言語の専門用語辞書に登録された専門用語のうち、属性名及びパターンマッチ変数「X」二対応する専門用語と同一属性を有するもので置換する。
【0044】
次に、抽出ルール特定部80は、第2言語の専門用語抽出ルール候補を、合致する第2言語の文書の多い順に並べ替える処理を行い、上位M個の第2言語の専門用語抽出ルール候補を取得する(S108)。ここで、Mは予め設定される閾値であり、取得されるM個の第2言語の専門用語抽出ルール候補は、第2言語の専門用語を抽出するものとして適切なものである。
【0045】
更に、抽出ルール特定部80は、取得した上位M個の第2言語の専門用語抽出ルール候補に対応する第1言語の専門用語抽出ルール候補を、最終的な第1言語の専門用語抽出ルールとして選択する(S109)。
【0046】
例えば、図7(a´)に示す第2言語の専門用語抽出ルール候補と合致する第2言語の文書が22356個存在し、図7(b´)に示す第2言語の専門用語抽出ルール候補と合致する第2言語の文書が136個存在し、並べ替えの結果、図7(a´)に示す第2言語の専門用語抽出ルール候補の順位がM以上、図7(b´)に示す第2言語の専門用語抽出ルール候補の順位がM未満であれば、図7(a´)に示す第2言語の専門用語抽出ルール候補に対応する、図6(a)に示す第1言語の専門用語抽出ルール候補が、最終的な第1言語の専門用語抽出ルールとなる。
【0047】
このように、本実施形態の専門用語抽出ルール取得システムとしてのPC100は、第1言語の専門用語抽出ルール候補を生成し、当該第1言語の専門用語抽出ルール候補を第2言語に翻訳して第2言語の専門用語抽出ルール候補を得るとともに、第2言語の専門用語抽出ルール候補のうち、第2言語の専門用語抽出ルールとして適切なものに対応する第1言語の専門用語抽出ルール候補を、最終的な第1言語の専門用語抽出ルールとして特定する。従って、第1言語の専門用語や文書の数が少ないために、信頼性の高い専門用語抽出ルールを得ることができなくても、第2の専門用語や文書の数が多い場合には、当該第2言語の専門用語抽出ルールを第1言語に転用して、信頼性の高い専門用語抽出ルールを得ることができる。
【0048】
なお、上述した実施形態では、第2言語が1種類のみであったが、複数種類であってもよい。図8は、専門用語抽出ルール取得システムとしての他のPC200の機能ブロック図である。図8に示すPC200は、図2に示すPC100と比較すると、3種類の第2言語が用いられ、第2言語専門用語辞書記憶部60に代えて各第2言語の専門用語辞書を記憶する第2言語専門用語辞書第1記憶部61、第2言語専門用語辞書第2記憶部62及び第2言語専門用語辞書第3記憶部63を有するとともに、第2言語文書記憶部70に代えて各第2言語の文書を記憶する第2言語文書第1記憶部71、第2言語文書第2記憶部72及び第2言語文書第3記憶部73を有する。また、対訳辞書記憶部40は、第1言語と各第2言語との対訳辞書を記憶している。
【0049】
このPC200において、抽出候補ルール翻訳部50は、対訳辞書記憶部40に記憶された各第2言語の専門用語辞書に基づいて、第1言語の専門用語抽出ルール候補内の用語を各第2言語に翻訳し、各第2言語の専門用語抽出ルール候補とする。そして、抽出ルール特定部80は、第2言語文書第1記憶部71、第2言語文書第2記憶部72及び第2言語文書第3記憶部73に記憶された各第2言語の文書について構文意味解析を行い、対応する第2言語の専門用語抽出ルール候補と合致するものの数を計測する。更に、抽出ルール特定部80は、その計測数の多い上位M個の第2言語の専門用語抽出ルール候補に対応する第1言語の専門用語抽出ルール候補を、最終的な第1言語の専門用語抽出ルールとして選択する。このように、複数種類の第2言語が用いられることにより、より高い精度で第1言語の専門用語抽出ルールを特定することが可能となる。
【0050】
また、第1言語抽出ルール候補生成部30は、第1言語の文書の構文意味解析を行う代わりに、表層文字列に基づく第1言語の専門用語抽出ルール候補を特定し、抽出ルール候補翻訳部50が、一般的な機械翻訳によって、表層文字列に基づく第1言語の専門用語抽出ルール候補を表層文字列に基づく第2言語の専門用語抽出ルール候補に翻訳するようにしてもよい。例えば、表層文字列に基づく第1言語の専門用語抽出ルール候補が図9(a)及び(b)に示すものである場合、第2言語の専門用語抽出ルール候補は、図10(a)及び(b)に示すものとなる。これにより、構文意味解析が不要となり、処理負担の軽減を図ることが可能となる。
【0051】
また、抽出ルール特定部80は、第2言語の専門用語抽出ルール候補におけるパターンマッチ変数「X」を、専門用語で置換せずに、当該第2言語の専門用語抽出ルール候補に対応する専門用語の候補のうち、実際の専門用語の割合を、第2言語専門用語辞書記憶部60に記憶された第2言語の専門用語辞書を参照することによって計算し、その値が所定値以上となる第2言語の専門用語抽出ルール候補に対応する第1言語の専門用語抽出ルール候補を、最終的な第1言語の専門用語抽出ルールとしてもよい。この場合には、より適合率の高い第1言語の専門用語抽出ルールを得ることが可能となる。
【産業上の利用可能性】
【0052】
以上、説明したように、本発明に係る専門用語抽出ルール取得システム、仮名漢字変換用辞書登録処理方法及び仮名漢字変換用辞書登録プログラムは、信頼性の高い専門用語の抽出ルールを得ることが可能であり、専門用語抽出ルール取得システム等として有用である。
【図面の簡単な説明】
【0053】
【図1】専門用語抽出ルール取得システムのハードウェア構成を示す図である。
【図2】専門用語抽出ルール取得システムの機能ブロック図を示す図である。
【図3】専門用語抽出ルール取得システムの動作を示すフローチャートである。
【図4】第1言語の文書の一例を示す図である。
【図5】第1言語の文書の構文意味解析の結果の一例を示す図である。
【図6】第1言語の専門用語抽出ルール候補の一例を示す図である。
【図7】第2言語の専門用語抽出ルール候補の一例を示す図である。
【図8】専門用語抽出ルール取得システムの他の機能ブロック図を示す図である。
【図9】表層文字列に基づく第1言語の専門用語抽出ルール候補の一例を示す図である。
【図10】表層文字列に基づく第2言語の専門用語抽出ルール候補の一例を示す図である。
【符号の説明】
【0054】
10 第1言語専門用語辞書記憶部
20 第1言語文書記憶部
30 第1言語抽出ルール候補生成部
40 対訳辞書記憶部
50 抽出ルール候補翻訳部
60 第2言語専門用語辞書記憶部
70 第2言語文書記憶部
80 抽出ルール特定部
100 PC
102 メモリ
103 HDD
105 操作部
106 モニタ
107 内部バス

【特許請求の範囲】
【請求項1】
文書に含まれる専門用語の抽出ルールを取得する専門用語抽出ルール取得システムであって、
第1言語の専門用語辞書に登録された専門用語と第1言語の文書とに基づいて、第1言語の専門用語の抽出ルールの候補を生成する生成手段と、
前記第1言語と第2言語の対訳辞書に基づいて、前記第1言語の専門用語の抽出ルールの候補を第2言語の専門用語の抽出ルールの候補に翻訳する翻訳手段と、
第2言語の専門用語辞書に登録された専門用語と第2言語の文書とに基づいて、前記第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして特定する特定手段とを有することを特徴とする専門用語抽出ルール取得システム。
【請求項2】
前記生成手段は、
前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を含む前記第1言語の文書を取得する第1の取得手段と、
前記取得された第1言語の文書の構文意味解析を行う第1の解析手段と、
前記第1言語の文書の構文意味解析の結果に含まれる、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を、属性名に置換し、更に、抽出対象の専門用語に対応する前記属性名を変数に置換する置換手段と、
前記第1言語の文書の構文意味解析の結果、前記変数、及び、抽出対象以外の専門用語に対応する前記属性名からなるパターン情報のうち、出現回数の多い所定数を、前記第1言語の専門用語の抽出ルールの候補として取得する第2の取得手段とを有することを特徴とする請求項1に記載の専門用語抽出ルール取得システム。
【請求項3】
前記生成手段は、表層文字列に基づく前記第1言語の専門用語の抽出ルールの候補を生成することを特徴とする請求項1に記載の専門用語抽出ルール取得システム。
【請求項4】
前記特定手段は、
前記第2言語の文書の構文意味解析を行う第2の解析手段と、
前記第2言語の文書の構文意味解析の結果と、前記第2言語の専門用語辞書に登録された専門用語とに基づいて、前記第2言語の文書のうち、前記第2言語の専門用語の抽出ルールの候補に合致するものの数を計測する計測手段と、
前記第2言語の専門用語の抽出ルールの候補のうち、合致する前記取得された第2言語の文書の数が多い所定数を取得する第3の取得手段と、
前記取得された所定数の第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして選択する選択手段とを有することを特徴とする請求項2に記載の専門用語抽出ルール取得システム。
【請求項5】
前記特定手段は、対応する専門用語の候補が実際の専門用語である割合が所定値以上となる前記第2言語の専門用語の抽出ルールに対応する前記第1言語の専門用語の抽出ルールの候補を、前記第1言語の専門用語の抽出ルールとして特定することを特徴とする請求項1又は3に記載の専門用語抽出ルール取得システム。
【請求項6】
文書に含まれる専門用語の抽出ルールを取得する専門用語抽出ルール取得システムにおける処理方法であって、
第1言語の専門用語辞書に登録された専門用語と第1言語の文書とに基づいて、第1言語の専門用語の抽出ルールの候補を生成する生成ステップと、
前記第1言語と第2言語の対訳辞書に基づいて、前記第1言語の専門用語の抽出ルールの候補を第2言語の専門用語の抽出ルールの候補に翻訳する翻訳ステップと、
第2言語の専門用語辞書に登録された専門用語と第2言語の文書とに基づいて、前記第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして特定する特定手段とを有することを特徴とする処理方法。
【請求項7】
前記生成ステップは、
前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を含む前記第1言語の文書を取得する第1の取得ステップと、
前記取得された第1言語の文書の構文意味解析を行う第1の解析ステップと、
前記第1言語の文書の構文意味解析の結果に含まれる、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を、属性名に置換し、更に、抽出対象の専門用語に対応する前記属性名を変数に置換する置換ステップと、
前記第1言語の文書の構文意味解析の結果、前記変数、及び、抽出対象以外の専門用語に対応する前記属性名からなるパターン情報のうち、出現回数の多い所定数を、前記第1言語の専門用語の抽出ルールの候補として取得する第2の取得ステップとを有することを特徴とする請求項6に記載の処理方法。
【請求項8】
前記特定ステップは、
前記第2言語の文書の構文意味解析を行う第2の解析ステップと、
前記第2言語の文書の構文意味解析の結果と、前記第2言語の専門用語辞書に登録された専門用語とに基づいて、前記第2言語の文書のうち、前記第2言語の専門用語の抽出ルールの候補に合致するものの数を計測する計測ステップと、
前記第2言語の専門用語の抽出ルールの候補のうち、合致する前記取得された第2言語の文書の数が多い所定数を取得する第3の取得ステップと、
前記取得された所定数の第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして選択する選択ステップとを有することを特徴とする請求項7に記載の処理方法。
【請求項9】
文書に含まれる専門用語の抽出ルールを取得する専門用語抽出ルール取得システムにおいて実行されるプログラムであって、
第1言語の専門用語辞書に登録された専門用語と第1言語の文書とに基づいて、第1言語の専門用語の抽出ルールの候補を生成する生成ステップと、
前記第1言語と第2言語の対訳辞書に基づいて、前記第1言語の専門用語の抽出ルールの候補を第2言語の専門用語の抽出ルールの候補に翻訳する翻訳ステップと、
第2言語の専門用語辞書に登録された専門用語と第2言語の文書とに基づいて、前記第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして特定する特定手段とを有することを特徴とするプログラム。
【請求項10】
前記生成ステップは、
前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を含む前記第1言語の文書を取得する第1の取得ステップと、
前記取得された第1言語の文書の構文意味解析を行う第1の解析ステップと、
前記第1言語の文書の構文意味解析の結果に含まれる、前記第1言語の専門用語辞書に登録された専門用語と同一属性の用語を、属性名に置換し、更に、抽出対象の専門用語に対応する前記属性名を変数に置換する置換ステップと、
前記第1言語の文書の構文意味解析の結果、前記変数、及び、抽出対象以外の専門用語に対応する前記属性名からなるパターン情報のうち、出現回数の多い所定数を、前記第1言語の専門用語の抽出ルールの候補として取得する第2の取得ステップとを有することを特徴とする請求項9に記載のプログラム。
【請求項11】
前記特定ステップは、
前記第2言語の文書の構文意味解析を行う第2の解析ステップと、
前記第2言語の文書の構文意味解析の結果と、前記第2言語の専門用語辞書に登録された専門用語とに基づいて、前記第2言語の文書のうち、前記第2言語の専門用語の抽出ルールの候補に合致するものの数を計測する計測ステップと、
前記第2言語の専門用語の抽出ルールの候補のうち、合致する前記取得された第2言語の文書の数が多い所定数を取得する第3の取得ステップと、
前記取得された所定数の第2言語の専門用語の抽出ルールの候補のいずれかに対応する前記第1言語の専門用語の抽出ルールの候補を、第1言語の専門用語の抽出ルールとして選択する選択ステップとを有することを特徴とする請求項10に記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate