説明

日本語形態素解析方法及びその装置

【目的】 漢字かな混じりの日本語文のサブセットに対し、大きなサイズの辞書なしに形態素解析を行う。
【構成】 漢字かな混じり日本語文を対象にして形態素辞書及び隣接形態素品詞接続表に基づき形態素列に分解する。前記形態素列には、ひらがな文字列だけからなる非自立語の形態素だけを有する。漢字又はカタカナ等の同一文字種だけからなる文字列に対しては、前記形態素辞書に依らずに複数の特定の形態素品詞候補を付与する。

【発明の詳細な説明】
【0001】
【技術分野】本発明は、日本語形態素解析方法及びその装置に関し、より詳細には、日本語の形態素解析方法及び形態素解析装置あるいは構文解析装置に関する。例えば、日本語文書を対象にした以下の部分、すなわち、■検索システムにおけるキーワード抽出,■文書作成システムにおける言語統計情報抽出,■校正支援システムにおける校正情報抽出,■索引語の抽出,■日本語音声合成システムの日本語文形態素解析部に適用されるものである。
【0002】
【従来技術】形態素辞書及び隣接形態素品詞接続表を備え、かな漢字混じり日本語文を対象に、形態素辞書に基づき形態素文字列を切り出し、その文字列に形態素品詞候補を付与し、隣接形態素品詞接続表に基づき隣接する形態素品詞を検査することにより、形態素列に分解する日本語形態素解析方式は公知技術である。例えば、■「図解自然言語処理」(野口正一 外1名 "形態素を処理する" P23〜34)や、■特開昭56−17467号公報に記載されている。
【0003】たとえば、次の日本語文、「彼は広いアメリカを彼女を求めて旅行した。」を形態素解析するためには、少なくとも形態素解析辞書に図5のような形態素が登録され、さらに図6のような隣接形態素品詞接続表があれば、図7のような形態素解析結果を得ることができる(以下、簡単のために、従来の形態素解析方式のうち最も簡便な最長一致法をベースに説明するが、二文節最長一致法等のより精度の高い優先選択法を排除するものではない)。すなわち、対象日本語文の先頭から形態素辞書の中にある形態素文字列と一致するもののうち、文字列長が最長の形態素文字列をその形態素品詞とともに切り出すとともに、隣接する形態素品詞の接続可能性を隣接形態素接続表により検査しながら、接続可能な形態素の並びとして分割するものである。なお、たとえば、「メッセージを届けること」の「こと」が、「形式名詞」か命令を示す「終助詞」かを確定できないような場合もあり、ただ一通りの形態素解析結果が得られるものではない。
【0004】形態素解析では、原則として、形態素辞書に対象とする日本語文に含まれる形態素(単語)のすべてをもつことを前提としている。従って、通常は辞書には数万語以上の形態素をもつことが求められる。しかし、実際には辞書にない形態素がしばしば現れるため、それによる解析失敗を救済するために、未登録語処理と呼ばれる処理が必要になる。例えば、■特開昭63−66672号公報,■特開昭63−163962号公報に記載されている。また、未知分野の日本語文書を対象とすると多くの未登録語が生じるため、さらに数千語から数万語の専門用語辞書を用意しなくてはならない。
【0005】日本語形態素解析技術自体は高いレベルにあるが、上述したように、大きな容量の辞書が必要なため、ディスク容量の限られたノート型パーソナルコンピュータ等に搭載する困難がある。また、未知分野の文書に対しては、あらかじめ新規語を登録する作業が生じ、本技術の利用を阻害する要因になっている。一方、漢字かな混じりで記述された日本語文を見るに例外は少なくないが、一般的には、ひらがなは助詞や助動詞あるいは活用語尾である一方、漢字やカタカナからなる文字列は、名詞,サ変動詞や形容詞の語幹等になることが知られており、未登録処理においてはこの性質が利用されている。前記公知文献■のP33,■,■に記載されている。
【0006】
【目的】本発明は、上述のごとき実情に鑑みてなされたもので、漢字かな混じりの日本語文のサブセットに対し、大きなサイズの辞書なしに形態素解析を行う方法を提供すること、また、前記サブセットを拡張する方法を提供すること、また、精度を向上する方法を提供すること、また、精度の向上のためのユーザへの問い合わせを、精度を余り落とさずに回避する方法を提供すること、また、得られた形態素解析結果から単語の並びを得る方法を提供すること、さらに、前記形態素解析方法を備えた日本語形態素解析装置を提供することを特徴としてなされたものである。
【0007】
【構成】本発明は、上記目的を達成するために、(1)形態素辞書及び隣接形態素品詞接続表を備え、漢字かな混じり日本語文を対象にし、前記形態素辞書に基づいて形態素文字列を切り出し、該形態素文字列に形態素品詞候補を付与し、前記隣接形態素品詞接続表に基づき、隣接する形態素品詞を検査することにより、形態素列に分解する日本語形態素解析方法において、前記形態素辞書には、ひらがな文字列だけからなる非自立語の形態素だけを有し、漢字あるいはカタカナ等の同一文字種だけからなる文字列に対しては、前記形態辞書に依らずに複数の特定の形態素品詞候補を付与すること、更には、(2)前記形態素辞書が、ひらがな文字列だけからなる自立語の形態素と、漢字あるいはカタカナ等の同一文字種だけからなる文字列からなり、前記特定の形態素品詞候補以外の形態素品詞を有する形態素と、漢字文字列の後にひらがな文字列が連なる形態素をも有すること、更には、(3)前記(1)又は(2)において、前記形態素辞書が、漢字あるいはカタカナ等の同一文字種だけからなる文字列に対して、付与する特定の形態素品詞候補のうち、形態素延べ数が充分少ない形態素品詞の形態素をも有し、該形態素品詞を前記文字列に付与する特定の形態素品詞候補から除くこと、更には、(4)前記(1)〜(3)のいずれかにおいて、前記漢字文字列の末尾に付きうる漢字文字列からなる形態素をもつ接尾辞辞書を有し、複数の特定の形態素品詞候補を付与するべき漢字文字列に対して、該文字列の末尾に接尾辞辞書にある形態素があれば、該文字列を切り放した後に複数の特定の形態素品詞候補を付与すること、更には、(5)前記(1)〜(4)のいずれかにおいて、前記形態素辞書に、複数の形態素の並んだ複合形態素に対し、形態素品詞として形態素品詞とその文字数の並びを与えてもつことを許し、隣接形態素品詞接続表に基づく、前記複合形態素と隣接する形態素との接続検査を、前の形態素に対しては並びの最左の形態素品詞により行い、次の形態素に対しては並びの最右の形態素品詞により行い、前記複合形態素が確定した場合は、前記文字列を形態素品詞とその文字数の並びに応じて分割すること、更には、(6)前記(1)〜(5)のいずれかにおいて、前記形態素品詞候補をただ一つに確定できない場合に、形態素品詞候補の確定を問い合わせること、更には、(7)前記(1)〜(6)のいずれかにおいて、前記形態素品詞候補をただ一つに確定できない場合に、形態素品詞候補の確定を問い合わせる代わりに、■形態素品詞候補の組合せに対し、該形態素品詞候補の前後の形態素品詞の状況と合わせ、どれか一つが高い頻度で選択されることが期待される場合に、該選択された形態素品詞に確定すること、■形態素品詞候補の組合せに対し、形態素延べ数が少ない形態素品詞の形態素だけをもつ辞書を備え、該辞書にあるか否かにより、形態素品詞候補に確定するか廃棄するかを行うこと、■形態素品詞候補をただ一つに確定しなくても、不都合が生じない組合せに対し、形態素品詞候補をただ一つに確定することを行わないこと、のうち1つ以上を有すること、更には、(8)前記(1)〜(7)のいずれかにおいて、形態素の並びから単語を生成する単語構成規則を有し、前記単語構成規則に基づき、分割された形態素の並びの中から単語を融合すること、更には、(9)前記(1)〜(8)のいずれかに記載の日本語形態素解析方法に基づいて日本語形態素解析装置を得ることを特徴としたものである。以下、本発明の実施例に基づいて説明する。
【0008】まず、実施例1(請求項1)について説明する。本発明は、従来技術の箇所で示した従来の形態素解析方法に対し、形態素辞書はひらがな文字列だけからなる非自立語の形態素だけをもち、彼 名詞広 形容詞:語幹(広い)
アメリカ 名詞求め 下一段動詞:語幹(求める)
旅行 サ変動詞:語幹といった漢字あるいはカタカナ文字列を形態素辞書に持たずに、これらの文字列に対しては、「名詞」,「形容詞:語幹」,「形容動詞:語幹」,「五段動詞:語幹」,「上一段動詞:語基」,「下一段動詞:語基」,「サ変動詞:語幹」等を形態素品詞候補として与え、形態素解析を行う方法である。
【0009】なお、カタカナ文字列に対しては、「五段動詞:語幹」,「上一段動詞:語基」,「下一段動詞:語基」等は設定する必要がないので、文字種によって与える形態素品詞候補は異なる。本例文の範囲では、結果として「求」の形態素品詞となる「下一段動詞:語基」を導入するとともに、「め」に次の形態素品詞を追加する。
め マ行下一段動詞:送,マ行下一段動詞:未然形語尾,マ行下一段動詞:連用形語尾さらに、隣接形態素品詞接続表において、「マ行下一段動詞:送」等は、「下一段動詞:語基」から続き、このうち「マ行下一段動詞:送」は、「下一段動詞:連体形語尾」,「下一段動詞:終止形語尾」等へ接続可能とする。これにより、図1のような形態素解析結果を得る。
【0010】なお、本発明の形態素解析方法では、漢字文字列あるいはカタカナ文字列を単位に切り出すため、上に示したように、「下一段動詞:語幹」は、漢字部分の「下一段動詞:語基」とひらがなの送り部「□行下一段動詞:送」,「□行下一段動詞:未然形語尾」,「□行下一段動詞:連用形語尾」(□:ア,カ,ガ等)に分ける。上一段動詞についても同様に扱う。また、形容詞「美しい」の語幹「美し」,形容動詞「静かだ」の語幹「静か」も次のように分割して扱うものとする。
美しシク活用形容詞:語基()+シク活用形容詞:送()・静かカダ活用形容動詞:語基()+カダ活用形容動詞:送()
【0011】図2は、本発明による日本語形態素解析方法の処理フローを示す図である。なお、英字文字列や記号文字列あるいは数字文字列及び読点「、」や句点「。」等については、文字種ごとの処理で扱うものとする。
step1:対象文字列(S:Sentence)を抽出する。
step2:Sの先頭文字列がひらがなか非ひらがなかを判断する。
step3:前記step2において、ひらがなであれば、形態素辞書により最長一致ひらがな文字列の形態素の切り出しを行い、同形態素品詞候補の設定を行う。
step4:前記step2において、非ひらがなであれば、同一文字種文字列の切り出しを行う。
step5:次に、文字種ごとの形態素品詞候補の設定を行う。
step6:前の形態素の形態素品詞候補との接続検査による品詞候補の削除を行う。
step7:切り出しの残り文字列を抽出する。
step8:該文字列が空であるかどうかを判断する。空でなければ前記step2に戻り、空であれば終了する。
【0012】本発明の形態素解析方法では、次のような形態素を扱っていない。
・ひらがな文字列だけで表記される名詞,動詞等の形態素・接続詞,副詞等の形態素・漢字文字列の後にひらがな文字列が連なる形態素また、次の形態素品詞の曖昧さを解消できない。
・「名詞」+「格助詞(に)」と「形容動詞:語幹」+「形容動詞:連用形語尾」(に)
・「五段動詞:語幹」+「サ行五段動詞:連用形語尾」(し)と「サ変動詞:語幹」+「サ行動詞:連用形語尾」(し)と・ほか等の欠点を有するが、漢字かな混じり日本語文の一定の範囲のサブセットに対し、大きな辞書を必要とせずに形態素解析結果を出すことができる。なお、本発明では、同一文字種の形態素が連なった複合語は、当然分割することができず、1形態素として扱われる。こうした複合語の多くは、名詞がつらなったものがほとんどで、たとえば「形態素」と「解析」が連なった「形態素解析」等があるが、二つの名詞の結合度が高いと捕らえることで、1語と扱うことが必ずしも不当とはならない。
【0013】次に、実施例2(請求項2)について説明する。本実施例2は、前記の形態素解析方式において扱っていなかった、次の形態素を形態素辞書にもつことによって扱える漢字かな混じり日本語文のサブセットの範囲を拡張するものである。
(1)ひらがな文字列だけからなる自立語の形態素(2)漢字あるいはカタカナ等の同一文字種だけからなる文字列からなり、前記の特定の形態素品詞候補以外の形態素品詞を有する形態素(3)漢字文字列の後にひらがな文字列が連なる形態素
【0014】前記(1)は、「ひらがな」(名詞)や「ある」(五段動詞)等、ひらがなで表記することが多い名詞,動詞,形容詞,形容動詞をいう。また、実施例1で扱わなかったその他の自立語である。連体詞「ある」,接続詞「そして」,副詞「ゆっくり」等も加える。前記(2)は、普通の名詞とは扱いの異なる副詞名詞「昨日」や形式名詞「間」、あるいは前記(1)の後者と同様に、実施例1で扱わなかったその他の自立語である、副詞「何故」,「万一」等をいう。前記(3)は、並列詞「及び」,名詞「互い」,副詞「万が一」あるいは五段動詞「浮かぶ」の語幹「浮か」のように、漢字+ひらがな からなるものをいう。以上の拡張により、扱える漢字かな混じり日本語文のサブセットの範囲が拡張されるのは明らかである。
【0015】図3は、本発明による日本語形態素解析方法の実施例2の処理フローを示す図である。
step1:対象文字列(S)を抽出する。
step2:拡張辞書による最長一致文字列の形態素の切り出しを行い、同形態素品詞候補の設定を行う。
step3:切り出しが成功か失敗かを判断する。成功であれば前記step8へ進む。step4:前記step3において、失敗であればSの先頭文字列がひらがなか非ひらがなかを判断する。
step5:前記step4において、ひらがなであれば、ひらがな付属語辞書及びひらがな自立語辞書による最長一致ひらがな文字列の形態素の切り出しを行い、同形態素品詞候補の設定を行う。
step6:前記step4において、非ひらがなであれば同一文字種文字列の切り出しを行う。
step7:文字種ごとの形態素品詞候補の設定を行う。
step8:前の形態素の形態素品詞候補との接続検査による品詞候補の削除を行う。
step9:切り出し後の残り文字列を抽出する。
step10:該文字列が空であるかどうかを判断する。空でなければ前記step2に戻り、空であれば終了する。
ここでは、実施例1の形態素辞書をひらがな付属語辞書,前記(1)の形態素を含む辞書をひらがな自立語辞書、前記(2),(3)の形態素を含む辞書を拡張辞書と呼ぶが、必ずしも別の辞書とする必要はない。
【0016】図3に示した処理では、実施例1の文字列の先頭がひらがなか否かで分岐するひらがな文字列あるいは非ひらがな文字列の処理の前に、拡張辞書による形態素切り出し処理が加わり、この処理の失敗時だけに従来の処理を行う。また、ひらがな文字列の処理では、ひらがな付属語辞書とひらがな自立語辞書の双方を検索し、双方のうちの最長の形態素を採用する。双方が同じ長さであれば、双方のマージした結果を設定するものとする。
【0017】次に、実施例3(請求項3)について説明する。前記までの形態素解析方法では、漢字列あるいはカタカナ列(実施例2では、拡張辞書にない漢字列あるいはカタカナ列)に、可能な形態素品詞候補を割り当てていたが、本実施例3では、前記形態素品詞である形態素の数を考慮に入れて、数の少ない形態素品詞の形態素を拡張辞書に登録するとともに、その形態素品詞候補を処理効率と精度の向上を図る。前記までの形態素解析方法では、たとえば漢字列(実施例2では、拡張辞書にない漢字列)に対しては、「名詞」,「形容詞:語幹」,「形容動詞:語幹」,「五段動詞:語幹」,「上一段動詞:語基」,「下一段動詞:語基」,「サ変動詞:語幹」等を一律に設定していた。
【0018】しかし、たとえば、「サ変動詞:語幹」や「形容動詞:語幹」は、通常、「調査」や「完全」のように漢語を起源にするため、1漢字のものは極めて少ない。この性質を利用し、1漢字列に対しては、「サ変動詞:語幹」や「形容動詞:語幹」を形態素品詞候補として割り当てない代わりに、1漢字の「サ変動詞:語幹」や「形容動詞:語幹」を拡張辞書に登録する。これらの例としては、「愛(する)」や「楽(だ)」等があるが、その総数は極めて少ないので、辞書のサイズにはほとんど影響しない。
【0019】この他、「上一段動詞」も、「五段動詞」や「下一段動詞」の数と比べるとかなり少ないことが知れているので、「上一段動詞:語幹」を拡張辞書に登録し、漢字列に対する形態素品詞候補からはずすことも妥当であると考えられる。すなわち、上記のような処置により、辞書のサイズは多少大きくなるが、設定される形態素品詞候補が削滅され、効率が向上するとともに、登録された形態素の解析の精度も向上することが期待できる。なお、処理フローにおいては、図3のstep7「文字種ごとの形態素品詞候補の設定」が上記に基づいて変更される。
【0020】次に、実施例4(請求項4)について説明する。本発明の形態素解析方法では、原理的に同一文字種の形態素が連なった複合語が分割できないが、実施例1の最後に述べたように、必ずしも不当ではない。しかし、「解析時」や「徹底的」のように、一般的な名詞の連続でない場合は、これを分割することが望まれる。分割できれば、前者は副詞名詞、後者は形容動詞として認識でき、形態素解析結果として文法的な価値のある結果とすることができる。本実施例では、前記の「時」や「的」のように、接尾辞的に形態素に付く形態素が同一文字種(この場合は漢字)からなる形態素に付いた場合、これらを分割する形態素解析方法を提供する。すなわち、拡張辞書とは別に、これらの形態素の表記とその文字列長を持った接尾辞辞書をもち、図3の処理フロー中のstep6「同一文字種文字列の切り出し」の後で、切り出した文字列の末尾に接尾辞辞書にある形態素をもつか否かを検査し、例えば、切り出し文字列の末尾から一致した接尾辞を切り落とすことで実現する。これにより、次のループで切り落とされた文字列が先頭になって、拡張辞書によって優先的に切り出される。
【0021】次に、実施例(請求項5)について説明する。本実施例は、最長一致の戦略による形態素解析方法に限った場合に効果のある方法である。一般に、本方法は同一文字列の連なった複合語を扱わないので、単純な最長一致法に対して、二文節最長一致法の効果は必ずしも大きくはない。しかし、たとえば、次の2字ひらがな文字列は各々2字と1字づつの2通りの場合があり、単純に最長一致法をとると後者が落ちる場合が生じる。
・のに:接続助詞,準体助詞(の)+格助詞(に)・ので:接続助詞,準体助詞(の)+格助詞(で)・より:格助詞,ラ行五段動詞(よる):語幹+ラ行五段動詞:連用形語尾・なら:助動詞(だ):仮定形,ラ行五段動詞(なる):語幹+ラ行五段動詞:未然形語尾
【0022】本発明は、後者のように形態素の並びの文字列を形態素品詞の並びとして登録可能とし、さらに、その前方あるいは後方の形態素の形態素品詞との接続検査を形態素品詞の並びの最左あるいは最右の形態素品詞とによって行い、最終的にこの並びが確定した場合は、この並びに従って分割することで、本形態素解析方法で生じる最長一致による欠点を補う。具体的には、各形態素辞書(ひらがな付属語辞書,ひらがな自立語辞書,拡張辞書)において、たとえば、次のように形態素品詞と文字数の組の並びを設定することを許す。
・より:ラ行五段動詞(よる):語幹{1}+ラ行五段動詞:連用形語尾{1}この前方の形態素とは「ラ行五段動詞(よる):語幹」、後方の形態素とは「ラ行五段動詞:連用形語尾」により接続検査を行い、これが確定された際には{}内に示された文字数により分割し、・よ:ラ行五段動詞(よる):語幹・り:ラ行五段動詞:連用形語尾とする。これらの処理は、図3の処理フロー中のstep8「前の形態素の形態素品詞候補との接続検査による品詞候補の削除」の中で行えばよい。
【0023】次に、実施例6(請求項6)について説明する。実施例1でも述べた「メッセージを届けること」の「こと」が「形式名詞」か命令を示す「終助詞」かは、従来の形態素解析方法及び本発明の形態素解析方法でも形態素品詞の曖昧さを必ず解消できるとは限らない。前記の例は、本方法の如何に関わらず発生する問題であるが、加えて本発明の方法では充分な形態素辞書を用いていないため、充分な辞書を備えた場合より形態素品詞の曖昧さ解消能力が劣ることが考えられる。本実施例は、形態素解析本来の曖昧さ解消不能な問題及び不十分な辞書に起因する本方法の曖昧さ解消能力の不足を補うために、形態素解析の結果に曖昧さが残る場合に、利用者に問い合せを行うことにより精度を得る。処理の一例としては、図3に示す対象文全体の処理が終了した後、順次形態素結果を検査し、形態素品詞が複数残っているものがあればその旨メッセージを出して、残る形態素品詞候補のどれかの選択を求め、その入力に応じて形態素品詞を確定すればよい。
【0024】次に、実施例7(請求項7)について説明する。本実施例は、実施例6による利用者への問い合せを、精度を余り下げることなく回避するための二つの方法を示す。一つは、しばしば残る曖昧さの組み合せのうち、一方が正しい頻度がかなり高い場合、利用者に問い合せることなく自動的にそれを選択するようにする。これは、この組み合せとその選択側(及び必要に応じて前後の状況)を記述した規則をもち、利用者への問い合せの直前にその規則によって処理すればよい。たとえば、次のような規則が考えられる。
・のに:a:<接続助詞>,b:<準体助詞(の)+格助詞(に)>→a(-1:<>,+1:<>)この規則は、形態素「のに」の形態素品詞候補として上のa,b二つが残っていたら、その前後(-1,+1)の形態素に関わらず、aの接続助詞を選択することを示す。
【0025】もう一つは、もし本発明の形態素解析の結果を利用するアプリケーションが特定の曖昧さの組み合せを解消しなくても不都合が生じない場合に、その曖昧さ解消自体を回避する。たとえば、「っ」は「タ行」,「ラ行」,「ワ行」の「五段動詞:連用形音便語尾」であるが、「買った」等は「買う」が「ワ行五段動詞」であると、辞書にない限りどの行かは確定できない。しかし、この曖昧さは、単に「動詞」+「助動詞(た)」が検出できればよい場合は、必ずしも確定する必要がなく、従って、問い合せを回避しても不都合がない。これも前記と同様な規則を記述し、利用者への問い合せの直前にその規則によって処理すればよい。たとえば、次のような規則が考えられる。
・つ:a:<タ行五段動詞:連用形音便語尾>,b:<ラ行五段動詞:連用形音便語尾>,c:<ワ行五段動詞:連用形音便語尾>(-1:<>,+1:<>)
この規則は、形態素「っ」の形態素品詞候補として上のa,b,c三つが残っていたら、その前後(-1,+1)の形態素に関わらず、利用者への形態素品詞の問合せを回避することを示す。
【0026】次に、実施例8(請求項8)について説明する。本実施例は、前記までの形態素解析方式において得られた形態素の並びを単語の並び(図4参照)にする方式を提供する。たとえば、次のような単語構成を行う。
美:シク活用形容詞:語基→美しく:形容詞(美しい):連用形し:シク活用形容詞:送く:形容詞:連用形語尾これは、次のような単語構成規則を設定し、適用することで得る。
シク活用形容詞:語基+シク活用形容詞:送→形容詞:語幹形容詞:語幹+形容詞:X形語尾→形容詞(1い):X形
【0027】上記規則の左辺は、形態素(単語)の品詞を「+」により区切って並べてあり、右辺はこれらに置き代わるべき形態素(単語)品詞を示す。左辺の並びが形態素の並びに一致したら、その範囲の形態素について表記が接合され、品詞が右辺のものに置き代わる。なお、上記の第2の規則では変数を用いる。左辺のXは、形態素品詞とマッチングがとられて値を得、右辺のXに設定される。また、右辺の1は左辺の第1項の形態素の表記の値がとられる。以下、2,3…は左辺の第2,3…項の形態素の表記の値となる。
【0028】前記の「美:シク活用形容詞:語基」+「し:シク活用形容詞:送」+「く:形容詞連用形語尾」は、第1の規則の適用により、「美し:形容詞:語幹」+「く:形容詞:連用形語尾」となり、次いで第2の規則の適用により、「美しく:形容詞(美しい):連用形」となる。なお、第2の規則適用においては、Xは「連用」、1は「美し」という値となっている。この他、X:連用形+名詞→名詞という規則を設定すれば、たとえば「切れ目」といった派生語を1つの単語として認識することも可能となる。
【0029】次に、実施例9(請求項9)について説明する。本実施例の日本語形態素解析装置は、前記までの形態素解析方法に、日本語文を入力する入力手段と結果を出力する出力手段を設けることで実現する。なお、日本文の入力手段としては、日本語文書ファイルから文を切り出したり、対話的に日本語文を入力するなど複数の入力方法があるが、これらのいずれかに限定するものではないし、複数を備えることも妨げない。また、結果の出力手段についても、その形式,出力媒体については特に規定しない。
【0030】
【効果】以上の説明から明らかなように、本発明によると、以下のような効果がある。
(1)請求項1〜8に対応する効果:本発明の形態素解析方法により、漢字かな混じり日本語の大きなサブセットに対し、極めて小さなサイズの辞書で形態素解析を実現できる。これにより、ハードディスク容量の限られたノート型パーソナルコンピュータ上で形態素解析結果を利用するアプリケーションの実現が容易になる。また、大量の未知分野の文書の形態素解析を必要とする場合にも、未知語登録といった作業を行うことなく形態素解析結果を利用することが可能となる。なお、請求項8の発明によれば、辞書に登録されていない活用語の原形や派生語を抽出することもでき、単語の収集も可能になる。
(2)請求項9に対応する効果:本発明の形態素解析装置により、大きなハードディスク容量や人手のかかる未知語登録を避け、低コストで、日本語文書に対する従来の文字列レベルの処理を形態素解析レベルの処理にレベルアップすることができる。
【図面の簡単な説明】
【図1】 本発明による日本語形態素解析方法に基づく形態素解析結果を示す図である。
【図2】 本発明の実施例1の処理フローを示す図である。
【図3】 本発明の実施例2の処理フローを示す図である。
【図4】 本発明の形態素解析結果を示す図である。
【図5】 従来の形態素解析辞書(一部)を示す図である。
【図6】 従来の隣接形態素品詞接続表(一部)を示す図である。
【図7】 従来の形態素解析結果を示す図である。

【特許請求の範囲】
【請求項1】 形態素辞書及び隣接形態素品詞接続表を備え、漢字かな混じり日本語文を対象にし、前記形態素辞書に基づいて形態素文字列を切り出し、該形態素文字列に形態素品詞候補を付与し、前記隣接形態素品詞接続表に基づき、隣接する形態素品詞を検査することにより、形態素列に分解する日本語形態素解析方法において、前記形態素辞書には、ひらがな文字列だけからなる非自立語の形態素だけを有し、漢字あるいはカタカナ等の同一文字種だけからなる文字列に対しては、前記形態辞書に依らずに複数の特定の形態素品詞候補を付与することを特徴とする日本語形態素解析方法。
【請求項2】 前記形態素辞書が、ひらがな文字列だけからなる自立語の形態素と、漢字あるいはカタカナ等の同一文字種だけからなる文字列からなり、前記特定の形態素品詞候補以外の形態素品詞を有する形態素と、漢字文字列の後にひらがな文字列が連なる形態素をも有することを特徴とする請求項1記載の日本語形態素解析方法。
【請求項3】 前記形態素辞書が、漢字あるいはカタカナ等の同一文字種だけからなる文字列に対して、付与する特定の形態素品詞候補のうち、形態素延べ数が充分少ない形態素品詞の形態素をも有し、該形態素品詞を前記文字列に付与する特定の形態素品詞候補から除くことを特徴とする請求項1又は2記載の日本語形態素解析方法。
【請求項4】 前記漢字文字列の末尾に付きうる漢字文字列からなる形態素をもつ接尾辞辞書を有し、複数の特定の形態素品詞候補を付与するべき漢字文字列に対して、該文字列の末尾に接尾辞辞書にある形態素があれば、該文字列を切り放した後に複数の特定の形態素品詞候補を付与することを特徴とする請求項1,2又は3記載の日本語形態素解析方法。
【請求項5】 前記形態素辞書に、複数の形態素の並んだ複合形態素に対し、形態素品詞として形態素品詞とその文字数の並びを与えてもつことを許し、隣接形態素品詞接続表に基づく、前記複合形態素と隣接する形態素との接続検査を、前の形態素に対しては並びの最左の形態素品詞により行い、次の形態素に対しては並びの最右の形態素品詞により行い、前記複合形態素が確定した場合は、前記文字列を形態素品詞とその文字数の並びに応じて分割することを特徴とする請求項1,2,3又は4記載の日本形態素解析方法。
【請求項6】 前記形態素品詞候補をただ一つに確定できない場合に、形態素品詞候補の確定を問い合わせることを特徴とする請求項1,2,3,4又は5記載の日本語形態素解析方法。
【請求項7】 前記形態素品詞候補をただ一つに確定できない場合に、形態素品詞候補の確定を問い合わせる代わりに、■形態素品詞候補の組合せに対し、該形態素品詞候補の前後の形態素品詞の状況と合わせ、どれか一つが高い頻度で選択されることが期待される場合に、該選択された形態素品詞に確定すること、■形態素品詞候補の組合せに対し、形態素延べ数が少ない形態素品詞の形態素だけをもつ辞書を備え、該辞書にあるか否かにより、形態素品詞候補に確定するか廃棄するかを行うこと、■形態素品詞候補をただ一つに確定しなくても、不都合が生じない組合せに対し、形態素品詞候補をただ一つに確定することを行わないこと、のうち1つ以上を有することを特徴とする請求項1〜6のいずれかに記載の日本語形態素解析方法。
【請求項8】 形態素の並びから単語を生成する単語構成規則を有し、前記単語構成規則に基づき、分割された形態素の並びの中から単語を融合することを特徴とする請求項1〜7のいずれかに記載の日本語形態素解析方法。
【請求項9】 日本語文を入力する入力手段と、形態素解析結果を出力する出力手段とを有し、請求項1〜8のいずれかに記載の日本語形態素解析方法に基づいたことを特徴とする日本語形態素解析装置。

【図4】
image rotate


【図1】
image rotate


【図2】
image rotate


【図7】
image rotate


【図3】
image rotate


【図6】
image rotate


【図5】
image rotate


【公開番号】特開平5−298353
【公開日】平成5年(1993)11月12日
【国際特許分類】
【出願番号】特願平4−126851
【出願日】平成4年(1992)4月20日
【出願人】(000006747)株式会社リコー (37,907)