形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム

【課題】解析対象のテキスト上で隣接し、単語辞書に分けて登録された名詞類の単語の組の読みの解析精度を向上させる。
【解決手段】第１単語辞書18には形態素解析の解析精度を考慮して選択された単語が登録され、第２単語辞書20には第１単語辞書18に未登録の単語が追加登録される。単語連接可能性判定部16は、学習用テキストコーパス34に含まれるテキスト上で、「の」等の特定単語を挟んでその前後に存在している名詞類の単語で、一方が第２単語辞書20に登録された単語の組を単語連接可能性テーブル24に登録し、前記単語の組と第１単語辞書18に登録された単語が相違する別の単語の組に対する減点値も算出・登録する。形態素解析部14は解析対象テキスト32の形態素解析にあたり、解析対象テキスト32上で隣接する名詞類の単語の組で、一方が第２単語辞書20に登録され、単語連接可能性テーブル24に登録されていない単語の組の接続評価値から前記減点値を減算する。

【発明の詳細な説明】
【技術分野】
【０００１】
開示の技術は形態素解析装置、形態素解析方法、形態素解析プログラム、音声合成装置、音声合成方法、及び、音声合成プログラムに関する。
【背景技術】
【０００２】
形態素解析は、自然言語処理の基礎技術の１つであり、自然言語で記述されたテキストを、形態素(意味を有する最小の言語形態)毎に分割し、テキストの読み等を解析するものである。形態素解析を利用した技術として以下の技術が知られている(特許文献１〜４)。
【０００３】
例えば、テキストから有用な情報をキーワードとして抽出するテキストマイニングにおいて、形態素解析を利用し、キーワードとして複合名詞を抽出する技術が知られている。この技術は、まず、文書データを形態素解析した後、形態素の品詞情報で品詞結合規則を参照し、連続する形態素が結合規則に適合する場合に、その連続する形態素を複合名詞候補として、複合名詞候補データを得る。次に、複合名詞候補を構成する先頭の形態素、末尾の形態素それぞれについて、文字列頻度データを参照して先頭の形態素の前方スコア、末尾の形態素の後方スコアを取得する。そして、両スコアがともにスコア設定値より大きい場合に、先頭の形態素から末尾の形態素までの文字列を複合名詞として抽出する。
【０００４】
また、例えば、テキスト検索に用いるキーワードの抽出と絞込みを形態素解析を利用して行う技術も知られている。この技術は、テキストに形態素解析を実施して単純名詞集合を生成し、複合名詞集合やカタカナ名詞集合、名詞要素に挟まれた連体化助詞「の」が存在する場合に、それらの名詞要素を連体化助詞「の」を介して結合した連体名詞集合を生成する。
【０００５】
また、例えば、テキスト検索に用いるキーワードの抽出を形態素解析を利用して行う他の技術も知られている。この技術は、キーワードの抽出漏れを回避するために、入力されたテキストを形態素解析して形態素出現確率を計算し、形態素出現確率に対応する形態素の重要度に基づき、各単語の頻度情報を算出し、頻度情報付き単語集合を生成する。
【０００６】
また、例えばテキスト検索に用いるキーワードの抽出を形態素解析を利用して行う更に他の技術も知られている。この技術は、文字列を複数の形態素に分解し、各形態素の品詞を判定し、各形態素から連続する第１の数かつ所定品詞の形態素で構成される形態素群を各々抽出し、抽出した各形態素群を構成する各形態素と当該各形態素の各品詞との組み合わせを各々算出する。そして、算出した組み合わせのうち、複数の形態素群間で共通する組み合わせの出現頻度が所定の閾値以上の場合に、共通する組み合わせを、任意の文字列に含まれる複数の形態素を複合するための形態素複合ルールとして抽出する。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開２０１１−０５９７５４号公報
【特許文献２】特開２００６−００４２８３号公報
【特許文献３】特開２００６−２４３９７６号公報
【特許文献４】特開２０１０−００９３５５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
形態素解析は、単語が読み等と対応付けて登録された単語辞書を用い、解析対象のテキストを単語辞書と照合し、単語辞書に登録された単語を単位として分解した上で、解析対象のテキスト上で隣接する単語の組の接続可能性を評価する処理を含んでいる。このため、形態素解析の解析精度は単語辞書にどのような単語が登録されているかに依存する。
【０００９】
ここで、複数の名詞類の単語を組み合わせた複合名詞が解析対象のテキスト上に存在していた場合、当該複合名詞は、形態素解析では、単語辞書に登録された複数の単語の組み合わせとして解析される。一方、日本語等の自然言語には、テキスト上での表記が同一で読み(及び意味)が異なる単語が存在しており、このような単語は、異なる読みと対応付けされて単語辞書に重複登録される。このため、解析対象のテキスト上に存在している複合名詞が、テキスト上での表記が同一で読みが異なる単語を含む場合、形態素解析で複合名詞の読みを正しく解析できないことがある、という課題がある。
【００１０】
これに対し、形態素解析を利用した前述の技術は、品詞や出現頻度等に基づいて複合名詞を含むキーワードをテキストから抽出する技術であり、形態素解析における複合名詞の読みの解析精度の向上に寄与するものではない。
【００１１】
開示の技術は、解析対象のテキスト上で隣接し、単語辞書に分けて登録された名詞類の単語の組の読みの解析精度を向上させることが目的である。
【課題を解決するための手段】
【００１２】
開示の技術は、複数の単語が少なくとも個々の単語の品詞と対応付けて各々登録された単語辞書を第１記憶部に記憶する。また、単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として第２記憶部に記憶する。また、単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求める。また、単語辞書に各々登録されかつ解析対象のテキスト上で隣接している単語の組のうち、連接可能な単語の組として第２記憶部に記憶されていない名詞類の単語の組について、接続評価値が最大となる単語の組み合わせに含まれないように接続評価値を減少させる。そして、接続評価値が最大となる単語の組み合わせに基づいて解析対象のテキストの形態素解析を行う。
【発明の効果】
【００１３】
開示の技術は、解析対象のテキスト上で隣接し、単語辞書に分けて登録された名詞類の単語の組の読みの解析精度が向上する、という効果を有する。
【図面の簡単な説明】
【００１４】
【図１】実施形態で説明した音声合成装置の機能ブロック図である。
【図２】音声合成装置として機能するコンピュータの概略ブロック図である。
【図３】第１単語辞書の一例を示す概略図である。
【図４】第２単語辞書の一例を示す概略図である。
【図５】単語品詞間接続評価値テーブルの一例を示す概略図である。
【図６】連接可能性テーブル生成処理のフローチャートである。
【図７】連接可能性テーブル生成処理を説明するための概略図である。
【図８】連接可能な単語の組の判定を説明するための概略図である。
【図９】連接不可の単語の組に対する減点値の演算を説明するための概略図である。
【図１０】連接可能な単語の組の判定を説明するための概略図である。
【図１１】連接不可の単語の組に対する減点値の演算を説明するための概略図である。
【図１２】形態素解析処理のフローチャートである。
【図１３】連接可能性テーブルを用いた形態素解析を説明するための概略図である。
【図１４】連接可能性テーブルを用いた形態素解析を説明するための概略図である。
【図１５】連接可能性テーブルを用いた形態素解析を説明するための概略図である。
【図１６】連接可能性テーブルを用いた形態素解析を説明するための概略図である。
【図１７】連接可能性テーブルを用いない形態素解析の問題点を説明するための概略図である。
【図１８】連接可能性テーブルを用いない形態素解析の問題点を説明するための概略図である。
【発明を実施するための形態】
【００１５】
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。図１には、本実施形態に係る音声合成装置１０が示されている。音声合成装置１０はテキストから当該テキストを読み上げる音声を合成する処理を行う。音声合成装置１０は形態素解析装置１２、係り受け解析部３８、表音文字列生成部４０及び音声合成部４２を備えている。形態素解析装置１２は、形態素解析部１４、単語連接可能性判定部１６、第１単語辞書１８及び第２単語辞書２０を記憶する第１記憶部２２、単語連接可能性テーブル２４を記憶する第２記憶部２６を備えている。また形態素解析装置１２は、単語品詞間接続評価値テーブル２８を記憶する第３記憶部３０、解析対象テキスト３２及び学習用テキストコーパス３４を記憶する第４記憶部３６を備えている。
【００１６】
音声合成装置１０は、例えば図２に示すコンピュータ７０で実現することができる。コンピュータ７０はＣＰＵ７２、メモリ４４、不揮発性の記憶部４６、キーボード４８、マウス５０、ディスプレイ５２、スピーカ５４を備え、これらはバス５６を介して互いに接続されている。なお、記憶部４６はＨＤＤ(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部４６には、コンピュータ７０を音声合成装置１０として機能させるための音声合成プログラム５８、第１単語辞書１８、第２単語辞書２０、単語連接可能性テーブル２４、単語品詞間接続評価値テーブル２８が各々記憶されている。また記憶部４６には、解析対象テキスト３２及び学習用テキストコーパス３４も記憶されている。ＣＰＵ７２は、音声合成プログラム５８を記憶部４６から読み出してメモリ４４に展開し、音声合成プログラム５８が有するプロセスを順次実行する。
【００１７】
音声合成プログラム５８は、形態素解析プロセス６０、単語連接可能性判定プロセス６２、係り受け解析プロセス６４、表音文字列生成プロセス６６及び音声合成プロセス６８を有する。ＣＰＵ７２は、形態素解析プロセス６０を実行することで、図１に示す形態素解析部１４として動作する。またＣＰＵ７２は、単語連接可能性判定プロセス６２を実行することで、図１に示す単語連接可能性判定部１６として動作する。またＣＰＵ７２は、係り受け解析プロセス６４を実行することで、図１に示す係り受け解析部３８として動作する。またＣＰＵ７２は、表音文字列生成プロセス６６を実行することで、図１に示す表音文字列生成部４０として動作する。またＣＰＵ７２は、音声合成プロセス６８を実行することで、図１に示す音声合成部４２として動作する。
【００１８】
なお、音声合成プログラム５８は開示の技術における音声合成プログラムの一例であり、音声合成プログラム５８に含まれる形態素解析プロセス６０は開示の技術における形態素解析プログラムの一例である。
【００１９】
音声合成装置１０がコンピュータ７０で実現される場合、第１単語辞書１８及び第２単語辞書２０を記憶する記憶部４６は第１記憶部２２として用いられ、メモリ４４の一部領域は第１単語辞書１８及び第２単語辞書２０として用いられる。また、単語連接可能性テーブル２４及び単語品詞間接続評価値テーブル２８を記憶する記憶部４６は第２記憶部２６及び第３記憶部３０として用いられ、メモリ４４の一部領域は単語連接可能性テーブル２４及び単語品詞間接続評価値テーブル２８として用いられる。また、解析対象テキスト３２及び学習用テキストコーパス３４を記憶する記憶部４６は第４記憶部３６として用いられ、メモリ４４の一部領域は解析対象テキスト３２及び学習用テキストコーパス３４の記憶領域として用いられる。これにより、音声合成プログラム５８を実行したコンピュータ７０が、音声合成装置１０として機能することになる。
【００２０】
第１単語辞書１８には、例として図３に示すように、複数の単語について「表記」「品詞」及び「読み」の各情報が対応付けて各々登録されている。なお、図３には第１単語辞書１８に登録されている単語のうちの一部のみを示しており、第１単語辞書１８には、後述する形態素解析の解析精度を考慮して選択された多数の単語の情報が各々登録されている。また第２単語辞書２０には、例えば図４に示すように、複数の単語について「表記」「品詞」及び「読み」の各情報が対応付けて登録されている。第２単語辞書２０は、第１単語辞書１８に未登録の単語の情報を追加登録するための単語辞書であり、例えば学習用テキストコーパス３４等に含まれるテキスト中の単語のうち、第１単語辞書１８に未登録の単語の情報が追加登録される。
【００２１】
単語品詞間接続評価値テーブル２８には、例として図５に示すように、各種品詞の単語の組み合わせについて、テキスト上での接続可能性を表す接続評価値が各々登録されている。例えば図５では、普通名詞の単語と接尾語の単語との接続評価値(テキスト上で普通名詞の単語に続いて接尾語の単語が存在している可能性の高さ)として"-100"が、接頭語の単語と普通名詞の単語との接続評価値として"-100"が設定されている。また、図５に"※"で示されている組み合わせには、接続可能性が無いことを表す接続評価値(図５では一例として"-1000000")が設定されている。
【００２２】
形態素解析装置１２の形態素解析部１４は、形態素解析対象のテキスト(解析対象テキスト３２又は学習用テキストコーパス３４のテキスト)に対し、以下のような形態素解析を行う。すなわち、形態素解析部１４は、形態素解析対象のテキストに含まれ第１単語辞書１８又は第２単語辞書２０に登録されている単語を第１単語辞書１８又は第２単語辞書２０から抽出し、抽出した個々の単語の品詞を特定する。また形態素解析部１４は、単語品詞間接続評価値テーブル２８に登録された接続評価値に基づき、形態素解析対象のテキスト上で隣接している個々の単語の組の接続可能性を評価する。そして形態素解析部１４は、接続可能性の評価結果に基づいて形態素解析対象のテキストの読みを判定する。形態素解析部１４は開示の技術における形態素解析部の一例として機能する。
【００２３】
単語連接可能性判定部１６は、学習用テキストコーパス３４のテキストから、テキスト上で連接可能な名詞類の単語の組(一対の単語)を特定し、特定した単語の組を登録した単語連接可能性テーブル２４を生成する。単語連接可能性判定部１６は開示の技術における連接可能性判定部の一例として機能する。なお、単語連接可能性判定部１６による処理の詳細及び単語連接可能性テーブル２４の内容については後述する。
【００２４】
解析対象テキスト３２は、形態素解析装置１２の形態素解析部１４によって形態素解析が行われた後に、後述する係り受け解析や表音文字列の生成を経て当該テキストを読み上げる音声の合成が行われるテキストである。本実施形態では、解析対象テキスト３２が第４記憶部３６に予め記憶されている態様を説明するが、解析対象テキスト３２は、例えば、キーボード４８を介して利用者によって入力され、メモリ４４に記憶される構成であってもよい。また解析対象テキスト３２は、例えば、外部の情報処理装置に設けられた入力デバイスを介して入力され、当該テキストが前記外部の情報処理装置から通信によって受信されてメモリ４４に記憶される構成であってもよい。
【００２５】
学習用テキストコーパス３４は、第１単語辞書１８に未登録の単語を取得するためのテキスト群であり、第２単語辞書２０に単語を登録する目的や第２単語辞書２０の用途に応じたテキストが選択される。例えば、第１単語辞書１８に未登録の新語や時事用語等を第２単語辞書２０に登録したい場合、学習用テキストコーパス３４としては、新聞記事や雑誌の記事等のテキストが選択される。また、例えば、第１単語辞書１８に未登録の特定分野の用語等を第２単語辞書２０に登録したい場合、学習用テキストコーパス３４としては、特定分野の論文やマニュアル等のテキストが選択される。本実施形態では、学習用テキストコーパス３４が第４記憶部３６に予め記憶されている態様を説明するが、学習用テキストコーパス３４は、例えば、外部の情報処理装置から通信によって受信されてメモリ４４に記憶される構成であってもよい。また、学習用テキストコーパス３４としてのテキスト群は、第４記憶部３６又はメモリ４４に一纏めに記憶されることに限られるものではなく、例えば個々のテキストがインターネット等のコンピュータネットワーク上に分散されて記憶されていてもよい。
【００２６】
係り受け解析部３８は、形態素解析装置１２によって解析対象テキスト３２の形態素解析が行われた結果に基づき、解析対象テキスト３２に対して係り受け解析を行う。係り受け解析部３８は開示の技術における係り受け解析部の一例として機能する。また、表音文字列生成部４０は、係り受け解析部３８によって解析対象テキスト３２の係り受け解析が行われた結果に基づき、解析対象テキスト３２の読みを表す文字列に、少なくともアクセントやフレーズの区切りなどを表す情報を付加した表音文字列を生成する。表音文字列生成部４０は開示の技術における表音文字列生成部の一例として機能する。また、音声合成部４２は表音文字列生成部４０によって生成された表音文字列に基づき、生成された表音文字列を読み上げる音声を合成する音声合成処理を行う。音声合成部４２は開示の技術における音声合成部の一例として機能する。
【００２７】
次に本実施形態の作用を説明する。解析対象テキスト３２から当該解析対象テキスト３２を読み上げる音声を合成するにあたって読みの精度を確保するためには、解析対象テキスト３２に含まれる単語を特定する形態素解析の精度の向上が重要であり、形態素解析に用いる単語辞書の充実が必須となる。しかし、単語辞書に闇雲に単語を追加していくと形態素解析の解析精度に悪影響を及ぼす場合があるので、形態素解析で適切な結果が得られるように登録単語を選択する必要があり、効率的に単語辞書を充実させることは難しい。一方で、自然言語で記述されたテキストに出現する固有名詞や専門用語などの単語は限りがなく、単語辞書に多数の単語を効率的に登録することも求められる。
【００２８】
上記に基づき、本実施形態では、第１単語辞書１８と第２単語辞書２０を設けており、第１単語辞書１８には、形態素解析の解析精度を考慮して選択された単語の情報が予め各々登録され、第２単語辞書２０には第１単語辞書１８に未登録の単語が追加登録される。第２単語辞書２０に対しては、例えば、学習用テキストコーパス３４から単語の「表記」「品詞」及び「読み」を自動収集し、これらの情報を自動登録する処理を適用することができる。例えば、学習用テキストコーパス３４に含まれるテキストに「骨器(コッキ)」という文字列が存在していれば、これは単語の表記と読みを示している可能性が高いことから、これらを収集して第２単語辞書２０に登録することができる。
【００２９】
但し、前述のように、第２単語辞書２０に追加登録した単語が形態素解析に悪影響を及ぼすことがある。以下、図１７,１８を参照して具体例を説明する。なお、以下の具体例では、第１単語辞書１８に図３に示した情報が登録され、第２単語辞書に図４に示した情報が登録され、単語品詞間接続評価値テーブル２８に図５に示した情報が登録されているものとする。
【００３０】
図１７はテキスト「打製骨器」に対して形態素解析を行った場合を示す。形態素解析では、まず、第１単語辞書１８又は第２単語辞書２０に登録され、テキスト「打製骨器」に含まれている単語が第１単語辞書１８及び第２単語辞書２０から全て抽出される。図１７の例では、普通名詞の単語「骨器(コッキ)」のみが第２単語辞書２０から抽出され、その他の単語は第１単語辞書１８から抽出される。形態素解析では、次に、接続の可能性のある全ての単語の組に対し、単語品詞間接続評価値テーブル２８を参照して、品詞同士の接続評価値を求める。例えば、普通名詞の単語「打製(ダセー)」と接尾語の単語「骨（ボネ）」は接続評価値＝-100であり、接続可能性が比較的高いことを表している。一方、先頭と接尾語の単語「打(ダ)」は、接尾語が文頭にあることは考えにくいことから、接続評価値＝-1000000となり、接続可能性が非常に低いことを表している。
【００３１】
全ての単語の組について接続評価値を求めたら、接続評価値の合計が最大となる単語の組み合わせ(パス)を求め、求めたパスに対応する読みを形態素解析の解析結果として出力する。図１７の例では、
『先頭−普通名詞「打製(ダセー)」−普通名詞「骨器(コッキ)」−末尾』
のパスの接続評価値が最大(＝-2150)となるため、このパスに対応する読み「ダセー・コッキ」が形態素解析の解析結果として出力される。
【００３２】
また図１８は「符号化法」に対して形態素解析を行った場合を示す。まずテキスト「符号化法」に含まれる単語が第１単語辞書１８及び第２単語辞書２０から全て抽出される。図１８の例では、普通名詞の単語「化法(ケホー)」のみが第２単語辞書２０から抽出され、その他の単語は第１単語辞書１８から抽出される。次に、接続の可能性のある全ての単語の組に対し、単語品詞間接続評価値テーブル２８を参照して、品詞同士の接続評価値を求め、接続評価値の合計が最大となる単語の組み合わせ(パス)を求める。結果は下記の通りである。
【００３３】
・パス１
『先頭−普通名詞「符号(フゴー)」−普通名詞「化法(ケホー)」−末尾』
接続評価値の合計＝-2150
・パス２
『先頭−普通名詞「符号(フゴー)」−接尾語「化(カ)」−接尾語「法(ホー)」−末尾』
接続評価値の合計＝-2200
この場合、パス２に対応する読み「フゴー・カ・ホー」の方が正しいにも拘わらず、パス１に対応する読み「フゴー・ケホー」が形態素解析の解析結果として出力されることになる。
【００３４】
このように、第２単語辞書２０を使用した場合、図１７に示す例のような場面では形態素解析の精度を向上させることができるものの、図１８に示す例のような別の場面では形態素解析の精度に悪影響を及ぼす。これを解決するために、第１単語辞書１８よりも優先度を下げて第２単語辞書２０を使用することも考えられるが、第２単語辞書２０の優先度を低下させると第２単語辞書２０を使用することによる効果も小さくなる。
【００３５】
一方、或るテキスト上で「の」「が」「に」「を」「な」「する」「した」等の特定単語を挟んでその前後に名詞類(普通名詞や固有名詞、接頭語、接尾語等)の単語が存在している場合、上記名詞類の単語の組は別のテキスト上で連接している可能性がある。逆に、或る名詞類の単語の組が特定単語を挟んでその前後に位置しているテキストが存在していない場合、当該単語の組は別のテキスト上で連接している可能性が乏しいと判断できる。上記を考慮して本実施形態では、第２記憶部２６に単語連接可能性テーブル２４を記憶させると共に、単語連接可能性テーブル２４に情報を登録する単語連接可能性判定部１６を設けている。以下、まず図６を参照し、形態素解析部１４及び単語連接可能性判定部１６によって実現される連接可能性テーブル生成処理を説明する。なお、この連接可能性テーブル生成処理は、形態素解析部１４が解析対象テキスト３２に対して形態素解析を行うのに先立って行われる。
【００３６】
連接可能性テーブル生成処理のステップ１００において、形態素解析部１４は、第１記憶部２２に記憶されている学習用テキストコーパス３４からの１単位のテキストの取得を試行する。次のステップ１０２において、形態素解析部１４は、ステップ１００で学習用テキストコーパス３４から１単位のテキストを取得できたか否か判定する。ステップ１００で学習用テキストコーパス３４から１単位のテキストを取得できた場合、ステップ１０２の判定が肯定されてステップ１０４へ移行する。なお、ステップ１０２の判定が否定された場合、形態素解析部１４は連接可能性テーブル生成処理を終了する。
【００３７】
ステップ１０４において、形態素解析部１４は、形態素解析として、第１単語辞書１８又は第２単語辞書２０に登録され、ステップ１００で取得したテキストに含まれている単語が第１単語辞書１８及び第２単語辞書２０から全て抽出する処理を行う。なお、本実施形態では、ステップ１０４の形態素解析で抽出された単語の総数を"Ｎ"とする。
【００３８】
次のステップ１０６において、単語連接可能性判定部１６は、形態素解析部１４による形態素解析の解析結果(総数Ｎ個の単語の情報)を取得した後に、個々の単語を識別するための変数ｉに０を代入する。ステップ１０８において、単語連接可能性判定部１６は、変数ｉが、単語の総数Ｎから２を減じた値よりも小さいか否か判定する。ステップ１０８の判定が肯定された場合はステップ１１０へ移行し、単語連接可能性判定部１６は、Ｎ個の単語のうちのｉ番目の単語の品詞が名詞類で、ｉ＋１番目の単語が特定単語で、ｉ＋２番目の単語の品詞が名詞類か否か判定する。なお、ステップ１１０の判定における特定単語としては、前述の「の」「が」「に」「を」「な」「する」「した」等の何れかが挙げられる。
【００３９】
ステップ１１０の判定が否定された場合、ｉ番目及びｉ＋２番目の少なくとも一方の単語の品詞が名詞類でないか、ｉ＋１番目の単語が特定単語でないので、ｉ番目の単語とｉ＋２番目の単語とが別のテキスト上で連接する可能性が高いとは判断できない。このため、単語連接可能性判定部１６は、ステップ１１０の判定が否定された場合はステップ１１８へ移行し、変数ｉを１だけインクリメントしてステップ１０８に戻る。
【００４０】
また、ステップ１１０の判定が否定された場合、ｉ番目及びｉ＋２番目の単語は何れも品詞が名詞類で、かつｉ＋１番目の単語が特定単語であるので、ｉ番目の単語とｉ＋２番目の単語とが別のテキスト上で連接する可能性が高いと判断できる。このため単語連接可能性判定部１６は、ステップ１１０の判定が肯定された場合はステップ１１２へ移行し、ｉ番目の単語又はｉ＋２番目の単語が第２単語辞書２０に登録されているか否かを判定する。
【００４１】
単語連接可能性判定部１６は、ステップ１１２の判定が肯定されるとステップ１１４へ移行する。ステップ１１４では、ｉ番目の単語とｉ＋２番目の単語の組に対して第１単語辞書１８に登録されている一方の単語が相違する連接不可の単語の組に対する接続評価値の減点値を算出する。ここで、連接不可の単語の組に対する接続評価値の減点値は、形態素解析部１４による形態素解析において、連接不可の単語の組が出現した場合に、当該連接不可の単語の組が、接続評価値が最大となる単語の組み合わせに含まれないように算出される。
【００４２】
具体的には、ステップ１０４の形態素解析で抽出された単語の中から、ｉ番目の単語及びｉ＋２番目の単語のうち第２単語辞書２０に登録されている単語(第２単語辞書登録単語)とテキストの同一部分に対応する単語を全て抽出する。次に、普通名詞の単語として、第２単語辞書登録単語がｉ＋２番目の単語であれば直前の単語を、第２単語辞書登録単語がｉ番目の単語であれば直後の単語を含み、第２単語辞書登録単語又は抽出した単語を含む全ての単語のパスについて接続評価値を求める。そして、各パス毎に求めた接続評価値を比較し、直前の単語又は直後の単語と第２単語辞書登録単語とを含むパスの接続評価値が最大の場合には、当該パスの接続評価値が降順で２番目以降の値に減少させるための減点値を求める。
【００４３】
また、ステップ１１６において、単語連接可能性判定部１６は、ｉ番目の単語とｉ＋２番目の単語の組を、連接可能な単語の組として単語連接可能性テーブル２４に登録すると共に、ステップ１１４で算出した減点値も対応付けて登録する。そして単語連接可能性判定部１６は、次のステップ１１８において変数ｉを１だけインクリメントしてステップ１０８に戻る。なお、単語連接可能性判定部１６は、ステップ１１２の判定が否定された場合には、ステップ１１４,１１６をスキップしてステップ１１８へ移行し、変数ｉを１だけインクリメントしてステップ１０８に戻る。
【００４４】
上述した連接可能性テーブル生成処理について、一例を挙げて更に説明する。図７には、学習用テキストコーパス３４に含まれるテキストの一例、第１単語辞書１８及び第２単語辞書２０に登録された単語の一例が各々示されている。また、図８には、図７に示したテキストのうち「…から打製の骨器が大量に…」の第１のテキストに対して連接可能性テーブル生成処理を行った場合が示されており、図９には、この場合における減点値の算出例が示されている。
【００４５】
第１のテキストに対して形態素解析部１４がステップ１０４の形態素解析を行った場合、図８に示す各単語のうち、普通名詞の単語「骨器(コッキ)」のみが第２単語辞書２０から抽出され、その他の単語は第１単語辞書１８から抽出される。また、「ｉ番目及びｉ＋２番目の単語の品詞が名詞類で一方が第２単語辞書２０に登録され、ｉ＋１番目の単語が特定単語」の条件を満たす単語列として、以下の単語列が抽出される。
『普通名詞「打製(ダセー)」−助詞「の」−普通名詞「骨器(コッキ)」』
【００４６】
上記条件を満たす単語列におけるｉ番目の単語とｉ＋２番目の単語の組は、「打製骨器(ダセー・コッキ)」のように、別のテキスト上で連接する可能性が高いと判断できる。このため、図７に示すように、上記条件を満たす単語列のｉ番目の単語「打製(ダセー)」とｉ＋２番目の単語「骨器(コッキ)」の組は単語連接可能性テーブル２４に登録される。図７に示すように、単語連接可能性テーブル２４は、連接可能な単語の組のうち第２単語辞書登録単語を主単語として登録する構成であり、第１単語辞書登録単語がｉ番目の単語であれば、第１単語辞書登録単語は主単語に対する先行可能単語として登録される。また、第１単語辞書登録単語がｉ＋２番目の単語であれば、第１単語辞書登録単語は後続可能単語として登録される。この例では、ｉ＋２番目の単語「骨器(コッキ)」が第２単語辞書２０に登録されているので、ｉ＋２番目の単語「骨器(コッキ)」が主単語として、ｉ番目の単語「打製(ダセー)」が先行可能単語として、単語連接可能性テーブル２４に各々登録される。
【００４７】
続いて図９を参照し、この例における減点値の演算を説明する。図９(Ａ)に示すように、この例における第２単語辞書登録単語(主単語)とテキストの同一部分に対応する単語としては、接尾語「骨(ボネ)」、接尾語「器(キ)」、普通名詞「骨(ホネ)」及び普通名詞「器(ウツワ)」が第１単語辞書１８から各々抽出される。また、この例では第１単語辞書登録単語は先行可能単語であることから、次に、普通名詞の直前単語を含み、主単語又は抽出した単語を含む全ての単語列(単語のパス)について接続評価値が各々算出される。結果は下記の通りである(図９(Ｂ)も参照)。
【００４８】
・パス１
『普通名詞−接尾語「骨(ボネ)」−接尾語「器(キ)」』：接続評価値の合計＝-200
・パス２
『普通名詞−接尾語「骨(ホネ)」−接尾語「器(キ)」』：接続評価値の合計＝-250
・パス３
『普通名詞−普通名詞「骨器(コッキ)」』：接続評価値の合計＝-150
なお、上記では普通名詞「器(ウツワ)」は直前の単語との接続評価値が接尾語「器(キ)」よりも低いことから、普通名詞「器(ウツワ)」を通るパスの明示を省略している。
【００４９】
上記の結果から、解析対象テキスト３２上で単語「骨器」の直前に名詞類の単語が存在していた場合、当該単語が先行可能単語「打製(ダセー)」以外の場合でも、第２単語辞書２０に登録された単語「骨器(コッキ)」を含むパス(パス３)の接続評価値が最大となる。このため、単語「骨器」の直前の単語が単語「打製(ダセー)」以外の場合には、パス３の接続評価値が降順で２番目以降の値に減少させるための減点値を求める。具体的には、図９(Ｃ)に示すように、パス３の接続評価値(＝-150)からパス３以外で接続評価値が最大のパスの接続評価値(パス１の接続評価値＝-200)を減算し、それに所定値(図９(Ｃ)の例では"1")を加算した値(＝51)を減点値とする。この例では主単語と連接可能な単語は先行可能単語であることから、算出した減点値は先行可能単語と対応付けて単語連接可能性テーブル２４に登録される。
【００５０】
また、図１０には、図７に示したテキストのうち「…が多価の関数に…」の第２のテキストに対して連接可能性テーブル生成処理を行った場合が示されており、図１１には、この場合における減点値の算出例が示されている。第２のテキストに対して形態素解析部１４がステップ１０４の形態素解析を行った場合、図１０に示す各単語のうち、普通名詞の単語「多価(タカ)」のみが第２単語辞書２０から抽出され、その他の単語は第１単語辞書１８から抽出される。また、「ｉ番目及びｉ＋２番目の単語の品詞が名詞類で一方が第２単語辞書２０に登録され、ｉ＋１番目の単語が特定単語」の条件を満たす単語列として、以下の単語列が抽出される。
『普通名詞「多価(タカ)」−助詞「の」−普通名詞「関数(カンスウ)」』
【００５１】
上記条件を満たす単語列におけるｉ番目の単語とｉ＋２番目の単語の組は、「多価関数(タカ・カンスウ)」のように、別のテキスト上で連接する可能性が高いと判断できる。このため、図７に示すように、上記条件を満たす単語列のｉ番目の単語「多価(タカ)」とｉ＋２番目の単語「関数(カンスウ)」の組は単語連接可能性テーブル２４に登録される。なお、この例では、ｉ番目の単語「多価(タカ)」が第２単語辞書２０に登録されているので、ｉ番目の単語「多価(タカ)」が主単語として、ｉ＋２番目の単語「関数(カンスウ)」が後続可能単語として、単語連接可能性テーブル２４に各々登録される。
【００５２】
続いて図１１を参照し、この例における減点値の演算を説明する。図１１(Ａ)に示すように、この例における第２単語辞書登録単語(主単語)とテキストの同一部分に対応する単語としては、接頭語「多(タ)」、形容詞語幹「多(オオ)」及びサ変名詞「価(アタイ)」が第１単語辞書１８から各々抽出される。また、この例では第１単語辞書登録単語は後続可能単語であることから、次に、普通名詞の直後単語を含み、主単語又は抽出した単語を含む全ての単語列(単語のパス)について接続評価値が各々算出される。結果は下記の通りである(図１１(Ｂ)も参照)。
【００５３】
・パス１
『接頭語「多(タ)」−サ変名詞「価(アタイ)」−普通名詞』：接続評価値の合計＝-250
・パス２
『普通名詞「多価(タカ)」−普通名詞』：接続評価値の合計＝-150
なお、上記では形容詞語幹「多(オオ)」は直後の単語「価(アタイ)」との接続評価値が接頭語「多(タ)」よりも低いことから、形容詞語幹「多(オオ)」を通るパスの明示を省略している。
【００５４】
上記の結果から、解析対象テキスト３２上で単語「多価」の直後に名詞類の単語が存在していた場合、当該単語が後続可能単語「関数(カンスウ)」以外の場合でも、第２単語辞書２０に登録された単語「多価(タカ)」を含むパス(パス２)の接続評価値が最大となる。このため、単語「多価」の直後の単語が単語「関数(カンスウ)」以外の場合には、パス２の接続評価値が降順で２番目以降の値に減少させるための減点値を求める。具体的には、図１１(Ｃ)に示すように、パス２の接続評価値(＝-150)からパス２以外で接続評価値が最大のパスの接続評価値(パス１の接続評価値＝-250)を減算し、それに所定値(図１１(Ｃ)の例では"1")を加算した値(＝101)を減点値とする。この例では主単語と連接可能な単語は後続単語であることから、算出した減点値は後続可能単語と対応付けて単語連接可能性テーブル２４に登録される。
【００５５】
同様に、例えば図７に示した第３のテキスト「…発見された最古の骨器は…」に対して連接可能性テーブル生成処理を行うことで、「最古(サイコ)」が「骨器(コッキ)」に対応する先行可能単語として単語連接可能性テーブル２４に登録される。また、例えば図７に示した第４のテキスト「…骨器の製作が行われた…」に対して連接可能性テーブル生成処理を行うことで、「製作(セイサク)」が「骨器(コッキ)」に対応する後続可能単語として単語連接可能性テーブル２４に登録される。また、対応する減点値(＝51)が算出され、主単語「骨器(コッキ)」の後続可能単語と対応付けて単語連接可能性テーブル２４に登録される。また、例えば図７に示した第５のテキスト「…甚深の化法を軽んじる…」に対して連接可能性テーブル生成処理を行うことで、「化法(ケホー)」が主単語、「甚深(ジンシン)」が先行可能単語として単語連接可能性テーブル２４に各々登録される。また、対応する減点値(＝51)が算出され、主単語「化法(ケホー)」の先行可能単語と対応付けて単語連接可能性テーブル２４に登録される。
【００５６】
続いて、上述した連接可能性テーブル生成処理が行われて単語連接可能性テーブル２４が生成された後に、形態素解析部１４によって行われる形態素解析処理について、図１２を参照して説明する。
【００５７】
形態素解析処理のステップ１３０において、形態素解析部１４は、第１記憶部２２に記憶されている解析対象テキスト３２から１単位のテキストの取得を試行する。次のステップ１３２において、形態素解析部１４は、ステップ１３０で解析対象テキスト３２から１単位のテキストを取得できたか否か判定する。ステップ１３０で解析対象テキスト３２から１単位のテキストを取得できた場合、ステップ１３２の判定が肯定されてステップ１３４へ移行する。なお、ステップ１３２の判定が否定された場合は、形態素解析が解析対象テキスト３２の末尾迄完了したと判断できるので、形態素解析部１４は形態素解析処理を終了する。
【００５８】
ステップ１３４において、形態素解析部１４は、第１単語辞書１８又は第２単語辞書２０に登録され、ステップ１３０で取得したテキストに含まれている単語が第１単語辞書１８及び第２単語辞書２０から全て抽出する。なお、本実施形態では、ステップ１３４で抽出された単語の総数を"Ｎ"とする。次のステップ１３６において、形態素解析部１４は、個々の単語を識別するための変数ｉに０を代入し、次のステップ１３８において、単語連接可能性判定部１６は、変数ｉが単語の総数Ｎよりも小さいか否か判定する。
【００５９】
形態素解析部１４は、ステップ１３８の判定が肯定された場合にはステップ１４０へ移行し、Ｎ個の単語のうちのｉ番目の単語とその前後の単語(ｉ−１番目及びｉ＋１番目の単語)との接続評価値を単語品詞間接続評価値テーブル２８より各々取得する。次のステップ１４２において、形態素解析部１４は、ｉ番目の単語は品詞が名詞類で、かつ第２単語辞書２０に登録されているか否か判定する。形態素解析部１４は、ステップ１４２の判定が否定された場合はステップ１５２へ移行し、変数ｉを１だけインクリメントしてステップ１３８に戻る。
【００６０】
また、形態素解析部１４は、ステップ１４２の判定が肯定された場合はステップ１４４へ移行し、ｉ番目の単語の直前の単語が、品詞が名詞類でかつｉ番目の単語に対応する先行可能単語として単語連接可能性テーブル２４に登録されていない単語か否か判定する。ステップ１４４の判定が肯定された場合、ｉ番目の単語とその直前の単語(ｉ−１番目の単語)とはテキスト上で連接(接続)する可能性が乏しいと判断できる。このため、形態素解析部１４は、ステップ１４４の判定が肯定された場合はステップ１４６へ移行し、主単語としてのｉ番目の単語の先行可能単語と対応付けられた減点値を単語連接可能性テーブル２４から読み出す。そして、ｉ番目の単語と直前の単語(ｉ−１番目の単語)の組について先のステップ１４０で取得した接続評価値から、先に読み出した減点値を減算して設定する。そして、ステップ１４６からステップ１４８へ移行する。
【００６１】
一方、ｉ番目の単語の直前の単語の品詞が名詞類でない場合や、直前の単語がｉ番目の単語の先行可能単語として単語連接可能性テーブル２４に登録されている場合、ｉ番目の単語とその直前の単語とはテキスト上で連接(接続)する可能性が有ると判断できる。このため、形態素解析部１４は、ステップ１４４の判定が否定された場合、ステップ１４６の処理を行うことなくステップ１４８へ移行する。この場合、ｉ番目の単語と直前の単語(ｉ−１番目の単語)の組の接続評価値は、先のステップ１４０で取得した接続評価値のまま維持される。
【００６２】
次のステップ１４８において、形態素解析部１４は、ｉ番目の単語の直後の単語が、品詞が名詞類でかつｉ番目の単語に対応する後続可能単語として単語連接可能性テーブル２４に登録されていない単語か否か判定する。ステップ１４８の判定が肯定された場合、ｉ番目の単語とその直後の単語(ｉ＋１番目の単語)とはテキスト上で連接(接続)する可能性が乏しいと判断できる。このため、形態素解析部１４は、ステップ１４８の判定が肯定された場合はステップ１５０へ移行し、主単語としてのｉ番目の単語の後続可能単語と対応付けられた減点値を単語連接可能性テーブル２４から読み出す。そして、ｉ番目の単語と直後の単語(ｉ＋１番目の単語)の組について先のステップ１４０で取得した接続評価値から、先に読み出した減点値を減算して設定する。そして、ステップ１５０からステップ１５２へ移行する。
【００６３】
一方、ｉ番目の単語の直後の単語の品詞が名詞類でない場合や、直後の単語がｉ番目の単語の後続可能単語として単語連接可能性テーブル２４に登録されている場合、ｉ番目の単語とその直後の単語とはテキスト上で連接(接続)する可能性が有ると判断できる。このため、形態素解析部１４は、ステップ１４８の判定が否定された場合、ステップ１５０の処理を行うことなくステップ１５２へ移行する。この場合、ｉ番目の単語と直後の単語(ｉ＋１番目の単語)の組の接続評価値は、先のステップ１４０で取得した接続評価値のまま維持される。
【００６４】
形態素解析部１４は、変数ｉの値が単語の総数Ｎ以上になってステップ１３８の判定が否定される迄、上述したステップ１３８〜ステップ１５２を繰り返す。ステップ１３８の判定が否定されるとステップ１５４へ移行し、形態素解析部１４は、接続評価値の合計が最大になる単語の組み合わせ(パス)を抽出する。そしてステップ１５６において、形態素解析部１４は、ステップ１５４で抽出した単語の組み合わせ(パス)に対応する読みを第１単語辞書１８又は第２単語辞書２０から単語単位で読み出し、解析結果として出力した後、ステップ１３０に戻る。
【００６５】
上述した形態素解析処理について、一例を挙げて更に説明する。図１３には、解析対象テキスト３２から抽出した１単位のテキスト「打製骨器」に対して上述の形態素解析処理を行った例が示されている。なお、以下では、第１単語辞書１８及び第２単語辞書２０には図７に示す単語が登録され、単語連接可能性テーブル２４にも図７に示す単語の組が登録され、単語品詞間接続評価値テーブル２８には図５に示す接続評価値が登録されているものとして説明する。
【００６６】
図１３の例では、テキスト「打製骨器」に含まれる単語として、第１単語辞書１８から普通名詞「打製(ダセー)」、接尾語「打(ダ)」、接尾語「製(セー)」、接尾語「骨(ボネ)」、接尾語「器(キ)」、普通名詞「骨(ホネ)」、普通名詞「器(ウツワ)」が抽出される。また図１３の例では、テキスト「打製骨器」に含まれる単語として、第２単語辞書２０から普通名詞「骨器(コッキ)」が抽出される。
【００６７】
次に、テキスト「打製骨器」上で隣接している全ての単語の組について、各単語の品詞に基づき、単語品詞間接続評価値テーブル２８から対応する接続評価値が取得されることで、接続可能性が評価される。例えば、先頭と普通名詞「打製(ダセー)」との接続評価値は-1000、先頭と接尾語「打(ダ)」との接続評価値は-1000000、接尾語同士(「打(ダ)」と「製(セー)」、「骨(ボネ)」と「器(キ)」、「製(セー)」と「骨(ボネ)」)の接続評価値は-100となる。また、普通名詞と接尾語(「打製(ダセー)」と「骨(ボネ)」、「骨(ホネ)」と「器(キ)」)との接続評価値は-100、普通名詞同士(「打製(ダセー)」と「骨器(コッキ)」、「打製(ダセー)」と「骨(ホネ)」)の接続評価値は-150となる。
【００６８】
ここで第２単語辞書２０から抽出された普通名詞「骨器(コッキ)」について単語連接可能性テーブル２４を参照すると、先行可能単語として普通名詞「打製(ダセー)」が登録されているので「打製(ダセー)」と「骨器(コッキ)」との接続評価値は-150のままとなる。また、普通名詞「骨器(コッキ)」の先行単語としての接尾語「製(セー)」との接続可能性については、接尾語「製(セー)」の品詞は名詞類であるものの、単語連接可能性テーブル２４に先行可能単語として登録されていないことから接続評価値が減少される。すなわち、主単語「骨器(コッキ)」の先行可能単語と対応付けられた減点値は"51"であることから、当初の接続評価値＝-150から減点値＝51が減算され、接尾語「製(セー)」と普通名詞「骨器(コッキ)」との接続評価値は"-201"へ変更される。そして、接続評価値の合計が最大となる単語の組み合わせ(パス)は、『普通名詞「打製(ダセー)」−普通名詞「骨器(コッキ)」』の組み合わせであり、対応する正しい読み「ダセー・コッキ」が形態素解析の解析結果として出力される。
【００６９】
また、図１４には、解析対象テキスト３２から抽出した１単位のテキスト「符号化法」に対して上述の形態素解析処理を行った例が示されている。図１４の例では、テキスト「符号化法」に含まれる単語として、第１単語辞書１８から普通名詞「符号(フゴー)」、接尾語「符(フ)」、接尾語「号(ゴー)」、接尾語「化(カ)」、接尾語「法(ホー)」、動詞語幹「化(バ)」、普通名詞「法(ホー)」が抽出される。また図１４の例では、テキスト「符号化法」に含まれる単語として第２単語辞書２０から普通名詞「化法(ケホー)」が抽出される。
【００７０】
次に、テキスト「符号化法」上で隣接している全ての単語の組について、各単語の品詞に基づき、単語品詞間接続評価値テーブル２８から対応する接続評価値が取得されることで、接続可能性が評価される。例えば、先頭と普通名詞「符号(フゴー)」との接続評価値は-1000、先頭と接尾語「符(フ)」との接続評価値は-1000000、接尾語同士(「符(フ)」と「号(ゴー)」、「号(ゴー)」と「化(カ)」、「化(カ)」と「法(ホー)」)の接続評価値は-100となる。また、例えば普通名詞「符号(フゴー)」と接尾語「化(カ)」との接続評価値は-100、普通名詞「符号(フゴー)」と普通名詞「化法(ケホー)」の接続評価値は-150となる。
【００７１】
ここで、第２単語辞書２０から抽出された普通名詞「化法(ケホー)」の先行単語としては、普通名詞「符号(フゴー)」及び接尾語「号(ゴー)」が考えられる。普通名詞「符号(フゴー)」及び接尾語「号(ゴー)」は何れも名詞類であるものの、単語連接可能性テーブル２４には普通名詞「化法(ケホー)」の先行可能単語として登録されていない。従って、普通名詞「符号(フゴー)」及び接尾語「号(ゴー)」と普通名詞「化法(ケホー)」との接続評価値が減少される。すなわち、主単語「化法(ケホー)」の先行可能単語と対応付けられた減点値は"51"であり、当初の接続評価値＝-150から減点値＝51が減算され、普通名詞「符号(フゴー)」及び接尾語「号(ゴー)」と普通名詞「化法(ケホー)」との接続評価値は"-201"へ変更される。そして、接続評価値の合計が最大となる単語の組み合わせ(パス)は、『普通名詞「符号(フゴー)」−接尾語「化(カ)」−接尾語「法(ホー)」』の組み合わせであるので、対応する正しい読み「フゴー・カ・ホー」が形態素解析の解析結果として出力される。
【００７２】
また、図１５には、解析対象テキスト３２から抽出した１単位のテキスト「甚深化法」に対して形態素解析処理を行った例が示されている。図１５の例では、テキスト「甚深化法」に含まれる単語として普通名詞「甚深(ジンシン)」、単漢字「甚(ジン)」、形容詞語幹「深(フカ)」、接尾語「化(カ)」、接尾語「法(ホー)」、動詞語幹「化(バ)」、普通名詞「法(ホー)」が第１単語辞書１８から抽出される。また図１５の例では、テキスト「甚深化法」に含まれる単語として第２単語辞書２０から普通名詞「化法(ケホー)」が抽出される。
【００７３】
次に、テキスト「甚深化法」上で隣接している全ての単語の組について、各単語の品詞に基づき、単語品詞間接続評価値テーブル２８から対応する接続評価値が取得されることで、接続可能性が評価される。例えば、先頭と普通名詞「甚深(ジンシン)」との接続評価値は-1000、先頭と単漢字「甚(ジン)」との接続評価値は-1000、接尾語同士(「符(フ)」と「号(ゴー)」)の接続評価値は-100となる。また、例えば普通名詞「甚深(ジンシン)」と接尾語「化(カ)」との接続評価値は-100、普通名詞「甚深(ジンシン)」と普通名詞「化法(ケホー)」の接続評価値は-150となる。
【００７４】
ここで、第２単語辞書２０から抽出された普通名詞「化法(ケホー)」の先行単語としては、普通名詞「甚深(ジンシン)」及び形容詞語幹「深(フカ)」が考えられる。このうち、形容詞語幹「深(フカ)」は品詞が名詞類に属していないので、単語連接可能性テーブル２４による判定の対象から除外される。また、普通名詞「甚深(ジンシン)」は普通名詞「化法(ケホー)」の先行可能単語として単語連接可能性テーブル２４に登録されている。従って、普通名詞「甚深(ジンシン)」と普通名詞「化法(ケホー)」との接続評価値は-150のまま維持される。そして、接続評価値の合計が最大となる単語の組み合わせ(パス)は、『普通名詞「甚深(ジンシン)」−普通名詞「化法(ケホー)」』の組み合わせであるので、対応する正しい読み「ジンシン・ケホー」が形態素解析の解析結果として出力される。
【００７５】
また、図１６には、解析対象テキスト３２から抽出した１単位のテキスト「その化法には」に対して形態素解析処理を行った例が示されている。図１６の例では、テキスト「その化法には」に含まれる単語として連体詞「その」、接尾語「化(カ)」、接尾語「法(ホー)」、動詞語幹「化(バ)」、普通名詞「法(ホー)」、助詞「に」、助詞「は」が第１単語辞書１８から抽出される。また図１６の例では、テキスト「その化法には」に含まれる単語として第２単語辞書２０から普通名詞「化法(ケホー)」が抽出される。次に、テキスト「その化法には」上で隣接している全ての単語の組について、各単語の品詞に基づき、単語品詞間接続評価値テーブル２８から対応する接続評価値が取得されることで、接続可能性が評価される。
【００７６】
ここで、第２単語辞書２０から抽出された普通名詞「化法(ケホー)」の先行単語としては連体詞「その」が考えられ、後続単語としては助詞「に」が考えられる。しかし、連体詞「その」及び助詞「に」は何れも品詞が名詞類に属していないので、単語連接可能性テーブル２４による判定の対象から除外される。そして、接続評価値の合計が最大となる単語の組み合わせ(パス)は、『連体詞「その」−普通名詞「化法(ケホー)」−助詞「に」−助詞「は」』の組み合わせであるので、対応する正しい読み「その・ケホー・に・は」が形態素解析の解析結果として出力される。
【００７７】
なお、上記では連接可能性テーブル生成処理(図６)において、単語連接可能性テーブル２４の生成のみを行う態様を説明したが、開示の技術はこれに限定されるものではない。例えば、学習用テキストコーパス３４に含まれるテキストに基づき、単語連接可能性テーブル２４の生成と並行して、第２単語辞書２０へ登録すべき単語の抽出及び第２単語辞書２０への抽出した単語の情報の登録も併せて行うようにしてもよい。
【００７８】
また、上記では第２単語辞書２０へ登録すべき単語の抽出と、単語連接可能性テーブル２４の生成を、いずれも学習用テキストコーパス３４に含まれるテキストを基に実施する態様を説明したが、開示の技術はこれに限定されるものではない。第２単語辞書２０へ登録すべき単語の抽出と、単語連接可能性テーブル２４の生成は、異なる学習用テキストコーパスに含まれるテキストを基に実施するようにしてもよい。
【００７９】
また、上記では形態素解析の解析精度を考慮して選択された単語の情報が各々登録された第１単語辞書１８と、第１単語辞書１８に未登録の単語を追加登録するための第２単語辞書２０を各々設けた態様を説明したが、開示の技術はこれに限定されるものではない。例えば単語辞書を１つのみ設け、当該単語辞書に登録した名詞類の単語の組の連接可能性を判定する態様に適用してもよい。
【００８０】
また、上記では解析対象テキスト３２に対して形態素解析を行った結果に基づき、解析対象テキストを読み上げる音声を合成する音声合成を行う態様を説明したが、開示の技術に係る形態素解析は上記態様に限定されるものではない。例えば、形態素解析を行った結果に基づき、テキスト中の漢字に振り仮名を付加する処理を行う態様に適用してもよい。また、例えば日本語で記述されたテキストを別の言語で記述されたテキストへ翻訳する機械翻訳を行うに際し、読みに依って意味が異なる漢字の読みを判別する目的で形態素解析を実行する等の態様に適用することも可能である。
【００８１】
更に、上記では解析対象のテキスト及び学習用のテキストとして日本語で記述されたテキストを例に説明したが、これに限定されるものではなく、読み(及び意味)が複数存在する語を含む言語(例えば中国語等)で記述されたテキストを適用することも可能である。
【００８２】
また、上記では音声合成プログラム５８が記憶部４６に予め記憶（インストール）されている態様を説明したが、これに限定されるものではない。例えば、開示の技術における音声合成プログラム(及び形態素解析プログラム)は、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の記録媒体に記録されている形態で提供することも可能である。
【００８３】
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【００８４】
以上の実施形態に関し、更に以下の付記を開示する。
【００８５】
（付記１）
前記単語辞書に各々登録されており、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を前記学習用のテキストから抽出し、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第２記憶部に記憶させる連接可能性判定部を更に備えた請求項１〜請求項４の何れか１項記載の形態素解析装置。
【００８６】
（付記２）
前記連接可能性判定部は、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第２記憶部に記憶させる際に、前記形態素解析部による処理において、前記第２記憶部に記憶させる前記連接可能な単語の組と一部の単語が異なる名詞類の単語の組が前記解析対象のテキスト上で隣接していた場合に、前記一部の単語が異なる名詞類の単語の組に対する前記接続評価値から減ずる減点値を、前記一部の単語が異なる名詞類の単語の組が、前記接続評価値が最大となる単語の組み合わせに含まれないように設定し、設定した前記減点値を、前記連接可能な単語の組と対応付けて前記第２記憶部に記憶させる付記１記載の形態素解析装置。
【００８７】
（付記３）
前記第１記憶部は、前記単語辞書として、前記形態素解析の解析精度を考慮して選択された単語の情報が予め登録された第１単語辞書と、前記第１単語辞書に未登録の単語の情報を追加登録するための第２単語辞書と、を記憶し、
前記第２記憶部は、一方が前記第１単語辞書に登録されると共に他方が前記第２単語辞書に登録され、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶し、
前記形態素解析部は、一方が前記第１単語辞書に登録されると共に他方が前記第２単語辞書に登録され、前記解析対象のテキスト上で隣接しており、前記連接可能な単語の組として前記第２記憶部に記憶されていない名詞類の単語の組の前記接続評価値を、前記接続評価値が最大となる単語の組み合わせに含まれないように減少させる請求項１〜請求項４、付記１及び付記２の何れかに記載の形態素解析装置。
【００８８】
（付記４）
一方が前記第１単語辞書に登録されると共に他方が前記第２単語辞書に登録され、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を前記学習用のテキストから抽出し、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第２記憶部に記憶させる連接可能性判定部を更に備えた付記３記載の形態素解析装置。
【００８９】
（付記５）
前記連接可能性判定部は、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第２記憶部に記憶させる際に、前記形態素解析部による処理において、前記第２記憶部に記憶させる前記連接可能な単語の組と前記第１単語辞書に登録された一方の単語が異なる名詞類の単語の組が前記解析対象のテキスト上で隣接していた場合に、前記一方の単語が異なる名詞類の単語の組に対する前記接続評価値から減ずる減点値を、前記一方の単語が異なる名詞類の単語の組が、前記接続評価値が最大となる単語の組み合わせに含まれないように設定し、設定した前記減点値を、前記連接可能な単語の組と対応付けて前記第２記憶部に記憶させる付記４記載の形態素解析装置。
【００９０】
（付記６）
前記連接可能性判定部は、前記連接可能な単語の組が、前記第１単語辞書に登録された一方の単語が前記学習用のテキスト上で前記第２単語辞書に登録された他方の単語よりも前に位置している単語の組である場合には、設定した前記減点値を、前記解析対象のテキスト上で隣接する単語の組であって、前記連接可能な単語の組と前記第１単語辞書に登録され前記解析対象のテキスト上で前に位置している一方の単語が異なる名詞類の単語の組に適用する前記減点値として前記第２記憶部に記憶させ、前記連接可能な単語の組が、前記第１単語辞書に登録された一方の単語が前記学習用のテキスト上で前記第２単語辞書に登録された他方の単語よりも後に位置している単語の組である場合には、設定した前記減点値を、前記解析対象のテキスト上で隣接する単語の組であって、前記連接可能な単語の組と前記第１単語辞書に登録され前記解析対象のテキスト上で後に位置している一方の単語が異なる名詞類の単語の組に適用する前記減点値として前記第２記憶部に記憶させる付記５記載の形態素解析装置。
【００９１】
（付記７）
前記特定の単語は、「の」「が」「に」「を」「な」「する」「した」の何れかである請求項１〜請求項４、付記１〜付記６の何れかに記載の形態素解析装置。
【符号の説明】
【００９２】
１０音声合成装置
１２形態素解析装置
１４形態素解析部
１６単語連接可能性判定部
１８第１単語辞書
２０第２単語辞書
２２第１記憶部
２４単語連接可能性テーブル
２６第２記憶部
２８単語品詞間接続評価値テーブル
３０第３記憶部
３２解析対象テキスト
３４学習用テキストコーパス
３６第４記憶部
３８係り受け解析部
４０表音文字列生成部
４２音声合成部
４４メモリ
４６記憶部
５８音声合成プログラム
６０形態素解析プロセス
７０コンピュータ
７２ＣＰＵ

【特許請求の範囲】
【請求項１】
複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録された単語辞書を記憶する第１記憶部と、
前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶する第２記憶部と、
前記単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求めると共に、前記単語辞書に各々登録され、かつ前記解析対象のテキスト上で隣接している単語の組のうち、前記連接可能な単語の組として前記第２記憶部に記憶されていない名詞類の単語の組については、前記接続評価値が最大となる単語の組み合わせに含まれないように前記接続評価値を減少させ、前記接続評価値が最大となる単語の組み合わせに基づいて前記解析対象のテキストの形態素解析を行う形態素解析部と、
を含む形態素解析装置。
【請求項２】
前記第２記憶部には、前記連接可能な単語の組と対応付けて、前記第２記憶部に記憶されている前記連接可能な単語の組と一部の単語が異なる名詞類の単語の組が前記解析対象のテキスト上で隣接していた場合に、前記一部の単語が異なる名詞類の単語の組の前記接続評価値から減ずる減点値が記憶されており、
前記形態素解析部は、前記連接可能な単語の組として前記第２記憶部に記憶されていない名詞類の単語の組として、前記第２記憶部に記憶されている前記連接可能な単語の組と前記一部の単語が異なる名詞類の単語の組の前記接続評価値から、前記第２記憶部に記憶されている前記連接可能な単語の組と対応付けて前記第２記憶部に記憶された前記減点値を減ずる請求項１記載の形態素解析装置。
【請求項３】
前記形態素解析部は、前記解析対象のテキストに含まれる単語を前記単語辞書から各々抽出し、前記単語辞書より抽出した単語から前記解析対象のテキスト上で隣接している単語の組を各々生成し、生成した単語の組の接続可能性を表す接続評価値を各々求め、単語の組毎に求めた前記接続評価値に基づき前記解析対象のテキストに対応しかつ前記接続評価値が最大となる単語の組み合わせを求める請求項１又は請求項２記載の形態素解析装置。
【請求項４】
前記単語辞書には、複数の単語が個々の前記単語の品詞名と対応付けて各々登録されており、
単語の組の接続可能性を表す接続評価値を前記単語の組における個々の前記単語の品詞の組み合わせ毎に記憶する第３記憶部を更に備え、
前記形態素解析部は、前記解析対象のテキスト上で隣接している単語の組における個々の前記単語の品詞の組み合わせに対応する前記接続評価値を前記第３記憶部から読み出すことで、前記単語の組の前記接続評価値を求める請求項３記載の形態素解析装置。
【請求項５】
請求項１〜請求項４の何れか１項記載の形態素解析装置と、
前記形態素解析装置による前記形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析部と、
前記係り受け解析部による係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成部と、
前記表音文字列生成部によって生成された前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成部と、
を含む音声合成装置。
【請求項６】
第１記憶部に記憶され、複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録された単語辞書に各々登録され解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求めると共に、前記単語辞書に各々登録され前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶する第２記憶部に、前記連接可能な単語の組として記憶されていない名詞類の単語の組については、前記接続評価値が最大となる単語の組み合わせに含まれないように前記接続評価値を減少させる接続可能性評価ステップと、
前記接続可能性評価ステップで得られた接続評価値が最大となる単語の組み合わせに基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
を含む形態素解析方法。
【請求項７】
第１記憶部に記憶され、複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録された単語辞書に各々登録され解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求めると共に、前記単語辞書に各々登録され前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶する第２記憶部に、前記連接可能な単語の組として記憶されていない名詞類の単語の組については、前記接続評価値が最大となる単語の組み合わせに含まれないように前記接続評価値を減少させる接続可能性評価ステップと、
前記接続可能性評価ステップで得られた接続評価値が最大となる単語の組み合わせに基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
前記形態素解析ステップによる形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析ステップと、
前記係り受け解析ステップによる前記係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成ステップと、
前記表音文字列生成ステップで生成した前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成ステップと、
を含む音声合成方法。
【請求項８】
コンピュータに、
第１記憶部に記憶され、複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録された単語辞書に各々登録され解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求めると共に、前記単語辞書に各々登録され前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶する第２記憶部に、前記連接可能な単語の組として記憶されていない名詞類の単語の組については、前記接続評価値が最大となる単語の組み合わせに含まれないように前記接続評価値を減少させる接続可能性評価ステップと、
前記接続可能性評価ステップで得られた接続評価値が最大となる単語の組み合わせに基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
を含む処理を実行させるための形態素解析プログラム。
【請求項９】
コンピュータに、
第１記憶部に記憶され、複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録された単語辞書に各々登録され解析対象のテキスト上で隣接している単語の組について接続可能性を表す接続評価値を求めると共に、前記単語辞書に各々登録され前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶する第２記憶部に、前記連接可能な単語の組として記憶されていない名詞類の単語の組については、前記接続評価値が最大となる単語の組み合わせに含まれないように前記接続評価値を減少させる接続可能性評価ステップと、
前記接続可能性評価ステップで得られた接続評価値が最大となる単語の組み合わせに基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
前記形態素解析ステップによる形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析ステップと、
前記係り受け解析ステップによる前記係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成ステップと、
前記表音文字列生成ステップで生成した前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成ステップと、
を含む処理を実行させるための音声合成プログラム。

【図１】