説明

文書平易化装置およびプログラム

【課題】変換対象の単語を修飾する修飾句をも考慮しながら、名詞から動詞等へ、異なる品詞間での単語変換を行うことによって、自動的に文を平易化する。
【解決手段】平易化規則選択部は、係り受け解析結果データに含まれる名詞データに基づき、平易化規則テーブル記憶部から適用可能な前記平易化規則データを選択する。修飾句変換規則選択部は、平易化規則データが適用され得る名詞データを修飾する連体修飾句データを抽出し、修飾句変換規則データを選択する。格フレーム照合部は、平易化規則データに含まれる用言データと、選択された修飾句変換規則データに含まれる連用修飾句データとに基づき、格フレームテーブル記憶部から出現頻度データを読み出し、出現頻度に基づいて表現の置換を行う。体言変換規則選択部は、自立語に合う体言化データを選択し、用言データを体言化する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語処理に関する。特に、本発明は、入力された文を自動的に平易化する文書平易化装置、およびそのコンピュータプログラムに関する。
【背景技術】
【0002】
自然言語で記述された文の文意を変えることなく、文の表現を自動的に変えることが求められる場合がある。例えば、難解な文章を平易な文章に自動的に変換するシステムの技術が提案されている。
例えば、特許文献1には、日本語の構文解析結果に基づいて、述語または動作性名詞と他の単語との係り受け状態から、格関係へ変換する規則の組み合わせを求める技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−003049号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の技術では、自然言語文を変換する際に、名詞を名詞に変換する、あるいは用言を用言に変換するなどのように、同種の品詞間での変換しか行えなかった。しかしながら、より柔軟で幅広い言い換えのためには、異なる品詞間の変換をも自動的に行えるようにすることが望まれる。特に、動作性名詞や形容詞から派生した名詞などの名詞を自動的に用言へ変換することは、言い換えの幅をより広げるために有効である。
【0005】
従来、名詞から動詞などの用言へ変換するシステムは実現されていなかった。これを実現するためには、名詞を用言(動詞、形容詞等)に単純に変換しただけでは、それらの単語の周辺の係り受け関係における文法が崩れてしまうという問題を解決する必要がある。言い換えれば、変換の対象となっている名詞や用言に係る修飾句をも適切な形で変換する必要がある。
【0006】
本発明は、上記の課題認識に基づいて行なわれたものであり、変換対象の単語を修飾する修飾句をも考慮しながら、名詞から用言へ、異なる品詞間での単語変換を行うことによって文を平易化するための文書平易化装置およびそのプログラムを提供する。
【課題を解決するための手段】
【0007】
[1]上記の課題を解決するため、本発明の一態様による文書平易化装置は、名詞データと前記名詞データに対応する用言データとを関連付けた平易化規則データを記憶する平易化規則テーブル記憶部と、連体修飾句データと前記連体修飾句データに対応する連用修飾句データとを関連付けた修飾句変換規則データを保持する修飾句変換規則テーブル記憶部と、用言データと、前記用言データを修飾する連用修飾句データと、これら用言データと連用修飾句データに関する出現頻度データとを関連付けて記憶する格フレームテーブル記憶部と、自立語データと、前記自立語データに係る体言化データとを関連付けて体言変換規則データとして記憶する体言変換規則テーブル記憶部と、文データに対応する係り受け解析結果データを読み込み、前記係り受け解析結果データに含まれる名詞データに基づき、前記平易化規則テーブル記憶部から適用可能な前記平易化規則データを選択する平易化規則選択部と、前記平易化規則選択部によって選択された前記平易化規則データが適用され得る前記名詞データを修飾する連体修飾句データを前記係り受け解析結果データから抽出し、抽出された前記連体修飾句データに基づいて、前記修飾句変換規則テーブル記憶部から対応する前記修飾句変換規則データを選択する修飾句変換規則選択部と、前記平易化規則選択部によって選択された前記平易化規則データに含まれる前記用言データと、前記修飾句変換規則選択部によって選択された前記修飾句変換規則データに含まれる前記連用修飾句データとに基づき、前記格フレームテーブル記憶部から前記出現頻度データを読み出し、読み出した出現頻度データに基づいて、選択された前記連用修飾句データによって前記係り受け解析結果データ内の前記連体修飾句データを置換するとともに、選択された前記用言データによって前記係り受け解析結果データ内の前記名詞データを置換する格フレーム照合部と、前記格フレーム照合部による置換前の前記名詞データが係っていた自立語データと前記自立語データに係るための助詞データを前記係り受け解析結果データから抽出し、抽出された前記自立語データおよび前記助詞データに基づいて、前記体言変換規則テーブル記憶部から前記体言変換規則データを選択し、選択された前記体言変換規則データに基づいて、前記格フレーム照合部による置換後の前記用言データを体言化する体言変換規則選択部と、を具備することを特徴とする。
【0008】
この構成により、入力文の係り受け解析結果データに基づき、平易化規則選択部が名詞を用言に変換する規則を選択し、修飾句変換規則選択部が前記名詞を修飾していた連体修飾句を連用修飾句で置換するための(単数または複数の)規則を選択し、格フレーム照合部が実際の文の出現頻度に基づき候補を選択するため、言語として自然な表現が選択され、体言変換規則選択部が変換された用言を体言化することによって文法を整合させる。つまり、この構成を有する文書平易化装置は、文法的に正しく、現実に使われる数多くの文と同様の自然さを有し、且つ平易な文を生成して、入力文を平易化することができる。
上記の修飾句変換規則テーブルの一態様は、連体修飾句の種類別に対応する、単一または複数の連用修飾句を保持するものである。
上記の体言化データの一態様は、名詞と助詞の組合せである。この名詞+助詞が、上記の自立語に係る。
また、上記構成に加えて、文データを読み込み、前記文データの形態素解析処理と係り受け解析処理を行い、前記文データに対応する係り受け解析結果データを出力する形態素解析・係り受け解析部をさらに備えるようにしても良い。
【0009】
[2]また、本発明の一態様による文書平易化装置においては、前記格フレームテーブル記憶部は、特定のドメインに属する文集合における前記用言データと前記連用修飾句データの共起関係に基づく前記出現頻度データを記憶する、ことを特徴とする。
【0010】
この構成により、特定のドメインに属する文集合に基づく自然な表現を変換候補の中から選択することができる。また、ドメイン毎にチューニングすることが可能となる。
【0011】
[3]また、本発明の一態様による文書平易化装置においては、前記体言変換規則テーブル記憶部は、前記自立語データとの共起関係に基づいて選択された名詞データと助詞データとの組合せを前記体言化データとして保持する。
【0012】
この構成により、用言を体言化する際に、上記の自立語データに最も適した体言化データ(名詞と助詞の組合せ)を選択することができる。結果的に、そのように適した体言化データが、上記の自立語に係るため、言語として自然な表現を出力することができる。
【0013】
[4]また、本発明の一態様による文書平易化装置は、名詞データ(動作性名詞データや、形容詞から派生した名詞のデータなど)と、前記名詞データに対する同義語データ(名詞と強い同義性を持つ用言等。例えば、動詞連用形名詞に対して、その派生元の動詞など。)とを関連付けて記憶する同義語辞書テーブル記憶部と、見出し語と、前記見出し語の類義語または前記見出し語の上位語または前記見出し語の語釈文の最終文節の自立語とを関連付けて、前記見出し語と関連語の対として記憶する関連語記憶部と、単語データと、前記単語データの難易度を表す難易度データとを対応付けて記憶する単語難易度テーブル記憶部と、単語データと、前記単語データと文脈類似な他の単語との対応関係を保持する文脈類似テーブル記憶部と、前記同義語辞書テーブル記憶部から読み出した前記同義語データが用言データである場合に、当該同義語データと、関連付けられた前記名詞データとを、用言変換対データとして出力する用言変換対作成部と、前記用言変換対作成部から出力された前記用言変換対データに含まれる前記名詞データと前記同義語データのそれぞれに基づいて、前記関連語記憶部から読み出した前記見出し語と前記関連語との対を、置換前の語と置換後の語との置換可能単語対データとして出力する置換可能単語対作成部と、前記置換可能単語対作成部から出力された置換可能単語対データに関して、単語難易度テーブル記憶部から前記単語データに対応付けられた前記難易度データを読み出すことにより、前記置換前の語よりも前記置換後の語の方が平易である場合にのみ前記置換可能単語対データを平易化規則候補データとして認定する平易化規則候補認定部と、前記平易化規則候補認定部によって認定された前記平易化規則候補データに関して、文脈類似テーブル記憶部を参照することにより、前記置換前の語と前記置換後の語とが文脈類似な関係にある場合のみ前記平易化規則候補データを平易化規則データとして認定し、認定された平易化規則データを前記平易化規則テーブル記憶部に書き込む文脈類似認定部と、を具備することを特徴とする平易化規則テーブル作成装置をさらに設ける。
【0014】
この構成により、多数の平易化規則テーブルを効率よく作成することができる。
関連語記憶部の一形態は、単語データと、前記単語データの定義文データの中で最終文節の自立語となる自立語データとを対応付けて保持する辞書テーブル記憶部である。
また、関連語記憶部の他の一形態は、単語データと、前記単語データの同義関係、或は類義関係、或いは上位概念の関係にある単語データとの対応関係を保持するシソーラステーブル記憶部である。
また、前記文脈類似テーブルは、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語データ間の文脈類似な対応関係を保持するものとしても良い。
ある単語を平易化するための変形規則を作成する際に、該当単語と該当単語の同義語の両方から規則を獲得することにより、変形規則の数を増加させることができる。また、修飾句と被修飾句の変換を行うことで、文意を考慮した自然な平易化をすることができる。
【0015】
[5]また、本発明の一態様による文書平易化装置においては、前記同義語辞書テーブル記憶部は、用言から派生する名詞に関するデータを前記名詞データとして保持するとともに、前記名詞データの派生元の用言に関するデータを前記同義語データとして関連付けて保持する、ことを特徴とする。
【0016】
この構成において、名詞データと同義語データの組合せの例は、次の(a)から(c)の通りである。
(a)動詞連用形名詞のデータを名詞データとして保持するとともに、当該動詞連用形名詞の派生元動詞のデータを同義語データとして関連付けて保持するレコード。
(b)形容詞から派生した名詞のデータを名詞データとして保持するとともに、当該名詞の派生元形容詞のデータを同義語データとして関連付けて保持するレコード。
(c)形容動詞から派生した名詞のデータを名詞データとして保持するとともに、当該名詞の派生元形容動詞のデータを同義語データとして関連付けて保持するレコード。
同義語辞書テーブル記憶部は、上記(a)〜(c)のいずれかのレコードのみを記憶していても良く、(a)〜(c)のうち複数種類のレコードを記憶していても良い。また、同義語辞書テーブル記憶部が、上記(a)〜(c)以外の種類のレコードをも併せて記憶するようにしても良い。
【0017】
[6]また、本発明の一態様によるプログラムは、名詞データと前記名詞データに対応する用言データとを関連付けた平易化規則データを記憶する平易化規則テーブル記憶部と、連体修飾句データと前記連体修飾句データに対応する連用修飾句データとを関連付けた修飾句変換規則データを保持する修飾句変換規則テーブル記憶部と、用言データと、前記用言データを修飾する連用修飾句データと、これら用言データと連用修飾句データに関する出現頻度データとを関連付けて記憶する格フレームテーブル記憶部と、自立語データと、前記自立語データに係る体言化データとを関連付けて体言変換規則データとして記憶する体言変換規則テーブル記憶部と、文データに対応する係り受け解析結果データを読み込み、前記係り受け解析結果データに含まれる名詞データに基づき、前記平易化規則テーブル記憶部から適用可能な前記平易化規則データを選択する平易化規則選択部と、前記平易化規則選択部によって選択された前記平易化規則データが適用され得る前記名詞データを修飾する連体修飾句データを前記係り受け解析結果データから抽出し、抽出された前記連体修飾句データに基づいて、前記修飾句変換規則テーブル記憶部から対応する前記修飾句変換規則データを選択する修飾句変換規則選択部と、前記平易化規則選択部によって選択された前記平易化規則データに含まれる前記用言データと、前記修飾句変換規則選択部によって選択された前記修飾句変換規則データに含まれる前記連用修飾句データとに基づき、前記格フレームテーブル記憶部から前記出現頻度データを読み出し、読み出した出現頻度データに基づいて、選択された前記連用修飾句データによって前記係り受け解析結果データ内の前記連体修飾句データを置換するとともに、選択された前記用言データによって前記係り受け解析結果データ内の前記名詞データを置換する格フレーム照合部と、前記格フレーム照合部による置換前の前記名詞データが係っていた自立語データを前記係り受け解析結果データから抽出し、抽出された前記自立語データに基づいて、前記体言変換規則テーブル記憶部から前記体言変換規則データを選択し、選択された前記体言変換規則データに基づいて、前記格フレーム照合部による置換後の前記用言データを体言化する体言変換規則選択部と、を具備する文書平易化装置としてコンピュータを機能させるものである。
【発明の効果】
【0018】
本発明によれば、文書内の名詞を平易な表現に自動的に変換することが可能である。また、格フレームテーブルを用いて各フレームの照合を行い、その結果を用いた変換を行っているため、文脈を考慮した、より自然な形での、平易表現への言い換えが可能である。
また、本発明によれば、平易化規則テーブル作成装置を設けた構成により、手作業を要することなく、平易化規則を自動的に作成することができる。
また、本発明によれば、平易化規則テーブル作成装置において文脈類似テーブルに基づく文脈類似認定を行っているため、より自然な形での、平易表現への言い換えが可能である。
【図面の簡単な説明】
【0019】
【図1】本発明の第1の実施形態による文書平易化装置の機能構成を示すブロック図である。
【図2】同実施形態における平易化規則テーブルの構成とデータ例を示す概略図である。
【図3】同実施形態における修飾句変換規則テーブルの構成とデータ例を示す概略図である。
【図4】同実施形態におけるドメイン依存格フレームテーブルの構成とデータ例を示す概略図である。
【図5】同実施形態における体言変換規則テーブルの構成とデータ例を示す概略図である。
【図6】同実施形態による文書平易化装置が入力文を平易化する処理の手順を示すフローチャートである。
【図7】本発明の第2の実施形態による文書平易化装置の機能構成を示すブロック図である。
【図8】同実施形態における平易化規則テーブル作成装置の詳細な機能構成を示すブロック図である。
【図9】同実施形態における同義語辞書テーブルの構成とデータ例を示す概略図である。
【図10】同実施形態における辞書テーブルの構成とデータ例を示す概略図である。
【図11】同実施形態におけるシソーラステーブルの構成とデータ例を示す概略図である。
【図12】上記のシソーラステーブルを作成するための元となるデータの構成例を示す概略図である。
【図13】同実施形態における単語難易度テーブルの構成とデータ例を示す概略図である。
【図14】同実施形態における文脈類似テーブルの構成とデータ例を示す概略図である。
【図15】同実施形態による平易化規則テーブル作成装置が辞書データ等を元に平易化規則を生成する処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0020】
次に、本発明の一実施形態について、図面を参照しながら説明する。
[第1の実施の形態]
図1は、第1の実施形態による文書平易化装置の機能構成を示すブロック図である。図示するように、文書平易化装置1は、入力文記憶部10と、形態素解析・係り受け解析部20と、平易化規則選択部30と、修飾句変換規則選択部40と、格フレーム照合部50と、体言変換規則選択部60と、出力文記憶部70と、平易化規則テーブル記憶部130と、修飾句変換規則テーブル記憶部140と、ドメイン依存格フレームテーブル記憶部150と、体言変換規則テーブル記憶部160とを含んで構成される。
これらの各部は、電子回路を用いて実現される。また、データを記憶する各記憶部は、半導体メモリやハードディスク装置を用いて実現される。
【0021】
入力文記憶部10は、文書平易化装置1への入力となる文を記憶する。入力文記憶部10が複数の文から成るひとまとまりの文書のデータを記憶するようにしても良い。
形態素解析・係り受け解析部20は、入力文を入力文記憶部10から読み込み、形態素解析処理および係り受け解析処理を行う。形態素解析および係り受け解析の処理自体には既存の技術を利用する。例えば、形態素解析処理には形態素解析器「MeCab」を利用することができる。また、例えば、係り受け解析処理には係り受け解析器「CaboCha」を利用することができる。そして、形態素解析・係り受け解析部20は、係り受け解析結果データを出力する。
【0022】
平易化規則選択部30は、入力文データに対応する係り受け解析結果データを読み込み、この係り受け解析結果データに含まれる名詞データ(動作性名詞や、形容詞や形容動詞から派生した名詞など)に基づき、平易化規則テーブル記憶部130から適用可能な平易化規則データを選択する。
修飾句変換規則選択部40は、平易化規則選択部30によって選択された平易化規則データが適用され得る名詞データを修飾する連体修飾句データを前記係り受け解析結果データから抽出する。そして、抽出された連体修飾句データに基づいて、修飾句変換規則テーブル記憶部140から、対応する修飾句変換規則データを選択する。
【0023】
格フレーム照合部50は、平易化規則選択部30によって選択された平易化規則データに含まれる用言データと、修飾句変換規則選択部40によって選択された修飾句変換規則データに含まれる連用修飾句データとに基づき、ドメイン依存格フレームテーブル記憶部150を読み出す。そして、ドメイン依存格フレームテーブル記憶部150から読み出した出現頻度データに基づいて、選択された連用修飾句データによって係り受け解析結果データ内の前記連体修飾句データを置換するとともに、選択された用言データによって係り受け解析結果データ内の名詞データを置換する。このとき、格フレーム照合部50は、複数の候補の中から、最も出現頻度の高い候補を選択して上記の置換を行う。
【0024】
体言変換規則選択部60は、格フレーム照合部50によって置換される前の名詞データが係っていた自立語データを係り受け解析結果データから抽出する。そして、抽出された自立語データに基づいて、体言変換規則テーブル記憶部160から体言変換規則データを選択し、選択された体言変換規則データに基づいて、格フレーム照合部50によって置換された後の用言データを体言化する。言い換えれば、体言変換規則選択部60は、体言変換規則テーブル160を参照することによって、名詞に付属している助詞と、名詞が修飾している自立語から体言化に必要な名詞を適用し、用言を名詞に変換する。そして、体言変換規則選択部60は、平易化された文を出力文記憶部70に書き込む。言い換えれば、体言変換規則選択部60は、平易化された文を出力する。
出力文記憶部70は、平易化された出力文を記憶する。
【0025】
平易化規則テーブル記憶部130は、文内の名詞を平易な用言に変換するための多数の平易化規則のデータを記憶する。
修飾句変換規則テーブル記憶部140は、連体修飾句データと、その連体修飾句データに対応する連用修飾句データとを関連付けた修飾句変換規則データを記憶する。
ドメイン依存格フレームテーブル記憶部150は、用言データと、この用言データを修飾する連用修飾句データと、これら用言データと連用修飾句データに関する出現頻度データとを関連付けて記憶する。ドメイン依存格フレームテーブル記憶部150は、特定のドメインに属する文集合を統計的に処理した結果に基づいて、上記の出現頻度データを保持する。ドメインとは、例えば、ニュースやスポーツや音楽など、文の内容についての分類に対応するものである。なお、複数のドメインのそれぞれについて異なる複数のテーブルを持つようにしても良い。
体言変換規則テーブル記憶部160は、自立語データと、この自立語データに係る体言化データとを関連付けて体言変換規則データとして記憶する。体言化データは、用言を体言化するためのデータである。体言化データは、名詞と助詞の組合せのデータである。体言変換規則テーブル記憶部160は、ある自立語に対して、最も相応しい体言化データ(名詞+助詞)を保持する。最も相応しい体言化データとは、例えば、その名詞+助詞がその自立語に係るような表現が、一般の文において高い頻度で出現するようなものである。
これら各テーブルのデータの詳細については、次に説明する。
【0026】
図2は、平易化規則テーブルの構成とデータ例を示す概略図である。図示するように、平易化規則テーブルは、表形式のデータであり、平易化前表現と、平易化前品詞と、平易化後表現と、平易化後品詞の各項目を有する。この表のデータの各行が、平易化前の表現と平易化後の表現の関係を表している。図示する例では、1行目のデータは、平易化前表現「落ち込み」の品詞は名詞(動詞「落ち込む」の連用形が名詞化した動詞連用形名詞)であり、これに対応する平易化後表現が「下がる」という動詞であることを表している。また、平易化後の品詞は、動詞に限らず、形容詞や形容動詞であっても良い。このように、平易化規則テーブルは、<名詞>→<用言>の形の規則を保持する。
【0027】
図3は、修飾句変換規則テーブルの構成とデータ例を示す概略図である。図示するように、修飾句変換規則テーブルは、表形式のデータであり、置換前(連体修飾句)および置換後(連用修飾句)の各項目を有する。置換前という項目は変換前の連体修飾句のパターンを表し、置換後という項目は変換後の連用修飾句のパターンを表す。図示する例では、1行目のデータは、「〜〜に関する」というパターンを有する置換前の連体修飾句を「〜〜に関して」というパターンを有する置換後の連用修飾句に変換する規則を表している。また、5行目のデータは、「〜〜の」というパターンを有する置換前の連体修飾句を「〜〜が/を/で/に」というパターンを有する置換後の連用修飾句に変換する規則を表している。なお、「〜〜が/を/で/に」という表現は、置換後のパターンが「〜〜が」、「〜〜を」、「〜〜で」、「〜〜に」のいずれにもなり得ることを表している。
【0028】
図4は、ドメイン依存格フレームテーブルの構成とデータ例を示す概略図である。図示するように、ドメイン依存格フレームテーブルは、表形式のデータであり、名詞と、助詞と、用言と、出現頻度の各項目を有する。このテーブルの1行のデータが、1つの格フレームとその出現頻度の値を表している。このデータは、大量の文書の構文解析を行って「名詞−助詞−用言」のパターンの表現を抽出し、その出現頻度をカウントすることによって予め用意しておく。大量の文書は、例えば、テレビ等の放送番組のクローズドキャプションデータから獲得したり、インターネットを介して多数のウェブサイトのサーバ装置から収集したり、多数の電子書籍から取得したりすることができる。またこのとき、特定のドメインに属する文書のみを収集して、ドメイン依存格フレームテーブルを作成し、当該ドメインの入力文に対して適用するようにする。ドメインの具体例は、「一般ニュース」や「スポーツ」や「芸能」などである。このようなテーブルを用いることにより、後に説明する処理において、特定のドメインにおける出現頻度に基づいて、一般文書において出現しやすい自然な表現への置換を行えるようになる。図示する例では、4行目のデータは「需要(名詞)/が(助詞)/下がる(用言)」という格フレームの出現頻度が6であることを表している。
【0029】
図5は、体言変換規則テーブルの構成とデータ例を示す概略図である。図示するように、体言変換規則テーブルは、表形式のデータであり、名詞と、助詞と、自立語の各項目を有する。このテーブルの1行のデータが、体言変換規則を表している。この体言変換規則は、元の文において名詞に付属している助詞とその名詞が修飾している自立語との組み合わせに応じて、体言化に必要な名詞を適用するための規則である。
【0030】
この体言変換規則のデータは、文集合における名詞と助詞と自立語の共起関係の統計を取ることによって予め作成しておく。例えば、文集合に属する文から抽出した動詞の連用形に付いて体言化する名詞データと、この名詞データが助詞データを伴い修飾する自立語データとの出現頻度を基に、最も頻度の高い組み合わせを、体言変換規則データとして記憶しておく。例えば、図示する第4行目の場合では、「が」という助詞データと「大きい」という自立語データの組合せとの共起関係において、最も頻度の高かった体言は、「度合い」という名詞データであったことを表している。
【0031】
なお便宜上、ここでの名詞データを体言化データと呼ぶ。そして、体言変換規則テーブルは、自立語データと、その自立語データに係る名詞(体言化データ)および助詞とを関連付けて体言変換規則データとして記憶するものである。また、言い換えれば、体言変換規則テーブルは、助詞データと自立語データの組合せとの共起関係に基づいて選択された名詞データを体言化データとして保持する。体言変換規則の具体的な適用方法については、実例を用いて後で説明する。
【0032】
次に、処理データの実例に基づき、文書を平易化するための具体的な処理手順を説明する。
図6は、文書平易化装置1の処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。なお、予め、入力文記憶部10が、外部から入力された文「需要の落ち込みが大きい。」を記憶しており、この文が平易化の対象となる。
【0033】
まずステップS1において、形態素解析・係り受け解析部20は、入力文記憶部10から入力文を読み取り、形態素解析処理および係り受け解析処理を行う。本例では、形態素解析処理の結果、入力文から、「需要(名詞)」/「の(助詞)」/「落ち込み(名詞)」/「が(助詞)」/「大きい(形容詞)」というデータが得られる。ここで、「/」は、形態素間の区切りを表している。また、例えば、「需要(名詞)」という表現は、「需要」という形態素の品詞が名詞であることを表している。そして、係り受け解析処理の結果、形態素解析・係り受け解析部20は、「需要(名詞)」/「の(助詞)」→「落ち込み(名詞)」/「が(助詞)」→「大きい(形容詞)」というデータを出力する。ここで、「→」(右向き矢印)は、係り受け関係を表す。例えば、「需要」/「の」が「落ち込み」/「が」に係っていることが表されている。係り受け解析の結果は、木構造で表現可能であり、上記例では、「需要(名詞)」/「の(助詞)」と「落ち込み(名詞)」/「が(助詞)」と「大きい(形容詞)」がそれぞれノードに相当し、これらをつなぐ「→」(右向き矢印)がエッジに相当する。係り受け解析結果のデータは、木構造またはそれに等価なデータで表現される。日本語の文の場合、最右ノードが係り受け解析結果の木構造における根ノードとなる。
【0034】
次にステップS2において、平易化規則適用部30は、平易化規則テーブル記憶部130から読み出した平易化規則を、上記の係り受け解析結果に適用する。具体的には、平易化規則適用部30は、係り受け解析結果に含まれる表現を、平易化規則テーブル中の平易化前表現にマッチさせる処理を行う。本例では、図2で例示した平易化規則のうち、平易化前表現「落ち込み(名詞)」が、係り受け解析結果の中の「落ち込み(名詞)」にマッチする。即ち、平易化前表現「落ち込み(名詞)」を平易化後表現「下がる(動詞)」に変換する規則が、入力文に対して適用可能となる。この規則を適用すると、「需要(名詞)/の(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」という表現(係り受け解析結果データ)が得られる。単に平易化規則を適用しただけでは、名詞が用言に置き換わるので、文の構文が一時的に崩れるが、後の処理で構文が正常化される。
【0035】
次にステップS3において、修飾句変換規則選択部40は、修飾句変換規則テーブル記憶部140から読み出した修飾句変換規則を、上記の係り受け解析結果に適用する。具体的には、修飾句変換規則選択部40は、係り受け解析結果に含まれる修飾句「需要/の」というパターンを、修飾句変換規則テーブル中の置換前(連体修飾句)のパターンにマッチさせる処理を行う。本例では、図3に示した修飾句変換規則のうち、5行目の「〜〜の」というパターンが、入力文側から得られた「需要/の」にマッチする。そして、選ばれた変換規則における置換後(連用修飾句)のパターンは「〜〜が/を/で/に」であるため、元の「需要/の」は、「需要/が」、「需要/を」、「需要/で」、「需要/に」のいずれかに変換可能となる。
【0036】
この修飾句変換規則を適用すると、次の4つの候補が作成される。候補1:「需要(名詞)/が(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」。候補2:「需要(名詞)/を(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」。候補3:「需要(名詞)/で(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」。候補4:「需要(名詞)/に(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」。
【0037】
次にステップS4において、格フレーム照合部50は、平易化規則選択部30で得られた平易化後表現と、修飾句変換規則選択部40で得られた置換後の表現の候補とを用いて、格フレームの照合を行う。具体的には、修飾句変換規則選択部40は、ドメイン依存格フレームテーブル記憶部150に記憶されている格フレームとのマッチングを行い、マッチした格フレームのうちの出現頻度が最高のものを選択する。本例では、ステップS2で得られた平易化後表現「下がる(動詞)」と、ステップS3で得られた置換後の候補「需要/が」、「需要/を」、「需要/で」、「需要/に」のそれぞれとの組み合わせにより、「需要/が/下がる」、「需要/を/下がる」、「需要/で/下がる」「需要/に/下がる」の4通りの候補が得られている。そして、格フレーム照合部50は、ドメイン依存格フレームテーブル記憶部150を参照することにより、これら4つの候補中で最も出現頻度の高い「需要/が/下がる」を選択する。既に述べたように、ドメイン依存格フレームテーブルは入力文に合ったドメインにおける大量の文書に基づいて作成されており、且つ、格フレーム照合部50は実際の出現頻度を用いて候補からの選択を行うので、そのドメインにおいて自然な平易文への変換を行うことができる。
このステップまでの処理で、入力文の中の「需要/の/落ち込み」という表現を「需要/が/下がる」という表現に変換することが可能となった。つまり、入力文に対応する係り受け解析データは、「需要(名詞)/が(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」
【0038】
次にステップS5において、体言変換規則選択部60は、体言変換規則テーブル160を参照することによって、名詞に付属している助詞と、名詞が修飾している自立語から体言化に必要な名詞を適用し、用言を名詞に変換する。本例では、入力文に対応する係り受け解析結果内の「大きい」が、名詞(落ち込み)が修飾している自立語である。また、入力文に対応する係り受け解析結果内の「落ち込み/が」の「落ち込み」が名詞であり、「が」はその名詞に付属している助詞である。図5に示した体言変換規則テーブルでは、自立語「大きい」および助詞「が」にマッチする規則は、4行目のデータであり、従って体言化に必要な名詞は「度合い」である。つまり、体言変換規則選択部60は、「が/大きい → 度合い」という規則を入力文に適用する。その結果、体言変換規則選択部60は「需要/が/下がる/度合い/が/大きい」という平易化後の文を得て、この出力文を出力文記憶部70に書き込む。
【0039】
以上説明したように、文書平易化装置1は、「需要の落ち込みが大きい」という文の入力を受け、平易化規則(落ち込み→下がる)と、修飾句変換規則と、ドメイン依存格フレームテーブルと、体言変換規則により、「需要が下がる度合いが大きい」と言い換えた。この例は、文書平易化装置1が、文意を変えることなく自然な表現を用いて平易化できていることを示している。
【0040】
[第2の実施の形態]
次に、第2の実施形態について説明する。なお、前実施形態と共通の技術事項については説明を省略し、ここでは本実施形態特有の構成等について記載する。
前実施形態においては、文書平易化装置1は、各種のテーブルに記憶されたデータを用いて入力文を平易な文に変換し、出力していた。ここで新たな課題は、平易化規則テーブルのデータを作成する手間を削減することである。平易化規則テーブルの作成を自動化できれば、文書平易化装置をより低コストで効率よく実現することが可能となる。
【0041】
図7は、第2の実施形態による文書平易化装置の機能構成を示すブロック図である。図示するように、文書平易化装置2が、第1の実施形態で述べた文書平易化装置1と異なる点は、平易化規則テーブル作成装置200を設けたことである。図中のその他の機能ブロックは、文書平易化装置1におけるそれらと同様の機能を有する。
平易化規則テーブル作成装置200は、辞書データなどを用いて平易化規則を自動的に生成し、作成した規則を平易化規則テーブル記憶部130に書き込む。
【0042】
図8は、平易化規則テーブル作成装置200の詳細な機能構成を示すブロック図である。図示するように、平易化規則テーブル作成装置200は、
用言変換対作成部210と、置換可能単語対作成部220と、平易化規則候補認定部230と、文脈類似認定部240と、置換可能単語対テーブル記憶部310と、平易化規則候補テーブル記憶部320と、同義語辞書テーブル記憶部410と、辞書テーブル記憶部420(関連語記憶部)と、シソーラステーブル記憶部430(関連語記憶部)と、単語難易度テーブル記憶部440と、文脈類似テーブル記憶部450とを含んで構成される。これらの各部も、電子回路および記憶媒体を用いて実現される。
【0043】
用言変換対作成部210は、同義語辞書テーブル記憶部410から読み出した同義語データが用言データである場合に、その同義語データと、関連付けられた名詞データとを、用言変換対データとして出力する。
置換可能単語対作成部220は、用言変換対作成部210から出力された用言変換対データに含まれる名詞データと同義語データのそれぞれに基づいて、辞書テーブル記憶部420およびシソーラステーブル記憶部430を読み出す。そして、これらの各記憶部から読み出した見出し語と関連語との対を、置換前の語と置換後の語との置換可能単語対データとして出力する。置換可能単語対作成部220は、作成した置換可能単語対データを置換可能単語対テーブル記憶部310に書き込む。
【0044】
平易化規則候補認定部230は、置換可能単語対作成部220から出力された置換可能単語対データに関して、単語難易度テーブル記憶部から単語データに対応付けられた難易度データを読み出す。そして、この難易度データに基づき、置換前の語よりも置換後の語の方が平易である場合にのみ置換可能単語対データを平易化規則候補データとして認定する。平易化規則候補認定部230は、認定した平易化規則候補データを平易化規則候補テーブル記憶部320に書き込む。
文脈類似認定部240は、平易化規則候補認定部230によって認定された平易化規則候補データに関して、文脈類似テーブル記憶部450を参照することにより、置換前の語と置換後の語とが文脈類似な関係にある場合のみ平易化規則候補データを平易化規則データとして認定し、認定された平易化規則データを平易化規則テーブル記憶部130に書き込む。
【0045】
置換可能単語対テーブル記憶部310は、置換可能単語対作成部220によって作成された置換可能単語対のデータを記憶する。
平易化規則候補テーブル記憶部320は、平易化規則候補認定部230によって認定された平易化規則候補データを記憶する。
【0046】
同義語辞書テーブル記憶部410は、名詞データと、この名詞データに対する同義語データとを関連付けて記憶する。
辞書テーブル記憶部420は、見出し語と、その見出し語の語釈文の最終文節の自立語とを関連付けて記憶する。辞書テーブル記憶部420は、見出し語と関連語の対を記憶する関連語記憶部として機能する。この場合、語釈文の最終文節の自立語が関連語に相当する。
シソーラステーブル記憶部430は、見出し語と、その見出し語の類義語またはその見出し語の上位語とを関連付けて記憶する。シソーラステーブル記憶部430は、見出し語と関連語の対を記憶する関連語記憶部として機能する。この場合、見出し語の類義語または上位語が関連語に相当する。
単語難易度テーブル記憶部440は、単語データと、その単語データの難易度を表す難易度データとを対応付けて記憶する。
文脈類似テーブル記憶部450は、単語データと、単語データと文脈類似な他の単語との対応関係を記憶する。なお、文脈類似という関係については、後で詳述する。
【0047】
次に、平易化規則テーブル作成装置200において用いられる主要なデータについて説明する。
図9は、同義語辞書テーブルの構成とデータ例を示す概略図である。図示するように、同義語辞書テーブルは、表形式のデータであり、名詞と、同義表現(同義語データ)と、同義表現品詞の各項目を有する。このテーブルの1行のデータが、ある名詞と、その名詞と同義である他の語およびその品詞の関係を表す。なお、同義語辞書テーブルのデータは、予め、同義語辞典を元に作成したり、動詞連用形名詞等とその派生元の単語(用言)とのペアを元に作成したりしておく。一例として、図示するデータ例の1行目は、「戒め」という名詞(動詞連用形名詞)と、その同義表現である「戒める」という動詞と、当該同義表現の品詞「動詞」との関連を表している。また、4行目は、「かわいさ」という名詞(形容詞から派生した名詞)と、その同義表現である「かわいい」という形容詞と、当該同義表現の品詞「形容詞」との関連を表している。また、同義語辞書テーブルが形容動詞から派生した名詞と、派生元の形容動詞との関係を表すデータを記憶するようにしても良い。
【0048】
図10は、辞書テーブルの構成とデータ例を示す概略図である。図示するように、辞書テーブルは、表形式のデータであり、見出し語と、語義(関連語)の各項目を有する。なお、辞書テーブルのデータは、国語(日本語)辞典のデータなどを元に予め作成しておく。具体的には、国語辞典データが見出し語と語釈文のデータを含むとき、語釈文中の最終文節に含まれる自立語を辞書テーブル中の語義として格納するようにする。例えば、国語辞典データ内の見出し語「救い」に対応して、語釈文「救うこと。助けること。」というデータが存在する場合、この語釈文に含まれるそれぞれの最終文節の自立語は「救う」と「助ける」である。従って、見出し語「救い」−語義「救う」というデータと、見出し語「救い」−語義「助ける」というデータを、辞書テーブルに含めることができる。図示するデータ例の1行目では、見出し語「戒める」に対する語義は「しかる」である。
【0049】
図11は、シソーラステーブルの構成とデータ例を示す概略図である。図示するように、シソーラステーブルは、表形式のデータであり、見出し語と、シソーラス(関連語)の各項目を有する。シソーラスは、例えば、見出し語の類義語や、見出し語の上位語である。図示するデータ例の1行目は、見出し語「高まる」の類義語または上位語が「上がる」であることを表している。
【0050】
図12は、上記のシソーラステーブルを作成するための元となるデータの構成例を示す概略図である。図示するデータは、木構造のデータの一部分であり、ノードAとBとCを含んでいる。この図において、ノードの位置が上側であるほど単語や概念が上位のものであり、ノードの位置が下側であるほど単語や概念が下位のものであることを表している。また、同一ノード内にある単語は相互に類義である。このような上位・下位の関係を表すデータの一例として、日本語ワードネットなどがある。この木構造のデータを元に、ある単語と同一ノード内の単語とを対としたり、ある単語とその単語が属するノードの1段階上位のノードに属する単語とを対としたりして、シソーラステーブルを作成することができる。例えば、ノードBに属する単語「見込み」とその上位ノードAに属する単語「予測」とから、図11の第2行目に示す対(見込み,予測)を作成できる。また例えば、ノードBに属する単語「見込み」と同じくノードBに属する単語「期待」とから、図11の第3行目に示す対(見込み,期待)を作成できる。
【0051】
図13は、単語難易度テーブルの構成とデータ例を示す概略図である。図示するように、単語難易度テーブルは、「単語」と「難易度」が対になっているテーブルである。難易度を定めるための一例として、日本語能力試験(JLPT)出題基準データがある。ここでは、難易度の高いほうから順に、級外(数値0)>1級(数値1)>2級(数値2)>3級(数値3)>4級(数値4)である。つまり、難易度の数値が低いほど、難易度が高い。図示する例では、「戒め」という単語は難易度が級外(数値0)であり、「しかる」という単語は難易度が3級(数値3)である。つまり、「戒め」よりも「しかる」のほうが平易な単語である。
【0052】
図14は、文脈類似テーブルの構成とデータ例を示す概略図である。図示するように、文脈類似テーブルは、例えば表形式のデータとして実現され、単語と、その単語に対応する文脈類似単語の各項目を有している。文脈類似単語の項目は単語のリストを値として保持する。つまり、文脈類似テーブルは、単語と、その単語と文脈類似な単語(のリスト)との対応関係を保持する。文脈類似単語リストの項目に格納されるリストは、単語の項目に格納される単語との間で所定の閾値以上の文脈類似度を有する単語のリストである。ここで用いる文脈類似度は、特定のドメインに依存しない一般的なものであり、その算出方法については後述する。図示するデータ例は、単語「戒める」に対応する文脈類似単語リストには、「注意する」という単語が含まれている。ここで、「・・・」は、リスト中の他の単語の記載を省略していることを表している。また、単語「高まる」に対応する文脈類似単語リストには、「上がる」という単語が含まれている。
なお、「戒め」と「戒める」や、「高まり」と「高まる」など、動詞連用形名詞とその派生元の動詞とは文脈類似であるが、このような派生関係にある単語動詞については、文脈類似テーブルへの登録を省略しても良い。
【0053】
ここで、単語間の文脈類似という関係について詳しく説明する。文脈類似度を計算するためには、予めウェブなどから大量の文を収集しておき、その文集合を利用する。与えられた文集合において単語wと単語wが出現するとき、当該文集合に含まれる文において単語wが出現する文における単語wの文脈と、当該文集合に含まれる文において単語wが出現する文における単語wの文脈とを基に、両方の文脈間の類似度(文脈類似度)を数値的に算出し、その類似度が所定の閾値以上であるときに、その文集合において単語wと単語wとは文脈類似である。典型例としては、与えられた文集合において「私の好きな色は赤です。」という表現と「私の好きな色は青です。」という表現がともに多数出現する場合、「赤」という単語と「青」という単語とは文脈類似と言える。なお、ここで言う文脈とは、文内において単語wや単語wと共起する単語の集合や、それら共起語の出現頻度分布や、単語wや単語wを取り巻く係り受け関係などである。
【0054】
文脈類似度を算出する方法についての例を説明する。与えられた文集合に対して、語w(但し、w∈W)に対する共起語をv(v∈V)とし、語wと語vとが共起する頻度をfreq(w,v)とする。
(a)係り受け関係を利用する場合
前記の文集合に含まれる各文について、形態素解析処理および係り受け解析処理を行う。形態素解析処理および係り受け解析処理自体は、コンピュータおよび既存のコンピュータプログラムを用いて行うことができる。そして、係り受け解析処理の結果を元に、格助詞に着目し、名詞wに対する共起動詞の出現頻度を表す共起動詞ベクトルを作成する。
(b)文内共起を利用する場合
前記の文集合に含まれる各文について、形態素解析処理および文節区切り処理を行う。文節区切り処理も、コンピュータおよび既存のコンピュータプログラムを用いて行うことができる。そして、名詞wと文内で共起する名詞vを抜き出し、これを共起ペアとする。
上記の係り受け関係または文内共起を利用し、共起頻度行列Cを作成する。そして、得られた共起頻度行列Cを用いて、(1)ジャッカード係数の値を計算して単語wとwの間の文脈類似度としたり、(2)共起頻度行列Cを基に単語w,wのそれぞれに対応してtf−idfで重み付けした共起語ベクトルを求め、これらのベクトル間のコサイン尺度を単語wとwの間の文脈類似度としたり、(3)単語w,wが出現した文の数を、それぞれ、s(w),s(w)と、単語w,wが同一文内で共起した回数をs(w,w)とに基づいて相互情報量(PMI,Pointwise Mutual Information)を計算して単語wとwの間の文脈類似度とする。
【0055】
また、言い換えれば、単語間の文脈類似とは、与えられた文集合において、ある文内において第1の単語が出現する文脈と、ある文内において第2の単語が出現する文脈との類似度に基づくものである。このとき、第1の単語が出現する文と第2の単語が出現する文とは異なる文である場合もあり、また第1の単語と第2の単語が偶々同一の文内に出現する場合もある。この文脈の類似度は、文集合が与えられたときに、数値として算出されるものである。ここで文脈とは、例えば、単語が出現する文内(つまり、上記の第1の単語に対しては当該第1の単語が出現する文内であり、上記の第2の単語に対しては当該第2の単語が出現する文内)において前記単語と共起する他の単語(共起語と呼ぶ)の集合や、共起語の出現頻度分布や、共起語の出現順序や、当該単語が出現する文の係り受け解析結果(これは、係り受け解析木や、等価なデータ等で表される)の構造(その構造における前記単語の位置も含む)やその構造の出現頻度分布などである。これら例示した文脈を用いて、所定の処理により単語間の文脈類似度が計算される。そして、文脈類似度が所定の閾値以上のときに、それらの単語同士は文脈類似であると言う。
【0056】
次に、処理データの実例に基づき、平易化規則テーブル作成装置200の具体的な処理手順を説明する。
図15は、平易化規則テーブル作成装置200の処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。なお、予め、入力文記憶部10が、外部から入力された文「需要の落ち込みが大きい。」を記憶しており、この文が平易化の対象となる。
【0057】
まずステップS21において、用言変換対作成部210が、同義語辞書テーブル410から読み出したデータに基づいて、用言変換対のデータを作成する。例えば、用言変換対作成部210は、図9に示した同義語辞書テーブルのデータ例の第1行目を読み込むと、「戒め→戒める(動詞)」という用言変換対を作成し、内部のメモリに保持する。
【0058】
次にステップS22において、置換可能単語対作成部220は、辞書テーブル記憶部420およびシソーラステーブル記憶部430から読み出したデータに基づいて、置換可能単語対のデータを作成する。具体的には、置換可能単語対作成部220は、用言変換対作成部210で作成された用言変換対をメモリから読み出し、読み出した用言変換対を置換可能単語対テーブル記憶部310に書き込む。また、置換可能単語対作成部220は、読み出した用言変換対に含まれる名詞および同義表現(用言)のそれぞれを辞書テーブルおよびシソーラステーブルと照合し、照合の結果として得られた対を置換可能単語対テーブル記憶部310に書き込む。
【0059】
例えば、用言変換対作成部210から渡された「戒め→戒める」という対に関して、置換可能単語対作成部220は、この対「戒め→戒める」そのものと、「戒める」という単語を辞書テーブル(図10)の1行目と照合して得られる対「戒め→しかる」と、同じく4行目と照合して得られる対「戒め→注意する」とを、置換可能単語対テーブル記憶部310に書き込む。また、例えば、用言変換対作成部210から渡された「高まり→高まる」という対に関して、置換可能単語対作成部220は、この対「高まり→高まる」そのものと、「高まる」という単語を辞書テーブル(図11)の1行目と照合して得られる対「高まり→上がる」とを、置換可能単語対テーブル記憶部310に書き込む。つまり、ここに挙げた例では、置換可能単語対作成部220は、「戒め→戒める」と、「戒め→しかる」と、「戒め→注意する」と、「高まり→高まる」と、「高まり→上がる」の4つの対を置換可能単語対として作成し、置換可能単語対テーブル記憶部310に書き込む。
【0060】
次にステップS23において、平易化規則候補認定部230は、単語難易度テーブル記憶部440から読み出したデータに基づいて、上で作成された置換可能単語対の中から平易化規則候補を認定する。具体的には、平易化規則候補認定部230は、置換可能単語対テーブル記憶部310から読み出した置換可能対の各々について、置換前の難易度と置換後の難易度との比較を行う。そして、置換前の難易度よりも置換後の難易度のほうが低い(難易度の数値が高い)場合に、その置換可能単語対を平易化規則候補として認定し、平易化規則候補テーブル記憶部320に書き込む。例えば、図13に示した単語難易度テーブルを用いる場合、「戒め」と「戒める」とでは難易度が同等であるため、平易化規則候補認定部230は、置換可能単語対「戒め→戒める」を平易化規則候補として認定しない。また、「戒め」と「しかる」とでは置換後の「しかる」の方の難易度がより低い(平易である)ため、平易化規則候補認定部230は、置換可能単語対「戒め→しかる」を平易化規則候補として認定し、平易化規則候補テーブル記憶部320に書き込む。同様に、平易化規則候補認定部230は、「戒め→注意する」を平易化規則候補として認定し、平易化規則候補テーブル記憶部320に書き込む。同様に、平易化規則候補認定部230は、「高まり→高まる」と「高まり→上がる」もそれぞれ平易化規則候補として認定し、平易化規則候補テーブル記憶部320に書き込む。
【0061】
次にステップS24において、文脈類似認定部240は、文脈類似テーブル記憶部450から読み出したデータに基づいて、平易化規則候補認定部230によって認定された平易化規則候補の文脈類似度認定を行う。具体的には、文脈類似認定部240は、平易化規則候補テーブル記憶部320から平易化規則候補を読み出し、その各々について、置換前の単語が置換後の単語と文脈類似であるか否かを判断する。
図14に示した文脈類似テーブルを用いる場合、「戒め」と「しかる」が文脈類似でないため、平易化規則候補認定部230によって平易化規則候補であると認定された「戒め→しかる」は、文脈類似とは認定されない。また、「戒め」と「注意する」とは文脈類似であるため、文脈類似認定部240は、「戒め→注意する」を文脈類似と認定する。また、文脈類似テーブルには登録されていないものの、前述の通り「高まり」と「高まる」とは派生関係にあり、互いに文脈類似であるため、文脈類似認定部240は、「高まり→高まる」を文脈類似と認定する。また、「高まり」と「上がる」とは文脈類似であるため、文脈類似認定部240は、「高まり→上がる」を文脈類似と認定する。
【0062】
次にステップS25において、文脈類似認定部240は、文脈類似と認定された平易化規則を平易化規則テーブル記憶部130に書き出す。
つまり、上の例では、文脈類似認定部240は、「戒め→注意する」と「高まり→高まる」と「高まり→上がる」を平易化規則テーブル記憶部130には書き込む。そして、文脈類似認定部240は、文脈類似と認定されなかった「戒め→しかる」を平易化規則テーブル記憶部130には書き込まない。
【0063】
以上説明したように、本実施形態では、文書平易化装置2が平易化規則テーブル作成装置200を備え、平易化規則テーブルを自動的に作成する。つまり、文の平易化に必要な規則を効率的に生成することが可能となる。
【0064】
なお、上述した実施形態における文書平易化装置および平易化規則テーブル作成装置の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0065】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0066】
本発明は、一般的に大量の文章を自動的に平易化変形するために利用することができる。また本発明は、例えば、放送や、報道や、ウェブコンテンツ制作等の分野で、大量の文書や原稿等を自動的に平易化するために利用することができる。
【符号の説明】
【0067】
1,2 文書平易化装置
10 入力文記憶部
20 形態素解析・係り受け解析部
30 平易化規則選択部
40 修飾句変換規則選択部
50 格フレーム照合部
60 体言変換規則選択部
70 出力文記憶部
130 平易化規則テーブル記憶部
140 修飾句変換規則テーブル記憶部
150 ドメイン依存格フレームテーブル記憶部(格フレームテーブル記憶部)
160 体言変換規則テーブル記憶部
200 平易化規則テーブル作成装置
210 用言変換対作成部
220 置換可能単語対作成部
230 平易化規則候補認定部
240 文脈類似認定部
310 置換可能単語対テーブル記憶部
320 平易化規則候補テーブル記憶部
410 同義語辞書テーブル記憶部
420 辞書テーブル記憶部(関連語記憶部)
430 シソーラステーブル記憶部(関連語記憶部)
440 単語難易度テーブル記憶部
450 文脈類似テーブル記憶部

【特許請求の範囲】
【請求項1】
名詞データと前記名詞データに対応する用言データとを関連付けた平易化規則データを記憶する平易化規則テーブル記憶部と、
連体修飾句データと前記連体修飾句データに対応する連用修飾句データとを関連付けた修飾句変換規則データを保持する修飾句変換規則テーブル記憶部と、
用言データと、前記用言データを修飾する連用修飾句データと、これら用言データと連用修飾句データに関する出現頻度データとを関連付けて記憶する格フレームテーブル記憶部と、
自立語データと、前記自立語データに係る体言化データとを関連付けて体言変換規則データとして記憶する体言変換規則テーブル記憶部と、
文データに対応する係り受け解析結果データを読み込み、前記係り受け解析結果データに含まれる名詞データに基づき、前記平易化規則テーブル記憶部から適用可能な前記平易化規則データを選択する平易化規則選択部と、
前記平易化規則選択部によって選択された前記平易化規則データが適用され得る前記名詞データを修飾する連体修飾句データを前記係り受け解析結果データから抽出し、抽出された前記連体修飾句データに基づいて、前記修飾句変換規則テーブル記憶部から対応する前記修飾句変換規則データを選択する修飾句変換規則選択部と、
前記平易化規則選択部によって選択された前記平易化規則データに含まれる前記用言データと、前記修飾句変換規則選択部によって選択された前記修飾句変換規則データに含まれる前記連用修飾句データとに基づき、前記格フレームテーブル記憶部から前記出現頻度データを読み出し、読み出した出現頻度データに基づいて、選択された前記連用修飾句データによって前記係り受け解析結果データ内の前記連体修飾句データを置換するとともに、選択された前記用言データによって前記係り受け解析結果データ内の前記名詞データを置換する格フレーム照合部と、
前記格フレーム照合部による置換前の前記名詞データが係っていた自立語データと前記自立語データに係るための助詞データを前記係り受け解析結果データから抽出し、抽出された前記自立語データおよび前記助詞データに基づいて、前記体言変換規則テーブル記憶部から前記体言変換規則データを選択し、選択された前記体言変換規則データに基づいて、前記格フレーム照合部による置換後の前記用言データを体言化する体言変換規則選択部と、
を具備することを特徴とする文書平易化装置。
【請求項2】
前記格フレームテーブル記憶部は、特定のドメインに属する文集合における前記用言データと前記連用修飾句データの共起関係に基づく前記出現頻度データを記憶する、ことを特徴とする請求項1に記載の文書平易化装置。
【請求項3】
前記体言変換規則テーブル記憶部は、前記自立語データとの共起関係に基づいて選択された名詞データと助詞データとの組合せを前記体言化データとして保持する、ことを特徴とする請求項1または2のいずれか一項に記載の文書平易化装置。
【請求項4】
名詞データと、前記名詞データに対する同義語データとを関連付けて記憶する同義語辞書テーブル記憶部と、
見出し語と、前記見出し語の類義語または前記見出し語の上位語または前記見出し語の語釈文の最終文節の自立語とを関連付けて、前記見出し語と関連語の対として記憶する関連語記憶部と、
単語データと、前記単語データの難易度を表す難易度データとを対応付けて記憶する単語難易度テーブル記憶部と、
単語データと、前記単語データと文脈類似な他の単語との対応関係を保持する文脈類似テーブル記憶部と、
前記同義語辞書テーブル記憶部から読み出した前記同義語データが用言データである場合に、当該同義語データと、関連付けられた前記名詞データとを、用言変換対データとして出力する用言変換対作成部と、
前記用言変換対作成部から出力された前記用言変換対データに含まれる前記名詞データと前記同義語データのそれぞれに基づいて、前記関連語記憶部から読み出した前記見出し語と前記関連語との対を、置換前の語と置換後の語との置換可能単語対データとして出力する置換可能単語対作成部と、
前記置換可能単語対作成部から出力された置換可能単語対データに関して、単語難易度テーブル記憶部から前記単語データに対応付けられた前記難易度データを読み出すことにより、前記置換前の語よりも前記置換後の語の方が平易である場合にのみ前記置換可能単語対データを平易化規則候補データとして認定する平易化規則候補認定部と、
前記平易化規則候補認定部によって認定された前記平易化規則候補データに関して、文脈類似テーブル記憶部を参照することにより、前記置換前の語と前記置換後の語とが文脈類似な関係にある場合のみ前記平易化規則候補データを平易化規則データとして認定し、認定された平易化規則データを前記平易化規則テーブル記憶部に書き込む文脈類似認定部と、
を具備することを特徴とする平易化規則テーブル作成装置をさらに設けた、請求項1から3までのいずれか一項に記載の文書平易化装置。
【請求項5】
前記同義語辞書テーブル記憶部は、用言から派生する名詞に関するデータを前記名詞データとして保持するとともに、前記名詞データの派生元の用言に関するデータを前記同義語データとして関連付けて保持する、
ことを特徴とする請求項4に記載の文書平易化装置。
【請求項6】
名詞データと前記名詞データに対応する用言データとを関連付けた平易化規則データを記憶する平易化規則テーブル記憶部と、
連体修飾句データと前記連体修飾句データに対応する連用修飾句データとを関連付けた修飾句変換規則データを保持する修飾句変換規則テーブル記憶部と、
用言データと、前記用言データを修飾する連用修飾句データと、これら用言データと連用修飾句データに関する出現頻度データとを関連付けて記憶する格フレームテーブル記憶部と、
自立語データと、前記自立語データに係る体言化データとを関連付けて体言変換規則データとして記憶する体言変換規則テーブル記憶部と、
文データに対応する係り受け解析結果データを読み込み、前記係り受け解析結果データに含まれる名詞データに基づき、前記平易化規則テーブル記憶部から適用可能な前記平易化規則データを選択する平易化規則選択部と、
前記平易化規則選択部によって選択された前記平易化規則データが適用され得る前記名詞データを修飾する連体修飾句データを前記係り受け解析結果データから抽出し、抽出された前記連体修飾句データに基づいて、前記修飾句変換規則テーブル記憶部から対応する前記修飾句変換規則データを選択する修飾句変換規則選択部と、
前記平易化規則選択部によって選択された前記平易化規則データに含まれる前記用言データと、前記修飾句変換規則選択部によって選択された前記修飾句変換規則データに含まれる前記連用修飾句データとに基づき、前記格フレームテーブル記憶部から前記出現頻度データを読み出し、読み出した出現頻度データに基づいて、選択された前記連用修飾句データによって前記係り受け解析結果データ内の前記連体修飾句データを置換するとともに、選択された前記用言データによって前記係り受け解析結果データ内の前記名詞データを置換する格フレーム照合部と、
前記格フレーム照合部による置換前の前記名詞データが係っていた自立語データを前記係り受け解析結果データから抽出し、抽出された前記自立語データに基づいて、前記体言変換規則テーブル記憶部から前記体言変換規則データを選択し、選択された前記体言変換規則データに基づいて、前記格フレーム照合部による置換後の前記用言データを体言化する体言変換規則選択部と、
を具備する文書平易化装置としてコンピュータを機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2012−185636(P2012−185636A)
【公開日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願番号】特願2011−47770(P2011−47770)
【出願日】平成23年3月4日(2011.3.4)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】