説明

言語解析システム及び言語解析方法

【課題】英文で記載された文章の時制の正誤の自動解析をコーパスを収容したデータベースにより行う言語解析システム及び言語解析方法の提供。
【解決手段】データベースから文章を抽出しこれを構成する単語又は句に品詞タグを与える上で、動詞のうち、習慣的動作を表すものではない動作動詞についてはこれを示す動作動詞タグを与え、動作動詞と、動詞のタグを与えられた単語に関する複数の素性と、の相関についての分類器を得ておく。少なくとも解析部において、英語で記載された解析対象の文章の品詞を推定し素性について素性ベクトルに変換する。分類器に素性ベクトルを与えて動詞について動作動詞であり且つ単純現在であるときを文章の時制誤りとする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、英文で記載された文章の時制の正誤を自動解析するための言語解析システム及び言語解析方法に関し、特に、この解析をコーパスを収容したデータベースを用いて行う言語解析システム及び言語解析方法に関する。
【背景技術】
【0002】
英文で記載された文章の句や単語毎に各種のタグを与えてデータベース化したタグ付きコーパス(corpus)を用いて、解析対象文章をコンピュータ自動解析するシステムが知られている。コーパスから分類器を機械学習させ、解析対象文章を該分類器によりコンピュータ自動解析させるのである。分類器については、決定木やニューラルネットワークなどの多くのアルゴリズムが提案されている。
【0003】
例えば、非特許文献1では英文エッセイの自動評価を行うための各種のタグを付けたコーパスについて述べられている。コーパスにタグ付けがなされることで文章中の各単語の機能、例えば、限定詞、前置詞、その他の品詞としての機能や、表現したい内容などについてもコンピュータが認識できるようになる。また、特許文献1でも、同様に、英文エッセイの自動評価を行うためのシステムを開示している。その背景技術として、主語及び動詞の合致のような解析対象文章の正誤はタグを付けたコーパスを利用して容易に行い得ることを述べている。
【0004】
ここで、特許文献1では、上述した主語及び動詞の合致や、単語のつづりにおける誤りを「厳格なエラー」と定義する一方で、読み手の主観的要素によって正誤判断の分かれるような場合、例えば、エッセイ中での単語の繰り返しエラーの如き文章エラーを区別して定義している。つまり、前者についてはコーパスを用いた簡単な分類器でその正誤を比較的容易に自動解析できるが、後者については自動解析において多くの難しさがある。かかるエラーの1つとして文章の時制誤りが挙げられる。
【0005】
例えば、2つの解析対象文章(例文1:「I like the car.」)と、(例文2:「I liked the car.」)が与えられたとする。(例文1)及び(例文2)は、それぞれ「私はその車を好きだ。」との現在形、及び、「私はその車を好きだった。」との過去形の文章であり、いずれも文法的には正しい。しかしながら、書き手が(例文1)の現在形の意味を意図して(例文2)を書いたとき、逆に、書き手が(例文2)の過去形の意味を意図して(例文1)を書いたときに各文章は動詞の時制の誤りとされる。すなわち、書き手の意図において、同じ文章でありながら正誤の判断が異なるのである。また、「now」や「in those days」のような時制を確定させる単語や表現を文中に含むときや、前後に時制に関する記述のあるときは、これに依存して正誤が決定される。つまり、動詞の時制の正誤は、書き手の状況の推測や、前後の文章の文脈などの表層情報によって決定され得るのである。
【0006】
表層情報に関して、例えば、特許文献2では、テキストを精度良く解析等するため、文内及び文間に現われる表層情報から得られる様々な知識をはじめとして、辞書的な知識、言語学的な知見など、できるだけ多様な知識を利用するのが良いと考えられると述べた上で、多様な知識を利用しようとすると学習データに過学習する傾向があることを指摘している。そこで、この「知識」を充実させて表層情報をより効率よく解析することを提案している。
【0007】
一方、非特許文献2では、一般的な文章の誤りの検出手法について述べている。つまり、誤り情報のタグを付けられたコーパスから正誤を判定するための最大エントロピー法に基づく分類器を学習し、誤り検出を行うことで多くの文章の誤りを検出できるとしている。かかる方法でも、上述した時制の正誤の決定を行い得る。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特表2006−506740号公報
【特許文献2】特開2005−216126号公報
【非特許文献】
【0009】
【非特許文献1】J.Burstein,M.Chodorow, and C.Leacock, "Automated Essay Evaluation: The Criterion OnlineWriting Service", AI Magazine, vol 25, No.3, pp27-36, Sep.2004
【非特許文献2】E.Izumi,K.Uchimoto, T.Saiga, T.Supnithi, and H. Isahara,. "Automatic errordetection in the Japanese learners' English spoken data", Proc. of 41st.Annual Meeting of ACL, pp145-148, 2003.
【発明の開示】
【発明が解決しようとする課題】
【0010】
非特許文献2では、誤り情報のタグを付けられた特殊なコーパスを用いて学習データの作成を試みているが、かかるコーパスは一般的でないため、時制の正誤の決定の精度を十分に得られるような十分な学習データを得ることは難しい。一方、特許文献2で述べられているように、表層情報から判断される正誤の種類は動詞の時制の誤りに限らず非常に数多く、その正誤の決定の精度は表層情報の取得のための学習データの作成に大きく依存する。しかしながら、時制の正誤の決定に限定すれば、特定の表層情報からの判断で十分であり、大規模な学習データの作成は不要と考えられる。例えば、時制誤りの解析対象である文章において、その中心となる動詞を抽出できる程度のコーパスの如きを用いて、この正誤判断ができることを望まれる。
【0011】
本発明は、上記したような状況に鑑みてなされたものであって、その目的とするところは、英文で記載された文章の時制の正誤の自動解析をコーパスを収容したデータベースを用いて自動解析する言語解析システム及び言語解析方法の提供にある。
【課題を解決するための手段】
【0012】
本発明による言語解析システムは、英語で記載された文章の時制の正誤をコーパスを収容したデータベースを用いて自動解析する自動解析システムであって、前記データベースから文章を抽出しこれを構成する単語又は句に品詞タグを与える上で、動詞のうち、習慣的動作を表すものではない動作動詞についてはこれを示す動作動詞タグを与え、前記動作動詞と、前記動詞のタグを与えられた単語に関する複数の素性と、の相関についての分類器を得ておくとともに、少なくとも解析部において、英語で記載された解析対象の文章の品詞を推定し前記素性について素性ベクトルに変換するステップと、前記分類器に前記素性ベクトルを与えて前記動詞について動作動詞であり且つ単純現在であるときを前記文章の時制誤りとするステップと、を含む解析を行うことを特徴とする。
【0013】
かかる発明によれば、コーパスの文章に更に動詞のstativityに関する動作動詞タグを与えることで時制の正誤の自動解析をできる分類器を得られるのである。つまり、表層情報を大規模に収集することなく、文章の時制の正誤の決定を可能とするのである。
【0014】
上記した発明において、前記素性は、副詞、動詞及び副詞を除く動詞句内の単語、副詞を除く動詞句の左右k(k=1,2,3…)個の単語から構成されることを特徴としてもよい。かかる発明によれば、動詞のstativityに直接関連し得る情報を含む素性ベクトルを決定できて、動詞の時制の正誤の決定をより精度良く行い得るのである。
【0015】
上記した発明において、副詞を除く動詞句の左右k(k=1,2,3…)個の前記単語は、時制を直接表す単語を除いて計数されることを特徴としてもよい。かかる発明によれば、時制の正誤の決定を効率よく且つより精度良く行い得るのである。
【0016】
上記した発明において、k=3であることを特徴としてもよい。かかる発明によれば、時制の正誤の決定をより精度良く行い得るのである。
【0017】
上記した発明において、前記分類器は最大エントロピー法によるものであることを特徴としてもよい。かかる発明によれば、時制の正誤の決定を比較的容易に且つより精度良く行い得るのである。
【0018】
本発明による言語解析方法は、英語で記載された文章の時制表現の正誤をコーパスを収容したデータベースを用いて自動解析する自動解析方法であって、前記データベースから文章を抽出しこれを構成する単語又は句に品詞タグを与える上で、動詞のうち、習慣的動作を表すものではない動作動詞についてはこれを示す動作動詞タグを与え、前記動作動詞と、前記動詞のタグを与えられた単語に関する複数の素性と、の相関についての分類器を得ておくとともに、少なくとも解析部において、英語で記載された解析対象の文章の品詞を推定し前記素性について素性ベクトルに変換するステップと、前記分類器に前記素性ベクトルを与えて前記動詞について動作動詞であり且つ単純現在であるときを前記文章の時制誤りとするステップと、を含む解析を行うことを特徴とする。
【0019】
かかる発明によれば、コーパスの文章に更に動詞のstativityに関する動作動詞タグを与えることで時制の正誤の自動解析をできる分類器を得られるのである。つまり、表層情報を大規模に収集することなく、文章の時制の正誤の決定を可能とするのである。
【0020】
上記した発明において、前記素性は、副詞、検出対象の動詞及び副詞を除く動詞句内の単語、副詞を除く動詞句の左右k(k=1,2,3…)個の単語から構成されることを特徴としてもよい。かかる発明によれば、stativityを予測すべき動詞に直接関連し得る情報を加味した素性ベクトルを決定できて、動詞の時制の正誤の決定をより精度良く行い得るのである。
【0021】
上記した発明において、副詞を除く動詞句の左右k(k=1,2,3…)個の前記単語は、時制を直接表す単語を除いて計数されることを特徴としてもよい。かかる発明によれば、時制の正誤の決定を効率よく且つより精度良く行い得るのである。
【0022】
上記した発明において、k=3であることを特徴としてもよい。かかる発明によれば、時制の正誤の決定をより精度良く行い得るのである。
【0023】
上記した発明において、前記分類器は最大エントロピー法によるものであることを特徴としてもよい。かかる発明によれば、時制の正誤の決定を比較的容易に且つより精度良く行い得るのである。
【図面の簡単な説明】
【0024】
【図1】本発明によるシステムの構成図である。
【図2】本発明による解析手順のフロー図である。
【図3】本発明による解析手順の一部のフロー図である。
【図4】本発明による解析手順の一部のフロー図である。
【図5】本発明による解析手順の一部のフロー図である。
【図6】本発明による解析手順の一部のフロー図である。
【図7】本発明による解析結果を示す図である。
【発明を実施するための形態】
【0025】
図1乃至図6を用いて、本発明の1つの実施例による英文で記載された文章の動詞の時制誤りを解析する言語解析システム及び言語解析方法についてその詳細を説明する。
【0026】
まず、本発明の言語的原理について説明する。例えば、動詞「read」は不規則動詞であって、現在形と過去形の綴りが一緒でありながら、発音が異なる。ここで、「I read the book.」を発音するよう求められた読み手は、大抵の場合、過去形として発音する。「I read the book yesterday.」のように時制が表層情報として明示されていないにもかかわらず、読み手は時制を過去と認識するのである。
【0027】
ここで、「stativity(状態性)」に基づいた動詞の分類方法がある。例えば、「I like the car.」における動詞「like」は「好きだ」との状態を表す状態動詞であり、「I drove the car.」における動詞「drive(drove)」は「運転する」との動作を表す動作動詞である。動詞の時制は、この「stativity」に制限を受ける。つまり、「動作動詞」と現在時制の組み合わせは、発話時点で起こっている動作を表現するのには一般的に用いられない。このため、上述した「読む」との動作を表す動作動詞である「read」は、時制を過去と認識されるのである。
【0028】
英文で記載された文章の正誤を自動解析する、すなわち、英語の学習者などが書いた英文の自動添削などにおいては、「動作動詞」と現在時制の組み合わせを時制表現の特殊な用法として考慮するのではなく、これを時制誤りとして検出することを本発明の言語的原理の1つとしている。かかる言語的原理を用いた言語解析システム1(図1参照)について、以下にその詳細を説明する。
【0029】
図1に示すように、言語解析システム1は、解析処理の中枢を担う中央制御部10と、中央制御部10からの命令により各種のデータを情報処理する処理部11乃至14、解析対象の英語の文章テキストデータを入力するキーボードやスキャナなどに接続される解析対象文章入力部21、及び、解析結果を印字機(プリンタ)や映像装置(モニタ)などに出力する解析結果出力部22などを含んでいる。また、英文で記載された文章を格納した外部若しくは内部データベースであるコーパスDB31との間は、文章情報データを得られるように接続されている。これらの間のデータのやりとりは閉じた小規模なシステムだけでなく、専用回線や公衆回線などを介した広域システムでも構成され得る。
【0030】
図2に示すように、中央制御部10は、解析手順において、解析対象の文章の動詞の状態性、すなわち「stativity」を予測するために使用される分類器14を得るための訓練データを所定のプログラムに沿って若しくは人手によって作成させ、stativity予測部12に適宜、収容させる(S1)。
【0031】
詳細には、図3に示すように、所定のプログラム又は操作者の端末操作などによって、コーパスDB31に収容されているコーパスからテキスト文章を抽出し(S11)、その動詞(動詞句)を抽出判別する(S12)。なお、テキスト文章に品詞タグが付されていると、文章中の動詞(動詞句)は容易に判別できる。しかしながら、品詞タグがなくとも、この操作は公知の自動品詞推定方法によっても得られ、また人手によっても良い。この動詞について、動作動詞に「D」、その他の動詞については「O」の如きラベル(タグ)を付加して(S13)、テキスト文章からなる訓練データをstativity予測部12に収容していく(S14)。但し、習慣的動作は一般的に動詞を現在形で表現するので、これを例外として、動作動詞「D」であっても、「O」のタグをラベル付けすることとする。つまり、厳密には、訓練データとしての「stativity」に関するタグは、動作動詞であるかどうかを示すものではない。
【0032】
具体的には、「I had hot coffee.」では、動詞「had(have)」が「飲む」との動作動詞であるから、「I had/D hot coffee.」とラベル付けされる。また、「I had an old car.」では、動詞「had(have)」が「所有する」との状態動詞であるから、「I had/O an old car.」とラベル付けされる。すなわち、同じ動詞「had」であっても動作動詞の場合と状態動詞の場合があり、タグのラベル付けを単純な単語の検索のみによっては得られない。
【0033】
再び、図2に示すように、中央制御部10は、解析手順において、素性ベクトル変換部11にstativity予測部12の「D」又は「O」のタグのラベル付けをされた訓練データであるテキスト文章から素性ベクトルを求めさせ、後述する解析対象文章の動詞の「stativity」を予測するための分類器14の学習をさせる(S2)。
【0034】
詳細には、図4に示すように、stativity予測部12に収容されている「D」又は「O」のタグのラベル付けをされた動詞を含むテキスト文章を1つ抽出する(S21)。このテキスト文章について、「stativity」を予測する動詞に関する複数の素性に対応した素性ベクトルを求め(S22)、分類器14の学習をさせる(S23)操作を繰り返し行う(S22’)。
【0035】
図5に示すように、素性ベクトルの作成(S22)については、まず、訓練データであるテキスト文章について品詞タグなどから動詞の特定を行う(S221)。
【0036】
ここで、上述の素性は「stativity」を予測する動詞に直接関するものであることが好ましい。そこで、(i)副詞、(ii)動詞句内の動詞を除く単語、(iii)動詞句の左右k個の単語(k=1,2,3…)の3つを選択した。(i)の副詞は、動詞を直接修飾し得る品詞であることから素性の対象とし、一方で、(ii)及び(iii)の単語の素性では、副詞を除くことにした。つまり、(iii)では、k個の単語には副詞を計数せず、これを除いて単語を抽出する。
【0037】
素性の抽出は、テキスト文章の品詞タグから副詞の特定を行い(S222)、続いて、適宜、言語コーパスなどを用いて、動詞句の特定を行う(S223)。更に、動詞句の左右k個の単語を特定する(S224)。そして単語を公知の逐次変換器などで原形に変換し(S225)、抽出された素性について素性ベクトルに変換する(S226)。
【0038】
具体的には、例えば、「The man quickly [VP had/D] hot coffee.」の例文において、k=2とすると、
副詞=quickly
左(k=1):man、左(k=2):the
右(k=1):hot、右(k=2):DRINK
が素性の対象となる。ここで、動詞句の左(k=1 or 2)では、上記した原則から、副詞quicklyを計数せず、ここにはこれを含まない。なお、"DRINK"は、名詞coffeeの意味コードである。かかる素性を素性ベクトルへ変換する。
【0039】
上述した手順で素性ベクトルを繰り返し集めながら、例えば、公知の最大エントロピー法やSVM(Support Vector Machine)法などを用いた方法などで、解析対象文章の動詞の「stativity」を予測するための分類器14を学習させる(図4参照、S23)。
【0040】
再度、図2に示すように、中央制御部10は、解析手順において、判定部13に解析対象文章について、上述のようにして学習により得られる分類器14を使用して、含まれる動詞の「stativity」を予測させ、動詞の時制表現の誤りの判定を行う(S3)。
【0041】
詳細には、図6に示すように、判定部13は、解析対象文章入力部21から解析対象の英語の文章テキストを入力させ(S31)、上述した素性ベクトルの作成(S22)と同様に、動詞を特定し(S32)、素性ベクトルを作成する(S33)。この素性ベクトルを分類器14に導入する(S34)。これにより、含まれる動詞の「stativity」を予測させ、動詞の時制の誤りの判定を行う。
【0042】
まず、動詞が単純現在であり、且つ、「stativity」で「D」である場合、文章の動詞の時制誤りであると判断し、それ以外の場合は、時制誤りはないとして、解析結果出力部22により結果を出力する(S35)。なお、オプションとして、文章の動詞の時制誤りであると判断したときに更に文章が命令形であるか(S36)、「時」「条件」の副詞節でないか(S37)についても公知の方法で判断し、いずれも「Y」の場合を文章の動詞の時制誤りであり、「N」の場合は、時制誤りはないと判断することでより精度を高めることができる。
【0043】
(評価試験)
次に、上記した実施例による言語解析システムについての解析精度の評価試験について説明する。
【0044】
まず、英語学習者に多く使われる10種類の動詞「buy,come,find,get,go,make,play,see,take,use」を含む文をコーパス(約18万語)から抽出し、人手により訓練データを作成してstativity予測部12に収容させる作業(S1)を行った。ここでは2563の訓練データが得られた。
【0045】
一方、素性ベクトルの作成(S22)において、k値は、leave-one-outクロスバリデーションを用いて予測精度を最も高くするように決定した。すなわち、1以上10以下のk値に対して、k=3のとき予測精度は0.789で最も高く、このk値に対する分類器を学習させた。
【0046】
動詞の時制誤りの判定は、誤りをあらかじめ判定してある170のエッセイについて行った。この170のエッセイ中、155に動詞の時制誤りを含み、このうち10種類の動詞における時制誤りは41であった。動詞の時制誤りの判定性能は、Recall(再現率)、Precision(適合率)、及び、F値[F = 2 / (1/Recall+1/Precision)]によって評価し、その結果を図7に示した。
【0047】
なお、図7において、比較例1は、非特許文献2で提案されている方法である。すなわち、誤り情報が付与された学習者コーパスから動詞の時制表現の正誤を判定するための最大エントロピー法に基づく分類器を学習して誤り判定を行っている。ここで、文法誤り情報が付与された学習者コーパスを必要とするため、leave-one-outクロスバリデーションにより一度に1つのエッセイを取り除き判定を行った。
【0048】
また、比較例2は、3−way法とも呼ばれる方法である。すなわち、最大エントロピー法に基づく分類器を学習して、現在、過去、未来の3値分類を行って誤り判定を行っている。かかる方法は、冠詞誤り検出手法や前置詞誤り検出手法の時制誤り判定への適用ともみなし得る。なお、素性については、実施例と同じである。
【0049】
また、比較例3は、動詞の現在形を常に誤りと判定したときである。
【0050】
図7から分かるように、実施例ではいずれの比較例と比べてもRecall(再現率)、Precision(適合率)、及び、F値のいずれにおいても動詞の時制の正誤を高い確率で得ることができた。
【0051】
以上述べてきたように、本実施例によれば、時制の正誤の決定を動作動詞タグを含めた品詞タグ付きコーパスを収容したコーパスDB31による分類器14で自動解析でき得るのである。つまり、時制の正誤の決定のために表層情報を大規模に収集することなく、動詞のstativityを予測できて、これに基づいて正誤を決定できるのである。
【0052】
また、stativityを予測すべき動詞に直接関連し得る情報を加味した素性から素性ベクトルを決定できて、動詞の時制の正誤の決定をより精度良く行い得るのである。
【0053】
以上、本発明による実施例及びこれに基づく変形例を説明したが、本発明は必ずしもこれに限定されるものではなく、当業者であれば、本発明の主旨又は添付した特許請求の範囲を逸脱することなく、様々な代替実施例及び改変例を見出すことができるであろう。
【符号の説明】
【0054】
1 言語解析システム
10 中央制御部
11 素性ベクトル変換部
12 stativity予測部
13 判定部
14 分類器
31 コーパスデータベース

【特許請求の範囲】
【請求項1】
英語で記載された文章の時制の正誤をコーパスを収容したデータベースを用いて自動解析する自動解析システムであって、
前記データベースから文章を抽出しこれを構成する単語又は句に品詞タグを与える上で、動詞のうち、習慣的動作を表すものではない動作動詞についてはこれを示す動作動詞タグを与え、前記動作動詞と、前記動詞のタグを与えられた単語に関する複数の素性と、の相関についての分類器を得ておくとともに、少なくとも解析部において、
英語で記載された解析対象の文章の品詞を推定し前記素性について素性ベクトルに変換するステップと、
前記分類器に前記素性ベクトルを与えて前記動詞について動作動詞であり且つ単純現在であるときを前記文章の時制誤りとするステップと、を含む解析を行うことを特徴とする言語解析システム。
【請求項2】
前記素性は、副詞、動詞及び副詞を除く動詞句内の単語、副詞を除く動詞句の左右k(k=1,2,3…)個の単語から構成されることを特徴とする請求項1記載の言語解析システム。
【請求項3】
前記左右k(k=1,2,3…)個の前記単語は、時制を直接表す単語を除いて計数されることを特徴とする請求項2記載の言語解析システム。
【請求項4】
k=3であることを特徴とする請求項2又は3に記載の言語解析システム。
【請求項5】
前記分類器は最大エントロピー法によるものであることを特徴とする請求項1乃至4のうちの1つに記載の言語解析システム。
【請求項6】
英語で記載された文章の時制の正誤をコーパスを収容したデータベースを用いて自動解析する自動解析方法であって、
前記データベースから文章を抽出しこれを構成する単語又は句に品詞タグを与える上で、動詞のうち、習慣的動作を表すものではない動作動詞についてはこれを示す動作動詞タグを与え、前記動作動詞と、前記動詞のタグを与えられた単語に関する複数の素性と、の相関についての分類器を得ておくとともに、少なくとも解析部において、
英語で記載された解析対象の文章の品詞を推定し前記素性について素性ベクトルに変換するステップと、
前記分類器に前記素性ベクトルを与えて前記動詞について動作動詞であり且つ単純現在であるときを前記文章の時制誤りとするステップと、を含む解析を行うことを特徴とする言語解析方法。
【請求項7】
前記素性は、副詞、動詞及び副詞を除く動詞句内の単語、副詞を除く動詞句の左右k(k=1,2,3…)個の単語から構成されることを特徴とする請求項6記載の言語解析方法。
【請求項8】
前記左右k(k=1,2,3…)個の前記単語は、時制を直接表す単語を除いて計数されることを特徴とする請求項7記載の言語解析方法。
【請求項9】
k=3であることを特徴とする請求項7又は8に記載の言語解析方法。
【請求項10】
前記分類器は最大エントロピー法によるものであることを特徴とする請求項6乃至9のうちの1つに記載の言語解析方法。

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図1】
image rotate


【公開番号】特開2012−174064(P2012−174064A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−36368(P2011−36368)
【出願日】平成23年2月22日(2011.2.22)
【出願人】(502194735)株式会社教育測定研究所 (10)
【Fターム(参考)】