情報処理装置及びプログラム
【課題】意味内容は対応するが係り受け構造は異なる別の文への言い換えを実現するための情報処理装置を提供する。
【解決手段】互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出し、抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する情報処理装置である。
【解決手段】互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出し、抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する情報処理装置である。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
日本語等の自然言語で記載された文を、対応する意味を持つ別の表現で言い換えた文に変換する技術がある(例えば特許文献1、2及び3参照)。これらの技術においては、文の意味内容を変えないように特定の表現を別の表現に変換する変換規則を用いて、文の言い換えを行う。この変換規則は、人手で作成されたり、または予め意味が対応することが分かっている文の係り受け構造を解析することによって、自動的に生成されたりする。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003−022264号公報
【特許文献2】特開2005−149494号公報
【特許文献3】特開2008−234175号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、意味内容は対応するが係り受け構造は異なる別の文への言い換えを実現するための情報処理装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
請求項1記載の発明は、情報処理装置であって、互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段と、前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段と、を含むことを特徴とする。
【0006】
請求項2記載の発明は、請求項1記載の情報処理装置であって、前記2つの文の一方は第1言語、他方は当該第1言語とは異なる第2言語で記述された文であって、前記文要素抽出手段は、前記第1言語で記述された文から前記動詞を含む文要素を抽出し、前記第2言語で記述された文から前記付属語を含む文要素を抽出し、前記対情報出力手段は、前記付属語を前記第1言語に翻訳して、前記動詞と前記翻訳された付属語の対情報を出力することを特徴とする。
【0007】
請求項3記載の発明は、請求項2記載の情報処理装置であって、前記対情報出力手段は、前記第1言語で記述された文に含まれる動詞であって、前記抽出される文要素に含まれる動詞とは別の動詞を修飾しうる付属語の種類に関する情報を取得し、当該取得した情報を用いて、前記付属語を前記第1言語に翻訳することを特徴とする。
【0008】
請求項4記載の発明は、情報処理装置であって、言い換え可能な動詞と付属語の対情報であって、当該言い換え可能な動詞又は付属語を含む文要素の文中における役割が関連づけられた対情報を取得する対情報取得手段と、処理対象文に含まれる文要素のうち、前記取得される対情報の一方を含み、当該対情報に関連づけられた役割を備える文要素を特定する文要素特定手段と、前記取得される対情報及び前記特定される文要素に基づいて、前記処理対象文を対応する意味を持つ別の文に変換する文変換手段と、を含むことを特徴とする。
【0009】
請求項5記載の発明は、互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段、及び、前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段、としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0010】
請求項1及び5記載の発明によれば、意味内容は対応するが係り受け構造は異なる別の文への言い換えを実現するための対情報を生成できる。
【0011】
請求項2記載の発明によれば、互いに異なる言語で意味が対応する2つの文を用いて、対情報を生成できる。
【0012】
請求項3記載の発明によれば、互いに異なる言語の文を用いて対情報を生成する場合に、複数の意味を持つ付属語から、意味が対応する文への言い換えを可能とする対情報を生成できる。
【0013】
請求項4記載の発明によれば、処理対象文を、意味内容は対応するが係り受け構造は異なる別の文へと変換できる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施の形態に係る情報処理装置の構成例を示す図である。
【図2】本発明の実施の形態に係る情報処理装置が実現する機能の一例を示す機能ブロック図である。
【図3】対情報を含んだ変換規則テーブルの一例を示す図である。
【図4】対情報生成処理の流れの一例を示すフロー図である。
【図5】対情報生成処理の流れの一例を示すフロー図である。
【図6】標本文に付与されたアライメント情報の一例を示す図である。
【図7】標本文に対する構文意味解析結果の一例を示す図である。
【図8】別の標本文に対する構文意味解析結果の一例を示す図である。
【図9】前置詞翻訳処理の流れの一例を示すフロー図である。
【図10】言い換え処理の流れの一例を示すフロー図である。
【図11】言い換え処理の流れの一例を示すフロー図である。
【図12】処理対象文に対する構文意味解析結果の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【0016】
図1は、本発明の一実施形態に係る情報処理装置1の構成例を示す図である。情報処理装置1は、例えばパーソナルコンピュータ等であって、制御部11と、記憶部12と、操作部13と、表示部14と、を含んで構成される。
【0017】
制御部11は、例えばCPU等であって、記憶部12に格納されるプログラムに従って各種の情報処理を実行する。本実施形態において制御部11が実行する処理の具体例については、後述する。
【0018】
記憶部12は、例えばRAM等のメモリ素子やハードディスク等を含んで構成される。記憶部12は、制御部11によって実行されるプログラムや、各種のデータを保持する。また、記憶部12は、制御部11のワークメモリとしても動作する。
【0019】
操作部13は、例えばキーボードやマウス等であって、利用者の指示操作を受け付けて、当該指示操作の内容を制御部11に出力する。表示部14は、例えば液晶ディスプレイ等であり、制御部11からの指示に従って、画像の表示を行う。
【0020】
以下、本実施形態に係る情報処理装置1が実現する機能について、説明する。情報処理装置1は、機能的に、図2に示すように、文要素ペア抽出部21と、対情報出力部22と、処理対象文取得部23と、対情報取得部24と、文要素特定部25と、文変換処理部26と、を含んで構成される。これらの機能は、例えば制御部11が記憶部12に格納されるプログラムを実行することによって実現される。このプログラムは、例えばインターネット等の通信手段を介して提供されてもよいし、光ディスク等の各種のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。
【0021】
情報処理装置1は、既存のコーパス(複数の自然言語文を含む文例データベース)などから複数の標本文を取得し、その解析結果を用いて、言い換え可能な動詞と付属語の対情報を含んだ変換規則を生成する。そして、この変換規則を用いて、処理対象となる自然言語文(以下、処理対象文という)を、対応する意味を持つ別の文に変換する言い換え処理を行う。具体的には、文要素ペア抽出部21及び対情報出力部22が対情報を生成する処理を行い、処理対象文取得部23、対情報取得部24、文要素特定部25、及び文変換処理部26が、生成された対情報を用いた言い換え処理を実行する。なお、本実施形態では処理対象文は日本語文であることとする。
【0022】
文要素ペア抽出部21は、互いに対応する意味を持つ2つの標本文(以下、標本文ペアという)を取得する。そして、当該2つの標本文のそれぞれから一つずつ文要素を選択することによって、互いに対応する文要素の組(以下、文要素ペアという)を抽出する。ここで文要素は、文を構成する要素であって、1又は複数の形態素からなり、意味的なまとまりを持った単位を指している。すなわち、文要素は句や文節などに対応している。
【0023】
ここで、文要素ペア抽出部21は、文要素ペアの一方が動詞を含み、他方が名詞とこれに付属する付属語とを含む文要素となるように、文要素ペアを抽出する。なお、文要素ペア抽出部21は、このような対応する文要素の組を抽出するとともに、当該各文要素の文中における役割(例えば、主格や目的格など、文中において各文要素が備える文法上の役割)を特定することとしてもよい。
【0024】
具体例として、文要素ペア抽出部21は、既存のコーパスを参照してその中から標本文を読み出すなどの方法で、同じ意味を表す標本文ペアを取得する。本実施形態では、このように対応する意味を持つ標本文ペアを含んだコーパスとして、対訳コーパスを利用することとする。対訳コーパスには、同じ意味を表し、互いに異なる第1言語及び第2言語で表記された2つの標本文が、互いに対応づけて格納されている。なお、一つの言語で、同じ意味だが表現が異なる標本文のペアを集めたコーパスを用いてもよいが、そのようなコーパスと比較すると、対訳コーパスは各種のものが知られており、入手及び利用が容易である。
【0025】
対情報出力部22は、文要素ペア抽出部21が標本文ペアから抽出した文要素ペアに基づいて、互いに言い換え可能な動詞と付属語の対情報を出力する。本実施形態では、対情報出力部22は、抽出された文要素ペアの一方に含まれる動詞と、他方に含まれる付属語である格助詞と、これらの文要素の標本文中における文法的役割を示す情報とを、互いに対応づけて、対情報として出力する。このようにして出力された複数の対情報の集合が、本実施形態における言い換え処理に用いられる変換規則として、記憶部12に格納される。図3は、このような複数の対情報からなる変換規則テーブルの一例を示している。
【0026】
処理対象文取得部23は、言い換え処理の対象となる処理対象文を取得する。具体的に、処理対象文取得部23は、処理対象文を各種の情報記憶媒体から読み出して取得してもよいし、操作部13に対するユーザの入力を受け付けることによって取得してもよい。
【0027】
対情報取得部24は、対情報出力部22が出力し、記憶部12に格納されている変換規則テーブルを参照して、言い換え処理に用いる対情報を取得する。対情報取得部24が取得した対情報は、後述する文要素特定部25及び文変換処理部26によって用いられる。
【0028】
文要素特定部25は、処理対象文取得部23が取得した処理対象文の構文意味解析を行う。ここで、構文意味解析においては、まず処理対象文を構成する各形態素の品詞や活用形が特定される。そして、1又は複数の形態素が意味的にまとまって構成される文要素が特定され、さらに各文要素の係り受け構造(文要素同士の修飾関係)や、各文要素の役割(文法的役割や意味的役割など)が特定される。この構文意味解析は、公知の手法を用いて実現されてよい。さらに文要素特定部25は、構文意味解析の結果を用いて、処理対象文に含まれる文要素のうち、対情報取得部24が取得した対情報の一方(ここでは動詞とする)を含み、当該対情報に関連づけられた役割を備える文要素を特定する。この特定された文要素が、処理対象文の言い換え処理における言い換えの対象となる。
【0029】
文変換処理部26は、対情報取得部24が取得した対情報及び文要素特定部25が特定した文要素に基づいて、処理対象文を意味が対応する別の文に変換する。具体的に、文変換処理部26は、文要素特定部25が特定した文要素に含まれる対情報の一方(動詞)を、当該対情報の他方(付属語)に置き換える変換処理を行う。これにより、処理対象文取得部23が取得した処理対象文は、対応する意味を持つ別の文に言い換えられる。
【0030】
以下、本実施形態に係る情報処理装置1の制御部11が実行する処理の流れの具体例について、説明する。まず、図4及び図5のフロー図を参照しながら、文要素ペア抽出部21及び対情報出力部22が実行する対情報生成処理の具体例について、説明する。
【0031】
なお、以下では処理の流れを説明するための一例として、下記の標本文1及び2からなる標本文ペアに対して対情報生成処理を実行し、その結果図3の変換規則テーブル内で1行目に示されている対情報を生成する場合について説明する。
標本文1:「彼は妻を伴ってパーティーに出席した。」
標本文2:「He attended the party with his wife.」
【0032】
上記標本文1及び2から明らかなように、以下の例においては、文要素ペア抽出部21が参照する対訳コーパスは、同じ意味の日本語文と英語文とを対応づけて格納しており、このうち標本文1の方が処理対象文と同じ日本語文となっている。さらに、この例では、対訳コーパスに含まれる標本文ペアに対して、予めアライメント情報が付与されているものとする。アライメント情報は、2つの文の中で意味が対応する文要素同士を関連づける情報である。図6は、上述した標本文1及び2に付与されたアライメント情報の例を示す図である。この図においては、標本文1のP1と標本文2のP1、標本文1のP2及びP3と標本文2のP2、標本文1のP4と標本文2のP3、標本文1のP5と標本文2のP4が、それぞれ対応している。なお、このようなアライメント情報は、例えば柏岡秀紀 著「節境界を考慮した長文の単語アライメント」(言語処理学会第11回年次大会 発表論文集、2005年3月)に開示されている手法を用いて付与される。
【0033】
まず、文要素ペア抽出部21は、対訳コーパスから標本文1及び2を読み出す(S1)。なお、対訳コーパスは記憶部12に記憶されていてもよいし、通信手段を介して接続される外部の情報処理装置内に記憶されていてもよい。
【0034】
続いて文要素ペア抽出部21は、S1で取得した2つの標本文のそれぞれに対して、構文意味解析を行う(S2)。この構文意味解析は、文要素特定部25が処理対象文に対して実行する処理と同様のアルゴリズムで実行されてよい。
【0035】
図7及び図8は、それぞれ標本文1及び2に対して構文意味解析を実行した結果得られる解析結果の一例を示している。これらの図において、各形態素は枠で囲まれて表記されている。また、各形態素に付された記号はそれぞれの品詞を示しており、Nは名詞を、PRONは代名詞を、DETは限定詞を、Vは動詞を、AUXは助動詞を、PPは助詞(日本語の場合)又は前置詞(英語の場合)を、それぞれ示している。ここで、AUX及びPPは、名詞や動詞などの自立語とともに用いられ、単独では文要素を構成しない付属語である。また、NPは主辞として名詞を含んだ名詞句を、VPは主辞として動詞を含んだ動詞句を、PPは前置詞句を、それぞれ示しており、Sはそれ自体で文としての構造を備えた構成要素を示している。さらに、NPに付されたsubjectは当該名詞句の文法的役割が主格であることを、obliqueは斜格であることを、objectは目的格であることを、それぞれ示している。
【0036】
次に、文要素ペア抽出部21は、標本文1に2つ以上の動詞句VPが含まれるかを判定する(S3)。動詞句VPが2つ以上含まれていない場合には、動詞を含まない表現に言い換え可能な文要素は標本文中に含まれていないと推定されるため、処理を終了する。
【0037】
ここでは、「伴って」及び「出席した」という2つの動詞句VPが標本文1内に含まれているので、以降の処理を実行する。すなわち、変数iを1で初期化し(S4)、これら複数の動詞句VPに対して、順に以下に説明する処理を実行する。なお、以下では変数iを用いて標本文1中におけるi番目の動詞句VPをVPiと表記する。
【0038】
まず文要素ペア抽出部21は、標本文1において、動詞句VPiの主辞である動詞Viに係っている連用修飾成分の全てを、リストNPLiに代入する(S5)。例えばi=1の場合、動詞V1は「伴う」であり、その連用修飾成分は図7に示すように「妻を」の1つだけなので、NPL1の要素は{「妻を」}になる。その後、文要素ペア抽出部21は、変数jを1で初期化し(S6)、要素リストNPLiに含まれる全ての要素に対して、順に以下に説明する処理を実行する。なお、以下では変数jを用いてリストNPLiに含まれるj番目の要素をNPijと表記する。
【0039】
文要素ペア抽出部21は、アライメント情報によって要素NPijに対応づけられる標本文2の文要素を、要素NPAijとして取得する(S7)。NP11である「妻を」に対しては、図6に示すように”with his wife”が対応づけられているので、この文要素がNPA11として取得される。
【0040】
続いて文要素ペア抽出部21は、アライメント情報によって、S7で取得したNPAijの修飾先の動詞と対応づけられた標本文1の文要素が、動詞句VPiと一致するとの条件を満たすか否か判定する(S8)。例えば”with his wife”の修飾先は図8に示すように動詞”attended”であって、この動詞のアライメント先の文要素は図6に示すように「出席した」である。したがって、この動詞句「出席した」は動詞句VP1である「伴って」とは一致せず、S8の条件は満たさないことになる。
【0041】
S8の条件を満たす場合、動詞Viは言い換え可能であるとは判断されず、S12に進んで要素リストNPLi内の次の要素に対する後続の処理が実行される。一方、S8の条件を満たさない場合、標本文1の動詞句VPiは、標本文2の要素NPAijと対応しており、動詞句VPiに含まれる動詞Viは、要素NPAijに含まれる付属語である前置詞の日本語訳で言い換え可能と推定される。そこで、対情報出力部22が、まず要素NPijの標本文1中における文法的役割GFijを取得する(S9)。例えばNP11の場合、文法的役割GF11は、図7に示すように「object」(目的格)なので、この情報が取得される。
【0042】
さらに対情報出力部22は、動詞Viに対応する付属語である格助詞を特定するために、要素NPAijに含まれる前置詞PAiiと、要素NPAijの修飾先の動詞のアライメント先の動詞VAiとを用いて、前置詞翻訳処理を実行する(S10)。この処理の内容については後に説明するが、例えば要素NPA11(”with his wife”)の場合、前置詞PA11は”with”、動詞VA1は「出席する」であって、これらの情報を用いて前置詞翻訳処理を実行すると、前置詞”with”の訳語として「と」という格助詞が得られる。
【0043】
これを受けて、対情報出力部22は、処理対象となっている動詞Viと、S10の前置詞翻訳処理で得られた格助詞と、S9で得られた文法的役割GFijとを、互いに関連づけて対情報として出力する(S11)。これまで挙げた例では、図3の変換規則テーブルの1行目に示されるように、動詞「伴う」と格助詞「と」が、目的格という文法的役割と関連づけられた対情報として出力される。
【0044】
その後、文要素ペア抽出部21は、変数jに1を加算して(S12)、jの値がリストNPLiの要素数を超えたかを判定する(S13)。超えていなければ、まだ処理対象としていない要素がリストNPLiに含まれているので、S7に戻って次の要素NPijについて処理を続行する。逆に超えている場合、リストNPLiに含まれる全ての要素について処理を終えたことになるので、次は変数iに1を加算し(S14)、iの値が標本文1に含まれる動詞句VPの数を超えたかを判定する(S15)。超えていなければ、まだ処理対象としていない動詞句があるので、S5に戻って次の動詞句VPiについて処理を続行する。逆に超えていれば、全ての動詞句について処理を終えて、あらかじめ定められた条件を満足する動詞と格助詞の対情報を出力したことになるので、標本文1及び2を用いた対情報生成処理を完了する。
【0045】
なお、動詞句VP2(「出席した」)が処理対象となる場合、当該動詞句VP2に含まれる動詞V2(「出席する」)の連用修飾成分は「パーティーに」だけなので、NPL2の要素は「パーティーに」1つだけである。当該要素NP21のアライメント先の文要素は”the party”であり、その修飾先は図8に示すように”attended”である。”attended”のアライメント先は”出席した”であり、動詞句VP2に一致する。そのため、要素NP11の場合と異なり、要素NP21の場合にはS8の判定において条件を満たすと判定される。その結果、動詞「出席する」は対情報にはならない。
【0046】
次に、前述したフローのS10における前置詞翻訳処理の流れの具体例について、図9のフロー図を用いて説明する。
【0047】
まず、対情報出力部22は、処理の入力として、英語の前置詞PPと、日本語の動詞Vとを取得する(S21)。例えば前述した要素NP11(「妻を」)の例では、要素NPA11(”with his wife”)に含まれる前置詞”with”と、当該要素NPA11の修飾先”attended”に対応した動詞「出席する」とが取得される。
【0048】
次に対情報出力部22は、S21で取得した前置詞PPを対訳辞書に問い合わせて、前置詞PPの訳語の候補を含んだ訳語候補リストPPLを取得する(S22)。ここでは具体例として、前置詞”with”に対する訳語候補リストとして、「で」及び「と」の2つの格助詞からなるリストが得られたとする。
【0049】
続いて対情報出力部22は、S21で取得した動詞Vを結合価辞書に問い合わせて、動詞Vが取り得る格フレームを取得する(S23)。ここで、結合価辞書は、動詞がどのような格フレーム(動詞を修飾する格要素の種類)とともに用いられるかを定義した辞書である。日本語における格フレームは、名詞に付属する格助詞の種類によって定義される。ここでは具体例として、動詞「出席する」の格フレームとして、「Nが」、「Nに」、及び「Nと」の3つが得られたとする。
【0050】
次に対情報出力部22は、変数nを1で初期化し(S24)、S22で取得した訳語候補リストPPLに含まれる各訳語候補について、順に以下の処理を繰り返し実行する。
【0051】
すなわち、まず対情報出力部22は、リストPPLのn番目の要素Tnが、S23で取得した格フレームに含まれるか否かを判定する(S25)。含まれていなければ、要素Tnを訳語候補とはせずに、S27の処理に進む。一方、含まれている場合には、要素Tnを前置詞PPの訳語として出力する(S26)。前述した”with”の例では、2番目の要素T2である「と」が動詞「出席する」の格フレームに含まれているので、格助詞「と」を”with”の訳語候補として出力する。
【0052】
その後、対情報出力部22は、変数nに1を加算して(S27)、変数nの値がリストPPLの要素数を超えたか否か判定する(S28)。超えていない場合には、S25に戻って次の要素Tnに対して処理を行う。超えていれば、リストPPLに含まれる全ての要素について処理を終えたことになるので、次の処理に進む。
【0053】
次に、対情報出力部22は、S26において1つ以上の訳語を出力したか否か判定する(S29)。1つ以上の訳語を出力している場合には、そのまま処理を終了する。一方、1つも条件を満たす要素Tnがなく、訳語を出力していない場合には、リストPPLに含まれる全ての要素を前置詞PPの訳語として出力して(S30)、処理を終了する。これは、格フレームに含まれる訳語が見いだせない場合でも、言い換えに用いられる可能性のある何らかの格助詞を訳語として出力するための処置である。
【0054】
なお、これまでは対訳コーパスを用いた場合に対情報を生成する処理について説明したが、同じ言語で表現が異なる標本文ペアを用いる場合にも、図4及び図5に示すフローとほぼ同様の処理によって対情報が生成される。具体的には、この場合には図9に示す前置詞翻訳処理が不要となり、S10の処理が、単に要素NPAijに含まれる格助詞PAijを取得する処理に置き換えられる。そして、S11の処理では、動詞Viと、この格助詞PAijとが、対情報として出力されることになる。それ以外の処理は、図4及び図5に示すフローと同様の処理であってよい。
【0055】
次に、処理対象文取得部23、対情報取得部24、文要素特定部25、及び文変換処理部26が実行する言い換え処理の流れの具体例について、図10及び図11のフロー図を用いて説明する。
【0056】
まず、処理対象文取得部23が、処理対象文を取得する(S41)。次に、文要素特定部25が、S41で取得した処理対象文の構文意味解析を実行する(S42)。以下では一例として、「津波が起こってサーファーが溺れた」という日本語文を処理対象文とした言い換え処理について、説明する。図12は、この処理対象文に対して構文意味解析を行った結果の一例を示す図である。
【0057】
次に、文要素特定部25は、処理対象文に含まれる全ての動詞を含んだリストVLを取得し(S43)、変数iを1、変数pを0で、それぞれ初期化する(S44)。その後は、動詞リストVLに含まれる各動詞について、以下に説明する処理が繰り返し実行される。なお、以下では動詞リストVLに含まれるi番目の動詞をViと表記する。前述の処理対象文の例では、V1は「起こる」でV2は「溺れる」である。
【0058】
次に文要素特定部25は、動詞Viを修飾する名詞句NPiが1つかを判定する(S45)。2つ以上の名詞句NPiが動詞Viを修飾している場合、本実施形態に係る変換規則を用いて動詞Viを格助詞で言い換えることができないと考えられるので、S52に進んで次の動詞に対する処理が行われる。
【0059】
一方、動詞Viを修飾する名詞句NPiが1つの場合、文要素特定部25は動詞Viを含んだ対情報が存在するかを問い合わせる(S46)。この問い合わせを受けて、対情報取得部24は図3に例示するような変換規則テーブルを参照し、動詞Viに対応する対情報が存在するか判定する(S47)。存在しない場合、動詞Viの言い換えはできないと判断され、S52に進んで次の動詞に対する処理が行われる。存在する場合には、対情報取得部24は動詞Viと関連づけられた格助詞Ci及び文法的役割GFiの情報を変換規則テーブルから読み出して取得する(S48)。動詞V1(「起こる」)の場合、図3の変換規則テーブルから、格助詞Ciとして「で」が、文法的役割GFiとして「SUBJECT」(主格)を表す情報が、それぞれ取得される。
【0060】
次に、文要素特定部25は、S48で取得された文法的役割GFiが、処理対象文中における動詞Viを修飾する名詞句NPiの文法的役割と対応するか否かを判定する(S49)。判定の結果、文法的役割が相違する場合には、動詞Viの言い換えはできないと判断されるので、S52に進んで次の動詞に対する処理が行われる。一方、文法的役割が同じ場合には、動詞Viを含む動詞句VPiが言い換え対象の文要素として特定される。動詞V1の場合、これを修飾する名詞句NP1(「津波が」)の文法的役割は、図12に示すように構文意味解析によって「subject」(主格)であると特定されている。そのため、言い換え可能と判断されることになる。
【0061】
これを受けて、文変換処理部26は、動詞句VPiと、これを修飾する名詞句NPiの末尾に存在する格助詞とを、S48で取得された格助詞Ciに置換する(S50)。動詞V1の場合、名詞句NP1に含まれる格助詞「が」と動詞句「起こって」が、格助詞「で」で置き換えられることになる。さらに文変換処理部26は、変数pに1を加算する(S51)。
【0062】
その後、文要素特定部25は、さらに他の動詞を言い換え処理の対象として処理を続行する必要があるかを判定する。具体的に、文要素特定部25は、変数pの値が動詞リストVLの要素数から1を減じた数以上かを判定する(S52)。ここで、変数pは言い換えを行った動詞の数を示すカウンタ変数として機能しており、S52の判定条件を満たす場合、処理対象文に含まれる1つの動詞を除いた他の動詞について言い換えが行われたことを示している。この場合、さらなる言い換え処理は不要と判断されるので、S55に進んで言い換え文の出力が行われる。一方、S52の判定条件が満たされない場合、変数iに1が加算され(S53)、変数iの値が動詞リストVLの要素数を超えたか否かが判定される(S54)。まだ変数iの値が動詞リストVLの要素数を超えていなければ、S45に戻って次の動詞Viについて言い換え対象とするか否かを判定する処理が行われる。超えている場合、次のS55の処理に進む。
【0063】
最後に、文変換処理部26は、S50で文字列置換を行って生成された言い換え文を出力する(S55)。前述した処理対象文の例では、「が起こって」が「で」に置換される結果、言い換え文として「津波でサーファーが溺れた」という文が出力されて、言い換え処理が終了する。
【0064】
なお、以上の説明においては動詞と格助詞の対情報を用いて言い換え処理が行われることとしたが、本発明の実施の形態はこのようなものに限られない。また、以上の説明においては対訳コーパスとして日本語と英語の対訳を含んだコーパスを用いて標本文ペアを取得することとしたが、これ以外にも、各種の言語の対訳コーパスを利用して標本文ペアを取得してよい。
【0065】
また、以上の説明においては、一つの情報処理装置1が対情報生成処理と言い換え処理の双方を実行することとしたが、これらの処理はそれぞれ独立した情報処理装置によって実行されることとしてもよい。例えばある情報処理装置が対訳コーパス等を用いて対情報を含んだ変換規則テーブルを生成し、これとは別の情報処理装置が、こうして生成された変換規則テーブルを参照して処理対象文の言い換え処理を実行してもよい。
【符号の説明】
【0066】
1 情報処理装置、11 制御部、12 記憶部、13 操作部、14 表示部、21 文要素ペア抽出部、22 対情報出力部、23 処理対象文取得部、24 対情報取得部、25 文要素特定部、26 文変換処理部。
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
日本語等の自然言語で記載された文を、対応する意味を持つ別の表現で言い換えた文に変換する技術がある(例えば特許文献1、2及び3参照)。これらの技術においては、文の意味内容を変えないように特定の表現を別の表現に変換する変換規則を用いて、文の言い換えを行う。この変換規則は、人手で作成されたり、または予め意味が対応することが分かっている文の係り受け構造を解析することによって、自動的に生成されたりする。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003−022264号公報
【特許文献2】特開2005−149494号公報
【特許文献3】特開2008−234175号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、意味内容は対応するが係り受け構造は異なる別の文への言い換えを実現するための情報処理装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
請求項1記載の発明は、情報処理装置であって、互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段と、前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段と、を含むことを特徴とする。
【0006】
請求項2記載の発明は、請求項1記載の情報処理装置であって、前記2つの文の一方は第1言語、他方は当該第1言語とは異なる第2言語で記述された文であって、前記文要素抽出手段は、前記第1言語で記述された文から前記動詞を含む文要素を抽出し、前記第2言語で記述された文から前記付属語を含む文要素を抽出し、前記対情報出力手段は、前記付属語を前記第1言語に翻訳して、前記動詞と前記翻訳された付属語の対情報を出力することを特徴とする。
【0007】
請求項3記載の発明は、請求項2記載の情報処理装置であって、前記対情報出力手段は、前記第1言語で記述された文に含まれる動詞であって、前記抽出される文要素に含まれる動詞とは別の動詞を修飾しうる付属語の種類に関する情報を取得し、当該取得した情報を用いて、前記付属語を前記第1言語に翻訳することを特徴とする。
【0008】
請求項4記載の発明は、情報処理装置であって、言い換え可能な動詞と付属語の対情報であって、当該言い換え可能な動詞又は付属語を含む文要素の文中における役割が関連づけられた対情報を取得する対情報取得手段と、処理対象文に含まれる文要素のうち、前記取得される対情報の一方を含み、当該対情報に関連づけられた役割を備える文要素を特定する文要素特定手段と、前記取得される対情報及び前記特定される文要素に基づいて、前記処理対象文を対応する意味を持つ別の文に変換する文変換手段と、を含むことを特徴とする。
【0009】
請求項5記載の発明は、互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段、及び、前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段、としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0010】
請求項1及び5記載の発明によれば、意味内容は対応するが係り受け構造は異なる別の文への言い換えを実現するための対情報を生成できる。
【0011】
請求項2記載の発明によれば、互いに異なる言語で意味が対応する2つの文を用いて、対情報を生成できる。
【0012】
請求項3記載の発明によれば、互いに異なる言語の文を用いて対情報を生成する場合に、複数の意味を持つ付属語から、意味が対応する文への言い換えを可能とする対情報を生成できる。
【0013】
請求項4記載の発明によれば、処理対象文を、意味内容は対応するが係り受け構造は異なる別の文へと変換できる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施の形態に係る情報処理装置の構成例を示す図である。
【図2】本発明の実施の形態に係る情報処理装置が実現する機能の一例を示す機能ブロック図である。
【図3】対情報を含んだ変換規則テーブルの一例を示す図である。
【図4】対情報生成処理の流れの一例を示すフロー図である。
【図5】対情報生成処理の流れの一例を示すフロー図である。
【図6】標本文に付与されたアライメント情報の一例を示す図である。
【図7】標本文に対する構文意味解析結果の一例を示す図である。
【図8】別の標本文に対する構文意味解析結果の一例を示す図である。
【図9】前置詞翻訳処理の流れの一例を示すフロー図である。
【図10】言い換え処理の流れの一例を示すフロー図である。
【図11】言い換え処理の流れの一例を示すフロー図である。
【図12】処理対象文に対する構文意味解析結果の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【0016】
図1は、本発明の一実施形態に係る情報処理装置1の構成例を示す図である。情報処理装置1は、例えばパーソナルコンピュータ等であって、制御部11と、記憶部12と、操作部13と、表示部14と、を含んで構成される。
【0017】
制御部11は、例えばCPU等であって、記憶部12に格納されるプログラムに従って各種の情報処理を実行する。本実施形態において制御部11が実行する処理の具体例については、後述する。
【0018】
記憶部12は、例えばRAM等のメモリ素子やハードディスク等を含んで構成される。記憶部12は、制御部11によって実行されるプログラムや、各種のデータを保持する。また、記憶部12は、制御部11のワークメモリとしても動作する。
【0019】
操作部13は、例えばキーボードやマウス等であって、利用者の指示操作を受け付けて、当該指示操作の内容を制御部11に出力する。表示部14は、例えば液晶ディスプレイ等であり、制御部11からの指示に従って、画像の表示を行う。
【0020】
以下、本実施形態に係る情報処理装置1が実現する機能について、説明する。情報処理装置1は、機能的に、図2に示すように、文要素ペア抽出部21と、対情報出力部22と、処理対象文取得部23と、対情報取得部24と、文要素特定部25と、文変換処理部26と、を含んで構成される。これらの機能は、例えば制御部11が記憶部12に格納されるプログラムを実行することによって実現される。このプログラムは、例えばインターネット等の通信手段を介して提供されてもよいし、光ディスク等の各種のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。
【0021】
情報処理装置1は、既存のコーパス(複数の自然言語文を含む文例データベース)などから複数の標本文を取得し、その解析結果を用いて、言い換え可能な動詞と付属語の対情報を含んだ変換規則を生成する。そして、この変換規則を用いて、処理対象となる自然言語文(以下、処理対象文という)を、対応する意味を持つ別の文に変換する言い換え処理を行う。具体的には、文要素ペア抽出部21及び対情報出力部22が対情報を生成する処理を行い、処理対象文取得部23、対情報取得部24、文要素特定部25、及び文変換処理部26が、生成された対情報を用いた言い換え処理を実行する。なお、本実施形態では処理対象文は日本語文であることとする。
【0022】
文要素ペア抽出部21は、互いに対応する意味を持つ2つの標本文(以下、標本文ペアという)を取得する。そして、当該2つの標本文のそれぞれから一つずつ文要素を選択することによって、互いに対応する文要素の組(以下、文要素ペアという)を抽出する。ここで文要素は、文を構成する要素であって、1又は複数の形態素からなり、意味的なまとまりを持った単位を指している。すなわち、文要素は句や文節などに対応している。
【0023】
ここで、文要素ペア抽出部21は、文要素ペアの一方が動詞を含み、他方が名詞とこれに付属する付属語とを含む文要素となるように、文要素ペアを抽出する。なお、文要素ペア抽出部21は、このような対応する文要素の組を抽出するとともに、当該各文要素の文中における役割(例えば、主格や目的格など、文中において各文要素が備える文法上の役割)を特定することとしてもよい。
【0024】
具体例として、文要素ペア抽出部21は、既存のコーパスを参照してその中から標本文を読み出すなどの方法で、同じ意味を表す標本文ペアを取得する。本実施形態では、このように対応する意味を持つ標本文ペアを含んだコーパスとして、対訳コーパスを利用することとする。対訳コーパスには、同じ意味を表し、互いに異なる第1言語及び第2言語で表記された2つの標本文が、互いに対応づけて格納されている。なお、一つの言語で、同じ意味だが表現が異なる標本文のペアを集めたコーパスを用いてもよいが、そのようなコーパスと比較すると、対訳コーパスは各種のものが知られており、入手及び利用が容易である。
【0025】
対情報出力部22は、文要素ペア抽出部21が標本文ペアから抽出した文要素ペアに基づいて、互いに言い換え可能な動詞と付属語の対情報を出力する。本実施形態では、対情報出力部22は、抽出された文要素ペアの一方に含まれる動詞と、他方に含まれる付属語である格助詞と、これらの文要素の標本文中における文法的役割を示す情報とを、互いに対応づけて、対情報として出力する。このようにして出力された複数の対情報の集合が、本実施形態における言い換え処理に用いられる変換規則として、記憶部12に格納される。図3は、このような複数の対情報からなる変換規則テーブルの一例を示している。
【0026】
処理対象文取得部23は、言い換え処理の対象となる処理対象文を取得する。具体的に、処理対象文取得部23は、処理対象文を各種の情報記憶媒体から読み出して取得してもよいし、操作部13に対するユーザの入力を受け付けることによって取得してもよい。
【0027】
対情報取得部24は、対情報出力部22が出力し、記憶部12に格納されている変換規則テーブルを参照して、言い換え処理に用いる対情報を取得する。対情報取得部24が取得した対情報は、後述する文要素特定部25及び文変換処理部26によって用いられる。
【0028】
文要素特定部25は、処理対象文取得部23が取得した処理対象文の構文意味解析を行う。ここで、構文意味解析においては、まず処理対象文を構成する各形態素の品詞や活用形が特定される。そして、1又は複数の形態素が意味的にまとまって構成される文要素が特定され、さらに各文要素の係り受け構造(文要素同士の修飾関係)や、各文要素の役割(文法的役割や意味的役割など)が特定される。この構文意味解析は、公知の手法を用いて実現されてよい。さらに文要素特定部25は、構文意味解析の結果を用いて、処理対象文に含まれる文要素のうち、対情報取得部24が取得した対情報の一方(ここでは動詞とする)を含み、当該対情報に関連づけられた役割を備える文要素を特定する。この特定された文要素が、処理対象文の言い換え処理における言い換えの対象となる。
【0029】
文変換処理部26は、対情報取得部24が取得した対情報及び文要素特定部25が特定した文要素に基づいて、処理対象文を意味が対応する別の文に変換する。具体的に、文変換処理部26は、文要素特定部25が特定した文要素に含まれる対情報の一方(動詞)を、当該対情報の他方(付属語)に置き換える変換処理を行う。これにより、処理対象文取得部23が取得した処理対象文は、対応する意味を持つ別の文に言い換えられる。
【0030】
以下、本実施形態に係る情報処理装置1の制御部11が実行する処理の流れの具体例について、説明する。まず、図4及び図5のフロー図を参照しながら、文要素ペア抽出部21及び対情報出力部22が実行する対情報生成処理の具体例について、説明する。
【0031】
なお、以下では処理の流れを説明するための一例として、下記の標本文1及び2からなる標本文ペアに対して対情報生成処理を実行し、その結果図3の変換規則テーブル内で1行目に示されている対情報を生成する場合について説明する。
標本文1:「彼は妻を伴ってパーティーに出席した。」
標本文2:「He attended the party with his wife.」
【0032】
上記標本文1及び2から明らかなように、以下の例においては、文要素ペア抽出部21が参照する対訳コーパスは、同じ意味の日本語文と英語文とを対応づけて格納しており、このうち標本文1の方が処理対象文と同じ日本語文となっている。さらに、この例では、対訳コーパスに含まれる標本文ペアに対して、予めアライメント情報が付与されているものとする。アライメント情報は、2つの文の中で意味が対応する文要素同士を関連づける情報である。図6は、上述した標本文1及び2に付与されたアライメント情報の例を示す図である。この図においては、標本文1のP1と標本文2のP1、標本文1のP2及びP3と標本文2のP2、標本文1のP4と標本文2のP3、標本文1のP5と標本文2のP4が、それぞれ対応している。なお、このようなアライメント情報は、例えば柏岡秀紀 著「節境界を考慮した長文の単語アライメント」(言語処理学会第11回年次大会 発表論文集、2005年3月)に開示されている手法を用いて付与される。
【0033】
まず、文要素ペア抽出部21は、対訳コーパスから標本文1及び2を読み出す(S1)。なお、対訳コーパスは記憶部12に記憶されていてもよいし、通信手段を介して接続される外部の情報処理装置内に記憶されていてもよい。
【0034】
続いて文要素ペア抽出部21は、S1で取得した2つの標本文のそれぞれに対して、構文意味解析を行う(S2)。この構文意味解析は、文要素特定部25が処理対象文に対して実行する処理と同様のアルゴリズムで実行されてよい。
【0035】
図7及び図8は、それぞれ標本文1及び2に対して構文意味解析を実行した結果得られる解析結果の一例を示している。これらの図において、各形態素は枠で囲まれて表記されている。また、各形態素に付された記号はそれぞれの品詞を示しており、Nは名詞を、PRONは代名詞を、DETは限定詞を、Vは動詞を、AUXは助動詞を、PPは助詞(日本語の場合)又は前置詞(英語の場合)を、それぞれ示している。ここで、AUX及びPPは、名詞や動詞などの自立語とともに用いられ、単独では文要素を構成しない付属語である。また、NPは主辞として名詞を含んだ名詞句を、VPは主辞として動詞を含んだ動詞句を、PPは前置詞句を、それぞれ示しており、Sはそれ自体で文としての構造を備えた構成要素を示している。さらに、NPに付されたsubjectは当該名詞句の文法的役割が主格であることを、obliqueは斜格であることを、objectは目的格であることを、それぞれ示している。
【0036】
次に、文要素ペア抽出部21は、標本文1に2つ以上の動詞句VPが含まれるかを判定する(S3)。動詞句VPが2つ以上含まれていない場合には、動詞を含まない表現に言い換え可能な文要素は標本文中に含まれていないと推定されるため、処理を終了する。
【0037】
ここでは、「伴って」及び「出席した」という2つの動詞句VPが標本文1内に含まれているので、以降の処理を実行する。すなわち、変数iを1で初期化し(S4)、これら複数の動詞句VPに対して、順に以下に説明する処理を実行する。なお、以下では変数iを用いて標本文1中におけるi番目の動詞句VPをVPiと表記する。
【0038】
まず文要素ペア抽出部21は、標本文1において、動詞句VPiの主辞である動詞Viに係っている連用修飾成分の全てを、リストNPLiに代入する(S5)。例えばi=1の場合、動詞V1は「伴う」であり、その連用修飾成分は図7に示すように「妻を」の1つだけなので、NPL1の要素は{「妻を」}になる。その後、文要素ペア抽出部21は、変数jを1で初期化し(S6)、要素リストNPLiに含まれる全ての要素に対して、順に以下に説明する処理を実行する。なお、以下では変数jを用いてリストNPLiに含まれるj番目の要素をNPijと表記する。
【0039】
文要素ペア抽出部21は、アライメント情報によって要素NPijに対応づけられる標本文2の文要素を、要素NPAijとして取得する(S7)。NP11である「妻を」に対しては、図6に示すように”with his wife”が対応づけられているので、この文要素がNPA11として取得される。
【0040】
続いて文要素ペア抽出部21は、アライメント情報によって、S7で取得したNPAijの修飾先の動詞と対応づけられた標本文1の文要素が、動詞句VPiと一致するとの条件を満たすか否か判定する(S8)。例えば”with his wife”の修飾先は図8に示すように動詞”attended”であって、この動詞のアライメント先の文要素は図6に示すように「出席した」である。したがって、この動詞句「出席した」は動詞句VP1である「伴って」とは一致せず、S8の条件は満たさないことになる。
【0041】
S8の条件を満たす場合、動詞Viは言い換え可能であるとは判断されず、S12に進んで要素リストNPLi内の次の要素に対する後続の処理が実行される。一方、S8の条件を満たさない場合、標本文1の動詞句VPiは、標本文2の要素NPAijと対応しており、動詞句VPiに含まれる動詞Viは、要素NPAijに含まれる付属語である前置詞の日本語訳で言い換え可能と推定される。そこで、対情報出力部22が、まず要素NPijの標本文1中における文法的役割GFijを取得する(S9)。例えばNP11の場合、文法的役割GF11は、図7に示すように「object」(目的格)なので、この情報が取得される。
【0042】
さらに対情報出力部22は、動詞Viに対応する付属語である格助詞を特定するために、要素NPAijに含まれる前置詞PAiiと、要素NPAijの修飾先の動詞のアライメント先の動詞VAiとを用いて、前置詞翻訳処理を実行する(S10)。この処理の内容については後に説明するが、例えば要素NPA11(”with his wife”)の場合、前置詞PA11は”with”、動詞VA1は「出席する」であって、これらの情報を用いて前置詞翻訳処理を実行すると、前置詞”with”の訳語として「と」という格助詞が得られる。
【0043】
これを受けて、対情報出力部22は、処理対象となっている動詞Viと、S10の前置詞翻訳処理で得られた格助詞と、S9で得られた文法的役割GFijとを、互いに関連づけて対情報として出力する(S11)。これまで挙げた例では、図3の変換規則テーブルの1行目に示されるように、動詞「伴う」と格助詞「と」が、目的格という文法的役割と関連づけられた対情報として出力される。
【0044】
その後、文要素ペア抽出部21は、変数jに1を加算して(S12)、jの値がリストNPLiの要素数を超えたかを判定する(S13)。超えていなければ、まだ処理対象としていない要素がリストNPLiに含まれているので、S7に戻って次の要素NPijについて処理を続行する。逆に超えている場合、リストNPLiに含まれる全ての要素について処理を終えたことになるので、次は変数iに1を加算し(S14)、iの値が標本文1に含まれる動詞句VPの数を超えたかを判定する(S15)。超えていなければ、まだ処理対象としていない動詞句があるので、S5に戻って次の動詞句VPiについて処理を続行する。逆に超えていれば、全ての動詞句について処理を終えて、あらかじめ定められた条件を満足する動詞と格助詞の対情報を出力したことになるので、標本文1及び2を用いた対情報生成処理を完了する。
【0045】
なお、動詞句VP2(「出席した」)が処理対象となる場合、当該動詞句VP2に含まれる動詞V2(「出席する」)の連用修飾成分は「パーティーに」だけなので、NPL2の要素は「パーティーに」1つだけである。当該要素NP21のアライメント先の文要素は”the party”であり、その修飾先は図8に示すように”attended”である。”attended”のアライメント先は”出席した”であり、動詞句VP2に一致する。そのため、要素NP11の場合と異なり、要素NP21の場合にはS8の判定において条件を満たすと判定される。その結果、動詞「出席する」は対情報にはならない。
【0046】
次に、前述したフローのS10における前置詞翻訳処理の流れの具体例について、図9のフロー図を用いて説明する。
【0047】
まず、対情報出力部22は、処理の入力として、英語の前置詞PPと、日本語の動詞Vとを取得する(S21)。例えば前述した要素NP11(「妻を」)の例では、要素NPA11(”with his wife”)に含まれる前置詞”with”と、当該要素NPA11の修飾先”attended”に対応した動詞「出席する」とが取得される。
【0048】
次に対情報出力部22は、S21で取得した前置詞PPを対訳辞書に問い合わせて、前置詞PPの訳語の候補を含んだ訳語候補リストPPLを取得する(S22)。ここでは具体例として、前置詞”with”に対する訳語候補リストとして、「で」及び「と」の2つの格助詞からなるリストが得られたとする。
【0049】
続いて対情報出力部22は、S21で取得した動詞Vを結合価辞書に問い合わせて、動詞Vが取り得る格フレームを取得する(S23)。ここで、結合価辞書は、動詞がどのような格フレーム(動詞を修飾する格要素の種類)とともに用いられるかを定義した辞書である。日本語における格フレームは、名詞に付属する格助詞の種類によって定義される。ここでは具体例として、動詞「出席する」の格フレームとして、「Nが」、「Nに」、及び「Nと」の3つが得られたとする。
【0050】
次に対情報出力部22は、変数nを1で初期化し(S24)、S22で取得した訳語候補リストPPLに含まれる各訳語候補について、順に以下の処理を繰り返し実行する。
【0051】
すなわち、まず対情報出力部22は、リストPPLのn番目の要素Tnが、S23で取得した格フレームに含まれるか否かを判定する(S25)。含まれていなければ、要素Tnを訳語候補とはせずに、S27の処理に進む。一方、含まれている場合には、要素Tnを前置詞PPの訳語として出力する(S26)。前述した”with”の例では、2番目の要素T2である「と」が動詞「出席する」の格フレームに含まれているので、格助詞「と」を”with”の訳語候補として出力する。
【0052】
その後、対情報出力部22は、変数nに1を加算して(S27)、変数nの値がリストPPLの要素数を超えたか否か判定する(S28)。超えていない場合には、S25に戻って次の要素Tnに対して処理を行う。超えていれば、リストPPLに含まれる全ての要素について処理を終えたことになるので、次の処理に進む。
【0053】
次に、対情報出力部22は、S26において1つ以上の訳語を出力したか否か判定する(S29)。1つ以上の訳語を出力している場合には、そのまま処理を終了する。一方、1つも条件を満たす要素Tnがなく、訳語を出力していない場合には、リストPPLに含まれる全ての要素を前置詞PPの訳語として出力して(S30)、処理を終了する。これは、格フレームに含まれる訳語が見いだせない場合でも、言い換えに用いられる可能性のある何らかの格助詞を訳語として出力するための処置である。
【0054】
なお、これまでは対訳コーパスを用いた場合に対情報を生成する処理について説明したが、同じ言語で表現が異なる標本文ペアを用いる場合にも、図4及び図5に示すフローとほぼ同様の処理によって対情報が生成される。具体的には、この場合には図9に示す前置詞翻訳処理が不要となり、S10の処理が、単に要素NPAijに含まれる格助詞PAijを取得する処理に置き換えられる。そして、S11の処理では、動詞Viと、この格助詞PAijとが、対情報として出力されることになる。それ以外の処理は、図4及び図5に示すフローと同様の処理であってよい。
【0055】
次に、処理対象文取得部23、対情報取得部24、文要素特定部25、及び文変換処理部26が実行する言い換え処理の流れの具体例について、図10及び図11のフロー図を用いて説明する。
【0056】
まず、処理対象文取得部23が、処理対象文を取得する(S41)。次に、文要素特定部25が、S41で取得した処理対象文の構文意味解析を実行する(S42)。以下では一例として、「津波が起こってサーファーが溺れた」という日本語文を処理対象文とした言い換え処理について、説明する。図12は、この処理対象文に対して構文意味解析を行った結果の一例を示す図である。
【0057】
次に、文要素特定部25は、処理対象文に含まれる全ての動詞を含んだリストVLを取得し(S43)、変数iを1、変数pを0で、それぞれ初期化する(S44)。その後は、動詞リストVLに含まれる各動詞について、以下に説明する処理が繰り返し実行される。なお、以下では動詞リストVLに含まれるi番目の動詞をViと表記する。前述の処理対象文の例では、V1は「起こる」でV2は「溺れる」である。
【0058】
次に文要素特定部25は、動詞Viを修飾する名詞句NPiが1つかを判定する(S45)。2つ以上の名詞句NPiが動詞Viを修飾している場合、本実施形態に係る変換規則を用いて動詞Viを格助詞で言い換えることができないと考えられるので、S52に進んで次の動詞に対する処理が行われる。
【0059】
一方、動詞Viを修飾する名詞句NPiが1つの場合、文要素特定部25は動詞Viを含んだ対情報が存在するかを問い合わせる(S46)。この問い合わせを受けて、対情報取得部24は図3に例示するような変換規則テーブルを参照し、動詞Viに対応する対情報が存在するか判定する(S47)。存在しない場合、動詞Viの言い換えはできないと判断され、S52に進んで次の動詞に対する処理が行われる。存在する場合には、対情報取得部24は動詞Viと関連づけられた格助詞Ci及び文法的役割GFiの情報を変換規則テーブルから読み出して取得する(S48)。動詞V1(「起こる」)の場合、図3の変換規則テーブルから、格助詞Ciとして「で」が、文法的役割GFiとして「SUBJECT」(主格)を表す情報が、それぞれ取得される。
【0060】
次に、文要素特定部25は、S48で取得された文法的役割GFiが、処理対象文中における動詞Viを修飾する名詞句NPiの文法的役割と対応するか否かを判定する(S49)。判定の結果、文法的役割が相違する場合には、動詞Viの言い換えはできないと判断されるので、S52に進んで次の動詞に対する処理が行われる。一方、文法的役割が同じ場合には、動詞Viを含む動詞句VPiが言い換え対象の文要素として特定される。動詞V1の場合、これを修飾する名詞句NP1(「津波が」)の文法的役割は、図12に示すように構文意味解析によって「subject」(主格)であると特定されている。そのため、言い換え可能と判断されることになる。
【0061】
これを受けて、文変換処理部26は、動詞句VPiと、これを修飾する名詞句NPiの末尾に存在する格助詞とを、S48で取得された格助詞Ciに置換する(S50)。動詞V1の場合、名詞句NP1に含まれる格助詞「が」と動詞句「起こって」が、格助詞「で」で置き換えられることになる。さらに文変換処理部26は、変数pに1を加算する(S51)。
【0062】
その後、文要素特定部25は、さらに他の動詞を言い換え処理の対象として処理を続行する必要があるかを判定する。具体的に、文要素特定部25は、変数pの値が動詞リストVLの要素数から1を減じた数以上かを判定する(S52)。ここで、変数pは言い換えを行った動詞の数を示すカウンタ変数として機能しており、S52の判定条件を満たす場合、処理対象文に含まれる1つの動詞を除いた他の動詞について言い換えが行われたことを示している。この場合、さらなる言い換え処理は不要と判断されるので、S55に進んで言い換え文の出力が行われる。一方、S52の判定条件が満たされない場合、変数iに1が加算され(S53)、変数iの値が動詞リストVLの要素数を超えたか否かが判定される(S54)。まだ変数iの値が動詞リストVLの要素数を超えていなければ、S45に戻って次の動詞Viについて言い換え対象とするか否かを判定する処理が行われる。超えている場合、次のS55の処理に進む。
【0063】
最後に、文変換処理部26は、S50で文字列置換を行って生成された言い換え文を出力する(S55)。前述した処理対象文の例では、「が起こって」が「で」に置換される結果、言い換え文として「津波でサーファーが溺れた」という文が出力されて、言い換え処理が終了する。
【0064】
なお、以上の説明においては動詞と格助詞の対情報を用いて言い換え処理が行われることとしたが、本発明の実施の形態はこのようなものに限られない。また、以上の説明においては対訳コーパスとして日本語と英語の対訳を含んだコーパスを用いて標本文ペアを取得することとしたが、これ以外にも、各種の言語の対訳コーパスを利用して標本文ペアを取得してよい。
【0065】
また、以上の説明においては、一つの情報処理装置1が対情報生成処理と言い換え処理の双方を実行することとしたが、これらの処理はそれぞれ独立した情報処理装置によって実行されることとしてもよい。例えばある情報処理装置が対訳コーパス等を用いて対情報を含んだ変換規則テーブルを生成し、これとは別の情報処理装置が、こうして生成された変換規則テーブルを参照して処理対象文の言い換え処理を実行してもよい。
【符号の説明】
【0066】
1 情報処理装置、11 制御部、12 記憶部、13 操作部、14 表示部、21 文要素ペア抽出部、22 対情報出力部、23 処理対象文取得部、24 対情報取得部、25 文要素特定部、26 文変換処理部。
【特許請求の範囲】
【請求項1】
互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段と、
前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段と、
を含むことを特徴とする情報処理装置。
【請求項2】
前記2つの文の一方は第1言語、他方は当該第1言語とは異なる第2言語で記述された文であって、
前記文要素抽出手段は、前記第1言語で記述された文から前記動詞を含む文要素を抽出し、前記第2言語で記述された文から前記付属語を含む文要素を抽出し、
前記対情報出力手段は、前記付属語を前記第1言語に翻訳して、前記動詞と前記翻訳された付属語の対情報を出力する
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記対情報出力手段は、前記第1言語で記述された文に含まれる動詞であって、前記抽出される文要素に含まれる動詞とは別の動詞を修飾しうる付属語の種類に関する情報を取得し、当該取得した情報を用いて、前記付属語を前記第1言語に翻訳する
ことを特徴とする請求項2記載の情報処理装置。
【請求項4】
言い換え可能な動詞と付属語の対情報であって、当該言い換え可能な動詞又は付属語を含む文要素の文中における役割が関連づけられた対情報を取得する対情報取得手段と、
処理対象文に含まれる文要素のうち、前記取得される対情報の一方を含み、当該対情報に関連づけられた役割を備える文要素を特定する文要素特定手段と、
前記取得される対情報及び前記特定される文要素に基づいて、前記処理対象文を対応する意味を持つ別の文に変換する文変換手段と、
を含むことを特徴とする情報処理装置。
【請求項5】
互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段、及び、
前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段、
としてコンピュータを機能させるためのプログラム。
【請求項1】
互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段と、
前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段と、
を含むことを特徴とする情報処理装置。
【請求項2】
前記2つの文の一方は第1言語、他方は当該第1言語とは異なる第2言語で記述された文であって、
前記文要素抽出手段は、前記第1言語で記述された文から前記動詞を含む文要素を抽出し、前記第2言語で記述された文から前記付属語を含む文要素を抽出し、
前記対情報出力手段は、前記付属語を前記第1言語に翻訳して、前記動詞と前記翻訳された付属語の対情報を出力する
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記対情報出力手段は、前記第1言語で記述された文に含まれる動詞であって、前記抽出される文要素に含まれる動詞とは別の動詞を修飾しうる付属語の種類に関する情報を取得し、当該取得した情報を用いて、前記付属語を前記第1言語に翻訳する
ことを特徴とする請求項2記載の情報処理装置。
【請求項4】
言い換え可能な動詞と付属語の対情報であって、当該言い換え可能な動詞又は付属語を含む文要素の文中における役割が関連づけられた対情報を取得する対情報取得手段と、
処理対象文に含まれる文要素のうち、前記取得される対情報の一方を含み、当該対情報に関連づけられた役割を備える文要素を特定する文要素特定手段と、
前記取得される対情報及び前記特定される文要素に基づいて、前記処理対象文を対応する意味を持つ別の文に変換する文変換手段と、
を含むことを特徴とする情報処理装置。
【請求項5】
互いに対応する意味を持つ2つの文から、互いに対応する文要素の組であって、一方は動詞を含み、他方は付属語を含む文要素の組を抽出する文要素抽出手段、及び、
前記抽出される文要素の組に基づいて、言い換え可能な動詞と付属語の対情報を出力する対情報出力手段、
としてコンピュータを機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2011−8602(P2011−8602A)
【公開日】平成23年1月13日(2011.1.13)
【国際特許分類】
【出願番号】特願2009−152581(P2009−152581)
【出願日】平成21年6月26日(2009.6.26)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成23年1月13日(2011.1.13)
【国際特許分類】
【出願日】平成21年6月26日(2009.6.26)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]