文書処理プログラムおよび文書処理装置
【課題】ユーザにとって所望の言い換えを表す用例に応じて自動的に用例集を更新することで、当該用例集を容易に管理することを可能とする。
【解決手段】入力部31は、第1の文および当該第1の文が言い換えられた第2の文を含む新規用例を入力する。言い換え生成部33は、用例集格納部22に格納されている用例集を用いて当該用例集を示す用例集情報に対応づけられている言い換え生成処理情報によって示される言い換え生成処理を実行することによって、入力部31によって入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成する。用例集更新部35は、言い換え生成部33によって生成された言い換え文が入力部31によって入力された新規用例に含まれる第2の文と同一であると判定された場合、当該新規用例を用例集格納部22に格納されている用例集に追加することによって当該用例集を更新する。
【解決手段】入力部31は、第1の文および当該第1の文が言い換えられた第2の文を含む新規用例を入力する。言い換え生成部33は、用例集格納部22に格納されている用例集を用いて当該用例集を示す用例集情報に対応づけられている言い換え生成処理情報によって示される言い換え生成処理を実行することによって、入力部31によって入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成する。用例集更新部35は、言い換え生成部33によって生成された言い換え文が入力部31によって入力された新規用例に含まれる第2の文と同一であると判定された場合、当該新規用例を用例集格納部22に格納されている用例集に追加することによって当該用例集を更新する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、用例を用いて言い換え文を生成するための文書処理プログラムおよび文書処理装置に関する。
【背景技術】
【0002】
近年、例えば機械翻訳処理または文書分類処理等の効率または精度を向上させるために、文書を処理しやすい文に機械的に言い換えることが知られている。
【0003】
このような文の言い換え文を生成する方法として、例えば言い換え前後の文(の組)を含む用例を用いて言い換え文を生成する方法(以下、用例による方法と表記)がある。この用例による方法において用いられる用例は、例えば予め用意されている用例集に保持されている。
【0004】
用例による方法においては、例えば用例集(に保持されている用例)の内容に応じて言い換え文を生成する処理(以下、言い換え生成処理と表記)を自動的に切り替えることにより、当該用例集の内容に応じて多様な種類の言い換え生成処理を実行する技術(以下、第1の先行技術と表記)が考えられている。
【0005】
この場合、例えばユーザによって指定された言い換え対象となる文(入力文)と類似する用例を用例集から検索し、当該用例集に応じた言い換え生成処理を当該入力文に対して施すことにより、当該入力文の言い換え文が生成される。
【0006】
なお、第1の先行技術では、当該用例集に最適の言い換え生成処理を対応づけるために、例えば当該用例集に対して当該言い換え生成処理に対応するスコアが算出される。つまり、このスコアが最大となる言い換え生成処理が用例集に最適の言い換え生成処理(当該用例に応じた言い換え生成処理)として対応づけられる。
【0007】
また、第1の先行技術においては、複数の用例集を予め用意しておくことにより、当該複数の用例集を用いた言い換え生成処理を順次行うことによって当該用例集毎に言い換え文を生成することができる。
【0008】
また、言い換え文を生成する技術に関連して、例えば複数種類の言い換えが必要な文または文章を、目的とする文または文章に簡単に変換することができる技術(以下、第2の先行技術と表記)が開示されている(例えば、特許文献1を参照)。この第2の先行技術によれば、例えば言い換え規則により生成された言い換えに対する評価尺度を切り替えることにより、当該言い換えの結果を切り替えることが可能となる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2003−76687号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
ところで、上記した第1の先行技術において、例えばユーザの望む言い換え文が生成されない場合には、用例集の内容(用例集に保持されている用例)を変更する必要がある。この場合、一般的にはユーザの望む言い換えを表す用例を用例集に追加登録すればよい。
【0011】
しかしながら、上記した第1の先行技術では、用例集の内容(用例集に保持されている用例)毎に言い換え生成処理が切り替えられるため、当該用例集に追加された用例が当該用例集に対応づけられている言い換え生成処理では処理できない場合がある。
【0012】
したがって、用例集に用例を追加する際には、適切な用例集(つまり、当該用例を処理可能な言い換え生成処理に対応づけられている用例集)を選択する必要がある。
【0013】
しかしながら、例えば用例集の作成者と用例を追加する者(つまり、ユーザ)が異なる場合には、適切な用例集を選択することは困難である。
【0014】
また、上記した第2の先行技術においては、言い換え結果を変更したい場合における評価尺度を更新する方法については考慮されていない。また、この場合には例えば生成したい言い換えに合わせて評価尺度を作成(更新)することが考えられるが、このような当該評価尺度をユーザが作成することは困難である。
【0015】
そこで、本発明の目的は、ユーザにとって所望の言い換えを表す用例に応じて自動的に用例集を更新することで、当該用例集を容易に管理することが可能な文書処理プログラムおよび文書処理装置を提供することにある。
【課題を解決するための手段】
【0016】
本発明の1つの態様によれば、言い換え前の文および当該言い換え前の文が言い換えられた言い換え後の文を含む用例が保持されている用例集を格納する用例集格納手段と、言い換え対象となる文から当該文が言い換えられた言い換え文を生成するために実行される言い換え生成処理を示す言い換え生成処理情報および当該言い換え生成処理が実行される際に用いられる前記用例集格納手段に格納されている用例集を示す用例集情報を対応づけて格納する管理情報格納手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、前記コンピュータに、ユーザによって指定された言い換え前の文である第1の文および当該第1の文が言い換えられた言い換え後の文である第2の文を含む新規用例を入力するステップと、前記用例集格納手段に格納されている用例集を示す用例集情報に対応づけて前記管理情報格納手段に格納されている言い換え生成処理情報を特定するステップと、前記用例集格納手段に格納されている用例集を用いて前記特定された言い換え生成処理情報によって示される言い換え生成処理を実行することによって、前記入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成するステップと、前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であるかを判定するステップと、前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であると判定された場合、前記入力された当該用例集を前記用例集情報が保持される用例集リストに追加することによって当該用例集を更新するステップとを実行させるための文書処理プログラムが提供される。
【発明の効果】
【0017】
本発明は、ユーザにとって所望の言い換えを表す用例に応じて自動的に用例集を更新することで、当該用例集を容易に管理することを可能とする。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態に係る文書処理装置のハードウェア構成を示すブロック図。
【図2】図1に示す文書処理装置30の主として機能構成を示すブロック図。
【図3】図2に示す用例集格納部22に格納されている第1の用例集のデータ構造の一例を示す図。
【図4】図2に示す用例集格納部22に格納されている第2の用例集のデータ構造の一例を示す図。
【図5】図2に示す用例集リスト格納部23に格納されている用例集リストのデータ構造の一例を示す図。
【図6】図2に示す管理情報格納部24のデータ構造の一例を示す図。
【図7】ユーザによって指定された用例に応じて用例集を更新する際の本実施形態に係る文書処理装置30の処理手順を示すフローチャート。
【図8】図7に示すステップS6およびステップS7の処理について説明するための図。
【図9】第1の言い換え生成処理が実行されることによって言い換え文が生成される場合について具体的に説明するための図。
【図10】第2の言い換え生成処理が実行されることによって言い換え文が生成される場合について具体的に説明するための図。
【発明を実施するための形態】
【0019】
以下、図面を参照して、本発明の実施形態について説明する。
【0020】
図1は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書処理装置30を構成する。
【0021】
この文書処理装置30は、例えばユーザによって指定された文が言い換えられた文(以下、言い換え文と表記)を生成する機能を有する。
【0022】
図2は、図1に示す文書処理装置30の主として機能構成を示すブロック図である。図2に示すように、文書処理装置30は、入力部31、言い換え生成処理方式管理部32、言い換え生成部33、更新対象用例集決定部34、用例集更新部35、用例集リスト更新部36および出力部37を含む。本実施形態において、これらの各部31〜37は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム(文書処理プログラム)21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
【0023】
また、文書処理装置30は、用例集格納部22、用例集リスト格納部23および管理情報格納部24を含む。本実施形態において、これらの各部22〜24は、例えば図1に示す外部記憶装置20に格納される。
【0024】
用例集格納部22には、複数の用例集が予め格納される。用例集格納部22に格納されている用例集の各々には、言い換え前の文および当該言い換え前の文が言い換えられた言い換え後の文を含む用例が保持される。以下、用例に含まれる言い換え前の文を言い換え前用例、当該用例に含まれる言い換え後の文を言い換え後用例と称する。なお、用例集格納部22に格納されている用例集は、言い換えの対象となる文(以下、言い換え対象文と表記)から言い換え文(当該言い換え対象文が言い換えられた文)を生成する際に用いられる。
【0025】
用例集リスト格納部23には、用例集リストが格納される。用例集リスト格納部23に格納されている用例集リストには、用例集格納部22に格納されている用例集のうち、例えば言い換え対象文から言い換え文を生成する際に用いられる用例集を示す用例集情報(例えば、当該用例集の名称)が保持される。用例集リストに保持される用例集情報(によって示される用例集)は、例えばユーザによって予め指定される。
【0026】
管理情報格納部24には、言い換え対象文(言い換え前の文)から当該文が言い換えられた言い換え文を生成するために実行される処理(以下、言い換え生成処理と表記)と用例集格納部22に格納されている用例集との対応関係を管理するための情報が格納される。具体的には、管理情報格納部24には、言い換え生成処理(の方式)を示す言い換え生成処理情報および当該言い換え生成処理が実行される際に用いられる用例集を示す用例集情報が対応づけて格納されている。
【0027】
入力部31は、例えばキーボードまたはマウス等に対するユーザの操作に応じて、当該ユーザからの指示を受け付ける。入力部31は、例えばユーザによって指定された言い換え対象文を入力する。また、入力部31は、ユーザによって指定された用例集格納部22に格納されている用例集に追加すべき新規用例(当該ユーザの望む言い換えを表す用例)を入力する。入力部31によって入力される新規用例には、例えば言い換え前の文である原文(第1の文)および当該原文が言い換えられた言い換え後の文である換言文(第2の文)が含まれる。
【0028】
言い換え生成処理方式管理部32は、管理情報格納部24に格納されている情報を管理する機能を有する。言い換え生成処理方式管理部32は、使用される用例集に応じて適切な言い換え生成処理が実行されるように制御する。
【0029】
言い換え生成部33は、用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報によって示される用例集を用いて、当該入力部31によって入力された言い換え対象文(入力文)から当該言い換え対象文が言い換えられた言い換え文を生成する機能を有する。この場合、言い換え生成部33は、用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報に対応づけて管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理を実行することによって言い換え対象文の言い換え文を生成する。
【0030】
言い換え生成部33は、用例集格納部22に格納されている用例集を用いて、当該用例集を示す用例集情報に対応づけて管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理を実行する。また、言い換え生成部33は、入力部31によって入力された新規用例を保持する用例集(以下、新規用例集と表記)を用いて、管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え処理の各々を実行する。言い換え生成部33は、このように言い換え生成処理を実行することによって、入力部31によって入力された新規用例に含まれる原文から当該原文が言い換えられた言い換え文(当該原文の言い換え文)を生成する。
【0031】
更新対象用例集決定部34は、言い換え生成部33によって生成された原文の言い換え文が入力部31によって入力された新規用例に含まれる換言文と同一であるか否かを判定する。更新対象用例集決定部34は、判定結果に基づいて、入力部31によって入力された新規用例を追加する用例集、つまり、更新の対象となる用例集(更新対象用例集)を決定する。
【0032】
用例集更新部35は、更新対象用例集決定部34によって決定された更新対象用例集に入力部31によって入力された新規用例を追加することによって、当該更新対象用例集を更新する。また、用例集更新部35は、入力部31によって入力された新規用例を保持する新規用例集を用例集格納部22に格納する。
【0033】
用例集リスト更新部36は、用例集リスト格納部23に格納されている用例集リストを更新する機能を有する。用例集リスト更新部36は、例えば入力部31によって入力された新規用例が追加された用例集を示す用例集情報または当該新規用例を保持する新規用例集を示す用例集情報を用例集リストに追加することによって、当該用例集リストを更新する。
【0034】
出力部37は、入力部31によって入力された言い換え対象文(入力文)の言い換え文(言い換え生成部33によって生成された言い換え文)を出力する機能を有する。出力部37は、言い換え対象文の言い換え文を、例えば液晶ディスプレイ等に表示する。
【0035】
図3および図4を参照して、図2に示す用例集格納部22に格納されている用例集について説明する。用例集格納部22には、例えば第1および第2の用例集を含む複数の用例集が格納されているものとする。用例集格納部22に格納されている用例集の各々には、例えば複数の用例が保持されている。また、用例集の各々に保持されている用例は、言い換え前の文である言い換え前用例および当該言い換え前の文が言い換えられた後の文である言い換え後用例を含む。
【0036】
図3は、用例集格納部22に格納されている第1の用例集のデータ構造の一例を示す。図3に示す例では、第1の用例集221には、複数の用例221a〜221cが保持されている。
【0037】
第1の用例集221に保持されている用例221aは、言い換え前用例「2000年のCO2排出量はアメリカが57億トンであった。」および言い換え後用例「CO2排出量は2000年がアメリカで57億トンであった。」を含む。
【0038】
第1の用例集221に保持されている用例221bは、言い換え前用例「2000年に排出したCO2排出量は57億トンであった。」および言い換え後用例「2000年は57億トンのCO2を排出した。」を含む。
【0039】
また、第1の用例集221に保持されている用例221cは、言い換え前用例「100ページの資料を作成した。」および言い換え後用例「資料を100ページ作成した。」を含む。
【0040】
図4は、用例集格納部22に格納されている第2の用例集のデータ構造の一例を示す。図4に示す例では、第2の用例集222には、複数の用例222a〜222dが保持されている。
【0041】
第2の用例集222に保持されている用例222aは、言い換え前用例「ないわけではない」および言い換え後用例「ある」を含む。
【0042】
第2の用例集222に保持されている用例222bは、言い換え前用例「なかったわけではない」および言い換え後用例「あった」を含む。
【0043】
第2の用例集222に保持されている用例222cは、言い換え前用例「来ない人はいない」および言い換え後用例「全員来る」を含む。
【0044】
また、第2の用例集222に保持されている用例222dは、言い換え前用例「来なかった人はいない」および言い換え後用例「全員来た」を含む。
【0045】
図5は、図2に示す用例集リスト格納部23に格納されている用例集リストのデータ構造の一例を示す。用例集リスト格納部23に格納されている用例集リストには、用例集格納部22に格納されている複数の用例集のうち、例えば言い換えの対象文から言い換え文を生成する際に用いられる用例集を示す用例集情報(当該用例集の名称)が保持される。なお、用例集リストに保持される用例集情報は、ユーザによって指定される。
【0046】
図5に示す例では、用例集リストには、用例集情報(用例集の名称)として「用例集1」および「用例集4」が保持されている。これによれば、用例集格納部22に格納されている複数の用例集のうち、用例集情報「用例集1」および「用例集4」によって示される用例集が言い換え対象文から言い換え文を生成する際に用いられることが示される。
【0047】
図6は、図2に示す管理情報格納部24のデータ構造の一例を示す。管理情報格納部24には、言い換え生成処理と用例集格納部22に格納されている用例集との対応関係を管理するための情報が格納されている。
【0048】
図6に示すように、管理情報格納部24には、言い換え生成処理情報および用例集情報が対応づけて格納されている。言い換え生成処理情報は、言い換え前の文から当該文が言い換えられた言い換え文を生成するために実行される言い換え生成処理(の方式)を示す。用例集情報は、当該用例集情報に対応づけられている言い換え生成処理情報によって示される言い換え生成処理が実行される際に用いられる用例集を示す。
【0049】
なお、管理情報格納部24に格納される言い換え生成処理情報としては、例えば言い換え生成処理(の方式)の名称等が用いられる。また、管理情報格納部24に格納される用例集情報としては、例えば用例集の名称等が用いられる。
【0050】
図6に示す例では、管理情報格納部24には、言い換え生成処理情報「言い換え生成処理A」および用例集情報「用例集1」が対応づけて格納されている。これによれば、言い換え生成処理情報「言い換え生成処理A」によって示される言い換え生成処理が実行される際には、用例集情報「用例集1」によって示される用例集が用いられることが示される。
【0051】
管理情報格納部24には、言い換え生成処理情報「言い換え生成処理B」および用例集情報「用例集2」が対応づけて格納されている。管理情報格納部24には、言い換え生成処理情報「言い換え生成処理C」および用例集情報「用例集3」が対応づけて格納されている。また、管理情報格納部24には、言い換え生成処理情報「言い換え生成処理D」および用例集情報「用例集4」が対応づけて格納されている。
【0052】
なお、例えば用例集が対応づけられていない言い換え生成処理が存在する場合、管理情報格納部24には、当該言い換え生成処理を示す言い換え生成処理情報に対応づけて用例集情報は格納されない。
【0053】
また、管理情報格納部24においては、同一の言い換え生成処理情報に対して異なる複数の用例集情報が対応づけられていても構わない。
【0054】
次に、図7に示すフローチャートを参照して、ユーザによって指定された用例に応じて用例集が更新される際の本実施形態に係る文書処理装置30の処理手順について説明する。
【0055】
まず、図7に示す処理が実行される場合について説明する。例えば入力部31によってユーザによって指定された言い換え対象文が入力された場合、言い換え生成部33は、用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報によって示される用例集を用いて、当該用例集情報に対応づけて管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理を実行する。これにより、言い換え生成部33は、入力部31によって入力された言い換え対象文から当該言い換え対象文が言い換えられた言い換え文を生成する。なお、用例集リスト格納部23に格納されている用例集リストに複数の用例集情報が保持されている場合には、当該複数の用例集情報によって示される用例集毎に言い換え文が生成される。このように言い換え生成部33によって生成された言い換え文(言い換え対象文の言い換え文)は、出力部37によって出力される。
【0056】
このように出力部37によって出力された言い換え対象文の言い換え文がユーザにとって所望の言い換え文でない場合には、ユーザは、用例集格納部22に格納されている用例集に追加するための新規用例(ユーザにとって所望の言い換えを表す新規用例)を、例えば文書処理装置30を操作することによって指定することができる。図7に示す処理は、このようにユーザによって新規用例が指定された場合に実行される。換言すれば、図7に示す処理は、出力部37によって出力された言い換え対象文の言い換え文が例えばユーザにとって所望の言い換え文でない場合に実行される。
【0057】
上記したようにユーザによって新規用例が指定された場合、入力部31は、当該新規用例を入力する(ステップS1)。入力部31によって入力された新規用例には、言い換え前の文である原文および当該原文が言い換えられた後の文である換言文が含まれる。
【0058】
次に、用例集格納部22に格納されている用例集のうち、用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報によって示される用例集以外の用例集が特定される(ステップS2)。ここでは、上記したように用例集リストに保持されている用例集情報によって示される用例集を用いて生成された言い換え文がユーザにとって所望の言い換え文でないと判断されているため、当該用例集リストに保持されている用例集情報によって示される用例集が除外される。
【0059】
上述した図5を用いて具体的に説明すると、用例集格納部22に格納されている用例集のうち、図5に示す用例集リストに保持されている用例集情報「用例集1」および「用例集4」によって示される用例集以外の用例集(例えば、用例集情報「用例集2」および「用例集3」によって示される用例集)が特定される。
【0060】
言い換え生成処理方式管理部32は、ステップS2において特定された用例集を示す用例集情報に対応づけて管理情報格納部24に格納されている言い換え生成処理情報を特定する。
【0061】
言い換え生成部33は、ステップS2において特定された用例集を用いて、言い換え生成処理方式管理部32によって特定された言い換え生成処理情報によって示される言い換え生成処理を実行する(ステップS3)。この場合、言い換え生成部33は、入力部31によって入力された新規用例に含まれる原文に対して(つまり、当該原文を言い換えの対象となる文として)言い換え生成処理を実行する。これによって、言い換え生成部33は、入力部31によって入力された新規用例に含まれる原文から当該原文が言い換えられた言い換え文を生成する。
【0062】
次に、更新対象用例集決定部34は、言い換え生成部33によって生成された言い換え文(原文の言い換え文)に基づいて、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができたか否か、つまり、言い換え生成部33によって言い換え生成処理が実行された結果、ユーザにとって所望の言い換え文が生成されたか否かを判定する(ステップS4)。この場合、更新対象用例集決定部34は、言い換え生成部33によって生成された言い換え文が入力部31によって入力された新規用例に含まれる換言文と同一であるか否かを判定する。
【0063】
入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができない、つまり、言い換え生成部33によって生成された言い換え文が新規用例に含まれる換言文と同一でないと判定された場合(ステップS4のNO)、更新対象用例集決定部34は、当該新規用例のみを保持する新規用例集を作成する(ステップS5)。
【0064】
言い換え生成部33は、更新対象用例集決定部34によって作成された新規用例集を用いて、管理情報格納部24に格納されている言い換え生成処理情報によって示される全ての言い換え生成処理(つまり、言い換え生成処理方式管理部32および管理情報格納部24で管理されている全ての言い換え生成処理)を実行する(ステップS6)。この言い換え生成処理は、入力部31によって入力された新規用例に含まれる原文に対して実行される。
【0065】
これによって、言い換え生成部33は、実行された言い換え生成処理毎に、入力部31によって入力された新規用例に含まれる原文から当該原文が言い換えられた言い換え文を生成する。
【0066】
更新対象用例集決定部34は、ステップS6の処理が実行されることによって生成された言い換え文の各々に基づいて、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができたか否か、つまり、言い換え生成部33によって言い換え生成処理が実行された結果、ユーザにとって所望の言い換え文が生成されたか否かを判定する(ステップS7)。つまり、更新対象用例集決定部34は、ステップS6の処理が実行されることによって生成された言い換え文(の少なくとも1つ)が入力部31によって入力された新規用例に含まれる換言文と同一であるか否かを判定する。
【0067】
ここで、図8を参照して、上記したステップS6およびステップS7の処理について説明する。ここでは、管理情報格納部24には、言い換え生成処理情報「言い換え生成処理A」、「言い換え生成処理B」、「言い換え生成処理C」および「言い換え生成処理D」が格納されているものとする。
【0068】
以下、言い換え生成処理情報「言い換え生成処理A」によって示される言い換え生成処理を単に言い換え生成処理Aと称する。同様に、言い換え生成処理情報「言い換え生成処理B」によって示される言い換え生成処理を言い換え生成処理B、言い換え生成処理情報「言い換え生成処理C」によって示される言い換え生成処理を言い換え生成処理C、「言い換え生成処理情報「言い換え生成処理D」によって示される言い換え生成処理を言い換え生成処理Dと称する。
【0069】
ステップS6においては、更新対象用例集決定部34によって作成された新規用例集(新規用例のみを保持する用例集)を用いて全ての言い換え生成処理が実行される。この場合、言い換え生成処理は、新規用例の原文(新規用例に含まれる原文)に対して実行される。
【0070】
ここでは、新規用例の原文に対して言い換え生成処理A〜Dの各々が実行される。例えば新規用例の原文に対して言い換え生成処理Aが実行されることによって、当該原文が言い換えられた言い換え文(以下、言い換え文Aと表記)が生成される。また、新規用例の原文に対して言い換え生成処理Bが実行されることによって、当該原文が言い換えられた言い換え文(以下、言い換え文Bと表記)が生成される。同様に、新規用例の原文に対して言い換え生成処理Cが実行されることによって、当該原文が言い換えられた言い換え文(以下、言い換え文Cと表記)が生成される。更に、新規用例の原文に対して言い換え生成処理Dが実行されることによって、当該原文が言い換えられた言い換え文(以下、言い換え文Dと表記)が生成される。
【0071】
ステップS7においては、新規用例の換言文(新規用例に含まれる換言文)とステップS6において言い換え生成処理A〜Dの各々が実行されることによって生成された言い換え文A〜Dの各々とが比較される。
【0072】
これにより、言い換え文A〜Dの少なくとも1つが新規用例の換言文と同一である場合には、新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができたと判定される。
【0073】
再び図7に戻ると、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができた、つまり、ステップS6の処理が実行されることによって言い換え生成部33によって生成された言い換え文(のうちの少なくとも1つ)が新規用例に含まれる換言文と同一であると判定された場合(ステップS7のYES)、言い換え生成処理方式管理部32は、管理情報格納部24を参照することによって、当該言い換え文が生成された際に実行された言い換え生成処理を示す言い換え生成処理情報に対応づけられている用例集情報が存在するか否かを判定する(ステップS8)。換言すれば、言い換え生成処理方式管理部32は、新規用例に含まれる換言文と同一の言い換え文が生成された際に実行された言い換え生成処理を示す言い換え生成処理情報に対応づけられている用例集情報を管理情報格納部24から検索する。
【0074】
用例集情報が存在すると言い換え生成処理方式管理部32によって判定された場合(ステップS8のYES)、更新対象用例集決定部34は、当該用例集情報によって示される用例集を更新の対象となる用例集(更新対象用例集)として決定する。なお、新規用例に含まれる換言文と同一の言い換え文が生成された際に実行された言い換え生成処理(を示す言い換え生成処理情報に対応づけられている用例集情報)が複数存在する場合には、当該複数の用例集情報によって示される用例集のうちの任意の1つが更新対象用例集として決定されてもよいし、当該用例集のうちの全てが更新対象用例集として決定されても構わない。
【0075】
用例集更新部35は、入力部31によって入力された新規用例を、更新対象用例集決定部34によって決定された更新対象用例集に追加することによって当該用例集(の内容)を更新する(ステップS9)。
【0076】
ステップS9の処理が実行されると、用例集リスト更新部36は、用例集リスト格納部23に格納されている用例集リストに更新対象用例集決定部34によって決定された更新対象用例集を示す用例集情報を追加することによって当該用例集リストを更新する(ステップS10)。
【0077】
一方、ステップS8において用例集情報が存在しないと言い換え生成処理方式管理部32によって判定された場合、用例集更新部35は、ステップS5において更新対象用例集決定部34によって作成された新規用例集(新規用例のみを保持する用例集)を用例集格納部22に追加(格納)する(ステップS11)。
【0078】
ステップS11の処理が実行されると、用例集リスト更新部36は、更新対象用例集決定部34によって作成された新規用例集(用例集格納部22に追加された新規用例集)を示す用例集情報を用例集リスト格納部23に格納されている用例集リストに追加することによって当該用例集リストを更新する(ステップS10)。
【0079】
また、上記したステップS4において、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができる、つまり、ステップS3の処理が実行されることによって言い換え生成部33によって生成された言い換え文が新規用例に含まれる換言文と同一であると判定された場合を想定する。この場合、用例集リスト更新部36は、新規用例に含まれる換言文と同一である言い換え文が生成された際に実行された言い換え生成処理を示す言い換え生成処理情報に対応づけて管理情報格納部24に格納されている用例集情報(ステップS2において特定された用例集を示す用例集情報)を用例集リスト格納部23に格納されている用例集リストに追加することによって当該用例集リストを更新する(ステップS10)。
【0080】
なお、上記したステップS10において用例集リストが更新されることにより、この後に入力部31によってユーザによって指定された言い換え対象文が入力された場合には、当該用例集リストに追加された用例集情報によって示される用例集を用いて当該言い換え対象文の言い換え文が生成される。
【0081】
加えて、上記のように入力された新規用例に含まれる第2の文と同一の言い換え文が生成された際に、実行された言い換え生成処理を示す言い換え生成処理情報および作成された新規用例集を示す用例集情報を対応づけて管理情報格納部24に格納するステップを更に設けても良い。
【0082】
また、上記したステップS7において、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができない、つまり、ステップS6の処理が実行されることによって言い換え生成部33によって生成された言い換え文の全てが新規用例に含まれる換言文と同一でないと判定された場合には、例外処理が実行される(ステップS12)。
【0083】
ここで、例外処理について説明する。上記したように、例外処理は、既存の言い換え生成処理(つまり、管理情報格納部24に格納されている言い換え生成処理情報によって示される全ての言い換え生成処理)の中に、新規用例に含まれる原文から当該新規用例に含まれる換言文を生成することが可能な言い換え生成処理が存在しない場合に実行される処理である。
【0084】
この例外処理においては、例えば用例集格納部22に格納されている用例集に保持されている用例に含まれる言い換え前用例(言い換え前の文)と完全一致の場合に当該用例に含まれる言い換え後用例(言い換え後の文)に言い換えることによって言い換え文を生成するために実行される言い換え生成処理(の方式)が新たに用意される。つまり、この新たに用意された言い換え生成処理によれば、用例集格納部22に格納されている用例集に保持されている用例に含まれる言い換え前用例と同一の言い換え対象文が入力された場合には、当該用例に含まれる言い換え後用例が当該言い換え対象文の言い換え文として生成される。
【0085】
この新たに用意された言い換え生成処理を示す言い換え生成処理情報は、管理情報格納部24に格納(追加)される。また、管理情報格納部24においては、新たに用意された言い換え生成処理を示す言い換え生成処理情報に対して、例えばステップS5において更新対象用例集決定部34によって作成された新規用例集を示す用例集情報が対応づけられる。換言すれば、新たに用意された言い換え生成処理を示す言い換え生成処理情報に対応づけて新規用例集を示す用例集情報が管理情報格納部24に格納される。また、用例集格納部22においては、更新対象用例集決定部34によって作成された新規用例集が格納される。なお、新規用例集を示す用例集情報が用例集リスト格納部23に格納されている用例集リストに追加されても構わない。
【0086】
また、例外処理においては、例えば入力部31によって入力された新規用例を蓄積するとともに、当該新規用例のような言い換え(つまり、当該新規用例に含まれる原文を当該新規用例に含まれる換言文とするような言い換え)はできない旨(を示す情報)が出力部37によって出力されても構わない。このように蓄積された新規用例は、例えば後に新たな言い換え生成処理(の方式)を用意するような場合に活用できる。
【0087】
なお、図7に示す処理は、例えばユーザによって指定された言い換え対象文から生成された言い換え文(当該言い換え対象文の言い換え文)が当該ユーザにとって所望の言い換え文でない場合に実行されるものとして説明したが、言い換え対象文の言い換え文が生成されていない場合に実行されても構わない。この場合には、図7に示すステップS2の処理は実行されず、当該図7に示すステップS3の処理においては、用例集格納部22に格納されている全ての用例集を用いて言い換え生成処理が実行される構成であっても構わない。
【0088】
以下、管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理(つまり、言い換え生成部33によって実行される言い換え生成処理)の具体例について説明する。
【0089】
管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理には、例えば固有表現の順序の変更を目的とする言い換え生成処理(以下、第1の言い換え生成処理と表記)および二重否定の解消を目的とする言い換え生成処理(以下、第2の言い換え生成処理と表記)が含まれる。
【0090】
まず、図9を参照して、第1の言い換え生成処理が実行されることによって言い換え文が生成される場合について具体的に説明する。ここでは、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」に対して第1の言い換え生成処理が実行される場合について説明する。
【0091】
なお、管理情報格納部24には、第1の言い換え生成処理を示す言い換え生成処理情報に対応づけて上述した図3に示す第1の用例集221を示す用例集情報が格納されているものとする。つまり、第1の言い換え生成処理は、第1の用例集221を用いて実行される。
【0092】
まず、第1の言い換え生成処理においては、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」が解析される。第1の言い換え生成処理においては、この言い換え対象文の解析結果に基づいて、固有表現の種類(意味クラス)に着目し、当該言い換え対象文と類似する言い換え前用例を含む用例が第1の用例集221から選択される(ステップS21)。
【0093】
ここで、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」において、文字列「2005年」の固有表現の種類(意味クラス)は「日付け」であり、文字列「CO2排出量」の固有表現の種類は「物理量」であり、文字列「日本」の固有表現の種類は「地名」であり、文字列「35億トン」の固有表現の種類は「数量」である。一方、図3に示す第1の用例集221に保持されている用例221a〜221cのうちの用例221aに含まれる言い換え前用例おいて、文字列「2000年」の固有表現の種類は「日付け」であり、文字列「CO2排出量」の固有表現の種類は「物理量」であり、文字列「アメリカ」の固有表現の種類は「地名」であり、文字列「57億トン」の固有表現の種類は「数量」である。
【0094】
つまり、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」および第1の用例集221に保持されている用例221aに含まれる言い換え前用例においては、固有表現の種類が同一順で並んでいる。したがって、図3に示す第1の用例集221に保持されている用例221a〜221cのうちの用例221aが言い換え対象文と類似する言い換え前用例を含む用例として選択される。
【0095】
次に、第1の言い換え生成処理においては、選択された用例(以下、類似用例と表記)221aにおける固有表現の並び順が当該類似用例221aに含まれる言い換え前用例と言い換え後用例との間でどのように変化しているか(以下、差分と表記)が抽出(算出)される(ステップS22)。
【0096】
ここでは、図9に示すように、類似用例221aに含まれる言い換え前用例においてID「1」の位置の文字列「2000年(の)」は、当該類似用例221aに含まれる言い換え後用例においてはID「2」の位置に変化している。また、類似用例221aに含まれる言い換え前用例においてID「2」の位置の文字列「CO2排出量(は)」は、当該類似用例221aに含まれる言い換え後用例においてはID「1」の位置に変化している。
【0097】
次に、第1の言い換え生成処理においては、抽出された差分が言い換え対象文に適用される(ステップS23)。これによって、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」の言い換え文が生成される。
【0098】
ここでは、図9に示すように、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」のID「1」の位置の文節「2005年の」がID「2」の位置に移動され、ID「2」の位置の文節「CO2排出量は」がID「1」の位置に移動される。
【0099】
このとき、移動された文字列「2005年の」および「CO2排出量は」の付属語が差分に基づいて調整される。
【0100】
具体的に説明すると、上記した差分(つまり、類似用例221aに含まれる言い換え前用例と言い換え後用例との間における変化)においては、文節「2000年の」の付属語「の」が「が」に変化していることから、文節「2005年の」の付属語「の」は、付属語「が」に調整(変更)される。また、上記した差分においては、文節「CO2排出量は」の付属語「は」は変化していないことから、文節「CO2排出量は」の付属語「は」は変更されない。
【0101】
以上により、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」に対して、第1の用例集221を用いて第1の言い換え生成処理が実行された場合には、当該言い換え対象文の言い換え文「CO2排出量は2005年が日本で35億トンであった。」が生成される。
【0102】
次に、図10を参照して、第2の言い換え生成処理が実行されることによって言い換え文が生成される場合について具体的に説明する。ここでは、言い換え対象文「解決策を持っていなかった人はいない。」に対して第2の言い換え生成処理が実行される場合について説明する。
【0103】
なお、管理情報格納部24には、第2の言い換え生成処理を示す言い換え生成処理情報に対応づけて上述した図4に示す第2の用例集222を示す用例集情報が格納されているものとする。つまり、第2の言い換え生成処理は、第2の用例集222を用いて実行される。
【0104】
まず、第2の言い換え生成処理においては、言い換え対象文「解決策を持っていなかった人はいない。」が解析される。第2の言い換え生成処理においては、この言い換え対象文の解析結果に基づいて、第2の用例集に保持されている用例に含まれる言い換え前用例および言い換え後用例の間(つまり、言い換えの前後)で変化している部分に着目し、当該言い換え対象文と類似する言い換え前用例を含む用例が当該第2の用例集222から選択される(ステップS31)。
【0105】
ここで、図4に示す第2の用例集222に保持されている用例222a〜222dのうち、用例222dにおいては、言い換え前用例「来なかった人はいない」の「なかった人はいない」の部分が言い換えの前後で変化している。この用例222dにおける言い換え前後で変化している部分(ここでは、「なかった人はいない」)は、言い換え対象文「解決策を持っていなかった人はいない。」に含まれている。したがって、図4に示す第2の用例集222に保持されている用例222a〜222dのうちの用例222dが言い換え対象文と類似する言い換え前用例を含む用例として選択される。
【0106】
次に、第2の言い換え生成処理においては、選択された用例(以下、類似用例と表記)222dにおける表現が当該類似用例222dに含まれる言い換え前用例と言い換え後用例との間でどのように変化しているか(以下、差分と表記)が抽出(算出)される(ステップS32)。
【0107】
ここでは、図10に示すように、類似用例222dに含まれる言い換え後用例においては、文字列「全員」が先頭に挿入されている。また、類似用例222dに含まれる言い換え前用例における文字列「なかった人はいない」は、当該類似用例222dに含まれる言い換え後用例において文字列「た」に変化している。
【0108】
次に、第2の言い換え生成処理においては、抽出された差分が言い換え対象文に適用される(ステップS33)。これによって、言い換え対象文「解決策を持っていなかった人はいない。」の言い換え文が生成される。
【0109】
具体的には、図10に示すように、言い換え対象文「解決策を持っていなかった人はいない。」に対して文字列「全員」が先頭に挿入され、当該言い換え対象文「解決策を持っていなかった人はいない。」における文字列「なかった人はいない」が文字列「た」に変化される。
【0110】
これにより、言い換え対象文「解決策を持っていなかった人はいない。」に対して、第2の用例集222を用いて第2の言い換え生成処理が実行された場合には、当該言い換え対象分の言い換え文「全員解決策を持っていた。」が生成される。
【0111】
上記したように本実施形態においては、ユーザによって指定された原文および換言文を含む新規用例が入力された場合、用例集格納部22に格納されている用例集を示す用例集情報(用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報以外の用例集情報)に対応づけて管理情報格納部24に格納されている言い換え生成処理情報が特定される。本実施形態においては、特定された言い換え生成処理情報によって示される言い換え生成処理が用例集格納部22に格納されている用例集を用いて実行されることによって、新規用例に含まれる原文が言い換えられた言い換え文(当該原文の言い換え文)が生成される。本実施形態においては、生成された原文の言い換え文が新規用例に含まれる換言文と同一である場合には、当該新規用例を用例集格納部22に格納されている用例集(実行された言い換え生成処理を示す言い換え生成処理情報に対応づけて管理情報格納部24に格納されている用例集情報によって示される用例集)に追加することによって当該用例集が更新される。
【0112】
また、本実施形態においては、新規用例を保持する用例集(新規用例集)を用いて、管理情報格納部24に格納されている言い換え生成処理情報によって示される全ての言い換え生成処理が実行されることによって、当該新規用例に含まれる原文の言い換え文が生成される。本実施形態においては、生成された原文の言い換え文が新規用例に含まれる換言文と同一である場合であって、当該換言文と同一の言い換え文が生成された際に実行された言い換え生成処理(情報)に対応づけて管理情報格納部24に用例集情報が格納されている場合には、当該用例集情報によって示される用例集に新規用例を追加することによって当該用例集が更新される。また、本実施形態においては、生成された原文の言い換え文が新規用例に含まれる換言文と同一である場合であって、当該換言文と同一の言い換え文が生成された際に実行された言い換え生成処理(情報)に対応づけて管理情報格納部24に用例集情報が格納されていない場合には、新規用例を保持する新規用例集が用例集格納部22に追加され、当該新規用例集を示す用例集情報が当該言い換え生成処理情報に対応づけて管理情報格納部24に格納される。
【0113】
これにより、本実施形態においては、ユーザにとって所望の言い換えを表す用例(新規用例)に応じて自動的に用例集を更新することができるため、ユーザが例えば用例集に関する知識を有していないような場合であっても、当該ユーザの負担を軽減し、かつ、当該用例集を容易に管理することが可能となる。また、本実施形態においては、自動的に新規用例が適切な用例集に追加されることから、当該用例集を用いて実行される言い換え生成処理の精度を向上させることが可能となる。
【0114】
また、本実施形態においては、新規用例集を用いて全ての言い換え生成処理が実行された場合であって、当該言い換え生成処理が実行されることによって生成された原文の言い換え文の全てが換言文と同一でない場合には、上述したような例外処理(図7に示すステップS12の処理)が実行される。これにより、本実施形態においては、全ての言い換え生成処理によっても新規用例に含まれる原文から換言文が生成されない場合であっても、当該新規用例に応じて用例集を自動的に更新することが可能となる。
【0115】
なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【符号の説明】
【0116】
10…コンピュータ、20…外部記憶装置、22…用例集格納部、23…用例集リスト格納部、24…管理情報格納部、30…文書処理装置、31…入力部、32…言い換え生成処理方式管理部(管理手段)、33…言い換え生成部、34…更新対象用例集決定部(判定手段)、35…用例集更新部、36…用例集リスト更新部、37…出力部。
【技術分野】
【0001】
本発明は、用例を用いて言い換え文を生成するための文書処理プログラムおよび文書処理装置に関する。
【背景技術】
【0002】
近年、例えば機械翻訳処理または文書分類処理等の効率または精度を向上させるために、文書を処理しやすい文に機械的に言い換えることが知られている。
【0003】
このような文の言い換え文を生成する方法として、例えば言い換え前後の文(の組)を含む用例を用いて言い換え文を生成する方法(以下、用例による方法と表記)がある。この用例による方法において用いられる用例は、例えば予め用意されている用例集に保持されている。
【0004】
用例による方法においては、例えば用例集(に保持されている用例)の内容に応じて言い換え文を生成する処理(以下、言い換え生成処理と表記)を自動的に切り替えることにより、当該用例集の内容に応じて多様な種類の言い換え生成処理を実行する技術(以下、第1の先行技術と表記)が考えられている。
【0005】
この場合、例えばユーザによって指定された言い換え対象となる文(入力文)と類似する用例を用例集から検索し、当該用例集に応じた言い換え生成処理を当該入力文に対して施すことにより、当該入力文の言い換え文が生成される。
【0006】
なお、第1の先行技術では、当該用例集に最適の言い換え生成処理を対応づけるために、例えば当該用例集に対して当該言い換え生成処理に対応するスコアが算出される。つまり、このスコアが最大となる言い換え生成処理が用例集に最適の言い換え生成処理(当該用例に応じた言い換え生成処理)として対応づけられる。
【0007】
また、第1の先行技術においては、複数の用例集を予め用意しておくことにより、当該複数の用例集を用いた言い換え生成処理を順次行うことによって当該用例集毎に言い換え文を生成することができる。
【0008】
また、言い換え文を生成する技術に関連して、例えば複数種類の言い換えが必要な文または文章を、目的とする文または文章に簡単に変換することができる技術(以下、第2の先行技術と表記)が開示されている(例えば、特許文献1を参照)。この第2の先行技術によれば、例えば言い換え規則により生成された言い換えに対する評価尺度を切り替えることにより、当該言い換えの結果を切り替えることが可能となる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2003−76687号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
ところで、上記した第1の先行技術において、例えばユーザの望む言い換え文が生成されない場合には、用例集の内容(用例集に保持されている用例)を変更する必要がある。この場合、一般的にはユーザの望む言い換えを表す用例を用例集に追加登録すればよい。
【0011】
しかしながら、上記した第1の先行技術では、用例集の内容(用例集に保持されている用例)毎に言い換え生成処理が切り替えられるため、当該用例集に追加された用例が当該用例集に対応づけられている言い換え生成処理では処理できない場合がある。
【0012】
したがって、用例集に用例を追加する際には、適切な用例集(つまり、当該用例を処理可能な言い換え生成処理に対応づけられている用例集)を選択する必要がある。
【0013】
しかしながら、例えば用例集の作成者と用例を追加する者(つまり、ユーザ)が異なる場合には、適切な用例集を選択することは困難である。
【0014】
また、上記した第2の先行技術においては、言い換え結果を変更したい場合における評価尺度を更新する方法については考慮されていない。また、この場合には例えば生成したい言い換えに合わせて評価尺度を作成(更新)することが考えられるが、このような当該評価尺度をユーザが作成することは困難である。
【0015】
そこで、本発明の目的は、ユーザにとって所望の言い換えを表す用例に応じて自動的に用例集を更新することで、当該用例集を容易に管理することが可能な文書処理プログラムおよび文書処理装置を提供することにある。
【課題を解決するための手段】
【0016】
本発明の1つの態様によれば、言い換え前の文および当該言い換え前の文が言い換えられた言い換え後の文を含む用例が保持されている用例集を格納する用例集格納手段と、言い換え対象となる文から当該文が言い換えられた言い換え文を生成するために実行される言い換え生成処理を示す言い換え生成処理情報および当該言い換え生成処理が実行される際に用いられる前記用例集格納手段に格納されている用例集を示す用例集情報を対応づけて格納する管理情報格納手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、前記コンピュータに、ユーザによって指定された言い換え前の文である第1の文および当該第1の文が言い換えられた言い換え後の文である第2の文を含む新規用例を入力するステップと、前記用例集格納手段に格納されている用例集を示す用例集情報に対応づけて前記管理情報格納手段に格納されている言い換え生成処理情報を特定するステップと、前記用例集格納手段に格納されている用例集を用いて前記特定された言い換え生成処理情報によって示される言い換え生成処理を実行することによって、前記入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成するステップと、前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であるかを判定するステップと、前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であると判定された場合、前記入力された当該用例集を前記用例集情報が保持される用例集リストに追加することによって当該用例集を更新するステップとを実行させるための文書処理プログラムが提供される。
【発明の効果】
【0017】
本発明は、ユーザにとって所望の言い換えを表す用例に応じて自動的に用例集を更新することで、当該用例集を容易に管理することを可能とする。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態に係る文書処理装置のハードウェア構成を示すブロック図。
【図2】図1に示す文書処理装置30の主として機能構成を示すブロック図。
【図3】図2に示す用例集格納部22に格納されている第1の用例集のデータ構造の一例を示す図。
【図4】図2に示す用例集格納部22に格納されている第2の用例集のデータ構造の一例を示す図。
【図5】図2に示す用例集リスト格納部23に格納されている用例集リストのデータ構造の一例を示す図。
【図6】図2に示す管理情報格納部24のデータ構造の一例を示す図。
【図7】ユーザによって指定された用例に応じて用例集を更新する際の本実施形態に係る文書処理装置30の処理手順を示すフローチャート。
【図8】図7に示すステップS6およびステップS7の処理について説明するための図。
【図9】第1の言い換え生成処理が実行されることによって言い換え文が生成される場合について具体的に説明するための図。
【図10】第2の言い換え生成処理が実行されることによって言い換え文が生成される場合について具体的に説明するための図。
【発明を実施するための形態】
【0019】
以下、図面を参照して、本発明の実施形態について説明する。
【0020】
図1は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書処理装置30を構成する。
【0021】
この文書処理装置30は、例えばユーザによって指定された文が言い換えられた文(以下、言い換え文と表記)を生成する機能を有する。
【0022】
図2は、図1に示す文書処理装置30の主として機能構成を示すブロック図である。図2に示すように、文書処理装置30は、入力部31、言い換え生成処理方式管理部32、言い換え生成部33、更新対象用例集決定部34、用例集更新部35、用例集リスト更新部36および出力部37を含む。本実施形態において、これらの各部31〜37は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム(文書処理プログラム)21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
【0023】
また、文書処理装置30は、用例集格納部22、用例集リスト格納部23および管理情報格納部24を含む。本実施形態において、これらの各部22〜24は、例えば図1に示す外部記憶装置20に格納される。
【0024】
用例集格納部22には、複数の用例集が予め格納される。用例集格納部22に格納されている用例集の各々には、言い換え前の文および当該言い換え前の文が言い換えられた言い換え後の文を含む用例が保持される。以下、用例に含まれる言い換え前の文を言い換え前用例、当該用例に含まれる言い換え後の文を言い換え後用例と称する。なお、用例集格納部22に格納されている用例集は、言い換えの対象となる文(以下、言い換え対象文と表記)から言い換え文(当該言い換え対象文が言い換えられた文)を生成する際に用いられる。
【0025】
用例集リスト格納部23には、用例集リストが格納される。用例集リスト格納部23に格納されている用例集リストには、用例集格納部22に格納されている用例集のうち、例えば言い換え対象文から言い換え文を生成する際に用いられる用例集を示す用例集情報(例えば、当該用例集の名称)が保持される。用例集リストに保持される用例集情報(によって示される用例集)は、例えばユーザによって予め指定される。
【0026】
管理情報格納部24には、言い換え対象文(言い換え前の文)から当該文が言い換えられた言い換え文を生成するために実行される処理(以下、言い換え生成処理と表記)と用例集格納部22に格納されている用例集との対応関係を管理するための情報が格納される。具体的には、管理情報格納部24には、言い換え生成処理(の方式)を示す言い換え生成処理情報および当該言い換え生成処理が実行される際に用いられる用例集を示す用例集情報が対応づけて格納されている。
【0027】
入力部31は、例えばキーボードまたはマウス等に対するユーザの操作に応じて、当該ユーザからの指示を受け付ける。入力部31は、例えばユーザによって指定された言い換え対象文を入力する。また、入力部31は、ユーザによって指定された用例集格納部22に格納されている用例集に追加すべき新規用例(当該ユーザの望む言い換えを表す用例)を入力する。入力部31によって入力される新規用例には、例えば言い換え前の文である原文(第1の文)および当該原文が言い換えられた言い換え後の文である換言文(第2の文)が含まれる。
【0028】
言い換え生成処理方式管理部32は、管理情報格納部24に格納されている情報を管理する機能を有する。言い換え生成処理方式管理部32は、使用される用例集に応じて適切な言い換え生成処理が実行されるように制御する。
【0029】
言い換え生成部33は、用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報によって示される用例集を用いて、当該入力部31によって入力された言い換え対象文(入力文)から当該言い換え対象文が言い換えられた言い換え文を生成する機能を有する。この場合、言い換え生成部33は、用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報に対応づけて管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理を実行することによって言い換え対象文の言い換え文を生成する。
【0030】
言い換え生成部33は、用例集格納部22に格納されている用例集を用いて、当該用例集を示す用例集情報に対応づけて管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理を実行する。また、言い換え生成部33は、入力部31によって入力された新規用例を保持する用例集(以下、新規用例集と表記)を用いて、管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え処理の各々を実行する。言い換え生成部33は、このように言い換え生成処理を実行することによって、入力部31によって入力された新規用例に含まれる原文から当該原文が言い換えられた言い換え文(当該原文の言い換え文)を生成する。
【0031】
更新対象用例集決定部34は、言い換え生成部33によって生成された原文の言い換え文が入力部31によって入力された新規用例に含まれる換言文と同一であるか否かを判定する。更新対象用例集決定部34は、判定結果に基づいて、入力部31によって入力された新規用例を追加する用例集、つまり、更新の対象となる用例集(更新対象用例集)を決定する。
【0032】
用例集更新部35は、更新対象用例集決定部34によって決定された更新対象用例集に入力部31によって入力された新規用例を追加することによって、当該更新対象用例集を更新する。また、用例集更新部35は、入力部31によって入力された新規用例を保持する新規用例集を用例集格納部22に格納する。
【0033】
用例集リスト更新部36は、用例集リスト格納部23に格納されている用例集リストを更新する機能を有する。用例集リスト更新部36は、例えば入力部31によって入力された新規用例が追加された用例集を示す用例集情報または当該新規用例を保持する新規用例集を示す用例集情報を用例集リストに追加することによって、当該用例集リストを更新する。
【0034】
出力部37は、入力部31によって入力された言い換え対象文(入力文)の言い換え文(言い換え生成部33によって生成された言い換え文)を出力する機能を有する。出力部37は、言い換え対象文の言い換え文を、例えば液晶ディスプレイ等に表示する。
【0035】
図3および図4を参照して、図2に示す用例集格納部22に格納されている用例集について説明する。用例集格納部22には、例えば第1および第2の用例集を含む複数の用例集が格納されているものとする。用例集格納部22に格納されている用例集の各々には、例えば複数の用例が保持されている。また、用例集の各々に保持されている用例は、言い換え前の文である言い換え前用例および当該言い換え前の文が言い換えられた後の文である言い換え後用例を含む。
【0036】
図3は、用例集格納部22に格納されている第1の用例集のデータ構造の一例を示す。図3に示す例では、第1の用例集221には、複数の用例221a〜221cが保持されている。
【0037】
第1の用例集221に保持されている用例221aは、言い換え前用例「2000年のCO2排出量はアメリカが57億トンであった。」および言い換え後用例「CO2排出量は2000年がアメリカで57億トンであった。」を含む。
【0038】
第1の用例集221に保持されている用例221bは、言い換え前用例「2000年に排出したCO2排出量は57億トンであった。」および言い換え後用例「2000年は57億トンのCO2を排出した。」を含む。
【0039】
また、第1の用例集221に保持されている用例221cは、言い換え前用例「100ページの資料を作成した。」および言い換え後用例「資料を100ページ作成した。」を含む。
【0040】
図4は、用例集格納部22に格納されている第2の用例集のデータ構造の一例を示す。図4に示す例では、第2の用例集222には、複数の用例222a〜222dが保持されている。
【0041】
第2の用例集222に保持されている用例222aは、言い換え前用例「ないわけではない」および言い換え後用例「ある」を含む。
【0042】
第2の用例集222に保持されている用例222bは、言い換え前用例「なかったわけではない」および言い換え後用例「あった」を含む。
【0043】
第2の用例集222に保持されている用例222cは、言い換え前用例「来ない人はいない」および言い換え後用例「全員来る」を含む。
【0044】
また、第2の用例集222に保持されている用例222dは、言い換え前用例「来なかった人はいない」および言い換え後用例「全員来た」を含む。
【0045】
図5は、図2に示す用例集リスト格納部23に格納されている用例集リストのデータ構造の一例を示す。用例集リスト格納部23に格納されている用例集リストには、用例集格納部22に格納されている複数の用例集のうち、例えば言い換えの対象文から言い換え文を生成する際に用いられる用例集を示す用例集情報(当該用例集の名称)が保持される。なお、用例集リストに保持される用例集情報は、ユーザによって指定される。
【0046】
図5に示す例では、用例集リストには、用例集情報(用例集の名称)として「用例集1」および「用例集4」が保持されている。これによれば、用例集格納部22に格納されている複数の用例集のうち、用例集情報「用例集1」および「用例集4」によって示される用例集が言い換え対象文から言い換え文を生成する際に用いられることが示される。
【0047】
図6は、図2に示す管理情報格納部24のデータ構造の一例を示す。管理情報格納部24には、言い換え生成処理と用例集格納部22に格納されている用例集との対応関係を管理するための情報が格納されている。
【0048】
図6に示すように、管理情報格納部24には、言い換え生成処理情報および用例集情報が対応づけて格納されている。言い換え生成処理情報は、言い換え前の文から当該文が言い換えられた言い換え文を生成するために実行される言い換え生成処理(の方式)を示す。用例集情報は、当該用例集情報に対応づけられている言い換え生成処理情報によって示される言い換え生成処理が実行される際に用いられる用例集を示す。
【0049】
なお、管理情報格納部24に格納される言い換え生成処理情報としては、例えば言い換え生成処理(の方式)の名称等が用いられる。また、管理情報格納部24に格納される用例集情報としては、例えば用例集の名称等が用いられる。
【0050】
図6に示す例では、管理情報格納部24には、言い換え生成処理情報「言い換え生成処理A」および用例集情報「用例集1」が対応づけて格納されている。これによれば、言い換え生成処理情報「言い換え生成処理A」によって示される言い換え生成処理が実行される際には、用例集情報「用例集1」によって示される用例集が用いられることが示される。
【0051】
管理情報格納部24には、言い換え生成処理情報「言い換え生成処理B」および用例集情報「用例集2」が対応づけて格納されている。管理情報格納部24には、言い換え生成処理情報「言い換え生成処理C」および用例集情報「用例集3」が対応づけて格納されている。また、管理情報格納部24には、言い換え生成処理情報「言い換え生成処理D」および用例集情報「用例集4」が対応づけて格納されている。
【0052】
なお、例えば用例集が対応づけられていない言い換え生成処理が存在する場合、管理情報格納部24には、当該言い換え生成処理を示す言い換え生成処理情報に対応づけて用例集情報は格納されない。
【0053】
また、管理情報格納部24においては、同一の言い換え生成処理情報に対して異なる複数の用例集情報が対応づけられていても構わない。
【0054】
次に、図7に示すフローチャートを参照して、ユーザによって指定された用例に応じて用例集が更新される際の本実施形態に係る文書処理装置30の処理手順について説明する。
【0055】
まず、図7に示す処理が実行される場合について説明する。例えば入力部31によってユーザによって指定された言い換え対象文が入力された場合、言い換え生成部33は、用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報によって示される用例集を用いて、当該用例集情報に対応づけて管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理を実行する。これにより、言い換え生成部33は、入力部31によって入力された言い換え対象文から当該言い換え対象文が言い換えられた言い換え文を生成する。なお、用例集リスト格納部23に格納されている用例集リストに複数の用例集情報が保持されている場合には、当該複数の用例集情報によって示される用例集毎に言い換え文が生成される。このように言い換え生成部33によって生成された言い換え文(言い換え対象文の言い換え文)は、出力部37によって出力される。
【0056】
このように出力部37によって出力された言い換え対象文の言い換え文がユーザにとって所望の言い換え文でない場合には、ユーザは、用例集格納部22に格納されている用例集に追加するための新規用例(ユーザにとって所望の言い換えを表す新規用例)を、例えば文書処理装置30を操作することによって指定することができる。図7に示す処理は、このようにユーザによって新規用例が指定された場合に実行される。換言すれば、図7に示す処理は、出力部37によって出力された言い換え対象文の言い換え文が例えばユーザにとって所望の言い換え文でない場合に実行される。
【0057】
上記したようにユーザによって新規用例が指定された場合、入力部31は、当該新規用例を入力する(ステップS1)。入力部31によって入力された新規用例には、言い換え前の文である原文および当該原文が言い換えられた後の文である換言文が含まれる。
【0058】
次に、用例集格納部22に格納されている用例集のうち、用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報によって示される用例集以外の用例集が特定される(ステップS2)。ここでは、上記したように用例集リストに保持されている用例集情報によって示される用例集を用いて生成された言い換え文がユーザにとって所望の言い換え文でないと判断されているため、当該用例集リストに保持されている用例集情報によって示される用例集が除外される。
【0059】
上述した図5を用いて具体的に説明すると、用例集格納部22に格納されている用例集のうち、図5に示す用例集リストに保持されている用例集情報「用例集1」および「用例集4」によって示される用例集以外の用例集(例えば、用例集情報「用例集2」および「用例集3」によって示される用例集)が特定される。
【0060】
言い換え生成処理方式管理部32は、ステップS2において特定された用例集を示す用例集情報に対応づけて管理情報格納部24に格納されている言い換え生成処理情報を特定する。
【0061】
言い換え生成部33は、ステップS2において特定された用例集を用いて、言い換え生成処理方式管理部32によって特定された言い換え生成処理情報によって示される言い換え生成処理を実行する(ステップS3)。この場合、言い換え生成部33は、入力部31によって入力された新規用例に含まれる原文に対して(つまり、当該原文を言い換えの対象となる文として)言い換え生成処理を実行する。これによって、言い換え生成部33は、入力部31によって入力された新規用例に含まれる原文から当該原文が言い換えられた言い換え文を生成する。
【0062】
次に、更新対象用例集決定部34は、言い換え生成部33によって生成された言い換え文(原文の言い換え文)に基づいて、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができたか否か、つまり、言い換え生成部33によって言い換え生成処理が実行された結果、ユーザにとって所望の言い換え文が生成されたか否かを判定する(ステップS4)。この場合、更新対象用例集決定部34は、言い換え生成部33によって生成された言い換え文が入力部31によって入力された新規用例に含まれる換言文と同一であるか否かを判定する。
【0063】
入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができない、つまり、言い換え生成部33によって生成された言い換え文が新規用例に含まれる換言文と同一でないと判定された場合(ステップS4のNO)、更新対象用例集決定部34は、当該新規用例のみを保持する新規用例集を作成する(ステップS5)。
【0064】
言い換え生成部33は、更新対象用例集決定部34によって作成された新規用例集を用いて、管理情報格納部24に格納されている言い換え生成処理情報によって示される全ての言い換え生成処理(つまり、言い換え生成処理方式管理部32および管理情報格納部24で管理されている全ての言い換え生成処理)を実行する(ステップS6)。この言い換え生成処理は、入力部31によって入力された新規用例に含まれる原文に対して実行される。
【0065】
これによって、言い換え生成部33は、実行された言い換え生成処理毎に、入力部31によって入力された新規用例に含まれる原文から当該原文が言い換えられた言い換え文を生成する。
【0066】
更新対象用例集決定部34は、ステップS6の処理が実行されることによって生成された言い換え文の各々に基づいて、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができたか否か、つまり、言い換え生成部33によって言い換え生成処理が実行された結果、ユーザにとって所望の言い換え文が生成されたか否かを判定する(ステップS7)。つまり、更新対象用例集決定部34は、ステップS6の処理が実行されることによって生成された言い換え文(の少なくとも1つ)が入力部31によって入力された新規用例に含まれる換言文と同一であるか否かを判定する。
【0067】
ここで、図8を参照して、上記したステップS6およびステップS7の処理について説明する。ここでは、管理情報格納部24には、言い換え生成処理情報「言い換え生成処理A」、「言い換え生成処理B」、「言い換え生成処理C」および「言い換え生成処理D」が格納されているものとする。
【0068】
以下、言い換え生成処理情報「言い換え生成処理A」によって示される言い換え生成処理を単に言い換え生成処理Aと称する。同様に、言い換え生成処理情報「言い換え生成処理B」によって示される言い換え生成処理を言い換え生成処理B、言い換え生成処理情報「言い換え生成処理C」によって示される言い換え生成処理を言い換え生成処理C、「言い換え生成処理情報「言い換え生成処理D」によって示される言い換え生成処理を言い換え生成処理Dと称する。
【0069】
ステップS6においては、更新対象用例集決定部34によって作成された新規用例集(新規用例のみを保持する用例集)を用いて全ての言い換え生成処理が実行される。この場合、言い換え生成処理は、新規用例の原文(新規用例に含まれる原文)に対して実行される。
【0070】
ここでは、新規用例の原文に対して言い換え生成処理A〜Dの各々が実行される。例えば新規用例の原文に対して言い換え生成処理Aが実行されることによって、当該原文が言い換えられた言い換え文(以下、言い換え文Aと表記)が生成される。また、新規用例の原文に対して言い換え生成処理Bが実行されることによって、当該原文が言い換えられた言い換え文(以下、言い換え文Bと表記)が生成される。同様に、新規用例の原文に対して言い換え生成処理Cが実行されることによって、当該原文が言い換えられた言い換え文(以下、言い換え文Cと表記)が生成される。更に、新規用例の原文に対して言い換え生成処理Dが実行されることによって、当該原文が言い換えられた言い換え文(以下、言い換え文Dと表記)が生成される。
【0071】
ステップS7においては、新規用例の換言文(新規用例に含まれる換言文)とステップS6において言い換え生成処理A〜Dの各々が実行されることによって生成された言い換え文A〜Dの各々とが比較される。
【0072】
これにより、言い換え文A〜Dの少なくとも1つが新規用例の換言文と同一である場合には、新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができたと判定される。
【0073】
再び図7に戻ると、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができた、つまり、ステップS6の処理が実行されることによって言い換え生成部33によって生成された言い換え文(のうちの少なくとも1つ)が新規用例に含まれる換言文と同一であると判定された場合(ステップS7のYES)、言い換え生成処理方式管理部32は、管理情報格納部24を参照することによって、当該言い換え文が生成された際に実行された言い換え生成処理を示す言い換え生成処理情報に対応づけられている用例集情報が存在するか否かを判定する(ステップS8)。換言すれば、言い換え生成処理方式管理部32は、新規用例に含まれる換言文と同一の言い換え文が生成された際に実行された言い換え生成処理を示す言い換え生成処理情報に対応づけられている用例集情報を管理情報格納部24から検索する。
【0074】
用例集情報が存在すると言い換え生成処理方式管理部32によって判定された場合(ステップS8のYES)、更新対象用例集決定部34は、当該用例集情報によって示される用例集を更新の対象となる用例集(更新対象用例集)として決定する。なお、新規用例に含まれる換言文と同一の言い換え文が生成された際に実行された言い換え生成処理(を示す言い換え生成処理情報に対応づけられている用例集情報)が複数存在する場合には、当該複数の用例集情報によって示される用例集のうちの任意の1つが更新対象用例集として決定されてもよいし、当該用例集のうちの全てが更新対象用例集として決定されても構わない。
【0075】
用例集更新部35は、入力部31によって入力された新規用例を、更新対象用例集決定部34によって決定された更新対象用例集に追加することによって当該用例集(の内容)を更新する(ステップS9)。
【0076】
ステップS9の処理が実行されると、用例集リスト更新部36は、用例集リスト格納部23に格納されている用例集リストに更新対象用例集決定部34によって決定された更新対象用例集を示す用例集情報を追加することによって当該用例集リストを更新する(ステップS10)。
【0077】
一方、ステップS8において用例集情報が存在しないと言い換え生成処理方式管理部32によって判定された場合、用例集更新部35は、ステップS5において更新対象用例集決定部34によって作成された新規用例集(新規用例のみを保持する用例集)を用例集格納部22に追加(格納)する(ステップS11)。
【0078】
ステップS11の処理が実行されると、用例集リスト更新部36は、更新対象用例集決定部34によって作成された新規用例集(用例集格納部22に追加された新規用例集)を示す用例集情報を用例集リスト格納部23に格納されている用例集リストに追加することによって当該用例集リストを更新する(ステップS10)。
【0079】
また、上記したステップS4において、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができる、つまり、ステップS3の処理が実行されることによって言い換え生成部33によって生成された言い換え文が新規用例に含まれる換言文と同一であると判定された場合を想定する。この場合、用例集リスト更新部36は、新規用例に含まれる換言文と同一である言い換え文が生成された際に実行された言い換え生成処理を示す言い換え生成処理情報に対応づけて管理情報格納部24に格納されている用例集情報(ステップS2において特定された用例集を示す用例集情報)を用例集リスト格納部23に格納されている用例集リストに追加することによって当該用例集リストを更新する(ステップS10)。
【0080】
なお、上記したステップS10において用例集リストが更新されることにより、この後に入力部31によってユーザによって指定された言い換え対象文が入力された場合には、当該用例集リストに追加された用例集情報によって示される用例集を用いて当該言い換え対象文の言い換え文が生成される。
【0081】
加えて、上記のように入力された新規用例に含まれる第2の文と同一の言い換え文が生成された際に、実行された言い換え生成処理を示す言い換え生成処理情報および作成された新規用例集を示す用例集情報を対応づけて管理情報格納部24に格納するステップを更に設けても良い。
【0082】
また、上記したステップS7において、入力部31によって入力された新規用例に含まれる原文を当該新規用例に含まれる換言文に言い換えることができない、つまり、ステップS6の処理が実行されることによって言い換え生成部33によって生成された言い換え文の全てが新規用例に含まれる換言文と同一でないと判定された場合には、例外処理が実行される(ステップS12)。
【0083】
ここで、例外処理について説明する。上記したように、例外処理は、既存の言い換え生成処理(つまり、管理情報格納部24に格納されている言い換え生成処理情報によって示される全ての言い換え生成処理)の中に、新規用例に含まれる原文から当該新規用例に含まれる換言文を生成することが可能な言い換え生成処理が存在しない場合に実行される処理である。
【0084】
この例外処理においては、例えば用例集格納部22に格納されている用例集に保持されている用例に含まれる言い換え前用例(言い換え前の文)と完全一致の場合に当該用例に含まれる言い換え後用例(言い換え後の文)に言い換えることによって言い換え文を生成するために実行される言い換え生成処理(の方式)が新たに用意される。つまり、この新たに用意された言い換え生成処理によれば、用例集格納部22に格納されている用例集に保持されている用例に含まれる言い換え前用例と同一の言い換え対象文が入力された場合には、当該用例に含まれる言い換え後用例が当該言い換え対象文の言い換え文として生成される。
【0085】
この新たに用意された言い換え生成処理を示す言い換え生成処理情報は、管理情報格納部24に格納(追加)される。また、管理情報格納部24においては、新たに用意された言い換え生成処理を示す言い換え生成処理情報に対して、例えばステップS5において更新対象用例集決定部34によって作成された新規用例集を示す用例集情報が対応づけられる。換言すれば、新たに用意された言い換え生成処理を示す言い換え生成処理情報に対応づけて新規用例集を示す用例集情報が管理情報格納部24に格納される。また、用例集格納部22においては、更新対象用例集決定部34によって作成された新規用例集が格納される。なお、新規用例集を示す用例集情報が用例集リスト格納部23に格納されている用例集リストに追加されても構わない。
【0086】
また、例外処理においては、例えば入力部31によって入力された新規用例を蓄積するとともに、当該新規用例のような言い換え(つまり、当該新規用例に含まれる原文を当該新規用例に含まれる換言文とするような言い換え)はできない旨(を示す情報)が出力部37によって出力されても構わない。このように蓄積された新規用例は、例えば後に新たな言い換え生成処理(の方式)を用意するような場合に活用できる。
【0087】
なお、図7に示す処理は、例えばユーザによって指定された言い換え対象文から生成された言い換え文(当該言い換え対象文の言い換え文)が当該ユーザにとって所望の言い換え文でない場合に実行されるものとして説明したが、言い換え対象文の言い換え文が生成されていない場合に実行されても構わない。この場合には、図7に示すステップS2の処理は実行されず、当該図7に示すステップS3の処理においては、用例集格納部22に格納されている全ての用例集を用いて言い換え生成処理が実行される構成であっても構わない。
【0088】
以下、管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理(つまり、言い換え生成部33によって実行される言い換え生成処理)の具体例について説明する。
【0089】
管理情報格納部24に格納されている言い換え生成処理情報によって示される言い換え生成処理には、例えば固有表現の順序の変更を目的とする言い換え生成処理(以下、第1の言い換え生成処理と表記)および二重否定の解消を目的とする言い換え生成処理(以下、第2の言い換え生成処理と表記)が含まれる。
【0090】
まず、図9を参照して、第1の言い換え生成処理が実行されることによって言い換え文が生成される場合について具体的に説明する。ここでは、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」に対して第1の言い換え生成処理が実行される場合について説明する。
【0091】
なお、管理情報格納部24には、第1の言い換え生成処理を示す言い換え生成処理情報に対応づけて上述した図3に示す第1の用例集221を示す用例集情報が格納されているものとする。つまり、第1の言い換え生成処理は、第1の用例集221を用いて実行される。
【0092】
まず、第1の言い換え生成処理においては、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」が解析される。第1の言い換え生成処理においては、この言い換え対象文の解析結果に基づいて、固有表現の種類(意味クラス)に着目し、当該言い換え対象文と類似する言い換え前用例を含む用例が第1の用例集221から選択される(ステップS21)。
【0093】
ここで、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」において、文字列「2005年」の固有表現の種類(意味クラス)は「日付け」であり、文字列「CO2排出量」の固有表現の種類は「物理量」であり、文字列「日本」の固有表現の種類は「地名」であり、文字列「35億トン」の固有表現の種類は「数量」である。一方、図3に示す第1の用例集221に保持されている用例221a〜221cのうちの用例221aに含まれる言い換え前用例おいて、文字列「2000年」の固有表現の種類は「日付け」であり、文字列「CO2排出量」の固有表現の種類は「物理量」であり、文字列「アメリカ」の固有表現の種類は「地名」であり、文字列「57億トン」の固有表現の種類は「数量」である。
【0094】
つまり、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」および第1の用例集221に保持されている用例221aに含まれる言い換え前用例においては、固有表現の種類が同一順で並んでいる。したがって、図3に示す第1の用例集221に保持されている用例221a〜221cのうちの用例221aが言い換え対象文と類似する言い換え前用例を含む用例として選択される。
【0095】
次に、第1の言い換え生成処理においては、選択された用例(以下、類似用例と表記)221aにおける固有表現の並び順が当該類似用例221aに含まれる言い換え前用例と言い換え後用例との間でどのように変化しているか(以下、差分と表記)が抽出(算出)される(ステップS22)。
【0096】
ここでは、図9に示すように、類似用例221aに含まれる言い換え前用例においてID「1」の位置の文字列「2000年(の)」は、当該類似用例221aに含まれる言い換え後用例においてはID「2」の位置に変化している。また、類似用例221aに含まれる言い換え前用例においてID「2」の位置の文字列「CO2排出量(は)」は、当該類似用例221aに含まれる言い換え後用例においてはID「1」の位置に変化している。
【0097】
次に、第1の言い換え生成処理においては、抽出された差分が言い換え対象文に適用される(ステップS23)。これによって、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」の言い換え文が生成される。
【0098】
ここでは、図9に示すように、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」のID「1」の位置の文節「2005年の」がID「2」の位置に移動され、ID「2」の位置の文節「CO2排出量は」がID「1」の位置に移動される。
【0099】
このとき、移動された文字列「2005年の」および「CO2排出量は」の付属語が差分に基づいて調整される。
【0100】
具体的に説明すると、上記した差分(つまり、類似用例221aに含まれる言い換え前用例と言い換え後用例との間における変化)においては、文節「2000年の」の付属語「の」が「が」に変化していることから、文節「2005年の」の付属語「の」は、付属語「が」に調整(変更)される。また、上記した差分においては、文節「CO2排出量は」の付属語「は」は変化していないことから、文節「CO2排出量は」の付属語「は」は変更されない。
【0101】
以上により、言い換え対象文「2005年のCO2排出量は日本が35億トンだった。」に対して、第1の用例集221を用いて第1の言い換え生成処理が実行された場合には、当該言い換え対象文の言い換え文「CO2排出量は2005年が日本で35億トンであった。」が生成される。
【0102】
次に、図10を参照して、第2の言い換え生成処理が実行されることによって言い換え文が生成される場合について具体的に説明する。ここでは、言い換え対象文「解決策を持っていなかった人はいない。」に対して第2の言い換え生成処理が実行される場合について説明する。
【0103】
なお、管理情報格納部24には、第2の言い換え生成処理を示す言い換え生成処理情報に対応づけて上述した図4に示す第2の用例集222を示す用例集情報が格納されているものとする。つまり、第2の言い換え生成処理は、第2の用例集222を用いて実行される。
【0104】
まず、第2の言い換え生成処理においては、言い換え対象文「解決策を持っていなかった人はいない。」が解析される。第2の言い換え生成処理においては、この言い換え対象文の解析結果に基づいて、第2の用例集に保持されている用例に含まれる言い換え前用例および言い換え後用例の間(つまり、言い換えの前後)で変化している部分に着目し、当該言い換え対象文と類似する言い換え前用例を含む用例が当該第2の用例集222から選択される(ステップS31)。
【0105】
ここで、図4に示す第2の用例集222に保持されている用例222a〜222dのうち、用例222dにおいては、言い換え前用例「来なかった人はいない」の「なかった人はいない」の部分が言い換えの前後で変化している。この用例222dにおける言い換え前後で変化している部分(ここでは、「なかった人はいない」)は、言い換え対象文「解決策を持っていなかった人はいない。」に含まれている。したがって、図4に示す第2の用例集222に保持されている用例222a〜222dのうちの用例222dが言い換え対象文と類似する言い換え前用例を含む用例として選択される。
【0106】
次に、第2の言い換え生成処理においては、選択された用例(以下、類似用例と表記)222dにおける表現が当該類似用例222dに含まれる言い換え前用例と言い換え後用例との間でどのように変化しているか(以下、差分と表記)が抽出(算出)される(ステップS32)。
【0107】
ここでは、図10に示すように、類似用例222dに含まれる言い換え後用例においては、文字列「全員」が先頭に挿入されている。また、類似用例222dに含まれる言い換え前用例における文字列「なかった人はいない」は、当該類似用例222dに含まれる言い換え後用例において文字列「た」に変化している。
【0108】
次に、第2の言い換え生成処理においては、抽出された差分が言い換え対象文に適用される(ステップS33)。これによって、言い換え対象文「解決策を持っていなかった人はいない。」の言い換え文が生成される。
【0109】
具体的には、図10に示すように、言い換え対象文「解決策を持っていなかった人はいない。」に対して文字列「全員」が先頭に挿入され、当該言い換え対象文「解決策を持っていなかった人はいない。」における文字列「なかった人はいない」が文字列「た」に変化される。
【0110】
これにより、言い換え対象文「解決策を持っていなかった人はいない。」に対して、第2の用例集222を用いて第2の言い換え生成処理が実行された場合には、当該言い換え対象分の言い換え文「全員解決策を持っていた。」が生成される。
【0111】
上記したように本実施形態においては、ユーザによって指定された原文および換言文を含む新規用例が入力された場合、用例集格納部22に格納されている用例集を示す用例集情報(用例集リスト格納部23に格納されている用例集リストに保持されている用例集情報以外の用例集情報)に対応づけて管理情報格納部24に格納されている言い換え生成処理情報が特定される。本実施形態においては、特定された言い換え生成処理情報によって示される言い換え生成処理が用例集格納部22に格納されている用例集を用いて実行されることによって、新規用例に含まれる原文が言い換えられた言い換え文(当該原文の言い換え文)が生成される。本実施形態においては、生成された原文の言い換え文が新規用例に含まれる換言文と同一である場合には、当該新規用例を用例集格納部22に格納されている用例集(実行された言い換え生成処理を示す言い換え生成処理情報に対応づけて管理情報格納部24に格納されている用例集情報によって示される用例集)に追加することによって当該用例集が更新される。
【0112】
また、本実施形態においては、新規用例を保持する用例集(新規用例集)を用いて、管理情報格納部24に格納されている言い換え生成処理情報によって示される全ての言い換え生成処理が実行されることによって、当該新規用例に含まれる原文の言い換え文が生成される。本実施形態においては、生成された原文の言い換え文が新規用例に含まれる換言文と同一である場合であって、当該換言文と同一の言い換え文が生成された際に実行された言い換え生成処理(情報)に対応づけて管理情報格納部24に用例集情報が格納されている場合には、当該用例集情報によって示される用例集に新規用例を追加することによって当該用例集が更新される。また、本実施形態においては、生成された原文の言い換え文が新規用例に含まれる換言文と同一である場合であって、当該換言文と同一の言い換え文が生成された際に実行された言い換え生成処理(情報)に対応づけて管理情報格納部24に用例集情報が格納されていない場合には、新規用例を保持する新規用例集が用例集格納部22に追加され、当該新規用例集を示す用例集情報が当該言い換え生成処理情報に対応づけて管理情報格納部24に格納される。
【0113】
これにより、本実施形態においては、ユーザにとって所望の言い換えを表す用例(新規用例)に応じて自動的に用例集を更新することができるため、ユーザが例えば用例集に関する知識を有していないような場合であっても、当該ユーザの負担を軽減し、かつ、当該用例集を容易に管理することが可能となる。また、本実施形態においては、自動的に新規用例が適切な用例集に追加されることから、当該用例集を用いて実行される言い換え生成処理の精度を向上させることが可能となる。
【0114】
また、本実施形態においては、新規用例集を用いて全ての言い換え生成処理が実行された場合であって、当該言い換え生成処理が実行されることによって生成された原文の言い換え文の全てが換言文と同一でない場合には、上述したような例外処理(図7に示すステップS12の処理)が実行される。これにより、本実施形態においては、全ての言い換え生成処理によっても新規用例に含まれる原文から換言文が生成されない場合であっても、当該新規用例に応じて用例集を自動的に更新することが可能となる。
【0115】
なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【符号の説明】
【0116】
10…コンピュータ、20…外部記憶装置、22…用例集格納部、23…用例集リスト格納部、24…管理情報格納部、30…文書処理装置、31…入力部、32…言い換え生成処理方式管理部(管理手段)、33…言い換え生成部、34…更新対象用例集決定部(判定手段)、35…用例集更新部、36…用例集リスト更新部、37…出力部。
【特許請求の範囲】
【請求項1】
言い換え前の文および当該言い換え前の文が言い換えられた言い換え後の文を含む用例が保持されている用例集を格納する用例集格納手段と、言い換え対象となる文から当該文が言い換えられた言い換え文を生成するために実行される言い換え生成処理を示す言い換え生成処理情報および当該言い換え生成処理が実行される際に用いられる前記用例集格納手段に格納されている用例集を示す用例集情報を対応づけて格納する管理情報格納手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、
前記コンピュータに、
ユーザによって指定された言い換え前の文である第1の文および当該第1の文が言い換えられた言い換え後の文である第2の文を含む新規用例を入力するステップと、
前記用例集格納手段に格納されている用例集を示す用例集情報に対応づけて前記管理情報格納手段に格納されている言い換え生成処理情報を特定するステップと、
前記用例集格納手段に格納されている用例集を用いて前記特定された言い換え生成処理情報によって示される言い換え生成処理を実行することによって、前記入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成するステップと、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であるかを判定するステップと、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であると判定された場合、前記入力された当該用例集を前記用例集情報が保持される用例集リストに追加することによって当該用例集を更新するステップと
を実行させるための文書処理プログラム。
【請求項2】
前記コンピュータに、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一でないと判定された場合に、前記入力された新規用例が保持された新規用例集を作成するステップと、
前記作成された新規用例集を用いて前記管理情報格納手段に格納されている言い換え生成処理情報によって示される言い換え生成処理を実行することによって、前記入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成するステップと、
前記作成された新規用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であるかを判定するステップと、
前記作成された新規用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であると判定された場合、当該言い換え生成処理情報に対応づけて前記管理情報格納手段に格納されている用例集情報が存在するかを判定するステップと、
前記用例集情報が存在すると判定された場合、前記入力された新規用例を当該用例集情報によって示される用例集に追加することによって当該用例集を更新するステップと
を更に実行させることを特徴とする請求項1記載の文書処理プログラム。
【請求項3】
前記コンピュータに、
前記用例集情報が存在しないと判定された場合に、前記作成された新規用例集を前記用例集格納手段に格納するステップと、
前記格納された新規用例集を示す用例集情報を前記用例集情報が保持される用例集リストに追加することによって当該用例集リストを更新するステップと、
前記入力された新規用例に含まれる第2の文と同一の言い換え文が生成された際に実行された言い換え生成処理を示す言い換え生成処理情報および前記作成された新規用例集を示す用例集情報を対応づけて前記管理情報格納手段に格納するステップと
を更に実行させることを特徴とする請求項2記載の文書処理プログラム。
【請求項4】
前記コンピュータに、前記作成された新規用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一でないと判定された場合、前記用例集格納手段に格納されている用例集に保持されている用例に含まれる言い換え前の文と完全一致の場合に言い換え対象となる文を当該用例に含まれる言い換え後の文に言い換えることによって言い換え文を生成するために実行される言い換え生成処理を示す言い換え生成処理情報および前記作成された新規用例集を示す用例集情報を対応づけて前記管理情報格納手段に格納し、前記作成された新規用例集を前記用例集格納手段に格納するステップを更に実行させることを特徴とする請求項2記載の文書処理プログラム。
【請求項5】
言い換え前の文および当該言い換え前の文が言い換えられた言い換え後の文を含む用例が保持されている用例集を格納する用例集格納手段と、
言い換え対象となる文から当該文が言い換えられた言い換え文を生成するために実行される言い換え生成処理を示す言い換え生成処理情報および当該言い換え生成処理が実行される際に用いられる前記用例集格納手段に格納されている用例集を示す用例集情報を対応づけて格納する管理情報格納手段と、
ユーザによって指定された言い換え前の文である第1の文および当該第1の文が言い換えられた言い換え後の文である第2の文を含む新規用例を入力する入力手段と、
前記用例集格納手段に格納されている用例集を示す用例集情報に対応づけて前記管理情報格納手段に格納されている言い換え生成処理情報を特定する管理手段と、
前記用例集格納手段に格納されている用例集を用いて前記特定された言い換え生成処理情報によって示される言い換え生成処理を実行することによって、前記入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成する生成手段と、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であるかを判定する判定手段と、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であると判定された場合、前記入力された当該用例集を前記用例集情報が保持される用例集リストに追加することによって当該用例集を更新する更新手段と
を具備することを特徴とする文書処理装置。
【請求項1】
言い換え前の文および当該言い換え前の文が言い換えられた言い換え後の文を含む用例が保持されている用例集を格納する用例集格納手段と、言い換え対象となる文から当該文が言い換えられた言い換え文を生成するために実行される言い換え生成処理を示す言い換え生成処理情報および当該言い換え生成処理が実行される際に用いられる前記用例集格納手段に格納されている用例集を示す用例集情報を対応づけて格納する管理情報格納手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行される文書処理プログラムであって、
前記コンピュータに、
ユーザによって指定された言い換え前の文である第1の文および当該第1の文が言い換えられた言い換え後の文である第2の文を含む新規用例を入力するステップと、
前記用例集格納手段に格納されている用例集を示す用例集情報に対応づけて前記管理情報格納手段に格納されている言い換え生成処理情報を特定するステップと、
前記用例集格納手段に格納されている用例集を用いて前記特定された言い換え生成処理情報によって示される言い換え生成処理を実行することによって、前記入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成するステップと、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であるかを判定するステップと、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であると判定された場合、前記入力された当該用例集を前記用例集情報が保持される用例集リストに追加することによって当該用例集を更新するステップと
を実行させるための文書処理プログラム。
【請求項2】
前記コンピュータに、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一でないと判定された場合に、前記入力された新規用例が保持された新規用例集を作成するステップと、
前記作成された新規用例集を用いて前記管理情報格納手段に格納されている言い換え生成処理情報によって示される言い換え生成処理を実行することによって、前記入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成するステップと、
前記作成された新規用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であるかを判定するステップと、
前記作成された新規用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であると判定された場合、当該言い換え生成処理情報に対応づけて前記管理情報格納手段に格納されている用例集情報が存在するかを判定するステップと、
前記用例集情報が存在すると判定された場合、前記入力された新規用例を当該用例集情報によって示される用例集に追加することによって当該用例集を更新するステップと
を更に実行させることを特徴とする請求項1記載の文書処理プログラム。
【請求項3】
前記コンピュータに、
前記用例集情報が存在しないと判定された場合に、前記作成された新規用例集を前記用例集格納手段に格納するステップと、
前記格納された新規用例集を示す用例集情報を前記用例集情報が保持される用例集リストに追加することによって当該用例集リストを更新するステップと、
前記入力された新規用例に含まれる第2の文と同一の言い換え文が生成された際に実行された言い換え生成処理を示す言い換え生成処理情報および前記作成された新規用例集を示す用例集情報を対応づけて前記管理情報格納手段に格納するステップと
を更に実行させることを特徴とする請求項2記載の文書処理プログラム。
【請求項4】
前記コンピュータに、前記作成された新規用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一でないと判定された場合、前記用例集格納手段に格納されている用例集に保持されている用例に含まれる言い換え前の文と完全一致の場合に言い換え対象となる文を当該用例に含まれる言い換え後の文に言い換えることによって言い換え文を生成するために実行される言い換え生成処理を示す言い換え生成処理情報および前記作成された新規用例集を示す用例集情報を対応づけて前記管理情報格納手段に格納し、前記作成された新規用例集を前記用例集格納手段に格納するステップを更に実行させることを特徴とする請求項2記載の文書処理プログラム。
【請求項5】
言い換え前の文および当該言い換え前の文が言い換えられた言い換え後の文を含む用例が保持されている用例集を格納する用例集格納手段と、
言い換え対象となる文から当該文が言い換えられた言い換え文を生成するために実行される言い換え生成処理を示す言い換え生成処理情報および当該言い換え生成処理が実行される際に用いられる前記用例集格納手段に格納されている用例集を示す用例集情報を対応づけて格納する管理情報格納手段と、
ユーザによって指定された言い換え前の文である第1の文および当該第1の文が言い換えられた言い換え後の文である第2の文を含む新規用例を入力する入力手段と、
前記用例集格納手段に格納されている用例集を示す用例集情報に対応づけて前記管理情報格納手段に格納されている言い換え生成処理情報を特定する管理手段と、
前記用例集格納手段に格納されている用例集を用いて前記特定された言い換え生成処理情報によって示される言い換え生成処理を実行することによって、前記入力された新規用例に含まれる第1の文が言い換えられた言い換え文を生成する生成手段と、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であるかを判定する判定手段と、
前記用例集格納手段に格納されている用例集を用いて言い換え生成処理が実行されることによって生成された言い換え文が前記入力された新規用例に含まれる第2の文と同一であると判定された場合、前記入力された当該用例集を前記用例集情報が保持される用例集リストに追加することによって当該用例集を更新する更新手段と
を具備することを特徴とする文書処理装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2011−164772(P2011−164772A)
【公開日】平成23年8月25日(2011.8.25)
【国際特許分類】
【出願番号】特願2010−24494(P2010−24494)
【出願日】平成22年2月5日(2010.2.5)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成23年8月25日(2011.8.25)
【国際特許分類】
【出願日】平成22年2月5日(2010.2.5)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]