説明

センテンス変換方法及びシステム

【課題】文章データを人間が読み取った場合、理解し易いまたは特徴のある文章データへ変換すること。
【解決手段】データ処理機11は、力文章データのセンテンスの分かち書き結果である各単語からそのシソーラスを辞書情報に基づいて抽出後、人間に対する選択肢として加工し、その複数の選択肢を通信回線上の複数のデータ受配信端末15に配信する。データ受配信端末15は、複数の選択肢を人間へ提供して選択を促し、その選択結果をデータ処理機11へ配信する。その選択結果に対し、データ処理機11は、統計処理を実施し、統計データを元に文章データの再構成を実施して複数の再構成結果を得る。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、センテンス変換方法及びシステムに係り、特に、翻訳システムにより翻訳して得られたセンテンス(文章)の表現を複数の人間の主観に基づいて変更するセンテンス変換方法及びシステムに関する。
【背景技術】
【0002】
他国言語の文章を日本語に翻訳する翻訳システムは、一般に、プログラム等により機械的に運用され、主として他国言語の文章データを文意に則して日本語として一意に絞り込む機能を持ち、シソーラス(類語)ベースのものも含め専門用語辞書を利用している。このような翻訳システムは、文章データを単語に分かち書きし、その単語を辞書を参照して、他言語上の1つの単語から日本語上の最も意味の近い1つの単語に結び付けることにより翻訳を行っている。なお、この主の翻訳システムに関する従来技術として、例えば、特許文献1等に記載された技術が知られている。
【0003】
また、前述した翻訳システムで用いる辞書としてのシソーラスシステムに関する従来技術として、例えば、特許文献2等に記載された技術が知られている。この従来技術は、類語、同義語の辞書を構築する機能であり、自然言語の解釈に当り、文章データのみに基づいて単語の多義性を解消し精度の高い単語シソーラスを構築する方法を提供している。
【特許文献1】特開2003−296327号公報
【特許文献2】特開2001−331515号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
前述した従来技術による翻訳システムは、そのシステムによる翻訳結果が、一意に提供されるが、利用者にとって必ずしも理解できるものではないという問題点を有し、翻訳に利用する辞書の語彙不足や精度から生じる翻訳処理の解決機能による文章の不自然さをも生じさせるという問題点を有している。
【0005】
本発明の目的は、前述した従来技術の問題点に鑑みてなされたものであり、翻訳結果を含めた文章データを複数の人間による判断結果を元に再構成することを可能にしたセンテンス変換方法及びシステムを提供することにある。
【課題を解決するための手段】
【0006】
本発明によれば前記目的は、センテンスの表現を変更するセンテンス変換方法において、データ処理機と複数のデータ受配信端末とが通信回線を介して接続され、前記データ処理機が、入力されたセンテンスを複数の単語に分かち書きし、分かち書きした結果による複数の単語のそれぞれについて、その単語と類似あるいは同義の単語をシソーラス情報より複数入手し、それらを選択肢として提示する候補キーワードとした候補キーワード配信データとして前記通信回線を介して前記複数のデータ受配信端末に配信し、前記データ受配信端末が、受信した候補キーワード配信データからデータ受配信端末の利用者が選択した候補キーワードを選択結果データとして前記データ処理機に前記通信回線を介して送信し、前記データ処理機が、複数のデータ受配信端末から受信した選択結果データを統計処理し、統計処理した結果に基づいてセンテンスの再構築を行うことによりセンテンスの表現を変更することにより達成される。
【0007】
また、前記目的は、センテンスの表現を変更するセンテンス変換システムにおいて、データ処理機と複数のデータ受配信端末とが通信回線を介して接続され、前記データ処理機が、入力されたセンテンスを複数の単語に分かち書きする手段と、分かち書きした結果による複数の単語のそれぞれについて、その単語と類似あるいは同義の単語をシソーラス情報より複数入手する手段と、入手した複数の単語を選択肢として提示する候補キーワードとした候補キーワード配信データとして前記通信回線を介して前記複数のデータ受配信端末に配信する手段と、複数のデータ受配信端末から受信した選択結果データを統計処理する手段と、統計処理した結果に基づいてセンテンスの再構築を行うことによりセンテンスの表現を変更する手段とを備え、前記データ受配信端末が、受信した候補キーワード配信データからデータ受配信端末の利用者が選択した候補キーワードを選択結果データとして前記データ処理機に前記通信回線を介して送信する手段を備えることにより達成される。
【発明の効果】
【0008】
本発明によれば、翻訳結果としての文章を人間の感性にとって自然と感じると推測される文章として再構築することができ、また、複数の再構築結果の中で選択数が少なかった単語を元に再構築した結果を、マニュアルや各種広告媒体へ記載し、多数の人間の興味を引く表現やキャッチコピーとしての利用することが可能になる。
【発明を実施するための最良の形態】
【0009】
以下、本発明によるセンテンス変換方法及びシステムの実施形態を図面により詳細に説明する。
【0010】
図1は本発明の一実施形態によるセンテンス変換方法を実現するセンテンス変換システムの構成を示すブロック図である。図1において、11はデータ処理機、12はDB(データベース)、13は入出力処理機、14は通信回線、15はデータ受配信端末である。
【0011】
本発明の一実施形態によるセンテンス変換方法を実現するシステムは、図1に示すように、本発明によるセンテンスの変換処理を行うデータ処理機11と、該データ処理機11から使用され、リレーショナルデータベース機能を実現しているDB12と、データ入出力のインタフェースを提供する入出力処理機13と、図示システムに参加するユーザが使用する複数のデータ受配信端末15と、入出力処理機13及びデータ受配信端末15の相互間を接続する通信回線14とにより構成される。
【0012】
前述において、データ処理機11は、本発明によるセンテンス変換を行うデータ処理機能を実現する中央処理装置(CPU)、主メモリ、外部の入出力装置との間の通信装置等を備えて構成され、本発明によるセンテンス変換のためのプログラムの実行を主として行う。DB12は、外部の入出力装置との間でのデータの授受のための通信装置を備え、シソーラスの参照、各データ受配信端末15の属性情報、統計データ及び過去の出力データ等の保存と管理とを行っている。入出力処理機13は、入力データである翻訳後の文章データの入力インタフェースの提供、出力データの画面出力や印刷等を実施する。データ受配信端末15は、データ処理機11から出力された配信データの受信、表示、選択機能の提示及び選択結果の配信を実施するものである。また、通信回線14は、電話回線、携帯電話回線、インターネット回線、専用回線等であってよい。
【0013】
図2A、図2Bは本発明の実施形態の処理で使用するデータの構成について説明する図である。データ処理機で扱うデータとしては、入力データ、候補キーワード、候補キーワード配信データ、選択結果データ、統計データ、出力データ及び未選択出力データ配信データがあり、データ受配信端末で扱うデータとしては、候補キーワード配信データ、選択結果データ及び未選択出力データ配信データがあるが、これらについては、処理動作と共に説明する。
【0014】
図3Aはデータ処理機での入力データ受け付けから候補キーワード配信までの処理動作を説明するフローチャートであり、次に、これについて説明する。この処理は、システム利用をトリガーとして開始される。
【0015】
(1)まず、データ処理機11は、入出力処理機より送信されてくる入力データを受け付ける。この入力データは、文章表現を変更したい任意のテキスト文であり、例えば、図示しない機械翻訳装置により翻訳された日本語文である。ここでは、データ例として、図2A(a)に示している「データ変換に優れた製品です。」が入力されたものとする(ステップ301)。
【0016】
(2)データ処理機11は、入力データを分析して分かち書きした単語へ分割する。説明した例では、入力データ「データ変換に優れた製品です。」が、図2A(b)に示すように、「データ」、「変換」、「優れた」、「製品」に分割される。分かち書き後のデータ分析結果である各単語の中で、DB12上に未登録の単語はDB12へ保存する(ステップ302、303)。
【0017】
(3)次に、データ処理機11は、データ分析結果による各単語と類似あるいは同義の単語をDB12内に予め蓄積されているシソーラス情報より複数入手する。この複数入手した単語は、人間への選択肢として提示する候補キーワードとして扱われる。説明している例の場合、「データ」に対する候補キーワードとして、図2A(c)に示すように、入力データに含まれる「データ」の単語を目的含め、「データ」、「数値」、「資料」、「事実」等として入手される。同様に、「変換」に対する候補キーワードとして、「変える」、「変換」、「移転」、「交換」等が入手される。他の単語についても、候補キーワードが、図2A(c)に示すように入手される(ステップ304)。
【0018】
(4)ステップ304で作成された候補キーワードは、データ受配信端末15へ配信するデータ内容であるので、次に、データ処理機11は、候補キーワードの各単語に対してデータ識別子を付加した連結した文字列を作り、さらに、候補キーワードの受信状態にあるデータ受配信端末15の中で、候補キーワードを受信して欲しい端末を定義するヘッダ部分を付加して候補キーワード配信データを作成する(ステップ305)。
【0019】
ステップ305で作成される候補キーワード配信データは、図2A(d)に示すように、システムを利用した回数を表す利用頻度識別子、過去の選択傾向を表す傾向識別子及びシステムを利用した時間を表す時間識別子からなるヘッダ部分と、データ識別子及びデータの配列とから構成される。データ処理機11は、候補キーワード配信データを作成した後、通信回線に接続されているデータ受配信端末15向けに候補キーワード配信データを配信する。データ識別子は、候補キーワードとしての各単語に付与される識別子であり、分かち書きした各単語に対応する候補の単語の群が識別可能に付与され、説明している例では、例えば、「データ」、「変換」、「優れた」、「製品」の各単語には、上位2桁に「00」を、その下位に「1」〜「4」を付与した識別子が付与される。
【0020】
ここで、前述におけるヘッダ部分に含まれる利用頻度識別子、傾向識別子、時間識別子について説明する。
【0021】
このシステムをよく利用する人は自主的な判断を降し、利用頻度の低い人は適当な判断を降すものと定義すると、利用頻度を判断の精度と捉えることが可能であり、判断の精度を決める条件として利用頻度識別子が設定される。そして、精度は低いが対象範囲を広げて多くの人からの変換結果を得たい場合、この利用頻度識別子の値を小さく設定する。また、範囲は絞られる少ない人からの変換結果しか得られないが高い精度の変換結果を得たい場合、この利用頻度識別子の値を大きく設定する。この利用頻度識別子のデータ受配信端末15での利用方法については後述するが、データ受配信端末15で配信データに含まれる利用頻度識別子の値と自己の利用頻度とを比較して配信データを受信するか否かを決定させることにより、この利用頻度識別子の閾値条件によって変換結果の精度条件を決めることが可能となる。
【0022】
傾向識別子は、データ受配信端末利用者の過去の単語選択行動において、全体平均からの偏差を元に算出されるものである。すなわち、偏差の小さい選択肢を選んだ人は一般的な判断を降し、偏差の大きい選択肢を選んだ人は感度の高いあるいは低い判断を降したと定義すると、この傾向識別子の閾値条件によって、前述した利用頻度識別子の場合と同様に、広く受け入れられる選択結果を得たい、あるいは意外性を持つ選択結果を得たいといった条件を与えることができる。また、時間識別子は、データの送信時間を示し、多数の候補キーワードデータが配信された場合にデータ受配信端末15が受信する回数を調整するため、前回の受信から所定時間経過していないデータについての候補選択の処理に参加しない等のために利用する。
【0023】
(5)データ処理機11は、ここで説明している例の場合、候補キーワード配信データとして、図2A(e)に示すようなデータを作成し、候補キーワード配信データと入力データとをデータ受配信端末15に配信し、その後、データ受配信端末15からの選択結果データの受信待ち状態となり、ここでの処理を終了する(ステップ306)。
【0024】
図3Bはデータ処理機での選択結果データの受信後の処理動作を説明するフローチャートであり、次に、これについて説明する。
【0025】
(1)データ処理機11は、一定期間の間に複数のデータ受配信端末15からの選択結果データを受信して統計データを作成する。この統計データは、図2B(a)に示すように、あるキーワードを選択した選択エージェント(データ受配信端末)数、そのキーワード、偏差傾向値により構成される。具体的には、例えば、図2B(b)に示すように、「データ」、「数値」、「資料」、「事実」の一群のキーワードのそれぞれについて、その単語を選択した選択エージェント数が、それぞれ、501、131、456、278あり、それぞれの偏差傾向値が、60.82、35.72、57.77、45.69であるという統計データが作成される(ステップ311、312)。
【0026】
(2)ステップ312の処理で作成された統計データをDB12に登録すると共に、統計データから出力データを作成する。この出力データは、統計データの偏差傾向値が平均値50に近いものから順に各単語を組み合わせたものであり、作成した順に入出力処理機13を介してデータ処理機11を扱うユーザ(本発明の実施形態によるセンテンス変換システムの管理者、運用者)に対して出力する。この出力データは、図2B(c)に示すように、優先順位と入力データの変更結果を示すテキスト文とにより構成され、具体的には、図2(d)に示すようなものとなる(ステップ313、314)。
【0027】
(3)データ処理機11を扱うユーザは、出力された複数の出力データの中から自分にふさわしい出力データを選択して取得し、この選択した出力データを出力データ選択結果としてDB12に登録する(ステップ315〜317)。
【0028】
(4)データ処理機11を扱うユーザにより選択されなかった出力データは、そのユーザにとっては不要なものであるが、この未選択出力データは、選択結果データを配信してきたデータ受配信端末の利用者のそれぞれに対して配信される。すなわち、データ処理機11は、図2B(e)に示すように、未選択出力データ1つを選択し、そのテキスト文に、この時点の新たな統計データを元に作成した各データ受配信端末の利用頻度識別子、傾向識別子を付加した未選択出力データ用配信データを作成する。具体的には、例えば、図2B(f)に示すようなものとなり、データ処理機11は、この未選択出力データ用配信データをデータ受配信端末15のそれぞれに配信する。なお、データ受配信端末15に配信する未選択出力データ用配信データのテキスト文は、未選択のものでなく、選択したテキスト文であってもよい。また、データ受配信端末15毎に、当該データ受配信端末の利用者が選択しなかったテキスト文を個別に選んで配信してもよい(ステップ318、319)。
【0029】
図4はデータ受配信端末での候補キーワード配信データ受信後の処理動作を説明するフローチャートであり、次に、これについて説明する。
【0030】
(1)データ受配信端末15は、候補キーワード配信データが受信されると、受信した候補キーワード配信データのヘッダ部の利用頻度識別子、傾向識別子及び時間識別子と、自分が保持している利用頻度識別子、傾向識別子及び時間識別子とを比較して、自端末で候補を選択すべき候補キーワード配信データの条件に適合するものであるか否かを判定し、適合するものではなかった場合、何もせずにここでの処理を終了する(ステップ401、402)。
【0031】
なお、自端末で候補を選択すべき候補キーワード配信データに適合するものであるか否かの判定は、自端末の利用頻度識別子、傾向識別子及び時間識別子の値が、候補キーワード配信データのヘッダ部の利用頻度識別子、傾向識別子及び時間識別子の値より小さい場合に不適合とし、逆の場合に適合とするというように判定する。
【0032】
(2)ステップ402の判定で、受信した候補キーワード配信データが自端末で候補を選択すべき候補キーワード配信データに適合するものであった場合、受信したデータ処理機11への入力データ、ここでは、「データ変換に優れた製品です。」と候補キーワード配信データとを端末の利用者に提示する。この場合の候補キーワード配信データの内容の表示は、識別子の上位2桁が一致する候補キーワードの群を一括りにして表示するように行う。例えば、図2A(e)に示すような候補キーワード配信データを受信した場合、まず、識別子の上位2桁が「00」である「データ」、「数値」、「資料」、「事実」が表示される(ステップ403)。
【0033】
(3)端末の利用者がその内の1つを選択すると、次の候補キーワード群、ここでは、「変える」、「変換」、「移転」、「交換」を表示する。このような選択、表示の繰り返しは、候補キーワード群の中から選択結果データの全てが得られるまで繰り返される(ステップ403、404)。
【0034】
(4)データ受配信端末は、候補キーワード群からの利用者による選択に基づいて選択結果データを作成する。この選択結果データは、図2A(f)に示すように、各データ受配信端末15を区別するエージェント識別子と利用頻度の元データとなる利用回数とによるヘッダ部と候補キーワードから選択したデータのデータ識別子とにより構成される。ここで説明している例では、図2A(g)に示しているように、エージェント識別子として、そのデータ受配信端末利用者のメールアドレスが、利用回数として“0”が設定され、データ識別子として、ここでは「003」、「013」、「024」、「032」を選択したものとしている(ステップ405)。
【0035】
(5)その後、データ受配信端末15は、前述のように作成した選択結果データをデータ処理機へ配信し、自身が行った処理に対する選択した報酬結果としてデータ処理機から返信される未選択出力データ用配信データの受信待ちとなる(ステップ406)。
【0036】
(6)データ受配信端末15は、未選択出力データ用配信データの受信待ちの後、未選択出力データ用配信データが受信されると、未選択出力データを利用者へ提示すると共に、改めてデータ処理機で決定した利用頻度識別子、傾向識別子を自データ受配信端末へ設定し直す(ステップ407)。
【0037】
図5は図3Bに示すフローのステップ312で作成する統計データについて説明する図であり、次に、これについて説明する。
【0038】
図5(a)に示す統計データの例は、図2B(b)に示した統計データ例の「データ」、「数値」、「資料」、「事実」のキーデータ群に対する統計データについて、偏差の算出値を加えたもので、この例をグラフとして示したものが図5(b)に示すようなものとなる。
【0039】
前述した本発明の実施形態における各処理は、処理プログラムとして構成することができ、この処理プログラムは、HD、DAT、FD、MO、DVD−ROM、CD−ROM等の記録媒体に格納して提供することができる。
【0040】
前述した本発明の実施形態によれば、日本語への翻訳結果として入力された文章データに含まれる単語の類語、同義語を選択肢という形式で複数の人間に提供し、各人が下した翻訳の判断の結果を得ることにより、翻訳結果としての文章を人間の感性にとって自然と感じると推測される文章として再構築することができる。
【0041】
また、前述した本発明の実施形態によれば、複数の再構築結果の中で選択数が少なかった単語を元に再構築した結果を、人間にとって普段見ない別な視点から見た表現と考え、このような結果をマニュアルや各種広告媒体へ記載し、多数の人間の興味を引く表現やキャッチコピーとしての利用することが可能になる。
【図面の簡単な説明】
【0042】
【図1】本発明の一実施形態によるセンテンス変換方法を実現するセンテンス変換システムの構成を示すブロック図である。
【図2A】本発明の実施形態の処理で使用するデータの構成について説明する図(その1)である。
【図2B】本発明の実施形態の処理で使用するデータの構成について説明する図(その2)である。
【図3A】データ処理機での入力データ受け付けから候補キーワード配信までの処理動作を説明するフローチャートである。
【図3B】データ処理機での選択結果データの受信後の処理動作を説明するフローチャートである。
【図4】データ受配信端末での候補キーワード配信データ受信後の処理動作を説明するフローチャートである。
【図5】図3Bに示すフローのステップ312で作成する統計データについて説明する図である。
【符号の説明】
【0043】
11 データ処理機
12 DB(データベース)
13 入出力処理機
14 通信回線
15 データ受配信端末

【特許請求の範囲】
【請求項1】
センテンスの表現を変更するセンテンス変換方法において、データ処理機と複数のデータ受配信端末とが通信回線を介して接続され、前記データ処理機は、入力されたセンテンスを複数の単語に分かち書きし、分かち書きした結果による複数の単語のそれぞれについて、その単語と類似あるいは同義の単語をシソーラス情報より複数入手し、それらを選択肢として提示する候補キーワードとした候補キーワード配信データとして前記通信回線を介して前記複数のデータ受配信端末に配信し、前記データ受配信端末は、受信した候補キーワード配信データからデータ受配信端末の利用者が選択した候補キーワードを選択結果データとして前記データ処理機に前記通信回線を介して送信し、前記データ処理機は、複数のデータ受配信端末から受信した選択結果データを統計処理し、統計処理した結果に基づいてセンテンスの再構築を行うことによりセンテンスの表現を変更することを特徴とするセンテンス変換方法。
【請求項2】
前記データ受配信端末に配信する候補キーワード配信データには、利用頻度識別子、傾向識別子、時間識別子が付与されており、前記データ受配信端末は、これらの識別子に基づいて、候補キーワード配信データをデータ受配信端末の利用者に提示するか否かを判定することを特徴とする請求項1記載のセンテンス変換方法。
【請求項3】
前記センテンスの再構築は、受信した選択結果データを統計処理した結果の各候補キーワードの偏差値が平均値に近いものから組み合わせて複数のセンテンスを得るように行われることを特徴とする請求項1または2記載のセンテンス変換方法。
【請求項4】
前記センテンスの再構築により得られた複数のセンテンスを、データ処理機を扱うユーザに提示し、その1つを選択させることを特徴とする請求項3記載のセンテンス変換方法。
【請求項5】
前記センテンスの再構築により得られた複数のセンテンスの一部を前記データ受配信端末に前記通信回線を介して配信することを特徴とする請求項3または4記載のセンテンス変換方法。
【請求項6】
センテンスの表現を変更するセンテンス変換システムにおいて、データ処理機と複数のデータ受配信端末とが通信回線を介して接続され、前記データ処理機は、入力されたセンテンスを複数の単語に分かち書きする手段と、分かち書きした結果による複数の単語のそれぞれについて、その単語と類似あるいは同義の単語をシソーラス情報より複数入手する手段と、入手した複数の単語を選択肢として提示する候補キーワードとした候補キーワード配信データとして前記通信回線を介して前記複数のデータ受配信端末に配信する手段と、複数のデータ受配信端末から受信した選択結果データを統計処理する手段と、統計処理した結果に基づいてセンテンスの再構築を行うことによりセンテンスの表現を変更する手段とを備え、前記データ受配信端末は、受信した候補キーワード配信データからデータ受配信端末の利用者が選択した候補キーワードを選択結果データとして前記データ処理機に前記通信回線を介して送信する手段を備えることを特徴とするセンテンス変換システム。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−65763(P2006−65763A)
【公開日】平成18年3月9日(2006.3.9)
【国際特許分類】
【出願番号】特願2004−250320(P2004−250320)
【出願日】平成16年8月30日(2004.8.30)
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【Fターム(参考)】