説明

音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム

【課題】円滑な対話を促進することができる音声対話翻訳装置を提供すること。
【解決手段】利用者が発話した原言語による音声を認識して認識結果を出力する音声認識部103と、認識結果を記憶する原語記憶部121と、発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、認識結果を翻訳するか否か判断する翻訳判断部104と、翻訳判断部104が、認識結果を翻訳すると判断した場合に、認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳部105と、対訳文を対象言語による音声に合成する音声合成部107と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、入力された発話を翻訳し、翻訳結果を音声合成して出力する音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラムに関するものである。
【背景技術】
【0002】
近年、例えば、仕事人生を終えた団塊の世代が旅行や技術支援などを目的として活発に外国を訪れるようになっており、その際のコミュニケーションを支援する技術として機械翻訳が広く知られている。機械翻訳は、インターネット等で検索したWebページが外国語で記載されている場合に、そのWebページを日本語に翻訳して表示するサービスなどにも適用されている。このような機械翻訳の技術は、基本的に1文を単位として翻訳を行う。従って、Webページや、技術的な取り扱い説明書などのいわゆる書き言葉を翻訳する際に有効である。
【0003】
一方、海外旅行などで用いる機械翻訳装置では、小型化と可搬性が要求される。そこで、コーパスベースの機械翻訳技術を用いた携帯型の機械翻訳装置が製品化されている。このような製品では、旅行会話文例集などをそのまま利用してコーパスが構築されている。旅行会話文例集などに収録されている文例は、通常の対話文に比べて長い文が多い。このため、旅行会話文例集からコーパスを構築した携帯型機械翻訳装置を使用する際には、読点で終了する正しい文章を発話しないと、翻訳精度が低下するという欠点がある。翻訳精度を低下させないためには、利用者に正しい文章を話すことを強制せねばならず、操作性が悪化する原因となっている。
【0004】
また、ペン、ボタンまたはキーボードを使用して直接文章を入力する方法は、装置の小型化が困難となるため携帯型機械翻訳装置には適さない。そこで、マイク等から入力した音声を認識して文章を入力する音声認識技術の適用が期待されている。しかし、音声認識は一般にヘッドセットなど用いて雑音の少ない状態で使用しなければ認識精度が悪化するという欠点がある。
【0005】
非特許文献1では、重み付き有限状態トランスデューサを用いて、音声入力を逐次的に音声認識して書き言葉に置換することにより、認識精度を落とさずに、拡張性が高く、高速な音声認識を行う技術が提案されている。
【0006】
一般に、ヘッドセットを使用するなど音声認識の条件を整え、非特許文献1のように音声認識のアルゴリズムを改善したとしても、音声認識における誤認識の発生は完全に排除することができない。従って、携帯型機械翻訳装置に音声認識技術を適用する場合には、誤認識の発生による機械翻訳精度の悪化を防止するため、誤認識の部分を修正してから機械翻訳を実行する必要がある。
【0007】
【非特許文献1】堀、塚田、重み付有限状態トランスデューサによる音声認識、情報処理学会誌「情報処理」、Vol.45、No.10、pp.1020−1026(2004)
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、従来の機械翻訳は1文すべてが入力されることを前提としているため、すべての入力が完了するまで翻訳および音声合成が行われず、無音状態が長くなることにより対話を円滑に行うことができないという問題があった。
【0009】
また、誤認識が発生した場合は、1文入力後、表示画面に表示された全文のうち誤認識の部分まで戻って修正する必要があり、操作が煩雑になるという問題があった。非特許文献1のように逐次的に音声認識結果を出力する方法であっても、通常は1文すべてを音声認識して出力した後に、機械翻訳および音声合成が行われるため、同様の問題が生じる。
【0010】
また、修正中は無言となるとともに、対話相手の顔に視線を向けるのではなく、携帯型機械翻訳装置の表示画面に視線が集中するため、円滑な対話が大きく阻害されるという問題があった。
【0011】
本発明は、上記に鑑みてなされたものであって、円滑な対話を促進することができる音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上述した課題を解決し、目的を達成するために、本発明は、音声対話翻訳装置において、利用者が発話した翻訳の元となる原言語による音声を認識して認識結果を出力する音声認識手段と、前記音声認識手段が出力した前記認識結果を記憶する原語記憶手段と、発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、前記原語記憶手段に記憶された前記認識結果を翻訳するか否か判断する翻訳判断手段と、前記翻訳判断手段が、前記認識結果を翻訳すると判断した場合に、前記認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳手段と、前記翻訳手段が出力した前記対訳文を対象言語による音声に合成する音声合成手段と、を備えたことを特徴とする。
【0013】
また、本発明は、上記装置を実行することができる音声対話翻訳方法および音声対話翻訳プログラムである。
【発明の効果】
【0014】
本発明によれば、音声認識した原言語を、すべての発話が完了する前に、発話中の発話の一部を翻訳および音声合成することができる。このため、無音時間の発生を減少させるとともに、逐次対象言語による音声が出力されるため、円滑な対話を促進することができるという効果を奏する。
【発明を実施するための最良の形態】
【0015】
以下に添付図面を参照して、この発明にかかる音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラムの最良な実施の形態を詳細に説明する。
【0016】
(第1の実施の形態)
第1の実施の形態にかかる音声対話翻訳装置は、入力された音声を音声認識し、1つの文節が入力されたと判断されるごとに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するものである。
【0017】
なお、以下では、日本語を原言語、英語を翻訳の対象言語として翻訳処理を実行することを前提として説明するが、原言語および対象言語の組み合わせはこれに限るものではなく、あらゆる言語の組み合わせについて適用することができる。
【0018】
図1は、第1の実施の形態にかかる音声対話翻訳装置100の構成を示すブロック図である。同図に示すように、音声対話翻訳装置100は、操作入力受付部101と、音声入力受付部102と、音声認識部103と、翻訳判断部104と、翻訳部105と、表示制御部106と、音声合成部107と、音声出力制御部108と、記憶制御部109と、原語記憶部121と、翻訳判断規則記憶部122と、訳語記憶部123とを備えている。
【0019】
操作入力受付部101は、ボタンなどの操作部(図示せず)からの操作の入力を受付けるものである。例えば、利用者による発話の開始の指示である音声入力開始指示、利用者による発話の終了の指示である音声入力終了指示などの操作入力を受付ける。
【0020】
音声入力受付部102は、利用者が発話した原言語による音声を入力するためのマイクロフォンなどの音声入力部(図示せず)からの音声の入力を受付けるものである。
【0021】
音声認識部103は、操作入力受付部101が音声入力開始指示を受付けた後、音声入力受付部102が入力を受付けた音声に対して音声認識処理を実行して認識結果を出力するものである。音声認識部103により行われる音声認識処理は、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
【0022】
なお、第1の実施の形態では、1文に満たない文節などを単位として逐次音声認識処理、翻訳処理を実行するため、音声認識部103は、上述の非特許文献1に記載した方法などの高速で音声認識を実行する方法を適用する。
【0023】
翻訳判断部104は、音声認識の認識結果を解析し、翻訳判断規則記憶部122に記憶された規則を参照して、認識結果を翻訳するか否か判断するものである。第1の実施の形態では、単語、文節などの文を構成する予め定められた言語単位を入力の単位として定め、音声認識結果が予め定められた言語単位に該当するか否かを判断する。そして、言語単位の原言語が入力された場合は、当該言語単位に対応して翻訳判断規則記憶部122に定義された翻訳の規則を取得し、その方法に従い翻訳処理を実行すると判断する。
【0024】
認識結果を解析し、単語、分節などの言語単位を抽出する際には、形態素解析、構文解析などの従来から用いられているあらゆる自然言語解析処理の手法を適用することができる。
【0025】
翻訳の規則としては、入力された言語単位の認識結果に対して翻訳処理を実行する部分翻訳と、文全体を1つの単位として翻訳する全文翻訳を指定することができる。また、翻訳を実行せずに、それまでに入力された音声をすべて削除し、再度入力をし直すという規則を定めるように構成してもよい。翻訳の規則はこれらに限られるものではなく、翻訳部105が翻訳を実行する際の処理内容を規定する規則であればあらゆる規則を定めることができる。
【0026】
また、翻訳判断部104は、操作入力受付部101が受付けた操作入力を参照し、利用者による発話が終了したか否かを判断する。具体的には、操作入力受付部101が、利用者による入力終了指示を受付けた場合に、発話が終了したと判断する。また、発話が終了したと判断した場合、翻訳判断部104は、音声入力開始から音声入力終了までに入力されたすべての認識結果に対しての翻訳である全文翻訳を実行すると判断する。
【0027】
翻訳部105は、日本語による原言語文を英語による対象言語文に翻訳するものである。なお、翻訳部105より行われる翻訳処理は、一般的なトランスファ方式、用例ベース方式、統計ベース方式、中間言語方式の機械翻訳システムにおいて利用されているあらゆる方法を適用することができる。
【0028】
翻訳部105は、翻訳判断部104が部分翻訳を実行すると判断したとき、原語記憶部121に記憶されている認識結果から、翻訳を行っていない最新の認識結果を取得し、取得した認識結果の翻訳処理を行う。また、翻訳判断部104が全文翻訳を実行すると判断したとき、原語記憶部121に記憶されているすべての認識結果により構成される文に対して翻訳処理を行う。
【0029】
なお、部分翻訳の対象となる文節のみに注目して翻訳を行うと、過去に翻訳した文節の文脈に沿わない翻訳を実行する可能性がある。そこで、過去の翻訳時の意味解析結果等を記憶手段(図示せず)に保存しておき、新たな文節を翻訳する際に参照して、より正確に翻訳を実行するように構成してもよい。
【0030】
表示制御部106は、ディスプレイなどの表示部(図示せず)に対して、音声認識部103の認識結果および翻訳部105の翻訳結果である対訳文の表示を行うものである。
【0031】
音声合成部107は、翻訳部105が出力した対訳文を対象言語である英語の合成音声として出力するものである。なお、ここで行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成などを用いたテキストトゥスピーチシステムなどの一般的に利用されているあらゆる方法を適用することができる。
【0032】
音声出力制御部108は、スピーカーなど音声出力部(図示せず)に対して、音声合成部107が出力した合成音声を出力する処理を制御するものである。
【0033】
記憶制御部109は、操作入力受付部101からの指示に従い、原語記憶部121および訳語記憶部123に記憶されている原語および訳語の削除処理を行うものである。
【0034】
原語記憶部121は、音声認識部103が出力した認識結果である原言語を記憶する記憶手段であり、HDD、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【0035】
図2は、原語記憶部121のデータ構造の一例を示す説明図である。同図に示すように、原語記憶部121は、原語を一意に識別するためのIDと、音声認識部103が出力した認識結果である原語とを対応づけて格納している。原語記憶部121は、翻訳部105が翻訳処理を実行するとき、および、記憶制御部109が認識結果を削除するときに参照される。
【0036】
翻訳判断規則記憶部122は、翻訳判断部104が認識結果を翻訳するか否かを判断する際に参照する規則を記憶する記憶手段であり、HDD、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【0037】
図3は、翻訳判断規則記憶部122のデータ構造の一例を示す説明図である。同図に示すように、翻訳判断規則記憶部122は、判断の基準となる条件と、当該条件に対応した判断内容とを対応づけて格納している。翻訳判断規則記憶部122は、翻訳判断部104が、認識結果を翻訳するか否か、翻訳する場合に、部分翻訳するか、全文翻訳するかを判断する際に参照される。
【0038】
同図に示す例では、文節の種類を名詞系文節、動詞系文節、孤立文節(名詞系文節および動詞形文節以外の、呼びかけ、日時などの文節)に分類し、各文節が入力された場合には、それぞれ部分翻訳を行うという規則が定義されている。また、操作入力受付部101が入力終了指示を受付けている場合は、全文翻訳を行うという規則が定義されている。
【0039】
訳語記憶部123は、翻訳部105が出力した対訳文を記憶する記憶手段であり、HDD、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【0040】
図4は、訳語記憶部123のデータ構造の一例を示す説明図である。同図に示すように、訳語記憶部123は、訳語を一意に識別するためのIDと、翻訳部105が出力した訳語とを対応づけて格納している。
【0041】
次に、このように構成された第1の実施の形態にかかる音声対話翻訳装置100による音声対話翻訳処理について説明する。図5は、第1の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。ここで、音声対話翻訳処理とは、利用者が1つの文章を発話し、その1文を音声合成して出力するまでの処理をいう。
【0042】
まず、操作入力受付部101が、利用者により入力された音声入力開始の指示を受付ける(ステップS501)。次に、音声入力受付部102が、利用者により発話された原言語による音声の入力を受付ける(ステップS502)。
【0043】
続いて、音声認識部103が、受付けた原言語による音声の音声認識を実行し、認識結果を原語記憶部121に格納する(ステップS503)。なお、音声認識部103は、利用者の発話がすべて完了するのを待たずに、逐次音声認識処理を行って認識結果を出力する。
【0044】
次に、表示制御部106が、音声認識部103が出力した認識結果を表示画面に表示する(ステップS504)。表示画面の構成例は後述する。
【0045】
次に、操作入力受付部101が、利用者により削除ボタンが1回押下されたか否かを判断する(ステップS505)。削除ボタンが1回押下された場合は(ステップS505:YES)、記憶制御部109が、原語記憶部121に記憶されている最新の認識結果を削除し(ステップS506)、音声入力受付処理に戻って処理を繰り返す(ステップS502)。ここで、最新の認識結果とは、音声入力開始から終了までの間に音声認識され原語記憶部121に記憶されている認識結果のうち、翻訳部105による翻訳処理が行われていない認識結果をいう。
【0046】
ステップS505において、削除ボタンが1回押下されていないと判断された場合は(ステップS505:NO)、操作入力受付部101が、削除ボタンが2回続けて押下されたか否かを判断する(ステップS507)。削除ボタンが2回続けて押下された場合は(ステップS507:YES)、記憶制御部109は、原語記憶部121に記憶されているすべての認識結果を削除し(ステップS508)、音声入力受付処理に戻る。
【0047】
これにより、2回続けて削除ボタンが押下された場合は、それまでに入力された発話をすべて削除して、最初から入力し直すことが可能となる。なお、削除ボタンを押下するごとに、新しい認識結果から順に削除するように構成してもよい。
【0048】
ステップS507において、削除ボタンが2回続けて押下されていないと判断された場合は(ステップS507:NO)、翻訳判断部104が、未翻訳の認識結果を原語記憶部121から取得する(ステップS509)。
【0049】
次に、翻訳判断部104が、取得した認識結果が、翻訳判断規則記憶部122の条件部に記載されている文節に該当するか否かを判断する(ステップS510)。条件部の文節に該当する場合は(ステップS510:YES)、翻訳判断部104は、翻訳判断規則記憶部122を参照し、当該文節に対応する判断内容を取得する(ステップS511)。例えば、翻訳判断規則記憶部122に図3に示すような規則が格納されており、取得した認識結果が名詞系文節だった場合は、判断内容として「部分翻訳」が取得される。
【0050】
ステップS510において、取得した認識結果が条件部の文節に該当しないと判断した場合は(ステップS510:NO)、翻訳判断部104は、操作入力受付部101により入力終了指示が受付けられたか否かを判断する(ステップS512)。
【0051】
入力終了指示が受付けられていない場合は(ステップS512:NO)、音声入力受付処理に戻り処理を繰り返す(ステップS502)。入力終了指示が受付けられた場合は(ステップS512:YES)、翻訳判断部104は、翻訳判断規則記憶部122を参照し、入力終了指示に対応する判断内容を取得する(ステップS513)。例えば、翻訳判断規則記憶部122に図3に示すような規則が格納されている場合は、入力終了指示に対応する判断内容として「全文翻訳」が取得される。
【0052】
ステップS511またはステップS513において判断内容を取得した後、翻訳判断部104は、判断内容が部分翻訳か否かを判断する(ステップS514)。部分翻訳である場合(ステップS514:YES)、翻訳部105は、原語記憶部121から最新の認識結果を取得し、取得した認識結果に対して部分翻訳を実行する(ステップS515)。
【0053】
部分翻訳でない場合、すなわち、全文翻訳である場合は(ステップS514:NO)、翻訳部105は、原語記憶部121からすべての認識結果を読み出し、読み出した認識結果全体を1単位として全文翻訳を実行する(ステップS516)。
【0054】
次に、翻訳部105は、翻訳結果である対訳文(訳語)を訳語記憶部123に格納する(ステップS517)。続いて、表示制御部106が、翻訳部105が出力した訳語を表示画面に表示する(ステップS518)。
【0055】
次に、音声合成部107が、翻訳部105が出力した訳語を音声合成して出力する(ステップS519)。次に、音声出力制御部108が、音声合成部107により合成された訳語の音声を音声出力部であるスピーカー等に出力する(ステップS520)。
【0056】
次に、翻訳判断部104が、全文翻訳を実行したか否かを判断し(ステップS521)、全文翻訳を実行していない場合は(ステップS521:NO)、音声入力受付処理に戻り処理を繰り返す(ステップS502)。全文翻訳を実行した場合は(ステップS521:YES)、音声対話翻訳処理を終了する。
【0057】
次に、このように構成された第1の実施の形態にかかる音声対話翻訳装置100による音声対話翻訳処理の具体例について説明する。まず、従来の音声対話翻訳装置における音声対話翻訳処理の具体例について説明する。
【0058】
図6は、従来の音声対話翻訳装置において処理されるデータの一例を示す説明図である。従来の音声対話翻訳装置では、1文すべてを入力し、利用者が入力終了指示を入力した後に、全文の音声認識結果が文節単位にわかち書きされて画面に表示される。同図の画面601は、この状態における画面例を示す。入力終了直後では、画面601におけるカーソル611は、最初の文節に位置づけられている。カーソルが位置づけられている文節に対して、音声の再入力による修正を行うことができる。
【0059】
最初の文節は正しく音声認識されているため、OKボタンの押下等により、次の文節にカーソルを進める。画面602は、誤って音声認識された文節にカーソル612が位置づけられた状態を示している。
【0060】
この状態で、音声による修正入力を行うと、画面603に示すようにカーソル613で示す文節が再認識結果に置換される。再認識結果が正しければ、OKボタンの押下によりカーソルを文の最後まで進め、画面604に示すように全文翻訳の結果が表示されるとともに、翻訳結果が音声合成されて出力される。
【0061】
図7は、従来の音声対話翻訳装置において処理されるデータの別の一例を示す説明図である。同図に示す例では、誤認識のため画面701のカーソル711に不要な文節が表示されている。そこで、削除ボタン等の押下によりカーソル711の文節を削除し、画面702に示すように修正入力する文節にカーソル712が位置づけられる。
【0062】
この状態で、音声による修正入力を行うと、画面703に示すようにカーソル713で示す文節が再認識結果に置換される。再認識結果が正しければ、OKボタンの押下によりカーソルを文の最後まで進め、画面704に示すように全文翻訳の結果が表示されるとともに、翻訳結果が音声合成されて出力される。
【0063】
このように、従来の音声対話翻訳装置では、1文すべて入力した後に翻訳および音声合成が実行されるため、無音状態が長くなり、対話を円滑に行うことができない。また、音声認識の誤りが存在する場合、誤認識箇所までカーソルを移動させて再度入力させる操作が煩雑になり、操作負担が増大する。
【0064】
これに対し、第1の実施の形態にかかる音声対話翻訳装置100では、音声認識結果を逐次画面に表示し、誤認識が発生した場合はすぐに再入力して修正することができる。また、認識結果を逐次翻訳して音声合成して出力するため、無音状態の発生が低減される。
【0065】
図8から図12は、第1の実施の形態にかかる音声対話翻訳装置100における音声対話翻訳処理の具体例を示した説明図である。
【0066】
図8に示すように、利用者の音声入力が開始され(ステップS501)、“jiyuunomegamini”という音声が入力されたとする(ステップS502)。音声認識部103が入力された音声を音声認識し(ステップS503)、その結果である日本語801が画面に表示される(ステップS504)。
【0067】
日本語801は名詞系文節であるため、翻訳判断部104が、部分翻訳を実行すると判断し(ステップS509〜ステップS511)、翻訳部105が、日本語801を翻訳し(ステップS515)、翻訳結果である英語811が画面に表示されとともに(ステップS518)、翻訳結果が音声合成されて出力される(ステップS519、ステップS520)。
【0068】
同図においては、続けて利用者が“ikitainodakedo”という音声を入力すると、同様の処理により、日本語802と翻訳結果の英語812が画面に表示され、英語812が音声合成されて出力される例が示されている。また、“komukashira”という音声を入力すると、日本語803と翻訳結果の英語813が画面に表示され、英語813が音声合成されて出力される例が示されている。
【0069】
最後に、利用者が入力終了指示を入力すると、翻訳判断部104が全文翻訳を実行すると判断し(ステップS512)、翻訳部105により全文翻訳が実行される(ステップS516)。その結果、全文翻訳した結果である英語814が画面に表示される(ステップS518)。本実施例では、逐次翻訳毎に音声合成し出力する例を示しているが、必ずしもこれに限定されるものではない。例えば、全文翻訳後のみに音声合成し出力するように変更することも可能である。
【0070】
一般に、海外旅行等における対話では、完全な英語を話すのではなく、英語の単語を並べただけであっても、発話の意図が伝わる場合が多い。上述のように、第1の実施の形態にかかる音声対話翻訳装置100では、入力された日本語を、発話が完了していない不完全な状態で逐次英語に翻訳して出力しているが、このような不完全な内容であっても十分に発話意図の伝達の助けとなる。また、最終的に再度全文を翻訳し直して出力するため、確実に発話の意図を伝えることができる。
【0071】
図9および図10は、音声認識において誤認識が発生した場合の音声対話翻訳処理の具体例を示した説明図である。
【0072】
図9においては、2回目の音声認識で誤認識が発生し、誤った日本語901が表示されている例が示されている。この場合、利用者は表示された日本語901が誤っていることを確認し、削除ボタンを押下する(ステップS505)。これを受けて記憶制御部109が最新の認識結果である日本語901を原語記憶部121から削除した結果(ステップS506)、日本語902のみが画面に表示される。
【0073】
続けて利用者が“iku”という音声を入力すると、認識結果である日本語903と翻訳結果の英語913が画面に表示され、英語913が音声合成されて出力される。
【0074】
このように、常に最新の認識結果を画面で確認し、誤認識が発生した場合は、カーソルを移動することなく、簡単に誤認識した部分を訂正することができる。
【0075】
図11および図12は、音声認識において誤認識が発生した場合の音声対話翻訳処理の別の具体例を示した説明図である。
【0076】
図11においては、図9と同様に、2回目の音声認識で誤認識が発生し、誤った日本語1101が表示されている例が示されている。図11の例では、さらに再入力した音声に対しても誤認識が発生し、誤った日本語1102が表示されたことが示されている。
【0077】
ここで、利用者が入力をすべて削除して最初から発話をやり直す場合を考える。この場合、利用者は削除ボタンを2回続けて押下する(ステップS507)。これを受けて記憶制御部109が原語記憶部121に記憶されているすべての認識結果を削除するため(ステップS508)、図12の左上の画面に示すように表示画面からすべての表示が削除される。この後の再入力処理から音声合成・出力処理は同様である。
【0078】
このように、第1の実施の形態にかかる音声対話翻訳装置100では、入力された音声を音声認識し、1つの文節が入力されたと判断されるごとに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するため、無音時間の発生を減少させ、円滑な対話を促進することができる。また、誤認識の修正時の操作負担を軽減することができるため、修正などの操作に集中することによる無音時間の発生を減少させることができ、さらに円滑な対話を促進することができる。
【0079】
(第2の実施の形態)
第1の実施の形態では、翻訳判断部104は、言語的知識により翻訳すべきか否かを判断している。このため、騒音などの影響で音声認識に誤りが多いと、言語的に正しい情報を受けとれず、翻訳の判断が正常に行われない可能性が高くなる。従って、言語的知識以外の情報により、翻訳すべきか否かを判断する方法が有効となる。
【0080】
また、第1の実施の形態では日本語の発話途中であっても、逐次英語の合成音声が出力されるため、日本語と英語の発話が重なることにより混乱を招く恐れがある。
【0081】
第2の実施の形態にかかる音声対話翻訳装置は、利用者の顔の向きや表情などを検出する画像認識部からの情報を参照して利用者の顔の向きや表情などが変化したと判断したときに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するものである。
【0082】
図13は、第2の実施の形態にかかる音声対話翻訳装置1300の構成を示すブロック図である。同図に示すように、音声対話翻訳装置1300は、操作入力受付部101と、音声入力受付部102と、音声認識部103と、翻訳判断部1304と、翻訳部105と、表示制御部106と、音声合成部107と、音声出力制御部108と、記憶制御部109と、画像入力受付部1310と、画像認識部1311と、原語記憶部121と、翻訳判断規則記憶部1322と、訳語記憶部123とを備えている。
【0083】
第2の実施の形態においては、画像入力受付部1310と、画像認識部1311とを追加したこと、翻訳判断部1304の機能、および、翻訳判断規則記憶部1322の内容が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声対話翻訳装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0084】
画像入力受付部1310は、人の顔を入力するためのカメラなどの画像入力部(図示せず)からの画像の入力を受付けるものである。近年では、カメラ付き携帯電話のように画像入力部が付属した携帯端末が一般化しているため、このように携帯端末に付属している画像入力部を利用するように構成してもよい。
【0085】
画像認識部1311は、画像入力受付部1310が受付けた画像(入力画像)から、利用者の顔画像を認識するものである。図14は、画像認識部1311の構成の詳細を表すブロック図である。同図に示すように、画像認識部1311は、顔領域抽出部1401と、顔部品検出部1402と、特徴量抽出部1403とを備えている。
【0086】
顔領域抽出部1401は、入力画像から、顔領域を抽出するものである。顔部品検出部1402は、顔領域抽出部1401が抽出した顔領域の中から、目、鼻、口などの顔を構成する器官を顔部品として検出するものである。特徴量抽出部1403は、顔部品検出部1402が検出した顔部品から、顔領域を特徴づける情報である特徴量を抽出して出力するものである。
【0087】
このような画像認識部1311の処理は、例えば、福井和広、山口治「形状抽出とパターン照合の組み合わせによる顔特徴点抽出」、電子情報通信学会論文誌、Vol.J80-D-II、 No.8、pp.2170-2177(1997))に記載された方法などの、一般的に用いられているあらゆる方法を適用することができる。
【0088】
翻訳判断部1304は、画像認識部1311が出力した特徴量が変化したか否かを判断し、顔画像情報が変化したと判断した場合に、顔画像情報が変化する前までに原語記憶部121に記憶された認識結果を1単位として翻訳を実行すると判断する。
【0089】
具体的には、例えば、利用者がカメラに顔を向けることにより初めて顔画像を認識した場合には、顔領域を特徴づける特徴量が出力されることにより顔画像情報の変化を検出することができる。また、利用者の表情が例えば笑顔に変化した場合には、笑顔を特徴づける特徴量が出力されることにより顔画像情報の変化を検出することができる。顔の向きの変化も同様に検出することができる。
【0090】
翻訳判断部1304は、上述のような顔画像情報の変化を検出した場合に、顔画像情報が変化する前までに原語記憶部121に記憶された認識結果を1単位として翻訳処理を実行すると判断する。これにより、言語的情報によらず、顔情報という非言語的情報により翻訳するか否かを判断することができる。
【0091】
翻訳判断規則記憶部1322は、翻訳判断部1304が認識結果を翻訳するか否かを判断する際に参照する規則を記憶する記憶手段であり、HDD、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【0092】
図15は、翻訳判断規則記憶部1322のデータ構造の一例を示す説明図である。同図に示すように、翻訳判断規則記憶部1322は、判断の基準となる条件と、当該条件に対応した判断内容とを対応づけて格納している。
【0093】
同図に示す例では、利用者が自装置を覗きこんだことにより顔画像を検出した場合、または、顔の向きが変更された場合に、部分翻訳を行うという規則が定義されている。これは、発話の途中で音声認識の結果を確認するために画面を覗きこんだときに、それまでに入力された認識結果を部分翻訳することを表す規則である。
【0094】
また、同図に示す例では、利用者がうなずいた場合、または、利用者の表情が笑顔になった場合に、全文翻訳を行うという規則が定義されている。これは、音声認識結果が正しいことを確認したときに利用者がうなずく、または、笑顔になるという特性を利用した規則を表している。
【0095】
なお、うなずくときには同時に顔の向きが変化したと判断される可能性があるが、この場合は「うなずき」に対応する規則を優先し、全文翻訳を実行すると判断する。
【0096】
図16は、翻訳判断規則記憶部1322のデータ構造の別の例を示す説明図である。同図に示す例では、利用者自身ではなく、対話相手の顔の表情の変化を条件とする翻訳判断規則が示されている。
【0097】
例えば、利用者自身の場合と同様に、対話相手がうなずいた場合、または、対話相手の表情が笑顔になった場合に、全文翻訳を行うという規則が定義されている。これは、対話相手が逐次的に発声される音声合成を理解できていれば、うなずく、または、笑顔になることを利用した規則を表している。
【0098】
また、対話相手の頭部が傾いた場合、または、横に振られた場合に、翻訳を行わず、それまでの認識結果をすべて削除して音声入力をやり直す規則が定義されている。これは、対話相手が逐次的に発声される音声合成を理解できないので、首を傾げる、または、否定の意味で首を振ることを利用した規則を表している。
【0099】
この場合は、記憶制御部109は、翻訳判断部1304からの削除の指示に従い、原語記憶部121および訳語記憶部123に記憶されている原語および訳語をすべて削除する。
【0100】
次に、このように構成された第2の実施の形態にかかる音声対話翻訳装置1300による音声対話翻訳処理について説明する。図17は、第2の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【0101】
ステップS1701からステップS1708までの、音声入力受付処理、認識結果削除処理は、第1の実施の形態にかかる音声対話翻訳装置100におけるステップS501からステップS508までと同様の処理なので、その説明を省略する。
【0102】
ステップS1707において、削除ボタンが2回続けて押下されていないと判断された場合は(ステップS1707:NO)、翻訳判断部1304が、画像認識部1311が出力した顔画像情報である特徴量を取得する(ステップS1709)。なお、画像認識部1311による画像認識処理は、音声対話翻訳処理と並行して実行されている。画像認識処理の詳細については後述する。
【0103】
次に、翻訳判断部1304は、取得した顔画像情報の変化と一致する条件が、翻訳判断規則記憶部1322の条件に存在するか否かを判断する(ステップS1710)。一致する条件が存在しない場合は(ステップS1710:NO)、音声入力受付処理に戻り処理を繰り返す(ステップS1702)。
【0104】
一致する条件が存在する場合は(ステップS1710:YES)、翻訳判断部1304は、翻訳判断規則記憶部1322から当該条件に対応する判断内容を取得する(ステップS1711)。具体的には、例えば、翻訳判断規則記憶部1322に図15に示すような規則が定義されているとすると、利用者の顔の向きが変更されたという顔画像情報の変化を検出した場合は、「顔の向き変更」という条件に対応する判断内容である「部分翻訳」を取得する。
【0105】
ステップS1712からステップS1719までの、翻訳処理、音声合成・出力処理は、第1の実施の形態にかかる音声対話翻訳装置100におけるステップS514からステップS521までと同様の処理なので、その説明を省略する。
【0106】
次に、音声対話翻訳処理と並行して実行される画像認識処理の詳細について説明する。図18は、第2の実施の形態における画像認識処理の全体の流れを示すフローチャートである。
【0107】
まず、画像入力受付部1310が、カメラなどの画像入力部が撮影した画像の入力を受付ける(ステップS1801)。次に、顔領域抽出部1401が、受付けた画像から顔領域を抽出する(ステップS1802)。
【0108】
次に、顔部品検出部1402が、顔領域抽出部1401が抽出した顔領域から顔部品を検出する(ステップS1803)。最後に、特徴量抽出部1403が、顔領域抽出部1401が抽出した顔領域と顔部品検出部1402が検出した顔部品とから特徴量である正規化パターンを抽出して出力し(ステップS1804)、画像認識処理を終了する。
【0109】
次に、上述した画像認識処理で処理される画像および特徴量の具体例について説明する。図19は、画像認識処理の処理過程で処理される情報の一例を示す説明図である。
【0110】
同図の(a)に示すように、利用者の顔を撮影した画像から、パターンマッチングにより白い矩形で囲まれた顔領域が検出されたことが示されている。また、白い十字形で表された目、鼻、口が顔部品として検出されたことが示されている。
【0111】
同図の(b)は、検出された顔領域と顔部品を模式的に表した図である。同図の(c)に示すように、右目と左目を結んだ線分の中点Cから各部品までの距離(例えば、V2)が、右目から左目までの距離(V1)に対して一定の割合であれば、顔領域を同図の(d)に示すようなm画素×n画素の濃淡行列情報とする。特徴量抽出部1403は、このような濃淡行列情報を特徴量として抽出する。なお、このような濃淡行列情報を正規化パターンともいう。
【0112】
図20は、正規化パターンの一例を示した説明図である。図20の左側には、図19の(d)と同様にm画素×n画素の濃淡行列情報が示されている。図20の右側には、このような正規化パターンをベクトルで表現した特徴ベクトルの例が示されている。
【0113】
正規化パターンのベクトル表現(Nk)は、m×n個の画素のうちj番目の画素の明るさをijとし、濃淡行列情報の左上の画素から右下の画素へ、各画素の明るさijを並べることにより以下の(1)式のように表される。
Nk=(i1,i2,i3,・・・,im×n)・・・(1)
【0114】
このようにして抽出された正規化パターンが、予め定められた顔画像のパターンと一致すれば、顔が検出されたと判断することができる。顔の向き、顔の表情なども同様にパターンマッチングすることにより検出する。
【0115】
なお、上述の例では、翻訳部105が翻訳を実行する契機の判断のために顔画像情報を利用していたが、音声合成部107が音声合成を実行する契機の判断のために顔画像情報を利用するように構成してもよい。すなわち、音声合成部107が、翻訳判断部1304と同様の方法により、顔画像情報の変化に応じて音声合成を実行するように構成する。この際、翻訳判断部1304は、第1の実施の形態のように文節が入力された時点を契機として翻訳を実行すると判断するように構成してもよい。
【0116】
また、顔画像情報の変化を検出して翻訳を実行する代わりに、利用者が発話を行わない無音時間が予め定められた時間を超えた場合に、無音時間の開始前までに原語記憶部121に記憶された認識結果を1単位として翻訳するように構成してもよい。これにより、発話の終了を適切に判断して翻訳および音声合成を行うことができ、かつ、無音時間の発生を最小限に抑えることができるため、より円滑な対話を促進することができる。
【0117】
このように、第2の実施の形態にかかる音声対話翻訳装置1300では、利用者および対話相手の顔の向きや表情などの顔画像情報が変化したと判断したときに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するため、利用者および対話相手の心理状況や対話の状況を適切に反映した円滑な対話を促進することができる。
【0118】
また、日本語の発話を中断して顔を表示画面に向けたときに英語の音声合成を実行することができるため、日本語の発話と英語の合成音声出力が重なる可能性が低減され、より円滑な対話を促進することができる。
【0119】
(第3の実施の形態)
第3の実施の形態にかかる音声対話翻訳装置は、自装置の動作を検出する加速度センサからの情報を参照して、自装置の動作が予め定められた動作に該当すると判断したときに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するものである。
【0120】
図21は、第3の実施の形態にかかる音声対話翻訳装置2100の構成を示すブロック図である。同図に示すように、音声対話翻訳装置2100は、操作入力受付部101と、音声入力受付部102と、音声認識部103と、翻訳判断部2104と、翻訳部105と、表示制御部106と、音声合成部107と、音声出力制御部108と、記憶制御部109と、動作検出部2110と、原語記憶部121と、翻訳判断規則記憶部2122と、訳語記憶部123とを備えている。
【0121】
第3の実施の形態においては、動作検出部2110を追加したこと、翻訳判断部2104の機能、および、翻訳判断規則記憶部2122の内容が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声対話翻訳装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0122】
動作検出部2110は、自装置の動作を検出する加速度センサなどの検出手段である。最近では、加速度センサが付属した携帯端末も製品化されているため、動作検出部2110として、このように携帯端末に付属しているセンサ等を利用するように構成してもよい。
【0123】
図22は、加速度センサで検出する動作の一例を示す説明図である。同図においては、2軸加速度センサを用いる場合の例が示されている。このセンサではX軸およびY軸まわりの回転角度θおよびφを計測することができる。なお、動作検出部2110はこのような2軸の加速度センサに限られるものではなく、例えば3軸の加速度センサなどの、自装置の動作を検出できるものであればあらゆる検出手段を適用することができる。
【0124】
翻訳判断部2104は、動作検出部2110が検出した自装置の動作が予め定められた動作に該当するか否かを判断するものである。具体的には、例えば、特定方向の回転角度が予め定められた値を超えたか否か、または、予め定められた周期の周期振動に該当する動作か否かなどを判断する。
【0125】
翻訳判断部2104は、自装置の動作が予め定められた動作に該当すると判断した場合に、予め定められた動作に該当する前までに原語記憶部121に記憶された認識結果を1単位として翻訳処理を実行すると判断する。これにより、言語的情報によらず、装置の動作という非言語的情報により翻訳するか否かを判断することができる。
【0126】
翻訳判断規則記憶部2122は、翻訳判断部2104が認識結果を翻訳するか否かを判断する際に参照する規則を記憶する記憶手段であり、HDD、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【0127】
図23は、翻訳判断規則記憶部2122のデータ構造の一例を示す説明図である。同図に示すように、翻訳判断規則記憶部2122は、判断の基準となる条件と、当該条件に対応した判断内容とを対応づけて格納している。
【0128】
同図に示す例では、利用者が自装置の表示画面を視認できるように装置をX軸まわりに回転させ、その回転角度θが予め定められた閾値αより大きくなった場合に、部分翻訳を行うという規則が定義されている。これは、発話の途中で音声認識の結果を確認するために自装置を視線方向に傾けた時点でそれまでに入力された認識結果を部分的に翻訳するための規則を表している。
【0129】
また、同図に示す例では、自装置の表示画面を対話相手が視認できるように装置をY軸まわりに回転させ、その回転角度φが予め定められた閾値βより大きくなった場合に、全文翻訳を行うという規則が定義されている。これは、音声認識結果が正しいことを確認したときに利用者が対話相手に表示画面を向けるという動作に対応して、すべての認識結果を全文翻訳するための規則を表している。
【0130】
さらに、音声認識が正常に行われず、利用者が最初から入力しなおすときには、自装置を周期的に左右に振ることにより、翻訳を行わず、それまでの認識結果をすべて削除して音声入力をやり直す規則を定義してもよい。なお、動作を条件とした規則はこれらに限られるものではなく、自装置の動作に応じて翻訳処理の内容を規定する規則であればあらゆる規則を定義することができる。
【0131】
次に、このように構成された第3の実施の形態にかかる音声対話翻訳装置2100による音声対話翻訳処理について説明する。図24は、第3の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【0132】
ステップS2401からステップS2408までの、音声入力受付処理、認識結果削除処理は、第1の実施の形態にかかる音声対話翻訳装置100におけるステップS501からステップS508までと同様の処理なので、その説明を省略する。
【0133】
ステップS2407において、削除ボタンが2回続けて押下されていないと判断された場合は(ステップS2407:NO)、翻訳判断部2104が、動作検出部2110が出力した動作量を取得する(ステップS2409)。なお、動作検出部2110による動作検出処理は、音声対話翻訳処理と並行して実行されている。
【0134】
次に、翻訳判断部2104は、取得した動作量が、翻訳判断規則記憶部2122の条件を満たすか否かを判断する(ステップS2410)。一致する条件が存在しない場合は(ステップS2410:NO)、音声入力受付処理に戻り処理を繰り返す(ステップS2402)。
【0135】
一致する条件が存在する場合は(ステップS2410:YES)、翻訳判断部2104は、翻訳判断規則記憶部2122から当該条件に対応する判断内容を取得する(ステップS2411)。具体的には、例えば、翻訳判断規則記憶部2122に図23に示すような規則が定義されているとすると、利用者が音声認識結果を確認するために装置をX軸まわりに回転させ、その回転角度θが予め定められた閾値αより大きくなった場合は、「θ>α」という条件に対応する判断内容である「部分翻訳」を取得する。
【0136】
ステップS2412からステップS2419までの、翻訳処理、音声合成・出力処理は、第1の実施の形態にかかる音声対話翻訳装置100におけるステップS514からステップS521までと同様の処理なので、その説明を省略する。
【0137】
なお、上述の例では、翻訳部105が翻訳を実行する契機の判断のために動作検出部2110が検出した動作量を利用していたが、音声合成部107が音声合成を実行する契機の判断のために動作量を利用するように構成してもよい。すなわち、音声合成部107が、翻訳判断部2104と同様の方法により、検出した動作が予め定められた動作に該当するか否かを判断して音声合成を実行するように構成する。この際、翻訳判断部2104は、第1の実施の形態のように文節が入力された時点を契機として翻訳を実行すると判断するように構成してもよい。
【0138】
このように、第3の実施の形態にかかる音声対話翻訳装置2100では、自装置の動作が予め定められた動作に該当すると判断したときに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するため、対話の状況に応じて利用者が行う自然な動作やジェスチャーを反映した円滑な対話を促進することができる。
【0139】
なお、第1〜第3の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムは、ROM(Read Only Memory)等に予め組み込まれて提供される。
【0140】
第1〜第3の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0141】
さらに、第1〜第3の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、第1〜第3の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
【0142】
第1〜第3の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムは、上述した各部(操作入力受付部、音声入力受付部、音声認識部、翻訳判断部、翻訳部、表示制御部、音声合成部、音声出力制御部、記憶制御部、画像入力受付部、画像認識部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(Central Processing Unit)が上記ROMから音声対話翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【0143】
以上のように、本発明にかかる音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラムは、入力された発話を翻訳し、翻訳結果を音声合成して出力する携帯型の機械翻訳装置に適している。
【図面の簡単な説明】
【0144】
【図1】第1の実施の形態にかかる音声対話翻訳装置の構成を示すブロック図である。
【図2】原語記憶部のデータ構造の一例を示す説明図である。
【図3】翻訳判断規則記憶部のデータ構造の一例を示す説明図である。
【図4】訳語記憶部のデータ構造の一例を示す説明図である。
【図5】第1の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【図6】従来の音声対話翻訳装置において処理されるデータの一例を示す説明図である。
【図7】従来の音声対話翻訳装置において処理されるデータの別の一例を示す説明図である。
【図8】第1の実施の形態にかかる音声対話翻訳装置における音声対話翻訳処理の具体例を示した説明図である。
【図9】音声認識において誤認識が発生した場合の音声対話翻訳処理の具体例を示した説明図である。
【図10】音声認識において誤認識が発生した場合の音声対話翻訳処理の具体例を示した説明図である。
【図11】音声認識において誤認識が発生した場合の音声対話翻訳処理の別の具体例を示した説明図である。
【図12】音声認識において誤認識が発生した場合の音声対話翻訳処理の別の具体例を示した説明図である。
【図13】第2の実施の形態にかかる音声対話翻訳装置の構成を示すブロック図である。
【図14】画像認識部の構成の詳細を表すブロック図である。
【図15】翻訳判断規則記憶部のデータ構造の一例を示す説明図である。
【図16】翻訳判断規則記憶部のデータ構造の別の例を示す説明図である。
【図17】第2の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【図18】第2の実施の形態における画像認識処理の全体の流れを示すフローチャートである。
【図19】画像認識処理の処理過程で処理される情報の一例を示す説明図である。
【図20】正規化パターンの一例を示した説明図である。
【図21】第3の実施の形態にかかる音声対話翻訳装置の構成を示すブロック図である。
【図22】加速度センサで検出する動作の一例を示す説明図である。
【図23】翻訳判断規則記憶部のデータ構造の一例を示す説明図である。
【図24】第3の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【符号の説明】
【0145】
100、1300、2100 音声対話翻訳装置
101 操作入力受付部
102 音声入力受付部
103 音声認識部
104 翻訳判断部
105 翻訳部
106 表示制御部
107 音声合成部
108 音声出力制御部
109 記憶制御部
121 原語記憶部
122 翻訳判断規則記憶部
123 訳語記憶部
601、602、603、604 画面
611、612、613 カーソル
701、702、703、704 画面
711、712、713 カーソル
801、802、803 日本語
811、812、813、814 英語
901、902、903 日本語
913 英語
1101、1102 日本語
1304 翻訳判断部
1310 画像入力受付部
1311 画像認識部
1322 翻訳判断規則記憶部
1401 顔領域抽出部
1402 顔部品検出部
1403 特徴量抽出部
2104 翻訳判断部
2110 動作検出部
2122 翻訳判断規則記憶部

【特許請求の範囲】
【請求項1】
利用者が発話した翻訳の元となる原言語による音声を認識して認識結果を出力する音声認識手段と、
前記音声認識手段が出力した前記認識結果を記憶する原語記憶手段と、
発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、前記原語記憶手段に記憶された前記認識結果を翻訳するか否か判断する翻訳判断手段と、
前記翻訳判断手段が、前記認識結果を翻訳すると判断した場合に、前記認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳手段と、
前記翻訳手段が出力した前記対訳文を対象言語による音声に合成する音声合成手段と、
を備えたことを特徴とする音声対話翻訳装置。
【請求項2】
前記翻訳判断手段は、文を構成する予め定められた言語単位の前記認識結果が出力されたか否かを判断し、前記言語単位の前記認識結果が出力されたと判断した場合に、前記言語単位の前記認識結果を1単位として翻訳すると判断することを特徴とする請求項1に記載の音声対話翻訳装置。
【請求項3】
前記翻訳判断手段は、利用者が発話を行わない無音時間が予め定められた時間を越えたか否かを判断し、前記無音時間が予め定められた時間を越えた場合に、前記無音時間の開始前までに前記原語記憶手段に記憶された前記認識結果を1単位として翻訳すると判断することを特徴とする請求項1に記載の音声対話翻訳装置。
【請求項4】
利用者による発話の終了の指示を受付ける操作入力受付手段をさらに備え、
前記翻訳判断手段は、前記操作入力受付手段が利用者による発話の終了を受付けた場合に、発話の開始から終了までに前記原語記憶手段に記憶された前記認識結果を1単位として翻訳すると判断することを特徴とする請求項1に記載の音声対話翻訳装置。
【請求項5】
前記音声認識手段が出力した前記認識結果を表示手段に表示する表示制御手段と、
前記表示制御手段により表示された前記認識結果の削除の指示の入力を受付ける操作入力受付手段と、
前記操作入力受付手段が削除の指示を受付けた場合に、削除が指示された前記認識結果を前記原語記憶手段から削除する記憶制御手段と、
をさらに備えたことを特徴とする請求項1に記載の音声対話翻訳装置。
【請求項6】
撮像手段で撮像した利用者または対話相手の顔の画像の入力を受付ける画像入力受付手段と、
前記画像入力受付手段が受付けた前記顔の画像を認識し、利用者または対話相手の顔の向きや表情を含む顔画像情報を取得する画像認識手段と、をさらに備え、
前記翻訳判断手段は、前記画像認識手段が取得した前記顔画像情報が変化したか否かを判断し、前記顔画像情報が変化したと判断した場合に、前記顔画像情報が変化する前までに前記原語記憶手段に記憶された前記認識結果を1単位として翻訳すると判断することを特徴とする請求項1に記載の音声対話翻訳装置。
【請求項7】
前記音声合成手段は、前記画像認識手段が取得した前記顔画像情報が変化したか否かを判断し、前記顔画像情報が変化したと判断した場合に、前記翻訳手段が出力した前記対訳文を対象言語による音声に合成することを特徴とする請求項6に記載の音声対話翻訳装置。
【請求項8】
前記翻訳判断手段は、前記画像認識手段が取得した前記顔画像情報が変化したか否かを判断し、前記顔画像情報が変化したと判断した場合に、前記認識結果を前記原語記憶手段から削除すると判断し、
前記翻訳判断手段が、前記認識結果を前記原語記憶手段から削除すると判断した場合に、前記認識結果を前記原語記憶手段から削除する記憶制御手段をさらに備えたことを特徴とする請求項6に記載の音声対話翻訳装置。
【請求項9】
自装置の動作を検出する動作検出手段をさらに備え、
前記翻訳判断手段は、前記動作検出手段が検出した前記動作が予め定められた動作に該当するか否かを判断し、予め定められた動作に該当すると判断した場合に、予め定められた動作に該当する前までに前記原語記憶手段に記憶された前記認識結果を1単位として翻訳すると判断することを特徴とする請求項1に記載の音声対話翻訳装置。
【請求項10】
前記音声合成手段は、前記動作検出手段が検出した動作が予め定められた動作に該当するか否かを判断し、予め定められた動作に該当すると判断した場合に、前記翻訳手段が出力した前記対訳文を対象言語による音声に合成することを特徴とする請求項9に記載の音声対話翻訳装置。
【請求項11】
前記翻訳判断手段は、前記動作検出手段が検出した前記動作が予め定められた動作に該当するか否かを判断し、予め定められた動作に該当すると判断した場合に、前記認識結果を前記原語記憶手段から削除すると判断し、
前記翻訳判断手段が、前記認識結果を前記原語記憶手段から削除すると判断した場合に、前記認識結果を前記原語記憶手段から削除する記憶制御手段をさらに備えたことを特徴とする請求項6に記載の音声対話翻訳装置。
【請求項12】
利用者が発話した翻訳の元となる原言語による音声を認識して認識結果を出力する音声認識ステップと、
発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、前記音声認識ステップが出力した前記認識結果を記憶する記憶手段に記憶された前記認識結果を翻訳するか否か判断する翻訳判断ステップと、
前記翻訳判断ステップが、前記認識結果を翻訳すると判断した場合に、前記認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳ステップと、
前記翻訳ステップが出力した前記対訳文を対象言語による音声に合成する音声合成ステップと、
を備えたことを特徴とする音声対話翻訳方法。
【請求項13】
利用者が発話した翻訳の元となる原言語による音声を認識して認識結果を出力する音声認識手順と、
発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、前記音声認識手順が出力した前記認識結果を記憶する記憶手段に記憶された前記認識結果を翻訳するか否か判断する翻訳判断手順と、
前記翻訳判断手順が、前記認識結果を翻訳すると判断した場合に、前記認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳手順と、
前記翻訳手順が出力した前記対訳文を対象言語による音声に合成する音声合成手順と、
をコンピュータに実行させる音声対話翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2007−80097(P2007−80097A)
【公開日】平成19年3月29日(2007.3.29)
【国際特許分類】
【出願番号】特願2005−269057(P2005−269057)
【出願日】平成17年9月15日(2005.9.15)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】