音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム

【課題】円滑な対話を促進することができる音声対話翻訳装置を提供すること。
【解決手段】利用者が発話した原言語による音声を認識して認識結果を出力する音声認識部１０３と、認識結果を記憶する原語記憶部１２１と、発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、認識結果を翻訳するか否か判断する翻訳判断部１０４と、翻訳判断部１０４が、認識結果を翻訳すると判断した場合に、認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳部１０５と、対訳文を対象言語による音声に合成する音声合成部１０７と、を備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、入力された発話を翻訳し、翻訳結果を音声合成して出力する音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラムに関するものである。
【背景技術】
【０００２】
近年、例えば、仕事人生を終えた団塊の世代が旅行や技術支援などを目的として活発に外国を訪れるようになっており、その際のコミュニケーションを支援する技術として機械翻訳が広く知られている。機械翻訳は、インターネット等で検索したＷｅｂページが外国語で記載されている場合に、そのＷｅｂページを日本語に翻訳して表示するサービスなどにも適用されている。このような機械翻訳の技術は、基本的に１文を単位として翻訳を行う。従って、Ｗｅｂページや、技術的な取り扱い説明書などのいわゆる書き言葉を翻訳する際に有効である。
【０００３】
一方、海外旅行などで用いる機械翻訳装置では、小型化と可搬性が要求される。そこで、コーパスベースの機械翻訳技術を用いた携帯型の機械翻訳装置が製品化されている。このような製品では、旅行会話文例集などをそのまま利用してコーパスが構築されている。旅行会話文例集などに収録されている文例は、通常の対話文に比べて長い文が多い。このため、旅行会話文例集からコーパスを構築した携帯型機械翻訳装置を使用する際には、読点で終了する正しい文章を発話しないと、翻訳精度が低下するという欠点がある。翻訳精度を低下させないためには、利用者に正しい文章を話すことを強制せねばならず、操作性が悪化する原因となっている。
【０００４】
また、ペン、ボタンまたはキーボードを使用して直接文章を入力する方法は、装置の小型化が困難となるため携帯型機械翻訳装置には適さない。そこで、マイク等から入力した音声を認識して文章を入力する音声認識技術の適用が期待されている。しかし、音声認識は一般にヘッドセットなど用いて雑音の少ない状態で使用しなければ認識精度が悪化するという欠点がある。
【０００５】
非特許文献１では、重み付き有限状態トランスデューサを用いて、音声入力を逐次的に音声認識して書き言葉に置換することにより、認識精度を落とさずに、拡張性が高く、高速な音声認識を行う技術が提案されている。
【０００６】
一般に、ヘッドセットを使用するなど音声認識の条件を整え、非特許文献１のように音声認識のアルゴリズムを改善したとしても、音声認識における誤認識の発生は完全に排除することができない。従って、携帯型機械翻訳装置に音声認識技術を適用する場合には、誤認識の発生による機械翻訳精度の悪化を防止するため、誤認識の部分を修正してから機械翻訳を実行する必要がある。
【０００７】
【非特許文献１】堀、塚田、重み付有限状態トランスデューサによる音声認識、情報処理学会誌「情報処理」、Ｖｏｌ．４５、Ｎｏ.１０、ｐｐ．１０２０−１０２６（２００４）
【発明の開示】
【発明が解決しようとする課題】
【０００８】
しかしながら、従来の機械翻訳は１文すべてが入力されることを前提としているため、すべての入力が完了するまで翻訳および音声合成が行われず、無音状態が長くなることにより対話を円滑に行うことができないという問題があった。
【０００９】
また、誤認識が発生した場合は、１文入力後、表示画面に表示された全文のうち誤認識の部分まで戻って修正する必要があり、操作が煩雑になるという問題があった。非特許文献１のように逐次的に音声認識結果を出力する方法であっても、通常は１文すべてを音声認識して出力した後に、機械翻訳および音声合成が行われるため、同様の問題が生じる。
【００１０】
また、修正中は無言となるとともに、対話相手の顔に視線を向けるのではなく、携帯型機械翻訳装置の表示画面に視線が集中するため、円滑な対話が大きく阻害されるという問題があった。
【００１１】
本発明は、上記に鑑みてなされたものであって、円滑な対話を促進することができる音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１２】
上述した課題を解決し、目的を達成するために、本発明は、音声対話翻訳装置において、利用者が発話した翻訳の元となる原言語による音声を認識して認識結果を出力する音声認識手段と、前記音声認識手段が出力した前記認識結果を記憶する原語記憶手段と、発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、前記原語記憶手段に記憶された前記認識結果を翻訳するか否か判断する翻訳判断手段と、前記翻訳判断手段が、前記認識結果を翻訳すると判断した場合に、前記認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳手段と、前記翻訳手段が出力した前記対訳文を対象言語による音声に合成する音声合成手段と、を備えたことを特徴とする。
【００１３】
また、本発明は、上記装置を実行することができる音声対話翻訳方法および音声対話翻訳プログラムである。
【発明の効果】
【００１４】
本発明によれば、音声認識した原言語を、すべての発話が完了する前に、発話中の発話の一部を翻訳および音声合成することができる。このため、無音時間の発生を減少させるとともに、逐次対象言語による音声が出力されるため、円滑な対話を促進することができるという効果を奏する。
【発明を実施するための最良の形態】
【００１５】
以下に添付図面を参照して、この発明にかかる音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラムの最良な実施の形態を詳細に説明する。
【００１６】
（第１の実施の形態）
第１の実施の形態にかかる音声対話翻訳装置は、入力された音声を音声認識し、１つの文節が入力されたと判断されるごとに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するものである。
【００１７】
なお、以下では、日本語を原言語、英語を翻訳の対象言語として翻訳処理を実行することを前提として説明するが、原言語および対象言語の組み合わせはこれに限るものではなく、あらゆる言語の組み合わせについて適用することができる。
【００１８】
図１は、第１の実施の形態にかかる音声対話翻訳装置１００の構成を示すブロック図である。同図に示すように、音声対話翻訳装置１００は、操作入力受付部１０１と、音声入力受付部１０２と、音声認識部１０３と、翻訳判断部１０４と、翻訳部１０５と、表示制御部１０６と、音声合成部１０７と、音声出力制御部１０８と、記憶制御部１０９と、原語記憶部１２１と、翻訳判断規則記憶部１２２と、訳語記憶部１２３とを備えている。
【００１９】
操作入力受付部１０１は、ボタンなどの操作部（図示せず）からの操作の入力を受付けるものである。例えば、利用者による発話の開始の指示である音声入力開始指示、利用者による発話の終了の指示である音声入力終了指示などの操作入力を受付ける。
【００２０】
音声入力受付部１０２は、利用者が発話した原言語による音声を入力するためのマイクロフォンなどの音声入力部（図示せず）からの音声の入力を受付けるものである。
【００２１】
音声認識部１０３は、操作入力受付部１０１が音声入力開始指示を受付けた後、音声入力受付部１０２が入力を受付けた音声に対して音声認識処理を実行して認識結果を出力するものである。音声認識部１０３により行われる音声認識処理は、ＬＰＣ分析、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ダイナミックプログラミング、ニューラルネットワーク、Ｎグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
【００２２】
なお、第１の実施の形態では、１文に満たない文節などを単位として逐次音声認識処理、翻訳処理を実行するため、音声認識部１０３は、上述の非特許文献１に記載した方法などの高速で音声認識を実行する方法を適用する。
【００２３】
翻訳判断部１０４は、音声認識の認識結果を解析し、翻訳判断規則記憶部１２２に記憶された規則を参照して、認識結果を翻訳するか否か判断するものである。第１の実施の形態では、単語、文節などの文を構成する予め定められた言語単位を入力の単位として定め、音声認識結果が予め定められた言語単位に該当するか否かを判断する。そして、言語単位の原言語が入力された場合は、当該言語単位に対応して翻訳判断規則記憶部１２２に定義された翻訳の規則を取得し、その方法に従い翻訳処理を実行すると判断する。
【００２４】
認識結果を解析し、単語、分節などの言語単位を抽出する際には、形態素解析、構文解析などの従来から用いられているあらゆる自然言語解析処理の手法を適用することができる。
【００２５】
翻訳の規則としては、入力された言語単位の認識結果に対して翻訳処理を実行する部分翻訳と、文全体を１つの単位として翻訳する全文翻訳を指定することができる。また、翻訳を実行せずに、それまでに入力された音声をすべて削除し、再度入力をし直すという規則を定めるように構成してもよい。翻訳の規則はこれらに限られるものではなく、翻訳部１０５が翻訳を実行する際の処理内容を規定する規則であればあらゆる規則を定めることができる。
【００２６】
また、翻訳判断部１０４は、操作入力受付部１０１が受付けた操作入力を参照し、利用者による発話が終了したか否かを判断する。具体的には、操作入力受付部１０１が、利用者による入力終了指示を受付けた場合に、発話が終了したと判断する。また、発話が終了したと判断した場合、翻訳判断部１０４は、音声入力開始から音声入力終了までに入力されたすべての認識結果に対しての翻訳である全文翻訳を実行すると判断する。
【００２７】
翻訳部１０５は、日本語による原言語文を英語による対象言語文に翻訳するものである。なお、翻訳部１０５より行われる翻訳処理は、一般的なトランスファ方式、用例ベース方式、統計ベース方式、中間言語方式の機械翻訳システムにおいて利用されているあらゆる方法を適用することができる。
【００２８】
翻訳部１０５は、翻訳判断部１０４が部分翻訳を実行すると判断したとき、原語記憶部１２１に記憶されている認識結果から、翻訳を行っていない最新の認識結果を取得し、取得した認識結果の翻訳処理を行う。また、翻訳判断部１０４が全文翻訳を実行すると判断したとき、原語記憶部１２１に記憶されているすべての認識結果により構成される文に対して翻訳処理を行う。
【００２９】
なお、部分翻訳の対象となる文節のみに注目して翻訳を行うと、過去に翻訳した文節の文脈に沿わない翻訳を実行する可能性がある。そこで、過去の翻訳時の意味解析結果等を記憶手段（図示せず）に保存しておき、新たな文節を翻訳する際に参照して、より正確に翻訳を実行するように構成してもよい。
【００３０】
表示制御部１０６は、ディスプレイなどの表示部（図示せず）に対して、音声認識部１０３の認識結果および翻訳部１０５の翻訳結果である対訳文の表示を行うものである。
【００３１】
音声合成部１０７は、翻訳部１０５が出力した対訳文を対象言語である英語の合成音声として出力するものである。なお、ここで行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成などを用いたテキストトゥスピーチシステムなどの一般的に利用されているあらゆる方法を適用することができる。
【００３２】
音声出力制御部１０８は、スピーカーなど音声出力部（図示せず）に対して、音声合成部１０７が出力した合成音声を出力する処理を制御するものである。
【００３３】
記憶制御部１０９は、操作入力受付部１０１からの指示に従い、原語記憶部１２１および訳語記憶部１２３に記憶されている原語および訳語の削除処理を行うものである。
【００３４】
原語記憶部１２１は、音声認識部１０３が出力した認識結果である原言語を記憶する記憶手段であり、ＨＤＤ、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【００３５】
図２は、原語記憶部１２１のデータ構造の一例を示す説明図である。同図に示すように、原語記憶部１２１は、原語を一意に識別するためのＩＤと、音声認識部１０３が出力した認識結果である原語とを対応づけて格納している。原語記憶部１２１は、翻訳部１０５が翻訳処理を実行するとき、および、記憶制御部１０９が認識結果を削除するときに参照される。
【００３６】
翻訳判断規則記憶部１２２は、翻訳判断部１０４が認識結果を翻訳するか否かを判断する際に参照する規則を記憶する記憶手段であり、ＨＤＤ、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【００３７】
図３は、翻訳判断規則記憶部１２２のデータ構造の一例を示す説明図である。同図に示すように、翻訳判断規則記憶部１２２は、判断の基準となる条件と、当該条件に対応した判断内容とを対応づけて格納している。翻訳判断規則記憶部１２２は、翻訳判断部１０４が、認識結果を翻訳するか否か、翻訳する場合に、部分翻訳するか、全文翻訳するかを判断する際に参照される。
【００３８】
同図に示す例では、文節の種類を名詞系文節、動詞系文節、孤立文節（名詞系文節および動詞形文節以外の、呼びかけ、日時などの文節）に分類し、各文節が入力された場合には、それぞれ部分翻訳を行うという規則が定義されている。また、操作入力受付部１０１が入力終了指示を受付けている場合は、全文翻訳を行うという規則が定義されている。
【００３９】
訳語記憶部１２３は、翻訳部１０５が出力した対訳文を記憶する記憶手段であり、ＨＤＤ、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【００４０】
図４は、訳語記憶部１２３のデータ構造の一例を示す説明図である。同図に示すように、訳語記憶部１２３は、訳語を一意に識別するためのＩＤと、翻訳部１０５が出力した訳語とを対応づけて格納している。
【００４１】
次に、このように構成された第１の実施の形態にかかる音声対話翻訳装置１００による音声対話翻訳処理について説明する。図５は、第１の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。ここで、音声対話翻訳処理とは、利用者が１つの文章を発話し、その１文を音声合成して出力するまでの処理をいう。
【００４２】
まず、操作入力受付部１０１が、利用者により入力された音声入力開始の指示を受付ける（ステップＳ５０１）。次に、音声入力受付部１０２が、利用者により発話された原言語による音声の入力を受付ける（ステップＳ５０２）。
【００４３】
続いて、音声認識部１０３が、受付けた原言語による音声の音声認識を実行し、認識結果を原語記憶部１２１に格納する（ステップＳ５０３）。なお、音声認識部１０３は、利用者の発話がすべて完了するのを待たずに、逐次音声認識処理を行って認識結果を出力する。
【００４４】
次に、表示制御部１０６が、音声認識部１０３が出力した認識結果を表示画面に表示する（ステップＳ５０４）。表示画面の構成例は後述する。
【００４５】
次に、操作入力受付部１０１が、利用者により削除ボタンが１回押下されたか否かを判断する（ステップＳ５０５）。削除ボタンが１回押下された場合は（ステップＳ５０５：ＹＥＳ）、記憶制御部１０９が、原語記憶部１２１に記憶されている最新の認識結果を削除し（ステップＳ５０６）、音声入力受付処理に戻って処理を繰り返す（ステップＳ５０２）。ここで、最新の認識結果とは、音声入力開始から終了までの間に音声認識され原語記憶部１２１に記憶されている認識結果のうち、翻訳部１０５による翻訳処理が行われていない認識結果をいう。
【００４６】
ステップＳ５０５において、削除ボタンが１回押下されていないと判断された場合は（ステップＳ５０５：ＮＯ）、操作入力受付部１０１が、削除ボタンが２回続けて押下されたか否かを判断する（ステップＳ５０７）。削除ボタンが２回続けて押下された場合は（ステップＳ５０７：ＹＥＳ）、記憶制御部１０９は、原語記憶部１２１に記憶されているすべての認識結果を削除し（ステップＳ５０８）、音声入力受付処理に戻る。
【００４７】
これにより、２回続けて削除ボタンが押下された場合は、それまでに入力された発話をすべて削除して、最初から入力し直すことが可能となる。なお、削除ボタンを押下するごとに、新しい認識結果から順に削除するように構成してもよい。
【００４８】
ステップＳ５０７において、削除ボタンが２回続けて押下されていないと判断された場合は（ステップＳ５０７：ＮＯ）、翻訳判断部１０４が、未翻訳の認識結果を原語記憶部１２１から取得する（ステップＳ５０９）。
【００４９】
次に、翻訳判断部１０４が、取得した認識結果が、翻訳判断規則記憶部１２２の条件部に記載されている文節に該当するか否かを判断する（ステップＳ５１０）。条件部の文節に該当する場合は（ステップＳ５１０：ＹＥＳ）、翻訳判断部１０４は、翻訳判断規則記憶部１２２を参照し、当該文節に対応する判断内容を取得する（ステップＳ５１１）。例えば、翻訳判断規則記憶部１２２に図３に示すような規則が格納されており、取得した認識結果が名詞系文節だった場合は、判断内容として「部分翻訳」が取得される。
【００５０】
ステップＳ５１０において、取得した認識結果が条件部の文節に該当しないと判断した場合は（ステップＳ５１０：ＮＯ）、翻訳判断部１０４は、操作入力受付部１０１により入力終了指示が受付けられたか否かを判断する（ステップＳ５１２）。
【００５１】
入力終了指示が受付けられていない場合は（ステップＳ５１２：ＮＯ）、音声入力受付処理に戻り処理を繰り返す（ステップＳ５０２）。入力終了指示が受付けられた場合は（ステップＳ５１２：ＹＥＳ）、翻訳判断部１０４は、翻訳判断規則記憶部１２２を参照し、入力終了指示に対応する判断内容を取得する（ステップＳ５１３）。例えば、翻訳判断規則記憶部１２２に図３に示すような規則が格納されている場合は、入力終了指示に対応する判断内容として「全文翻訳」が取得される。
【００５２】
ステップＳ５１１またはステップＳ５１３において判断内容を取得した後、翻訳判断部１０４は、判断内容が部分翻訳か否かを判断する（ステップＳ５１４）。部分翻訳である場合（ステップＳ５１４：ＹＥＳ）、翻訳部１０５は、原語記憶部１２１から最新の認識結果を取得し、取得した認識結果に対して部分翻訳を実行する（ステップＳ５１５）。
【００５３】
部分翻訳でない場合、すなわち、全文翻訳である場合は（ステップＳ５１４：ＮＯ）、翻訳部１０５は、原語記憶部１２１からすべての認識結果を読み出し、読み出した認識結果全体を１単位として全文翻訳を実行する（ステップＳ５１６）。
【００５４】
次に、翻訳部１０５は、翻訳結果である対訳文（訳語）を訳語記憶部１２３に格納する（ステップＳ５１７）。続いて、表示制御部１０６が、翻訳部１０５が出力した訳語を表示画面に表示する（ステップＳ５１８）。
【００５５】
次に、音声合成部１０７が、翻訳部１０５が出力した訳語を音声合成して出力する（ステップＳ５１９）。次に、音声出力制御部１０８が、音声合成部１０７により合成された訳語の音声を音声出力部であるスピーカー等に出力する（ステップＳ５２０）。
【００５６】
次に、翻訳判断部１０４が、全文翻訳を実行したか否かを判断し（ステップＳ５２１）、全文翻訳を実行していない場合は（ステップＳ５２１：ＮＯ）、音声入力受付処理に戻り処理を繰り返す（ステップＳ５０２）。全文翻訳を実行した場合は（ステップＳ５２１：ＹＥＳ）、音声対話翻訳処理を終了する。
【００５７】
次に、このように構成された第１の実施の形態にかかる音声対話翻訳装置１００による音声対話翻訳処理の具体例について説明する。まず、従来の音声対話翻訳装置における音声対話翻訳処理の具体例について説明する。
【００５８】
図６は、従来の音声対話翻訳装置において処理されるデータの一例を示す説明図である。従来の音声対話翻訳装置では、１文すべてを入力し、利用者が入力終了指示を入力した後に、全文の音声認識結果が文節単位にわかち書きされて画面に表示される。同図の画面６０１は、この状態における画面例を示す。入力終了直後では、画面６０１におけるカーソル６１１は、最初の文節に位置づけられている。カーソルが位置づけられている文節に対して、音声の再入力による修正を行うことができる。
【００５９】
最初の文節は正しく音声認識されているため、ＯＫボタンの押下等により、次の文節にカーソルを進める。画面６０２は、誤って音声認識された文節にカーソル６１２が位置づけられた状態を示している。
【００６０】
この状態で、音声による修正入力を行うと、画面６０３に示すようにカーソル６１３で示す文節が再認識結果に置換される。再認識結果が正しければ、ＯＫボタンの押下によりカーソルを文の最後まで進め、画面６０４に示すように全文翻訳の結果が表示されるとともに、翻訳結果が音声合成されて出力される。
【００６１】
図７は、従来の音声対話翻訳装置において処理されるデータの別の一例を示す説明図である。同図に示す例では、誤認識のため画面７０１のカーソル７１１に不要な文節が表示されている。そこで、削除ボタン等の押下によりカーソル７１１の文節を削除し、画面７０２に示すように修正入力する文節にカーソル７１２が位置づけられる。
【００６２】
この状態で、音声による修正入力を行うと、画面７０３に示すようにカーソル７１３で示す文節が再認識結果に置換される。再認識結果が正しければ、ＯＫボタンの押下によりカーソルを文の最後まで進め、画面７０４に示すように全文翻訳の結果が表示されるとともに、翻訳結果が音声合成されて出力される。
【００６３】
このように、従来の音声対話翻訳装置では、１文すべて入力した後に翻訳および音声合成が実行されるため、無音状態が長くなり、対話を円滑に行うことができない。また、音声認識の誤りが存在する場合、誤認識箇所までカーソルを移動させて再度入力させる操作が煩雑になり、操作負担が増大する。
【００６４】
これに対し、第１の実施の形態にかかる音声対話翻訳装置１００では、音声認識結果を逐次画面に表示し、誤認識が発生した場合はすぐに再入力して修正することができる。また、認識結果を逐次翻訳して音声合成して出力するため、無音状態の発生が低減される。
【００６５】
図８から図１２は、第１の実施の形態にかかる音声対話翻訳装置１００における音声対話翻訳処理の具体例を示した説明図である。
【００６６】
図８に示すように、利用者の音声入力が開始され（ステップＳ５０１）、“jiyuunomegamini”という音声が入力されたとする（ステップＳ５０２）。音声認識部１０３が入力された音声を音声認識し（ステップＳ５０３）、その結果である日本語８０１が画面に表示される（ステップＳ５０４）。
【００６７】
日本語８０１は名詞系文節であるため、翻訳判断部１０４が、部分翻訳を実行すると判断し（ステップＳ５０９〜ステップＳ５１１）、翻訳部１０５が、日本語８０１を翻訳し（ステップＳ５１５）、翻訳結果である英語８１１が画面に表示されとともに（ステップＳ５１８）、翻訳結果が音声合成されて出力される（ステップＳ５１９、ステップＳ５２０）。
【００６８】
同図においては、続けて利用者が“ikitainodakedo”という音声を入力すると、同様の処理により、日本語８０２と翻訳結果の英語８１２が画面に表示され、英語８１２が音声合成されて出力される例が示されている。また、“komukashira”という音声を入力すると、日本語８０３と翻訳結果の英語８１３が画面に表示され、英語８１３が音声合成されて出力される例が示されている。
【００６９】
最後に、利用者が入力終了指示を入力すると、翻訳判断部１０４が全文翻訳を実行すると判断し（ステップＳ５１２）、翻訳部１０５により全文翻訳が実行される（ステップＳ５１６）。その結果、全文翻訳した結果である英語８１４が画面に表示される（ステップＳ５１８）。本実施例では、逐次翻訳毎に音声合成し出力する例を示しているが、必ずしもこれに限定されるものではない。例えば、全文翻訳後のみに音声合成し出力するように変更することも可能である。
【００７０】
一般に、海外旅行等における対話では、完全な英語を話すのではなく、英語の単語を並べただけであっても、発話の意図が伝わる場合が多い。上述のように、第１の実施の形態にかかる音声対話翻訳装置１００では、入力された日本語を、発話が完了していない不完全な状態で逐次英語に翻訳して出力しているが、このような不完全な内容であっても十分に発話意図の伝達の助けとなる。また、最終的に再度全文を翻訳し直して出力するため、確実に発話の意図を伝えることができる。
【００７１】
図９および図１０は、音声認識において誤認識が発生した場合の音声対話翻訳処理の具体例を示した説明図である。
【００７２】
図９においては、２回目の音声認識で誤認識が発生し、誤った日本語９０１が表示されている例が示されている。この場合、利用者は表示された日本語９０１が誤っていることを確認し、削除ボタンを押下する（ステップＳ５０５）。これを受けて記憶制御部１０９が最新の認識結果である日本語９０１を原語記憶部１２１から削除した結果（ステップＳ５０６）、日本語９０２のみが画面に表示される。
【００７３】
続けて利用者が“iku”という音声を入力すると、認識結果である日本語９０３と翻訳結果の英語９１３が画面に表示され、英語９１３が音声合成されて出力される。
【００７４】
このように、常に最新の認識結果を画面で確認し、誤認識が発生した場合は、カーソルを移動することなく、簡単に誤認識した部分を訂正することができる。
【００７５】
図１１および図１２は、音声認識において誤認識が発生した場合の音声対話翻訳処理の別の具体例を示した説明図である。
【００７６】
図１１においては、図９と同様に、２回目の音声認識で誤認識が発生し、誤った日本語１１０１が表示されている例が示されている。図１１の例では、さらに再入力した音声に対しても誤認識が発生し、誤った日本語１１０２が表示されたことが示されている。
【００７７】
ここで、利用者が入力をすべて削除して最初から発話をやり直す場合を考える。この場合、利用者は削除ボタンを２回続けて押下する（ステップＳ５０７）。これを受けて記憶制御部１０９が原語記憶部１２１に記憶されているすべての認識結果を削除するため（ステップＳ５０８）、図１２の左上の画面に示すように表示画面からすべての表示が削除される。この後の再入力処理から音声合成・出力処理は同様である。
【００７８】
このように、第１の実施の形態にかかる音声対話翻訳装置１００では、入力された音声を音声認識し、１つの文節が入力されたと判断されるごとに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するため、無音時間の発生を減少させ、円滑な対話を促進することができる。また、誤認識の修正時の操作負担を軽減することができるため、修正などの操作に集中することによる無音時間の発生を減少させることができ、さらに円滑な対話を促進することができる。
【００７９】
（第２の実施の形態）
第１の実施の形態では、翻訳判断部１０４は、言語的知識により翻訳すべきか否かを判断している。このため、騒音などの影響で音声認識に誤りが多いと、言語的に正しい情報を受けとれず、翻訳の判断が正常に行われない可能性が高くなる。従って、言語的知識以外の情報により、翻訳すべきか否かを判断する方法が有効となる。
【００８０】
また、第１の実施の形態では日本語の発話途中であっても、逐次英語の合成音声が出力されるため、日本語と英語の発話が重なることにより混乱を招く恐れがある。
【００８１】
第２の実施の形態にかかる音声対話翻訳装置は、利用者の顔の向きや表情などを検出する画像認識部からの情報を参照して利用者の顔の向きや表情などが変化したと判断したときに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するものである。
【００８２】
図１３は、第２の実施の形態にかかる音声対話翻訳装置１３００の構成を示すブロック図である。同図に示すように、音声対話翻訳装置１３００は、操作入力受付部１０１と、音声入力受付部１０２と、音声認識部１０３と、翻訳判断部１３０４と、翻訳部１０５と、表示制御部１０６と、音声合成部１０７と、音声出力制御部１０８と、記憶制御部１０９と、画像入力受付部１３１０と、画像認識部１３１１と、原語記憶部１２１と、翻訳判断規則記憶部１３２２と、訳語記憶部１２３とを備えている。
【００８３】
第２の実施の形態においては、画像入力受付部１３１０と、画像認識部１３１１とを追加したこと、翻訳判断部１３０４の機能、および、翻訳判断規則記憶部１３２２の内容が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声対話翻訳装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。
【００８４】
画像入力受付部１３１０は、人の顔を入力するためのカメラなどの画像入力部（図示せず）からの画像の入力を受付けるものである。近年では、カメラ付き携帯電話のように画像入力部が付属した携帯端末が一般化しているため、このように携帯端末に付属している画像入力部を利用するように構成してもよい。
【００８５】
画像認識部１３１１は、画像入力受付部１３１０が受付けた画像（入力画像）から、利用者の顔画像を認識するものである。図１４は、画像認識部１３１１の構成の詳細を表すブロック図である。同図に示すように、画像認識部１３１１は、顔領域抽出部１４０１と、顔部品検出部１４０２と、特徴量抽出部１４０３とを備えている。
【００８６】
顔領域抽出部１４０１は、入力画像から、顔領域を抽出するものである。顔部品検出部１４０２は、顔領域抽出部１４０１が抽出した顔領域の中から、目、鼻、口などの顔を構成する器官を顔部品として検出するものである。特徴量抽出部１４０３は、顔部品検出部１４０２が検出した顔部品から、顔領域を特徴づける情報である特徴量を抽出して出力するものである。
【００８７】
このような画像認識部１３１１の処理は、例えば、福井和広、山口治「形状抽出とパターン照合の組み合わせによる顔特徴点抽出」、電子情報通信学会論文誌、Vol.J80-D-II、 No.8、pp.2170-2177(1997)）に記載された方法などの、一般的に用いられているあらゆる方法を適用することができる。
【００８８】
翻訳判断部１３０４は、画像認識部１３１１が出力した特徴量が変化したか否かを判断し、顔画像情報が変化したと判断した場合に、顔画像情報が変化する前までに原語記憶部１２１に記憶された認識結果を１単位として翻訳を実行すると判断する。
【００８９】
具体的には、例えば、利用者がカメラに顔を向けることにより初めて顔画像を認識した場合には、顔領域を特徴づける特徴量が出力されることにより顔画像情報の変化を検出することができる。また、利用者の表情が例えば笑顔に変化した場合には、笑顔を特徴づける特徴量が出力されることにより顔画像情報の変化を検出することができる。顔の向きの変化も同様に検出することができる。
【００９０】
翻訳判断部１３０４は、上述のような顔画像情報の変化を検出した場合に、顔画像情報が変化する前までに原語記憶部１２１に記憶された認識結果を１単位として翻訳処理を実行すると判断する。これにより、言語的情報によらず、顔情報という非言語的情報により翻訳するか否かを判断することができる。
【００９１】
翻訳判断規則記憶部１３２２は、翻訳判断部１３０４が認識結果を翻訳するか否かを判断する際に参照する規則を記憶する記憶手段であり、ＨＤＤ、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【００９２】
図１５は、翻訳判断規則記憶部１３２２のデータ構造の一例を示す説明図である。同図に示すように、翻訳判断規則記憶部１３２２は、判断の基準となる条件と、当該条件に対応した判断内容とを対応づけて格納している。
【００９３】
同図に示す例では、利用者が自装置を覗きこんだことにより顔画像を検出した場合、または、顔の向きが変更された場合に、部分翻訳を行うという規則が定義されている。これは、発話の途中で音声認識の結果を確認するために画面を覗きこんだときに、それまでに入力された認識結果を部分翻訳することを表す規則である。
【００９４】
また、同図に示す例では、利用者がうなずいた場合、または、利用者の表情が笑顔になった場合に、全文翻訳を行うという規則が定義されている。これは、音声認識結果が正しいことを確認したときに利用者がうなずく、または、笑顔になるという特性を利用した規則を表している。
【００９５】
なお、うなずくときには同時に顔の向きが変化したと判断される可能性があるが、この場合は「うなずき」に対応する規則を優先し、全文翻訳を実行すると判断する。
【００９６】
図１６は、翻訳判断規則記憶部１３２２のデータ構造の別の例を示す説明図である。同図に示す例では、利用者自身ではなく、対話相手の顔の表情の変化を条件とする翻訳判断規則が示されている。
【００９７】
例えば、利用者自身の場合と同様に、対話相手がうなずいた場合、または、対話相手の表情が笑顔になった場合に、全文翻訳を行うという規則が定義されている。これは、対話相手が逐次的に発声される音声合成を理解できていれば、うなずく、または、笑顔になることを利用した規則を表している。
【００９８】
また、対話相手の頭部が傾いた場合、または、横に振られた場合に、翻訳を行わず、それまでの認識結果をすべて削除して音声入力をやり直す規則が定義されている。これは、対話相手が逐次的に発声される音声合成を理解できないので、首を傾げる、または、否定の意味で首を振ることを利用した規則を表している。
【００９９】
この場合は、記憶制御部１０９は、翻訳判断部１３０４からの削除の指示に従い、原語記憶部１２１および訳語記憶部１２３に記憶されている原語および訳語をすべて削除する。
【０１００】
次に、このように構成された第２の実施の形態にかかる音声対話翻訳装置１３００による音声対話翻訳処理について説明する。図１７は、第２の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【０１０１】
ステップＳ１７０１からステップＳ１７０８までの、音声入力受付処理、認識結果削除処理は、第１の実施の形態にかかる音声対話翻訳装置１００におけるステップＳ５０１からステップＳ５０８までと同様の処理なので、その説明を省略する。
【０１０２】
ステップＳ１７０７において、削除ボタンが２回続けて押下されていないと判断された場合は（ステップＳ１７０７：ＮＯ）、翻訳判断部１３０４が、画像認識部１３１１が出力した顔画像情報である特徴量を取得する（ステップＳ１７０９）。なお、画像認識部１３１１による画像認識処理は、音声対話翻訳処理と並行して実行されている。画像認識処理の詳細については後述する。
【０１０３】
次に、翻訳判断部１３０４は、取得した顔画像情報の変化と一致する条件が、翻訳判断規則記憶部１３２２の条件に存在するか否かを判断する（ステップＳ１７１０）。一致する条件が存在しない場合は（ステップＳ１７１０：ＮＯ）、音声入力受付処理に戻り処理を繰り返す（ステップＳ１７０２）。
【０１０４】
一致する条件が存在する場合は（ステップＳ１７１０：ＹＥＳ）、翻訳判断部１３０４は、翻訳判断規則記憶部１３２２から当該条件に対応する判断内容を取得する（ステップＳ１７１１）。具体的には、例えば、翻訳判断規則記憶部１３２２に図１５に示すような規則が定義されているとすると、利用者の顔の向きが変更されたという顔画像情報の変化を検出した場合は、「顔の向き変更」という条件に対応する判断内容である「部分翻訳」を取得する。
【０１０５】
ステップＳ１７１２からステップＳ１７１９までの、翻訳処理、音声合成・出力処理は、第１の実施の形態にかかる音声対話翻訳装置１００におけるステップＳ５１４からステップＳ５２１までと同様の処理なので、その説明を省略する。
【０１０６】
次に、音声対話翻訳処理と並行して実行される画像認識処理の詳細について説明する。図１８は、第２の実施の形態における画像認識処理の全体の流れを示すフローチャートである。
【０１０７】
まず、画像入力受付部１３１０が、カメラなどの画像入力部が撮影した画像の入力を受付ける（ステップＳ１８０１）。次に、顔領域抽出部１４０１が、受付けた画像から顔領域を抽出する（ステップＳ１８０２）。
【０１０８】
次に、顔部品検出部１４０２が、顔領域抽出部１４０１が抽出した顔領域から顔部品を検出する（ステップＳ１８０３）。最後に、特徴量抽出部１４０３が、顔領域抽出部１４０１が抽出した顔領域と顔部品検出部１４０２が検出した顔部品とから特徴量である正規化パターンを抽出して出力し（ステップＳ１８０４）、画像認識処理を終了する。
【０１０９】
次に、上述した画像認識処理で処理される画像および特徴量の具体例について説明する。図１９は、画像認識処理の処理過程で処理される情報の一例を示す説明図である。
【０１１０】
同図の（ａ）に示すように、利用者の顔を撮影した画像から、パターンマッチングにより白い矩形で囲まれた顔領域が検出されたことが示されている。また、白い十字形で表された目、鼻、口が顔部品として検出されたことが示されている。
【０１１１】
同図の（ｂ）は、検出された顔領域と顔部品を模式的に表した図である。同図の（ｃ）に示すように、右目と左目を結んだ線分の中点Ｃから各部品までの距離（例えば、Ｖ２）が、右目から左目までの距離（Ｖ１）に対して一定の割合であれば、顔領域を同図の（ｄ）に示すようなｍ画素×ｎ画素の濃淡行列情報とする。特徴量抽出部１４０３は、このような濃淡行列情報を特徴量として抽出する。なお、このような濃淡行列情報を正規化パターンともいう。
【０１１２】
図２０は、正規化パターンの一例を示した説明図である。図２０の左側には、図１９の（ｄ）と同様にｍ画素×ｎ画素の濃淡行列情報が示されている。図２０の右側には、このような正規化パターンをベクトルで表現した特徴ベクトルの例が示されている。
【０１１３】
正規化パターンのベクトル表現（Ｎｋ）は、ｍ×ｎ個の画素のうちｊ番目の画素の明るさをｉｊとし、濃淡行列情報の左上の画素から右下の画素へ、各画素の明るさｉｊを並べることにより以下の（１）式のように表される。
Ｎｋ＝（ｉ１，ｉ２，ｉ３，・・・，ｉｍ×ｎ）・・・（１）
【０１１４】
このようにして抽出された正規化パターンが、予め定められた顔画像のパターンと一致すれば、顔が検出されたと判断することができる。顔の向き、顔の表情なども同様にパターンマッチングすることにより検出する。
【０１１５】
なお、上述の例では、翻訳部１０５が翻訳を実行する契機の判断のために顔画像情報を利用していたが、音声合成部１０７が音声合成を実行する契機の判断のために顔画像情報を利用するように構成してもよい。すなわち、音声合成部１０７が、翻訳判断部１３０４と同様の方法により、顔画像情報の変化に応じて音声合成を実行するように構成する。この際、翻訳判断部１３０４は、第１の実施の形態のように文節が入力された時点を契機として翻訳を実行すると判断するように構成してもよい。
【０１１６】
また、顔画像情報の変化を検出して翻訳を実行する代わりに、利用者が発話を行わない無音時間が予め定められた時間を超えた場合に、無音時間の開始前までに原語記憶部１２１に記憶された認識結果を１単位として翻訳するように構成してもよい。これにより、発話の終了を適切に判断して翻訳および音声合成を行うことができ、かつ、無音時間の発生を最小限に抑えることができるため、より円滑な対話を促進することができる。
【０１１７】
このように、第２の実施の形態にかかる音声対話翻訳装置１３００では、利用者および対話相手の顔の向きや表情などの顔画像情報が変化したと判断したときに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するため、利用者および対話相手の心理状況や対話の状況を適切に反映した円滑な対話を促進することができる。
【０１１８】
また、日本語の発話を中断して顔を表示画面に向けたときに英語の音声合成を実行することができるため、日本語の発話と英語の合成音声出力が重なる可能性が低減され、より円滑な対話を促進することができる。
【０１１９】
（第３の実施の形態）
第３の実施の形態にかかる音声対話翻訳装置は、自装置の動作を検出する加速度センサからの情報を参照して、自装置の動作が予め定められた動作に該当すると判断したときに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するものである。
【０１２０】
図２１は、第３の実施の形態にかかる音声対話翻訳装置２１００の構成を示すブロック図である。同図に示すように、音声対話翻訳装置２１００は、操作入力受付部１０１と、音声入力受付部１０２と、音声認識部１０３と、翻訳判断部２１０４と、翻訳部１０５と、表示制御部１０６と、音声合成部１０７と、音声出力制御部１０８と、記憶制御部１０９と、動作検出部２１１０と、原語記憶部１２１と、翻訳判断規則記憶部２１２２と、訳語記憶部１２３とを備えている。
【０１２１】
第３の実施の形態においては、動作検出部２１１０を追加したこと、翻訳判断部２１０４の機能、および、翻訳判断規則記憶部２１２２の内容が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声対話翻訳装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。
【０１２２】
動作検出部２１１０は、自装置の動作を検出する加速度センサなどの検出手段である。最近では、加速度センサが付属した携帯端末も製品化されているため、動作検出部２１１０として、このように携帯端末に付属しているセンサ等を利用するように構成してもよい。
【０１２３】
図２２は、加速度センサで検出する動作の一例を示す説明図である。同図においては、２軸加速度センサを用いる場合の例が示されている。このセンサではＸ軸およびＹ軸まわりの回転角度θおよびφを計測することができる。なお、動作検出部２１１０はこのような２軸の加速度センサに限られるものではなく、例えば３軸の加速度センサなどの、自装置の動作を検出できるものであればあらゆる検出手段を適用することができる。
【０１２４】
翻訳判断部２１０４は、動作検出部２１１０が検出した自装置の動作が予め定められた動作に該当するか否かを判断するものである。具体的には、例えば、特定方向の回転角度が予め定められた値を超えたか否か、または、予め定められた周期の周期振動に該当する動作か否かなどを判断する。
【０１２５】
翻訳判断部２１０４は、自装置の動作が予め定められた動作に該当すると判断した場合に、予め定められた動作に該当する前までに原語記憶部１２１に記憶された認識結果を１単位として翻訳処理を実行すると判断する。これにより、言語的情報によらず、装置の動作という非言語的情報により翻訳するか否かを判断することができる。
【０１２６】
翻訳判断規則記憶部２１２２は、翻訳判断部２１０４が認識結果を翻訳するか否かを判断する際に参照する規則を記憶する記憶手段であり、ＨＤＤ、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【０１２７】
図２３は、翻訳判断規則記憶部２１２２のデータ構造の一例を示す説明図である。同図に示すように、翻訳判断規則記憶部２１２２は、判断の基準となる条件と、当該条件に対応した判断内容とを対応づけて格納している。
【０１２８】
同図に示す例では、利用者が自装置の表示画面を視認できるように装置をＸ軸まわりに回転させ、その回転角度θが予め定められた閾値αより大きくなった場合に、部分翻訳を行うという規則が定義されている。これは、発話の途中で音声認識の結果を確認するために自装置を視線方向に傾けた時点でそれまでに入力された認識結果を部分的に翻訳するための規則を表している。
【０１２９】
また、同図に示す例では、自装置の表示画面を対話相手が視認できるように装置をＹ軸まわりに回転させ、その回転角度φが予め定められた閾値βより大きくなった場合に、全文翻訳を行うという規則が定義されている。これは、音声認識結果が正しいことを確認したときに利用者が対話相手に表示画面を向けるという動作に対応して、すべての認識結果を全文翻訳するための規則を表している。
【０１３０】
さらに、音声認識が正常に行われず、利用者が最初から入力しなおすときには、自装置を周期的に左右に振ることにより、翻訳を行わず、それまでの認識結果をすべて削除して音声入力をやり直す規則を定義してもよい。なお、動作を条件とした規則はこれらに限られるものではなく、自装置の動作に応じて翻訳処理の内容を規定する規則であればあらゆる規則を定義することができる。
【０１３１】
次に、このように構成された第３の実施の形態にかかる音声対話翻訳装置２１００による音声対話翻訳処理について説明する。図２４は、第３の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【０１３２】
ステップＳ２４０１からステップＳ２４０８までの、音声入力受付処理、認識結果削除処理は、第１の実施の形態にかかる音声対話翻訳装置１００におけるステップＳ５０１からステップＳ５０８までと同様の処理なので、その説明を省略する。
【０１３３】
ステップＳ２４０７において、削除ボタンが２回続けて押下されていないと判断された場合は（ステップＳ２４０７：ＮＯ）、翻訳判断部２１０４が、動作検出部２１１０が出力した動作量を取得する（ステップＳ２４０９）。なお、動作検出部２１１０による動作検出処理は、音声対話翻訳処理と並行して実行されている。
【０１３４】
次に、翻訳判断部２１０４は、取得した動作量が、翻訳判断規則記憶部２１２２の条件を満たすか否かを判断する（ステップＳ２４１０）。一致する条件が存在しない場合は（ステップＳ２４１０：ＮＯ）、音声入力受付処理に戻り処理を繰り返す（ステップＳ２４０２）。
【０１３５】
一致する条件が存在する場合は（ステップＳ２４１０：ＹＥＳ）、翻訳判断部２１０４は、翻訳判断規則記憶部２１２２から当該条件に対応する判断内容を取得する（ステップＳ２４１１）。具体的には、例えば、翻訳判断規則記憶部２１２２に図２３に示すような規則が定義されているとすると、利用者が音声認識結果を確認するために装置をＸ軸まわりに回転させ、その回転角度θが予め定められた閾値αより大きくなった場合は、「θ＞α」という条件に対応する判断内容である「部分翻訳」を取得する。
【０１３６】
ステップＳ２４１２からステップＳ２４１９までの、翻訳処理、音声合成・出力処理は、第１の実施の形態にかかる音声対話翻訳装置１００におけるステップＳ５１４からステップＳ５２１までと同様の処理なので、その説明を省略する。
【０１３７】
なお、上述の例では、翻訳部１０５が翻訳を実行する契機の判断のために動作検出部２１１０が検出した動作量を利用していたが、音声合成部１０７が音声合成を実行する契機の判断のために動作量を利用するように構成してもよい。すなわち、音声合成部１０７が、翻訳判断部２１０４と同様の方法により、検出した動作が予め定められた動作に該当するか否かを判断して音声合成を実行するように構成する。この際、翻訳判断部２１０４は、第１の実施の形態のように文節が入力された時点を契機として翻訳を実行すると判断するように構成してもよい。
【０１３８】
このように、第３の実施の形態にかかる音声対話翻訳装置２１００では、自装置の動作が予め定められた動作に該当すると判断したときに、認識結果を翻訳するとともに翻訳結果である対訳文を音声合成して出力するため、対話の状況に応じて利用者が行う自然な動作やジェスチャーを反映した円滑な対話を促進することができる。
【０１３９】
なお、第１〜第３の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムは、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等に予め組み込まれて提供される。
【０１４０】
第１〜第３の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【０１４１】
さらに、第１〜第３の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、第１〜第３の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
【０１４２】
第１〜第３の実施の形態にかかる音声対話翻訳装置で実行される音声対話翻訳プログラムは、上述した各部（操作入力受付部、音声入力受付部、音声認識部、翻訳判断部、翻訳部、表示制御部、音声合成部、音声出力制御部、記憶制御部、画像入力受付部、画像認識部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が上記ＲＯＭから音声対話翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【０１４３】
以上のように、本発明にかかる音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラムは、入力された発話を翻訳し、翻訳結果を音声合成して出力する携帯型の機械翻訳装置に適している。
【図面の簡単な説明】
【０１４４】
【図１】第１の実施の形態にかかる音声対話翻訳装置の構成を示すブロック図である。
【図２】原語記憶部のデータ構造の一例を示す説明図である。
【図３】翻訳判断規則記憶部のデータ構造の一例を示す説明図である。
【図４】訳語記憶部のデータ構造の一例を示す説明図である。
【図５】第１の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【図６】従来の音声対話翻訳装置において処理されるデータの一例を示す説明図である。
【図７】従来の音声対話翻訳装置において処理されるデータの別の一例を示す説明図である。
【図８】第１の実施の形態にかかる音声対話翻訳装置における音声対話翻訳処理の具体例を示した説明図である。
【図９】音声認識において誤認識が発生した場合の音声対話翻訳処理の具体例を示した説明図である。
【図１０】音声認識において誤認識が発生した場合の音声対話翻訳処理の具体例を示した説明図である。
【図１１】音声認識において誤認識が発生した場合の音声対話翻訳処理の別の具体例を示した説明図である。
【図１２】音声認識において誤認識が発生した場合の音声対話翻訳処理の別の具体例を示した説明図である。
【図１３】第２の実施の形態にかかる音声対話翻訳装置の構成を示すブロック図である。
【図１４】画像認識部の構成の詳細を表すブロック図である。
【図１５】翻訳判断規則記憶部のデータ構造の一例を示す説明図である。
【図１６】翻訳判断規則記憶部のデータ構造の別の例を示す説明図である。
【図１７】第２の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【図１８】第２の実施の形態における画像認識処理の全体の流れを示すフローチャートである。
【図１９】画像認識処理の処理過程で処理される情報の一例を示す説明図である。
【図２０】正規化パターンの一例を示した説明図である。
【図２１】第３の実施の形態にかかる音声対話翻訳装置の構成を示すブロック図である。
【図２２】加速度センサで検出する動作の一例を示す説明図である。
【図２３】翻訳判断規則記憶部のデータ構造の一例を示す説明図である。
【図２４】第３の実施の形態における音声対話翻訳処理の全体の流れを示すフローチャートである。
【符号の説明】
【０１４５】
１００、１３００、２１００音声対話翻訳装置
１０１操作入力受付部
１０２音声入力受付部
１０３音声認識部
１０４翻訳判断部
１０５翻訳部
１０６表示制御部
１０７音声合成部
１０８音声出力制御部
１０９記憶制御部
１２１原語記憶部
１２２翻訳判断規則記憶部
１２３訳語記憶部
６０１、６０２、６０３、６０４画面
６１１、６１２、６１３カーソル
７０１、７０２、７０３、７０４画面
７１１、７１２、７１３カーソル
８０１、８０２、８０３日本語
８１１、８１２、８１３、８１４英語
９０１、９０２、９０３日本語
９１３英語
１１０１、１１０２日本語
１３０４翻訳判断部
１３１０画像入力受付部
１３１１画像認識部
１３２２翻訳判断規則記憶部
１４０１顔領域抽出部
１４０２顔部品検出部
１４０３特徴量抽出部
２１０４翻訳判断部
２１１０動作検出部
２１２２翻訳判断規則記憶部

【特許請求の範囲】
【請求項１】
利用者が発話した翻訳の元となる原言語による音声を認識して認識結果を出力する音声認識手段と、
前記音声認識手段が出力した前記認識結果を記憶する原語記憶手段と、
発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、前記原語記憶手段に記憶された前記認識結果を翻訳するか否か判断する翻訳判断手段と、
前記翻訳判断手段が、前記認識結果を翻訳すると判断した場合に、前記認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳手段と、
前記翻訳手段が出力した前記対訳文を対象言語による音声に合成する音声合成手段と、
を備えたことを特徴とする音声対話翻訳装置。
【請求項２】
前記翻訳判断手段は、文を構成する予め定められた言語単位の前記認識結果が出力されたか否かを判断し、前記言語単位の前記認識結果が出力されたと判断した場合に、前記言語単位の前記認識結果を１単位として翻訳すると判断することを特徴とする請求項１に記載の音声対話翻訳装置。
【請求項３】
前記翻訳判断手段は、利用者が発話を行わない無音時間が予め定められた時間を越えたか否かを判断し、前記無音時間が予め定められた時間を越えた場合に、前記無音時間の開始前までに前記原語記憶手段に記憶された前記認識結果を１単位として翻訳すると判断することを特徴とする請求項１に記載の音声対話翻訳装置。
【請求項４】
利用者による発話の終了の指示を受付ける操作入力受付手段をさらに備え、
前記翻訳判断手段は、前記操作入力受付手段が利用者による発話の終了を受付けた場合に、発話の開始から終了までに前記原語記憶手段に記憶された前記認識結果を１単位として翻訳すると判断することを特徴とする請求項１に記載の音声対話翻訳装置。
【請求項５】
前記音声認識手段が出力した前記認識結果を表示手段に表示する表示制御手段と、
前記表示制御手段により表示された前記認識結果の削除の指示の入力を受付ける操作入力受付手段と、
前記操作入力受付手段が削除の指示を受付けた場合に、削除が指示された前記認識結果を前記原語記憶手段から削除する記憶制御手段と、
をさらに備えたことを特徴とする請求項１に記載の音声対話翻訳装置。
【請求項６】
撮像手段で撮像した利用者または対話相手の顔の画像の入力を受付ける画像入力受付手段と、
前記画像入力受付手段が受付けた前記顔の画像を認識し、利用者または対話相手の顔の向きや表情を含む顔画像情報を取得する画像認識手段と、をさらに備え、
前記翻訳判断手段は、前記画像認識手段が取得した前記顔画像情報が変化したか否かを判断し、前記顔画像情報が変化したと判断した場合に、前記顔画像情報が変化する前までに前記原語記憶手段に記憶された前記認識結果を１単位として翻訳すると判断することを特徴とする請求項１に記載の音声対話翻訳装置。
【請求項７】
前記音声合成手段は、前記画像認識手段が取得した前記顔画像情報が変化したか否かを判断し、前記顔画像情報が変化したと判断した場合に、前記翻訳手段が出力した前記対訳文を対象言語による音声に合成することを特徴とする請求項６に記載の音声対話翻訳装置。
【請求項８】
前記翻訳判断手段は、前記画像認識手段が取得した前記顔画像情報が変化したか否かを判断し、前記顔画像情報が変化したと判断した場合に、前記認識結果を前記原語記憶手段から削除すると判断し、
前記翻訳判断手段が、前記認識結果を前記原語記憶手段から削除すると判断した場合に、前記認識結果を前記原語記憶手段から削除する記憶制御手段をさらに備えたことを特徴とする請求項６に記載の音声対話翻訳装置。
【請求項９】
自装置の動作を検出する動作検出手段をさらに備え、
前記翻訳判断手段は、前記動作検出手段が検出した前記動作が予め定められた動作に該当するか否かを判断し、予め定められた動作に該当すると判断した場合に、予め定められた動作に該当する前までに前記原語記憶手段に記憶された前記認識結果を１単位として翻訳すると判断することを特徴とする請求項１に記載の音声対話翻訳装置。
【請求項１０】
前記音声合成手段は、前記動作検出手段が検出した動作が予め定められた動作に該当するか否かを判断し、予め定められた動作に該当すると判断した場合に、前記翻訳手段が出力した前記対訳文を対象言語による音声に合成することを特徴とする請求項９に記載の音声対話翻訳装置。
【請求項１１】
前記翻訳判断手段は、前記動作検出手段が検出した前記動作が予め定められた動作に該当するか否かを判断し、予め定められた動作に該当すると判断した場合に、前記認識結果を前記原語記憶手段から削除すると判断し、
前記翻訳判断手段が、前記認識結果を前記原語記憶手段から削除すると判断した場合に、前記認識結果を前記原語記憶手段から削除する記憶制御手段をさらに備えたことを特徴とする請求項６に記載の音声対話翻訳装置。
【請求項１２】
利用者が発話した翻訳の元となる原言語による音声を認識して認識結果を出力する音声認識ステップと、
発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、前記音声認識ステップが出力した前記認識結果を記憶する記憶手段に記憶された前記認識結果を翻訳するか否か判断する翻訳判断ステップと、
前記翻訳判断ステップが、前記認識結果を翻訳すると判断した場合に、前記認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳ステップと、
前記翻訳ステップが出力した前記対訳文を対象言語による音声に合成する音声合成ステップと、
を備えたことを特徴とする音声対話翻訳方法。
【請求項１３】
利用者が発話した翻訳の元となる原言語による音声を認識して認識結果を出力する音声認識手順と、
発話中に発話の一部を翻訳するか否かを定めた規則に基づいて、前記音声認識手順が出力した前記認識結果を記憶する記憶手段に記憶された前記認識結果を翻訳するか否か判断する翻訳判断手順と、
前記翻訳判断手順が、前記認識結果を翻訳すると判断した場合に、前記認識結果を翻訳の対象言語で記述された対訳文に変換して出力する翻訳手順と、
前記翻訳手順が出力した前記対訳文を対象言語による音声に合成する音声合成手順と、
をコンピュータに実行させる音声対話翻訳プログラム。

【図１】