説明

音声翻訳装置及びその方法

【課題】3人以上が参加する会話で、対話の流れに応じて言語変換方向を決定する音声翻訳装置を提供する。
【解決手段】音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60及び機械翻訳部70から構成され、発話者と発話言語の対応関係を保持しておき、発話者と発話言語の対応関係を記録して、現在対話を進める話者対を動的に切り替えながら、対話の流れに応じて言語変換方向を自動的に決定できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、異なる言語を話す人同士の意思疎通を支援する音声翻訳装置及びその方法に関する。
【背景技術】
【0002】
近年、音声認識や音声合成などの音声処理技術や機械翻訳などの言語処理技術の研究が盛んに行われている。また音声処理と言語処理を連携させた、音声翻訳などの音声言語処理技術も盛んに研究されている。音声翻訳を現実世界での利用するためには多くの問題を解決する必要があるが、利用場面をうまく制限することや、利用者の協力を引き出して技術的な課題をカバーすることで実用化に至っている製品も存在する。
【0003】
このような母国語の異なる人同士のコミュニケーションを支援する音声翻訳技術は、海外旅行、国際会議といった国際交流機会の増加を背景に、様々な場面での応用が期待されている。現在製品化されている音声翻訳装置は、対面型会話、すなわち会話を進める2人が音声翻訳装置を挟んで接近した距離に近づいて意思疎通を図る場面を想定しているものが多い。しかしより多くの人が同じ場所に集まる会議や、様々なインフラを利用して遠隔地でとり行う遠隔会議など、翻訳が必要とされる場面は今後多様なものになると考えられる。
【0004】
しかし従来の技術を単純に組み合わせるだけでは音声翻訳を広い範囲で応用できるわけではない。例に挙げた対面型対話と会議を比較すると、端末画面を共通に見ることができるのか、参加者の発声を高品質に受音できるのか、など様々な違いが存在する。そのため実現に必要な技術レベルはもちろん、適したユーザインタフェースも利用場面によって異なる。このように従来の技術を単純に組み合わせるだけではなく、利用場面に応じて新しい技術を導入することや場面にあったインタフェースを検討することが重要になると考えられる。
【0005】
ここで異なる言語を母国語とする3人以上の人が同じ場所に集まって進める会議の場面に音声翻訳の技術を応用する場合の問題点を考える。この場合、対面型対話とは異なり人数が多いため、誰がどの言語を話すのかを音声翻訳装置に事前に設定することは容易ではない。特に3つ以上の異なる言語が交される場面では、どの言語が入力されてそれをどの言語に出力すればよいのかをわからない、すなわち言語変換方向がわからないという問題が生じる。これは参加者それぞれに専用の入力装置及び翻訳装置が利用できる設備を備えた会議室を準備して、参加者にあった設定を事前に行うことで解決できる問題であるが、設備を準備するためのコストが高く、利用できる場所も限定されてしまうため様々な場面で気軽に利用できないという問題が発生してしまう。
【0006】
加えて同じ場面に集まっているため、音声を入力してから翻訳結果を出力するまでの待ち時間を大きくできないという問題も生じる。対面型対話では共有できる画面を利用するなどインタフェースを工夫することで多少の待ち時間は許容されても、3人以上の会話になると翻訳を介さずに発言を理解できる人とできない人が共存するなど不自然な状態が生じてしまう。このため待ち時間を小さくしないと会話の流れが悪くなるという問題が生じてしまう。
【0007】
これに対して、音声が入力された音源方向に応じて音声認識の原言語と機械翻訳の目的言語を制御する方法が提案されている。ここでは音声翻訳装置に可動式マイクやマイクロホンアレーを装備して音源方向を検出し、事前設定に従って検出した音源方向から言語変換方向を決定する。例えば手前から入力される音声を日本語から英語に、奥から入力される音声を英語から日本語に変換する。この方法は2人で進める対面型会話では非常に効果的で、話し相手に合わせて事前に一度だけ目的言語を設定すればその後は特別な操作なしに入力された音声の言語変換方向が自動的に決定される。しかしこの方法を3人以上が参加する会議に応用した場合には、どの言語を話す人がどの席に座るか分からないため音源方向と入力言語を対応付けることは容易ではない。このように従来技術では、3人以上の参加者がいる会話場面では、音源方向と入力言語を対応付けるのが容易ではないという問題があった(例えば、特許文献1参照)
これに対して、入力された音声を複数言語の音声認識エンジンによって認識させて尤度を計算して、認識尤度が高い言語が入力されたと判断する方法が提案されている。ここでは、どの方向からどの言語が入力されても毎回複数の言語の入力を仮定して処理を行うために、事前設定を行わなくてもよい。さらに会議に途中参加した人でも毎回の発声から言語を判定できるなどの利点もある。しかしこの方法は、全ての発話に対して言語判定を行うため、処理時間がかかってしまい、それが遅れ時間となって会話の流れを悪くしてしまうというという問題があった(例えば、特許文献2参照)
さらに従来技術に共通する課題として、入力された音声をどの言語に翻訳すればよいかわからないという問題があった。対面型会話では入力言語とは異なる別の言語に翻訳すればよかったが、3人以上での会話、特に3言語以上で進む会話の場合には、対話の流れに応じて入力言語をどの言語を優先して翻訳するべきかを決めるべきだが、具体的にこれを解決する方法は公開されていない。例えば可能性のある全ての言語に翻訳して出力するという方法も考えられるが、参加者は同じ場所に集まっているために大きな遅れ時間を取れないという制約があるため実用的とはいえない。このように従来技術では、3人以上の参加者がいる会話場面では、入力言語をどの言語に翻訳すればよいかを決めるのが容易ではないという問題があった。
【特許文献1】特開2005−141759公報
【特許文献2】特開2004−347732公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
このように従来は、3人以上が参加する会話での意思疎通を支援する音声翻訳装置において、入力された音声をどの言語として認識して、どの言語に翻訳するべきか、すなわち言語変換方向がわからないという問題があった。
【0009】
また、入力された音声の言語変換方向を決定するための遅れ時間が発生してしまうという問題があった。
【0010】
そこで、本発明はこのような事情を考慮してなされたもので、3人以上が参加する会話で、対話の流れに応じて言語変換方向を決定する音声翻訳装置及びその方法を提供することにある。
【課題を解決するための手段】
【0011】
本発明は、3人以上の発話者間における音声翻訳装置において、前記各発話者の音声を入力するための音声入力部と、前記各音声を分析して発話者を同定する話者同定部と、前記各音声を分析して発話された言語を判定する言語判定部と、前記発話者の中でどの発話者が注目発話者であるかを判定する注目発話者判定部と、前記同定話者と前記判定言語の対応関係を記録する話者言語記録部と、前記対応関係及び前記注目発話者に基づいて、(1)前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記入力言語以外の言語を出力言語として決定し、(2)前記入力された音声が前記注目発話者でない場合には前記音声を入力した発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定する言語制御部と、前記入力された音声を前記入力言語として音声認識する音声認識部と、前記音声認識結果を前記入力言語から前記出力言語に翻訳する機械翻訳部と、を具備することを特徴とする音声翻訳装置である。
【0012】
である。
【発明の効果】
【0013】
本発明によれは、3人以上が参加する会話場面でどの方向からどの言語が入力されても対話の流れにあわせて翻訳言語を自動的に切り替えるため、対話の流れを妨げることなく翻訳による会話支援を実現できる。
【発明を実施するための最良の形態】
【0014】
以下、図面を参照しながら本発明の実施形態の音声翻訳装置について説明する。
【0015】
(第1の実施形態)
本発明の第1の実施形態に関わる音声翻訳装置について、図1から図7に基づいて説明する。
【0016】
(1)音声翻訳装置の構成
図1は、本実施形態に関わる音声翻訳装置の概略構成図である。
【0017】
図1に示すように音声翻訳装置は、音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60及び機械翻訳部70から構成される。
【0018】
音声入力部10は、例えばマイクロフォンから入力された音声データを話者同定部20、言語判定部30及び音声認識部60へと渡す。なお、必要に応じて音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。
【0019】
話者同定部20は、音声入力部10から入力された音声データを分析して話者同定のための特徴量を抽出し、抽出した特徴量に基づいて分析区間の発声が誰による発話なのかを同定して、同定した話者情報を言語制御部40に出力する。発話者を同定するための方式としては、例えば事前に発話者毎の発声が入手できる場合には、発話者毎に学習した参照モデルと特徴量系列との比較によって類似度の最も大きな話者を同定する方法があり、事前に発話者毎の発声が入手できない場合には、事前に入手可能な多量の話者毎に作成された参照モデルとの類似度系列である話者ベクトルをクラスタリングすることによって話者を同定する手法がある。このように公知の様々な手段を用いて話者を同定することができる。なお言語制御部40に出力する話者情報は、発話者個人を特定でなくても他の発話者とを区別することができる情報であればよく、例えば音声入力部10をマイクロホンアレーで構成し、発話者の音源方向もしくは位置を発話者情報として出力しても構わない。
【0020】
言語判定部30は、音声入力部10から入力された音声データを分析して分析区間の発声がどの言語で発声されたものであるかを判定するために必要な特徴量を抽出し、事前に学習した辞書を参照して音響的に最も類似する言語を判定結果として言語制御部40に出力する。事前に学習した辞書と入力音声との類似度を算出する言語判定方式としては、混合ガウス分布など公知の様々な手段を用いることができる。
【0021】
言語制御部40は、話者同定部20から同定話者を、言語判定部30から判定言語をそれぞれ受け取り、同定話者と判定言語を対応付けて話者言語記録部50に記録する。さらに記録された同定話者と判定言語の対応関係に基づいて、入力された音声をどの言語として認識してどの言語に翻訳するべきか、すなわち入力言語と出力言語の対である言語変換方向を決定する。決定された入力言語は音声認識部60及び機械翻訳部70に、決定された出力言語は機械翻訳部70に出力される。
【0022】
音声認識部60は、音声入力部10から入力された音声データを分析して認識に必要な特徴量を抽出し、言語制御部40から受け取った入力言語に基づいて事前に学習した辞書を選択し、音響的に最も類似する単語もしくは単語系列を認識結果として機械翻訳部部70に出力する。事前に学習した辞書と入力音声との類似度を算出する認識方式としては、隠れマルコフモデル、ニューラルネットワーク、DPマッチングなど公知の様々な手段を用いることができる。
【0023】
機械翻訳部70は、言語制御部40から受け取った入力言語を原言語、出力言語を目的言語として、音声認識部60から原言語の文字系列を受け取り、目的言語へと変換する。規則に基づく翻訳方式や例文に基づく翻訳方式など既存の様々な方式を用いることができる。
【0024】
(2)音声翻訳装置の動作
次に、音声翻訳装置の詳細な動作について具体例を用いて説明する。
【0025】
図2は、複数人の会話場面の一例を示したものであり、会議の参加者のうち話者Aから話者Dまでが英語を、話者E及び話者Fが日本語を発声しており、音声翻訳装置は話者Fのみが所有しており音声翻訳装置に備え付けられたマイクロフォンにより話者の発声を受け取って音声翻訳を実現している。
【0026】
図2の会話場面例を使って、話者同定部20、言語判定部30及び言語制御部40の動作を詳細に説明する。
【0027】
(2−1)話者同定部20
話者同定部20は、音声入力部10から入力された音声データを分析して話者同定のための特徴量を抽出し、抽出した特徴量に基づいて分析区間の発声が誰による発話なのかを同定して、同定した話者情報を言語制御部40に出力する。以下では話者を同定する方法について詳細に説明する。
【0028】
発話者を同定するための方式としては、事前に参加者の発声を一定量収録して発話者毎にベクトル量子化辞書などの参照モデルを作成しておき、発話者を同定したい区間から抽出した特徴ベクトル系列と参照モデルとの類似度が最も大きな参照モデルから発話者を同定する方法が最も一般的である。
【0029】
しかし、実際の会議で事前に参加者の発声を登録するのはコストが大きく実用的とはいえない。そこで本実施形態では、参加者とは異なっても事前に入手可能な多量の話者毎に参照モデルを作成し、作成された参照モデルとの類似度系列である話者ベクトルへと特徴ベクトルを変換してクラスタリングを行う手法を例に話者同定の方法を図3及び図4を用いて説明する。
【0030】
本実施形態では、話者同定のための特徴量としてメル周波数ケプストラム係数(以降ではMFCCと略記)を例として用いるが、話者同定が可能な特徴量であれば既存のどんな特徴量を用いても良い。
【0031】
図3は特徴ベクトル空間の分布を示したものである。また特徴ベクトル空間における楕円は事前に収集した話者毎に作成した参照モデルを表したものである。図中の話者Xの楕円は参加者とは別の事前に収集した話者Xの発声から学習した参照モデルの分布を示している。図3中の入力(a)は、音声入力部10から入力された音声を例えば分析フレーム長(例えば10mSに設定)毎に分割して、フレーム毎に分析して抽出した特徴ベクトルを表している。なお説明のために特徴ベクトルの次元数は3、参照モデル数は3として説明を進めるが実際には特徴ベクトルの次元数は数十程度と大きく、また参照モデルの数も数百〜数千程度準備しておくことが多い。
【0032】
図3に示したように参照モデルには会議の参加者が含まれていないため、参照モデルとの類似度が低い特徴ベクトルが入力されることも少なくない。そこで、各事前話者との類似度を新しい特徴ベクトルとする変換をかけて入力を表現したものが図4に例示する話者ベクトル空間である。このように特徴ベクトルを話者ベクトルに変換することで、特定の事前話者と直接類似しない発声も複数の事前話者との距離関係によって入力音声の話者性を表現することができる。
【0033】
例えば、図3,図4の例では入力(b)及び入力(c)が話者X及び話者Yの中間的な声質を持っており、これが話者ベクトル空間上で近いベクトルで表現されている。このような話者空間上での話者ベクトルを例えばLBGアルゴリズムなどのクラスタリング手法で分類することで、入力音声の話者を同定することができる。例えばクラスタリング手法で同一クラスにマージされた入力(b)(c)をクラス(1)と分類すれば、今後クラス(1)に分類された発話を同一話者と同定できるようになる。なお説明を簡単にするため判定をフレーム単位で行うような説明を行ったが、実際は音声認識のフロントエンドで用いられる音声区間検出を流用して、一つのまとまりのある発声単位で一つの話者単位を判定するようにするのが効果的と考えられる。
【0034】
またここでは話者ベクトルを用いた話者同定手法について説明したが、前述したように同定する話者情報は、発話者個人を特定できなくても他の発話者とを区別することができる情報が出力すればよく、例えば音声入力部10をマイクロホンアレーで構成し、発話者の音源方向もしくは位置を発話者情報として出力しても構わない。
【0035】
(2−2)言語判定部30
言語判定部30は、音声入力部10を介して入力された音声データを分析して分析区間の発声がどの言語で発声されたものであるかを判定するために必要な特徴量を抽出し、事前に学習した辞書を参照して音響的に最も類似する言語を判定結果として言語制御部40に出力する。以下では言語を同定する方法について詳細に説明する。
【0036】
言語を同定するための方式としては、話者を同定する場合と比較して事前に当該言語の音声集合を収集することが容易なため(少なくとも音声認識のための音響モデル学習に当該言語の音声データを大量に収集している)、言語毎に混合ガウス分布モデルなどの参照モデルを作成しておき、言語を同定したい区間から抽出した特徴ベクトル系列と参照モデルとの類似度が最も大きな参照モデルの言語を同定する方法を用いることができる。
【0037】
本実施形態でも言語同定のための特徴量としてメル周波数ケプストラム係数(以降ではMFCCと略記)を例として用いるが、言語同定が可能な特徴量であれば既存のどんな特徴量を用いても良い。
【0038】
図5は特徴ベクトル空間の分布を示したものである。また特徴ベクトル空間における楕円は事前に収集した言語毎に作成した参照モデルを表したものである。図中の入力(a)は、音声入力部10を介して入力された音声を例えば分析フレーム長(例えば10mSに設定)毎に分割して、フレーム毎に分析して抽出した特徴ベクトルを表している。なお説明のために特徴ベクトルの次元数は3、参照モデル数は3として説明をしたが実際には特徴ベクトルの次元数は数十程度と大きい。ここで特徴ベクトルと各言語のモデルの類似度をそれぞれ算出して、類似度の最も大きな言語を判定する。図5の例では入力(a)は日本語のモデルと、入力(b)〜(d)は英語のモデルとの距離が近く類似度が相対的に大きいと判断される。ここでは説明を簡単にするため判定をフレーム単位で行うような説明を行ったが、実際は音声認識のフロントエンドで用いられる音声区間検出を流用して、一つのまとまりのある発声単位で一つの発声言語を判定するようにするのが効果的と考えられる。
【0039】
(2−3)言語制御部40
続いて言語制御部40の詳細について説明する。
【0040】
図6は話者言語記録部50に格納された対応関係の一例を示すものである。図6の例では会話の頭から話者F、話者A、話者Bがこの順で発声した場合に、話者同定部20によってそれぞれの話者が3つのクラスに分類され、また言語判定部30によって正しく言語が判定された場合の対応関係を示している。なお図6に書かれた未分類とは、それまでに発話のない話者をわかりやすくするために便宜的に表示したものであり、実際に対応関係にかかれているのはクラス(1)(2)(3)のみである。図6の対応関係を参照している状態で、新しく話者C(すなわち、注目発話者)の発声が入力された場合の言語制御部40の動作について詳細に説明する。
【0041】
新しく話者Cの発声が、音声入力部10に入力されると、話者同定部20から未知の話者が入力されたとして新しいクラス(4)が、言語同定部30から英語が出力される。
【0042】
言語判定部40は図6に示す対応関係を参照して、入力された同定話者及び判定言語が既存の話者によるものか新しい話者による発声かを判定する。この場合クラス(4)は未知の話者であるため、対応関係に新しいエントリーとして話者を登録し、図7に示すように対応関係を更新する。またこの際に現在の話者がクラス(4)であることを話者属性に記録しておく。
【0043】
言語制御部40は、新しく更新した図7の対応関係に基づいて入力言語及び出力言語を決定するように動作する。
【0044】
ここでは一例として対応関係に含まれる言語のうち、入力言語と異なる言語を出力言語として決定するという最も簡単な規則に基づいて言語制御部40が動作する場合を考える。
【0045】
その場合には、図7の対応関係には英語及び日本語が列挙されており、話者属性を参照して現話者は英語を発声していることがわかるため、それ以外の言語すなわち日本語を出力言語として決定する。このように決定された入力言語及び出力言語に基づいて、音声認識部60は入力された音声を英語として認識し、機械翻訳部70は英語の認識結果を日本語に翻訳するよう英日翻訳エンジンを動作させることで、自動的に言語変換方向が決定される。
【0046】
(3)効果
このように本実施形態によれば、発話者と発話言語の対応関係を保持しておき、発話者と発話言語の対応関係を記録して、現在対話を進める話者対を動的に切り替えながら、対話の流れに応じて言語変換方向を自動的に決定できるようにしている。
【0047】
したがって、3人以上が参加する会話場面でどの方向からどの言語が入力されても対話の流れにあわせて翻訳言語を自動的に切り替えるため、対話の流れを妨げることなく翻訳による会話支援を実現できる。
【0048】
また、発話者と発話言語の対応関係を記録しているため、既存の話者であれば新たに言語判定処理を行う必要がなく、音声翻訳による遅れ時間を一部軽減する効果も生まれる。
【0049】
(第2の実施形態)
次に、本発明の第2の実施形態の音声翻訳装置について図8から図11に基づいて説明する。本実施形態の音声翻訳装置は、音声翻訳装置の所有者を注目発話者として、言語変換方向をこの所有者で決定する。
【0050】
(1)音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【0051】
図8は、本実施形態に関わる音声翻訳装置の概略構成図である。
【0052】
図8に示すように音声翻訳装置は、音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60、機械翻訳部70及び所有者判定部80から構成される。
【0053】
なお、図8において第1の実施形態と同一の動作を行う部分については同一番号を付与しているため説明を省略する。
【0054】
所有者判定部80は、言語制御部40と連携しながら音声翻訳装置の所有者もしくは音声翻訳装置を主に利用する発話者が誰であるかを検出して同定話者と所有者との対応を話者言語記録部50に記録する。例えば所有者は音声翻訳装置を手元に置いて操作することが容易であると考えられるので、所有者が発声する場合には、機器に備え付けられた特別なボタンを押すなどの手段で所有者による発話とボタンが押されたタイミングの同期を取れば対応関係を把握することは容易である。
【0055】
(2)音声翻訳装置の動作
次に、第2の実施形態に関わる音声翻訳装置の詳細な動作について具体例を用いて説明する。
【0056】
図9は複数人の会話場面の一例を示したものであり、会議の参加者のうち話者Gが英語を、話者Hが中国語を、話者Iが日本語を発声しており、音声翻訳装置は話者Iのみが所有しており音声翻訳装置に備え付けられたマイクロフォンにより話者の発声を受け取って音声翻訳を実現している。
【0057】
図9の会話場面例を使って言語制御部40の動作を詳細に説明する。
【0058】
図10は話者言語記録部50に格納された対応関係の一例を示すものである。図10の例ではこれまでに発話者G、H、Iがそれぞれ複数回発声しており、話者同定部20によってそれぞれの話者が3つのクラスに分類され、また言語判定部30によって正しく言語が判定された場合の対応関係を示している。また所有者判定部80によって発話者Iの発声が所有者であることもこれまでの処理で判明しているとする。この状態で新たに話者G、話者H、話者Iが発声した場合の言語制御部40の動作を詳細に説明する。
【0059】
図11は言語制御部40の動作フローチャートを示している。
【0060】
(2−1)話者Gの英語による発話
まず、話者Gが発話した場合を例に考える。
【0061】
ステップS100で図10に示す対応関係から現話者Gの言語が英語であることを取得する。
【0062】
次に、ステップS101で対応関係から所有者Iの言語が日本語であることを取得する。
【0063】
次に、ステップS102では現話者Gと所有者Iが一致するかを判定する。この場合は異なるため、ステップS103に進み現話者の言語と所有者の言語を比較する。この場合は英語と日本語で異なるため、ステップS104にて入力言語を英語、出力言語を日本語に決定して言語制御部40の処理を終える。
【0064】
(2−2)話者Hの中国語による発話
続いて、話者Hが発話した場合を例に考える。
【0065】
ステップS100で対応関係から現話者Hの言語が中国語であることを取得する。
【0066】
次に、ステップS101で対応関係から所有者Iの言語が日本語であることを取得する。
【0067】
次に、ステップS102では現話者Hと所有者Iが一致するかを判定するが、この場合は異なるため、ステップS103に進み現話者の言語と所有者の言語を比較する。この場合は中国語と日本語で異なるため、ステップS104にて入力言語を中国語、出力言語を日本語に決定して言語制御部40の処理を終える。
【0068】
(2−3)話者Iの日本語による発話
最後に、所有者である話者Iが発声した場合の言語制御部40の動作を説明する。
【0069】
ステップS100で対応関係から現話者Iの言語が日本語であることを取得する。
【0070】
次に、ステップS101で対応関係から所有者Iの言語が日本語であることを取得する。
【0071】
次に、ステップS102では現話者Iと所有者Iが一致するかを判定し、一致する場合にはステップS106に進む。
【0072】
次に、ステップS106では日本語以外の全ての言語(この場合は、英語と中国語)を取得して、ステップS107にて入力言語を日本語、出力言語を英語と中国語に決定して言語制御部40の処理を終える。
【0073】
なお、図9の対話場面では出てこないが、所有者と同じ言語を話す話者が会話の中に含まれている場合には、図11のフローチャートのステップS105によって入力言語と出力言語が設定されない。すなわち入力音声を音声認識及び機械翻訳しないように動作する。
【0074】
(3)効果
このように、本実施形態では所有者の言語以外による発声は、所有者が理解できる言語に翻訳して、所有者の発声は所有者以外の全ての言語に翻訳するように動作することで、不要に全ての言語対の翻訳を実施せず、所有者が理解できない場合にのみ音声翻訳を動作させることが可能となる。これによって音声翻訳による対談の中断を軽減しながら、所有者の理解を支援する音声翻訳を実現することが可能となる。
【0075】
(第3の実施形態)
次に、本発明の第3の実施形態の音声翻訳装置について図9、図12、図13、図15に基づいて説明する。本実施形態の音声翻訳装置は、直前話者を注目発話者として、言語変換方向を直前話者で決定する。
【0076】
(1)音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【0077】
図12は、本実施形態に関わる音声翻訳装置の概略構成図である。
【0078】
図12に示すように音声翻訳装置は、音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60、機械翻訳部70及び発話履歴記録部90から構成される。
【0079】
なお、図12において、第1の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【0080】
発話履歴記録部90は、言語制御部40と連携しながら過去の発話履歴を記録する。図13に示すように過去一定回数内の発話者を時系列で保持することなどが発話履歴の一例としてあげられる。また発話履歴にはあわせて発話時間などの発話属性を記録しても構わない。
【0081】
(2)音声翻訳装置の動作
次に、第3の実施形態に関わる音声翻訳装置の詳細な動作について具体例を用いて説明する。
【0082】
図9は複数人の会話場面の一例を示したものであり、会議の参加者のうち話者Gが英語を、話者Hが中国語を、話者Iが日本語を発声しており、音声翻訳装置は話者Iのみが所有しており音声翻訳装置に備え付けられたマイクロフォンにより話者の発声を受け取って音声翻訳を実現している。図9の会話場面例を使って言語制御部40の動作を詳細に説明する。
【0083】
図15は話者言語記録部50に格納された対応関係の一例を示すものである。図15の例ではこれまでに発話者G、H、Iがそれぞれ複数回発声しており、話者同定部20によってそれぞれの話者が3つのクラスに分類され、また言語判定部30によって正しく言語が判定された場合の対応関係を示している。また直前までの発話履歴は図13である場合を例に考える。この場合には発話履歴から直前話者がHであることがわかり、図15の話者Hの話者属性に直前話者が記入されている。
【0084】
図14は言語制御部40の動作フローチャートを示している。
【0085】
(2−1)話者Gの英語による発話
まず、話者Gが発話した場合を例に考える。
【0086】
ステップS200で図15に示す対応関係から現話者Gの言語が英語であることを取得する。
【0087】
次に、ステップS201で対応関係から直前話者Hの言語が中国語であることを取得する。
【0088】
次に、ステップS202では現話者Gと直前話者Hが一致するかを判定する。この場合は異なるため、ステップS203に進み現話者の言語と直前話者の言語を比較する。この場合は英語と中国語で異なるため、ステップS204にて入力言語を英語、出力言語を中国語に決定して言語制御部40の処理を終える。
【0089】
(2−2)話者Hの中国語による発話
続いて話者Hが発話した場合を例に考える。
【0090】
ステップS200で対応関係から現話者Hの言語が中国語であることを取得する。
【0091】
次に、ステップS201で対応関係から直前話者Hの言語が中国語であることを取得する。
【0092】
次に、ステップS202では現話者Hと直前話者Hが一致するかを判定するが、一致する場合には、ステップS206に進む。
【0093】
次に、ステップS206では中国語以外の全ての言語(この場合は、英語と日本語)を取得して、ステップS207にて入力言語を中国語、出力言語を英語と日本語に決定して言語制御部の処理を終える。
【0094】
(3)効果
このように本実施形態では、直前の発話者と現在の発話者が対談を進めているという仮定の元、対談を進める2人の言語を優先して翻訳するように言語変換方向を制御することで、対話の流れをなるべく損なわずに音声翻訳を動作させることが可能となる。
【0095】
(第4の実施形態)
次に、本発明の第4の実施形態の音声翻訳装置について図9、図12、図13、図16、図17に基づいて説明する。本実施形態の音声翻訳装置は、最も発言が多い主題者を注目発話者として、言語変換方向を主題者で決定する。
【0096】
(1)音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【0097】
図12は、第4の実施形態に関わる音声翻訳装置の概略の構成図である。
【0098】
図12に示すように音声翻訳装置は、音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60、機械翻訳部70及び発話履歴記録部90から構成される。
【0099】
なお、図12において、第1の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【0100】
第3の実施形態では発話履歴から直前話者を抽出して言語変換方向を決定する方法を示したが、本実施形態では発話履歴から過去一定区間の中で主に発言をしていた主発言者を取得し、主発言者と現話者との意思疎通を優先するように言語変換方向を決定するように工夫した点が第3の実施形態とは異なっている。
【0101】
(2)音声翻訳装置の動作
以下では、図9に示す対話場面及び図13に示す発話履歴を例に本実施形態の動作の詳細について説明する。
【0102】
図17は話者言語記録部50に格納された対応関係の一例を示すものである。図17の例ではこれまでに発話者G、H、Iがそれぞれ複数回発声しており、話者同定部20によってそれぞれの話者が3つのクラスに分類され、また言語判定部30によって正しく言語が判定された場合の対応関係を示している。
【0103】
図16は、本実施形態における言語制御部40の動作フローチャートを示している。
【0104】
(2−1)話者Gの英語による発話
まず、話者Gが発話した場合を例に考える。
【0105】
ステップS30で図13に示す発話履歴から主発言者を検出する。主発言者の検出方法としては、例えば発話履歴に格納された話者の中から最も発言回数の多い話者、または最も発話時間の長い話者を選択する方法が考えられる。図13の発話履歴ではいずれの場合でも話者Gが主発言者として選択されるので、図17に示す対応関係に話者Gの話者属性に主発言者であることを記録する。
【0106】
次に、ステップS300で対応関係から現話者Gの言語が英語であることを、ステップS301から主発言者Gの言語が英語であることを取得する。
【0107】
次に、ステップS302では現話者Gと主発言者Gが一致するかを判定するが、この場合は一致するためステップS306において英語以外の全ての言語(この場合は、中国語と日本語)を取得してステップS307にて入力言語を英語、出力言語を中国語と日本語に決定して言語制御部40の処理を終える。
【0108】
(2−2)話者Hの中国語による発話
話者Gではなく話者Hが発話した場合を例に考える。
【0109】
ステップS300で対応関係から現話者Hの言語が中国語であることを、ステップS301から主発言者Gの言語が英語であることを取得する。
【0110】
次に、ステップS302では現話者Hと主発言者Gが一致するかを判定するが、この場合は異なるため、ステップS303に進み現話者の言語と主発言者の言語を比較する。この場合は英語と中国語で異なるため、ステップS304にて入力言語を中国語、出力言語を英語に決定して言語制御部40の処理を終える。
【0111】
(3)効果
このように本実施形態では、一定区間の間主に発言している主発言者と現在の発話者が対談を進めているという仮定の元、対談を進める2人の言語を優先して翻訳するように言語変換方向を制御することで、対話の流れをなるべく損なわずに音声翻訳を動作させることが可能となる。
【0112】
(第5の実施形態)
次に、本発明の第5の実施形態の音声翻訳装置について図9、図12、図13、図18、図20に基づいて説明する。本実施形態の音声翻訳装置は、直前話者を注目発話者として、言語変換方向を話者対履歴で決定する。すなわち、最も発言が多い発話者を注目発話者とし、次に発言の多い発話者をその対談者とするものである。
【0113】
(1)音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【0114】
図12は、第5の実施形態に関わる音声翻訳装置の概略構成図である。
【0115】
図12に示すように音声翻訳装置は、音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60及び機械翻訳部70及び発話履歴記録部90から構成される。
【0116】
なお、図12において第1の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【0117】
第3の実施形態及び第4の実施形態では、発話履歴から直前話者もしくは主発言者を抽出して言語変換方向を決定する方法を示したが、本実施形態では発話履歴から過去一定区間の中で交互に話を行った話者対の履歴を取得し、話者対の有無に応じて言語変換方向を決定するように工夫した点が以前の実施形態とは異なっている。
【0118】
(2)音声翻訳装置の動作
以下では図9に示す対話場面及び図13に示す発話履歴を例に本実施形態の詳細について説明する。
【0119】
図19は話者言語記録部50に格納された対応関係の一例を示すものである。図19の例ではこれまでに発話者G、H、Iがそれぞれ複数回発声しており、話者同定部20によってそれぞれの話者が3つのクラスに分類され、また言語判定部30によって正しく言語が判定された場合の対応関係を示している。
【0120】
図18は本実施形態における言語制御部40の動作フローチャートを示している。
【0121】
(2−1)話者Gの英語による発話
まず、話者Gが発話した場合を例に考える。
【0122】
ステップS40で図13に示す発話履歴から話者対の表を作成する。図20には図13の発話履歴に基づいて作成された話者対を示している。表は連続する発話者の対毎に、(直前話者、直後話者)の頻度をカウントしたものである。
【0123】
次に、ステップS400で対応関係から現話者Gの言語が英語であること取得する。 次に、ステップS401では図20に例示する話者対から現話者Gとの話者対となった話者のリストをピックアップする。図20を参照すると現話者Gとの話者対の履歴がある話者は話者Hと話者Iとなるので話者対の言語として中国語及び日本語を取得する。
【0124】
次に、ステップS402では話者対が一致するか否かを判定するが、この場合は存在するためにステップS403にて入力言語を英語、出力言語を中国語と日本語に決定して言語制御部40の処理を終える。
【0125】
(2−2)話者Hの中国による発話
話者Gではなく話者Hが発話した場合を例に考える。
【0126】
ステップS400で対応関係から現話者Hの言語が中国語であること取得する。
【0127】
次に、ステップS401では図20を参照すると現話者Hとの話者対の履歴がある話者は話者Gとなるので話者対の言語として英語を取得する。
【0128】
次に、ステップS402では話者対が存在するか否かを判定するが、この場合は存在するためにステップS403にて入力言語を中国語、出力言語を英語に決定して言語制御部40の処理を終える。
【0129】
(3)効果
このように本実施形態では一定区間の間に現在の話者とのやりとりを行った話者対に基づいて対談を進める2人の言語を優先して翻訳するように言語変換方向を制御することで、対話の流れをなるべく損なわずに音声翻訳を動作させることが可能となる。
【0130】
(第6の実施形態)
次に、本発明の第6の実施形態の音声翻訳装置について図9、図12、図13、図19、図20、図21に基づいて説明する。本実施形態の音声翻訳装置は、複数の言語変換方向を優先順位付けして決定する。
【0131】
(1)音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【0132】
図12は、第6の実施形態に関わる音声翻訳装置の概略の構成図である。
【0133】
図12に示すように音声翻訳装置は、音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60及び機械翻訳部70及び発話履歴記録部90から構成される。
【0134】
なお、図12において、第1の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【0135】
第3の実施形態から第5の実施形態では発話履歴から複数の出力言語が存在した場合にはその優先順位を特に決定しなかったが、本実施形態では複数の出力言語が存在した場合には過去一定区間の発話履歴から出力すべき言語の優先順位を付ける点が以前の実施形態とは異なっている。
【0136】
(2)音声翻訳装置の動作
以下では図9に示す対話場面及び図13に示す発話履歴を例に本実施形態の詳細について説明する。
【0137】
図19は話者言語記録部50に格納された対応関係の一例を示すものである。図19の例ではこれまでに発話者G、H、Iがそれぞれ複数回発声しており、話者同定部20によってそれぞれの話者が3つのクラスに分類され、また言語判定部30によって正しく言語が判定された場合の対応関係を示している。
【0138】
図21は本実施形態における言語制御部40の動作フローチャートを示している。
【0139】
(2−1)話者Gの英語による発話
まず、話者Gが発話した場合を例に考える。
【0140】
ステップS50で図13に示す発話履歴から話者対の表を作成する。図20には図13の発話履歴に基づいて作成された話者対を示している。表は連続する発話者の対毎に、(直前話者、直後話者)の頻度をカウントしたものである。
【0141】
次に、ステップS500で対応関係から現話者Gの言語が英語であること取得する。
【0142】
次に、ステップS501では図20に例示する話者対から現話者Gとの話者対となった話者のリストをピックアップする。図20を参照すると現話者Gとの話者対の履歴がある話者は話者Hと話者Iとなるので話者対の言語として中国語及び日本語を取得する。
【0143】
次に、ステップS502では話者対が一致するか否かを判定するが、この場合は存在するためにステップS503に進む。
【0144】
次に、ステップS503では話者対が複数存在するか否かを判定するが、この場合は存在するためにステップS504にて出力言語の優先順位を付ける。優先順位の付け方としては、例えば図20を参照して話者対となった頻度の多い話者を優先するなどの方法が考えられる。この場合には、話者Hと話者対になった回数が多いため、話者Hの言語である中国語を話者Iの日本語よりも優先することになる。
【0145】
次に、ステップS505では入力言語として英語、出力言語として中国語を優先して、続いて日本語を出力するように決定して言語制御部40の処理を終える。
【0146】
(2−2)話者Hの中国語による発話
話者Gではなく話者Hが発話した場合を例に考える。
【0147】
ステップS500で対応関係から現話者Hの言語が中国語であること取得する。
【0148】
次に、ステップS501では図20を参照すると現話者Hとの話者対の履歴がある話者は話者Gとなるので話者対の言語として英語を取得する。
【0149】
次に、ステップS502では話者対が存在するか否かを判定するが、この場合は存在するためにステップS503に進む。
【0150】
次に、ステップS503では話者対が複数存在するか否かを判定するが、この場合は存在しないので入力言語を中国語、出力言語を英語に決定して言語制御部40の処理を終える。
【0151】
(3)効果
このように本実施形態では、一定区間の間の発話履歴に基づいて決定した出力言語が複数存在する場合に、対談を進める2人の言語を優先して翻訳するように言語変換方向を制御することで、対話の流れをなるべく損なわずに音声翻訳を動作させることが可能となる。
【0152】
(第7の実施形態)
次に、本発明の第7の実施形態の音声翻訳装置について図22、図23に基づいて説明する。本実施形態の音声翻訳装置は、言語方向ができるまで出力しないものである。
【0153】
(1)音声翻訳装置の構成
図22は、第7の実施形態に関わる音声翻訳装置の概略構成図である。
【0154】
図22に示すように音声翻訳装置は、音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60及び機械翻訳部70及び音声蓄積部100から構成される。
【0155】
なお、図22において、以前の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【0156】
音声蓄積部100は、入力音声部10から入力される音声を、言語制御部40の制御に従ってすぐに音声認識部60に出力するのか一度蓄積しておいて後で認識させるのかを制御する。同じ場所にいる会話の参加者の発言を翻訳して会話を支援することを目的とした場合には、基本的には会話の流れを妨げないために音声を蓄積しない方が良い。
【0157】
しかし、入力された音声の入力言語及び変換すべき出力言語が決定できない場合、音声を一度蓄積しておき、後に入力される音声の処理結果を利用して入力言語もしくは出力言語が決定できた段階でまとめて蓄積した音声を出力すればよい。
【0158】
(2)音声翻訳装置の動作
図23は話者言語記録部50に格納された対応関係の一例を示すものである。
【0159】
図23の例ではこれまでに発話者Gしか発声しておらず、会話にどの言語を話す話者が存在するのか分かっていない状況である。この状況では話者Gの発話をどの言語に翻訳してよいのかわからないため、話者Gの発話が連続した場合には音声を蓄積しておく。
【0160】
その後、例えば話者Hの発話が入力され、すなわち、発話回数が規定回数(例えば、1回)以上になって話者同定部20にて新しい話者クラスが、言語判定部30にて中国語と正しく判定できた場合には、それまでに蓄積された話者Gの発声をまとめて英語から中国語に変換する。
【0161】
(3)効果
このように本実施形態によれば、例え音声が入力された段階では入力言語及び出力言語が決定できない場合でも、音声データを蓄積しておき、話者の発話回数が規定回数以上になって言語変換方向が確定した段階で翻訳結果を出力するように制御することで、会話の初めに発声された音声も失うことなくきちんと相手に伝えることができる。
【0162】
(第8の実施形態)
次に、本発明の第8の実施形態の音声翻訳装置について図9、図10、図24、図23、図18、図20に基づいて説明する。本実施形態の音声翻訳装置は、複数の言語を異なるメディアや表示方法で出力するものである。
【0163】
(1)音声翻訳装置の構成
図24は、第8の実施形態に関わる音声翻訳装置の概略構成図である。
【0164】
図24に示すように音声翻訳装置は、音声入力部10、話者同定部20、言語判定部30、言語制御部40、話者言語記録部50、音声認識部60及び機械翻訳部70及び結果出力部110から構成される。
【0165】
なお、図24において、以前の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【0166】
結果出力部110は、機械翻訳部70から入力される翻訳結果を音声合成や画面表示などの表示方法で参加者に提示する。本実施形態では言語制御部40によって翻訳結果の表示方法を切り替えることがこれまでの実施形態と異なる点である。
【0167】
(2)音声翻訳装置の動作
以下では図9に示す対話場面を例に本実施形態の詳細について説明する。
【0168】
図10は、話者言語記録部50に格納された対応関係の一例を示すものである。図10の例ではこれまでに発話者G、H、Iがそれぞれ複数回発声しており、話者同定部20によってそれぞれの話者が3つのクラスに分類され、また言語判定部30によって正しく言語が判定された場合の対応関係を示している。
【0169】
図25は、本実施形態における言語制御部40の動作フローチャートを示している。
【0170】
(2−1)話者Gの英語による発話
まず、話者Gが発話した場合を例に考える。
【0171】
ステップS600で図10に示す対応関係から現話者Gの言語が英語であることを取得する。
【0172】
次に、ステップS601で対応関係から所有者Iの言語が日本語であることを取得する。
【0173】
次に、ステップS602では現話者Gと所有者Iが一致するかを判定する。この場合は異なるため、ステップS603に進み現話者の言語と所有者の言語を比較する。この場合は英語と日本語で異なるため、ステップS604にて入力言語を英語、出力言語を日本語に決定し、さらにステップS608にて出力方法を画面表示に決定して言語制御部40の処理を終える。
【0174】
(2−2)話者Hの中国語による発話
続いて話者Hが発話した場合を例に考える。
【0175】
ステップS600で対応関係から現話者Hの言語が中国語であることを取得する。
【0176】
次に、ステップS601で対応関係から所有者Iの言語が日本語であることを取得する。
【0177】
次に、ステップS602では現話者Hと所有者Iが一致するかを判定するが、この場合は異なるため、ステップS603に進み現話者の言語と所有者の言語を比較する。この場合は中国語と日本語で異なるため、ステップS604にて入力言語を中国語、出力言語を日本語に決定し、さらにステップS608にて出力方法を画面表示に決定して言語制御部40の処理を終える。
【0178】
(2−2)話者Iの日本語による発話
最後に所有者である話者Iが発声した場合の言語制御部40の動作を説明する。
【0179】
ステップS600で対応関係から現話者Iの言語が日本語であることを取得する。
【0180】
次に、ステップS601で対応関係から所有者Iの言語が日本語であることを取得する。
【0181】
次に、ステップS602では現話者Iと所有者Iが一致するかを判定し、一致する場合にはステップS606に進む。
【0182】
次に、ステップS606では日本語以外の全ての言語(この場合は、英語と中国語)を取得して、ステップS607にて入力言語を日本語、出力言語を英語と中国語に決定して、ステップS609出力方法を音声合成に決定して言語制御部の処理を終える。
【0183】
(3)効果
このように本実施形態では、所有者の発言は音声合成でその他の話者の発言は画面表示で翻訳結果を出力するように制御すれば、合成音による会話の中断によって対話の流れを損なう危険を軽減しながら、音声翻訳を動作させることが可能となる。
【0184】
(変更例)
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
【0185】
なお、上記各実施形態では、言語判定部30及び話者同定部20の判定結果が常に正しいという仮定の下での動作について説明した。しかし、実際には100%の判定精度を求めるのは容易ではなく、判定誤りを考慮しておかなければ誤動作が生じる危険性がある。
【0186】
判定誤りの可能性を加味するためには、例えば言語判定や話者同定の結果を複数回の発声区間の多数決で決めるなど対策が考えられる。複数回での判定を導入することで会話の初期段階では音声翻訳のレスポンスが遅くなる危険はあるが、初期段階の遅れのみを許容することで後は安定した動作が可能となるため、利点の方が大きいといえる。
【図面の簡単な説明】
【0187】
【図1】本発明の第1の実施形態に関わる音声翻訳装置の概略構成例を表す図である。
【図2】第1の実施形態における複数人の会話場面の一例を示す図である。
【図3】第1の実施形態に関わる図1の構成図における話者同定部における特徴ベクトル空間の一例である。
【図4】第1の実施形態に関わる図1の構成図における話者同定部における話者ベクトル空間の一例である。
【図5】第1の実施形態に関わる図1の構成図における言語判定部における特徴ベクトル空間の一例である。
【図6】第1の実施形態に関わる図1の構成図における話者言語記録部に格納された対応関係の一例である。
【図7】第1の実施形態に関わる図1の構成図における話者言語記録部に格納された対応関係の一例である。
【図8】本発明の第2の実施形態に関わる音声翻訳装置の概略構成例を表す図である。
【図9】第2の実施形態における複数人の会話場面の一例を示す図である。
【図10】第2の実施形態に関わる図8の構成図における話者言語記録部に格納された対応関係の一例である。
【図11】第2の実施形態に関わる図8の構成図における言語制御部に関する動作フローチャートである。
【図12】本発明の第3、第4、第5及び第6の実施形態に関わる音声翻訳装置の概略構成例を表す図である。
【図13】第3の実施形態に関わる図12の構成図における発話履歴記録部に格納された発話履歴の一例である。
【図14】第3の実施形態に関わる図12の構成図における言語制御部に関する動作フローチャートである。
【図15】第3の実施形態に関わる図12の構成図における話者言語記録部に格納された対応関係の一例である。
【図16】第4の実施形態に関わる図12の構成図における言語制御部に関する動作フローチャートである。
【図17】第4の実施形態に関わる図12の構成図における話者言語記録部に格納された対応関係の一例である。
【図18】第5の実施形態に関わる図12の構成図における言語制御部に関する動作フローチャートである。
【図19】第5の実施形態に関わる図12の構成図における話者言語記録部に格納された対応関係の一例である。
【図20】第5の実施形態に関わる図12の構成図における発話履歴記録部に格納された発話履歴の一例である。
【図21】第6の実施形態に関わる図12の構成図における言語制御部に関する動作フローチャートである。
【図22】本発明の第7の実施形態に関わる音声翻訳装置の概略構成例を表す図
【図23】第7の実施形態に関わる図22の構成図における話者言語記録部に格納された対応関係の一例である。
【図24】本発明の第8の実施形態に関わる音声翻訳装置の概略構成例を表す図である。
【図25】第8の実施形態に関わる図12の構成図における言語制御部に関する動作フローチャートである。
【符号の説明】
【0188】
10 音声入力部
20 話者同定部
30 言語判定部
40 言語制御部
50 話者言語記録部
60 音声認識部
70 機械翻訳部
80 所有者判定部
90 発話履歴記録部
100 音声蓄積部
110 結果出力部

【特許請求の範囲】
【請求項1】
3人以上の発話者間における音声翻訳装置において、
前記各発話者の音声を入力するための音声入力部と、
前記各音声を分析して発話者を同定する話者同定部と、
前記各音声を分析して発話された言語を判定する言語判定部と、
前記発話者の中でどの発話者が注目発話者であるかを判定する注目発話者判定部と、
前記同定話者と前記判定言語の対応関係を記録する話者言語記録部と、
前記対応関係及び前記注目発話者に基づいて、(1)前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記入力言語以外の言語を出力言語として決定し、(2)前記入力された音声が前記注目発話者でない場合には前記入力された音声の発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定する言語制御部と、
前記入力された音声を前記入力言語として音声認識する音声認識部と、
前記音声認識結果を前記入力言語から前記出力言語に翻訳する機械翻訳部と、
を具備する
ことを特徴とする音声翻訳装置。
【請求項2】
前記注目発話者判定部は、発話者のなかでどの発話者が所有者であるかを判定し、当該判定した所有者を前記注目発話者とする
ことを特徴とする請求項1記載の音声翻訳装置。
【請求項3】
前記注目発話者判定部は、発話者の発話順序を発話履歴として記録し、当該発話履歴に記録された直前発話者を注目発話者とする
ことを特徴とする請求項1記載の音声翻訳装置。
【請求項4】
前記注目発話者判定部は、発話者の発話回数、または、発話時間を発話履歴として記録し、当該発話履歴に記録された発話回数または発話時間に基づいて、一定時間内で発話回数または発話時間が最も多い発話者を注目発話者とする
ことを特徴とする請求項1記載の音声翻訳装置。
【請求項5】
前記注目発話者判定部は、発話者の発話回数、または、発話時間を発話履歴として記録し、当該発話履歴に記録された発話回数または発話時間に基づいて、一定時間内で発話回数または発話時間が最も多い発話者を注目発話者とし、
前記言語制御部は、前記発話履歴に記録された発話回数または発話時間に基づいて、前記一定時間内で発話回数または発話時間が前記注目発話者の次に多い発話者を前記注目発話者の対談者として決定し、(1)前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記対談者の言語を出力言語として決定し、(2)前記入力された音声が前記対談者である場合には前記対談者の言語を入力言語とし、前記注目発話者の判定言語を出力言語とし、(3)前記入力された音声が前記注目発話者でも前記対談者でもない場合には前記入力された音声の発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定する
ことを特徴とする請求項1記載の音声翻訳装置。
【請求項6】
前記入力言語と前記出力言語が一致した場合には、前記音声認識及び前記翻訳を行わない
ことを特徴とする請求項1記載の音声翻訳装置。
【請求項7】
前記言語制御部は前記出力言語が複数ある場合には、前記出力言語に優先順位をつけて、前記優先順位の高い順番で前記音声認識及び前記翻訳を行う
ことを特徴とする請求項1に記載の音声翻訳装置。
【請求項8】
前記翻訳結果を出力する音声出力部と画像出力部をさらに有し、
前記言語制御部は、前記出力言語毎に前記音声出力部または前記画像出力部を選択して前記翻訳結果を出力する
ことを特徴とする請求項1に記載の音声翻訳装置。
【請求項9】
前記入力された音声を格納する音声格納部をさらに具備しており、
前記言語制御部において前記入力言語が決定できない場合、前記入力された音声の発話者の発話回数が所定回数以上になるまで前記入力音声を前記音声格納部に格納する
ことを特徴とする請求項1に記載の音声翻訳装置。
【請求項10】
前記音声認識の結果を格納する認識結果格納部をさらに具備しており、
前記言語制御部において前記出力言語が決定できない場合、前記注目発話者以外の発話者の発話回数が所定回数以上になるまで前記認識結果を前記認識結果格納部に格納する
ことを特徴とする請求項1に記載の音声翻訳装置。
【請求項11】
3人以上の発話者間における音声翻訳方法において、
前記各発話者の音声を入力し、
前記各音声を分析して発話者を同定し、
前記各音声を分析して発話された言語を判定し、
前記発話者の中でどの発話者が注目発話者であるかを判定する注目発話者判定部と、
前記同定話者と前記判定言語の対応関係を記録し、
前記対応関係及び前記注目発話者に基づいて、(1)前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記入力言語以外の言語を出力言語として決定し、(2)前記入力された音声が前記注目発話者でない場合には前記入力された音声の発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定し、
前記入力された音声を前記入力言語として音声認識し、
前記音声認識結果を前記入力言語から前記出力言語に翻訳する
ことを特徴とする音声翻訳方法。
【請求項12】
3人以上の発話者間における音声翻訳プログラムにおいて、
前記各発話者の音声を入力するための音声入力機能と、
前記各音声を分析して発話者を同定する話者同定機能と、
前記各音声を分析して発話された言語を判定する言語判定機能と、
前記発話者の中でどの発話者が注目発話者であるかを判定する注目発話者判定機能と、
前記同定話者と前記判定言語の対応関係を記録する話者言語記録機能と、
前記対応関係及び前記注目発話者に基づいて、(1)前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記入力言語以外の言語を出力言語として決定し、(2)前記入力された音声が前記注目発話者でない場合には前記入力された音声の発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定する言語制御機能と、
前記入力された音声を前記入力言語として音声認識する音声認識機能と、
前記音声認識結果を前記入力言語から前記出力言語に翻訳する機械翻訳機能と、
をコンピュータによって実現する
ことを特徴とする音声翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate


【公開番号】特開2007−322523(P2007−322523A)
【公開日】平成19年12月13日(2007.12.13)
【国際特許分類】
【出願番号】特願2006−150136(P2006−150136)
【出願日】平成18年5月30日(2006.5.30)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】