音声翻訳装置及びその方法

【課題】３人以上が参加する会話で、対話の流れに応じて言語変換方向を決定する音声翻訳装置を提供する。
【解決手段】音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０及び機械翻訳部７０から構成され、発話者と発話言語の対応関係を保持しておき、発話者と発話言語の対応関係を記録して、現在対話を進める話者対を動的に切り替えながら、対話の流れに応じて言語変換方向を自動的に決定できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、異なる言語を話す人同士の意思疎通を支援する音声翻訳装置及びその方法に関する。
【背景技術】
【０００２】
近年、音声認識や音声合成などの音声処理技術や機械翻訳などの言語処理技術の研究が盛んに行われている。また音声処理と言語処理を連携させた、音声翻訳などの音声言語処理技術も盛んに研究されている。音声翻訳を現実世界での利用するためには多くの問題を解決する必要があるが、利用場面をうまく制限することや、利用者の協力を引き出して技術的な課題をカバーすることで実用化に至っている製品も存在する。
【０００３】
このような母国語の異なる人同士のコミュニケーションを支援する音声翻訳技術は、海外旅行、国際会議といった国際交流機会の増加を背景に、様々な場面での応用が期待されている。現在製品化されている音声翻訳装置は、対面型会話、すなわち会話を進める２人が音声翻訳装置を挟んで接近した距離に近づいて意思疎通を図る場面を想定しているものが多い。しかしより多くの人が同じ場所に集まる会議や、様々なインフラを利用して遠隔地でとり行う遠隔会議など、翻訳が必要とされる場面は今後多様なものになると考えられる。
【０００４】
しかし従来の技術を単純に組み合わせるだけでは音声翻訳を広い範囲で応用できるわけではない。例に挙げた対面型対話と会議を比較すると、端末画面を共通に見ることができるのか、参加者の発声を高品質に受音できるのか、など様々な違いが存在する。そのため実現に必要な技術レベルはもちろん、適したユーザインタフェースも利用場面によって異なる。このように従来の技術を単純に組み合わせるだけではなく、利用場面に応じて新しい技術を導入することや場面にあったインタフェースを検討することが重要になると考えられる。
【０００５】
ここで異なる言語を母国語とする３人以上の人が同じ場所に集まって進める会議の場面に音声翻訳の技術を応用する場合の問題点を考える。この場合、対面型対話とは異なり人数が多いため、誰がどの言語を話すのかを音声翻訳装置に事前に設定することは容易ではない。特に３つ以上の異なる言語が交される場面では、どの言語が入力されてそれをどの言語に出力すればよいのかをわからない、すなわち言語変換方向がわからないという問題が生じる。これは参加者それぞれに専用の入力装置及び翻訳装置が利用できる設備を備えた会議室を準備して、参加者にあった設定を事前に行うことで解決できる問題であるが、設備を準備するためのコストが高く、利用できる場所も限定されてしまうため様々な場面で気軽に利用できないという問題が発生してしまう。
【０００６】
加えて同じ場面に集まっているため、音声を入力してから翻訳結果を出力するまでの待ち時間を大きくできないという問題も生じる。対面型対話では共有できる画面を利用するなどインタフェースを工夫することで多少の待ち時間は許容されても、３人以上の会話になると翻訳を介さずに発言を理解できる人とできない人が共存するなど不自然な状態が生じてしまう。このため待ち時間を小さくしないと会話の流れが悪くなるという問題が生じてしまう。
【０００７】
これに対して、音声が入力された音源方向に応じて音声認識の原言語と機械翻訳の目的言語を制御する方法が提案されている。ここでは音声翻訳装置に可動式マイクやマイクロホンアレーを装備して音源方向を検出し、事前設定に従って検出した音源方向から言語変換方向を決定する。例えば手前から入力される音声を日本語から英語に、奥から入力される音声を英語から日本語に変換する。この方法は２人で進める対面型会話では非常に効果的で、話し相手に合わせて事前に一度だけ目的言語を設定すればその後は特別な操作なしに入力された音声の言語変換方向が自動的に決定される。しかしこの方法を３人以上が参加する会議に応用した場合には、どの言語を話す人がどの席に座るか分からないため音源方向と入力言語を対応付けることは容易ではない。このように従来技術では、３人以上の参加者がいる会話場面では、音源方向と入力言語を対応付けるのが容易ではないという問題があった（例えば、特許文献１参照）
これに対して、入力された音声を複数言語の音声認識エンジンによって認識させて尤度を計算して、認識尤度が高い言語が入力されたと判断する方法が提案されている。ここでは、どの方向からどの言語が入力されても毎回複数の言語の入力を仮定して処理を行うために、事前設定を行わなくてもよい。さらに会議に途中参加した人でも毎回の発声から言語を判定できるなどの利点もある。しかしこの方法は、全ての発話に対して言語判定を行うため、処理時間がかかってしまい、それが遅れ時間となって会話の流れを悪くしてしまうというという問題があった（例えば、特許文献２参照）
さらに従来技術に共通する課題として、入力された音声をどの言語に翻訳すればよいかわからないという問題があった。対面型会話では入力言語とは異なる別の言語に翻訳すればよかったが、３人以上での会話、特に３言語以上で進む会話の場合には、対話の流れに応じて入力言語をどの言語を優先して翻訳するべきかを決めるべきだが、具体的にこれを解決する方法は公開されていない。例えば可能性のある全ての言語に翻訳して出力するという方法も考えられるが、参加者は同じ場所に集まっているために大きな遅れ時間を取れないという制約があるため実用的とはいえない。このように従来技術では、３人以上の参加者がいる会話場面では、入力言語をどの言語に翻訳すればよいかを決めるのが容易ではないという問題があった。
【特許文献１】特開２００５−１４１７５９公報
【特許文献２】特開２００４−３４７７３２公報
【発明の開示】
【発明が解決しようとする課題】
【０００８】
このように従来は、３人以上が参加する会話での意思疎通を支援する音声翻訳装置において、入力された音声をどの言語として認識して、どの言語に翻訳するべきか、すなわち言語変換方向がわからないという問題があった。
【０００９】
また、入力された音声の言語変換方向を決定するための遅れ時間が発生してしまうという問題があった。
【００１０】
そこで、本発明はこのような事情を考慮してなされたもので、３人以上が参加する会話で、対話の流れに応じて言語変換方向を決定する音声翻訳装置及びその方法を提供することにある。
【課題を解決するための手段】
【００１１】
本発明は、３人以上の発話者間における音声翻訳装置において、前記各発話者の音声を入力するための音声入力部と、前記各音声を分析して発話者を同定する話者同定部と、前記各音声を分析して発話された言語を判定する言語判定部と、前記発話者の中でどの発話者が注目発話者であるかを判定する注目発話者判定部と、前記同定話者と前記判定言語の対応関係を記録する話者言語記録部と、前記対応関係及び前記注目発話者に基づいて、（１）前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記入力言語以外の言語を出力言語として決定し、（２）前記入力された音声が前記注目発話者でない場合には前記音声を入力した発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定する言語制御部と、前記入力された音声を前記入力言語として音声認識する音声認識部と、前記音声認識結果を前記入力言語から前記出力言語に翻訳する機械翻訳部と、を具備することを特徴とする音声翻訳装置である。
【００１２】
である。
【発明の効果】
【００１３】
本発明によれは、３人以上が参加する会話場面でどの方向からどの言語が入力されても対話の流れにあわせて翻訳言語を自動的に切り替えるため、対話の流れを妨げることなく翻訳による会話支援を実現できる。
【発明を実施するための最良の形態】
【００１４】
以下、図面を参照しながら本発明の実施形態の音声翻訳装置について説明する。
【００１５】
（第１の実施形態）
本発明の第１の実施形態に関わる音声翻訳装置について、図１から図７に基づいて説明する。
【００１６】
（１）音声翻訳装置の構成
図１は、本実施形態に関わる音声翻訳装置の概略構成図である。
【００１７】
図１に示すように音声翻訳装置は、音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０及び機械翻訳部７０から構成される。
【００１８】
音声入力部１０は、例えばマイクロフォンから入力された音声データを話者同定部２０、言語判定部３０及び音声認識部６０へと渡す。なお、必要に応じて音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。
【００１９】
話者同定部２０は、音声入力部１０から入力された音声データを分析して話者同定のための特徴量を抽出し、抽出した特徴量に基づいて分析区間の発声が誰による発話なのかを同定して、同定した話者情報を言語制御部４０に出力する。発話者を同定するための方式としては、例えば事前に発話者毎の発声が入手できる場合には、発話者毎に学習した参照モデルと特徴量系列との比較によって類似度の最も大きな話者を同定する方法があり、事前に発話者毎の発声が入手できない場合には、事前に入手可能な多量の話者毎に作成された参照モデルとの類似度系列である話者ベクトルをクラスタリングすることによって話者を同定する手法がある。このように公知の様々な手段を用いて話者を同定することができる。なお言語制御部４０に出力する話者情報は、発話者個人を特定でなくても他の発話者とを区別することができる情報であればよく、例えば音声入力部１０をマイクロホンアレーで構成し、発話者の音源方向もしくは位置を発話者情報として出力しても構わない。
【００２０】
言語判定部３０は、音声入力部１０から入力された音声データを分析して分析区間の発声がどの言語で発声されたものであるかを判定するために必要な特徴量を抽出し、事前に学習した辞書を参照して音響的に最も類似する言語を判定結果として言語制御部４０に出力する。事前に学習した辞書と入力音声との類似度を算出する言語判定方式としては、混合ガウス分布など公知の様々な手段を用いることができる。
【００２１】
言語制御部４０は、話者同定部２０から同定話者を、言語判定部３０から判定言語をそれぞれ受け取り、同定話者と判定言語を対応付けて話者言語記録部５０に記録する。さらに記録された同定話者と判定言語の対応関係に基づいて、入力された音声をどの言語として認識してどの言語に翻訳するべきか、すなわち入力言語と出力言語の対である言語変換方向を決定する。決定された入力言語は音声認識部６０及び機械翻訳部７０に、決定された出力言語は機械翻訳部７０に出力される。
【００２２】
音声認識部６０は、音声入力部１０から入力された音声データを分析して認識に必要な特徴量を抽出し、言語制御部４０から受け取った入力言語に基づいて事前に学習した辞書を選択し、音響的に最も類似する単語もしくは単語系列を認識結果として機械翻訳部部７０に出力する。事前に学習した辞書と入力音声との類似度を算出する認識方式としては、隠れマルコフモデル、ニューラルネットワーク、ＤＰマッチングなど公知の様々な手段を用いることができる。
【００２３】
機械翻訳部７０は、言語制御部４０から受け取った入力言語を原言語、出力言語を目的言語として、音声認識部６０から原言語の文字系列を受け取り、目的言語へと変換する。規則に基づく翻訳方式や例文に基づく翻訳方式など既存の様々な方式を用いることができる。
【００２４】
（２）音声翻訳装置の動作
次に、音声翻訳装置の詳細な動作について具体例を用いて説明する。
【００２５】
図２は、複数人の会話場面の一例を示したものであり、会議の参加者のうち話者Ａから話者Ｄまでが英語を、話者Ｅ及び話者Ｆが日本語を発声しており、音声翻訳装置は話者Ｆのみが所有しており音声翻訳装置に備え付けられたマイクロフォンにより話者の発声を受け取って音声翻訳を実現している。
【００２６】
図２の会話場面例を使って、話者同定部２０、言語判定部３０及び言語制御部４０の動作を詳細に説明する。
【００２７】
（２−１）話者同定部２０
話者同定部２０は、音声入力部１０から入力された音声データを分析して話者同定のための特徴量を抽出し、抽出した特徴量に基づいて分析区間の発声が誰による発話なのかを同定して、同定した話者情報を言語制御部４０に出力する。以下では話者を同定する方法について詳細に説明する。
【００２８】
発話者を同定するための方式としては、事前に参加者の発声を一定量収録して発話者毎にベクトル量子化辞書などの参照モデルを作成しておき、発話者を同定したい区間から抽出した特徴ベクトル系列と参照モデルとの類似度が最も大きな参照モデルから発話者を同定する方法が最も一般的である。
【００２９】
しかし、実際の会議で事前に参加者の発声を登録するのはコストが大きく実用的とはいえない。そこで本実施形態では、参加者とは異なっても事前に入手可能な多量の話者毎に参照モデルを作成し、作成された参照モデルとの類似度系列である話者ベクトルへと特徴ベクトルを変換してクラスタリングを行う手法を例に話者同定の方法を図３及び図４を用いて説明する。
【００３０】
本実施形態では、話者同定のための特徴量としてメル周波数ケプストラム係数（以降ではＭＦＣＣと略記）を例として用いるが、話者同定が可能な特徴量であれば既存のどんな特徴量を用いても良い。
【００３１】
図３は特徴ベクトル空間の分布を示したものである。また特徴ベクトル空間における楕円は事前に収集した話者毎に作成した参照モデルを表したものである。図中の話者Ｘの楕円は参加者とは別の事前に収集した話者Ｘの発声から学習した参照モデルの分布を示している。図３中の入力（ａ）は、音声入力部１０から入力された音声を例えば分析フレーム長（例えば１０ｍＳに設定）毎に分割して、フレーム毎に分析して抽出した特徴ベクトルを表している。なお説明のために特徴ベクトルの次元数は３、参照モデル数は３として説明を進めるが実際には特徴ベクトルの次元数は数十程度と大きく、また参照モデルの数も数百〜数千程度準備しておくことが多い。
【００３２】
図３に示したように参照モデルには会議の参加者が含まれていないため、参照モデルとの類似度が低い特徴ベクトルが入力されることも少なくない。そこで、各事前話者との類似度を新しい特徴ベクトルとする変換をかけて入力を表現したものが図４に例示する話者ベクトル空間である。このように特徴ベクトルを話者ベクトルに変換することで、特定の事前話者と直接類似しない発声も複数の事前話者との距離関係によって入力音声の話者性を表現することができる。
【００３３】
例えば、図３，図４の例では入力（ｂ）及び入力（ｃ）が話者Ｘ及び話者Ｙの中間的な声質を持っており、これが話者ベクトル空間上で近いベクトルで表現されている。このような話者空間上での話者ベクトルを例えばＬＢＧアルゴリズムなどのクラスタリング手法で分類することで、入力音声の話者を同定することができる。例えばクラスタリング手法で同一クラスにマージされた入力（ｂ）（ｃ）をクラス（１）と分類すれば、今後クラス（１）に分類された発話を同一話者と同定できるようになる。なお説明を簡単にするため判定をフレーム単位で行うような説明を行ったが、実際は音声認識のフロントエンドで用いられる音声区間検出を流用して、一つのまとまりのある発声単位で一つの話者単位を判定するようにするのが効果的と考えられる。
【００３４】
またここでは話者ベクトルを用いた話者同定手法について説明したが、前述したように同定する話者情報は、発話者個人を特定できなくても他の発話者とを区別することができる情報が出力すればよく、例えば音声入力部１０をマイクロホンアレーで構成し、発話者の音源方向もしくは位置を発話者情報として出力しても構わない。
【００３５】
（２−２）言語判定部３０
言語判定部３０は、音声入力部１０を介して入力された音声データを分析して分析区間の発声がどの言語で発声されたものであるかを判定するために必要な特徴量を抽出し、事前に学習した辞書を参照して音響的に最も類似する言語を判定結果として言語制御部４０に出力する。以下では言語を同定する方法について詳細に説明する。
【００３６】
言語を同定するための方式としては、話者を同定する場合と比較して事前に当該言語の音声集合を収集することが容易なため（少なくとも音声認識のための音響モデル学習に当該言語の音声データを大量に収集している）、言語毎に混合ガウス分布モデルなどの参照モデルを作成しておき、言語を同定したい区間から抽出した特徴ベクトル系列と参照モデルとの類似度が最も大きな参照モデルの言語を同定する方法を用いることができる。
【００３７】
本実施形態でも言語同定のための特徴量としてメル周波数ケプストラム係数（以降ではＭＦＣＣと略記）を例として用いるが、言語同定が可能な特徴量であれば既存のどんな特徴量を用いても良い。
【００３８】
図５は特徴ベクトル空間の分布を示したものである。また特徴ベクトル空間における楕円は事前に収集した言語毎に作成した参照モデルを表したものである。図中の入力（ａ）は、音声入力部１０を介して入力された音声を例えば分析フレーム長（例えば１０ｍＳに設定）毎に分割して、フレーム毎に分析して抽出した特徴ベクトルを表している。なお説明のために特徴ベクトルの次元数は３、参照モデル数は３として説明をしたが実際には特徴ベクトルの次元数は数十程度と大きい。ここで特徴ベクトルと各言語のモデルの類似度をそれぞれ算出して、類似度の最も大きな言語を判定する。図５の例では入力（ａ）は日本語のモデルと、入力（ｂ）〜（ｄ）は英語のモデルとの距離が近く類似度が相対的に大きいと判断される。ここでは説明を簡単にするため判定をフレーム単位で行うような説明を行ったが、実際は音声認識のフロントエンドで用いられる音声区間検出を流用して、一つのまとまりのある発声単位で一つの発声言語を判定するようにするのが効果的と考えられる。
【００３９】
（２−３）言語制御部４０
続いて言語制御部４０の詳細について説明する。
【００４０】
図６は話者言語記録部５０に格納された対応関係の一例を示すものである。図６の例では会話の頭から話者Ｆ、話者Ａ、話者Ｂがこの順で発声した場合に、話者同定部２０によってそれぞれの話者が３つのクラスに分類され、また言語判定部３０によって正しく言語が判定された場合の対応関係を示している。なお図６に書かれた未分類とは、それまでに発話のない話者をわかりやすくするために便宜的に表示したものであり、実際に対応関係にかかれているのはクラス（１）（２）（３）のみである。図６の対応関係を参照している状態で、新しく話者Ｃ（すなわち、注目発話者）の発声が入力された場合の言語制御部４０の動作について詳細に説明する。
【００４１】
新しく話者Ｃの発声が、音声入力部１０に入力されると、話者同定部２０から未知の話者が入力されたとして新しいクラス（４）が、言語同定部３０から英語が出力される。
【００４２】
言語判定部４０は図６に示す対応関係を参照して、入力された同定話者及び判定言語が既存の話者によるものか新しい話者による発声かを判定する。この場合クラス（４）は未知の話者であるため、対応関係に新しいエントリーとして話者を登録し、図７に示すように対応関係を更新する。またこの際に現在の話者がクラス（４）であることを話者属性に記録しておく。
【００４３】
言語制御部４０は、新しく更新した図７の対応関係に基づいて入力言語及び出力言語を決定するように動作する。
【００４４】
ここでは一例として対応関係に含まれる言語のうち、入力言語と異なる言語を出力言語として決定するという最も簡単な規則に基づいて言語制御部４０が動作する場合を考える。
【００４５】
その場合には、図７の対応関係には英語及び日本語が列挙されており、話者属性を参照して現話者は英語を発声していることがわかるため、それ以外の言語すなわち日本語を出力言語として決定する。このように決定された入力言語及び出力言語に基づいて、音声認識部６０は入力された音声を英語として認識し、機械翻訳部７０は英語の認識結果を日本語に翻訳するよう英日翻訳エンジンを動作させることで、自動的に言語変換方向が決定される。
【００４６】
（３）効果
このように本実施形態によれば、発話者と発話言語の対応関係を保持しておき、発話者と発話言語の対応関係を記録して、現在対話を進める話者対を動的に切り替えながら、対話の流れに応じて言語変換方向を自動的に決定できるようにしている。
【００４７】
したがって、３人以上が参加する会話場面でどの方向からどの言語が入力されても対話の流れにあわせて翻訳言語を自動的に切り替えるため、対話の流れを妨げることなく翻訳による会話支援を実現できる。
【００４８】
また、発話者と発話言語の対応関係を記録しているため、既存の話者であれば新たに言語判定処理を行う必要がなく、音声翻訳による遅れ時間を一部軽減する効果も生まれる。
【００４９】
（第２の実施形態）
次に、本発明の第２の実施形態の音声翻訳装置について図８から図１１に基づいて説明する。本実施形態の音声翻訳装置は、音声翻訳装置の所有者を注目発話者として、言語変換方向をこの所有者で決定する。
【００５０】
（１）音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【００５１】
図８は、本実施形態に関わる音声翻訳装置の概略構成図である。
【００５２】
図８に示すように音声翻訳装置は、音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０、機械翻訳部７０及び所有者判定部８０から構成される。
【００５３】
なお、図８において第１の実施形態と同一の動作を行う部分については同一番号を付与しているため説明を省略する。
【００５４】
所有者判定部８０は、言語制御部４０と連携しながら音声翻訳装置の所有者もしくは音声翻訳装置を主に利用する発話者が誰であるかを検出して同定話者と所有者との対応を話者言語記録部５０に記録する。例えば所有者は音声翻訳装置を手元に置いて操作することが容易であると考えられるので、所有者が発声する場合には、機器に備え付けられた特別なボタンを押すなどの手段で所有者による発話とボタンが押されたタイミングの同期を取れば対応関係を把握することは容易である。
【００５５】
（２）音声翻訳装置の動作
次に、第２の実施形態に関わる音声翻訳装置の詳細な動作について具体例を用いて説明する。
【００５６】
図９は複数人の会話場面の一例を示したものであり、会議の参加者のうち話者Ｇが英語を、話者Ｈが中国語を、話者Ｉが日本語を発声しており、音声翻訳装置は話者Ｉのみが所有しており音声翻訳装置に備え付けられたマイクロフォンにより話者の発声を受け取って音声翻訳を実現している。
【００５７】
図９の会話場面例を使って言語制御部４０の動作を詳細に説明する。
【００５８】
図１０は話者言語記録部５０に格納された対応関係の一例を示すものである。図１０の例ではこれまでに発話者Ｇ、Ｈ、Ｉがそれぞれ複数回発声しており、話者同定部２０によってそれぞれの話者が３つのクラスに分類され、また言語判定部３０によって正しく言語が判定された場合の対応関係を示している。また所有者判定部８０によって発話者Ｉの発声が所有者であることもこれまでの処理で判明しているとする。この状態で新たに話者Ｇ、話者Ｈ、話者Ｉが発声した場合の言語制御部４０の動作を詳細に説明する。
【００５９】
図１１は言語制御部４０の動作フローチャートを示している。
【００６０】
（２−１）話者Ｇの英語による発話
まず、話者Ｇが発話した場合を例に考える。
【００６１】
ステップＳ１００で図１０に示す対応関係から現話者Ｇの言語が英語であることを取得する。
【００６２】
次に、ステップＳ１０１で対応関係から所有者Ｉの言語が日本語であることを取得する。
【００６３】
次に、ステップＳ１０２では現話者Ｇと所有者Ｉが一致するかを判定する。この場合は異なるため、ステップＳ１０３に進み現話者の言語と所有者の言語を比較する。この場合は英語と日本語で異なるため、ステップＳ１０４にて入力言語を英語、出力言語を日本語に決定して言語制御部４０の処理を終える。
【００６４】
（２−２）話者Ｈの中国語による発話
続いて、話者Ｈが発話した場合を例に考える。
【００６５】
ステップＳ１００で対応関係から現話者Ｈの言語が中国語であることを取得する。
【００６６】
次に、ステップＳ１０１で対応関係から所有者Ｉの言語が日本語であることを取得する。
【００６７】
次に、ステップＳ１０２では現話者Ｈと所有者Ｉが一致するかを判定するが、この場合は異なるため、ステップＳ１０３に進み現話者の言語と所有者の言語を比較する。この場合は中国語と日本語で異なるため、ステップＳ１０４にて入力言語を中国語、出力言語を日本語に決定して言語制御部４０の処理を終える。
【００６８】
（２−３）話者Ｉの日本語による発話
最後に、所有者である話者Ｉが発声した場合の言語制御部４０の動作を説明する。
【００６９】
ステップＳ１００で対応関係から現話者Ｉの言語が日本語であることを取得する。
【００７０】
次に、ステップＳ１０１で対応関係から所有者Ｉの言語が日本語であることを取得する。
【００７１】
次に、ステップＳ１０２では現話者Ｉと所有者Ｉが一致するかを判定し、一致する場合にはステップＳ１０６に進む。
【００７２】
次に、ステップＳ１０６では日本語以外の全ての言語（この場合は、英語と中国語）を取得して、ステップＳ１０７にて入力言語を日本語、出力言語を英語と中国語に決定して言語制御部４０の処理を終える。
【００７３】
なお、図９の対話場面では出てこないが、所有者と同じ言語を話す話者が会話の中に含まれている場合には、図１１のフローチャートのステップＳ１０５によって入力言語と出力言語が設定されない。すなわち入力音声を音声認識及び機械翻訳しないように動作する。
【００７４】
（３）効果
このように、本実施形態では所有者の言語以外による発声は、所有者が理解できる言語に翻訳して、所有者の発声は所有者以外の全ての言語に翻訳するように動作することで、不要に全ての言語対の翻訳を実施せず、所有者が理解できない場合にのみ音声翻訳を動作させることが可能となる。これによって音声翻訳による対談の中断を軽減しながら、所有者の理解を支援する音声翻訳を実現することが可能となる。
【００７５】
（第３の実施形態）
次に、本発明の第３の実施形態の音声翻訳装置について図９、図１２、図１３、図１５に基づいて説明する。本実施形態の音声翻訳装置は、直前話者を注目発話者として、言語変換方向を直前話者で決定する。
【００７６】
（１）音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【００７７】
図１２は、本実施形態に関わる音声翻訳装置の概略構成図である。
【００７８】
図１２に示すように音声翻訳装置は、音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０、機械翻訳部７０及び発話履歴記録部９０から構成される。
【００７９】
なお、図１２において、第１の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【００８０】
発話履歴記録部９０は、言語制御部４０と連携しながら過去の発話履歴を記録する。図１３に示すように過去一定回数内の発話者を時系列で保持することなどが発話履歴の一例としてあげられる。また発話履歴にはあわせて発話時間などの発話属性を記録しても構わない。
【００８１】
（２）音声翻訳装置の動作
次に、第３の実施形態に関わる音声翻訳装置の詳細な動作について具体例を用いて説明する。
【００８２】
図９は複数人の会話場面の一例を示したものであり、会議の参加者のうち話者Ｇが英語を、話者Ｈが中国語を、話者Ｉが日本語を発声しており、音声翻訳装置は話者Ｉのみが所有しており音声翻訳装置に備え付けられたマイクロフォンにより話者の発声を受け取って音声翻訳を実現している。図９の会話場面例を使って言語制御部４０の動作を詳細に説明する。
【００８３】
図１５は話者言語記録部５０に格納された対応関係の一例を示すものである。図１５の例ではこれまでに発話者Ｇ、Ｈ、Ｉがそれぞれ複数回発声しており、話者同定部２０によってそれぞれの話者が３つのクラスに分類され、また言語判定部３０によって正しく言語が判定された場合の対応関係を示している。また直前までの発話履歴は図１３である場合を例に考える。この場合には発話履歴から直前話者がＨであることがわかり、図１５の話者Ｈの話者属性に直前話者が記入されている。
【００８４】
図１４は言語制御部４０の動作フローチャートを示している。
【００８５】
（２−１）話者Ｇの英語による発話
まず、話者Ｇが発話した場合を例に考える。
【００８６】
ステップＳ２００で図１５に示す対応関係から現話者Ｇの言語が英語であることを取得する。
【００８７】
次に、ステップＳ２０１で対応関係から直前話者Ｈの言語が中国語であることを取得する。
【００８８】
次に、ステップＳ２０２では現話者Ｇと直前話者Ｈが一致するかを判定する。この場合は異なるため、ステップＳ２０３に進み現話者の言語と直前話者の言語を比較する。この場合は英語と中国語で異なるため、ステップＳ２０４にて入力言語を英語、出力言語を中国語に決定して言語制御部４０の処理を終える。
【００８９】
（２−２）話者Ｈの中国語による発話
続いて話者Ｈが発話した場合を例に考える。
【００９０】
ステップＳ２００で対応関係から現話者Ｈの言語が中国語であることを取得する。
【００９１】
次に、ステップＳ２０１で対応関係から直前話者Ｈの言語が中国語であることを取得する。
【００９２】
次に、ステップＳ２０２では現話者Ｈと直前話者Ｈが一致するかを判定するが、一致する場合には、ステップＳ２０６に進む。
【００９３】
次に、ステップＳ２０６では中国語以外の全ての言語（この場合は、英語と日本語）を取得して、ステップＳ２０７にて入力言語を中国語、出力言語を英語と日本語に決定して言語制御部の処理を終える。
【００９４】
（３）効果
このように本実施形態では、直前の発話者と現在の発話者が対談を進めているという仮定の元、対談を進める２人の言語を優先して翻訳するように言語変換方向を制御することで、対話の流れをなるべく損なわずに音声翻訳を動作させることが可能となる。
【００９５】
（第４の実施形態）
次に、本発明の第４の実施形態の音声翻訳装置について図９、図１２、図１３、図１６、図１７に基づいて説明する。本実施形態の音声翻訳装置は、最も発言が多い主題者を注目発話者として、言語変換方向を主題者で決定する。
【００９６】
（１）音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【００９７】
図１２は、第４の実施形態に関わる音声翻訳装置の概略の構成図である。
【００９８】
図１２に示すように音声翻訳装置は、音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０、機械翻訳部７０及び発話履歴記録部９０から構成される。
【００９９】
なお、図１２において、第１の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【０１００】
第３の実施形態では発話履歴から直前話者を抽出して言語変換方向を決定する方法を示したが、本実施形態では発話履歴から過去一定区間の中で主に発言をしていた主発言者を取得し、主発言者と現話者との意思疎通を優先するように言語変換方向を決定するように工夫した点が第３の実施形態とは異なっている。
【０１０１】
（２）音声翻訳装置の動作
以下では、図９に示す対話場面及び図１３に示す発話履歴を例に本実施形態の動作の詳細について説明する。
【０１０２】
図１７は話者言語記録部５０に格納された対応関係の一例を示すものである。図１７の例ではこれまでに発話者Ｇ、Ｈ、Ｉがそれぞれ複数回発声しており、話者同定部２０によってそれぞれの話者が３つのクラスに分類され、また言語判定部３０によって正しく言語が判定された場合の対応関係を示している。
【０１０３】
図１６は、本実施形態における言語制御部４０の動作フローチャートを示している。
【０１０４】
（２−１）話者Ｇの英語による発話
まず、話者Ｇが発話した場合を例に考える。
【０１０５】
ステップＳ３０で図１３に示す発話履歴から主発言者を検出する。主発言者の検出方法としては、例えば発話履歴に格納された話者の中から最も発言回数の多い話者、または最も発話時間の長い話者を選択する方法が考えられる。図１３の発話履歴ではいずれの場合でも話者Ｇが主発言者として選択されるので、図１７に示す対応関係に話者Ｇの話者属性に主発言者であることを記録する。
【０１０６】
次に、ステップＳ３００で対応関係から現話者Ｇの言語が英語であることを、ステップＳ３０１から主発言者Ｇの言語が英語であることを取得する。
【０１０７】
次に、ステップＳ３０２では現話者Ｇと主発言者Ｇが一致するかを判定するが、この場合は一致するためステップＳ３０６において英語以外の全ての言語（この場合は、中国語と日本語）を取得してステップＳ３０７にて入力言語を英語、出力言語を中国語と日本語に決定して言語制御部４０の処理を終える。
【０１０８】
（２−２）話者Ｈの中国語による発話
話者Ｇではなく話者Ｈが発話した場合を例に考える。
【０１０９】
ステップＳ３００で対応関係から現話者Ｈの言語が中国語であることを、ステップＳ３０１から主発言者Ｇの言語が英語であることを取得する。
【０１１０】
次に、ステップＳ３０２では現話者Ｈと主発言者Ｇが一致するかを判定するが、この場合は異なるため、ステップＳ３０３に進み現話者の言語と主発言者の言語を比較する。この場合は英語と中国語で異なるため、ステップＳ３０４にて入力言語を中国語、出力言語を英語に決定して言語制御部４０の処理を終える。
【０１１１】
（３）効果
このように本実施形態では、一定区間の間主に発言している主発言者と現在の発話者が対談を進めているという仮定の元、対談を進める２人の言語を優先して翻訳するように言語変換方向を制御することで、対話の流れをなるべく損なわずに音声翻訳を動作させることが可能となる。
【０１１２】
（第５の実施形態）
次に、本発明の第５の実施形態の音声翻訳装置について図９、図１２、図１３、図１８、図２０に基づいて説明する。本実施形態の音声翻訳装置は、直前話者を注目発話者として、言語変換方向を話者対履歴で決定する。すなわち、最も発言が多い発話者を注目発話者とし、次に発言の多い発話者をその対談者とするものである。
【０１１３】
（１）音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【０１１４】
図１２は、第５の実施形態に関わる音声翻訳装置の概略構成図である。
【０１１５】
図１２に示すように音声翻訳装置は、音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０及び機械翻訳部７０及び発話履歴記録部９０から構成される。
【０１１６】
なお、図１２において第１の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【０１１７】
第３の実施形態及び第４の実施形態では、発話履歴から直前話者もしくは主発言者を抽出して言語変換方向を決定する方法を示したが、本実施形態では発話履歴から過去一定区間の中で交互に話を行った話者対の履歴を取得し、話者対の有無に応じて言語変換方向を決定するように工夫した点が以前の実施形態とは異なっている。
【０１１８】
（２）音声翻訳装置の動作
以下では図９に示す対話場面及び図１３に示す発話履歴を例に本実施形態の詳細について説明する。
【０１１９】
図１９は話者言語記録部５０に格納された対応関係の一例を示すものである。図１９の例ではこれまでに発話者Ｇ、Ｈ、Ｉがそれぞれ複数回発声しており、話者同定部２０によってそれぞれの話者が３つのクラスに分類され、また言語判定部３０によって正しく言語が判定された場合の対応関係を示している。
【０１２０】
図１８は本実施形態における言語制御部４０の動作フローチャートを示している。
【０１２１】
（２−１）話者Ｇの英語による発話
まず、話者Ｇが発話した場合を例に考える。
【０１２２】
ステップＳ４０で図１３に示す発話履歴から話者対の表を作成する。図２０には図１３の発話履歴に基づいて作成された話者対を示している。表は連続する発話者の対毎に、（直前話者、直後話者）の頻度をカウントしたものである。
【０１２３】
次に、ステップＳ４００で対応関係から現話者Ｇの言語が英語であること取得する。次に、ステップＳ４０１では図２０に例示する話者対から現話者Ｇとの話者対となった話者のリストをピックアップする。図２０を参照すると現話者Ｇとの話者対の履歴がある話者は話者Ｈと話者Ｉとなるので話者対の言語として中国語及び日本語を取得する。
【０１２４】
次に、ステップＳ４０２では話者対が一致するか否かを判定するが、この場合は存在するためにステップＳ４０３にて入力言語を英語、出力言語を中国語と日本語に決定して言語制御部４０の処理を終える。
【０１２５】
（２−２）話者Ｈの中国による発話
話者Ｇではなく話者Ｈが発話した場合を例に考える。
【０１２６】
ステップＳ４００で対応関係から現話者Ｈの言語が中国語であること取得する。
【０１２７】
次に、ステップＳ４０１では図２０を参照すると現話者Ｈとの話者対の履歴がある話者は話者Ｇとなるので話者対の言語として英語を取得する。
【０１２８】
次に、ステップＳ４０２では話者対が存在するか否かを判定するが、この場合は存在するためにステップＳ４０３にて入力言語を中国語、出力言語を英語に決定して言語制御部４０の処理を終える。
【０１２９】
（３）効果
このように本実施形態では一定区間の間に現在の話者とのやりとりを行った話者対に基づいて対談を進める２人の言語を優先して翻訳するように言語変換方向を制御することで、対話の流れをなるべく損なわずに音声翻訳を動作させることが可能となる。
【０１３０】
（第６の実施形態）
次に、本発明の第６の実施形態の音声翻訳装置について図９、図１２、図１３、図１９、図２０、図２１に基づいて説明する。本実施形態の音声翻訳装置は、複数の言語変換方向を優先順位付けして決定する。
【０１３１】
（１）音声翻訳装置の構成
本実施形態の音声翻訳装置の構成について説明する。
【０１３２】
図１２は、第６の実施形態に関わる音声翻訳装置の概略の構成図である。
【０１３３】
図１２に示すように音声翻訳装置は、音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０及び機械翻訳部７０及び発話履歴記録部９０から構成される。
【０１３４】
なお、図１２において、第１の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【０１３５】
第３の実施形態から第５の実施形態では発話履歴から複数の出力言語が存在した場合にはその優先順位を特に決定しなかったが、本実施形態では複数の出力言語が存在した場合には過去一定区間の発話履歴から出力すべき言語の優先順位を付ける点が以前の実施形態とは異なっている。
【０１３６】
（２）音声翻訳装置の動作
以下では図９に示す対話場面及び図１３に示す発話履歴を例に本実施形態の詳細について説明する。
【０１３７】
図１９は話者言語記録部５０に格納された対応関係の一例を示すものである。図１９の例ではこれまでに発話者Ｇ、Ｈ、Ｉがそれぞれ複数回発声しており、話者同定部２０によってそれぞれの話者が３つのクラスに分類され、また言語判定部３０によって正しく言語が判定された場合の対応関係を示している。
【０１３８】
図２１は本実施形態における言語制御部４０の動作フローチャートを示している。
【０１３９】
（２−１）話者Ｇの英語による発話
まず、話者Ｇが発話した場合を例に考える。
【０１４０】
ステップＳ５０で図１３に示す発話履歴から話者対の表を作成する。図２０には図１３の発話履歴に基づいて作成された話者対を示している。表は連続する発話者の対毎に、（直前話者、直後話者）の頻度をカウントしたものである。
【０１４１】
次に、ステップＳ５００で対応関係から現話者Ｇの言語が英語であること取得する。
【０１４２】
次に、ステップＳ５０１では図２０に例示する話者対から現話者Ｇとの話者対となった話者のリストをピックアップする。図２０を参照すると現話者Ｇとの話者対の履歴がある話者は話者Ｈと話者Ｉとなるので話者対の言語として中国語及び日本語を取得する。
【０１４３】
次に、ステップＳ５０２では話者対が一致するか否かを判定するが、この場合は存在するためにステップＳ５０３に進む。
【０１４４】
次に、ステップＳ５０３では話者対が複数存在するか否かを判定するが、この場合は存在するためにステップＳ５０４にて出力言語の優先順位を付ける。優先順位の付け方としては、例えば図２０を参照して話者対となった頻度の多い話者を優先するなどの方法が考えられる。この場合には、話者Ｈと話者対になった回数が多いため、話者Ｈの言語である中国語を話者Ｉの日本語よりも優先することになる。
【０１４５】
次に、ステップＳ５０５では入力言語として英語、出力言語として中国語を優先して、続いて日本語を出力するように決定して言語制御部４０の処理を終える。
【０１４６】
（２−２）話者Ｈの中国語による発話
話者Ｇではなく話者Ｈが発話した場合を例に考える。
【０１４７】
ステップＳ５００で対応関係から現話者Ｈの言語が中国語であること取得する。
【０１４８】
次に、ステップＳ５０１では図２０を参照すると現話者Ｈとの話者対の履歴がある話者は話者Ｇとなるので話者対の言語として英語を取得する。
【０１４９】
次に、ステップＳ５０２では話者対が存在するか否かを判定するが、この場合は存在するためにステップＳ５０３に進む。
【０１５０】
次に、ステップＳ５０３では話者対が複数存在するか否かを判定するが、この場合は存在しないので入力言語を中国語、出力言語を英語に決定して言語制御部４０の処理を終える。
【０１５１】
（３）効果
このように本実施形態では、一定区間の間の発話履歴に基づいて決定した出力言語が複数存在する場合に、対談を進める２人の言語を優先して翻訳するように言語変換方向を制御することで、対話の流れをなるべく損なわずに音声翻訳を動作させることが可能となる。
【０１５２】
（第７の実施形態）
次に、本発明の第７の実施形態の音声翻訳装置について図２２、図２３に基づいて説明する。本実施形態の音声翻訳装置は、言語方向ができるまで出力しないものである。
【０１５３】
（１）音声翻訳装置の構成
図２２は、第７の実施形態に関わる音声翻訳装置の概略構成図である。
【０１５４】
図２２に示すように音声翻訳装置は、音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０及び機械翻訳部７０及び音声蓄積部１００から構成される。
【０１５５】
なお、図２２において、以前の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【０１５６】
音声蓄積部１００は、入力音声部１０から入力される音声を、言語制御部４０の制御に従ってすぐに音声認識部６０に出力するのか一度蓄積しておいて後で認識させるのかを制御する。同じ場所にいる会話の参加者の発言を翻訳して会話を支援することを目的とした場合には、基本的には会話の流れを妨げないために音声を蓄積しない方が良い。
【０１５７】
しかし、入力された音声の入力言語及び変換すべき出力言語が決定できない場合、音声を一度蓄積しておき、後に入力される音声の処理結果を利用して入力言語もしくは出力言語が決定できた段階でまとめて蓄積した音声を出力すればよい。
【０１５８】
（２）音声翻訳装置の動作
図２３は話者言語記録部５０に格納された対応関係の一例を示すものである。
【０１５９】
図２３の例ではこれまでに発話者Ｇしか発声しておらず、会話にどの言語を話す話者が存在するのか分かっていない状況である。この状況では話者Ｇの発話をどの言語に翻訳してよいのかわからないため、話者Ｇの発話が連続した場合には音声を蓄積しておく。
【０１６０】
その後、例えば話者Ｈの発話が入力され、すなわち、発話回数が規定回数（例えば、１回）以上になって話者同定部２０にて新しい話者クラスが、言語判定部３０にて中国語と正しく判定できた場合には、それまでに蓄積された話者Ｇの発声をまとめて英語から中国語に変換する。
【０１６１】
（３）効果
このように本実施形態によれば、例え音声が入力された段階では入力言語及び出力言語が決定できない場合でも、音声データを蓄積しておき、話者の発話回数が規定回数以上になって言語変換方向が確定した段階で翻訳結果を出力するように制御することで、会話の初めに発声された音声も失うことなくきちんと相手に伝えることができる。
【０１６２】
（第８の実施形態）
次に、本発明の第８の実施形態の音声翻訳装置について図９、図１０、図２４、図２３、図１８、図２０に基づいて説明する。本実施形態の音声翻訳装置は、複数の言語を異なるメディアや表示方法で出力するものである。
【０１６３】
（１）音声翻訳装置の構成
図２４は、第８の実施形態に関わる音声翻訳装置の概略構成図である。
【０１６４】
図２４に示すように音声翻訳装置は、音声入力部１０、話者同定部２０、言語判定部３０、言語制御部４０、話者言語記録部５０、音声認識部６０及び機械翻訳部７０及び結果出力部１１０から構成される。
【０１６５】
なお、図２４において、以前の実施形態と同一の動作を行う部分は同一番号を付与しているため説明を省略する。
【０１６６】
結果出力部１１０は、機械翻訳部７０から入力される翻訳結果を音声合成や画面表示などの表示方法で参加者に提示する。本実施形態では言語制御部４０によって翻訳結果の表示方法を切り替えることがこれまでの実施形態と異なる点である。
【０１６７】
（２）音声翻訳装置の動作
以下では図９に示す対話場面を例に本実施形態の詳細について説明する。
【０１６８】
図１０は、話者言語記録部５０に格納された対応関係の一例を示すものである。図１０の例ではこれまでに発話者Ｇ、Ｈ、Ｉがそれぞれ複数回発声しており、話者同定部２０によってそれぞれの話者が３つのクラスに分類され、また言語判定部３０によって正しく言語が判定された場合の対応関係を示している。
【０１６９】
図２５は、本実施形態における言語制御部４０の動作フローチャートを示している。
【０１７０】
（２−１）話者Ｇの英語による発話
まず、話者Ｇが発話した場合を例に考える。
【０１７１】
ステップＳ６００で図１０に示す対応関係から現話者Ｇの言語が英語であることを取得する。
【０１７２】
次に、ステップＳ６０１で対応関係から所有者Ｉの言語が日本語であることを取得する。
【０１７３】
次に、ステップＳ６０２では現話者Ｇと所有者Ｉが一致するかを判定する。この場合は異なるため、ステップＳ６０３に進み現話者の言語と所有者の言語を比較する。この場合は英語と日本語で異なるため、ステップＳ６０４にて入力言語を英語、出力言語を日本語に決定し、さらにステップＳ６０８にて出力方法を画面表示に決定して言語制御部４０の処理を終える。
【０１７４】
（２−２）話者Ｈの中国語による発話
続いて話者Ｈが発話した場合を例に考える。
【０１７５】
ステップＳ６００で対応関係から現話者Ｈの言語が中国語であることを取得する。
【０１７６】
次に、ステップＳ６０１で対応関係から所有者Ｉの言語が日本語であることを取得する。
【０１７７】
次に、ステップＳ６０２では現話者Ｈと所有者Ｉが一致するかを判定するが、この場合は異なるため、ステップＳ６０３に進み現話者の言語と所有者の言語を比較する。この場合は中国語と日本語で異なるため、ステップＳ６０４にて入力言語を中国語、出力言語を日本語に決定し、さらにステップＳ６０８にて出力方法を画面表示に決定して言語制御部４０の処理を終える。
【０１７８】
（２−２）話者Ｉの日本語による発話
最後に所有者である話者Ｉが発声した場合の言語制御部４０の動作を説明する。
【０１７９】
ステップＳ６００で対応関係から現話者Ｉの言語が日本語であることを取得する。
【０１８０】
次に、ステップＳ６０１で対応関係から所有者Ｉの言語が日本語であることを取得する。
【０１８１】
次に、ステップＳ６０２では現話者Ｉと所有者Ｉが一致するかを判定し、一致する場合にはステップＳ６０６に進む。
【０１８２】
次に、ステップＳ６０６では日本語以外の全ての言語（この場合は、英語と中国語）を取得して、ステップＳ６０７にて入力言語を日本語、出力言語を英語と中国語に決定して、ステップＳ６０９出力方法を音声合成に決定して言語制御部の処理を終える。
【０１８３】
（３）効果
このように本実施形態では、所有者の発言は音声合成でその他の話者の発言は画面表示で翻訳結果を出力するように制御すれば、合成音による会話の中断によって対話の流れを損なう危険を軽減しながら、音声翻訳を動作させることが可能となる。
【０１８４】
（変更例）
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
【０１８５】
なお、上記各実施形態では、言語判定部３０及び話者同定部２０の判定結果が常に正しいという仮定の下での動作について説明した。しかし、実際には１００％の判定精度を求めるのは容易ではなく、判定誤りを考慮しておかなければ誤動作が生じる危険性がある。
【０１８６】
判定誤りの可能性を加味するためには、例えば言語判定や話者同定の結果を複数回の発声区間の多数決で決めるなど対策が考えられる。複数回での判定を導入することで会話の初期段階では音声翻訳のレスポンスが遅くなる危険はあるが、初期段階の遅れのみを許容することで後は安定した動作が可能となるため、利点の方が大きいといえる。
【図面の簡単な説明】
【０１８７】
【図１】本発明の第１の実施形態に関わる音声翻訳装置の概略構成例を表す図である。
【図２】第１の実施形態における複数人の会話場面の一例を示す図である。
【図３】第１の実施形態に関わる図１の構成図における話者同定部における特徴ベクトル空間の一例である。
【図４】第１の実施形態に関わる図１の構成図における話者同定部における話者ベクトル空間の一例である。
【図５】第１の実施形態に関わる図１の構成図における言語判定部における特徴ベクトル空間の一例である。
【図６】第１の実施形態に関わる図１の構成図における話者言語記録部に格納された対応関係の一例である。
【図７】第１の実施形態に関わる図１の構成図における話者言語記録部に格納された対応関係の一例である。
【図８】本発明の第２の実施形態に関わる音声翻訳装置の概略構成例を表す図である。
【図９】第２の実施形態における複数人の会話場面の一例を示す図である。
【図１０】第２の実施形態に関わる図８の構成図における話者言語記録部に格納された対応関係の一例である。
【図１１】第２の実施形態に関わる図８の構成図における言語制御部に関する動作フローチャートである。
【図１２】本発明の第３、第４、第５及び第６の実施形態に関わる音声翻訳装置の概略構成例を表す図である。
【図１３】第３の実施形態に関わる図１２の構成図における発話履歴記録部に格納された発話履歴の一例である。
【図１４】第３の実施形態に関わる図１２の構成図における言語制御部に関する動作フローチャートである。
【図１５】第３の実施形態に関わる図１２の構成図における話者言語記録部に格納された対応関係の一例である。
【図１６】第４の実施形態に関わる図１２の構成図における言語制御部に関する動作フローチャートである。
【図１７】第４の実施形態に関わる図１２の構成図における話者言語記録部に格納された対応関係の一例である。
【図１８】第５の実施形態に関わる図１２の構成図における言語制御部に関する動作フローチャートである。
【図１９】第５の実施形態に関わる図１２の構成図における話者言語記録部に格納された対応関係の一例である。
【図２０】第５の実施形態に関わる図１２の構成図における発話履歴記録部に格納された発話履歴の一例である。
【図２１】第６の実施形態に関わる図１２の構成図における言語制御部に関する動作フローチャートである。
【図２２】本発明の第７の実施形態に関わる音声翻訳装置の概略構成例を表す図
【図２３】第７の実施形態に関わる図２２の構成図における話者言語記録部に格納された対応関係の一例である。
【図２４】本発明の第８の実施形態に関わる音声翻訳装置の概略構成例を表す図である。
【図２５】第８の実施形態に関わる図１２の構成図における言語制御部に関する動作フローチャートである。
【符号の説明】
【０１８８】
１０音声入力部
２０話者同定部
３０言語判定部
４０言語制御部
５０話者言語記録部
６０音声認識部
７０機械翻訳部
８０所有者判定部
９０発話履歴記録部
１００音声蓄積部
１１０結果出力部

【特許請求の範囲】
【請求項１】
３人以上の発話者間における音声翻訳装置において、
前記各発話者の音声を入力するための音声入力部と、
前記各音声を分析して発話者を同定する話者同定部と、
前記各音声を分析して発話された言語を判定する言語判定部と、
前記発話者の中でどの発話者が注目発話者であるかを判定する注目発話者判定部と、
前記同定話者と前記判定言語の対応関係を記録する話者言語記録部と、
前記対応関係及び前記注目発話者に基づいて、（１）前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記入力言語以外の言語を出力言語として決定し、（２）前記入力された音声が前記注目発話者でない場合には前記入力された音声の発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定する言語制御部と、
前記入力された音声を前記入力言語として音声認識する音声認識部と、
前記音声認識結果を前記入力言語から前記出力言語に翻訳する機械翻訳部と、
を具備する
ことを特徴とする音声翻訳装置。
【請求項２】
前記注目発話者判定部は、発話者のなかでどの発話者が所有者であるかを判定し、当該判定した所有者を前記注目発話者とする
ことを特徴とする請求項１記載の音声翻訳装置。
【請求項３】
前記注目発話者判定部は、発話者の発話順序を発話履歴として記録し、当該発話履歴に記録された直前発話者を注目発話者とする
ことを特徴とする請求項１記載の音声翻訳装置。
【請求項４】
前記注目発話者判定部は、発話者の発話回数、または、発話時間を発話履歴として記録し、当該発話履歴に記録された発話回数または発話時間に基づいて、一定時間内で発話回数または発話時間が最も多い発話者を注目発話者とする
ことを特徴とする請求項１記載の音声翻訳装置。
【請求項５】
前記注目発話者判定部は、発話者の発話回数、または、発話時間を発話履歴として記録し、当該発話履歴に記録された発話回数または発話時間に基づいて、一定時間内で発話回数または発話時間が最も多い発話者を注目発話者とし、
前記言語制御部は、前記発話履歴に記録された発話回数または発話時間に基づいて、前記一定時間内で発話回数または発話時間が前記注目発話者の次に多い発話者を前記注目発話者の対談者として決定し、（１）前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記対談者の言語を出力言語として決定し、（２）前記入力された音声が前記対談者である場合には前記対談者の言語を入力言語とし、前記注目発話者の判定言語を出力言語とし、（３）前記入力された音声が前記注目発話者でも前記対談者でもない場合には前記入力された音声の発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定する
ことを特徴とする請求項１記載の音声翻訳装置。
【請求項６】
前記入力言語と前記出力言語が一致した場合には、前記音声認識及び前記翻訳を行わない
ことを特徴とする請求項１記載の音声翻訳装置。
【請求項７】
前記言語制御部は前記出力言語が複数ある場合には、前記出力言語に優先順位をつけて、前記優先順位の高い順番で前記音声認識及び前記翻訳を行う
ことを特徴とする請求項１に記載の音声翻訳装置。
【請求項８】
前記翻訳結果を出力する音声出力部と画像出力部をさらに有し、
前記言語制御部は、前記出力言語毎に前記音声出力部または前記画像出力部を選択して前記翻訳結果を出力する
ことを特徴とする請求項１に記載の音声翻訳装置。
【請求項９】
前記入力された音声を格納する音声格納部をさらに具備しており、
前記言語制御部において前記入力言語が決定できない場合、前記入力された音声の発話者の発話回数が所定回数以上になるまで前記入力音声を前記音声格納部に格納する
ことを特徴とする請求項１に記載の音声翻訳装置。
【請求項１０】
前記音声認識の結果を格納する認識結果格納部をさらに具備しており、
前記言語制御部において前記出力言語が決定できない場合、前記注目発話者以外の発話者の発話回数が所定回数以上になるまで前記認識結果を前記認識結果格納部に格納する
ことを特徴とする請求項１に記載の音声翻訳装置。
【請求項１１】
３人以上の発話者間における音声翻訳方法において、
前記各発話者の音声を入力し、
前記各音声を分析して発話者を同定し、
前記各音声を分析して発話された言語を判定し、
前記発話者の中でどの発話者が注目発話者であるかを判定する注目発話者判定部と、
前記同定話者と前記判定言語の対応関係を記録し、
前記対応関係及び前記注目発話者に基づいて、（１）前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記入力言語以外の言語を出力言語として決定し、（２）前記入力された音声が前記注目発話者でない場合には前記入力された音声の発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定し、
前記入力された音声を前記入力言語として音声認識し、
前記音声認識結果を前記入力言語から前記出力言語に翻訳する
ことを特徴とする音声翻訳方法。
【請求項１２】
３人以上の発話者間における音声翻訳プログラムにおいて、
前記各発話者の音声を入力するための音声入力機能と、
前記各音声を分析して発話者を同定する話者同定機能と、
前記各音声を分析して発話された言語を判定する言語判定機能と、
前記発話者の中でどの発話者が注目発話者であるかを判定する注目発話者判定機能と、
前記同定話者と前記判定言語の対応関係を記録する話者言語記録機能と、
前記対応関係及び前記注目発話者に基づいて、（１）前記入力された音声が前記注目発話者である場合には前記注目発話者の判定言語を入力言語とし、前記入力言語以外の言語を出力言語として決定し、（２）前記入力された音声が前記注目発話者でない場合には前記入力された音声の発話者の判定言語を入力言語とし、前記注目発話者の判定言語を出力言語として決定する言語制御機能と、
前記入力された音声を前記入力言語として音声認識する音声認識機能と、
前記音声認識結果を前記入力言語から前記出力言語に翻訳する機械翻訳機能と、
をコンピュータによって実現する
ことを特徴とする音声翻訳プログラム。

【図１】