説明

翻訳装置

【課題】音声の入力開始後、短時間で入力された言語を判定する。
【解決手段】言語判定部25は、入力音声の言語の特徴量を言語辞書25−2に記憶された言語特徴量と比較して、入力音声の言語を判定する。話者判定部27は、言語判定部25によって判定された言語と併せて、入力音声の発話者の特徴量を話者辞書27−2に記憶させると共に、入力音声の言語の特徴量を話者辞書27−2に記憶された話者特徴量と比較して、入力音声の発話者の判定し、更に、その発話者の発話する言語を判定する。翻訳方向判定部28は、会話の初期では、言語判定部25の判定により、また、会話が進むにつれて、話者判定部27の判定を重視して、入力音声の言語を判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳装置に係り、特に、翻訳元言語と、翻訳先言語とを判定する処理に関する。
【背景技術】
【0002】
音声を入力して翻訳する装置は、音声によって入力される言語(翻訳元言語)から、音声や、文章の表示によって出力する言語(翻訳先言語)への翻訳を行う際、翻訳元言語と、翻訳先言語とを判定することが不可欠である。この判定を装置の使用者の操作によらず、入力された音声に基づいて行う処理が知られている(例えば、特許文献1参照。)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−322523号公報(第2−3頁、図1)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した特許文献1に開示されている方法では、翻訳元言語と、翻訳先言語との判定には、入力される音声によって発話者を同定可能とする事前の学習処理が必要である問題点があった。この問題点は、例えば、旅行先の街頭での会話を翻訳する際に顕著である。この翻訳の際、不特定の発話者の最初の発話から長い待ち時間なしに適切な翻訳が求められ、かつ、発話者の音声による学習は望めない。
【0005】
本発明は上記問題点を解決するためになされたもので、音声の入力開始後、短時間で入力された言語を判定する翻訳装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明の翻訳装置は、第1の言語の発話から第2の言語への翻訳、及び、前記第2の言語の発話から前記第1の言語への翻訳を行う翻訳装置であって、前記第1の言語の発話の言語特徴量と、前記第2の言語の発話の言語特徴量とを記憶する言語特徴量記憶手段と、発話を入力する入力手段と、前記入力手段によって入力された発話の言語特徴量を前記言語特徴量記憶手段に記憶された言語特徴量と比較することによって、その発話が前記第1の言語であるか前記第2の言語であるかを判定する言語判定手段と、前記入力手段によって入力された発話が第1の話者による発話か第2の話者による発話かを判定した結果に従って、その発話が前記第1の言語であるか前記第2の言語であるかを判定する話者判定手段と、前記言語判定手段による判定と、前記話者判定手段による判定とを参照して、前記入力手段によって入力された発話が前記第1の言語であるか前記第2の言語であるかを判定し、前記第1の言語であると判定された場合、前記発話を前記第1の言語から前記第2の言語に翻訳し、前記第2の言語であると判定された場合、前記発話を前記第2の言語から前記第1の言語に翻訳する音声翻訳手段とを有し、前記音声翻訳手段は、前記入力手段によって最初に入力された発話が前記第1の言語であるか前記第2の言語であるかを前記言語判定手段による判定に従って判定することを特徴とする。
【発明の効果】
【0007】
本発明によれば、音声の入力開始後、短時間で入力された言語を判定する。
【図面の簡単な説明】
【0008】
【図1】本発明の実施形態に係る移動通信装置の構成を示すブロック図。
【図2】本発明の実施形態に係る会話翻訳部の構成を示すブロック図。
【図3】本発明の実施形態に係る言語辞書の構成の一例を示す図。
【図4】本発明の実施形態に係る話者辞書の構成の一例を示す図。
【図5】本発明の実施形態に係る話者判定部による学習の動作のフローチャート。
【図6】本発明の実施形態に係る話者判定部による学習の際の話者の判断の概要を示す図。
【図7】本発明の実施形態に係る翻訳方向判定部による入力音声の言語を判定する動作のフローチャート。
【発明を実施するための形態】
【0009】
以下に、本発明の実施形態に係る翻訳装置の実施の形態を、図面を参照して説明する。
【0010】
図1は、本発明の実施形態に係る翻訳装置が適用された移動通信装置の構成を示すブロック図である。この移動通信装置は、装置全体の制御を行う制御部11と、移動通信網通信部12と、移動通信網に属する基地局(図示せず)との間で無線信号の送受信を行うアンテナ12aと、移動通信網送受信部13と、音声処理部14と、受話音声出力等に用いられるスピーカ14aと、送話音声入力等に用いられるマイクロフォン14bと、使用者に情報を視覚的に提示する表示部15と、使用者からの操作指示を入力する入力部16と、第1の言語と、第2の言語とによる会話を翻訳する会話翻訳部20とからなる。
【0011】
ここで、第1の言語と、第2の言語とは、会話翻訳部20の動作開始前に定められている。また、会話は、第1の話者による発話と、第2の話者による発話からなり、一方の話者は、第1の言語で発話し、他方の話者は、第2の言語で発話する。
【0012】
図2は、会話翻訳部20の構成を示すブロック図である。会話翻訳部20は、制御部11と接続され、会話翻訳部20全体の制御を行う翻訳制御部21と、音声処理部14と接続されるバッファ20−2と、話速推定部22と、音素種別検出部23と、話速正規化部24と、言語判定部25と、言語辞書25−2と、話者特徴量算出部26と、話者判定部27と、話者辞書27−2と、翻訳方向判定部28と、音声翻訳部29とからなる。
【0013】
バッファ20−2には、音声処理部14によって入力音声が記憶され、処理が終了した入力音声は、翻訳制御部21によって消去される。なお、図2で、信号の流れと制御の流れとを矢印によって示したが、この矢印は理解を容易にするためのものであり、必ずしも全ての流れを示すものではない。
【0014】
図3は、言語辞書25−2の構成の一例を示す。言語辞書25−2は、言語25−2aと、その言語の発話の特徴量である言語特徴量25−2bとからなり、言語25−2aが「第1の言語」である情報と、「第2の言語」である情報とからなる。言語特徴量25−2bは、ベクトル量子化(VQ、Vector Quantization)や、混合ガウス分布(GMM、Gaussian Mixture Model)等の手法による言語モデルに基づく特徴量である。言語辞書25−2は、装置の製造時に記憶される。又は、会話翻訳部20の動作開始前に所定の言語データサーバ装置(図示せず)からダウンロードされる。
【0015】
図4は、話者辞書27−2の構成の一例を示す。話者辞書27−2は、発話者27−2aと、その発話者の発話の特徴量である話者特徴量27−2bと、その発話者の発話が第1の言語である確率である第1の言語確率27−2cと、その発話者の発話が第2の言語である確率である第2の言語確率27−2dとからなり、発話者27−2aが「第1の話者」である情報と、「第2の話者」である情報とからなる。話者特徴量27−2bは、例えば、メル周波数ケプストラム係数(MFCC、Mel-Frequency Cepstrum Coefficient)であり、話速を含んでも良い。
【0016】
なお、話者特徴量27−2bと、第1の言語確率27−2cと、第2の言語確率27−2dとは、会話が行われると会話翻訳部20の動作によって記憶される。即ち、会話の開始時、言い換えると、会話翻訳部20の動作開始の際、話者特徴量27−2bには値が記憶されていず、動作が進むにつれて、所定の値に収束する。また、会話の開始時、第1の言語確率27−2cと、第2の言語確率27−2dとには、それぞれ0.5が記憶され、動作が進むにつれて、所定の値に収束する。なお、第1の言語確率27−2cと、第2の言語確率27−2dとの和は1であり、また、動作が進むにつれて、各発話者27−2aの第1の言語確率27−2c及び第2の言語確率27−2dの一方は1に近づく。
【0017】
上記のように構成された、本発明の実施形態に係る移動通信装置の各部の機能を、図1及び図2を参照して説明する。
【0018】
移動通信網通信部12は、アンテナ12aが基地局から受信した無線信号から高周波信号を得て、この高周波信号を移動通信網送受信部13に送信する。また、移動通信網送受信部13から送信された高周波信号をアンテナ12aに送信する。
【0019】
移動通信網送受信部13は、移動通信網通信部12からの高周波信号を増幅、周波数変換及び復調し、それによって得たデジタル音声信号を音声処理部14へ、制御信号を制御部11へ、それぞれ送信する。更には、移動通信網送受信部13は、音声処理部14から送信されたデジタル音声信号と、制御部11から送信された制御信号とを変調、周波数変換及び増幅し、高周波信号を得て、それを移動通信網通信部12に送信する。
【0020】
音声処理部14は、移動通信網送受信部13から送信されたデジタル音声信号、及び、会話翻訳部20から送信されたデジタル音声信号をアナログ音声信号に変換し、それを増幅してスピーカ14aに送る。また、マイクロフォン14bが送信するアナログ音声信号を増幅し、それをデジタル音声信号に変換して移動通信網送受信部13、又は、会話翻訳部20へ送信する。なお、音声処理部14は、会話翻訳部20と音声信号を送受する際、マイクロフォン14bによって入力された、会話翻訳部20の動作に起因してスピーカ14aから発生させた音声を打ち消す処理を行う。
【0021】
表示部15は、例えばLCD(Liquid Crystal Display)の表示部であり、制御部11の制御により、使用者に操作を促す表示や、使用者が操作した内容の表示や、装置の動作状態の表示等を行う。
【0022】
入力部16は、電話番号を含む数字や文字の入力に用いられる文字・数字キーと、移動通信装置の電源のオン及びオフ等の動作指示や、発信及び着信応答等の操作指示等を入力するために用いられる複数の機能キーを備え、使用者が操作したキーを識別するコード信号を制御部11へ通知する。
【0023】
話速推定部22は、バッファ20−2に記憶された入力音声の話速を発話が続く限り、言い換えると、会話が続く限り繰り返し推定する。音素種別検出部23は、バッファ20−2に記憶された入力音声に含まれる音素出現頻度及び音素出現時間長を発話が続く限り、言い換えると、会話が続く限り繰り返し検出する。即ち、摩擦音の多少(摩擦音であることは、4kHz以上の成分が多いことによって判断される。)、有声音の多少(有声音は、基本周波数の存在によって判断される。)母音区間の長短、子音と母音との組合せ方等、発話された音素の特徴量を検出する。これらは、言語に依存した特徴量であり、かつ、マイクロフォン14bの特性に依存した周波数歪の影響が少ない。
【0024】
話速正規化部24は、音素種別検出部23によって検出された特徴量を、話速推定部22によって推定された話速によって正規化し、正規化された音素出現頻度及び音素出現時間長を発話が続く限り、言い換えると、会話が続く限り繰り返し算出し、入力音声の言語特徴量とする。
【0025】
言語判定部25は、話速正規化部24によって算出された入力音声の言語特徴量を、言語辞書25−2に記憶された言語特徴量25−2bと比較することによって、入力音声は、第1の言語である確率であるPl(La)と、第2の言語である確率Pl(Lb)とを算出する。なお、この算出は、発話が続く限り、言い換えると、会話が続く限り繰り返し行われるが、発話の開始から短時間、例えば、1秒以内の入力音声によって行なわれた算出結果が翻訳方向判定部28によって参照される。ここで、発話の開始は、入力音声の音量が所定の発話開始音量閾値以上であることによって判断される。また、発話の終了は、所定の発話終了時間閾値以上に渡って入力音声の音量が発話終了音量閾値未満であることによって判断される。
【0026】
話者特徴量算出部26は、バッファ20−2に記憶された入力音声の話者特徴量を発話が続く限り、言い換えると、会話が続く限り繰り返し算出する。話者判定部27は、第1に、発話が続く限り、言い換えると、会話が続く限り繰り返し話者辞書27−2の学習をする。ここで、学習とは、話者辞書27−2に値を学習更新記憶させることによって行われる。
【0027】
即ち、話者判定部27は、話者特徴量算出部26によって算出された話者特徴量(以後、この話者特徴量は、話速推定部22によって推定された話速を含んでも良い。)と2つの話者特徴量27−2bとを比較して、算出された話者特徴量と近い話者特徴量27−2bである発話者27−2aを得る。そして、その発話者27−2aの話者特徴量27−2bを話者特徴量算出部26によって算出された話者特徴量によって学習し、学習された話者特徴量を話者特徴量27−2bに更新記憶させる。
【0028】
更に、話者判定部27は、言語判定部25によって判定された言語が第1の言語である場合、その発話者27−2aの第1の言語確率27−2cを増やし、第2の言語確率27−2dを減らす。その言語が第2の言語である場合、その発話者27−2aの第1の言語確率27−2cを減らし、第2の言語確率27−2dを増やす。
【0029】
なお、会話の開始の際、2つの話者特徴量27−2bには値が記憶されていない。そこで、話者判定部27は、会話の最初の発話の発話者27−2aは、第1の話者であるとして、話者特徴量算出部26によって算出された話者特徴量を発話者27−2aが「第1の話者」である話者特徴量27−2bとして新規記憶させる。
【0030】
また、少なくとも発話者27−2aが「第1の話者」である話者特徴量27−2bが新規記憶された直後には、発話者27−2aが「第2の話者」である話者特徴量27−2bには値が記憶されていない。その際、話者判定部27は、話者特徴量算出部26によって算出された話者特徴量と、発話者27−2aが「第1の話者」である話者特徴量27−2bとを比較して発話者が第1の話者であるか否かの認証を行って、話者は第1の話者か、第2の話者かを判定する。そして、第1の話者と判定された場合、発話者27−2aが「第1の話者」である話者辞書27−2に値を学習記憶させる。一方、第2の話者と判定された場合、発話者27−2aが「第2の話者」である話者辞書27−2に値を新規記憶させる。
【0031】
話者判定部27は、第2に、発話者の判定を介して発話された言語の判定を行う。即ち、話者特徴量算出部26によって算出された話者特徴量を、話者辞書27−2に記憶された話者特徴量27−2bと比較することによって、発話者の判定を行い、発話者27−2aが「第1の話者」である確率と、「第2の話者」である確率とを求める。更に、それぞれの確率を対応する第1の言語確率27−2cと乗算した積を加えることにより、発話が第1の言語である確率Ps(La)を求める。更に、それぞれの確率を対応する第2の言語確率27−2dと乗算した積を加えることにより、発話が第2の言語である確率Ps(Lb)を求める。なお、この算出は、発話の開始から短時間、例えば、1秒以内の入力音声によって発話の開始毎に行なわれ、算出結果が翻訳方向判定部28によって参照される。
【0032】
ここで、話者特徴量27−2bの学習及び話者特徴量27−2bを参照した判定は、ベクトル量子化や、混合ガウス分布等の手法による統計量モデルに従う。また、判定は、線形判別や、サポートベクトルマシン(SVM、Support Vector Machine)等の判定モデルに従っても良い。
【0033】
以上の説明で、話者判定部27の動作は、学習動作と、判定動作とに分けられるとしたが、これは、動作の理解を容易にするためである。これらの動作は、共通な動作を含んでいるので、当然に、適宜共通な動作を共用して良い。
【0034】
ここで、会話翻訳部20の動作開始直後は、話者特徴量27−2bには値が記憶されていない可能性がある。また、話者特徴量27−2bと、第1の言語確率27−2cと、第2の言語確率27−2dとは、発話の度に行われる学習のために大きく変化する可能性があるので、話者判定部27は、話者の認証等の如何なる処理によっても妥当な確率Ps(La)と、確率Ps(Lb)とを得られない。学習処理が進み、話者特徴量27−2bと、第1の言語確率27−2cと、第2の言語確率27−2dとの値が収束するに従って、確率Ps(La)と、Ps(Lb)とは妥当な値が得られる。即ち、話者判定部27は、発話者の発話は、第1の言語であるか第2の言語であるかを正しく判定することができる。
【0035】
翻訳方向判定部28は、言語判定部25によって算出された、入力音声が第1の言語である確率であるPl(La)及び第2の言語である確率Pl(Lb)と、話者判定部27によって算出された、入力音声が第1の言語である確率であるPs(La)及び第2の言語である確率Ps(Lb)とから、入力音声が第1の言語であるか、第2の言語であるかを判定する。そして、翻訳方向を判定する。即ち、入力音声が第1の言語であれば、翻訳方向は、第1の言語から第2の言語であり、入力音声が第2の言語であれば、翻訳方向は、第2の言語から第1の言語であると判定する。
【0036】
音声翻訳部29は、翻訳方向判定部28によって判定された翻訳方向に従って、バッファ20−2に記憶された入力音声を発話の開始時の音声まで遡って読み出して翻訳し、翻訳された出力音声を音声処理部14に送信する。なお、音声翻訳部29による翻訳された音声が出力中に翻訳方法が逆である旨が入力部16の所定の操作によって入力された場合、翻訳制御部21は、翻訳方向判定部28に上記翻訳方向と逆の方向で、バッファ20−2に記憶された入力音声を発話の開始時の音声まで遡って読み出して翻訳させる。また、話者判定部27による上記発話による学習を取り消させる。
【0037】
ここで、図5に示すフローチャートを参照して、話者判定部27による学習の動作の詳細を説明する。なお、以下の動作は、2つの話者特徴量27−2bに値が記憶されている際の動作である。話者判定部27は、発話が開始されると、又は、発話の途中に学習動作を開始し(ステップS27a)、話者特徴量算出部26によって算出された話者特徴量と、言語判定部25によって判定された言語とを受信する(ステップS27b)。そして、受信された話者特徴量と、発話者27−2aが「第1の話者」である話者特徴量27−2bとの間の距離D1を算出し、更に、発話者27−2aが「第2の話者」である話者特徴量27−2bとの間の距離D2を算出する。
【0038】
そして、話者判定部27は、距離D1と、距離D2とから、上記発話の話者を判断する(ステップS27c)。この判断の詳細は後述する。第1の話者であると判断された場合、話者判定部27は、発話者27−2aが「第1の話者」である話者辞書27−2を学習更新記憶させ(ステップS27d)、ステップS27bの受信するステップに移る。なお、この更新記憶は、話者特徴量27−2bの学習更新記憶と共に、言語判定部25によって判定された言語が第1の言語である場合、第1の言語確率27−2cを増やし、第2の言語確率27−2dを減らす更新記憶が含まれる。その言語が第2の言語である場合、第1の言語確率27−2cを減らし、第2の言語確率27−2dを増やす更新記憶が含まれる。
【0039】
第2の話者であると判断された場合、話者判定部27は、発話者27−2aが「第2の話者」である話者辞書27−2を学習更新記憶させ(ステップS27e)、ステップS27bの受信するステップに移る。なお、この更新記憶は、ステップS27dの説明で述べたように、話者特徴量27−2bの学習更新記憶と共に、第1の言語確率27−2c及び、第2の言語確率27−2dの更新記憶が含まれる。
【0040】
不詳であると判断された場合、話者判定部27は、学習をせずに、即ち、話者辞書27−2の更新をすることなく、ステップS27bの受信するステップに移る。話者判定部27は、発話の終了に伴い、任意の動作ステップで学習動作を終了する(図示せず)。
【0041】
上述したステップS27cの判断の詳細を説明する。話者判定部27は、距離D1が距離D2より小さく、かつ、距離D1と、距離D2との差が所定の話者特徴量閾値以上の場合、話者は第1の話者であると判断する。また、距離D2が距離D1より小さく、かつ、距離D1と、距離D2との差が所定の話者特徴量閾値以上の場合、話者は第2の話者であると判断する。これら以外の場合、即ち、距離D1と、距離D2との差が所定の話者特徴量閾値未満の場合、話者は不詳であると判断する。
【0042】
図6は、発話の話者特徴量に依存してこれらの判断がされる概要を示す。発話pの話者特徴量について、発話者27−2aが「第1の話者」である話者特徴量27−2bとの間の距離Dp1と、発話者27−2aが「第2の話者」である話者特徴量27−2bとの間の距離Dp2とを比較する。距離Dp1は距離Dp2より小さく、かつ、それらの距離の差は、所定の話者特徴量閾値以上である。よって、発話pの話者は、第1の話者であると判断される。
【0043】
発話qの話者特徴量について、発話者27−2aが「第1の話者」である話者特徴量27−2bとの間の距離Dq1と、発話者27−2aが「第2の話者」である話者特徴量27−2bとの間の距離Dq2とを比較する。距離Dq2は距離Dq1より小さく、かつ、それらの距離の差は、所定の話者特徴量閾値以上である。よって、発話qの話者は、第2の話者であると判断される。
【0044】
発話rの話者特徴量について、発話者27−2aが「第1の話者」である話者特徴量27−2bとの間の距離Dr1と、発話者27−2aが「第2の話者」である話者特徴量27−2bとの間の距離Dr2とを比較する。距離Dr1は距離Dr2より小さいが、それらの距離の差は、所定の話者特徴量閾値未満である。よって、発話rの話者は、不詳であると判断される。
【0045】
発話sの話者特徴量について、発話者27−2aが「第1の話者」である話者特徴量27−2bとの間の距離Ds1と、発話者27−2aが「第2の話者」である話者特徴量27−2bとの間の距離Ds2とを比較する。距離Ds2は距離Ds1より小さいが、それらの距離の差は、所定の話者特徴量閾値未満である。よって、発話sの話者は、不詳であると判断される。
【0046】
このように、話者判定部27は、学習においては、話者が不詳と判断し、学習更新記憶をさせないことがある。発話者27−2aが「第2の話者」である話者特徴量27−2bに値が記憶されていない場合、同様に話者が不詳と判断し、学習更新記憶をさせないことがある。しかし、発話の開始の際、会話の冒頭の発話の際を除き、話者を判定し、その判定結果に基づいて、発話された言語の判定を行って、翻訳方向判定部28に送信する。翻訳方向判定部28が参照する情報の提供を行いつつ、かつ、話者辞書27−2を誤った方向に学習させないためである。
【0047】
ここで、図7に示すフローチャートを参照して、翻訳方向判定部28による入力音声が第1の言語であるか第2の言語であるかを判定する動作の詳細を説明する。翻訳方向判定部28は、入力部16の所定の操作に起因する制御部11の制御によって起動された翻訳制御部21によって起動されて動作を開始する(ステップS28a)。そして、入力音声が第1の言語であるか第2の言語であるかを判定する際に、話者判定部27によって算出された確率に付す重みrを0に設定する(ステップS28b)。ここで、重みrは、0以上かつ1以下の数であり(0≦r≦1)、1−rは、言語判定部25によって算出された確率に付す重みとなる。
【0048】
翻訳方向判定部28は、発話が開始されたか否かを判断し(ステップS28c)、開始されない場合、この判断する動作を繰り返す。発話が開始されたと判断された場合、発話された言語が第1の言語である確率P(La)と、第2の言語である確率P(Lb)とを、それぞれ、以下の式で算出する。
P(La)=r×Ps(La)+(1−r)×Pl(La)
P(Lb)=r×Ps(Lb)+(1−r)×Pl(Lb)
【0049】
そして、P(La)がP(Lb)より大きければ、発話された言語は第1の言語であると判定し、翻訳方向は、第1の言語から第2の言語であると判定する。P(Lb)がP(La)より大きければ、発話された言語は第2の言語であると判定し、翻訳方向は、第2の言語から第1の言語であると判定する(ステップS28d)。ここで、P(La)と、P(Lb)との差が所定の言語判定閾値未満の場合、翻訳方向判定部28は、発話された言語が第1の言語であるか第2の言語であるかの入力を促す文章や、画像を表示部15に表示させ、入力部16の操作に基づいて、翻訳方向とを判定しても良い。
【0050】
次に、翻訳方向判定部28は、重みrを修正し(ステップS28e)、ステップS28cの発話が開始されたか否かを判断する動作に移る。翻訳方向判定部28は、どの動作ステップにあるかを問わず、入力部16の所定の操作に起因する制御部11の制御に基づく翻訳制御部21の終了指示に従って動作を終了する(図示せず)。
【0051】
ここで、重みrの修正を説明する。上述したように、会話の最初の発話において、話者判定部27の判定は妥当でないことが多い。しかし、言語判定部25の判定は、会話の最初においても概ね妥当である。そこで、重みrの初期値は0とする。しかし、会話が進み、即ち、発話が繰り返されることによって、話者判定部27の判定は正確さを増す。しかし、言語判定部25の判定は、会話が進むことによって正確さを増すことはない。
【0052】
そこで、重みrは、発話が繰り返されるに従い大きな値とし、1に漸近させ、又は、1とする。ただし、繰り返された発話の回数の増加によって必ず増大させることは必ずしも適切ではない。学習処理が進むと考えられる所定の回数の及び/又は所定の時間に渡る発話が繰り返された後、また、話者特徴量27−2bを参照した話者判定部27による話者判定の確度が上がり、かつ、それぞれの発話者27−2aに対して、第1の言語確率27−2c及び第2の言語確率27−2dとの差が大きくなるにつれて増大させることが適切である。重みrを如何に増加させていくかの詳細は、会話翻訳部20内の各部の性能のみならず、マイクロフォン14bの性能に依存するので、事前の試用によって決定される。
【0053】
以上の説明で、音声翻訳部29は、翻訳結果を出力音声として出力するとしたがこれに限るものではない。音声による出力に加えて、又は、代えて、文を表示部15に表示させることによって翻訳結果を出力しても良い。また、入力部16の所定のキー操作によって翻訳結果を出力音声として出力しても良い。
【0054】
以上の説明で、言語判定部25、話者判定部27、及び、翻訳方向判定部28は、発話された言語が第1の言語である確率と、第2の言語である確率とを別個に算出するとしたが、これに限るものではない。例えば、第1の言語である確率を算出し、第2の言語である確率は、1と第1の言語である確率との差として求めても良い。しかし、上述したように別個に算出するようにすれば、発話される言語が3以上の場合であっても、発話された言語がいずれの言語であるか、全く同じように算出可能である。
【0055】
以上の説明で、会話する2人の発話者は不特定であるとしたが、これに限るものではない。例えば、発話者の1人は装置の所有者であり、所有者の母国語である第1の言語で発話するとして処理をしても良い。この場合、例えば、発話者27−2aが「第1の話者」である話者辞書27−2の話者特徴量27−2bには装置の所有者の第1の言語による発話の特徴量が、第1の言語確率27−2cには1が、第2の言語確率27−2dには0が事前に記憶される。更には、発話者27−2aが「第2の話者」である話者辞書27−2の第1の言語確率27−2cには0が、第2の言語確率27−2dには1が事前に記憶される。なぜなら、第2の話者が第1の言語で発話するなら、会話翻訳部20を動作させる必要がないからである。
【0056】
この場合、話者判定部27の判定動作は、上述した方法に代えて、又は、加えて発話者が第1の話者であるか否かの認証となる。この認証結果は、発話者27−2aが「第1の話者」である話者辞書27−2の話者特徴量27−2bに所有者の第1の言語による発話の特徴量が記憶されているので、発話者が第1の話者であるか第2の話者であるかを問わず、上述した判定よりも正しい可能性が大きい。更に、会話の最初の発話であっても、充分な正確さを持つ、即ち、Ps(La)とPs(Lb)との差が所定の値以上であり、会話の最初の発話であっても、翻訳方向判定部28は、話者判定部27の判定結果に大きく依存して翻訳方向の判定をする、極端には、話者判定部27の判定結果によって翻訳方向の判定をしても良い。言い換えれば、重みrは、上述した説明より大きい。
【0057】
なお、装置の所有者の母国語は、装置が備えるSIMカード(Subscriber Identity Module Card)に記憶された使用言語情報や、国情報から判断することができる。また、装置の所有者の第1の言語による発話の特徴量は、翻訳制御部21が会話翻訳部20を話者特徴量学習モードで動作させ、話者特徴量算出部26と話者判定部27の学習機能を動作させることによって話者辞書27−2に記憶させることができる。また、移動通信網を介した通話の際、話者特徴量算出部26を動作させ、また、話者判定部27の学習機能を動作させることによって、所有者の手を煩わすことなく話者辞書27−2に記憶させることができる。
【0058】
更に、装置の所有者であるか否かに拘らず、また、1名であるか複数名であるかを問わず、発話者となる者の音声について、事前に発話する言語が記憶され、話者特徴量の学習処理がされるとしても良い。そして、複数名について、発話する言語及び話者特徴量が記憶されている場合、翻訳制御部21は、会話に先立って、その会話の発話者となる者の選択を促す文章又は画像を表示部15に表示させ、入力部16の所定の操作に従って選択された者に係る情報に基づいて、話者特徴量27−2b、第1の言語確率27−2c、及び第2の言語確率27−2dを記憶させる。
【0059】
以上の説明で、発話の開始は、入力音声の音量が所定の発話開始音量閾値以上であることによって判断されるとしたが、これに限るものではない。例えば、入力部16の所定のキー操作によって判断されるとしても良い。表示部15がタッチパネルである場合、そのタッチパネルへの指等の接触によって判断されるとしても良い。この操作が必要である場合であっても、本発明の適用よれば翻訳方向の判定を使用者の操作によらないため、不特定の発話者によって装置が使用される場合の使い心地に大きな効果がある。
【0060】
以上の説明で、スピーカ14aと、マイクロフォン14bとは、会話翻訳部20による翻訳と、移動通信網を介した通話とで共用するとしたが、これに限るものではない。スピーカ14a及びマイクロフォン14bの片方又は両方は、翻訳用と、通話用とが別に備えられているとしても良い。
【0061】
以上の説明は、本発明を移動通信装置に適用した例を用いたが、本発明は、当然に会話の翻訳を行うあらゆる装置、例えば、PDAや、パソコン等に適用することが可能である。本発明は以上の構成に限定されるものではなく、種々の変形が可能である。
【符号の説明】
【0062】
11 制御部
14 音声処理部
14a スピーカ
14b マイクロフォン
20 会話翻訳部
21 翻訳制御部
22 話速推定部
23 音素種別検出部
24 話速正規化部
25 言語判定部
25−2 言語辞書
25−2a 言語
25−2b 言語特徴量
26 話者特徴量算出部
27 話者判定部
27−2 話者辞書
27−2a 発話者
27−2b 話者特徴量
27−2c 第1の言語確率
27−2d 第2の言語確率
28 翻訳方向判定部
29 音声翻訳部

【特許請求の範囲】
【請求項1】
第1の言語の発話から第2の言語への翻訳、及び、前記第2の言語の発話から前記第1の言語への翻訳を行う翻訳装置であって、
前記第1の言語の発話の言語特徴量と、前記第2の言語の発話の言語特徴量とを記憶する言語特徴量記憶手段と、
発話を入力する入力手段と、
前記入力手段によって入力された発話の言語特徴量を前記言語特徴量記憶手段に記憶された言語特徴量と比較することによって、その発話が前記第1の言語であるか前記第2の言語であるかを判定する言語判定手段と、
前記入力手段によって入力された発話が第1の話者による発話か第2の話者による発話かを判定した結果に従って、その発話が前記第1の言語であるか前記第2の言語であるかを判定する話者判定手段と、
前記言語判定手段による判定と、前記話者判定手段による判定とを参照して、前記入力手段によって入力された発話が前記第1の言語であるか前記第2の言語であるかを判定し、前記第1の言語であると判定された場合、前記発話を前記第1の言語から前記第2の言語に翻訳し、前記第2の言語であると判定された場合、前記発話を前記第2の言語から前記第1の言語に翻訳する音声翻訳手段とを有し、
前記音声翻訳手段は、前記入力手段によって最初に入力された発話が前記第1の言語であるか前記第2の言語であるかを前記言語判定手段による判定に従って判定する
ことを特徴とする翻訳装置。
【請求項2】
前記話者判定手段は、前記第1の話者の話者特徴量及び発話する言語の確率と、前記第2の話者の話者特徴量及び発話する言語の確率とを記憶し、前記入力手段によって入力された発話の話者特徴量を前記第1の話者の話者特徴量及び前記第2の話者の話者特徴量と比較してその発話の話者を判定し、
(a)その発話は、前記判定された話者の発話する確率の大きい言語である判定し、
(b)前記記憶された前記判定された話者の話者特徴量を前記入力された発話の話者特徴量によって学習更新すると共に、前記記憶された前記判定された話者の発話する言語の確率を前記言語判定手段によって判定されたその発話の言語によって学習更新する
ことを特徴とする請求項1に記載の翻訳装置。
【請求項3】
前記話者判定手段は、
(c)前記入力手段によって最初に入力された発話の話者特徴量を前記第1の話者の話者特徴量として記憶し、また、前記言語判定手段によって判定されたその発話の言語を前記第1の話者の言語であると記憶し、
(d)前記入力手段によって2回目以降に発話が入力され、かつ、前記第2の話者の話者特徴量が記憶されていない際、その入力された発話の話者特徴量を前記記憶された第1の話者の話者特徴量と比較することによって、その発話は前記第1の話者による発話か前記第2の話者による発話かを判定し、前記第1の話者による発話と判定された場合、その入力された発話の話者特徴量及び前記言語判定手段によって判定されたその発話の言語を参照して前記記憶された第1の話者の話者特徴量及び言語を学習記憶し、前記第2の話者による発話であると判定された場合、その入力された発話の話者特徴量を前記第2の話者の話者特徴量として記憶し、また、前記言語判定手段によって判定されたその発話の言語を前記第2の話者の言語であると記憶し、
(e)前記入力手段によって発話が入力され、かつ、前記第1の話者の話者特徴量及び前記第2の話者の話者特徴量が記憶されている場合、その入力された発話の話者特徴量を前記記憶された第1の話者の話者特徴量及び前記第2の話者の話者特徴量と比較することによって、その発話は前記第1の話者による発話か前記第2の話者による発話かを判定し、その入力された発話の話者特徴量及び前記言語判定手段によって判定されたその発話の言語を参照して、前記記憶された前記判定された話者の話者特徴量及び言語を学習記憶し、
(f)前記入力手段によって入力された発話の話者特徴量と、前記記憶された第1の話者の話者特徴量及び/又は第2の話者の話者特徴量とを比較することによって、その発話は前記第1の話者による発話か前記第2の話者による発話かを判定し、前記発話は、前記判定された話者の言語であると記憶された言語であると判定する
ことを特徴とする請求項1に記載の翻訳装置。
【請求項4】
前記音声翻訳手段は、前記入力手段によって所定の回数以後に入力された発話が前記第1の言語であるか前記第2の言語であるかを、前記言語判定手段による判定より前記話者判定手段による判定により大きい重みを付して判定する
ことを特徴とする請求項2又は請求項3に記載の翻訳装置。
【請求項5】
前記音声翻訳手段は、前記入力手段によって入力された発話が前記第1の言語であるか前記第2の言語であるかの判定の際、後に入力された発話についての判定には、前に入力された発話についての判定に比較して、前記話者判定手段による判定に小さくない重みを付し、前記言語判定手段による判定に大きくない重みを付す
ことを特徴とする請求項2又は請求項3に記載の翻訳装置。
【請求項6】
第1の言語の発話から第2の言語への翻訳、及び、前記第2の言語の発話から前記第1の言語への翻訳を行う翻訳装置であって、
前記第1の言語の発話の言語特徴量と、前記第2の言語の発話の言語特徴量とを記憶する言語特徴量記憶手段と、
前記第1の言語を発話する第1の話者の発話の話者特徴量を記憶する話者特徴量記憶手段と、
発話を入力する入力手段と、
前記入力手段によって入力された発話の言語特徴量を前記言語特徴量記憶手段に記憶された言語特徴量と比較することによって、その発話が前記第1の言語であるか前記第2の言語であるかを判定する言語判定手段と、
前記入力手段によって入力された発話の話者特徴量と、前記話者特徴量記憶手段に記憶された第1の話者の話者特徴量とを比較することによって、その発話が前記第1の話者による発話であるか否かを判定し、前記第1の話者による発話であると判定された場合、前記発話は前記第1の言語であると判定し、前記第1の話者による発話でないと判定された場合、前記発話は前記第2の言語であると判定する話者判定手段と、
前記言語判定手段による判定と、前記話者判定手段による判定とを参照して、前記入力手段によって入力された発話が前記第1の言語であるか前記第2の言語であるかを判定し、前記第1の言語であると判定された場合、前記発話を前記第1の言語から前記第2の言語に翻訳し、前記第2の言語であると判定された場合、前記発話を前記第2の言語から前記第1の言語に翻訳する音声翻訳手段と
を有することを特徴とする翻訳装置。
【請求項7】
第1の言語の発話から第2の言語への翻訳、及び、前記第2の言語の発話から前記第1の言語への翻訳を行う翻訳装置であって、
前記第1の言語を発話する第1の話者の発話の話者特徴量を記憶する話者特徴量記憶手段と、
発話を入力する入力手段と、
前記入力手段によって入力された発話の話者特徴量と、前記話者特徴量記憶手段に記憶された第1の話者の話者特徴量とを比較することによって、その発話が前記第1の話者による発話であるか否かを判定する話者判定手段と、
前記話者判定手段によって前記発話が前記第1の話者による発話であると判定された場合、前記発話を前記第1の言語から前記第2の言語に翻訳し、前記第1の話者による発話でないと判定された場合、前記発話を前記第2の言語から前記第1の言語に翻訳する音声翻訳手段と
を有することを特徴とする翻訳装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−248002(P2011−248002A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願番号】特願2010−119569(P2010−119569)
【出願日】平成22年5月25日(2010.5.25)
【出願人】(310022372)富士通東芝モバイルコミュニケーションズ株式会社 (219)
【Fターム(参考)】