説明

音声翻訳装置、方法、及びプログラム

【課題】円滑なコミュニケーションを実現できる。
【解決手段】音声翻訳装置は、入力部、音声認識部、感情認識部、平静文生成部、翻訳部、補足文生成部、及び音声合成部を含む。入力部は、第1言語の音声を音声信号に変換する。音声認識部は、音声信号を音声認識処理し文字列を生成する。感情識別部は、文字列がどの感情種別を含むかを識別して1以上の感情種別を含む感情識別情報を得る。平静文生成部は、感情に伴って語句が変化した非平静語句と、非平静語句に対応しかつ感情による変化を伴わない平静語句とを対応付けたモデルより、文字列に第1言語の非平静語句が含まれる場合、第1言語の非平静語句を対応する第1言語の平静語句に変換した平静文を生成する。翻訳部は、平静文を第2言語に翻訳した訳文を生成する。補足文生成部は、感情識別情報の感情種別を第2言語で説明する補足文を生成する。音声合成部は、訳文と補足文とを音声信号に変換する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声を翻訳する音声翻訳装置、方法、及びプログラムに関する。
【背景技術】
【0002】
異なる言語を母語とする人同士のコミュニケーションを支援する音声翻訳装置がある。音声翻訳装置は、音声認識をおこない、音声認識の結果得られた文字列を翻訳し、翻訳の結果得られた文字列を音声で合成することで、ある言語から他の言語に翻訳することができる。また、一般に人同士のコミュニケーションにおいては、話し手は様々な状況に応じて感情の起伏(怒り、悲しみ、喜びなど)を伴う発話をおこなう場合がある。このような場合には、話し手の感情を含めた音声翻訳をおこなうことにより、聞き手に対して話し手の感情を伝えることができる。
【0003】
しかしながら、話し手の感情を直接音声合成に反映して翻訳をおこなった場合に、かえって円滑なコミュニケーションが阻害される場合がある。例えば、話し手が怒って発話している場合には、その怒りの感情まで含めた音声合成を聞き手に伝えることは、感情の衝突を招く可能性があり、コミュニケーション上好ましくない。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−243043号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、上述の課題を解決するためになされたものであり、円滑なコミュニケーションを提供することができる音声翻訳装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本実施形態に係る音声翻訳装置は、入力部、音声認識部、感情認識部、平静文生成部、翻訳部、補足文生成部、及び音声合成部を含む。入力部は、第1言語の音声の入力を受け付け、該音声を音声信号に変換する。音声認識部は、前記音声信号について音声認識処理をおこなって文字列を生成する。感情識別部は、前記音声信号および前記文字列の少なくとも1つを用いて、該文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成する。平静文生成部は、感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第1モデルを参照して、前記文字列に前記第1言語の非平静語句が含まれる場合、該第1言語の非平静語句を、対応する該第1言語の平静語句に変換した平静文を生成する。翻訳部は、前記平静文を前記第1言語とは異なる第2言語に翻訳した訳文を生成する。補足文生成部は、前記感情識別情報に含まれる感情種別を前記第2言語で説明する補足文を生成する。音声合成部は、前記訳文と前記補足文とを音声信号に変換する。
【図面の簡単な説明】
【0007】
【図1】本実施形態に係る音声翻訳装置の示すブロック図。
【図2】感情を伴う発話に関する話し手の音声モデルの概念図。
【図3】本実施形態に係る音声認識部を示すブロック図。
【図4】本実施形態に係る平静文生成部を示すブロック図。
【図5】平静文生成処理に用いる非平静文と平静文との間のアライメントの一例を示す図。
【図6】本実施形態に係る感情認識部を示すブロック図。
【図7】本実施形態に係る機械翻訳部を示すブロック図。
【図8】日本語文と英語文とのアライメントの一例を示す図。
【図9】本実施形態に係る補足文生成部を示すブロック図。
【図10】本実施形態に係る感情重畳部を示すブロック図。
【図11】本実施形態に係る音声翻訳装置の動作を示すフローチャート。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら本実施形態に係る音声翻訳装置、方法、及びプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態に係る音声翻訳装置について図1のブロック図を参照して説明する。
本実施形態に係る音声翻訳装置100は、音声入力部101(単に入力部ともいう)、音声認識部102、平静文生成部103、感情認識部104、機械翻訳部105(単に翻訳部ともいう)、補足文生成部106、感情重畳部107(単に重畳部ともいう)、音声合成部108、音声出力部109、制御部110、音声認識辞書111、文平静化辞書112、感情認識辞書113、機械翻訳辞書114、補足文辞書115、および感情重畳辞書116を含む。
【0009】
音声入力部101は、マイクなどの集音機器からある言語(第1言語ともいう)で発話された音声を受け取り、音声信号に変換する。
音声認識部102は、音声入力部101から音声信号を受け取り、後述する音声認識辞書111を参照して、音声認識をおこない、音声信号に対応する文字列を生成する。
平静文生成部103は、音声認識部102から文字列を受け取り、後述する文平静化辞書112を参照して、文字列に含まれる非平静語句を平静語句に変換して平静文を生成する。非平静語句は、感情に伴って語句が変化した語句であり、平静語句は、非平静語句に対応してかつ感情による変化を伴わない語句である。非平静語句、平静語句、および平静文の詳細については図4を参照して後述する。
【0010】
感情認識部104は、音声入力部101から音声信号を、音声認識部102から文字列をそれぞれ受け取る。感情認識部104は、後述する感情認識辞書113を参照して、音声信号および文字列の少なくとも1つを用いて、文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成する。感情種別は、例えば、怒り、悲しみ、喜び、驚きといった感情の種類である。感情認識部104の詳細については図6を参照して後述する。
機械翻訳部105は、平静文生成部103から平静文を受け取り、後述する機械翻訳辞書114を参照して、平静文を音声認識部102で認識した第1言語とは別の言語(第2言語ともいう)に翻訳し訳文を生成する。
補足文生成部106は、後述する制御部110から指示信号を受け取った場合は、感情認識部104から感情識別情報を受け取り、後述する補足文辞書115を参照して感情識別情報に対応する補足文を生成する。補足文生成部106の詳細については図9を参照して後述する。
感情重畳部107は、制御部110から指示信号を受け取った場合は、機械翻訳部105から訳文を、感情認識部104から感情識別情報をそれぞれ受け取り、後述する感情重畳辞書116を参照して、訳文に含まれる第2言語の平静語句を、感情識別情報に応じた第2言語の非平静語句に変換した訳文を示す感情重畳訳文を生成する。感情重畳部107の詳細については図10を参照して後述する。
【0011】
音声合成部108は、機械翻訳部105から訳文を、補足文生成部106から補足文を、感情重畳部107から感情重畳訳文をそれぞれ受け取り、それぞれの文について音声信号を生成する。
音声出力部109は、音声合成部108から音声信号を受け取り、音声信号を音声に変換して外部に出力する。
制御部110は、音声翻訳装置100の全体の動作を制御する。例えば、制御部110は、音声として外部に出力される文字列として、感情識別情報に応じて、感情重畳訳文を生成するか、補足文を生成させて訳文に付加させるか、または感情重畳訳文および補足文を生成し感情重畳訳文に補足文を付加するかを選択する。制御部110は、選択した結果により、補足文の生成を指示する指示信号を補足文生成部106へ、感情重畳訳文の生成を指示する指示信号を感情重畳部107へ送る。
外部に出力される文字列の選択方法としては、例えば、感情識別情報が正の感情種別を示す場合、制御部は、感情重畳訳文を生成するように制御し、感情識別情報が負の感情種別を示す場合は、補足文を生成するように制御する。
【0012】
音声認識辞書111は、第1言語の単語辞書および言語モデルを格納し、音声認識処理の際に参照される。
文平静化辞書112は、第1言語のフィラー辞書、翻訳モデル、および言語モデルを格納しており、平静文生成処理の際に参照される。
感情認識辞書113は、第1言語の音声辞書および文字列辞書を格納しており、感情認識処理の際に参照される。
機械翻訳辞書114は、第1言語から第2言語への翻訳モデルおよび第2言語の言語モデルを格納しており、翻訳処理の際に参照される。
補足文辞書115は、第2言語による感情種別と対応する感情を説明した説明文とが格納され、補足文生成処理の際に参照される。
感情重畳辞書116は、第2言語のフィラー辞書、翻訳モデル、および言語モデルを格納しており、感情重畳処理の際に参照される。
【0013】
次に、感情を伴う発話に関する話し手の音声モデルについて図2を参照して説明する。
話し手が発話しようとしている伝えたい内容201は、話し手の感情202の影響を受けて、内容201に感情202が重畳され、感情の起伏を伴う文表現203に変形する。さらに、感情の起伏を伴う文表現203に感情202が重畳されることで、感情202に応じて音量などが変化した感情の起伏を伴う音声204、すなわち非平静文として発話されることになる。音声入力部101および音声認識部102で取得可能な信号は、感情の起伏を伴う音声204であるので、この音声204から伝えたい内容201と感情202とを推測する必要がある。
【0014】
次に、音声認識部102の詳細について図3を参照して説明する。なお、以下では、第1言語が日本語、第2言語が英語である場合を想定する。
音声認識部102は、特徴量抽出部301、音響モデル算出部302、およびデコーダ303を含む。また、音声認識辞書111は、単語辞書304および言語モデル305を含む。
特徴量抽出部301は、音声入力部101から音声信号を受け取り、メル周波数ケプストラム係数などの特徴量を抽出する。
音響モデル算出部302は、特徴量抽出部301から特徴量を受け取り、単語辞書304を参照して、音声信号に含まれている可能性のある単語に対する音響モデルを算出する。
デコーダ303は、音響モデル算出部302から音響モデルを受け取り、言語モデル305を参照して、音響モデルに最も近い言語モデルを音声認識結果の文字列として生成する。
単語辞書304は、予め収集した音声データを分析して得られる、各単語の表記と、音素の構成情報と、音素と特徴量との類似度を示す確率値とをそれぞれ対応付けた日本語の単語情報を格納する。例えば、「うーん uun(確率値1)」「そんな sonnna(確率値2)」のように日本語の単語情報が格納される。
【0015】
言語モデル305は、発話の可能性のある文を大量に収集したコーパスを予め分析することにより、非平静語句を含む文である非平静文について、単語列と単語列の出現のしやすさを示す確率値とを対応付けた情報を格納する。例えば、「うーん/そんな/こと(確率値5)」「そんな/こと/あり(確率値6)」のように格納される。
一般的に、任意の文の発話を認識する処理は大語彙連続音声認識と呼ばれる。大語彙連続音声認識は、音声信号系列Xを入力として、条件付き確率P(V|X)を最大化するような単語系列Vを探索する問題として定式される。すなわち、大語彙連続音声認識とは、以下の式(1)を計算することと同じである。
【数1】

【0016】
ここで、単語系列Vが式1のW、音声信号系列Xが式(1)のVに対応している。また、式(1)は、ベイズの定理により式(2)に変形することができる。式(2)をノイジーチャネルモデルという。
【数2】

【0017】
よって、音声信号系列Xを入力としてP(X|V)P(V)を最大化する単語系列Vを実行する問題と捉えることが可能である。大語彙連続音声認識アルゴリズムは、式(2)に従って単語系列Vを求める既存のアルゴリズムを用いればよい。
【0018】
図3において、音響モデル算出部302において算出される音響モデルは、P(X|V)で表され、単語系列Vに対する音声信号系列Xの条件付き確率値である。一方、言語モデルは、P(V)で表され、単語系列Vの出現のしやすさに関する確率値である。デコーダ303は、確率で表せば、P(X|V)P(V)を最大にする単語系列Vを探索する処理をおこなう。P(X|V)ならびにP(V)は、データとして記憶されているので、P(X|V)P(V)を最大化する単語系列Vを求めるために、単語系列Vのすべての組み合わせを取って総当りで求めることは可能である。しかし、全ての組み合わせから最適な単語系列Vを計算するには時間がかかるため、線形計画法の一種であるビタビアルゴリズムや可能性の高い組み合わせに絞り込んで探索をおこなうビームサーチアルゴリズムなどを組み合わせることが望ましい。
【0019】
次に、平静文生成部103の詳細について図4を参照して説明する。
平静文生成部103はデコーダ401を含む。また、文平静化辞書112は、フィラー辞書402、翻訳モデル403、および言語モデル404を含む。
デコーダ401は、音声認識部102から音声認識結果の文字列を受け取り、フィラー辞書402、翻訳モデル403、および言語モデル404をそれぞれ参照して、平静文を生成する。
【0020】
フィラー辞書402は、日本語のフィラーを格納する。フィラーは、つなぎ語、または会話で間投詞的に使われるあまり意味をもたない語句である。例えば、「あー」「えーっと」「うーん」といった単語が挙げられる。
翻訳モデル403は、非平静文と対応する平静文とをコーパスとして格納し、非平静文と平静文との間の単語の対応付け(アライメント)なされる。図4の例では、非平静語句と、非平静語句に対応する平静語句と、非平静語句と平静語句との類似度を示す確率値とが対応付けて格納される。具体的には、「“ねー” “ない” (確率値1)」「“やっぱり” “やはり” (確率値2)」といったように非平静語句と平静語句とが対応付けられて格納される。
【0021】
言語モデル404は、平静文を収集したコーパスに基づいて、単語列の生起確率を格納する。例えば、「あり/え/ない(確率値4)」「こと/は/あり(確率値5)」のように格納される。
【0022】
非平静文を取得して平静文へ変換するモデルは、統計翻訳で用いられているノイジーチャネルモデルを用いて定式化することができる。つまり、非平静文Vが観測された時に、それに対応する最も適切な平静文Wを求めるということから、式(1)に示すようにP(W|V)を最大にするWを推定するという問題となる。式(1)は、ベイズの定理により式(2)を満足するWを推定する問題と等価であるから、P(V|W)は非平静文から平静文への翻訳モデル403、P(W)は平静文についての言語モデル404となる。
【0023】
式(2)のノイジーチャネルモデルに対して、以下の式(3)のような対数線形モデルを用いることで精度向上を図る手法がある(Graham Neubig, et al., A WFST-based Log-linear Framework for Speaking-style Transformation, Proc INTERSPEECH 2009, pp.1495-1498参照)。
【数3】

【0024】
ノイジーチャネルモデルでは、翻訳モデルP(V|W)と言語モデルP(W)とが同じ重みで計算するモデルとなっているが、対数線形モデルでは、それぞれの重みを設定することができ、さらには以下の式(4)のように他の手掛かりも使って最適なWを求めることができる。
【数4】

【0025】
(V, W)(nは自然数)はもはや確率値である必要はなく、一般の語またはフィラーが挿入されたり削除されたりする際のペナルティのような連続値も手掛かりとすることができる。また、重みα、β、γ等は、学習データに基づいて最も精度がよくなるような重みの組み合わせを予め決定しておく。
【0026】
次に、平静文生成部103における平静文生成処理について図5を参照して説明する。
平静文生成部103のデコーダ401は、翻訳モデル403を用いて、例えばアライメント501の非平静文「うーんそんなことありえねー」という文を対応する平静文に変換する。具体的には、「うーん」というフィラーを削除し、「そんなこと」を「そんなことは」と助詞を挿入し、非平静語句「ねー」を対応する平静語句「ない」と変換する。こうすることで、デコーダ401は「そんなことはありえない」という平静文を生成することができる。
【0027】
次に、感情認識部104の詳細について図6を参照して説明する。
感情認識部104は、音声感情識別部601、表現感情識別部602、および感情識別部を含む。
音声感情識別部601は、音声入力部101から音声信号を、感情認識辞書113から音声信号の確率モデル(P(E|音声信号))をそれぞれ受け取る。音声感情識別部601は、音声信号の信号強度と基本周波数パターン(Fパターン)とに基づいて感情種別を識別し、音声感情候補を生成する。例えば、怒りの感情の場合または喜びの感情の場合といった興奮時には、音声信号の基本周波数が高くなり、音声信号のパワーも大きくなる傾向がある。一方、悲しみの感情の場合は、音声信号の基本周波数が低くなり、音声信号のパワーは小さくなる傾向にある。よって、基本周波数の平均値からの差、音声信号の平均値からの差、または、発話の開始点、発話の終了点、中間点など各点における基本周波数と基本周波数の平均値との差などを特徴パラメータとして、感情種別を識別することができる。
【0028】
表現感情識別部602は、音声認識部102から音声認識結果の文字列を、感情認識辞書113から文字列の確率モデル(P(E|文字列))をそれぞれ受け取り、文字列に使用されている語句や文末の表現から、感情認識辞書に基づいて感情種別を識別して表現感情候補を生成する。例えば、感情識別に有効な表現パターンを感情種別ごとに感情認識辞書113に用意し、入力文にその表現パターンが存在するかどうかを判定することによって感情識別をおこなう手法があり、本実施形態でもこの手法を用いることができる(松本和幸他,感情生起事象文型パターンに基づいた会話文からの感情推定方法,自然言語処理,Vol.14,No.3,pp.239-271参照)。
【0029】
感情識別部603は、音声感情識別部601から音声感情候補を、表現感情識別部602から表現感情候補をそれぞれ受け取り、音声感情候補のスコアと表現感情候補のスコアとの相加平均を取ることにより、最もスコアの大きい感情を感情識別情報として生成する。具体例として、図6に示すように、感情種別の中で、音声感情候補として、「怒り」が「0.80」、「喜び」が「0.20」であり、表現感情候補として、「怒り」が「0.90」、「悲しみ」が「0.10」となっている。よって、音声感情候補と表現感情候補との相加平均を取ると「怒り」の「0.85」が最もスコアが大きいため、感情識別情報として感情種別「怒り」が得られる。
なお、感情識別情報は、最もスコアの大きい感情種別を選択する場合に限らず、スコアの大きい順に任意の数の感情種別を選択してもよいし、全ての感情種別を選択してもよい。また、ここでは相加平均により最終的なスコアを算出したが、どちらかの候補に重み付けをしてから加算するなどしてもよい。
【0030】
さらに、上述した例では、感情識別情報が音声感情候補と表現感情候補との相加平均から生成されるが、これに限らず、音声感情候補または表現感情候補のどちらか1つを感情識別情報としてもよい。その際、感情識別部603は、音声感情候補または表現感情候補のどちらか1つを選択して感情識別情報として生成すればよい。
【0031】
次に、機械翻訳部105の動作について図7を参照して説明する。
機械翻訳部105は、デコーダ701を含む。また、機械翻訳辞書114は、翻訳モデル702および言語モデル703を含む。
デコーダ701は、平静文の文字列を受け取り、翻訳モデル702と言語モデル703とを参照して訳文を生成する。
翻訳モデル702は、日本語文との英語文のアライメント情報から予めに計算される日本語の単語と英単語との対応データを格納する。
言語モデル703は、英語文のコーパスから、単語連接の生起確率を求めたデータ集合を格納する。
【0032】
機械翻訳処理は、一般的な手法を用いればよい。具体的には、デコーダ701が、翻訳モデル702ならびに言語モデル703のそれぞれから得られる翻訳モデルの確率値P(W|T)の対数値、言語モデルの確率値P(T)の対数値、英語文には対応する単語がない日本語の単語を削除する場合の削除ペナルティ、日本語文には対応する単語がないために英単語を挿入する場合の挿入ペナルティ、および、対応する日本語の単語と英単語との間の文中の位置ずれ(ひずみ量)についての生起確率の対数値などの相加平均を最大にする英単語列Tを探索することによって訳文を得る。
【0033】
ここで、翻訳モデル702に格納される日本語文と英語文とのアライメントの一例について図8を参照して説明する。
例えば、アライメント801では、日本語文「すばらしい」は、対応する英語文では「That’s amazing.」と訳され、「that’s」の部分が挿入される。同様に、アライメント802では、日本語文「我慢できない。」は、英語文「i can’t stand it.」と訳され、「i」と「it」とが挿入される。
【0034】
次に、補足文生成部106の詳細について図9を参照して説明する。
補足文生成部106は、対応文取得部901を含む。
対応文取得部901は、制御部110からの指示に従って、感情認識部104から感情識別情報を受け取り、補足文辞書115から感情識別情報に対応する説明文を取得して補足文を生成する。具体的には、補足文辞書115には、感情種別「怒り」には「the partner seems to get angry.」という説明文が対応づけられ、感情種別「あせり」には「could you hurry up.」という説明文が対応付けられる。この感情種別に対応する説明文を取得することにより、翻訳文から話し手がどのような感情で発言したかという補足文を生成することができる。
なお、感情識別情報に含まれる感情種別を補足文と共に提示する場合は、感情種別の確率値を提示してもよい。例えば、感情種別「怒り」の確率値「0.80」であれば、「怒り 80%」とすればよい。また、感情識別情報に含まれる感情種別が複数ある場合も同様に、「怒り」と「いらだち」との2種類であれば、「怒り 80%,いらだち 15%」と提示してもよい。このようにすることで、話し手の微妙な感情表現を的確に提示することができる。
【0035】
次に、感情重畳部107の動作について図10を参照して説明する。
感情重畳部107は、デコーダ1001を含む。また、感情重畳辞書116は、フィラー辞書1002、翻訳モデル1003、および言語モデル1004を含む。
フィラー辞書1002は、英語のフィラーを感情種別ごとに格納する。
翻訳モデル1003は、感情種別ごとに英語の非平静文と平静文との間の対訳コーパスに基づいて対応単語間のアライメント情報を算出し、感情種別ごとにそれぞれ格納する。
言語モデル1004は、英語の非平静文を収集したコーパスを感情種別ごとに用意し、単語列の生起確率を感情種別ごとに格納する。
【0036】
デコーダ1001は、機械翻訳部105から訳文を受け取り、制御部110からの指示に従って、フィラー辞書1002、翻訳モデル1003、および言語モデル1004のそれぞれに基づいて、感情重畳訳文となるように単語列Sを組み合わせ候補から検索する。具体的には、デコーダ1001は、翻訳モデル1003および言語モデル1004のそれぞれから得られる、翻訳モデルの確率値P(T|S)の対数値および言語モデルの確率値P(S)の対数値、生成する非平静文には対応する単語がないが平静文には単語が存在するため削除する場合の削除ペナルティ、および平静文には対応する単語が存在しないため非平静文に単語を挿入する場合の挿入ペナルティの相加平均を最大化する単語系列Sを検索することによって、感情重畳訳文を生成する。
具体的には、デコーダ1001に訳文として「That’s amazing.」が入力され、感情識別情報が「驚き」の感情種別を示す場合を想定する。フィラー辞書1002から驚きを表すフィラー「wow,」が選択され、言語モデル1004に格納される英語の非平静文の生起確率から「that’s amazing!」が選択されることにより、訳文「That’s amazing.」が感情重畳訳文「Wow, that’s amazing!」と変換される。
【0037】
次に、本実施形態に係る音声翻訳装置の動作について図11のフローチャートを参照して説明する。
ステップS1101では、音声認識部102が、入力された音声について音声認識をおこなって文字列を得る。
ステップS1102では、平静文生成部103が、音声認識結果の文字列について、平静文生成処理をおこない平静文を生成する。
ステップS1103では、感情認識部104が、音声認識結果の文字列および音声信号に基づいて感情識別情報を生成する。
ステップS1104では、機械翻訳部105が、平静文について機械翻訳をおこない、訳文を得る。
【0038】
ステップS1105では、制御部110が、感情重畳訳文を生成するかどうかを判定する。判定は、例えば、「喜び」や「驚き」といった正の感情である感情種別の場合は、平静文である訳文に感情を反映させた方がコミュニケーションの観点から好ましい。よって、感情識別情報が正の感情種別である場合に感情重畳訳文を生成すると判定する。感情重畳訳文を生成する場合は、ステップS1106へ進み、感情重畳訳文を生成しない場合は、ステップS1107へ進む。
ステップS1106では、感情重畳部107が、感情重畳訳文を生成する。
【0039】
ステップS1107では、制御部110が、補足文の生成をおこなうかどうかを判定する。この補足文の生成判定は、例えば、「怒り」や「いらだち」といった負の感情である感情種別の場合は、平静文である訳文のままとし、新たに感情を反映させない方がコミュニケーションの観点から好ましい。よって、感情識別情報が負の感情種別である場合に補足文を生成すると判定する。補足文の生成をおこなう場合は、ステップS1108へ進み、補足文の生成をおこなわない場合は、ステップS1109へ進む。
ステップS1108では、補足文生成部106が、感情識別情報に基づいて感情種別に対応する説明文から補足文を生成する。
【0040】
ステップS1109では、音声合成部108が、感情重畳訳文がある場合は、感情重畳訳文を音声合成処理し、補足文がある場合は、制御部110により訳文に補足文が付加された文を音声合成処理する。
なお、図示しないが、感情識別情報として正の感情種別と負の感情種別とが含まれる場合、制御部110が、感情重畳訳文と補足文との両方を生成するように制御してもよい。例えば、感情識別情報として負の感情種別「怒り」と正の感情種別「喜び」とが含まれる場合を想定する。このとき出力される文字列として感情重畳訳文のみであれば、「怒り」の感情がこもった訳文が提示されることとなるが、補足文により「喜び」の感情も含まれることが聞き手が認識できれば、話し手の微妙な感情を聞き手に伝えることができるため、より円滑なコミュニケーションをおこなうことができる。この場合、制御部110は、感情重畳訳文に補足文を付加するように制御すればよく、音声合成部108は、感情重畳訳文に補足文を付加した文を音声合成処理すればよい。
【0041】
また、本実施形態では、制御部110からの指示信号により、補足文生成部106が補足文を生成し、感情重畳部107が感情重畳訳文を生成する動作をおこなうが、制御部110の指示によらず、全ての音声結果の文字列に対して補足文と感情重畳訳文とが生成されてもよい。
【0042】
以上に示した実施形態によれば、話し手が感情を込めて発話した場合に、感情を取り去った訳文を提示したり、訳文に感情を重畳した文を提示したり、感情を表現する補足情報を訳文と共に提示したりすることで、異なる言語を母語とする聞き手との円滑なコミュニケーションを実現することができる。
【0043】
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0044】
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
【0045】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0046】
100・・・音声翻訳装置、101・・・音声入力部、102・・・音声認識部、103・・・平静文生成部、104・・・感情認識部、105・・・機械翻訳部、106・・・補足文生成部、107・・・感情重畳部、108・・・音声合成部、109・・・音声出力部、110・・・制御部、111・・・音声認識辞書、112・・・文平静化辞書、113・・・感情認識辞書、114・・・機械翻訳辞書、115・・・補足文辞書、116・・・感情重畳辞書、201・・・内容、202・・・感情、203・・・文表現、204・・・音声、301・・・特徴量抽出部、302・・・音響モデル算出部、303,01,701,1001・・・デコーダ、304・・・単語辞書、305,404,703,1004・・・言語モデル、402,1002・・・フィラー辞書、403,702,1003・・・翻訳モデル、501,502,503,801,802,803・・・アライメント、601・・・音声感情識別部、602・・・表現感情識別部、603・・・感情識別部、901・・・対応文取得部。

【特許請求の範囲】
【請求項1】
第1言語の音声の入力を受け付け、該音声を音声信号に変換する入力部と、
前記音声信号について音声認識処理をおこなって文字列を生成する音声認識部と、
前記音声信号および前記文字列の少なくとも1つを用いて、該文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成する感情認識部と、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第1モデルを参照して、前記文字列に前記第1言語の非平静語句が含まれる場合、該第1言語の非平静語句を、対応する該第1言語の平静語句に変換した平静文を生成する平静文生成部と、
前記平静文を前記第1言語とは異なる第2言語に翻訳した訳文を生成する翻訳部と、
前記感情識別情報に含まれる感情種別を前記第2言語で説明する補足文を生成する補足文生成部と、
前記訳文と前記補足文とを音声信号に変換する音声合成部と、を具備することを特徴とする音声翻訳装置。
【請求項2】
前記感情種別ごとに前記第2言語の非平静語句と該第2言語の平静語句とを対応付けた第2モデルと、前記感情種別ごとのフィラーとを参照し、前記訳文に含まれる該第2言語の平静語句を、前記感情識別情報に応じた前記第2言語の非平静語句に変換した訳文を示す感情重畳訳文を生成する重畳部をさらに具備し、
前記音声合成部は、前記感情重畳訳文を音声信号に変換することを特徴とする請求項1に記載の音声翻訳装置。
【請求項3】
前記感情識別情報に応じて、前記感情重畳訳文を生成するか、前記補足文を生成して前記訳文に付加するか、または、前記感情重畳訳文および前記補足文を生成して該感情重畳訳文に前記補足文を付加するかを選択するように制御する制御部をさらに具備する請求項2に記載の音声翻訳装置。
【請求項4】
前記制御部は、前記感情識別情報が正の感情種別を示す場合、感情重畳訳文を生成するように制御し、該感情識別情報が負の感情種別を示す場合、前記補足文を生成して前記訳文に付加するように制御することを特徴とする請求項3に記載の音声翻訳装置。
【請求項5】
前記制御部は、前記感情識別情報に正の感情を示す感情種別と負の感情を示す感情種別とが含まれる場合、前記感情重畳訳文に前記補足文を付加するように制御することを特徴とする請求項3に記載の音声翻訳装置。
【請求項6】
前記感情識別情報は、1以上の感情種別と、該感情種別の確率値とがそれぞれ対応付けられた情報であることを特徴とする請求項1に記載の音声翻訳装置。
【請求項7】
前記感情認識部は、
前記音声信号の信号強度および該音声信号の基本周波数の高低を用いて、前記文字列の感情種別を識別し、識別した1以上の感情種別を音声感情候補として生成する音声感情認識部と、
前記音声感情候補を感情識別情報として生成する感情識別部と、を具備することを特徴とする請求項1に記載の音声翻訳装置。
【請求項8】
前記感情認識部は、
前記文字列の語句および該文字列の文末表現を用いて、前記文字列の感情種別を識別し、識別した1以上の感情種別を表現感情候補として生成する表現感情識別部と、
前記表現感情候補を感情識別情報として生成する感情識別部と、を具備することを特徴とする請求項1に記載の音声翻訳装置。
【請求項9】
第1言語の音声の入力を受け付け、該音声を音声信号に変換し、
前記音声信号について音声認識処理をおこなって文字列を生成し、
前記音声信号および前記文字列の少なくとも1つを用いて、該文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成し、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第1モデルを参照して、前記文字列に前記第1言語の非平静語句が含まれる場合、該第1言語の非平静語句を、対応する該第1言語の平静語句に変換した平静文を生成し、
前記平静文を前記第1言語とは異なる第2言語に翻訳した訳文を生成し、
前記感情識別情報に含まれる感情種別を前記第2言語で説明する補足文を生成し、
前記訳文と前記補足文とを音声信号に変換することを具備することを特徴とする音声翻訳方法。
【請求項10】
コンピュータを、
第1言語の音声の入力を受け付け、該音声を音声信号に変換する入力手段と、
前記音声信号について音声認識処理をおこなって文字列を生成する音声認識手段と、
前記音声信号および前記文字列の少なくとも1つを用いて、該文字列がどの感情種別を含むかを認識し、認識した1以上の感情種別を含む感情識別情報を生成する感情認識部と、
感情に伴って語句が変化した非平静語句と、該非平静語句に対応してかつ感情による変化を伴わない語句を示す平静語句とを対応付けた第1モデルを参照して、前記文字列に前記第1言語の非平静語句が含まれる場合、該第1言語の非平静語句を、対応する該第1言語の平静語句に変換した平静文を生成する平静文生成手段と、
前記平静文を前記第1言語とは異なる第2言語に翻訳した訳文を生成する翻訳手段と、
前記感情識別情報に含まれる感情種別を前記第2言語で説明する補足文を生成する補足文生成手段と、
前記訳文と前記補足文とを音声信号に変換する音声合成手段として機能させるための音声翻訳プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−73941(P2012−73941A)
【公開日】平成24年4月12日(2012.4.12)
【国際特許分類】
【出願番号】特願2010−219778(P2010−219778)
【出願日】平成22年9月29日(2010.9.29)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】