説明

音声翻訳装置、音声翻訳方法、及びプログラム

【課題】フィラーも翻訳する音声翻訳装置を提供する。
【解決手段】原言語音声情報を受け付ける音声情報受付部11、原言語音声情報を音声認識する音声認識部13、音声認識結果情報を機械翻訳する機械翻訳部15、翻訳結果情報に対応する目的言語音声情報を生成する音声生成部17、原言語音声情報でのフィラー位置を特定するフィラー時間位置特定部20、フィラーのパラ言語を含む原言語フィラー情報を抽出するフィラー情報抽出部21、音声認識結果情報でのフィラー位置を特定するフィラーテキスト位置特定部22、目的言語音声情報でのフィラー位置であるフィラー挿入位置を特定するフィラー挿入位置特定部23、原言語フィラー情報に対応する目的言語フィラー情報をフィラー挿入位置に挿入するフィラー情報挿入部25、目的言語フィラー情報を含む目的言語音声情報を出力する音声情報出力部19を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳後の目的言語音声情報にもフィラーに関する情報を挿入する音声翻訳装置等に関する。
【背景技術】
【0002】
従来の翻訳装置において、原言語におけるテキストそのもの以外の情報をも目的言語に反映させる技術が開発されている。例えば、原言語のテキストにおけるイタリック等の文字修飾の情報をも、目的言語のテキストに反映させる機械翻訳装置が開発されている(例えば、特許文献1参照)。
【特許文献1】特開2000−123012号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
前述のように、原言語におけるテキストそのもの以外の情報をも目的言語に反映させることにより、テキストそのもの以外の情報をも伝達することが求められてきており、そのことは、音声翻訳装置においても同様である。すなわち、音声翻訳において、発話された言語そのもの以外の情報を伝達することにより、より臨場感のあふれる話し言葉の翻訳を実現することが求められてきている。
【0004】
本発明は、上記の事情を考慮してなされたものであり、原言語で発話された言語そのもの以外の情報をも伝達することができる音声翻訳装置等を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するため、本発明による音声翻訳装置は、発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付部と、前記音声情報受付部が受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識部と、前記音声認識部が取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成部と、前記音声情報受付部が受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定部と、前記原言語音声情報において前記フィラー時間位置特定部が時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出部と、前記原言語音声情報において前記フィラー時間位置特定部が特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定部と、前記フィラーテキスト位置特定部が特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定部と、前記音声生成部が生成した目的言語音声情報における、前記フィラー挿入位置特定部が特定したフィラー挿入位置に、前記フィラー情報抽出部が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入部と、前記フィラー情報挿入部によって目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力部と、を備えたものである。
【0006】
このような構成により、フィラーについても翻訳することができる。目的言語フィラー情報は、原言語でのフィラーと同じパラ言語を有するため、目的言語音声情報に挿入された目的言語フィラー情報も、原言語での話者がフィラーを発話した際と同様の雰囲気で出力されることになる。したがって、より臨場感のある、話者の感情を含んだ音声翻訳結果を生成することができうる。
【0007】
また、本発明による音声翻訳装置では、前記原言語フィラー情報は、前記フィラー時間位置特定部が時間的な位置を特定したフィラーの音声情報であり、前記目的言語フィラー情報は、前記原言語フィラー情報であってもよい。
このような構成により、原言語のフィラーそのものを目的言語音声情報に挿入することができる。
【0008】
また、本発明による音声翻訳装置では、前記原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する目的言語フィラー情報を生成するフィラー情報生成部をさらに備え、前記フィラー情報挿入部は、前記フィラー情報生成部が生成した目的言語フィラー情報を目的言語音声情報に挿入してもよい。
このような構成により、原言語のフィラーと同じパラ言語を有するフィラーを生成し、その生成したフィラーを目的言語音声情報に挿入することができる。
【0009】
また、本発明による音声翻訳装置では、前記フィラー情報生成部は、前記フィラー時間位置特定部が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報を生成してもよい。
【0010】
このような構成により、原言語のフィラーと同様の母音を有するフィラーを生成して、目的言語音声情報に挿入することができる。このフィラーは、目的言語のフィラーとは異なる音声であるかもしれないが、母音とパラ言語が原言語のフィラーと共通しているため、原言語の話者の感情は、そのフィラーによって十分聞き手に伝わるものと考えられ得る。
【0011】
また、本発明による音声翻訳装置では、前記フィラー情報生成部は、前記原言語音声情報のフィラーが音声認識され、機械翻訳された結果に対応する目的言語の音声情報である目的言語フィラー情報を生成してもよい。
【0012】
このような構成により、目的言語音声情報に挿入されるフィラーを、目的言語での一般的なフィラーとすることができ、その挿入されたフィラーをより自然なものとすることができる。
【0013】
また、本発明による音声翻訳装置では、前記パラ言語は、周波数、音量、周波数の変化、音量の変化から選ばれる少なくとも一つの情報であってもよい。
また、本発明による音声翻訳装置では、前記パラ言語は、前記原言語音声情報のフィラーの時間的な長さ、当該フィラーの始点側の音声の空白の時間的な長さ、当該フィラーの終点側の音声の空白の時間的な長さをさらに含んでもよい。
【発明の効果】
【0014】
本発明による音声翻訳装置等によれば、音声翻訳において、フィラーのパラ言語を含む情報をも目的言語の音声情報に付加することができ、より臨場感のある音声翻訳を実現することが可能となる。
【発明を実施するための最良の形態】
【0015】
以下、本発明による音声翻訳装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
【0016】
(実施の形態1)
本発明の実施の形態1による音声翻訳装置について、図面を参照しながら説明する。本実地の形態による音声翻訳装置は、原言語のフィラーに関するパラ言語をも用いて音声翻訳を行うものである。
【0017】
図1は、本実施の形態による音声翻訳装置1の構成を示すブロック図である。本実施の形態による音声翻訳装置1は、音声情報受付部11と、原言語音声情報蓄積部12と、音声認識部13と、音声認識結果情報蓄積部14と、機械翻訳部15と、翻訳結果情報蓄積部16と、音声生成部17と、目的言語音声情報蓄積部18と、音声情報出力部19と、フィラー時間位置特定部20と、フィラー情報抽出部21と、フィラーテキスト位置特定部22と、フィラー挿入位置特定部23と、フィラー情報生成部24と、フィラー情報挿入部25とを備える。
【0018】
音声情報受付部11は、発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける。音声情報受付部11は、例えば、マイクから直接、原言語音声情報を受け付けてもよく、あるいは、マイクで集音された原言語音声情報が一度蓄積されたものを受け付けてもよい。原言語音声情報は、いわゆる音声信号の情報である。
【0019】
音声情報受付部11は、例えば、入力デバイス(例えば、マイクなど)から入力された原言語音声情報を受け付けてもよく、有線もしくは無線の通信回線を介して送信された原言語音声情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された原言語音声情報を受け付けてもよい。なお、音声情報受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、音声情報受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
【0020】
原言語音声情報蓄積部12は、音声情報受付部11が受け付けた原言語音声情報を、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、原言語音声情報蓄積部12が有していてもよく、あるいは原言語音声情報蓄積部12の外部に存在してもよい。また、この記録媒体は、原言語音声情報を一時的に記憶するものであってもよく、そうでなくてもよい。
【0021】
音声認識部13は、音声情報受付部11が受け付けた原言語音声情報を音声認識して、その原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する。音声認識の方法は、すでに公知であり、その詳細な説明を省略する。音声認識部13は、例えば、音響モデルや、辞書情報、言語モデル等を用いることによって、音声認識を行ってもよい。
【0022】
音声認識結果情報蓄積部14は、音声認識部13が取得した音声認識結果情報を、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、音声認識結果情報蓄積部14が有していてもよく、あるいは音声認識結果情報蓄積部14の外部に存在してもよい。また、この記録媒体は、音声認識結果情報を一時的に記憶するものであってもよく、そうでなくてもよい。
【0023】
機械翻訳部15は、音声認識部13が取得した音声認識結果情報を機械翻訳して、その音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する。音声認識結果情報は、原言語のテキスト情報であり、それと対訳関係にあるテキスト情報が、翻訳結果情報である。機械翻訳の方法は、すでに公知であり、その詳細な説明を省略する。また、原言語と目的言語とは、異なる言語であればよく、その組合せは問わない。例えば、原言語が日本語であり、目的言語が英語であってもよく、原言語が英語であり、目的言語がフランス語であってもよい。
【0024】
翻訳結果情報蓄積部16は、機械翻訳部15が機械翻訳した結果である翻訳結果情報を、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、翻訳結果情報蓄積部16が有していてもよく、あるいは翻訳結果情報蓄積部16の外部に存在してもよい。また、この記録媒体は、翻訳結果情報を一時的に記憶するものであってもよく、そうでなくてもよい。
【0025】
音声生成部17は、機械翻訳部15が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する。目的言語音声情報は、目的言語での、いわゆる音声信号の情報である。テキストから、そのテキストに対応した音声を生成する方法は、音声合成の技術としてすでに公知であり、その詳細な説明を省略する。
【0026】
目的言語音声情報蓄積部18は、音声生成部17が生成した目的言語音声情報を、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、目的言語音声情報蓄積部18が有していてもよく、あるいは目的言語音声情報蓄積部18の外部に存在してもよい。また、この記録媒体は、目的言語音声情報を一時的に記憶するものであってもよく、そうでなくてもよい。
【0027】
音声情報出力部19は、後述するフィラー情報挿入部25によって目的言語フィラー情報の挿入された目的言語音声情報を出力する。目的言語フィラー情報や、その目的言語フィラー情報を目的言語音声情報に挿入する処理等については、後述する。
【0028】
ここで、この出力は、例えば、スピーカによる音声出力でもよく、所定の機器への通信回線を介した送信でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、音声情報出力部19は、出力を行うデバイス(例えば、スピーカや通信デバイスなど)を含んでもよく、あるいは含まなくてもよい。また、音声情報出力部19は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
【0029】
フィラー時間位置特定部20は、音声情報受付部11が受け付けた原言語音声情報において、フィラーの時間的な位置を特定する。フィラー(filler)とは、有意な発話の間に挿入される発話である。例えば、「え〜っと」や、「あのぉー」、「そのー」等である。
【0030】
ここで、フィラー時間位置特定部20がフィラーの時間的な位置を特定する方法について説明する。
【0031】
[音声認識結果(音声認識のできなかったこと)を利用する方法]
フィラーは有意な発話ではないため、一般に、認識精度を重視していない処理の軽い音声認識処理、例えば、RTF(リアルタイムファクター)が小さい音声認識処理では、フィラーの領域については、音声認識が行われないことがある。したがって、そのような音声認識を音声認識部13が行っているのであれば、フィラー時間位置特定部20は、音声認識部13によって音声認識のなされなかった原言語音声情報の時間的な範囲を、フィラーの時間的な位置として特定してもよい。
【0032】
[音声認識結果(音声認識できた結果)を利用する方法]
上述の場合とは異なり、認識精度を重視した音声認識処理、例えば、RTFが大きい音声認識処理を行い、かつ、フィラーに関する辞書(「え〜っと」等のフィラーの音声信号をテキスト「え〜っと」等に変換するための辞書)を用いて音声認識処理を行う場合には、原言語音声情報に含まれるフィラーの音声信号もテキストに変換されることになる。したがって、そのような音声認識を音声認識部13が行っているのであれば、フィラー時間位置特定部20は、あらかじめ図示しない記録媒体で保持されているフィラーに対応するテキスト情報、例えば、「え〜っと」や、「あのぉー」、「そのー」等を用いて、そのフィラーに対応するテキストが音声認識結果情報に含まれる場合に、その音声認識結果情報に含まれるフィラーのテキストに対応する原言語音声情報における時間的な位置を特定することによって、フィラーの時間的な位置を特定することができる。
【0033】
[波形のパターンマッチングを利用する方法]
フィラー時間位置特定部20は、あらかじめ図示しない記録媒体で保持されている、フィラーに対応する音声信号の波形を用いて、原言語音声情報においてその波形のパターンマッチングを行い、フィラーに対応する音声信号の波形に類似する時間的な領域が存在した場合に、その時間的な領域を、フィラーの時間的な位置として特定してもよい。波形のパターンマッチングについては、すでに公知であり、その詳細な説明を省略する。なお、この波形のパターンマッチングでは、例えば、厳密なマッチングをとるのではなく、例えば、波形のエンベロープのマッチングをとってもよく、必要十分な範囲でのマッチングをとることができればよい。
【0034】
なお、ここでは、フィラーの時間的な位置を特定する3通りの方法について説明したが、それ以外の方法を用いてフィラーの時間的な位置を特定してもよいことは言うまでもない。
【0035】
また、フィラーの時間的な位置を特定するとは、例えば、そのフィラーの時間的な位置を特定する情報を図示しない記録媒体に蓄積することであってもよく、あるいは、フィラーの時間的な位置を特定可能な情報を原言語音声情報に付加することであってもよい。前者の場合には、例えば、フィラーの始点を示す情報と、フィラーの終点を示す情報を図示しない記録媒体に蓄積してもよい。フィラーの始点や終点は、例えば、タイムコードによって示されてもよく、原言語音声情報の先頭や終点、あるいは特定の位置からのデータ容量(例えば、バイト数)で示されてもよく、または、原言語音声情報の波形そのものによって示されてもよい。また、後者の場合には、原言語音声情報において、フィラーの始点の位置に、フィラーの始点であることを示す情報(例えば、フラグのようなものであってもよい)が付加され、フィラーの終点の位置に、フィラーの終点であることを示す情報が付加されてもよく、あるいは、フィラーの始点から終点にわたって連続的に、フィラーであることを示す情報が付加されてもよい。なお、フィラーの時間的な位置を特定することができるのであれば、フィラーの特定方法は、これらに限定されないことは言うまでもない。
【0036】
フィラー情報抽出部21は、原言語音声情報においてフィラー時間位置特定部20が時間的な位置を特定したフィラーに関する原言語フィラー情報を抽出する。フィラー時間位置特定部20が時間的な位置を特定したフィラーに関する原言語フィラー情報とは、フィラー時間位置特定部20が時間的な位置を特定したフィラーに関するパラ言語を少なくとも含む情報である。パラ言語とは、音声情報における韻律的特徴の情報である。声の強弱、強弱の変化、高さ(周波数)、高さの変化、発話の速さ、抑揚、震え、声色、また発話中の情報のみならず、発話で生じる沈黙(間)やその長さもパラ言語に含まれる。例えば「ありがとう」と書かれた文章単体からはその書き手の気持ちを察するのは困難だが、「ありがとう」という句を読み上げられた音声情報の場合ならば、その話し手の気持ち(例えば愛情や怒り、同情など)を察することは通例容易になる。また反対に、それら気持ちを込めて読み上げることも可能である。これはパラ言語情報が存在しているために可能となる。フィラーに関するパラ言語は、例えば、原言語音声情報のフィラーの周波数であってもよく、フィラーの音量であってもよく、フィラーの周波数の変化であってもよく、フィラーの音量の変化であってもよく、原言語音声情報のフィラーの時間的な長さであってもよく、そのフィラーの始点側の音声の空白の時間的な長さであってもよく、そのフィラーの終点側の音声の空白の時間的な長さであってもよく、フィラーの発話の速さであってもよく、それらの任意の二以上の情報の組合せであってもよく、フィラーに関するパラ言語を適切に示すことができる情報であれば、それら以外の情報であってもよい。フィラーの発話の速さは、例えば、単位時間あたりのモーラ数や、単位時間あたりのシラブル数によって計測することができうる。
【0037】
フィラー情報抽出部21は、原言語フィラー情報として、例えば、フィラー時間位置特定部20が時間的な位置を特定したフィラーの音声情報そのものを原言語音声情報から抽出してもよい。また、フィラー時間位置特定部20は、原言語フィラー情報として、例えば、フィラー時間位置特定部20が時間的な位置を特定したフィラーのパラ言語のみを原言語音声情報から抽出してもよい。そのパラ言語は、前述のように、例えば、周波数、音量、周波数の変化、音量の変化から選ばれる少なくとも一つの情報であってもよく、原言語音声情報のフィラーの時間的な長さ、そのフィラーの始点側の音声の空白の時間的な長さ、そのフィラーの終点側の音声の空白の時間的な長さをさらに含む情報であってもよい。フィラー情報抽出部21が抽出した原言語フィラー情報は、図示しない記録媒体において一時的に記憶されてもよい。
【0038】
なお、周波数とは、原言語音声情報における、フィラーの音声信号の周波数そのものであってもよく、あるいは、原言語音声情報における、フィラー以外の音声信号の周波数と、フィラーの音声信号の周波数との差であってもよい。また、その周波数は、フィラーの音声信号の区間にわたって平均のとられたものであってもよい。周波数の変化は、例えば、フィラーにおける微少時間(例えば、10msや30ms等)ごとの周波数の平均を検出することによって抽出することができる。また、この周波数は、いわゆる基本周波数F0であってもよい。
【0039】
また、音量とは、原言語音声情報における、フィラーの音声信号の音量(電圧)そのものであってもよく、あるいは、原言語音声情報における、フィラー以外の音声信号の音量と、フィラーの音声信号の音量との差であってもよい。また、その音量は、フィラーの音声信号の区間にわたって平均のとられたものであってもよい。周波数の変化は、例えば、フィラーにおける微少時間(例えば、10msや30ms等)ごとの音量の平均を検出することによって抽出することができる。
【0040】
フィラーテキスト位置特定部22は、原言語音声情報においてフィラー時間位置特定部20が特定したフィラーの時間的な位置に対応する音声認識結果情報における位置を特定する。
【0041】
例えば、音声認識結果情報におけるテキストと、原言語音声情報における時間的な位置とが対応付けられている場合(例えば、音声認識結果情報のテキストに、原言語音声情報のタイムコードが付与されている場合)には、原言語音声情報における時間的な位置に対応する音声認識結果情報におけるテキストの位置を特定することができる。したがって、そのような場合には、フィラーテキスト位置特定部22は、フィラー時間位置特定部20が特定したフィラーの時間的な位置に対応するテキストの位置を、音声認識結果情報におけるテキストと、原言語音声情報における時間的な位置とを対応付ける情報を用いることによって、特定することができる。
【0042】
また、音声認識結果情報におけるテキストと、原言語音声情報における時間的な位置とを対応付ける情報が存在しない場合には、例えば、フィラーテキスト位置特定部22は、原言語音声情報において、フィラー時間位置特定部20が時間的な位置を特定したフィラーの前方、後方、あるいは、その両方の音声信号(この音声信号には、フィラーは含まれない)を取得し、その音声信号を音声認識した結果を取得する。そして、その結果が、音声認識結果情報のどこに位置するのかによって、フィラー時間位置特定部20が特定したフィラーの時間的な位置に対応するテキストの位置を特定することができる。より具体的には、フィラー時間位置特定部20によって特定されたフィラーの前方の音声信号を音声認識した結果を取得した場合には、フィラーテキスト位置特定部22は、その音声認識した結果の位置を音声認識結果情報において特定し、その特定した位置の直後を、フィラー時間位置特定部20が特定したフィラーの時間的な位置に対応するテキストの位置として特定してもよい。
【0043】
また、音声認識のできなかったことを利用してフィラーの位置を特定した場合には、フィラーテキスト位置特定部22は、音声認識結果情報において、その音声認識のできなかった位置を、フィラー時間位置特定部20が特定したフィラーの時間的な位置に対応するテキストの位置として特定してもよい。
【0044】
また、音声認識結果を利用してフィラーの位置を特定した場合には、音声認識結果情報にフィラーに対応するテキストが存在する場合がある。したがって、その場合には、フィラーテキスト位置特定部22は、音声認識結果情報における、そのフィラーに対応するテキストの位置を、フィラー時間位置特定部20が特定したフィラーの時間的な位置に対応するテキストの位置として特定してもよい。
【0045】
また、その他の方法を利用することによって適切にフィラー時間位置特定部20が特定したフィラーの時間的な位置に対応するテキストの位置として特定することができるのであれば、フィラーテキスト位置特定部22は、その方法を用いてフィラー時間位置特定部20が特定したフィラーの時間的な位置に対応するテキストの位置を特定してもよい。
【0046】
また、原言語音声情報においてフィラー時間位置特定部20が特定したフィラーの時間的な位置に対応する音声認識結果情報における位置を特定するとは、例えば、その位置を特定する情報を図示しない記録媒体に蓄積することであってもよく、あるいは、その位置を特定可能な情報を音声認識結果情報に付加することであってもよい。前者の場合であって、音声認識結果情報にフィラーに対応するテキストが存在しない場合には、その位置を特定する情報は、例えば、音声認識結果情報の先頭や後端、あるいは特定の位置から、その特定の対象となる位置までの文字数で示されてもよく、データ容量で示されてもよく、その位置の前方に存在するテキストで示されてもよく、あるいは、その位置の後方に存在するテキストで示されてもよい。また、前者の場合であって、音声認識結果情報にフィラーに対応するテキストが存在する場合には、その位置を特定する情報は、例えば、その位置の始点と終点を特定する情報であってもよい。始点や終点は、例えば、音声認識結果情報の先頭や後端、あるいは特定の位置から、その特定の対象となる位置までの文字数で示されてもよく、データ容量で示されてもよく、その位置の前方に存在するテキストと、その位置の後方に存在するテキストとで示されてもよい。また、後者の場合には、音声認識結果情報において、特定の対象となる位置に、その位置であることを示す情報(例えば、フラグのようなものであってもよい)が付加されてもよい。なお、原言語音声情報においてフィラー時間位置特定部20が特定したフィラーの時間的な位置に対応する音声認識結果情報における位置を適切に特定することができるのであれば、その特定方法は、これらに限定されないことは言うまでもない。
【0047】
フィラー挿入位置特定部23は、フィラーテキスト位置特定部22が特定した音声認識結果情報における位置に対応する目的言語音声情報における時間的な位置であるフィラー挿入位置を特定する。このフィラー挿入位置の特定は、例えば、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置を特定し、その特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置を特定することによって行われる。
【0048】
まず、フィラー挿入位置特定部23が、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置を特定する方法について説明する。
【0049】
フィラー挿入位置特定部23は、例えば、音声認識結果情報において特定された位置に続くチャンクを特定する。ここで、チャンクとは、一定のまとまりのあるテキストであって、例えば、形態素や単語であってもよく、あるいは、複数の連続した形態素や複数の連続した単語であってもよい。そして、フィラー挿入位置特定部23は、その特定した原言語のチャンクに対応する目的言語のチャンクを取得する。これは、例えば、機械翻訳を行うことによって得ることができる。機械翻訳は、フィラー挿入位置特定部23が行ってもよく、あるいは、機械翻訳部15において行ってもよい。フィラー挿入位置特定部23は、翻訳結果情報において、目的言語のチャンクの位置を特定し、その目的言語のチャンクの位置の直前が、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置であると特定してもよい。
【0050】
フィラー挿入位置特定部23は、例えば、音声認識結果情報において特定された位置に先行するチャンクを特定し、その特定した原言語のチャンクに対応する目的言語のチャンクを取得する。そして、フィラー挿入位置特定部23は、翻訳結果情報において、目的言語のチャンクの位置を特定し、その目的言語のチャンクの位置の直後が、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置であると特定してもよい。
【0051】
また、例えば、音声認識結果情報にフィラーに対応するテキストが存在する場合には、フィラー挿入位置特定部23は、そのテキストと対訳関係にある目的言語のフィラーを翻訳結果情報で特定することによって、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置を特定してもよい。フィラー挿入位置特定部23は、原言語のフィラーと対訳関係にある目的言語のフィラーを、例えば、対訳関係にある原言語のフィラーと、目的言語のフィラーとを対応付ける辞書(この辞書は、例えば、図示しない記録媒体で保持されていてもよい)を用いて取得してもよく、機械翻訳部15から取得してもよい。
【0052】
また、フィラー挿入位置特定部23が、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置を特定するとは、翻訳結果情報における位置を特定する情報を図示しない記録媒体に蓄積することであってもよく、あるいは、その位置を特定可能な情報を翻訳結果情報に付加することであってもよい。それらの方法は、原言語音声情報においてフィラー時間位置特定部20が特定したフィラーの時間的な位置に対応する音声認識結果情報における位置を特定する場合の処理と同様であり、その詳細な説明を省略する。
【0053】
次に、フィラー挿入位置特定部23が、特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置(すなわち、フィラー挿入位置)を特定する方法について説明する。
【0054】
例えば、翻訳結果情報におけるテキストと、目的言語音声情報における時間的な位置とが対応付けられている場合(例えば、翻訳結果情報のテキストに、目的言語音声情報のタイムコードが付与されている場合)には、翻訳結果情報におけるテキストの位置に対応する目的言語音声情報における時間的な位置を特定することができる。したがって、そのような場合には、フィラー挿入位置特定部23は、特定された翻訳結果情報の位置に対応する目的言語音声情報の位置を、翻訳結果情報におけるテキストと、目的言語音声情報における時間的な位置とを対応付ける情報を用いることによって、特定することができる。
【0055】
また、翻訳結果情報におけるテキストと、目的言語音声情報における時間的な位置とを対応付ける情報が存在しない場合には、例えば、フィラー挿入位置特定部23は、特定された翻訳結果情報の位置の前方、後方、あるいは、その両方のテキストを取得し、そのテキストから音声信号を生成する。そして、その音声信号が、目的言語音声情報のどこに位置するのかによって、特定された翻訳結果情報の位置に対応する目的言語音声情報における位置を特定することができる。より具体的には、特定された翻訳結果情報における位置の前方のテキストから音声信号を生成した場合には、フィラー挿入位置特定部23は、その生成した音声信号の位置を目的言語音声情報において特定し、その特定した位置の直後を、特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置として特定してもよい。
【0056】
また、フィラーも音声認識されて、機械翻訳され、翻訳結果情報にフィラーに対応するテキストが存在する場合には、フィラー挿入位置特定部23は、目的言語音声情報における、そのフィラーのテキストに対応する音声信号の位置を、特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置として特定してもよい。
【0057】
また、特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置を特定するとは、例えば、その位置を特定する情報を図示しない記録媒体に蓄積することであってもよく、あるいは、その位置を特定可能な情報を目的言語音声情報に付加することであってもよい。それらの方法は、原言語音声情報においてフィラー時間位置特定部20がフィラーの時間的な位置を特定する場合の処理と同様であり、その詳細な説明を省略する。
【0058】
また、その他の方法を利用することによって、適切にフィラーテキスト位置特定部22が特定した音声認識結果情報における位置に対応する目的言語音声情報における時間的な位置を特定することができるのであれば、フィラー挿入位置特定部23は、その方法を用いて目的言語音声情報における時間的な位置(すなわち、フィラー挿入位置)を特定してもよい。
【0059】
フィラー情報生成部24は、フィラー情報抽出部21が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する目的言語フィラー情報を生成する。この目的言語フィラー情報は、目的言語においてフィラーと認識されるものであってもよく、あるいは、そうでなくてもよい。例えば、目的言語が英語である場合には、前者の目的言語フィラー情報は、「Well」や「Let me see」の音声信号であってもよく、後者の目的言語フィラー情報は、「え〜」や「そのぉ〜」の音声信号であってもよい。
【0060】
フィラー情報生成部24は、例えば、フィラー時間位置特定部20が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報を生成してもよい。また、フィラー情報生成部24は、例えば、原言語音声情報のフィラーが音声認識され、機械翻訳された結果に対応する目的言語の音声情報である目的言語フィラー情報を生成してもよい。その生成の際にも、前述のように、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有するように目的言語フィラー情報を生成するものとする。したがって、フィラー情報生成部24が生成する目的言語フィラー情報は、原言語フィラー情報とパラ言語が共通することになり、例えば、周波数や、音量、それらの変化、フィラーの時間的な長さ、プレの間や、ポストの間などが共通することになる。
【0061】
ここで、フィラー情報生成部24が、フィラー時間位置特定部20が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報を生成する場合の処理について説明する。まず、フィラー情報生成部24は、フィラー時間位置特定部20が時間的な位置を特定したフィラーに対して音声認識と同様の処理を行うことによって、そのフィラーに対応する母音・子音の並びを取得する。そして、その取得した母音のみを取り出して、それに対応する音声信号であり、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する音声信号を合成する。その合成の際に、原言語の母音から、その音声信号の合成を行ってもよく(この場合には、原言語での音声信号となる)、あるいは、目的言語の母音から、その音声信号の合成を行ってもよい(この場合には、目的言語での音声信号となる)。後者の場合には、図示しない記録媒体において、原言語の母音と、目的言語の母音とを対応付ける情報が保持されており、フィラー情報生成部24は、その情報を参照することによって、原言語の母音を目的言語の母音に変換してもよい。このように、「フィラー時間位置特定部20が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報」における同じ母音は、原言語のフィラーの有する母音とまったく同じであってもよく、あるいは、その母音と対訳関係にある母音であってもよい。
【0062】
また、フィラー情報生成部24は、例えば、フィラーの原言語の音声信号と、それに対応するフィラーの目的言語の音声信号とを対応付ける情報である音声信号対応情報を用いて、フィラー時間位置特定部20が時間的な位置を特定したフィラーの音声信号と類似する、音声信号対応情報に含まれるフィラーの原言語の音声信号を特定し、その音声信号に対応付けられている、フィラーの目的言語の音声信号を取得し、その取得した音声信号が、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有するように変換した目的言語フィラー情報を生成してもよい。なお、音声信号対応情報は、フィラー情報生成部24がアクセス可能な図示しない記録媒体で保持されているものとする。音声信号対応情報では、例えば、原言語(日本語)の「え〜っと」の音声信号と、目的言語(英語)の「Well」の音声信号とが対応付けられていてもよい。
【0063】
また、フィラー情報生成部24は、例えば、フィラーとして生成する音声信号をあらかじめ図示しない記録媒体で保持しており、その音声信号のパラ言語を、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有するように変換した目的言語フィラー情報を生成してもよい。例えば、目的言語が英語である場合には、フィラー情報生成部24は、あらかじめフィラーとして、「Well」や「Let me see」に対応する音声信号を保持しておく。そして、フィラー情報生成部24は、その音声信号のパラ言語のみを原言語フィラー情報にあわせることによって、目的言語フィラー情報を生成してもよい。この場合に、フィラー情報生成部24は、目的言語の複数のフィラーの音声信号を保持しておき、原言語のフィラーの長さに応じて、そのフィラーの音声信号を選択するようにしてもよい。例えば、フィラー情報生成部24は、原言語のフィラーが短い場合には、「Well」を選択し、原言語のフィラーが長い場合には、「Let me see」を選択してもよい。
【0064】
また、フィラー情報生成部24は、音声認識や、機械翻訳、音声合成を行う際に、フィラー情報生成部24自身がその処理を行ってもよく、あるいは、他の構成要素(例えば、音声認識部13や、機械翻訳部15、音声生成部17等)や、他の装置にその処理を依頼し、その処理の結果を受け取ってもよい。
【0065】
また、フィラー情報生成部24は、原言語フィラー情報がフィラーの音声情報そのものである場合には、その原言語フィラー情報からパラ言語の情報(例えば、周波数や音量等)を取り出す処理を行ってもよい。
また、フィラー情報生成部24が行う音声信号のパラ言語を変更する処理等は、すでに公知であり、その詳細な説明を省略する。
【0066】
フィラー情報挿入部25は、音声生成部17が生成した目的言語音声情報における、フィラー挿入位置特定部23が特定したフィラー挿入位置に、フィラー情報抽出部21が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入する。すなわち、フィラー情報挿入部25は、フィラー情報生成部24が生成した目的言語フィラー情報を目的言語音声情報に挿入する。
【0067】
目的言語音声情報のフィラー挿入位置に目的言語フィラー情報を挿入するとは、例えば、目的言語音声情報に、フィラー時間位置特定部20が時間的な位置を特定したフィラーに対応する音声情報が含まれない場合には、フィラー挿入位置に目的言語フィラー情報を追加することであってもよく、あるいは、目的言語音声情報に、フィラー時間位置特定部20が時間的な位置を特定したフィラーに対応する音声情報が含まれる場合には、フィラー挿入位置で示される、その音声情報の位置に、目的言語フィラー情報を上書きで追加することであってもよい。
【0068】
なお、原言語音声情報が蓄積される記録媒体、音声認識結果情報が蓄積される記録媒体、翻訳結果情報が蓄積される記録媒体、目的言語音声情報が蓄積される記録媒体等は、同一の記録媒体で実現されてもよく、あるいは、別々の記録媒体で実現されてもよい。前者の場合には、例えば、原言語音声情報が記憶されている領域が、原言語音声情報が蓄積される記録媒体となり、音声認識結果情報が記憶されている領域が、音声認識結果情報が蓄積される記録媒体となりうる。
【0069】
次に、本実施の形態による音声翻訳装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)音声情報受付部11は、原言語音声情報を受け付けたかどうか判断する。そして、受け付けた場合には、ステップS102に進み、そうでない場合には、受け付けるまでステップS101の処理を繰り返す。
【0070】
(ステップS102)原言語音声情報蓄積部12は、音声情報受付部11が受け付けた原言語音声情報を蓄積する。なお、音声情報受付部11がマイクから直接、原言語音声情報をリアルタイムで受け付けるような場合には、このステップS101とステップS102の処理が繰り返して実行されることによって、一連の長さの原言語音声情報が蓄積されるようにしてもよい。
【0071】
(ステップS103)音声認識部13は、原言語音声情報蓄積部12が蓄積した原言語音声情報を音声認識して、原言語音声情報に対応する音声認識結果情報を取得する。
【0072】
(ステップS104)音声認識結果情報蓄積部14は、音声認識部が取得した音声認識結果情報を蓄積する。
【0073】
(ステップS105)機械翻訳部15は、音声認識結果情報蓄積部14が蓄積した音声認識結果情報を機械翻訳して、その音声認識結果情報に対応する目的言語の翻訳結果情報を取得する。
【0074】
(ステップS106)翻訳結果情報蓄積部16は、機械翻訳部15が取得した翻訳結果情報を蓄積する。
【0075】
(ステップS107)音声生成部17は、翻訳結果情報蓄積部16が蓄積した翻訳結果情報に対応する目的言語音声情報を生成する。
【0076】
(ステップS108)目的言語音声情報蓄積部18は、音声生成部17が生成した目的言語音声情報を蓄積する。
【0077】
(ステップS109)フィラー時間位置特定部20は、原言語音声情報蓄積部12が蓄積した原言語音声情報において、フィラーの時間的な位置を特定する。この特定された情報は、図示しない記録媒体において一時的に記憶されてもよい。
【0078】
(ステップS110)フィラー情報抽出部21は、原言語音声情報蓄積部12が蓄積した原言語音声情報において、フィラー時間位置特定部20が時間的な位置を特定したフィラーに関する原言語フィラー情報を抽出する。その抽出された原言語フィラー情報は、図示しない記録媒体において一時的に記憶されてもよい。
【0079】
(ステップS111)フィラーテキスト位置特定部22は、フィラー時間位置特定部20が特定したフィラーの時間的な位置に対応する、音声認識結果情報蓄積部14が蓄積した音声認識結果情報における位置を特定する。この特定された情報は、図示しない記録媒体において一時的に記憶されてもよい。
【0080】
(ステップS112)フィラー挿入位置特定部23は、フィラーテキスト位置特定部22が特定した音声認識結果情報における位置に対応する、目的言語音声情報蓄積部18が蓄積した目的言語音声情報における時間的な位置であるフィラー挿入位置を特定する。この特定されたフィラー挿入位置を示す情報は、図示しない記録媒体において一時的に記憶されてもよい。
【0081】
(ステップS113)フィラー情報生成部24は、フィラー情報抽出部21が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する目的言語フィラー情報を生成する。その生成された目的言語フィラー情報は、図示しない記録媒体において一時的に記憶されてもよい。
【0082】
(ステップS114)フィラー情報挿入部25は、フィラー情報生成部24が生成した目的言語フィラー情報を、目的言語音声情報における、フィラー挿入位置特定部23が特定したフィラー挿入位置に挿入する。
【0083】
(ステップS115)音声情報出力部19は、目的言語フィラー情報の挿入された目的言語音声情報を出力する。そして、ステップS101に戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。また、図2のフローチャートにおいて、処理の順番にはある程度の任意性がある。例えば、フィラー挿入位置の特定処理(ステップS112)と、目的言語フィラー情報の生成処理(ステップS113)との順番が逆であってもよい。
【0084】
次に、本実施の形態による音声翻訳装置1の動作について、具体例を用いて説明する。
この具体例では、日本人の話者が日本語を発話して、その発話が英語に音声翻訳される場合について説明する。
【0085】
まず、話者がマイクに向かって「私は便宜的に三つの時期に分けたのですが、え〜、それぞれの時期に若干の重複があります。」と発話したとする。すると、その原言語音声情報が音声情報受付部11で受け付けられ、原言語音声情報蓄積部12によって蓄積される(ステップS101,S102)。図3の原言語音声情報は、そのようにして蓄積された原言語音声情報の一例を示すものである。
【0086】
次に、音声認識部13は、蓄積された原言語音声情報に対して、音声認識の処理を実行し、その認識結果である音声認識結果情報を取得する(ステップS103)。その音声認識結果情報は、「私は便宜的に三つの時期に分けたのですが<音声認識不可>それぞれの時期に若干の重複があります」であったとする。この具体例での音声認識部13は、フィラー「え〜」を認識できず、音声認識結果情報に<音声認識不可>のマークを挿入したものとする。その取得された音声認識結果情報は、音声認識結果情報蓄積部14によって蓄積される(ステップS104)。図3の音声認識結果情報は、そのようにして蓄積された音声認識結果情報を示すものである。図3で示されるように、この音声認識結果情報にも、原言語音声情報のタイムコードが付与されており、原言語音声情報の音声信号と、音声認識結果情報のテキストとの対応をとることができるようになっている。
【0087】
次に、機械翻訳部15は、蓄積された音声認識結果情報に対して、機械翻訳の処理を実行し、その機械翻訳結果である翻訳結果情報を取得する(ステップS105)。なお、機械翻訳部15は、<音声認識不可>については、機械翻訳を行わないものとする。その翻訳結果情報は、「so for practical reason, I divided the era into three eras. these eras are somehow overlapping.」であったとする。その取得された翻訳結果情報は、翻訳結果情報蓄積部16によって蓄積される(ステップS106)。図3の翻訳結果情報は、そのようにして蓄積された翻訳結果情報を示すものである。
【0088】
次に、音声生成部17は、蓄積された翻訳結果情報に対して、音声合成の処理を実行し、その翻訳結果情報に対応する目的言語音声情報を生成する(ステップS107)。その目的言語音声情報は、目的言語音声情報蓄積部18によって蓄積される(ステップS108)。図3の目的言語音声情報は、そのようにして蓄積された目的言語音声情報の一例を示すものである。図3で示されるように、この目的言語音声情報にもタイムコードが付与されているが、それは原言語音声情報のタイムコードに対応しているものではない。また、フィラーが翻訳されていないため、フィラーの存在しない目的言語音声情報となっている。また、翻訳結果情報にもタイムコードが付与されているが、それは音声合成の後に、目的言語音声情報のタイムコードが、翻訳結果情報の対応する位置に事後的に付与されたものである。なお、図3の翻訳結果情報では、0.5秒ごとにタイムコードが付与されている場合について示しているが、さらに細かくタイムコードが付与されてもよいことは言うまでもない。
【0089】
次に、フィラー時間位置特定部20は、図3の音声認識結果情報を参照し、<音声認識不可>の区間を特定する。ここでは、タイムコード3.1〜4.5が音声認識不可の区間として特定されたとする。このタイムコードは、原言語音声情報のタイムコードに対応しているため、そのタイムコードの範囲がそのまま、原言語音声情報におけるフィラーの時間的な位置となる。フィラー時間位置特定部20は、その特定したタイムコードの範囲を、図示しない記録媒体において一時的に記憶する(ステップS109)。
【0090】
フィラー情報抽出部21は、フィラー時間位置特定部20が特定したタイムコードの範囲を参照し、そのタイムコードの範囲の原言語音声情報から、パラ言語を抽出する(ステップS110)。そのパラ言語が、原言語フィラー情報である。この具体例では、パラ言語として、周波数の変化、音量の変化、原言語音声情報のフィラーの長さ、そのフィラーの始点側の音声の空白の時間的な長さ(プレ間)、そのフィラーの終点側の音声の空白の時間的な長さ(ポスト間)が抽出されたものとする。フィラー情報抽出部21は、その抽出した原言語フィラー情報を図示しない記録媒体において一時的に記憶する。
【0091】
フィラーテキスト位置特定部22は、原言語のフィラーの時間的な位置に対応する音声認識結果情報における位置を特定する。この特定は、音声認識結果情報において<音声認識不可>の位置を特定することによって行われる(ステップS111)。具体的には、フィラーテキスト位置特定部22は、<音声認識不可>の位置の時間的後方に存在するチャンク「それぞれの時期に若干の重複があります」を図示しない記録媒体において一時的に記憶することによって、その特定を行う。
【0092】
フィラー挿入位置特定部23は、フィラーテキスト位置特定部22が特定した「それぞれの時期に若干の重複があります」を参照し、そのテキストを機械翻訳部15に渡すことによって、その翻訳結果「these eras are somehow overlapping.」を取得する。そして、フィラー挿入位置特定部23は、翻訳結果情報蓄積部16が蓄積した翻訳結果情報を参照し、その翻訳結果「these eras are somehow overlapping.」の直前の位置を付与されているタイムコードで特定する。このタイムコード「5.6」は、目的言語音声情報のタイムコードに対応しているため、そのタイムコードの位置がそのまま、フィラー挿入位置となる。フィラー挿入位置特定部23は、そのタイムコードを、図示しない記録媒体において一時的に記憶する(ステップS112)。図3において、フィラー挿入位置を矢印で示している(これは説明の便宜のためであって、実際に翻訳結果情報等に矢印の情報が含まれていなくてもよい)。
【0093】
フィラー情報生成部24は、目的言語でのフィラーとして、「Well」の音声信号を図示しない記録媒体において保持しているものとする。そして、フィラー情報生成部24は、フィラー情報抽出部21が抽出した原言語フィラー情報を参照し、その「Well」の音声信号のパラ言語を、原言語フィラー情報に含まれるパラ言語に一致させた目的言語フィラー情報を生成する(ステップS113)。フィラー情報生成部24は、その目的言語フィラー情報を図示しない記録媒体において一時的に記憶する。
【0094】
フィラー情報挿入部25は、フィラー挿入位置特定部23が特定したフィラー挿入位置を参照し、そのフィラー挿入位置に、フィラー情報生成部24が生成した目的言語フィラー情報を挿入する(ステップS114)。図3の目的言語フィラー情報の挿入された目的言語音声情報は、その目的言語フィラー情報の挿入後の目的言語音声情報の一例を示すものである。そして、最終的に、音声情報出力部19は、目的言語フィラー情報の挿入された目的言語音声情報を出力する(ステップS115)。すなわち、「so for practical reason, I divided the era into three eras.Well these eras are somehow overlapping.」に対応する音声が出力されることになる。また、フィラーの「Well」の部分のパラ言語が、話者が原言語で発生した「え〜」のパラ言語と一致しているため、より臨場感のある、話し手の感情等を含んだ音声翻訳結果となる。
【0095】
なお、この具体例では、原言語音声情報に1個のフィラーのみが含まれる場合について説明したが、原言語音声情報に2以上のフィラーが含まれる場合には、各フィラーについて、前述と同様の処理を行うことになる。例えば、図2のフローチャートのステップS109〜S114の各処理において、複数のフィラーについての処理が行われることになる。
【0096】
また、この具体例で用いた図3の具体的なデータのうち、目的言語音声情報に関する部分は、この具体例での説明するために示したものであり、実際のデータと異なるところがありうる。
【0097】
以上のように、本実施の形態による音声翻訳装置1によれば、フィラーも翻訳し、その翻訳後の目的言語のフィラーと、原言語のフィラーとでパラ言語を共通化することができる。したがって、フィラーは、通常は音声翻訳において破棄されてしまう情報であるが、そのフィラーも翻訳することによって、より臨場感のある、話し手の感情等の伝わる音声翻訳を実現することができうる。また、目的言語音声情報に目的言語フィラー情報を挿入することによって、原言語での話し言葉のリズムを目的言語音声情報に与えることもできる。さらに、その挿入される目的言語フィラー情報が、原言語フィラー情報と同じパラ言語を有することになるため、原言語での発話の空気を、目的言語音声情報でも読むことができるようになりうる。その結果として、目的言語音声情報を聞いている者は、例えば、文脈を勘違いしていたことに気づくこともあり、また、機械翻訳による誤訳に気づくこともありうる。
【0098】
なお、本実施の形態による音声翻訳装置1では、フィラー情報抽出部21が抽出した原言語フィラー情報を用いて目的言語フィラー情報を生成する場合について説明したが、その生成を行わなくてもよい。例えば、原言語フィラー情報が、フィラー時間位置特定部20が時間的な位置を特定したフィラーの音声情報(音声信号)であり、目的言語フィラー情報が、原言語フィラー情報そのものであってもよい。この場合には、目的言語音声情報に、原言語のフィラーそのものが挿入されることになる。フィラー自体は、有意な情報ではないため、言語が異なったとしても、ある程度の理解が可能であると考えられる。したがって、原言語のフィラーそのものを目的言語音声情報に挿入したとしても、目的言語音声情報の聞き手の理解がそれによって妨げられるようなことはないと考えられる。この場合には、音声翻訳装置1は、フィラー情報生成部24を備えなくてもよい。また、フィラー情報挿入部25は、前述のように、目的言語音声情報におけるフィラー挿入位置に、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するものであれば、フィラー情報生成部24によって生成された目的言語フィラー情報を挿入するものでなくてもよい。
【0099】
また、上記実施の形態では、音声翻訳装置1がスタンドアロンである場合について説明したが、音声翻訳装置1は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
【0100】
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
【0101】
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
【0102】
また、上記実施の形態において、音声翻訳装置1に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
【0103】
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における音声翻訳装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付部と、前記音声情報受付部が受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識部と、前記音声認識部が取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成部と、前記音声情報受付部が受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定部と、前記原言語音声情報において前記フィラー時間位置特定部が時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出部と、前記原言語音声情報において前記フィラー時間位置特定部が特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定部と、前記フィラーテキスト位置特定部が特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定部と、前記音声生成部が生成した目的言語音声情報における、前記フィラー挿入位置特定部が特定したフィラー挿入位置に、前記フィラー情報抽出部が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入部と、前記フィラー情報挿入部によって目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力部として機能させるためのものである。
【0104】
なお、上記プログラムにおいて、情報を出力する出力ステップや、情報を受け付ける受付ステップなどでは、ハードウェアでしか行われない処理、例えば、出力ステップにおけるモデムやインターフェースカードなどで行われる処理は少なくとも含まれない。
【0105】
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。
【0106】
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0107】
図4は、上記プログラムを実行して、上記実施の形態による音声翻訳装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
【0108】
図4において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
【0109】
図5は、コンピュータシステムを示す図である。図5において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
【0110】
コンピュータシステム100に、上記実施の形態による音声翻訳装置の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
【0111】
プログラムは、コンピュータ101に、上記実施の形態による音声翻訳装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
【0112】
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0113】
以上より、本発明による音声翻訳装置等によれば、フィラーも翻訳することによって、より臨場感のある音声翻訳を実現できるという効果が得られ、音声翻訳システム等として有用である。
【図面の簡単な説明】
【0114】
【図1】本発明の実施の形態1による音声翻訳装置の構成を示すブロック図
【図2】同実施の形態による音声翻訳装置の動作を示すフローチャート
【図3】同実施の形態による原言語音声情報等の一例を示す図
【図4】同実施の形態におけるコンピュータシステムの外観一例を示す模式図
【図5】同実施の形態におけるコンピュータシステムの構成の一例を示す図
【符号の説明】
【0115】
1 音声翻訳装置
11 音声情報受付部
12 原言語音声情報蓄積部
13 音声認識部
14 音声認識結果情報蓄積部
15 機械翻訳部
16 翻訳結果情報蓄積部
17 音声生成部
18 目的言語音声情報蓄積部
19 音声情報出力部
20 フィラー時間位置特定部
21 フィラー情報抽出部
22 フィラーテキスト位置特定部
23 フィラー挿入位置特定部
24 フィラー情報生成部
25 フィラー情報挿入部

【特許請求の範囲】
【請求項1】
発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付部と、
前記音声情報受付部が受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識部と、
前記音声認識部が取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成部と、
前記音声情報受付部が受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定部と、
前記原言語音声情報において前記フィラー時間位置特定部が時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出部と、
前記原言語音声情報において前記フィラー時間位置特定部が特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定部と、
前記フィラーテキスト位置特定部が特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定部と、
前記音声生成部が生成した目的言語音声情報における、前記フィラー挿入位置特定部が特定したフィラー挿入位置に、前記フィラー情報抽出部が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入部と、
前記フィラー情報挿入部によって目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力部と、を備えた音声翻訳装置。
【請求項2】
前記原言語フィラー情報は、前記フィラー時間位置特定部が時間的な位置を特定したフィラーの音声情報であり、
前記目的言語フィラー情報は、前記原言語フィラー情報である、請求項1記載の音声翻訳装置。
【請求項3】
前記原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する目的言語フィラー情報を生成するフィラー情報生成部をさらに備え、
前記フィラー情報挿入部は、前記フィラー情報生成部が生成した目的言語フィラー情報を目的言語音声情報に挿入する、請求項1記載の音声翻訳装置。
【請求項4】
前記フィラー情報生成部は、前記フィラー時間位置特定部が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報を生成する、請求項3記載の音声翻訳装置。
【請求項5】
前記フィラー情報生成部は、前記原言語音声情報のフィラーが音声認識され、機械翻訳された結果に対応する目的言語の音声情報である目的言語フィラー情報を生成する、請求項3記載の音声翻訳装置。
【請求項6】
前記パラ言語は、周波数、音量、周波数の変化、音量の変化から選ばれる少なくとも一つの情報である、請求項1から請求項5のいずれか記載の音声翻訳装置。
【請求項7】
前記パラ言語は、前記原言語音声情報のフィラーの時間的な長さ、当該フィラーの始点側の音声の空白の時間的な長さ、当該フィラーの終点側の音声の空白の時間的な長さをさらに含む、請求項6記載の音声翻訳装置。
【請求項8】
音声情報受付部と、音声認識部と、機械翻訳部と、音声生成部と、フィラー時間位置特定部と、フィラー情報抽出部と、フィラーテキスト位置特定部と、フィラー挿入位置特定部と、フィラー情報挿入部と、音声情報出力部とを用いて処理される音声翻訳方法であって、
前記音声情報受付部が、発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付ステップと、
前記音声認識部が、前記音声情報受付ステップで受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識ステップと、
前記機械翻訳部が、前記音声認識ステップで取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳ステップと、
前記音声生成部が、前記機械翻訳ステップで取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成ステップと、
前記フィラー時間位置特定部が、前記音声情報受付ステップで受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定ステップと、
前記フィラー情報抽出部が、前記原言語音声情報において前記フィラー時間位置特定ステップで時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出ステップと、
前記フィラーテキスト位置特定部が、前記原言語音声情報において前記フィラー時間位置特定ステップで特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定ステップと、
前記フィラー挿入位置特定部が、前記フィラーテキスト位置特定ステップで特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定ステップと、
前記フィラー情報挿入部が、前記音声生成ステップで生成した目的言語音声情報における、前記フィラー挿入位置特定ステップで特定したフィラー挿入位置に、前記フィラー情報抽出ステップで抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入ステップと、
前記音声情報出力部が、前記フィラー情報挿入ステップで目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力ステップと、を備えた音声翻訳方法。
【請求項9】
コンピュータを、
発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付部と、
前記音声情報受付部が受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識部と、
前記音声認識部が取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成部と、
前記音声情報受付部が受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定部と、
前記原言語音声情報において前記フィラー時間位置特定部が時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出部と、
前記原言語音声情報において前記フィラー時間位置特定部が特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定部と、
前記フィラーテキスト位置特定部が特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定部と、
前記音声生成部が生成した目的言語音声情報における、前記フィラー挿入位置特定部が特定したフィラー挿入位置に、前記フィラー情報抽出部が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入部と、
前記フィラー情報挿入部によって目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力部として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−146043(P2009−146043A)
【公開日】平成21年7月2日(2009.7.2)
【国際特許分類】
【出願番号】特願2007−320893(P2007−320893)
【出願日】平成19年12月12日(2007.12.12)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】