音声翻訳装置、音声翻訳方法、及びプログラム

【課題】フィラーも翻訳する音声翻訳装置を提供する。
【解決手段】原言語音声情報を受け付ける音声情報受付部１１、原言語音声情報を音声認識する音声認識部１３、音声認識結果情報を機械翻訳する機械翻訳部１５、翻訳結果情報に対応する目的言語音声情報を生成する音声生成部１７、原言語音声情報でのフィラー位置を特定するフィラー時間位置特定部２０、フィラーのパラ言語を含む原言語フィラー情報を抽出するフィラー情報抽出部２１、音声認識結果情報でのフィラー位置を特定するフィラーテキスト位置特定部２２、目的言語音声情報でのフィラー位置であるフィラー挿入位置を特定するフィラー挿入位置特定部２３、原言語フィラー情報に対応する目的言語フィラー情報をフィラー挿入位置に挿入するフィラー情報挿入部２５、目的言語フィラー情報を含む目的言語音声情報を出力する音声情報出力部１９を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、翻訳後の目的言語音声情報にもフィラーに関する情報を挿入する音声翻訳装置等に関する。
【背景技術】
【０００２】
従来の翻訳装置において、原言語におけるテキストそのもの以外の情報をも目的言語に反映させる技術が開発されている。例えば、原言語のテキストにおけるイタリック等の文字修飾の情報をも、目的言語のテキストに反映させる機械翻訳装置が開発されている（例えば、特許文献１参照）。
【特許文献１】特開２０００−１２３０１２号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
前述のように、原言語におけるテキストそのもの以外の情報をも目的言語に反映させることにより、テキストそのもの以外の情報をも伝達することが求められてきており、そのことは、音声翻訳装置においても同様である。すなわち、音声翻訳において、発話された言語そのもの以外の情報を伝達することにより、より臨場感のあふれる話し言葉の翻訳を実現することが求められてきている。
【０００４】
本発明は、上記の事情を考慮してなされたものであり、原言語で発話された言語そのもの以外の情報をも伝達することができる音声翻訳装置等を提供することを目的とする。
【課題を解決するための手段】
【０００５】
上記目的を達成するため、本発明による音声翻訳装置は、発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付部と、前記音声情報受付部が受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識部と、前記音声認識部が取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成部と、前記音声情報受付部が受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定部と、前記原言語音声情報において前記フィラー時間位置特定部が時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出部と、前記原言語音声情報において前記フィラー時間位置特定部が特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定部と、前記フィラーテキスト位置特定部が特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定部と、前記音声生成部が生成した目的言語音声情報における、前記フィラー挿入位置特定部が特定したフィラー挿入位置に、前記フィラー情報抽出部が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入部と、前記フィラー情報挿入部によって目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力部と、を備えたものである。
【０００６】
このような構成により、フィラーについても翻訳することができる。目的言語フィラー情報は、原言語でのフィラーと同じパラ言語を有するため、目的言語音声情報に挿入された目的言語フィラー情報も、原言語での話者がフィラーを発話した際と同様の雰囲気で出力されることになる。したがって、より臨場感のある、話者の感情を含んだ音声翻訳結果を生成することができうる。
【０００７】
また、本発明による音声翻訳装置では、前記原言語フィラー情報は、前記フィラー時間位置特定部が時間的な位置を特定したフィラーの音声情報であり、前記目的言語フィラー情報は、前記原言語フィラー情報であってもよい。
このような構成により、原言語のフィラーそのものを目的言語音声情報に挿入することができる。
【０００８】
また、本発明による音声翻訳装置では、前記原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する目的言語フィラー情報を生成するフィラー情報生成部をさらに備え、前記フィラー情報挿入部は、前記フィラー情報生成部が生成した目的言語フィラー情報を目的言語音声情報に挿入してもよい。
このような構成により、原言語のフィラーと同じパラ言語を有するフィラーを生成し、その生成したフィラーを目的言語音声情報に挿入することができる。
【０００９】
また、本発明による音声翻訳装置では、前記フィラー情報生成部は、前記フィラー時間位置特定部が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報を生成してもよい。
【００１０】
このような構成により、原言語のフィラーと同様の母音を有するフィラーを生成して、目的言語音声情報に挿入することができる。このフィラーは、目的言語のフィラーとは異なる音声であるかもしれないが、母音とパラ言語が原言語のフィラーと共通しているため、原言語の話者の感情は、そのフィラーによって十分聞き手に伝わるものと考えられ得る。
【００１１】
また、本発明による音声翻訳装置では、前記フィラー情報生成部は、前記原言語音声情報のフィラーが音声認識され、機械翻訳された結果に対応する目的言語の音声情報である目的言語フィラー情報を生成してもよい。
【００１２】
このような構成により、目的言語音声情報に挿入されるフィラーを、目的言語での一般的なフィラーとすることができ、その挿入されたフィラーをより自然なものとすることができる。
【００１３】
また、本発明による音声翻訳装置では、前記パラ言語は、周波数、音量、周波数の変化、音量の変化から選ばれる少なくとも一つの情報であってもよい。
また、本発明による音声翻訳装置では、前記パラ言語は、前記原言語音声情報のフィラーの時間的な長さ、当該フィラーの始点側の音声の空白の時間的な長さ、当該フィラーの終点側の音声の空白の時間的な長さをさらに含んでもよい。
【発明の効果】
【００１４】
本発明による音声翻訳装置等によれば、音声翻訳において、フィラーのパラ言語を含む情報をも目的言語の音声情報に付加することができ、より臨場感のある音声翻訳を実現することが可能となる。
【発明を実施するための最良の形態】
【００１５】
以下、本発明による音声翻訳装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
【００１６】
（実施の形態１）
本発明の実施の形態１による音声翻訳装置について、図面を参照しながら説明する。本実地の形態による音声翻訳装置は、原言語のフィラーに関するパラ言語をも用いて音声翻訳を行うものである。
【００１７】
図１は、本実施の形態による音声翻訳装置１の構成を示すブロック図である。本実施の形態による音声翻訳装置１は、音声情報受付部１１と、原言語音声情報蓄積部１２と、音声認識部１３と、音声認識結果情報蓄積部１４と、機械翻訳部１５と、翻訳結果情報蓄積部１６と、音声生成部１７と、目的言語音声情報蓄積部１８と、音声情報出力部１９と、フィラー時間位置特定部２０と、フィラー情報抽出部２１と、フィラーテキスト位置特定部２２と、フィラー挿入位置特定部２３と、フィラー情報生成部２４と、フィラー情報挿入部２５とを備える。
【００１８】
音声情報受付部１１は、発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける。音声情報受付部１１は、例えば、マイクから直接、原言語音声情報を受け付けてもよく、あるいは、マイクで集音された原言語音声情報が一度蓄積されたものを受け付けてもよい。原言語音声情報は、いわゆる音声信号の情報である。
【００１９】
音声情報受付部１１は、例えば、入力デバイス（例えば、マイクなど）から入力された原言語音声情報を受け付けてもよく、有線もしくは無線の通信回線を介して送信された原言語音声情報を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された原言語音声情報を受け付けてもよい。なお、音声情報受付部１１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、音声情報受付部１１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
【００２０】
原言語音声情報蓄積部１２は、音声情報受付部１１が受け付けた原言語音声情報を、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、原言語音声情報蓄積部１２が有していてもよく、あるいは原言語音声情報蓄積部１２の外部に存在してもよい。また、この記録媒体は、原言語音声情報を一時的に記憶するものであってもよく、そうでなくてもよい。
【００２１】
音声認識部１３は、音声情報受付部１１が受け付けた原言語音声情報を音声認識して、その原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する。音声認識の方法は、すでに公知であり、その詳細な説明を省略する。音声認識部１３は、例えば、音響モデルや、辞書情報、言語モデル等を用いることによって、音声認識を行ってもよい。
【００２２】
音声認識結果情報蓄積部１４は、音声認識部１３が取得した音声認識結果情報を、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、音声認識結果情報蓄積部１４が有していてもよく、あるいは音声認識結果情報蓄積部１４の外部に存在してもよい。また、この記録媒体は、音声認識結果情報を一時的に記憶するものであってもよく、そうでなくてもよい。
【００２３】
機械翻訳部１５は、音声認識部１３が取得した音声認識結果情報を機械翻訳して、その音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する。音声認識結果情報は、原言語のテキスト情報であり、それと対訳関係にあるテキスト情報が、翻訳結果情報である。機械翻訳の方法は、すでに公知であり、その詳細な説明を省略する。また、原言語と目的言語とは、異なる言語であればよく、その組合せは問わない。例えば、原言語が日本語であり、目的言語が英語であってもよく、原言語が英語であり、目的言語がフランス語であってもよい。
【００２４】
翻訳結果情報蓄積部１６は、機械翻訳部１５が機械翻訳した結果である翻訳結果情報を、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、翻訳結果情報蓄積部１６が有していてもよく、あるいは翻訳結果情報蓄積部１６の外部に存在してもよい。また、この記録媒体は、翻訳結果情報を一時的に記憶するものであってもよく、そうでなくてもよい。
【００２５】
音声生成部１７は、機械翻訳部１５が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する。目的言語音声情報は、目的言語での、いわゆる音声信号の情報である。テキストから、そのテキストに対応した音声を生成する方法は、音声合成の技術としてすでに公知であり、その詳細な説明を省略する。
【００２６】
目的言語音声情報蓄積部１８は、音声生成部１７が生成した目的言語音声情報を、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、目的言語音声情報蓄積部１８が有していてもよく、あるいは目的言語音声情報蓄積部１８の外部に存在してもよい。また、この記録媒体は、目的言語音声情報を一時的に記憶するものであってもよく、そうでなくてもよい。
【００２７】
音声情報出力部１９は、後述するフィラー情報挿入部２５によって目的言語フィラー情報の挿入された目的言語音声情報を出力する。目的言語フィラー情報や、その目的言語フィラー情報を目的言語音声情報に挿入する処理等については、後述する。
【００２８】
ここで、この出力は、例えば、スピーカによる音声出力でもよく、所定の機器への通信回線を介した送信でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、音声情報出力部１９は、出力を行うデバイス（例えば、スピーカや通信デバイスなど）を含んでもよく、あるいは含まなくてもよい。また、音声情報出力部１９は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
【００２９】
フィラー時間位置特定部２０は、音声情報受付部１１が受け付けた原言語音声情報において、フィラーの時間的な位置を特定する。フィラー（ｆｉｌｌｅｒ）とは、有意な発話の間に挿入される発話である。例えば、「え〜っと」や、「あのぉー」、「そのー」等である。
【００３０】
ここで、フィラー時間位置特定部２０がフィラーの時間的な位置を特定する方法について説明する。
【００３１】
［音声認識結果（音声認識のできなかったこと）を利用する方法］
フィラーは有意な発話ではないため、一般に、認識精度を重視していない処理の軽い音声認識処理、例えば、ＲＴＦ（リアルタイムファクター）が小さい音声認識処理では、フィラーの領域については、音声認識が行われないことがある。したがって、そのような音声認識を音声認識部１３が行っているのであれば、フィラー時間位置特定部２０は、音声認識部１３によって音声認識のなされなかった原言語音声情報の時間的な範囲を、フィラーの時間的な位置として特定してもよい。
【００３２】
［音声認識結果（音声認識できた結果）を利用する方法］
上述の場合とは異なり、認識精度を重視した音声認識処理、例えば、ＲＴＦが大きい音声認識処理を行い、かつ、フィラーに関する辞書（「え〜っと」等のフィラーの音声信号をテキスト「え〜っと」等に変換するための辞書）を用いて音声認識処理を行う場合には、原言語音声情報に含まれるフィラーの音声信号もテキストに変換されることになる。したがって、そのような音声認識を音声認識部１３が行っているのであれば、フィラー時間位置特定部２０は、あらかじめ図示しない記録媒体で保持されているフィラーに対応するテキスト情報、例えば、「え〜っと」や、「あのぉー」、「そのー」等を用いて、そのフィラーに対応するテキストが音声認識結果情報に含まれる場合に、その音声認識結果情報に含まれるフィラーのテキストに対応する原言語音声情報における時間的な位置を特定することによって、フィラーの時間的な位置を特定することができる。
【００３３】
［波形のパターンマッチングを利用する方法］
フィラー時間位置特定部２０は、あらかじめ図示しない記録媒体で保持されている、フィラーに対応する音声信号の波形を用いて、原言語音声情報においてその波形のパターンマッチングを行い、フィラーに対応する音声信号の波形に類似する時間的な領域が存在した場合に、その時間的な領域を、フィラーの時間的な位置として特定してもよい。波形のパターンマッチングについては、すでに公知であり、その詳細な説明を省略する。なお、この波形のパターンマッチングでは、例えば、厳密なマッチングをとるのではなく、例えば、波形のエンベロープのマッチングをとってもよく、必要十分な範囲でのマッチングをとることができればよい。
【００３４】
なお、ここでは、フィラーの時間的な位置を特定する３通りの方法について説明したが、それ以外の方法を用いてフィラーの時間的な位置を特定してもよいことは言うまでもない。
【００３５】
また、フィラーの時間的な位置を特定するとは、例えば、そのフィラーの時間的な位置を特定する情報を図示しない記録媒体に蓄積することであってもよく、あるいは、フィラーの時間的な位置を特定可能な情報を原言語音声情報に付加することであってもよい。前者の場合には、例えば、フィラーの始点を示す情報と、フィラーの終点を示す情報を図示しない記録媒体に蓄積してもよい。フィラーの始点や終点は、例えば、タイムコードによって示されてもよく、原言語音声情報の先頭や終点、あるいは特定の位置からのデータ容量（例えば、バイト数）で示されてもよく、または、原言語音声情報の波形そのものによって示されてもよい。また、後者の場合には、原言語音声情報において、フィラーの始点の位置に、フィラーの始点であることを示す情報（例えば、フラグのようなものであってもよい）が付加され、フィラーの終点の位置に、フィラーの終点であることを示す情報が付加されてもよく、あるいは、フィラーの始点から終点にわたって連続的に、フィラーであることを示す情報が付加されてもよい。なお、フィラーの時間的な位置を特定することができるのであれば、フィラーの特定方法は、これらに限定されないことは言うまでもない。
【００３６】
フィラー情報抽出部２１は、原言語音声情報においてフィラー時間位置特定部２０が時間的な位置を特定したフィラーに関する原言語フィラー情報を抽出する。フィラー時間位置特定部２０が時間的な位置を特定したフィラーに関する原言語フィラー情報とは、フィラー時間位置特定部２０が時間的な位置を特定したフィラーに関するパラ言語を少なくとも含む情報である。パラ言語とは、音声情報における韻律的特徴の情報である。声の強弱、強弱の変化、高さ（周波数）、高さの変化、発話の速さ、抑揚、震え、声色、また発話中の情報のみならず、発話で生じる沈黙（間）やその長さもパラ言語に含まれる。例えば「ありがとう」と書かれた文章単体からはその書き手の気持ちを察するのは困難だが、「ありがとう」という句を読み上げられた音声情報の場合ならば、その話し手の気持ち（例えば愛情や怒り、同情など）を察することは通例容易になる。また反対に、それら気持ちを込めて読み上げることも可能である。これはパラ言語情報が存在しているために可能となる。フィラーに関するパラ言語は、例えば、原言語音声情報のフィラーの周波数であってもよく、フィラーの音量であってもよく、フィラーの周波数の変化であってもよく、フィラーの音量の変化であってもよく、原言語音声情報のフィラーの時間的な長さであってもよく、そのフィラーの始点側の音声の空白の時間的な長さであってもよく、そのフィラーの終点側の音声の空白の時間的な長さであってもよく、フィラーの発話の速さであってもよく、それらの任意の二以上の情報の組合せであってもよく、フィラーに関するパラ言語を適切に示すことができる情報であれば、それら以外の情報であってもよい。フィラーの発話の速さは、例えば、単位時間あたりのモーラ数や、単位時間あたりのシラブル数によって計測することができうる。
【００３７】
フィラー情報抽出部２１は、原言語フィラー情報として、例えば、フィラー時間位置特定部２０が時間的な位置を特定したフィラーの音声情報そのものを原言語音声情報から抽出してもよい。また、フィラー時間位置特定部２０は、原言語フィラー情報として、例えば、フィラー時間位置特定部２０が時間的な位置を特定したフィラーのパラ言語のみを原言語音声情報から抽出してもよい。そのパラ言語は、前述のように、例えば、周波数、音量、周波数の変化、音量の変化から選ばれる少なくとも一つの情報であってもよく、原言語音声情報のフィラーの時間的な長さ、そのフィラーの始点側の音声の空白の時間的な長さ、そのフィラーの終点側の音声の空白の時間的な長さをさらに含む情報であってもよい。フィラー情報抽出部２１が抽出した原言語フィラー情報は、図示しない記録媒体において一時的に記憶されてもよい。
【００３８】
なお、周波数とは、原言語音声情報における、フィラーの音声信号の周波数そのものであってもよく、あるいは、原言語音声情報における、フィラー以外の音声信号の周波数と、フィラーの音声信号の周波数との差であってもよい。また、その周波数は、フィラーの音声信号の区間にわたって平均のとられたものであってもよい。周波数の変化は、例えば、フィラーにおける微少時間（例えば、１０ｍｓや３０ｍｓ等）ごとの周波数の平均を検出することによって抽出することができる。また、この周波数は、いわゆる基本周波数Ｆ０であってもよい。
【００３９】
また、音量とは、原言語音声情報における、フィラーの音声信号の音量（電圧）そのものであってもよく、あるいは、原言語音声情報における、フィラー以外の音声信号の音量と、フィラーの音声信号の音量との差であってもよい。また、その音量は、フィラーの音声信号の区間にわたって平均のとられたものであってもよい。周波数の変化は、例えば、フィラーにおける微少時間（例えば、１０ｍｓや３０ｍｓ等）ごとの音量の平均を検出することによって抽出することができる。
【００４０】
フィラーテキスト位置特定部２２は、原言語音声情報においてフィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応する音声認識結果情報における位置を特定する。
【００４１】
例えば、音声認識結果情報におけるテキストと、原言語音声情報における時間的な位置とが対応付けられている場合（例えば、音声認識結果情報のテキストに、原言語音声情報のタイムコードが付与されている場合）には、原言語音声情報における時間的な位置に対応する音声認識結果情報におけるテキストの位置を特定することができる。したがって、そのような場合には、フィラーテキスト位置特定部２２は、フィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応するテキストの位置を、音声認識結果情報におけるテキストと、原言語音声情報における時間的な位置とを対応付ける情報を用いることによって、特定することができる。
【００４２】
また、音声認識結果情報におけるテキストと、原言語音声情報における時間的な位置とを対応付ける情報が存在しない場合には、例えば、フィラーテキスト位置特定部２２は、原言語音声情報において、フィラー時間位置特定部２０が時間的な位置を特定したフィラーの前方、後方、あるいは、その両方の音声信号（この音声信号には、フィラーは含まれない）を取得し、その音声信号を音声認識した結果を取得する。そして、その結果が、音声認識結果情報のどこに位置するのかによって、フィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応するテキストの位置を特定することができる。より具体的には、フィラー時間位置特定部２０によって特定されたフィラーの前方の音声信号を音声認識した結果を取得した場合には、フィラーテキスト位置特定部２２は、その音声認識した結果の位置を音声認識結果情報において特定し、その特定した位置の直後を、フィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応するテキストの位置として特定してもよい。
【００４３】
また、音声認識のできなかったことを利用してフィラーの位置を特定した場合には、フィラーテキスト位置特定部２２は、音声認識結果情報において、その音声認識のできなかった位置を、フィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応するテキストの位置として特定してもよい。
【００４４】
また、音声認識結果を利用してフィラーの位置を特定した場合には、音声認識結果情報にフィラーに対応するテキストが存在する場合がある。したがって、その場合には、フィラーテキスト位置特定部２２は、音声認識結果情報における、そのフィラーに対応するテキストの位置を、フィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応するテキストの位置として特定してもよい。
【００４５】
また、その他の方法を利用することによって適切にフィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応するテキストの位置として特定することができるのであれば、フィラーテキスト位置特定部２２は、その方法を用いてフィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応するテキストの位置を特定してもよい。
【００４６】
また、原言語音声情報においてフィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応する音声認識結果情報における位置を特定するとは、例えば、その位置を特定する情報を図示しない記録媒体に蓄積することであってもよく、あるいは、その位置を特定可能な情報を音声認識結果情報に付加することであってもよい。前者の場合であって、音声認識結果情報にフィラーに対応するテキストが存在しない場合には、その位置を特定する情報は、例えば、音声認識結果情報の先頭や後端、あるいは特定の位置から、その特定の対象となる位置までの文字数で示されてもよく、データ容量で示されてもよく、その位置の前方に存在するテキストで示されてもよく、あるいは、その位置の後方に存在するテキストで示されてもよい。また、前者の場合であって、音声認識結果情報にフィラーに対応するテキストが存在する場合には、その位置を特定する情報は、例えば、その位置の始点と終点を特定する情報であってもよい。始点や終点は、例えば、音声認識結果情報の先頭や後端、あるいは特定の位置から、その特定の対象となる位置までの文字数で示されてもよく、データ容量で示されてもよく、その位置の前方に存在するテキストと、その位置の後方に存在するテキストとで示されてもよい。また、後者の場合には、音声認識結果情報において、特定の対象となる位置に、その位置であることを示す情報（例えば、フラグのようなものであってもよい）が付加されてもよい。なお、原言語音声情報においてフィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応する音声認識結果情報における位置を適切に特定することができるのであれば、その特定方法は、これらに限定されないことは言うまでもない。
【００４７】
フィラー挿入位置特定部２３は、フィラーテキスト位置特定部２２が特定した音声認識結果情報における位置に対応する目的言語音声情報における時間的な位置であるフィラー挿入位置を特定する。このフィラー挿入位置の特定は、例えば、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置を特定し、その特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置を特定することによって行われる。
【００４８】
まず、フィラー挿入位置特定部２３が、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置を特定する方法について説明する。
【００４９】
フィラー挿入位置特定部２３は、例えば、音声認識結果情報において特定された位置に続くチャンクを特定する。ここで、チャンクとは、一定のまとまりのあるテキストであって、例えば、形態素や単語であってもよく、あるいは、複数の連続した形態素や複数の連続した単語であってもよい。そして、フィラー挿入位置特定部２３は、その特定した原言語のチャンクに対応する目的言語のチャンクを取得する。これは、例えば、機械翻訳を行うことによって得ることができる。機械翻訳は、フィラー挿入位置特定部２３が行ってもよく、あるいは、機械翻訳部１５において行ってもよい。フィラー挿入位置特定部２３は、翻訳結果情報において、目的言語のチャンクの位置を特定し、その目的言語のチャンクの位置の直前が、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置であると特定してもよい。
【００５０】
フィラー挿入位置特定部２３は、例えば、音声認識結果情報において特定された位置に先行するチャンクを特定し、その特定した原言語のチャンクに対応する目的言語のチャンクを取得する。そして、フィラー挿入位置特定部２３は、翻訳結果情報において、目的言語のチャンクの位置を特定し、その目的言語のチャンクの位置の直後が、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置であると特定してもよい。
【００５１】
また、例えば、音声認識結果情報にフィラーに対応するテキストが存在する場合には、フィラー挿入位置特定部２３は、そのテキストと対訳関係にある目的言語のフィラーを翻訳結果情報で特定することによって、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置を特定してもよい。フィラー挿入位置特定部２３は、原言語のフィラーと対訳関係にある目的言語のフィラーを、例えば、対訳関係にある原言語のフィラーと、目的言語のフィラーとを対応付ける辞書（この辞書は、例えば、図示しない記録媒体で保持されていてもよい）を用いて取得してもよく、機械翻訳部１５から取得してもよい。
【００５２】
また、フィラー挿入位置特定部２３が、音声認識結果情報において特定された位置に対応する翻訳結果情報における位置を特定するとは、翻訳結果情報における位置を特定する情報を図示しない記録媒体に蓄積することであってもよく、あるいは、その位置を特定可能な情報を翻訳結果情報に付加することであってもよい。それらの方法は、原言語音声情報においてフィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応する音声認識結果情報における位置を特定する場合の処理と同様であり、その詳細な説明を省略する。
【００５３】
次に、フィラー挿入位置特定部２３が、特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置（すなわち、フィラー挿入位置）を特定する方法について説明する。
【００５４】
例えば、翻訳結果情報におけるテキストと、目的言語音声情報における時間的な位置とが対応付けられている場合（例えば、翻訳結果情報のテキストに、目的言語音声情報のタイムコードが付与されている場合）には、翻訳結果情報におけるテキストの位置に対応する目的言語音声情報における時間的な位置を特定することができる。したがって、そのような場合には、フィラー挿入位置特定部２３は、特定された翻訳結果情報の位置に対応する目的言語音声情報の位置を、翻訳結果情報におけるテキストと、目的言語音声情報における時間的な位置とを対応付ける情報を用いることによって、特定することができる。
【００５５】
また、翻訳結果情報におけるテキストと、目的言語音声情報における時間的な位置とを対応付ける情報が存在しない場合には、例えば、フィラー挿入位置特定部２３は、特定された翻訳結果情報の位置の前方、後方、あるいは、その両方のテキストを取得し、そのテキストから音声信号を生成する。そして、その音声信号が、目的言語音声情報のどこに位置するのかによって、特定された翻訳結果情報の位置に対応する目的言語音声情報における位置を特定することができる。より具体的には、特定された翻訳結果情報における位置の前方のテキストから音声信号を生成した場合には、フィラー挿入位置特定部２３は、その生成した音声信号の位置を目的言語音声情報において特定し、その特定した位置の直後を、特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置として特定してもよい。
【００５６】
また、フィラーも音声認識されて、機械翻訳され、翻訳結果情報にフィラーに対応するテキストが存在する場合には、フィラー挿入位置特定部２３は、目的言語音声情報における、そのフィラーのテキストに対応する音声信号の位置を、特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置として特定してもよい。
【００５７】
また、特定された翻訳結果情報の位置に対応する目的言語音声情報における時間的な位置を特定するとは、例えば、その位置を特定する情報を図示しない記録媒体に蓄積することであってもよく、あるいは、その位置を特定可能な情報を目的言語音声情報に付加することであってもよい。それらの方法は、原言語音声情報においてフィラー時間位置特定部２０がフィラーの時間的な位置を特定する場合の処理と同様であり、その詳細な説明を省略する。
【００５８】
また、その他の方法を利用することによって、適切にフィラーテキスト位置特定部２２が特定した音声認識結果情報における位置に対応する目的言語音声情報における時間的な位置を特定することができるのであれば、フィラー挿入位置特定部２３は、その方法を用いて目的言語音声情報における時間的な位置（すなわち、フィラー挿入位置）を特定してもよい。
【００５９】
フィラー情報生成部２４は、フィラー情報抽出部２１が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する目的言語フィラー情報を生成する。この目的言語フィラー情報は、目的言語においてフィラーと認識されるものであってもよく、あるいは、そうでなくてもよい。例えば、目的言語が英語である場合には、前者の目的言語フィラー情報は、「Ｗｅｌｌ」や「Ｌｅｔｍｅｓｅｅ」の音声信号であってもよく、後者の目的言語フィラー情報は、「え〜」や「そのぉ〜」の音声信号であってもよい。
【００６０】
フィラー情報生成部２４は、例えば、フィラー時間位置特定部２０が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報を生成してもよい。また、フィラー情報生成部２４は、例えば、原言語音声情報のフィラーが音声認識され、機械翻訳された結果に対応する目的言語の音声情報である目的言語フィラー情報を生成してもよい。その生成の際にも、前述のように、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有するように目的言語フィラー情報を生成するものとする。したがって、フィラー情報生成部２４が生成する目的言語フィラー情報は、原言語フィラー情報とパラ言語が共通することになり、例えば、周波数や、音量、それらの変化、フィラーの時間的な長さ、プレの間や、ポストの間などが共通することになる。
【００６１】
ここで、フィラー情報生成部２４が、フィラー時間位置特定部２０が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報を生成する場合の処理について説明する。まず、フィラー情報生成部２４は、フィラー時間位置特定部２０が時間的な位置を特定したフィラーに対して音声認識と同様の処理を行うことによって、そのフィラーに対応する母音・子音の並びを取得する。そして、その取得した母音のみを取り出して、それに対応する音声信号であり、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する音声信号を合成する。その合成の際に、原言語の母音から、その音声信号の合成を行ってもよく（この場合には、原言語での音声信号となる）、あるいは、目的言語の母音から、その音声信号の合成を行ってもよい（この場合には、目的言語での音声信号となる）。後者の場合には、図示しない記録媒体において、原言語の母音と、目的言語の母音とを対応付ける情報が保持されており、フィラー情報生成部２４は、その情報を参照することによって、原言語の母音を目的言語の母音に変換してもよい。このように、「フィラー時間位置特定部２０が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報」における同じ母音は、原言語のフィラーの有する母音とまったく同じであってもよく、あるいは、その母音と対訳関係にある母音であってもよい。
【００６２】
また、フィラー情報生成部２４は、例えば、フィラーの原言語の音声信号と、それに対応するフィラーの目的言語の音声信号とを対応付ける情報である音声信号対応情報を用いて、フィラー時間位置特定部２０が時間的な位置を特定したフィラーの音声信号と類似する、音声信号対応情報に含まれるフィラーの原言語の音声信号を特定し、その音声信号に対応付けられている、フィラーの目的言語の音声信号を取得し、その取得した音声信号が、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有するように変換した目的言語フィラー情報を生成してもよい。なお、音声信号対応情報は、フィラー情報生成部２４がアクセス可能な図示しない記録媒体で保持されているものとする。音声信号対応情報では、例えば、原言語（日本語）の「え〜っと」の音声信号と、目的言語（英語）の「Ｗｅｌｌ」の音声信号とが対応付けられていてもよい。
【００６３】
また、フィラー情報生成部２４は、例えば、フィラーとして生成する音声信号をあらかじめ図示しない記録媒体で保持しており、その音声信号のパラ言語を、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有するように変換した目的言語フィラー情報を生成してもよい。例えば、目的言語が英語である場合には、フィラー情報生成部２４は、あらかじめフィラーとして、「Ｗｅｌｌ」や「Ｌｅｔｍｅｓｅｅ」に対応する音声信号を保持しておく。そして、フィラー情報生成部２４は、その音声信号のパラ言語のみを原言語フィラー情報にあわせることによって、目的言語フィラー情報を生成してもよい。この場合に、フィラー情報生成部２４は、目的言語の複数のフィラーの音声信号を保持しておき、原言語のフィラーの長さに応じて、そのフィラーの音声信号を選択するようにしてもよい。例えば、フィラー情報生成部２４は、原言語のフィラーが短い場合には、「Ｗｅｌｌ」を選択し、原言語のフィラーが長い場合には、「Ｌｅｔｍｅｓｅｅ」を選択してもよい。
【００６４】
また、フィラー情報生成部２４は、音声認識や、機械翻訳、音声合成を行う際に、フィラー情報生成部２４自身がその処理を行ってもよく、あるいは、他の構成要素（例えば、音声認識部１３や、機械翻訳部１５、音声生成部１７等）や、他の装置にその処理を依頼し、その処理の結果を受け取ってもよい。
【００６５】
また、フィラー情報生成部２４は、原言語フィラー情報がフィラーの音声情報そのものである場合には、その原言語フィラー情報からパラ言語の情報（例えば、周波数や音量等）を取り出す処理を行ってもよい。
また、フィラー情報生成部２４が行う音声信号のパラ言語を変更する処理等は、すでに公知であり、その詳細な説明を省略する。
【００６６】
フィラー情報挿入部２５は、音声生成部１７が生成した目的言語音声情報における、フィラー挿入位置特定部２３が特定したフィラー挿入位置に、フィラー情報抽出部２１が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入する。すなわち、フィラー情報挿入部２５は、フィラー情報生成部２４が生成した目的言語フィラー情報を目的言語音声情報に挿入する。
【００６７】
目的言語音声情報のフィラー挿入位置に目的言語フィラー情報を挿入するとは、例えば、目的言語音声情報に、フィラー時間位置特定部２０が時間的な位置を特定したフィラーに対応する音声情報が含まれない場合には、フィラー挿入位置に目的言語フィラー情報を追加することであってもよく、あるいは、目的言語音声情報に、フィラー時間位置特定部２０が時間的な位置を特定したフィラーに対応する音声情報が含まれる場合には、フィラー挿入位置で示される、その音声情報の位置に、目的言語フィラー情報を上書きで追加することであってもよい。
【００６８】
なお、原言語音声情報が蓄積される記録媒体、音声認識結果情報が蓄積される記録媒体、翻訳結果情報が蓄積される記録媒体、目的言語音声情報が蓄積される記録媒体等は、同一の記録媒体で実現されてもよく、あるいは、別々の記録媒体で実現されてもよい。前者の場合には、例えば、原言語音声情報が記憶されている領域が、原言語音声情報が蓄積される記録媒体となり、音声認識結果情報が記憶されている領域が、音声認識結果情報が蓄積される記録媒体となりうる。
【００６９】
次に、本実施の形態による音声翻訳装置１の動作について、図２のフローチャートを用いて説明する。
（ステップＳ１０１）音声情報受付部１１は、原言語音声情報を受け付けたかどうか判断する。そして、受け付けた場合には、ステップＳ１０２に進み、そうでない場合には、受け付けるまでステップＳ１０１の処理を繰り返す。
【００７０】
（ステップＳ１０２）原言語音声情報蓄積部１２は、音声情報受付部１１が受け付けた原言語音声情報を蓄積する。なお、音声情報受付部１１がマイクから直接、原言語音声情報をリアルタイムで受け付けるような場合には、このステップＳ１０１とステップＳ１０２の処理が繰り返して実行されることによって、一連の長さの原言語音声情報が蓄積されるようにしてもよい。
【００７１】
（ステップＳ１０３）音声認識部１３は、原言語音声情報蓄積部１２が蓄積した原言語音声情報を音声認識して、原言語音声情報に対応する音声認識結果情報を取得する。
【００７２】
（ステップＳ１０４）音声認識結果情報蓄積部１４は、音声認識部が取得した音声認識結果情報を蓄積する。
【００７３】
（ステップＳ１０５）機械翻訳部１５は、音声認識結果情報蓄積部１４が蓄積した音声認識結果情報を機械翻訳して、その音声認識結果情報に対応する目的言語の翻訳結果情報を取得する。
【００７４】
（ステップＳ１０６）翻訳結果情報蓄積部１６は、機械翻訳部１５が取得した翻訳結果情報を蓄積する。
【００７５】
（ステップＳ１０７）音声生成部１７は、翻訳結果情報蓄積部１６が蓄積した翻訳結果情報に対応する目的言語音声情報を生成する。
【００７６】
（ステップＳ１０８）目的言語音声情報蓄積部１８は、音声生成部１７が生成した目的言語音声情報を蓄積する。
【００７７】
（ステップＳ１０９）フィラー時間位置特定部２０は、原言語音声情報蓄積部１２が蓄積した原言語音声情報において、フィラーの時間的な位置を特定する。この特定された情報は、図示しない記録媒体において一時的に記憶されてもよい。
【００７８】
（ステップＳ１１０）フィラー情報抽出部２１は、原言語音声情報蓄積部１２が蓄積した原言語音声情報において、フィラー時間位置特定部２０が時間的な位置を特定したフィラーに関する原言語フィラー情報を抽出する。その抽出された原言語フィラー情報は、図示しない記録媒体において一時的に記憶されてもよい。
【００７９】
（ステップＳ１１１）フィラーテキスト位置特定部２２は、フィラー時間位置特定部２０が特定したフィラーの時間的な位置に対応する、音声認識結果情報蓄積部１４が蓄積した音声認識結果情報における位置を特定する。この特定された情報は、図示しない記録媒体において一時的に記憶されてもよい。
【００８０】
（ステップＳ１１２）フィラー挿入位置特定部２３は、フィラーテキスト位置特定部２２が特定した音声認識結果情報における位置に対応する、目的言語音声情報蓄積部１８が蓄積した目的言語音声情報における時間的な位置であるフィラー挿入位置を特定する。この特定されたフィラー挿入位置を示す情報は、図示しない記録媒体において一時的に記憶されてもよい。
【００８１】
（ステップＳ１１３）フィラー情報生成部２４は、フィラー情報抽出部２１が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する目的言語フィラー情報を生成する。その生成された目的言語フィラー情報は、図示しない記録媒体において一時的に記憶されてもよい。
【００８２】
（ステップＳ１１４）フィラー情報挿入部２５は、フィラー情報生成部２４が生成した目的言語フィラー情報を、目的言語音声情報における、フィラー挿入位置特定部２３が特定したフィラー挿入位置に挿入する。
【００８３】
（ステップＳ１１５）音声情報出力部１９は、目的言語フィラー情報の挿入された目的言語音声情報を出力する。そして、ステップＳ１０１に戻る。
なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。また、図２のフローチャートにおいて、処理の順番にはある程度の任意性がある。例えば、フィラー挿入位置の特定処理（ステップＳ１１２）と、目的言語フィラー情報の生成処理（ステップＳ１１３）との順番が逆であってもよい。
【００８４】
次に、本実施の形態による音声翻訳装置１の動作について、具体例を用いて説明する。
この具体例では、日本人の話者が日本語を発話して、その発話が英語に音声翻訳される場合について説明する。
【００８５】
まず、話者がマイクに向かって「私は便宜的に三つの時期に分けたのですが、え〜、それぞれの時期に若干の重複があります。」と発話したとする。すると、その原言語音声情報が音声情報受付部１１で受け付けられ、原言語音声情報蓄積部１２によって蓄積される（ステップＳ１０１，Ｓ１０２）。図３の原言語音声情報は、そのようにして蓄積された原言語音声情報の一例を示すものである。
【００８６】
次に、音声認識部１３は、蓄積された原言語音声情報に対して、音声認識の処理を実行し、その認識結果である音声認識結果情報を取得する（ステップＳ１０３）。その音声認識結果情報は、「私は便宜的に三つの時期に分けたのですが<音声認識不可>それぞれの時期に若干の重複があります」であったとする。この具体例での音声認識部１３は、フィラー「え〜」を認識できず、音声認識結果情報に<音声認識不可>のマークを挿入したものとする。その取得された音声認識結果情報は、音声認識結果情報蓄積部１４によって蓄積される（ステップＳ１０４）。図３の音声認識結果情報は、そのようにして蓄積された音声認識結果情報を示すものである。図３で示されるように、この音声認識結果情報にも、原言語音声情報のタイムコードが付与されており、原言語音声情報の音声信号と、音声認識結果情報のテキストとの対応をとることができるようになっている。
【００８７】
次に、機械翻訳部１５は、蓄積された音声認識結果情報に対して、機械翻訳の処理を実行し、その機械翻訳結果である翻訳結果情報を取得する（ステップＳ１０５）。なお、機械翻訳部１５は、<音声認識不可>については、機械翻訳を行わないものとする。その翻訳結果情報は、「ｓｏｆｏｒｐｒａｃｔｉｃａｌｒｅａｓｏｎ，Ｉｄｉｖｉｄｅｄｔｈｅｅｒａｉｎｔｏｔｈｒｅｅｅｒａｓ．ｔｈｅｓｅｅｒａｓａｒｅｓｏｍｅｈｏｗｏｖｅｒｌａｐｐｉｎｇ．」であったとする。その取得された翻訳結果情報は、翻訳結果情報蓄積部１６によって蓄積される（ステップＳ１０６）。図３の翻訳結果情報は、そのようにして蓄積された翻訳結果情報を示すものである。
【００８８】
次に、音声生成部１７は、蓄積された翻訳結果情報に対して、音声合成の処理を実行し、その翻訳結果情報に対応する目的言語音声情報を生成する（ステップＳ１０７）。その目的言語音声情報は、目的言語音声情報蓄積部１８によって蓄積される（ステップＳ１０８）。図３の目的言語音声情報は、そのようにして蓄積された目的言語音声情報の一例を示すものである。図３で示されるように、この目的言語音声情報にもタイムコードが付与されているが、それは原言語音声情報のタイムコードに対応しているものではない。また、フィラーが翻訳されていないため、フィラーの存在しない目的言語音声情報となっている。また、翻訳結果情報にもタイムコードが付与されているが、それは音声合成の後に、目的言語音声情報のタイムコードが、翻訳結果情報の対応する位置に事後的に付与されたものである。なお、図３の翻訳結果情報では、０．５秒ごとにタイムコードが付与されている場合について示しているが、さらに細かくタイムコードが付与されてもよいことは言うまでもない。
【００８９】
次に、フィラー時間位置特定部２０は、図３の音声認識結果情報を参照し、<音声認識不可>の区間を特定する。ここでは、タイムコード３．１〜４．５が音声認識不可の区間として特定されたとする。このタイムコードは、原言語音声情報のタイムコードに対応しているため、そのタイムコードの範囲がそのまま、原言語音声情報におけるフィラーの時間的な位置となる。フィラー時間位置特定部２０は、その特定したタイムコードの範囲を、図示しない記録媒体において一時的に記憶する（ステップＳ１０９）。
【００９０】
フィラー情報抽出部２１は、フィラー時間位置特定部２０が特定したタイムコードの範囲を参照し、そのタイムコードの範囲の原言語音声情報から、パラ言語を抽出する（ステップＳ１１０）。そのパラ言語が、原言語フィラー情報である。この具体例では、パラ言語として、周波数の変化、音量の変化、原言語音声情報のフィラーの長さ、そのフィラーの始点側の音声の空白の時間的な長さ（プレ間）、そのフィラーの終点側の音声の空白の時間的な長さ（ポスト間）が抽出されたものとする。フィラー情報抽出部２１は、その抽出した原言語フィラー情報を図示しない記録媒体において一時的に記憶する。
【００９１】
フィラーテキスト位置特定部２２は、原言語のフィラーの時間的な位置に対応する音声認識結果情報における位置を特定する。この特定は、音声認識結果情報において<音声認識不可>の位置を特定することによって行われる（ステップＳ１１１）。具体的には、フィラーテキスト位置特定部２２は、<音声認識不可>の位置の時間的後方に存在するチャンク「それぞれの時期に若干の重複があります」を図示しない記録媒体において一時的に記憶することによって、その特定を行う。
【００９２】
フィラー挿入位置特定部２３は、フィラーテキスト位置特定部２２が特定した「それぞれの時期に若干の重複があります」を参照し、そのテキストを機械翻訳部１５に渡すことによって、その翻訳結果「ｔｈｅｓｅｅｒａｓａｒｅｓｏｍｅｈｏｗｏｖｅｒｌａｐｐｉｎｇ．」を取得する。そして、フィラー挿入位置特定部２３は、翻訳結果情報蓄積部１６が蓄積した翻訳結果情報を参照し、その翻訳結果「ｔｈｅｓｅｅｒａｓａｒｅｓｏｍｅｈｏｗｏｖｅｒｌａｐｐｉｎｇ．」の直前の位置を付与されているタイムコードで特定する。このタイムコード「５．６」は、目的言語音声情報のタイムコードに対応しているため、そのタイムコードの位置がそのまま、フィラー挿入位置となる。フィラー挿入位置特定部２３は、そのタイムコードを、図示しない記録媒体において一時的に記憶する（ステップＳ１１２）。図３において、フィラー挿入位置を矢印で示している（これは説明の便宜のためであって、実際に翻訳結果情報等に矢印の情報が含まれていなくてもよい）。
【００９３】
フィラー情報生成部２４は、目的言語でのフィラーとして、「Ｗｅｌｌ」の音声信号を図示しない記録媒体において保持しているものとする。そして、フィラー情報生成部２４は、フィラー情報抽出部２１が抽出した原言語フィラー情報を参照し、その「Ｗｅｌｌ」の音声信号のパラ言語を、原言語フィラー情報に含まれるパラ言語に一致させた目的言語フィラー情報を生成する（ステップＳ１１３）。フィラー情報生成部２４は、その目的言語フィラー情報を図示しない記録媒体において一時的に記憶する。
【００９４】
フィラー情報挿入部２５は、フィラー挿入位置特定部２３が特定したフィラー挿入位置を参照し、そのフィラー挿入位置に、フィラー情報生成部２４が生成した目的言語フィラー情報を挿入する（ステップＳ１１４）。図３の目的言語フィラー情報の挿入された目的言語音声情報は、その目的言語フィラー情報の挿入後の目的言語音声情報の一例を示すものである。そして、最終的に、音声情報出力部１９は、目的言語フィラー情報の挿入された目的言語音声情報を出力する（ステップＳ１１５）。すなわち、「ｓｏｆｏｒｐｒａｃｔｉｃａｌｒｅａｓｏｎ，Ｉｄｉｖｉｄｅｄｔｈｅｅｒａｉｎｔｏｔｈｒｅｅｅｒａｓ．Ｗｅｌｌｔｈｅｓｅｅｒａｓａｒｅｓｏｍｅｈｏｗｏｖｅｒｌａｐｐｉｎｇ．」に対応する音声が出力されることになる。また、フィラーの「Ｗｅｌｌ」の部分のパラ言語が、話者が原言語で発生した「え〜」のパラ言語と一致しているため、より臨場感のある、話し手の感情等を含んだ音声翻訳結果となる。
【００９５】
なお、この具体例では、原言語音声情報に１個のフィラーのみが含まれる場合について説明したが、原言語音声情報に２以上のフィラーが含まれる場合には、各フィラーについて、前述と同様の処理を行うことになる。例えば、図２のフローチャートのステップＳ１０９〜Ｓ１１４の各処理において、複数のフィラーについての処理が行われることになる。
【００９６】
また、この具体例で用いた図３の具体的なデータのうち、目的言語音声情報に関する部分は、この具体例での説明するために示したものであり、実際のデータと異なるところがありうる。
【００９７】
以上のように、本実施の形態による音声翻訳装置１によれば、フィラーも翻訳し、その翻訳後の目的言語のフィラーと、原言語のフィラーとでパラ言語を共通化することができる。したがって、フィラーは、通常は音声翻訳において破棄されてしまう情報であるが、そのフィラーも翻訳することによって、より臨場感のある、話し手の感情等の伝わる音声翻訳を実現することができうる。また、目的言語音声情報に目的言語フィラー情報を挿入することによって、原言語での話し言葉のリズムを目的言語音声情報に与えることもできる。さらに、その挿入される目的言語フィラー情報が、原言語フィラー情報と同じパラ言語を有することになるため、原言語での発話の空気を、目的言語音声情報でも読むことができるようになりうる。その結果として、目的言語音声情報を聞いている者は、例えば、文脈を勘違いしていたことに気づくこともあり、また、機械翻訳による誤訳に気づくこともありうる。
【００９８】
なお、本実施の形態による音声翻訳装置１では、フィラー情報抽出部２１が抽出した原言語フィラー情報を用いて目的言語フィラー情報を生成する場合について説明したが、その生成を行わなくてもよい。例えば、原言語フィラー情報が、フィラー時間位置特定部２０が時間的な位置を特定したフィラーの音声情報（音声信号）であり、目的言語フィラー情報が、原言語フィラー情報そのものであってもよい。この場合には、目的言語音声情報に、原言語のフィラーそのものが挿入されることになる。フィラー自体は、有意な情報ではないため、言語が異なったとしても、ある程度の理解が可能であると考えられる。したがって、原言語のフィラーそのものを目的言語音声情報に挿入したとしても、目的言語音声情報の聞き手の理解がそれによって妨げられるようなことはないと考えられる。この場合には、音声翻訳装置１は、フィラー情報生成部２４を備えなくてもよい。また、フィラー情報挿入部２５は、前述のように、目的言語音声情報におけるフィラー挿入位置に、原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するものであれば、フィラー情報生成部２４によって生成された目的言語フィラー情報を挿入するものでなくてもよい。
【００９９】
また、上記実施の形態では、音声翻訳装置１がスタンドアロンである場合について説明したが、音声翻訳装置１は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
【０１００】
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
【０１０１】
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
【０１０２】
また、上記実施の形態において、音声翻訳装置１に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
【０１０３】
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における音声翻訳装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付部と、前記音声情報受付部が受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識部と、前記音声認識部が取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成部と、前記音声情報受付部が受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定部と、前記原言語音声情報において前記フィラー時間位置特定部が時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出部と、前記原言語音声情報において前記フィラー時間位置特定部が特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定部と、前記フィラーテキスト位置特定部が特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定部と、前記音声生成部が生成した目的言語音声情報における、前記フィラー挿入位置特定部が特定したフィラー挿入位置に、前記フィラー情報抽出部が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入部と、前記フィラー情報挿入部によって目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力部として機能させるためのものである。
【０１０４】
なお、上記プログラムにおいて、情報を出力する出力ステップや、情報を受け付ける受付ステップなどでは、ハードウェアでしか行われない処理、例えば、出力ステップにおけるモデムやインターフェースカードなどで行われる処理は少なくとも含まれない。
【０１０５】
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。
【０１０６】
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【０１０７】
図４は、上記プログラムを実行して、上記実施の形態による音声翻訳装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
【０１０８】
図４において、コンピュータシステム１００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ１０５、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ１０６を含むコンピュータ１０１と、キーボード１０２と、マウス１０３と、モニタ１０４とを備える。
【０１０９】
図５は、コンピュータシステムを示す図である。図５において、コンピュータ１０１は、ＣＤ−ＲＯＭドライブ１０５、ＦＤドライブ１０６に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１２と、ＣＰＵ１１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク１１４と、ＣＰＵ１１１、ＲＯＭ１１２等を相互に接続するバス１１５とを備える。なお、コンピュータ１０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。
【０１１０】
コンピュータシステム１００に、上記実施の形態による音声翻訳装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１２１、またはＦＤ１２２に記憶されて、ＣＤ−ＲＯＭドライブ１０５、またはＦＤドライブ１０６に挿入され、ハードディスク１１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ１０１に送信され、ハードディスク１１４に記憶されてもよい。プログラムは実行の際にＲＡＭ１１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ１２１やＦＤ１２２、またはネットワークから直接、ロードされてもよい。
【０１１１】
プログラムは、コンピュータ１０１に、上記実施の形態による音声翻訳装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム１００がどのように動作するのかについては周知であり、詳細な説明は省略する。
【０１１２】
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【０１１３】
以上より、本発明による音声翻訳装置等によれば、フィラーも翻訳することによって、より臨場感のある音声翻訳を実現できるという効果が得られ、音声翻訳システム等として有用である。
【図面の簡単な説明】
【０１１４】
【図１】本発明の実施の形態１による音声翻訳装置の構成を示すブロック図
【図２】同実施の形態による音声翻訳装置の動作を示すフローチャート
【図３】同実施の形態による原言語音声情報等の一例を示す図
【図４】同実施の形態におけるコンピュータシステムの外観一例を示す模式図
【図５】同実施の形態におけるコンピュータシステムの構成の一例を示す図
【符号の説明】
【０１１５】
１音声翻訳装置
１１音声情報受付部
１２原言語音声情報蓄積部
１３音声認識部
１４音声認識結果情報蓄積部
１５機械翻訳部
１６翻訳結果情報蓄積部
１７音声生成部
１８目的言語音声情報蓄積部
１９音声情報出力部
２０フィラー時間位置特定部
２１フィラー情報抽出部
２２フィラーテキスト位置特定部
２３フィラー挿入位置特定部
２４フィラー情報生成部
２５フィラー情報挿入部

【特許請求の範囲】
【請求項１】
発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付部と、
前記音声情報受付部が受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識部と、
前記音声認識部が取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成部と、
前記音声情報受付部が受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定部と、
前記原言語音声情報において前記フィラー時間位置特定部が時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出部と、
前記原言語音声情報において前記フィラー時間位置特定部が特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定部と、
前記フィラーテキスト位置特定部が特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定部と、
前記音声生成部が生成した目的言語音声情報における、前記フィラー挿入位置特定部が特定したフィラー挿入位置に、前記フィラー情報抽出部が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入部と、
前記フィラー情報挿入部によって目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力部と、を備えた音声翻訳装置。
【請求項２】
前記原言語フィラー情報は、前記フィラー時間位置特定部が時間的な位置を特定したフィラーの音声情報であり、
前記目的言語フィラー情報は、前記原言語フィラー情報である、請求項１記載の音声翻訳装置。
【請求項３】
前記原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する目的言語フィラー情報を生成するフィラー情報生成部をさらに備え、
前記フィラー情報挿入部は、前記フィラー情報生成部が生成した目的言語フィラー情報を目的言語音声情報に挿入する、請求項１記載の音声翻訳装置。
【請求項４】
前記フィラー情報生成部は、前記フィラー時間位置特定部が時間的な位置を特定したフィラーの有する母音と同じ母音を有する目的言語フィラー情報を生成する、請求項３記載の音声翻訳装置。
【請求項５】
前記フィラー情報生成部は、前記原言語音声情報のフィラーが音声認識され、機械翻訳された結果に対応する目的言語の音声情報である目的言語フィラー情報を生成する、請求項３記載の音声翻訳装置。
【請求項６】
前記パラ言語は、周波数、音量、周波数の変化、音量の変化から選ばれる少なくとも一つの情報である、請求項１から請求項５のいずれか記載の音声翻訳装置。
【請求項７】
前記パラ言語は、前記原言語音声情報のフィラーの時間的な長さ、当該フィラーの始点側の音声の空白の時間的な長さ、当該フィラーの終点側の音声の空白の時間的な長さをさらに含む、請求項６記載の音声翻訳装置。
【請求項８】
音声情報受付部と、音声認識部と、機械翻訳部と、音声生成部と、フィラー時間位置特定部と、フィラー情報抽出部と、フィラーテキスト位置特定部と、フィラー挿入位置特定部と、フィラー情報挿入部と、音声情報出力部とを用いて処理される音声翻訳方法であって、
前記音声情報受付部が、発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付ステップと、
前記音声認識部が、前記音声情報受付ステップで受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識ステップと、
前記機械翻訳部が、前記音声認識ステップで取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳ステップと、
前記音声生成部が、前記機械翻訳ステップで取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成ステップと、
前記フィラー時間位置特定部が、前記音声情報受付ステップで受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定ステップと、
前記フィラー情報抽出部が、前記原言語音声情報において前記フィラー時間位置特定ステップで時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出ステップと、
前記フィラーテキスト位置特定部が、前記原言語音声情報において前記フィラー時間位置特定ステップで特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定ステップと、
前記フィラー挿入位置特定部が、前記フィラーテキスト位置特定ステップで特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定ステップと、
前記フィラー情報挿入部が、前記音声生成ステップで生成した目的言語音声情報における、前記フィラー挿入位置特定ステップで特定したフィラー挿入位置に、前記フィラー情報抽出ステップで抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入ステップと、
前記音声情報出力部が、前記フィラー情報挿入ステップで目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力ステップと、を備えた音声翻訳方法。
【請求項９】
コンピュータを、
発話された原言語の音声をマイクによって集音した情報である原言語音声情報を受け付ける音声情報受付部と、
前記音声情報受付部が受け付けた原言語音声情報を音声認識して、当該原言語音声情報に対応するテキスト情報である音声認識結果情報を取得する音声認識部と、
前記音声認識部が取得した音声認識結果情報を機械翻訳して、当該音声認識結果情報に対応する目的言語のテキスト情報である翻訳結果情報を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果情報に対応する目的言語の音声情報である目的言語音声情報を生成する音声生成部と、
前記音声情報受付部が受け付けた原言語音声情報において、有意な発話の間に挿入される発話であるフィラーの時間的な位置を特定するフィラー時間位置特定部と、
前記原言語音声情報において前記フィラー時間位置特定部が時間的な位置を特定したフィラーに関する、音声情報における非言語の情報であるパラ言語を少なくとも含む情報である原言語フィラー情報を抽出するフィラー情報抽出部と、
前記原言語音声情報において前記フィラー時間位置特定部が特定したフィラーの時間的な位置に対応する前記音声認識結果情報における位置を特定するフィラーテキスト位置特定部と、
前記フィラーテキスト位置特定部が特定した前記音声認識結果情報における位置に対応する前記目的言語音声情報における時間的な位置であるフィラー挿入位置を特定するフィラー挿入位置特定部と、
前記音声生成部が生成した目的言語音声情報における、前記フィラー挿入位置特定部が特定したフィラー挿入位置に、前記フィラー情報抽出部が抽出した原言語フィラー情報に含まれるパラ言語と同じパラ言語を有する情報であり、目的言語でのフィラーの音声情報である目的言語フィラー情報を挿入するフィラー情報挿入部と、
前記フィラー情報挿入部によって目的言語フィラー情報の挿入された目的言語音声情報を出力する音声情報出力部として機能させるためのプログラム。

【図１】