説明

音声処理装置、音声処理方法および音声処理プログラム

【課題】誤動作の発生を低減する音声処理装置を提供する。
【解決手段】操作者または操作者以外の者の発声を含む音声を入力するマイク104と、入力された音声のうち音声処理の対象とする区間として操作者により指定された指定区間の入力を受付ける指定区間受付部204と、入力された音声から発声が存在する区間である発声区間を検出する発声区間検出部202と、入力された音声に基づいて、操作者または操作者以外の者のいずれが発声の発話者であるかを判断する話者判断部203と、指定区間受付部204が受付けた指定区間と発声区間検出部202が検出した発声区間とが重複する部分を検出し、重複する部分が検出された場合であって、話者判断部203により話者は操作者以外の者であると判断された場合に、重複する部分が含まれる発声区間を処理区間として決定する処理内容判断部205と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、入力された音声を処理して出力する音声処理装置、音声処理方法および音声処理プログラムに関するものである。
【背景技術】
【0002】
近年、入力された音声を処理する音声処理装置の一つとして、原言語による音声入力を目的言語に翻訳して音声出力することによって異言語コミュニケーションを支援する音声翻訳システムなどが開発されている。
【0003】
音声翻訳システムでは、複数の話者の音声が入力されるため、話者に応じた音声処理を実行しなければならない。例えば、特許文献1では、可動するマイクやジャイロセンサーを利用することによって、入力される音声の話者が存在する方向を特定し、翻訳方向を決定する技術が提案されている。
【0004】
ところが、この特許文献1の技術では、周囲に雑音が存在する場合や、対話相手の相槌などのような処理対象とすべきでない音声が存在する場合には対応できず、誤動作の発生や操作が煩雑になるなどの恐れがある。
【0005】
また、特許文献1では、本体あるいはマイクを自分側にするか相手側にするかによって話者の切り替えを行うため、対話のやり取りのたびに切り替え動作が必要となり、自然な対話が妨げられる恐れがある。特許文献1ではマイクロホンアレーを用いて話者の切り替えを行う手法も挙げられているが、不要な音声を処理する可能性がある点は解消されていない。
【0006】
話者を判定するその他の方法としては、自分の発声を入力する際にはスイッチをオンにし、相手の発声を入力する際にはスイッチをオフにすることにより、ユーザが話者を明示的に指定できるようにする技術が提案されている(例えば、特許文献2)。特許文献2の技術では、1つのスイッチの操作により翻訳の言語を判定するため、機器の操作性の向上が実現されている。
【0007】
【特許文献1】特開2005−141759号公報
【特許文献2】特開2003−295892号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献2の方法では、スイッチをオンにすることにより自分の発声について処理すべき音声の区間を指定することができるが、スイッチをオフにしている時には、入力される全ての音声を処理するため、不要な音声を処理し誤作動が発生し得るという問題があった。これは、相手の発声について適切に区間を設定する方法が存在しないことに起因する問題である。
【0009】
本発明は、上記に鑑みてなされたものであって、話者に応じて処理の対象とする音声の区間を適切に決定することにより、誤動作の発生を低減することができる音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上述した課題を解決し、目的を達成するために、本発明は、操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段と、前記音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付手段と、前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出手段と、前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断手段と、前記指定区間受付手段により受付けられた前記指定区間と前記発声区間検出手段により検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断手段により前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定手段と、を備えたことを特徴とする。
【0011】
また、本発明は、上記装置を実行することができる音声処理方法および音声処理プログラムである。
【発明の効果】
【0012】
本発明によれば、音声から抽出した発声区間と操作者が指定した指定区間との関係を参照し、話者に応じて処理の対象とする音声の区間を適切に決定することができる。このため、誤動作の発生を低減することができるという効果を奏する。
【発明を実施するための最良の形態】
【0013】
以下に添付図面を参照して、この発明にかかる音声処理装置、音声処理方法および音声処理プログラムの最良な実施の形態を詳細に説明する。
【0014】
(第1の実施の形態)
第1の実施の形態にかかる音声処理装置は、操作者が指定した指定区間と、入力された音声から検出した発声区間と、複数のマイクから入力された音声の情報を参照して求めた話者とから、音声処理の対象とする音声の区間である処理区間を決定するものである。
【0015】
ここで、発声区間とは、入力された音声のうち人間の発声であると判断された音声が存在する区間をいう。また、処理区間とは、実際に音声処理の対象とする音声の区間をいう。また、指定区間とは、操作者が音声処理の対象として指定した区間をいう。操作者が指定区間を指定するため、操作ミスなどのように指定した区間をそのまま処理区間とすべきでないない場合が存在する。本実施の形態では、このような操作ミス等も考慮して、適切な処理区間を決定することができる。
【0016】
図1は、第1の実施の形態にかかる音声処理装置100の使用場面を説明するための概念図である。
【0017】
同図に示すように、音声処理装置100への発話者としては、システム操作者101と、その対話相手102が存在する。ここで、システム操作者101が発話する言語を言語1、対話相手102が発話する言語を言語2とする。
【0018】
また、同図に示すように、音声処理装置100は、主なハードウェア構成として、出力部103と、マイク104a、104bと、プレストークボタン105とを備えている。
【0019】
出力部103は、ユーザに対して音声処理結果を出力するものである。出力方法としては、音声処理結果を液晶ディスプレイなどの表示装置に表示する方法や、音声処理結果を音声合成した音声を出力する方法など、従来から用いられているあらゆる方法を適用することができる。
【0020】
マイク104a、104bは、システム操作者101または対話相手102の発声を含む音声を入力するものである。このように、本実施の形態では、マイクを2つ備えており、マイク104aはシステム操作者101、マイク104bは対話相手102の方向へ指向性が向けられている。また、本実施の形態では、システム操作者101と音声処理装置100との相対的な位置関係は変わらないことを前提とする。
【0021】
プレストークボタン105は、システム操作者101が指定区間を指定するために用いるスイッチである。プレストークボタン105にはONとOFFの2つの状態が存在し、プレストークボタン105がON状態である音声の区間が指定区間として指定されたものとする。
【0022】
図2は、第1の実施の形態にかかる音声処理装置100の構成を示すブロック図である。同図に示すように、音声処理装置100は、上述のハードウェア構成(出力部103、マイク104a、104b、プレストークボタン105)の他に、主なソフトウェア構成として、入力受付部201と、発声区間検出部202と、話者判断部203と、指定区間受付部204と、処理内容判断部205と、音声処理部206とを備えている。
【0023】
入力受付部201は、システム操作者または対話相手の発声を含む音声を入力するものである。具体的には、入力受付部201は、2つのマイク104a、104bから出力された音声のアナログ信号に対してサンプリングを行い、ステレオのデジタル信号に変換して出力する。入力受付部201の処理では、従来から用いられているA/D変換技術などを適用することができる。
【0024】
発声区間検出部202は、入力受付部201により出力された音声のデジタル信号から、発声区間を検出するものである。発声区間の検出方法としては、音量が予め定められた閾値より相対的に長い区間を発声区間とする方法や、音声の周波数分析の結果から求められた発声についてのモデルに対する尤度が高い区間を発声区間とする方法など、従来から用いられているあらゆる発声区間検出技術を適用することができる。
【0025】
話者判断部203は、入力受付部201により出力された音声のデジタル信号から、該当する音声を発話した発話者が、システム操作者か対話相手かを識別するものである。
【0026】
話者を判断する方法としては、2つのマイク104a、104bから出力された信号を利用し、いずれのマイクに入力された音量が大きいかを判断する方法や、相互相関関数で大きな値をとる時間差の正負で判断する方法など、従来から用いられているあらゆる方法を適用することができる。
【0027】
指定区間受付部204は、システム操作者により指定された指定区間の入力を受付けるものである。具体的には、指定区間受付部204は、プレストークボタン105から出力されたON/OFFの信号を利用し、ONの信号が入力されている区間を指定区間として受付ける。
【0028】
処理内容判断部205は、発声区間検出部202が検出した発声区間、話者判断部203が判断した話者、指定区間受付部204が受付けた指定区間の情報を参照し、入力受付部201により入力された音声に対して音声処理を行う処理区間と、音声処理の内容を判断するものである。本実施の形態の説明では、処理内容判断部205は、音声処理の処理内容として、言語1と言語2のどちらで音声認識や翻訳を行うかを決定する。
【0029】
音声処理部206は、処理内容判断部205で決定された処理区間に対して、処理内容判断部205で決定された処理内容の音声処理を実行するものである。音声処理部206は、入力された音声の中から処理区間に該当する部分の音声に対して音声認識と翻訳を行い、その結果を出力する。
【0030】
音声認識処理では、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
【0031】
また、翻訳処理では、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式の機械翻訳などのあらゆる翻訳方法を適用することができる。
【0032】
次に、このように構成された第1の実施の形態にかかる音声処理装置100による音声処理について説明する。
【0033】
なお、本実施の形態における音声処理では、予め定められた時間単位(以下、フレームという。)ごとに出力される発声区間検出部202、話者判断部203、および指定区間受付部204の処理結果に基づいて、処理内容判断部205が処理区間と処理内容とを決定し、音声処理部206が音声処理を実行する。
【0034】
発声区間検出、話者判断、指定区間入力の処理にはそれぞれ一定の時間が必要となる場合があるため、実際の音声処理はそれらの時間の中で最大値に対応するフレーム数の時間だけ遅れるが、以下では説明の便宜上、リアルタイムに行われているものとして説明する。
【0035】
例えば、時刻tで発声が開始されたとしても、その時点から発声が開始されたと判断するにはΔt秒が必要となる。しかし、現実の時刻がt+Δtであっても、システムの内部的には時刻tに発声の検出を開始したとみなすことができる。このような処理方法は音声認識等の実時間信号を扱う場面では一般的であり、従来から用いられている技術で実現可能である。
【0036】
また、発声区間検出部202、話者判断部203、指定区間受付部204、処理内容判断部205、および音声処理部206は、フレームごとに処理を行い、各部の処理結果を出力する。なお、処理結果を、発声区間検出部202や指定区間受付部204で各区間の始端および終端を得たあとに出力するように構成してもよい。
【0037】
次に、第1の実施の形態における音声処理の全体の流れについて説明する。図3は、第1の実施の形態における音声処理の全体の流れを示すフローチャートである。
【0038】
まず、各フレームで、入力受付部201が、ユーザ(システム操作者または対話相手)が発話した音声の入力を受付ける(ステップS301)。具体的には、入力受付部201は、マイク104a、104bから出力された音声のアナログ信号をデジタル信号に変換し、フレーム時間分の結果を出力する。
【0039】
次に、指定区間受付部204が、プレストークボタン105のオンからオフまでを指定区間として受付ける(ステップS302)。具体的には、指定区間受付部204は、各フレームでプレストークボタン105が押されているか否かを検知して、押下開始から押下終了までの区間を指定区間として受付ける。
【0040】
次に、発声区間検出部202による発声区間検出処理(ステップS303)、話者判断部203による話者判断処理(ステップS304)、処理内容判断部205による処理内容判断処理(ステップS305)が実行される。発声区間検出処理、話者判断処理、処理内容判断処理の詳細については後述する。
【0041】
次に、音声処理部206は、処理内容判断処理の結果に従い、処理区間に対して音声認識処理を実行する(ステップS306)。
【0042】
本実施の形態では、音声処理部206は、処理内容判断処理で処理内容と処理区間とが決定したら直ちに音声処理を開始する。なお、処理内容と処理区間とが決定した後、発声区間および指定区間の検出がともに完了してから音声処理を実行するように構成してもよい。
【0043】
ステップS306の音声認識処理は、具体的には以下のように実行される。まず、音声処理部206は、処理区間に対応する音声情報をRAM(Random Access Memory)などの記憶領域(図示せず)から取得する。ここで、話者は既に判定されているため、音声処理部206は、話者がシステム操作者の場合はシステム操作者側のマイクで収音された音声を、対話相手の音声の場合は対話相手側のマイクで収音された音声について、処理区間に対応する音声情報を取得する。
【0044】
音声情報を取得後、音声処理部206は、取得した音声に対し、処理内容で設定された言語で音声認識を行う。例えば、話者がシステム操作者なら言語1、話者が対話相手なら言語2が、処理内容判断部205による処理内容判断処理で設定されているため、この内容に従い音声認識を実行する。
【0045】
また、話者がシステム操作者か、対話相手かによって言語が異なるため、音声認識処理で用いる音響モデル、語彙、文法などの情報を変更して音声認識を実行する。
【0046】
次に、音声処理部206は、処理内容判断処理の結果に従い、処理区間に対して翻訳処理を実行する(ステップS307)。
【0047】
具体的には、音声処理部206は、音声認識結果に対して、処理内容で設定された言語で翻訳を行う。例えば、話者がシステム操作者ならば言語1から言語2へ、話者が対話相手ならば言語2から言語1へ翻訳するという処理内容が、処理内容判断部205による処理内容判断処理で設定されているため、この内容に従い翻訳を実行する。
【0048】
また、話者がシステム操作者か、対話相手かによって、翻訳の原言語、翻訳の目的言語だけでなく、翻訳方法を変更するように構成してもよい。
【0049】
次に、ステップS303の発声区間検出処理の詳細について説明する。図4は、第1の実施の形態における発声区間検出処理の全体の流れを示すフローチャートである。
【0050】
まず、発声区間検出部202は、ある時刻tからの予め定められたフレーム数(以下、Xとする。)分のフレームごとの音量を取得する(ステップS401)。フレームごとの音量は、入力受付部201から入力されるデジタル信号を用いて算出することができる。
【0051】
次に、発声区間検出部202は、Xフレームの間、フレームごとの音量が予め定められた閾値(以下、閾値1とする。)より大きいか否かを判断し(ステップS402)、大きくない場合は(ステップS402:NO)、ステップS401に戻り処理を繰り返す。
【0052】
フレームごとの音量が閾値1より大きい場合(ステップS402:YES)、発声区間検出部202は、時刻tを発声の始端として検出する(ステップS403)。
【0053】
次に、発声区間検出部202は、ある時刻uからの予め定められたフレーム数(以下、Yとする。)分の音量を取得する(ステップS404)。
【0054】
続いて、発声区間検出部202は、Yフレームの間、フレームごとの音量が予め定められた閾値(以下、閾値2とする。)より小さいか否かを判断し(ステップS405)、小さくない場合は(ステップS405:NO)、ステップS404に戻り処理を繰り返す。
【0055】
フレームごとの音量が閾値2より小さい場合(ステップS405:YES)、発声区間検出部202は、時刻uを発声の終端として検出する(ステップS406)。このようにして、検出された発声の始端および終端で区切られる区間が、発声区間として検出される。
【0056】
次に、上述のような発声区間検出処理における状態遷移について説明する。図5は、発声区間検出処理時の処理状態の一例を示す説明図である。
【0057】
音声処理装置100の起動直後の状態は、同図左側の初期状態501である。発声区間検出処理が開始されると、発声区間の始端検出待ち状態(無発声状態)となり、図4のステップS402に対応する判断502(時刻tから現在までのXフレームの間、音量が閾値1を越えているか)が実行される。なお、この際、過去Xフレーム数分の音量の値を参照することができる。
【0058】
閾値1の値を超えていない場合は、状態は始端検出待ち状態のままとなる。閾値1の値を超えていた場合には時刻tを発声の始端として検出し、発声区間の終端検出待ち状態(発声中状態)に遷移する。この状態では、図4のステップS405に対応する判断503(時刻uから現在までのYフレームの間、音量が閾値2を下回っているか)が実行される。
【0059】
閾値2の値を下回っていない場合は、状態は終端検出待ち状態のままとなる。閾値2の値を下回った場合には時刻uを発声の終端として検出し、発声区間の始端検出待ち状態に遷移する。
【0060】
なお、発声区間検出部202による発声区間検出処理は上記方法に限られるものではなく、従来から用いられているあらゆる方法を適用することができる。例えば、無発声状態のときに音声信号から周囲の雑音の強さを推定し、その推定値にあわせて発声の検出に用いる閾値を変えるなどの処理を加えることでより高精度の発声区間検出を行うように構成してもよい。
【0061】
次に、ステップS304の話者判断処理の詳細について説明する。図6は、第1の実施の形態における話者判断処理の全体の流れを示すフローチャートである。
【0062】
まず、話者判断部203は、現在のフレームを基準とし、2つのマイク104a、104bから入力される予め定められた区間の信号であるステレオ信号を利用して相互相関関数を求める(ステップS601)。
【0063】
次に、話者判断部203は、相関度が最大となる時間から、音源の方向を特定し、話者がシステム操作者または対話相手のいずれであるかを判定する(ステップS602)。上述のように、マイク104a、104bの位置とシステム操作者との相対的な位置関係は決まっているため、推定された音源のマイク方向に位置する者が、各フレームで話者として判定される。
【0064】
次に、話者判断部203は、発声区間検出部202が検出した発声区間の情報を取得する(ステップS603)。続いて、話者判断部203は、発声区間内で最も発声の多い話者を、当該発声区間の話者と判断する(ステップS604)。
【0065】
なお、予め定められた時間以上、同一の話者が発声したと判断された場合に、発声区間のうち該当する区間についてはその話者が発声したと判断してもよい。また、発声区間中で話者がある時間を境に切り替わったと判断できた場合には、発声区間をその境を前後にして区切るように構成してもよい。これにより、一つの発声区間に一人の話者を対応させることが可能となる。以下では、一つの発声区間には複数人の話者の音声が混在していないことを前提として説明する。
【0066】
なお、話者判断部203による話者判断処理は上記方法に限られるものではなく、発声区間に対して話者を判断できる方法であれば、従来から用いられているあらゆる技術を適用することができる。
【0067】
次に、ステップS305の処理内容判断処理の詳細について説明する。図7は、第1の実施の形態における処理内容判断処理の全体の流れを示すフローチャートである。
【0068】
まず、処理内容判断部205は、発声区間検出部202が検出した発声区間の情報を記憶領域から取得する(ステップS701)。
【0069】
次に、処理内容判断部205は、指定区間受付部204が受付けた指定区間の情報を記憶領域から取得する(ステップS702)。
【0070】
なお、ステップS302の指定区間受付処理、およびステップS303の発声区間検出処理により、指定区間および発声区間の始端、終端が得られた場合には、記憶領域(図示せず)にその情報が処理区間の候補として記録される。ステップS701およびステップS702では、このようにして記録された情報を記憶領域から取得する。
【0071】
また、処理内容判断処理で処理区間および処理内容が決定され、音声処理部206が決定された内容で音声処理を実行した後は、処理区間の候補である発声区間と指定区間とのうち、終端が確定している発声区間および指定区間は記憶領域から削除される。
【0072】
次に、処理内容判断部205は、発声区間の終端が検出されたか否かを判断する(ステップS703)。発声区間の終端が検出された場合(ステップS703:YES)、処理内容判断部205は、終端が検出された発声区間と指定区間との関係、および話者の情報から処理区間を決定する発声区間終端処理を実行する(ステップS704)。発声区間終端処理の詳細については後述する。
【0073】
ステップS703で発声区間の終端が検出されない場合(ステップS703:NO)、または、発声区間終端処理を実行後、処理内容判断部205は、指定区間の終端が検出されたか否かを判断する(ステップS705)。
【0074】
指定区間の終端が検出された場合(ステップS705:YES)、処理内容判断部205は、終端が検出された指定区間と発声区間との関係、および話者の情報から処理区間を決定する指定区間終端処理を実行する(ステップS706)。指定区間終端処理の詳細については後述する。
【0075】
指定区間の終端が検出されない場合(ステップS705:NO)、発声区間終端処理の実行後、または発声区間終端処理の実行後、処理内容判断部205は、処理区間と処理内容とが決定したか否かを判断する(ステップS707)。
【0076】
処理区間と処理内容とが決定した場合(ステップS707:YES)、処理内容判断部205は、音声処理部206に処理区間と処理内容とを出力し(ステップS708)、処理内容判断処理を終了する。
【0077】
処理区間と処理内容とが決定していない場合(ステップS707:NO)、処理内容判断部205は、処理区間と処理内容とは出力せずに、処理内容判断処理を終了する。この場合、処理内容判断部205は、処理区間の候補の情報を保持して次のフレームの処理を実行する。
【0078】
次に、ステップS703の発声区間終端処理の詳細について説明する。図8は、第1の実施の形態における発声区間終端処理の全体の流れを示すフローチャートである。
【0079】
まず、処理内容判断部205は、発声区間の始端から終端の間に指定区間が含まれているか否かを判断する(ステップS801)。含まれていない場合(ステップS801:NO)、処理内容判断部205は、処理区間の候補を初期化して発声区間終端処理を終了する(ステップS802)。
【0080】
ステップS802のように処理内容等が決定される具体例について、以下に図を用いて説明する。図10は、第1の実施の形態で処理される各種情報の一例を示す説明図である。
【0081】
例(1)が、ステップS802のように処理区間および処理内容が決定される例を表している。例(1)は、システム操作者(B)が発声したが、指定区間が入力されていない場面の例である。
【0082】
第1の実施の形態では、このような場合、検出された発声区間中に指定区間が含まれないため、処理内容判断部205は、処理区間を決定せず処理区間の候補である発声区間を初期化する(ステップS802)。
【0083】
発声されたが、指定区間として指定されていないということは、システム操作者にとっては処理することが望ましくない音声であったと判断できるためである。すわなち、この発声区間は処理区間にはならない。このような処理により、処理すべきでない雑音や人の発声を収音して誤動作が生じる可能性を低減することが可能となる。
【0084】
ステップS801で、発声区間の始端から終端の間に指定区間が含まれていると判断された場合(ステップS801:YES)、処理内容判断部205は、話者判断部203が判断した話者の情報を利用して、発声区間の話者はシステム操作者か否かを判断する(ステップS803)。
【0085】
話者はシステム操作者でない場合、すなわち、話者は対話相手であった場合(ステップS803:NO)、処理内容判断部205は、検出された発声区間を処理区間とし、言語2から言語1への音声翻訳を処理内容として決定し(ステップS804)、発声区間終端処理を終了する。
【0086】
なお、図10の例(2)が、ステップS804のように処理区間および処理内容が決定される例を表している。
【0087】
例(2)は、対話相手(A)が発声したときに、システム操作者(B)が少し遅れて指定区間を指定した場面の例である。この場合、発声区間検出部202によって発声区間が検出され、話者判断部203によってその発声区間が対話相手(A)に対応すると判断される。
【0088】
システム操作者(B)がプレストークボタン105によって、対話相手(A)の発声に対して指定区間入力を行う場合、システム操作者(B)は他人の発声の始終端を正確に把握できない。このため、発声の始終端とプレストークボタン105のON/OFFがずれることは十分に考えられる。この結果、同図例(2)の指定区間の部分で示すように、発声区間と指定区間がずれて検出される。
【0089】
第1の実施の形態では、このような場合であっても、処理内容判断部205が検出された発声区間を処理区間とし、言語2から言語1への音声認識および翻訳を処理内容として決定することができる(ステップS804)。
【0090】
従来の方法では、対話相手の発声を処理する区間をボタン等で明示的に指定できず、すべての音声を対象とするため、不要な雑音等を処理して誤作動が生じる可能性があった。これに対し、第1の実施の形態では、対話相手の発声についても処理する区間を指定できるので誤作動の生じる可能性を低減できる。
【0091】
また、対話相手の発声について区間を指定する際、実際の発声区間と指定区間のずれが生じうるが、第1の実施の形態では、適切に処理区間を判定して音声処理を実行することができる。すなわち、上述のような判断処理により、システム操作者が対話相手の発声についても処理を望むときには、その発声区間の一部に重なるように指定区間の指定を開始すれば、処理区間として判断され、音声処理対象とすることが可能となる。
【0092】
通常、対話相手の発声開始や終了のタイミングは不明だが、発声中に指定区間の入力を行えば発声区間を処理区間とすることが可能となるため、システム操作者は対話相手の希望する発声を処理区間とすることができる。
【0093】
ステップS803で、話者はシステム操作者であると判断された場合(ステップS803:YES)、処理内容判断部205は、最新の指定区間の終端が検出されているか否かを判断する(ステップS805)。
【0094】
最新の指定区間の終端が検出されていない場合(ステップS805:NO)、処理内容判断部205は、処理区間とすべき判断材料が全て揃っていないため、発声区間、指定区間の候補を全て保留して、すなわち、処理区間を判断せずに発声区間終端処理を終了する。
【0095】
なお、図10の例(3)の前半部(発声区間1001の発声が完了した時点までを表す)が、ステップS805で最新の指定区間の終端が検出されていないと判断される例を表している。
【0096】
例(3)では、システム操作者(B)の発声が2つの発声区間に分割されて検出されたが、最初の発声区間についての判断時には、まだ指定区間の終端が検出されていないため、処理内容判断部205は、処理区間等の判断を保留して発声区間終端処理を終了する。一方、後述するように、指定区間の終端が検出された後、分割された2つの発声区間が結合されて結合された発声区間を処理区間として音声処理が実行される。
【0097】
このような処理により、システム操作者がある一文を発声するときに、指定区間は一文全体を指定しているが、発声の途中で言いよどんだために発声区間検出処理で2つの発声区間と判断されるような状況であっても、発声区間ごとに処理区間が分割されることを回避できる。
【0098】
また、このように処理区間の分割を回避することにより、音声認識処理や翻訳処理の精度が低下することを防止できる。言語モデルのような言語情報を用いて音声認識処理を行う場合、前後の文脈的な情報を用いるため、一つの文についての発声をまとめて処理すれば文脈情報を有効に利用できるからである。
【0099】
最新の指定区間の終端が検出された場合(ステップS805:YES)、処理内容判断部205は、発声区間と指定区間との重複部分をすべて処理区間とし、言語1から言語2への音声翻訳を処理内容として決定し(ステップS806)、発声区間終端処理を終了する。
【0100】
なお、図10の例(4)が、ステップS806のように処理区間および処理内容が決定される例を表している。例(4)は、システム操作者(B)が発声し、発声の先頭を除いた部分で指定区間を指定した例を表している。
【0101】
この例では、発声区間と指定区間との重複部分は指定区間と等しいため、指定区間が処理区間として決定される。また、話者がシステム操作者であるため、言語1から言語2への音声翻訳が、処理内容として決定される。
【0102】
このような処理により、システム操作者は発声の中で任意の区間を処理の対象とすることができる。例えば、不要語を削除するときや、周囲に雑音が存在するときは指定区間の入力をOFFにすることで必要な区間のみを処理の対象とし、誤動作を防ぐことが可能となる。
【0103】
また、例えば、操作者が発声の大部分を外国語で発声するが、どのように発声すべきかわからない部分を自国語で発声しつつ指定区間として指定し、当該部分のみを音声翻訳の処理対象とすることができる。これにより、両言語が混在している場合でも対話相手に発話の意図を伝えることが可能となる。
【0104】
なお、指定区間内に、発声区間の始端が含まれていた場合には、発声区間の始端を該当する指定区間の始端に設定してもよい。これにより、システム操作者がプレストークボタン105を押下してしばらく時間が経過した後に話し始めたときであっても、プレストークボタン105を押下した押した時間からではなく、発声検出の始端からを処理区間の開始とすることができる。
【0105】
次に、ステップS706の指定区間終端処理の詳細について説明する。図9は、第1の実施の形態における指定区間終端処理の全体の流れを示すフローチャートである。
【0106】
まず、処理内容判断部205は、指定区間の始端から終端の間に発声区間が含まれているか否かを判断する(ステップS901)。含まれていない場合(ステップS901:NO)、処理内容判断部205は、処理区間の候補を初期化して指定区間終端処理を終了する(ステップS902)。
【0107】
このような処理により、指定区間がシステム操作者から指定された場合であっても、人間の発声が検出されない限り音声の処理が行われることがないため、誤操作や雑音による誤動作を防ぐことができる。
【0108】
ステップS901で、指定区間の始端から終端の間に発声区間が含まれていると判断された場合(ステップS901:YES)、処理内容判断部205は、最も新しい発声区間の候補の終端が検出されているか否かを判断する(ステップS903)。
【0109】
終端が検出されていない場合(ステップS903:NO)、処理内容判断部205は、処理区間についての最終的な判断はまだ不可能なため、処理区間の候補を保留して指定区間終端処理を終了する。
【0110】
終端が検出された場合(ステップS903:YES)、処理内容判断部205は、発声区間と指定区間との重複部分をすべて処理区間とし、言語1から言語2への音声翻訳を処理内容として決定し(ステップS904)、指定区間終端処理を終了する。
【0111】
なお、仮に話者が対話相手であった場合は、発声区間の終端が検出された時点で処理区間が決定されるため(ステップS804)、ステップS903の判断処理が実行されることはない。したがって、図9の指定区間終端処理では、発声区間終端処理のステップS803のように話者の判断を実行する必要がなく、話者がシステム操作者であるとして処理内容(言語1から言語2への音声翻訳)を決定できる。
【0112】
なお、図10の例(3)が、ステップS904のように処理区間および処理内容が決定される例を表している。例(3)は、システム操作者(B)が発声したが、発声の途中にポーズを置いたため、発声区間が2つに分割されて検出された場面の例を表している。また、最初の発声区間の先頭で、「えーと」を意味する不要語を発声した例を表している。なお、図中のシステム操作者(B)の発声の黒く塗られた区間が不要語の部分を表している。
【0113】
この場合、システム操作者(B)は、不要語を除いて2つに分割された音声を合わせた音声を処理対象とすることを意図している。このため、システム操作者(B)は、不要語を発声した後に指定区間の指定を開始し、発声の終了後に、指定区間の指定を終了している。
【0114】
第1の実施の形態では、このような場合、処理内容判断部205が検出された発声区間中のすべての指定区間を処理区間とし、言語1から言語2への音声認識および翻訳を処理内容として決定することができる(ステップS904)。なお、仮に指定区間の終端より発声区間の終端の方が遅い場合には、ステップS806により、同様に処理区間が決定される。
【0115】
この結果、音声処理の処理区間は同図例(3)の縦線で表された区間をまとめた部分となる。したがって、2つに分割された発声をまとめた音声の音声認識結果に対して翻訳処理を行うことができるため、翻訳処理の精度を向上させることができる。
【0116】
これにより、例えば、システム操作者が「えーと、私は、(ポーズ)、駅に行きたい」と発声し、「私は、(ポーズ)、駅に行きたい」の部分でプレストークボタン105を押下した場合、不要語である「えーと」の部分は処理されず、かつ「私は」の部分と「駅に行きたい」の部分とが分割されることなく音声処理の対象となる。したがって、「行きたい」の主語と目的語が「私」と「駅」であることを把握し、高精度の翻訳が可能となる。
【0117】
次に、このように構成された第1の実施の形態における音声処理の別の具体例について、上述の図10を用いて説明する。
【0118】
例(5)は、対話相手(A)が2つの文を発声したのに対し、システム操作者(B)が指定区間を与えるプレストークボタン105をONにし続けた場面の例を表している。
【0119】
この場合、システム操作者(B)は、対話相手(A)の発声の始終端のタイミングを把握できず、また発声内容が2つの文なのか否かを発声のみから判断することもできない。
【0120】
第1の実施の形態では、このような場合であっても、処理内容判断部205が検出された2つの発声区間をそれぞれ処理区間とし、言語2から言語1への音声認識および翻訳を処理内容として決定することができる(ステップS804)。
【0121】
なお、例(5)の場面と例(3)の場面とは、発声区間と指定区間との関係は同一であるが、話者のみが異なっている。例(3)の場面では話者がシステム操作者(B)自身であり、処理すべき発声区間を正確に指定できるため、処理内容判断部205は、不要語を削除した区間を処理区間として決定できる。
【0122】
一方、例(5)の場面では話者が対話相手(A)であり、処理すべき発声区間を正確に指定できないため、処理内容判断部205は、発声区間と指定区間の始端のずれの部分を不要語として削除せずに、適切に処理区間を決定することができる。
【0123】
以上のように、第1の実施の形態にかかる音声処理装置では、操作者が指定した指定区間と、入力された音声から検出した発声区間と、複数のマイクから入力された音声の情報を参照して求めた話者とから、音声処理の対象とする音声の区間である処理区間を適切に決定することができる。このため、不要な音声を処理することがなく、誤動作の発生を低減することができる。
【0124】
(第2の実施の形態)
第2の実施の形態にかかる音声処理装置は、プレストークボタンの代わりにカメラを備え、カメラで撮像した話者の顔の画像の変化により、音声処理の対象とする指定区間の指定を受付けるものである。
【0125】
図11は、第2の実施の形態にかかる音声処理装置1100の構成を示すブロック図である。同図に示すように、音声処理装置1100は、出力部103と、マイク104a、104bと、カメラ1108と、入力受付部201と、発声区間検出部202と、話者判断部203と、指定区間受付部1204と、処理内容判断部205と、音声処理部206とを備えている。
【0126】
第2の実施の形態では、プレストークボタン105の代わりにカメラ1108を追加したこと、および指定区間受付部1204の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声処理装置100の構成を表すブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
【0127】
カメラ1108は、発話者の顔の画像の撮影を行うものである。カメラ1108は、例えば、撮像のために設けられたレンズなどの光学系部品、CCD(Charge Coupled Device)、CCD駆動回路、およびA/D変換器などを含む撮像装置のように、従来から用いられているあらゆる撮像装置により構成することができる。
【0128】
指定区間受付部1204は、カメラ1108が撮像した顔画像を解析して視線を抽出し、視線が音声処理装置1100に向いている区間を指定区間として受付けるものである。顔画像を解析し視線を抽出する方法としては、目、鼻などの顔部品から算出した特徴量をパターンマッチングする方法などの、従来から用いられているあらゆる方法を適用できる。
【0129】
次に、このように構成された第2の実施の形態にかかる音声処理装置1100による音声処理について説明する。図12は、第2の実施の形態における音声処理の全体の流れを示すフローチャートである。
【0130】
ステップS1201の入力受付処理は、第1の実施の形態にかかる音声処理装置100におけるステップS301と同様の処理なので、その説明を省略する。
【0131】
入力受付部201が、音声の入力を受付けた後、指定区間受付部1204が、カメラ1108で撮像した顔画像から視線を検出し、視線が向いている間を指定区間として受付ける(ステップS1202)。具体的には、指定区間受付部1204は、各フレームで顔画像から視線を検出し、視線が音声処理装置1100に向いた時点から、視線が音声処理装置1100からそれた時点までの区間を指定区間として受付ける。
【0132】
ステップS1203からステップS1207までの発声区間検出処理、話者判断処理、処理内容判断処理、音声処理は、第1の実施の形態にかかる音声処理装置100におけるステップS303からステップS307と同様の処理なので、その説明を省略する。
【0133】
このように、第2の実施の形態にかかる音声処理装置では、プレストークボタンの代わりにカメラを備え、カメラで撮像した話者の顔の画像の変化により、音声処理の対象とする指定区間の指定を受付けることができる。このため、システム操作者がボタン等を押下する負担を軽減し、操作性を向上させることができる。
【0134】
(第3の実施の形態)
上述の実施の形態では、例えば、対話相手が「今日は天気もいいし(息継ぎ)すごしやすい天気だ」と発声し、息継ぎの部分でシステム操作者が「ええ」と相槌をうった場合、指定区間が継続して指定されていたとしても、発話区間が2つに分割されるという問題が生じうる。
【0135】
この結果、「今日は天気もいいし」を言語2から言語1に、「ええ」を言語1から言語2に、「すごしやすい天気だ」を言語2から言語1に翻訳するという3回の音声処理が実行される。文が分割されると、上述のように音声処理の精度が低下するため、処理結果が不適切となる可能性がある。
【0136】
そこで、第3の実施の形態にかかる音声処理装置は、指定区間の入力がされている間は、判断されている話者を変更せずに音声処理を行うことにより、音声処理の精度を向上させるものである。
【0137】
なお、第3の実施の形態では、話者判断部203の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声処理装置100の構成を表すブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
【0138】
第3の実施の形態にかかる話者判断部203は、プレストークボタン105押下中であり、かつ、話者が判断済みの場合は、話者判断処理を実行しない点が、第1の実施の形態にかかる話者判断部203と異なっている。
【0139】
次に、第3の実施の形態における音声処理の全体の流れについて説明する。図13は、第3の実施の形態における音声処理の全体の流れを示すフローチャートである。
【0140】
ステップS1301からステップS1303までの入力受付処理、指定区間受付処理、発声区間検出処理は、第1の実施の形態にかかる音声処理装置100におけるステップS301からステップS303と同様の処理なので、その説明を省略する。
【0141】
発声区間検出処理の後、話者判断部203は、プレストークボタン105押下中であり、かつ、話者が判断済みであるか否かを判断する(ステップS1304)。
【0142】
プレストークボタン105押下中であり、かつ、話者が判断済みである場合以外は(ステップS1304:NO)、話者判断部203は、話者判断処理を実行する(ステップS1305)。
【0143】
プレストークボタン105押下中であり、かつ、話者が判断済みである場合は(ステップS1304:YES)、話者判断部203は、話者判断処理を実行せず、代わりに、判断済みの話者を出力部103に出力する(ステップS1306)。これにより、システム操作者は、話者が正しく判断されているか否かを把握することができる。
【0144】
このようにして、指定区間が入力されている間は話者を固定し、短い相槌や突発的な雑音に対しての音声処理を分断せずに実行することが可能となる。なお、発声区間の終端が検出されるまで話者を固定するように構成してもよい。
【0145】
ステップS1307からステップS1309までの処理内容判断処理、音声処理は、第1の実施の形態にかかる音声処理装置100におけるステップS305からステップS307と同様の処理なので、その説明を省略する。
【0146】
以上のような機能により、例えば、上述と同様の例でシステム操作者が「今日は天気もいいし」の部分から指定区間の入力を継続すれば、その間の話者は対話相手に固定される。また、息継ぎで発声が終了したと判断されなければ「今日は天気もいいし、すごしやすい天気だ」という発声全体を処理区間とすることができる。さらに、その間の話者は対話相手であると判断できるため、対話相手方向のマイクのみから収音し、周囲からの不要な短い音声を収音せずに処理を行うことも可能となる。
【0147】
このように、第3の実施の形態にかかる音声処理装置では、指定区間の入力がされている間は判断されている話者を固定して音声処理を行うことができるため、音声処理の精度を向上させることができる。
【0148】
(第4の実施の形態)
第4の実施の形態にかかる音声処理装置は、検出された発声区間の信頼度を算出し、信頼度に応じて処理区間の始終端を調整するものである。
【0149】
なお、第4の実施の形態では、発声区間検出部202および処理内容判断部205の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声処理装置100の構成を表すブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
【0150】
第4の実施の形態にかかる発声区間検出部202は、各フレームで音声が人間の発声であることの確からしさを表す信頼度を求める点が、第1の実施の形態にかかる発声区間検出部202と異なっている。
【0151】
信頼度としては、音量の強さや、大量の発声データから求めた音声の統計モデルに対する各フレーム特徴量の尤度を用いる。フレーム特徴量の尤度を算出する際には、多混合正規分布による音声のモデルからの尤度を求める方法など、既存の発声区間検出技術で用いられるあらゆる方法を適用することができる。
【0152】
第4の実施の形態にかかる処理内容判断部205は、発声区間検出部202で求められた発声の信頼度を用いて、処理区間の始終端を調整する点が、第1の実施の形態にかかる処理内容判断部205と異なっている。
【0153】
次に、第4の実施の形態における音声処理の全体の流れについて説明する。図14は、第4の実施の形態における音声処理の全体の流れを示すフローチャートである。
【0154】
ステップS1401からステップS1402までの入力受付処理、指定区間受付処理は、第1の実施の形態にかかる音声処理装置100におけるステップS301からステップS302と同様の処理なので、その説明を省略する。
【0155】
指定区間受付処理の後、発声区間検出部202は、各フレームの音声の信頼度を算出する(ステップS1403)。この際、上述のように、音量の強さ、またはフレーム特徴量の尤度を、各フレームの音声の信頼度として算出する。なお、算出した信頼度は、後述する処理内容判断処理で参照するため、所定の記憶領域(図示せず)に記憶する。
【0156】
ステップS1404からステップS1405までの発声区間検出処理、話者判断処理、および、ステップS1407からステップS1408までの音声処理は、第1の実施の形態にかかる音声処理装置100におけるステップS303からステップS304、および、ステップS306からステップS307までと同様の処理なので、その説明を省略する。
【0157】
なお、第4の実施の形態では、ステップS1406の処理内容判断処理の内容が、第1の実施の形態と異なっている。以下に、ステップS1406の処理内容判断処理の詳細について説明する。
【0158】
図15は、第4の実施の形態における処理内容判断処理の全体の流れを示すフローチャートである。
【0159】
ステップS1501からステップS1506までの発声区間情報取得処理、発声区間終端処理、指定区間終端処理は、第1の実施の形態にかかる音声処理装置100におけるステップS701からステップS706と同様の処理なので、その説明を省略する。
【0160】
発声区間終端処理または指定区間終端処理の実行後、処理内容判断部205は、処理区間の始端となったフレームについて、予め定められた数(以下、nとする。)の前後フレームのうち、ステップS1403で算出した信頼度が最大のフレームを処理区間の始端とする(ステップS1507)。
【0161】
例えば、処理区間の始端が、音声処理装置100の起動後20フレーム目であったとする。n=3であるとすると、17(=20−3)フレーム目から23(=20+3)フレーム目までの各フレームの信頼度を記憶領域から取得する。仮に、22フレーム目の信頼度が最大であった場合、処理区間の始端を22フレーム目とする。
【0162】
次に、処理内容判断部205は、処理区間の終端となったフレームについて、予め定められた数の前後フレームのうち、信頼度が最大のフレームを処理区間の終端とする(ステップS1508)。
【0163】
ステップS1509からステップS1510までの判断処理、出力処理は、第1の実施の形態にかかる音声処理装置100におけるステップS707からステップS708と同様の処理なので、その説明を省略する。
【0164】
なお、話者がシステム操作者か対話相手かによって、事前に設定するnの値を変更するように構成してもよい。これにより、異なる話者の発声区間の始終端を検出する際に生じうる誤差を補正し、適切な処理区間を検出することができる。
【0165】
また、上述のような処理により、発声の開始と、システム操作者の処理区間指定開始のタイミングがずれた場合であっても、適切な処理区間を検出することが可能となる。
【0166】
このように、第4の実施の形態にかかる音声処理装置では、検出された発声区間の信頼度を算出し、信頼度に応じて処理区間の始終端を調整することができる。このため、処理区間の設定の誤りによる誤動作の発生を低減することができる。
【0167】
(第5の実施の形態)
第5の実施の形態にかかる音声処理装置は、複数のマイクから構成されるマイクロホンアレーにより音声を入力し、音源方向を高精度に検出するとともに、音源方向の音声を強調して音声処理を高精度に実行するものである。
【0168】
図16は、第5の実施の形態にかかる音声処理装置6100の構成を示すブロック図である。同図に示すように、音声処理装置6100は、出力部103と、マイクロホンアレー6109と、プレストークボタン105と、入力受付部201と、発声区間検出部202と、話者判断部6203と、指定区間受付部204と、処理内容判断部205と、音声処理部206とを備えている。
【0169】
第5の実施の形態では、マイク104a、104bの代わりにマイクロホンアレー6109を追加したこと、入力受付部6201の機能、および話者判断部6203の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声処理装置100の構成を表すブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
【0170】
マイクロホンアレー6109は、複数のマイクから音声を入力し、音源から到達する時間差や音圧の強さの違いを利用することで音源方向を推定するものである。また、マイクロホンアレー6109は、信号処理によって特定方向の音声を強調または抑圧することができる。マイクロホンアレー6109は、従来から用いられているあらゆる形式のマイクロホンアレーを適用することができる。
【0171】
入力受付部6201は、マイクロホンアレー6109から出力された音声のアナログ信号をデジタル信号に変換して出力するものである。
【0172】
話者判断部6203は、マイクロホンアレー6109の複数マイクに到達する音の時間差から音源の方向を特定し、特定した音源の方向に存在する話者を、対応する発声の話者と判断するものである。
【0173】
また、話者判断部6203は、特定された音源の方向の音声を強調した音声のデジタル信号を出力する。これにより、強調された音声の信号を用いて高精度に発声区間の検出が実行可能となる。さらに、強調された音声に対して音声認識等を実行することができるため、音声処理の精度を高めることも可能となる。
【0174】
次に、第5の実施の形態における話者判断処理の詳細について説明する。図17は、第5の実施の形態における話者判断処理の全体の流れを示すフローチャートである。
【0175】
まず、話者判断部6203は、相互相関を用いた手法などの従来技術によって、音の複数マイクへの到来時間差の推定から音源方向を推定する(ステップS1701)。
【0176】
次に、話者判断部6203は、特定した音源の方向に存在する話者を判定する(ステップS1702)。
【0177】
ステップS1703からステップS1704までの発声区間情報取得処理、話者決定処理は、第1の実施の形態にかかる音声処理装置100におけるステップS603からステップS604までと同様の処理なので、その説明を省略する。
【0178】
なお、第3の実施の形態と同様に、指定区間が入力されているときは話者判断処理、すなわち音源方向推定処理を行わず、直前までの音源方向に音源の推定方向を固定するように構成してもよい。この場合、固定された方向の音声が強調して収音され、強調された音声に対して音声処理部206による音声処理が実行される。
【0179】
このように、第5の実施の形態にかかる音声処理装置では、複数のマイクから構成されるマイクロホンアレーにより音声を入力し、音源方向を高精度に検出するとともに、音源方向の音声を強調して発声区間の検出や音声処理を高精度に実行することができる。
【0180】
本発明は、上記した実施の形態に限定されるものではなく、発明の要旨を変更しない範囲で適宜変形可能であり、例えば以下のような変形が可能である。
【0181】
(変形例1)
上述の各実施の形態では、対話相手の発声が検出され、かつシステム操作者から指定区間が指定され、両者の区間に重複部分が存在すれば発声区間が処理区間として決定される(ステップS804)。しかし、対話相手の発声中に一瞬でも指定区間が指定されれば処理区間として決定されるという問題が生じる可能性がある。
【0182】
そこで、発声区間であり、かつ指定区間である区間の長さが、予め定められた長さに満たない場合は、該当する発声区間に対しては処理区間を設定しないように構成してもよい。また、発声区間中の指定区間の長さが、発声区間に対して予め定められた割合以下の場合は、該当する発声区間に対しては処理区間を設定しないように構成してもよい。
【0183】
これにより、対話相手の発声を音声翻訳するためにプレストークボタン105を押下したが、すぐに処理を中断する場合や、誤操作により指定区間入力を開始した場合に、直ちに指定区間入力を終了(プレストークボタン105をOFF)にすれば、処理区間が決定されること回避できる。
【0184】
(変形例2)
上述の各実施の形態では、指定区間の入力が開始された状態でシステム操作者の発声区間の始終端が検出された場合、指定区間の終端が検出されるまで候補が保留され、処理区間および処理内容が決定されない(ステップS805:NO)。
【0185】
そこで、システム操作者の発声区間の終端が検出された後の経過時間を計測し、その値が予め定められた値以上になった場合は、指定区間の終端が検出されたと判断して強制的に処理区間等を決定するように構成してもよい。
【0186】
これにより、例えば、システム操作者が指定区間入力の終了を忘れた場合のように、処理区間を決定できずに音声処理が遅延し、円滑な対話が阻害されることを回避できる。また、発声と発声の間に大きな時間間隔が開いた場合、両者が一つの文章を構成すると判断するより、それぞれが別の発声であると判断した方が自然である。上述のような構成によれば、このような場合に発声を2つに分割することができるため、待ち時間の少ない応答を実現可能となる。
【0187】
(変形例3)
上述の各実施の形態では、プレストークボタン105を押下して指定区間を指定する場合、プレストークボタン105がON状態である音声の区間が指定区間であると判断していた。
【0188】
これに対し、ボタンをクリックする場合のように、ボタンのON/OFFを1つの動作とすると、当該動作ごとに指定区間の開始と終了の指定を切り替えるように構成してもよい。すなわち、指定区間の開始が入力されていないときにプレストークボタン105をクリックすると指定区間の入力を開始し、次にプレストークボタン105をクリックしたときに、指定区間の入力を終了するように構成してもよい。
【0189】
この他、指定区間の始端はプレストークボタン105のクリックで判断するが、指定区間の終端の指定を不要とし、発声区間の終端を指定区間の終端とするように構成してもよい。これにより、対話相手の発声ならば発声区間を、システム操作者の発声ならばクリック後の発声区間の部分を処理区間とすることができる。
【0190】
このような構成の場合、システム操作者が発声の任意の部分を処理区間とすることができるという利点は失われるが、システム操作者が話者のときの語頭の不要な発声区間を除外することは可能であるため、話者に応じて適切な処理区間を定められるという効果を得ることができる。
【0191】
(変形例4)
上述の各実施の形態では、処理区間に対応する音声情報を取り出し、処理区間が複数に分かれている場合には時間順に連結して音声認識を行い、音声認識結果を翻訳していた。処理区間の音声を連結して音声認識を行った方が、音声認識の精度が上がることが期待されるためである。
【0192】
別の方法として、処理区間と重なりのある発声区間全てに対して音声認識を実行し、処理区間に該当する部分の音声認識結果のみを出力して翻訳を行うように構成してもよい。これにより、より長い区間の音声を音声認識に用いることができるため、前後の文脈情報を利用して音声認識の精度を高めることが可能となる。
【0193】
また、別の方法として、処理区間が分かれている場合には、前述のように時間順に連結せず、個々の区間で音声認識を行い、その結果を翻訳するように構成してもよい。
【0194】
図18は、第1〜第5の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
【0195】
第1〜第5の実施の形態にかかる音声処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
【0196】
第1〜第5の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、ROM52等に予め組み込まれて提供される。
【0197】
第1〜第5の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0198】
さらに、第1〜第5の実施の形態にかかる音声処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第3の実施の形態にかかる音声処理装置で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0199】
第1〜第5の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、上述した各部(入力受付部、発声区間検出部、話者判断部、指定区間受付部、処理内容判断部、音声処理部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【0200】
以上のように、本発明にかかる音声処理装置、音声処理方法および音声処理プログラムは、言語の異なるユーザ間の会話を支援する音声翻訳装置、音声翻訳方法および音声翻訳プログラムに適している。
【図面の簡単な説明】
【0201】
【図1】第1の実施の形態にかかる音声処理装置の使用場面を説明するための概念図 である。
【図2】第1の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図3】第1の実施の形態における音声処理の全体の流れを示すフローチャートである。
【図4】第1の実施の形態における発声区間検出処理の全体の流れを示すフローチャートである。
【図5】発声区間検出処理時の処理状態の一例を示す説明図である。
【図6】第1の実施の形態における話者判断処理の全体の流れを示すフローチャートである。
【図7】第1の実施の形態における処理内容判断処理の全体の流れを示すフローチャートである。
【図8】第1の実施の形態における発声区間終端処理の全体の流れを示すフローチャートである。
【図9】第1の実施の形態における指定区間終端処理の全体の流れを示すフローチャートである。
【図10】第1の実施の形態で処理される各種情報の一例を示す説明図である。
【図11】第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図12】第2の実施の形態における音声処理の全体の流れを示すフローチャートである。
【図13】第3の実施の形態における音声処理の全体の流れを示すフローチャートである。
【図14】第4の実施の形態における音声処理の全体の流れを示すフローチャートである。
【図15】第4の実施の形態における処理内容判断処理の全体の流れを示すフローチャートである。
【図16】第5の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図17】第5の実施の形態における話者判断処理の全体の流れを示すフローチャートである。
【図18】第1〜第5の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
【符号の説明】
【0202】
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声処理装置
101 システム操作者
102 対話相手
103 出力部
104a、104b マイク
105 プレストークボタン
201 入力受付部
202 発声区間検出部
203 話者判断部
204 指定区間受付部
205 処理内容判断部
206 音声処理部
501 初期状態
502、503 判断
1001 発声区間
1100 音声処理装置
1108 カメラ
1204 指定区間受付部
6100 音声処理装置
6109 マイクロホンアレー
6201 入力受付部
6203 話者判断部

【特許請求の範囲】
【請求項1】
操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段と、
前記音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付手段と、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出手段と、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断手段と、
前記指定区間受付手段により受付けられた前記指定区間と前記発声区間検出手段により検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断手段により前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定手段と、
を備えたことを特徴とする音声処理装置。
【請求項2】
前記決定手段は、前記重複する部分が検出された場合であって、前記話者判断手段により前記発話者は前記操作者であると判断された場合に、前記重複する部分を前記処理区間として決定することを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記決定手段が決定した前記音声の前記処理区間に対して音声処理を実行する音声処理手段をさらに備え、
前記決定手段は、前記話者判断手段が判断した前記発話者に基づいて、前記音声に対する音声処理の処理内容をさらに決定し、
前記音声処理手段は、前記決定手段が決定した前記処理内容で、前記音声の前記処理区間に対して音声処理を実行することを特徴とする請求項1に記載の音声処理装置。
【請求項4】
前記決定手段は、前記話者判断手段が判断した前記発話者が前記操作者かまたは前記操作者以外の者かに応じて、音声認識処理で用いる情報であって、音響モデル、語彙、文法のうち少なくとも1つを含む情報を変更し、変更した前記情報で音声認識処理を実行することを前記処理内容として決定することを特徴とする請求項3に記載の音声処理装置。
【請求項5】
前記決定手段は、前記話者判断手段が判断した前記発話者が前記操作者かまたは前記操作者以外の者かに応じて、翻訳処理で用いる情報であって、翻訳の原言語、翻訳の目的言語、翻訳方法のうち少なくとも1つを含む情報を変更し、変更した前記情報で翻訳処理を実行することを前記処理内容として決定することを特徴とする請求項3に記載の音声処理装置。
【請求項6】
前記音声処理手段は、前記発声区間検出手段により検出された前記発声区間に対して音声処理を行い、音声処理結果のうち、前記決定手段が決定した前記処理区間に対応する部分の音声処理結果を出力することを特徴とする請求項3に記載の音声処理装置。
【請求項7】
前記音声処理手段は、前記指定区間受付手段により受付けられた前記指定区間の中に、前記発声区間検出手段によって前記発声区間が複数検出された場合であって、前記決定手段が複数の前記発声区間を前記処理区間として決定した場合に、複数の前記処理区間を連結して音声処理を実行することを特徴とする請求項3に記載の音声処理装置。
【請求項8】
前記決定手段は、前記指定区間受付手段が受付けた前記指定区間が予め定められた時間より短い場合に、前記指定区間受付手段により前記指定区間が受付けられていないものとして前記処理区間を決定することを特徴とする請求項1に記載の音声処理装置。
【請求項9】
前記決定手段は、前記発声区間検出手段が検出した前記発声区間に対する前記指定区間受付手段が受付けた前記指定区間の割合が予め定められた閾値より小さい場合に、前記指定区間受付手段により前記指定区間が受付けられていないものとして前記処理区間を決定することを特徴とする請求項1に記載の音声処理装置。
【請求項10】
前記指定区間受付手段は、操作ボタンの押下操作中の期間を前記指定区間として受付けることを特徴とする請求項1に記載の音声処理装置。
【請求項11】
前記指定区間受付手段は、操作ボタンの押下操作から、次の前記操作ボタンの押下操作までの期間を前記指定区間として受付けることを特徴とする請求項1に記載の音声処理装置。
【請求項12】
前記指定区間受付手段は、操作ボタンの押下操作の開始時から予め定められた時間が経過したときに、前記開始時から前記時間が経過した時までの区間を前記指定区間として受付けることを特徴とする請求項1に記載の音声処理装置。
【請求項13】
前記操作者または前記操作者以外の者の顔の画像を撮像する撮像手段と、
前記撮像手段で撮像された前記顔の画像を認識して前記顔の向きや表情を含む顔画像情報を取得する認識手段と、をさらに備え、
前記指定区間受付手段は、前記認識手段が取得した前記顔画像情報の変化に基づいて前記開始の指定および前記終了の指定を受付けることを特徴とする請求項1に記載の音声処理装置。
【請求項14】
前記話者判断手段は、前記指定区間の指定中に前記発話者が判断済みの場合は、再度前記発話者の判断を行わないことを特徴とする請求項1に記載の音声処理装置。
【請求項15】
前記発声区間検出手段は、検出した前記発声区間の確からしさを表す信頼度をさらに算出し、
前記決定手段は、前記開始時点または前記終了時点を、前記開始時点または前記終了時点の前方と後方との少なくとも一方の予め定められた範囲の前記発声区間について前記発声区間検出手段が算出した前記信頼度が最大の前記発声区間の開始時点または終了時点に変更することを特徴とする請求項1に記載の音声処理装置。
【請求項16】
前記音声入力手段は、複数のマイクロホンを含むマイクロホンアレーにより前記音声を入力し、
前記話者判断手段は、複数の前記マイクロホンに入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断することを特徴とする請求項1に記載の音声処理装置。
【請求項17】
操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付ステップと、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出ステップと、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断ステップと、
前記指定区間受付ステップにより受付けられた前記指定区間と前記発声区間検出ステップにより検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断ステップにより前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定ステップと、
を備えたことを特徴とする音声処理方法。
【請求項18】
操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付手順と、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出手順と、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断手順と、
前記指定区間受付手順により受付けられた前記指定区間と前記発声区間検出手順により検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断手順により前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定手順と、
をコンピュータに実行させる音声処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2007−264473(P2007−264473A)
【公開日】平成19年10月11日(2007.10.11)
【国際特許分類】
【出願番号】特願2006−91995(P2006−91995)
【出願日】平成18年3月29日(2006.3.29)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】