音声処理装置、音声処理方法および音声処理プログラム

【課題】誤動作の発生を低減する音声処理装置を提供する。
【解決手段】操作者または操作者以外の者の発声を含む音声を入力するマイク１０４と、入力された音声のうち音声処理の対象とする区間として操作者により指定された指定区間の入力を受付ける指定区間受付部２０４と、入力された音声から発声が存在する区間である発声区間を検出する発声区間検出部２０２と、入力された音声に基づいて、操作者または操作者以外の者のいずれが発声の発話者であるかを判断する話者判断部２０３と、指定区間受付部２０４が受付けた指定区間と発声区間検出部２０２が検出した発声区間とが重複する部分を検出し、重複する部分が検出された場合であって、話者判断部２０３により話者は操作者以外の者であると判断された場合に、重複する部分が含まれる発声区間を処理区間として決定する処理内容判断部２０５と、を備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、入力された音声を処理して出力する音声処理装置、音声処理方法および音声処理プログラムに関するものである。
【背景技術】
【０００２】
近年、入力された音声を処理する音声処理装置の一つとして、原言語による音声入力を目的言語に翻訳して音声出力することによって異言語コミュニケーションを支援する音声翻訳システムなどが開発されている。
【０００３】
音声翻訳システムでは、複数の話者の音声が入力されるため、話者に応じた音声処理を実行しなければならない。例えば、特許文献１では、可動するマイクやジャイロセンサーを利用することによって、入力される音声の話者が存在する方向を特定し、翻訳方向を決定する技術が提案されている。
【０００４】
ところが、この特許文献１の技術では、周囲に雑音が存在する場合や、対話相手の相槌などのような処理対象とすべきでない音声が存在する場合には対応できず、誤動作の発生や操作が煩雑になるなどの恐れがある。
【０００５】
また、特許文献１では、本体あるいはマイクを自分側にするか相手側にするかによって話者の切り替えを行うため、対話のやり取りのたびに切り替え動作が必要となり、自然な対話が妨げられる恐れがある。特許文献１ではマイクロホンアレーを用いて話者の切り替えを行う手法も挙げられているが、不要な音声を処理する可能性がある点は解消されていない。
【０００６】
話者を判定するその他の方法としては、自分の発声を入力する際にはスイッチをオンにし、相手の発声を入力する際にはスイッチをオフにすることにより、ユーザが話者を明示的に指定できるようにする技術が提案されている（例えば、特許文献２）。特許文献２の技術では、１つのスイッチの操作により翻訳の言語を判定するため、機器の操作性の向上が実現されている。
【０００７】
【特許文献１】特開２００５−１４１７５９号公報
【特許文献２】特開２００３−２９５８９２号公報
【発明の開示】
【発明が解決しようとする課題】
【０００８】
しかしながら、特許文献２の方法では、スイッチをオンにすることにより自分の発声について処理すべき音声の区間を指定することができるが、スイッチをオフにしている時には、入力される全ての音声を処理するため、不要な音声を処理し誤作動が発生し得るという問題があった。これは、相手の発声について適切に区間を設定する方法が存在しないことに起因する問題である。
【０００９】
本発明は、上記に鑑みてなされたものであって、話者に応じて処理の対象とする音声の区間を適切に決定することにより、誤動作の発生を低減することができる音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
上述した課題を解決し、目的を達成するために、本発明は、操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段と、前記音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付手段と、前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出手段と、前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断手段と、前記指定区間受付手段により受付けられた前記指定区間と前記発声区間検出手段により検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断手段により前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定手段と、を備えたことを特徴とする。
【００１１】
また、本発明は、上記装置を実行することができる音声処理方法および音声処理プログラムである。
【発明の効果】
【００１２】
本発明によれば、音声から抽出した発声区間と操作者が指定した指定区間との関係を参照し、話者に応じて処理の対象とする音声の区間を適切に決定することができる。このため、誤動作の発生を低減することができるという効果を奏する。
【発明を実施するための最良の形態】
【００１３】
以下に添付図面を参照して、この発明にかかる音声処理装置、音声処理方法および音声処理プログラムの最良な実施の形態を詳細に説明する。
【００１４】
（第１の実施の形態）
第１の実施の形態にかかる音声処理装置は、操作者が指定した指定区間と、入力された音声から検出した発声区間と、複数のマイクから入力された音声の情報を参照して求めた話者とから、音声処理の対象とする音声の区間である処理区間を決定するものである。
【００１５】
ここで、発声区間とは、入力された音声のうち人間の発声であると判断された音声が存在する区間をいう。また、処理区間とは、実際に音声処理の対象とする音声の区間をいう。また、指定区間とは、操作者が音声処理の対象として指定した区間をいう。操作者が指定区間を指定するため、操作ミスなどのように指定した区間をそのまま処理区間とすべきでないない場合が存在する。本実施の形態では、このような操作ミス等も考慮して、適切な処理区間を決定することができる。
【００１６】
図１は、第１の実施の形態にかかる音声処理装置１００の使用場面を説明するための概念図である。
【００１７】
同図に示すように、音声処理装置１００への発話者としては、システム操作者１０１と、その対話相手１０２が存在する。ここで、システム操作者１０１が発話する言語を言語１、対話相手１０２が発話する言語を言語２とする。
【００１８】
また、同図に示すように、音声処理装置１００は、主なハードウェア構成として、出力部１０３と、マイク１０４ａ、１０４ｂと、プレストークボタン１０５とを備えている。
【００１９】
出力部１０３は、ユーザに対して音声処理結果を出力するものである。出力方法としては、音声処理結果を液晶ディスプレイなどの表示装置に表示する方法や、音声処理結果を音声合成した音声を出力する方法など、従来から用いられているあらゆる方法を適用することができる。
【００２０】
マイク１０４ａ、１０４ｂは、システム操作者１０１または対話相手１０２の発声を含む音声を入力するものである。このように、本実施の形態では、マイクを２つ備えており、マイク１０４ａはシステム操作者１０１、マイク１０４ｂは対話相手１０２の方向へ指向性が向けられている。また、本実施の形態では、システム操作者１０１と音声処理装置１００との相対的な位置関係は変わらないことを前提とする。
【００２１】
プレストークボタン１０５は、システム操作者１０１が指定区間を指定するために用いるスイッチである。プレストークボタン１０５にはＯＮとＯＦＦの２つの状態が存在し、プレストークボタン１０５がＯＮ状態である音声の区間が指定区間として指定されたものとする。
【００２２】
図２は、第１の実施の形態にかかる音声処理装置１００の構成を示すブロック図である。同図に示すように、音声処理装置１００は、上述のハードウェア構成（出力部１０３、マイク１０４ａ、１０４ｂ、プレストークボタン１０５）の他に、主なソフトウェア構成として、入力受付部２０１と、発声区間検出部２０２と、話者判断部２０３と、指定区間受付部２０４と、処理内容判断部２０５と、音声処理部２０６とを備えている。
【００２３】
入力受付部２０１は、システム操作者または対話相手の発声を含む音声を入力するものである。具体的には、入力受付部２０１は、２つのマイク１０４ａ、１０４ｂから出力された音声のアナログ信号に対してサンプリングを行い、ステレオのデジタル信号に変換して出力する。入力受付部２０１の処理では、従来から用いられているＡ／Ｄ変換技術などを適用することができる。
【００２４】
発声区間検出部２０２は、入力受付部２０１により出力された音声のデジタル信号から、発声区間を検出するものである。発声区間の検出方法としては、音量が予め定められた閾値より相対的に長い区間を発声区間とする方法や、音声の周波数分析の結果から求められた発声についてのモデルに対する尤度が高い区間を発声区間とする方法など、従来から用いられているあらゆる発声区間検出技術を適用することができる。
【００２５】
話者判断部２０３は、入力受付部２０１により出力された音声のデジタル信号から、該当する音声を発話した発話者が、システム操作者か対話相手かを識別するものである。
【００２６】
話者を判断する方法としては、２つのマイク１０４ａ、１０４ｂから出力された信号を利用し、いずれのマイクに入力された音量が大きいかを判断する方法や、相互相関関数で大きな値をとる時間差の正負で判断する方法など、従来から用いられているあらゆる方法を適用することができる。
【００２７】
指定区間受付部２０４は、システム操作者により指定された指定区間の入力を受付けるものである。具体的には、指定区間受付部２０４は、プレストークボタン１０５から出力されたＯＮ／ＯＦＦの信号を利用し、ＯＮの信号が入力されている区間を指定区間として受付ける。
【００２８】
処理内容判断部２０５は、発声区間検出部２０２が検出した発声区間、話者判断部２０３が判断した話者、指定区間受付部２０４が受付けた指定区間の情報を参照し、入力受付部２０１により入力された音声に対して音声処理を行う処理区間と、音声処理の内容を判断するものである。本実施の形態の説明では、処理内容判断部２０５は、音声処理の処理内容として、言語１と言語２のどちらで音声認識や翻訳を行うかを決定する。
【００２９】
音声処理部２０６は、処理内容判断部２０５で決定された処理区間に対して、処理内容判断部２０５で決定された処理内容の音声処理を実行するものである。音声処理部２０６は、入力された音声の中から処理区間に該当する部分の音声に対して音声認識と翻訳を行い、その結果を出力する。
【００３０】
音声認識処理では、ＬＰＣ分析、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、ダイナミックプログラミング、ニューラルネットワーク、Ｎグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
【００３１】
また、翻訳処理では、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式の機械翻訳などのあらゆる翻訳方法を適用することができる。
【００３２】
次に、このように構成された第１の実施の形態にかかる音声処理装置１００による音声処理について説明する。
【００３３】
なお、本実施の形態における音声処理では、予め定められた時間単位（以下、フレームという。）ごとに出力される発声区間検出部２０２、話者判断部２０３、および指定区間受付部２０４の処理結果に基づいて、処理内容判断部２０５が処理区間と処理内容とを決定し、音声処理部２０６が音声処理を実行する。
【００３４】
発声区間検出、話者判断、指定区間入力の処理にはそれぞれ一定の時間が必要となる場合があるため、実際の音声処理はそれらの時間の中で最大値に対応するフレーム数の時間だけ遅れるが、以下では説明の便宜上、リアルタイムに行われているものとして説明する。
【００３５】
例えば、時刻ｔで発声が開始されたとしても、その時点から発声が開始されたと判断するにはΔｔ秒が必要となる。しかし、現実の時刻がｔ＋Δｔであっても、システムの内部的には時刻ｔに発声の検出を開始したとみなすことができる。このような処理方法は音声認識等の実時間信号を扱う場面では一般的であり、従来から用いられている技術で実現可能である。
【００３６】
また、発声区間検出部２０２、話者判断部２０３、指定区間受付部２０４、処理内容判断部２０５、および音声処理部２０６は、フレームごとに処理を行い、各部の処理結果を出力する。なお、処理結果を、発声区間検出部２０２や指定区間受付部２０４で各区間の始端および終端を得たあとに出力するように構成してもよい。
【００３７】
次に、第１の実施の形態における音声処理の全体の流れについて説明する。図３は、第１の実施の形態における音声処理の全体の流れを示すフローチャートである。
【００３８】
まず、各フレームで、入力受付部２０１が、ユーザ（システム操作者または対話相手）が発話した音声の入力を受付ける（ステップＳ３０１）。具体的には、入力受付部２０１は、マイク１０４ａ、１０４ｂから出力された音声のアナログ信号をデジタル信号に変換し、フレーム時間分の結果を出力する。
【００３９】
次に、指定区間受付部２０４が、プレストークボタン１０５のオンからオフまでを指定区間として受付ける（ステップＳ３０２）。具体的には、指定区間受付部２０４は、各フレームでプレストークボタン１０５が押されているか否かを検知して、押下開始から押下終了までの区間を指定区間として受付ける。
【００４０】
次に、発声区間検出部２０２による発声区間検出処理（ステップＳ３０３）、話者判断部２０３による話者判断処理（ステップＳ３０４）、処理内容判断部２０５による処理内容判断処理（ステップＳ３０５）が実行される。発声区間検出処理、話者判断処理、処理内容判断処理の詳細については後述する。
【００４１】
次に、音声処理部２０６は、処理内容判断処理の結果に従い、処理区間に対して音声認識処理を実行する（ステップＳ３０６）。
【００４２】
本実施の形態では、音声処理部２０６は、処理内容判断処理で処理内容と処理区間とが決定したら直ちに音声処理を開始する。なお、処理内容と処理区間とが決定した後、発声区間および指定区間の検出がともに完了してから音声処理を実行するように構成してもよい。
【００４３】
ステップＳ３０６の音声認識処理は、具体的には以下のように実行される。まず、音声処理部２０６は、処理区間に対応する音声情報をＲＡＭ（Random Access Memory）などの記憶領域（図示せず）から取得する。ここで、話者は既に判定されているため、音声処理部２０６は、話者がシステム操作者の場合はシステム操作者側のマイクで収音された音声を、対話相手の音声の場合は対話相手側のマイクで収音された音声について、処理区間に対応する音声情報を取得する。
【００４４】
音声情報を取得後、音声処理部２０６は、取得した音声に対し、処理内容で設定された言語で音声認識を行う。例えば、話者がシステム操作者なら言語１、話者が対話相手なら言語２が、処理内容判断部２０５による処理内容判断処理で設定されているため、この内容に従い音声認識を実行する。
【００４５】
また、話者がシステム操作者か、対話相手かによって言語が異なるため、音声認識処理で用いる音響モデル、語彙、文法などの情報を変更して音声認識を実行する。
【００４６】
次に、音声処理部２０６は、処理内容判断処理の結果に従い、処理区間に対して翻訳処理を実行する（ステップＳ３０７）。
【００４７】
具体的には、音声処理部２０６は、音声認識結果に対して、処理内容で設定された言語で翻訳を行う。例えば、話者がシステム操作者ならば言語１から言語２へ、話者が対話相手ならば言語２から言語１へ翻訳するという処理内容が、処理内容判断部２０５による処理内容判断処理で設定されているため、この内容に従い翻訳を実行する。
【００４８】
また、話者がシステム操作者か、対話相手かによって、翻訳の原言語、翻訳の目的言語だけでなく、翻訳方法を変更するように構成してもよい。
【００４９】
次に、ステップＳ３０３の発声区間検出処理の詳細について説明する。図４は、第１の実施の形態における発声区間検出処理の全体の流れを示すフローチャートである。
【００５０】
まず、発声区間検出部２０２は、ある時刻ｔからの予め定められたフレーム数（以下、Ｘとする。）分のフレームごとの音量を取得する（ステップＳ４０１）。フレームごとの音量は、入力受付部２０１から入力されるデジタル信号を用いて算出することができる。
【００５１】
次に、発声区間検出部２０２は、Ｘフレームの間、フレームごとの音量が予め定められた閾値（以下、閾値１とする。）より大きいか否かを判断し（ステップＳ４０２）、大きくない場合は（ステップＳ４０２：ＮＯ）、ステップＳ４０１に戻り処理を繰り返す。
【００５２】
フレームごとの音量が閾値１より大きい場合（ステップＳ４０２：ＹＥＳ）、発声区間検出部２０２は、時刻ｔを発声の始端として検出する（ステップＳ４０３）。
【００５３】
次に、発声区間検出部２０２は、ある時刻uからの予め定められたフレーム数（以下、Ｙとする。）分の音量を取得する（ステップＳ４０４）。
【００５４】
続いて、発声区間検出部２０２は、Ｙフレームの間、フレームごとの音量が予め定められた閾値（以下、閾値２とする。）より小さいか否かを判断し（ステップＳ４０５）、小さくない場合は（ステップＳ４０５：ＮＯ）、ステップＳ４０４に戻り処理を繰り返す。
【００５５】
フレームごとの音量が閾値２より小さい場合（ステップＳ４０５：ＹＥＳ）、発声区間検出部２０２は、時刻ｕを発声の終端として検出する（ステップＳ４０６）。このようにして、検出された発声の始端および終端で区切られる区間が、発声区間として検出される。
【００５６】
次に、上述のような発声区間検出処理における状態遷移について説明する。図５は、発声区間検出処理時の処理状態の一例を示す説明図である。
【００５７】
音声処理装置１００の起動直後の状態は、同図左側の初期状態５０１である。発声区間検出処理が開始されると、発声区間の始端検出待ち状態（無発声状態）となり、図４のステップＳ４０２に対応する判断５０２（時刻ｔから現在までのＸフレームの間、音量が閾値１を越えているか）が実行される。なお、この際、過去Ｘフレーム数分の音量の値を参照することができる。
【００５８】
閾値１の値を超えていない場合は、状態は始端検出待ち状態のままとなる。閾値１の値を超えていた場合には時刻tを発声の始端として検出し、発声区間の終端検出待ち状態（発声中状態）に遷移する。この状態では、図４のステップＳ４０５に対応する判断５０３（時刻ｕから現在までのＹフレームの間、音量が閾値２を下回っているか）が実行される。
【００５９】
閾値２の値を下回っていない場合は、状態は終端検出待ち状態のままとなる。閾値２の値を下回った場合には時刻ｕを発声の終端として検出し、発声区間の始端検出待ち状態に遷移する。
【００６０】
なお、発声区間検出部２０２による発声区間検出処理は上記方法に限られるものではなく、従来から用いられているあらゆる方法を適用することができる。例えば、無発声状態のときに音声信号から周囲の雑音の強さを推定し、その推定値にあわせて発声の検出に用いる閾値を変えるなどの処理を加えることでより高精度の発声区間検出を行うように構成してもよい。
【００６１】
次に、ステップＳ３０４の話者判断処理の詳細について説明する。図６は、第１の実施の形態における話者判断処理の全体の流れを示すフローチャートである。
【００６２】
まず、話者判断部２０３は、現在のフレームを基準とし、２つのマイク１０４ａ、１０４ｂから入力される予め定められた区間の信号であるステレオ信号を利用して相互相関関数を求める（ステップＳ６０１）。
【００６３】
次に、話者判断部２０３は、相関度が最大となる時間から、音源の方向を特定し、話者がシステム操作者または対話相手のいずれであるかを判定する（ステップＳ６０２）。上述のように、マイク１０４ａ、１０４ｂの位置とシステム操作者との相対的な位置関係は決まっているため、推定された音源のマイク方向に位置する者が、各フレームで話者として判定される。
【００６４】
次に、話者判断部２０３は、発声区間検出部２０２が検出した発声区間の情報を取得する（ステップＳ６０３）。続いて、話者判断部２０３は、発声区間内で最も発声の多い話者を、当該発声区間の話者と判断する（ステップＳ６０４）。
【００６５】
なお、予め定められた時間以上、同一の話者が発声したと判断された場合に、発声区間のうち該当する区間についてはその話者が発声したと判断してもよい。また、発声区間中で話者がある時間を境に切り替わったと判断できた場合には、発声区間をその境を前後にして区切るように構成してもよい。これにより、一つの発声区間に一人の話者を対応させることが可能となる。以下では、一つの発声区間には複数人の話者の音声が混在していないことを前提として説明する。
【００６６】
なお、話者判断部２０３による話者判断処理は上記方法に限られるものではなく、発声区間に対して話者を判断できる方法であれば、従来から用いられているあらゆる技術を適用することができる。
【００６７】
次に、ステップＳ３０５の処理内容判断処理の詳細について説明する。図７は、第１の実施の形態における処理内容判断処理の全体の流れを示すフローチャートである。
【００６８】
まず、処理内容判断部２０５は、発声区間検出部２０２が検出した発声区間の情報を記憶領域から取得する（ステップＳ７０１）。
【００６９】
次に、処理内容判断部２０５は、指定区間受付部２０４が受付けた指定区間の情報を記憶領域から取得する（ステップＳ７０２）。
【００７０】
なお、ステップＳ３０２の指定区間受付処理、およびステップＳ３０３の発声区間検出処理により、指定区間および発声区間の始端、終端が得られた場合には、記憶領域（図示せず）にその情報が処理区間の候補として記録される。ステップＳ７０１およびステップＳ７０２では、このようにして記録された情報を記憶領域から取得する。
【００７１】
また、処理内容判断処理で処理区間および処理内容が決定され、音声処理部２０６が決定された内容で音声処理を実行した後は、処理区間の候補である発声区間と指定区間とのうち、終端が確定している発声区間および指定区間は記憶領域から削除される。
【００７２】
次に、処理内容判断部２０５は、発声区間の終端が検出されたか否かを判断する（ステップＳ７０３）。発声区間の終端が検出された場合（ステップＳ７０３：ＹＥＳ）、処理内容判断部２０５は、終端が検出された発声区間と指定区間との関係、および話者の情報から処理区間を決定する発声区間終端処理を実行する（ステップＳ７０４）。発声区間終端処理の詳細については後述する。
【００７３】
ステップＳ７０３で発声区間の終端が検出されない場合（ステップＳ７０３：ＮＯ）、または、発声区間終端処理を実行後、処理内容判断部２０５は、指定区間の終端が検出されたか否かを判断する（ステップＳ７０５）。
【００７４】
指定区間の終端が検出された場合（ステップＳ７０５：ＹＥＳ）、処理内容判断部２０５は、終端が検出された指定区間と発声区間との関係、および話者の情報から処理区間を決定する指定区間終端処理を実行する（ステップＳ７０６）。指定区間終端処理の詳細については後述する。
【００７５】
指定区間の終端が検出されない場合（ステップＳ７０５：ＮＯ）、発声区間終端処理の実行後、または発声区間終端処理の実行後、処理内容判断部２０５は、処理区間と処理内容とが決定したか否かを判断する（ステップＳ７０７）。
【００７６】
処理区間と処理内容とが決定した場合（ステップＳ７０７：ＹＥＳ）、処理内容判断部２０５は、音声処理部２０６に処理区間と処理内容とを出力し（ステップＳ７０８）、処理内容判断処理を終了する。
【００７７】
処理区間と処理内容とが決定していない場合（ステップＳ７０７：ＮＯ）、処理内容判断部２０５は、処理区間と処理内容とは出力せずに、処理内容判断処理を終了する。この場合、処理内容判断部２０５は、処理区間の候補の情報を保持して次のフレームの処理を実行する。
【００７８】
次に、ステップＳ７０３の発声区間終端処理の詳細について説明する。図８は、第１の実施の形態における発声区間終端処理の全体の流れを示すフローチャートである。
【００７９】
まず、処理内容判断部２０５は、発声区間の始端から終端の間に指定区間が含まれているか否かを判断する（ステップＳ８０１）。含まれていない場合（ステップＳ８０１：ＮＯ）、処理内容判断部２０５は、処理区間の候補を初期化して発声区間終端処理を終了する（ステップＳ８０２）。
【００８０】
ステップＳ８０２のように処理内容等が決定される具体例について、以下に図を用いて説明する。図１０は、第１の実施の形態で処理される各種情報の一例を示す説明図である。
【００８１】
例（１）が、ステップＳ８０２のように処理区間および処理内容が決定される例を表している。例（１）は、システム操作者（Ｂ）が発声したが、指定区間が入力されていない場面の例である。
【００８２】
第１の実施の形態では、このような場合、検出された発声区間中に指定区間が含まれないため、処理内容判断部２０５は、処理区間を決定せず処理区間の候補である発声区間を初期化する（ステップＳ８０２）。
【００８３】
発声されたが、指定区間として指定されていないということは、システム操作者にとっては処理することが望ましくない音声であったと判断できるためである。すわなち、この発声区間は処理区間にはならない。このような処理により、処理すべきでない雑音や人の発声を収音して誤動作が生じる可能性を低減することが可能となる。
【００８４】
ステップＳ８０１で、発声区間の始端から終端の間に指定区間が含まれていると判断された場合（ステップＳ８０１：ＹＥＳ）、処理内容判断部２０５は、話者判断部２０３が判断した話者の情報を利用して、発声区間の話者はシステム操作者か否かを判断する（ステップＳ８０３）。
【００８５】
話者はシステム操作者でない場合、すなわち、話者は対話相手であった場合（ステップＳ８０３：ＮＯ）、処理内容判断部２０５は、検出された発声区間を処理区間とし、言語２から言語１への音声翻訳を処理内容として決定し（ステップＳ８０４）、発声区間終端処理を終了する。
【００８６】
なお、図１０の例（２）が、ステップＳ８０４のように処理区間および処理内容が決定される例を表している。
【００８７】
例（２）は、対話相手（Ａ）が発声したときに、システム操作者（Ｂ）が少し遅れて指定区間を指定した場面の例である。この場合、発声区間検出部２０２によって発声区間が検出され、話者判断部２０３によってその発声区間が対話相手（Ａ）に対応すると判断される。
【００８８】
システム操作者（Ｂ）がプレストークボタン１０５によって、対話相手（Ａ）の発声に対して指定区間入力を行う場合、システム操作者（Ｂ）は他人の発声の始終端を正確に把握できない。このため、発声の始終端とプレストークボタン１０５のＯＮ／ＯＦＦがずれることは十分に考えられる。この結果、同図例（２）の指定区間の部分で示すように、発声区間と指定区間がずれて検出される。
【００８９】
第１の実施の形態では、このような場合であっても、処理内容判断部２０５が検出された発声区間を処理区間とし、言語２から言語１への音声認識および翻訳を処理内容として決定することができる（ステップＳ８０４）。
【００９０】
従来の方法では、対話相手の発声を処理する区間をボタン等で明示的に指定できず、すべての音声を対象とするため、不要な雑音等を処理して誤作動が生じる可能性があった。これに対し、第１の実施の形態では、対話相手の発声についても処理する区間を指定できるので誤作動の生じる可能性を低減できる。
【００９１】
また、対話相手の発声について区間を指定する際、実際の発声区間と指定区間のずれが生じうるが、第１の実施の形態では、適切に処理区間を判定して音声処理を実行することができる。すなわち、上述のような判断処理により、システム操作者が対話相手の発声についても処理を望むときには、その発声区間の一部に重なるように指定区間の指定を開始すれば、処理区間として判断され、音声処理対象とすることが可能となる。
【００９２】
通常、対話相手の発声開始や終了のタイミングは不明だが、発声中に指定区間の入力を行えば発声区間を処理区間とすることが可能となるため、システム操作者は対話相手の希望する発声を処理区間とすることができる。
【００９３】
ステップＳ８０３で、話者はシステム操作者であると判断された場合（ステップＳ８０３：ＹＥＳ）、処理内容判断部２０５は、最新の指定区間の終端が検出されているか否かを判断する（ステップＳ８０５）。
【００９４】
最新の指定区間の終端が検出されていない場合（ステップＳ８０５：ＮＯ）、処理内容判断部２０５は、処理区間とすべき判断材料が全て揃っていないため、発声区間、指定区間の候補を全て保留して、すなわち、処理区間を判断せずに発声区間終端処理を終了する。
【００９５】
なお、図１０の例（３）の前半部（発声区間１００１の発声が完了した時点までを表す）が、ステップＳ８０５で最新の指定区間の終端が検出されていないと判断される例を表している。
【００９６】
例（３）では、システム操作者（Ｂ）の発声が２つの発声区間に分割されて検出されたが、最初の発声区間についての判断時には、まだ指定区間の終端が検出されていないため、処理内容判断部２０５は、処理区間等の判断を保留して発声区間終端処理を終了する。一方、後述するように、指定区間の終端が検出された後、分割された２つの発声区間が結合されて結合された発声区間を処理区間として音声処理が実行される。
【００９７】
このような処理により、システム操作者がある一文を発声するときに、指定区間は一文全体を指定しているが、発声の途中で言いよどんだために発声区間検出処理で２つの発声区間と判断されるような状況であっても、発声区間ごとに処理区間が分割されることを回避できる。
【００９８】
また、このように処理区間の分割を回避することにより、音声認識処理や翻訳処理の精度が低下することを防止できる。言語モデルのような言語情報を用いて音声認識処理を行う場合、前後の文脈的な情報を用いるため、一つの文についての発声をまとめて処理すれば文脈情報を有効に利用できるからである。
【００９９】
最新の指定区間の終端が検出された場合（ステップＳ８０５：ＹＥＳ）、処理内容判断部２０５は、発声区間と指定区間との重複部分をすべて処理区間とし、言語１から言語２への音声翻訳を処理内容として決定し（ステップＳ８０６）、発声区間終端処理を終了する。
【０１００】
なお、図１０の例（４）が、ステップＳ８０６のように処理区間および処理内容が決定される例を表している。例（４）は、システム操作者（Ｂ）が発声し、発声の先頭を除いた部分で指定区間を指定した例を表している。
【０１０１】
この例では、発声区間と指定区間との重複部分は指定区間と等しいため、指定区間が処理区間として決定される。また、話者がシステム操作者であるため、言語１から言語２への音声翻訳が、処理内容として決定される。
【０１０２】
このような処理により、システム操作者は発声の中で任意の区間を処理の対象とすることができる。例えば、不要語を削除するときや、周囲に雑音が存在するときは指定区間の入力をＯＦＦにすることで必要な区間のみを処理の対象とし、誤動作を防ぐことが可能となる。
【０１０３】
また、例えば、操作者が発声の大部分を外国語で発声するが、どのように発声すべきかわからない部分を自国語で発声しつつ指定区間として指定し、当該部分のみを音声翻訳の処理対象とすることができる。これにより、両言語が混在している場合でも対話相手に発話の意図を伝えることが可能となる。
【０１０４】
なお、指定区間内に、発声区間の始端が含まれていた場合には、発声区間の始端を該当する指定区間の始端に設定してもよい。これにより、システム操作者がプレストークボタン１０５を押下してしばらく時間が経過した後に話し始めたときであっても、プレストークボタン１０５を押下した押した時間からではなく、発声検出の始端からを処理区間の開始とすることができる。
【０１０５】
次に、ステップＳ７０６の指定区間終端処理の詳細について説明する。図９は、第１の実施の形態における指定区間終端処理の全体の流れを示すフローチャートである。
【０１０６】
まず、処理内容判断部２０５は、指定区間の始端から終端の間に発声区間が含まれているか否かを判断する（ステップＳ９０１）。含まれていない場合（ステップＳ９０１：ＮＯ）、処理内容判断部２０５は、処理区間の候補を初期化して指定区間終端処理を終了する（ステップＳ９０２）。
【０１０７】
このような処理により、指定区間がシステム操作者から指定された場合であっても、人間の発声が検出されない限り音声の処理が行われることがないため、誤操作や雑音による誤動作を防ぐことができる。
【０１０８】
ステップＳ９０１で、指定区間の始端から終端の間に発声区間が含まれていると判断された場合（ステップＳ９０１：ＹＥＳ）、処理内容判断部２０５は、最も新しい発声区間の候補の終端が検出されているか否かを判断する（ステップＳ９０３）。
【０１０９】
終端が検出されていない場合（ステップＳ９０３：ＮＯ）、処理内容判断部２０５は、処理区間についての最終的な判断はまだ不可能なため、処理区間の候補を保留して指定区間終端処理を終了する。
【０１１０】
終端が検出された場合（ステップＳ９０３：ＹＥＳ）、処理内容判断部２０５は、発声区間と指定区間との重複部分をすべて処理区間とし、言語１から言語２への音声翻訳を処理内容として決定し（ステップＳ９０４）、指定区間終端処理を終了する。
【０１１１】
なお、仮に話者が対話相手であった場合は、発声区間の終端が検出された時点で処理区間が決定されるため（ステップＳ８０４）、ステップＳ９０３の判断処理が実行されることはない。したがって、図９の指定区間終端処理では、発声区間終端処理のステップＳ８０３のように話者の判断を実行する必要がなく、話者がシステム操作者であるとして処理内容（言語１から言語２への音声翻訳）を決定できる。
【０１１２】
なお、図１０の例（３）が、ステップＳ９０４のように処理区間および処理内容が決定される例を表している。例（３）は、システム操作者（Ｂ）が発声したが、発声の途中にポーズを置いたため、発声区間が２つに分割されて検出された場面の例を表している。また、最初の発声区間の先頭で、「えーと」を意味する不要語を発声した例を表している。なお、図中のシステム操作者（Ｂ）の発声の黒く塗られた区間が不要語の部分を表している。
【０１１３】
この場合、システム操作者（Ｂ）は、不要語を除いて２つに分割された音声を合わせた音声を処理対象とすることを意図している。このため、システム操作者（Ｂ）は、不要語を発声した後に指定区間の指定を開始し、発声の終了後に、指定区間の指定を終了している。
【０１１４】
第１の実施の形態では、このような場合、処理内容判断部２０５が検出された発声区間中のすべての指定区間を処理区間とし、言語１から言語２への音声認識および翻訳を処理内容として決定することができる（ステップＳ９０４）。なお、仮に指定区間の終端より発声区間の終端の方が遅い場合には、ステップＳ８０６により、同様に処理区間が決定される。
【０１１５】
この結果、音声処理の処理区間は同図例（３）の縦線で表された区間をまとめた部分となる。したがって、２つに分割された発声をまとめた音声の音声認識結果に対して翻訳処理を行うことができるため、翻訳処理の精度を向上させることができる。
【０１１６】
これにより、例えば、システム操作者が「えーと、私は、（ポーズ）、駅に行きたい」と発声し、「私は、（ポーズ）、駅に行きたい」の部分でプレストークボタン１０５を押下した場合、不要語である「えーと」の部分は処理されず、かつ「私は」の部分と「駅に行きたい」の部分とが分割されることなく音声処理の対象となる。したがって、「行きたい」の主語と目的語が「私」と「駅」であることを把握し、高精度の翻訳が可能となる。
【０１１７】
次に、このように構成された第１の実施の形態における音声処理の別の具体例について、上述の図１０を用いて説明する。
【０１１８】
例（５）は、対話相手（Ａ）が２つの文を発声したのに対し、システム操作者（Ｂ）が指定区間を与えるプレストークボタン１０５をＯＮにし続けた場面の例を表している。
【０１１９】
この場合、システム操作者（Ｂ）は、対話相手（Ａ）の発声の始終端のタイミングを把握できず、また発声内容が２つの文なのか否かを発声のみから判断することもできない。
【０１２０】
第１の実施の形態では、このような場合であっても、処理内容判断部２０５が検出された２つの発声区間をそれぞれ処理区間とし、言語２から言語１への音声認識および翻訳を処理内容として決定することができる（ステップＳ８０４）。
【０１２１】
なお、例（５）の場面と例（３）の場面とは、発声区間と指定区間との関係は同一であるが、話者のみが異なっている。例（３）の場面では話者がシステム操作者（Ｂ）自身であり、処理すべき発声区間を正確に指定できるため、処理内容判断部２０５は、不要語を削除した区間を処理区間として決定できる。
【０１２２】
一方、例（５）の場面では話者が対話相手（Ａ）であり、処理すべき発声区間を正確に指定できないため、処理内容判断部２０５は、発声区間と指定区間の始端のずれの部分を不要語として削除せずに、適切に処理区間を決定することができる。
【０１２３】
以上のように、第１の実施の形態にかかる音声処理装置では、操作者が指定した指定区間と、入力された音声から検出した発声区間と、複数のマイクから入力された音声の情報を参照して求めた話者とから、音声処理の対象とする音声の区間である処理区間を適切に決定することができる。このため、不要な音声を処理することがなく、誤動作の発生を低減することができる。
【０１２４】
（第２の実施の形態）
第２の実施の形態にかかる音声処理装置は、プレストークボタンの代わりにカメラを備え、カメラで撮像した話者の顔の画像の変化により、音声処理の対象とする指定区間の指定を受付けるものである。
【０１２５】
図１１は、第２の実施の形態にかかる音声処理装置１１００の構成を示すブロック図である。同図に示すように、音声処理装置１１００は、出力部１０３と、マイク１０４ａ、１０４ｂと、カメラ１１０８と、入力受付部２０１と、発声区間検出部２０２と、話者判断部２０３と、指定区間受付部１２０４と、処理内容判断部２０５と、音声処理部２０６とを備えている。
【０１２６】
第２の実施の形態では、プレストークボタン１０５の代わりにカメラ１１０８を追加したこと、および指定区間受付部１２０４の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声処理装置１００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。
【０１２７】
カメラ１１０８は、発話者の顔の画像の撮影を行うものである。カメラ１１０８は、例えば、撮像のために設けられたレンズなどの光学系部品、ＣＣＤ（Charge Coupled Device）、ＣＣＤ駆動回路、およびＡ／Ｄ変換器などを含む撮像装置のように、従来から用いられているあらゆる撮像装置により構成することができる。
【０１２８】
指定区間受付部１２０４は、カメラ１１０８が撮像した顔画像を解析して視線を抽出し、視線が音声処理装置１１００に向いている区間を指定区間として受付けるものである。顔画像を解析し視線を抽出する方法としては、目、鼻などの顔部品から算出した特徴量をパターンマッチングする方法などの、従来から用いられているあらゆる方法を適用できる。
【０１２９】
次に、このように構成された第２の実施の形態にかかる音声処理装置１１００による音声処理について説明する。図１２は、第２の実施の形態における音声処理の全体の流れを示すフローチャートである。
【０１３０】
ステップＳ１２０１の入力受付処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ３０１と同様の処理なので、その説明を省略する。
【０１３１】
入力受付部２０１が、音声の入力を受付けた後、指定区間受付部１２０４が、カメラ１１０８で撮像した顔画像から視線を検出し、視線が向いている間を指定区間として受付ける（ステップＳ１２０２）。具体的には、指定区間受付部１２０４は、各フレームで顔画像から視線を検出し、視線が音声処理装置１１００に向いた時点から、視線が音声処理装置１１００からそれた時点までの区間を指定区間として受付ける。
【０１３２】
ステップＳ１２０３からステップＳ１２０７までの発声区間検出処理、話者判断処理、処理内容判断処理、音声処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ３０３からステップＳ３０７と同様の処理なので、その説明を省略する。
【０１３３】
このように、第２の実施の形態にかかる音声処理装置では、プレストークボタンの代わりにカメラを備え、カメラで撮像した話者の顔の画像の変化により、音声処理の対象とする指定区間の指定を受付けることができる。このため、システム操作者がボタン等を押下する負担を軽減し、操作性を向上させることができる。
【０１３４】
（第３の実施の形態）
上述の実施の形態では、例えば、対話相手が「今日は天気もいいし（息継ぎ）すごしやすい天気だ」と発声し、息継ぎの部分でシステム操作者が「ええ」と相槌をうった場合、指定区間が継続して指定されていたとしても、発話区間が２つに分割されるという問題が生じうる。
【０１３５】
この結果、「今日は天気もいいし」を言語２から言語１に、「ええ」を言語１から言語２に、「すごしやすい天気だ」を言語２から言語１に翻訳するという３回の音声処理が実行される。文が分割されると、上述のように音声処理の精度が低下するため、処理結果が不適切となる可能性がある。
【０１３６】
そこで、第３の実施の形態にかかる音声処理装置は、指定区間の入力がされている間は、判断されている話者を変更せずに音声処理を行うことにより、音声処理の精度を向上させるものである。
【０１３７】
なお、第３の実施の形態では、話者判断部２０３の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声処理装置１００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。
【０１３８】
第３の実施の形態にかかる話者判断部２０３は、プレストークボタン１０５押下中であり、かつ、話者が判断済みの場合は、話者判断処理を実行しない点が、第１の実施の形態にかかる話者判断部２０３と異なっている。
【０１３９】
次に、第３の実施の形態における音声処理の全体の流れについて説明する。図１３は、第３の実施の形態における音声処理の全体の流れを示すフローチャートである。
【０１４０】
ステップＳ１３０１からステップＳ１３０３までの入力受付処理、指定区間受付処理、発声区間検出処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ３０１からステップＳ３０３と同様の処理なので、その説明を省略する。
【０１４１】
発声区間検出処理の後、話者判断部２０３は、プレストークボタン１０５押下中であり、かつ、話者が判断済みであるか否かを判断する（ステップＳ１３０４）。
【０１４２】
プレストークボタン１０５押下中であり、かつ、話者が判断済みである場合以外は（ステップＳ１３０４：ＮＯ）、話者判断部２０３は、話者判断処理を実行する（ステップＳ１３０５）。
【０１４３】
プレストークボタン１０５押下中であり、かつ、話者が判断済みである場合は（ステップＳ１３０４：ＹＥＳ）、話者判断部２０３は、話者判断処理を実行せず、代わりに、判断済みの話者を出力部１０３に出力する（ステップＳ１３０６）。これにより、システム操作者は、話者が正しく判断されているか否かを把握することができる。
【０１４４】
このようにして、指定区間が入力されている間は話者を固定し、短い相槌や突発的な雑音に対しての音声処理を分断せずに実行することが可能となる。なお、発声区間の終端が検出されるまで話者を固定するように構成してもよい。
【０１４５】
ステップＳ１３０７からステップＳ１３０９までの処理内容判断処理、音声処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ３０５からステップＳ３０７と同様の処理なので、その説明を省略する。
【０１４６】
以上のような機能により、例えば、上述と同様の例でシステム操作者が「今日は天気もいいし」の部分から指定区間の入力を継続すれば、その間の話者は対話相手に固定される。また、息継ぎで発声が終了したと判断されなければ「今日は天気もいいし、すごしやすい天気だ」という発声全体を処理区間とすることができる。さらに、その間の話者は対話相手であると判断できるため、対話相手方向のマイクのみから収音し、周囲からの不要な短い音声を収音せずに処理を行うことも可能となる。
【０１４７】
このように、第３の実施の形態にかかる音声処理装置では、指定区間の入力がされている間は判断されている話者を固定して音声処理を行うことができるため、音声処理の精度を向上させることができる。
【０１４８】
（第４の実施の形態）
第４の実施の形態にかかる音声処理装置は、検出された発声区間の信頼度を算出し、信頼度に応じて処理区間の始終端を調整するものである。
【０１４９】
なお、第４の実施の形態では、発声区間検出部２０２および処理内容判断部２０５の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声処理装置１００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。
【０１５０】
第４の実施の形態にかかる発声区間検出部２０２は、各フレームで音声が人間の発声であることの確からしさを表す信頼度を求める点が、第１の実施の形態にかかる発声区間検出部２０２と異なっている。
【０１５１】
信頼度としては、音量の強さや、大量の発声データから求めた音声の統計モデルに対する各フレーム特徴量の尤度を用いる。フレーム特徴量の尤度を算出する際には、多混合正規分布による音声のモデルからの尤度を求める方法など、既存の発声区間検出技術で用いられるあらゆる方法を適用することができる。
【０１５２】
第４の実施の形態にかかる処理内容判断部２０５は、発声区間検出部２０２で求められた発声の信頼度を用いて、処理区間の始終端を調整する点が、第１の実施の形態にかかる処理内容判断部２０５と異なっている。
【０１５３】
次に、第４の実施の形態における音声処理の全体の流れについて説明する。図１４は、第４の実施の形態における音声処理の全体の流れを示すフローチャートである。
【０１５４】
ステップＳ１４０１からステップＳ１４０２までの入力受付処理、指定区間受付処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ３０１からステップＳ３０２と同様の処理なので、その説明を省略する。
【０１５５】
指定区間受付処理の後、発声区間検出部２０２は、各フレームの音声の信頼度を算出する（ステップＳ１４０３）。この際、上述のように、音量の強さ、またはフレーム特徴量の尤度を、各フレームの音声の信頼度として算出する。なお、算出した信頼度は、後述する処理内容判断処理で参照するため、所定の記憶領域（図示せず）に記憶する。
【０１５６】
ステップＳ１４０４からステップＳ１４０５までの発声区間検出処理、話者判断処理、および、ステップＳ１４０７からステップＳ１４０８までの音声処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ３０３からステップＳ３０４、および、ステップＳ３０６からステップＳ３０７までと同様の処理なので、その説明を省略する。
【０１５７】
なお、第４の実施の形態では、ステップＳ１４０６の処理内容判断処理の内容が、第１の実施の形態と異なっている。以下に、ステップＳ１４０６の処理内容判断処理の詳細について説明する。
【０１５８】
図１５は、第４の実施の形態における処理内容判断処理の全体の流れを示すフローチャートである。
【０１５９】
ステップＳ１５０１からステップＳ１５０６までの発声区間情報取得処理、発声区間終端処理、指定区間終端処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ７０１からステップＳ７０６と同様の処理なので、その説明を省略する。
【０１６０】
発声区間終端処理または指定区間終端処理の実行後、処理内容判断部２０５は、処理区間の始端となったフレームについて、予め定められた数（以下、ｎとする。）の前後フレームのうち、ステップＳ１４０３で算出した信頼度が最大のフレームを処理区間の始端とする（ステップＳ１５０７）。
【０１６１】
例えば、処理区間の始端が、音声処理装置１００の起動後２０フレーム目であったとする。ｎ＝３であるとすると、１７（＝２０−３）フレーム目から２３（＝２０＋３）フレーム目までの各フレームの信頼度を記憶領域から取得する。仮に、２２フレーム目の信頼度が最大であった場合、処理区間の始端を２２フレーム目とする。
【０１６２】
次に、処理内容判断部２０５は、処理区間の終端となったフレームについて、予め定められた数の前後フレームのうち、信頼度が最大のフレームを処理区間の終端とする（ステップＳ１５０８）。
【０１６３】
ステップＳ１５０９からステップＳ１５１０までの判断処理、出力処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ７０７からステップＳ７０８と同様の処理なので、その説明を省略する。
【０１６４】
なお、話者がシステム操作者か対話相手かによって、事前に設定するｎの値を変更するように構成してもよい。これにより、異なる話者の発声区間の始終端を検出する際に生じうる誤差を補正し、適切な処理区間を検出することができる。
【０１６５】
また、上述のような処理により、発声の開始と、システム操作者の処理区間指定開始のタイミングがずれた場合であっても、適切な処理区間を検出することが可能となる。
【０１６６】
このように、第４の実施の形態にかかる音声処理装置では、検出された発声区間の信頼度を算出し、信頼度に応じて処理区間の始終端を調整することができる。このため、処理区間の設定の誤りによる誤動作の発生を低減することができる。
【０１６７】
（第５の実施の形態）
第５の実施の形態にかかる音声処理装置は、複数のマイクから構成されるマイクロホンアレーにより音声を入力し、音源方向を高精度に検出するとともに、音源方向の音声を強調して音声処理を高精度に実行するものである。
【０１６８】
図１６は、第５の実施の形態にかかる音声処理装置６１００の構成を示すブロック図である。同図に示すように、音声処理装置６１００は、出力部１０３と、マイクロホンアレー６１０９と、プレストークボタン１０５と、入力受付部２０１と、発声区間検出部２０２と、話者判断部６２０３と、指定区間受付部２０４と、処理内容判断部２０５と、音声処理部２０６とを備えている。
【０１６９】
第５の実施の形態では、マイク１０４ａ、１０４ｂの代わりにマイクロホンアレー６１０９を追加したこと、入力受付部６２０１の機能、および話者判断部６２０３の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声処理装置１００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。
【０１７０】
マイクロホンアレー６１０９は、複数のマイクから音声を入力し、音源から到達する時間差や音圧の強さの違いを利用することで音源方向を推定するものである。また、マイクロホンアレー６１０９は、信号処理によって特定方向の音声を強調または抑圧することができる。マイクロホンアレー６１０９は、従来から用いられているあらゆる形式のマイクロホンアレーを適用することができる。
【０１７１】
入力受付部６２０１は、マイクロホンアレー６１０９から出力された音声のアナログ信号をデジタル信号に変換して出力するものである。
【０１７２】
話者判断部６２０３は、マイクロホンアレー６１０９の複数マイクに到達する音の時間差から音源の方向を特定し、特定した音源の方向に存在する話者を、対応する発声の話者と判断するものである。
【０１７３】
また、話者判断部６２０３は、特定された音源の方向の音声を強調した音声のデジタル信号を出力する。これにより、強調された音声の信号を用いて高精度に発声区間の検出が実行可能となる。さらに、強調された音声に対して音声認識等を実行することができるため、音声処理の精度を高めることも可能となる。
【０１７４】
次に、第５の実施の形態における話者判断処理の詳細について説明する。図１７は、第５の実施の形態における話者判断処理の全体の流れを示すフローチャートである。
【０１７５】
まず、話者判断部６２０３は、相互相関を用いた手法などの従来技術によって、音の複数マイクへの到来時間差の推定から音源方向を推定する（ステップＳ１７０１）。
【０１７６】
次に、話者判断部６２０３は、特定した音源の方向に存在する話者を判定する（ステップＳ１７０２）。
【０１７７】
ステップＳ１７０３からステップＳ１７０４までの発声区間情報取得処理、話者決定処理は、第１の実施の形態にかかる音声処理装置１００におけるステップＳ６０３からステップＳ６０４までと同様の処理なので、その説明を省略する。
【０１７８】
なお、第３の実施の形態と同様に、指定区間が入力されているときは話者判断処理、すなわち音源方向推定処理を行わず、直前までの音源方向に音源の推定方向を固定するように構成してもよい。この場合、固定された方向の音声が強調して収音され、強調された音声に対して音声処理部２０６による音声処理が実行される。
【０１７９】
このように、第５の実施の形態にかかる音声処理装置では、複数のマイクから構成されるマイクロホンアレーにより音声を入力し、音源方向を高精度に検出するとともに、音源方向の音声を強調して発声区間の検出や音声処理を高精度に実行することができる。
【０１８０】
本発明は、上記した実施の形態に限定されるものではなく、発明の要旨を変更しない範囲で適宜変形可能であり、例えば以下のような変形が可能である。
【０１８１】
（変形例１）
上述の各実施の形態では、対話相手の発声が検出され、かつシステム操作者から指定区間が指定され、両者の区間に重複部分が存在すれば発声区間が処理区間として決定される（ステップＳ８０４）。しかし、対話相手の発声中に一瞬でも指定区間が指定されれば処理区間として決定されるという問題が生じる可能性がある。
【０１８２】
そこで、発声区間であり、かつ指定区間である区間の長さが、予め定められた長さに満たない場合は、該当する発声区間に対しては処理区間を設定しないように構成してもよい。また、発声区間中の指定区間の長さが、発声区間に対して予め定められた割合以下の場合は、該当する発声区間に対しては処理区間を設定しないように構成してもよい。
【０１８３】
これにより、対話相手の発声を音声翻訳するためにプレストークボタン１０５を押下したが、すぐに処理を中断する場合や、誤操作により指定区間入力を開始した場合に、直ちに指定区間入力を終了（プレストークボタン１０５をＯＦＦ）にすれば、処理区間が決定されること回避できる。
【０１８４】
（変形例２）
上述の各実施の形態では、指定区間の入力が開始された状態でシステム操作者の発声区間の始終端が検出された場合、指定区間の終端が検出されるまで候補が保留され、処理区間および処理内容が決定されない（ステップＳ８０５：ＮＯ）。
【０１８５】
そこで、システム操作者の発声区間の終端が検出された後の経過時間を計測し、その値が予め定められた値以上になった場合は、指定区間の終端が検出されたと判断して強制的に処理区間等を決定するように構成してもよい。
【０１８６】
これにより、例えば、システム操作者が指定区間入力の終了を忘れた場合のように、処理区間を決定できずに音声処理が遅延し、円滑な対話が阻害されることを回避できる。また、発声と発声の間に大きな時間間隔が開いた場合、両者が一つの文章を構成すると判断するより、それぞれが別の発声であると判断した方が自然である。上述のような構成によれば、このような場合に発声を２つに分割することができるため、待ち時間の少ない応答を実現可能となる。
【０１８７】
（変形例３）
上述の各実施の形態では、プレストークボタン１０５を押下して指定区間を指定する場合、プレストークボタン１０５がＯＮ状態である音声の区間が指定区間であると判断していた。
【０１８８】
これに対し、ボタンをクリックする場合のように、ボタンのＯＮ／ＯＦＦを１つの動作とすると、当該動作ごとに指定区間の開始と終了の指定を切り替えるように構成してもよい。すなわち、指定区間の開始が入力されていないときにプレストークボタン１０５をクリックすると指定区間の入力を開始し、次にプレストークボタン１０５をクリックしたときに、指定区間の入力を終了するように構成してもよい。
【０１８９】
この他、指定区間の始端はプレストークボタン１０５のクリックで判断するが、指定区間の終端の指定を不要とし、発声区間の終端を指定区間の終端とするように構成してもよい。これにより、対話相手の発声ならば発声区間を、システム操作者の発声ならばクリック後の発声区間の部分を処理区間とすることができる。
【０１９０】
このような構成の場合、システム操作者が発声の任意の部分を処理区間とすることができるという利点は失われるが、システム操作者が話者のときの語頭の不要な発声区間を除外することは可能であるため、話者に応じて適切な処理区間を定められるという効果を得ることができる。
【０１９１】
（変形例４）
上述の各実施の形態では、処理区間に対応する音声情報を取り出し、処理区間が複数に分かれている場合には時間順に連結して音声認識を行い、音声認識結果を翻訳していた。処理区間の音声を連結して音声認識を行った方が、音声認識の精度が上がることが期待されるためである。
【０１９２】
別の方法として、処理区間と重なりのある発声区間全てに対して音声認識を実行し、処理区間に該当する部分の音声認識結果のみを出力して翻訳を行うように構成してもよい。これにより、より長い区間の音声を音声認識に用いることができるため、前後の文脈情報を利用して音声認識の精度を高めることが可能となる。
【０１９３】
また、別の方法として、処理区間が分かれている場合には、前述のように時間順に連結せず、個々の区間で音声認識を行い、その結果を翻訳するように構成してもよい。
【０１９４】
図１８は、第１〜第５の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
【０１９５】
第１〜第５の実施の形態にかかる音声処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。
【０１９６】
第１〜第５の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。
【０１９７】
第１〜第５の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【０１９８】
さらに、第１〜第５の実施の形態にかかる音声処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第３の実施の形態にかかる音声処理装置で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【０１９９】
第１〜第５の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、上述した各部（入力受付部、発声区間検出部、話者判断部、指定区間受付部、処理内容判断部、音声処理部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【０２００】
以上のように、本発明にかかる音声処理装置、音声処理方法および音声処理プログラムは、言語の異なるユーザ間の会話を支援する音声翻訳装置、音声翻訳方法および音声翻訳プログラムに適している。
【図面の簡単な説明】
【０２０１】
【図１】第１の実施の形態にかかる音声処理装置の使用場面を説明するための概念図である。
【図２】第１の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図３】第１の実施の形態における音声処理の全体の流れを示すフローチャートである。
【図４】第１の実施の形態における発声区間検出処理の全体の流れを示すフローチャートである。
【図５】発声区間検出処理時の処理状態の一例を示す説明図である。
【図６】第１の実施の形態における話者判断処理の全体の流れを示すフローチャートである。
【図７】第１の実施の形態における処理内容判断処理の全体の流れを示すフローチャートである。
【図８】第１の実施の形態における発声区間終端処理の全体の流れを示すフローチャートである。
【図９】第１の実施の形態における指定区間終端処理の全体の流れを示すフローチャートである。
【図１０】第１の実施の形態で処理される各種情報の一例を示す説明図である。
【図１１】第２の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図１２】第２の実施の形態における音声処理の全体の流れを示すフローチャートである。
【図１３】第３の実施の形態における音声処理の全体の流れを示すフローチャートである。
【図１４】第４の実施の形態における音声処理の全体の流れを示すフローチャートである。
【図１５】第４の実施の形態における処理内容判断処理の全体の流れを示すフローチャートである。
【図１６】第５の実施の形態にかかる音声処理装置の構成を示すブロック図である。
【図１７】第５の実施の形態における話者判断処理の全体の流れを示すフローチャートである。
【図１８】第１〜第５の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
【符号の説明】
【０２０２】
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００音声処理装置
１０１システム操作者
１０２対話相手
１０３出力部
１０４ａ、１０４ｂマイク
１０５プレストークボタン
２０１入力受付部
２０２発声区間検出部
２０３話者判断部
２０４指定区間受付部
２０５処理内容判断部
２０６音声処理部
５０１初期状態
５０２、５０３判断
１００１発声区間
１１００音声処理装置
１１０８カメラ
１２０４指定区間受付部
６１００音声処理装置
６１０９マイクロホンアレー
６２０１入力受付部
６２０３話者判断部

【特許請求の範囲】
【請求項１】
操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段と、
前記音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付手段と、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出手段と、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断手段と、
前記指定区間受付手段により受付けられた前記指定区間と前記発声区間検出手段により検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断手段により前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定手段と、
を備えたことを特徴とする音声処理装置。
【請求項２】
前記決定手段は、前記重複する部分が検出された場合であって、前記話者判断手段により前記発話者は前記操作者であると判断された場合に、前記重複する部分を前記処理区間として決定することを特徴とする請求項１に記載の音声処理装置。
【請求項３】
前記決定手段が決定した前記音声の前記処理区間に対して音声処理を実行する音声処理手段をさらに備え、
前記決定手段は、前記話者判断手段が判断した前記発話者に基づいて、前記音声に対する音声処理の処理内容をさらに決定し、
前記音声処理手段は、前記決定手段が決定した前記処理内容で、前記音声の前記処理区間に対して音声処理を実行することを特徴とする請求項１に記載の音声処理装置。
【請求項４】
前記決定手段は、前記話者判断手段が判断した前記発話者が前記操作者かまたは前記操作者以外の者かに応じて、音声認識処理で用いる情報であって、音響モデル、語彙、文法のうち少なくとも１つを含む情報を変更し、変更した前記情報で音声認識処理を実行することを前記処理内容として決定することを特徴とする請求項３に記載の音声処理装置。
【請求項５】
前記決定手段は、前記話者判断手段が判断した前記発話者が前記操作者かまたは前記操作者以外の者かに応じて、翻訳処理で用いる情報であって、翻訳の原言語、翻訳の目的言語、翻訳方法のうち少なくとも１つを含む情報を変更し、変更した前記情報で翻訳処理を実行することを前記処理内容として決定することを特徴とする請求項３に記載の音声処理装置。
【請求項６】
前記音声処理手段は、前記発声区間検出手段により検出された前記発声区間に対して音声処理を行い、音声処理結果のうち、前記決定手段が決定した前記処理区間に対応する部分の音声処理結果を出力することを特徴とする請求項３に記載の音声処理装置。
【請求項７】
前記音声処理手段は、前記指定区間受付手段により受付けられた前記指定区間の中に、前記発声区間検出手段によって前記発声区間が複数検出された場合であって、前記決定手段が複数の前記発声区間を前記処理区間として決定した場合に、複数の前記処理区間を連結して音声処理を実行することを特徴とする請求項３に記載の音声処理装置。
【請求項８】
前記決定手段は、前記指定区間受付手段が受付けた前記指定区間が予め定められた時間より短い場合に、前記指定区間受付手段により前記指定区間が受付けられていないものとして前記処理区間を決定することを特徴とする請求項１に記載の音声処理装置。
【請求項９】
前記決定手段は、前記発声区間検出手段が検出した前記発声区間に対する前記指定区間受付手段が受付けた前記指定区間の割合が予め定められた閾値より小さい場合に、前記指定区間受付手段により前記指定区間が受付けられていないものとして前記処理区間を決定することを特徴とする請求項１に記載の音声処理装置。
【請求項１０】
前記指定区間受付手段は、操作ボタンの押下操作中の期間を前記指定区間として受付けることを特徴とする請求項１に記載の音声処理装置。
【請求項１１】
前記指定区間受付手段は、操作ボタンの押下操作から、次の前記操作ボタンの押下操作までの期間を前記指定区間として受付けることを特徴とする請求項１に記載の音声処理装置。
【請求項１２】
前記指定区間受付手段は、操作ボタンの押下操作の開始時から予め定められた時間が経過したときに、前記開始時から前記時間が経過した時までの区間を前記指定区間として受付けることを特徴とする請求項１に記載の音声処理装置。
【請求項１３】
前記操作者または前記操作者以外の者の顔の画像を撮像する撮像手段と、
前記撮像手段で撮像された前記顔の画像を認識して前記顔の向きや表情を含む顔画像情報を取得する認識手段と、をさらに備え、
前記指定区間受付手段は、前記認識手段が取得した前記顔画像情報の変化に基づいて前記開始の指定および前記終了の指定を受付けることを特徴とする請求項１に記載の音声処理装置。
【請求項１４】
前記話者判断手段は、前記指定区間の指定中に前記発話者が判断済みの場合は、再度前記発話者の判断を行わないことを特徴とする請求項１に記載の音声処理装置。
【請求項１５】
前記発声区間検出手段は、検出した前記発声区間の確からしさを表す信頼度をさらに算出し、
前記決定手段は、前記開始時点または前記終了時点を、前記開始時点または前記終了時点の前方と後方との少なくとも一方の予め定められた範囲の前記発声区間について前記発声区間検出手段が算出した前記信頼度が最大の前記発声区間の開始時点または終了時点に変更することを特徴とする請求項１に記載の音声処理装置。
【請求項１６】
前記音声入力手段は、複数のマイクロホンを含むマイクロホンアレーにより前記音声を入力し、
前記話者判断手段は、複数の前記マイクロホンに入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断することを特徴とする請求項１に記載の音声処理装置。
【請求項１７】
操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付ステップと、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出ステップと、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断ステップと、
前記指定区間受付ステップにより受付けられた前記指定区間と前記発声区間検出ステップにより検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断ステップにより前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定ステップと、
を備えたことを特徴とする音声処理方法。
【請求項１８】
操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付手順と、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出手順と、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断手順と、
前記指定区間受付手順により受付けられた前記指定区間と前記発声区間検出手順により検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断手順により前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定手順と、
をコンピュータに実行させる音声処理プログラム。

【図１】