説明

音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム

【課題】音声認識のための音声が入力された時点での雑音等の環境音や、該入力音声の音量、音声信号の途絶等の特徴を好適に利用する。
【解決手段】音声信号処理システムは、音声信号を入力する音声入力手段101と、音声入力手段101を介して入力された音声信号である入力音声信号を格納する入力音声格納手段102と、入力音声格納手段102に格納された入力音声信号を参照し、入力音声信号に含まれる環境音を含む該入力音声信号によって示される入力音声の特徴を推定する特徴推定手段103と、参照音声となる所定の音声信号を発生させる参照音声発生手段104と、特徴推定手段103によって推定された入力音声の特徴を、参照音声発生手段104が発生させた音声信号である参照音声信号に反映する特徴反映手段105とを備えたことを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号の変換処理を含む音声信号処理システム、音声信号処理方法および音声信号処理方法プログラムに関し、入力音声の雑音環境や音量等の特徴を利用した音声信号処理システム、音声信号処理方法および音声信号処理方法プログラムに関する。
【背景技術】
【0002】
音声信号の変換を行う音声変換システムの一例が、特許文献1に記載されている。特許文献1に記載されている音声変換システムは、音声入力部1と入力アンプ回路、可変アンプ回路、音声合成部を構成要素として持ち、音声入力部1から入力され入力アンプ回路を経た環境音と、音声合成部から出力される音声を、可変アンプ回路で混合して、変換された合成音声を出力するよう動作する。
【0003】
また、特許文献2には、雑音区間のディジタル信号の音響特徴量から合成した雑音モデルを正規化した正規化雑音モデルと、クリーン音声モデルとを合成して、正規化雑音重畳音声モデルを生成し、それを正規化した正規化済み雑音モデルを音響モデルとして用い、音声認識結果を得る音声認識装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2000−39900号公報
【特許文献2】特開2007−156364号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1に記載されているような、常に現時点での環境音を重畳して音声を合成する方法では、音声認識のための音声が入力された時点(換言すると、ユーザが意図して音声を入力した時点、すなわちユーザにとっての任意の時点)での環境音を重畳できないといった問題がある。また同様に、音声認識のために入力された音声の特徴を反映できないといった問題がある。例えば、音量や、音量の大小による信号の歪み(主に通信路の障害を原因とする音声信号の途絶を含む)といった入力音声の特徴を反映することができない。
【0006】
また、特許文献2に記載されている技術において、音声変換をする際に、ある特定の音声の雑音環境や音量等の特徴を利用しようといったことは何ら考慮されていない。また、特許文献2に記載された音声認識装置は、そのような用途に適用できるように構成されていない。特許文献2に記載されている技術は、雑音が混入した音声に対する音声認識結果精度を向上させるために、雑音モデルを正規化する技術だからである。
【0007】
そこで、本発明は、音声認識のための音声が入力された時点での雑音等の環境音や、該入力音声の音量、音声信号の途絶等の特徴を好適に利用した音声信号処理システム、音声信号処理方法および音声信号処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明による音声信号処理システムは、音声信号を入力する音声入力手段と、音声入力手段を介して入力された音声信号である入力音声信号を格納する入力音声格納手段と、入力音声格納手段に格納された入力音声信号を参照し、入力音声信号に含まれる環境音を含む該入力音声信号によって示される入力音声の特徴を推定する特徴推定手段と、参照音声となる所定の音声信号を発生させる参照音声発生手段と、特徴推定手段によって推定された入力音声の特徴を、参照音声発生手段が発生させた音声信号である参照音声信号に反映する特徴反映手段とを備えたことを特徴とする。
【0009】
また、本発明による音声信号処理方法は、音声信号を入力し、入力された音声信号である入力音声信号を格納し、格納された入力音声信号を参照し、入力音声信号に含まれる環境音を含む該入力音声信号によって示される入力音声の特徴を推定し、参照音声となる所定の音声信号を発生させ、推定された入力音声の特徴を、参照音声として発生させた音声信号である参照音声信号に反映することを特徴とする。
【0010】
また、本発明による音声信号処理プログラムは、入力された音声信号である入力音声信号を格納する入力音声格納手段を備えたコンピュータに、音声信号を入力する処理、入力音声信号を入力音声記憶手段に格納する処理、入力音声格納手段に格納された入力音声信号を参照し、入力音声信号に含まれる環境音を含む該入力音声信号によって示される入力音声の特徴を推定する処理、参照音声となる所定の音声信号を発生させる処理、および推定された入力音声の特徴を、参照音声として発生させた音声信号である参照音声信号に反映する処理を実行させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、所定の参照音声に対し、音声認識のための音声が入力された時点での雑音等の環境音や、該入力音声の音量、音声信号の途絶等の特徴を反映した変換音声を生成することができる。
【0012】
例えば、音声認識のための音声が入力された時点での環境音を重畳した雑音重畳音声を出力できる。また、環境音に留まらず、例えば音声認識のために入力された音声の特徴を反映した参照音声を出力できる。
【図面の簡単な説明】
【0013】
【図1】第1の実施形態の音声変換システムの構成例を示すブロック図である。
【図2】第1の実施形態の音声変換システムの動作の一例を示すフローチャートである。
【図3】第2の実施形態の音声自動応答システムの構成例を示すブロック図である。
【図4】第3の実施形態の自己診断機能付き音声認識システムの構成例を示すブロック図である。
【図5】第3の実施形態の自己診断機能付き音声認識システムの動作の一例を示すフローチャートである。
【図6】本発明の概要を示すブロック図である。
【図7】本発明による音声信号処理システムの他の構成例を示すブロック図である。
【発明を実施するための形態】
【0014】
実施形態1.
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の音声変換システムの構成例を示すブロック図である。図1に示す音声変換システムは、音声入力部1と、音声バッファ2と、音声認識部3と、参照音声発生部4と、音声特徴推定部5と、音声特徴反映部6とを備えている。
【0015】
音声入力部1は、音声を電気信号(音声信号)として当該システムに入力する。本実施形態では、音声入力部1は音声認識のための音声を入力する。また、音声入力部1によって入力された音声信号は、音声データとして音声バッファ2に格納される。音声入力部1は、例えば、マイクロフォンによって実現される。なお、音声を入力する手段は、マイクロフォンに限らず、例えば、通信ネットワークを介して音声データ(音声信号)を受信する音声データ受信手段等によっても実現可能である。
【0016】
音声バッファ2は、音声入力部1を介して入力される音声信号を、音声認識対象の音声を示す情報として格納する記憶装置である。
【0017】
音声認識部3は、音声バッファ2に格納された音声信号に対して、音声認識処理を実施する。
【0018】
参照音声発生部4は、環境音重畳の対象となる参照音声を発生させる。なお、発生させるとは、該当する音声信号が当該システムに入力された状態にすることをいい、そのためのあらゆる動作を含む。例えば、生成するだけなく、外部装置から取得することも含む。また、本実施形態において参照音声とは、音声変換のために参照される音声であって、変換元となる音声である。参照音声は、例えば、本実施形態の音声変換システムが雑音重畳音声出力機能部として音声自動応答システムに組み込まれる場合には、入力音声に対する音声認識処理結果に応じて選択または生成されるガイダンス音声であってもよい。
【0019】
参照音声発生部4は、例えば、音声合成技術を用いて参照音声を生成してもよい。また、例えば予め録音された音声を参照音声として用いることも可能である。また、ユーザ指示に応じてその都度、音声入力してもよい。なお、この場合、音声認識のために入力される音声と参照音声とは区別される。
【0020】
音声特徴推定部5は、入力された音声の特徴(環境音を含む)を推定する。本実施形態では、音声特徴推定部5は、環境音推定部51と、SN推定部52とを含む。
【0021】
環境音推定部51は、音声バッファ2に格納された音声信号を対象に、該音声信号によって示される音声に含まれる環境音の情報を推定する。環境音の情報とは、例えば、音声信号の始端や終端付近に主に含まれる非音声部分の信号であったり、周波数特性やパワー値、またはそれらの組み合わせである。また、環境音の情報を推定するとは、例えば、入力された音声信号を音声と非音声に区分し、非音声部分を抽出することを含む。非音声部分の抽出には、例えば、公知の音声区間検出(Voice Activity Detection)技術を用いることができる。
【0022】
SN推定部52は、音声バッファ2に格納された音声信号を対象に、該音声信号によって示される音声のSN比(音声信号と環境音の比率)を推定する。このとき、音声信号の音割れや、音飛び(部分的な信号の欠落)を検出してもよい。
【0023】
音声特徴反映部6は、音声特徴推定部5によって得られた音声の特徴を参照音声に反映する(参照音声を変換する)。すなわち、参照音声に対して、音声特徴推定部5によって得られた音声の特徴を反映した変換音声を生成する。本実施形態では、音声特徴反映部6は、環境音発生部61と、音量調整部62と、音声重畳部63とを含む。
【0024】
環境音発生部61は、音声特徴推定部5(より具体的には、環境音推定部51)によって推定された環境音の情報に基づき、環境音を発生させる(生成する)。
【0025】
音量調整部62は、音声特徴推定部5(より具体的には、SN推定部52)によって推定されたSN比に基づき、参照音声を適切な音声に調整する。より具体的には、音量調整部62は、環境音発生部61が発生させた環境音に対して、参照音声発生部4が発生させた参照音声が推定されたSN比になるように、参照音声の音量等を調整する。
【0026】
このとき、忠実に推定されたSN比になるように参照音声の音量を調整するだけでなく、環境音が強調されるよう参照音声の音量を小さめに調整することもできる。また、音割れや音飛びを再現した参照音声に調整することもできる。具体的には、音声バッファ2に格納されている音声信号から求まる音割れしている頻度・割合・分布や、音飛びの頻度・割合・分布を、参照音声においても再現するように調整(参照音声に音割れや音飛びを挿入)してもよい。
【0027】
音声重畳部63は、環境音発生部61により生成された環境音と、音調調整部62により調整された参照音声とを重畳し、入力音声の音響および特徴を反映した参照音声を生成する。ここでは、入力音声の音響および特徴と同等の特徴を有する参照音声を変換処理により生成する。
【0028】
なお、本実施形態において、音声特徴推定部5(より具体的には、環境音推定部51、SN推定部52)、音声特徴反映部6(より具体的には、環境音発生部61、音量調整部62、音声重畳部63)は、例えば、プログラムに従って動作するCPU等の情報処理装置によって実現される。なお、各部は、1つのユニットとして実現されていても、それぞれ別々のユニットとして実現されていてもよい。
【0029】
次に、本実施形態の動作を説明する。図2は、本実施形態の音声変換システムの動作の一例を示すフローチャートである。図2に示すように、まず、音声入力部1が、音声を入力する(ステップS101)。音声入力部1は、例えば、音声認識のためにユーザが発声した音声を音声信号にして入力する。そして、入力された音声を音声バッファ2に格納する(ステップS102)。
【0030】
次に、環境音推定部51は、音声バッファ2に格納された入力音声信号について、該音声を音声区間と非音声区間とに区分する(ステップS103)。そして、入力音声から非音声部分を抽出する(ステップS104)。例えば、環境音推定部51は、音声信号のうち非音声部分に該当する部分の信号を切り出す処理を行う。
【0031】
一方では、SN推定部52が、入力された音声信号の非音声部分と音声部分のパワーを求め、SN比を推定する(ステップS105)。なお、SN推定部は、ここで、音声信号の音割れや、音飛び(部分的な信号の欠落)を検出し、それらが発生している頻度や割合、分布を求めてもよい。
【0032】
本実施形態では、音声バッファ2に格納されるのは、一繋がりの音声信号(1つの音声信号)であることを想定している。例えば、3分の音声データに対して、音割れている部分が連続して一箇所、1分継続していた場合、音割れの頻度は1回、割合は1/3と算出すればよい。また、分布については、例えば、音声信号の先頭30秒と末尾30秒で音割れが起きているといった音声信号に対する現象の相対位置を求めればよい。
【0033】
なお、音声バッファ2には複数の音声信号を格納することも可能である。複数を格納可能とする設定の場合には、格納されている複数の音声信号を用いて音割れや音飛びの頻度・割合・分布等を求めてもよい。その場合、過去の所定の時間(複数の時間)の入力音声の雑音環境や音声特徴を総合し得られた雑音環境や音声特徴を利用して変換音声を生成することになる。
【0034】
次に、環境音発声部61は、非音声部分の切り出し処理が完了したことを受けて、抽出された非音声部分の信号を基に、入力音声における環境音を生成する(ステップS106)。環境音発生部61は、例えば、ステップS104で抽出された非音声部分の信号を繰り返し再生することによって、音声が入力された時点の環境音を発生させてもよい。
【0035】
次に、参照音声発生部4に参照音声を発生させ、音声調整部62が、ステップS105で求められたSN比に従い、参照音声の音量を調整する(ステップS107)。なお、参照音声の発生タイミングはこの限りでなく、任意のタイミングでよい。前もって発生させていてもよいし、ユーザの指示に応じて発生させてもよい。
【0036】
最後に、音声重畳部63は、音量調整された参照音声と、ステップS106で発生させた環境音とを重畳して、音声が入力された時点の特徴(環境音、SN比、音割れ、音飛びの頻度・割合・分布等)を反映した参照音声を生成し、出力する(ステップS108)。
【0037】
以上のように、本実施形態によれば、音声バッファ2に音声認識のために入力された音声の音声信号を格納し、その格納されている音声信号から、音声認識のための音声が入力された時点での環境音や、音声の特徴を推定して、その環境音や特徴を反映するよう所定の参照音声を変換するように構成されているため、音声認識のための音声が入力された時点での環境音や音声の特徴が反映された任意の発話内容を有する音声信号を出力できる。
【0038】
実施形態2.
次に、第2の実施形態について図面を参照して説明する。本実施形態では、本発明による音声変換方法を音声信号処理方法の一つとして音声自動応答システムに適用した態様について説明する。図3は、本実施形態の音声自動応答システムの構成例を示すブロック図である。図3に示す音声自動応答システム200は、音声変換装置10と、音声認識部3と、認識結果解釈部71と、応答音声生成部72と、変換後応答音声部73とを備える。
【0039】
音声変換装置10は、第1の実施形態の音声変換システムにおける音声入力部1と、音声バッファ2と、音声特徴推定部5と、音声特徴反映部6とを備えた装置である。なお、図3に示す例では、音声変換装置10を1つの装置として音声自動応答システムに組み込む例を示しているが、必ずしも1つの装置にして組み込む必要はなく、音声自動応答システムとして音声変換装置10が備える各処理部を備えていればよい。各処理部の機能は、第1の実施形態の音声変換システムと同様である。なお、本実施形態では、音声入力部1は、ユーザによって発話された音声を入力する。
【0040】
音声認識部3は、音声バッファ2に格納された音声信号に対して音声認識処理を実施する。すなわち、音声認識部3は、ユーザによる発話をテキスト化する。
【0041】
認識結果解釈部71は、音声認識部3から出力される認識結果テキストから、当該音声自動応答システムにおいて意味のある情報を抽出する。例えば、当該音声自動応答システムが航空券自動発券システムであれば、「大阪から東京まで」という発話(認識結果テキスト)から、「発地:大阪」「着地:東京」という情報を抽出する。
【0042】
応答音声生成部72は、第1の実施形態における参照音声発生部4の一実施例に相当する処理部である。応答音声生成部72は、認識結果解釈部71によって解釈された結果から適切な応答音声(音声変換装置10における参照音声)を生成する。例えば、前述の例であれば、「出発地は大阪でよろしいでしょうか」といった確認音声や、「大阪から東京までのチケットを発券します」といったチケット予約を行う音声を生成してもよい。なお、認識結果解釈部71が、解釈した結果から応答音声の内容を決定する処理までを行い、応答音声生成部72は、認識結果解釈部71から指示された内容を発話内容とする音声信号を生成する処理を行ってもよい。なお、応答音声の内容は問わない。
【0043】
ここで、一般的な音声自動応答システムであれば、生成した応答音声をそのままユーザに出力するが、本実施形態(すなわち、本発明による音声変換装置を組み込んだ音声自動応答システム)では、応答音声に、音声認識のための音声(ここでは、ユーザの発話音声)が入力された際の音声特徴を反映させる。
【0044】
このため、応答音声生成部72は、生成した応答音声を参照音声として音声変換装置10の音量調整部62に入力する。
【0045】
なお、音声変換装置10では、第1の実施形態と同様に、音声入力部1を介してユーザの発話音声が入力されると、音声バッファ2にその音声信号を格納し、格納された音声信号を参照して、音声特徴推定部5が入力された音声信号のSN比を推定するとともに、音声特徴反映部6が入力音声における環境音を生成している。
【0046】
このような状態において、音声変換装置10に参照音声(応答音声)が入力されると、音量調整部62が、推定されたSN比に従って参照音声の音量を調整し、音声重畳部63が、音量調整された参照音声と生成した環境音とを重畳して、ユーザの発話音声が入力された時点の特徴(環境音、SN比、音割れ、音飛びの頻度・割合・分布等)が反映された参照音声(変換後応答音声)を生成する。
【0047】
変換後応答音声部73は、音声変換部100(より具体的には音声重畳部63)から出力される変換後応答音声を、当該音声自動応答システムによるユーザへの応答として音声出力する。
【0048】
このように、システムからの応答音声にユーザが発話した際の環境音や音声の特徴を反映することにより、そのユーザがどこにいるかいつ話したか等をシステム側で意識することなく、ユーザが応答音声を聞きその聞き取り易さ・聞き取り難さから、システムに向かって発話した際の音響環境が音声認識に適していたかどうかを自身で直感により判断することができる。
【0049】
なお、一般的にコンピュータにより自動で音声認識を行う音声認識装置の聞き取り能力に比べて、人間の聞き取り能力が高いことを考慮して、環境音や音割れ・音飛びといった入力音声の特徴を、実際の入力音声から推定したものよりも強調して参照音声(システム応答)に反映させてもよい。このことにより、ユーザによる自身の発話時の音響環境の適否判定をより適切なものとすることができる。
【0050】
なお、強調処理としては、例えば、発生させる環境音を大きく(あるいは参照音声を小さく)してSN比を実際よりも悪くしたり、音割れや音飛びの程度(頻度、割合等)を実際よりも多くして参照音声を変換してもよい。
【0051】
実施形態3.
次に、第3の実施形態について図面を参照して説明する。本実施形態では、本発明による音声変換方法を音声信号処理方法の一つとして自己診断機能付き音声認識システムに適用した態様について説明する。図4は、本実施形態の自己診断機能付き音声認識システムの構成例を示すブロック図である。図4に示す自己診断機能付き音声認識システム800は、音声変換装置10と、音声認識部3と、発話内容既知音声発生部81と、音響環境判定部82とを備える。
【0052】
音声変換装置10は、第2の実施形態と同様、音声変換装置10は、第1の実施形態の音声変換システムにおける音声入力部1と、音声バッファ2と、音声特徴推定部5と、音声特徴反映部6とを備えた装置である。なお、図4に示す例では、音声変換装置10を1つの装置として自己診断機能付き音声認識システムに組み込む例を示しているが、必ずしも1つの装置にして組み込む必要はなく、自己診断機能付き音声認識システムとして音声変換装置10が備える各処理部を備えていればよい。各処理部の機能は第1の実施形態の音声変換システムと同様である。なお、本実施形態では、音声入力部1は、ユーザによって発話された音声を入力する。
【0053】
音声認識部3は、本実施形態では、音声変換装置10(より具体的には音声重畳部63)から出力される音声信号に対して音声認識処理を実施する。すなわち、音声認識部3は、ユーザからの入力音声の音響環境や音声の特徴が反映された変換後参照音声をテキスト化する。
【0054】
発話内容既知音声発生部81は、第1の実施形態における参照音声発生部4の一実施例に相当する処理部である。発話内容既知音声発生部81は、参照音声として、発話内容が当該システムにおいて既知の音声(以下、発話内容既知音声という。)を発生させる。発話内容既知音声は、予め決められた内容を雑音のない環境で発話した音声信号であってもよい。なお、発話内容は問わない。複数の発話内容から指示に従って選択してもよいし、ユーザに発話内容を入力させてもよい。その際、発話内容の他に音声信号化する際に用いるパラメータや音声モデル等の情報も併せて入力させてもよい。
【0055】
音響環境判定部82は、音声認識部3による変換後参照音声に対する認識結果と、発話内容既知音声発生部81が生成した参照音声の発話内容とを比較して、変換後の参照音声に対する認識率を求める。そして、求めた認識率に基づいて入力音声の音響環境が音声認識に適しているか否かを判定する。音響環境判定部82は、例えば、求めた認識率が所定の閾値よりも低い場合には、入力された音声の音響環境、すなわちユーザが音声を入力したその時点(場所および時間)における音響環境が音声認識に適していないと判定してもよい。そして、その旨を示す情報をユーザに出力する。
【0056】
次に、本実施形態の動作について説明する。図5は、本実施形態の自己診断機能付き音声認識システムの動作の一例を示すフローチャートである。図5に示すように、音声入力部1が音声を入力すると(ステップS201)、入力された音声を音声バッファ2に格納する(ステップS202)。
【0057】
次いで、環境音推定部51が、音声バッファ2に格納された入力音声信号を対象に、該音声が入力された時点の環境音や該音声の特徴を抽出する(ステップS202)。ここでは、例えば環境音推定部51が入力音声の非音声区間を環境音の情報として抽出することによって、入力音声の音響環境を推定する。また、例えばSN推定部52が、入力音声のSN比を推定したり、入力音声の音割れや音飛びの頻度・割合・分布等を求めることによって、入力音声の特徴を推定する。
【0058】
一方で、発話内容既知音声発生部81は、参照音声として、発話内容が当該システムにおいて既知の音声を発生させる(ステップS203)。
【0059】
次に、音声特徴反映部6は、入力音声の環境音や特徴の情報が推定されるとともに参照音声が発生されたことを受けて、入力音声の環境音や特徴を参照音声に反映させる(ステップS205)。ここでは、まず、環境音発生部61が、推定された環境音の情報に基づき環境音を発生させる。また、例えば音量調整部62が、推定されたSN比に基づき参照音声の音量等を調整する。また、例えば音声調整部62は、推定された入力音声の音割れや音飛びの頻度・割合・分布に基づき参照音声に音飛びや音割れを挿入してもよい。次いで、音声重畳部63が、環境音発生部61により生成された環境音と、音調調整部62により調整された参照音声とを重畳し、入力音声の音響および特徴が反映されるよう変換された参照音声(変換後参照音声)を生成する。
【0060】
変換後参照音声が生成されると、次に、音声認識部3が、生成された変換後参照音声に対して音声認識処理を実施する(ステップS206)。
【0061】
最後に、音響環境判定部82が、変換後参照音声に対する認識結果と、発話内容既知音声である参照音声の発話内容とを比較した結果に基づき、入力音声の音響環境が音声認識に適しているか否かを判定する(ステップS207)。
【0062】
以上のように、本実施形態によれば、発話内容が予め決まっていない入力音声の音響環境の適否判定を簡単に行うことができる。
【0063】
なお、本実施形態の自己診断機能付き音声認識システムでは、例えば、入力音声の音響環境の適否の判定結果を直接ユーザには提示せずに、入力音声に対する音声認識結果の良否判定において利用することも可能である。また、例えば、入力音声の音響環境の適否判定結果に基づき、ユーザに場所や時間等を変えて再入力を促すようなメッセージを出力してもよい。
【0064】
次に、本発明の概要について説明する。図6は、本発明の概要を示すブロック図である。図6に示すように、本発明による音声信号処理システムは、音声入力手段101と、入力音声記憶手段102と、特徴推定手段103と、参照音声発生手段104と、特徴反映手段105とを備えている。
【0065】
音声入力手段101(例えば、音声入力部1)は、音声信号を入力する。入力音声記憶手段102(例えば、音声バッファ2)は、音声入力手段101を介して入力された音声信号である入力音声信号を格納する。
【0066】
特徴推定手段103(例えば、音声特徴推定部5)は、入力音声格納手段102に格納された入力音声信号を参照し、入力音声信号に含まれる環境音を含む該入力音声信号によって示される入力音声の特徴を推定する。
【0067】
参照音声発生手段104(参照音声発生部4)は、参照音声となる所定の音声信号を発生させる。参照音声発生手段104は、例えば、ガイダンス音声を信号化したガイダンス音声信号を生成してもよい。
【0068】
特徴反映手段105(例えば、音声特徴反映部6)は、特徴推定手段103によって推定された入力音声の特徴を、参照音声発生手段104が発生させた音声信号である参照音声信号に反映する。
【0069】
特徴反映手段105は、例えば、特徴推定手段103によって推定された入力音声信号の特徴を示す情報と、参照音声発生手段103が発生させた参照音声信号とに基づいて、参照音声信号を変換することによって、入力音声の特徴と同等の特徴を有する参照音声信号(変換参照音声信号)を生成してもよい。
【0070】
また、特徴推定手段103は、入力音声の特徴として、音声に重畳する環境音、音声信号の過大、過小もしくは音声信号の欠落、またはそれらの組み合わせを推定してもよい。
【0071】
例えば、特徴推定手段103は、入力音声信号から非音声区間の音声信号を切り出して入力音声信号の環境音を推定する環境音推定手段と、入力音声信号の音声信号と環境音の比率を推定するSN推定手段とを含んでいてもよい。また、例えば、特徴反映手段105は、環境音推定手段によって推定された環境音の情報を用いて、参照音声信号に重畳させる環境音を発生させる環境音発生手段と、SN推定手段によって推定された入力音声信号の音声信号と環境音の比率を基に、参照音声信号における音声の音量を調整する音量調整手段と、音量調整手段によって音量が調整された参照音声信号と、環境音発生手段によって発生された環境音とを重畳させる音声重畳手段とを含んでいてもよい。
【0072】
また、特徴推定手段103は、入力音声信号の音割れまたは音飛びの頻度、割合もしくは分布を推定する音割音飛推定手段をさらに含んでいてもよい。また、特徴反映手段105は、音割音飛推定手段によって推定された入力音声信号の音割れまたは音飛びの頻度、割合もしくは分布を基に、参照音声信号に音割れまたは音飛びを挿入する音割音飛挿入手段をさらに含んでいてもよい。
【0073】
また、特徴反映手段105は、推定された入力音声の特徴を強調して参照音声信号に反映してもよい。
【0074】
また、本発明による音声信号処理システムは、入力音声としてユーザが発話した音声の音声信号を入力し、参照音声として入力音声に対する応答音声を発生させた結果得られた入力音声の特徴が反映された参照音声信号である変換参照音声信号を、ユーザへの応答音声として音声出力する応答音声出力手段を備えていてもよい。このような構成を備えることによって、例えば自動応答システムにおいて、ユーザがどこにいるかいつ話したか等をシステム側で意識することなく、そのユーザ自身でシステムに向かって発話した際の音響環境が音声認識に適していたかどうかを直感により判断することができる。
【0075】
また、図7は、本発明による音声信号処理システムの他の構成例を示すブロック図である。図7に示すように、本発明による音声信号処理システムは、さらに音声認識手段106と、音響環境判定手段107とを備えていてもよい。
【0076】
音声認識手段106(例えば、音声認識部3)は、参照音声として発話内容が既知の音声を発生させた結果得られた入力音声の特徴が反映された参照音声信号である変換参照音声信号に対して、音声認識処理を実施する。
【0077】
音響環境判定手段107(例えば、音響環境判定部82)は、音声認識手段106による音声認識結果と、参照音声発生手段104が発生させた参照音声の発話内容とを比較し、入力音声の音響環境が音声認識に適しているか否かを判定する。
【0078】
このような構成を備えることによって、例えば自己診断機能付き音声認識システムにおいて、発話内容が予め決まっていない入力音声の音響環境の適否判定を簡単に行うことができる。
【0079】
また、上記実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0080】
(付記1)コンピュータに、ユーザが発話した音声の音声信号を入力する処理、参照音声として、入力音声に対する応答音声を発生させる処理、および入力音声の特徴が反映された参照音声信号である変換参照音声信号を、ユーザへの応答音声として音声出力する処理を実行させるための音声信号処理プログラム。
【産業上の利用可能性】
【0081】
本発明は、例えば、音声自動応答装置といった用途に適用できる。また、自己診断機能付き音声認識装置といった用途にも適用可能である。
【符号の説明】
【0082】
10 音声変換装置
1 音声入力部
2 音声バッファ
3 音声認識部
4 参照音声発生部
5 音声特徴推定部
51 環境音推定部
52 SN推定部
6 音声特徴反映部
61 環境音発生部
62 音量調整部
63 音声重畳部
700 音声自動応答システム
71 認識結果解釈部
72 応答音声生成部
73 変換後応答音声部
800 自己診断機能付き音声認識システム
81 発話内容既知音声発生部
82 音響環境判定部
101 音声入力手段
102 入力音声記憶手段
103 特徴推定手段
104 参照音声発生手段
105 特徴反映手段
106 音声認識手段
107 音響環境判定手段

【特許請求の範囲】
【請求項1】
音声信号を入力する音声入力手段と、
前記音声入力手段を介して入力された音声信号である入力音声信号を格納する入力音声格納手段と、
前記入力音声格納手段に格納された入力音声信号を参照し、入力音声信号に含まれる環境音を含む該入力音声信号によって示される入力音声の特徴を推定する特徴推定手段と、
参照音声となる所定の音声信号を発生させる参照音声発生手段と、
前記特徴推定手段によって推定された入力音声の特徴を、前記参照音声発生手段が発生させた音声信号である参照音声信号に反映する特徴反映手段とを備えた
ことを特徴とする音声信号処理システム。
【請求項2】
特徴推定手段は、入力音声の特徴として、音声に重畳する環境音、音声信号の過大、過小もしくは音声信号の欠落、またはそれらの組み合わせを推定する
請求項1に記載の音声信号処理システム。
【請求項3】
特徴反映手段は、推定された入力音声の特徴を強調して参照音声信号に反映する
請求項1または請求項2の音声信号処理システム。
【請求項4】
入力音声としてユーザが発話した音声の音声信号を入力し、参照音声として入力音声に対する応答音声を発生させた結果得られた入力音声の特徴が反映された参照音声信号である変換参照音声信号を、ユーザへの応答音声として音声出力する応答音声出力手段を備えた
請求項1から請求項3のうちのいずれか1項に記載の音声信号処理システム。
【請求項5】
参照音声として発話内容が既知の音声を発生させた結果得られた入力音声の特徴が反映された参照音声信号である変換参照音声信号に対して、音声認識処理を実施する音声認識手段と、
前記音声認識手段による音声認識結果と、前記参照音声発生手段が発生させた参照音声の発話内容とを比較し、入力音声の音響環境が音声認識に適しているか否かを判定する音響環境判定手段とを備えた
請求項1から請求項3のうちのいずれか1項に記載の音声信号処理システム。
【請求項6】
音声信号を入力し、
入力された音声信号である入力音声信号を格納し、
格納された入力音声信号を参照し、入力音声信号に含まれる環境音を含む該入力音声信号によって示される入力音声の特徴を推定し、
参照音声となる所定の音声信号を発生させ、
前記推定された入力音声の特徴を、前記参照音声として発生させた音声信号である参照音声信号に反映する
ことを特徴とする音声信号処理方法。
【請求項7】
ユーザが発話した音声の音声信号を入力し、
参照音声として、入力音声に対する応答音声を発生させ、
入力音声の特徴が反映された参照音声信号である変換参照音声信号を、ユーザへの応答音声として音声出力する
請求項6に記載の音声信号処理方法。
【請求項8】
参照音声として、発話内容が既知の音声を発生させ、
入力音声の特徴が反映された参照音声信号である変換参照音声信号に対して、音声認識処理を実施し、
変換参照音声信号に対する音声認識結果と前記参照音声の発話内容とを比較し、入力音声の音響環境が音声認識に適しているか否かを判定する
請求項6に記載の音声信号処理方法。
【請求項9】
入力された音声信号である入力音声信号を格納する入力音声格納手段を備えたコンピュータに、
音声信号を入力する処理、
入力音声信号を前記入力音声記憶手段に格納する処理、
入力音声格納手段に格納された入力音声信号を参照し、入力音声信号に含まれる環境音を含む該入力音声信号によって示される入力音声の特徴を推定する処理、
参照音声となる所定の音声信号を発生させる処理、および
前記推定された入力音声の特徴を、前記参照音声として発生させた音声信号である参照音声信号に反映する処理
を実行させるための音声信号処理プログラム。
【請求項10】
コンピュータに、
参照音声として発話内容が既知の音声を発生させる処理、および
変換参照音声信号に対する音声認識結果と前記参照音声の発話内容とを比較し、入力音声の音響環境が音声認識に適しているか否かを判定する処理を実行させる
請求項9に記載の音声信号処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−163692(P2012−163692A)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願番号】特願2011−22915(P2011−22915)
【出願日】平成23年2月4日(2011.2.4)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】