説明

音声認識方法、音声認識装置、プログラム、記録媒体

【課題】電話機の送話信号と受話信号とを別々に音声認識する音声認識方法において、受話信号に回り込む側音成分に起因する音声認識率の低下を改善する。
【解決手段】電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号を別々に音声認識する音声認識装置において、送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定部と、受話信号の最大振幅を推定する受話信号最大振幅推定部と、推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する側音信号推定部と、推定した側音信号により受話信号から側音信号を抑圧する側音抑圧処理部と、側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識処理部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号とを別々に音声認識するための音声認識方法、音声認識装置、音声認識プログラム、このプログラムを記録した記録媒体に関する。
【背景技術】
【0002】
図3に示すように電話機19とハンドセット18の間の回線から、ハンドセット18のマイク部11に接続した送話信号に相当する回路と、ハンドセット18のスピーカ部12に接続した受話信号に相当する回線を分岐する分岐装置20(例えば特許文献1)があり、この分岐装置20の送話端子及び受話端子をそれぞれ分けて送話信号と受話信号とを別々に音声認識する音声認識装置110は容易に考えられる。この従来の分岐装置20により送話信号のみを取り出すことは可能である。
【特許文献1】特開昭60−223370号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
通常の電話機19では、電話機19の内部の側音回路15で送話信号が受話信号に回り込んだ側音が受話信号に重畳することになり、受話信号のみを取り出すのは難しい課題がある。また送話信号のレベルが比較的大きく、又は側音回路15の利得が高いために送話信号が受話信号に側音信号として回り込むレベルが高い場合、或いは、側音レベルが受話信号の最大振幅レベルに達してサチュレーションを起こしてしまうような場合には、サチュレーション区間でエコーキャンセラに用いられている適応フィルタの学習がうまく進まず、従って、側音信号のゲインが推定できない状態に陥る。この結果としてエコーキャンセラを用いて側音信号を抑圧処理することは難しく、送話音声と比較して受話音声の音声認識率が低い欠点がある。
【0004】
この発明の目的は送話音声と受話音声とを別々に音声認識する音声認識方法及び装置において、受話音声の音声認識率を向上することができる音声認識方法、及び装置を提供しようとするものである。
【課題を解決するための手段】
【0005】
この発明による音声認識装置は電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号を別々に音声認識するための音声認識装置において、送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定部と、受話信号の最大振幅を推定する受話信号最大振幅推定部と、推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する側音信号推定部と、推定した側音信号により受話信号から側音信号を抑圧する側音抑圧部と、側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識部とを含むことを特徴とする。
【発明の効果】
【0006】
この発明による音声認識装置によれば、常時側音ゲインレベルを推定するから、受話信号から側音と呼ばれる送話信号成分を抑圧することで、送話信号と受話信号を可能な限り分けて音声認識することが可能となる。つまり、受話信号に対して音声認識処理を施す場合でも、側音成分を含んだ信号よりも側音成分を除去した信号に対して音声認識処理を施した方が高い認識性能が得られる。また、サチュレーションを起こしてしまうような側音信号に対しても、側音レベルゲインの推定を行っているため、側音信号の抑圧処理が可能であり、これにより受話信号の音声認識率の低減を抑制することができる。
【発明を実施するための最良の形態】
【0007】
この発明による音声認識方法及び音声認識装置はハードウェアによって実現することも可能であるが、それよりも簡素に実現するにはコンピュータにこの発明による音声認識プログラムをインストールし、コンピュータにこの発明による音声認識方法を実行させる実施形態が最良の実施形態である。
コンピュータにこの発明による音声認識方法を実行させるには、コンピュータを以下の手順で動作させればよい。
送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定過程と、受話信号の最大振幅を推定する受話信号最大振幅推定過程と、推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する側音信号推定過程と、推定した側音信号により受話信号から側音信号を抑圧する側音抑圧過程と、側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識過程とを実行させ、音声認識装置として機能させる。
【実施例】
【0008】
図1にこの発明による音声認識装置の実施例を示す。図3と対応する部分には同一の符号を付して示す。この実施例でも分岐装置20から送話信号と受話信号とを別々に取り出し、音声認識装置110に入力する点は図3の場合と同じである。
この発明では音声認識装置110に分岐装置20から取り出した受話信号から受話信号最大振幅を推定する受話信号最大振幅推定部21と、側音ゲイン推定部22と、側音抑圧処理部23とが設けられる。
【0009】
受話信号最大振幅推定部21は受話信号をある程度の時間(例えば1秒程度以上)蓄積したデータ系列から最大振幅レベルを推定する。側音ゲイン推定部22では受話信号最大振幅推定部21で推定した最大振幅レベルを手掛かりに最大振幅レベルに達していない非最大振幅レベル区間を検出し、この非最大振幅レベル区間において送話信号と受話信号の関係から側音ゲインを推定する。
【0010】
側音抑圧処理部23では側音ゲイン推定部22で推定した側音ゲインと、最大振幅レベルとから送話信号に対する側音信号を推定し、受話信号に対して側音信号の抑圧処理を施すことで側音信号を含まない受話信号を得る。
側音信号と送話信号の間の時間の遅れは比較的少なく、時間遅れを無視してもある程度の抑圧性能が得られる。最大振幅レベルや、側音ゲインに関しては、フレーム毎に更新していくことで、信号の長さに応じて精度が向上していく。
【0011】
側音信号がサチュレーションを起こしてしまっている区間に対して、送られて来た受話信号が重畳している場合は、抑圧処理に大きな歪みが生じてしまう可能性もあるが、元々サチュレーション区間の信号は信頼性も低くクリーン信号に戻すのは困難であり、音声認識性能も期待できないが、この発明では送話信号に起因する側音によりサチュレーションとなる区間が分かるので、例えば、信号を0詰めしてしまうような音声認識に悪影響が起き難いような抑圧処理も可能である。
【0012】
図2にこの発明による音声認識プログラムの概要を説明するためのフローチャートを示す。
受話信号から受話信号最大振幅推定部21で最大振幅レベルを推定する(ステップS1、S2)。
受話信号最大振幅レベルより低い受話信号の区間の送話/受話信号から、側音ゲイン推定部22で、側音ゲイン(受話/送話信号比)を計算、推定し(ステップS3、S4)。
側音抑圧処理部23で、送話信号に推定された側音ゲインを乗算した後、受話信号最大振幅レベルを上限とした振幅となるように側音信号を推定し(ステップS5)。
【0013】
受話信号から側音信号を減算することで側音信号の抑圧を行う(ステップS6)。最後に抑圧処理後の信号に対して認識処理を行う(ステップS7)。
以上説明したように、この発明によれば受話信号から側音信号を抑圧することで送話信号と受話信号を可能な限り分けて音声認識することが可能となる。従って、受話信号に対して音声認識処理を施す場合でも、側音信号を含んだ信号よりも側音成分を除去した信号に対して音声認識処理を施した方が高い認識性能が得られる。またサチュレーションを起こしてしまうような側音信号に対しても側音レベルゲインの推定を行っているため、抑圧処理が可能となる。
【0014】
上述したこの発明による音声認識方法及びこの音声認識方法で定める手順に従って動作する音声認識装置はハードウェアによって構成することもできるが、最も簡素に実現するにはコンピュータにこの発明による音声認識プログラムをインストールし、コンピュータに音声認識装置として機能させる実施形態が最良である。
この発明による音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な磁気ディスク或いはCD−ROMのような記録媒体に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。インストールされたプログラムがコンピュータに備えられたCPUで解読されることにより、コンピュータは図2に示した手順に従って音声認識動作を実行する。
【産業上の利用可能性】
【0015】
この発明による音声認識方法及び音声認識装置は例えば自動案内装置或いは自動予約装置等の分野で活用される。
【図面の簡単な説明】
【0016】
【図1】この発明による音声認識装置の一実施例を説明するためのブロック図。
【図2】この発明による音声認識方法の手順を説明するためのフローチャート。
【図3】従来の技術を説明するためのブロック図。
【符号の説明】
【0017】
11 マイク部 19 電話機
12 スピーカ部 20 分岐装置
13 送信部 21 受話信号最大振幅推定部
14 受信部 22 側音ゲイン推定部
15 側音回路 23 側音抑圧処理部
16 送話信号録音部 110 音声認識装置
17 受話信号録音部 111 音声認識処理部
18 ハンドセット

【特許請求の範囲】
【請求項1】
電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号を別々に音声認識するための音声認識方法において、
送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定過程と、
受話信号の最大振幅を推定する受話信号最大振幅推定過程と、
推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する過程と、
推定した側音信号により受話信号から側音信号を抑圧する側音抑圧過程と、
側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識過程と、
を含むことを特徴とする音声認識方法。
【請求項2】
請求項1記載の音声認識方法において、上記側音ゲイン推定は受話信号と送話信号との比に基づいて算出することを特徴とする音声認識方法。
【請求項3】
請求項1又は2の何れかに記載の音声認識方法において、上記受話信号最大振幅推定は単位時間毎に切り出した受話信号中の最大振幅で推定することを特徴とする音声認識方法。
【請求項4】
電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号を別々に音声認識するための音声認識装置において、
送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定部と、
受話信号の最大振幅を推定する受話信号最大振幅推定部と、
推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する側音信号推定部と、
推定した側音信号により受話信号から側音信号を抑圧する側音抑圧処理部と、
側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識処理部と、
を備えることを特徴とする音声認識装置。
【請求項5】
請求項4記載の音声認識装置において、上記側音ゲイン推定部は受話信号と送話信号との比に基づいて算出する演算手段で構成されることを特徴とする音声認識装置。
【請求項6】
請求項4又は5の何れかに記載の音声認識装置において、上記受話信号最大振幅推定部は単位時間毎に切り出した受話信号を記録する記録手段を備え、この記録手段に記録した受話信号中の最大振幅で受話信号最大振幅を推定することを特徴とする音声認識装置。
【請求項7】
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項4乃至6記載の音声認識装置として機能させる音声認識プログラム。
【請求項8】
コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項7記載の音声認識プログラムを記録した記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2006−343644(P2006−343644A)
【公開日】平成18年12月21日(2006.12.21)
【国際特許分類】
【出願番号】特願2005−170836(P2005−170836)
【出願日】平成17年6月10日(2005.6.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】