説明

音声認識方法、音声認識装置、プログラム、記録媒体

【課題】クロストークが起きがちな電話による会話の音声認識率を向上する。
【解決手段】
受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧処理過程と、送信信号の音声区間を検出する送話音声区間検出過程と、側音抑圧処理過程で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出過程と、送話音声区間検出過程及び受話音声区間検出過程で検出した各音声区間情報を管理し、送話音声区間では同時に受話音声区間でなく、受話音声区間では同時に送話音声区間でないことを判定する音声区間情報管理過程と、この音声区間情報管理過程で管理されている音声区間情報に従って音声区間の音声信号を抽出する音声信号抽出過程と、抽出された音声信号を音声認識処理する音声認識処理過程とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号とを別々に音声認識するための音声認識方法、音声認識装置、音声認識プログラム、このプログラムを記録した記録媒体に関する。
【背景技術】
【0002】
図3に示すように電話機19とハンドセット18の間の回線から、ハンドセット18のマイク部11に接続した送話信号に相当する回路と、ハンドセット18のスピーカ部12に接続した受話信号に相当する回線を分岐する分岐装置20(例えば特許文献1)があり、この分岐装置20の送話端子及び受話端子をそれぞれ分けて送話信号と受話信号とを別々に音声認識する音声認識装置110は容易に考えられる。この従来の分岐装置20により送話信号のみを取り出すことは可能である。通常の電話機19で電話機19の内部の側音回路15で送話信号が受話信号に回り込んだ側音が受話信号に重畳することになり、受話信号のみを取り出すのは難しい課題があるが、これについてはエコーキャンセラや種々の音源分離技術を用いることで受話信号から側音信号をある程度除去することができる。
【特許文献1】特開昭60−223370号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、送話側の話者と受話側の話者が同時に発言するクロストーク状態の場合、それぞれの発話は通常の発話とは異なり乱れた発話となる。音声認識方法では、この乱れた発話が誤認識の要因となり、発話全体に対する誤認識性能の劣化を招く。特にクロストークの場面で、途中から割り込んだ方の発話を認識する場合は、文頭が誤認識となるため、前の単語や音素に依存した尤度を用いる一般的な音声認識処理方式では、クロストーク外の発話にまで悪影響を及ぼしてしまうおそれがある。また、クロストーク状態の場合、受話側の信号には、エコーキャンセラ等で除去しきれない側音の消し残り信号が重畳しているため、この消し残り信号のため、認識性能が劣化する可能性が高い。
【課題を解決するための手段】
【0004】
この発明による音声認識方法は送信部と受信部とを備えた電話機の送話信号と受話信号とを別々に音声認識処理するための音声認識方法において、受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧処理過程と、送話信号の音声区間を検出する送話音声区間検出過程と、側音抑圧処理過程で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出過程と、送話音声区間検出過程及び受話音声区間検出過程で検出した各音声区間情報を管理する音声区間情報管理過程と、この音声区間情報管理過程で管理されている音声区間情報に従って音声区間の音声信号を抽出する音声信号抽出過程と、抽出された音声信号を音声認識処理する音声認識処理過程とを含むことを特徴とする。
【0005】
更に、この発明による音声認識方法は音声区間情報管理過程で送話音声区間検出過程と、受話音声区間検出過程で検出した各音声区間に従って、送話音声区間が同時に受話音声区間でないことを判定し、この送話音声区間を送話信号抽出区間と定める送話信号抽出区間決定過程と、受話音声区間が同時に送話音声区間でないことを判定し、この受話音声区間を受話信号抽出区間と定める受話信号抽出区間決定過程とを含むことを特徴とするものである。
【発明の効果】
【0006】
従来では送話と受話が共に発話状態となるクロストーク状態の音声も認識処理に送り込まれてしまったのに対して、この発明によれば送話と受話毎に音声区間の検出を行い、その片方のみが発話状態の区間を検出して音声認識処理を行うことにより、通常の発話に近い信号の音声区間が得られ、発話全体として高い認識性能が得られる。特に、送話信号に対して認識処理を行う場合、側音信号と送話信号の間の時間遅れは比較的少なく、送話音声が無い区間は、受信信号にあまり側音信号が重畳していないため、この区間の送話信号の音声認識性能が高く、認識対象としての区間を絞ることで、送話信号全体の認識性能改善が得られる。また、信頼性の低いクロストーク区間の信号を認識処理しないことで、全体の認識処理における計算量の削減やメモリ使用量を低減できる利点が得られる。
【発明を実施するための最良の形態】
【0007】
この発明による音声認識方法及び音声認識装置はハードウェアによって実現し、実行することができる。しかしながら、それより簡素に実現するにはコンピュータにこの発明による音声認識方法で提案する手順に従って音声認識処理を実行させる形態が最良の実施形態である。
コンピュータによりこの発明による音声認識方法を実行させるには、コンピュータに受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧部と、送話信号の音声区間を検出する送話音声区間検出部と、側音抑圧部で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出部と、送話音声区間検出部及び受話音声区間検出部で検出した各音声区間情報を管理する音声区間情報管理部と、この音声区間情報管理部で管理されている音声区間情報に従って各音声区間の音声信号を抽出する音声信号抽出部と、この音声信号抽出部で抽出した音声信号を音声認識処理する音声認識処理部とを構築し、音声認識装置として機能させる。
【0008】
ここで特にこの発明では音声区間情報管理部に、送話音声区間検出部と、受話音声区間検出部で検出した各音声区間に従って、送話音声区間が同時に受話音声区間でないことを判定し、この送話音声区間を送話信号抽出区間と定める送話信号抽出区間決定部と、受話音声区間が同時に送話音声区間でないことを判定し、この受話音声区間を受話信号抽出区間と定める受話信号抽出決定部とを構築し、音声認識装置として機能させる。
【実施例1】
【0009】
図1にこの発明による音声認識方法に従って動作する音声認識装置の実施例を示す。図3と対応する部分に同一符号を付して示す。ここでも分岐装置20で分岐した送話信号と受話信号とをそれぞれ音声認識装置110へ入力する点は図3の説明と同じである。
この発明では音声認識装置110に例えばエコーキャンセラ等で構成した側音抑圧処理部21を設け、この側音抑圧処理部21で受話信号に回り込む側音信号を除去する。これと共に、送話信号は送話音声区間検出部22で音声区間と非音声区間とに仕分けるする。また受話音声区間検出部23では側音抑圧処理された受話信号の音声区間と非音声区間とに仕分けされる。これら送話音声区間検出部22と受話音声区間検出部23で検出された音声区間情報はそれぞれ音声区間情報管理部24へ入力され、音声区間情報管理部24で管理される。
【0010】
音声区間情報管理部24には送話音声区間と判定された区間に関して同時に受話音声区間でないことを判定し、この音声区間を送話音声抽出区間と決定する送話信号抽出区間決定部24Aと、受話音声区間と判定された区間に関して同時に送話音声区間でないことを判定し、その音声区間を受話音声抽出区間と決定する受話信号抽出区間決定部24Bとを備え、これら送話信号抽出区間決定部24Aと、受話信号抽出区間決定部24Bで決定した信号抽出区間に従って送話信号抽出部25と受話信号抽出部26で送話音声信号と受話音声信号とを抽出し、その抽出した送話音声信号と受話音声信号をそれぞれ送話信号録音部16と受話信号録音部17で録音し、その録音した送話信号と受話信号を用いて音声認識処理部111で音声認識処理を行なう。
【0011】
図2にこの発明による音声認識プログラムで実行される処理手順を示す。側音抑圧処理部21で送話信号の入力に対する受話信号への側音信号の回り込みを抑圧する(ステップS1)。
送話信号及び受話信号のそれぞれに対して音声区間検出部22と23で音声区間を検出する(ステップS2)。
この各音声区間情報から音声区間情報管理部24で送話音声のみ及び受話音声のみの区間を決定する(ステップS3〜S4)。
【0012】
音声区間抽出部25と26で送話音声信号のみ及び受話音声信号のみを抽出する(ステップS5〜S6)。
音声認識処理部111で音声認識を行なう(ステップS7)。
上述したように、この発明による音声認識方法によれば音声認識対象となる音声にはクロストーク部分を含まないから、クロストーク部分に起因する誤認識の発生率を低減することができる。この結果として全体として正解率が高い音声認識結果を得ることができる。また、音声認識する音声区間にクロストーク部分を含まないことから、全体の認識処理における計算量の低減やメモリの使用量を低減できる利点も得られる。
【0013】
上述したこの発明による音声認識方法及びこの音声認識方法で定める手順に従って動作する音声認識装置はハードウェアによって構成することもできるが、最も簡素に実現するにはコンピュータにこの発明による音声認識プログラムをインストールし、コンピュータに音声認識装置として機能させる実施形態が最良である。
この発明による音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な磁気ディスク或いはCD−ROMのような記録媒体に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。インストールされたプログラムがコンピュータに備えられたCPUで解読されることにより、コンピュータは図2に示した手順に従って音声認識動作を実行する。
【産業上の利用可能性】
【0014】
この発明による音声認識方法及び音声認識装置は電話を用いた音声自動案内装置或いは音声自動予約等の分野で活用される。
【図面の簡単な説明】
【0015】
【図1】この発明による音声認識装置の実施例を説明するためのブロック図。
【図2】この発明による音声認識方法の手順を説明するためのフローチャート。
【図3】従来の技術を説明するためのブロック図。
【符号の説明】
【0016】
11 マイク部 22 送話音声区間検出部
12 スピーカ部 23 受話音声区間検出部
13 送信部 24 音声区間情報管理部
14 受信部 24A 送話信号抽出区間決定部
15 側音回路 24B 受話信号抽出区間決定部
16 送話信号録音部 25 送話信号抽出部
17 受話信号録音部 26 受話信号抽出部
20 分岐装置 110 音声認識装置
21 側音抑圧処理部 111 音声認識処理部

【特許請求の範囲】
【請求項1】
送信部と受信部とを備えた電話機の送話信号と受話信号とを別々に音声認識処理するための音声認識方法において、
受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧処理過程と、
送話信号の音声区間を検出する送話音声区間検出過程と、
上記側音抑圧処理過程で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出過程と、
上記送話音声区間検出過程及び受話音声区間検出過程で検出した各音声区間情報を管理する音声区間情報管理過程と、
この音声区間情報管理過程で管理されている音声区間情報に従って音声区間の音声信号を抽出する音声信号抽出過程と、
抽出された音声信号を音声認識処理する音声認識処理過程と、
を含むことを特徴とする音声認識方法。
【請求項2】
請求項1記載の音声認識方法において、上記音声区間情報管理過程では上記送話音声区間検出過程と、受話音声区間検出過程で検出した各音声区間に従って、送話音声区間が同時に受話音声区間でないことを判定し、この送話音声区間を送話信号抽出区間と定める送話信号抽出区間決定過程と、受話音声区間が同時に送話音声区間でないことを判定し、この受話音声区間を受話信号抽出区間と定める受話信号抽出区間決定過程とを含むことを特徴とする音声認識方法。
【請求項3】
送信部と受信部とを備えた電話機の送話信号と受話信号とを別々に音声認識処理するための音声認識装置において、
受話信号に送話信号が回り込む側音を抑圧処理する側音抑圧部と、
送話信号の音声区間を検出する送話音声区間検出部と、
上記側音抑圧部で抑圧処理後の受話信号の音声区間を検出する受話音声区間検出部と、
上記送話音声区間検出部及び受話音声区間検出部で検出した各音声区間情報を管理する音声区間情報管理部と、
この音声区間情報管理部で管理されている音声区間情報に従って各音声区間の音声信号を抽出する音声信号抽出部と、
この音声信号抽出部で抽出した音声信号を音声認識処理する音声認識処理部と、
を備えたことを特徴とする音声認識装置。
【請求項4】
請求項3記載の音声認識装置において、上記音声区間情報管理部は、上記送話音声区間検出部と、上記受話音声区間検出部で検出した各音声区間に従って、送話音声区間が同時に受話音声区間でないことを判定し、この送話音声区間を送話信号抽出区間と定める送話信号抽出区間決定部と、受話音声区間が同時に送話音声区間でないことを判定し、この受話音声区間を受話信号抽出区間と定める受話信号抽出決定部とを備えることを特徴とする音声認識装置。
【請求項5】
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項3又は4の何れかに記載の音声認識装置として機能させる音声認識プログラム。
【請求項6】
コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項5記載の音声認識プログラムを記録した記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate