説明

音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム

【課題】 認識率の向上をはかり、暗号化の有無に影響されることなく、単語検索を行う際の利便性の向上をはかる。
【解決手段】 本発明の音声認識機能付きロギングシステムは、端末装置(IP電話機11、12)のそれぞれが持つ、特定話者を対象に音声認識を行う特定話者音声認識エンジン(特定話者音声認識部13、14)を用いて作成された認識テキスト、もしくは前記特定話者音声認識エンジンの学習データを所定のタイミングでそれぞれ相手先端末装置へ送信し、当該相手先端末装置において送受信される音声データの音声認識を行い、その結果を保存する(情報保存領域15、16)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、IP(Internet Protocol)接続環境を用いて交換される音声情報を保存し、活用する用途に用いて好適な、音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラムに関する
【背景技術】
【0002】
通信コスト低減を目的にVoIP(Voice over Internet Protocol)電話が普及し、コンピュータと電話を融合するCTI(Computer Telephony Information)システムへの応用が注目されるようになった。
【0003】
例えば、コールセンターにおいて、電話機のログを取得するのに、複数の電話機の音声をロギングサーバでまとめてログを取得する音声ロギングシステムがある。これら音声ロギングシステムには、電話機の音声を透過的に保存するものと、ロギングサーバで対象の電話機に音声を中継し、その中継の過程で保存するものがある。また、通話録音装置で録音された音声を認識し利用するシステムとして、認識された音声を機器の操作のために用いるボイスコマンド等がある(例えば、非特許文献1、2参照)。
【非特許文献1】http://advanced-media.co.jp/prooducts/1502.html<インターネット>2004年11月11日閲覧、「AmiVoiceseries製品情報」
【非特許文献2】http://www.logit.co.jp/products/nicelog/voip.html<インターネット>2004年11月11日閲覧、ログイット株式会社Products[製品紹介]「VoIP録音を可能にした最新のIPレコーディング」
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、上記したIP電話でやり取りされている音声データに、暗号化処理等で第三者による盗聴を防ぐ仕組みは無い。一方でプライバシー保護の観点から暗号化による仕組みが組み込まれる可能性は高い。また、米国では、訴訟などの証拠保全対策としてIP電話音声の保存を法的に義務付ける動きがある。
しかしながら、暗号化を考慮する際、音声を単一サーバで透過的に保存する場合にはサーバで保存されている音声は暗号化済みのデータであるため、利用が容易ではない。また、音声を中継することによるロギングシステムでは、暗号化データを復号化して保存できる可能性は有しているが、プライバシー保護を考慮する場合、復号化したデータを再度暗号化して中継する必要があり、中継処理に要する処理によって円滑なコミュニケーションを阻害する恐れがある。また、サーバに負荷が集中することから、ロギングミス等を引き起こす危険がある。
【0005】
一方、音声認識について、電話によるコミュニケーションでは対象が一意に決まらないため、不特定多数を対象とする音声認識エンジンを必要とする。不特定話者音声認識エンジンは、発話の個人差を吸収可能な特定話者音声認識エンジンに比べて認識率が低い。
また、電話は、機器の状態、発話者の状態によりやりとりされる音声の品質は変動する。感度が悪いマイクや、マイクと発声器官の距離および発声量などにより、認識結果に悪影響を与える。更に、音声と認識テキストを参照する場合、音声と認識テキストの相関がないため、単語検索を行った場合に単語の発生個所から音声を途中再生することが難しいといった不都合を有していた。
【0006】
本発明は上記事情に基づいてなされたものであり、暗号化の有無、音声入力および認識環境等の条件に影響されることなく、単語検索を行う際の利便性の向上をはかった、音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記した課題を解決するために本発明の音声認識機能付きロギングシステムは、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムであって、前記端末装置のそれぞれが持つ、特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いて作成された認識テキスト、もしくは前記特定話者音声認識エンジンの学習データを所定のタイミングでそれぞれ相手先端末装置へ送信し、当該相手先端末装置において送受信される音声データの音声認識を行い、その結果を保存する手段、を具備することを特徴とする。
【0008】
また、本発明は、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける前記端末装置であって、相手先端末装置から送信される音声データを受信して保存する手段と、相手先端末装置へ送信する音声データを保存し、当該音声データから自身を対象に音声認識を行う音声認識エンジンを用いて認識テキストを生成し、前記音声データと関連付けて保存する手段と、前記認識テキストを任意のタイミングで通話相手先へ送信する手段と、を具備することを特徴とする。
【0009】
また、本発明において、相手先端末装置との通話が終了したことを検知したときに前記認識テキストを送信することを特徴とする。
【0010】
また、本発明において、通話セッションとは別に、前記認識テキストを送信するセッションを確立し、当該セッション毎、前記保存した認識テキストを送信することを特徴とする。
【0011】
また、本発明は、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける前記端末装置であって、相手先端末装置へ送信する音声データを保存し、当該音声データから、当該音声データに対して音声認識を行う音声認識エンジンを用いて認識テキストを生成し、前記音声データと関連付けて保存する手段と、相手先端末装置から送信される音声データを受信して保存する手段と、相手先端末装置から任意のタイミングで送信される前記相手先端末装置の音声認識エンジンの学習データを受信し、当該学習データを用いて前記保存した受信音声データから認識テキストを生成する手段と、を具備することを特徴とする。
【0012】
また、本発明は、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおいて前記端末装置に用いられるプログラムであって、相手先から送信される音声データを受信して保存する処理と、相手先端末装置へ送信する音声データを保存し、当該音声データから、当該音声データに対して音声認識を行う音声認識エンジンを用いて認識テキストを生成し、前記音声データと関連付けて保存する処理と、前記認識テキストを任意のタイミングで通話相手先へ送信する処理と、をコンピュータに実行させることを特徴とする。
【0013】
また、本発明は、ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおいて前記端末装置に用いられるプログラムであって、相手先端末装置へ送信する音声データを保存し、当該音声データから、当該音声データに対して音声認識を行う音声認識エンジンを用いて認識テキストを生成し、前記音声データと関連付けて保存する処理と、相手先端末装置から送信される音声データを受信して保存する処理と、相手先端末装置から任意のタイミングで送信される前記相手先端末装置の音声認識エンジンの学習データを受信し、当該学習データを用いて前記保存した受信音声データから認識テキストを生成する処理と、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0014】
本発明によれば、それぞれの端末装置において特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いた音声認識テキストの利用が可能になるため、認識率の向上、および処理速度の向上がはかれる。また、端末装置において送受信データおよび作成された認識テキストの保存が行なわれるため、やりとりされる音声データの暗号化に影響されず、特定の機器に負荷が集中することにより発生するロギングミスがなくなる。
また、本発明によれば、通話終了を検知して、あるいは通話セッションとは別に設定されるセッション毎に認識テキストを送信し、相手先へ自身による特定話者認識結果を送信することで、リアルタイム性は損なわれるものの認識率の高い結果を得ることができる。さらに、本発明によれば、音声と認識テキストの相関を保存することで、検索の際、単語検索によりヒットした部分を、ヒットした単語のある文節から聴くことのできる部分再生を実現することができる。このことにより検索の際の利便性を提供することができる。
【発明を実施するための最良の形態】
【0015】
以下、本発明実施形態につき、図1〜図7を参照しながら説明する。図1は、本発明実施形態に係わる音声認識機能付きロギングシステムのシステム構成図である。ここでは、IP電話機11、12を用いてユーザ同士で通話する例が示されている。
本発明の端末装置として機能する、IP電話機11(12)は、それぞれ特定話者音声認識エンジンを搭載した特定話者音声認識部13(14)を備えており、ここで音声認識された結果は、送信データと関連付けて情報保存領域15、16に保存される。なお、いずれも受信音声データについては一時的に保存するのみであり、追って他方のIP電話機12(11)から送信される認識テキストと関連付けて保存される。
【0016】
図2は、図1に示す音声認識機能付きロギングシステムの内部構成を機能展開して示したブロック図である。
図2中、図1に示すブロックと同一番号が付されたブロックは、図1に示すそれと同じ名称、機能を持つこととする。ここでは、IP電話機11(12)は、音声送信部111(122)と、音声受信部112(121)のみを持つ構成とする。
音声送信部111(122)により送信される音声データは、情報保存領域15の送信音声保存部151(161)へ一時保存される他に、特定話者音声認識部13(14)へ供給され、ここで、特定話者認識エンジンによる自身の発話による音声認識が行われる。ここでは学習データが豊富なため、音声認識率が高く、早く結果が得られる。特定話者音声認識部13(14)は、認識に必要な量が貯まるまでデジタル音声データを保持し、認識処理が可能になった時点で認識処理を行う。認識処理後のデジタル音声データおよび認識テキストは、通話全体のデジタル音声データの認識処理が終了後も継続して情報保存領域15の送信音声認識テキスト保存部152(162)へ保存される。
【0017】
一方、パケット化されたIP電話機11(12)からのデジタル音声データはIP電話機12(11)の音声受信部121(112)で受信され、受信音声保存部163(153)に一時保存される。このとき暗号化されていた場合は復号化処理が行なわれる。また、IP電話機12(11)では上記同様、自身で発話したデジタル音声データの音声認識(特定話者音声認識部14(13))の実行を同時に行い、結果を送信音声認識テキスト保存部162(152)へ保存している。
認識テキスト同期部18(17)では、送信音声認識テキスト保存部162(152)に保存された認識テキストを、先に音声データを送信したIP電話機11(12)が持つ情報保存領域15の受信音声認識テキスト保存部154へ送信するタイミングを監視している。ここでは、通話終了の検出を待ち、通話終了後に音声認識処置が完了した時点で送信するものとする。認識テキスト同期部18(17)は、VoIP(Voice over IP)通信の場合、あらかじめホスト名がわかっているため、上記した通話終了のタイミングを検知したことを契機に、IP電話機11(12)同士でやりとりされた通話内容に関し容易に同期を取ることが可能である。
【0018】
なお、ここでは、認識テキストを相手先のIP電話機11(12)に送信するタイミングを、通話終了を検知した場合としたが、VoIPの通話セッションとは別に、認識テキストを送信する、例えば、FTP(File Transfer Protocol)コネクションを確立し、当該セッション毎に送信しても良い。その他、無音区間を検出して認識テキストを送信する等、種々変更が考えられる。
また、ここでは特定話者音声認識部13(14)に搭載される特定話者認識エンジンは1個のみとしたが、これを複数備え、話者がスイッチにより切替え使用する工夫も考えられる。ここで、「特定話者」とは、所定期間学習の過程を経て個人の特徴が記憶された話者のことをいう。
【0019】
図3は、本発明実施形態において用いられる音声認識処理の概念図である。ここでは、データ一時保存領域51(図2における情報保存領域15、16における送信音声保存部151、161、受信音声保存部153、163に相当)に保存されているデジタル音声データから、文節区切り処理部52によって文節区切り済み音声データ53を生成する。
次に、文節区切り済み音声データ53を音声認識部54(図2における特定話者音声認識部13、14に相当)で音声認識処理を行い、認識テキスト55を生成する。そして、認識テキスト55および文節区切り済み音声データ53は、データ/認識テキスト保存領域56(図2における送信音声認識テキスト保存部152、162、受信音声認識テキスト保存部154、164に相当)に対にして保存する。この操作は、データ一時保存領域51のデジタル音声データがなくなるまで行う。
【0020】
図4、図5は、図3に示す文節区切り処理の処理手順を示すフローチャートである。
図4では、文節区切り処理に、IP電話における標準的なメディアストリーム伝送プロトコルであるRTP(Real-time Transport Protocol)の無音制御を利用する。RTPは、耐障害性に富み、リアルタイムにデータの到着を考慮していないIP網において、ストリーム伝送の制御を行うプロトコルである。具体的には、音声パケットを送出するたびに+1されるシーケンス番号で、伝送路上でのパケットロスを検知し、送出したデータの累計で表現されるタイムスタンプで再生タイミングを制御する。
無音制御とは、マイクなどの音声入力デバイスから一定期間音声入力が無い場合、帯域を節約するためにデータを送出しない制御である。無音制御が生じた場合、シーケンス番号は無音制御発生前のパケット+1になり、タイムスタンプは、無音区間にもデータを送出した場合と同じだけ加算される。従って、パケットロスが生じていない状態でタイムスタンプが大きく増加している場合になる。
【0021】
図4に示すフローチャートを参照しながら説明する。まず、ステップS61で、データ一時保存領域51に認識処理に充分なデジタル音声データが保存されているか判別する。ここで、充分な量が保存されていない場合、ステップS62において保存されているデータが通話終了に達しているか否かを判別する。通話終了に達していればステップS66において認識処理を行い、達していない場合はステップS63である一定時間待機後、ステップS61に制御を移す。
ステップS61において、保存されているデータが認識に充分な量が保存されていると判別された場合、ステップS64において、RTPタイムスタンプがある閾値以上は離れている部分、つまり、無音制御が生じた部分が存在するか否かを判別する。無音制御が生じていない場合、ステップS62において保存されているデータが通話終了に達しているものであるか否かを判別する。ここで、通話終了に達している場合はステップS66の認識処理に制御を移し、達していない場合は保存されているデータには続きがある可能性が高いため、ステップS63で一定時間待機した後ステップS61に制御を移す。
【0022】
ステップS64で無音制御を検知した場合、ステップS65において、保存データの最初から無音区間までのデータを1つの文節に区切られた音声データとみなし取得する。ここで取得したデータは保存している部分から取り除く。文節に区切られた音声データは、ステップS66において認識エンジン(音声認識処理部54)により認識処理され、認識結果を保存する領域に保存する。
認識処理後は、ステップS67において保存されているデータが残っているか否かを判別し、残っている場合はステップS63で一定時間待機後ステップS61に制御を移し、残っていない場合は全ての通話を認識処理したものとみなし終了する。
【0023】
次に、図5に示すフローチャートを参照しながら説明する。図5は、デジタル音声データの音声レベルを調べ、ある一定時間低い音声レベルの連続する部分を文節とみなす手法である。
まず、ステップS71で、データ一時保存領域51に認識処理に充分なデジタル音声データが保存されているか否かを判別する。ここで充分な量が保存されていない場合、ステップS72において保存されているデータが通話終了に達しているものであるか否かを判別する。通話終了に達していればステップS77において認識処理を行い、達していない場合はステップS73である一定時間待機後、ステップS71に制御を移す。
ステップS71において、保存されているデータが認識に充分な量が保存されていると判別された場合、ステップS74でノイズ除去フィルタによりノイズを除去し、ホワイトノイズを平滑化する。
【0024】
次に、ステップS75で一定時間音声レベルが低い区間が存在するか否かを判別する。音声レベルが低い区間が存在しない場合は、ステップS72でデータが通話終了に達しているか否かを判別し、達している場合はステップS77に制御を移し、達していない場合はステップS73において一定時間待機後ステップS71に制御を移す。
ここで、音声レベルが低い区間が存在する場合は、ステップS76において、保存データの最初から低い音声レベル区間までのデータを1つの文節に区切られた音声データとみなし取得する。ここで取得したデータは保存している部分から取り除く。文節に区切られた音声データは、ステップS77において認識エンジン(特定話者音声認識部13、14)により認識処理され、認識結果を保存する領域に保存する。認識処理後は、ステップS78において保存されているデータが残っているか否かを判別し、残っている場合はステップS73で一定時間待機後ステップS71に制御を移し、残っていない場合は全ての通話を認識処理したものとみなし終了する。
【0025】
図6は、検索処理を概念的に示す動作概念図である。ここでは、あいまい検索辞書を用いて音声認識の誤認識結果として考えられるものを検索語として用いる手法について説明する。
まず、ブラウザソフトウェアで作成された検索GUI(グラフィカルユーザインタフェース)81の単語入力欄に単語を入力し、検索ボタンを押下する。このことにより、入力された単語は検索システム82に渡される(S81)。
検索システム82は、あいまい検索辞書83から、入力単語の誤認識結果として考えられる、誤認識可能性単語リストを検索システム82に渡す(S82)。続いて検索システム82はリスト内の単語全てについて、データ/認識テキスト保存領域84内に保存されている音声認識テキストにマッチングするものがあるか否かを検索する(S83)。検索結果は、結果表示インタフェース85に、予め誤認識可能性単語リストに付けられたランクに従ってランク分けを行い表示する(S84)。
【0026】
図7は、あいまい辞書の作成処理を概念的に示した動作概念図である。ここでは、音声認識が入力音声波形の特徴からパターンマッチングを行っていることに着目し、誤認識の結果はある程度の数に絞られることを利用している。
まず、音声・単語入力部91において、単語入力欄に単語を、マイクなどの音声入力デバイスで単語に対応した音声を入力する。次に、入力された単語は、あいまい辞書作成部92で保持される。次に、音声は、音声認識処理部93において実際に音声認識処理を行い、認識結果をあいまい辞書作成処理部92に渡し、最初に入力された単語と関連付ける。その際、入力欄により入力された単語と音声認識の結果テキストが等しい場合、結果テキストは破棄する。また、検索結果テキストが既に入力単語と関連付けられている場合は、結果テキストの出現数を増加させ、図6における検索処理の結果表示時のランク分けに利用する。
【0027】
次に、音声認識処理を終えた音声は、音声調整処理部94において、音声レベルの調整、ノイズ付与、テンポ調整等のエフェクト処理を実行し、再度音声認識処理部93において音声認識処理を行う。以上の操作を行うことであいまい検索辞書の語認識結果リストを増加させる。
【0028】
以上説明のように本発明によれば、それぞれの端末装置において特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いた音声認識が可能になるため、認識率の向上、および処理速度の向上がはかれる。また、端末装置において送受信データおよび作成された認識テキストの保存が行なわれるため、やりとりされる音声データの暗号化に影響されず、特定の機器に負荷が集中することにより発生するロギングミスがなくなる。
また、本発明によれば、通話終了を検知して、あるいは通話セッションとは別に設定されるセッション毎に認識テキストを送信することで、相手先へ自身による特定話者認識結果を送信することで、リアルタイム性は損なわれるものの認識率の高い結果を得ることができる。
【0029】
また、本発明は、音声を文節に区切ってから音声認識処理を行うものであり、このことにより認識率の向上がはかれる。さらに、音声と認識テキストの相関を保存することで、検索の際、単語検索によりヒットした部分を、ヒットした単語のある文節から聴くことのできる部分再生を実現することができる。また、あいまい検索辞書を用いた検索を行うことで、音声認識結果が正確なものでなくとも検索処理における検索漏れの発生率を低下させる効果も得られる。更に、あいまい検索辞書作成時に実際の音声認識エンジンを用いて作成したものを利用することで、実際の誤認識パターンに即したものを作成し、用いることでより検索漏れの少ない検索処理を実現することができる。
【図面の簡単な説明】
【0030】
【図1】本発明実施形態に係る音声認識機能付きロギングシステムのシステム構成を示す図である。
【図2】本発明実施形態に係る音声認識機能付きロギングシステムの内部構成を機能展開して示したブロック図である。
【図3】本発明実施形態に係る音声の文節区切り処理、音声認識処理の動作概念図である。
【図4】図3に示す文節区切り処理の処理手順の一例を示すフローチャートである。
【図5】図3に示す文節区切り処理の処理手順の他の例を示すフローチャートである。
【図6】あいまい検索を用いた検索システムの動作を概念的に示す動作概念図である。
【図7】あいまい検索に用いる辞書を作成する際の動作を概念的に示す動作概念図である。
【符号の説明】
【0031】
11、12…IP電話機、13、14…特定話者音声認識部、15、16…情報保存領域、17、18…認識テキスト同期部、


【特許請求の範囲】
【請求項1】
ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムであって、
前記端末装置のそれぞれが持つ、特定話者を対象に音声認識を行う特定話者音声認識エンジンを用いて作成された認識テキスト、もしくは前記特定話者音声認識エンジンの学習データを所定のタイミングでそれぞれ相手先端末装置へ送信し、当該相手先端末装置において送受信される音声データの音声認識を行い、その結果を保存する手段、
を具備することを特徴とする音声認識機能付きロギングシステム。
【請求項2】
ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける前記端末装置であって、
相手先端末装置から送信される音声データを受信して保存する手段と、
相手先端末装置へ送信する音声データを保存し、当該音声データから自身を対象に音声認識を行う音声認識エンジンを用いて認識テキストを生成し、前記音声データと関連付けて保存する手段と、
前記認識テキストを任意のタイミングで通話相手先端末装置へ送信する手段と、
を具備することを特徴とする端末装置。
【請求項3】
相手先端末装置との通話が終了したことを検知したときに前記認識テキストを送信することを特徴とする請求項2に記載の端末装置。
【請求項4】
通話セッションとは別に、前記認識テキストを送信するセッションを確立し、当該セッション毎、前記保存した認識テキストを送信することを特徴とする請求項2に記載の端末装置。
【請求項5】
ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおける前記端末装置であって、
相手先端末装置へ送信する音声データを保存し、当該音声データから、当該音声データに対して音声認識を行う音声認識エンジンを用いて認識テキストを生成し、前記音声データと関連付けて保存する手段と、
相手先端末装置から送信される音声データを受信して保存する手段と、
相手先端末装置から任意のタイミングで送信される前記相手先端末装置の音声認識エンジンの学習データを受信し、当該学習データを用いて前記保存した受信音声データから認識テキストを生成する手段と、
を具備することを特徴とする端末装置。
【請求項6】
ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおいて前記端末装置に用いられるプログラムであって、
相手先端末装置から送信される音声データを受信して保存する処理と、
相手先端末装置へ送信する音声データを保存し、当該音声データから、当該音声データに対して音声認識を行う音声認識エンジンを用いて認識テキストを生成し、前記音声データと関連付けて保存する処理と、
前記認識テキストを任意のタイミングで通話相手先端末装置へ送信する処理と、
をコンピュータに実行させるプログラム。
【請求項7】
ネットワークに接続された端末装置間の通話音声をロギングする音声認識機能付きロギングシステムにおいて前記端末装置に用いられるプログラムであって、
相手先端末装置へ送信する音声データを保存し、当該音声データから、当該音声データに対して音声認識を行う音声認識エンジンを用いて認識テキストを生成し、前記音声データと関連付けて保存する処理と、
相手先端末装置から送信される音声データを受信して保存する処理と、
相手先端末装置から任意のタイミングで送信される前記相手先端末装置の音声認識エンジンの学習データを受信し、当該学習データを用いて前記保存した受信音声データから認識テキストを生成する処理と、
をコンピュータに実行させるプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2006−154568(P2006−154568A)
【公開日】平成18年6月15日(2006.6.15)
【国際特許分類】
【出願番号】特願2004−347770(P2004−347770)
【出願日】平成16年11月30日(2004.11.30)
【出願人】(504132881)国立大学法人東京農工大学 (595)
【出願人】(000110217)トッパン・フォームズ株式会社 (989)
【Fターム(参考)】