説明

音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム

【課題】安定した品質の音声認識サービスを提供する。
【解決手段】音声データ中継装置110は、車載端末102と音声認識サーバ104との間を中継するにあたって、音声認識サーバ104の音声認識性能の変化を調べるために、評価用音声データを雑音抑圧モジュール118において雑音抑圧処理した後、音声認識サーバ104に送信し、認識結果を受信する。そして、音声データ中継装置110は、音声認識サーバ104の認識結果に基づいて、雑音抑圧処理に用いる雑音抑圧用パラメータや音声認識サーバ104から得られた複数の認識結果の統合処理に用いる結果統合用パラメータの値を最適な値に設定する。これにより、音声認識サーバ104の音声認識性能が変化する場合においても、適切なパラメータを設定することができる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識機能の変化を検出し、その変化に適合するように認識させる音声信号を加工処理する技術に関する。
【背景技術】
【0002】
従来より、車載情報機器や携帯電話機等の端末装置において、その操作をユーザの発話音声によって行うために、音声認識機能を組み込んだ機器が開発されてきている。近年では、データ通信技術の発展により、端末装置に入力した発話音声をネットワークを介して音声データとして音声認識サーバに送信し、音声認識サーバの潤沢な計算資源を用いて、より高精度の音声認識を行う方式が普及しつつある。音声認識は、ユーザの不明瞭な発声や背景雑音等の影響により、常に誤認識のリスクをともなう。誤認識に気付かずに機器の操作を続けることは、ユーザの利便性を大きく損なうことから、例えば、下記特許文献1のように、発話音声に含まれるノイズ量およびそのノイズの発生要因の情報に基づいて、音声認識可能と判断した発話音声のみを音声認識対象とする技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−91611号公報(例えば、段落0012参照)
【発明の概要】
【発明が解決しようとする課題】
【0004】
前記したように、近年では音声認識サーバが汎用のサービスとして運営される例が増えており、ユーザが扱う端末装置向けのサービスを提供する主体と、音声認識サーバを運営する主体とが異なる場合が多くなっている。そのため、いつの間にか、音声認識サーバの音声認識機能が変更されていることに気付かない場合が起きる。また、サービスの提供主体と運営主体とが同一である場合においても、音声認識サーバの内部状態(例えば、処理負荷の大きさ)が時々刻々と変化しているため、音声認識性能の変化を完全に把握し続けることが困難な場合もある。そのような場合において、ユーザに対する音声認識機能のサービスを提供し続けたとき、例えば、音声認識サーバの音声認識性能が何らかの原因で低下したとしても、その音声認識性能の低下を検知することができず、結果としてユーザに低品質の音声認識サービスを提供することになってしまう虞がある。
【0005】
また、より良い音声認識性能を得るために、端末装置から音声認識サーバに送信する音声データに対して何らかの加工処理を行っている場合、音声認識サーバの音声認識性能が変化することによって加工処理の効果が低減してしまったり、加工処理を行わない場合よりも音声認識性能を低下させてしまったりする虞もある。
そこで、本発明は、安定した品質の音声認識サービスを提供することを課題とする。
【課題を解決するための手段】
【0006】
前記した課題を解決するため、本発明に係る音声データ中継装置は、端末装置と音声認識サーバとの間を中継するにあたって、音声認識サーバに対して、音声認識性能の評価を行うために評価用音声データを送信し、音声認識サーバから認識結果を受信する。そして、音声データ中継装置は、受信した認識結果に基づいて、音声認識サーバの音声認識性能の変化を判定し、変化があると判定した場合には、端末装置から受信した音声データに対する加工処理に用いるパラメータ値を、音声認識性能を向上させる値に変更する。
【発明の効果】
【0007】
本発明によれば、安定した品質の音声認識サービスを提供することができる。
【図面の簡単な説明】
【0008】
【図1】本実施の形態にかかる音声データ中継装置の構成を示すブロック図である。
【図2】発話内容既知雑音環境音声データベースの一例を示す図表である。
【図3】雑音抑圧用パラメータ記憶部に記憶されたデータの一例を示す図表である。
【図4】認識結果履歴データベースの一例を示す図表である。
【図5】結果統合用パラメータ記憶部に記憶されたデータの一例を示す図表である。
【図6】車載端末の構成を示すブロック図である。
【図7】音声データ中継装置による音声データ中継処理を説明するための説明図である。
【図8】音声認識サーバの評価によって雑音抑圧用パラメータを変更する処理の概要を示す説明図である。
【図9】音声認識サーバの評価によって結果統合用パラメータを変更する処理の概要を示す説明図である。
【図10】1または複数の音声データを1台の音声認識サーバで処理するときの処理フロー例を説明する説明図である。
【図11】1の音声データを複数の音声認識サーバで処理するときの処理フロー例を説明する説明図である。
【図12】複数の音声データを複数の音声認識サーバで処理するときの処理フロー例を説明する説明図である。
【図13】発話内容既知雑音環境音声データの生成方法を示す説明図である。
【図14】車載端末によるデータ追加処理の手順を示すフローチャートである。
【図15】音声認識サーバの評価処理の詳細な手順を示すフローチャートである。
【図16】雑音抑圧用パラメータの最適化処理の一例を示したフローチャートである。
【図17】変形例として音声データ中継装置の機能を備えた車載端末の構成例を示すブロック図である。
【発明を実施するための形態】
【0009】
以下に添付図面を参照して、本発明にかかる音声データ中継装置、端末装置および音声データ中継方法の好適な実施の形態を詳細に説明する。
【0010】
(音声データ中継装置110の概要)
本実施の形態に係る音声データ中継装置110における処理の概要について、図1を用いて説明する。音声データ中継装置110は、端末装置通信モジュール112、サーバ通信モジュール114、発話内容既知雑音環境音声データベース116、雑音抑圧モジュール118、雑音抑圧用パラメータ記憶部120、認識結果統合モジュール122、結果統合用パラメータ記憶部124、パラメータ変更モジュール126、履歴管理モジュール128、および認識結果履歴データベース130を備えている。
【0011】
音声データ中継装置110は、端末装置通信モジュール112を介して、端末装置の一例である車載端末102と接続され、車載端末102から送信された音声データや環境情報(例えば、車の走行環境等に関する情報)を受信する。音声データ中継装置110は、受信した音声データに対して、雑音抑圧モジュール118において当該音声データに含まれている雑音を抑圧し、サーバ通信モジュール114に送信する。なお、雑音抑圧モジュール118は、雑音抑圧用パラメータ記憶部120に記憶されている雑音抑圧用パラメータ(第1のパラメータ)を用いて、雑音抑圧処理(加工処理)を実行する。その雑音抑圧処理は、例えば、音声データの音声波形分析を行って分析パラメータを算出し、雑音を抑圧するように当該分析パラメータの値を調整し、その調整後の分析パラメータの値を用いて音声波形を再生するものである。そして、音声データ中継装置110は、サーバ通信モジュール114を介して、音声認識処理を行う音声認識サーバ104に雑音抑圧処理後の音声データを送信し、音声認識サーバ104から認識結果を受信する。次に、音声データ中継装置110は、結果統合用パラメータ記憶部124に記憶されている結果統合用パラメータを用いて、受信した認識結果を再評価(統合)して、その評価結果(統合結果)を最終的な認識結果として、端末装置通信モジュール112を介して車載端末102へ送信する。すなわち、音声データ中継装置110は、車載端末102と音声認識サーバ104との間を中継している。
【0012】
また、音声データ中継装置110は、音声認識サーバ104の音声認識性能の変化を調べるために、さらに、発話内容既知雑音環境音声データベース116に記憶している評価用音声データを、車載端末102からの音声データの入力が無いときに、所定の周期で雑音抑圧モジュール118に入力し、雑音抑圧処理後の評価用音声データを、サーバ通信モジュール114を介して音声認識サーバ104に送信する。そして、音声データ中継装置110は、音声認識サーバ104から雑音抑圧処理後の評価用音声データに対する認識結果を受信する。また、音声データ中継装置110は、履歴管理モジュール128において、音声認識サーバ104から受信した認識結果に基づいて、音声認識サーバ104の音声認識性能に変化が有るか無いかを判定する。具体的には、履歴管理モジュール128は、音声認識サーバ104において過去に処理された音声データと認識結果と関連付けて記憶している認識結果履歴データベース130を参照しつつ、認識結果の変化の有無について判定する。履歴管理モジュール128は、音声認識性能に有意な変化(例えば、音声認識性能の低下)が有ると判定した場合、パラメータ変更モジュール126を起動し、雑音抑圧用パラメータ記憶部120および結果統合用パラメータ記憶部124に記憶している各パラメータを最適化する(音声認識サーバ128の音声認識性能を戻すように変更する)。
【0013】
このように、音声データ中継装置110が車載端末102と音声認識サーバ104との間を中継することによって、車載端末102は、安定した品質の音声認識サービスの提供を受けることができる。なお、図1では、音声認識サーバ104は、1台しか記載していないが、複数台であっても構わない。
【0014】
(音声データ中継装置110の機能)
音声データ中継装置110の各構成部の機能について説明する。
音声データ中継装置110は、図示しないCPU(Central Processing Unit)およびメインメモリによって構成される処理部150とアプリケーションプログラム等を記憶する記憶部160とを備える。処理部150は、記憶部160に記憶されているアプリケーションプログラムをメインメモリに展開して、端末装置通信モジュール112、サーバ通信モジュール114、雑音抑圧モジュール118、認識結果統合モジュール122、パラメータ変更モジュール126、および履歴管理モジュール128を具現化する。また、処理部150は、各モジュールで表現していない種々の処理を実行するとともに、各モジュール間および各モジュールと記憶部160との間の情報の送受信制御を司る。記憶部160は、発話内容既知雑音環境音声データベース116、雑音抑圧用パラメータ記憶部120、結果統合用パラメータ記憶部124、および認識結果履歴データベース130を備えている。
【0015】
音声データ中継装置110の各モジュールの機能について説明する。
端末装置通信モジュール112は、車載端末102のユーザ(不図示)が車載端末102の音声認識機能を使用したとき、車載端末102から送信された音声データおよび環境情報を受信し、受信した音声データおよび環境情報を雑音抑圧モジュール118に出力する機能を有する。また、端末装置通信モジュール112は、認識結果統合モジュール122から受信した最終的な認識結果を車載端末102へ送信する機能を有する。
【0016】
雑音抑圧モジュール118は、車載端末102から受信した音声データおよび環境情報、または発話内容既知雑音環境音声データベース116から取得した評価用の音声データ(評価用音声データ)を入力とし、雑音抑圧用パラメータ記憶部120に記憶された雑音抑圧用パラメータ(第1のパラメータ)を用いて、入力された音声データの雑音抑圧処理を行う機能を有する。例えば、雑音抑圧処理の例として、非特許文献(I. Cohen and B. Berdugo,“Speech enhancement for non−stationary noise environments”,Signal Processing,2001年,Vol.81,p.2403−2418)に記載されている公知の方法を用いることができる。
【0017】
発話内容既知雑音環境音声データベース116は、予め発話内容が分かっている音声信号に既知の大きさの雑音信号を付加した音声データを記憶している。発話内容既知雑音環境音声データベース116に記憶された音声データは、評価用音声データとして、音声認識性能の変化を判定するために利用される。図2は、発話内容既知雑音環境音声データベース116の一例を示している。図2において、発話内容既知雑音環境音声データベース116は、車載端末IDフィールド201、音声ファイルフィールド202、発話内容フィールド203、環境情報フィールド204を備える。
【0018】
車載端末IDフィールド201には、音声ファイルフィールド202に記載された音声データの録音に用いた車載端末102の機種を識別するIDが記憶されている。音声ファイルフィールド202には、音声データのファイル名が記憶される。なお、音声ファイルフィールド202に音声データそのものを格納することも可能だが、データ量が大きくなるため、一般的には、音声データのファイル名のみが記憶される。発話内容フィールド203には、音声データに対応する発話内容がテキスト情報として記憶される。環境情報フィールド204には、音声ファイルフィールド202に記載された音声データが録音された際の環境情報が記憶される。具体的には、環境情報フィールド204には、車の走行条件等(例えば、車速、オーディオ状態、ワイパ状態等の音声認識性能に多少なりとも影響を及ぼす要因)が環境情報として記憶される。なお、発話内容既知雑音環境音声データベース116に記憶されている評価用音声データの詳しい作成方法については後記する(図13参照)。
【0019】
次に、図1に示す雑音抑圧用パラメータ記憶部120について、図3を用いて説明する(適宜、図1参照)。図3において、雑音抑圧用パラメータ記憶部120は、車載端末IDフィールド301、環境情報フィールド302、サーバIDフィールド303、雑音抑圧用パラメータフィールド304を備える。車載端末IDフィールド301は、図2の車載端末IDフィールド201と同様の情報を記憶している。また、環境情報フィールド302は、図2の環境情報フィールド204と同様の情報を記憶している。サーバIDフィールド303には、音声認識サーバ104を識別するサーバIDが記憶される。雑音抑圧用パラメータフィールド304には、雑音抑圧モジュール118で用いる雑音抑圧用パラメータの値が記憶される。
【0020】
図3では、雑音抑圧用パラメータ記憶部120には、サーバIDがX,Y,Z1,Z2という4つの音声認識サーバ104に対して使用すべき雑音抑圧用パラメータの値が、車載端末IDおよび環境情報ごとに記憶されている。ここで、Z1,Z2は、Zという音声認識サーバ104に対し、異なる雑音抑圧用パラメータの値(例えば、図3では、環境情報が停止中の場合に、0.5,0.2)を用いて雑音抑圧処理後の音声データを送信したことを便宜上別々の音声認識サーバ104として表している。同一の車載端末102に対して環境情報ごとに雑音抑圧用パラメータ値を記憶するのは、一般に、環境状態が変われば最適な雑音抑圧用パラメータの値も変化すると考えられるためである。
【0021】
図1の説明に戻り、サーバ通信モジュール114は、雑音抑圧モジュール118の出力を、音声認識サーバ104に送信する機能を有する。また、サーバ通信モジュール114は、音声認識サーバ104から認識結果を受信し、その認識結果を認識結果統合モジュール122や履歴管理モジュール128に送信する機能を有する。
【0022】
音声認識サーバ104は、音声認識処理を行うサーバであり、音声データ中継装置110から受信した音声データの内容を認識して、その認識結果を音声データ中継装置110に返信する。なお、本実施の形態では、音声認識サーバ104は、1台であっても複数台であっても構わない。
【0023】
認識結果統合モジュール122は、1種類の音声データに対して、1または異なる雑音抑圧用パラメータを用いて雑音抑圧処理されたときの音声データそれぞれに対応する認識結果を1台または複数の音声認識サーバ104から受信したとき、1種類の音声データに対する複数の認識結果が相互に一致しない場合、結果統合用パラメータ記憶部124に予め記憶されている結果統合用パラメータ(第2のパラメータ)を参照しながら、それらを再評価(統合)する。再評価(統合)の処理は、例えば、後記するように多数決を用いる。そして、認識結果統合モジュール122は、最も確からしいと思われる認識結果を最終的な認識結果として、端末装置通信モジュール112を介して車載端末102に送信する。なお、認識結果統合モジュール122は、1台の音声認識サーバ104から、1種類の音声データを1つの雑音抑圧用パラメータを用いて雑音抑圧処理されたときの音声データに対応する認識結果を受信した場合には、当該認識結果を最終的な認識結果として、端末装置通信モジュール112を介して車載端末102に送信する。
【0024】
履歴管理モジュール128は、サーバ通信モジュール114を経由して、音声認識サーバ104から送られてきた認識結果を受信し、音声認識サーバ104において過去に処理された音声データと認識結果と関連付けて記憶している認識結果履歴データベース130を参照しつつ、受信した認識結果と過去の認識結果とを比較することによって、音声認識性能の変化の有無について判定する機能を有する。例えば、履歴管理モジュール128は受信した認識結果と過去の認識結果とが相違するために音声認識性能に有意な変化(音声認識性能の低下)が有ると判定した場合、パラメータ変更モジュール126を起動して、雑音抑圧用パラメータ記憶部120および結果統合用パラメータ記憶部124に記憶している各パラメータを最適化する(音声認識サーバ104の音声認識性能を戻すように変更する)。
【0025】
認識結果履歴データベース130は、音声認識サーバ104によって音声認識された音声データ(評価用音声データおよび車載端末102から受信した音声データ)と、その音声データに対応する認識結果とを関連付けて記憶している。
【0026】
認識結果履歴データベース130は、図4に示すように、音声ファイルフィールド401、サーバIDフィールド402、雑音抑圧用パラメータフィールド403、認識スコアフィールド404、および認識結果フィールド405を備える。認識結果履歴データベース130の構成は、音声認識サーバ104がどのようなフォーマットで認識結果を返すかによって変わるが、図4では、音声認識サーバ104が、認識結果として認識スコア(認識結果の確からしさを示す値)、および候補単語の上位5つを返すものとしている。
【0027】
音声ファイルフィールド401は、図2の音声ファイルフィールド202と同様の情報を記憶している。サーバIDフィールド402は、図3のサーバIDフィールド303と同様の情報を記憶している。雑音抑圧用パラメータフィールド403は、図3の雑音抑圧用パラメータフィールド304と同様の情報を記憶している。認識スコアフィールド404には、認識スコアが記憶される。認識結果フィールド405には、認識された候補単語5つ(1位〜5位)が記憶される。
【0028】
図4に示す001.wavという音声データでは、X,Y,Z1,Z2という4つの音声認識サーバ104に送信し、得られた認識結果が記憶されている。ここで、Z1とZ2とは、Zという音声認識サーバ104に対し、0.7と0.2という2種類の雑音抑圧用パラメータを用いた雑音抑圧処理により得られた音声データを送信することを、便宜上2つの異なる音声認識サーバ104であるかのように表したものである。
【0029】
図1へ戻って、パラメータ変更モジュール126は、履歴管理モジュール128からの起動指示に基づいて起動する機能を有する。パラメータ変更モジュール126は、履歴管理モジュール128における判定結果に基づいて、雑音抑圧用パラメータ記憶部120および結果統合用パラメータ記憶部124に記憶している各パラメータを、音声認識サーバ128の音声認識性能を高めるように最適化する(更新する)。
【0030】
結果統合用パラメータ記憶部124は、音声認識サーバ104から受信した複数の認識結果が認識結果統合モジュール122によって再評価(統合)するときに用いる結果統合用パラメータ(第2のパラメータ)として認識結果に対する重みを記憶している。結果統合用パラメータ記憶部124は、図5に示すように、車載端末IDフィールド501、環境情報フィールド502、サーバIDフィールド503、結果統合用パラメータフィールド504を備える。車載端末IDフィールド501は、図3の車載端末IDフィールド301と同様の情報を記憶している。環境情報フィールド502は、図3の環境情報フィールド302と同様の情報を記憶している。サーバIDフィールド503は、図3のサーバIDフィールド303と同様の情報を記憶している。結果統合用パラメータフィールド504には、結果統合用パラメータが記憶される。
【0031】
図5では、結果統合用パラメータの例として、音声認識サーバ104それぞれに対して、環境情報別に、重みとして実数値が割り当てられている。この場合、例えば、音声認識サーバ104から得られた複数の認識結果に対して、この重みを割り当てた上での多数決を行うといった統合方法が可能である。
【0032】
ここで、認識結果統合モジュール122における多数決処理の一例について、図4および図5を用いて説明する。例えば、認識結果統合モジュール122は、図4の音声ファイル「001.wav」について、4つの音声認識サーバ104(X,Y,Z1,Z2)から、それぞれ第1位の候補語句として「東京駅」、「京都駅」、「東京都」、「東京駅」を取得している。次に、認識結果統合モジュール122は、図5の結果統合用パラメータ記憶部124を参照して、各音声認識サーバ104ごとの重みを取得する。重みは、X:1.0、Y:1.1、Z1:0.9,Z2:0.7である。多数決では、認識結果の単語別に重みの数値を足し合わせると、東京駅:1.7(=X+Z2)、京都駅:1.1(=Y)、東京都0.9(=Z1)となる。この場合、音声データ「001.wav」の最も確からしい認識結果として、「東京駅」を選択することができる。
【0033】
多数決は、前記したように、図4の認識結果フィールド405に示した1位の候補だけに行っても良いが、複数の候補に対して行っても良い。また、各候補語句の認識スコアとの組み合わせで重みが設定されても良い。また、多数決の代わりに、単純に重みの大きい音声認識サーバ104の認識結果から順に結果を並べるというやり方でも良い。
【0034】
(車載端末102の構成)
次に、車載端末102の構成について、図6を用いて説明する。図6に示すように、車載端末102は、マイク212、タッチパネル214、ボタン216、描画装置218、スピーカ220、音声検出モジュール222、車載端末メイン処理モジュール224、送信データ生成モジュール226、外部入力I/F(インタフェース)228を備える。また、車載端末102は、通信装置230を介して、音声データ中継装置110と通信を行う。
【0035】
ユーザ240が車載端末102の音声認識機能を使う場合、ユーザ240が発した音声(発話音声)は、マイク212によってひろわれ、音声データとして音声検出モジュール222に出力される。また、ユーザ240が音声認識機能を呼び出すためにボタン216を押す等の操作を行った場合、車載端末メイン処理モジュール224はその操作を検知して、検知結果を音声検出モジュール222に出力する。音声検出モジュール222は、車載端末メイン処理モジュール224から受信した情報がある場合にはそれを活用しつつ、マイク212から取り込まれた発話音声の音声データを解析する機能を有する。そして、音声検出モジュール222は、音声データ中の音声の無い無声区間(無音区間や雑音のみの区間)の削除等を行った後、音声の有る有声区間のデータ(のみ)を送信データ生成モジュール226に出力する。
【0036】
なお、車載端末102における音声認識機能は、車載端末102に対する操作入力として用いる他、例えば、車載端末102の周辺に存在する他の機器への操作入力、テキストエディタやコメントボックス等に対するテキスト入力等、各種の用途に用いることができる。
【0037】
送信データ生成モジュール226は、音声検出モジュール222から受信した有声区間のデータと、外部入力I/F228から入力された各種センサ250からの情報(環境情報)を組み合わせて、音声データ中継装置110に送信する送信データを生成する。そして、送信データ生成モジュール226は、通信装置230を経由して、図1に示した音声データ中継装置110に送信データ(音声データ+環境情報)を送信する。
【0038】
外部入力I/F228は、車載端末102が搭載された車両の走行速度や、オーディオ・ワイパ等の状態を検知するセンサ250からの出力信号、変速機の状態やエンジンの回転数を伝えるセンサ250からの出力信号等、各種の情報(環境情報)を受信するインタフェースである。外部入力I/F228が受信した情報は、必要に応じて(例えば、音声検出モジュール222によって音声データが検出された場合等)送信データ生成モジュール226に入力される。
【0039】
通信装置230は、車載端末102と音声データ中継装置110との間の通信を司るもので、例えば、通信機能だけを持つ携帯電話機や、情報処理装置としての機能を持ついわゆるスマートフォン等を用いることができる。車載端末102と通信装置230との間の通信は、例えば、USB(Universal Serial Bus)ケーブル、Bluetooth(登録商標)等の公知技術を用いて行われる。通信装置230と音声データ中継装置210との間の通信は、例えば、デジタル携帯電話網等を用いて行われる。また、音声データ中継装置110から返信されてきた情報は、同じように通信装置230を経由して、車載端末メイン処理モジュール224に送られる。
【0040】
図6において、車載端末102と通信装置230とのあいだのデータ送受信には、速度やデータ量の点での制約があまりないことから、図6中で車載端末102に搭載されるものと説明した構成要素の一部を、通信装置230に実装しても良い。ここでいう構成要素の一部とは、例えば、車載端末メイン処理モジュール224で行う機能を通信装置230のCPU(不図示)で実現したり、通信装置230に備わっているユーザインターフェース機能(不図示)をマイク212、タッチパネル214、ボタン216、描画装置218、スピーカ220、外部入力I/F228として利用したりすることを指す。
【0041】
なお、ユーザ240が音声認識機能を使わない場合、ユーザ240と車載端末102との間では、タッチパネル214、ボタン216、描画装置218、スピーカ220等を使って情報のやりとりを行う。すなわち、ユーザ240が車載端末102の操作や情報の入力を行う際には、タッチパネル214やボタン216を用い、それに応じて車載端末102は描画装置218の画面に表示される内容を変更したり、案内音声をスピーカ220から再生したりする。こうした機能は、目的地までの経路の案内やオーディオの操作等、当該分野において良く知られている車載端末102の機能全般を実現するための車載端末メイン処理モジュール224において実行される。なお、本発明は、これら車載端末102の機能全般を実現するための処理の具体的な実施形態に依らず、独自に実現することが可能である。
【0042】
(音声データ中継装置110による音声データ中継処理)
次に、音声データ中継装置110による音声データ中継処理について、図7を用いて説明する(適宜、図1,6参照)。車載端末102で音声認識機能が使用されると、車載端末102のマイク212を介してユーザの発話音声が取得される。取得された発話音声の音声データは、車載端末102から音声データ中継装置110に送信され、端末装置通信モジュール112を介して、雑音抑圧モジュール118に入力される(S701)。このとき、音声データとともに、発話音声が取得された際の環境情報が、車載端末102から音声データ中継装置110に送信される。雑音抑圧モジュール118は、雑音抑圧用パラメータ記憶部120に記憶された雑音抑圧用パラメータの値を参照し(S702)、音声データに対して雑音抑圧処理を行う。
【0043】
雑音抑圧処理後の音声データは、サーバ通信モジュール114に出力される(S703)。サーバ通信モジュール114は、音声データを音声認識サーバ104に送信し、送信した音声データに対応する認識結果を受信する。サーバ通信モジュール114で受信された認識結果は、認識結果統合モジュール122に出力される(S704)。認識結果統合モジュール122は、結果統合用パラメータ記憶部124に記憶された結果統合用パラメータの値を参照し(S705)、認識結果を再評価(統合)する。認識結果統合モジュール122によって再評価(統合)された認識結果は、最終的な認識結果として、車載端末102に送信される(S706)。
【0044】
図7に示したように、音声データ中継装置110は、車載端末102において音声認識機能が使用された場合、受信した音声データに雑音抑圧処理を施して音声認識サーバ104に送信し、音声認識サーバ104から受信した認識結果の結果統合処理を行い、最も確からしい認識結果を最終的な認識結果として車載端末102に送信する。
【0045】
(音声データ中継装置110による音声認識サーバ104の音声認識性能の評価処理)
次に、音声データ中継装置110における音声認識サーバ104の音声認識性能の評価処理について、図8を用いて説明する(適宜、図1,6参照)。音声データ中継装置110は、自身の記憶している評価用音声データを用いて、所定の周期で音声認識サーバ104の音声認識性能を評価し、その評価結果に基づいて、雑音抑圧処理や結果統合処理のパラメータを適切な値に最適化する(更新する)。この理由は、音声認識サーバ104の音声認識性能が時々刻々と変化するため、同一のパラメータを使用し続けると、音声認識サーバ104の音声認識機能に対してパラメータが適合しなくなり、音声認識性能の低下を招くリスクが大きくなるためである。
【0046】
例えば、予め設定されたタイムスケジュール(所定の周期)に従って音声データ中継装置110の処理部150のサーバ評価機能(不図示)が起動し、発話内容既知雑音環境音声データベース116から雑音抑圧モジュール118に対して、評価用音声データが出力される(S801)。
【0047】
雑音抑圧モジュール118は、入力された評価用音声データに対し、雑音抑圧用パラメータ記憶部120から雑音抑圧用パラメータの値を取得し(S802)、雑音抑圧処理を行う。最も単純な例では、雑音抑圧モジュール118は、単一の雑音抑圧用パラメータを用いて雑音抑圧処理を行って、1種類だけの音声データを出力する。より複雑な例では、雑音抑圧モジュール118は、複数の雑音抑圧用パラメータを順次適用して雑音抑圧処理を行い、複数種類の評価用音声データを出力する。
【0048】
前記したいずれの場合においても、雑音抑圧モジュール118において雑音抑圧処理された評価用音声データは、サーバ通信モジュール114に出力される(S803)。サーバ通信モジュール114は、受信した評価用音声データを音声認識サーバ104に送信し、その結果として認識結果を受信する。認識結果は、認識結果履歴データベース130に記憶されるとともに(S804)、履歴管理モジュール128に出力される(S805)。なお、ステップS804は行わず、履歴管理モジュール128を介して、認識結果履歴データベース130に記憶するようにしても構わない。
【0049】
履歴管理モジュール128は、取得した認識結果を、認識結果履歴データベース130を参照して、同一の評価用音声データに対する過去の認識結果の履歴と照合し(S806)、音声認識サーバ104の音声認識性能に変化があるかどうかを判定する。音声認識サーバ104の音声認識性能に変化があると判定した場合は、履歴管理モジュール128は、パラメータ変更モジュール126を起動する(S807)。次に、パラメータ変更モジュール126は、音声認識サーバ104の内部状況に適した雑音抑圧用パラメータ値の推定を行う。こうして得られたパラメータ値は、雑音抑圧用パラメータ記憶部120の雑音抑圧用パラメータフィールド304に記憶され(S808)、雑音抑圧モジュール118の次の雑音抑圧処理で用いられる。
【0050】
次に、結果統合用パラメータ記憶部124の結果統合用パラメータを変更する処理の概要について、図9を用いて説明する。図9において、図8に示した構成と異なる点は、さらに認識結果統合モジュール122および結果統合用パラメータ記憶部124を備えていることである。
【0051】
図9中、S801〜S808の処理については、図8と同様であるので、説明を省略する。図9において、サーバ通信モジュール114は、雑音抑圧処理後の評価用音声データを音声認識サーバ104(図1参照)に送信し、その結果として認識結果を受信する。なお、結果統合用パラメータの変更処理は、複数の認識結果を用いて行われる。
【0052】
図9に示すように、サーバ通信モジュール114に受信された複数の認識結果は、認識結果履歴データベース130や履歴管理モジュール128に出力される(S804,S805)のみならず、認識結果統合モジュール122にも出力される(S901)。認識結果統合モジュール122は、結果統合用パラメータ記憶部124に記憶された結果統合用パラメータの値を参照し(S902)、認識結果を統合し、最も確からしい認識結果を推定する。ここで用いられる結果統合用パラメータの値は、履歴管理モジュール128によって、音声認識サーバ104の内部状況に変化があったことが検知されると、パラメータ変更モジュール126によって、音声認識サーバ104の内部状況に適した値に最適化される(更新される)(S903)。
【0053】
(複数の音声データの生成方法)
ここで、複数の認識結果を得るための、3つの形態について説明する。第1形態では、複数の雑音抑圧用パラメータを用いて雑音抑圧モジュール118において複数の認識結果音声データを生成し、その複数の認識結果音声データに対する認識結果を単独の音声認識サーバ104から受信する。第2形態では、複数の音声認識サーバ104に対して同一の認識結果音声データを送信し、それぞれの音声認識サーバ104から認識結果を受信する。第3形態では、複数の雑音抑圧用パラメータを用いて雑音抑圧モジュール118において複数の認識結果音声データを生成し、その複数の認識結果音声データに対する認識結果を複数の音声認識サーバ104から受信する。なお、第1〜第3形態における処理については、後記する(図10〜図12参照)。第1〜第3形態における処理の詳細について、図10〜図12を用いて説明する。
【0054】
図10は、第1形態の場合を示しており、複数の雑音抑圧用パラメータを用いて雑音抑圧モジュール118において複数の音声データ(評価用音声データの場合も含む)を生成し、その複数の音声データに対する認識結果を単独の音声認識サーバ104から受信する場合の処理を示している。図10に示すように、雑音抑圧モジュール118に1つの音声データが入力されると(S1001)、雑音抑圧モジュール118は、入力された音声データに対し、N種類の異なる雑音抑圧用パラメータの値を適用して雑音抑圧処理を行い、それぞれのパラメータの値に対応した複数(N種類)の音声データを出力する(S1002)。これらのN種類の音声データは、サーバ通信モジュール114を介して、単一の音声認識サーバ104に送信される(S1003)。
【0055】
音声認識サーバ104は、それぞれの音声データに対応するN種類の認識結果を、サーバ通信モジュール114に対して返信する(S1004)。サーバ通信モジュール114で受信された認識結果は、認識結果統合モジュール122に出力される(S1005)。認識結果統合モジュール122は、これらの認識結果を統合処理し、最終的な認識結果として出力する(S1006)。なお、音声認識サーバ104から得られたN種類の認識結果は、常に異なっているわけではなく、例えば、大半のデータに対して正しい認識結果が得られる等、同じ認識結果が多数含まれている場合も多い。
【0056】
次に、図11は、第2形態の場合を示しており、複数の音声認識サーバ104に対して同一の音声データ(評価用音声データの場合も含む)を送信し、それぞれの音声認識サーバ104から認識結果を受信する場合の処理を示している。図11に示すように、雑音抑圧モジュール118に1つの音声データが入力されると(S1101)、雑音抑圧モジュール118は、入力された音声データに対し、1種類の雑音抑圧用パラメータを適用して雑音抑圧処理を行い、1種類の音声データを出力する(S1102)。
【0057】
サーバ通信モジュール114は、この1種類の音声データを、独立した複数(M個)の音声認識サーバ104に送信する(S1103)。それぞれの音声認識サーバ104は、音声データに対応する認識結果を、サーバ通信モジュール114に対して返信する(S1104)。それぞれの音声認識サーバ104は、それぞれ独自のアルゴリズムやモデルに基づいて音声認識を行うため、M種類の認識結果を返信する。
【0058】
サーバ通信モジュール114で受信された認識結果は、認識結果統合モジュール122に出力される(S1105)。認識結果統合モジュール122は、これらの認識結果を統合処理し、最終的な認識結果として出力する(S1106)。
【0059】
図12は、第3形態の場合を示しており、複数の雑音抑圧用パラメータを用いて雑音抑圧モジュール118において複数の音声データ(評価用音声データの場合も含む)を生成し、その複数の音声データに対する認識結果を複数の音声認識サーバ104から受信する場合の処理を示している。図12に示すように、雑音抑圧モジュール118に1つの音声データが入力されると(S1201)、雑音抑圧モジュール118は、入力された音声データに対し、複数(N種類)の雑音抑圧用パラメータを適用して雑音抑圧処理を行い、N種類の音声データを出力する(S1202)。
【0060】
サーバ通信モジュール114は、このN種類の音声データすべてを、それぞれ独立した複数(M個)の音声認識サーバ104に送信する(S1203)。それぞれの音声認識サーバ104は、N個の音声データに対応する認識結果を、サーバ通信モジュール114に対して返信する(S1204)。すなわち、サーバ通信モジュール114には、N×M種類の認識結果が返信される。
【0061】
サーバ通信モジュール114で受信された認識結果は、認識結果統合モジュール122に出力される(S1205)。認識結果統合モジュール122は、これらの認識結果を統合処理し、最終的な認識結果として出力する(S1206)。なお、前記の説明では、それぞれの音声認識サーバ104に送信する音声データの数はすべてN個としたが、この数は必ずしも一定である必要はなく、例えば、ある音声認識サーバにはN個中5個、別の音声認識サーバにはN個中3個・・というように、異なる数の音声データを送っても良い。
【0062】
(評価用音声データの生成方法)
次に、発話内容既知雑音環境音声データベース116に記憶されている評価用音声データの生成方法について、図13を用いて説明する(適宜、図1,6参照)。発話内容既知雑音環境音声データベース116のデータは、発話内容既知静音環境音声データベース902、機種別環境別雑音データベース908、機種別伝達特性データベース910、機種別環境別発話内容未知音声データベース912に記憶されたデータを用いて生成される。発話内容既知雑音環境音声データベース116のデータは、本実施の形態では、音声データ中継装置110の処理部150の音声データ生成手段(不図示)において生成されるものとして説明するが、車内に設置された他の専用の装置(不図示)において生成されても構わない。
【0063】
発話内容既知静音環境音声データベース902には、予め雑音のない環境で録音した、様々な話者による様々な言葉の音声データが、発話内容を特定するラベルとともに記憶されている。機種別環境別雑音データベース908には、車載端末102(図1参照)の機種や車両の走行条件等の環境ごとに区分けされた雑音データが記憶されている。この雑音データは、車載端末102を介して取得されたものである。車載端末102は、恒常的に雑音データを蓄積しており、その蓄積した雑音データを適宜音声データ中継装置110に送信する。音声データ中継装置110は、受信した雑音データを機種別環境別雑音データベース908に追加していく。
【0064】
機種別伝達特性データベース910は、車載端末102の機種ごとに、ユーザ240の口からマイク212を経て取り込まれる音声信号の伝達特性のデータを記憶している。
機種別環境別発話内容未知音声データベース912は、車載端末102の機種や環境ごとに区分けされた、ユーザによって発話された音声データ、すなわち、発話内容が未知の音声データを記憶している。この発話内容が未知の音声データは、車載端末102を介して取得されたものである。車載端末102は、恒常的に発話内容が未知の音声データを蓄積しており、その蓄積した音声データを適宜音声データ中継装置110に送信する。音声データ中継装置110は、ユーザ240によって発話された発話内容が未知の音声データを、機種別環境別発話内容未知音声データベース912に対しても、機種別環境別雑音データベース908と同様に、随時追加していく。なお、機種別環境別発話内容未知音声データベース912に追加される音声データは、発話内容が未知であるため、発話内容を特定するラベルは付与されない。
【0065】
雑音付加モジュール904は、発話内容既知静音環境音声データベース902に記憶された音声データに対し、機種別環境別雑音データベース908から取得した雑音データの付加処理と、機種別伝達特性データベース910から取得した伝達特性データの畳み込み処理(音声データを伝達特性でフィルタリングする処理)とを行う。ただし、後者の伝達特性データの畳み込み処理については割愛することも可能である。前者の雑音付加処理は、音声データもしくは雑音データに一定のゲイン値を乗算して、波形の振幅同士を加算することにより、信号対雑音比の値を調整して行う。
【0066】
信号対雑音比の値としてどのようなものを用いるのが良いかについては、機種別環境別発話内容未知音声データベース912に記憶された音声データの平均パワーを参照することにより推定することができる。すなわち、機種別環境別発話内容未知音声データベース912の音声データは、発話内容が未知であっても、所与の環境においてユーザがどれくらいの声の大きさで話すかということを推定するために利用することができる。そこで、音声データ中継装置110は、機種別環境別発話内容未知音声データベース912に含まれる一定量の音声データの平均パワーに合致するように、発話内容既知静音環境音声データベース902の音声データのゲインを調整することによって、所望の信号対雑音比を持った音声データを作成することができる。
【0067】
次に、機種別環境別雑音データベース908および機種別環境別発話内容未知音声データベース912にデータを追加していくための、車載端末102の処理フローについて、図14を用いて説明する(適宜、図6,13参照)。なお、図14に示す処理は、車載端末メイン処理モジュール224のデータ追加手段(不図示)が起動している間、継続して行われる。
【0068】
図14において、車載端末102は、まず、マイク212を介して周囲の環境情報を取得する(ステップS1401)。環境情報とは、例えば、車速、オーディオ状態、ワイパー状態等、音声認識に多少なりとも影響を及ぼす可能性があると考えられる、車両や周辺機器の動作状況等の情報である。次に、車載端末102は、ユーザによる発話があるか否かを判断する(ステップS1402)。
【0069】
ユーザによる発話がないと判定した場合(ステップS1402:No)、車載端末102は、マイク212でひろった音を、環境音データとして録音する(ステップS1403)。次に、車載端末102は、録音した環境音データが一定量に達した(集まった)か否かを判定する(ステップS1404)。環境音データが一定量に達した(集まった)と判定した場合(ステップS1404:Yes)、車載端末102は、環境音データに、環境情報と車載端末102の機種を識別するIDとを付与して、音声データ中継装置110に送信する(ステップS1405)。そして、本フローチャートによる処理は終了する。音声データ中継装置110に送信された環境音データは、機種別環境別雑音データベース908(図13参照)に雑音データとして記憶される。また、環境音データが一定量に達しなかった(集まらなかった)と判定した場合(ステップS1404:No)、車載端末102は、ステップS1405の処理をスキップして、処理を終了する。このように、ステップS1405をスキップする理由は、同じ環境情報が所定の時間継続していない場合には、環境音データとして採用しないためである。なお、車載端末102は、ステップS1403において録音を開始する前に、前回録音した環境音データを消去する。または、車載端末102は、処理を終了した後に、ステップS1404において前回録音した環境音データを消去しても良い。
【0070】
一方、ステップS1402において、ユーザによる発話があると判断した場合(ステップS1402:Yes)、車載端末102は、マイク212を介してひろった音を音声データとして録音する(ステップS1406)。次に、車載端末102は、録音した音声データが一定量に達した(集まった)か否かを判定する(ステップS1407)。音声データが一定量に達した(集まった)と判定した場合(ステップS1407:Yes)、車載端末102は、音声データに、環境情報と車載端末102の機種を識別するIDとを付与して、音声データ中継装置110に送信する(ステップS1408)。そして、本フローチャートによる処理は終了する。音声データ中継装置110に送信された音声データは、機種別環境別発話内容未知音声データベース912(図13参照)に音声データとして記憶される。また、音声データが一定量に達しなかった(集まらなかった)と判定した場合(ステップS1407:No)、車載端末102は、ステップS1408の処理をスキップして、処理を終了する。このように、ステップS1408をスキップする理由は、同じ環境情報が所定の時間継続していない場合には、音声データとして採用しないためである。なお、車載端末102は、ステップS1406において録音を開始する前に、前回録音した環境音データを消去する。または、車載端末102は、処理を終了した後に、ステップS1407において前回録音した環境音データを消去しても良い。
【0071】
次に、音声データ中継装置110による音声認識サーバ104の評価処理の詳細な手順について、図15を用いて説明する。図15のフローチャートにおいて、変数cは音声認識サーバ104の内部状況に変化を発見したか否かを示すものであり、変数kは音声認識サーバ104を識別するものである。
まず、音声データ中継装置110は、変数cに初期値として、音声認識サーバ104の内部状況に変化を発見しないことを示すfalseを設定する(ステップS1501)。
【0072】
次に、音声データ中継装置110は、変数kに初期値として0を設定する(ステップS1502)。音声データ中継装置110は、発話内容既知雑音環境音声データベース116(図1参照)から取得した評価用音声データを、雑音抑圧モジュール118において雑音抑圧処理した後、k番目の音声認識サーバ104に送信し、それに対する認識結果を受信する(ステップS1503)。
【0073】
音声データ中継装置110は、ステップS1503で受信した認識結果が、同じk番目の音声認識サーバ104から過去に得られた認識結果(履歴)と一致するか否かを判定する(ステップS1504)。なお、音声認識サーバ104が認識結果として返す内容は、様々な形式を取る可能性があり、それらに応じて、照合の仕方を様々に設定することが可能である。例えば、認識結果としてただ一つの単語や文章を返す場合には、その単語や文章が、履歴として保持されるものと完全一致するかどうかを見るのが一般的である。ただし、この場合であっても、例えば、文章中に1単語だけ差異が生じても一致すると見なすといった方式であっても良い。また、認識結果の候補として複数の単語を返すような方式の場合には、1位単語(図4参照)の一致度だけをチェックする、上位N位までの一致度をチェックする、全候補の一致度をチェックする等のバリエーションが存在する。また、認識結果の単語や文章の他に、認識結果の認識スコア(図4参照)を返す場合には、その認識スコアが完全一致するかどうか、あるいは認識スコアの差が予め設定した許容度の範囲内であるかどうかというチェック方法もある。
【0074】
ステップS1503で受信した認識結果と、履歴とが一致しないと判定した場合(ステップS1504:No)、音声データ中継装置110は、変化が見つかったとして、変数cの値をtrueとした上で(ステップS1505)、雑音抑圧用パラメータを最適化して(ステップS1506)、ステップS1507の処理に移行する。雑音抑圧用パラメータの最適化処理の詳細については後記する(図16参照)。
【0075】
また、ステップS1503で受信した認識結果と、履歴とが一致すると判定した場合(ステップS1504:Yes)、音声認識サーバ104の内部状況に変化がないものとして、処理はステップS1507へ進む。音声データ中継装置110は、変数kをk+1として(ステップS1507)、変数kの値がMに一致するか否かを判定する(ステップS1508)。ただし、Mは、音声認識処理に用いる音声認識サーバ104の台数である。変数kの値がMに一致していないと判定した場合(ステップS1508:No)、処理はステップS1503に戻る。すなわち、処理は、次の音声認識サーバ104に対して実行される。
【0076】
そして、変数kがMと一致すると判定した場合(ステップS1508:Yes)、音声データ中継装置110は、変数cの値がtrueか否かを判定する(ステップS1509)。変数cの値がtrueである場合(ステップS1509:Yes)、音声データ中継装置110は、音声認識サーバ104の内部状況に変化があったとして、結果統合用パラメータを最適化する(ステップS1510)。そして、音声データ中継装置110は、一定時間スリープ後(ステップS1511)、再びステップS1501以降の処理を行う。また、変数cの値がtrueでないと判定した場合(ステップS1509:No)、処理はステップS1511へ進む。
【0077】
なお、図15に示した処理は、図11に示したような単一の評価用音声データを複数の音声認識サーバ104に送信することを前提とした処理の場合であるが、図10や図12に示したように、雑音抑圧モジュール118が複数の評価用音声データを出力する場合であっても、同様のフローで処理可能である。また、図15に示した処理は、単一の雑音抑圧用パラメータを用いて雑音抑圧処理された評価用音声データと単一の音声認識サーバ104との組み合わせの場合であっても、結果統合用パラメータの最適化(ステップS1510参照)が不要になることを除き、同様のフローで処理可能である。
【0078】
図16は、雑音抑圧用パラメータの最適化処理の一例を示したフローチャートである(適宜、図1参照)。図16では、雑音抑圧用パラメータλの候補として、λ[0]からλ[N−1]までのN個の値が用意されているものとする。なお、変数kは、雑音抑圧用パラメータλ[k]を識別するものである。
【0079】
まず、処理部150のサーバ評価手段(不図示)は、変数kに初期値として0を設定する(ステップS1601)。処理部150のサーバ評価手段は、k番目の雑音抑圧用パラメータλ[k]をλに設定する(ステップS1602)。雑音抑圧モジュール118は、ステップS1602において設定された雑音抑圧用パラメータλを用いて、評価用音声データに対して雑音抑圧処理を行う(ステップS1603)。このとき、1つの評価用音声データのみでは音声認識サーバ104の音声認識性能を十分に評価することができないので、多数の評価用音声データに対しても同様の処理を行い、音声認識サーバ104の音声認識性能を評価する。音声認識性能は、例えば、正しく音声認識できた数を音声認識処理を実行した数で除算した値を示す認識率で表す。
【0080】
雑音抑圧モジュール118は、ステップS1603で処理した評価用音声データを音声認識サーバ104に送信し、履歴管理モジュール128が、それに対する認識結果を受信する(ステップS1604)。次に、処理部150のサーバ評価手段は、変数kにk+1を設定して(ステップS1605)、変数kの値がNに等しいか否かを判断する(ステップS1606)。変数kの値がNに等しくないと判定した場合(ステップS1606:No)、処理はステップS1602へ戻る。kの値がNに等しいと判定した場合(ステップS1606:Yes)、処理はステップS1607へ進む。
【0081】
ステップS1607では、パラメータ変更モジュール126は、N個のパラメータ候補中で、最も高い認識率をもたらした雑音抑圧用パラメータλ[k]の値を最適なパラメータとして選択する。そして、パラメータ変更モジュール126は、新たに用いる雑音抑圧用パラメータλとしてλ[k]を雑音抑圧用パラメータ記憶部128(図1参照)に記憶して(ステップS1608)、本フローチャートによる処理を終了する。
【0082】
(変形例)
なお、前記の説明では、図1に示すように車載端末102と音声認識サーバ104との間に音声データ中継装置110を独立して設けるようにしたが、変形例として、車載端末102の内部に、音声データ中継装置110の構成を備えるようにしても良い。
【0083】
図17は、変形例の構成例を、図1,6で示したものと同じ構成ブロックには同じ符号を付して示している。図17において、車載端末1710は、マイク212、ユーザインタフェースモジュール1712、描画装置218、サーバ通信モジュール114、発話内容既知雑音環境音声データベース116、雑音抑圧モジュール118、雑音抑圧用パラメータ記憶部120、認識結果統合モジュール122、結果統合用パラメータ記憶部124、パラメータ変更モジュール126、履歴管理モジュール128、認識結果履歴データベース130によって構成される。
【0084】
図17のような構成とした場合、ユーザ240の発話音声は、マイク212からユーザインタフェースモジュール1712を経て、雑音抑圧モジュール118に取り込まれる。また、認識結果統合モジュール122が出力する最終的な認識結果も、通信回線を経由することなく、ユーザインタフェースモジュール1712を経て描画装置218またはスピーカ(不図示)に送られる。このような実装形態であっても、各モジュールの動作原理そのものは、図1から図16で説明した場合と同様である。すなわち、図17に示す車載装置1710のような構成によっても、図1に示した音声データ中継装置110と同様の効果を得ることができる。
【0085】
以上説明したように、本実施の形態に係る音声データ中継装置110は、車載端末102と音声認識サーバ104との間を中継するにあたって、音声認識サーバ104の音声認識性能の変化を調べるために、評価用音声データを雑音抑圧モジュール118において雑音抑圧処理した後、音声認識サーバ104に送信し、認識結果を受信する。そして、音声データ中継装置110は、音声認識サーバ104の認識結果に基づいて、雑音抑圧処理に用いる雑音抑圧用パラメータや音声認識サーバ104から得られた複数の認識結果の統合処理に用いる結果統合用パラメータの値を最適な値に設定する。これにより、音声認識サーバ104の音声認識性能が変化する場合においても、適切なパラメータを設定することができる。これにより、音声認識サーバ104の音声認識性能が変化する場合においても、適切なパラメータを設定することができる。
【0086】
つまり、音声データ中継装置110は、車載端末102と音声認識サーバ104との間を中継することによって、車載端末102と音声認識サーバ104との間で直接音声認識を行うよりも、安定した品質の音声認識サービスを提供することができる。また、変形例として示した車載端末1710は、音声データ中継装置10の機能を備えているので、音声データ中継装置110と同様の効果を得ることができる。
【0087】
なお、本実施の形態および変形例では、雑音抑圧モジュール118の機能として、雑音抑圧処理の場合で説明したが、音声データの情報量を圧縮する処理(加工処理)を併用しても構わない。
また、本実施の形態では、音声データ中継装置110に焦点を当てて説明してきたが、車載端末102と音声データ中継装置110と音声認識サーバ104とを一体の装置(音声認識システム)として構成しても構わない。
【符号の説明】
【0088】
102,1710 車載端末(端末装置)
104 音声認識サーバ
110 音声データ中継装置
112 端末装置通信モジュール(端末通信部)
114 サーバ通信モジュール(サーバ通信部)
116 発話内容既知雑音環境音声データベース
118 雑音抑圧モジュール(データ処理部)
120 雑音抑圧用パラメータ記憶部
122 認識結果統合モジュール(認識結果統合部)
124 結果統合用パラメータ記憶部
126 パラメータ変更モジュール(パラメータ変更部)
128 履歴管理モジュール(履歴管理部)
130 認識結果履歴データベース
150,150a 処理部
160 記憶部
212 マイク
218 描画装置

【特許請求の範囲】
【請求項1】
ユーザが発話中の音を録音して発話音声を音声データとして送信するとともに、送信したその音声データの認識結果を受信して前記ユーザに出力する端末装置と、前記端末装置からの音声データを受信して、その音声データを認識してその認識結果を送信する音声認識サーバと、の間を接続する音声データ中継装置であって、
前記音声データに対して加工処理を行うときに用いる第1のパラメータの値と、前記音声認識サーバの音声認識性能を評価するために用いる評価用音声データとが記憶される記憶部と、
前記評価用音声データに対して、前記第1のパラメータの値を用いて加工処理を行って第1の音声データを生成し、前記端末装置から受信した音声データに対して、前記第1のパラメータの値を用いて加工処理を行って第2の音声データを生成するデータ処理部と、
前記第1の音声データを前記音声認識サーバに送信して前記音声認識サーバから第1の認識結果を受信し、前記第2の音声データを前記音声認識サーバに送信して前記音声認識サーバから第2の認識結果を受信するサーバ通信部と、
前記第2の音声データに対する前記第2の認識結果を前記端末装置に送信する端末通信部と、
受信した前記第1の音声データに対する認識結果に基づいて、前記記憶部に記憶されている前記第1のパラメータの値を更新するパラメータ変更部と、
を備えることを特徴とする音声データ中継装置。
【請求項2】
前記記憶部は、さらに過去に前記音声認識サーバに送信した前記第1の音声データおよび前記認識結果を関連付けた履歴情報が記憶され、
前記パラメータ変更部は、前記履歴情報を参照して、前記サーバ通信部が受信した前記第1の音声データに対する認識結果との比較を行って、前記受信した認識結果と前記過去の認識結果とが相違する場合、前記パラメータの値を更新する
ことを特徴とする請求項1に記載の音声データ中継装置。
【請求項3】
雑音のない状態において録音された予め発話内容が既知の音声データに対して、雑音を録音した雑音データを付加する付加処理、または前記端末装置と前記ユーザの口との間の伝達特性でフィルタリングする畳み込み処理と前記付加処理との双方、を実行して前記評価用音声データを生成する処理部
を備えることを特徴とする請求項2記載の音声データ中継装置。
【請求項4】
前記処理部は、前記付加処理において、前記端末装置によって録音された前記発話中の音のうち、音声の無い区間の音を前記雑音データとして取得し、前記雑音データのゲインを調整しつつ信号対雑音比の異なる前記評価用音声データを生成する
ことを特徴とする請求項3記載の音声データ中継装置。
【請求項5】
前記処理部は、前記付加処理において、前記端末装置によって録音された前記発話中の音のうち、音声区間の音を取得し、その音のパワーに基づいて、前記評価用音声データの音声データのゲインを調整する
ことを特徴とする請求項4記載の音声データ中継装置。
【請求項6】
複数の前記音声認識サーバと接続し、
前記記憶部は、さらに、前記複数の音声認識サーバから受信した複数の認識結果を1つの認識結果に統合する処理を行うときに用いる第2のパラメータの値が記憶され、
前記複数の音声認識サーバから受信した複数の認識結果を前記第2のパラメータの値を用いて1つの認識結果を生成する認識結果統合部を備え、
前記端末通信部は、前記認識結果統合部が生成した認識結果を、前記端末装置に送信する
ことを特徴とする請求項1に記載の音声データ中継装置。
【請求項7】
複数の前記音声認識サーバと接続し、
前記記憶部は、さらに、前記複数の音声認識サーバから受信した複数の認識結果を1つの認識結果に統合する処理を行うときに用いる第2のパラメータの値が記憶され、
前記複数の音声認識サーバから受信した複数の認識結果を前記第2のパラメータの値を用いて1つの認識結果を生成する認識結果統合部を備え、
前記パラメータ変更部は、少なくとも1つの前記音声認識サーバから受信した前記認識結果が前記履歴情報の過去の認識結果と異なる場合、前記第2のパラメータの値を更新し、
前記端末通信部は、前記認識結果統合部が生成した認識結果を、前記端末装置に送信する
ことを特徴とする請求項2に記載の音声データ中継装置。
【請求項8】
請求項1ないし請求項7のいずれか一項に記載の音声データ中継装置を備え、ユーザが発話中の音を録音して発話音声を音声データとして出力するとともに、その音声データの認識結果を前記ユーザに出力する手段
を備えることを特徴とする端末装置。
【請求項9】
ユーザが発話中の音を録音して発話音声を音声データとして送信するとともに、送信したその音声データの認識結果を受信して前記ユーザに出力する端末装置と、前記端末装置からの音声データを受信して、その音声データを認識してその認識結果を送信する音声認識サーバと、の間を接続する音声データ中継装置の音声データ中継方法であって、
前記音声データ中継装置は、
前記音声データに対して加工処理を行うときに用いる第1のパラメータの値と、前記音声認識サーバの音声認識性能を評価するために用いる評価用音声データとが記憶される記憶部を備え、
前記評価用音声データに対して、前記第1のパラメータの値を用いて加工処理を行って第1の音声データを生成し、前記端末装置から受信した前記音声データに対して、前記第1のパラメータの値を用いて加工処理を行って第2の音声データを生成するデータ処理ステップと、
前記第1の音声データを前記音声認識サーバに送信して前記音声認識サーバから第1の認識結果を受信し、前記第2の音声データを前記音声認識サーバに送信して前記音声認識サーバから第2の認識結果を受信するサーバ通信ステップと、
前記第2の音声データに対する前記第2の認識結果を前記端末装置に送信する端末通信ステップと、
受信した前記第1の音声データに対する認識結果に基づいて、前記記憶部に記憶されている前記第1のパラメータの値を更新するパラメータ変更ステップと、
を実行することを特徴とする音声データ中継方法。
【請求項10】
ユーザが発話中の音を録音して発話音声を音声データとして送信するとともに、送信したその音声データの認識結果を受信して前記ユーザに出力する端末装置と、
前記端末装置からの音声データを受信して、その音声データを認識してその認識結果を送信する音声認識サーバと、
請求項6または請求項7に記載の音声データ中継装置と、
を備え、
前記音声データ中継装置において、
前記データ処理部が、前記端末装置から受信した音声データに対して、複数の異なる前記第1のパラメータの値を用いて加工処理を行って複数の第2の音声データを生成し、
前記サーバ通信部が、前記複数の第2の音声データを前記音声認識サーバに送信して前記音声認識サーバから複数の第2の認識結果を受信し、
前記認識結果統合部が、前記音声認識サーバから受信した複数の認識結果を前記第2のパラメータの値を用いて1つの認識結果を生成し、
前記端末通信部は、前記認識結果統合部が生成した認識結果を、前記端末装置に送信する
ことを特徴とする音声認識システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2013−7764(P2013−7764A)
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願番号】特願2011−138318(P2011−138318)
【出願日】平成23年6月22日(2011.6.22)
【出願人】(000001487)クラリオン株式会社 (1,722)
【Fターム(参考)】