説明

音声認識端末

【課題】ユーザがローカル音声認識とセンタ音声認識を容易に区別できるようにする。
【解決手段】センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカ11より出力させる音声を加工し、この加工した音声を用いて音声認識に伴う音声をスピーカ11より出力させる(S104〜S110)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識を利用することが可能な音声認識端末に関するものである。
【背景技術】
【0002】
従来、車載ナビゲーション装置のような車載情報端末においては、安全性や利便性向上のために、端末内での音声認識処理(ローカル音声認識処理)を用いたHMI(Human Machine Interface)が多く採用されている。
【0003】
また、端末内での音声認識機能を有する端末において、通信機器を備え、この通信機器を介してセンタに接続し、このセンタ側での音声認識処理(センタ音声認識処理)により、情報検索等を行うことが可能となったものもある(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第3862169号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、音声認識処理では、大量の演算処理やメモリを必要とするため処理性能によって認識可能な語彙数や認識可能な文章の構造等が異なる。
【0006】
すなわち、車載ナビゲーション装置のような車載情報端末においては演算処理部の処理性能が比較的低いため、ローカル音声認識処理では特定の操作コマンドの認識、電話番号の認識、住所の認識や比較的簡単な単語の認識等に特化して音声認識を行うようになっている。
【0007】
これに対し、センタ側で実施されるセンタ音声認識処理では、演算処理部の処理性能が高く、認識可能な語彙数も多く比較的複雑な文章でも認識することが可能となっている。
【0008】
このように、ローカル音声認識処理とセンタ音声認識処理とでは、音声認識の目的、認識可能な語彙の種類や数、認識可能な文章の複雑さ等が異なる。したがって、ローカル音声認識処理とセンタ音声認識処理の両方を利用することが可能な端末では、ユーザがローカル音声認識とセンタ音声認識を使い分けて発声する必要がある。
【0009】
しかし、従来の車載情報端末では、音声認識機能を利用して発声する際に、ローカル音声認識機能であるかセンタ音声認識機能であるかを容易に区別することができないため、ユーザがローカル音声認識とセンタ音声認識を使い分けて発声することができない場合がある。
【0010】
例えば、ナビゲーション装置には、メニュー画面に従ってユーザにより電話検索、住所検索、施設検索等のスイッチが操作されるとローカル音声認識が開始され、メニュー画面に従ってユーザにより情報検索、ニュース等のスイッチが操作されるとセンタ音声認識が開始されるようになったものがある。このような構成の装置では、ユーザがローカル音声認識機能であるかセンタ音声認識機能であるかを意識して発声しないと、意図しない動作が開始されてしまうといった状況が発生してしまう。
【0011】
例えば、センタ音声認識で「渋谷のおいしいラーメン屋」と発声した場合、「渋谷のおいしいラーメン屋」が認識され、「渋谷のおいしいラーメン屋」の検索結果を表示させることができるが、ローカル音声認識処理で「渋谷のおいしいラーメン屋」と発声しても、「渋谷のおいしいラーメン屋」が正確に音声認識されず、例えば、「近くのおにぎり屋」として誤認識され、ユーザの意図しない「近くのおにぎり屋」の検索結果が表示されてしまう。
【0012】
また、ローカル音声認識で、地図画面の拡大表示を指示する操作コマンドとして「拡大」と発声すると、「拡大」が操作コマンドとして認識され、地図画面を拡大表示させることができるが、センタ音声認識で、地図画面の拡大表示を指示する操作コマンドとして「拡大」と発声すると、「拡大」が操作コマンドと認識されずに、例えば、センタ音声認識では、「拡大」をキーワードにウェブ検索を開始してしまう。このような動作はユーザにとって想定外の動作であり、ユーザに混乱を与えてしまう。
【0013】
本発明は上記問題に鑑みたもので、ユーザがローカル音声認識とセンタ音声認識を容易に区別できるようにすることを目的とする。
【課題を解決するための手段】
【0014】
上記目的を達成するため、請求項1に記載の発明は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識を利用することが可能な音声認識端末であって、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方を加工する音声加工手段と、音声加工手段により加工された音声を用いて音声認識に伴う音声をスピーカより出力させる音声出力手段と、を備えたことを特徴としている。
【0015】
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方を加工し、この加工された音声を用いて音声認識に伴う音声がスピーカより出力されるので、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。
【0016】
また、請求項2に記載の発明では、音声加工手段は、ローカル音声認識に伴ってスピーカより出力させる音声の質およびセンタ音声認識に伴ってスピーカより出力させる音声の質のいずれか一方を意図的に劣化させることを特徴としている。
【0017】
このような構成によれば、ローカル音声認識に伴ってスピーカより出力させる音声の質およびセンタ音声認識に伴ってスピーカより出力させる音声の質のいずれか一方が劣化して聞こえる。したがって、ユーザは音声認識に伴ってスピーカより出力させる音声の質によりローカル音声認識とセンタ音声認識を容易に区別することができる。
【0018】
また、請求項3に記載の発明では、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声のいずれか一方にバックグラウンド音を流すことを特徴としている。
【0019】
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声のいずれか一方にバックグラウンド音が流れる。したがって、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音の有無により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
【0020】
また、請求項4に記載の発明では、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声に、それぞれ異なるバックグラウンド音を流すことを特徴としている。
【0021】
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声に、それぞれ異なるバックグラウンド音が流れる。したがって、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
【0022】
また、請求項5に記載の発明は、複数のスピーカより音声を出力させるようになっており、音声加工手段は、センタ音声認識に伴ってスピーカより出力させる音声の位置とローカル音声認識に伴ってスピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量を異ならせることを特徴としている。
【0023】
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の位置とローカル音声認識に伴ってスピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量が聞こえる。したがって、ユーザは音声認識に伴ってスピーカより出力される音声の位置によりローカル音声認識とセンタ音声認識を容易に区別することができる。
【0024】
また、請求項6に記載の発明は、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定する音声特徴特定手段を備え、音声加工手段は、音声特徴特定手段により特定された特徴に基づいてセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方を加工することを特徴としている。
【0025】
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定し、この特徴に基づいてセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の少なくとも一方が加工されるので、センタ音声認識に伴ってスピーカより出力させる音声の特徴が変化しても、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。
【0026】
なお、請求項7に記載の発明では、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定するための情報を記憶する記憶手段を備え、音声特徴特定手段は、記憶手段に記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することを特徴としている。
【0027】
このように、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定するための情報を記憶する記憶手段を備え、この記憶手段に記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することができる。
【0028】
また、請求項8に記載の発明では、音声特徴特定手段は、センタ音声認識に伴ってスピーカより出力させる音声解析を実施し、当該音声解析の解析結果に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することを特徴としている。
【0029】
このように、センタ音声認識に伴ってスピーカより出力させる音声解析を実施し、当該音声解析の解析結果に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することができる。
【0030】
また、請求項9に記載の発明では、音声特徴特定手段は、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、音声加工手段は、音声特徴特定手段により特定されたセンタ音声認識に伴ってスピーカより出力させる音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工することを特徴としている。
【0031】
このような構成によれば、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、この音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の性別により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
【0032】
また、請求項10に記載の発明は、音声特徴特定手段は、センタ音声認識に伴ってスピーカより出力させる音声の口調を特定し、音声加工手段は、音声特徴特定手段により特定されたセンタ音声認識に伴ってスピーカより出力させる音声の口調と異なる口調の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工することを特徴としている。
【0033】
このように、センタ音声認識に伴ってスピーカより出力させる音声の口調を特定し、この音声の口調と異なる口調の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の口調により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
【0034】
なお、この欄および特許請求の範囲で記載した各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。
【図面の簡単な説明】
【0035】
【図1】本発明の第1実施形態に係る音声認識端末の構成を示す図である。
【図2】第1実施形態に係る制御部のフローチャートである。
【発明を実施するための形態】
【0036】
(第1実施形態)
本発明の第1実施形態に係る音声認識端末の構成を図1に示す。本音声認識端末は、ナビゲーション端末1の一機能として実現されている。本ナビゲーション端末1は、端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ2側の処理により音声認識を行うセンタ音声認識を利用することが可能となっている。
【0037】
ナビゲーション端末1は、マイク10、スピーカ11、表示部12、操作部13、通信部14および制御部15を備えている。
【0038】
マイク10は、ユーザの音声を集音するためのものであり、ユーザの音声に応じた音声信号を制御部15へ送出する。スピーカ11は、制御部15より入力される音声信号に応じた音声を出力する。
【0039】
表示部12は、液晶等のディスプレイを有し、当該ディスプレイに制御部15より入力される映像信号に応じた映像を表示させる。
【0040】
操作部13は、表示部12のディスプレイの前面に重ねて配置されたタッチスイッチ、ディスプレイの周囲に配置されたメカニカルスイッチ等により構成され、ユーザのスイッチ操作に応じた信号を制御部15へ送出する。
【0041】
通信部14は、無線通信網を介して外部機器と通信を行うためのものである。本実施形態では、無線通信網を介してセンタ2に設置されたサーバ20と通信を行うことが可能となっている。
【0042】
制御部15は、CPU、メモリ、I/O等を備えたコンピュータとして構成されており、CPUはメモリに記憶されたプログラムに従って各種処理を実施する。
【0043】
本実施形態における制御部15は、音声解析処理を実施することが可能となっている。すなわち、通信部14を介して接続されたセンタ2のサーバ20にて実施されるセンタ音声認識処理に伴ってスピーカ11より出力させる音声(トークバック音声およびガイダンス音声)の音声解析処理を実施し、この解析結果に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴(例えば、性別、口調)を特定する。なお、周波数解析により性別(男性または女性)を特定し、音声の韻律解析により口調(ロボット口調またはオペレータ口調)等を特定することができる。また、音声解析によりバックグラウンド音の有無を特定することもできる。
【0044】
制御部15は、音声合成部(図示せず)を有しており、当該音声合成部にスピーカ11より出力させる音声の性別、口調(ロボット口調またはオペレータ口調)を指定すると、指定した特徴の音声が音声合成部により生成され、スピーカ11より出力されるようになっている。
【0045】
本ナビゲーション装置1では、ユーザ操作に応じてメニュー画面を表示させるようになっている。このメニュー画面には、音声入力された電話番号に該当する施設を検索する電話番号検索、音声入力された住所に該当する施設を検索する住所検索、音声入力された楽曲に該当する楽曲を検索する楽曲検索、音声入力された内容に関する情報を検索する情報検索、音声入力されたニュースを検索するニュース検索等がある。
【0046】
本実施形態では、ユーザにより電話番号検索、住所検索、楽曲検索が指示された場合には、ローカル音声認識による音声認識サービスを実施し、情報検索およびニュース検索が指示された場合には、センタ2側でのセンタ音声認識を利用したサービスを実施するようになっている。
【0047】
図2に、制御部15のフローチャートを示す。メニュー画面に従ってユーザによる音声認識処理の開始を指示する操作が実施されると、制御部15は図に示す処理を実施する。
【0048】
まず、センタ音声認識に伴ってスピーカ11より出力させる音声の音声解析を実施して、当該音声の特徴を特定する(S100)。具体的には、周波数解析により性別(男性または女性)を特定し、音声の韻律解析により口調(ロボット口調またはオペレータ口調)を特定する。また、更に、バックグラウンド音の有無についても特定する。なお、ここでは、センタ音声認識に伴ってスピーカ11より出力させる音声の特徴が、女性、オペレータ口調と解析され、バックグラウンド音が有ると判定されたものとする。
【0049】
次に、メニュー画面に従って、ユーザにより指示された内容に基づき、ローカル音声認識か否かを判定する(S102)。ここで、例えば、ユーザにより電話番号検索が指示された場合、S102の判定はYESとなり、次に、センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカ11より出力させる音声の特徴を決定する(S104)。具体的には、ローカル音声認識に伴ってスピーカ11より出力させる音声の特徴として、男性、ロボット口調、バックグラウンド音なしと決定する。
【0050】
次に、S104にて決定した音声の特徴となるようにガイダンス音声を加工してスピーカ11より流す(S106)。具体的には、バックグラウンド音なしの状態で、男性およびロボット口調となるように加工して、例えば、「電話番号を発声してください」といったガイダンス音声をスピーカ11より音声出力させる。
【0051】
次に、ローカル音声認識を実施する(S108)。ここで、ユーザが、例えば、「01−2345−6789」と発声すると、この音声を音声認識する。
【0052】
次に、S104にて決定した音声の特徴となるようにトークバック音声を加工してスピーカ11より流す(S110)。具体的には、バックグラウンド音なしの状態で、男性およびロボット口調となるように加工して、「01−2345−6789ですね」といったトークバック音声をスピーカ11より音声出力させる。
【0053】
次に、音声認識結果に基づく機能を実行する(S112)。具体的には、認識した電話番号について電話番号検索を実行し、検索結果を表示部12に表示させ、本処理を終了する。
【0054】
また、メニュー画面に従って、例えば、ユーザにより情報検索が指示された場合、S102の判定はNOとなり、次に、センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるようにセンタ音声認識に伴ってスピーカ11より出力させる音声の特徴を決定する(S114)。ここでは、S100にて特定した特徴を、そのままセンタ音声認識に伴ってスピーカ11より出力させる音声の特徴とする。すなわち、女性、オペレータ口調、バックグラウンド音ありと決定する。
【0055】
次に、S114にて決定した音声の特徴に従ってガイダンス音声をスピーカ11より流す(S116)。具体的には、バックグラウンド音ありの状態で、女性およびオペレータ口調で、例えば、「検索条件を発声してください」といったガイダンスをスピーカ11より音声出力させる。
【0056】
次に、センタ音声認識を実施する(S118)。ここで、ユーザが、例えば、「渋谷のおいしいラーメン屋」と発声すると、この音声を音声認識する。
【0057】
次に、S114にて決定した音声の特徴に従ってトークバック音声を発声せる(S120)。具体的には、バックグラウンド音ありの状態で、女性およびオペレータ口調で、例えば、「渋谷のおいしいラーメン屋ですね」といったトークバック音声をスピーカ11より音声出力させる。
【0058】
次に、音声認識結果に基づく機能を実行する(S112)。具体的には、認識した検索条件について情報検索を実行し、検索結果を表示部12に表示させ、本処理を終了する。
【0059】
上記した構成によれば、センタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカより出力させる音声を加工し、この加工された音声を用いて音声認識に伴う音声がスピーカより出力されるので、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。
【0060】
また、センタ音声認識に伴ってスピーカより出力させる音声の特徴(性別および口調)を特定し、この特徴に基づいてセンタ音声認識に伴ってスピーカより出力させる音声とローカル音声認識に伴ってスピーカより出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、センタ音声認識に伴ってスピーカより出力させる音声の特徴が変化しても、ユーザはローカル音声認識とセンタ音声認識を容易に区別することができる。
【0061】
また、センタ音声認識に伴ってスピーカより出力させる音声にバックグラウンド音が流れるので、ユーザは音声認識に伴ってスピーカより流れるバックグラウンド音の有無により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
【0062】
また、センタ音声認識に伴ってスピーカより出力させる音声の性別を特定し、この音声の性別と異なる性別の音声となるようにローカル音声認識に伴ってスピーカより出力させる音声が加工されるので、ユーザは音声認識に伴ってスピーカより出力される音声の性別により、ローカル音声認識とセンタ音声認識を容易に区別することができる。
【0063】
なお、本実施形態では、センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるようにローカル音声認識に伴ってスピーカ11より出力させる音声を加工したが、反対に、センタ音声認識に伴ってスピーカ11より出力させる音声を加工するようにしてもよい。この場合、例えば、センタ音声認識に伴ってスピーカ11より出力させる音声が女性の場合、男性の音声に聞こえるように、より低音となるように音声を加工し、反対に、センタ音声認識に伴ってスピーカ11より出力させる音声が男性の場合、女性の音声に聞こえるように、より高音となるように音声を加工すればよい。
【0064】
また、本実施形態では、センタ音声認識に伴ってスピーカ11より出力させる音声とローカル音声認識に伴ってスピーカ11より出力させる音声の特徴が区別可能となるように、音声の性別、口調およびバックグラウンド音の有無を異ならせたが、これらの少なくとも1つを異ならせるようにしてもよい。また、別々のバックグラウンド音を流すようにしてもよい。
【0065】
(第2実施形態)
上記第1実施形態では、センタ2のサーバ20にて実施されるセンタ音声認識処理に伴ってスピーカ11より出力させる音声(トークバック音声およびガイダンス音声)の音声解析を実施して、当該音声の特徴(例えば、性別、口調)を特定したが、本実施形態では、センタ音声認識に伴ってスピーカより出力させる音声の特徴を特定するための情報を制御部15のメモリに記憶させておき、このメモリに記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定する。
【0066】
すなわち、ナビゲーション装置1の基本設定画面に従って、センタ音声認識に伴ってスピーカより出力させる音声の特徴(例えば、性別、口調)およびバックグラウンド音の有無をユーザが指定するようになっており、ユーザが、基本設定画面に従って、過去にセンタ音声認識を実施した際の音声の特徴を指定すると、指定された特徴が制御部15のメモリに記憶されるようになっている。以降、制御部15のメモリに記憶された情報に基づいてセンタ音声認識に伴ってスピーカより出力させる音声の特徴を特定することが可能となる。
【0067】
(その他の実施形態)
上記実施形態では、本音声認識端末をナビゲーション端末1の一機能として実現したが、このような構成に限定されるものではなく、例えば、ナビゲーション機能を省略した音声認識専用端末として構成することもできる。
【0068】
また、上記第1、第2実施形態では、音声の性別、口調、バックグラウンド音の有無が異なるように、ローカル音声認識に伴ってスピーカ11より出力させる音声とセンタ音声認識に伴ってスピーカ11より出力させる音声の少なくとも一方を加工する構成を示したが、例えば、音声に雑音を重畳させたり、音声歪みを発声させたり、音量を低下させる等、音声の質を意図的に劣化させるように加工しても良い。
【0069】
また、複数のスピーカ11を備え、センタ音声認識に伴ってスピーカ11より出力させる音声の位置とローカル音声認識に伴ってスピーカ11より出力させる音声の位置が異なるように、各スピーカ11より出力させる音声の音量を異ならせるようにしてもよい。
【0070】
また、ローカル音声認識であるかセンタ音声認識であるかを示すメッセージを表示部12に表示させるようにしてもよい。更に、ローカル音声認識であるかセンタ音声認識であるかを示すメッセージをスピーカより音声出力させてもよい。
【0071】
また、男性の音声を出力させる場合には男性のキャラクターを表示させ、女性の音声を出力させる場合には女性のキャラクターを表示させてもよい。
【0072】
また、スピーカよりバックグラウンド音を流す場合には、音声認識の認識率が低下することも考えられるため、例えば、入力信号に基づいて自己適応する適応フィルタを用いてバックグラウンド音による認識率の低下を防ぐようにしてもよい。
【0073】
また、例えば、センタ音声認識の場合にはオートアンテナを伸ばし、ローカル音声認識の場合にはオートアンテナを格納する等、ローカル音声認識であるかセンタ音声認識であるかを車載装備の状態により認識できるようにしてもよい。
【0074】
なお、上記実施形態における構成と特許請求の範囲の構成との対応関係について説明すると、S104〜S110、S114〜S120が音声加工手段および音声出力手段に相当し、S100が音声特徴特定手段に相当し、制御部15のメモリが記憶手段に相当する。
【符号の説明】
【0075】
1 ナビゲーション端末
2 センタ
10 マイク
11 スピーカ
12 表示部
13 操作部
14 通信部
15 制御部
20 サーバ

【特許請求の範囲】
【請求項1】
端末内の処理により音声認識を行うローカル音声認識と、通信接続されたセンタ側の処理により音声認識を行うセンタ音声認識を利用することが可能な音声認識端末であって、
前記センタ音声認識に伴ってスピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声の特徴が区別可能となるように前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声の少なくとも一方を加工する音声加工手段と、
前記音声加工手段により加工された前記音声を用いて前記音声認識に伴う音声を前記スピーカより出力させる音声出力手段と、を備えたことを特徴とする音声認識端末。
【請求項2】
前記音声加工手段は、前記ローカル音声認識に伴って前記スピーカより出力させる音声の質および前記センタ音声認識に伴って前記スピーカより出力させる音声の質のいずれか一方を意図的に劣化させることを特徴とする請求項1に記載の音声認識端末。
【請求項3】
前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声のいずれか一方にバックグラウンド音を流すことを特徴とする請求項1または2に記載の音声認識端末。
【請求項4】
前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声に、それぞれ異なるバックグラウンド音を流すことを特徴とする請求項1または2に記載の音声認識端末。
【請求項5】
複数の前記スピーカより前記音声を出力させるようになっており、
前記音声加工手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の位置と前記ローカル音声認識に伴って前記スピーカより出力させる音声の位置が異なるように、各スピーカより出力させる音声の音量を異ならせることを特徴とする請求項1ないし4のいずれかつに記載の音声認識端末。
【請求項6】
前記センタ音声認識に伴って前記スピーカより出力させる音声の特徴を特定する音声特徴特定手段を備え、
前記音声加工手段は、前記音声特徴特定手段により特定された前記特徴に基づいて前記センタ音声認識に伴って前記スピーカより出力させる音声と前記ローカル音声認識に伴って前記スピーカより出力させる音声の少なくとも一方を加工することを特徴とする請求項1に記載の音声認識端末。
【請求項7】
前記センタ音声認識に伴って前記スピーカより出力させる音声の特徴を特定するための情報を記憶する記憶手段を備え、
前記音声特徴特定手段は、前記記憶手段に記憶された前記情報に基づいて前記センタ音声認識に伴って前記スピーカより出力させる音声の特徴を特定することを特徴とする請求項6に記載の音声認識端末。
【請求項8】
前記音声特徴特定手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声解析を実施し、当該音声解析の解析結果に基づいて前記センタ音声認識に伴って前記スピーカより出力させる音声の特徴を特定することを特徴とする請求項6に記載の音声認識端末。
【請求項9】
前記音声特徴特定手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の性別を特定し、
前記音声加工手段は、前記音声特徴特定手段により特定された前記センタ音声認識に伴って前記スピーカより出力させる音声の性別と異なる性別の音声となるように前記ローカル音声認識に伴って前記スピーカより出力させる音声を加工することを特徴とする請求項6ないし8のいずれか1つに記載の音声認識端末。
【請求項10】
前記音声特徴特定手段は、前記センタ音声認識に伴って前記スピーカより出力させる音声の口調を特定し、
前記音声加工手段は、前記音声特徴特定手段により特定された前記センタ音声認識に伴って前記スピーカより出力させる音声の口調と異なる口調の音声となるように前記ローカル音声認識に伴って前記スピーカより出力させる音声を加工することを特徴とする請求項8に記載の音声認識端末。

【図1】
image rotate

【図2】
image rotate