説明

音声認識処理装置および音声認識処理方法

【課題】車内の異なる座席に位置する各ユーザごとに、独立したオペレーションを実現することができ、座席ごとに個別の音場環境を提供することを課題とする。
【解決手段】音声認識システムは、車内の各座席に設けられた音声認識用マイクを介して、複数の音声信号の入力を受け付けると、各音声信号の入力元の座席をそれぞれ特定する。続いて、音声認識システムは、音声信号の入力元として特定された各座席に対応する音声認識結果として得られたオペレーション内容に応じて、各座席ごとの音響制御を実行する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識処理装置および音声認識処理方法に関する。
【背景技術】
【0002】
近年、運転席や助手席、後部座席など車内にある座席ごとに、異なる音源ソースを再生して、座席ごとに個別の音場環境を提供するパーソナル音響システムが注目され始めている。
【0003】
このパーソナル音響システムでは、例えば、図4に示すように、ナビ/オーディオ装置が、音声認識用マイクを介して音声入力されたユーザからの発話内容や、リモコンやディスプレイに配置されたタッチパネルを介して操作入力されたユーザからの指示内容を認識し、音声や操作の入力元である座席の乗車者に対して、操作指示内容に応じた音楽等を再生して出力することにより、車内にある座席ごとに個別の音場環境に提供する。
【0004】
また、特許文献1では、車両の乗車者からマイクを介して音声入力された発話内容を精度良く認識して、車載機器を制御する技術が開示されている。
【0005】
【特許文献1】特開2006−286136号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上記したパーソナル音響システムでは、例えば、複数のユーザから音声入力による操作指示を受け付けるケースについては、想定していないという問題点があった。
【0007】
すなわち、上記したパーソナル音響システムでは、複数のユーザから音声入力による操作指示を受け付けた場合に、音声の入力元をそれぞれ特定するとともに、音声入力された各操作指示を個別に認識して処理を行うケースが盲点となっていた。
【0008】
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、車内の異なる座席に位置する各ユーザごとに、独立したオペレーションを実現することができ、座席ごとに個別の音場環境を提供することが可能な音声認識処理装置および音声認識処理方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決し、目的を達成するため、本発明は、車内に配置された各座席に位置するユーザからのオペレーションに関する音声信号を入力する音声入力手段と、前記音声入力手段を介して複数の音声信号の入力を受け付けた場合に、各音声信号の入力元の座席をそれぞれ特定する座席特定手段と、前記音声入力手段を介して入力を受け付けた各音声信号の音声認識を行って、各音声信号を解読したオペレーション内容をそれぞれ取得する音声認識手段と、前記座席特定手段により特定された各座席にそれぞれ対応する前記音声認識手段により取得されたオペレーション内容に応じて、各座席ごとの音響制御を実行する音響制御手段と、を有することを特徴とする。
【0010】
また、本発明は、車内に配置された各座席に位置するユーザからのオペレーションに関する音声信号を音声入力手段により入力する音声入力ステップと、前記音声入力手段を介して複数の音声信号の入力を同時に受け付けた場合に、各音声信号の入力元の座席を座席特定手段によりそれぞれ特定する座席特定ステップと、前記音声入力手段を介して入力を受け付けた各音声信号の音声認識を行って、各音声信号を解読したオペレーション内容を音声認識手段によりそれぞれ取得する音声認識ステップと、前記座席特定手段により特定された各座席にそれぞれ対応する前記音声認識手段により取得されたオペレーション内容に応じて、各座席ごとの音響制御を音響制御手段により実行する音響制御ステップと、を含んだことを特徴とする。
【発明の効果】
【0011】
本発明によれば、車内の異なる座席に位置する各ユーザごとに、独立したオペレーション(音源データを提供するための処理)を実現することができ、座席ごとに個別の音場環境を提供することが可能である。
【発明を実施するための最良の形態】
【0012】
以下に添付図面を参照して、この発明に係る音声認識処理装置および音声認識処理方法の実施例を詳細に説明する。なお、以下では、本発明に係る音声認識処理装置に対応する音声認識処理システムが適用されたナビ/オーディオ装置を実施例1として説明した後に、本発明に含まれる他の実施例を説明する。
【実施例1】
【0013】
以下の実施例1では、実施例1に係るナビ/オーディオ装置の概要および特徴、かかるナビ/オーディオ装置の構成および処理を順に説明し、最後に実施例1による効果を説明する。
【0014】
[ナビ/オーディオ装置の概要および特徴(実施例1)]
まず、図1を用いて、実施例1に係るナビ/オーディオ装置の概要および特徴を説明する。図1は、実施例1に係るナビ/オーディオ装置の概要および特徴を説明するための図である。
【0015】
実施例1に係るナビ/オーディオ装置は、車両内部の搭載される装置であり、音声認識用マイクを介して音声入力された乗車者からの発話内容を音声認識し、音声の入力元である座席の乗車者に対して、操作指示内容に応じた音楽等を再生して出力することを概要とする。
【0016】
そして、実施例1に係るナビ/オーディオ装置は、車内の異なる座席に位置する各ユーザごとに、独立したオペレーションを実現することができる点に主たる特徴があり、座席ごとに個別の音場環境を提供することが可能となる。
【0017】
この主たる特徴について具体的に説明すると、図1に示すように、実施例1に係るナビ/オーディオ装置は、音声認識処理システムとパーソナル音響システムを有し、車内の各座席には、音声認識用マイクおよび音源データ出力用のスピーカが設けられている。
【0018】
音声認識システムは、車内の各座席に設けられた音声認識用マイクを介して、複数の音声信号の入力を受け付けると(図1の(1)参照)、各音声信号の入力元の座席をそれぞれ特定する(図1の(2)参照)。
【0019】
具体的には、音声認識システムは、各音声信号の時間および/または音圧を解析して、どの座席に設置された音声認識マイクであるかをそれぞれ特定することにより、各音声信号の入力元の座席をそれぞれ特定する。
【0020】
次に、音声認識システムは、同時に受け付けられた各音声信号の音声認識を実行する(図1の(3)参照)。
【0021】
続いて、音声認識システムは、音声信号の入力元として特定された各座席に対応する音声認識結果として得られたオペレーション内容に応じて、各座席ごとの音響制御を実行する(図1の(4)参照)。
【0022】
具体的には、音声認識システムは、音声信号の入力元として特定された各座席と、各音声信号の音声認識結果であるオペレーション内容とを関連付けて、各座席ごとの音源データの出力指示をパーソナル音響システムに出力する。
【0023】
パーソナル音響システムは、音声認識処理システムから音源データの出力指示を受け付けると、各座席に関連付けられたオペレーション内容に応じて、内部に蓄積する音源データを取り込んで再生し、各座席ごとに、各座席に設けられたスピーカを介して出力する(図1の(5)参照)。
【0024】
このようなことから、実施例1に係るナビ/オーディオ装置は、上述した主たる特徴のように、車内の異なる座席に位置する各ユーザごとに、独立したオペレーションを実現することができ、座席ごとに個別の音場環境を提供することが可能となる。
【0025】
[ナビ/オーディオ装置の構成(実施例1)]
次に、図2を用いて、実施例1に係るナビ/オーディオ装置の構成を説明する。図2は、実施例1に係るナビ/オーディオ装置の構成を示す図である。
【0026】
図2に示すように、実施例1に係るナビ/オーディオ装置100は、音声認識処理システム200と、パーソナル音響システム300とを有する。
【0027】
音声認識処理システム200は、音声認識用マイクを介して音声入力された乗車者からの発話内容を音声認識するシステムであり、図2に示すように、音声信号入力受付部210と、座席特定処理部220と、音声認識処理部230と、音響制御部240とを有する。
【0028】
なお、例えば、音声認識用マイクに発話ボタンを備えておき、車両の乗車者が、発話ボタンを押し下げてから音声入力を行うようにすることで、音声認識処理システム200側に発話ボタンの押し下げに伴う信号の受付を処理トリガーとして認識させるようにしてもよい。
【0029】
音声信号入力受付部210は、車内の各座席に設けられた音声認識用マイクを介して、複数の音声信号の入力を受け付けると、受け付けられた各音声信号を後述する座席特定処理部220および音声認識処理部230にそれぞれ出力する。
【0030】
座席特定処理部220は、音声信号入力受付部210から受け付けた各音声信号の時間および/または音圧を解析して、どの座席に設置された音声認識マイクであるかをそれぞれ特定することにより、各音声信号の入力元の座席をそれぞれ特定する。
【0031】
そして、座席特定処理部220は、各音声信号の入力元の座席を特定する情報を後述する音響制御部240に出力する。
【0032】
音声認識処理部230は、音声信号入力受付部210から受け付けた各音声信号の音声認識を実行する。音声認識の方法としては、音声信号の波形をパターン認識して文字に翻訳するなど、一般的な方法を用いることができる。
【0033】
そして、音声認識処理部230は、音声認識結果として得られた各音声信号ごとのオペレーション内容を後述する音響制御部240に出力する。
【0034】
音響制御部240は、音声信号の入力元として特定された各座席に対応する音声認識結果として得られたオペレーション内容に応じて、各座席ごとの音響制御を実行する。
【0035】
具体的には、音響制御部240は、座席特定処理部220から受け付けた各音声信号の入力元の座席を特定する情報に基づいて、音声信号の入力元として特定された各座席と、音声認識処理部230から受け付けた各音声信号ごとのオペレーション内容とを関連付ける。
【0036】
そして、音響制御部240は、例えば、各座席からのオペレーション内容が音源データの再生である場合には、各座席ごとの音源データの出力指示をパーソナル音響システム300に出力する。
【0037】
なお、音声認識用マイクを介して、車内の各座席に位置するユーザから音声信号として入力されたオペレーション内容は、例えば、ユーザ自身が聞きたい音源データの出力を要求するオペレーションである場合や、助手席に位置するユーザが、運転席など他席に位置するユーザに聞かせたい音源データを、他席に出力するように要求するオペレーションである場合など、様々なオペレーションが存在する。
【0038】
パーソナル音響システム300は、座席ごとに個別の音場環境を提供するシステムであり、図2に示すように、音源データ蓄積部310と、音源データ取込部320と、音源データ出力制御部330とを有する。
【0039】
音源データ蓄積部310は、例えば、音楽コンテンツなどの音源データを予め蓄積する。
【0040】
音源データ取込部320は、音声認識処理システム200から音源データの出力指示を受け付けると、各座席のオペレーション内容に合致する音源データを音源データ蓄積部310からそれぞれ取り込んで、音源データ出力制御部330に出力する。
【0041】
音源データ出力制御部330は、音源データ取込部320から受け付けた各座席の音源データを再生して、各座席ごとに、各座席に設けられたスピーカを介して出力する。
【0042】
[ナビ/オーディオ装置の処理(実施例1)]
続いて、図3を用いて、実施例1に係るナビ/オーディオ装置の処理を説明する。図3は、実施例1に係るナビ/オーディオ装置の処理の流れを示す図である。
【0043】
なお、以下では、音声信号入力受付部210により、車内の各座席に設けられた音声認識用マイクを介して、複数の音声信号の入力が受け付けられた場合以降の処理の流れを説明する。
【0044】
図3に示すように、音声認識処理システム200の座席特定処理部220は、音声信号入力受付部210から受け付けた各音声信号の時間および/または音圧を解析して、どの座席に設置された音声認識マイクであるかをそれぞれ特定することにより、各音声信号の入力元の座席をそれぞれ特定する(ステップS301)。
【0045】
音声認識処理システム200の音声認識処理部230は、音声信号入力受付部210から受け付けた各音声信号の音声認識を実行する(ステップS302)。
【0046】
音声認識処理システム200の音響制御部240は、音声信号の入力元として特定された各座席に対応する音声認識結果として得られたオペレーション内容に応じて、各座席ごとの音響制御を実行する(ステップS303)。
【0047】
具体的には、音響制御部240は、座席特定処理部220から受け付けた各音声信号の入力元の座席を特定する情報に基づいて、音声信号の入力元として特定された各座席と、音声認識処理部230から受け付けた各音声信号ごとのオペレーション内容とを関連付ける。
【0048】
そして、音響制御部240は、例えば、オペレーション内容が音源データの再生である場合には、各座席ごとの音源データの出力指示をパーソナル音響システム300に出力する。
【0049】
なお、図には示していないが、パーソナル音響システム300は、音声認識処理システム200から音源データの出力指示を受け付けると、各座席の音源データを再生して、各座席ごとに、各座席に設けられたスピーカを介して出力する。
【0050】
[実施例1による効果]
実施例1によれば、車内の異なる座席に位置する各ユーザごとに、独立したオペレーション(音源データを提供するための処理)を実現することができ、座席ごとに個別の音場環境を提供することが可能である。
【0051】
また、実施例1によれば、リモコンやタッチパネルを介した操作を必要とすることなく、音声による操作指示によって、ユーザは簡易に個別の音場環境の提供を受けることができる。
【0052】
また、上記の実施例1では、車内の各座席に設けられた音声認識用マイクを介して、複数の音声信号の入力を受け付けた場合に、各音声信号の時間および/または音圧を解析して、どの座席に設置された音声認識マイクであるかをそれぞれ特定することにより、各音声信号の入力元の座席をそれぞれ特定する場合を説明した。
【0053】
しかしながら、これに限定されるものではなく、近接する複数の音声認識用マイクを車内の一箇所に設け、マイクに入力される音声信号を到来方向を認識する技術を利用することにより、各音声信号の入力元の座席をそれぞれ特定するようにしてもよい。
【0054】
また、上記の実施例1において、他席に位置するユーザからのオペレーションを受け付けないようにロックするようにしてもよい。
【0055】
なお、上記の実施例1で説明したナビ・オーディオ装置100は、座席ごとに個別の音場環境を提供するだけでなく、各座席に設けたディスプレイなどに、映像データを出力して映像環境を提供する場合にも、同様に適用することができる。
【0056】
例えば、各座席からのオペレーション内容が映像データの再生である場合には、図2に示す音響制御部240は、各座席ごとの映像データの出力指示をパーソナル音響システム300に出力する。
【0057】
図2に示す音源データ蓄積部310には、音源データだけでなく、映像コンテンツなどの映像データを蓄積されており、音源データ取込部320は、オペレーション内容に合致する映像データを音源データ蓄積部310からそれぞれ取り込んで、音源データ出力制御部330に出力する。
【0058】
そして、音源データ出力制御部330は、音源データ取込部320から受け付けた各座席の映像データを再生して、各座席ごとに、各座席に設けられたディスプレイを介して出力する。
【0059】
さらに、図2には示していないが、ナビ/オーディオ装置100は、放送局から放送されるTV映像を受信するためのTV受信部を有し、例えば、各座席からのオペレーション内容がTV映像の出力である場合には、音響制御部240は、各座席ごとのTV映像の出力指示をパーソナル音響システム300に出力する。
【0060】
音源データ出力制御部330は、音声認識処理システム200からTV映像の出力指示を受け付けると、受け付けられたTV映像の出力指示内容に応じて、各座席ごとに、各座席に設けられたディスプレイを介してTV映像を出力する。
【0061】
また、各座席からのオペレーション内容が、音源データの再生、映像データの再生あるいはTV映像の出力が混在している場合であっても、上述してきたのと同様にして、各席ごとに、音源データ、映像データあるいはTV映像を個別に提供することができる。
【実施例2】
【0062】
さて、これまで本発明の実施例1について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
【0063】
(1)運転席のユーザからのオペレーションを優先処理
上記の実施例1において、複数の音声信号の入力元として特定された座席に運転席がある場合には、運転席からのオペレーションを優先的に処理するように制御してもよい。
【0064】
具体的には、音響制御部240は、座席特定処理部220から受け付けた各音声信号の入力元の座席を特定する情報に基づいて、音声信号の入力元として特定された各座席の中に運転席が存在するか否かを判定する。
【0065】
判定の結果、音響制御部240は、音声信号の入力元として特定された各座席の中に運転席が存在する場合には、声認識処理部230から受け付けた各音声信号ごとのオペレーション内容から、運転席を入力元とするオペレーション内容を抽出する。
【0066】
そして、音響制御部240は、運転席のオペレーション内容に応じた処理を実行するように、パーソナル音響システム300に指示を出力する。
【0067】
例えば、運手席に自己が聞いている音源データを出力するように要求する助手席のユーザからのオペレーションと、他席に出力されている音源データを全て消音するように要求する運転席のユーザからのオペレーションがあった場合には、運転席のユーザからのオペレーションを優先して実行し、他席に出力されている音源データを全て消音するように制御する。
【0068】
このように、車内の異なる座席に位置する各ユーザごとに、独立したオペレーション(音源データを提供するための処理)を実現することを利用して、運転席からのオペレーションを優先的に処理するように制御するので、車両走行の安全性に配慮しつつ、座席ごとに個別の音場環境を提供することが可能である。
【0069】
(2)装置構成等
図2に示したナビ/オーディオ装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
【0070】
すなわち、ナビ/オーディオ装置100の分散・統合の具体的形態は図示のものに限られず、例えば、音声認識処理システム200が有する座席特定処理部220と、音声認識処理部230と、音響制御部240とを統合し、あるいは、パーソナル音響システム300が有する音源データ取込無310と音源データ出力制御部330とを統合するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0071】
さらに、ナビ/オーディオ装置100にて行なわれる各処理機能(例えば、図3参照)は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0072】
(3)音声認識処理方法
上記の実施例1で説明したナビ/オーディオ装置100により、以下のような音声認識処理方法が実現される。
【0073】
すなわち、車内に配置された各座席に位置するユーザからのオペレーションに関する音声信号を音声入力手段により入力する音声入力ステップと、音声入力手段を介して複数の音声信号の入力を同時に受け付けた場合に、各音声信号の入力元の座席を座席特定手段によりそれぞれ特定する座席特定ステップと(図3のステップS301参照)、音声入力手段を介して入力を受け付けた各音声信号の音声認識を行って、各音声信号を解読したオペレーション内容を音声認識手段によりそれぞれ取得する音声認識ステップと(図3のステップS302参照)、前記座席特定手段により特定された各座席にそれぞれ対応する前記音声認識手段により取得されたオペレーション内容に応じて、各座席ごとの音響制御を音響制御手段により実行する音響制御ステップと(図3のステップS303参照)、を含んだ音声認識処理方法が実現される。
【産業上の利用可能性】
【0074】
以上のように、本発明に係る音声認識処理装置および音声認識処理方法は、音声認識用マイクを介して音声入力された乗車者からの発話内容を音声認識し、音声の入力元である座席の乗車者に対して、操作指示内容に応じた音楽等を再生して出力することに有用であり、特に、車内の異なる座席に位置する各ユーザごとに、独立したオペレーションを実現することができ、座席ごとに個別の音場環境を提供することに適する。
【図面の簡単な説明】
【0075】
【図1】実施例1に係るナビ/オーディオ装置の概要および特徴を説明するための図である。
【図2】実施例1に係るナビ/オーディオ装置の構成を示す図である。
【図3】実施例1に係るナビ/オーディオ装置の処理の流れを示す図である。
【図4】従来技術を示す図である。
【符号の説明】
【0076】
100 ナビ/オーディオ装置
200 音声認識処理システム
210 音声信号入力受付部
220 座席特定処理部
230 音声認識処理部
240 音響制御部
300 各種アプリケーション
310 音源データ蓄積部
320 音源データ取込部
330 音源データ出力制御部

【特許請求の範囲】
【請求項1】
車内に配置された各座席に位置するユーザからのオペレーションに関する音声信号を入力する音声入力手段と、
前記音声入力手段を介して複数の音声信号の入力を受け付けた場合に、各音声信号の入力元の座席をそれぞれ特定する座席特定手段と、
前記音声入力手段を介して入力を受け付けた各音声信号の音声認識を行って、各音声信号を解読したオペレーション内容をそれぞれ取得する音声認識手段と、
前記座席特定手段により特定された各座席にそれぞれ対応する前記音声認識手段により取得されたオペレーション内容に応じて、各座席ごとの音響制御を実行する音響制御手段と、
を有することを特徴とする音声認識処理装置。
【請求項2】
前記音声入力手段は、前記座席ごとに個別に設けられるものであって、
前記音声入力手段を介して複数の音声信号の入力を受け付けた場合に、前記座席特定手段は、前記音声入力手段を介して入力を受け付けた各音声信号の時間および/または音圧を解析して、各音声信号の入力元の座席をそれぞれ特定することを特徴とする請求項1に記載の音声認識処理装置。
【請求項3】
前記音響制御手段は、前記座席特定手段により特定された各座席の中に運転席がある場合には、前記音声認識手段により取得された各オペレーション内容の中から、前記運転席に対応するオペレーション内容に応じた音響制御を優先的に実行することを特徴とする請求項1または2に記載の音声認識処理装置。
【請求項4】
車内に配置された各座席に位置するユーザからのオペレーションに関する音声信号を音声入力手段により入力する音声入力ステップと、
前記音声入力手段を介して複数の音声信号の入力を同時に受け付けた場合に、各音声信号の入力元の座席を座席特定手段によりそれぞれ特定する座席特定ステップと、
前記音声入力手段を介して入力を受け付けた各音声信号の音声認識を行って、各音声信号を解読したオペレーション内容を音声認識手段によりそれぞれ取得する音声認識ステップと、
前記座席特定手段により特定された各座席にそれぞれ対応する前記音声認識手段により取得されたオペレーション内容に応じて、各座席ごとの音響制御を音響制御手段により実行する音響制御ステップと、
を含んだことを特徴とする音声認識処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2010−47093(P2010−47093A)
【公開日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2008−212115(P2008−212115)
【出願日】平成20年8月20日(2008.8.20)
【出願人】(000237592)富士通テン株式会社 (3,383)
【Fターム(参考)】