音響処理システム及びこれを用いた機械
【課題】機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供する。
【解決手段】音響処理システムにおいて、音を収音する複数のマイクロホンからなる音入力部201と、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部206と、前記音入力部201から出力された信号を入力として前記危険度算出部206で算出された危険度に応じた分離信号を出力する音抽出部203と、前記音抽出部203から出力された分離信号を出力する音出力部219と、を有する。
【解決手段】音響処理システムにおいて、音を収音する複数のマイクロホンからなる音入力部201と、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部206と、前記音入力部201から出力された信号を入力として前記危険度算出部206で算出された危険度に応じた分離信号を出力する音抽出部203と、前記音抽出部203から出力された分離信号を出力する音出力部219と、を有する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に適用して有効な技術に関する。
【背景技術】
【0002】
建設機械、車両、作業機械などの比較的大型の機械では、機械周囲の人物の安全のために、オペレータもしくは運転者(以下、オペレータという)が常に機械周囲の人物の状況を把握して、その都度危険を回避する必要がある。オペレータが機械周囲の人物の状況を知る上で重要な情報の一つが、周囲の人物が発声する音声である。
【0003】
周囲の人物の音声を収音するために機械外部にマイクロホンを設置し、収音された音をオペレータに提示することで、オペレータに周囲の人物の状況を把握させることを想定する。マイクロホンで収音される音には、周囲の人物の音声だけでなく、機械動作にともなうエンジン音、機械駆動音、掘削音などが同時に混入するので、収音される音から周囲の人物の音声のみを抽出し、オペレータに提示する必要がある。
【0004】
複数のマイクロホン(マイクロホンアレー)を用いた音源分離技術を用いれば、特定の位置から到来する音声のみを抽出することが可能である。ただし、以下の2点の課題がある。
【0005】
一つ目に、音源分離では、音声を抽出する位置、すなわち人物が存在する位置を指定しなければならない点が課題である。たとえば、スパース性を仮定した位置推定に基づく音源分離方式(たとえば、特許文献1)は、指定した抽出位置を目的音源位置、それ以外を妨害音源位置としてフィルタを適応し、音源分離を行う。このため、位置の指定が必要である。また、音源の位置を指定せずに各音源の音を抽出するブラインド音源分離という技術も存在するが、その場合にも、複数個得られた音響信号のうち、どの音が抽出すべき信号であったのかを判断する問題が残る。
【0006】
二つ目に、音源分離の「精度」とフィルタ適応時間のトレードオフが存在する点が課題である。ここでの精度とは、抽出された音が元の目的音源の音にどれだけ近いかを意味する。一般的に、高精度に抽出するための適応方式(たとえば、非特許文献1の独立成分分析)は、瞬時的な入力信号だけではフィルタの適応ができず、オペレータが周囲の人物の状況を把握し危険回避の判断をすることはできない(以下、「瞬時的」とは、音の提示を受けてからオペレータが危険回避行動を実施するまでの時間より十分短い時間であることを意味する)。
【0007】
その一方で、瞬時的な入力信号だけを用いて抽出が可能な音源分離アルゴリズムが存在する(たとえば、非特許文献2のバイナリマスキング)が、一般にその精度は低く、騒音が混入するので、周囲の人物が何を話しているかまでをオペレータが認識することは困難である。また、常にオペレータが分離されずに残留した騒音にさらされるという問題もある。
【0008】
また、リアルタイム処理と分離精度を両立するために、状況に応じて前記独立成分分析と音量差に基づくバイナリマスキングとを選択する方式がある(たとえば、特許文献2)。特許文献2では、独立成分分析の分離行列の収束度によって選択を行う実施例が示されている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2007−47427号公報
【特許文献2】特開2007−33825号公報
【非特許文献】
【0010】
【非特許文献1】T.Takatani,T.Nishikawa,H.Saruwatari,and K.Shikano, “Blind separation of binaural sound mixtures using SIMO−model−based independent component analysis,” ICASSP2004,vol.4,pp.113−116,2004.
【非特許文献2】O.Yilmaz and S.Rickard, “Blind separation of speech mixtures via time−frequency masking,” IEEE Trans. Signal Process.,vol.52,no.7,pp.1830−1847,July 2004.
【非特許文献3】M.Togami,T.Sumiyoshi, and A.Amano, “Stepwise phase difference restoration method for sound source localization using multiple microphone pairs,” ICASSP2007,vol.I,pp.117−120,2007.
【発明の概要】
【発明が解決しようとする課題】
【0011】
ところで、前記した特許文献2において、収束度の基準で選択するメリットは、分離精度がバイナリマスキング未満まで低下しないという安定性である。周囲の人物の安全を最重要とする本発明においては、危険回避が必要な場合であるほど瞬時性が必要であるが、この課題は分離精度の安定性を重視する特許文献2の発明によっては解決できない。また、そもそも前記で述べた抽出すべき位置の指定の課題も解決できない。
【0012】
そこで、本発明は、前記課題を解決するためになされたものであり、その代表的な目的は、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することにある。
【0013】
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
【課題を解決するための手段】
【0014】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。
【0015】
すなわち、代表的な音響処理システムは、音を収音する複数のマイクロホンからなる音入力部と、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする。さらに、以下のような特徴を有しても良い。
【0016】
前記音抽出部は、相対的に危険度が高い各位置を抽出位置とする複数の音源分離ユニットから構成される。各音源分離ユニットの抽出方式は、対応する抽出位置の危険度が高い場合には瞬時的に抽出可能な方式とし、抽出位置の危険度が低い場合には高精度に抽出可能な方式とする。
【0017】
前記危険度は、機械の運動状態と人物位置の検出結果から算出される。機械の運動状態は、機械運動状態推定部により作業機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される。人物検出は、音声非音声判別結果と映像に基づく動体検出結果を組み合わせることで行う。音声非音声判別は、前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、該音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部により実現する。動体検出は、可視光線カメラもしくは赤外線カメラなどの1以上のカメラからなる映像入力部と、該映像入力部が出力する映像に基づいて動体検出を行う動体検出部により実現する。また、位置ごとの危険度に応じて音源位置推定部は推定方法を変え、動体検出部は検出方法を変える。
【0018】
前記危険度に応じて映像を表示する映像出力部と、前記危険度に基づいて機械外部に対する外部向け出力音を生成する外部向け出力音生成部と、該外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、前記危険度に基づいて機械の動作を制御する機械制御部を有する。
【発明の効果】
【0019】
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば、以下のとおりである。
【0020】
すなわち、代表的な音響処理システムによれば、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施の形態1における音響処理システムのハードウェア構成の一例を示す図である。
【図2】本発明の実施の形態1における音響処理システムのブロック構成の一例を示す図である。
【図3】図2に示す音入力部のブロック構成の一例を示す図である。
【図4】図2に示す音源位置推定部のブロック構成の一例を示す図である。
【図5】図2に示す動体検出部のブロック構成の一例を示す図である。
【図6】図2に示す音抽出部のブロック構成の一例を示す図である。
【図7】図2において、あるフレームτにおける周波数領域信号Xf(f,τ)のデータ構造の一例を示す図である。
【図8】図2において、音源分離ユニットが選択する方式2がスパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す図である。
【図9】図2に示す音抽出部の処理フローの一例を示すフローチャートである。
【図10】本発明の実施の形態3における音響処理システムのブロック構成の一例を示す図である。
【図11】本発明の実施の形態4における音響処理システムのブロック構成の一例を示す図である。
【図12】図2に示す音源位置推定部におけるSPIREアルゴリズムの一例を示すフローチャートである。
【図13】本発明の実施の形態1における音響処理システムを建設機械に適用した場合の外観の一例を示す図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態を、たとえば建設機械と一体となった音響処理システムを例に図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0023】
<実施の形態1>
以下、本発明の実施の形態1を、図1〜図9、図12、図13を用いて説明する。
【0024】
図1は、本発明の実施の形態1における音響処理システムのハードウェア構成の一例を示す図である。
【0025】
本実施の形態における音響処理システム100のハードウェア構成は、マイクロホンアレー1011〜101M、スピーカアレー1021〜102S、可視光線カメラ1031〜103A、赤外線カメラ1041〜104B、マイクロホン105、ヘッドホン106、A/D−D/A変換装置107、中央演算装置108、揮発性メモリ109、記憶媒体110、画像表示装置111、オーディオケーブル1141〜114M,1151〜115S,116,117、モニタケーブル118、デジタルケーブル119,1201〜120A,1211〜121Bなどから構成される。この音響処理システム100は、作業機械112、機械操作入力部113などから構成される建設機械と一体となっている。
【0026】
マイクロホンアレー1011〜101Mは、建設機械外部に装着した、各アレーがN個のマイクロホンからなるマイクロホン群である。スピーカアレー1021〜102Sは、建設機械外部に装着したS個のスピーカ1021〜102Sからなるスピーカ群である。
【0027】
可視光線カメラ1031〜103Aは、建設機械外部に装着した可視光線カメラ群である。赤外線カメラ1041〜104Bは、建設機械外部に装着した赤外線カメラ群である。
【0028】
マイクロホン105は、オペレータが装着するマイクロホンである。ヘッドホン106は、オペレータが装着するヘッドホンである。
【0029】
A/D−D/A変換装置107は、マイクロホンアレー1011〜101Mから出力される信号とマイクロホン105から出力される信号をデジタルデータに変換すると同時に、スピーカアレー1021〜102Sとヘッドホン106にアナログ音圧信号を出力するA/D−D/A変換装置である。
【0030】
中央演算装置108は、A/D−D/A変換装置107の出力を処理する中央演算装置である。揮発性メモリ109は、中央演算装置108における演算処理のデータなどを一時的に格納する揮発性のメモリである。記憶媒体110は、プログラムなどの情報を記憶する記憶媒体である。画像表示装置111は、中央演算装置108における演算処理の情報や画像などを表示する表示装置である。
【0031】
オーディオケーブル1141〜114Mは、マイクロホンアレー1011〜101MとA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル1151〜115Sは、スピーカアレー1021〜102SとA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル116は、マイクロホン105とA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル117は、ヘッドホン106とA/D−D/A変換装置107とを接続するケーブルである。
【0032】
モニタケーブル118は、画像表示装置111と中央演算装置108とを接続するケーブルである。
【0033】
デジタルケーブル119は、A/D−D/A変換装置107と中央演算装置108とを接続するケーブルである。デジタルケーブル1201〜120Aは、可視光線カメラ1031〜103Aと中央演算装置108とを接続するケーブルである。デジタルケーブル1211〜121Bは、赤外線カメラ1041〜104Bと中央演算装置108とを接続するケーブルである。
【0034】
作業機械112は、アームなどを持つ建設機械である。機械操作入力部113は、建設機械の各種操作を入力する部分である。
【0035】
以上のように構成される音響処理システム100のハードウェアの動作は、以下の通りである。
【0036】
マイクロホンアレー1011〜101Mが出力する音圧データは、オーディオケーブル1141〜114Mを介してA/D−D/A変換装置107に送られる。このマイクロホンアレー1011〜101Mからの音圧データは、A/D−D/A変換装置107によってそれぞれデジタル音圧データに変換される。この変換では、信号間で変換タイミングを同期して変換する。変換後のデジタル音圧データは、デジタルケーブル119を介して中央演算装置108に送られ、中央演算装置108で音響信号処理が施される。この音響信号処理後のデジタル音圧データはデジタルケーブル119を介して、A/D−D/A変換装置107に送られる。この中央演算装置108からのデジタル音圧データは、A/D−D/A変換装置107によってアナログ音圧データに変換され、オーディオケーブル117を介してヘッドホン106より出力される。
【0037】
マイクロホンアレー1011〜101Mで収音され、中央演算装置108に送られてきたデジタル音圧データXには、作業機械112外部の作業員の声と作業機械112が発するエンジン音やアーム駆動音などの雑音とが混入して含まれている。中央演算装置108では、デジタル音圧データXと、可視光線カメラ1031〜103Aから得られる画像データVIと、赤外線カメラ1041〜104Bから得られる画像データIIと、機械操作入力部113から得られる操作信号と、作業機械112が持つ速度情報とに基づいて、位置ごとの危険度Hを算出する。危険度Hは揮発性メモリ109に記憶される。中央演算装置108は、危険度Hに基づいて、音源位置推定方式を変え、さらに、動体検出方式を変え、さらに、危険度が比較的高い位置を音抽出位置とし、その中でも危険度が特に高い位置に対しては瞬時的に抽出可能な方式での音抽出を行い、危険度が低い位置に対しては高精度に抽出可能な方式での音抽出を行う。抽出信号Yは、デジタルケーブル119を介してA/D−D/A変換装置107に送られ、アナログ信号に変換されてオーディオケーブル117を介してヘッドホン106から出力される。
【0038】
揮発性メモリ109に蓄えられた位置ごとの危険度Hは、中央演算装置108において、画像に変換され、モニタケーブル118を介して画像表示装置111より出力される。
【0039】
マイクロホン105で収音される音声信号は、オーディオケーブル116を介して、A/D−D/A変換装置107にてデジタル音圧データに変換され、デジタルケーブル119を介して、中央演算装置108に入力される。また、スピーカアレー1021〜102Sを用いた指向性フィルタが、その指向性を向ける位置ごとに予め記憶媒体110に格納されている。前記デジタル音圧データに対して、危険度Hが比較的高い位置に指向性を向ける指向性フィルタを選択して畳み込み、複数チャンネルデジタル信号データを生成する。デジタルケーブル119を介して、この複数チャンネルデジタル信号データをA/D−D/A変換装置107に入力し、A/D−D/A変換装置107が複数チャンネルアナログ信号に変換し、オーディオケーブル1151〜115Sを介してスピーカアレー1021〜102Sより出力する。
【0040】
中央演算装置108は、作業機械112に対して、危険度Hに応じた移動の種類、移動速度、動作の種類、動作速度などの制御を行う。
【0041】
デジタルケーブル119は、USBケーブルなどを用いる。デジタルケーブル1201〜120A、デジタルケーブル1211〜121Bは、USBケーブルやLANケーブルなどを用いる。
【0042】
図13は、本実施の形態における音響処理システム100を建設機械に適用した場合の外観の一例を示す図である。図13は、建設機械を上面から見た模式図である。
【0043】
この図13の例では、建設機械は、キャビネット13001、エンジン部13002、アーム部13003などから構成される。マイクロホンアレー1011〜1014を建設機械外部の四隅に配置している。キャビネット13001内でオペレータが操作する。
【0044】
たとえば、本発明を用いない場合、キャビネット13001の内部では外部の音はほとんど聞こえない。また、建設機械自身がエンジン部13002やアーム部13003といった騒音源を有しており、マイクロホンアレー1011〜1014が収音した音をそのまま聞いても、それらの騒音に埋もれた周囲の人物の音声はほとんど聞こえない。本発明では、これらの課題を解決するものである。
【0045】
図2は、本実施の形態における音響処理システム100のブロック構成の一例を示す図である。この図2に示すブロック構成は、図1に示す中央演算処理装置108が、記憶媒体110に記憶されているプログラムを読み出して実行することで実現されるソフトウェアによる機能構成である。ただし、一部の構成要素は図1に示すハードウェア構成を含むものもある。
【0046】
本実施の形態における音響処理システム100は、音入力部201と、音入力部201に繋がっている音源位置推定部202と、音入力部201に繋がっている音抽出部203と、音源位置推定部202に繋がっている音声非音声判別部204と、音声非音声判別部204に繋がっている人物検出部205と、人物検出部205に繋がっており、音源位置推定部202と音抽出部203に繋がる危険度算出部206と、機械センサ入力部207と、機械センサ入力部207に繋がっており、危険度算出部206に繋がる機械運動状態推定部209と、可視光線入力部210と、赤外線入力部211と、可視光線入力部210及び赤外線入力部211と危険度算出部206に繋がっており、人物検出部205に繋がる動体検出部212と、人物検出部205と危険度算出部206に繋がっている映像出力部213と、操作者音声入力部215と、操作者音声入力部215と危険度算出部206に繋がっている外部向け出力音生成部216と、外部向け出力音生成部216に繋がっている外部向け音出力部217と、危険度算出部206に繋がっている機械動作制御部218と、音抽出部203に繋がっている音出力部219と、機械運動状態推定部209に繋がる機械操作入力部221などから構成される。
【0047】
また、音声非音声判別部204と機械運動状態推定部209では、機械の寸法208が用いられる。音源位置推定部202と音抽出部203では、マイク配置214の情報が用いられる。動体検出部212では、カメラ投影行列220が用いられる。
【0048】
以上のように構成される音響処理システム100のソフトウェアによる主な機能(一部の構成要素はハードウェア構成を含む)は、以下の通りである。
【0049】
音入力部201は、音を収音する複数のマイクロホンからなる機能部である。詳細は図3を用いて後述する。音源位置推定部202は、音入力部201が出力する信号から音源位置を推定したり、または音抽出部203が出力する信号から音源位置を推定する機能部である。また、音源位置推定部202は、危険度算出部206が出力する位置ごとの危険度に基づいて推定方式を変化させる。詳細は図4を用いて後述する。音抽出部203は、音入力部201から出力された信号を入力として危険度算出部206で算出された危険度に応じた分離信号を出力する機能部である。この音抽出部203は、複数の音源分離ユニットを備え、各音源分離ユニットは危険度に応じて抽出位置を設定し、さらに危険度に応じて音源分離ユニットが分離方式を変化させる。詳細は図6を用いて後述する。
【0050】
音声非音声判別部204は、音源位置推定部202が出力する音源位置に基づいて音声非音声を判別する機能部である。人物検出部205は、音声非音声判別部204が出力する音声非音声判別結果に基づいて人物位置を検出する機能部である。この人物検出部205は、また動体検出部212の出力する信号に基づいて人物検出を行う。
【0051】
危険度算出部206は、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する機能部である。この危険度算出部206は、位置ごとの危険度を算出する。さらに、危険度算出部206は、機械運動状態推定部209の出力する運動状態に基づいて危険度を算出したり、人物検出部205が出力する人物位置検出結果に基づいて危険度を算出する。機械運動状態推定部209は、機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機能部である。
【0052】
映像入力部は、可視光線入力部210及び赤外線入力部211からなり、可視光線カメラもしくは赤外線カメラの1以上のカメラからなる機能部である。動体検出部212は、映像入力部が出力する映像に基づいて動体検出を行う機能部である。また、動体検出部212は、危険度算出部206が出力する位置ごとの危険度に基づいて検出方式を変化させる。詳細は図5を用いて後述する。映像出力部213は、危険度算出部206が出力する危険度に基づいて映像を表示する機能部である。
【0053】
外部向け出力音生成部216は、危険度算出部206が出力する危険度に基づいて機械の外部に対する外部向け出力音を生成する機能部である。外部向け音出力部217は、外部向け出力音生成部216が生成する外部向け出力音を出力する機能部である。
【0054】
機械動作制御部218は、危険度算出部206が出力する危険度に基づいて機械の動作を制御する機能部である。音出力部219は、音抽出部203から出力された分離信号を出力する機能部である。
【0055】
以下において、音響処理システム100のソフトウェアによる主な機能部を詳細に説明する。
【0056】
図3に、音入力部201のブロック構成の一例を示す。音入力部201は、多チャンネルAD変換器301、多チャンネルフレーム処理部302、多チャンネル短時間周波数分析部303などから構成される。多チャンネルAD変換器301は、A/D−D/A変換装置107に含まれる。
【0057】
音入力部201において、マイクロホンアレー1011〜101Mから得た多チャンネルアナログ音圧データは多チャンネルAD変換器301でデジタル音圧データx_11(t)〜x_MN(t)に変換される。tはサンプリング周期毎の離散時間である。変換されたデジタル音圧データx_11(t)〜x_MN(t)は、多チャンネルフレーム処理部302に渡る。
【0058】
多チャンネルフレーム処理部302では、t=τsからt=τs+F_s−1までのx_ij(t)をそれぞれt=0からt=F−1までのXf_ij(t,τ)に移し変える。ここで、τはフレームインデックスと呼び、多チャンネルフレーム処理部302から音出力部219までの処理が完了した後で、1インクリメントされる。sはフレームシフトと呼び、フレーム毎にずらすサンプル数を意味する。F_sはフレームサイズと呼び、フレーム毎に一度に処理するサンプル数を意味する。iはマイクロホンアレー番号を意味するインデックス(1,…,M)とする。jはマイクロホン番号を意味するインデックス(1,…,N)とする。
【0059】
その後、Xf_ij(t,τ)は多チャンネル短時間周波数分析部303に渡される。多チャンネル短時間周波数分析部303では、Xf_ij(t,τ)に、直流成分カット及びハミング窓、ハニング窓、ブラックマン窓などの窓処理を施した後、短時間フーリエ変換を施し、それぞれ周波数領域の信号Xf_ij(f,τ)に変換する。ここでの周波数ビン数をFとする。あるフレームτでのXf_ij(f,τ)は、図7のようなデータ構造をとる。周波数領域信号Xf_ij(f,τ)は、音源位置推定部202と音抽出部203に送られる。
【0060】
図4に、音源位置推定部202のブロック構成の一例を示す。音源位置推定部202は、周波数毎方向推定部4011〜401M、方向推定統合部402などから構成される。
【0061】
まず、周波数毎方向推定部401iは、一つのマイクロホンアレー101iに対応する多チャンネル周波数領域信号Xf_i1(f,τ)〜Xf_iN(f,τ)に対して、各周波数インデックスfに対する音の到来方向θ_i(f)を推定する。マイクロホンアレーのマイク素子数が二つの場合、θを[数1]で推定する。
【0062】
【数1】
【0063】
ここで、ρ(f,τ)は、二つのマイク素子の入力信号の、フレームτ、周波数インデックスfにおける位相差とする。freq(f)は周波数インデックスfの周波数(Hz)であり、[数2]で計算される。
【0064】
【数2】
【0065】
ただし、FSはA/D変換装置のサンプリングレートである。dは二つのマイク素子の物理的な間隔(m)とする。cは音速(m/s)とする。音速は、厳密には温度や媒質の密度に依存して変化するが、通常340m/sなどの一つの値に固定して用いる。ここでの雑音除去処理は、前述の「スパース性」の仮定に基づけば、時間−周波数毎に同一の処理を別々に行えばよいため、以後、時間−周波数のサフィックス(f,τ)は省略して表記する。
【0066】
マイクロホンアレーのマイク素子数が三つ以上の場合、SPIREアルゴリズム(非特許文献3参照)により、その方向を高精度に算出することが可能である。SPIREアルゴリズムでも、前述の「スパース性」の仮定に基づき、時間−周波数毎に同一の処理を別々に行うものとする。図12に、SPIREアルゴリズムのフローチャートを示す。
【0067】
まず、SPIREアルゴリズムでは、マイク素子の配置読み込みを行う(S1201)。次に、SPIREアルゴリズムでは、それぞれが二つのマイク素子で構成されるマイクペアとなるように、各マイクペアを構成するマイク素子の選択を行う(S1202)。このとき、マイクペアを構成する二つのマイク素子間のマイク間隔が、マイクペアごとに異なるように分けることが望ましい。
【0068】
次に、SPIREアルゴリズムは、各マイクペアをマイク間隔が小さいものから順にソートし、マイクペア待ち行列に格納する(S1203)。ここで、lを一つのマイクペアを特定するためのインデックスとし、l=1をマイク間隔が最も短いマイクペア、l=Lをマイク間隔が最も長いマイクペアとする。マイクペア待ち行列の要素数が0かどうかの比較演算を行う(S1204)。要素数が0でない間(S1204−No)、次に述べるS1205及びS1206を繰り返す。
【0069】
すなわち、次に、マイクペア待ち行列から間隔が最短の一つのマイクペアlを読み込み、かつ、マイクペア待ち行列から除く処理を行う(S1205)。そして、続く位相差推定処理では、読み込んだlに対して、まず[数3]を満たす整数nlをみつける(S1206)。不等式で囲まれた範囲が2πに相当するため、必ず一つだけ解が見つかる。そして、[数4]を実行する。
【0070】
【数3】
【0071】
【数4】
【0072】
また、上記の処理をl=1に対して行う前に初期値として、[数5]を設定する。S1205及びS1206をP回繰り返し、マイクペア待ち行列の要素数が0となると(S1204−Yes)、[数6]に従って、位相差から方向計算を行い、θ(f,τ)を計算する(S1207)。
【0073】
【数5】
【0074】
【数6】
【0075】
ここで、dlはl番目のマイクペアのマイク素子間の間隔とする。
【0076】
音源方向推定の推定精度は、マイク間隔が長い程、高まることが知られているが、方向を推定する信号の半波長以上マイク間隔が長ければ、マイク間の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまうことが知られている(空間的エイリアシング)。SPIRE法では、長いマイク間隔で生じた二つ以上の推定方向のうち、短いマイク間隔で求めた音源方向に近い方向を選択するような機構を備えている。したがって、空間的エイリアシングが生じるような長いマイク間隔でも高精度に音源方向を推定することができるという利点を備えている。
【0077】
周波数毎方向推定部4011〜401Mから出力される方向推定結果θ_i(f,τ)は、方向推定統合部402に入力される。[数7]により音源が存在する位置インデックスpほど大きな値を持つ位置ヒストグラムh(p,τ)を得ることが可能である。
【0078】
【数7】
【0079】
ここで、前のフレームで算出された危険度マップデータH(p,τ)に応じて、[数7]の加算処理を間引いた[数8]を用いれば、危険度が高い位置に対して追従性高く位置ヒストグラムを算出することができる。
【0080】
【数8】
【0081】
音声非音声判別部204は、音源位置推定部202から入力された位置ヒストグラムh(p,τ)に基づいて、位置pごとに音声の有無を表わす音声非音声判別マップv(p,τ)を判定する。音声非音声判別には、h(p,τ)を位置pに存在する人の雑音混入音声信号とみなし、MCRAに基づく雑音推定を行ってから、入力信号対雑音比(事後SNR)γ(p,τ)に基づく判別方式[数9]などの一般的なアルゴリズムを用いて判別すればよく、本質的な機能の差にはならない。
【0082】
【数9】
【0083】
また、機械の寸法208に基づいて機械内部のpに対し、v(p,τ)は常に0とすることで計算コストを削減することができる。音声非音声判別マップv(p,τ)は人物検出部205に送られる。
【0084】
可視光線カメラ1031〜103Aからなる可視光線入力部210は可視光線画像データVIを動体検出部212に送る。
【0085】
赤外線カメラ1041〜104Bからなる赤外線入力部211は赤外線画像データIIを動体検出部212に送る。
【0086】
図5に、動体検出部212のブロック構成の一例を示す。動体検出部212は、背景差分・フレーム間差分算出部501、体表面検出部502、視錐体交差算出部503などから構成される。
【0087】
背景差分・フレーム間差分算出部501は、可視光線画像データVI_1〜VI_Aに基づき、それぞれの画像に対して背景差分処理およびフレーム間差分処理により物体領域を抽出した画像EI_1〜EI_Aを計算する。体表面検出部502は、赤外線画像データII_1〜II_Bに基づき、それぞれの画像に対して温度の高いピクセル領域を体表面領域として抽出した画像BI_1〜BI_Bを計算する。視錐体交差算出部503では、画像EI_1〜EI_Aの物体領域と画像BI_1〜BI_Bの体表面領域のそれぞれの視錐体を、カメラ投影行列220に基づいて3次元空間内に逆投影する。[数10]により得られるカメラ間で視野が交差する3次元領域のうち、視体積が交差する領域について、[数11]のように動体存在マップe(p,τ)を更新する。
【0088】
【数10】
【0089】
【数11】
【0090】
ここで、weはまた、前のフレームで算出された危険度マップデータH(p,τ)に応じて、[数10]の逆投影処理を間引いた[数12]を用いれば、動体存在マップe(p,τ)算出での危険度が高い位置に対して追従性が高くなる。
【0091】
【数12】
【0092】
人物検出部205は、音声非音声判別マップv(p,τ)と動体存在マップe(p,τ)に基づき、[数13]により人物検出マップd(p,τ)を計算する。ここで、wvは0以上1以下の重み係数である。
【0093】
【数13】
【0094】
機械センサ入力部207は、たとえば機械の速度計や機械のアームの油圧センサなどのセンサからなり、それぞれのセンサ信号をベクトルC(t)=(c_1(t),…,c_Ω(t))として出力する。
【0095】
機械運動状態推定部209では、機械の寸法208から各小部位z_kの3次元位置P_k(t)を得る。ここで、k(k=1,…,K)は部位インデックスである。また、前記センサ信号のベクトルC(t)とベクトルP(t)=(P_1(t),…,P_K(t))との組に対する、小部位z_kの運動速度V_k(t)のベクトルV(t)=(V_1(t),…,V_K(t))のテーブルを予め記憶媒体110に記憶しているものとする。このテーブルは、設計時にシミュレーションで容易に得ることができる。このテーブルにより小部位z_kの速度V_k(t)が得られる。
【0096】
さらに、機械操作入力部221から操作信号μ(t)を得る。操作信号μ(t)とP(t)との組みについても対応する加速度A(t)=(A_1(t),…,A_k(t))のテーブルを記憶しておくことで、操作信号μ(t)から小部位z_kの加速度A_k(t)が得られる。[数14]により時刻t+Δtでの小部位z_kの予測位置P(t+Δt)が求まる。最後に、[数15]により、接触までにかかる最短時間のマップg(p,t)が求まる。
【0097】
【数14】
【0098】
【数15】
【0099】
危険度算出部206は、人物検出部205から入力される人物検出マップd(p,τ)と、機械運動状態推定部209から入力される接触最短時間のマップg(p,t)とに基づいて、[数16]により、危険度マップH(p,τ)を算出する。ここで、ε、νはそれぞれ適当な定数とする。
【0100】
【数16】
【0101】
映像出力部213では、人物検出マップd(p,τ)と危険度マップH(p,τ)を重畳して提示する。
【0102】
音抽出部203では、音入力部201から入力される周波数領域信号Xf_11(f,τ)〜Xf_MN(f,τ)と危険度マップH(p,τ)とに基づいて、抽出信号Yf(f,τ)を計算する。
【0103】
図6に、音抽出部203のブロック構成の一例を示す。音抽出部203は、抽出方向選択部601、音源分離ユニット6021〜602R、混合部603などから構成される。
【0104】
まず、抽出方向選択部601では、すべての位置インデックスpのH(p,τ)をソートし、上位R個の位置p_1〜p_Rを抽出位置と定める。音源分離ユニット6021〜602Rは、それぞれ抽出位置p_1〜p_Rに対応する。r番目の音源分離ユニット602r(たとえば602R)のフローチャートを、図9に示す。
【0105】
S901では、H(p_r,τ)>T_hか、H(p_r,τ)≦T_hかで場合分けを行う。危険度H(p_r,τ)が高いH(p_r,τ)>T_hの場合(S901−Yes)は、特に高速性が求められると判断し、S902にて瞬時的に抽出可能な方式である方式1を選択する。方式1は、たとえば前述したSPIREのような方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ(f,τ)が抽出位置p_rと重なる場合にその周波数成分を残し、重ならない場合にその周波数成分を0とするようなバイナリマスキングであってもよい。
【0106】
それに対して、危険度H(p_r,τ)が相対的に低いH(p_r,τ)≦T_hの場合(S901−No)は、円滑なコミュニケーションのために高精度な抽出が求められると判断し、S903にて瞬時的に抽出可能な方式である方式2を選択する。
【0107】
図8に、方式2の例として、スパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す。方式2は、目的音/雑音分離部801、目的音ステアリングベクトル更新部802、雑音共分散行列更新部803、フィルタ更新部804、及び、フィルタ乗算部805の詳細構成となる。図8に基づいて説明する。
【0108】
目的音/雑音分離部801は、前述のバイナリマスキングと同様に、方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ(f,τ)によって、[数17]のように目的音信号X_des(f,τ)とX_int(f,τ)に分離する。X_des(f,τ)は、目的音/雑音分離部801から目的音ステアリングベクトル更新部802に送られる。X_int(f,τ)は、目的音/雑音分離部801から雑音共分散行列更新部803に送られる。
【0109】
【数17】
【0110】
目的音ステアリングベクトル更新部802では、[数18]に基づき、目的音ステアリングベクトルa(f,τ)=[a_0(f,τ),…,a_M−1(f,τ)]Tを更新する。ただし、γsは0以上1未満の適当な定数パラメタである。もちろん、安定のために、|X_des_i(f,τ)|が十分に大きいときだけに更新するようにしてもよい。
【0111】
【数18】
【0112】
雑音共分散行列更新部803では、[数19]に基づき、雑音共分散行列R(f,τ)を更新する。ただし、X_int(f,τ)=[X_int_0(f,τ),…,X_int_M−1(f,τ)]Tとし、γnは0以上1未満の適当な定数パラメタとする。もちろん、安定のために、|X_int(f,τ)|が十分に大きいときだけに更新するようにしてもよい。
【0113】
【数19】
【0114】
フィルタ更新部804では、目的音ステアリングベクトルa(f,τ)と雑音共分散行列R(f,τ)から、[数20]に基づき、フィルタw(f,τ)を計算する。ただし、γwは0以上1未満の適当な定数パラメタである。
【0115】
【数20】
【0116】
最後に、フィルタ乗算部805では、[数21]に基づいて、フィルタw(f,τ)をXf(f,τ)=[Xf_0(f,τ),…,Xf_M−1(f,τ)]Tに乗算することで、指定された方向から到来する音を除去した信号Yf(f,τ)が得られる。
【0117】
【数21】
【0118】
この例では、方式2にスパース性に基づく適応による最小分散ビームフォーマを用いているが、方式2は他の高精度な抽出手法であるICAを用いてもよい。ICAは高次統計量を用いるため、適応のために数秒程度の音声信号が必要であり、瞬時的な抽出は困難である一方で、高精度な抽出が可能である。また、この例では2通りの方式1、方式2のみを選択、実行したが、方式の個数は3以上であってもよく、それらを危険度に応じて選択、実行してもよい。
【0119】
混合部603では、音源分離ユニット6021〜602Rが出力した各周波数領域信号を混合し、抽出信号Yf(f,τ)を出力する。
【0120】
以上の手順によって計算された周波数領域フレーム信号Yf(f,τ)は、音出力部219に送られ、そこで、逆FFTを掛けられ、時間領域信号y(t,τ)に変換される。y(t,τ)は、フレーム周期毎にオーバーラップし、加算され、かつ窓関数の逆数を施されたy(t)に変換され、y(t)がDA変換を介してヘッドホン106から出力される。
【0121】
外部向け出力音生成部216は、危険度マップH(p,τ)に基づき、そのH(p,τ)が大きい位置p_rにスピーカアレーの指向性を持つようなフィルタを選択する。オペレータ側のマイクロホン105からなる操作者音声入力部215から入力される音声信号に対し、前記フィルタを乗算し、複数チャンネル信号を生成し、外部向け音出力部217によりDA変換を介してスピーカアレー1021〜102Sから出力する。
【0122】
機械動作制御部218は、危険度マップH(p,τ)が、あるpに対して非常に大きい場合に機械の動作を減速、もしくは、停止する。
【0123】
以上説明した本実施の形態における音響処理システムによれば、以下のような効果を得ることができる。
(1)危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができ、さらに外部向け音出力部217を介してオペレータと周囲の人物の間で円滑な会話が可能である。
(4)危険度算出部206が算出した位置ごとの危険度に応じて、音源位置推定部202が推定方式を変え、動体検出部212が検出方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
(5)映像出力部213に危険度を映像で視覚的に提示するため、オペレータが電話や無線で会話中である場合など、なんらかの原因で聴覚が使えない場合でも危険回避が可能である。
(6)外部向け音出力部217は、危険度が高い位置に指向性を向けて音声を出力するため、機械の騒音により聞きづらい環境であっても、機械周囲の人物に注意喚起を行うことができる。
(7)機械動作制御部218は、危険度が高い場合に、緊急に機械自体を制御して危険を回避するので、オペレータの回避判断が間に合わない場合に事故を回避できる可能性がある。
【0124】
<実施の形態2>
以下、本発明の実施の形態2を、前述した図6を用いて説明する。
【0125】
前記実施の形態1においては、音抽出部203のr番目の音源分離ユニット602r(たとえば602R)が位置ごとに方式を切り替える例を説明したが、本実施の形態では、位置ごとに方式を切り替えるのではなく、時刻によってのみ方式を切り替える構成に適用した例である。
【0126】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態1の効果に加えて、たとえば、あるpについてH(p,τ)>T_hである場合に全音源分離ユニットで方式1を選択するという構成であっても、危険度が高い時刻はリアルタイムで抽出し、危険度が低い時刻は高精度に抽出することができるという効果がある。
【0127】
<実施の形態3>
以下、本発明の実施の形態3を、図10を用いて説明する。図10は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
【0128】
本実施の形態は、前記実施の形態1に対して、可視光線入力部210、赤外線入力部211、動体検出部212、映像出力部213、操作者音声入力部215、外部向け出力音生成部216、外部向け音出力部217、機械動作制御部218、カメラ投影行列220を持たない構成である。
【0129】
すなわち、本実施の形態における音響処理システムは、図10に示すように、音入力部201と、音源位置推定部202と、音抽出部203と、音声非音声判別部204と、人物検出部205と、危険度算出部206と、機械センサ入力部207と、機械運動状態推定部209と、音出力部219と、機械操作入力部221などから構成され、各機能部は前記実施の形態1と同様の機能を有している。
【0130】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態1の効果のうち、(5)〜(7)を除く、以下の(1)〜(4)のような効果を得ることができる。
(1)危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
(4)危険度算出部206が算出した位置ごとの危険度に応じて、音源位置推定部202が推定方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
【0131】
<実施の形態4>
以下、本発明の実施の形態4を、図11を用いて説明する。図11は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
【0132】
本実施の形態は、前記実施の形態3に対して、さらに、音源位置推定部202、音声非音声判別部204、人物検出部205を持たない構成である。
【0133】
すなわち、本実施の形態における音響処理システムは、図11に示すように、音入力部201と、音抽出部203と、危険度算出部206と、機械センサ入力部207と、機械運動状態推定部209と、音出力部219と、機械操作入力部221などから構成され、各機能部は前記実施の形態1と同様の機能を有している。
【0134】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態3の効果のうち、(4)を除く、以下の(1)〜(3)のような効果を得ることができる。
(1)人物検出部を備えない場合であっても、危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
【0135】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0136】
たとえば、前記実施の形態においては、音響処理システムが建設機械と一体となった構成例について説明したが、本発明は、建設機械に限らず、一般の車両、作業機械などにもそのまま適用可能である。
【産業上の利用可能性】
【0137】
本発明の音響処理システムは、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に利用可能である。
【符号の説明】
【0138】
100…音響処理システム、1011〜101M…マイクロホンアレー、1021〜102S…スピーカアレー、1031〜103A…可視光線カメラ、1041〜104B…赤外線カメラ、105…マイクロホン、106…ヘッドホン、107…A/D−D/A変換装置、108…中央演算装置、109…揮発性メモリ、110…記憶媒体、111…画像表示装置、112…作業機械、113…機械操作入力部、1141〜114M,1151〜115S,116,117…オーディオケーブル、118…モニタケーブル、119,1201〜120A,1211〜121B…デジタルケーブル、
201…音入力部、202…音源位置推定部、203…音抽出部、204…音声非音声判別部、205…人物検出部、206…危険度算出部、207…機械センサ入力部、208…機械の寸法、209…機械運動状態推定部、210…可視光線入力部、211…赤外線入力部、212…動体検出部、213…映像出力部、214…マイク配置、215…操作者音声入力部、216…外部向け出力音生成部、217…外部向け音出力部、218…機械動作制御部、219…音出力部、220…カメラ投影行列、221…機械操作入力部、
301…多チャンネルAD変換器、302…多チャンネルフレーム処理部、303…多チャンネル短時間周波数分析部、
4011〜401M…周波数毎方向推定部、402…方向推定統合部、
501…背景差分・フレーム間差分算出部、502…体表面検出部、503…視錐体交差算出部、
601…抽出方向選択部、6021〜602R…音源分離ユニット、603…混合部、
801…目的音/雑音分離部、802…目的音ステアリングベクトル更新部、803…雑音共分散行列更新部、804…フィルタ更新部、805…フィルタ乗算部、
13001…キャビネット、13002…エンジン部、13003…アーム部。
【技術分野】
【0001】
本発明は、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に適用して有効な技術に関する。
【背景技術】
【0002】
建設機械、車両、作業機械などの比較的大型の機械では、機械周囲の人物の安全のために、オペレータもしくは運転者(以下、オペレータという)が常に機械周囲の人物の状況を把握して、その都度危険を回避する必要がある。オペレータが機械周囲の人物の状況を知る上で重要な情報の一つが、周囲の人物が発声する音声である。
【0003】
周囲の人物の音声を収音するために機械外部にマイクロホンを設置し、収音された音をオペレータに提示することで、オペレータに周囲の人物の状況を把握させることを想定する。マイクロホンで収音される音には、周囲の人物の音声だけでなく、機械動作にともなうエンジン音、機械駆動音、掘削音などが同時に混入するので、収音される音から周囲の人物の音声のみを抽出し、オペレータに提示する必要がある。
【0004】
複数のマイクロホン(マイクロホンアレー)を用いた音源分離技術を用いれば、特定の位置から到来する音声のみを抽出することが可能である。ただし、以下の2点の課題がある。
【0005】
一つ目に、音源分離では、音声を抽出する位置、すなわち人物が存在する位置を指定しなければならない点が課題である。たとえば、スパース性を仮定した位置推定に基づく音源分離方式(たとえば、特許文献1)は、指定した抽出位置を目的音源位置、それ以外を妨害音源位置としてフィルタを適応し、音源分離を行う。このため、位置の指定が必要である。また、音源の位置を指定せずに各音源の音を抽出するブラインド音源分離という技術も存在するが、その場合にも、複数個得られた音響信号のうち、どの音が抽出すべき信号であったのかを判断する問題が残る。
【0006】
二つ目に、音源分離の「精度」とフィルタ適応時間のトレードオフが存在する点が課題である。ここでの精度とは、抽出された音が元の目的音源の音にどれだけ近いかを意味する。一般的に、高精度に抽出するための適応方式(たとえば、非特許文献1の独立成分分析)は、瞬時的な入力信号だけではフィルタの適応ができず、オペレータが周囲の人物の状況を把握し危険回避の判断をすることはできない(以下、「瞬時的」とは、音の提示を受けてからオペレータが危険回避行動を実施するまでの時間より十分短い時間であることを意味する)。
【0007】
その一方で、瞬時的な入力信号だけを用いて抽出が可能な音源分離アルゴリズムが存在する(たとえば、非特許文献2のバイナリマスキング)が、一般にその精度は低く、騒音が混入するので、周囲の人物が何を話しているかまでをオペレータが認識することは困難である。また、常にオペレータが分離されずに残留した騒音にさらされるという問題もある。
【0008】
また、リアルタイム処理と分離精度を両立するために、状況に応じて前記独立成分分析と音量差に基づくバイナリマスキングとを選択する方式がある(たとえば、特許文献2)。特許文献2では、独立成分分析の分離行列の収束度によって選択を行う実施例が示されている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2007−47427号公報
【特許文献2】特開2007−33825号公報
【非特許文献】
【0010】
【非特許文献1】T.Takatani,T.Nishikawa,H.Saruwatari,and K.Shikano, “Blind separation of binaural sound mixtures using SIMO−model−based independent component analysis,” ICASSP2004,vol.4,pp.113−116,2004.
【非特許文献2】O.Yilmaz and S.Rickard, “Blind separation of speech mixtures via time−frequency masking,” IEEE Trans. Signal Process.,vol.52,no.7,pp.1830−1847,July 2004.
【非特許文献3】M.Togami,T.Sumiyoshi, and A.Amano, “Stepwise phase difference restoration method for sound source localization using multiple microphone pairs,” ICASSP2007,vol.I,pp.117−120,2007.
【発明の概要】
【発明が解決しようとする課題】
【0011】
ところで、前記した特許文献2において、収束度の基準で選択するメリットは、分離精度がバイナリマスキング未満まで低下しないという安定性である。周囲の人物の安全を最重要とする本発明においては、危険回避が必要な場合であるほど瞬時性が必要であるが、この課題は分離精度の安定性を重視する特許文献2の発明によっては解決できない。また、そもそも前記で述べた抽出すべき位置の指定の課題も解決できない。
【0012】
そこで、本発明は、前記課題を解決するためになされたものであり、その代表的な目的は、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することにある。
【0013】
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
【課題を解決するための手段】
【0014】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。
【0015】
すなわち、代表的な音響処理システムは、音を収音する複数のマイクロホンからなる音入力部と、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする。さらに、以下のような特徴を有しても良い。
【0016】
前記音抽出部は、相対的に危険度が高い各位置を抽出位置とする複数の音源分離ユニットから構成される。各音源分離ユニットの抽出方式は、対応する抽出位置の危険度が高い場合には瞬時的に抽出可能な方式とし、抽出位置の危険度が低い場合には高精度に抽出可能な方式とする。
【0017】
前記危険度は、機械の運動状態と人物位置の検出結果から算出される。機械の運動状態は、機械運動状態推定部により作業機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される。人物検出は、音声非音声判別結果と映像に基づく動体検出結果を組み合わせることで行う。音声非音声判別は、前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、該音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部により実現する。動体検出は、可視光線カメラもしくは赤外線カメラなどの1以上のカメラからなる映像入力部と、該映像入力部が出力する映像に基づいて動体検出を行う動体検出部により実現する。また、位置ごとの危険度に応じて音源位置推定部は推定方法を変え、動体検出部は検出方法を変える。
【0018】
前記危険度に応じて映像を表示する映像出力部と、前記危険度に基づいて機械外部に対する外部向け出力音を生成する外部向け出力音生成部と、該外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、前記危険度に基づいて機械の動作を制御する機械制御部を有する。
【発明の効果】
【0019】
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば、以下のとおりである。
【0020】
すなわち、代表的な音響処理システムによれば、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施の形態1における音響処理システムのハードウェア構成の一例を示す図である。
【図2】本発明の実施の形態1における音響処理システムのブロック構成の一例を示す図である。
【図3】図2に示す音入力部のブロック構成の一例を示す図である。
【図4】図2に示す音源位置推定部のブロック構成の一例を示す図である。
【図5】図2に示す動体検出部のブロック構成の一例を示す図である。
【図6】図2に示す音抽出部のブロック構成の一例を示す図である。
【図7】図2において、あるフレームτにおける周波数領域信号Xf(f,τ)のデータ構造の一例を示す図である。
【図8】図2において、音源分離ユニットが選択する方式2がスパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す図である。
【図9】図2に示す音抽出部の処理フローの一例を示すフローチャートである。
【図10】本発明の実施の形態3における音響処理システムのブロック構成の一例を示す図である。
【図11】本発明の実施の形態4における音響処理システムのブロック構成の一例を示す図である。
【図12】図2に示す音源位置推定部におけるSPIREアルゴリズムの一例を示すフローチャートである。
【図13】本発明の実施の形態1における音響処理システムを建設機械に適用した場合の外観の一例を示す図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態を、たとえば建設機械と一体となった音響処理システムを例に図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0023】
<実施の形態1>
以下、本発明の実施の形態1を、図1〜図9、図12、図13を用いて説明する。
【0024】
図1は、本発明の実施の形態1における音響処理システムのハードウェア構成の一例を示す図である。
【0025】
本実施の形態における音響処理システム100のハードウェア構成は、マイクロホンアレー1011〜101M、スピーカアレー1021〜102S、可視光線カメラ1031〜103A、赤外線カメラ1041〜104B、マイクロホン105、ヘッドホン106、A/D−D/A変換装置107、中央演算装置108、揮発性メモリ109、記憶媒体110、画像表示装置111、オーディオケーブル1141〜114M,1151〜115S,116,117、モニタケーブル118、デジタルケーブル119,1201〜120A,1211〜121Bなどから構成される。この音響処理システム100は、作業機械112、機械操作入力部113などから構成される建設機械と一体となっている。
【0026】
マイクロホンアレー1011〜101Mは、建設機械外部に装着した、各アレーがN個のマイクロホンからなるマイクロホン群である。スピーカアレー1021〜102Sは、建設機械外部に装着したS個のスピーカ1021〜102Sからなるスピーカ群である。
【0027】
可視光線カメラ1031〜103Aは、建設機械外部に装着した可視光線カメラ群である。赤外線カメラ1041〜104Bは、建設機械外部に装着した赤外線カメラ群である。
【0028】
マイクロホン105は、オペレータが装着するマイクロホンである。ヘッドホン106は、オペレータが装着するヘッドホンである。
【0029】
A/D−D/A変換装置107は、マイクロホンアレー1011〜101Mから出力される信号とマイクロホン105から出力される信号をデジタルデータに変換すると同時に、スピーカアレー1021〜102Sとヘッドホン106にアナログ音圧信号を出力するA/D−D/A変換装置である。
【0030】
中央演算装置108は、A/D−D/A変換装置107の出力を処理する中央演算装置である。揮発性メモリ109は、中央演算装置108における演算処理のデータなどを一時的に格納する揮発性のメモリである。記憶媒体110は、プログラムなどの情報を記憶する記憶媒体である。画像表示装置111は、中央演算装置108における演算処理の情報や画像などを表示する表示装置である。
【0031】
オーディオケーブル1141〜114Mは、マイクロホンアレー1011〜101MとA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル1151〜115Sは、スピーカアレー1021〜102SとA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル116は、マイクロホン105とA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル117は、ヘッドホン106とA/D−D/A変換装置107とを接続するケーブルである。
【0032】
モニタケーブル118は、画像表示装置111と中央演算装置108とを接続するケーブルである。
【0033】
デジタルケーブル119は、A/D−D/A変換装置107と中央演算装置108とを接続するケーブルである。デジタルケーブル1201〜120Aは、可視光線カメラ1031〜103Aと中央演算装置108とを接続するケーブルである。デジタルケーブル1211〜121Bは、赤外線カメラ1041〜104Bと中央演算装置108とを接続するケーブルである。
【0034】
作業機械112は、アームなどを持つ建設機械である。機械操作入力部113は、建設機械の各種操作を入力する部分である。
【0035】
以上のように構成される音響処理システム100のハードウェアの動作は、以下の通りである。
【0036】
マイクロホンアレー1011〜101Mが出力する音圧データは、オーディオケーブル1141〜114Mを介してA/D−D/A変換装置107に送られる。このマイクロホンアレー1011〜101Mからの音圧データは、A/D−D/A変換装置107によってそれぞれデジタル音圧データに変換される。この変換では、信号間で変換タイミングを同期して変換する。変換後のデジタル音圧データは、デジタルケーブル119を介して中央演算装置108に送られ、中央演算装置108で音響信号処理が施される。この音響信号処理後のデジタル音圧データはデジタルケーブル119を介して、A/D−D/A変換装置107に送られる。この中央演算装置108からのデジタル音圧データは、A/D−D/A変換装置107によってアナログ音圧データに変換され、オーディオケーブル117を介してヘッドホン106より出力される。
【0037】
マイクロホンアレー1011〜101Mで収音され、中央演算装置108に送られてきたデジタル音圧データXには、作業機械112外部の作業員の声と作業機械112が発するエンジン音やアーム駆動音などの雑音とが混入して含まれている。中央演算装置108では、デジタル音圧データXと、可視光線カメラ1031〜103Aから得られる画像データVIと、赤外線カメラ1041〜104Bから得られる画像データIIと、機械操作入力部113から得られる操作信号と、作業機械112が持つ速度情報とに基づいて、位置ごとの危険度Hを算出する。危険度Hは揮発性メモリ109に記憶される。中央演算装置108は、危険度Hに基づいて、音源位置推定方式を変え、さらに、動体検出方式を変え、さらに、危険度が比較的高い位置を音抽出位置とし、その中でも危険度が特に高い位置に対しては瞬時的に抽出可能な方式での音抽出を行い、危険度が低い位置に対しては高精度に抽出可能な方式での音抽出を行う。抽出信号Yは、デジタルケーブル119を介してA/D−D/A変換装置107に送られ、アナログ信号に変換されてオーディオケーブル117を介してヘッドホン106から出力される。
【0038】
揮発性メモリ109に蓄えられた位置ごとの危険度Hは、中央演算装置108において、画像に変換され、モニタケーブル118を介して画像表示装置111より出力される。
【0039】
マイクロホン105で収音される音声信号は、オーディオケーブル116を介して、A/D−D/A変換装置107にてデジタル音圧データに変換され、デジタルケーブル119を介して、中央演算装置108に入力される。また、スピーカアレー1021〜102Sを用いた指向性フィルタが、その指向性を向ける位置ごとに予め記憶媒体110に格納されている。前記デジタル音圧データに対して、危険度Hが比較的高い位置に指向性を向ける指向性フィルタを選択して畳み込み、複数チャンネルデジタル信号データを生成する。デジタルケーブル119を介して、この複数チャンネルデジタル信号データをA/D−D/A変換装置107に入力し、A/D−D/A変換装置107が複数チャンネルアナログ信号に変換し、オーディオケーブル1151〜115Sを介してスピーカアレー1021〜102Sより出力する。
【0040】
中央演算装置108は、作業機械112に対して、危険度Hに応じた移動の種類、移動速度、動作の種類、動作速度などの制御を行う。
【0041】
デジタルケーブル119は、USBケーブルなどを用いる。デジタルケーブル1201〜120A、デジタルケーブル1211〜121Bは、USBケーブルやLANケーブルなどを用いる。
【0042】
図13は、本実施の形態における音響処理システム100を建設機械に適用した場合の外観の一例を示す図である。図13は、建設機械を上面から見た模式図である。
【0043】
この図13の例では、建設機械は、キャビネット13001、エンジン部13002、アーム部13003などから構成される。マイクロホンアレー1011〜1014を建設機械外部の四隅に配置している。キャビネット13001内でオペレータが操作する。
【0044】
たとえば、本発明を用いない場合、キャビネット13001の内部では外部の音はほとんど聞こえない。また、建設機械自身がエンジン部13002やアーム部13003といった騒音源を有しており、マイクロホンアレー1011〜1014が収音した音をそのまま聞いても、それらの騒音に埋もれた周囲の人物の音声はほとんど聞こえない。本発明では、これらの課題を解決するものである。
【0045】
図2は、本実施の形態における音響処理システム100のブロック構成の一例を示す図である。この図2に示すブロック構成は、図1に示す中央演算処理装置108が、記憶媒体110に記憶されているプログラムを読み出して実行することで実現されるソフトウェアによる機能構成である。ただし、一部の構成要素は図1に示すハードウェア構成を含むものもある。
【0046】
本実施の形態における音響処理システム100は、音入力部201と、音入力部201に繋がっている音源位置推定部202と、音入力部201に繋がっている音抽出部203と、音源位置推定部202に繋がっている音声非音声判別部204と、音声非音声判別部204に繋がっている人物検出部205と、人物検出部205に繋がっており、音源位置推定部202と音抽出部203に繋がる危険度算出部206と、機械センサ入力部207と、機械センサ入力部207に繋がっており、危険度算出部206に繋がる機械運動状態推定部209と、可視光線入力部210と、赤外線入力部211と、可視光線入力部210及び赤外線入力部211と危険度算出部206に繋がっており、人物検出部205に繋がる動体検出部212と、人物検出部205と危険度算出部206に繋がっている映像出力部213と、操作者音声入力部215と、操作者音声入力部215と危険度算出部206に繋がっている外部向け出力音生成部216と、外部向け出力音生成部216に繋がっている外部向け音出力部217と、危険度算出部206に繋がっている機械動作制御部218と、音抽出部203に繋がっている音出力部219と、機械運動状態推定部209に繋がる機械操作入力部221などから構成される。
【0047】
また、音声非音声判別部204と機械運動状態推定部209では、機械の寸法208が用いられる。音源位置推定部202と音抽出部203では、マイク配置214の情報が用いられる。動体検出部212では、カメラ投影行列220が用いられる。
【0048】
以上のように構成される音響処理システム100のソフトウェアによる主な機能(一部の構成要素はハードウェア構成を含む)は、以下の通りである。
【0049】
音入力部201は、音を収音する複数のマイクロホンからなる機能部である。詳細は図3を用いて後述する。音源位置推定部202は、音入力部201が出力する信号から音源位置を推定したり、または音抽出部203が出力する信号から音源位置を推定する機能部である。また、音源位置推定部202は、危険度算出部206が出力する位置ごとの危険度に基づいて推定方式を変化させる。詳細は図4を用いて後述する。音抽出部203は、音入力部201から出力された信号を入力として危険度算出部206で算出された危険度に応じた分離信号を出力する機能部である。この音抽出部203は、複数の音源分離ユニットを備え、各音源分離ユニットは危険度に応じて抽出位置を設定し、さらに危険度に応じて音源分離ユニットが分離方式を変化させる。詳細は図6を用いて後述する。
【0050】
音声非音声判別部204は、音源位置推定部202が出力する音源位置に基づいて音声非音声を判別する機能部である。人物検出部205は、音声非音声判別部204が出力する音声非音声判別結果に基づいて人物位置を検出する機能部である。この人物検出部205は、また動体検出部212の出力する信号に基づいて人物検出を行う。
【0051】
危険度算出部206は、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する機能部である。この危険度算出部206は、位置ごとの危険度を算出する。さらに、危険度算出部206は、機械運動状態推定部209の出力する運動状態に基づいて危険度を算出したり、人物検出部205が出力する人物位置検出結果に基づいて危険度を算出する。機械運動状態推定部209は、機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機能部である。
【0052】
映像入力部は、可視光線入力部210及び赤外線入力部211からなり、可視光線カメラもしくは赤外線カメラの1以上のカメラからなる機能部である。動体検出部212は、映像入力部が出力する映像に基づいて動体検出を行う機能部である。また、動体検出部212は、危険度算出部206が出力する位置ごとの危険度に基づいて検出方式を変化させる。詳細は図5を用いて後述する。映像出力部213は、危険度算出部206が出力する危険度に基づいて映像を表示する機能部である。
【0053】
外部向け出力音生成部216は、危険度算出部206が出力する危険度に基づいて機械の外部に対する外部向け出力音を生成する機能部である。外部向け音出力部217は、外部向け出力音生成部216が生成する外部向け出力音を出力する機能部である。
【0054】
機械動作制御部218は、危険度算出部206が出力する危険度に基づいて機械の動作を制御する機能部である。音出力部219は、音抽出部203から出力された分離信号を出力する機能部である。
【0055】
以下において、音響処理システム100のソフトウェアによる主な機能部を詳細に説明する。
【0056】
図3に、音入力部201のブロック構成の一例を示す。音入力部201は、多チャンネルAD変換器301、多チャンネルフレーム処理部302、多チャンネル短時間周波数分析部303などから構成される。多チャンネルAD変換器301は、A/D−D/A変換装置107に含まれる。
【0057】
音入力部201において、マイクロホンアレー1011〜101Mから得た多チャンネルアナログ音圧データは多チャンネルAD変換器301でデジタル音圧データx_11(t)〜x_MN(t)に変換される。tはサンプリング周期毎の離散時間である。変換されたデジタル音圧データx_11(t)〜x_MN(t)は、多チャンネルフレーム処理部302に渡る。
【0058】
多チャンネルフレーム処理部302では、t=τsからt=τs+F_s−1までのx_ij(t)をそれぞれt=0からt=F−1までのXf_ij(t,τ)に移し変える。ここで、τはフレームインデックスと呼び、多チャンネルフレーム処理部302から音出力部219までの処理が完了した後で、1インクリメントされる。sはフレームシフトと呼び、フレーム毎にずらすサンプル数を意味する。F_sはフレームサイズと呼び、フレーム毎に一度に処理するサンプル数を意味する。iはマイクロホンアレー番号を意味するインデックス(1,…,M)とする。jはマイクロホン番号を意味するインデックス(1,…,N)とする。
【0059】
その後、Xf_ij(t,τ)は多チャンネル短時間周波数分析部303に渡される。多チャンネル短時間周波数分析部303では、Xf_ij(t,τ)に、直流成分カット及びハミング窓、ハニング窓、ブラックマン窓などの窓処理を施した後、短時間フーリエ変換を施し、それぞれ周波数領域の信号Xf_ij(f,τ)に変換する。ここでの周波数ビン数をFとする。あるフレームτでのXf_ij(f,τ)は、図7のようなデータ構造をとる。周波数領域信号Xf_ij(f,τ)は、音源位置推定部202と音抽出部203に送られる。
【0060】
図4に、音源位置推定部202のブロック構成の一例を示す。音源位置推定部202は、周波数毎方向推定部4011〜401M、方向推定統合部402などから構成される。
【0061】
まず、周波数毎方向推定部401iは、一つのマイクロホンアレー101iに対応する多チャンネル周波数領域信号Xf_i1(f,τ)〜Xf_iN(f,τ)に対して、各周波数インデックスfに対する音の到来方向θ_i(f)を推定する。マイクロホンアレーのマイク素子数が二つの場合、θを[数1]で推定する。
【0062】
【数1】
【0063】
ここで、ρ(f,τ)は、二つのマイク素子の入力信号の、フレームτ、周波数インデックスfにおける位相差とする。freq(f)は周波数インデックスfの周波数(Hz)であり、[数2]で計算される。
【0064】
【数2】
【0065】
ただし、FSはA/D変換装置のサンプリングレートである。dは二つのマイク素子の物理的な間隔(m)とする。cは音速(m/s)とする。音速は、厳密には温度や媒質の密度に依存して変化するが、通常340m/sなどの一つの値に固定して用いる。ここでの雑音除去処理は、前述の「スパース性」の仮定に基づけば、時間−周波数毎に同一の処理を別々に行えばよいため、以後、時間−周波数のサフィックス(f,τ)は省略して表記する。
【0066】
マイクロホンアレーのマイク素子数が三つ以上の場合、SPIREアルゴリズム(非特許文献3参照)により、その方向を高精度に算出することが可能である。SPIREアルゴリズムでも、前述の「スパース性」の仮定に基づき、時間−周波数毎に同一の処理を別々に行うものとする。図12に、SPIREアルゴリズムのフローチャートを示す。
【0067】
まず、SPIREアルゴリズムでは、マイク素子の配置読み込みを行う(S1201)。次に、SPIREアルゴリズムでは、それぞれが二つのマイク素子で構成されるマイクペアとなるように、各マイクペアを構成するマイク素子の選択を行う(S1202)。このとき、マイクペアを構成する二つのマイク素子間のマイク間隔が、マイクペアごとに異なるように分けることが望ましい。
【0068】
次に、SPIREアルゴリズムは、各マイクペアをマイク間隔が小さいものから順にソートし、マイクペア待ち行列に格納する(S1203)。ここで、lを一つのマイクペアを特定するためのインデックスとし、l=1をマイク間隔が最も短いマイクペア、l=Lをマイク間隔が最も長いマイクペアとする。マイクペア待ち行列の要素数が0かどうかの比較演算を行う(S1204)。要素数が0でない間(S1204−No)、次に述べるS1205及びS1206を繰り返す。
【0069】
すなわち、次に、マイクペア待ち行列から間隔が最短の一つのマイクペアlを読み込み、かつ、マイクペア待ち行列から除く処理を行う(S1205)。そして、続く位相差推定処理では、読み込んだlに対して、まず[数3]を満たす整数nlをみつける(S1206)。不等式で囲まれた範囲が2πに相当するため、必ず一つだけ解が見つかる。そして、[数4]を実行する。
【0070】
【数3】
【0071】
【数4】
【0072】
また、上記の処理をl=1に対して行う前に初期値として、[数5]を設定する。S1205及びS1206をP回繰り返し、マイクペア待ち行列の要素数が0となると(S1204−Yes)、[数6]に従って、位相差から方向計算を行い、θ(f,τ)を計算する(S1207)。
【0073】
【数5】
【0074】
【数6】
【0075】
ここで、dlはl番目のマイクペアのマイク素子間の間隔とする。
【0076】
音源方向推定の推定精度は、マイク間隔が長い程、高まることが知られているが、方向を推定する信号の半波長以上マイク間隔が長ければ、マイク間の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまうことが知られている(空間的エイリアシング)。SPIRE法では、長いマイク間隔で生じた二つ以上の推定方向のうち、短いマイク間隔で求めた音源方向に近い方向を選択するような機構を備えている。したがって、空間的エイリアシングが生じるような長いマイク間隔でも高精度に音源方向を推定することができるという利点を備えている。
【0077】
周波数毎方向推定部4011〜401Mから出力される方向推定結果θ_i(f,τ)は、方向推定統合部402に入力される。[数7]により音源が存在する位置インデックスpほど大きな値を持つ位置ヒストグラムh(p,τ)を得ることが可能である。
【0078】
【数7】
【0079】
ここで、前のフレームで算出された危険度マップデータH(p,τ)に応じて、[数7]の加算処理を間引いた[数8]を用いれば、危険度が高い位置に対して追従性高く位置ヒストグラムを算出することができる。
【0080】
【数8】
【0081】
音声非音声判別部204は、音源位置推定部202から入力された位置ヒストグラムh(p,τ)に基づいて、位置pごとに音声の有無を表わす音声非音声判別マップv(p,τ)を判定する。音声非音声判別には、h(p,τ)を位置pに存在する人の雑音混入音声信号とみなし、MCRAに基づく雑音推定を行ってから、入力信号対雑音比(事後SNR)γ(p,τ)に基づく判別方式[数9]などの一般的なアルゴリズムを用いて判別すればよく、本質的な機能の差にはならない。
【0082】
【数9】
【0083】
また、機械の寸法208に基づいて機械内部のpに対し、v(p,τ)は常に0とすることで計算コストを削減することができる。音声非音声判別マップv(p,τ)は人物検出部205に送られる。
【0084】
可視光線カメラ1031〜103Aからなる可視光線入力部210は可視光線画像データVIを動体検出部212に送る。
【0085】
赤外線カメラ1041〜104Bからなる赤外線入力部211は赤外線画像データIIを動体検出部212に送る。
【0086】
図5に、動体検出部212のブロック構成の一例を示す。動体検出部212は、背景差分・フレーム間差分算出部501、体表面検出部502、視錐体交差算出部503などから構成される。
【0087】
背景差分・フレーム間差分算出部501は、可視光線画像データVI_1〜VI_Aに基づき、それぞれの画像に対して背景差分処理およびフレーム間差分処理により物体領域を抽出した画像EI_1〜EI_Aを計算する。体表面検出部502は、赤外線画像データII_1〜II_Bに基づき、それぞれの画像に対して温度の高いピクセル領域を体表面領域として抽出した画像BI_1〜BI_Bを計算する。視錐体交差算出部503では、画像EI_1〜EI_Aの物体領域と画像BI_1〜BI_Bの体表面領域のそれぞれの視錐体を、カメラ投影行列220に基づいて3次元空間内に逆投影する。[数10]により得られるカメラ間で視野が交差する3次元領域のうち、視体積が交差する領域について、[数11]のように動体存在マップe(p,τ)を更新する。
【0088】
【数10】
【0089】
【数11】
【0090】
ここで、weはまた、前のフレームで算出された危険度マップデータH(p,τ)に応じて、[数10]の逆投影処理を間引いた[数12]を用いれば、動体存在マップe(p,τ)算出での危険度が高い位置に対して追従性が高くなる。
【0091】
【数12】
【0092】
人物検出部205は、音声非音声判別マップv(p,τ)と動体存在マップe(p,τ)に基づき、[数13]により人物検出マップd(p,τ)を計算する。ここで、wvは0以上1以下の重み係数である。
【0093】
【数13】
【0094】
機械センサ入力部207は、たとえば機械の速度計や機械のアームの油圧センサなどのセンサからなり、それぞれのセンサ信号をベクトルC(t)=(c_1(t),…,c_Ω(t))として出力する。
【0095】
機械運動状態推定部209では、機械の寸法208から各小部位z_kの3次元位置P_k(t)を得る。ここで、k(k=1,…,K)は部位インデックスである。また、前記センサ信号のベクトルC(t)とベクトルP(t)=(P_1(t),…,P_K(t))との組に対する、小部位z_kの運動速度V_k(t)のベクトルV(t)=(V_1(t),…,V_K(t))のテーブルを予め記憶媒体110に記憶しているものとする。このテーブルは、設計時にシミュレーションで容易に得ることができる。このテーブルにより小部位z_kの速度V_k(t)が得られる。
【0096】
さらに、機械操作入力部221から操作信号μ(t)を得る。操作信号μ(t)とP(t)との組みについても対応する加速度A(t)=(A_1(t),…,A_k(t))のテーブルを記憶しておくことで、操作信号μ(t)から小部位z_kの加速度A_k(t)が得られる。[数14]により時刻t+Δtでの小部位z_kの予測位置P(t+Δt)が求まる。最後に、[数15]により、接触までにかかる最短時間のマップg(p,t)が求まる。
【0097】
【数14】
【0098】
【数15】
【0099】
危険度算出部206は、人物検出部205から入力される人物検出マップd(p,τ)と、機械運動状態推定部209から入力される接触最短時間のマップg(p,t)とに基づいて、[数16]により、危険度マップH(p,τ)を算出する。ここで、ε、νはそれぞれ適当な定数とする。
【0100】
【数16】
【0101】
映像出力部213では、人物検出マップd(p,τ)と危険度マップH(p,τ)を重畳して提示する。
【0102】
音抽出部203では、音入力部201から入力される周波数領域信号Xf_11(f,τ)〜Xf_MN(f,τ)と危険度マップH(p,τ)とに基づいて、抽出信号Yf(f,τ)を計算する。
【0103】
図6に、音抽出部203のブロック構成の一例を示す。音抽出部203は、抽出方向選択部601、音源分離ユニット6021〜602R、混合部603などから構成される。
【0104】
まず、抽出方向選択部601では、すべての位置インデックスpのH(p,τ)をソートし、上位R個の位置p_1〜p_Rを抽出位置と定める。音源分離ユニット6021〜602Rは、それぞれ抽出位置p_1〜p_Rに対応する。r番目の音源分離ユニット602r(たとえば602R)のフローチャートを、図9に示す。
【0105】
S901では、H(p_r,τ)>T_hか、H(p_r,τ)≦T_hかで場合分けを行う。危険度H(p_r,τ)が高いH(p_r,τ)>T_hの場合(S901−Yes)は、特に高速性が求められると判断し、S902にて瞬時的に抽出可能な方式である方式1を選択する。方式1は、たとえば前述したSPIREのような方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ(f,τ)が抽出位置p_rと重なる場合にその周波数成分を残し、重ならない場合にその周波数成分を0とするようなバイナリマスキングであってもよい。
【0106】
それに対して、危険度H(p_r,τ)が相対的に低いH(p_r,τ)≦T_hの場合(S901−No)は、円滑なコミュニケーションのために高精度な抽出が求められると判断し、S903にて瞬時的に抽出可能な方式である方式2を選択する。
【0107】
図8に、方式2の例として、スパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す。方式2は、目的音/雑音分離部801、目的音ステアリングベクトル更新部802、雑音共分散行列更新部803、フィルタ更新部804、及び、フィルタ乗算部805の詳細構成となる。図8に基づいて説明する。
【0108】
目的音/雑音分離部801は、前述のバイナリマスキングと同様に、方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ(f,τ)によって、[数17]のように目的音信号X_des(f,τ)とX_int(f,τ)に分離する。X_des(f,τ)は、目的音/雑音分離部801から目的音ステアリングベクトル更新部802に送られる。X_int(f,τ)は、目的音/雑音分離部801から雑音共分散行列更新部803に送られる。
【0109】
【数17】
【0110】
目的音ステアリングベクトル更新部802では、[数18]に基づき、目的音ステアリングベクトルa(f,τ)=[a_0(f,τ),…,a_M−1(f,τ)]Tを更新する。ただし、γsは0以上1未満の適当な定数パラメタである。もちろん、安定のために、|X_des_i(f,τ)|が十分に大きいときだけに更新するようにしてもよい。
【0111】
【数18】
【0112】
雑音共分散行列更新部803では、[数19]に基づき、雑音共分散行列R(f,τ)を更新する。ただし、X_int(f,τ)=[X_int_0(f,τ),…,X_int_M−1(f,τ)]Tとし、γnは0以上1未満の適当な定数パラメタとする。もちろん、安定のために、|X_int(f,τ)|が十分に大きいときだけに更新するようにしてもよい。
【0113】
【数19】
【0114】
フィルタ更新部804では、目的音ステアリングベクトルa(f,τ)と雑音共分散行列R(f,τ)から、[数20]に基づき、フィルタw(f,τ)を計算する。ただし、γwは0以上1未満の適当な定数パラメタである。
【0115】
【数20】
【0116】
最後に、フィルタ乗算部805では、[数21]に基づいて、フィルタw(f,τ)をXf(f,τ)=[Xf_0(f,τ),…,Xf_M−1(f,τ)]Tに乗算することで、指定された方向から到来する音を除去した信号Yf(f,τ)が得られる。
【0117】
【数21】
【0118】
この例では、方式2にスパース性に基づく適応による最小分散ビームフォーマを用いているが、方式2は他の高精度な抽出手法であるICAを用いてもよい。ICAは高次統計量を用いるため、適応のために数秒程度の音声信号が必要であり、瞬時的な抽出は困難である一方で、高精度な抽出が可能である。また、この例では2通りの方式1、方式2のみを選択、実行したが、方式の個数は3以上であってもよく、それらを危険度に応じて選択、実行してもよい。
【0119】
混合部603では、音源分離ユニット6021〜602Rが出力した各周波数領域信号を混合し、抽出信号Yf(f,τ)を出力する。
【0120】
以上の手順によって計算された周波数領域フレーム信号Yf(f,τ)は、音出力部219に送られ、そこで、逆FFTを掛けられ、時間領域信号y(t,τ)に変換される。y(t,τ)は、フレーム周期毎にオーバーラップし、加算され、かつ窓関数の逆数を施されたy(t)に変換され、y(t)がDA変換を介してヘッドホン106から出力される。
【0121】
外部向け出力音生成部216は、危険度マップH(p,τ)に基づき、そのH(p,τ)が大きい位置p_rにスピーカアレーの指向性を持つようなフィルタを選択する。オペレータ側のマイクロホン105からなる操作者音声入力部215から入力される音声信号に対し、前記フィルタを乗算し、複数チャンネル信号を生成し、外部向け音出力部217によりDA変換を介してスピーカアレー1021〜102Sから出力する。
【0122】
機械動作制御部218は、危険度マップH(p,τ)が、あるpに対して非常に大きい場合に機械の動作を減速、もしくは、停止する。
【0123】
以上説明した本実施の形態における音響処理システムによれば、以下のような効果を得ることができる。
(1)危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができ、さらに外部向け音出力部217を介してオペレータと周囲の人物の間で円滑な会話が可能である。
(4)危険度算出部206が算出した位置ごとの危険度に応じて、音源位置推定部202が推定方式を変え、動体検出部212が検出方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
(5)映像出力部213に危険度を映像で視覚的に提示するため、オペレータが電話や無線で会話中である場合など、なんらかの原因で聴覚が使えない場合でも危険回避が可能である。
(6)外部向け音出力部217は、危険度が高い位置に指向性を向けて音声を出力するため、機械の騒音により聞きづらい環境であっても、機械周囲の人物に注意喚起を行うことができる。
(7)機械動作制御部218は、危険度が高い場合に、緊急に機械自体を制御して危険を回避するので、オペレータの回避判断が間に合わない場合に事故を回避できる可能性がある。
【0124】
<実施の形態2>
以下、本発明の実施の形態2を、前述した図6を用いて説明する。
【0125】
前記実施の形態1においては、音抽出部203のr番目の音源分離ユニット602r(たとえば602R)が位置ごとに方式を切り替える例を説明したが、本実施の形態では、位置ごとに方式を切り替えるのではなく、時刻によってのみ方式を切り替える構成に適用した例である。
【0126】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態1の効果に加えて、たとえば、あるpについてH(p,τ)>T_hである場合に全音源分離ユニットで方式1を選択するという構成であっても、危険度が高い時刻はリアルタイムで抽出し、危険度が低い時刻は高精度に抽出することができるという効果がある。
【0127】
<実施の形態3>
以下、本発明の実施の形態3を、図10を用いて説明する。図10は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
【0128】
本実施の形態は、前記実施の形態1に対して、可視光線入力部210、赤外線入力部211、動体検出部212、映像出力部213、操作者音声入力部215、外部向け出力音生成部216、外部向け音出力部217、機械動作制御部218、カメラ投影行列220を持たない構成である。
【0129】
すなわち、本実施の形態における音響処理システムは、図10に示すように、音入力部201と、音源位置推定部202と、音抽出部203と、音声非音声判別部204と、人物検出部205と、危険度算出部206と、機械センサ入力部207と、機械運動状態推定部209と、音出力部219と、機械操作入力部221などから構成され、各機能部は前記実施の形態1と同様の機能を有している。
【0130】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態1の効果のうち、(5)〜(7)を除く、以下の(1)〜(4)のような効果を得ることができる。
(1)危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
(4)危険度算出部206が算出した位置ごとの危険度に応じて、音源位置推定部202が推定方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
【0131】
<実施の形態4>
以下、本発明の実施の形態4を、図11を用いて説明する。図11は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
【0132】
本実施の形態は、前記実施の形態3に対して、さらに、音源位置推定部202、音声非音声判別部204、人物検出部205を持たない構成である。
【0133】
すなわち、本実施の形態における音響処理システムは、図11に示すように、音入力部201と、音抽出部203と、危険度算出部206と、機械センサ入力部207と、機械運動状態推定部209と、音出力部219と、機械操作入力部221などから構成され、各機能部は前記実施の形態1と同様の機能を有している。
【0134】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態3の効果のうち、(4)を除く、以下の(1)〜(3)のような効果を得ることができる。
(1)人物検出部を備えない場合であっても、危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
【0135】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0136】
たとえば、前記実施の形態においては、音響処理システムが建設機械と一体となった構成例について説明したが、本発明は、建設機械に限らず、一般の車両、作業機械などにもそのまま適用可能である。
【産業上の利用可能性】
【0137】
本発明の音響処理システムは、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に利用可能である。
【符号の説明】
【0138】
100…音響処理システム、1011〜101M…マイクロホンアレー、1021〜102S…スピーカアレー、1031〜103A…可視光線カメラ、1041〜104B…赤外線カメラ、105…マイクロホン、106…ヘッドホン、107…A/D−D/A変換装置、108…中央演算装置、109…揮発性メモリ、110…記憶媒体、111…画像表示装置、112…作業機械、113…機械操作入力部、1141〜114M,1151〜115S,116,117…オーディオケーブル、118…モニタケーブル、119,1201〜120A,1211〜121B…デジタルケーブル、
201…音入力部、202…音源位置推定部、203…音抽出部、204…音声非音声判別部、205…人物検出部、206…危険度算出部、207…機械センサ入力部、208…機械の寸法、209…機械運動状態推定部、210…可視光線入力部、211…赤外線入力部、212…動体検出部、213…映像出力部、214…マイク配置、215…操作者音声入力部、216…外部向け出力音生成部、217…外部向け音出力部、218…機械動作制御部、219…音出力部、220…カメラ投影行列、221…機械操作入力部、
301…多チャンネルAD変換器、302…多チャンネルフレーム処理部、303…多チャンネル短時間周波数分析部、
4011〜401M…周波数毎方向推定部、402…方向推定統合部、
501…背景差分・フレーム間差分算出部、502…体表面検出部、503…視錐体交差算出部、
601…抽出方向選択部、6021〜602R…音源分離ユニット、603…混合部、
801…目的音/雑音分離部、802…目的音ステアリングベクトル更新部、803…雑音共分散行列更新部、804…フィルタ更新部、805…フィルタ乗算部、
13001…キャビネット、13002…エンジン部、13003…アーム部。
【特許請求の範囲】
【請求項1】
音を収音する複数のマイクロホンからなる音入力部と、
機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、
前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、
前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする音響処理システム。
【請求項2】
請求項1に記載の音響処理システムにおいて、
前記危険度算出部は、位置ごとの危険度を算出することを特徴とする音響処理システム。
【請求項3】
請求項1または2に記載の音響処理システムにおいて、
前記音抽出部は、複数の音源分離ユニットを備え、
前記複数の音源分離ユニットは、前記危険度に応じて抽出位置を設定することを特徴とする音響処理システム。
【請求項4】
請求項3に記載の音響処理システムにおいて、
前記危険度に応じて前記音源分離ユニットが分離方式を変化させることを特徴とする音響処理システム。
【請求項5】
請求項4に記載の音響処理システムにおいて、
前記機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機械運動状態推定部をさらに有し、
前記危険度算出部は、前記機械運動状態推定部の出力する運動状態に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項6】
請求項5に記載の音響処理システムにおいて、
前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項7】
請求項5に記載の音響処理システムにおいて、
前記音抽出部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項8】
請求項7に記載の音響処理システムにおいて、
可視光線カメラもしくは赤外線カメラの1以上のカメラからなる映像入力部と、
前記映像入力部が出力する映像に基づいて動体検出を行う動体検出部と、をさらに有し、
前記人物検出部は、前記動体検出部の出力する信号に基づいて人物検出を行うことを特徴とする音響処理システム。
【請求項9】
請求項8に記載の音響処理システムにおいて、
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記音源位置推定部が推定方式を変化させることを特徴とする音響処理システム。
【請求項10】
請求項8または9に記載の音響処理システムにおいて、
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記動体検出部が検出方式を変化させることを特徴とする音響処理システム。
【請求項11】
請求項1〜10のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて映像を表示する映像出力部をさらに有することを特徴とする音響処理システム。
【請求項12】
請求項1〜11のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて前記機械の外部に対する外部向け出力音を生成する外部向け出力音生成部と、
前記外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、をさらに有することを特徴とする音響処理システム。
【請求項13】
請求項1〜12のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて前記機械の動作を制御する機械動作制御部をさらに有することを特徴とする音響処理システム。
【請求項14】
請求項1〜13のいずれか一項に記載の音響処理システムを用いたことを特徴とする機械。
【請求項1】
音を収音する複数のマイクロホンからなる音入力部と、
機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、
前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、
前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする音響処理システム。
【請求項2】
請求項1に記載の音響処理システムにおいて、
前記危険度算出部は、位置ごとの危険度を算出することを特徴とする音響処理システム。
【請求項3】
請求項1または2に記載の音響処理システムにおいて、
前記音抽出部は、複数の音源分離ユニットを備え、
前記複数の音源分離ユニットは、前記危険度に応じて抽出位置を設定することを特徴とする音響処理システム。
【請求項4】
請求項3に記載の音響処理システムにおいて、
前記危険度に応じて前記音源分離ユニットが分離方式を変化させることを特徴とする音響処理システム。
【請求項5】
請求項4に記載の音響処理システムにおいて、
前記機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機械運動状態推定部をさらに有し、
前記危険度算出部は、前記機械運動状態推定部の出力する運動状態に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項6】
請求項5に記載の音響処理システムにおいて、
前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項7】
請求項5に記載の音響処理システムにおいて、
前記音抽出部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項8】
請求項7に記載の音響処理システムにおいて、
可視光線カメラもしくは赤外線カメラの1以上のカメラからなる映像入力部と、
前記映像入力部が出力する映像に基づいて動体検出を行う動体検出部と、をさらに有し、
前記人物検出部は、前記動体検出部の出力する信号に基づいて人物検出を行うことを特徴とする音響処理システム。
【請求項9】
請求項8に記載の音響処理システムにおいて、
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記音源位置推定部が推定方式を変化させることを特徴とする音響処理システム。
【請求項10】
請求項8または9に記載の音響処理システムにおいて、
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記動体検出部が検出方式を変化させることを特徴とする音響処理システム。
【請求項11】
請求項1〜10のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて映像を表示する映像出力部をさらに有することを特徴とする音響処理システム。
【請求項12】
請求項1〜11のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて前記機械の外部に対する外部向け出力音を生成する外部向け出力音生成部と、
前記外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、をさらに有することを特徴とする音響処理システム。
【請求項13】
請求項1〜12のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて前記機械の動作を制御する機械動作制御部をさらに有することを特徴とする音響処理システム。
【請求項14】
請求項1〜13のいずれか一項に記載の音響処理システムを用いたことを特徴とする機械。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−58314(P2012−58314A)
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願番号】特願2010−198815(P2010−198815)
【出願日】平成22年9月6日(2010.9.6)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願日】平成22年9月6日(2010.9.6)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】
[ Back to top ]