音響処理システム及びこれを用いた機械

【課題】機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供する。
【解決手段】音響処理システムにおいて、音を収音する複数のマイクロホンからなる音入力部２０１と、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部２０６と、前記音入力部２０１から出力された信号を入力として前記危険度算出部２０６で算出された危険度に応じた分離信号を出力する音抽出部２０３と、前記音抽出部２０３から出力された分離信号を出力する音出力部２１９と、を有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に適用して有効な技術に関する。
【背景技術】
【０００２】
建設機械、車両、作業機械などの比較的大型の機械では、機械周囲の人物の安全のために、オペレータもしくは運転者（以下、オペレータという）が常に機械周囲の人物の状況を把握して、その都度危険を回避する必要がある。オペレータが機械周囲の人物の状況を知る上で重要な情報の一つが、周囲の人物が発声する音声である。
【０００３】
周囲の人物の音声を収音するために機械外部にマイクロホンを設置し、収音された音をオペレータに提示することで、オペレータに周囲の人物の状況を把握させることを想定する。マイクロホンで収音される音には、周囲の人物の音声だけでなく、機械動作にともなうエンジン音、機械駆動音、掘削音などが同時に混入するので、収音される音から周囲の人物の音声のみを抽出し、オペレータに提示する必要がある。
【０００４】
複数のマイクロホン（マイクロホンアレー）を用いた音源分離技術を用いれば、特定の位置から到来する音声のみを抽出することが可能である。ただし、以下の２点の課題がある。
【０００５】
一つ目に、音源分離では、音声を抽出する位置、すなわち人物が存在する位置を指定しなければならない点が課題である。たとえば、スパース性を仮定した位置推定に基づく音源分離方式（たとえば、特許文献１）は、指定した抽出位置を目的音源位置、それ以外を妨害音源位置としてフィルタを適応し、音源分離を行う。このため、位置の指定が必要である。また、音源の位置を指定せずに各音源の音を抽出するブラインド音源分離という技術も存在するが、その場合にも、複数個得られた音響信号のうち、どの音が抽出すべき信号であったのかを判断する問題が残る。
【０００６】
二つ目に、音源分離の「精度」とフィルタ適応時間のトレードオフが存在する点が課題である。ここでの精度とは、抽出された音が元の目的音源の音にどれだけ近いかを意味する。一般的に、高精度に抽出するための適応方式（たとえば、非特許文献１の独立成分分析）は、瞬時的な入力信号だけではフィルタの適応ができず、オペレータが周囲の人物の状況を把握し危険回避の判断をすることはできない（以下、「瞬時的」とは、音の提示を受けてからオペレータが危険回避行動を実施するまでの時間より十分短い時間であることを意味する）。
【０００７】
その一方で、瞬時的な入力信号だけを用いて抽出が可能な音源分離アルゴリズムが存在する（たとえば、非特許文献２のバイナリマスキング）が、一般にその精度は低く、騒音が混入するので、周囲の人物が何を話しているかまでをオペレータが認識することは困難である。また、常にオペレータが分離されずに残留した騒音にさらされるという問題もある。
【０００８】
また、リアルタイム処理と分離精度を両立するために、状況に応じて前記独立成分分析と音量差に基づくバイナリマスキングとを選択する方式がある（たとえば、特許文献２）。特許文献２では、独立成分分析の分離行列の収束度によって選択を行う実施例が示されている。
【先行技術文献】
【特許文献】
【０００９】
【特許文献１】特開２００７−４７４２７号公報
【特許文献２】特開２００７−３３８２５号公報
【非特許文献】
【００１０】
【非特許文献１】Ｔ．Ｔａｋａｔａｎｉ，Ｔ．Ｎｉｓｈｉｋａｗａ，Ｈ．Ｓａｒｕｗａｔａｒｉ，ａｎｄＫ．Ｓｈｉｋａｎｏ， “ＢｌｉｎｄｓｅｐａｒａｔｉｏｎｏｆｂｉｎａｕｒａｌｓｏｕｎｄｍｉｘｔｕｒｅｓｕｓｉｎｇＳＩＭＯ−ｍｏｄｅｌ−ｂａｓｅｄｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ，” ＩＣＡＳＳＰ２００４，ｖｏｌ．４，ｐｐ．１１３−１１６，２００４．
【非特許文献２】Ｏ．ＹｉｌｍａｚａｎｄＳ．Ｒｉｃｋａｒｄ， “Ｂｌｉｎｄｓｅｐａｒａｔｉｏｎｏｆｓｐｅｅｃｈｍｉｘｔｕｒｅｓｖｉａｔｉｍｅ−ｆｒｅｑｕｅｎｃｙｍａｓｋｉｎｇ，” ＩＥＥＥＴｒａｎｓ．ＳｉｇｎａｌＰｒｏｃｅｓｓ．，ｖｏｌ．５２，ｎｏ．７，ｐｐ．１８３０−１８４７，Ｊｕｌｙ２００４．
【非特許文献３】Ｍ．Ｔｏｇａｍｉ，Ｔ．Ｓｕｍｉｙｏｓｈｉ，ａｎｄＡ．Ａｍａｎｏ， “Ｓｔｅｐｗｉｓｅｐｈａｓｅｄｉｆｆｅｒｅｎｃｅｒｅｓｔｏｒａｔｉｏｎｍｅｔｈｏｄｆｏｒｓｏｕｎｄｓｏｕｒｃｅｌｏｃａｌｉｚａｔｉｏｎｕｓｉｎｇｍｕｌｔｉｐｌｅｍｉｃｒｏｐｈｏｎｅｐａｉｒｓ，” ＩＣＡＳＳＰ２００７，ｖｏｌ．Ｉ，ｐｐ．１１７−１２０，２００７．
【発明の概要】
【発明が解決しようとする課題】
【００１１】
ところで、前記した特許文献２において、収束度の基準で選択するメリットは、分離精度がバイナリマスキング未満まで低下しないという安定性である。周囲の人物の安全を最重要とする本発明においては、危険回避が必要な場合であるほど瞬時性が必要であるが、この課題は分離精度の安定性を重視する特許文献２の発明によっては解決できない。また、そもそも前記で述べた抽出すべき位置の指定の課題も解決できない。
【００１２】
そこで、本発明は、前記課題を解決するためになされたものであり、その代表的な目的は、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することにある。
【００１３】
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
【課題を解決するための手段】
【００１４】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。
【００１５】
すなわち、代表的な音響処理システムは、音を収音する複数のマイクロホンからなる音入力部と、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする。さらに、以下のような特徴を有しても良い。
【００１６】
前記音抽出部は、相対的に危険度が高い各位置を抽出位置とする複数の音源分離ユニットから構成される。各音源分離ユニットの抽出方式は、対応する抽出位置の危険度が高い場合には瞬時的に抽出可能な方式とし、抽出位置の危険度が低い場合には高精度に抽出可能な方式とする。
【００１７】
前記危険度は、機械の運動状態と人物位置の検出結果から算出される。機械の運動状態は、機械運動状態推定部により作業機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される。人物検出は、音声非音声判別結果と映像に基づく動体検出結果を組み合わせることで行う。音声非音声判別は、前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、該音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部により実現する。動体検出は、可視光線カメラもしくは赤外線カメラなどの１以上のカメラからなる映像入力部と、該映像入力部が出力する映像に基づいて動体検出を行う動体検出部により実現する。また、位置ごとの危険度に応じて音源位置推定部は推定方法を変え、動体検出部は検出方法を変える。
【００１８】
前記危険度に応じて映像を表示する映像出力部と、前記危険度に基づいて機械外部に対する外部向け出力音を生成する外部向け出力音生成部と、該外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、前記危険度に基づいて機械の動作を制御する機械制御部を有する。
【発明の効果】
【００１９】
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば、以下のとおりである。
【００２０】
すなわち、代表的な音響処理システムによれば、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することができる。
【図面の簡単な説明】
【００２１】
【図１】本発明の実施の形態１における音響処理システムのハードウェア構成の一例を示す図である。
【図２】本発明の実施の形態１における音響処理システムのブロック構成の一例を示す図である。
【図３】図２に示す音入力部のブロック構成の一例を示す図である。
【図４】図２に示す音源位置推定部のブロック構成の一例を示す図である。
【図５】図２に示す動体検出部のブロック構成の一例を示す図である。
【図６】図２に示す音抽出部のブロック構成の一例を示す図である。
【図７】図２において、あるフレームτにおける周波数領域信号Ｘｆ（ｆ，τ）のデータ構造の一例を示す図である。
【図８】図２において、音源分離ユニットが選択する方式２がスパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す図である。
【図９】図２に示す音抽出部の処理フローの一例を示すフローチャートである。
【図１０】本発明の実施の形態３における音響処理システムのブロック構成の一例を示す図である。
【図１１】本発明の実施の形態４における音響処理システムのブロック構成の一例を示す図である。
【図１２】図２に示す音源位置推定部におけるＳＰＩＲＥアルゴリズムの一例を示すフローチャートである。
【図１３】本発明の実施の形態１における音響処理システムを建設機械に適用した場合の外観の一例を示す図である。
【発明を実施するための形態】
【００２２】
以下、本発明の実施の形態を、たとえば建設機械と一体となった音響処理システムを例に図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
【００２３】
＜実施の形態１＞
以下、本発明の実施の形態１を、図１〜図９、図１２、図１３を用いて説明する。
【００２４】
図１は、本発明の実施の形態１における音響処理システムのハードウェア構成の一例を示す図である。
【００２５】
本実施の形態における音響処理システム１００のハードウェア構成は、マイクロホンアレー１０１１〜１０１Ｍ、スピーカアレー１０２１〜１０２Ｓ、可視光線カメラ１０３１〜１０３Ａ、赤外線カメラ１０４１〜１０４Ｂ、マイクロホン１０５、ヘッドホン１０６、Ａ／Ｄ−Ｄ／Ａ変換装置１０７、中央演算装置１０８、揮発性メモリ１０９、記憶媒体１１０、画像表示装置１１１、オーディオケーブル１１４１〜１１４Ｍ，１１５１〜１１５Ｓ，１１６，１１７、モニタケーブル１１８、デジタルケーブル１１９，１２０１〜１２０Ａ，１２１１〜１２１Ｂなどから構成される。この音響処理システム１００は、作業機械１１２、機械操作入力部１１３などから構成される建設機械と一体となっている。
【００２６】
マイクロホンアレー１０１１〜１０１Ｍは、建設機械外部に装着した、各アレーがＮ個のマイクロホンからなるマイクロホン群である。スピーカアレー１０２１〜１０２Ｓは、建設機械外部に装着したＳ個のスピーカ１０２１〜１０２Ｓからなるスピーカ群である。
【００２７】
可視光線カメラ１０３１〜１０３Ａは、建設機械外部に装着した可視光線カメラ群である。赤外線カメラ１０４１〜１０４Ｂは、建設機械外部に装着した赤外線カメラ群である。
【００２８】
マイクロホン１０５は、オペレータが装着するマイクロホンである。ヘッドホン１０６は、オペレータが装着するヘッドホンである。
【００２９】
Ａ／Ｄ−Ｄ／Ａ変換装置１０７は、マイクロホンアレー１０１１〜１０１Ｍから出力される信号とマイクロホン１０５から出力される信号をデジタルデータに変換すると同時に、スピーカアレー１０２１〜１０２Ｓとヘッドホン１０６にアナログ音圧信号を出力するＡ／Ｄ−Ｄ／Ａ変換装置である。
【００３０】
中央演算装置１０８は、Ａ／Ｄ−Ｄ／Ａ変換装置１０７の出力を処理する中央演算装置である。揮発性メモリ１０９は、中央演算装置１０８における演算処理のデータなどを一時的に格納する揮発性のメモリである。記憶媒体１１０は、プログラムなどの情報を記憶する記憶媒体である。画像表示装置１１１は、中央演算装置１０８における演算処理の情報や画像などを表示する表示装置である。
【００３１】
オーディオケーブル１１４１〜１１４Ｍは、マイクロホンアレー１０１１〜１０１ＭとＡ／Ｄ−Ｄ／Ａ変換装置１０７とを接続するケーブルである。オーディオケーブル１１５１〜１１５Ｓは、スピーカアレー１０２１〜１０２ＳとＡ／Ｄ−Ｄ／Ａ変換装置１０７とを接続するケーブルである。オーディオケーブル１１６は、マイクロホン１０５とＡ／Ｄ−Ｄ／Ａ変換装置１０７とを接続するケーブルである。オーディオケーブル１１７は、ヘッドホン１０６とＡ／Ｄ−Ｄ／Ａ変換装置１０７とを接続するケーブルである。
【００３２】
モニタケーブル１１８は、画像表示装置１１１と中央演算装置１０８とを接続するケーブルである。
【００３３】
デジタルケーブル１１９は、Ａ／Ｄ−Ｄ／Ａ変換装置１０７と中央演算装置１０８とを接続するケーブルである。デジタルケーブル１２０１〜１２０Ａは、可視光線カメラ１０３１〜１０３Ａと中央演算装置１０８とを接続するケーブルである。デジタルケーブル１２１１〜１２１Ｂは、赤外線カメラ１０４１〜１０４Ｂと中央演算装置１０８とを接続するケーブルである。
【００３４】
作業機械１１２は、アームなどを持つ建設機械である。機械操作入力部１１３は、建設機械の各種操作を入力する部分である。
【００３５】
以上のように構成される音響処理システム１００のハードウェアの動作は、以下の通りである。
【００３６】
マイクロホンアレー１０１１〜１０１Ｍが出力する音圧データは、オーディオケーブル１１４１〜１１４Ｍを介してＡ／Ｄ−Ｄ／Ａ変換装置１０７に送られる。このマイクロホンアレー１０１１〜１０１Ｍからの音圧データは、Ａ／Ｄ−Ｄ／Ａ変換装置１０７によってそれぞれデジタル音圧データに変換される。この変換では、信号間で変換タイミングを同期して変換する。変換後のデジタル音圧データは、デジタルケーブル１１９を介して中央演算装置１０８に送られ、中央演算装置１０８で音響信号処理が施される。この音響信号処理後のデジタル音圧データはデジタルケーブル１１９を介して、Ａ／Ｄ−Ｄ／Ａ変換装置１０７に送られる。この中央演算装置１０８からのデジタル音圧データは、Ａ／Ｄ−Ｄ／Ａ変換装置１０７によってアナログ音圧データに変換され、オーディオケーブル１１７を介してヘッドホン１０６より出力される。
【００３７】
マイクロホンアレー１０１１〜１０１Ｍで収音され、中央演算装置１０８に送られてきたデジタル音圧データＸには、作業機械１１２外部の作業員の声と作業機械１１２が発するエンジン音やアーム駆動音などの雑音とが混入して含まれている。中央演算装置１０８では、デジタル音圧データＸと、可視光線カメラ１０３１〜１０３Ａから得られる画像データＶＩと、赤外線カメラ１０４１〜１０４Ｂから得られる画像データＩＩと、機械操作入力部１１３から得られる操作信号と、作業機械１１２が持つ速度情報とに基づいて、位置ごとの危険度Ｈを算出する。危険度Ｈは揮発性メモリ１０９に記憶される。中央演算装置１０８は、危険度Ｈに基づいて、音源位置推定方式を変え、さらに、動体検出方式を変え、さらに、危険度が比較的高い位置を音抽出位置とし、その中でも危険度が特に高い位置に対しては瞬時的に抽出可能な方式での音抽出を行い、危険度が低い位置に対しては高精度に抽出可能な方式での音抽出を行う。抽出信号Ｙは、デジタルケーブル１１９を介してＡ／Ｄ−Ｄ／Ａ変換装置１０７に送られ、アナログ信号に変換されてオーディオケーブル１１７を介してヘッドホン１０６から出力される。
【００３８】
揮発性メモリ１０９に蓄えられた位置ごとの危険度Ｈは、中央演算装置１０８において、画像に変換され、モニタケーブル１１８を介して画像表示装置１１１より出力される。
【００３９】
マイクロホン１０５で収音される音声信号は、オーディオケーブル１１６を介して、Ａ／Ｄ−Ｄ／Ａ変換装置１０７にてデジタル音圧データに変換され、デジタルケーブル１１９を介して、中央演算装置１０８に入力される。また、スピーカアレー１０２１〜１０２Ｓを用いた指向性フィルタが、その指向性を向ける位置ごとに予め記憶媒体１１０に格納されている。前記デジタル音圧データに対して、危険度Ｈが比較的高い位置に指向性を向ける指向性フィルタを選択して畳み込み、複数チャンネルデジタル信号データを生成する。デジタルケーブル１１９を介して、この複数チャンネルデジタル信号データをＡ／Ｄ−Ｄ／Ａ変換装置１０７に入力し、Ａ／Ｄ−Ｄ／Ａ変換装置１０７が複数チャンネルアナログ信号に変換し、オーディオケーブル１１５１〜１１５Ｓを介してスピーカアレー１０２１〜１０２Ｓより出力する。
【００４０】
中央演算装置１０８は、作業機械１１２に対して、危険度Ｈに応じた移動の種類、移動速度、動作の種類、動作速度などの制御を行う。
【００４１】
デジタルケーブル１１９は、ＵＳＢケーブルなどを用いる。デジタルケーブル１２０１〜１２０Ａ、デジタルケーブル１２１１〜１２１Ｂは、ＵＳＢケーブルやＬＡＮケーブルなどを用いる。
【００４２】
図１３は、本実施の形態における音響処理システム１００を建設機械に適用した場合の外観の一例を示す図である。図１３は、建設機械を上面から見た模式図である。
【００４３】
この図１３の例では、建設機械は、キャビネット１３００１、エンジン部１３００２、アーム部１３００３などから構成される。マイクロホンアレー１０１１〜１０１４を建設機械外部の四隅に配置している。キャビネット１３００１内でオペレータが操作する。
【００４４】
たとえば、本発明を用いない場合、キャビネット１３００１の内部では外部の音はほとんど聞こえない。また、建設機械自身がエンジン部１３００２やアーム部１３００３といった騒音源を有しており、マイクロホンアレー１０１１〜１０１４が収音した音をそのまま聞いても、それらの騒音に埋もれた周囲の人物の音声はほとんど聞こえない。本発明では、これらの課題を解決するものである。
【００４５】
図２は、本実施の形態における音響処理システム１００のブロック構成の一例を示す図である。この図２に示すブロック構成は、図１に示す中央演算処理装置１０８が、記憶媒体１１０に記憶されているプログラムを読み出して実行することで実現されるソフトウェアによる機能構成である。ただし、一部の構成要素は図１に示すハードウェア構成を含むものもある。
【００４６】
本実施の形態における音響処理システム１００は、音入力部２０１と、音入力部２０１に繋がっている音源位置推定部２０２と、音入力部２０１に繋がっている音抽出部２０３と、音源位置推定部２０２に繋がっている音声非音声判別部２０４と、音声非音声判別部２０４に繋がっている人物検出部２０５と、人物検出部２０５に繋がっており、音源位置推定部２０２と音抽出部２０３に繋がる危険度算出部２０６と、機械センサ入力部２０７と、機械センサ入力部２０７に繋がっており、危険度算出部２０６に繋がる機械運動状態推定部２０９と、可視光線入力部２１０と、赤外線入力部２１１と、可視光線入力部２１０及び赤外線入力部２１１と危険度算出部２０６に繋がっており、人物検出部２０５に繋がる動体検出部２１２と、人物検出部２０５と危険度算出部２０６に繋がっている映像出力部２１３と、操作者音声入力部２１５と、操作者音声入力部２１５と危険度算出部２０６に繋がっている外部向け出力音生成部２１６と、外部向け出力音生成部２１６に繋がっている外部向け音出力部２１７と、危険度算出部２０６に繋がっている機械動作制御部２１８と、音抽出部２０３に繋がっている音出力部２１９と、機械運動状態推定部２０９に繋がる機械操作入力部２２１などから構成される。
【００４７】
また、音声非音声判別部２０４と機械運動状態推定部２０９では、機械の寸法２０８が用いられる。音源位置推定部２０２と音抽出部２０３では、マイク配置２１４の情報が用いられる。動体検出部２１２では、カメラ投影行列２２０が用いられる。
【００４８】
以上のように構成される音響処理システム１００のソフトウェアによる主な機能（一部の構成要素はハードウェア構成を含む）は、以下の通りである。
【００４９】
音入力部２０１は、音を収音する複数のマイクロホンからなる機能部である。詳細は図３を用いて後述する。音源位置推定部２０２は、音入力部２０１が出力する信号から音源位置を推定したり、または音抽出部２０３が出力する信号から音源位置を推定する機能部である。また、音源位置推定部２０２は、危険度算出部２０６が出力する位置ごとの危険度に基づいて推定方式を変化させる。詳細は図４を用いて後述する。音抽出部２０３は、音入力部２０１から出力された信号を入力として危険度算出部２０６で算出された危険度に応じた分離信号を出力する機能部である。この音抽出部２０３は、複数の音源分離ユニットを備え、各音源分離ユニットは危険度に応じて抽出位置を設定し、さらに危険度に応じて音源分離ユニットが分離方式を変化させる。詳細は図６を用いて後述する。
【００５０】
音声非音声判別部２０４は、音源位置推定部２０２が出力する音源位置に基づいて音声非音声を判別する機能部である。人物検出部２０５は、音声非音声判別部２０４が出力する音声非音声判別結果に基づいて人物位置を検出する機能部である。この人物検出部２０５は、また動体検出部２１２の出力する信号に基づいて人物検出を行う。
【００５１】
危険度算出部２０６は、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する機能部である。この危険度算出部２０６は、位置ごとの危険度を算出する。さらに、危険度算出部２０６は、機械運動状態推定部２０９の出力する運動状態に基づいて危険度を算出したり、人物検出部２０５が出力する人物位置検出結果に基づいて危険度を算出する。機械運動状態推定部２０９は、機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機能部である。
【００５２】
映像入力部は、可視光線入力部２１０及び赤外線入力部２１１からなり、可視光線カメラもしくは赤外線カメラの１以上のカメラからなる機能部である。動体検出部２１２は、映像入力部が出力する映像に基づいて動体検出を行う機能部である。また、動体検出部２１２は、危険度算出部２０６が出力する位置ごとの危険度に基づいて検出方式を変化させる。詳細は図５を用いて後述する。映像出力部２１３は、危険度算出部２０６が出力する危険度に基づいて映像を表示する機能部である。
【００５３】
外部向け出力音生成部２１６は、危険度算出部２０６が出力する危険度に基づいて機械の外部に対する外部向け出力音を生成する機能部である。外部向け音出力部２１７は、外部向け出力音生成部２１６が生成する外部向け出力音を出力する機能部である。
【００５４】
機械動作制御部２１８は、危険度算出部２０６が出力する危険度に基づいて機械の動作を制御する機能部である。音出力部２１９は、音抽出部２０３から出力された分離信号を出力する機能部である。
【００５５】
以下において、音響処理システム１００のソフトウェアによる主な機能部を詳細に説明する。
【００５６】
図３に、音入力部２０１のブロック構成の一例を示す。音入力部２０１は、多チャンネルＡＤ変換器３０１、多チャンネルフレーム処理部３０２、多チャンネル短時間周波数分析部３０３などから構成される。多チャンネルＡＤ変換器３０１は、Ａ／Ｄ−Ｄ／Ａ変換装置１０７に含まれる。
【００５７】
音入力部２０１において、マイクロホンアレー１０１１〜１０１Ｍから得た多チャンネルアナログ音圧データは多チャンネルＡＤ変換器３０１でデジタル音圧データｘ＿１１（ｔ）〜ｘ＿ＭＮ（ｔ）に変換される。ｔはサンプリング周期毎の離散時間である。変換されたデジタル音圧データｘ＿１１（ｔ）〜ｘ＿ＭＮ（ｔ）は、多チャンネルフレーム処理部３０２に渡る。
【００５８】
多チャンネルフレーム処理部３０２では、ｔ＝τｓからｔ＝τｓ＋Ｆ＿ｓ−１までのｘ＿ｉｊ（ｔ）をそれぞれｔ＝０からｔ＝Ｆ−１までのＸｆ＿ｉｊ（ｔ，τ）に移し変える。ここで、τはフレームインデックスと呼び、多チャンネルフレーム処理部３０２から音出力部２１９までの処理が完了した後で、１インクリメントされる。ｓはフレームシフトと呼び、フレーム毎にずらすサンプル数を意味する。Ｆ＿ｓはフレームサイズと呼び、フレーム毎に一度に処理するサンプル数を意味する。ｉはマイクロホンアレー番号を意味するインデックス（１，…，Ｍ）とする。ｊはマイクロホン番号を意味するインデックス（１，…，Ｎ）とする。
【００５９】
その後、Ｘｆ＿ｉｊ（ｔ，τ）は多チャンネル短時間周波数分析部３０３に渡される。多チャンネル短時間周波数分析部３０３では、Ｘｆ＿ｉｊ（ｔ，τ）に、直流成分カット及びハミング窓、ハニング窓、ブラックマン窓などの窓処理を施した後、短時間フーリエ変換を施し、それぞれ周波数領域の信号Ｘｆ＿ｉｊ（ｆ，τ）に変換する。ここでの周波数ビン数をＦとする。あるフレームτでのＸｆ＿ｉｊ（ｆ，τ）は、図７のようなデータ構造をとる。周波数領域信号Ｘｆ＿ｉｊ（ｆ，τ）は、音源位置推定部２０２と音抽出部２０３に送られる。
【００６０】
図４に、音源位置推定部２０２のブロック構成の一例を示す。音源位置推定部２０２は、周波数毎方向推定部４０１１〜４０１Ｍ、方向推定統合部４０２などから構成される。
【００６１】
まず、周波数毎方向推定部４０１ｉは、一つのマイクロホンアレー１０１ｉに対応する多チャンネル周波数領域信号Ｘｆ＿ｉ１（ｆ，τ）〜Ｘｆ＿ｉＮ（ｆ，τ）に対して、各周波数インデックスｆに対する音の到来方向θ＿ｉ（ｆ）を推定する。マイクロホンアレーのマイク素子数が二つの場合、θを［数１］で推定する。
【００６２】
【数１】

【００６３】
ここで、ρ（ｆ，τ）は、二つのマイク素子の入力信号の、フレームτ、周波数インデックスｆにおける位相差とする。ｆｒｅｑ（ｆ）は周波数インデックスｆの周波数（Ｈｚ）であり、［数２］で計算される。
【００６４】
【数２】

【００６５】
ただし、Ｆ_ＳはＡ／Ｄ変換装置のサンプリングレートである。ｄは二つのマイク素子の物理的な間隔（ｍ）とする。ｃは音速（ｍ／ｓ）とする。音速は、厳密には温度や媒質の密度に依存して変化するが、通常３４０ｍ／ｓなどの一つの値に固定して用いる。ここでの雑音除去処理は、前述の「スパース性」の仮定に基づけば、時間−周波数毎に同一の処理を別々に行えばよいため、以後、時間−周波数のサフィックス（ｆ，τ）は省略して表記する。
【００６６】
マイクロホンアレーのマイク素子数が三つ以上の場合、ＳＰＩＲＥアルゴリズム（非特許文献３参照）により、その方向を高精度に算出することが可能である。ＳＰＩＲＥアルゴリズムでも、前述の「スパース性」の仮定に基づき、時間−周波数毎に同一の処理を別々に行うものとする。図１２に、ＳＰＩＲＥアルゴリズムのフローチャートを示す。
【００６７】
まず、ＳＰＩＲＥアルゴリズムでは、マイク素子の配置読み込みを行う（Ｓ１２０１）。次に、ＳＰＩＲＥアルゴリズムでは、それぞれが二つのマイク素子で構成されるマイクペアとなるように、各マイクペアを構成するマイク素子の選択を行う（Ｓ１２０２）。このとき、マイクペアを構成する二つのマイク素子間のマイク間隔が、マイクペアごとに異なるように分けることが望ましい。
【００６８】
次に、ＳＰＩＲＥアルゴリズムは、各マイクペアをマイク間隔が小さいものから順にソートし、マイクペア待ち行列に格納する（Ｓ１２０３）。ここで、ｌを一つのマイクペアを特定するためのインデックスとし、ｌ＝１をマイク間隔が最も短いマイクペア、ｌ＝Ｌをマイク間隔が最も長いマイクペアとする。マイクペア待ち行列の要素数が０かどうかの比較演算を行う（Ｓ１２０４）。要素数が０でない間（Ｓ１２０４−Ｎｏ）、次に述べるＳ１２０５及びＳ１２０６を繰り返す。
【００６９】
すなわち、次に、マイクペア待ち行列から間隔が最短の一つのマイクペアｌを読み込み、かつ、マイクペア待ち行列から除く処理を行う（Ｓ１２０５）。そして、続く位相差推定処理では、読み込んだｌに対して、まず［数３］を満たす整数ｎ_ｌをみつける（Ｓ１２０６）。不等式で囲まれた範囲が２πに相当するため、必ず一つだけ解が見つかる。そして、［数４］を実行する。
【００７０】
【数３】

【００７１】
【数４】

【００７２】
また、上記の処理をｌ＝１に対して行う前に初期値として、［数５］を設定する。Ｓ１２０５及びＳ１２０６をＰ回繰り返し、マイクペア待ち行列の要素数が０となると（Ｓ１２０４−Ｙｅｓ）、［数６］に従って、位相差から方向計算を行い、θ（ｆ，τ）を計算する（Ｓ１２０７）。
【００７３】
【数５】

【００７４】
【数６】

【００７５】
ここで、ｄ_ｌはｌ番目のマイクペアのマイク素子間の間隔とする。
【００７６】
音源方向推定の推定精度は、マイク間隔が長い程、高まることが知られているが、方向を推定する信号の半波長以上マイク間隔が長ければ、マイク間の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまうことが知られている（空間的エイリアシング）。ＳＰＩＲＥ法では、長いマイク間隔で生じた二つ以上の推定方向のうち、短いマイク間隔で求めた音源方向に近い方向を選択するような機構を備えている。したがって、空間的エイリアシングが生じるような長いマイク間隔でも高精度に音源方向を推定することができるという利点を備えている。
【００７７】
周波数毎方向推定部４０１１〜４０１Ｍから出力される方向推定結果θ＿ｉ（ｆ，τ）は、方向推定統合部４０２に入力される。［数７］により音源が存在する位置インデックスｐほど大きな値を持つ位置ヒストグラムｈ（ｐ，τ）を得ることが可能である。
【００７８】
【数７】

【００７９】
ここで、前のフレームで算出された危険度マップデータＨ（ｐ，τ）に応じて、［数７］の加算処理を間引いた［数８］を用いれば、危険度が高い位置に対して追従性高く位置ヒストグラムを算出することができる。
【００８０】
【数８】

【００８１】
音声非音声判別部２０４は、音源位置推定部２０２から入力された位置ヒストグラムｈ（ｐ，τ）に基づいて、位置ｐごとに音声の有無を表わす音声非音声判別マップｖ（ｐ，τ）を判定する。音声非音声判別には、ｈ（ｐ，τ）を位置ｐに存在する人の雑音混入音声信号とみなし、ＭＣＲＡに基づく雑音推定を行ってから、入力信号対雑音比（事後ＳＮＲ）γ（ｐ，τ）に基づく判別方式［数９］などの一般的なアルゴリズムを用いて判別すればよく、本質的な機能の差にはならない。
【００８２】
【数９】

【００８３】
また、機械の寸法２０８に基づいて機械内部のｐに対し、ｖ（ｐ，τ）は常に０とすることで計算コストを削減することができる。音声非音声判別マップｖ（ｐ，τ）は人物検出部２０５に送られる。
【００８４】
可視光線カメラ１０３１〜１０３Ａからなる可視光線入力部２１０は可視光線画像データＶＩを動体検出部２１２に送る。
【００８５】
赤外線カメラ１０４１〜１０４Ｂからなる赤外線入力部２１１は赤外線画像データＩＩを動体検出部２１２に送る。
【００８６】
図５に、動体検出部２１２のブロック構成の一例を示す。動体検出部２１２は、背景差分・フレーム間差分算出部５０１、体表面検出部５０２、視錐体交差算出部５０３などから構成される。
【００８７】
背景差分・フレーム間差分算出部５０１は、可視光線画像データＶＩ＿１〜ＶＩ＿Ａに基づき、それぞれの画像に対して背景差分処理およびフレーム間差分処理により物体領域を抽出した画像ＥＩ＿１〜ＥＩ＿Ａを計算する。体表面検出部５０２は、赤外線画像データＩＩ＿１〜ＩＩ＿Ｂに基づき、それぞれの画像に対して温度の高いピクセル領域を体表面領域として抽出した画像ＢＩ＿１〜ＢＩ＿Ｂを計算する。視錐体交差算出部５０３では、画像ＥＩ＿１〜ＥＩ＿Ａの物体領域と画像ＢＩ＿１〜ＢＩ＿Ｂの体表面領域のそれぞれの視錐体を、カメラ投影行列２２０に基づいて３次元空間内に逆投影する。［数１０］により得られるカメラ間で視野が交差する３次元領域のうち、視体積が交差する領域について、［数１１］のように動体存在マップｅ（ｐ，τ）を更新する。
【００８８】
【数１０】

【００８９】
【数１１】

【００９０】
ここで、ｗ_ｅはまた、前のフレームで算出された危険度マップデータＨ（ｐ，τ）に応じて、［数１０］の逆投影処理を間引いた［数１２］を用いれば、動体存在マップｅ（ｐ，τ）算出での危険度が高い位置に対して追従性が高くなる。
【００９１】
【数１２】

【００９２】
人物検出部２０５は、音声非音声判別マップｖ（ｐ，τ）と動体存在マップｅ（ｐ，τ）に基づき、［数１３］により人物検出マップｄ（ｐ，τ）を計算する。ここで、ｗ_ｖは０以上１以下の重み係数である。
【００９３】
【数１３】

【００９４】
機械センサ入力部２０７は、たとえば機械の速度計や機械のアームの油圧センサなどのセンサからなり、それぞれのセンサ信号をベクトルＣ（ｔ）＝（ｃ＿１（ｔ），…，ｃ＿Ω（ｔ））として出力する。
【００９５】
機械運動状態推定部２０９では、機械の寸法２０８から各小部位ｚ＿ｋの３次元位置Ｐ＿ｋ（ｔ）を得る。ここで、ｋ（ｋ＝１，…，Ｋ）は部位インデックスである。また、前記センサ信号のベクトルＣ（ｔ）とベクトルＰ（ｔ）＝（Ｐ＿１（ｔ），…，Ｐ＿Ｋ（ｔ））との組に対する、小部位ｚ＿ｋの運動速度Ｖ＿ｋ（ｔ）のベクトルＶ（ｔ）＝（Ｖ＿１（ｔ），…，Ｖ＿Ｋ（ｔ））のテーブルを予め記憶媒体１１０に記憶しているものとする。このテーブルは、設計時にシミュレーションで容易に得ることができる。このテーブルにより小部位ｚ＿ｋの速度Ｖ＿ｋ（ｔ）が得られる。
【００９６】
さらに、機械操作入力部２２１から操作信号μ（ｔ）を得る。操作信号μ（ｔ）とＰ（ｔ）との組みについても対応する加速度Ａ（ｔ）＝（Ａ＿１（ｔ），…，Ａ＿ｋ（ｔ））のテーブルを記憶しておくことで、操作信号μ（ｔ）から小部位ｚ＿ｋの加速度Ａ＿ｋ（ｔ）が得られる。［数１４］により時刻ｔ＋Δｔでの小部位ｚ＿ｋの予測位置Ｐ（ｔ＋Δｔ）が求まる。最後に、［数１５］により、接触までにかかる最短時間のマップｇ（ｐ，ｔ）が求まる。
【００９７】
【数１４】

【００９８】
【数１５】

【００９９】
危険度算出部２０６は、人物検出部２０５から入力される人物検出マップｄ（ｐ，τ）と、機械運動状態推定部２０９から入力される接触最短時間のマップｇ（ｐ，ｔ）とに基づいて、［数１６］により、危険度マップＨ（ｐ，τ）を算出する。ここで、ε、νはそれぞれ適当な定数とする。
【０１００】
【数１６】

【０１０１】
映像出力部２１３では、人物検出マップｄ（ｐ，τ）と危険度マップＨ（ｐ，τ）を重畳して提示する。
【０１０２】
音抽出部２０３では、音入力部２０１から入力される周波数領域信号Ｘｆ＿１１（ｆ，τ）〜Ｘｆ＿ＭＮ（ｆ，τ）と危険度マップＨ（ｐ，τ）とに基づいて、抽出信号Ｙｆ（ｆ，τ）を計算する。
【０１０３】
図６に、音抽出部２０３のブロック構成の一例を示す。音抽出部２０３は、抽出方向選択部６０１、音源分離ユニット６０２１〜６０２Ｒ、混合部６０３などから構成される。
【０１０４】
まず、抽出方向選択部６０１では、すべての位置インデックスｐのＨ（ｐ，τ）をソートし、上位Ｒ個の位置ｐ＿１〜ｐ＿Ｒを抽出位置と定める。音源分離ユニット６０２１〜６０２Ｒは、それぞれ抽出位置ｐ＿１〜ｐ＿Ｒに対応する。ｒ番目の音源分離ユニット６０２ｒ（たとえば６０２Ｒ）のフローチャートを、図９に示す。
【０１０５】
Ｓ９０１では、Ｈ（ｐ＿ｒ，τ）＞Ｔ＿ｈか、Ｈ（ｐ＿ｒ，τ）≦Ｔ＿ｈかで場合分けを行う。危険度Ｈ（ｐ＿ｒ，τ）が高いＨ（ｐ＿ｒ，τ）＞Ｔ＿ｈの場合（Ｓ９０１−Ｙｅｓ）は、特に高速性が求められると判断し、Ｓ９０２にて瞬時的に抽出可能な方式である方式１を選択する。方式１は、たとえば前述したＳＰＩＲＥのような方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ（ｆ，τ）が抽出位置ｐ＿ｒと重なる場合にその周波数成分を残し、重ならない場合にその周波数成分を０とするようなバイナリマスキングであってもよい。
【０１０６】
それに対して、危険度Ｈ（ｐ＿ｒ，τ）が相対的に低いＨ（ｐ＿ｒ，τ）≦Ｔ＿ｈの場合（Ｓ９０１−Ｎｏ）は、円滑なコミュニケーションのために高精度な抽出が求められると判断し、Ｓ９０３にて瞬時的に抽出可能な方式である方式２を選択する。
【０１０７】
図８に、方式２の例として、スパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す。方式２は、目的音／雑音分離部８０１、目的音ステアリングベクトル更新部８０２、雑音共分散行列更新部８０３、フィルタ更新部８０４、及び、フィルタ乗算部８０５の詳細構成となる。図８に基づいて説明する。
【０１０８】
目的音／雑音分離部８０１は、前述のバイナリマスキングと同様に、方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ（ｆ，τ）によって、［数１７］のように目的音信号Ｘ＿ｄｅｓ（ｆ，τ）とＸ＿ｉｎｔ（ｆ，τ）に分離する。Ｘ＿ｄｅｓ（ｆ，τ）は、目的音／雑音分離部８０１から目的音ステアリングベクトル更新部８０２に送られる。Ｘ＿ｉｎｔ（ｆ，τ）は、目的音／雑音分離部８０１から雑音共分散行列更新部８０３に送られる。
【０１０９】
【数１７】

【０１１０】
目的音ステアリングベクトル更新部８０２では、［数１８］に基づき、目的音ステアリングベクトルａ（ｆ，τ）＝［ａ＿０（ｆ，τ），…，ａ＿Ｍ−１（ｆ，τ）］^Ｔを更新する。ただし、γ_ｓは０以上１未満の適当な定数パラメタである。もちろん、安定のために、｜Ｘ＿ｄｅｓ＿ｉ（ｆ，τ）｜が十分に大きいときだけに更新するようにしてもよい。
【０１１１】
【数１８】

【０１１２】
雑音共分散行列更新部８０３では、［数１９］に基づき、雑音共分散行列Ｒ（ｆ，τ）を更新する。ただし、Ｘ＿ｉｎｔ（ｆ，τ）＝［Ｘ＿ｉｎｔ＿０（ｆ，τ），…，Ｘ＿ｉｎｔ＿Ｍ−１（ｆ，τ）］^Ｔとし、γ_ｎは０以上１未満の適当な定数パラメタとする。もちろん、安定のために、｜Ｘ＿ｉｎｔ（ｆ，τ）｜が十分に大きいときだけに更新するようにしてもよい。
【０１１３】
【数１９】

【０１１４】
フィルタ更新部８０４では、目的音ステアリングベクトルａ（ｆ，τ）と雑音共分散行列Ｒ（ｆ，τ）から、［数２０］に基づき、フィルタｗ（ｆ，τ）を計算する。ただし、γ_ｗは０以上１未満の適当な定数パラメタである。
【０１１５】
【数２０】

【０１１６】
最後に、フィルタ乗算部８０５では、［数２１］に基づいて、フィルタｗ（ｆ，τ）をＸｆ（ｆ，τ）＝［Ｘｆ＿０（ｆ，τ），…，Ｘｆ＿Ｍ−１（ｆ，τ）］^Ｔに乗算することで、指定された方向から到来する音を除去した信号Ｙｆ（ｆ，τ）が得られる。
【０１１７】
【数２１】

【０１１８】
この例では、方式２にスパース性に基づく適応による最小分散ビームフォーマを用いているが、方式２は他の高精度な抽出手法であるＩＣＡを用いてもよい。ＩＣＡは高次統計量を用いるため、適応のために数秒程度の音声信号が必要であり、瞬時的な抽出は困難である一方で、高精度な抽出が可能である。また、この例では２通りの方式１、方式２のみを選択、実行したが、方式の個数は３以上であってもよく、それらを危険度に応じて選択、実行してもよい。
【０１１９】
混合部６０３では、音源分離ユニット６０２１〜６０２Ｒが出力した各周波数領域信号を混合し、抽出信号Ｙｆ（ｆ，τ）を出力する。
【０１２０】
以上の手順によって計算された周波数領域フレーム信号Ｙｆ（ｆ，τ）は、音出力部２１９に送られ、そこで、逆ＦＦＴを掛けられ、時間領域信号ｙ（ｔ，τ）に変換される。ｙ（ｔ，τ）は、フレーム周期毎にオーバーラップし、加算され、かつ窓関数の逆数を施されたｙ（ｔ）に変換され、ｙ（ｔ）がＤＡ変換を介してヘッドホン１０６から出力される。
【０１２１】
外部向け出力音生成部２１６は、危険度マップＨ（ｐ，τ）に基づき、そのＨ（ｐ，τ）が大きい位置ｐ＿ｒにスピーカアレーの指向性を持つようなフィルタを選択する。オペレータ側のマイクロホン１０５からなる操作者音声入力部２１５から入力される音声信号に対し、前記フィルタを乗算し、複数チャンネル信号を生成し、外部向け音出力部２１７によりＤＡ変換を介してスピーカアレー１０２１〜１０２Ｓから出力する。
【０１２２】
機械動作制御部２１８は、危険度マップＨ（ｐ，τ）が、あるｐに対して非常に大きい場合に機械の動作を減速、もしくは、停止する。
【０１２３】
以上説明した本実施の形態における音響処理システムによれば、以下のような効果を得ることができる。
（１）危険度算出部２０６で位置ごとに危険度を算出し、音抽出部２０３でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
（２）音抽出部２０３において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
（３）音抽出部２０３において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができ、さらに外部向け音出力部２１７を介してオペレータと周囲の人物の間で円滑な会話が可能である。
（４）危険度算出部２０６が算出した位置ごとの危険度に応じて、音源位置推定部２０２が推定方式を変え、動体検出部２１２が検出方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
（５）映像出力部２１３に危険度を映像で視覚的に提示するため、オペレータが電話や無線で会話中である場合など、なんらかの原因で聴覚が使えない場合でも危険回避が可能である。
（６）外部向け音出力部２１７は、危険度が高い位置に指向性を向けて音声を出力するため、機械の騒音により聞きづらい環境であっても、機械周囲の人物に注意喚起を行うことができる。
（７）機械動作制御部２１８は、危険度が高い場合に、緊急に機械自体を制御して危険を回避するので、オペレータの回避判断が間に合わない場合に事故を回避できる可能性がある。
【０１２４】
＜実施の形態２＞
以下、本発明の実施の形態２を、前述した図６を用いて説明する。
【０１２５】
前記実施の形態１においては、音抽出部２０３のｒ番目の音源分離ユニット６０２ｒ（たとえば６０２Ｒ）が位置ごとに方式を切り替える例を説明したが、本実施の形態では、位置ごとに方式を切り替えるのではなく、時刻によってのみ方式を切り替える構成に適用した例である。
【０１２６】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態１の効果に加えて、たとえば、あるｐについてＨ（ｐ，τ）＞Ｔ＿ｈである場合に全音源分離ユニットで方式１を選択するという構成であっても、危険度が高い時刻はリアルタイムで抽出し、危険度が低い時刻は高精度に抽出することができるという効果がある。
【０１２７】
＜実施の形態３＞
以下、本発明の実施の形態３を、図１０を用いて説明する。図１０は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
【０１２８】
本実施の形態は、前記実施の形態１に対して、可視光線入力部２１０、赤外線入力部２１１、動体検出部２１２、映像出力部２１３、操作者音声入力部２１５、外部向け出力音生成部２１６、外部向け音出力部２１７、機械動作制御部２１８、カメラ投影行列２２０を持たない構成である。
【０１２９】
すなわち、本実施の形態における音響処理システムは、図１０に示すように、音入力部２０１と、音源位置推定部２０２と、音抽出部２０３と、音声非音声判別部２０４と、人物検出部２０５と、危険度算出部２０６と、機械センサ入力部２０７と、機械運動状態推定部２０９と、音出力部２１９と、機械操作入力部２２１などから構成され、各機能部は前記実施の形態１と同様の機能を有している。
【０１３０】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態１の効果のうち、（５）〜（７）を除く、以下の（１）〜（４）のような効果を得ることができる。
（１）危険度算出部２０６で位置ごとに危険度を算出し、音抽出部２０３でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
（２）音抽出部２０３において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
（３）音抽出部２０３において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
（４）危険度算出部２０６が算出した位置ごとの危険度に応じて、音源位置推定部２０２が推定方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
【０１３１】
＜実施の形態４＞
以下、本発明の実施の形態４を、図１１を用いて説明する。図１１は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
【０１３２】
本実施の形態は、前記実施の形態３に対して、さらに、音源位置推定部２０２、音声非音声判別部２０４、人物検出部２０５を持たない構成である。
【０１３３】
すなわち、本実施の形態における音響処理システムは、図１１に示すように、音入力部２０１と、音抽出部２０３と、危険度算出部２０６と、機械センサ入力部２０７と、機械運動状態推定部２０９と、音出力部２１９と、機械操作入力部２２１などから構成され、各機能部は前記実施の形態１と同様の機能を有している。
【０１３４】
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態３の効果のうち、（４）を除く、以下の（１）〜（３）のような効果を得ることができる。
（１）人物検出部を備えない場合であっても、危険度算出部２０６で位置ごとに危険度を算出し、音抽出部２０３でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
（２）音抽出部２０３において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
（３）音抽出部２０３において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
【０１３５】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【０１３６】
たとえば、前記実施の形態においては、音響処理システムが建設機械と一体となった構成例について説明したが、本発明は、建設機械に限らず、一般の車両、作業機械などにもそのまま適用可能である。
【産業上の利用可能性】
【０１３７】
本発明の音響処理システムは、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に利用可能である。
【符号の説明】
【０１３８】
１００…音響処理システム、１０１１〜１０１Ｍ…マイクロホンアレー、１０２１〜１０２Ｓ…スピーカアレー、１０３１〜１０３Ａ…可視光線カメラ、１０４１〜１０４Ｂ…赤外線カメラ、１０５…マイクロホン、１０６…ヘッドホン、１０７…Ａ／Ｄ−Ｄ／Ａ変換装置、１０８…中央演算装置、１０９…揮発性メモリ、１１０…記憶媒体、１１１…画像表示装置、１１２…作業機械、１１３…機械操作入力部、１１４１〜１１４Ｍ，１１５１〜１１５Ｓ，１１６，１１７…オーディオケーブル、１１８…モニタケーブル、１１９，１２０１〜１２０Ａ，１２１１〜１２１Ｂ…デジタルケーブル、
２０１…音入力部、２０２…音源位置推定部、２０３…音抽出部、２０４…音声非音声判別部、２０５…人物検出部、２０６…危険度算出部、２０７…機械センサ入力部、２０８…機械の寸法、２０９…機械運動状態推定部、２１０…可視光線入力部、２１１…赤外線入力部、２１２…動体検出部、２１３…映像出力部、２１４…マイク配置、２１５…操作者音声入力部、２１６…外部向け出力音生成部、２１７…外部向け音出力部、２１８…機械動作制御部、２１９…音出力部、２２０…カメラ投影行列、２２１…機械操作入力部、
３０１…多チャンネルＡＤ変換器、３０２…多チャンネルフレーム処理部、３０３…多チャンネル短時間周波数分析部、
４０１１〜４０１Ｍ…周波数毎方向推定部、４０２…方向推定統合部、
５０１…背景差分・フレーム間差分算出部、５０２…体表面検出部、５０３…視錐体交差算出部、
６０１…抽出方向選択部、６０２１〜６０２Ｒ…音源分離ユニット、６０３…混合部、
８０１…目的音／雑音分離部、８０２…目的音ステアリングベクトル更新部、８０３…雑音共分散行列更新部、８０４…フィルタ更新部、８０５…フィルタ乗算部、
１３００１…キャビネット、１３００２…エンジン部、１３００３…アーム部。

【特許請求の範囲】
【請求項１】
音を収音する複数のマイクロホンからなる音入力部と、
機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、
前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、
前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする音響処理システム。
【請求項２】
請求項１に記載の音響処理システムにおいて、
前記危険度算出部は、位置ごとの危険度を算出することを特徴とする音響処理システム。
【請求項３】
請求項１または２に記載の音響処理システムにおいて、
前記音抽出部は、複数の音源分離ユニットを備え、
前記複数の音源分離ユニットは、前記危険度に応じて抽出位置を設定することを特徴とする音響処理システム。
【請求項４】
請求項３に記載の音響処理システムにおいて、
前記危険度に応じて前記音源分離ユニットが分離方式を変化させることを特徴とする音響処理システム。
【請求項５】
請求項４に記載の音響処理システムにおいて、
前記機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機械運動状態推定部をさらに有し、
前記危険度算出部は、前記機械運動状態推定部の出力する運動状態に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項６】
請求項５に記載の音響処理システムにおいて、
前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項７】
請求項５に記載の音響処理システムにおいて、
前記音抽出部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。
【請求項８】
請求項７に記載の音響処理システムにおいて、
可視光線カメラもしくは赤外線カメラの１以上のカメラからなる映像入力部と、
前記映像入力部が出力する映像に基づいて動体検出を行う動体検出部と、をさらに有し、
前記人物検出部は、前記動体検出部の出力する信号に基づいて人物検出を行うことを特徴とする音響処理システム。
【請求項９】
請求項８に記載の音響処理システムにおいて、
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記音源位置推定部が推定方式を変化させることを特徴とする音響処理システム。
【請求項１０】
請求項８または９に記載の音響処理システムにおいて、
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記動体検出部が検出方式を変化させることを特徴とする音響処理システム。
【請求項１１】
請求項１〜１０のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて映像を表示する映像出力部をさらに有することを特徴とする音響処理システム。
【請求項１２】
請求項１〜１１のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて前記機械の外部に対する外部向け出力音を生成する外部向け出力音生成部と、
前記外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、をさらに有することを特徴とする音響処理システム。
【請求項１３】
請求項１〜１２のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて前記機械の動作を制御する機械動作制御部をさらに有することを特徴とする音響処理システム。
【請求項１４】
請求項１〜１３のいずれか一項に記載の音響処理システムを用いたことを特徴とする機械。

【図１】