音検出装置及びその制御方法、プログラム

【課題】精度良く音を検出する音検出装置及びその制御方法、プログラムを提供する。
【解決手段】音を検出するための閾値を用いて、音入力部から入力した音から特定の音を検出する。撮像部が撮像した画像を記録する。記録した画像と撮像部が撮像した現在の画像との差分をとり、現在の画像から、動体のある箇所を検出する。撮像部が撮像する画像中の特定位置を示す情報とその特定位置で起こり得る音を示す情報との対応を管理する。動体が検出された場合には、位置・音対応情報管理部で管理される音を検出するための閾値を変更し、その変更した閾値を用いて、該位置・音対応情報管理部で管理される対応を参照して、音入力部から入力した音から特定の音を検出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置及びその制御方法、プログラムに関するものである。
【背景技術】
【０００２】
従来、音声認識装置において、雑音等の影響を減らして音声認識の精度を上げるために、画像情報を用いるものがある。特許文献１は、唇の動きを検出し、その検出した区間を音声区間としてその間の音声を認識するものである。特許文献２は、口唇パターンを画像認識して対応する音節候補の類似度と確からしさの積をとり、音声認識して求めた音節候補の類似度と確からしさの積と足し合わせることで、より確からしい音節候補を求めるものである。
【０００３】
また、画像監視で使用される撮像装置においては、音の大きさや種類を用いて異常を判定するものもある。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開昭５９−１４７３９８号公報
【特許文献２】特許第０３７９８５３０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
画像監視等で音の種類を判定し、異常を検出する場合、その精度が課題となる。一般に誤検出を減らそうとすると、検出漏れが多くなり、もれなく検出しようとすると誤検出も増える。
【０００６】
誤検出を減らすために、画像情報を使用するとしても、監視対象は複数の物体の存在しうる場所であるため、音節と唇の形状の対応以外のもの、例えば、物体の位置情報とそれに関連する複数の音の種類の対応が必要となる。
【０００７】
本発明の目的は、精度良く音を検出する音検出装置及びその制御方法、プログラムを提供することである。
【課題を解決するための手段】
【０００８】
上記の目的を達成するための本発明による音検出装置は以下の構成を備える。即ち、
撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置であって、
音を検出するための閾値を用いて、前記音入力部から入力した音から特定の音を検出する音検出手段と、
前記撮像部が撮像した画像を記録する画像記録手段と、
前記画像記録手段で記録した画像と前記撮像部が撮像した現在の画像との差分をとり、前記現在の画像から、動体のある箇所を検出する動体検出手段と、
前記撮像部が撮像する画像内の特定位置を示す情報とその特定位置で起こり得る音を示す情報との対応を管理する位置・音対応情報管理手段とを有し、
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される音を検出するための閾値を変更し、その変更した閾値を用いて、該位置・音対応情報管理手段で管理される対応を参照して、前記音入力部から入力した音から特定の音を検出する。
【発明の効果】
【０００９】
本発明によれば、精度良く音を検出する音検出装置及びその制御方法、プログラムを提供できる。
【図面の簡単な説明】
【００１０】
【図１】本実施形態の音検出装置の機能構成を示すブロック図である。
【図２】本実施形態の動体検出処理のフローチャートである。
【図３】本実施形態の音検出処理のフローチャートである。
【図４】本実施形態の動体検出処理の変形例のフローチャートである。
【図５】本実施形態の動体検出と音検出の例を示す図である。
【図６】本実施形態の位置と音の対応を示す図である。
【図７】本実施形態の動体検出と音検出のタイミングの例を示す図である。
【図８】本実施形態の音検出の閾値処理の例を示す図である。
【図９】本実施形態の物体と可能性のある音の対応関係の例を示す図である。
【図１０】本実施形態の位置・音対応情報作成処理のフローチャートである。
【図１１】本実施形態の音響モデルを選択する場合の音検出装置の機能構成を示すブロック図である。
【図１２】本実施形態の音響モデルを選択する場合の音検出処理のフローチャートである。
【図１３】本実施形態の音響モデルを選択する場合の音検出処理の変形例のフローチャートである。
【図１４】本実施形態の動体検出の有無を含む位置と音の対応を示す図である。
【図１５】本実施形態の音響モデルを選択する場合の音検出の例を示す図である。
【図１６】本実施形態の背景音モデルを学習して選択する場合の音検出装置の機能構成を示すブロック図である。
【図１７】本実施形態の背景音モデルの学習処理のフローチャートである。
【図１８】一般的な音響モデルの学習処理のフローチャートである。
【図１９】本実施形態の背景音モデル学習の例を示す図である。
【図２０】本実施形態の背景音モデルを含む位置と音の対応を示す図である。
【図２１】本実施形態の音響モデルと閾値を変更する場合の音検出処理の例を示す図である。
【図２２】本実施形態のユーザ操作で行う位置・音対応情報の作成処理のフローチャートである。
【図２３】本実施形態のユーザ操作で行う位置・音対応情報の作成例を示す図である。
【発明を実施するための形態】
【００１１】
以下、本発明の実施の形態について図面を用いて詳細に説明する。
【００１２】
図１は本実施形態の音検出装置の機能構成を示すブロック図である。
【００１３】
１０１は、マイクから音／音声を取り込む音入力部である。１０２は、撮像部であるカメラから画像（静止画像あるいは動画像）を取り込む画像入力部である。１０３は、過去の画像と現在の画像の差分を取り、その現在の画像から、差分のある個所（画像）を動体のある個所（画像）として検出する動体検出部である。１０４は、過去の画像や音／音声を記録媒体（ハードディスク、メモリ等）に記録する画像記録部である。１０５は、画像の符号化を行う画像処理部である。１０６は、特定の音を検出する音検出部である。具体的には、検出すべき音を予め選定してその種類毎に音響モデルを用意しておき、入力音とその音響モデルとの類似度を比較し、一番スコアの高い音響モデルの音を検出結果として提示する。１０７は、動体の位置とその位置で起こりうる音を記述した位置・音対応情報を管理する位置・音対応情報管理部である。
【００１４】
尚、図１の音検出装置は、汎用コンピュータに搭載される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等）を有している。そして、これらの構成要素によって、図１の各種構成要素を実現する。また、各種構成要素は、ソフトウェア、あるいはハードウェア、それらの組み合わせによって実現されても良い。
【００１５】
図２は本実施形態の動体検出処理のフローチャートであり、図３は本実施形態の音検出処理のフローチャートである。動体検出処理と音検出処理はそれぞれ、動体検出部１０３と音検出部１０６によって独立に制御する。
【００１６】
動体検出処理は、動体を検出したタイミングで、動体検出フラグを立て、動体を検出しなくなって一定時間経過すると、動体検出フラグをクリアする処理を実行する。音検出処理は、動体検出フラグが立っている時に、動体を検出した位置に対応する音を検出するための閾値を下げる処理を実行する。
【００１７】
まず、動体検出処理の詳細について説明する。
【００１８】
図２のステップＳ２０１で、まず、動体検出部１０３は、動体検出フラグ＝０に設定する。ステップＳ２０２で、動体検出部１０３は、過去画像となる画像を設定して、画像記録部１０４に記録する。ステップＳ２０３で、動体検出部１０３は、ステップＳ２０２の過去画像の次のフレーム画像もしくは、一定時間おいたフレーム画像を現在画像として取得する。ステップＳ２０４で、動体検出部１０３は、過去画像と現在画像との差分画像を作成する。
【００１９】
ここで、図７（Ａ）は、動体検出を行うタイミングと音検出を行うタイミングを示す図である。７０１が動体検出の時間軸、７０３が音検出の時間軸を示す。図７（Ａ）において、時間軸７０１上に配置された個々の目盛りがこの動体検出のタイミングを示す。差分がある場合には目盛りの上に○、差分がない場合には×を記述している。
【００２０】
ステップＳ２０５で、動体検出部１０３は、差分があるか否かを判定する。差分があると判定した場合（ステップＳ２０５でＹＥＳ）、つまり、動体があると判定すると、ステップＳ２０６で、動体検出部１０３は、動体検出フラグ＝１に設定する。ステップＳ２０７で、動体検出部１０３は、検出時間を記録する。ステップＳ２０８で、動体検出部１０３は、検出位置を記録する。ステップＳ２０９で、動体検出部１０３は、動体検出を終了するかどうかの判定を行う。終了する場合（ステップＳ２０９でＹＥＳ）は、処理を終了する。一方、終了しない場合（ステップＳ２０９でＮＯ）、ステップＳ２０２に戻り処理を繰り返す。
【００２１】
ステップＳ２０５において、差分がないと判定した場合（ステップＳ２０５でＮＯ）、ステップＳ２１０で、動体検出部１０３は、ステップＳ２０７で記録した、最後に動体を検出した動体検出時間から一定時間が経過しているかどうかを判定する。一定時間が経過していると判定した場合（ステップＳ２１０でＹＥＳ）、ステップＳ２１１で、動体検出部１０３は、動体検出フラグ＝０に設定する。その後、ステップＳ２０９に進む。
【００２２】
一方、ステップＳ２１０において、一定時間が経過していないと判定した場合（ステップＳ２１０でＮＯ）、何もせずにステップＳ２０９へ進む。これは、動体を検出しなくなっても一定の時間は動体検出フラグを立てておくための処理である。図７（Ａ）の７０２の動体検出フラグ＝１の区間は、動体を検出した後に動体を検出しなくなってからの一定時間を含む状態を示している。
【００２３】
次に、音検出処理の詳細について説明する。
【００２４】
図３のステップＳ３０１で、音検出部１０６は、音入力部１０１で入力した音に対し特定の音が存在する可能性のある音区間を検出する。ステップＳ３０２で、音検出部１０６は、検出した音区間に対し、想定されている特定の音のどれに近いか音認識処理を行い、音認識結果の候補にスコアをつけて作成する。図７（Ａ）の７０４がこの音区間を示し、音区間７０４の終了位置７０５のタイミングで音認識処理を行って音認識結果の候補を作成する。
【００２５】
ここで、音認識処理は、特定の音と背景音の複数のモデルを用意しておき、音区間の特徴量との類似度を尤度として算出することによって行う。図８の尤度の欄は、個々の音ラベルのモデルに対する尤度を背景音のモデルに対する尤度で割って正規化したものである。この尤度に対して閾値処理が有効に行えるよう１を超えない値に変換してスコアとする。その変換は、尤度ｘに対してスコアｙ＝（１／（１＋ｅｘｅｐ（−１＊（ｘ−１））を算出する。尚、正規化処理はこの方法に限定されない。個別の音の尤度をすべての候補の尤度の総和で割ってもよいし、スコアは１を超えない値に変換しなくてもよい。
【００２６】
ステップＳ３０３で、音検出部１０６は、動体検出フラグ＝１であるかどうかを判定する。動体検出フラグ＝１であると判定した場合（ステップＳ３０３でＹＥＳ）、ステップＳ３０４へ進む。ステップＳ３０４で、音検出部１０６は、ステップＳ２０７で記録されている動体検出時間とステップＳ２０８で記録されている動体検出位置に基づいて、記憶媒体（メモリ等）に管理される位置・音対応情報管理テーブル（図６（Ｂ））を参照して位置を検索する。尚、位置・音対応情報管理テーブルとは、画像中の物体の位置（領域）で生じる可能性のある音の対応付け（位置・音対応情報）を管理するテーブルである。ステップＳ３０５で、音検出部１０６は、検索した動体検出位置に対応する位置・音対応情報があるかどうかを判定する。図７（Ａ）の例では、終了位置７０５では、動体検出フラグ＝１になっているので、ステップＳ３０４へ進むことになる。
【００２７】
ステップＳ３０５において、位置・音対応情報があると判定した場合（ステップＳ３０５でＹＥＳ）、ステップＳ３０６において、音検出部１０６は、音認識結果の候補から位置・音対応情報のある音についてのみ音を検出するための閾値を下げる。ステップＳ３０７で、音検出部１０６は、スコアが閾値より大きい音認識結果の候補を音検出結果として決定する。
【００２８】
一方、ステップＳ３０３で、動体検出フラグ＝０であると判定した場合（ステップＳ３０３でＮＯ）、あるいはステップＳ３０５で、動体検出位置に対応する位置・音対応情報がないと判定した場合（ステップＳ３０５でＮＯ）、ステップＳ３０７へ進む。そして、ステップＳ３０７で、音検出部１０６は、この場合、音を検出するための閾値は下げずに、従来と同様の閾値のままで音検出結果の決定を行う。
【００２９】
ステップＳ３０７で音検出結果を決定した後、ステップＳ３０８において、音検出部１０６は、音検出処理を終了するか判定する。終了しない場合（ステップＳ３０８でＮＯ）、ステップＳ３０１に戻り、処理を繰り返す。一方、終了する場合（ステップＳ３０８でＹＥＳ）、処理を終了する。
【００３０】
以下、動体検出処理と音検出処理の具体例について説明する。
【００３１】
図５（Ａ）は、動体検出処理で動体を検出していない例を示す。音検出処理では、音を検出し、音認識結果の候補を作成する。例えば、「ガタン」という音がした場合、音区間の検出が行われ、想定されている特定の音に対する確からしさを尤度として算出し、音認識結果の候補を作成する。図８（Ａ）がその例である。この候補を作成した時には、何も動くものを検出しておらず動体検出フラグは立っていないので、閾値はすべて同じままである。この閾値とスコアを比較して検出すべき音はないと判定される。
【００３２】
図５（Ｂ）は、ドアが存在する位置５０１で動体を検出した例を示す。位置５０１に動体が検出されたと判定される。図６（Ａ）は、画像中の物体の位置を示し、図６（Ｂ）はその位置で生じる可能性のある音の対応付け（位置・音対応情報）を位置・音対応情報管理テーブルとして記述した例である。図６（Ａ）中の括弧書きの数字は、図中左下角を原点（０，０）とした場合の画像中の物体の座標をピクセル単位で示したものである。図５（Ｂ）の動体検出位置である位置５０１と、位置・音対応情報管理テーブルに登録されている領域の内、重複する領域の有無を確認する。そして、重複する領域が存在する場合に、その領域で生じる可能性のある音のラベルを取り出す。位置５０１に重複する領域は、図６（Ｂ）の位置・音対応情報管理テーブルの内の位置・音対応情報６０３である。この場合、「バタン」という音の音ラベルがあることから、図８（Ｂ）での「バタン」という音ラベルの閾値が下げられ、その結果、「バタン」という音が検出されることになる。
【００３３】
図５（Ｃ）は、窓が存在する位置５０２で動体を検出した例を示す。位置５０２に動体が検出されたと判定される。位置５０２に重複する領域は、図６（Ｂ）の位置・音対応情報６０４である。この場合、「ガチャン」、「パリン」、「ギシギシ」という音の音ラベルがあることから、図８（Ｃ）での「ガチャン」、「パリン」、「ギシギシ」という音の閾値が下げられ、「ガチャン」という音が検出される。
【００３４】
尚、上記の位置・音対応情報管理テーブルで管理する位置・音対応情報には、位置と音（音ラベル）の対応のみ記述しているが、これに設定しなおす閾値の対応も記述して、音ラベル毎に閾値を変更するようにしてもよい。
【００３５】
また、上記の例では、予め設定された位置とそれに対応する音（音ラベル）からなる位置・音対応情報を使用しているが、これに限定されない。例えば、画像中から物体とその位置を認識して、物体の種類とそれに対応する音（その物体が発生する可能性のある音）の種類からなる物体・音対応情報を一旦作成し、その物体・音対応情報を使用して、位置・音対応情報を自動で作成するようにしてもよい。図９は、物体・音対応情報の例であり、ここでは、物体として、「ドア」、「ガラス」を認識し、その物体に対応する音（音ラベル）を管理している。
【００３６】
以下では、物体・音対応情報から、位置・音対応情報を作成する位置・音対応情報作成処理について説明する。この処理は、例えば、動体検出部１０３、音検出部１０６及び位置・音対応情報管理部１０７が協働して実行する。
【００３７】
図１０は本実施形態の位置・音対応情報作成処理のフローチャートである。尚、この処理に平行して、図３の音検出処理を実行し、物体検出時の特定の音を検出する。もしくはまた、初期設定時に物体を認識して位置・音対応情報管理テーブルを作成しておき、動体検出時に使用するようにしてもよい。
【００３８】
ステップＳ１００１で、位置・音対応情報管理部１０７は、物体を認識する画像を設定する。ステップＳ１００２で、位置・音対応情報管理部１０７は、位置・音対応情報管理テーブル上の位置・音対応情報をクリアする。
【００３９】
ステップＳ１００３で、動体検出部１０３は、物体認識部として、画像内にある物体を認識する。ステップＳ１００４で、認識した物体があるか否かを判定する。認識した物体がないと判定した場合（ステップＳ１００４でＮＯ）、処理を終了する。一方、認識した物体があると判定した場合（ステップＳ１００４でＹＥＳ）、ステップＳ１００５に進む。
【００４０】
ステップＳ１００５で、位置・音対応情報管理部１０７は、物体とそれに対応する音情報を管理する物体・音対応情報管理テーブルを参照して物体・音対応情報を検索する。ステップＳ１００６で、位置・音対応情報管理部１０７は、対応する音があるか否かを判定する。
【００４１】
対応する音があると判定した場合（ステップＳ１００６でＹＥＳ）、ステップＳ１００７で、位置・音対応情報管理部１０７は、その物体の検出位置と対応する音を、位置・音対応情報管理テーブルの１レコードとして追加する。図６（Ａ）の位置６０１で物体としてドアを検出した場合に、図（６）（Ｂ）の位置・音対応情報６０３として追加され、図６（Ａ）の位置６０２で物体としてガラスを検出した場合に、図６（Ｂ）の位置・音対応情報６０４が追加される。
【００４２】
一方、ステップＳ１００６において、対応する音がないと判定した場合（ステップＳ１００６でＮＯ）、ステップＳ１００８へ進む。
【００４３】
ステップＳ１００８で、位置・音対応情報管理部１０７は、物体を認識する画像の領域を更新する。そして、ステップＳ１００３へ戻り、次の処理対象の物体の認識を繰り返す。つまり、まだ、物体を検出していない画像の領域に限定し、物体検出処理を繰り返す。
【００４４】
以上の処理で、図６（Ｂ）のような位置・音対応情報を作成することができる。
【００４５】
尚、上記の例では、動体を検出した位置に対応する音を検出するための閾値を下げているが、閾値を上げるようにしてもよい。その場合、動体を検出しない場合はすべての音を検出するための閾値を上げ、動体を検出した場合はその位置に対応する音以外のすべての音を検出するための閾値を上げる。このように、用途や目的に応じて、音を検出するための閾値を変更（上げ下げ）する。
【００４６】
また、上記の例では、動体検出処理と音検出処理を独立に行っているが、動体検出をした後に、動体を検出する直前（一定時間前）から現在の時間までの区間（時間帯）の音を取り出し、その部分にのみ音検出処理を遡及的に行ってもよい。この場合、音検出装置においては、音入力部１０１から入力した音を記録する音記録部を搭載することになる。
【００４７】
このような構成の場合、動体検出処理は図４のフローチャートのようになり、図７（Ｂ）がそのタイミングを示す例である。尚、図４のフローチャートでは、図２のフローチャートと共通のステップについては、同一のステップ番号を付加し、その詳細については省略する。
【００４８】
ステップＳ２１０で、最後に記録された動体検出時間から一定時間が経過していると判定した場合（ステップＳ２１０でＹＥＳ）、ステップＳ４０１へ進む。ステップＳ４０１で、動体検出部１０３は、動体検出フラグ＝１であるか否か、つまり、以前に動体が検出されているか否かを判定する。
【００４９】
動体検出フラグ＝１であると判定した場合（ステップＳ４０１でＹＥＳ）、ステップＳ４０２へ進む。ステップＳ４０２で、動体検出部１０３は、音検出処理の処理対象となる検出対象区間を取得する。具体的には、動体が検出される直前の過去画像の撮像時間から動体が検出されなくなって一定時間経過するまでの音の区間を検出対象区間として取得する。例えば、図７（Ｂ）では、７０６で示される区間を検出対象区間として取得する。
【００５０】
次に、ステップＳ４０３で、音検出部１０６が、音検出処理を行う。この処理は、図３のフローチャートとほぼ同じであるが、異なる箇所は、ステップＳ３０２で音区間を検出する音の対象区間が限定されていること、ステップＳ３０８の終了の判定方法が、検出対象区間が終了したかどうかの判断に変わるだけである。図７（Ｂ）の状況での音検出処理は、検出対象区間７０６にのみ行われ、７０７は検出対象区間７０６内で、特定の音が存在する可能性のある音区間である。そして、音検出部１０６は、音区間７０７の終了位置７０８のタイミングで音認識処理を行って音認識結果の候補を作成する。そして、音検出部１０６は、該当する位置に対応する音を検出するための閾値を下げ、スコアが閾値より大きい音認識結果の候補を音検出結果として決定する。尚、検出対象区間７０６は、動体を検出した動体検出処理の直前の動体検出処理よりも前の一定時間としてもよい。また、遡及的に検出する場合、動体検出フラグは常時１にしておくようにしてもよい。
【００５１】
また、上記の例では、動体検出位置が１ヶ所のみの処理を示しているが、同時に複数の位置で動体が検出した場合でも、同じように処理できる。図７（Ｃ）がその例である。動体検出区間７０９では、図６（Ａ）の位置６０２で動体が検出され、区間７１０は図６（Ａ）の位置６０１で動体が検出されたとする。動体検出フラグ＝１の区間７１１から、動体フラグ＝０になった時点で、検出対象区間７１２に対して音検出処理を実行する。
【００５２】
音区間７１３が検出され、その終了位置７１４のタイミングで音認識結果の候補が作成された時、動体検出区間７０９での検出位置は位置６０２である。そのため、図６（Ｂ）の位置・音対応情報から、「ガチャン」、「パリン」及び「ギシギシ」の３つの音を検出するための閾値が下げられることになる。
【００５３】
また、音区間７１５が検出され、その終了位置７１６のタイミングで音認識結果の候補が作成された時、音区間と重複する動体検出区間７０９と７１０の検出位置は位置６０２と位置６０１の２つである。そのため、図６（Ｂ）の位置・音対応情報から、「ガチャン」、「パリン」、「ギシギシ」及び「バタン」の４つの音を検出するための閾値が下げられることになる。図８（Ｄ）がその例である。
【００５４】
尚、上記の例では、画像を撮像する撮像部は、一地点のみを撮像する撮像装置（固定カメラ）としているが、パン・チルト・ズーム機能を持つ撮像装置であってもよい。その場合、パン・チルト・ズームしながら撮像可能な方向についての画像を撮像して過去画像を作成する。撮像した画像は比較が行えるようにキャリブレーションする。そして、一定時間後にパン・チルト・ズームしながら撮像可能な方向についての画像を撮像し現在画像として過去画像との差分を作成する。差分があって動体を検出した後、過去画像を撮像した時点から現在画像を撮像した時点までの音区間を取り出し、音検出処理を行うようにしてもよい。
【００５５】
また、撮像装置は全方位を撮像可能な全方位カメラでもよい。その場合、全方位画像はパノラマ画像に変換して、任意のフレーム単位で、位置の特定を行う。
【００５６】
また、上記の例では、音を検出するための閾値を個別に下げたり上げたりしているが、閾値は固定にしておき、スコアに重みづけをつけるようにしてもよい。例えば、動体検出位置に対応する音のスコアを２倍するなどして、実質的に閾値を下げるのと同じ効果をもたらすようにしてもよい。
【００５７】
また、上記の例では、音認識処理で尤度を算出した後に閾値処理を行っているが、音認識処理内でデコーダのパラメータを変更し、動体検出位置に対応する音を検出しやすくするようにしてもよい。
【００５８】
また、上記の例では、音を検出するまでの処理に限定しているが、撮像装置に音出力部を付与し、音の検出後にその旨を通知する警告音を出力しても良い。更には、表示を付与し、音の検出後にその旨を通知する画像を表示部に出力してもよい。
【００５９】
また、撮像装置に通信機能を付与し、音の検出後にその旨を通信先に通知するようにしてもよい。
【００６０】
また、撮像装置に、音検出時間をインデキシングして画像を記録する記録部と画像再生部を付与し、特定の音を検出した場面の頭出し再生を行えるようにしてもよい。
【００６１】
また、上記の例では、音認識を行った後に動体を検出した位置に合わせて音の閾値を変えて音検出を行っているが、これに限定されない。例えば、音認識を行う前に、動体を検出した位置に対応する音のラベルに合わせて音響モデルを選択して、音認識の対象となる音の種類を絞るようにしてもよい。
【００６２】
図１１は音響モデルを選択する場合の音検出装置の機能構成を示すブロック図である。
【００６３】
図１１において、図１と同一の構成については、同一の参照番号を付加し、その説明は省略する。尚、図１の音検出部１０６では、検出対象となる音の音響モデル群を用意しているが、個別に選択することはないので、図１では音響モデル群の説明は省略している。１１０１は、動体検出位置に合わせて、音響モデル群１１０２の中から適切な音響モデルを選択する音響モデル選択部である。
【００６４】
図１４は位置・音対応情報管理テーブルの変形例である。図１４に示す位置・音対応情報管理テーブルでは、領域ＩＤと、動体の検出領域、可能性のある音ラベルの情報を記述している。
【００６５】
動体の検出領域は、動体検出のない場合（動体検出なし）、動体検出がありかつどの位置で検出され得る場合（動体検出あり）、動体が指定の位置で検出され得る場合（領域の指定）に分類される。つまり、動体検出なしを示す情報と、動体検出ありを示す情報と、領域の指定である座標のいずれかに分類される。
【００６６】
「ピンポーン」、「リーン」、「ジャー」と「背景音」は、撮像画像内で動体が検出されない場合に選択される音響モデルの音ラベルである。「キャー」、「ガツン」と「背景音」は、どの位置でもよいが動体検出がある場合に選択される音響モデルの音ラベルである。「バタン」は図６（Ａ）の位置６０１であり、かつ、図６（Ｂ）の位置・音対応情報６０３の領域指定と同じ位置で動体が検出された場合の音ラベルである。「ガチャン」、「バリバリ」と「ギシギシ」は、図６（Ａ）の位置６０２であり、かつ、図６（Ｂ）の位置・音対応情報６０４の領域指定と同じ位置で動体が検出された場合の音ラベルである。
【００６７】
尚、この「背景音」のラベルは、どの場合でも共通に使われる背景音モデルの音ラベルである。背景音モデルとは、検出結果からは除外して欲しい音を集めて作った音響モデルであり、背景音モデルのスコアが一位になった場合には、音検出結果はなしとなる。背景音モデルの作成方法については後述する。
【００６８】
図１２は本実施形態の動体検出位置に合わせて、音響モデル群の中から使用する音響モデルを選択する音検出処理のフローチャートである。
【００６９】
図３の音検出処理のフローチャートとの違いは、ステップＳ３０３の動体検出フラグの判定をステップＳ３０２の音認識結果候補作成処理の前に行い、さらに音認識結果候補作成の前に、音響モデル選択部１１０１が音響モデルの選択を行う点にある。ステップＳ３０１の音区間の検出後、ステップＳ３０３で動体検出フラグの判定を行う。動体検出フラグ＝１であると判定した場合（ステップＳ３０３でＹＥＳ）、ステップＳ１２０１に進み、音響モデル選択部１１０１は、動体検出ありの音響モデルを選択する。図１４の例では「キャー」、「ガツン」と「背景音」の音響モデルが選択されることになる。
【００７０】
次に、ステップＳ３０４を経て、ステップＳ３０５において、位置・音対応情報があると判定した場合（ステップＳ３０５でＹＥＳ）、ステップＳ１２０２へ進み、音響モデル選択部１１０１は、その音ラベルに対応する音響モデルを追加する。図６（Ａ）の位置６０１で動体が検出された場合には「バタン」、図６（Ａ）の位置６０２で動体が検出された場合には「ガチャン」、「パリン」及び「ギシギシ」の音響モデルを追加する。
【００７１】
次に、ステップＳ３０２で、音検出部１０６は、選択された音響モデルを使用して、音認識処理を行って音認識結果の候補を作成する。そして、ステップＳ３０７で、音検出部１０６は、音検出結果の決定を行う。
【００７２】
図１５（Ａ）は、図６（Ａ）の窓が存在する位置６０２で動体が検出され、「ガチャン」という音がした場合の音認識結果の候補と音検出結果を示す。どの位置でもよいが動体が検出された時の音「キャー」、「ガツン」と「背景音」と、図６（Ａ）の位置６０２及び図６（Ｂ）の対応する位置・音対応情報６０４で動体が検出された時の音「ガチャン」、「パリン」、「ギシギシ」、「キャー」及び「ガツン」の音響モデルについてそれぞれの尤度を算出し、一番高いスコアの「ガチャン」を音検出結果とする。
【００７３】
図１５（Ｂ）は、図６（Ａ）のドアが存在する位置６０１で動体が検出され、「バタン」という音がした場合の音認識結果の候補と音検出結果を示す。どの位置でもよいが動体が検出された時の音「キャー」、「ガツン」と「背景音」と、図６（Ａ）の位置６０１及び図６（Ｂ）の対応する位置・音対応情報６０３で動体が検出された時の音「バタン」の音響モデルについてそれぞれの尤度を算出し、一番高いスコアの「バタン」を音検出結果とする。
【００７４】
図１２のフローチャートのステップＳ３０７で音検出結果を決定した後、ステップＳ３０８を実行する。
【００７５】
ステップＳ３０５において、動体検出位置に対応する位置・音対応情報がないと判定した場合（ステップＳ３０５でＮＯ）、音響モデルを追加することなく、ステップＳ３０２で音認識結果の候補を作成する。この場合には、どの位置でもよいが動体があった時の音「キャー」、「ガツン」と「背景音」の音響モデルのみで音認識を行うことになる。
【００７６】
ステップＳ３０３において、動体検出フラグ＝０であると判定した場合（ステップＳ３０３でＮＯ）、ステップＳ１２０３に進み、音響モデル選択部１１０１は、動体検出なしの音響モデルを選択する。図１４の例では、「ピンポーン」、「リーン」、「ジャー」と「背景音」の音響モデルで音認識を行うことになる。
【００７７】
このように、図１２に示す処理は、予め音認識の候補となる音響モデルを動体検出位置によって選択することで、誤認識となる可能性を減らすものである。
【００７８】
図１３は、図３の処理と図１２の処理を融合したものであり、動体検出位置に合わせて、音響モデル群の中から適切な音響モデルを選択し、かつ動体検出位置に合わせて音の閾値を変更する音検出処理のフローチャートである。図１２のフローチャートのステップＳ３０２とステップＳ３０７の間に、動体検出位置に対応した音の閾値を下げる処理であるステップＳ３０６が挿入される。これを組み合わせることにより、音認識の候補を予め限定し、その後で、動体検出位置で起こり得る音の優先度を上げるという効果が得られる。
【００７９】
また、上記の例では、音認識の対象となる音の種類は予め想定し使用できる音響モデルは前もって用意しているが、これに限定されない。例えば、音検出装置の使用環境での背景音を動体検出位置に関連付けて記録し、その背景音から動体検出位置と関連付けられた背景音モデルを作成するようにしてもよい。
【００８０】
図１６は音検出装置の使用環境での背景音を動体検出位置に関連付けて記録し、その背景音から動体検出位置と関連付けられた背景音モデルを作成する場合の音検出装置の機能構成を示すブロック図である。
【００８１】
図１６において、図１１と同一の構成については、同一の参照番号を付加し、その説明は省略する。
【００８２】
１６０１は背景音モデル作成部であり、背景音の学習（記録）時には、動体検出の状態に合わせて背景音データを、動体検出なし背景音データ１６０２、動体検出あり背景音データ１６０３、対応領域毎の背景音データ１６０４に分類して記録する。つまり、背景音モデル作成部１６０１は、背景音記録部としても機能する。背景音の学習が終了すると、背景音モデル作成部１６０１は、それぞれの背景音から、動体検出なし背景音モデル１６０５、動体検出あり背景音モデル１６０６、対応領域毎の背景音モデル１６０７を作成する。尚、対応領域毎の背景音モデル１６０７は、位置・音対応情報管理テーブルに登録されている位置・音対応情報の特定領域毎に作成される。
【００８３】
図１７は動体検出位置と関連付けられた背景音モデルを作成する処理のフローチャートである。
【００８４】
ステップＳ１７０１で、背景音の学習が終了であるか否かを判定する。学習を継続する間、即ち、背景音の学習が終了でない場合（ステップＳ１７０１でＮＯ）、ステップＳ１７０２に進み、背景音データを記録し続ける。一方、背景音の学習が終了する場合（ステップＳ１７０１でＹＥＳ）、ステップＳ１７０９へ進み、一連の背景音モデルを作成して終了する。
【００８５】
ステップＳ１７０２で、音入力部１０１は、一定時間の音の入力を行う。次に、ステップＳ１７０３で、背景音モデル作成部１６０１は、動体検出フラグ＝１であるかどうかを判定する。動体検出フラグ＝０であると判定した場合（ステップＳ１７０３でＮＯ）、ステップＳ１７０８へ進み、入力した音を、動体検出なし背景音データ１６０２に追加する。図１９（Ａ）の例がこれに該当する。外部から与えられた音もしくは動きを伴わない物体が起こした音は、動体検出なし背景音として分類される。
【００８６】
一方、ステップＳ１７０３において、動体検出フラグ＝１であると判定した場合（ステップＳ１７０３でＹＥＳ）、ステップＳ１７０４へ進み、入力した音を、動体検出あり背景音データ１６０３に追加する。図１９（Ｂ）と図１９（Ｃ）の例がこれに該当し、位置に関係なく動体検出ありの背景音として分類される。
【００８７】
次に、ステップＳ１７０５で、位置・音対応情報管理部１０７は、位置・音対応情報管理テーブルを検索する。ステップＳ１７０６で、位置・音対応情報管理部１０７は、動体検出位置に対応する位置・音対応情報があるかどうかを判定する。位置・音対応情報があると判定した場合（ステップＳ１７０６でＹＥＳ）、ステップＳ１７０７に進み、背景音モデル作成部１６０１は、その領域に該当する音を対応領域毎の背景音データ１６０２に追加する。図１９（Ｃ）の例がこれに該当し、領域１９０２での動体検出位置が位置・音対応情報管理テーブルに登録されている位置（図６（Ｂ）の位置・音対応情報６０４）に重複するため、その領域の背景音データとして追加する。
【００８８】
一方、ステップＳ１７０１で、背景音学習が終了する場合（ステップＳ１７０１でＹＥＳ）、ステップＳ１７０９へ進み、背景音モデル作成部１６０１は、動体検出なし背景音モデルを作成する。次に、ステップＳ１７１０で、背景音モデル作成部１６０１は、動体検出あり背景音モデルを作成する。次に、ステップＳ１７１１で、背景音モデル作成部１６０１は、対応領域毎の背景音モデルを作成する。最後に、ステップＳ１７１２で、位置・音対応情報管理部１０７は、これらの背景音モデルと位置の対応付けを記録する。
【００８９】
図２０が背景音モデルも含めた位置・音対応情報管理テーブルである。個別の領域ＩＤ毎に背景音モデルが作成されている。例えば、図１９（Ａ）の音はＩＤ００１の動体検出なしの背景音モデルに反映される。図１９（Ｂ）の音は領域１９０１で検出される動体に対するものであり、この音は、ＩＤ００２の動体検出ありの背景音モデルに反映される。図１９（Ｃ）の音は領域１９０２で検出される動体に対するものであり、また、その領域１９０２の位置が図６（Ｂ）の位置・音対応情報６０３、つまりは、図２０のＩＤ００４の位置・音対応情報と重複する。そのため、図１９（Ｃ）の音は、ＩＤ００２の動体検出ありの背景音モデルとＩＤ００４の背景音モデルに反映される。
【００９０】
図１８は背景音モデルも含めた一般の音響モデルを作成する処理のフローチャートである。
【００９１】
ステップＳ１８０１で、学習用に集めた音を入力する。ステップＳ１８０２で、入力した音から特徴量を抽出する。ステップＳ１８０３で、モデルを学習する。ステップＳ１８０４で、モデルを出力する。
【００９２】
特定の音として音検出の対象となる音響モデルは、予め収集した音データから前もって作成しておく。通常の背景音モデルは、予め想定した騒音を収集して作成することが多いが、その場で収集して作成し直すものもある。
【００９３】
本実施形態では、背景音を動体検出の状態で分類し、動体検出の状態で背景音モデルを切り替えることで、検出すべきでない音（雑音）を効果的に選択することができる。
【００９４】
これらの背景音モデルを使った場合の音検出処理は、図１２及び図１３のステップＳ１２０１、ステップＳ１２０２及びステップＳ１２０３の音響モデルを選択／追加する処理の際に、更に、背景音モデルを選択する処理を追加するだけなので説明は省略する。
【００９５】
尚、上記の例では動体検出ありの背景音モデルは、領域の指定がある場合の音も含んでいる。図１９（Ｃ）の音は、ＩＤ００２の動体検出ありの背景音データとＩＤ００４の特定領域の背景音データの両方に分類されているが、ＩＤ００２の動体検出ありの背景音データは特定領域の背景音データを除外するものに限定するようにしてもよい。その場合、図１７のステップＳ１７０４は、ステップＳ１７０６でＮＯと判定された場合に行われ、図１２及び図１３のステップＳ１２０１はステップＳ３０５でＮＯと判定された場合に行われることになる。この場合、図１９（Ｂ）の領域１９０１は、図６（Ｂ）の位置・音対応情報６０３と図６（Ｂ）の位置・音対応情報６０４の位置とその他の領域を含む。そのため、それ以外の領域として動体検知ありの背景音データに記録され、図１９（Ｃ）の領域１９０２は、図６（Ｂ）の位置・音対応情報６０４の位置に対応する領域の背景音データとして記録される。
【００９６】
図２１は動体検出位置による音響モデルと背景音モデルの選択を行い、検出位置に対応する音の閾値を下げた場合の音検出結果である。
【００９７】
図２１（Ａ）は図６（Ａ）の位置６０２及び図６（Ｂ）の位置・音対応情報６０４の領域（ＩＤ００４）に動体があり、「ガチャン」という音があった場合の音検出結果である。動体が特定領域（ＩＤ００４）である場合の音ラベル「ガチャン」、「パリン」、「ギシギシ」及び「ＩＤ００４の背景音」と、動体が検出された時の音ラベル「キャー」、「ガツン」及び「動体検出ありの背景音」を選択して音認識を行い、スコアを算出する。また、動体が特定領域（ＩＤ００４）である場合の「ガチャン」、「パリン」、「ギシギシ」に関しては閾値を６.０から５.７に下げる。これにより、スコアが閾値を超えている「ガチャン」が音検出結果として選択される。尚、「ＩＤ０００４の背景音」については閾値を下げない。背景音モデルは、その領域でおこりうる検出したい音も学習しているため、背景音モデルの閾値を下げると本来検出したい音の検出を妨害する可能性があるからである。
【００９８】
図２１（Ｂ）は図６（Ａ）の位置６０１及び図６（Ｂ）の位置・音対応情報６０３の領域（ＩＤ００３）に動体があり、「バタン」という音があった場合の音検出結果である。動体が特定領域（ＩＤ００３）である場合の音ラベル「バタン」及び「ＩＤ００３の背景音」と、動体が検出された時の音ラベル「キャー」、「ガツン」及び「動体検出ありの背景音」を選択して音認識を行い、スコアを算出する。また、動体が特定領域（ＩＤ００３）である場合の「バタン」に関しては閾値を６.０から５.７に下げる。これにより、スコアが閾値を超えている「バタン」が音検出結果として選択される。
【００９９】
図２１（Ｃ）は図６（Ａ）の位置６０２及び図６（Ｂ）の位置・音対応情報６０４の領域（ＩＤ００４）に動体があり、「シャー」という音があった場合の音検出結果である。動体が特定領域（ＩＤ００４）である場合の音ラベル「ガチャン」、「パリン」、「ギシギシ」及び「ＩＤ００４の背景音」と、動体が検出された時の音ラベル「キャー」、「ガツン」及び「動体検出ありの背景音」を選択して音認識を行い、スコアを算出する。また、動体が特定領域（ＩＤ００４）である場合の「ガチャン」、「パリン」、「ギシギシ」に関しては閾値を６.０から５.７に下げる。これにより、スコアが閾値を超えている「ＩＤ００４の背景音」が音検出結果として選択される。特定領域の背景音は実際にその場所で起こった音から学習されるため、一般の背景音よりもその箇所で起こり得る検出したくない音を吸収する効果がある。
【０１００】
上記の位置・音対応情報の作成処理の例では、撮像画面から物体を認識して位置・音対応情報管理テーブルを自動で作成しているが、ユーザが手作業で位置・音対応情報を作成するようにしてもよい。
【０１０１】
図２２はユーザの手作業による位置・音対応情報管理テーブルの作成処理のフローチャートであり、図２３はその作成画面の例である。この処理は機器上で直接行うのではなくネットワークカメラのＷｅｂ経由での設定機能を想定している。
【０１０２】
ユーザが位置・音対応情報の作成を開始すると、ステップＳ２２０１で、位置・音対応情報管理部１０７に登録されている位置・音対応情報の管理情報を一覧表示する。図２３（Ａ）は、音検出の対象となる音ラベルと検出位置の一覧を表示したものである。
【０１０３】
次に、ステップＳ２２０２で、ユーザの操作入力を行う。ユーザが図２３（Ｂ）で音ラベル「ガチャン」の「動体検出領域」の「▼」の項を選択すると、ポップアップメニュで「動体検出あり」、「動体検出なし」及び「領域指定…」が表示されユーザは３つの項目のどれかを選択する。
【０１０４】
ステップＳ２２０３で、操作が領域種別選択、つまり、「動体検出領域」の▼の選択かどうかを判定する。領域種別選択を選択しない場合（ステップＳ２２０３でＮＯ）、ステップＳ２２１０へ進む。一方、領域種別選択を選択する場合（ステップＳ２２０３でＹＥＳ）、ステップＳ２２０４に進み、「動体検出なし」を選択したかどうかを判定する。「動体検出なし」を選択する場合（ステップＳ２２０４でＹＥＳ）、ステップＳ２２０９へ進み、音ラベル（この場合、「ガチャン」）の領域指定を「動体検出なし」に設定する。
【０１０５】
一方、ステップＳ２２０４において、「動体検出なし」を選択しない場合（ステップＳ２２０４でＮＯ）、ステップＳ２２０５に進み、「領域指定…」を選択したかどうかを判定する。「領域指定…」を選択しない場合（ステップＳ２２０５でＮＯ）、ステップＳ２２０８へ進み、音ラベルの領域指定を「動体検出あり」に設定する。
【０１０６】
一方、「領域指定…」を選択する場合（ステップＳ２２０５でＹＥＳ）、ステップＳ２２０６へ進み、ユーザに撮像画面を提示し、対象とする領域をドラッグで指定するよう促し、指定された領域を入力する。図２３（Ｃ）が窓の領域（破線領域）を選択する様子を示す図である。次に、ステップＳ２２０７で、指定された領域の対応付けを行い、位置・音対応情報管理部１０７は、その内容を更新する。図２３（Ｄ）がその対応付けを反映した一覧表示の例である。
【０１０７】
この処理は、ステップＳ２２１０で、対応付け終了の指示と判定されるユーザの操作入力が行われるまで、繰り返す。つまり、対応付け終了の指示判定されるユーザの操作入力がない場合（ステップＳ２２１０でＮＯ）、ステップＳ２２１０へ戻り、対応付け終了の指示判定されるユーザの操作入力がある場合（ステップＳ２２１０でＹＥＳ）、処理を終了する。
【０１０８】
以上説明したように、本実施形態によれば、撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する。特に、画像中の特定位置と音の対応付けを用い、動体検出時にその位置で起こりうる音を検出するための閾値を下げて、音を検出する。つまり、動体検出時以外の場合では、その閾値が高くなり、不要な音を検出しにくくなることで、動きのない場面の音の誤検出を減らすことができる。また、動きのある場面でも、特定位置で起こりやすい音以外の音の誤検出を減らすことができる。
【０１０９】
もしくは、動体を検出しない場合には、すべての音の閾値を上げ、動体を検出した場合にはその位置で起こりうる音以外のすべての音を検出するための閾値を上げて検出することで、動きのない場面での音の誤検出を減らすことができる。また、動きのある場面でも、特定位置で起こりやすい音以外の音の誤検出を減らすことができる。
【０１１０】
もしくは、動体を検出した場合や動体を検出しない場合において、音認識で使用する音響モデルを変更することで、不要な音を認識の候補から除外し、なおかつ、動体を検出した位置で起こり得る音の閾値を下げることで検出しやすくすることができる。
【０１１１】
もしくは、動体を検出した場合や動体を検出しない場合において、音認識で使用する背景音モデルを学習し、適用する背景音モデルを変更することで、あらかじめ想定した特定の音以外の音を、特定の音と誤認識する可能性を減らすことができる。
【０１１２】
尚、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項１】
撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置であって、
音を検出するための閾値を用いて、前記音入力部から入力した音から特定の音を検出する音検出手段と、
前記撮像部が撮像した画像を記録する画像記録手段と、
前記画像記録手段で記録した画像と前記撮像部が撮像した現在の画像との差分をとり、前記現在の画像から、動体のある箇所を検出する動体検出手段と、
前記撮像部が撮像する画像中の特定位置を示す情報とその特定位置で起こり得る音を示す情報との対応を管理する位置・音対応情報管理手段とを有し、
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される音を検出するための閾値を変更し、その変更した閾値を用いて、該位置・音対応情報管理手段で管理される対応を参照して、前記音入力部から入力した音から特定の音を検出する
ことを特徴とする音検出装置。
【請求項２】
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される、前記動体が検出された画像中の位置に対応付けられている音を検出するための閾値を下げる
ことを特徴とする請求項１に記載の音検出装置。
【請求項３】
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される、前記動体が検出された画像中の位置に対応付けられている音以外の音を検出するための閾値を上げ、前記動体検出手段によって動体が検出されない場合には、前記位置・音対応情報管理手段で管理されている音を検出するための閾値すべてを上げる
ことを特徴とする請求項１に記載の音検出装置。
【請求項４】
前記音入力部が入力した音を記録する音記録手段を更に有し、
前記音検出手段は、前記動体検出手段によって動体が検出された場合、前記動体が検出される一定時間前から現在までの時間帯の前記音記録手段に記録されている音から、前記特定の音を検出する
ことを特徴とする請求項１に記載の音検出装置。
【請求項５】
前記位置・音対応情報管理手段は、
物体を示す情報とその物体が発生する可能性のある音を示す情報との対応を管理する物体・音対応情報管理手段を更に有し、
前記動体検出手段は、
前記撮像部が撮像した画像内にある物体を認識する物体認識手段を更に有し、
前記位置・音対応情報管理手段は、
前記物体認識手段が認識した物体に対応する音を前記物体・音対応情報管理手段から取得し、前記物体の位置を示す情報と取得した音を示す情報との対応を新たに作成して管理する
ことを特徴とする請求項１に記載の音検出装置。
【請求項６】
前記撮像部は、パン・チルト・ズーム機能を有し、
前記画像記録手段は、前記撮像部が前記パン・チルト・ズーム機能によって撮像可能な方向について撮像した画像を記録し、
前記動体検出手段は、前記画像記録手段で記録した画像と、前記画像記録手段による記録から一定時間後に前記撮像部が前記パン・チルト・ズーム機能によって撮像可能な方向について撮像した現在の画像との差分をとることで、前記現在の画像中の動体のある箇所を検出する
ことを特徴とする請求項１乃至５のいずれか１項に記載の音検出装置。
【請求項７】
前記撮像部は、全方位カメラであり、
前記動体検出手段は、前記全方位カメラが撮像した全方位画像から得られるパノラマ画像について、任意のフレーム単位で、動体のある箇所を検出する
ことを特徴とする請求項１乃至５のいずれか１項に記載の音検出装置。
【請求項８】
前記位置・音対応情報管理手段は、動体を検出しない場合を示す情報とその場合に起こり得る音を示す情報との対応、及び動体を検出した場合を示す情報とその場合に前記画像中のどの位置でも起こり得る音を示す情報との対応も更に管理し、
音響モデルを選択する音響モデル選択手段として、
（１）前記動体検出手段によって動体が検出されない場合には、前記動体を検出しない場合に起こり得る音の音響モデルを選択し、
（２）前記動体検出手段によって動体が検出された場合には、前記動体を検出した位置で起こり得る音の音響モデルを選択する
音響モデル選択手段を更に有し、
前記音検出手段は、前記音響モデル選択手段で選択された音響モデルを用いて、前記音入力部から入力した音から特定の音を検出する
ことを特徴とする請求項１に記載の音検出装置。
【請求項９】
前記音入力部が入力した背景音を、動体を検出しない場合の背景音、動体を検出した場合の背景音、前記位置・音対応情報管理手段に登録されている特定位置を含む領域で動体を検出した場合の背景音のいずれかに分類して、背景音データとして記録する背景音記録手段と、
前記背景音記録手段で分類して記録された背景音データから、動体検出なしの背景音モデル、動体検出ありの背景音モデル、領域毎の背景音モデルを作成するモデル作成手段を更に有し、
前記音響モデル選択手段は、
（１）前記動体検出手段によって動体が検出されない場合には、前記動体を検出しない場合に起こり得る音の音響モデルに加えて、前記動体検出なしの背景音モデルを選択し、
（２）前記動体検出手段によって動体が検出された場合には、前記動体を検出した場合どの位置でも起こり得る音の音響モデルに加えて、前記動体検出ありの背景音モデルを選択し、
（３）前記動体検出手段によって前記特定位置を含む領域で動体が検出された場合は、前記領域に対応する音の音響モデルに加えて、前記領域に対応する音の背景音モデルを選択し、
前記音検出手段は、前記音響モデル選択手段で選択された音響モデルと背景音を用いて、前記音入力部から入力した音から特定の音を検出する
ことを特徴とする請求項８に記載の音検出装置。
【請求項１０】
音検出装置であって、
音を入力する音入力手段と、
撮像部が撮像した画像を入力する画像入力手段と、
前記画像から、動体のある箇所を検出する動体検出手段と、
前記画像中の特定位置を示す情報とその特定位置で起こり得る音を示す情報との対応を管理する位置・音対応情報管理手段と、
音を検出するための閾値を用いて、前記音入力手段から入力した音から特定の音を検出する音検出手段と、を有し、
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される音を検出するための閾値を変更する
ことを特徴とする音検出装置。
【請求項１１】
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される、前記動体が検出された画像中の位置に対応付けられている音を検出するための閾値を下げる
ことを特徴とする請求項１０に記載の音検出装置。
【請求項１２】
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される、前記動体が検出された画像中の位置に対応付けられている音以外の音を検出するための閾値を上げ、前記動体検出手段によって動体が検出されない場合には、前記位置・音対応情報管理手段で管理されている音を検出するための閾値すべてを上げる
ことを特徴とする請求項１０に記載の音検出装置。
【請求項１３】
撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置の制御方法であって、
音を検出するための閾値を用いて、前記音入力部から入力した音から特定の音を検出する音検出工程と、
前記撮像部が撮像した画像を記録媒体に記録する画像記録工程と、
前記画像記録工程で前記記録媒体に記録した画像と前記撮像部が撮像した現在の画像との差分をとり、前記現在の画像から、動体のある箇所を検出する動体検出工程と、
前記撮像部が撮像する画像中の特定位置を示す情報とその特定位置で起こり得る音を示す情報との対応を記憶媒体に管理する位置・音対応情報管理工程とを有し、
前記音検出工程は、前記動体検出工程によって動体が検出された場合には、前記位置・音対応情報管理工程で前記記憶媒体に管理される音を検出するための閾値を変更し、その変更した閾値を用いて、該位置・音対応情報管理工程で前記記憶媒体に管理される対応を参照して、前記音入力部から入力した音から特定の音を検出する
ことを特徴とする音検出装置の制御方法。
【請求項１４】
音検出装置の制御方法であって、
音を入力する音入力工程と、
撮像部が撮像した画像を入力する画像入力工程と、
前記画像から、動体のある箇所を検出する動体検出工程と、
前記画像中の特定位置を示す情報とその特定位置で起こり得る音を示す情報との対応を記憶媒体に管理する位置・音対応情報管理工程と、
音を検出するための閾値を用いて、前記音入力工程から入力した音から特定の音を検出する音検出工程と、を有し、
前記音検出工程は、前記動体検出工程によって動体が検出された場合には、前記位置・音対応情報管理工程で前記記憶媒体に管理される音を検出するための閾値を変更する
ことを特徴とする音検出装置の制御方法。
【請求項１５】
撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置の制御をコンピュータに機能させるためのプログラムであって、
前記コンピュータを、
音を検出するための閾値を用いて、前記音入力部から入力した音から特定の音を検出する音検出手段と、
前記撮像部が撮像した画像を記録する画像記録手段と、
前記画像記録手段で記録した画像と前記撮像部が撮像した現在の画像との差分をとり、前記現在の画像から、動体のある箇所を検出する動体検出手段と、
前記撮像部が撮像する画像中の特定位置を示す情報とその特定位置で起こり得る音を示す情報との対応を管理する位置・音対応情報管理手段として機能させ、
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される音を検出するための閾値を変更し、その変更した閾値を用いて、該位置・音対応情報管理手段で管理される対応を参照して、前記音入力部から入力した音から特定の音を検出する
ことを特徴とするプログラム。
【請求項１６】
音検出装置の制御をコンピュータに機能させるためのプログラムであって、
前記コンピュータを、
音を入力する音入力手段と、
撮像部が撮像した画像を入力する画像入力手段と、
前記画像から、動体のある箇所を検出する動体検出手段と、
前記画像中の特定位置を示す情報とその特定位置で起こり得る音を示す情報との対応を管理する位置・音対応情報管理手段と、
音を検出するための閾値を用いて、前記音入力手段から入力した音から特定の音を検出する音検出手段と、を有し、
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記位置・音対応情報管理手段で管理される音を検出するための閾値を変更する
ことを特徴とするプログラム。

【図１】