説明

カメラ、プログラム、記録媒体、およびノイズ除去方法

【課題】人物や動物等の音声の劣化を最小限にして動画の記録を行うことが可能なカメラ、プログラム、記録媒体、およびノイズ除去方法を提供すること。
【解決手段】動画の撮像を行う動画撮像手段16と、動画の撮像中に発生する音Bを音信号Mに変換する信号変換手段43と、特定の被写体を予測または認識する被写体判断手段44,51と、動画の撮像中に発生する音に含まれるノイズNを検出するノイズ検出手段53と、音信号Mから、ノイズ信号を除去するノイズ除去手段54と、音信号Mから、非ノイズ信号を検出する音声検出手段52と、被写体判断手段44,51が、特定の被写体を予測または認識している場合に、ノイズ除去手段54によるノイズ信号の除去性能を小さくするノイズ除去性能変更手段55とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カメラ、プログラム、記録媒体、およびノイズ除去方法に関する。
【背景技術】
【0002】
近年、動画撮影機能を搭載したカメラが普及してきている。一般に、動画の撮像中に発生する音には、ノイズが含まれることがある。たとえば、オートフォーカスレンズの駆動音等は、ノイズに該当する。特に、動画撮影を前提として設計されていないレンズ鏡筒では、このような駆動音が大きく、ノイズも増大してしまう。そこで、ノイズ除去処理を行うことがある。
【0003】
たとえば、マイクが拾った音信号に含まれる人物音声を強調して抽出し、人物音声を含む音信号(音声区間)と、人物音声を含まない音信号(非音声区間)とを区別する技術(VAD:Voice Activity Detection)がある(特許文献1参照)。VADを利用して、非音声区間の音信号を用い推定ノイズを算出し、推定ノイズを音信号から差し引くことで、ノイズを抑制することができる。
【0004】
しかしながら、音声区間と非音声区間とで、音信号から推定ノイズを一律に差し引くと、音声区間において記録される人物やペット等の動物の音声が劣化する課題を有していた。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−294537号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、このような実状に鑑みてなされ、その目的は、人物や動物等の音声の劣化を最小限にして動画の記録を行うことが可能なカメラ、プログラム、記録媒体、およびノイズ除去方法を提供することである。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明に係るカメラ(3)は、動画の撮像を行う動画撮像手段(16)と、前記動画の撮像中に発生する音(B)を音信号(M)に変換する信号変換手段(43)と、特定の被写体を予測または認識する被写体判断手段(44,51)と、前記動画の撮像中に発生する音に含まれるノイズ(N)を検出するノイズ検出手段(53)と、前記音信号(M)から、ノイズ信号を除去するノイズ除去手段(54)と、前記音信号(M)から、非ノイズ信号を検出する音声検出手段(52)と、前記被写体判断手段(44,51)が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去手段(54)による前記ノイズ信号の除去性能を小さくするノイズ除去性能変更手段(55)とを有する。
【0008】
本発明に係るプログラムは、特定の被写体を予測または認識する被写体判断手段(44,51)、動画の撮像中に発生する音に対応する音信号(M)から、ノイズ信号を除去するノイズ除去手段(54)、前記音信号(M)から、人間または動物の音声信号を検出する音声検出手段(52)、および前記被写体判断手段(44,51)が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去手段(54)による前記ノイズ信号の除去性能を小さくするノイズ除去性能変更手段(55)としてコンピュータを機能させるためのプログラムである。
【0009】
本発明に係る記録媒体は、特定の被写体を予測または認識する被写体判断手段(44,51)、動画の撮像中に発生する音に対応する音信号(M)から、ノイズ信号を除去するノイズ除去手段(54)、前記音信号(M)から、人間または動物の音声信号を検出する音声検出手段(52)、および前記被写体判断手段(44,51)が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去手段(54)による前記ノイズ信号の除去性能を小さくするノイズ除去性能変更手段(55)としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0010】
本発明に係るノイズ除去方法は、動画の撮像を行う工程と、前記動画の撮像中に発生する音(B)を音信号(M)に変換する工程と、特定の被写体を予測または認識する工程と、前記動画の撮像中に発生する音(B)に含まれるノイズ(N)を検出する工程と、前記音信号(M)から、ノイズ信号を除去する工程と、前記音信号(M)から、人間または動物の音声信号を検出する工程と、前記被写体判断手段(44,51)が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去手段(54)による前記ノイズ信号の除去性能を小さくする工程とを有する。
【0011】
本発明のカメラ(3)およびノイズ除去方法では、動画撮像手段(16)が、動画の撮像を行うと共に、信号変換手段(43)が、動画の撮像中に発生する音(B)を、音信号(M)に変換する。この音信号(M)には、ノイズ信号が含まれている場合がある。ノイズ検出手段(53)は、ノイズ信号の原因となるノイズ(N)が発生しているか否かを検出し、ノイズ(N)が検出された場合に、ノイズ除去手段(54)は、音信号(M)から、ノイズ信号を除去する。
【0012】
一方で、音声検出手段(52)が、非ノイズ信号を検出する。非ノイズ信号とは、人間または動物の音声、音楽等、少なくとも人間の音声の周波数域に該当する全ての音声信号である。この非ノイズ信号を含む音信号は、音声区間として処理され、非ノイズ信号を含まないデータは、非音声区間として処理される。音声検出手段(52)は、上述した公知のVADを利用したものである。また、被写体判断手段(44,51)が、特定の被写体を予測し、または特定の被写体を認識している。
【0013】
本発明では、被写体判断手段(44,51)が、人間や動物(ペット)等の特定の被写体を予測または認識している場合に、ノイズ除去性能変更手段(55)が、ノイズ除去手段(54)によるノイズ信号の除去性能を小さくする。すなわち、非音声区間でノイズ信号を検出している場合よりも、音声区間でノイズ信号を検出している場合において、ノイズ除去性能変更手段(55)が、ノイズ除去手段(54)によるノイズ信号の除去性能を小さくする。
【0014】
本発明のプログラムは、予め撮像された動画データに対して、コンピュータに、上述した手段を実行させる。また、本発明の記録媒体は、予め撮像された動画データに対して、コンピュータに、上述した手段を実行させるためのプログラムが記録されている。
【0015】
前記ノイズ除去手段(54)は、ノイズ除去係数に基づき、前記音信号(M)から、前記ノイズ信号を除去し、前記被写体判断手段(44,51)が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去性能変更手段(55)が、前記ノイズ信号の前記除去性能を小さくするように、前記ノイズ除去係数を、比較的小さな低レベル除去係数に設定しても良い。また、前記被写体判断手段(44,51)が、特定の前記被写体を予測または認識していない場合に、前記ノイズ除去手段(54)が、前記ノイズ除去係数を、前記低レベル除去係数より大きな通常レベル除去係数に設定しても良い。
【0016】
なお、上述の説明では、本発明をわかりやすく説明するために、実施形態を示す図面の符号に対応づけて説明したが、本発明は、これに限定されるものでない。後述の実施形態の構成を適宜改良してもよく、また、少なくとも一部を他の構成物に代替させてもよい。更に、その配置について特に限定のない構成要件は、実施形態で開示した配置に限らず、その機能を達成できる位置に配置することができる。
【図面の簡単な説明】
【0017】
【図1】図1は、本発明の一実施形態に係るカメラの全体ブロック図である。
【図2】図2は、図1に示すカメラで動画撮影を行う場合に、ボディCPUが音を検出する時の処理を示すフローチャートである。
【図3】図3は、図1に示すカメラで動画撮影を行った場合に発生する音、およびボディCPUが検出する音信号を時間軸で表した概念図である。
【図4】図4は、音声区間検出の一例を示す概念図である。
【図5】図5は、ノイズ除去処理を示すフローチャートである。
【図6】図6は、本発明の他の実施形態に係るノイズ除去方法で一般ノイズの除去処理を行った場合の処理レベル、および処理後の波形を示す概念図である。
【発明を実施するための形態】
【0018】
第1実施形態
図1は、本発明の一実施形態に係るカメラ3の全体ブロック図である。カメラ3は、カメラボディ5とレンズ鏡筒7を有している。レンズ鏡筒7は、カメラボディ5に対して着脱自在に装着される。本実施形態に係るカメラとしては、図1に示すようなレンズ交換式カメラに限定されず、レンズ鏡筒7とカメラボディ5とが一体のカメラであってもよく、カメラの種類は特に限定されない。
【0019】
カメラボディ5およびレンズ鏡筒7の内部には、光軸Zに沿って、複数の光学部品が配置されている。カメラボディ5には撮像素子ユニット15が配置されており、撮像素子ユニット15の光軸Z方向の前方側(Z軸に沿って被写体側を「Z軸の前方側」または「Z軸の正方向側」と称する)には、シャッタ33が配置してある。シャッタ33の光軸Z方向の前方側には、ミラー70が配置してあり、その前方側には、レンズ鏡筒7に内蔵してある光学レンズ群24が配置してある。
【0020】
カメラボディ5には、ボディCPU50が内蔵してあり、レンズ接点34を介してレンズCPU80に接続してある。ボディCPU50は、レンズ鏡筒7との通信機能と、カメラボディ5の制御機能を有している。ボディCPU50は、顔認識処理部51、VAD処理部52、ノイズ検出部53、ノイズ除去処理部54、ノイズ除去性能変更手段55を有している。レンズ接点34は、ボディCPU50と、レンズCPU80とを電気的に接続する。ボディCPU50には、カメラボディ5およびレンズ鏡筒7に備えられた電子部品に電力を供給するための電源47が接続してある。
【0021】
ボディCPU50には、動画スイッチ41、レリーズスイッチ42、マイク43、撮影モード切替スイッチ44、表示部45、EEPROM(不揮発性メモリ)46、電源47、記録媒体48、画像処理コントローラ31、AFセンサ30、電圧信号出力回路28などが接続してある。画像処理コントローラ31には、インターフェース回路32を介して、撮像素子ユニット15の撮像素子16が接続してある。画像処理コントローラ31およびインターフェース回路32は、ボディCPU50からの信号に基づき、撮像素子16によって撮像された画像の画像処理を制御する。撮像素子16は、たとえばCCDやCMOS等の固体撮像素子である。
【0022】
撮像素子16は、光学レンズ群24を通過した光束を光電変換して画像信号を生成する。動画撮影時には、ボディCPU50が、この撮像素子16から、動画データを取得する。顔認識処理部51は、この動画データを用いて、特定の被写体(人間または動物)の顔の存在を検出する。
【0023】
撮影モード切替スイッチ44は、撮影者が、撮影シーンに応じて適切な撮影モード(シーンモード、オートモード、P・S・A・Mモード等)を一つ選択できるように、カメラボディ5に配置されている。シーンモードとしては、たとえば、ポートレート、子供スナップ、ペット、風景、クローズアップ等が予め準備されている。EEPROM46には、それぞれのシーンモードに適した撮影パラメータ等が記録されている。ボディCPU50は、撮影者が選択したそれぞれのシーンモードに応じて、EEPROM46から必要な撮影パラメータを取得する。マイク43は、動画の撮像中に発生する音を、音信号に変換する。
【0024】
表示部45は、主として液晶表示装置などで構成され、出力結果やメニューなどを表示する。レリーズスイッチ42は、静止画撮影のタイミングを操作するスイッチである。レリーズスイッチ42は、ボディCPU50に対して、半押し信号および全押し信号を出力する。ボディCPU50は、レリーズスイッチ42から半押し信号が入力されると、AF制御、AE制御等の撮影準備動作を制御し、レリーズスイッチ42から全押し信号が入力されると、ミラーアップ、シャッタ駆動等の露光動作を制御する。
【0025】
クイックリターンミラー70は、構図決定の際にファインダーに像を映し出すためのもので、露光中は光路から退避する。クイックリターンミラー70は、不図示のミラー駆動部(例えばDCモータ)により駆動される。
【0026】
クイックリターンミラー70には、AFセンサ30に光を導くサブミラー70aが連結してある。このサブミラー70aも、露光中は光路から退避する。
【0027】
シャッタ33は、露光時間を制御する。シャッタ33は、ボディCPU50からの制御に基づき、不図示のシャッタ駆動部(例えばDCモータ)によって駆動される。
【0028】
AFセンサ30は、オートフォーカス(AF)を行うためのセンサである。このAFセンサ30としては、通常CCDが用いられる。
【0029】
図1に示す動画スイッチ41は、動画撮影のタイミングを操作するスイッチである。動画スイッチ41は、ボディCPU50に対して、動画撮影の開始/終了信号を出力する。ボディCPU50は、動画スイッチ41から動画撮影の開始信号を取得すると、ミラーアップおよびシャッタ開動作の命令を行う。これにより、光学レンズ群24を通過した光束が、撮像素子16に導かれ、動画撮影(ライブビュー撮影)が開始される。また、ボディCPU50は、動画スイッチ41から動画撮影の終了信号を取得すると、ミラーダウンおよびシャッタ閉動作の命令を行い、動画撮影が終了する。ライブビュー撮影中のオートフォーカスは、ボディCPU50が、撮像素子16から出力された動画データに基づいて行われる(コントラストAF)。
【0030】
図1に示すレンズ鏡筒7には、オートフォーカス(AF)レンズ24を含む光学レンズ群、焦点距離エンコーダ74、距離エンコーダ72、AFレンズ24を駆動する駆動モータ76、レンズCPU80、レンズ接点34等が具備してある。
【0031】
レンズCPU80は、ボディCPU50との通信機能と、レンズ鏡筒7に搭載された電子部品の制御機能とを有している。例えば、レンズCPU80は、焦点距離情報、被写体距離情報等を、レンズ接点34を介してボディCPU50に出力する。また、レンズCPU80には、ボディCPU50から、AF情報、動画開始/終了情報、レリーズ情報等が入力される。レンズCPU80は、これらの情報に基づき、AFレンズ24の駆動モータ76等を制御することができる。
【0032】
焦点距離エンコーダ74は、不図示のズームレンズ群の位置情報から、焦点距離を算出し、レンズCPU80に出力する。距離エンコーダ72は、AFレンズ24を含むフォーカシングレンズ群の位置情報より被写体距離を算出し、レンズCPU80に出力する。被写体距離情報は、不図示のフラッシュの調光などに使用される。
【0033】
図1に示すように、カメラボディ5には、電圧信号出力回路28が備えられている。電圧信号出力回路28は、ボディCPU50からの制御信号に基づき、撮像素子ユニット15における防塵フィルタ18に備えられる複数の電極に電圧を出力する。
【0034】
ボディCPU50の顔認識処理部51は、撮像素子16が作成した動画データに基づき、特定の被写体の顔が動画データに存在しているか否かを検出している。特定の被写体の顔が動画データに存在しているか否かの検出には、例えばテンプレートマッチング等、公知の顔認識機能を用いることができる。
【0035】
図3に示すように、動画撮影時に、常に音Bが発生している場合について説明する。なお、ボディCPU50は、画像データを、各フレーム(例えば1m秒)毎に、撮像素子16から取得し、連続する動画データを生成している。図3では、連続する画像フレーム61〜69のみを代表して、フレーム61〜69間で発生している音Bを概念的に説明している。
【0036】
音Bには、特定の被写体が発する声H、およびノイズNが含まれることがある。図1に示すマイク43は、このような音Bを拾い、図3に概念で示す音声データMとしてボディCPU50に出力している。なお、図1に示すVAD処理部(音声検出手段)52は、音声データMからパワー情報を抽出し、抽出された周波数情報から、図4に概念的に示すように、第1下限閾値より大きい周波数帯域の始端から終端までを、人や動物などの音声が発生している音声区間として検出する。
【0037】
図1に示すレンズCPU80は、AF駆動信号をAF駆動モータ76に出力することにより、AFレンズ24を駆動させている。ボディCPU50のノイズ検出部53は、レンズ接点34を介して、レンズCPU80とつながっており、AF駆動信号を直接検出することができる。ノイズ検出部53がAF駆動信号を検出すると、ノイズ除去処理部54は、以下に述べるノイズの除去処理を行う。
【0038】
ノイズ除去処理部54によるノイズ(本実施形態では、特定のAF駆動ノイズ)の除去は、図5に示すフローチャートに基づき行われる。ステップS30において、ノイズ除去処理部54がノイズ除去開始信号を読み込むと、ステップS31において、ノイズ除去処理部54は、たとえばEEPROM46に予め記憶してあるAFノイズの逆位相の波形を読み込む。次に、ステップS32に進み、AFノイズの逆位相の波形に、ノイズ除去係数(後述する通常レベル除去係数または低レベル除去係数)を乗算する。次に、ステップS33に進み、ステップS32にて乗算した結果得られた波形を、図3に示す音声データMに加算することにより、ノイズの除去が行われる。
【0039】
ノイズ除去性能変更手段55は、顔認識処理部51が特定の被写体の顔の存在を検出している場合に、上述したノイズ除去処理部54によるノイズ除去係数を小さく設定する。すなわち、ノイズ除去処理部54によるノイズ除去係数を、低レベル除去係数に設定する。または、ノイズ除去性能変更手段55は、撮影モード切替スイッチ44によるポートレート、子供スナップ、ペットのいずれかのシーンモード信号を取得すると、ノイズ除去処理部54によるノイズ除去係数を、低レベル除去係数に設定する。
【0040】
次に、図2に示すフローチャートに基づき、図1に示すボディCPU50の動作について説明を行う。図2に示すように、ステップS01において、ボディCPU50が動画の撮影開始信号を受けると、ステップS02において、ボディCPU50が、ある動画フレームに対応する音声データMの開始時において、動画データに特定の被写体の顔が存在しているか否かを判断する。すなわち、ボディCPU50が、動画データに特定の被写体の顔が存在していると判断した場合には、ステップS03に進む。
【0041】
ステップS03において、VAD処理部52において検出する音声区間の境界とすべき周波数の下限閾値を下げて第2下限閾値t2に設定し、さらにステップS04において、ボディCPU50が、動画を構成する各フレームに対応するフレームとフレームとの境界のタイミングで、音声データMが音声区間(図3に示す音声区間VAD)にあるか否かを判断する。音声データMが音声区間にあるとボディCPU50が判断した場合には、ステップS05に進む。ステップS05において、ボディCPU50は、ノイズ除去性能変更手段55によるノイズ除去係数を小さくする(低レベル除去係数)。なお、ステップS04において、ボディCPU50が、音声データMを音声区間外であると判断した場合には、ステップS08に進む(後述する)。
【0042】
次に、ステップS09に進み、ボディCPU50が、ノイズを検出しているか否かを判断する。ボディCPU50が、ある動画フレームに対応する音声データMの開始時において、ノイズを検出している場合にはステップS10に進み、その動画フレームにおいて、上述した低レベル除去係数にて、図3に示す音声データMに対して、ノイズ除去処理を行う。ステップS09において、ボディCPU50が、ある動画フレームに対応する音声データMの開始時において、ノイズを検出していない場合にはステップS11に進み、その動画フレームでは、ノイズの除去処理を行わない。
【0043】
なお、ステップS02において、ボディCPU50が、動画データに特定の被写体の顔が存在していないと判断した場合には、ステップS06に進む。ステップS06において、ボディCPU50が、撮影モード切替スイッチ44からの入力信号を検出し、ポートレート、子供スナップ、ペットのいずれかの撮影モードであるか否かの判断を行う。ボディCPU50が、ポートレート、子供スナップ、ペットのいずれかの撮影モードであると判断した場合には、ステップS03に進む。
【0044】
ステップS06において、ボディCPU50が、風景またはクローズアップの撮影モードであると判断した場合には、ステップS07に進み、ボディCPU50が、VAD処理部52において音声区間の境界とすべき周波数の下限閾値を、第1下限閾値t1に設定する。なお、ステップS07において、ボディCPU50は、音声区間VADの検出を行わなくても良い。次に、ステップS08に進み、ボディCPU50は、ノイズ除去性能変更手段55によるノイズ除去係数を、通常の状態(通常レベル除去係数)にする。
【0045】
次に、ステップS09に進み、ボディCPU50が、ノイズを検出しているか否かを判断する。ボディCPU50が、ある動画フレームに対応する音声データMの開始時において、ノイズを検出している場合にはステップS10に進み、その動画フレームにおいて、上述した通常レベル除去係数にて、図3に示す音声データMに対して、ノイズ除去処理を行う。ステップS09において、ボディCPU50が、ある動画フレームに対応する音声データMの開始時において、ノイズを検出していない場合にはステップS11に進み、その動画フレームでは、ノイズの除去処理を行わない。
【0046】
このように、例えばステップS03において、音声区間の境界とすべき周波数の下限閾値を第2下限閾値t2に設定することで、人間または動物の音声を、確実に拾うことができる。また、ある動画フレームに対応する音声データMの開始時において、そのフレームに対応する音声データMに対して、ボディCPU50が上述した動作(低レベル除去係数にてノイズ除去を行うか、通常レベル除去係数にてノイズ除去を行うか、ノイズ除去を行わない、のいずれか)を行う。すなわち、低レベル除去係数にてノイズ除去を行う場合に、図3に「弱」で示し、通常レベル除去係数にてノイズ除去を行う場合に、「中」で示し、ノイズ除去を行わない場合に、「なし」で示すように、音声データMに対してノイズ除去処理を行う結果、ボディCPU50は、図3に示すノイズ除去後の音声データM’を生成する(音声データM’は概念的に示している)。
【0047】
具体的には、図3に示すフレーム61に対応する音声データMでは、フレーム61の開始時に、ボディCPU50が特定の被写体の音声を検出しておらず、ノイズも検出していないので、ノイズ除去処理は行わない。フレーム62,63に対応する音声データMでは、フレーム62,63の開始時に、ボディCPU50が特定の被写体の音声を検出しているが、ノイズは検出していないので、ノイズ除去処理は行わない。フレーム64に対応する音声データMでは、フレーム64の開始時に、ボディCPU50が特定の被写体の音声を検出しており、しかも、ノイズも検出しているので、ノイズ除去の効果を弱め、特定被写体の音声が劣化することを防止する。
【0048】
フレーム65に対応する音声データMでは、フレーム65の開始時に、ボディCPU50が特定の被写体の音声を検出していないが、ノイズを検出しているので、ノイズ除去の効果を通常レベルにして、ノイズ除去処理を行う。フレーム66に対応する音声データMでは、フレーム66の開始時に、ボディCPU50が特定の被写体の音声を検出しておらず、ノイズも検出していないので、ノイズ除去処理は行わない。フレーム67に対応する音声データMでは、フレーム67の開始時に、ボディCPU50が特定の被写体の音声を検出しているが、ノイズは検出していないので、ノイズ除去処理は行わない。
【0049】
フレーム68に対応する音声データMでは、フレーム68の開始時に、ボディCPU50が特定の被写体の音声を検出しており、しかも、ノイズも検出しているので、ノイズ除去の効果を弱め、特定被写体の音声が劣化することを防止する。フレーム69に対応する音声データMでは、フレーム69の開始時に、ボディCPU50が特定の被写体の音声を検出しておらず、ノイズも検出していないので、ノイズ除去処理は行わない。
【0050】
本実施形態のカメラ3およびノイズ除去方法では、撮像素子16が、動画の撮像を行うと共に、マイク43が、動画の撮像中に発生する音Bを、音信号Mに変換する。この音Bには、ノイズNが含まれている場合がある。ノイズ検出部53は、ノイズNが発生しているか否かを検出し、ノイズNが検出された場合に、ノイズ除去処理部54は、音信号Mから、ノイズNに対応するノイズ信号を除去する。
【0051】
一方で、VAD処理部52が、非ノイズ信号を検出する。非ノイズ信号とは、人間または動物の音声、音楽等、少なくとも人間の音声の周波数域に該当する全ての音声信号である。この非ノイズ信号を含む音信号は、音声区間として処理され、非ノイズ信号を含まないデータは、非音声区間として処理される。VAD処理部52は、上述した公知のVADを利用したものである。また、ボディCPU50が、撮影モード切替スイッチ44の出力信号から、特定の被写体を予測し、またはボディCPU50(顔認識処理部51)が、特定の被写体を認識している。
【0052】
本実施形態では、ボディCPU50が、ポートレート、子供スナップ、ペットのいずれかの撮影シーンであると判断すること(ステップS06)により、特定の被写体が音声Hを発すると予測することができる。または、ボディCPU50が、動画データに特定の被写体の顔が存在していることを検出すること(ステップS02)により、特定の被写体の存在を認識することができる。その場合に、ノイズ除去性能変更手段55が、ノイズ除去処理部54によるノイズ信号の除去性能を小さくする。すなわち、非音声区間でノイズ信号を検出している場合よりも、音声区間でノイズ信号を検出している場合において、ノイズ除去性能変更手段55が、ノイズ除去処理部54によるノイズ信号の除去性能を小さくする。このため、音声区間において記録される非ノイズ信号の劣化を最小限に抑えることが可能となる。このため、人間や動物の音声を明瞭に記録することができ、動画の鑑賞品質が向上する。
【0053】
また、従来は、撮影者がノイズ対策として、動画撮影時に、ノイズ発生源となる機能(AF等)を使えない状態にすることがあり、撮影の表現の幅が狭くなってしまうことがあったが、本実施形態では、撮影者が、これらの機能を積極的に使用することができ、動画撮影の表現の幅を広くすることができる。
【0054】
本実施形態のプログラムは、予め撮像された動画データに対して、コンピュータに、上述した手段を実行させる。また、本実施形態の記録媒体は、予め撮像された動画データに対して、コンピュータに、上述した手段を実行させるためのプログラムが記録されている。このため、予め撮像された動画データを、コンピュータ上で、後から編集する際に、音声区間における非ノイズ信号の劣化を最小限に抑えることができる。また、例えば、動画データを撮像したカメラが、顔認識機能等を有していなくても、本実施形態のプログラム、記録媒体によって、音声区間における非ノイズ信号の劣化を最小限に抑え、人間や動物の音声を明瞭に記録することができる。
【0055】
ノイズ信号の除去効果の大きさは、ノイズ除去係数に比例する。ボディCPU50が、特定の被写体を予測または認識しているか否かに応じて、ノイズ除去係数を、通常レベル除去係数と低レベル除去係数との間で可変させるため、複雑な演算処理なしに、ノイズ信号の除去効果の大きさを変更できる。
【0056】
特に、ボディCPU50が特定の被写体を予測または認識している場合には、ノイズ信号の除去効果を小さく(低レベル除去係数)でき、音声区間における非ノイズ信号の劣化を最小限に抑え、人間や動物の音声を明瞭に記録することができる。その一方で、ボディCPU50が、特定の被写体を予測または認識していない場合には、ノイズ信号の除去効果を、低レベル除去係数の場合に比べ大きく(通常レベル除去係数)でき、非音声区間において、好適にノイズ信号の除去を行うことができる。
【0057】
本実施形態では、公知の顔認識機能を用いることで、顔認識処理部51が、効果的に被写体の顔の存在を認識することができる。顔認識処理部51が、被写体の顔の存在を認識している間は、被写体が発音する可能性が高いので、ノイズ除去性能変更手段55が、ノイズ信号の除去性能を小さくすることで、音声区間における非ノイズ信号の劣化を最小限に抑え、人間や動物の音声を明瞭に記録することができる。
【0058】
撮影者が、撮影モードを、ポートレート、子供スナップ、ペット等のいずれか一つに選択して動画の撮影を行っている場合には、特定の被写体が発音する可能性が高い。このため、これらのシーンモードの際に、ボディCPU50が特定の被写体が音声Hを発すると予測し、ノイズ除去性能変更手段55が、ノイズ信号の除去性能を小さくする。このようにすることで、音声区間における非ノイズ信号の劣化を最小限に抑え、人間や動物の音声を明瞭に記録することができる。その一方で、撮影者が、撮影モードを、風景、クローズアップ等のいずれか一つに選択して動画の撮影を行っている場合には、被写体判断手段50は撮影者が特定の被写体の発音を意図していないと予測する。したがって、これらのシーンモードの際に、ノイズ除去性能変更手段55が、ノイズ信号の除去性能を通常の状態にする。したがって、検出したノイズ信号を、効果的に除去することができる。
【0059】
ノイズ検出手段53は、少なくともオートフォーカスの駆動信号を検出することにより、ノイズNを検出しても良い。また、ノイズ検出手段53は、オートフォーカス、手振れ補正、ズーミングの駆動信号の少なくともいずれかを検出することにより、ノイズNを検出しても良い。ノイズ発生源と、ノイズ検出手部53とは、直接つながっていても良い。オートフォーカス、手振れ補正、ズーミング等の駆動中には、ノイズ検出手部53が、これらの駆動信号を検出するようにしても良い。この場合には、駆動に伴うノイズNを、確実に検出することができる。
【0060】
VAD処理部(音声検出手段)52は、音信号Mの周波数の下限閾値から上限閾値までの範囲内で、音信号Mから、音声信号を検出している。ボディCPU50(顔認識処理部51)が、特定の被写体を認識している場合、または、ボディCPU50が、ポートレート、子供スナップ、ペットのいずれかの撮影シーンであると判断した場合に、音声信号の検出範囲を広くするように、VAD処理部52は下限閾値を下げて、第1下限閾値から第2下限閾値に設定しても良い。また、ボディCPU50(顔認識処理部51)が、特定の被写体を認識していない場合、またはボディCPU50が、撮影モードを、風景、クローズアップ等のいずれかの撮影シーンであると判断した場合に、VAD処理部52は下限閾値を第1下限閾値に設定しても良い。
【0061】
公知のVADを応用して、被写体判断手段44,51が、特定の被写体(人間または動物)を予測または認識している場合に、音声信号の検出範囲を広くすることで、人間または動物の音声を、より明瞭に検出することができる。
【0062】
なお、図3のフレーム67では、ノイズ除去の処理を行わないように説明を行ったが、フレーム67の途中であっても、ボディCPU50がAF駆動信号を検出したタイミングで、ノイズ除去の処理を行ってもよい。
第2実施形態
【0063】
第1実施形態では、例えば図3に示すフレーム61のように、ノイズ除去処理を全く行わない場合について説明を行ったが、本実施形態では、図6に示すように、例えばフレーム61でも、AF音などのノイズ(特定ノイズ)以外の一般ノイズ(例えば、車のエンジン音、風切り音等)の除去処理を行う。図1に示すEEPROM46には、特定ノイズ以外の一般ノイズを除去するためのプログラムが、特定ノイズを除去するためのプログラムと共に、予め記録されている。これ以外は、上述した第1実施形態と同様であり、重複する説明を省略する。
【0064】
図6に示す音Bには、一般ノイズが含まれていると考えられる。例えば、フレーム61に対応する音声データMでは、フレーム61の開始時に、ボディCPU50が特定の被写体の音声を検出しておらず、一般ノイズを検出しているので、通常レベル除去係数にて、一般ノイズ除去処理を行う。
【0065】
また、例えば、フレーム64に対応する音声データMでは、フレーム64の開始時に、ボディCPU50が特定の被写体の音声を検出しており、しかも、特定ノイズも検出しているので、特定ノイズ除去の効果を弱め、特定被写体の音声が劣化することを防止する。
【0066】
また、例えば、フレーム65の開始時には、ボディCPU50が特定の被写体の音声を検出しておらず、一般ノイズを検出している。さらに、ボディCPU50は、特定ノイズも検出している。この場合には、通常レベル除去係数にて、特定ノイズの除去を行う。
【0067】
本実施形態では、特定ノイズだけでなく、一般ノイズの除去も行うことができる。
【0068】
なお、上述した実施形態では、ミラー機構を有するカメラを用いて説明を行ったが、ミラー機構を省いたシステムのカメラにも適用することができる。
【0069】
また、上述したノイズ検出手段が検出するノイズの対象は、特に限定されず、ノイズ検出手段は、手振れ補正レンズ駆動モータ音、車の通過音(騒音)、カメラの操作ボタンの操作音、等を検出することができる。さらに、ノイズ除去のためのプログラムや、音声検出の手段も、上述した実施形態に限定されず、一般的なノイズ検出プログラムや一般的な音声検出のためのプログラムを用いることができる。
【符号の説明】
【0070】
3…カメラ
16…撮像素子
43…マイク
44…撮影モード切替スイッチ
51…顔認識処理部
52…VAD処理部
t1…第1下限閾値
t2…第2下限閾値
53…ノイズ検出部
54…ノイズ除去処理部
55…ノイズ除去性能変更手段
B…音信号

【特許請求の範囲】
【請求項1】
動画の撮像を行う動画撮像手段と、
前記動画の撮像中に発生する音を音信号に変換する信号変換手段と、
特定の被写体を予測または認識する被写体判断手段と、
前記動画の撮像中に発生する音に含まれるノイズを検出するノイズ検出手段と、
前記音信号から、ノイズ信号を除去するノイズ除去手段と、
前記音信号から、非ノイズ信号を検出する音声検出手段と、
前記被写体判断手段が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去手段による前記ノイズ信号の除去性能を小さくするノイズ除去性能変更手段とを有するカメラ。
【請求項2】
前記ノイズ除去手段は、ノイズ除去係数に基づき、前記音信号から、前記ノイズ信号を除去し、
前記被写体判断手段が、特定の前記被写体を予測または認識している場合に、
前記ノイズ除去性能変更手段が、前記ノイズ信号の前記除去性能を小さくするように、前記ノイズ除去係数を、比較的小さな低レベル除去係数に設定することを特徴とする請求項1に記載のカメラ。
【請求項3】
前記被写体判断手段が、特定の前記被写体を予測または認識していない場合に、
前記ノイズ除去手段が、前記ノイズ除去係数を、前記低レベル除去係数より大きな通常レベル除去係数に設定することを特徴とする請求項2に記載のカメラ。
【請求項4】
前記被写体判断手段は、前記動画撮像手段が撮像した映像信号に基づき、前記被写体の顔の存在を認識する顔認識手段であることを特徴とする請求項1〜3のいずれかに記載のカメラ。
【請求項5】
前記被写体判断手段は、予め準備された複数の撮影モードごとに、特定の前記被写体を予測するシーンモード手段であることを特徴とする請求項1〜3のいずれかに記載のカメラ。
【請求項6】
前記ノイズ検出手段は、少なくともオートフォーカスの駆動信号を検出することにより、前記ノイズを検出することを特徴とする請求項1〜5のいずれかに記載のカメラ。
【請求項7】
前記音声検出手段は、前記音信号の周波数の下限閾値から上限閾値までの範囲内で、前記音信号から、前記音声信号を検出し、
前記被写体判断手段が、特定の前記被写体を予測または認識している場合に、
前記音声信号の検出範囲を広くするように、前記音声検出手段は前記下限閾値を下げて、第1下限閾値から第2下限閾値に設定することを特徴とする請求項1〜6のいずれかに記載のカメラ。
【請求項8】
前記被写体判断手段が、特定の前記被写体を予測または認識していない場合に、
前記音声検出手段は前記下限閾値を前記第1下限閾値に設定することを特徴とする請求項7に記載のカメラ。
【請求項9】
特定の被写体を予測または認識する被写体判断手段、
動画の撮像中に発生する音に対応する音信号から、ノイズ信号を除去するノイズ除去手段、
前記音信号から、人間または動物の音声信号を検出する音声検出手段、および
前記被写体判断手段が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去手段による前記ノイズ信号の除去性能を小さくするノイズ除去性能変更手段としてコンピュータを機能させるためのプログラム。
【請求項10】
特定の被写体を予測または認識する被写体判断手段、
動画の撮像中に発生する音に対応する音信号から、ノイズ信号を除去するノイズ除去手段、
前記音信号から、人間または動物の音声信号を検出する音声検出手段、および
前記被写体判断手段が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去手段による前記ノイズ信号の除去性能を小さくするノイズ除去性能変更手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項11】
動画の撮像を行う工程と、
前記動画の撮像中に発生する音を音信号に変換する工程と、
特定の被写体を予測または認識する工程と、
前記動画の撮像中に発生する音に含まれるノイズを検出する工程と、
前記音信号から、ノイズ信号を除去する工程と、
前記音信号から、人間または動物の音声信号を検出する工程と、
前記被写体判断手段が、特定の前記被写体を予測または認識している場合に、前記ノイズ除去手段による前記ノイズ信号の除去性能を小さくする工程とを有するノイズ除去方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−155184(P2012−155184A)
【公開日】平成24年8月16日(2012.8.16)
【国際特許分類】
【出願番号】特願2011−15051(P2011−15051)
【出願日】平成23年1月27日(2011.1.27)
【出願人】(000004112)株式会社ニコン (12,601)
【Fターム(参考)】