説明

撮像装置及びその音声処理方法並びに音声処理装置及び方法

【課題】
録音時の、機構部からの騒音を低減する。
【解決手段】
被写体認識部(78)が、撮影画像から人物を認識する。撮影画面中に人物が含まれている場合で、ズームレンズ群(32)、フォーカスレンズ群(36)及びNDフィルタ進退機構(38)の何れかが駆動されているとき、対応するフィルタ処理部(84、86、88)で入力音から騒音を低減する。騒音を低減された音声が符号化復号化処理部(76)で符号化され、記録媒体(72)に記録される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、撮像装置及びその音声処理方法並びに音声処理装置及び方法に関し、より具体的には、映像を参照して音声に含まれる騒音を低減する撮像装置及びその音声処理方法並びに音声処理装置及び方法に関する。
【背景技術】
【0002】
近年、静止画を撮影するデジタルスチルカメラにおいても、ビデオカメラの様に動画が撮影可能となっていており、音声も同時記録できる。他方、ビデオカメラでも、高解像度の静止画を撮影可能になっている。すなわち、ビデオカメラとスチルカメラとの境界が曖昧になってきている。
【0003】
スチルカメラ及びビデオカメラ等の撮像装置は、一般に、撮影画角変更用のズームレンズ、焦点の調節用のフォーカスレンズ、並びに、光量調整用のND(減光)フィルタ及び絞りを具備する。そして、撮像装置は、これらを機械的に駆動する駆動装置を具備する。これら機構部品は、動作時に不可避的に音を発生する。音声が記録可能な撮像装置では、これら機構部分の発生する音が、騒音として音声と共に記録されてしまうという問題がある。
【0004】
このための対策として、従来、駆動源、特に主たる騒音源であるモータと、マイクとを離して配置したり、駆動源の周囲に防音材を配設したり、あるいは、作動音の比較的少ないモータを使用する方法が採用された。例えば、特許文献1には、スチルビデオカメラにおいて、音声入力手段の作動時に電気部品(モータ)を作動させないようにする技術が記載されている。
【0005】
特許文献2には、モータの回転が始まると、単調にカメラ騒音域を低減して記録することが記載されている。また、被写体音と騒音周波数が同一時には、被写体音が大きい場合に騒音低減処理を動作させることが記載されている。
【0006】
特許文献3には、撮影モードに応じて、マイクの指向性を変更することが記載されている。たとえば、ポートレートモードではマイク指向性を正面の感度を上げてこれを重点的にし、周囲の感度を落として周囲のノイズをカツトする。また、風景モード又はスポーツモード等では、指向性を広げて周囲の音も記録可能とする。
【特許文献1】特開平9−233414号公報
【特許文献2】特開2006−186819号公報
【特許文献3】特開2002−199272公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
マイクと駆動源を物理的に離して配置する方法は、撮像装置の大型化を招く事となり、撮像装置小型化の要求に反する。駆動源の周囲に防音部材を配置する方法では、撮像装置の価格上昇を招く。
【0008】
特許文献1の技術では、動画像の撮影中には撮影画角の変更や焦点調節が行えなくなり、撮影者の意図する画像が得られなくなる。
【0009】
特許文献2に記載の技術では、マイクで集音した音圧と騒音の音圧の大小関係で、騒音低減処理の有無を決定している。従って、撮影している被写体の重要性を考慮しておらず、被写体に応じた適切な騒音低減処理になっていない。
【0010】
特許文献3に記載の技術では、撮影モードに応じてマイクの指向性を変更するようになっている。従って、撮影モードを手動で切り替える煩わしさがあると共に、モード設定を誤ると、録音音質も悪化する可能性がある。
【0011】
本発明は、上記事情に鑑みてなされたもので、大型化やコストアップを抑制しつつ、記録すべき音声に対する駆動機構の動作による騒音の影響を効果的に低減する撮像装置及びその音声処理方法並びに音声処理装置及び方法を提示することを目的とする。
【課題を解決するための手段】
【0012】
本発明に係る撮像装置は、撮像手段と、音声入力手段と、ズームレンズ駆動手段、フォーカスレンズ駆動手段、NDフィルタ駆動手段及びシャッタ駆動手段の何れかを含む騒音源と、前記撮像手段により入力される画像から被写体を認識する被写体認識手段と、前記音声入力手段により入力される音声から前記騒音源からの騒音を低減する騒音低減手段と、前記被写体認識手段の認識に従い、前記騒音低減手段を制御する制御手段とを具備することを特徴とする。
【0013】
本発明に係る撮像装置の音声処理方法は、撮像手段と、音声入力手段と、ズームレンズ駆動手段、フォーカスレンズ駆動手段、NDフィルタ駆動手段及びシャッタ駆動手段の何れかを含む騒音源とを有する撮像装置において、前記撮像手段により入力される画像から被写体を認識する被写体認識ステップと、前記音声入力手段により入力される音声から、前記被写体認識ステップでの認識に従う騒音低減特性で前記騒音源からの騒音を低減する騒音低減ステップとを具備することを特徴とする。
【0014】
本発明に係る音声処理装置は、画像入力手段と、音声入力手段と、前記画像入力手段により入力される画像から被写体を認識する被写体認識手段と、前記音声入力手段により入力される音声から騒音を低減する騒音低減手段と、前記被写体認識手段の認識に従い、前記騒音低減手段を制御する制御手段とを具備することを特徴とする。
【0015】
本発明に係る音声処理方法は、画像を入力する画像入力ステップと、音声を入力する音声入力ステップと、前記画像入力ステップにより入力される画像から被写体を認識する被写体認識ステップと、前記音声入力ステップにより入力される音声から、前記被写体認識ステップの認識に従う騒音低減特性で騒音を低減する騒音低減ステップとを具備することを特徴とする。
【発明の効果】
【0016】
本発明によれば、機構部等が発生する騒音を効果的に低減でき、録音品質又は再生品質を向上させることができる。
【発明を実施するための最良の形態】
【0017】
以下、図面を参照して、本発明の実施例を詳細に説明する。
【実施例1】
【0018】
図1は、本発明に係る撮像装置の第1実施例の正面図を示し、図2は、その背面図を示す。図3は、本実施例の概略構成ブロック図を示す。
【0019】
本実施例の撮像装置10は、カメラ本体部12に、レンズ鏡筒14、フラッシュ16及びマイク(音入力手段)18を具備する。カメラ本体部12の上面には、シャッタボタン20を具備する。カメラ本体部12の背面には、図2に示すように、画像表示部22、ズームボタン24、電源ボタン26、モード設定ボタン28及びスピーカ(音出力手段)30を備えている。画像表示部22は、一般的には、液晶表示装置(LCD:Liquid Crystal Display)や有機EL(Electro−Luminescence)素子からなる。
【0020】
レンズ鏡筒14には、図3に示すように、ズームレンズ群32、シャッタ34及びフォーカスレンズ群36を有する撮影レンズが収納される。ズームレンズ群32とシャッタ34の間には、光軸上にNDフィルタを挿入又は退出させるNDフィルタ進退機構38が配置される。NDフィルタは、被写体が明るく、シャッタ速度変更や撮像素子40の感度変更でも適正露光が得られないほど被写体が明るい場合に、被写体からの光量を減光するために使用される。撮影レンズは、ズームレンズ群32により焦点距離を変更可能であり、フォーカスレンズ群36による合焦度を調節可能である。
【0021】
ズームレンズ群駆動回路42が、駆動モータ及び減速機構からなる駆動機構44により、ズームレンズ群32を光軸方向に移動させる。シャッタ駆動回路46が、駆動機構48により、シャッタ34のシャッタ羽根を開閉する。フォーカスレンズ群駆動回路50が、駆動モータ及び減速機構からなる駆動機構52により、フォーカスレンズ群36を光軸方向に移動させる。NDフィルタ駆動回路54が、駆動モータ及び減速機構からなる駆動機構56により、NDフィルタ進退機構38のNDフィルタを光軸上の位置と光軸から退避した位置との間で移動させる。
【0022】
シャッタボタン20は、スチルカメラで周知の通り、半押し状態と全押し状態の2段階に押下可能である。静止画撮影モードでは、シャッタボタン20の半押しに対し、露光制御及び合焦制御が実行され、全押しに対して、被写体画像の静止画としての取り込みと録画が実行される。動画撮影モードでは、シャッタボタン20の1回目の全押しに対して、被写体画像の動画としての取り込みと録画が実行され、2回目の全押しで録画が停止される。即ち、シャッタボタン20は、録画開始と停止を指示するトグルボタンとして機能する。
【0023】
詳細は後述するが、静止画撮影モードでは、シャッタボタン20が操作されていないとき、所定の周期、例えば1/15秒毎に被写体の光学像が取り込まれ、画像表示部22の画面上にライブビュー画像として表示される。シャッタボタン20の半押し段階で、露出制御値(シャッタスピード及び絞り値)が設定されると共に、被写体距離に撮影レンズのフォーカスが制御されて撮像待機状態となる。シャッタボタン20の全押し段階で、露出制御値のシャッタスピードに応じた時間だけシャッタ34が開放され、撮像素子40が露光される。この露光により撮像素子40で生成される画像信号は、後述する圧縮処理等を経て、記録媒体に記録される。
【0024】
他方、動画撮影モードでは、シャッタボタン20が操作されていないとき、露出と撮影レンズのフォーカスが継続的に自動制御される。勿論、露出制御を手動に切り替えたときには、露出制御は手動になる。同様に、合焦制御を手動に切り替えた場合も、合焦制御は手動になる。録画開始前も録画中も、撮像素子40に入射する被写体画像が、画像表示部22の画面にライブビュー画像として表示される。
【0025】
フラッシュ16は、被写体からの光量が不足する場合などに、被写体に撮影用の照明光を照射するために使用される。
【0026】
マイク18は、音声を電気信号(音声信号)に変換する素子であり、スピーカ30は、音声信号を音響出力する素子である。
【0027】
画像表示部22は、撮影の際のファインダとして、また、録画中の画像及び再生画像をモニタする手段として使用される。画像表示部22にはまた、動作パラメータ等を設定するため等の種々の設定画面が表示される。
【0028】
ズームボタン24は、ズームレンズ群32のワイド方向への移動を指示するワイドボタン24aと、テレ方向への移動を指示するテレボタン24bから成る。電源ボタン26は、押下する毎に撮像装置10の主電源のオン/オフが交互に切り換わる。モード設定ボタン28は、被写体像の静止画撮影を行う静止画撮影モードと、被写体像の動画撮影を行う動画撮影モードと、記録画像を再生する再生モードを選択指定する。
【0029】
撮像素子40は、撮影レンズによる光学像を電気画像信号に変換する。撮像素子40は、R(赤)、G(緑)、B(青)の各色成分を受光する画素をマトリックス状に複数有する例えばCMOSカラーエリアセンサからなる。なお、全体制御部60が、撮像素子40の露出開始/終了、及び各画素信号の読出しを制御する。
【0030】
画像処理部62は、撮像素子40から出力される画像信号にカメラで公知の処理(ノイズ低減、黒レベル、色変換、ホワイトバランス調整及びガンマ補正等)を施す。具体的には、画像処理部62は、画像信号のノイズを低減し、レベル調整した上で、所定ビット(例えば、各色8ビット)にデジタル化する。画像処理部62は更に、画像データの黒レベルを基準値に補正し、R(赤)、G(緑)及びB(青)の各色成分の画素データを調整して全体のホワイトバランスを補正し、また、γ特性を補正する。
【0031】
画像処理部62で処理された画像データは、画像メモリ64に一時格納される。撮影時には、画像メモリ64は、画像処理部62からの画像データに全体制御部60による所定処理を施すための作業領域としても用いられる。再生モードでは、画像メモリ64は、記録媒体から読み出され再生された画像データが一時格納する手段として使用される。
【0032】
VRAM66は、画像表示部22で再生表示する画像データを記憶するビデオメモリであり、画像表示部22の表示画素数に対応する画素数の画像データを格納できる。
【0033】
音声処理部68は、マイク18からの音声信号を増幅しデジタル信号に変換する機能と、全体制御部60からの音声データ(再生音声信号)をアナログ信号に変換してスピーカ30に供給する機能を有する。
【0034】
入力操作部70は、シャッタボタン20、ズームボタン24、電源ボタン26、モード設定ボタン28及びその他の操作手段からなる。入力操作部70の操作情報は、全体制御部60に入力される。
【0035】
記録媒体72は、半導体記憶素子からなるメモリカードや、又は、ハードディスクなどからなり、全体制御部60から供給される画像データ、音声データ又はこれらの多重データを記憶する。
【0036】
全体制御部60はマイクロコンピュータからなり、カメラ本体部12内の各部を統括的に制御する。全体制御部60は、ワークエリアとしてのRAMと、各種機能プログラム等を記憶するROMを有する。全体制御部60は、プログラムにより実現される複数の機能要素74〜89を有する。
【0037】
撮像制御部74は、撮像素子40の露光動作を制御する。具体的には、動画撮影モードでは、シャッタボタン20の全押しに応じて、撮像素子40に露光と画像信号の読出しを所定の周期で繰り返し実行させ、この撮影画像データを記録媒体72に記録させる。そして、再度のシャッタボタン20の全押しに応じて、この動作を終了させる。
【0038】
符号化復号化処理部76は、撮影画像データ及び入力音声データの符号化処理(圧縮処理)と、記録媒体72から読み出された圧縮画像データ及び圧縮音声データの復号化処理(伸長処理)を担当する。圧縮画像データと圧縮音声データを多重する場合には、そのための多重処理と、再生の際の分離処理を担当する。
【0039】
駆動制御部77は、ズームレンズ群駆動機構44、フォーカスレンズ群駆動機構52、NDフィルタ進退駆動機構56及びシャッタ駆動機構48の動作を制御する。例えば、駆動制御部77は、ズームボタン24が操作されると、その操作時間に応じた期間、ズームレンズ群32を光軸方向に駆動するようにズームレンズ群駆動回路42を制御する。また、シャッタボタン20の半押し操作に対し、駆動制御部77は、フォーカスレンズ群36を光軸方向に移動させるようにフォーカスレンズ群駆動回路50に指示する。駆動制御部77は、撮像素子40に結像される光量に従い、NDフィルタの進退をNDフィルタ駆動回路54に指示する。
【0040】
被写体認識部78は、撮像素子40から得られる撮影画像中に人物が存在するか否か、人物の人数、画面上の位置、性別、成人か子供か、口が動いているか否か等を認識する。
【0041】
人物自動選択部80は、被写体認識部78で判別した人物の内、被写体として重要である人物を一定の基準に従い選択する。例えば、画面内で各人物が占める面積や、画面の中央にいるか周辺にいるか、シャッタボタン20の半押し時にオートフォーカスした人物かどうか等の何れかまたはその組み合わせを基準とする。そして、このような基準に従い、動画撮影時に被写体として最も重要である人物を推測する。
【0042】
なお、被写体認識と顔認識技術は、特開平6−160944号公報及び特開2001−330882号公報等に記載されている。本実施例では、このような公知の被写体認識技術を被写体認識部78及び人物自動選択部80に使用する。被写体認識技術のこれ以上の詳細な説明は、省略する。
【0043】
音声処理制御部82は、音声処理部68でのデータの流れを制御する。すなわち、動画撮影モードでは、シャッタボタン20の全押しに応じて、マイク18の出力音声信号を取り込み、デジタル化及びPCM符号化するように音声処理部68を制御する。音声処理制御部82はまた、ズームフィルタ処理部84、フォーカスフィルタ処理部86及びNDフィルタ処理部88に、駆動機構44,56,48,52が発生する騒音成分を低減させる。再度、シャッタボタン20が全押しされると、全体制御部60は、音声処理部68のこれらの処理を終了させる。
【0044】
ズームフィルタ処理部84は、マイク18及び音声処理部68を介して入力された音データから、ズームレンズ群駆動機構44が発生する騒音の周波数帯域に属する周波数成分を低減する。
【0045】
フォーカスフィルタ処理部86は、マイク18及び音声処理部68を介して入力された音データから、フォーカスレンズ群駆動機構52が発生する騒音の周波数帯域に属する周波数の音を低減する。
【0046】
NDフィルタ処理部88は、マイク18及び音声処理部68を介して入力された音データから、NDフィルタ進退駆動機構56が発生する騒音の周波数帯域に属する周波数の音を低減する。
【0047】
発声周波数帯域データ記憶部90は、図4に示すように、男性/女性別及び成人/子供別に分類した計4通りの代表的なまたは平均的な低減周波数域と低減率のデータを記憶する。これらのデータは、予め計測されたものである。
【0048】
姿勢補正係数記憶部92は、騒音低減特性の補正係数として、図5に示すように、カメラ姿勢に対する低減周波数帯域の補正係数と低減率の補正係数を記憶する。カメラ姿勢は、図5に示す例では、通常撮影、上向き、及び下向きの3つ状態からなる。図5に示す例では、補正係数は0.8倍から1.1倍の範囲で与えられる。
【0049】
温度補正係数記憶部94は、騒音低減特性の補正係数として、図6に示すように、カメラ温度に対する低減周波数帯域の補正係数と低減率の補正係数を記憶する。図6に示す例では、カメラ温度は、−10〜10℃、10〜30℃及び30〜40℃の3つ状態のからなる。図6に示す例では、補正係数は0.8倍から1.2倍の値をとる。
【0050】
基本騒音波形記憶部96は、各種基本騒音波形を記憶する。図7(a)は、ズーム基本騒音波形の一例を示す。図7(b)はフォーカス基本騒音波形の一例を示す。図7(c)はNDフィルタ進退基本騒音波形の一例を示す。何れも、横軸が時間を示し、縦軸が音圧を示す。
【0051】
姿勢センサ98は、撮像装置の姿勢(向き)を測定するセンサである。姿勢センサ98は、図5に示す例に対応して、撮像装置が上向きか、通常姿勢か、下向きかを検出する。
【0052】
温度センサ100は、撮像装置の温度を測定するセンサである。温度センサ100は、図6に示す例に対応して、−10〜10℃、10〜30℃、30〜40℃の3つの温度範囲の何れに属する温度かを測定する。
【0053】
具体的には、ズームレンズ群駆動機構44からの騒音を除去する際に、発声周波数帯域データ記憶部90から被写体に応じて発声周波数帯域データを読み出すか、又は、基本騒音波形記憶部96からズーム騒音基本波形を読み出す。温度センサ100が検出したカメラ温度を基に、温度補正係数記憶部94から温度補正係数を読み出す。姿勢センサ98が検出したカメラ姿勢を基に、姿勢補正係数記憶部92から姿勢補正係数を読み出す。そして、読み出した発声周波数帯域データの音圧レベル低減周波数帯域と低減率を、温度補正係数と姿勢補正係数により補正する。ズームフィルタ処理部84は、温度補正係数及び姿勢補正係数で補正された発生周波数帯域データに従い、音声処理部68から入力される音声信号をフィルタリングする。
【0054】
発声周波数帯域データ(音圧レベル低減周波数帯域と低減率)を温度に応じて補正する理由を説明する。各種駆動機構48,52,56、ズームレンズ群32、シャッタ34、フォーカスレンズ群36及びNDフィルタ進退機構38は、それらを構成している部品が温度により伸縮する。その結果、部品相互の間隔や接触している部分の摩擦力が変化し、駆動中の各部品の挙動が変化する。また、各駆動源に要求される駆動力も変化するので、駆動スピードも変化する。これらの結果、各駆動機構が発する騒音の周波数や音圧が変化する。そこで、低減すべき周波数と低減率を温度に従って補正することで、より精密に騒音を低減できるようになる。
【0055】
カメラ姿勢を考慮する理由は、以下の通りである。重力の影響があることから、カメラ姿勢によって駆動源への負荷が変化する。例えば、カメラを空方向である上向きにして、ズームレンズ群32を上方向に繰り出そうとすると、ズームレンズ群32を重力に逆らって駆動する必要がある。重力に逆らう分、ズームレンズ群駆動機構44の駆動源への負荷が増大し、ズームスピードが遅くなり、ズーム騒音の周波数と音圧が変化する。従って、低減すべき周波数や低減率を姿勢に応じて補正することで、より精密に騒音を低減できるようになる。
【0056】
また、外気温度によってマイク18の音響/電気変換の周波数特性が変化するので、入力音声に温度補正を加えるのが好ましい。
【0057】
フォーカスレンズ群駆動機構52からの騒音を除去する際に、発声周波数帯域データ記憶部90から被写体に応じて発声周波数帯域データを読み出すか、又は、基本騒音波形記憶部96からフォーカス騒音基本波形を読み出す。温度センサ100が検出したカメラ温度を基に、温度補正係数記憶部94から温度補正係数を読み出す。姿勢センサ98が検出したカメラ姿勢を基に、姿勢補正係数記憶部92から姿勢補正係数を読み出す。読み出した発声周波数帯域データの音圧レベル低減周波数帯域と低減率を、温度補正係数と姿勢補正係数により補正する。フォーカスフィルタ処理部86は、音声処理部68から入力される音声の、補正された周波数帯を、補正された低減率でフィルタリングする。
【0058】
NDフィルタ進退駆動機構56からの騒音を除去する際に、発声周波数帯域データ記憶部90から被写体に応じて発声周波数帯域データを読み出すか、又は基本騒音波形記憶部96からNDフィルタ進退騒音基本波形を読み出す。温度センサ100が検出したカメラ温度を基に、温度補正係数記憶部94から温度補正係数を読み出す。姿勢センサ98が検出したカメラ姿勢を基に、姿勢補正係数記憶部92から姿勢補正係数を読み出す。読み出した発声周波数帯域データの音圧レベル低減周波数帯域と低減率を、温度補正係数と姿勢補正係数により補正する。NDフィルタ処理部88は、音声処理部68から入力される音声の、補正された周波数帯を補正された低減率でフィルタリングする。
【0059】
フィルタ選択部89は、動画撮影モードにおいてシャッタボタン20の全押し操作が行われると、操作対象に応じて、騒音除去処理用に、ズームフィルタ処理部84、フォーカスフィルタ処理部86又はNDフィルタ処理部88を選択する。例えば、ズームボタン24が操作された場合、フィルタ選択部89は、ズームフィルタ処理部84に騒音の除去処理の実行を指示する。フォーカスレンズ群36の駆動が開始すると、フォーカスフィルタ処理部86がフォーカスレンズ群36の駆動に応じた騒音除去処理を実行する。同様に、NDフィルタの進退移動に対しては、NDフィルタ処理部88が騒音除去処理を実行する。
【0060】
符号化復号化処理部76は、ズームフィルタ処理部84、フォーカスフィルタ処理部86又はNDフィルタ処理部88により騒音を除去された音声データを符号化する。符号化復号化処理部76は、符号化した音声データを記録媒体72に格納する。
【0061】
図8を参照して、人間の発する音声の周波数特性及び各種駆動機構の発生する騒音の周波数特性を説明する。図8(a)は、女性の発生の周波数特性例を示す。図8(b)は、男性の発声の周波数特性例を示す。図8(c)は、ズーム騒音の周波数特性例を示す。図8(d)は、NDフィルタ進退騒音の周波数特性例を示す。
【0062】
日本語の周波数帯域は、100〜1500Hzという説があり、男性に対して女性の発声の周波数帯域はやや高くなっている。周波数特性の数値としては各種研究・測定結果があり、どれが最適であるか不明であるが、ここでは、本実施例の特徴を明確にする為に、数値を仮に設定して説明する。
【0063】
図8(a)は、成人女性がある一定時間、会話した場合の周波数特性の一例を模式的に示す。横軸が周波数〔Hz〕を示し、縦軸が音圧〔dB〕を示す。周波数特性の曲線を見ると、10Hz付近は音圧が低く、200Hz付近で高くなり、2000Hz付近で音圧が低下している。このように、図8(a)に示す例では、発声する音域が、200〜2000Hzにある。
【0064】
図8(b)は、成人男性が、ある一定時間、会話した場合の周波数特性の一例を模式的に示す。横軸が周波数〔Hz〕を示し、縦軸が音圧〔dB〕を示す。周波数特性の曲線を見ると、10Hz付近は音圧が低く、100Hz付近で高くなり、1000Hz付近で音圧が低下している。このように、図8(b)に示す例では、発声する音域が100〜1000Hzにある。
【0065】
図8(c)は、ズームレンズ群駆動機構44がズームレンズ群32を駆動する際に発生する騒音をマイク18で取り込んだときの、マイク18の出力音声の周波数特性を示す。横軸が周波数〔Hz〕を示し、縦軸が音圧〔dB〕を示す。周波数5Hzから10kHzにわたって一定の音圧で騒音を発生している。
【0066】
図8(d)は、NDフィルタ進退駆動機構56がNDフィルタを駆動した際に発生する騒音をマイク18で取り込んだときの、マイク18の出力音声の周波数特性を示す。横軸が周波数〔Hz〕を示し、縦軸が音圧〔dB〕を示す。周波数20Hz近辺に第1のピークがあり、周波数2kHz近辺に第2のピークがある。
【0067】
図9及び図10を参照して、本実施例の録音時の騒音低減処理の動作を詳細に説明する。図9及び図10は、本実施例の、動画撮影モードにおける騒音低減処理の動作フローチャートを示す。
【0068】
全体制御部60は、シャッタボタン20の半押しを検出すると(S1)、測距及び測光する(S2)。即ち、被写体までの距離をコントラスト方式AF(オートフォーカス)で測距し、撮像素子40に入射する光量から適正露光となるシャッタ速度を決定する。そして、全体制御部60は、測距結果に従い、フォーカスレンズ群駆動回路50に指示して、フォーカスレンズ群36を被写体にピントが合う位置まで移動させる(S3)。また、全体制御部60は、測光結果に従い、被写体が明るすぎる場合は、減光の為、NDフィルタ駆動回路54に指示してNDフィルタを光路中に進入させる(S4)。
【0069】
被写体認識部78は、画面内の人物の存在不在を認識し(S5)、存在しない場合には、被写体に依存しない騒音低減処理を含む通常の撮影処理(S6)を実行する。図11は、ステップS6の詳細なフローチャートを示す。
【0070】
図11に示すフローでは、撮像装置が発する騒音周波数の全域に対してフィルタのゲインを低減する。シャッタボタン20の全押しに対し(S31)、動画撮影(録画)を開始する(S32)。
【0071】
ズームボタン24が押されている場合には(S33)、ズームレンズ群の駆動中に発する騒音の周波数帯5〜1000Hzの録音レベルを−15dB下げて、録音を続ける(S34)。
【0072】
フォーカスレンズ群を駆動している間は(S35)、フォーカスレンズ群の駆動中に発する騒音の周波数帯100〜1000Hzの録音レベルを−13dB下げて、録音を続ける(S36)。
【0073】
NDフィルタが進退駆動している間は(S37)、NDフィルタの進退駆動中に発する騒音の周波数30Hz前後と2000Hz前後の録音レベルを−8dB下げて、録音を続ける(S38)。
【0074】
シャッタボタン20が再度、全押しされるまで(S39)、以上のステップS33〜S38を繰り返し実行する。シャッタボタン20が再度、全押しされると(S39)、動画撮影を終了する(S40)。
【0075】
図9に戻る。画面内に人物が含まれている場合(S5)、画面内の人数の検出する(S7)。各人物が画面内でどの位置にいるかを検出する(S8)。ここでは、例えば、2名検出され、1名が中央に位置し、1名が右端に位置するとする。画面内の人物の大きさと配置から重要被写体となる人物を自動決定する(S9)。画面中央に大きめに人物Aが正面顔で存在し、画面右隅に人物Aより小さく人物Bが存在しているとすると、画面上の位置と大きさのいずれからも、人物Aが重要被写体人物と判定される。決定された重要被写体人物の性別と年齢を判定する(S10)。例えば、顔の目鼻口の距離比率から性別と年齢を判定でき、ここでは人物Aが成人女性であると判定したとする。
【0076】
シャッタボタン20の全押しを待ち(S11)、全押しに応じて、動画撮影(録画)を開始する(S12)。
【0077】
録画中のズームボタン24の操作に対して(S13)、発声周波数帯域データ記憶部90から、重要被写体人物の性別と年齢に応じた音圧レベル低減周波数帯域と低減率を読み出す(S14)。先に説明したように、重要被写体人物が成人女性であることから、図4に示すように、成人女性の制御データ(低減周波数帯域=10〜200Hzと1700〜24000Hz、低減率=40%)を読み出す。
【0078】
温度センサ100による検出温度及び姿勢センサ98により検出される姿勢に従い、温度補正係数を温度補正係数記憶部94から読み出し、姿勢補正係数を姿勢補正係数記憶部92から読み出す(S15)。例えば、温度センサ100の測定値が32℃の場合、温度補正係数記憶部94から、図6に示すように、低減周波数帯域の補正係数=1.1、低減率の補正係数=0.8を読み出す。そして、姿勢センサ98により検出される現状姿勢が通常姿勢である場合、図5に示すように、低減周波数帯域の補正係数=1、低減率の補正係数=1を読み出す。
【0079】
補正係数に従うフィルタ特性で入力音声をフィルタリングして、騒音を低減する(S16)。そして、図12に示すように、画像表示部(LCD)6の左上に「騒音低減録音中」を表示して、撮影者に、ズーム騒音分の録音音声補正の開始を通知する。ズームフィルタ処理部84は、マイク18及び音声処理部68を介して入力された被写体の音声の内、周波数帯(10×1.1×1)〜(200×1.1×1)Hzの音声を(40×0.8×1)%の低減率で加工する。また、周波数帯(1700×1.1×1)〜(24000×1.1×1)Hzの音声を(40×0.8×1)%の低減率で加工する。そして、音声処理制御部82は、その加工された音声データを記録媒体72に記録する。
【0080】
たまたま女性がカメラに向かって話し掛けていたとすると、ある時間内の平均では、図8(a)に示す女性発声の周波数特性の音声と、図8(c)に示すズーム騒音周波数特性の音がマイク18で集音されることになる。これらの合成音声の周波数特性は、図13(a)に示すように、200〜2000Hzが一段高い音圧の周波数特性になる。ズームフィルタ処理部84での音声加工量は、図13(b)に示すように、220〜1870Hzまでは加工されず、220Hz以下と1870Hz以上の音の音圧が32%、低減加工される。すなわち、被写体となった人物の性別及び年齢に応じた発生周波数帯域以外で、騒音源に応じた騒音低減特性で騒音が低減される。その結果、図10(c)に示すように、成人女性の発声周波数に殆ど影響を与えないで、それ以外の周波数(220Hz以下と1870Hz以上)で騒音周波数部分を低減できる。
【0081】
フォーカスレンズ群36が駆動開始している場合には(S17)、全体制御部60は、発声周波数帯域データ記憶部90から、重要被写体人物の性別と年齢に応じた音圧レベル低減周波数帯域と低減率を読み出す(S18)。図4に示すように、成人女性の場合の制御データ(低減周波数帯域=10〜200Hzと1700〜24000Hz、低減率=40%)を読み出すことになる。
【0082】
温度センサ100による検出温度及び姿勢センサ98により検出される姿勢に従い、温度補正係数を温度補正係数記憶部94から読み出し、姿勢補正係数を姿勢補正係数記憶部92から読み出す(S19)。例えば、温度センサ100の測定値が32℃の場合、温度補正係数記憶部94から、図6に示すように、低減周波数帯域の補正係数=1.1、低減率の補正係数=0.8を読み出す。そして、姿勢センサ98により検出される現状姿勢が通常姿勢である場合、図5に示すように、低減周波数帯域の補正係数=1、低減率の補正係数=1を読み出す。
【0083】
図12に示すように、画像表示部(LCD)6の左上に「騒音低減録音中」を表示して、撮影者に、ズーム騒音分の録音音声補正の開始を通知する(S20)。フォーカスフィルタ処理部86は、マイク18及び音声処理部68を介して入力された被写体の音声の内、周波数帯(10×1.1×1)〜(200×1.1×1)Hzの音声を(40×0.8×1)%の低減率で加工する。また、周波数帯(1700×1.1×1)〜(24000×1.1×1)Hzの音声を(40×0.8×1)%の低減率で加工する。そして、音声処理制御部82は、その加工された音声データを記録媒体72に記録する。
【0084】
NDフィルタが進退開始している場合には(S21)、発声周波数帯域データ記憶部90から、重要被写体人物の性別と年齢に応じた音圧レベル低減周波数帯域と低減率を読み出す(S22)。先に説明したように、重要被写体人物が成人女性であることから、図4に示すように、成人女性の制御データ(低減周波数帯域=10〜200Hzと1700〜24000Hz、低減率=40%)を読み出す。
【0085】
温度センサ100による検出温度及び姿勢センサ98により検出される姿勢に従い、温度補正係数を温度補正係数記憶部94から読み出し、姿勢補正係数を姿勢補正係数記憶部92から読み出す(S23)。例えば、温度センサ100の測定値が32℃の場合、温度補正係数記憶部94から、図6に示すように、低減周波数帯域の補正係数=1.1、低減率の補正係数=0.8を読み出す。そして、姿勢センサ98により検出される現状姿勢が通常姿勢である場合、図5に示すように、低減周波数帯域の補正係数=1、低減率の補正係数=1を読み出す。
【0086】
補正係数に従うフィルタ特性で入力音声をフィルタリングして、騒音を低減する(S24)。そして、図12に示すように、画像表示部22の左上に「騒音低減録音中」を表示して、撮影者に、NDフィルタの進退に伴う騒音分の録音音声補正の開始を通知する。NDフィルタ処理部88は、マイク18及び音声処理部68を介して入力された被写体の音声の内、周波数帯(10×1.1×1)〜(200×1.1×1)Hzの音声を(40×0.8×1)%の低減率で加工する。また、周波数帯(1700×1.1×1)〜(24000×1.1×1)Hzの音声を(40×0.8×1)%の低減率で加工する。そして、音声処理制御部82は、その加工された音声データを記録媒体72に記録する。
【0087】
シャッタボタン20が再度、全押しされるまで(S25)、以上のステップS13〜S24を繰り返し実行する。シャッタボタン20が再度、全押しされると(S25)、動画撮影を終了する(S26)。
【0088】
本実施例では、画面内に人物がいる場合に、その人物が発するであろう音声に悪影響を与えないで、撮像装置が発する騒音(ズーム音、フォーカス音、ND進退音)を低減して、録音できる。
【0089】
ズーム音、フォーカス音及びND進退音の3つの騒音を低減したが、必要に応じて一部の騒音のみの低減(例えば、ズーム音のみの低減)に限定してもよいことは明らかである。
【実施例2】
【0090】
本発明の第2実施例を説明する。第2実施例では、重要被写体人物が発生しているときのみ、騒音低減を有効化する。図14は、そのように図10を変更した制御フローチャートを示す。ステップS15とステップS16の間に条件分岐のステップS15−2を挿入し、ステップS19とステップS20の間に条件分岐のステップS19−2を挿入している。
【0091】
すなわち、被写体認識の1つとして、重要被写体の口が動いているか動いていないかを識別する。図15(a),(b)に破線で示すように、重要被写体人物の口の動きをモニタし、発声をしているか否かを判別する。図15(a)は口を閉じている状態を示し、図15(b)は口を開いている状態を示す。撮影画像上、重要被写体人物の口が動いていて、且つマイク18に音声が入力されている場合、被写体認識部78は、重要被写体人物が発声していると判断する。重要被写体人物が発声している場合に(S15−2,S19−2)、騒音低減処理を実行する(S16,S20)。
【0092】
なお、NDフィルタ進退時の騒音は瞬間的な騒音であるので、この実施例では、発声の有無による騒音低減処理の有効化制御は行っていない。
【0093】
本実施例では、人物が画面の中央に位置していても、発声や会話していないときには、駆動騒音を効果的に低減し、発声や会話しているときには、その音声を損なわないように、騒音を低減できる。被写体人物が発声している時のみ、撮像装置が発する騒音を低減するので、実施例1よりさらに違和感の少ない騒音低減録音を実現できる。
【実施例3】
【0094】
本発明の第3実施例を説明する。この実施例では、基本騒音波形記憶部96が、撮像装置が発声する代表的な騒音波形を記憶する。そして、録音時には、この代表的な騒音波形を音声変化及び姿勢変化に応じて補正した上で、マイク18の入力音声(被写体音声と騒音)から減算する。
【0095】
図16は、基本騒音波形記憶部96に記憶される基本騒音波形に対する温度補正係数表を示す。図16に示す温度補正係数が、温度補正係数記憶部94に記憶されている。図示例では、温度範囲が3段階に分類され、各温度範囲に対して、時間軸を係数倍する時間軸補正係数と、振幅を係数倍する振幅補正係数が格納されている。例えば、温度センサ100により、撮像装置の周囲温度が8℃と測定された場合、温度範囲−10〜10℃の欄から、時間軸方向の補正係数として1.1が読み出される。これは、1秒間の騒音が1.1秒かかって発生すると予測して、基本騒音波形の騒音を補正することに相当する。また、振幅は1.2倍に補正される。
【0096】
図17は、基本騒音波形記憶部96に記憶される基本騒音波形に対する姿勢補正係数表を示す。図17に示す姿勢補正係数が、姿勢補正係数記憶部92に記憶されている。図17に示す例では、カメラの姿勢が3段階に分類され、各姿勢に対して、時間軸を係数倍する時間軸補正係数と、振幅を係数倍する振幅補正係数が格納されている。例えば、姿勢センサ98により撮像装置の姿勢が上向きと測定された場合、図17に示す姿勢補正係数表の「撮像装置上向き」の欄から、時間軸方向の姿勢補正係数として1.2が読み出される。これは、1秒間の騒音が1.2秒かかって発生すると予測して、基本騒音波形の騒音を補正することに相当する。また、振幅は1.1倍に補正される。
【0097】
図18は、図9に対応する第3実施例の騒音処理の変更部分のフローチャートを示す。
【0098】
録画中のズームボタン24の操作に対して(S113)、全体制御部60は、基本騒音波形記憶部96からズーム基本騒音波形データ(図7(a))を読み出す(S114)。温度センサ100の検出温度に従い、温度補正係数記憶部94から、対応する温度範囲の時間軸補正係数及び振幅補正係数を読み出す。また、姿勢センサ98の検出姿勢に従い、姿勢補正係数記憶部92から対応する姿勢に対する時間軸補正係数及び振幅補正係数を読み出す(S115)。
【0099】
音声処理制御部82は、読み出されたズーム基本騒音波形に温度と姿勢に関する時間軸補正係数と振幅補正係数を各々掛け合わせ、マイク18で集音される音声から減算することで、騒音を低減する(S116)。音声処理制御部82は、このように騒音を低減された音声データを記録媒体72に記録する。
【0100】
フォーカスレンズ群が駆動開始している場合には(S117)、全体制御部60は、基本騒音波形記憶部96からフォーカス基本騒音波形データ(図7(b))を読み出す(S118)。温度センサ100の検出温度に従い、温度補正係数記憶部94から、対応する温度範囲の時間軸補正係数及び振幅補正係数を読み出す。また、姿勢センサ98の検出姿勢に従い、姿勢補正係数記憶部92から対応する姿勢に対する時間軸補正係数及び振幅補正係数を読み出す(S119)。
【0101】
音声処理制御部82は、読み出されたフォーカス基本騒音波形に温度と姿勢に関する時間軸補正係数と振幅補正係数を各々掛け合わせ、マイク18で集音される音声から減算することで、騒音を低減する(S120)。音声処理制御部82は、このように騒音を低減された音声データを記録媒体72に記録する。
【0102】
NDフィルタが進退開始している場合には(S121)、全体制御部60は、基本騒音波形記憶部96からNDフィルタ進退基本騒音波形データ(図7(c))を読み出す(S122)。温度センサ100の検出温度に従い、温度補正係数記憶部94から、対応する温度範囲の時間軸補正係数及び振幅補正係数を読み出す。また、姿勢センサ98の検出姿勢に従い、姿勢補正係数記憶部92から対応する姿勢に対する時間軸補正係数及び振幅補正係数を読み出す(S123)。
【0103】
音声処理制御部82は、読み出されたNDフィルタ進退基本騒音波形に温度と姿勢に関する時間軸補正係数と振幅補正係数を各々掛け合わせ、マイク18で集音される音声から減算することで、騒音を低減する(S124)。音声処理制御部82は、このように騒音を低減された音声データを記録媒体72に記録する。
【0104】
本実施例でも、録音低減処理を実行しながら、入力音声を録音している場合には、図12に示すように、画像表示部(LCD)6の左上に「騒音低減録音中」を表示する。
【0105】
シャッタボタン20が再度、全押しされるまで(S125)、以上のステップS113〜S124を繰り返し実行する。シャッタボタン20が再度、全押しされると(S125)、動画撮影を終了する(S126)。
【0106】
本実施例では、各種騒音の基本波形を使用環境(姿勢及び温度)に従って補正してから入力音声から減算するので、撮像装置で発声する騒音を低減して周囲音声を録音できる。
【実施例4】
【0107】
本発明の第4実施例を説明する。本実施例では、画面内の人物の配置に応じてマイクロ10の指向性を変更制御する。これにより、撮像装置の発する騒音を極力低減できる。
【0108】
図19(a)は、撮影視野内に人物が存在しないとき、又は、撮影対象の人物が口を閉じているときのマイク18の指向性例を示す。図19(b)は、撮影対象の人物が発声中のマイク18の指向性例を示す。円形グラフの上が被写体方向正面であり、円形グラフ右側が撮影画面右側を示し、円形グラフ左側が撮影画面右左側を示す。円形の半径方向がマイク18の感度を示す。正面方向の感度を0dBと正規化して、最外円が感度0dB、1つ内側の円が感度−10dB、2つ目の円が感度−20dBを示す。
【0109】
図19(a)では、実線で示される感度曲線は、左右対称形状で、左右70度の角度方向で急激に感度が低下している。このように左右70度という広い指向性を持っているので、撮影画面内と周辺の音声をまんべんなく集音可能である。
【0110】
図19(b)では、実線で示される感度曲線は、左右対称形状で、左右45度の角度方向で急激に感度が低下している。このように左右45度という狭い指向性を持っているので、マイク18の左右側面や後方での音は集音されない。よって、それらの位置に撮像装置自体が発する騒音源があっても、マイク18で集音されない。
【0111】
図20及び図21は、本実施例の、騒音低減処理を含む動画録画動作のフローチャートを示す。
【0112】
全体制御部60は、シャッタボタン20が半押しされたことを検出すると(S201)、測距及び測光する(S202)。即ち、被写体までの距離をコントラスト方式AF(オートフォーカス)で測距し、撮像素子40に入射する光量から適正露光となるシャッタ速度を決定する。そして、全体制御部60は、測距結果に従い、フォーカスレンズ群駆動回路50に指示して、フォーカスレンズ群36を被写体にピントが合う位置まで移動させる(S203)。また、全体制御部60は、測光結果に従い、被写体が明るすぎる場合は、減光の為、NDフィルタ駆動回路54に指示してNDフィルタを光路中に進入させる(S204)。
【0113】
全体制御部60は、シャッタボタン20の全押しを待ち(S205)、全押しに応じて、動画撮影(録画)を開始する(S206)。
【0114】
録画中のズームボタン24の操作に対して(S207)、被写体認識部78が、撮影画面内に人物が存在するかどうかを認識する(S208)。人物が存在しない場合(S208)、全体制御部60は、周波数帯5〜1000Hzの録音レベルを−15dB下げて録音を続け、ステップS207に戻る。
【0115】
撮影画面内に人物が存在する場合(S208)、画面内の人数を検出し(S210)、検出された人物が画面内の中央にいるのか、周辺のどの位置にいるのかを検出する(S210)。例えば、ここで、2名検出され、中央に1名、右端に1名、位置しているとする。
【0116】
画面内の人物の大きさと配置から重要被写体となる人物を自動決定する(S212)。画面中央に大きめに人物Aが正面顔で存在し、画面右隅に人物Aより小さく人物Bが存在しているとすると、画面上の位置と大きさのいずれからも、人物Aが重要被写体人物と判定される。決定された重要被写体人物の性別と年齢を判定する(S213)。例えば、顔の目鼻口の距離比率から性別と年齢を判定でき、ここでは人物Aが成人女性であると判定したとする。
【0117】
重要被写体人物が発声しているか否かを判別する(S214)。撮影画像上で重要被写体人物の口が動いていて、且つマイク18に音声が入力されている場合、被写体認識部78は、重要被写体人物が発声していると判断する。
【0118】
重要被写体人物が発声している場合(S214)、全体制御部60は、マイク10の指向性を、図19(a)に示す広指向性(又は無指向性)の状態から図19(b)に示す狭指向性の状態に切り替える(S215)。そして、図15(b)に示すように、画像表示部(LCD)6の左上に「騒音低減録音中」を表示する。
【0119】
全体制御部60は、発声周波数帯域データ記憶部90から、重要被写体人物の性別と年齢に応じた音圧レベル低減周波数帯域と低減率を読み出す(S216)。ここでは、重要被写体人物が成人女性であることから、図4に示すように、成人女性の制御データ(低減周波数帯域=10〜200Hzと1700〜24000Hz、低減率=40%)を読み出す。
【0120】
温度センサ100による検出温度及び姿勢センサ98により検出される姿勢に従い、温度補正係数を温度補正係数記憶部94から読み出し、姿勢補正係数を姿勢補正係数記憶部92から読み出す(S217)。例えば、温度センサ100の測定値が32℃の場合、温度補正係数記憶部94から、図6に示すように、低減周波数帯域の補正係数=1.1、低減率の補正係数=0.8を読み出す。そして、姿勢センサ98により検出される現状姿勢が通常姿勢である場合、図5に示すように、低減周波数帯域の補正係数=1、低減率の補正係数=1を読み出す。
【0121】
補正係数に従うフィルタ特性で入力音声をフィルタリングして、騒音を低減する(S218)。そして、図12に示すように、画像表示部22の左上に「騒音低減録音中」を表示して、撮影者に、ズーム騒音分の録音音声補正の開始を通知する。ズームフィルタ処理部84は、マイク18及び音声処理部68を介して入力された被写体の音声の内、周波数帯(10×1.1×1)〜(200×1.1×1)Hzの音声を(40×0.8×1)%の低減率で加工する。また、周波数帯(1700×1.1×1)〜(24000×1.1×1)Hzの音声を(40×0.8×1)%の低減率で加工する。このように加工された音声データが記録媒体72に記録される。
【0122】
ズームボタン24がオフになるか(S217)、又は、重要被写体人物が発声していないときには(S214)、全体制御部60は、ズーム騒音の低減処理を終了する(S219)。
【0123】
シャッタボタン20が再度、全押しされるまで(S220)、以上のステップS1207〜S219を繰り返し実行する。シャッタボタン20が再度、全押しされると(S220)、動画撮影を終了する(S221)。
【0124】
本実施例では、人物被写体の有無と発声の有無により、マイクの指向性と雑音低減のフィルタ特性を制御することで、人物の音声への影響を抑えつつ、撮像装置の発するズーム騒音の影響を軽減できる。
【0125】
ビデオカメラに適用した実施例を説明したが、本発明は、録画済みの動画からの再生音声のノイズ低減にも適用可能である。即ち、再生画像から人物を検出し、その検出結果に従い、上記した実施例と同様の処理を経て、再生音声から騒音を低減する。この場合、撮影時の温度及び姿勢は、撮影画像及び音声に多重して記録され、再生時に分離出力される。画像・音声・姿勢データ・温度データを分離する手段が、画像入力手段、音声入力手段、姿勢情報入力手段及び温度情報入力手段に相当する。
【図面の簡単な説明】
【0126】
【図1】本発明の一実施例の正面図である。
【図2】本実施例の背面図である。
【図3】本実施例の概略構成ブロック図を示す。
【図4】発声周波数帯域データ記憶部90の記憶データ例である。
【図5】姿勢補正係数記憶部92に記憶される姿勢補正係数例である。
【図6】温度補正係数記憶部94に記憶される温度補正係数例である。
【図7】基本騒音波形記憶部96に記憶される基本騒音波形例である。
【図8】男性及び女性の発声音、ズーム騒音、並びにNDフィルタ進退騒音の周波数特性例を示す。
【図9】本実施例の騒音低減処理のフローチャートの一部を示す。
【図10】本実施例の騒音低減処理のフローチャートの一部を示す。
【図11】ステップS6の詳細なフローチャートを示す。
【図12】騒音低減処理中の表示例である。
【図13】入力音声、フィルタ加工量及び加工後の音声の各周波数特性を示す。
【図14】第2実施例の騒音低減処理の変更部分を示すフローチャートである。
【図15】図14に示すフローの動作説明図である。
【図16】基本騒音波形記憶部96に記憶される基本騒音波形に対する温度補正係数表を示す。
【図17】基本騒音波形記憶部96に記憶される基本騒音波形に対する姿勢補正係数表を示す。
【図18】第3実施例の騒音処理の変更部分のフローチャートを示す。
【図19】第4実施例におけるマイク指向性の変化例を示す。
【図20】第4本実施例の、騒音低減処理を含む動画録画動作のフローチャートの一部である。
【図21】第4本実施例の、騒音低減処理を含む動画録画動作のフローチャートの一部である。
【符号の説明】
【0127】
10:撮像装置
12:カメラ本体部
14:レンズ鏡筒
16:フラッシュ
18:マイク(音入力手段)
20:シャッタボタン
22:画像表示部
24:ズームボタン
24a:ワイドボタン
24b:テレボタン
26:電源ボタン
28:モード設定ボタン
30:スピーカ(音出力手段)
32:ズームレンズ群
34:シャッタ機構
36:フォーカスレンズ群
38:NDフィルタ進退機構
40:撮像素子
42:ズームレンズ群駆動回路
44:駆動機構
46:シャッタ駆動回路
48:駆動機構
50:フォーカスレンズ群駆動回路
52:駆動機構
54:NDフィルタ駆動回路
56:駆動機構
60:全体制御部
62:画像処理部
64:画像メモリ
66:VRAM
68:音声処理部
70:入力操作部
72:記録媒体
74:撮像制御部
76:符号化復号化処理部
77:駆動制御部
78:被写体認識部
80:人物自動選択部
82:音声処理制御部
84:ズームフィルタ処理部
86:フォーカスフィルタ処理部
88:NDフィルタ処理部
90:発声周波数帯域データ記憶部
92:姿勢補正係数記憶部
94:温度補正係数記憶部
96:基本騒音波形記憶部
98:姿勢センサ
100:温度センサ

【特許請求の範囲】
【請求項1】
撮像手段と、
音声入力手段と、
ズームレンズ群駆動手段、フォーカスレンズ群駆動手段、NDフィルタ駆動手段及びシャッタ駆動手段の何れかを含む騒音源と、
前記撮像手段により入力される画像から被写体を認識する被写体認識手段と、
前記音声入力手段により入力される音声から前記騒音源からの騒音を低減する騒音低減手段と、
前記被写体認識手段の認識に従い、前記騒音低減手段を制御する制御手段
とを具備することを特徴とする撮像装置。
【請求項2】
前記被写体認識手段が、前記撮像手段により入力される画像中の人物を認識する手段であり、
前記制御手段は、前記被写体認識手段が前記人物を認識している間、人物の発生周波数帯域以外で、前記騒音の帯域を低減するように前記騒音低減手段を制御する
ことを特徴とする請求項1に記載の撮像装置。
【請求項3】
前記被写体認識手段が、前記撮像手段により入力される画像中の人物及びその口の動きを認識する手段であり、
前記制御手段は、前記被写体認識手段が口を動かしている人物を認識している間、前記騒音低減手段を有効にする
ことを特徴とする請求項1又は2に記載の撮像装置。
【請求項4】
更に、性別と年齢ごとの代表的な発声周波数帯域の値を記憶する発声周波数帯域データ記憶手段を具備し、
前記被写体認識手段が、前記撮像手段により入力される画像中の人物並びにその性別と年齢を認識する手段であり、
前記制御手段は、前記被写体認識手段が前記人物を認識している間、前記人物の前記性別と年齢に応じた発生周波数帯域以外で、前記騒音を低減するように前記騒音低減手段を制御する
ことを特徴とする請求項1に記載の撮像装置。
【請求項5】
更に、性別と年齢ごとの代表な発声周波数帯域の値を記憶する発声周波数帯域データ記憶手段を具備し、
前記被写体認識手段が、前記撮像手段により入力される画像中の人物並びにその性別と年齢を認識すると共に、認識された人物から重要被写体人物を決定する手段であり、
前記制御手段は、前記被写体認識手段が前記人物を認識している間、前記重要被写体人物の前記性別と年齢に応じた発生周波数帯域以外で、前記騒音を低減するように前記騒音低減手段を制御する
ことを特徴とする請求項1に記載の撮像装置。
【請求項6】
更に、騒音源の発生する騒音基本波形を記憶する基本騒音波形記憶部を具備し、
前記騒音低減手段は、前記音声入力手段からの音声信号から前記基本騒音波形記憶部からの前記騒音基本波形を減算する手段である
ことを特徴とする請求項1に記載の撮像装置。
【請求項7】
更に、温度センサを具備し、
前記制御手段は、前記温度センサからの温度情報に従い、前記騒音低減手段の騒音低減特性を補正する
ことを特徴とする請求項1乃至6の何れか1項に記載の撮像装置。
【請求項8】
更に、姿勢センサを具備し、
前記制御手段は、前記姿勢センサからの姿勢情報に従い、前記騒音低減手段の騒音低減特性を補正する
ことを特徴とする請求項1乃至7の何れか1項に記載の撮像装置。
【請求項9】
撮像手段と、
音声入力手段と、
ズームレンズ群駆動手段、フォーカスレンズ群駆動手段、NDフィルタ駆動手段及びシャッタ駆動手段の何れかを含む騒音源
とを有する撮像装置において、
前記撮像手段により入力される画像から被写体を認識する被写体認識ステップと、
前記音声入力手段により入力される音声から、前記被写体認識ステップでの認識に従う騒音低減特性で前記騒音源からの騒音を低減する騒音低減ステップ
とを具備することを特徴とする撮像装置の音声処理方法。
【請求項10】
前記被写体認識ステップが、前記撮像手段により入力される画像中の人物を認識するステップであり、
前記騒音低減ステップは、前記撮像手段により入力される画像中に前記人物が認識される間、人物の発生周波数帯域以外で、前記騒音源からの前記騒音の帯域を低減する
ことを特徴とする請求項9に記載の撮像装置の音声処理方法。
【請求項11】
前記被写体認識ステップが、前記撮像手段により入力される画像中の人物及びその口の動きを認識するステップであり、
前記騒音低減ステップは、前記撮像手段により入力される画像中の人物が口を動かしている間、前記音声入力手段により入力される音声から前記騒音源からの前記騒音を低減する
ことを特徴とする請求項9又は10に記載の撮像装置の音声処理方法。
【請求項12】
前記被写体認識ステップが、
前記撮像手段により入力される画像中の人物を認識するステップと、
認識された人物の性別及び年齢を認識するステップ
とを具備し、
前記騒音低減ステップは、
前記被写体認識ステップで認識された人物の性別と年齢に対応する発生周波数帯域データを、性別と年齢ごとの代表的な発声周波数帯域の値を記憶する発声周波数帯域データ記憶手段から読み出し、
前記人物の前記性別と年齢に応じた発生周波数帯域以外で、前記騒音を低減する
ことを特徴とする請求項9に記載の撮像装置の音声処理方法。
【請求項13】
前記被写体認識ステップが、
前記撮像手段により入力される画像中の人物を認識するステップと、
認識された人物から重要被写体人物を決定するステップと、
前記重要被写体人物の性別及び年齢を認識するステップ
とを具備し、
前記騒音低減ステップは、
前記被写体認識ステップで認識された前記重要被写体人物の性別と年齢に対応する発生周波数帯域データを、性別と年齢ごとの代表的な発声周波数帯域の値を記憶する発声周波数帯域データ記憶手段から読み出し、
前記重要被写体人物の前記性別と年齢に応じた発生周波数帯域以外で、前記騒音の帯域を低減する
ことを特徴とする請求項9に記載の撮像装置の音声処理方法。
【請求項14】
前記騒音低減ステップは、前記騒音源の発生する騒音基本波形を記憶する基本騒音波形記憶部から前記騒音基本波形を読み出すステップと、
前記音声入力手段からの音声信号から前記基本騒音波形記憶部から読み出した前記騒音基本波形を減算するステップ
とを具備することを特徴とする請求項9に記載の撮像装置の音声処理方法。
【請求項15】
更に、温度情報を入力するステップを具備し、
前記騒音低減ステップは、前記温度情報に従って補正された騒音低減特性で前記騒音を低減する
ことを特徴とする請求項9乃至14の何れか1項に記載の撮像装置の音声処理方法。
【請求項16】
更に、前記撮像装置の姿勢情報を入力するステップを具備し、
前記騒音低減ステップは、前記姿勢情報に従って補正された騒音低減特性で前記騒音を低減する
ことを特徴とする請求項9乃至15の何れか1項に記載の撮像装置の音声処理方法。
【請求項17】
画像入力手段と、
音声入力手段と、
前記画像入力手段により入力される画像から被写体を認識する被写体認識手段と、
前記音声入力手段により入力される音声から騒音を低減する騒音低減手段と、
前記被写体認識手段の認識に従い、前記騒音低減手段を制御する制御手段
とを具備することを特徴とする音声処理装置。
【請求項18】
前記被写体認識手段が、前記画像入力手段により入力される画像中の人物を認識する手段であり、
前記制御手段は、前記被写体認識手段が前記人物を認識している間、人物の発生周波数帯域以外で、前記騒音の帯域を低減するように前記騒音低減手段を制御する
ことを特徴とする請求項17に記載の音声処理装置。
【請求項19】
前記被写体認識手段が、前記画像入力手段により入力される画像中の人物及びその口の動きを認識する手段であり、
前記制御手段は、前記被写体認識手段が口を動かしている人物を認識している間、前記騒音低減手段を有効化する
ことを特徴とする請求項17又は18に記載の音声処理装置。
【請求項20】
更に、性別と年齢ごとの代表的な発声周波数帯域の値を記憶する発声周波数帯域データ記憶手段を具備し、
前記被写体認識手段が、前記画像入力手段により入力される画像中の人物並びにその性別と年齢を認識する手段であり、
前記制御手段は、前記被写体認識手段が前記人物を認識している間、前記人物の前記性別と年齢に応じた発生周波数帯域以外で、前記騒音の帯域を低減するように前記騒音低減手段を制御する
ことを特徴とする請求項17に記載の音声処理装置。
【請求項21】
更に、性別と年齢ごとの代表的な発声周波数帯域の値を記憶する発声周波数帯域データ記憶手段を具備し、
前記被写体認識手段が、前記画像入力手段により入力される画像中の人物並びにその性別と年齢を認識すると共に、認識された人物から重要被写体人物を決定する手段であり、
前記制御手段は、前記被写体認識手段が前記人物を認識している間、前記重要被写体人物の前記性別と年齢に応じた発生周波数帯域以外で、前記騒音の帯域を低減するように前記騒音低減手段を制御する
ことを特徴とする請求項17に記載の音声処理装置。
【請求項22】
更に、騒音源の発生する騒音基本波形を記憶する基本騒音波形記憶部を具備し、
前記騒音低減手段は、前記音声入力手段からの音声信号から前記基本騒音波形記憶部からの前記騒音基本波形を減算する手段である
ことを特徴とする請求項17に記載の音声処理装置。
【請求項23】
更に、前記音声入力手段により入力される音声の記録の際の温度情報を入力する温度情報入力手段を具備し、
前記制御手段は、前記温度情報入力手段からの前記温度情報に従い、前記騒音低減手段の騒音低減特性を補正する
ことを特徴とする請求項17乃至22の何れか1項に記載の音声処理装置。
【請求項24】
前記画像入力手段により入力される画像の撮影時の姿勢情報を入力する姿勢情報入力手段を具備し、
前記制御手段は、前記姿勢情報入力手段からの前記姿勢情報に従い、前記騒音低減手段の騒音低減特性を補正する
ことを特徴とする請求項17乃至23の何れか1項に記載の音声処理装置。
【請求項25】
前記音声処理装置が撮像装置に組み込まれており、前記騒音の源として、ズームレンズ群駆動手段、フォーカスレンズ群駆動手段、NDフィルタ駆動手段及びシャッタ駆動手段の何れかを含む請求項17乃至24の何れか1項に記載の音声処理装置。
【請求項26】
画像を入力する画像入力ステップと、
音声を入力する音声入力ステップと、
前記画像入力ステップにより入力される画像から被写体を認識する被写体認識ステップと、
前記音声入力ステップにより入力される音声から、前記被写体認識ステップの認識に従う騒音低減特性で騒音を低減する騒音低減ステップ
とを具備することを特徴とする音声処理方法。
【請求項27】
前記被写体認識ステップが、前記画像入力ステップにより入力される画像中の人物を認識するステップであり、
前記騒音低減ステップは、前記被写体認識ステップにより前記人物が認識される間、前記人物の発生周波数帯域以外で、前記騒音の帯域を低減する
ことを特徴とする請求項26に記載の音声処理方法。
【請求項28】
前記被写体認識ステップが、前記画像入力ステップにより入力される画像中の人物及びその口の動きを認識するステップであり、
前記騒音低減ステップは、口を動かしている人物が認識されている間、前記騒音を低減する
ことを特徴とする請求項26又は27に記載の音声処理方法。
【請求項29】
前記被写体認識ステップが、
前記画像入力ステップにより入力される画像中の人物を認識するステップと、
認識された人物の性別及び年齢を認識するステップ
とを具備し、
前記騒音低減ステップは、
前記被写体認識ステップで認識された人物の性別と年齢に対応する発生周波数帯域データを、性別と年齢ごとの代表的な発声周波数帯域の値を記憶する発声周波数帯域データ記憶手段から読み出し、
前記人物の前記性別と年齢に応じた発生周波数帯域以外で、前記騒音を低減する
ことを特徴とする請求項26に記載の音声処理方法。
【請求項30】
前記被写体認識ステップが、
前記画像入力ステップにより入力される画像中の人物を認識するステップと、
認識された人物から重要被写体人物を決定するステップと、
前記重要被写体人物の性別及び年齢を認識するステップ
とを具備し、
前記騒音低減ステップは、
前記被写体認識ステップで認識された前記重要被写体人物の性別と年齢に対応する発生周波数帯域データを、性別と年齢ごとの代表的な発声周波数帯域の値を記憶する発声周波数帯域データ記憶手段から読み出し、
前記重要被写体人物の前記性別と年齢に応じた発生周波数帯域以外で、前記騒音を低減する
ことを特徴とする請求項26に記載の音声処理方法。
【請求項31】
前記騒音低減ステップは、
騒音源ごとの騒音基本波形を記憶する基本騒音波形記憶部から前記騒音基本波形を読み出すステップと、
前記音声入力ステップにより入力される音声信号から前記基本騒音波形記憶部から読み出した前記騒音基本波形を減算するステップ
とを具備することを特徴とする請求項26に記載の音声処理方法。
【請求項32】
更に、温度情報を入力するステップを具備し、
前記騒音低減ステップは、前記温度情報に従って補正された騒音低減特性で前記騒音を低減する
ことを特徴とする請求項26乃至31の何れか1項に記載の音声処理方法。
【請求項33】
更に、録音の際の姿勢情報を入力するステップを具備し、
前記騒音低減ステップは、前記姿勢情報に従って補正された騒音低減特性で前記騒音を低減する
ことを特徴とする請求項26乃至32の何れか1項に記載の音声処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2010−135876(P2010−135876A)
【公開日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願番号】特願2008−307088(P2008−307088)
【出願日】平成20年12月2日(2008.12.2)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】