説明

音声信号処理装置、及びその制御方法

【課題】音声に含まれる雑音をスペクトル減算により低減する際に、必要以上に多くのスペクトルを減算してしまう可能性を低減する。
【解決手段】複数の駆動部を備える音声信号処理装置であって、前記音声信号処理装置の周囲の音声から音声信号を生成する生成手段と、前記音声信号に含まれる前記複数の駆動部の動作に伴う駆動音を低減するために、前記音声信号の周波数スペクトルに対してスペクトル減算を適用する減算手段と、を備え、前記減算手段は、前記複数の駆動部が同時に動作している場合、周波数毎に、前記音声信号の周波数成分から、前記複数の駆動部それぞれの動作に伴う複数の駆動音それぞれの周波数成分の最大値を減算することを特徴とする音声信号処理装置を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号処理装置、及びその制御方法に関する。
【背景技術】
【0002】
近年、音声信号処理装置として、カメラ等の動画撮影可能な撮影装置が知られている。このような撮影装置を用いて音声付の動画を撮影する場合、撮影装置内部の駆動部の駆動による駆動音(雑音)の影響を抑制することが望まれる。
【0003】
駆動音の影響を抑制する技術として、特許文献1が知られている。特許文献1には、撮影操作に伴って発生する駆動雑音をスペクトル減算によって除去する方法が開示されている。特許文献1の方法によれば、複数の駆動部が同時に駆動される場合、マイクロフォンから入力された音声のスペクトルから、各駆動部の駆動音を表す予め得られた各スペクトルが減算される。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−279185号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、各駆動部の駆動音の位相は必ずしも一致しておらず、各駆動音が相互に干渉して打ち消しあう場合もある。従って、各駆動部の駆動音を表す各スペクトルを単純に減算した場合、マイクロフォンから入力された音声のスペクトルから必要以上に多くのスペクトルを減算してしまい、音声に歪みが生じる可能性がある。
【0006】
本発明はこのような状況に鑑みてなされたものであり、音声に含まれる雑音をスペクトル減算により低減する際に、必要以上に多くのスペクトルを減算してしまう可能性を低減することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、第1の本発明は、複数の駆動部を備える音声信号処理装置であって、前記音声信号処理装置の周囲の音声から音声信号を生成する生成手段と、前記音声信号に含まれる前記複数の駆動部の動作に伴う駆動音を低減するために、前記音声信号の周波数スペクトルに対してスペクトル減算を適用する減算手段と、を備え、前記減算手段は、前記複数の駆動部が同時に動作している場合、周波数毎に、前記音声信号の周波数成分から、前記複数の駆動部それぞれの動作に伴う複数の駆動音それぞれの周波数成分の最大値を減算することを特徴とする音声信号処理装置を提供する。
【0008】
なお、その他の本発明の特徴は、添付図面及び以下の発明を実施するための形態における記載によって更に明らかになるものである。
【発明の効果】
【0009】
以上の構成により、本発明によれば、音声に含まれる雑音をスペクトル減算により低減する際に、必要以上に多くのスペクトルを減算してしまう可能性を低減することが可能となる。
【図面の簡単な説明】
【0010】
【図1】(a)は本発明の音声信号処理装置の一例である、レンズ2を装着した撮影装置1の斜視図、(b)は撮影装置1及びレンズ2の断面図である。
【図2】撮影装置1及びレンズ2の電気的構成を示すブロック図である。
【図3】音声処理回路26の詳細な構成を示すブロック図である。
【図4】雑音処理部44の詳細な構成を示すブロック図である。
【図5】撮影装置1の動作シーケンス図である。
【図6】駆動音の、ある周波数成分を抜き出した波形を模式的に示す図であり、(a)は2つの駆動音の位相が揃っている場合を示し、(b)は2つの駆動音の位相がずれている場合を示す図である。
【図7】撮影装置1のマイク7が生成する音声信号のスペクトルの模式図である。
【図8】複数の駆動音間のゲイン比と合成波のゲインとの関係を示す図である。
【図9】2つの駆動音の合成スペクトルの模式図であり、(a)は単純な加算により合成スペクトルを生成する場合を、(b)は数5に従って合成スペクトルを得る場合を、(c)は2つの駆動音の周波数成分のうちの大きいほうを合成スペクトルとする場合を示す図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して、本発明の実施形態を説明する。なお、本発明の技術的範囲は、特許請求の範囲によって確定されるのであって、以下の個別の実施形態によって限定されるわけではない。また、実施形態の中で説明されている特徴の組み合わせすべてが、本発明に必須とは限らない。
【0012】
[第1の実施形態]
図1(a)は、本発明の音声信号処理装置の一例である、レンズ2を装着した撮影装置1の斜視図である。撮影装置1はマイク7(図1(b)参照)を備えており、画像の取得と同時に、音声を取得して記録することができる。図1(a)において、4はレンズ2の光軸を、30はレリーズ釦を、31は操作釦を、32はマイク7のための開口部を、それぞれ示す。
【0013】
図1(b)は、撮影装置1及びレンズ2の断面図である。図1(b)において、図1(a)と同一又は同様の構成要素には同一の符号を付し、説明を省略する。図1(b)において、3は撮影光学系を、5はレンズ鏡筒を、6は撮影光学系3からの入射光を光電変換して画像データを生成する撮像手段としての撮像素子を、7はマイクを、8は撮影装置1の背面に設けられた表示装置を、それぞれ示す。また、9は撮影光学系3の調整のための駆動部を、10は撮影装置1とレンズ2とを接続する接点を、11は所謂クイックリターンミラー機構を、12はAFセンサを含む焦点検出部を、14はブレセンサを、それぞれ示す。ブレセンサ14は、例えば、加速度センサなどからなり、本実施例では、ユーザの手のブレによってカメラが振動するのを検知するため、ブレセンサ14と呼称する。
【0014】
撮影装置1には、図1(a)に示したように複数のマイクの開口部32が、図1(b)の断面には投影されない箇所に設けられている。しかしながら、マイク7と開口部32の存在を明確にするために、図1(b)においてはこれらを模式的に示している。
【0015】
ここで、静止画の撮影動作について説明する。撮影装置1は、レンズ2、焦点検出部12、及び露出検出部(不図示)を用いて、焦点検出及び露出検出を行う。撮影装置1はまた、撮影光学系3の一部を駆動して、撮影光学系3の調整によって像を撮像素子6の近傍に結像させる。撮影装置1は更に、適正な露光になるように絞りを動作させる。詳細な動作は図2のブロック図を参照して後述。撮影装置1は更に、ユーザによる操作釦31等の操作に従って撮影の各種条件設定を行い、レリーズ釦30の操作と同期させて撮像素子6より被写体の情報を得て、メモリ24(図2参照)へ記録を行う。
【0016】
次に動画の撮影動作について説明する。動画の撮影に先立って、ライブビュー釦(不図示)を押すことにより、撮像素子6の画像が表示装置8に表示される。なお、撮像素子6で取得した画像を、表示装置8にリアルタイムで表示することを「ライブビュー」と呼ぶ。撮影装置1は動画撮影釦(不図示)の操作と同期させて、撮像素子6より被写体の情報を設定されたフレームレートで得ると共に、マイク7から音声信号を得て、これらを同期させてメモリ24へ記録を行う。動画撮影中に撮影光学系3の調整が必要となった場合、撮影装置1は適宜、駆動部9を用いて撮影光学系3の調整を行う。撮影装置1は、動画撮影釦の操作と同期させて撮影を終了する。また、撮影装置1は、動画撮影中においても、レリーズ釦30を操作することでいつでも静止画撮影が可能である。
【0017】
図2は、撮影装置1及びレンズ2の電気的構成を示すブロック図である。レンズ2を装着した撮影装置1は、撮像系、画像処理系、音声処理系、記録再生系、及び制御系を有する。撮像系は、撮影光学系3及び撮像素子6を含み、画像処理系は、A/D変換器20及び画像処理回路21を含み、音声処理系は、マイク7及び音声処理回路26を含み、記録再生系は、記録処理回路23及びメモリ24を含む。制御系は、カメラシステム制御回路25、AFセンサ含む焦点検出部12、AEセンサ含む露出検出部13、ブレセンサ14、操作検出回路27、レンズシステム制御回路28、レリーズ釦30、及び駆動部9を含む。駆動部9は、焦点レンズ駆動部9a、ブレ補正駆動部9b、及び絞り駆動部9cを含み、それぞれ、レンズ2に含まれる焦点レンズ、ブレ補正レンズ、及び絞りを駆動する。ブレ補正駆動部9bは、ブレセンサ14により検出された撮像装置1の振動によって、光学像がぶれないように、レンズを移動させる駆動を行う。
【0018】
駆動部の例として焦点レンズ駆動部9a、ブレ補正駆動部9b、及び絞り駆動部9cを挙げたが、本実施形態はこれに限定されない。本発明の音声信号処理装置としての、レンズ2を装着した撮影装置1は、どのような駆動部であれ、複数の駆動部を備えればよい。
【0019】
撮像系は、物体からの光を、撮影光学系3を介して撮像素子6の撮像面に結像する光学処理系である。エイミングなどの撮影予備動作中は、クイックリターンミラー機構11に設けられたミラーを介して、焦点検出部12にも光束の一部が導かれる。また、後述するように制御系によって適切に撮影光学系3が調整されることで、適切な光量の物体光を撮像素子6に露光するとともに、撮像素子6の近傍で被写体像が結像する。
【0020】
画像処理回路21は、A/D変換器20を介して撮像素子6から受けた画像データを処理する信号処理回路であり、ホワイトバランス回路、ガンマ補正回路、補間演算による高解像度化を行う補間演算回路などを有する。
【0021】
音声処理系は、マイク7が生成した音声信号に対して音声処理回路26によって適切な処理を施して録音用音声信号を生成する。録音用音声信号は、動画撮影時においては、後述する記録処理部により画像とリンクして圧縮処理される。
【0022】
記録処理回路23は、メモリ24への画像データの出力を行うと共に、表示部22に出力する像を生成、保存する。また、記録処理回路23は、予め定められた方法を用いて画像、動画、音声などの圧縮を行う。
【0023】
カメラシステム制御回路25は、撮像の際のタイミング信号などを生成して出力する。焦点検出部12は、撮影装置1のピント状態を検出する。露出検出部13は、撮像素子6の信号を処理することで被写体の輝度を検出する。レンズシステム制御回路28は、カメラシステム制御回路25の信号に応じて適切にレンズ2を駆動させて撮影光学系3の調整を行う。
【0024】
また、制御系は、外部操作に応答して撮像系、画像処理系、及び記録再生系をそれぞれ制御する。例えば、静止画撮影においては、レリーズ釦30の押下を操作検出回路27が検出して、撮像素子6の駆動、画像処理回路21の動作、記録処理回路23の圧縮処理などを制御する。また、表示部22によって光学ファインダー、液晶モニタ等に情報表示を行う情報表示装置の各セグメントの状態を制御する。
【0025】
制御系による撮影光学系3の調整動作について説明する。カメラシステム制御回路25には焦点検出部12及び露出検出部13が接続されており、静止画撮影においてはこれらの信号を元に適切な焦点位置及び絞り位置を求める。カメラシステム制御回路25は、電気接点10を介してレンズシステム制御回路28に指令を出し、レンズシステム制御回路28は、焦点レンズ駆動部9a及び絞り駆動部9cを適切に制御する。一方、動画撮影においては、カメラシステム制御回路25は、焦点レンズ駆動部9aにより、焦点レンズを微動させると共に、撮像素子6の信号を解析し、信号のコントラストから焦点位置を求める。更に、カメラシステム制御回路25は、撮像素子6の信号レベルから絞り位置を求める。
【0026】
また、レンズシステム制御回路28にはブレセンサ14が接続されており、静止画撮影において手ぶれ補正を行うモードでは、ブレセンサ14の信号を元にブレ補正駆動部9bを適切に制御する。一方、動画撮影において手ぶれ補正を行うモードでは、静止画撮影と同様にブレ補正駆動部9bを駆動することも可能であるし、ブレセンサ14の信号を元に撮像素子6の読み出し位置を変更する所謂電子防振を行うことも可能である。
【0027】
ここで、動画撮影などの音声記録を伴う撮影について考える。音声記録を伴う撮影においては、撮影装置1及びレンズ2のアクチュエータ駆動に伴う音(以下「メカ駆動音」)は不要な音であり雑音となる。本明細書において「雑音」とは、ホワイトノイズのような背景雑音ではなく、この「メカ駆動音」を指す。
【0028】
図3は、音声処理回路26の詳細な構成を示すブロック図である。図3において、図2と同一又は同様の構成要素には同一の符号を付し、説明を省略する。図3において、41はゲイン調整部を、42はフィルタを、43はA/D変換器を、44は雑音処理部を、45はフィルタを、それぞれ示す。
【0029】
マイク7は、撮影装置1の周囲の音声から音声信号を生成し、生成された音声信号はゲイン調整部41に供給される。ゲイン調整部41は、A/D変換器43のダイナミックレンジが十分に活用できるようにマイク7の信号レベルを調整する。つまり、マイク7の信号レベルが小さいときはゲインアップして信号を増幅し、マイク7の信号レベルが大きいときはゲインを下げて飽和を防ぐ。フィルタ42はA/D変換器43のサンプリング周波数を考慮した適切なカットオフ周波数を持つ低域通過フィルタなどで構成される。マイク7が特定の周波数を発する素子の近傍にある場合などは、フィルタ42は、低域通過フィルタに加えて適当なノッチフィルタを含む場合もある。A/D変換器43は、ゲイン調整部41及びフィルタ42で処理されたアナログ信号をデジタル信号に変換する。
【0030】
雑音処理部44は、減算手段として機能し、音声信号に対してスペクトル減算法(SS法)によるスペクトル減算処理(SS処理)を適用する。SSは、Spectral Subtractionの省略形である。
【0031】
ここで、SS処理について説明する。予め雑音スペクトル(本明細書では、雑音をフーリエ変換するなどして得たスペクトルを雑音スペクトルと呼ぶ)を用意しておき、取得した音声信号のスペクトルから雑音スペクトルを減算する。本実施形態では、雑音スペクトルは、予め同定して撮影装置1内のメモリ24などの記憶手段に記憶されているものとする。なお、本明細書において、特に断らない限り、「スペクトル」は「周波数スペクトル」を意味する。
【0032】
SS法は、雑音が加算的に被写体音に混入していると仮定しており、これを式で表すと
【0033】
【数1】

【0034】
となる。但し、x(t)は取得した音声を、s(t)は被写体音を、n(t)は雑音を、tは時間を、それぞれ示す。数1をフーリエ変換すると、
【0035】
【数2】

【0036】
となる。但し、X(ω)、S(ω)、N(ω)はそれぞれ、x(t)、s(t)、n(t)をフーリエ変換したものであり、ωは周波数である。撮影装置1においては、適当な窓関数を適用して音声信号をフレーム分割して、順次処理を行うが、ここでは説明の簡潔化のために、特定のフレームに着目して説明を行う。数2を見ると明らかなように、S(ω)を求めるにはX(ω)からN(ω)を減算すればよい。そこで、次式が与えられる。
【0037】
【数3】

【0038】
但し、N’(ω)はN(ω)の推定値、S’(ω)はN’(ω)を用いて求めたS(ω)の推定値、βはフロアリング係数である。∠は複素数の偏角を求める演算を示している。数3から分かるように、スペクトルは予め与えられた雑音スペクトルを利用して減算するが、位相についてはX(ω)の値をそのまま用いる。また、フロアリング係数βはSS法による音声のひずみを抑制するために導入される係数である(オリジナルのSS法ではβ=0である)。数3で示したようにSS法においては、雑音は加算的に作用していると仮定している。しかしながら、実際には位相が反転して加算された結果、音声信号の中で複数の雑音が相互に弱めあっている場合も有る。このため、X(ω)からN’(ω)を減算した値が負になることがある。そこで、SS法ではβよりも小さいときはβとなる様に処理する。
【0039】
最後に、S’(ω)を逆フーリエ変換してs’(t)を得てこれをSS処理後の音声とする。
【0040】
SS法を適当に実施するためには、事前に推定された雑音スペクトルが、実際に取得された雑音と近いことが重要である。雑音スペクトルが適切ではない場合には、過小減算や過剰減算という結果になる。過小減算の場合、雑音の除去が不十分となる。一方、過剰減算の場合には、スペクトル領域で孤立峰が多く見られ、所謂ミュージカルノイズといわれる耳障りな雑音が発生する。
【0041】
以上に説明したSS処理を図4に模式的に示した。図4において、図2と同一又は同様の構成要素には同一の符号を付し、説明を省略する。図4において、FFT44aは窓関数処理を含めた高速フーリエ変換処理を、IFFT44cは高速逆フーリエ変換処理を、S’(ω)推定44bは数3の処理を、それぞれ示している。図4からも明らかなように、SS法は単一チャンネル信号(モノラル音声)にも適用可能な手法である。一方で、事前に何らかの方法でN’(ω)を与える必要がある。図4の例では、雑音スペクトル生成部44dが推定雑音スペクトルN’(ω)を生成する。
【0042】
カメラシステム制御回路25がメモリ24から事前推定された雑音スペクトルを取得し、雑音スペクトル生成部44d内の一時記憶部44fに記憶する。雑音スペクトル生成部44dは、カメラシステム制御回路25の制御信号に従い、適当に雑音スペクトルの選択や合成(スペクトル合成部44eを利用する)を行って、推定雑音スペクトルN’(ω)を生成する。以下、推定雑音スペクトルN’(ω)を生成の生成処理について、撮影装置1の動作と併せて詳述する。
【0043】
カメラシステム制御回路25は、撮影装置1にレンズ2が装着されたとき、又は電源が投入されたときに、レンズ2内の駆動部9に対応した雑音スペクトルをメモリ24から取得し雑音スペクトル生成部44dに与える。図2に示した例では、焦点レンズ駆動部9a、ブレ補正駆動部9b、及び絞り駆動部9cそれぞれの雑音スペクトルが雑音スペクトル生成部44dに供給される。雑音スペクトル生成部44dは、供給された雑音スペクトルを、一時記憶部44fに格納する。
【0044】
次に、動画撮影前及び撮影中のユーザ操作、及び撮影装置1の内部での処理について、図5を参照して説明する。動画撮影を行う際には、ユーザは、前述したように不図示のライブビュー釦を押下した後に動画撮影釦を操作する。このとき、カメラシステム制御回路25は、ブレ補正開始を指示するとともに、ピント調整動作を行う。また、動画撮影中にも、ユーザによる適当な操作により、ピント調整動作を再度行うことができる。例えば、レリーズ釦30を半押し(レリーズ釦30は2段階のプッシュスイッチであり、その1段階目まで押し込むことを「半押し」と呼ぶ)することで、ピント調整動作が行われる。このときのユーザ操作、ブレ補正駆動、フォーカス駆動の各シーケンスを図5に示した。図5の横軸は時間であり、縦軸は各シーケンスの状態を示している。図5において、t1は、ピント調整動作のためにフォーカス駆動が行われる時間を示している。
【0045】
動画撮影中に、雑音処理部44は、各駆動部の駆動状態をカメラシステム制御回路25から受け取って、図5に示すような雑音処理を行う。即ち、ブレ補正駆動のみが行われているときは、雑音処理部44は、ブレ補正駆動部9bの動作に伴う雑音(駆動音)のみを処理する。一方、ブレ補正駆動とフォーカス駆動とが同時に行われるとき(即ち、複数の駆動部が同時に動作しているとき)には、雑音処理部44は、ブレ補正駆動部9bの動作に伴う雑音及び焦点レンズ駆動部9aの動作に伴う雑音を併せて処理する。このように、レンズ2を装着した撮影装置1においては、単一の駆動部(雑音源)が動作したり、複数の駆動部(雑音源)が同時に動作したりする。
【0046】
複数の駆動部が同時に動作している時の駆動音の波形を考える。図6は、駆動音の、ある周波数成分を抜き出した波形を模式的に示す図である。図6において、横軸は時間、縦軸は音圧(音の大きさ)である。図6(a)は位相が揃っている場合を示す図であり、図6(b)は適当な量位相がずれている場合を示す図である。図6において、G1は駆動部1によって発生する音圧の片側振幅を、G2は駆動部2よって発生する音圧の片側振幅を、Gsは駆動部1と駆動部2の合成波形の片側振幅を、それぞれ示す。図6(a)から分かるように、駆動部1と駆動部2の位相が一致した場合には、波は強めあい、Gs=G1+G2が成り立つ。このときは、従来技術のスペクトル減算によって駆動音を除去することができる。しかしながら、一般的には各周波数成分において、駆動部1と駆動部2の位相が一致するのは非常に稀な事例となる。多くの場合は、ある周波数成分に着目した場合、駆動部1と駆動部2の位相にはずれがあり、図6(b)の様になる。つまりGs<G1+G2が一般的な状態である。
【0047】
図7は、撮影装置1のマイク7が生成する音声信号のスペクトルの模式図である。駆動部1を焦点レンズ駆動部9aとして、駆動部2をブレ補正駆動部9bとして、図7を説明する。特定の周波数f1に注目すると、焦点レンズ駆動部9aの駆動音とブレ補正駆動部9bの駆動音との位相が一致している場合、周波数f1における周波数成分Saから(G1+G2)を減算することにより、雑音を除いた成分S1が得られる。しかしながら、焦点レンズ駆動部9aの駆動音とブレ補正駆動部9bの駆動音との位相がずれている場合、Saに含まれる駆動音の実際の成分Gs’は、Gs’<G1+G2となる。従って、雑音を除いた実際の音声成分をS1’とすると、Saから(G1+G2)を減算した場合、(S1’−S1)分の過剰減算が発生する。このような過剰減算を防止するには、次式に従って真のGs(図7ではGs’と表記)を算出する必要がある。
【0048】
【数4】

【0049】
ここで、θは駆動部1(焦点レンズ駆動部9a)と駆動部2(ブレ補正駆動部9b)の位相差である。数4から明らかなように、θ=0の時は前述したようにGs=G1+G2が成り立つ。またθ=πの時はGs=|G1−G2|となる。一般的にはこれらの間になっている。前述したように、レンズ2を装着した撮影装置1の駆動部9が発生する駆動音の情報は事前に知られているので、数4のG1及びG2は既知である。そのため、Gsを求めるためにはθが分かればよい。
【0050】
しかしながら、θを取得することは困難なので、数4の期待値を利用する。例えば以下の式を計算すればよい。
【0051】
【数5】

【0052】
これにより、複数の駆動音の時間領域における合成信号の片側振幅Gsは、複数の駆動音間の位相差に関する期待値として得られる。
【0053】
撮影装置1の雑音スペクトル生成部44dは、周波数毎に、数5を解くことに期待値Gsを取得する(他のコンピュータ等で事前に算出してメモリ24等に格納しておいてもよい)。そして、S’(ω)推定44bにおいて、周波数毎に、マイク7が生成した音声信号の周波数成分から期待値Gsが減算される。これにより、雑音を低減しつつも必要以上に多くのスペクトルを減算してしまう可能性を低減することができる。
【0054】
また、期待値Gsを求めるために、ルックアップテーブルを利用することもできる。具体的な方法について図8を用いて説明する。図8は、G1、G2のうち大きいほうのゲインを1としたときに、G1とG2の比によってGsがどのように変化をするかを示す図である。図8の横軸は、G1,G2のうち大きいほうを1としたときの、小さいほうのゲインである。図8の縦軸は、そのときのG1に対するGsの比(=Gs/G1)である。
【0055】
即ち、図8のルックアップテーブルは、複数の駆動音それぞれの周波数成分間の比率を入力(横軸)とし、最大の周波数成分に対する期待値Gsの倍率を出力(縦軸)とする。出力である倍率を事前に算出することにより、このルックアップテーブルが生成される。
【0056】
期待値Gsを求めるためには、例えば、G1>G2の場合にはG2/G1を求める。この時のG1に対するGsの比を図8のグラフから読み取る。Gs=G1*(Gs/G1)なので、G1に対して、所定の倍率(図8から読み取った倍率)を乗じることにより、期待値Gsが求められる。このようにすれば、計算量を削減して期待値Gsを求めることができる。
【0057】
さらに別の方法としては、GsはG1とG2の大きいほうのみ(即ち、複数の駆動音それぞれの周波数成分の最大値)を音声信号の周波数成分から減算してもよい。式で表すと
【0058】
【数6】

【0059】
である。但し、数6でmax()は最大値を選択する演算子である。数6は数4においてG1>>G2又はG1<<G2の場合の近似となっている。駆動部1及び駆動部2から発生する駆動音は一般的には、ホワイトノイズのようなものではなく特定の周波数にピークを持つようなスペクトルを持っている。また、このピークの部分が雑音として大きな割合を占めているのでこの部分を精密に近似したい。駆動部1と駆動部2のピークとそのゲインが一致しない限りピークの部分ではG1>>G2又はG1<<G2が成り立つ。このため、数6は駆動部1と駆動部2の駆動音の合成波形の良い近似になる。数6の計算は前述のルックアップテーブルを利用する方法の変形とみなすこともできる。即ち、G1及びG2の大きい方に対するGsの比を常に1としている場合に等しい。常に1とするために特別な記憶部は必要ない。最大値を利用する場合、ルックアップテーブルを利用する場合に比べて、撮影装置1のメモリ使用量を削減することができ、数5の演算を行う場合に比べて、演算リソースの消費を削減することができる。
【0060】
本発明の効果について、図9を用いて説明する。図9において横軸は周波数(単位はヘルツで対数軸となっている)、縦軸はゲイン(単位はデシベル)である。図9(a)はスペクトル領域での単純な加算を利用して雑音を合成した例を、図9(b)は数5によって雑音を合成した例を、図9(c)は数6によって雑音を合成した例を、それそれ示す。詳細なルックアップテーブルを利用する場合も、図9(b)のようになる。また、ルックアップテーブルの記憶容量を減らして粗くした場合には図9(b)と図9(c)の間程度の結果が得られる(数6のように最大値のみを使って処理するのはルックアップテーブルの出力を全て1とした場合に等しいためである)。
【0061】
前述したように、駆動部1と駆動部2の位相差が不明な場合は、数5で合成雑音を生成するのが適当と思われる。そのため、図9(b)に示した合成された雑音のスペクトルが適当といえる。その結果、適当なSS処理が施され高品位の音声を得ることが出来る。
【0062】
図9(a)に示したスペクトル領域での加算を用いて雑音スペクトルを見積もった例では、合成された雑音のスペクトルが過剰に見積もられている。その結果、SS処理において被写体音から過剰な減算が行われミュージカルノイズなどが発生する可能性がある。
【0063】
一方で、図9(c)に示した最大値を用いて雑音スペクトルを見積もった例では、図9(b)に近い結果が得られており、適当に雑音が処理されることが期待される。特に雑音が大きな音圧を有しているピークの箇所では、ほぼ図9(b)と同じゲインを得ている。その結果、適当なSS処理が施され高品位の音声を得ることが出来る。
【0064】
以上説明したように、本実施形態によれば、撮影装置1は、位相差に関する期待値の演算や最大値の採用により、複数の駆動音の合成スペクトルを推定し、マイク7が生成した音声信号のスペクトルから、推定された合成スペクトルを減算する。これにより、音声に含まれる雑音をスペクトル減算により低減する際に、必要以上に多くのスペクトルを減算してしまう可能性を低減することが可能となる。
【0065】
[その他の実施形態]
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項1】
複数の駆動部を備える音声信号処理装置であって、
前記音声信号処理装置の周囲の音声から音声信号を生成する生成手段と、
前記音声信号に含まれる前記複数の駆動部の動作に伴う駆動音を低減するために、前記音声信号の周波数スペクトルに対してスペクトル減算を適用する減算手段と、
を備え、
前記減算手段は、前記複数の駆動部が同時に動作している場合、周波数毎に、前記音声信号の周波数成分から、前記複数の駆動部それぞれの動作に伴う複数の駆動音それぞれの周波数成分の最大値を減算する
ことを特徴とする音声信号処理装置。
【請求項2】
複数の駆動部を備える音声信号処理装置であって、
前記音声信号処理装置の周囲の音声から音声信号を生成する生成手段と、
前記音声信号に含まれる前記複数の駆動部の動作に伴う駆動音を低減するために、前記音声信号の周波数スペクトルに対してスペクトル減算を適用する減算手段と、
を備え、
前記減算手段は、前記複数の駆動部が同時に動作している場合、周波数毎に、前記音声信号の周波数成分から、前記複数の駆動部それぞれの動作に伴う複数の駆動音それぞれの周波数成分に対応する時間領域の信号を合成して得られる合成信号の片側振幅の、前記複数の駆動音間の位相差に関する期待値を減算する
ことを特徴とする音声信号処理装置。
【請求項3】
前記減算手段は、周波数毎に、前記複数の駆動音それぞれの周波数成分の最大値に所定の倍率を乗じることにより前記期待値を算出するように構成され、
前記減算手段は、周波数毎に、前記複数の駆動音それぞれの周波数成分の比率を入力とし倍率を出力とするルックアップテーブルから前記所定の倍率を取得するように構成される
ことを特徴とする請求項2に記載の音声信号処理装置。
【請求項4】
前記複数の駆動音それぞれの周波数スペクトルを記憶する記憶手段を更に備え、
前記減算手段は、前記複数の駆動音それぞれの周波数成分を前記記憶手段から取得する
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声信号処理装置。
【請求項5】
撮影光学系と、
前記撮影光学系からの入射光を光電変換して画像データを生成する撮像手段と、
を更に備え、
前記複数の駆動部は、前記撮影光学系の駆動部を含む
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声信号処理装置。
【請求項6】
焦点レンズと、絞りと、ブレ補正レンズとを含んだ撮影光学系と、
前記撮影光学系からの入射光を光電変換して画像データを生成する撮像手段と、
を更に備え、
前記複数の駆動部は、前記焦点レンズの駆動部と、前記絞りの駆動部と、前記ブレ補正レンズの駆動部とを含む
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声信号処理装置。
【請求項7】
複数の駆動部を備える音声信号処理装置の制御方法であって、
生成手段が、前記音声信号処理装置の周囲の音声から音声信号を生成する生成工程と、
減算手段が、前記音声信号に含まれる前記複数の駆動部の動作に伴う駆動音を低減するために、前記音声信号の周波数スペクトルに対してスペクトル減算を適用する減算工程と、
を備え、
前記減算工程において前記減算手段は、前記複数の駆動部が同時に動作している場合、周波数毎に、前記音声信号の周波数成分から、前記複数の駆動部それぞれの動作に伴う複数の駆動音それぞれの周波数成分の最大値を減算する
ことを特徴とする制御方法。
【請求項8】
複数の駆動部を備える音声信号処理装置の制御方法であって、
生成手段が、前記音声信号処理装置の周囲の音声から音声信号を生成する生成工程と、
減算手段が、前記音声信号に含まれる前記複数の駆動部の動作に伴う駆動音を低減するために、前記音声信号の周波数スペクトルに対してスペクトル減算を適用する減算工程と、
を備え、
前記減算工程において前記減算手段は、前記複数の駆動部が同時に動作している場合、周波数毎に、前記音声信号の周波数成分から、前記複数の駆動部それぞれの動作に伴う複数の駆動音それぞれの周波数成分に対応する時間領域の信号を合成して得られる合成信号の片側振幅の、前記複数の駆動音間の位相差に関する期待値を減算する
ことを特徴とする制御方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−253126(P2011−253126A)
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【出願番号】特願2010−128270(P2010−128270)
【出願日】平成22年6月3日(2010.6.3)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】