説明

音声処理装置、撮像装置、音声処理方法、及び音声処理プログラム

【課題】雑音のスペクトルが変化した場合にも適切に雑音の除去を行う。
【解決手段】雑音含有スペクトル抽出部306は、雑音の発生タイミングにおける入力音声のスペクトルを取得することで、雑音含有スペクトルを抽出する。次に、雑音除去用スペクトル生成部308は、当該雑音含有スペクトルに基づいて雑音除去用スペクトルを生成する。次に、雑音除去部310は、雑音除去用スペクトルに基づいて、入力音声スペクトルから雑音成分を除去し、逆フーリエ変換部311は、雑音成分を除去したスペクトルを音声信号に変換する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、録音した音声に含まれる雑音を除去する音声処理装置、撮像装置、音声処理方法、及び音声処理プログラムに関するものである。
【背景技術】
【0002】
デジタルカメラ等の撮像装置を用いて撮像した動画像の音声には、撮像装置の機構音や動作音などの雑音が含まれる。このような雑音を除去するために、従来の撮像装置に搭載される音声処理装置は、予め機構音などの雑音のスペクトルを測定、保持しておき、撮像した動画像の音声のスペクトルから雑音のスペクトルを差し引くことで、当該撮影中に生じた雑音を軽減、消去している(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−279185号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述したように、予め保持した雑音のスペクトルに基づいて雑音の除去を行う場合、撮像装置に装着する光学系の交換、経年変化、環境変化等の要因により、予め保持した雑音のスペクトルと、実際に発生する雑音のスペクトルとにずれが生じるという問題があった。このようなずれが生じると、雑音を適切に除去することができず、さらに実際の雑音の周波数とは異なる周波数の音声を除去することになるために、背景音等の音声の劣化が生じる惧れがある。
【0005】
本発明は上記の点に鑑みてなされたものであり、その目的は、雑音のスペクトルが変化した場合にも適切に雑音の除去を行うことができる音声処理装置、撮像装置、音声処理方法、及び音声処理プログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、入力される音声信号より音声スペクトルを生成する生成手段と、前記音声信号中に含まれる雑音の発生タイミングを検出し、前記生成手段により生成された前記音声スペクトルより前記雑音に対応する部分のスペクトルである雑音含有スペクトルを抽出する抽出手段と、前記雑音含有スペクトルに基づいて前記雑音を除去するための雑音除去用スペクトルを生成し、前記雑音の発生タイミングにおける音声スペクトルから雑音を除去した音声スペクトルを生成する雑音除去手段と、前記雑音除去手段により生成された音声スペクトルより音声信号を生成し出力する出力手段とを備えることを特徴とする。
【発明の効果】
【0007】
本発明によれば、雑音発生時の音声信号から雑音除去用スペクトルを生成するので、雑音のスペクトルが変化した場合にも適切に雑音の除去を行うことができる。
【図面の簡単な説明】
【0008】
【図1】本発明の一実施形態による撮像装置の構成を示す概略ブロック図である。
【図2】本発明の第1の実施形態による音声処理部の構成を示す概略ブロック図である。
【図3】第1の実施形態による音声処理部の動作を示すフローチャートである。
【図4】本発明の第2の実施形態による音声処理部の構成を示す概略ブロック図である。
【図5】第2の実施形態による音声処理部の動作を示すフローチャートである。
【発明を実施するための形態】
【0009】
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態による撮像装置の構成を示す概略ブロック図である。
撮像装置1は、操作部10、光学系制御部20、音声処理部30、動画像処理部40、マイク50、動画像記憶部60を備える。また、撮像装置1には、光学系2が着脱自由に取り付けられる。光学系2は、光学素子、当該光学素子を移動させるモータ、当該モータの制御を行うモータドライバ、ヘリコイド環の回転に応じてズーム位置を検出するズームエンコーダ等を備える。
【0010】
撮像装置1の操作部10は、図示しない録画開始ボタン、フォーカスボタン、ズームボタン等による入力を受け付け、当該入力を示す操作信号を光学系制御部20、音声処理部30、動画像処理部40に入力する。
光学系制御部20は、撮像装置1に装着された光学系2の識別情報を取得し、ズームやフォーカスなどの制御信号を光学系2のモータドライバに入力することで、光学系2の制御を行う。
音声処理部30は、動画像の録画時における音声を録音し、動画像記憶部60に登録する。なお、ここで「登録する」とは、記憶部に情報を記憶させることを意味する。以下、本明細書中で「登録する」という文言は、同様の意味として用いる。
動画像処理部40は、動画像を録画し、動画像記憶部60に登録する。
マイク50は、外部の音声を集音し、音声処理部30に入力する。
【0011】
図2は、本発明の第1の実施形態による音声処理部の構成を示す概略ブロック図である。
音声処理部30は、録音部301、フーリエ変換部302、入力音声スペクトル記憶部303、検出部304、検出時刻記憶部305、雑音含有スペクトル抽出部306、雑音含有スペクトル記憶部307、雑音除去用スペクトル生成部308、雑音除去用スペクトル記憶部309、雑音除去部310、逆フーリエ変換部311、雑音含有スペクトル削除部312を備える。
【0012】
録音部301は、撮像装置1のマイク50から入力される音声信号を受け付ける。
フーリエ変換部302は、録音部301が入力を受け付けた音声信号を所定のフレーム時間毎にフーリエ変換を行い、周波数毎のパワーを示す入力音声スペクトルに変換する。
入力音声スペクトル記憶部303は、フーリエ変換部302が変換した音声スペクトルを記憶する。
【0013】
検出部304は、撮像装置1の操作部10から入力される操作信号を受け付け、また、光学系制御部20から光学系2の制御信号を受け付ける。検出部304は、操作信号または制御信号を検出すると、検出時刻記憶部305に当該時刻の情報及び検出した信号の種別の情報(例えば、フォーカス動作の制御信号、ズーム動作の制御信号、スイッチ押下による操作信号、ヘリコイド環の回転による操作信号など)を書き込む。また、検出部304は、操作信号または制御信号を検出したことを示す検出信号を雑音含有スペクトル抽出部306に出力する。
【0014】
検出時刻記憶部305は、検出部304が操作信号または制御信号を検出した時刻と検出した信号の種別の情報とを対応付けて記憶する。
雑音含有スペクトル抽出部306は、検出部304から検出信号を取得した時刻においてフーリエ変換部302が生成した入力音声スペクトルを雑音含有スペクトルとして取得する。
雑音含有スペクトル記憶部307は、雑音含有スペクトル抽出部306が取得した雑音含有スペクトルを検出部304が検出した信号の種別の情報に対応付けて記憶する。
【0015】
雑音除去用スペクトル生成部308は、雑音含有スペクトル記憶部307が記憶する雑音含有スペクトルに基づいて雑音除去用スペクトルを生成する。
雑音除去用スペクトル記憶部309は、雑音除去用スペクトルを信号の種別の情報毎に記憶する。なお、雑音除去用スペクトル記憶部309は、雑音除去用スペクトルを予め記憶し、雑音除去用スペクトル記憶部309が記憶する雑音除去用スペクトルは、雑音除去用スペクトル生成部308によって更新される。
雑音除去部310は、雑音除去用スペクトル記憶部309が記憶する雑音除去用スペクトルに基づいて、入力音声スペクトルから雑音を除去した音声スペクトルを出力する。
逆フーリエ変換部311は、雑音除去部310が雑音を除去した音声スペクトルを逆フーリエ変換して生成した音声信号を、撮像装置1の動画像記憶部60に登録する。
【0016】
このような構成を備えることで、撮像装置1の音声処理部30において、フーリエ変換部302は、録音部301が録音した音声信号より入力音声スペクトルを生成する。次に、雑音含有スペクトル抽出部306が、検出部304が検出する雑音の発生タイミングにおいて、フーリエ変換部302が出力する入力音声スペクトルを雑音含有スペクトルとして抽出し、雑音除去用スペクトル生成部308は、雑音含有スペクトル抽出部306が抽出した雑音含有スペクトルに基づいて雑音除去用スペクトルを生成する。次に、雑音除去部310は、雑音除去用スペクトル生成部308が生成した雑音除去用スペクトルに基づいて、検出部304が検出する雑音の発生タイミングにおける入力音声スペクトルから雑音を除去した音声スペクトルを出力し、逆フーリエ変換部311は、雑音除去部310が生成した音声スペクトルより音声信号を生成する。
これにより、音声処理部30は、雑音のスペクトルが変化した場合にも適切に雑音の除去を行う。
【0017】
次に、第1の実施形態による音声処理部30の動作を説明する。
図3は、第1の実施形態による音声処理部の動作を示すフローチャートである。
ユーザが録画開始ボタンを押下することなどにより、撮像装置1が録画動作を開始すると、音声処理部30の録音部301は、マイク50から入力される音声信号の録音を開始する(ステップS1)。次に、フーリエ変換部302は、録音部301が録音した音声信号を所定のフレーム時間(例えば10ミリ秒)で音声信号をフーリエ変換することで、入力音声スペクトルを生成する(ステップS2)。フーリエ変換部302は、入力音声スペクトルを生成すると、生成した入力音声スペクトルを、入力音声スペクトル記憶部303に逐次蓄積させる(ステップS3)。
【0018】
次に、検出部304は、操作部10が出力する操作信号、または光学系制御部20が出力する制御信号の有無を判定する(ステップS4)。これにより、検出部304は、操作によるモータ音等の雑音の発生を検出する。検出部304が、操作信号または制御信号を検出した時刻を検出したと判定した場合(ステップS4:YES)、すなわち、雑音が発生したと判定した場合、検出部304は、当該信号の検出時刻と当該信号の種別とを検出時刻記憶部305に登録する(ステップS5)。また、雑音が発生したと判定した場合、検出部304は、信号の種別の情報を含む検出信号を出力し、雑音含有スペクトル抽出部306は、当該検出信号を取得すると、フーリエ変換部302が生成した入力音声スペクトルを取得する(ステップS6)。次に、雑音含有スペクトル抽出部306は、取得した入力音声スペクトルを雑音含有スペクトルとして、検出信号に含まれる信号の種別の情報に対応付けて雑音含有スペクトル記憶部307に蓄積させる(ステップS7)。
【0019】
ステップS4で、検出部304が操作信号及び制御信号を検出しなかったと判定した場合(ステップS4:NO)、または、ステップS7で雑音含有スペクトル抽出部306が雑音含有スペクトルを蓄積させた場合、検出部304は、操作部10から録画終了ボタンの押下などによる、録画終了操作信号の有無を判定する(ステップS8)。検出部304が録画終了操作信号を検出しなかったと判定した場合(ステップS8:NO)、ステップS1に処理を戻し、録音動作を継続する。
【0020】
他方、検出部304が録画終了操作信号を検出したと判定した場合(ステップS8:YES)、雑音除去用スペクトル生成部308は、信号の種別の情報毎に、雑音含有スペクトル記憶部307に蓄積された雑音含有スペクトルの各周波数の値の最小値を、各周波数の値とするスペクトルを生成する(ステップS9)。
ここで、雑音含有スペクトルの各周波数の値の最小値を各周波数の値とするスペクトルを生成する理由を説明する。雑音含有スペクトルは、マイク50から入力される音声信号をフーリエ変換したものであるため、モータ音等の雑音のスペクトルと、背景音のスペクトルとが混在している。音声信号に含まれる音のうち、モータ音等の雑音の音量は大きく変わらないため、背景音の音量が小さいほど、音声信号の全体の音量に対する雑音の音量の比が高くなる。そこで、雑音含有スペクトルの各周波数の値の最小値を各周波数の値とすることで、雑音を含む割合が高いスペクトルを生成することができる。
【0021】
雑音除去用スペクトル生成部308は、ステップS9で雑音を含む割合が高いスペクトルを生成すると、雑音除去用スペクトル記憶部309が予め記憶する雑音除去用スペクトルを取得する(ステップS10)。次に、雑音除去用スペクトル生成部308は、信号の種別の情報毎に、ステップS9で生成したスペクトルと雑音除去用スペクトルとの平均値を示すスペクトルを生成する(ステップS11)。雑音除去用スペクトル生成部308は、平均値を示すスペクトルを生成すると、当該スペクトルを雑音除去用スペクトルとして雑音除去用スペクトル記憶部309が記憶する雑音除去用スペクトルの更新を行う(ステップS12)。これにより、予め記憶する雑音除去用スペクトルに基づいて、雑音の変化を加味した雑音除去用スペクトルを生成することができる。なお、ここで「更新する」とは、記憶部が記憶する過去の情報を新たな情報で上書きすることを意味する。以下、本明細書中で「更新する」という文言は、同様の意味として用いる。
【0022】
雑音除去用スペクトル生成部308が雑音除去用スペクトルを登録すると、雑音除去部310及び逆フーリエ変換部311は、入力音声スペクトル記憶部303に蓄積された全ての入力音声スペクトルに対して以下のステップS14〜ステップS17の処理を実行する(ステップS13)。
まず、雑音除去部310は、入力音声スペクトル記憶部303から入力音声スペクトルを取得し、当該入力音声スペクトルを生成した時刻が、検出時刻記憶部305に記憶されているか否かを判定する(ステップS14)。これにより、当該入力音声スペクトルが雑音を含んでいるか否かを判定することができる。雑音除去部310が、入力音声スペクトルを生成した時刻が検出時刻記憶部305に記憶されていないと判定した場合(ステップS14:NO)、逆フーリエ変換部311は、入力音声スペクトルを逆フーリエ変換することにより、音声信号を取得し、動画像記憶部60に登録する(ステップS15)。
【0023】
他方、ステップS14で、雑音除去部310が、入力音声スペクトルを生成した時刻が検出時刻記憶部305に記憶されていると判定した場合(ステップS14:YES)、雑音除去部310は、まず検出時刻記憶部305が当該時刻に対応付けて記憶する信号の種別の情報を取得する。次に、雑音除去部310は、雑音除去用スペクトル記憶部309から当該信号の種別の情報に対応する雑音除去用スペクトルを取得する。次に、雑音除去部310は、入力音声スペクトルから、取得した雑音除去用スペクトルに所定の係数(例えば、2〜4の値を用いると良い)を乗じた信号を減算したスペクトルを、音声スペクトルとして取得する(ステップS16)。これにより、入力音声スペクトルに含まれる雑音の成分を除去した音声スペクトルを得ることができる。雑音除去部310が音声スペクトルを取得すると、逆フーリエ変換部311は、音声スペクトルを逆フーリエ変換することにより、音声信号を取得し、動画像記憶部60に登録する(ステップS17)。
【0024】
雑音除去部310及び逆フーリエ変換部が、入力音声スペクトル記憶部303に蓄積された全ての入力音声スペクトルに対して以下のステップS14〜ステップS17の処理を実行すると、音声処理部30は処理を終了する。
また、この処理を終了した後に再度録画を開始する際に、光学系制御部20が、撮像装置に装着された光学系2が交換されたことを検出すると、雑音含有スペクトル削除部312は、雑音含有スペクトル記憶部307が記憶する雑音含有スペクトルを削除する。これは、光学系2の種類によって雑音のスペクトルが変わるため、交換前の光学系2による雑音含有スペクトルの影響で、光学系2の交換後に生成する雑音除去用スペクトルの精度が悪化することを防ぐためである。なお、光学系制御部20による光学系2の交換の検出は、例えば、光学系制御部20が光学系2の識別情報を取得し、取得した識別番号が、前回の録画時と同じ識別番号の光学系であるか否かを判定することで行うことができる。
【0025】
このように、本実施形態によれば、雑音含有スペクトル抽出部306は、雑音の発生タイミングにおける入力音声スペクトルを取得することで、雑音含有スペクトルを抽出し、雑音除去用スペクトル生成部308は、当該雑音含有スペクトルに基づいて雑音除去用スペクトルを生成する。これにより、音声処理部30は、動画の録画時における雑音のスペクトルを取得することができるため、雑音のスペクトルが変化した場合にも適切に雑音の除去を行うことができる。
【0026】
さらに、本発明によれば、雑音含有スペクトル抽出部306が雑音含有スペクトルを雑音含有スペクトル記憶部307に蓄積させ、雑音除去用スペクトル生成部308が複数の雑音含有スペクトルの最小値に基づいて雑音除去用スペクトルを生成する。これにより、音声処理部30は、雑音除去用スペクトルに含まれる背景音の割合を低くさせることができる。
【0027】
さらに、本発明によれば、雑音除去用スペクトル記憶部309は、予め雑音除去用スペクトルを記憶し、雑音除去用スペクトル生成部308が雑音含有スペクトルに基づいて当該雑音除去用スペクトルを更新する。これにより、予め記憶する雑音除去用スペクトルを、雑音の変化を加味した雑音除去用スペクトルに更新することができる。
【0028】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、検出時刻記憶部305が、検出部304が信号を検出した時刻を記憶する場合を説明したが、これに限られず、例えば、撮像装置1及び光学系2の動作を示す動作データを記憶しても良い。この場合、雑音除去部310は、検出時刻記憶部305が記憶する動作データにおいて、撮像装置1または光学系2が動作している時刻に対応する入力音声スペクトルに対して、ステップS16による減算処理を行う。
【0029】
なお、本実施形態では、光学系2が交換された後に再度録画を開始する場合に、雑音含有スペクトル削除部312が、雑音含有スペクトル記憶部307が記憶する雑音含有スペクトルを削除する例を示したが、これに限られない。例えば、雑音含有スペクトル削除部312を備えず、雑音含有スペクトル抽出部306が、雑音含有スペクトルを光学系2の識別情報に対応付けて雑音含有スペクトル記憶部307に登録し、雑音除去用スペクトル生成部308が、光学系2の識別番号に対応付けて雑音含有スペクトル記憶部307が記憶する雑音含有スペクトルに基づいて雑音除去用スペクトルを生成しても良い。これにより、交換前の光学系2による雑音含有スペクトルの影響で、光学系2の交換後に生成する雑音除去用スペクトルの精度が悪化することを防ぐことができ、さらに、再度同じ光学系2に交換された場合に、前回同一の光学系を装着した際に記録した雑音含有スペクトルに基づいて新たな雑音除去用スペクトルを生成することができる。
【0030】
さらに、雑音除去用スペクトル生成部308が、雑音除去用スペクトルを光学系2の識別情報に対応付けて雑音除去用スペクトル記憶部309に登録し、雑音除去部310が、光学系2の識別番号に対応付けて雑音含有スペクトル記憶部307が記憶する雑音除去用スペクトルに基づいて雑音除去処理を行っても良い。これにより、再度同じ光学系2に交換された場合に、前回同一の光学系を装着した際に生成した雑音除去用スペクトルに基づいて雑音除去用スペクトルの更新処理を行うことができる。
【0031】
また、本実施形態では、検出部304が信号を検出した時に、雑音含有スペクトル抽出部306がフーリエ変換部302から入力音声スペクトルを取得する場合を説明したが、これに限られず、録画終了後に、雑音含有スペクトル抽出部306が、検出時刻記憶部305が記憶する検出時刻に基づいて雑音発生時の入力音声スペクトルを抽出しても良い。
【0032】
また、本実施形態では、雑音除去用スペクトル生成部308が、複数の雑音含有スペクトルの最小値に基づいて雑音除去用スペクトルを生成する場合を説明したが、例えば、最頻値や、中央値などの他の統計量に基づいて雑音除去用スペクトルを生成しても良い。その理由を以下に説明する。
録音部301が録音した入力音声に含まれる背景音が、雑音の逆位相となる場合、雑音のみのスペクトルより、逆位相で打ち消された入力音声のスペクトルのほうが、ある周波数の値が小さくなることがある。そのため、周波数の値が最小値となるスペクトルは、必ずしも雑音の含有率が高いとは言えない。このような場合を鑑みると、最小値に基づいて雑音除去用スペクトルを生成せずに、中央値や最頻値など、ノイズ成分に影響されない統計量を選択する利点がある。
【0033】
また、本実施形態では、雑音除去部310が、入力音声スペクトルから、雑音除去用スペクトルに所定の係数を乗じた信号を減算することで、入力音声スペクトルに含まれる雑音の成分を除去する場合を説明したが、これに限られず、入力音声スペクトルのうち、雑音除去用スペクトルに所定の係数を乗じた信号の各周波数の値より、値が小さい周波数部分を除去することで、入力音声スペクトルに含まれる雑音の成分を除去しても良い。
【0034】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
図4は、本発明の第2の実施形態による音声処理部の構成を示す概略ブロック図である。
第2の実施形態による音声処理部30は、第1の実施形態による音声処理部30から、検出時刻記憶部305、雑音含有スペクトル記憶部307、雑音除去用スペクトル記憶部309、雑音含有スペクトル削除部312を除き、背景音スペクトル抽出部313を備える構成とする。
背景音スペクトル抽出部313は、検出部304が操作信号または制御信号を検出した時刻の前、または操作が終了した時刻の後において、フーリエ変換部302が生成した入力音声スペクトルを雑音含有スペクトルとして取得する。
【0035】
ここで、操作信号または制御信号を検出した時刻の前に生成された入力音声スペクトルとは、ユーザの操作による操作音が発生した時刻より前の時刻に生成された入力音声スペクトルを示し、例えば、検出部304が検出信号を出力した時刻の1フレーム時間前に生成された入力音声スペクトルを用いるとよい。
また、操作が終了した時刻の後に生成された入力音声スペクトルとは、ユーザの操作や光学系2の制御等(モータの駆動)による操作音の発生が終了した時刻より後の時刻に生成された入力音声スペクトルを示し、例えば、検出部304が出力する検出信号がオフとなった時刻の1フレーム時間後に生成された入力音声スペクトルを用いるとよい。
【0036】
図5は、第2の実施形態による音声処理部の動作を示すフローチャートである。
ユーザが録画開始ボタンを押下することなどにより、撮像装置1が録画動作を開始すると、音声処理部30の録音部301は、マイク50から入力される音声信号の録音を開始する(ステップS21)。次に、フーリエ変換部302は、録音部301が録音した音声信号を所定のフレーム時間で音声信号をフーリエ変換することで、入力音声スペクトルを生成する(ステップS22)。フーリエ変換部302は、入力音声スペクトルを生成すると、生成した入力音声スペクトルを、入力音声スペクトル記憶部303に登録する(ステップS23)。
【0037】
次に、検出部304は、操作部10が出力する操作信号、または光学系制御部20が出力する制御信号の有無を判定する(ステップS24)。検出部304が、操作信号及び制御信号を検出していないと判定した場合(ステップS24:NO)、逆フーリエ変換部311は、入力音声スペクトルを逆フーリエ変換することにより、音声信号を取得し、動画像記憶部60に登録する(ステップS25)。
【0038】
他方、ステップS24で、検出部304が、操作信号または制御信号を検出していると判定した場合(ステップS24:YES)、雑音含有スペクトル抽出部306は、雑音含有スペクトルとして、操作信号または制御信号を検出した時刻にフーリエ変換部302が生成した入力音声スペクトルを取得する(ステップS26)。次に、背景音スペクトル抽出部313は、入力音声スペクトル記憶部303から、操作信号または制御信号を検出した時刻の直前の入力音声スペクトルを取得し、また、フーリエ変換部302から、操作が終了した時刻に出力した入力音声スペクトルを取得する(ステップS27)。すなわち、雑音含有スペクトルの前後に出力された入力音声スペクトルを取得する。当該入力音声スペクトルは、雑音の発生前後の音声のスペクトルであるため、雑音が含まれていない。
【0039】
次に、背景音スペクトル抽出部313は、操作信号または制御信号を検出した時刻の直前の入力音声スペクトルと、操作が終了した時刻に出力した入力音声スペクトルとの平均となるスペクトルを、背景音スペクトルとして生成する(ステップS28)。背景音スペクトル抽出部313が、背景音スペクトルを生成すると、雑音除去用スペクトル生成部308は、雑音含有スペクトル抽出部が出力する雑音含有スペクトルから、背景音スペクトル抽出部が出力する背景音スペクトルを減算することで、雑音除去用スペクトルを生成する(ステップS29)。
【0040】
ここで、ステップS29の計算によって雑音除去用スペクトルを生成することができる理由を説明する。入力音声スペクトルをサンプリングするフレーム時間が十分に短い場合、雑音除去用スペクトルに含まれる背景音のスペクトルは、雑音発生前後の音声スペクトルに近似することになる。そのため、雑音除去用スペクトルから背景音スペクトルを減算することで、雑音のスペクトルを抽出することができる。
【0041】
ステップS29で、雑音除去用スペクトル生成部308が雑音除去用スペクトルを生成すると、雑音除去部310は、フーリエ変換部302が生成した入力音声スペクトルから、雑音除去用スペクトル生成部308が生成した雑音除去用スペクトルに所定の係数を乗じた信号を減算したスペクトルを、音声スペクトルとして取得する(ステップS30)。雑音除去部310が音声スペクトルを取得すると、逆フーリエ変換部311は、音声スペクトルを逆フーリエ変換することにより、音声信号を取得し、動画像記憶部60に登録する(ステップS31)。
【0042】
ステップS25またはステップS31で逆フーリエ変換部311が音声信号を動画像記憶部60に登録すると、検出部304は、操作部10から録画終了ボタンの押下などによる、録画終了操作信号の有無を判定する(ステップS32)。検出部304が、録画終了操作信号を検出しない場合(ステップS32:NO)、ステップS21に戻り、録音を継続する。他方、検出部304が、録画終了操作信号を検出した場合(ステップS32:YES)、音声処理部30は、処理を終了する。
【0043】
このように、本実施形態によれば、背景音スペクトル抽出部313が、雑音含有スペクトルの抽出位置の直前及び直後の入力音声スペクトルを背景音スペクトルとして抽出し、雑音除去用スペクトル生成部308が、雑音含有スペクトルから、背景音スペクトルを減算することにより、雑音除去用スペクトルを生成する。これにより、雑音除去用スペクトル生成部308は、雑音の含有量の高い雑音除去用スペクトルを得ることができるため、雑音除去部310は、より適切に雑音の除去を行うことができる。
【0044】
また、本実施形態では、録音中に逐次雑音除去処理を行うため、入力音声スペクトル記憶部303は、録音した全ての入力音声スペクトルを蓄積する必要が無い。これにより、第1の実施形態より音声処理部30のメモリの消費量を削減することができる。
【0045】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、録音中に逐次雑音除去処理を行う場合を説明したが、これに限られず、例えば第1の実施形態のように、録音終了後にまとめて雑音除去処理を行っても良い。
【0046】
なお、本実施形態では、雑音含有スペクトル記憶部307を備えず、雑音を検出する毎に雑音除去用スペクトルを新たに生成する場合を説明したが、これに限られず、例えば、第1の実施形態のように、雑音含有スペクトル記憶部307を備え、上述した雑音除去用スペクトルを複数登録し、雑音除去用スペクトル生成部308が、雑音含有スペクトル記憶部307に蓄積された複数の雑音除去用スペクトルの平均となるスペクトルを、雑音除去用スペクトルとして出力することで、より雑音除去の精度を高めるようにしても良い。
【0047】
また、本実施形態では、背景音スペクトル抽出部313が、雑音含有スペクトルの抽出位置の直前及び直後の入力音声スペクトルを抽出し、その平均となるスペクトルを背景音スペクトルとする場合を説明したが、これに限られず、例えば、雑音含有スペクトルの抽出位置の直前または直後の入力音声スペクトルの何れか一方を背景音スペクトルとしても良い。
【0048】
上述の音声処理部30は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0049】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0050】
1…撮像装置 2…光学系 30…音声処理部 302…フーリエ変換部 306…雑音含有スペクトル抽出部 307…雑音含有スペクトル記憶部 308…雑音除去用スペクトル生成部 310…雑音除去部 311…逆フーリエ変換部 312…雑音含有スペクトル削除部 313…背景音スペクトル抽出部

【特許請求の範囲】
【請求項1】
入力される音声信号より音声スペクトルを生成する生成手段と、
前記音声信号中に含まれる雑音の発生タイミングを検出し、前記生成手段により生成された前記音声スペクトルより前記雑音に対応する部分のスペクトルである雑音含有スペクトルを抽出する抽出手段と、
前記雑音含有スペクトルに基づいて前記雑音を除去するための雑音除去用スペクトルを生成し、前記雑音の発生タイミングにおける音声スペクトルから雑音を除去した音声スペクトルを生成する雑音除去手段と、
前記雑音除去手段により生成された音声スペクトルより音声信号を生成し出力する出力手段と
を備えることを特徴とする音声処理装置。
【請求項2】
請求項1に記載の音声処理装置において、
前記抽出手段が前記雑音含有スペクトルを抽出する毎に当該雑音含有スペクトルを雑音含有スペクトル記憶手段に蓄積させる登録手段を更に備え、
前記雑音除去手段は、
前記雑音含有スペクトル記憶手段に蓄積された複数の雑音含有スペクトルの各周波数の値の統計量を各周波数の値とすることにより前記雑音除去用スペクトルを生成し、前記雑音の発生タイミングにおける音声スペクトルから雑音を除去した音声スペクトルを生成する、
ことを特徴とする音声処理装置。
【請求項3】
請求項1または請求項2の何れか1項に記載の音声処理装置において、
前記雑音含有スペクトルの抽出位置の前または後に前記生成手段が生成する音声スペクトルを、雑音を含まない部分のスペクトルである背景音スペクトルとして抽出する背景音スペクトル抽出手段を更に備え、
前記雑音除去手段は、
前記雑音含有スペクトルから、前記背景音スペクトル抽出手段が抽出した背景音スペクトルを減算することにより、前記雑音除去用スペクトルを生成し、前記雑音の発生タイミングにおける音声スペクトルから雑音を除去した音声スペクトルを生成する、
ことを特徴とする音声処理装置。
【請求項4】
請求項1から請求項3の何れか1項に記載の音声処理装置において、
予め前記雑音除去用スペクトルを記憶する雑音除去用スペクトル記憶手段を更に備え、
前記雑音除去手段は、
前記抽出手段が前記雑音含有スペクトルを抽出する毎に、当該雑音含有スペクトルに基づいて前記雑音除去用スペクトル記憶手段が記憶する雑音除去用スペクトルを更新することにより、雑音除去用スペクトルを生成し、前記雑音の発生タイミングにおける音声スペクトルから雑音を除去した音声スペクトルを生成する、
ことを特徴とする音声処理装置。
【請求項5】
請求項1から請求項4の何れか1項に記載の音声処理装置において、
前記雑音除去手段は、
前記雑音含有スペクトルに基づいて前記雑音除去用スペクトルを生成し、前記雑音の発生タイミングにおける音声スペクトルから、前記雑音除去用スペクトルに所定の係数を乗じた信号を減算することで雑音を除去した音声スペクトルを生成する、
ことを特徴とする音声処理装置。
【請求項6】
請求項1から請求項4の何れか1項に記載の音声処理装置において、
前記雑音除去手段は、
前記雑音含有スペクトルに基づいて前記雑音除去用スペクトルを生成し、前記雑音の発生タイミングにおける音声スペクトルのうち、前記雑音除去用スペクトルに所定の係数を乗じた信号の各周波数の値より、値が小さい周波数部分を除去することで雑音を除去した音声スペクトルを生成する、
ことを特徴とする音声処理装置。
【請求項7】
請求項1から請求項6の何れか1項に記載の音声処理装置を備えることを特徴とする撮像装置。
【請求項8】
請求項7に記載の撮像装置において、
前記音声処理装置は、光学系の識別情報に対応付けて、当該光学系が発生させる雑音の前記雑音除去用スペクトルを雑音除去用スペクトル記憶手段に登録する雑音除去用スペクトル登録手段を更に備え、
前記音声処理装置の雑音除去手段は、装着している光学系の識別情報に対応付けて前記雑音除去用スペクトル記憶手段が記憶する雑音除去用スペクトルに基づいて雑音を除去した音声スペクトルを出力する、
ことを特徴とする撮像装置。
【請求項9】
請求項2に記載の音声処理装置を備える撮像装置において、
前記音声処理装置は、光学系が交換されたときに、前記音声処理装置の雑音含有スペクトル記憶手段が記憶する前記雑音含有スペクトルを削除する雑音含有スペクトル削除手段を備える、
ことを特徴とする撮像装置。
【請求項10】
請求項2に記載の音声処理装置を備える撮像装置において、
前記音声処理装置の登録手段は、
光学系の識別情報に対応付けて、当該光学系が発生させる雑音の前記雑音含有スペクトルを前記雑音含有スペクトル記憶手段に登録し、
前記音声処理装置の雑音除去手段は、装着している光学系の識別情報に対応付けて前記雑音含有スペクトル記憶手段が記憶する雑音含有スペクトルに基づいて前記雑音除去用スペクトルを生成し、前記雑音の発生タイミングにおける音声スペクトルから雑音を除去した音声スペクトルを生成する、
ことを特徴とする撮像装置。
【請求項11】
入力される音声信号より音声スペクトルを生成し、
前記音声信号中に含まれる雑音の発生タイミングを検出し、
生成された前記音声スペクトルより前記雑音に対応する部分のスペクトルである雑音含有スペクトルを抽出し、
前記雑音含有スペクトルに基づいて前記雑音を除去するための雑音除去用スペクトルを生成し、
前記雑音の発生タイミングにおける音声スペクトルから雑音を除去した音声スペクトルを生成し、
雑音を除去した音声スペクトルより音声信号を生成し出力する
ことを特徴とする音声処理方法。
【請求項12】
コンピュータに、
入力される音声信号より音声スペクトルを生成するステップと、
前記音声信号中に含まれる雑音の発生タイミングを検出するステップと、
生成された前記音声スペクトルより前記雑音に対応する部分のスペクトルである雑音含有スペクトルを抽出するステップと、
前記雑音含有スペクトルに基づいて前記雑音を除去するための雑音除去用スペクトルを生成するステップと、
前記雑音の発生タイミングにおける音声スペクトルから雑音を除去した音声スペクトルを生成するステップと、
雑音を除去した音声スペクトルより音声信号を生成し出力するするステップと、
を実行させる音声処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−118464(P2012−118464A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−270668(P2010−270668)
【出願日】平成22年12月3日(2010.12.3)
【出願人】(000004112)株式会社ニコン (12,601)
【Fターム(参考)】