説明

映像音声記録装置および映像音声再生装置

【課題】
臨場感のある音声の再生または記録を行う手段を提供する。
【解決手段】
一例として、撮像し、映像信号を出力する撮像部と、音声が入力され、音声信号を出力
する音声取得部と、該撮像部から出力された映像信号と該音声取得部から出力された音声
信号とを記録する記録部と、映像信号から特定被写体の位置を検出する物体検出部と、音
声信号から検出された特定被写体に対応する音声を抽出する音声抽出部と、物体検出部で
検出された特定被写体の位置によって、音声抽出部によって抽出された音声信号の調整を
行う音声信号処理部と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は映像音声記録装置および映像音声再生装置関する。
【背景技術】
【0002】
当技術分野の背景技術として、例えば特開2006−287544号公報(特許文献1)と特開2007−5849号公報(特許文献2)とがある。
【0003】
特許文献1には課題として「記録された映像信号を任意の画角で再生する時に、記録された複数チャンネルの音声信号における指向性、あるいは指向角を可変させることができるようにする。」と記載され、解決手段として「n個(nは2以上の整数)のマイクユニット101からのnチャンネルの音声信号と、ビデオカメラ103からの映像信号とを記録媒体に記録する記録装置105と、記録媒体に記録されたnチャンネルの音声信号及び映像信号を再生する再生装置106と、再生装置106で再生された映像信号に基づく再生画像の特定の画角を選択する映像操作入力手段113と、選択された前記画角に対応する映像信号に基づいて、再生装置106で再生されたnチャンネルの音声信号の指向角又は指向性を制御するための演算処理を行う音声演算処理部107とを有するようにする。
」と記載されている(要約参照)。
【0004】
特許文献2には課題として「本発明は、記録装置、記録方法、再生装置、再生方法、記録方法のプログラム及び記録方法のプログラムを記録した記録媒体に関し、例えばDVDの光ディスクを用いたビデオカメラに適用して、個人ユーザーがビデオカメラ等によりマルチチャンネルによる音声信号を記録する場合でも、従来に比して高い臨場感によりマルチチャンネルによる音声信号を楽しむことができるようにする。」と記載され、解決手段として「本発明は、撮像結果による映像信号の映像に対応するように、マルチチャンネルによる音声信号FRT、FL、FR、RL、RR、LFの特性を可変する。」と記載されている(要約参照)。
【0005】
また、その他の背景技術として、例えば、特開2007−013255号公報(特許文献3)、特開2004−147205号公報(特許文献4)、および特開2001−169309号公報(特許文献5)もある。
【0006】
特許文献3には課題として「撮影された画像内において特定の被写体から発せられる音声を強調することができるようにする。」と記載され、解決手段として「画像認識部131が、画像を構成する画素のヒストグラムを生成し、人物が写っている場合の画素のヒストグラムのパターンとマッチングして相関係数を出力する。判定部132が相関係数に基づいて、画像の中に人物が写っているか否かを判定し、人物が写っていると判定された場合、指向性操作部133が前方向を重視したポーラパターンを設定し、音声帯域操作部134が人の声の周波数帯域を強調させるように音声の信号を処理する。本発明は、ビデオカメラに適用することができる。」と記載されている(要約参照)。
【0007】
特許文献4には課題として「音声のステレオ記録を可能とし、臨場感のある動画を記録することができる画像音声記録装置を提供。」と記載され、解決手段として「画像音声記録装置10は、被写界を撮像してこの被写界を表わす画像信号103を形成する。また、被写界の左側および右側の音声を集音してそれぞれ左音声信号108および右音声信号110を形成する。さらにこの画像信号103から信号処理により動きベクトルを検出し、この動きベクトルから画像において最も有力な移動方向を判断する。この移動方向に応じて、左右の音量バランスが変化するように左音声信号108および右音声信号110をそれぞれ調整し、これらの音声信号をステレオ録音して音声の移動感を強調し、臨場感のある動画記録を実現している。」と記載されている(要約参照)。
【0008】
特許文献5には課題として「従来の情報記録装置および情報再生装置においては、音源や被写体の奥行き等の正確な位置に関する情報を持たずに音声情報や画像情報等が直線的または平面的に記録されており、情報の再生時に充分に現実感や立体感および情報の利便性を得ることができなかった。」と記載され、解決手段として「音声情報や画像情報等に音源や被写体の位置に関する情報を付加して記録し、それら情報の再生時に、付加した位置に関する情報を有効に利用する。例えば音声情報の場合、楽器別の録音トラックごとに位置情報を付加して、再生時に各トラックに異なる伝播特性を与えて奥行きのある音場を形成する。」と記載されている(要約参照)。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2006−287544号公報
【特許文献2】特開2007−5849号公報
【特許文献3】特開2007−013255号公報
【特許文献4】特開2004−147205号公報
【特許文献5】特開2001−169309号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
上記特許文献1では、映像を再生する際に、画角を変化させるなどの操作によって音声の指向性を変化させることで画像と音声の違和感を軽減させる。しかし、指向性を持たせることで、ステレオ感の乏しい音声となってしまう。
【0011】
また、上記特許文献2では、撮影モードなどに応じて音声の指向性や周波数特性を調整し、より臨場感のある撮影を可能とする。しかし、撮影モードや撮影条件によっての調整だけでは、臨場感を高めることが難しい。
【0012】
また、上記特許文献3では、人物が写っていると判定された場合、前方向を重視したポーラパターンを設定し、人の声の周波数帯域を強調させる。しかし、前方向を重視するのみで、左右方向については記載されていない。
【0013】
また、上記特許文献4では、動きベクトルから画像において最も有力な移動方向を判断し、その移動方向に応じて、左右の音量バランスを変化させ、臨場感のある動画記録を実現する。しかし、集音した左右の音声の音量をそのまま変化させてしまうため、本来移動していない対象の音まで移動してしまう。
【0014】
また、上記特許文献5では、音源毎にマイクを準備し、集音した音声を位置情報と共に記録し、再生時に異なる伝播特性を与えて奥行きのある音場を形成する。しかし、音源の数だけマイクが必要となる。
【0015】
いずれの特許文献にも、少なくとも、映像信号から特定被写体の位置を検出し、音声信号からその特定被写体の音声を抽出し、検出した位置によって、抽出した音声を調整することにより、臨場感を高めることについて、記載されていない。
【課題を解決するための手段】
【0016】
そこで、例えば、映像信号から特定被写体の位置を検出し、音声信号からその特定被写体の音声を抽出し、検出した位置によって、抽出した音声を調整することにより、臨場感を高める。また、例えば、物体検出として話者検出を備えることで、話者の有無と画面上の位置を含む話者検出の結果によって、声の成分を左右に分配する割合を変化させることができる。画面の右側に人物がいる場合には、マイクロフォンから取得される音声データのうち、人間の声の成分を、右側のチャンネルに多く配分して記録する。または、例えば、画面のどの位置に人物がいるかの情報である話者検出結果を、映像音声情報とともに記録媒体に記録し、再生時に該話者検出結果を元に、音声データを調整する。詳細には、特許請求の範囲に記載の構成を備える。
【発明の効果】
【0017】
本発明によれば、臨場感を高めることができる。例えば、特に、映像信号からの特定被写体の位置の検出と、音声信号からの特定被写体の音声の抽出との相乗効果により、被写体とマイクが離れていてマイクロフォンでステレオ感のある撮影が困難であっても、人物が撮影している画面のどの位置にいるか検出し、その位置に合わせて人物の声を左右に調整する為、ステレオ感のある撮影が可能となる。
上記以外の課題、構成、および効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0018】
【図1】実施例1における記録時のデータフローを示す図である。
【図2】実施例2における再生時のデータフローを示す図である。
【図3】実施例1における話者検出の説明を示す図である。
【図4】実施例1における音声信号処理部の詳細(記録時)を示す図である。
【図5】実施例1における記録再生装置の構成例を示す図である。
【図6】実施例2における音声信号処理部の詳細(再生時)を示す図である。
【図7】実施例3における記録時のデータフローを示す図である。
【発明を実施するための形態】
【0019】
以下、この発明に好適な実施形態の例について図面を参照しながら説明する。
【実施例1】
【0020】
図1は、映像音声データ(映像データ、音声データともいう)を記録する映像音声記録装置の例として、ビデオカメラの構成例を示す図であり、主に記録に関するフローを表している。ただし、本発明はビデオカメラに限定されるものではない。
【0021】
まず、映像の入力から説明する。撮像ユニット101は、ズーム可能なレンズユニットから入射される光を、CMOSやCCDなどの撮像素子で受光し、その信号を1画素ごとにデジタルデータに変換するユニットである。
【0022】
画像処理部102は、上記撮像ユニット101の出力結果を入力し、色合い調整やノイズ低減、エッジ強調などの画像処理を行う。
【0023】
物体検出部の一例である話者検出部103は、上記画像処理部102から入力される映像から、特定被写体の一例である話者の有無を検出し話者の位置を求める。
【0024】
図3は撮影している範囲301の中のどの位置に話者がいるかを表した図である。横軸(位置X)は、画面上の左右(LR)のどちら側にいるかを表している。便宜上、R側にいるときを正(+)、L側にいるときを負(−)と定義する。例えば図の構図の場合は、話者の位置は「+P」と出力する。話者の位置特定方法は顔を検出し、唇の動きを検出するといった手法があるが、本発明はこれに限定しない。また、撮影している範囲301に複数人存在した場合には、それぞれの位置を検出する。さらに、唇の動きを検出し、どの話者が話しているかも検出する。
【0025】
次に、音声の入力について説明する。図1のマイクロフォンユニット106は、左右の音声を取得するために左右2個搭載し、音声信号を電気信号に変換し、ADコンバータでデジタル変換した結果を出力するユニットである。
【0026】
音声信号処理部107は、上記マイクロフォンユニット106の出力を入力とし、左右の音声信号の調整を行うことがでる。
【0027】
図4に音声信号処理部107の構成例を示す。図4の話者検出401とマイクロフォンユニット402は、それぞれ図1の話者検出103とマイクロフォンユニット106に対応する。声成分分離部403は、マイクロフォンユニット402からの出力結果を入力とし、その音声データから人間の声の成分と、声の成分を除いた成分に分離する。人間の声の分離方法には、例えば400(Hz)〜4(kHz)の周波数を抽出するなどの方法があるが、本発明はこれに限定するものではない。声の成分はLR調整部404に入力され、声を除いた成分は音声重畳部405に入力される。LR調整部404は話者検出401からの出力に応じて、人間の声の成分の左右(LR)への分配を調整する機能をもつ。例えば、話者の位置に比例して、人間の声の左右分配比率を変動させてもよい。音声重畳部405は、LR調整部404で左右分配を調整された人間の声の成分と、声成分分離部403で分離された、人間の声を除いた成分とを重畳する。
【0028】
話者が複数人いる場合には、声成分分離部403にてそれぞれの位置に応じた方向からの音声を抽出する。そして、顔検出や唇の動きのよって各話者の位置と声を発しているタイミングを検出し、その位置とタイミングによって、人の声の成分を調節する。このような手法を用い、それぞれの人の声を左右のスピーカにそれぞれの位置に応じた割合で重畳することで、複数人の声を分離し、臨場感のある撮影が可能となる。また、複数人存在する場合、特に、複数の話者の唇が同時に動いていることを検出した場合は人の声の抽出や重畳をやめ、そのまま記録するといった制御をおこなってもよい。これは、複数人が話した場合声の成分の分離が困難と判断される場合有用である。
【0029】
従来技術では、カメラと被写体に距離がある場合、人間の声はほとんど中央からのみのしか記録されなかった。他方、本実施例によれば、上述した一連の処理により、画面内の話者の位置に応じて、話者の声が左右に強調される、あるいは、上述した一連の処理によって調整された人間の声の音声信号によって再現される人間の位置が、話者検出部103で検出された話者の位置に近づくように調整される。したがって、より臨場感のあるシーンを撮影することが可能となる。
【0030】
なお、本実施例では2chのステレオ音声を想定して説明したが、5.1chなどの多チャンネル音声でもよい。また、本実施例では人の声を抽出して調整を行っているが、楽器(またはその演奏者)や動物を検出し、その楽器や動物の音成分を抽出してもよい。
【0031】
また、ズームした時とズームしていない時とで、音声の調整の度合いを変えてもよい。広角時に検出した時は、比較的カメラと被写体が近いことが多い為、調整度合いを下げることでより自然なステレオ感となる。このようにズーム倍率などの撮像パラメータや撮影モードなども加味した音声信号の調整をおこなってもよい。
【0032】
また、これらの調整を簡単に設定できるように、カメラで記録する前にあらかじめ設定する手段を設けてもよい。例えば、舞台モード、運動会モード、赤ちゃんモードの3モードを用意する。舞台モードの場合は、カメラ周辺の音を集音しないようにマイクの指向性をカメラ前方に持たせ、人の声の成分を左右に振り分ける度合いを大きくする。そうすることで、舞台のような比較的遠くの話者を撮影する場合にも、より臨場感のある撮影が可能となる。運動会モードでは、周囲の応援も集音したいので、マイクの指向性は広くして、被写体に人物が1人の時だけ人の声の成分を左右に振り分ける。但し、左右の振り分け度合いは弱めとする。これにより、多数の話者が存在し、それぞれの声を集音したい状況でも、自然な撮影が可能となる。赤ちゃんモードは、人の声の成分を抽出する過程において、赤ちゃんの声の成分を特に強調するように設定する。これにより、赤ちゃんの声を鮮明に撮影することが可能となる。これらの設定例は一例であり、本発明はこれに限定するものではない。
【0033】
図1のMUX104は、画像信号処理102から出力される映像データと、音声信号処理107から出力される音声データを、それぞれ圧縮、重畳する処理を行う。記録装置105は圧縮、重畳されたデータを記録する。例えば、大容量光ディスクであるBD(Blu-ray Disc)に記録する場合、映像はH.264/AVC形式で圧縮し、音声はドルビーデジタル形式で圧縮したものをTS(Transport Stream)形式に重畳し記録する。記録媒体は、BDの他、DVD、フラッシュメモリ(SDカードなど)、磁気テープ、ハードディスクなどがある。また、ネットワークを経由し、外部デバイスの記録装置に転送して記録してもよい。本発明はこれらの記録媒体に限るものではない。
【0034】
また、以上に述べた処理の全てまたは一部を計算機上で実現してもよい。すなわち、上述した処理の全てまたは一部を計算機に実行させるソフトウェアと、それを実行するハードウェアである計算機との協働によって、上述した処理を行うようにしても良い。
【0035】
本実施例では、記録時に音声データに直接調整を行い記録媒体に記録する例を示したが、記録時には音声データの調節パラメータを映像音声データとは別に記録し、再生時に該調整パラメータにしたがって再生を行ってもよい。
【0036】
ここで、調整パラメータとは、上述した処理を実行するために必要な情報の全部または一部をいい、上述した処理を途中で中断して記録を終了し、その後、再生時に上述した処理の続きを再開できるようにするために記録しておくための情報である。
【0037】
例えば、話者検出部103が検出した話者の位置を調整パラメータとして、映像音声データとは別に記録しておく。そして、再生時に、この記録しておいた話者の位置を用いて、上述した処理を実行し、人間の声の成分の左右(LR)への分配を調整してもよい。あるいは、上述したLR調整部404が、話者検出401からの出力に応じて、人間の声の成分の左右(LR)への分配を調整する動作において、音声データのいつの時点の人間の声の成分をどの程度左右(LR)への分配するか、という情報を、調整パラメータとして、映像音声データとは別に記録しておく。そして、再生時に、この調整パラメータにしたがって、該当する人間の声の成分を左右(LR)への分配して調整するようにしてもよい。
【0038】
このように、人間の声の成分を左右(LR)へ分配して調整する処理を再生時におこなうことで、記録した後でユーザーが本効果を適用するかどうか選択することが可能となる。
【実施例2】
【0039】
実施例1では、記録時に、特定被写体を検出し、音声を抽出し、抽出した音声の左右調整を行ったが、これらを再生時におこなってもよい。以下、図を参照しながら詳細に説明する。
【0040】
図2は、映像音声データ(映像データ、音声データともいう)を記録する映像音声再生装置の例として、ビデオカメラの構成例を示す図であり、主に再生に関するフローを表している。ただし、本発明はビデオカメラに限定されるものではない。
【0041】
記録再生装置201は、記録媒体への書き出しと、読み出しを行う。再生時には、記録媒体から映像音声データを読み出し、DEMUX202に入力する。DEMUX202は、映像データと音声データを分離し、それぞれ伸長処理を行い、映像データは画像信号処理203へ、音声データは音声信号処理207に入力する。例えば、大容量光ディスクであるBD(Blu-ray Disc)から再生する場合、映像はH.264/AVC形式で圧縮し、音声はドルビーデジタル形式で圧縮したものをTS(Transport Stream)形式に重畳し記録されている。記録媒体は、BDの他、DVD、フラッシュメモリ(SDカードなど)、磁気テープ、ハードディスクなどがある。また、ネットワーク経由し、外部デバイスから記録装置に転送して再生してもよい。本発明はこれらの記録媒体に限るものではない。画像信号処理203と話者検出205は実施例1で述べた画像信号処理101、話者検出103同等の機能を有する為、ここでは省略する。
【0042】
音声信号処理207は、DEMUX202からの出力を入力とし、話者検出205の出力結果によって、音声信号処理を行う。
【0043】
図6に音声信号処理207の詳細を示す。図6の話者検出601、DEMUX602、外部AV出力ユニット606、スピーカユニット607は、それぞれ図2の話者検出205、DEMUX202、外部AV出力ユニット206、スピーカユニット208に対応する。声成分分離部603、LR調整部604と音声重畳部605は、実施例1で説明した、図4の声成分分離部403、LR調整部404と音声重畳部405とそれぞれ同一機能である。つまり、記録再生装置201から読み出された映像データから話者の位置を特定し、その位置に応じて声の成分を左右調整する。
【0044】
このように、特定被写体を検出し、音声を抽出し、抽出した音声の左右に調整する処理を再生時におこなうことで、過去に撮ったビデオを臨場感のある再生が可能となる。また、記録時に行わないことにより、記録した後でユーザーが本効果を適用するかどうか選択することが可能となる。
【0045】
画像信号処理203の出力は、画像表示ユニット204と外部AV出力ユニット206に入力される。一方音声は、音声信号処理207の出力から、スピーカユニット208と外部AV出力ユニット206へ入力される。画像表示ユニット204は、画像信号処理203のデータをLCDなどに表示する。スピーカユニット208は、音声信号処理207から入力される音声データをD/A変換し音を鳴らす。外部AV出力ユニット206は入力される映像音声データを例えばHDMI(High−Definition Multimedia Interface)端子などから出力し、テレビなどに接続できる。
【0046】
以上に述べた処理は、全てまたは一部を計算機上で実現してもよい。ソフトウェアおよびハードウェアによる実現方法は上述したとおりである。
【実施例3】
【0047】
図7は、映像音声データ(映像データ、音声データともいう)を記録する情報記録装置の例として、ビデオカメラの構成例を示す図であり、音声認識結果によって画像認識の動作モードを変化させ、画像認識の精度を向上させる例について説明する。実施例1と同等な部分は省略して説明する。なお、本実施例でもビデオカメラを例とするが、本発明はビデオカメラに限定されるものではない。
【0048】
実施例1では図1において、音声信号処理107があるが、本実施例では音声信号処理107の前段に音声認識処理708を持つ。音声認識処理708は、音声の解析を行い、人間の話し声、楽器の音や車の音などといった音を検出し、その結果を物体検出703に入力する。また、マイクロフォンユニット706から音声認識処理708に入力された音声データは解析に使用するとともに、そのまま音声信号処理707へ入力する。
【0049】
物体検出703は実施例1で述べた話者検出103の機能に加え、話者以外にも楽器や車などといった物体を検出する機能を備え、音声認識処理708からの入力結果によって検出方法を変更することができる。例えば、音声認識処理708から人間の声が含まれていることが検出された場合には、物体検出703では人間を中心に検索するようにする。逆に人間の声が検知できない場合には、話者や楽器、動物などを広く浅く検知する。また、楽器の音色が検出された場合は、その音色に相当する楽器を優先的に探索する。このようにすることにより、音声の認識結果から物体の検出範囲が限定され、限られた時間で、効率よく特定被写体(たとえば物体や人物)を検出することが可能となる。
【0050】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
【産業上の利用可能性】
【0051】
本発明は、例えば、ビデオカメラに適用できる。
【符号の説明】
【0052】
101 撮像ユニット
102 画像信号処理部
103 話者検出部
104 MUX部
105 記録再生装置
106 マイクロフォンユニット
107 音声信号処理部
201 記録再生装置
202 DEMUX部
203 画像信号処理部
204 映像表示ユニット
205 話者検出部
206 外部AV出力ユニット
207 音声信号処理部
208 スピーカユニット
301 撮影時の描画領域
401 話者検出部
402 マイクロフォンユニット
403 声成分分離部
404 LR調整部
405 音声重畳部
406 MUX部
501 ドライブ制御部
502 ハードディスクドライブ
503 光ディスクドライブ
504 フラッシュメモリ
601 話者検出部
602 DEMUX部
603 声成分分離部
604 LR調整部
605 音声重畳部
606 外部AV出力ユニット
607 スピーカユニット
701 撮像ユニット
702 画像信号処理部
703 物体検出部
704 MUX部
705 記録再生装置
706 マイクロフォンユニット
707 音声信号処理部
708 音声認識処理部

【特許請求の範囲】
【請求項1】
撮像し、映像信号を出力する撮像部と、
音声が入力され、音声信号を出力する音声取得部と、
該撮像部から出力された映像信号と該音声取得部から出力された音声信号とを記録する記録部と、
該映像信号から特定被写体の位置を検出する物体検出部と、
該音声信号から該検出された特定被写体に対応する音声を抽出する音声抽出部と、
該物体検出部で検出された特定被写体の位置に応じて、該音声抽出部によって抽出された音声信号の調整を行う音声信号処理部と、
を有する映像音声記録装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−138930(P2012−138930A)
【公開日】平成24年7月19日(2012.7.19)
【国際特許分類】
【出願番号】特願2012−32306(P2012−32306)
【出願日】平成24年2月17日(2012.2.17)
【分割の表示】特願2007−324179(P2007−324179)の分割
【原出願日】平成19年12月17日(2007.12.17)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】