撮像装置
【課題】 撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを生成する撮像装置を得る。
【解決手段】 被写体の撮影により得られた画像信号から、撮影状態の変化を表す画像特徴量を抽出する画像処理部11aと、音声を取得して得られた音声信号から、撮影状態の変化を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化を表す状態特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている検出強度と比較して、この特徴量の発生した撮影タイミングが編集点として妥当であるか否かを判定する。
【解決手段】 被写体の撮影により得られた画像信号から、撮影状態の変化を表す画像特徴量を抽出する画像処理部11aと、音声を取得して得られた音声信号から、撮影状態の変化を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化を表す状態特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている検出強度と比較して、この特徴量の発生した撮影タイミングが編集点として妥当であるか否かを判定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は撮像装置に関し、特に、撮像装置を用いた撮影により得られたオーディオビデオデータに対して編集点を設定するデータ処理に関するものである。
【背景技術】
【0002】
近年、被写体を撮影してデジタル映像データを符号化して記録媒体に記録するデジタル撮像装置が普及し、一般家庭でも大量のデジタル映像データを扱う機会が増えてきた。
【0003】
ところが、一度撮影した映像は、編集してまとめておきたいところではあるが、編集のスタートポイントを探したりするのが面倒である。例えば、運動会や結婚式などで撮影した映像データは、一旦、記録媒体に記録するものの、その編集が面倒であるなどの理由で、一度も見ずに放置してしまっているという状況も考えられる。
【0004】
また、編集のスタートポイントを見つけても、このスタートポイントに相当するピクチャが、予測符号化処理における画面間予測ピクチャとなっているため、開始位置として容易に使用できないなどの課題もある。
【0005】
このように従来の撮像装置で撮影した映像データは、その重要な部分のみを簡単に視聴したり、記録媒体に残しておくようにしたりするには、面倒な編集作業を必要とするものであった。
【0006】
ところで、特開2003−299010号公報には、映像コンテンツ編集支援システムが開示されており、このシステムは、画像を撮影して映像コンテンツデータを記録する撮像装置と、該撮像装置での撮影により得られた映像コンテンツデータをネットワークなどを介してリアルタイムで受信して表示する編集者端末装置とを有している。
【0007】
この編集支援システムの撮像装置は、ユーザ操作などに基づいて電子マークデータを発生する電子マーク発生部と、発生した電子マークデータを、撮影により得られた映像コンテンツデータにそのタイムコードと関連付けて記述する電子マーク挿入部とを有するものである。また、上記編集支援システムの編集者端末装置は、撮像装置からの電子マークデータに基づいて電子マークリストデータを作成するリスト作成部と、撮像装置からの映像コンテンツデータを表示する表示部とを有し、該表示部に、電子マークデータに対応するタイミングに同期した映像コンテンツデータの画像を表示するものである。
【0008】
このような映像コンテンツ編集支援システムでは、撮影中にユーザ操作により、被写体の撮像データである映像コンテンツデータに電子マークデータを付加することにより、撮像により得られた映像コンテンツデータを、パーソナルコンピュータなどの編集者端末装置で電子マークデータに基づいて自動編集されるものとすることができる。
【特許文献1】特開2003−299010号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
ところが、上記文献記載の映像コンテンツ編集支援システムでは、撮影後の編集作業が自動で行われるようにするには、撮影中に、編集位置を示す電子マークデータを映像コンテンツデータに付加しておく必要があり、撮影時には、編集して残すべきと思われる重要な撮影部分にマーカを付加するといったわずらわしい操作を行わなければならないという問題がある。
【0010】
本発明は、上記のような従来の問題点を解決するためになされたもので、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能とする撮像装置を得ることを目的とする。
【課題を解決するための手段】
【0011】
本願の請求項1に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、ものである。
【0012】
本願の請求項2に係る発明は、請求項1記載の撮像装置において、撮影状態を示す固有識別情報を取得する固有識別情報取得部と、取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【0013】
本願の請求項3に係る発明は、請求項2記載の撮像装置において、上記固有特徴量を、撮影中に生じた撮影者の生理変化の大きさ、または撮影者の操作による調整の大きさを示すものとした、ものである。
【0014】
本願の請求項4に係る発明は、請求項3記載の撮像装置において、上記撮影中に生じた撮影者の生理変化は、撮影者の発汗量の変化、α波の変化、まばたきの回数変化、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つであり、上記固有識別情報取得部は、上記撮影者の生理変化を測定する、該生理変化の種類に応じたセンサを有する、ものである。
【0015】
本願の請求項5に係る発明は、請求項1記載の撮像装置において、上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出し、上記音声処理部は、音声の取得により得られた音声信号に対して、上記画像信号に対する符号化処理に対応した符号化処理を施し、上記情報生成部は、上記編集点として妥当であると判定された撮影タイミングに基づいて、画像信号の符号化により得られた画像ストリームにおける特定のピクチャを上記編集点に設定する、ものである。
【0016】
本願の請求項6に係る発明は、請求項1記載の撮像装置において、上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出する、ものである。
【0017】
本願の請求項7に係る発明は、請求項2記載の撮像装置において、ユーザのマニュアル操作信号に基づいて、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量のそれぞれに対する閾値レベルを設定する制御部を有し、上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【0018】
本願の請求項8に係る発明は、請求項2記載の撮像装置において、複数のシナリオのそれぞれと、上記画像特徴量あるいは音声特徴量、並びに固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各種特徴量の閾値レベルを設定する制御部を有し、上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【0019】
本願の請求項9に係る発明は、請求項8記載の撮像装置において、上記テーブル情報を、ネットワーク上の情報端末からダウンロードして取得した情報とした、ものである。
【0020】
本願の請求項10に係る発明は、請求項1記載の撮像装置において、上記情報生成部は、上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定する、ものである。
【0021】
本願の請求項11に係る発明は、請求項10記載の撮像装置において、上記情報生成部は、上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、ものである。
【0022】
本願の請求項12に係る発明は、請求項1記載の撮像装置において、上記画像処理部は、上記情報生成部からの指示により、上記画像処理部により画像信号を符号化して得られたビデオストリームにおける、上記編集点に対応するピクチャを、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、ものである。
【0023】
本願の請求項13に係る発明は、請求項12記載の撮像装置において、上記情報生成部は、上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、ものである。
【0024】
本願の請求項14に係る発明は、請求項1記載の撮像装置において、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記画像処理部は、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、ものである。
【0025】
本願の請求項15に係る発明は、請求項1記載の撮像装置において、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、上記画像処理部は、上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成し、上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、ものである。
【0026】
本願の請求項16に係る発明は、請求項1記載の撮像装置において、上記画像、あるいは音声撮影状態に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録する、ものである。
【0027】
本願の請求項17に係る発明は、請求項16記載の撮像装置において、上記イベントの発生時刻を、再生条件を示すプレイリストとして上記オーディオビデオストリームに記録する、ものである。
【0028】
本願の請求項18に係る発明は、請求項16記載の撮像装置において、上記編集点が、画像、あるいは音声のうちのいずれの要因によるものであるかを示す情報を、上記オーディオビデオストリームに埋め込む、ものである。
【0029】
本願の請求項19に係る発明は、請求項1記載の撮像装置において、上記画像、あるいは音声に変化を与えるイベントが発生した時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとして上記オーディオビデオストリームに埋め込む、ものである。
【0030】
本願の請求項20に係る発明は、、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部と、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する記録部と、上記オーディオビデオストリームを編集する際、上記画像特徴量あるいは音声特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定する特徴量判定部とを備えた、ものである。
【0031】
本願の請求項21に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像方法であって、被写体を撮像して画像信号を出力する撮像ステップと、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、音声を取得して音声信号を出力する音声取得ステップと、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップと、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含む、ものである。
【0032】
本願の請求項22に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する半導体装置であって、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、ものである。
【発明の効果】
【0033】
本願請求項1の発明によれば、撮像装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部とを備えたので、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することができる。
【0034】
本願請求項2の発明によれば、請求項1記載の撮像装置において、撮影状態を示す固有識別情報を取得する固有識別情報取得部と、取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定するので、撮影状態が大きく変化した撮影タイミングを編集点として設定することができる。
【0035】
本願請求項3の発明によれば、請求項2記載の撮像装置において、上記固有特徴量を、撮影中に生じた撮影者の生理変化の大きさ、あるいは撮影者の操作による調整の大きさを示すものとしたので、撮影者が無意識で撮像装置を操作した撮影タイミングや、撮影者が意識を集中したり興奮したりした撮影タイミングを、編集点として設定することができるという効果がある。
【0036】
本願請求項4の発明によれば、請求項3記載の撮像装置において、撮影者の発汗量の変化、α波の変化、まばたきの頻度、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つをセンサにより測定して、このような撮影者の生理変化が撮影中に生じた撮影タイミングを編集点とするので、撮影者にとって重要なシーンを、撮影者の生理変化に基づいて編集することが可能となる。
【0037】
本願請求項5の発明によれば、請求項1記載の撮像装置において、上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出するので、画像の動きに関する画像特徴量を、予測符号化処理で用いる動きベクトルに基づいて正確に抽出することができる。
【0038】
本願請求項6の発明によれば、請求項1記載の撮像装置において、上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出するので、音の大きさに関する音声特徴量を、音声信号に基づいて正確に抽出することができる。
【0039】
本願請求項7の発明によれば、請求項2記載の撮像装置において、上記画像特徴量あるいは音声特徴量、並びに固有特徴量のそれぞれに対する閾値レベルをマニュアル操作信号に基づいて設定する制御部を有するので、画像特徴量あるいは音声特徴量、並びに固有特徴量の検出強度を、ユーザが設定することができ、これにより、撮影した映像データの自動編集にユーザの嗜好などを反映することができる。
【0040】
本願請求項8の発明によれば、請求項2記載の撮像装置において、複数の異なるシナリオのそれぞれと、画像特徴量あるいは音声特徴量、並びに固有特徴量に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作によるシナリオの選択により、上記各特徴量に対する閾値レベルを設定するので、運動会や結婚式といった撮影場所に応じたシナリオを選択するという簡単な操作により、運動会や結婚式などの撮影が行われる場所に応じた自動編集が可能となる。
【0041】
本願請求項9の発明によれば、請求項8記載の撮像装置において、上記テーブル情報は、ネットワーク上の情報端末からダウンロードして取得するので、撮像装置のメーカのホームページなどを利用して、上記画像、音声あるいは撮影状態の変化である各特徴量に対して、画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを判定する、シナリオに合った適切な判定強度を設定することができる。
【0042】
本願請求項10の発明によれば、請求項1記載の撮像装置において、上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定するので、撮影により得られた画像信号が符号化されている状態でも、符号化データを処理することなく、編集点の設定が可能である。
【0043】
本願請求項11の発明によれば、請求項10記載の撮像装置において、上記情報生成部は、上記編集点を、イベント発生から実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定するので、編集点を、ほぼ、イベントが実際に発生したタイミングに設定することができる。
【0044】
本願請求項12の発明によれば、請求項1記載の撮像装置において、上記画像処理部は、上記情報生成部からの指示により、上記画像信号の符号化により画像ストリームを、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化するので、撮影により得られた画像信号が符号化されている状態でも、符号化データを処理することなく、編集点の設定を正確に行うことができる。
【0045】
本願請求項13の発明によれば、請求項12記載の撮像装置において、上記情報生成部は、上記編集点を、イベント発生から実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定するので、編集点を、ほぼ、イベントが実際に発生したタイミングに設定することができる。
【0046】
本願請求項14の発明によれば、請求項1記載の撮像装置において、符号化前のバッファデータがある場合には、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャをVOBユニットの先頭ピクチャとなるよう符号化し、符号化前のバッファデータがない場合には、上記編集点を、上記イベントが発生した撮影タイミングに最も近いVOBユニットの先頭ピクチャに設定するので、符号化前のバッファデータがある場合に、編集点を正確に設定し、符号化前のバッファデータがない場合に、編集点を簡単に設定することができる。
【0047】
本願請求項15の発明によれば、請求項1記載の撮像装置において、符号化前のバッファデータがある場合には、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャをVOBユニットの先頭ピクチャとなるよう符号化し、符号化前のバッファデータがない場合でも、再符号化に要する時間が画像処理部での符号化処理に利用可能な残り時間を超えていないときには、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャがVOBユニットの先頭ピクチャとなるよう再符号化を行い、符号化前のバッファデータがない場合に、再符号化に要する時間が画像処理部での符号化処理に利用可能な残り時間を超えているときには、上記編集点を、上記イベントが発生した撮影タイミングに最も近いVOBユニットの先頭ピクチャに設定するので、符号化前のバッファデータがある場合、また、符号化前のバッファデータがない場合でも再符号化のために必要な時間が符号化に使える残り時間を超えていない場合には、上記編集点を正確に設定し、符号化前のバッファデータがない場合で再符号化のために必要な時間が符号化に使える残り時間を超えているときには編集点を簡単に設定することができる。
【0048】
本願請求項16の発明によれば、請求項1記載の撮像装置において、イベント発生時刻を、上記編集点としてオーディオビデオストリームに記録するので、編集点を非常に簡単に設定することができる。
【0049】
本願請求項17の発明によれば、請求項16記載の撮像装置において、イベント発生時刻を、再生条件を示すプレイリストとしてオーディオビデオストリームに記録するので、編集点を非常に簡単に設定することができる。
【0050】
本願請求項18の発明によれば、請求項16記載の撮像装置において、上記編集点が、、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、オーディオビデオストリームに埋め込むので、編集時には、編集点がどのような要因によるものであるかによって編集点の間引きを行うことも可能である。
【0051】
本願請求項19の発明によれば、請求項1記載の撮像装置において、イベント発生時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとしてストリームに埋め込むので、編集時には、編集点として適切なピクチャを、サムネイル表示により一目で確認することができる。
【0052】
本願請求項20の発明によれば、撮像装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部とを備え、上記編集点情報をオーディオビデオストリームに埋め込むとともに、該オーディオビデオストリームを編集する際に、上記編集点情報が示す撮影タイミング、つまり個々のイベント発生タイミングを、編集に用いるか否かを判定するので、オーディオビデオストリーム作成時には、イベント発生タイミングを編集点とするか否かの判断が不要となる。
【0053】
本願請求項21の発明によれば、撮像方法において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップとを含むので、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することが可能となる。
【0054】
本願請求項22の発明によれば、半導体装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部とを有するので、撮影により得られたオーディオビデオストリームを、その撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集可能なストリームとすることができる半導体装置を得ることができる。
【発明を実施するための最良の形態】
【0055】
以下、本発明の実施の形態について説明する。
(実施の形態1)
図1及び図2は、本発明の実施の形態1による撮像装置を説明するための図であり、図1は、この実施の形態1の撮像装置の全体構成を示し、図2は、この撮像装置により得られるオーディオビデオストリームを示している。
本実施の形態1の撮像装置101は、被写体の撮影により画像信号Sim及び音声信号Sauを得るとともに、得られた画像信号Sim及び音声信号Sauに、撮影状況を示す情報に基づいた信号処理を施して、撮影者にとって重要と思われる撮影部分を自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なMPEG‐2対応のストリーム(以下オーディオビデオデータともいう。)Dを生成するものである。
【0056】
すなわち、この撮像装置101は、被写体を撮影して画像信号Simを出力する撮像部11と、被写体の撮影により得られた画像信号Simに、フィルタ処理、圧縮符号化処理、及び特徴量抽出処理等の信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部11aとを有している。ここで、画像の変化は、イベントの発生により生じた被写体の画像の変化であり、また、画像特徴量は、画像の変化の大きさや、画像が全くあるいは実質的に変化しない期間の長さなどである。
【0057】
上記撮像装置101は、音声を取得して音声信号Sauに出力する音声取得部12と、該音声信号Sauに、フィルタ処理、圧縮符号化処理、及び特徴量抽出処理などの信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部12aとを有している。ここで、音声の変化は、イベントの発生により生じた被写体からの音声の変化であり、音声特徴量は、音声の変化の大きさや、音声が全くあるいは実質的に変化しない期間の長さなどである。
【0058】
上記撮像装置101は、撮影者の撮影状態を識別する固有の識別情報Didを取得する固有識別情報取得部10と、取得した固有識別情報Didにフィルタ処理や特徴量抽出処理などの信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を含む情報を抽出する固有識別情報処理部10aとを有している。ここで、撮影状態の変化は、イベントの発生により生じた撮影者の生理変化や撮影者による撮像装置の操作であり、固有特徴量は、撮影者の生理変化の大きさや、撮影者によるズーム調整,フォーカス調整の大きさなどである。
【0059】
上記撮像装置101は、上記画像処理部11a、音声処理部12a、及び固有識別情報処理部10aでの特徴量抽出処理により得られた特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当かどうかを判定する特徴量判定部21と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する編集点情報生成部22aとを有している。ここで、撮影状況が変化した撮影タイミングは、撮影中に被写体の画像が変化したタイミング、撮影中に被写体からの音声が変化したタイミング、及び、撮影状態が変化したタイミングを含むものである。また、撮影状態の変化は、撮影中に生じた撮影者の生理変化や撮影者の操作によるズーム、フォーカスなどの変化を含むものである。
【0060】
上記撮像装置101は、画像処理部11a、音声処理部12a、及び固有識別情報処理部10aからの情報に基づいて、画像処理部11aでの画像信号Simの圧縮符号化処理により得られた画像ストリーム、音声処理部12aでの音声信号の圧縮符号化処理により得られた音声ストリーム、及び編集点情報生成部22aにて生成された編集点情報を含むオーディオビデオストリームを作成するシステム処理部13と、該オーディオビデオストリームを格納する記録媒体30aと、該記録媒体30aとデータバスDbusとの間に接続された記録媒体インターフェース部30と、ユーザの操作により発生したユーザ操作信号に基づいて、一連の記録再生処理が行われるよう上記各部を制御する制御部20aとを有している。
【0061】
以下、上記各部で行われる信号処理について詳しく説明する。
上記画像処理部11aで行われる画像信号Simに対するフィルタ処理は、特定の周波数帯域の信号のみを抽出する処理である。画像処理部11aで行われる画像信号Simに対する圧縮符号化処理は、MPEG‐2に対応した画面内及び画面間予測符号化処理である。なお、この予測符号化処理は、MPEG‐2に対応したものに限らず、MPEG‐4あるいはMPEG‐4AVCに対応したものであってもよい。また、ここでは、画像信号Simに対する特徴量抽出処理は、撮影された画像が急に変化した急変部分での変化の大きさや、画像が全くあるいは実質的に変化しない状態の継続時間などを、上記画面間予測符号化処理で用いる、画像の動きを示す動きベクトルに基づいて特徴量として抽出する処理である。画像の急変部分は、例えば、撮影者が、ハッとして、特定の被写体にカメラを向けたときの撮影部分などであり、また、映像の非変部分は、例えば、撮影者の視点が特定の方向に定まって動かないときの撮影部分などである。
【0062】
上記音声取得部12で行われる音声信号Sauに対するフィルタ処理は、特定の周波数帯域の信号のみを抽出する処理である。音声取得部12で行われる音声信号Sauに対する圧縮符号化処理は、音声信号を圧縮して音声圧縮データを生成する、MPEG‐2,MPEG‐4などの画像信号に対する符号化処理に対応した処理である。また、ここでは、音声信号Sauに対する特徴量抽出処理は、音声信号の変化の大きさに基づいて、音声が大きく変化した急変部分での変化の大きさや、音声が全くあるいは実質的に変化しない状態の継続時間などを特徴量として抽出する処理である。音声の急変部分は、例えば、撮影されている人が会話をはじめたとき、演奏会などで音楽演奏が始まったとき、あるいは、運動会などでスタートの合図として用いられるピストルやホイッスルの音が発生したときの録音部分などである。また、音声の非変部分は、演劇などの中間幕の一瞬の静かな状態の録音部分などである。
【0063】
上記固有識別情報処理部10aで行われる固有識別情報Didに対するフィルタ処理は、該固有識別情報Didである固有識別情報取得部10の出力信号の特定周波数成分のみ抽出する処理である。固有識別情報処理部10aで行われる固有識別情報Didに対する特徴量抽出処理は、固有識別情報Didの値が急激にあるいは大きく変化した急変部分での変化の大きさや、固有識別情報Didの値が全く変化しなくなった状態の継続時間などを固有特徴量として抽出する処理である。固有識別情報の急変部分は、例えば、撮影者の、意識の集中による緊張が始まったときに生ずる生理現象の特徴的な変化などに対応する。ここで、上記生理現象の特徴的な変化は、例えば、撮影中に生じた撮影者の生理現象の大きな変化である。また、検出の対象となる生理現象は、発汗作用、まばたき、瞳孔の変化、及び脈拍であり、固有識別情報処理部10aは、発汗作用やまばたき等の各種生理現象の変化を検知する、その種類に応じたセンサを有している。例えば、発汗作用は、撮影者の手の熱伝導率を測定するセンサによりモニタすることができる。なお、上記固有識別情報としての撮影者の生理現象は上記のものに限るものではない。
【0064】
また、上記編集点を判定する処理は、特徴量判定部21が、撮影状況が変化した撮影タイミングが編集点として妥当か否かを判定するものであり、具体的には以下の6つの判定処理である。
第1の判定処理は、画像処理部11aからの特徴量である、画面内のすべてのマクロブロックの動きベクトルの大きさが、あるいは画面内の特定のマクロブロックの動きベクトルの大きさが、決められた閾値を超えたか否かを判定し、動きベクトルの大きさが閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【0065】
画面内のすべてのマクロブロックの動きベクトルの大きさが、決められた閾値を超えた場合は、撮像装置の筐体の揺れの大きさがある閾値を超えたこと、あるいは画面輝度レベルが急に変化したことが考えられる。
【0066】
第2の判定処理は、画像処理部11aからの特徴量である、動きベクトルの大きさの変化やフォーカス距離の変化の大きさがある閾値以下である状態が一定時間続いているか否かを判定し、一定時間以上続いていると判定された撮影タイミングを編集点として適切と判定するものである。
【0067】
動きベクトルの大きさの変化やフォーカス距離の変化の大きさが、ある閾値以下を維持している場合は、撮影者の視点が変化していない状態と考えられる。
【0068】
第3の判定処理は、音声処理部12aからの特徴量である、音のダイナミックレンジの変化の大きさが、決められた閾値を超えたか否かを判定し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。なお、音の変化は、被写体からの音の変化だけでなく、撮影者が発する音、例えば咳払いなどの音も含まれる。
【0069】
第4の判定処理は、音のダイナミックレンジの無変化状態が、一定時間続いているか否かを検出し、無変化状態が一定時間以上続いていると判定された撮影タイミングを、編集点として適切と判定するものである。この場合、無変化部分の先頭位置を編集点とすることができる。
【0070】
第5の判定処理は、固有識別情報処理部10aからの特徴量である、撮影者の心拍数の変化の大きさや撮影者の手の熱伝導率の変化の大きさが、ある閾値を超えたか否かを検出し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【0071】
第6の判定処理は、固有識別情報処理部10aからの特徴量である、まばたきの回数変化や瞳孔の変化の大きさなどが、ある閾値を超えたか否かを検出し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【0072】
なお、フォーカスやズームなどの無意識で行われる操作については、画像処理部11aからの特徴量ではなく、専用のセンサの出力レベルに基づいて、これらの操作が行われた撮影タイミングが編集点として妥当か否かを判定するようにしてもよい。この場合、具体的には、固有識別情報取得部10が上記専用センサの出力を、撮影状態を示す固有識別情報として取得し、固有識別情報処理部10aが、該固有識別情報に基づいて、撮影状態の変化の大きさである、撮影者の操作によるフォーカスやズームなどの調整の大きさを示す固有特徴量を取得する。そして、特徴量判定部21が、固有特徴量を判定して、フォーカスやズームなどの撮影状態が変化した撮影タイミングが編集点として妥当か否かを判定する。また、撮影者の脳波、例えばα波を測定するセンサを設け、該センサの出力レベルに基づいて、α波が変化した撮影タイミングが編集点として妥当か否かを判定するようにしてもよい。この場合、具体的には、固有識別情報取得部10が上記α波測定センサの出力レベルを、撮影状態を示す固有識別情報として取得し、固有識別情報処理部10aが、該固有識別情報に基づいて、撮影状態を表す撮影者のα波の変化の大きさを示す固有特徴量を取得する。そして、特徴量判定部21が、固有特徴量を判定して、撮影状態を表す撮影者のα波が変化した撮影タイミングが編集点として妥当か否かを決定する。また、画像や音の特徴量は、撮影により得られた画像信号や音声信号を信号処理して抽出するのではなく、専用のセンサを用いて検出することも可能である。
【0073】
また、この実施の形態1では、編集点情報生成部22aは、編集点として適切と判定された撮影タイミングを示す情報と、この撮影タイミングが、例えば、音の変化や映像の変化,あるいは撮影状態の変化などの特徴量のうちのどのような特徴量に基づいて判定されたものであるかを示す情報とを生成してシステム処理部13に出力するものである。また、編集点情報生成部22aは、編集点として判定された撮影タイミングに最も近い、この撮影タイミング以前のVOBユニットの先頭のIピクチャを、編集時にアクセスポイントとして用いるピクチャに設定し、このように編集点を上記Iピクチャに設定したことを示す情報をシステム処理部13に出力する。また、システム処理部13は、編集点情報生成部22aからの情報に基づいて、オーディオビデオストリームDに含まれる管理情報であるプレイリストを更新するものとなっている。
つまり、システム処理部13により作成されたオーディオビデオストリームのプレイリストは、編集点として適切と判定された撮影タイミングを示す編集点情報と、編集点として適切と判定された撮影タイミングが、どのような特徴量に基づいて判定されたものであるかを示す情報と、編集時にアクセスポイントとして用いるピクチャにいずれのピクチャを設定したかを示す情報とを含んでいる。
【0074】
但し、上記アクセスポイントとして用いるピクチャは、編集点として判定された、単に画像や音声などの撮影状況が変化した撮影タイミングに最も近い、この撮影タイミング以前のIピクチャに限るものではなく、例えば、編集点の設定を行う、画像の変化や音声の変化などの要因に応じて、被写体の画像または音声、あるいは撮影者の撮影状態に変化を与えるイベントが発生したタイミングから、このイベントに起因する特徴量が検出されるまでの遅延時間を考慮して、編集点とするピクチャを決定しても良い。例えば、撮影状況が変化したタイミングから上記遅延時間だけ遡った撮影タイミングに一番近いIピクチャを編集点として用いるピクチャに設定してもよい。この場合、遅延時間は、フォーカス情報などに応じて決定した時間としても、予めすべの要因に対して一律に、あるいは個々の要因に対して別々に決められた固定の時間としてもよい。
【0075】
また、本実施の形態1では、オーディオビデオストリームはMPEG‐2に対応するものとしているため、上記画像、音声、あるいは撮影状態を変化させるイベントが発生した時刻を、上記画像、音声、あるいは撮影状態の変化の特徴を示す特徴量が検出された時刻として、プレイリストに含めて、該ストリームの管理情報記録領域に書き込んでいるが、該ストリームはMPEG‐4AVCに対応するものでもよく、この場合は、特徴量検出時刻のみを、該ストリームの付加情報記録領域(SEI)に記録してもよい。
【0076】
また、この実施の形態1では、制御部20aは、撮影前にユーザにより選択されたシナリオに基づいて特徴量判定部21に指令信号を出力して、編集点の設定を行う要因となる、例えば、音、映像、撮影者の生理現象などを決定するとともに、編集点設定を行う要因が変化した撮影タイミングを編集点と判定する際の判定強度、つまり特徴量の閾値を決定するものとしている。
【0077】
また、上記制御部20aは、ユーザが、本撮像装置によるガイダンスに応じて、運動会、演奏会、結婚式、旅行などの、撮影場所を選択すると、撮影状況の変化のパターン、例えば、音量の変化パターン、明るさの変化パターン、撮影者の生理現象の変化パターンなどに応じて、編集点設定のための各種の要因に対する判定強度が、予め容易された複数の既定値のうちの1つに設定する。但し、各種の要因に対する判定強度として用意されている既定値は、ユーザの好みなどに応じて、独自に調整可能としてもよい。
【0078】
なお、この撮影装置101は、図示していないが、上記制御部20aからの制御信号に基づいて、記録媒体に記録されたオーディオビデオストリームを復号化して再生する再生部を有している。
【0079】
次に、上記記録媒体に記録されたAVデータの構造について簡単に説明する。
図2は、記録媒体に記録されたAVデータの構造を説明する図である。
ここで、記録媒体は、DVD(Digital Versatile Disk)ディスクなどのディスク状記録媒体としている。ただし、記録媒体は、DVDなどのディスク状記録媒体に限るものではなく、例えば、HDD(ハードディスクドライブ)、メモリーカード、あるいは磁気テープなどでもよい。また、上記記録媒体には、1つのコンテンツに対応する画像信号Sim及び音声信号Sauを符号化して得られたストリームDsと、これらのコンテンツに対応する管理情報Dmとを含むオーディオビデオストリームDが書き込まれている。この管理情報Dmは、ディスク状記録媒体の中心近傍の内側領域に書き込まれ、上記ストリームDsは、この内側領域の外側の領域に書き込まれている。また、ストリームDsは、VOBユニットVOBUにより区分されている。
【0080】
また、上記管理情報DmはプレイリストDmpを含んでおり、このプレイリストDmpには、複数の補助情報playitem[0],[1],[2],・・・,[n],・・・が含まれている。
【0081】
例えば、図2に示す符号化データDのストリームDsには、VOBユニットVOBU(m−k)VOBユニットVOBU(m)、VOBユニットVOBU(m+q)が含まれており、特定のVOBユニットVOBU(m)に対応するプレイリストの補助情報playitem[n]には、時間情報Dtm、AV情報Dav、操作情報Dop、生理的情報Dph、及び編集済みフラグDefが含まれている。ここで、時間情報Dtmは、VOBユニットVOBU(m)の開始時刻を示す情報Dstと、VOBユニットVOBU(m)の終了時刻を示す情報Detとを含んでいる。AV情報Davは、画像に関する特徴量を示す情報Dvi、及び音声に関する特徴量を示す情報Dauを含んでいる。操作情報Dopは、手ブレの程度を示す情報Dhm、フォーカス操作時の操作量を示す情報Dfo、及びズーム操作時の操作量を示す情報Dzmを含んでいる。生理的情報Dphは、撮影者の発汗量を示す汗情報Dsu、撮影者のα波強度を示すα波情報Dαw、操作者のまばたきの頻度を示すまばたき情報Dbk、操作者の瞳孔変化の程度を示す瞳孔情報Dpu、及び操作者の脈拍数を示す脈拍情報Dpsを含んでいる。このように、上記画像、音声、あるいは撮影状態を変化させるイベントが発生した時刻は、上記画像、音声、あるいは撮影状態の変化の特徴を示す特徴量が検出された時刻として、実質的に、プレイリストに含めて該ストリームの管理情報記録領域に書き込まれている。
【0082】
次に動作について説明する。
〔撮影前の設定操作〕
まず、撮影前のマニュアル設定操作について説明する。
撮影者は、運動会や結婚式などの催し物に合わせて、撮影状況が変化した撮影タイミングが編集点として適切であるか否かの判定に用いる判定強度を設定する。
【0083】
この判定強度については、撮像装置に予め設定されている複数のシナリオのうちから、運動会や結婚式に対応するものを選択することにより、編集点設定のための個々の要因に対する判定強度を、選択されたシナリオに応じた値に設定することもできるが、ここでは、操作者がマニュアルで設定する操作について説明する。
【0084】
図3は、撮像装置100の編集点挿入設定を行う画面を示している。
この設定画面100a上には、AV情報の設定ボタン110、操作情報の設定ボタン120、生理的情報の設定ボタン130が表示されている。また、設定画面100aの右下部分には、生理的情報のより詳細な設定を行う詳細設定画面130aが表示されており、該詳細設定画面130a上には、汗情報の設定ボタン131、瞳孔情報の設定ボタン132、及び脈拍情報の設定ボタン133が表示されている。なお、図3では、示していないが、AV情報のより詳細な設定を行う詳細設定画面や操作情報のより詳細な設定を行う詳細設定画面も表示可能となっている。
【0085】
それぞれのボタンは、各要素に対する判定強度を、“−”表示が示す最小レベルと、“+”表示が示す最大レベルとの間で、任意のレベルに設定可能となっている。なお、“0”表示は、これらの中間のレベルを示している。
【0086】
ここで、例えば、汗情報に関する判定強度のレベルが高いということは、発汗量の変化が比較的小さくても、この発汗量の変化が生じた撮影タイミングを、編集点として適切であると判定するということである。一方、汗情報に関する判定強度のレベルが小さいということは、発汗量の変化が比較的大きくても、この発汗量の変化が生じた撮影タイミングは、編集点として適切でないと判定するということである。
【0087】
例えば、運動会など競技大会で撮影を行う場合には、演技や競技の開始時にはその合図などの音声の大きな変化が発生すると考えられるため、AV情報の音声要素に対する判定強度を平均的なレベルより強く設定し、また、生理的情報の脈拍要素に対する判定強度なども、競技中は撮影者がハラハラする場合も考えられることから、強めに設定するのがよいと考えられる。
【0088】
旅行などで風景を撮影する場合には、撮影者は、AV情報の画像要素に対する判定強度を平均的なレベルより強く設定し、また、遠くの景色などを撮影する場合も考えられるので、フォーカスやズームの操作量に対する判定強度を高くする場合があると考えられる。
【0089】
また、結婚式では、撮影者は、AV情報の画像特徴量の判定強度及び音声特徴量の判定強度をともに平均的なレベルより強く設定し、生理的情報の各要素の特徴量についても比較的判定強度を高く設定する場合が考えられる。
【0090】
このような判定強度の設定は、ユーザ操作、つまり撮影者のマニュアル操作に応じて上記制御部20aにて行われ、制御部20aは、ユーザ操作に応じて設定された各要素に対する判定強度を示す制御信号を上記特徴量判定部21に供給する。その後、撮影者が撮影を行うと、上記特徴量判定部21は、上記各特徴量を、対応する、上記制御部20aで設定された判定強度(閾値レベル)に基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する。
【0091】
〔撮影時の動作〕
続いて、撮影時の撮像装置の動作について具体的に説明する。
図4は、実施の形態1の撮像装置の動作フローを説明する図である。
撮影が開始されると(ステップS1)、撮像装置101は、画像情報、音声情報、及び撮影状態に関する情報を取得する(ステップS2)。
【0092】
具体的には、上記ステップS2では、撮像部11が、被写体の撮像により画像信号Dimを出力する処理、音声取得部12が音声を取得して音声信号Dauを出力する処理、及び、固有識別情報取得部10が撮影者による撮像装置の操作及び撮影者の生理的変化を検知して、操作量及び生理的な変化に関する固有識別情報Didを出力する処理が並行して行われる。
【0093】
すると、固有識別情報処理部10aは、固有識別情報取得部10からの固有識別情報Did及び制御部20aからの制御信号に基づいて、フォーカスやズーム操作における操作量、及び撮影者の生理的な変化の大きさを示す、発汗量、まばたきの頻度、脈拍数の変動量など特徴量を検出する(ステップS2a)。また、画像処理部11aでは、撮影部11からの画像信号Dim及び制御部20aからの制御信号に基づいて、画像信号に対してMPEG‐2対応の予測符号化処理を施して画像ストリームを生成するとともに、該予測符号化処理で用いる動きベクトルに基づいて、画像が急変した部分での画像変化の大きさなどである画像の特徴量を含む画像情報を取得する(ステップS2b)。また、音声処理部12aでは、音声取得部12からの音声信号Dim及び制御部20aからの制御信号に基づいて、音声信号に対して符号化処理を施して音声ストリームを生成するとともに、該音声信号に基づいて、音声が急変した部分での音声変化の大きさなどである音声の特徴量を含む音声情報を取得する(ステップS2c)。
【0094】
次に、特徴量判定部21は、ユーザ操作や撮影者の生理的変化に関する特徴量、画像に関する特徴量、及び音声に関する特徴量と、各特徴量に対して設定されている判定強度とに基づいて、特徴量が検出された撮影タイミングが編集点として妥当であるかを判定する(ステップS3)。
【0095】
続いて、編集点情報生成部22aは、編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成するとともに、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する(ステップS4)。
【0096】
その後、システム処理部13は、制御部20aからの制御信号に基づいて、上記画像ストリーム、音声ストリーム、編集点情報、及び編集点ピクチャ情報を含むオーディオビデオストリームを作成して記録媒体インターフェース30に出力する。すると、記録媒体インターフェースは、入力されたオーディオビデオストリームを記録媒体に記録する(ステップS5)。
【0097】
以下、編集点を判定するステップS3の処理について説明する。
具体的には、特徴量判定部21は、制御部20aからの判定強度を示す制御信号に基づいて、固有識別情報処理部10aで検出された固有特徴量、画像処理部11aで検出された画像特徴量、音声処理部12aで検出された音声特徴量のそれぞれについて、それぞれの特徴量が検出された撮影タイミングが編集点として妥当であるか否かを判定する。
【0098】
例えば、固有識別情報処理部10aで検出された、手ブレに関する特徴量は、撮影者の手ブレの大きさである。この検出された手ブレの大きさが、予め撮影前に設定されている判定強度、つまり手ブレの大きさの閾値以上であれば、この手ブレに関する特徴量が検出された撮影タイミングが編集点として妥当であると判定され、手ブレの大きさが上記判定強度より小さければ、該撮影タイミングは編集点として妥当でないと判定される(ステップS3a)。また、固有識別情報処理部10aで検出された、フォーカスに関する特徴量、及びズームに関する特徴量は、それぞれ、フォーカス操作により変化したフォーカス変動量、及びズーム操作により変化したズーム変動量である。そして、これらの特徴量についても、手ブレに関する特徴量と同様に、その大きさが撮影前に設定されている判定強度以上であるか否かに応じて、特徴量が検出された撮影タイミングが編集点として妥当であるか否かが判定される(ステップS3a)。
【0099】
さらに、固有識別情報処理部10aで検出された、発汗に関する特徴量は、撮影者の発汗量である。この検出された発汗量が、予め撮影前に設定されている判定強度、つまり発汗量の閾値以上であれば、この発汗に関する特徴量が検出された撮影タイミングが編集点として妥当であると判定され、上記発汗量が上記検出強度より小さければ、該撮影タイミングは編集点として妥当でないと判定される。また、固有識別情報処理部10aで検出された、α波に関する特徴量、まばたきに関する特徴量、瞳孔に関する特徴量、及び脈拍に関する特徴量は、α波の変化の大きさ、まばたきの頻度、瞳孔の変化の大きさ、及び脈拍数の変化の大きさである。そして、これらの撮影者の生理変化に関する特徴量についても、発汗に関する特徴量と同様、その値が予め撮影前に設定されている判定強度以上であるか否かに応じて、それぞれの特徴量が検出された撮影タイミングが編集点として妥当であるか否かが判定される(ステップS3a)。
【0100】
画像処理部11aで検出された、画像に関する特徴量は、画像が急に変化した部分での変化の大きさ、あるいは画像がまったくあるいは実質的に変化しない部分が継続した時間である。そして、この検出された画像急変部分での変化の大きさ、あるいは画像無変化状態の継続時間が、予め撮影前に設定されている判定強度、つまり変化の大きさの閾値、あるいは状態継続時間の閾値以上であれば、これらの特徴量が検出された撮影タイミングが編集点として妥当であると判定され、そうでなければ、撮影タイミングは編集点として妥当でないと判定される(ステップS3b)。
【0101】
音声処理部12aで検出された、音声に関する特徴量は、音声が大きく変化した部分での変化の大きさ、あるいは音声がまったくあるいは実質的に変化しない状態が継続した時間である。そして、この検出された音声急変部分での変化の大きさ、あるいは音声無変化状態の継続時間が、予め撮影前に設定されている判定強度、つまり変化の大きさの閾値、あるいは状態継続時間の閾値以上であれば、これらの特徴量が検出された撮影タイミングが編集点として妥当であると判定され、そうでなければ、該撮影タイミングは編集点として妥当でないと判定される(ステップS3c)。
【0102】
その後、編集点情報生成部22aは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、該特徴量が検出された撮影タイミングが編集点として妥当であると判定される度に、該撮影タイミングを示す編集点情報を生成するとともに、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する(ステップS4)。
【0103】
図5は、編集点の設定処理を具体的に説明する図であり、図5(a)は、処理フローを示し、図5(b)は、撮影タイミングと、画像ストリームにおけるVOBユニットの切れ目との関係を示している。
【0104】
この実施の形態1では、編集点情報生成部22aは、特徴量による遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベントの発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
【0105】
次に、編集点情報生成部22aは、上記特徴量が検出された撮影タイミングTcpから、上記算出された遅延時間Δtだけ遡った撮影タイミングTepより前で最も近いVOBユニット(i)の切れ目を編集点に設定する(ステップS12a)。
【0106】
その後、編集点情報生成部22aは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、図5(b)に示すように、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットVOBU(f)の先頭のIピクチャF1に設定したことを示す編集点設定情報を生成する。そして、オーディオビデオストリームのプレイアイテムを、撮影タイミングTepが編集点に設定されたことが示されるよう変更する(ステップS13)。
【0107】
なお、図5(b)では、ピクチャF1は、その符号化あるいは復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャF4、F7、F10は、符号化あるいは復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャF2、F3、F5、F6、F8、F9は、符号化あるいは復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
【0108】
そして、各VOBユニットは、複数のピクチャからなり、その先頭にはIピクチャが位置し、隣接するIピクチャとPピクチャの間、あるいは隣接する2つのPピクチャの間には2つのBピクチャが配置されている。また、VOBユニットVOBU(f−1)及びVOBU(f+1)は、VOBユニットVOBU(f)の前後に位置するVOBユニットである。
【0109】
〔再生時の動作〕
そして、再生時には、記録媒体に記録されたオーディオビデオストリームは、埋め込まれている編集点情報、つまり先頭ピクチャが編集点に設定されているVOBユニットに対応するプレイリストの開始時刻と終了時刻に基づいて自動編集して再生される。
【0110】
なお、上記記録媒体に記録されたオーディオビデオストリームの再生は、編集点をピックアップして自動編集して行うものに限らず、ユーザが設定した編集条件に基づいて、記録されたオーディオビデオストリームにおける、設定された編集条件を満たす部分のみを編集して行うものであってもよい。
【0111】
図6は、例えば、設定条件に基づいて、記録されたオーディオビデオストリームを自動編集して再生する処理を説明する図である。
実施の形態1では、撮像装置101の再生部(図示せず)は、記録媒体に記録されたオーディオビデオストリームの再生が開始されると、該オーディオビデオストリームに含まれるプレイリストの各アイテムに基づいた処理が完了しているが否かを判定する(ステップS21)。処理が終了している場合は、再生を終了する。
【0112】
一方、上記再生部は、ステップS21での判定の結果、処理が終了していない場合は、編集点が編集条件を満たしているか否かを判定し(ステップS22)、特徴量に関する設定条件を満たしているVOBユニットVOBUを再生する(ステップS23)。
【0113】
なお、オーディオビデオストリームに含まれている編集点に関する情報は、自動編集に利用できるだけでなく、ユーザによるオーディオビデオストリームの編集作業に利用することもできる。
【0114】
図7は、このような編集点の利用方法を説明する図であり、記録媒体に記録されているオーディオビデオストリームを編集するための表示画面を示している。
ここでは、表示装置200は、テレビジョンセットやパーソナルコンピュータの表示部であり、その表示画面210には、記録媒体に記録されている1つのコンテンツに対応するオーディオビデオストリームの全体を示す帯状インジケータ211、該オーディオビデオストリームにおける特定のVOBユニット211aを拡大して示す帯状インジケータ212、該VOBユニット211aにおける、編集点となっているピクチャ212a、212b、212c、212dのサムネイル画面213a、213b、213c、213dが示されている。
【0115】
また、表示画面210には、処理用サムネイル表示領域220があり、この領域220には、ユーザが編集条件を調整する対象となっている編集点のピクチャが表示されている。表示画面210では、処理用サムネイル表示領域220と隣接して、編集点のピクチャが満たすべき編集条件である特徴量の判定強度を調整するための、各要素に対応した操作領域230及び240が表示されている。
【0116】
ユーザは、このように表示画面210上で、各編集点に設定されているピクチャが満たすべき編集条件、つまり特徴量の判定強度を調整することができる。
【0117】
なお、上記編集サポートのための表示は、Iピクチャをすべてサムネイル画面で表示し、編集点となるピクチャのサムネイル画面を、他のIピクチャのサムネイル画面よりも大きくすることも可能である。
【0118】
また、上記編集サポートのための表示は、編集点となるピクチャをサムネイル表示する順序は、特徴量の発生要因の種別に応じた順序としても、あるいは、すべての要因に対して正規化した特徴量の大きさ順としもよい。
【0119】
さらに、上記編集サポートの表示は、編集点に設定されているピクチャをスライドショー形式で順次表示するものでもよく、この場合、必要な編集点を要否選択することで一次編集を行い、細かな2次編集のためのサポートを行うことも可能である。
【0120】
また、上記編集サポートのための表示は、編集点から数秒ずつを自動的につなぎ合わせて、好みのBGMの音程やテンポに合せて編集点を切り替えてダイジェストで表示するものであってもよい。この場合、記録されているオーディオビデオストリームをこのようなダイジェスト版になるよう編集しなおしても、特に編集しないでもこのような表示を行うだけでもよい。
【0121】
またさらに、制御部20aあるいは編集点情報生成部22aは、編集が終了したかどうかを認識するフラグも管理するものとし、記録されたオーディオビデオストリームは、編集されたものか否かの情報を有するものとしてもよい。
また、編集されたオーディオビデオストリームは、実データ部分は変更しないで、プレイリストのみ変更したものであってもよい。
【0122】
このように本実施の形態1の撮像装置101では、被写体の撮影により得られた画像信号Dimから、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号Dauから、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報Didに基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、上記画像や音声が変化した撮影タイミングが編集点として妥当であるか否かを決定するので、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【0123】
また、この実施の形態1では、編集点は、編集点として妥当であると判定された撮影タイミングに近い、AV符号化データにおけるVOBユニットの切れ目に設定しているので、撮影により得られた画像信号が符号化されている状態でも、符号化された画像信号を処理することなく、編集点の設定が可能である。
【0124】
また、この実施の形態1では、編集点を、イベントの発生時点からイベント発生により撮影状況が変化するまでの遅延時間だけ、撮影状況が変化した撮影タイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生したタイミングに設定することができる。
【0125】
また、この実施の形態1では、撮影状況が変化した撮影タイミングを編集点として適切であると判定する際の判定強度を、操作者がマニュアルで設定する場合について説明したが、編集点設定のための個々の要因に対する判定強度は、撮像装置に予め設定されている複数のシナリオのうちから、運動会や結婚式に対応するものを選択することにより、設定するようにしてもよい。
【0126】
このようにシナリオの選択により個々の要因に対する判定強度を決定する撮像装置は、例えば、実施の形態1の撮像装置において、上記制御部を、複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各要因に対応する特徴量の閾値レベルを設定するものとし、さらに上記特徴量判定部を、上記画像特徴量、音声特徴量、及び固有特徴量を、それぞれに対応する、上記制御部で設定された閾値レベルに基づいて、上記画像、音声、及び撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを判定するものとすることにより、実現することが可能である。
【0127】
この場合、上記複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報には、ネットワーク上の情報端末からダウンロードして取得したものを利用することも可能である。
【0128】
なお、上記テーブル情報に含まれる各特徴量の閾値レベルの組み合わせは、画像特徴量、音声特徴量、及び固有特徴量のうちの2つでもよく、また、上記テーブル情報は、複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量のいずれか1つに対する閾値レベルとの対応関係を示すものでもよい。
【0129】
(実施の形態2)
図8は、本発明の実施の形態2による撮像装置を説明するための図である。
本実施の形態2の撮像装置102は、実施の形態1の撮像装置101における編集点情報生成部22aに代えて、編集点となるピクチャがIピクチャでない場合は、編集点となるピクチャとその近傍のピクチャのピクチャタイプを変更するよう画像処理部11aに再符号化を指令する編集点情報生成部22bを備えたものである。また、制御部20bは、再符号化時に画像処理部11aを制御する点のみ、実施の形態1の制御部20aと異なっている。そして、本実施の形態2の撮影装置102のその他の構成は、実施の形態1の撮像装置101と同一である。
【0130】
次に動作について説明する。
この実施の形態2の撮像装置102では、撮影前のマニュアル設定操作は、実施の形態1と同様に行われる。
【0131】
撮影が開始されると、撮像装置102の特徴量判定部21は、実施の形態1の撮像装置101と同様、画像情報、音声情報、及び撮影状態に関する情報を取得し、該取得した情報から得られた、ユーザ操作や撮影者の生理的変化の特徴量、画像の特徴量、及び音声の特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であるか否かを判定する。
【0132】
そして、この実施の形態2では、編集点情報生成部22bは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であると判定される度に、編集点を示す編集点情報を生成し、編集点に対応するピクチャがIピクチャ以外である場合には再符号化の指令を画像処理部11aに対して行う。
【0133】
図9は、編集点情報の生成処理、及び再符号化処理のフローを示す。
この実施の形態2では、制御部20bは、特徴量の種類に応じた遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベント発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
【0134】
次に、編集点情報生成部22bは、上記特徴量が検出された撮影タイミングTcpから上記遅延時間だけ遡った撮影タイミングTepに対応するピクチャを先頭するVOBユニットを強制的に作成するよう画像処理部11aに指令する。すると、画像処理部11aは、強制的にVOBユニットVOBUを作成しなおす再符号化処理を行う(ステップS12b)。
【0135】
その後、編集点情報生成部22bは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、図10(b)〜(d)に示すように、編集点を、強制的に作成したVOBユニットVOBUの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する。そして、オーディオビデオストリームのプレイアイテムを、撮影タイミングTepが編集点に設定されたことが示されるよう変更する(ステップS13)。
【0136】
以下、強制的にVOBユニットVOBUを作成しなおす再符号化処理を説明する図である。
図10(a)は、複数のピクチャF1、F2、F3、F4、F5、F6、F7、F8、F9、F10、・・・からなる1つのVOBユニットVOBU(f)を示している。
【0137】
ここで、ピクチャF1は、その符号化及び復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャF4、F7、F10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャF2、F3、F5、F6、F8、F9は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャであり、図10(a)に示す各ピクチャは、MPEG‐2で規定されている本来の参照関係となっている。
【0138】
図10(b)は、編集点となるピクチャが、VOBユニットVOBU(f)の4番目のピクチャF4となり、このピクチャF4のピクチャタイプを変更し、かつその前の2つのBピクチャF2及びF3の参照関係を変更する場合を示している。
【0139】
この場合は、ピクチャF4は、PピクチャからIピクチャに変更され、BピクチャF2及びF3は、前方のIピクチャF1のみを参照するよう再符号化される。また、ピクチャF4を先頭とする新たなVOBユニットVOBU(fb1)が作成され、ピクチャF4以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa1)は、BピクチャF2及びF3の参照関係を変更した、VOBユニットVOBU(fb1)直前の新たなVOBユニットである。
【0140】
図10(c)は、編集点となるピクチャが、VOBユニットVOBU(f)の5番目のピクチャF5となり、このピクチャF5及びその後のBピクチャF6の参照関係を変更し、PピクチャF7のピクチャタイプを変更する場合を示している。
【0141】
この場合は、ピクチャF7は、PピクチャからIピクチャに変更され、ピクチャF5及びF6は、ピクチャタイプが変更された後方のIピクチャF7のみを参照するよう再符号化される。また、ピクチャF5を先頭とする新たなVOBユニットVOBU(fb2)が作成され、ピクチャF8以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa2)は、PピクチャF4を最終ピクチャとする、VOBユニットVOBU(fb2)直前の新たなVOBユニットである。
【0142】
図10(d)は、編集点となるピクチャが、VOBユニットVOBU(f)の6番目のピクチャF6となり、このピクチャF6の参照関係と、その前後のBピクチャF5及びF7の参照関係を変更する場合を示している。
【0143】
この場合は、ピクチャF7は、PピクチャからIピクチャに変更され、ピクチャF5は、その前方のPピクチャF4のみを参照し、ピクチャF6は、その後方のPピクチャF7のみを参照するよう再符号化される。また、ピクチャF6を先頭とする新たなVOBユニットVOBU(fb3)が作成され、ピクチャF8以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa3)は、PピクチャF5を最終ピクチャとする、VOBユニットVOBU(fb3)直前の新たなVOBユニットである。
【0144】
このような構成の実施の形態2では、被写体の撮影により得られた画像信号から、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号から、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、画像や音声などが変化した撮影タイミングが編集点として妥当であるか否かを判定するので、実施の形態1と同様、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【0145】
また、この実施の形態2では、編集点は、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となるよう、そのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化するので、撮影により得られた画像信号が符号化されている状態でも、編集点の設定を正確に行うことができる。
【0146】
また、この実施の形態2では、編集点は、イベントの発生から該イベント発生により撮影状態が変化するまでの遅延時間だけ、画像や音声などの撮影状況が変化した撮影タイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生したタイミングに設定することができる。
【0147】
なお、上記実施の形態2では、編集点に設定されたピクチャが画面間予測ピクチャである場合は、このピクチャが面内予測ピクチャとなるようトランスコードして記録するようにしているが、トランスコードにより得られた面内予測ピクチャは、上記編集点に設定された画面間予測ピクチャとは別に、そのサブピクチャとして記録するようにしてもよい。
この場合、編集時には、編集点に設定されている画面間予測ピクチャをそのサブピクチャとして記録されている画面内予測ピクチャと置き換え、該置き換えた画面内予測ピクチャを、編集点であるVOBユニットの先頭ピクチャとして再生に利用することができる。
【0148】
(実施の形態3)
図11は、本発明の実施の形態3による撮像装置を説明するための図である。
本実施の形態3の撮像装置103は、実施の形態1の撮像装置101における編集点情報生成部22aに代えて、編集点を挿入する際、符号化前のバッファデータがあるか否かによって、先頭ピクチャが編集点に対応した新たなVOBユニットVOBUを生成する処理と、編集点をこの編集点に最も近いVOBユニットVOBUの切れ目に設定する処理とを切り替える編集点情報生成部22cを備えたものである。また、制御部20cは、編集点の設定処理の切り替えに応じて画像処理部11aを制御する点のみ、実施の形態1の制御部20aと異なっている。そして、本実施の形態3の撮影装置103のその他の構成は、実施の形態1の撮像装置101と同一である。
【0149】
次に動作について説明する。
この実施の形態3の撮像装置では、撮影前のマニュアル設定操作は、実施の形態1と同様に行われる。
【0150】
撮影が開始されると、撮像装置103は、実施の形態1の撮像装置101と同様、画像情報、音声情報、及び撮影状態を示す情報を取得し、該取得した情報から得られた、ユーザ操作や撮影者の生理的変化の特徴量、画像の特徴量、及び音声の特徴量に基づいて、画像や音声などの撮影状況が変化した撮影タイミングが編集点として妥当であるか否かを判定する。
【0151】
そして、この実施の形態3では、編集点情報生成部22cは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であると判定される度に、編集点を設定した撮影タイミングを示す編集点情報を生成し、編集点の設定処理を行う。
【0152】
図12は、編集点の設定処理のフローを示す。
この実施の形態3では、制御部20cは、特徴量の種類に応じた遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベント発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
【0153】
次に、編集点情報生成部22cは、遅延時間の算出時点で、符号化前の画像信号であるバッファデータがあるか否かを判定し(ステップS11a)、符号化前のバッファデータがあると判定された場合は、作成途中のVOBユニットVOBUをクローズして、新たなVOBユニットVOBUを作成する(ステップS12c)。一方、ステップS11aにて、符号化前のバッファデータがないと判定された場合は、撮影状況が変化したタイミングTcpから、算出された遅延時間だけ遡った撮影タイミングTep以前で、この撮影タイミングTepに最も近いVOBユニットVOBUの切れ目を編集点とする処理を行う(ステップS12a)。このステップS12aの処理は、実施の形態1のステップS12aの処理と同じものである。
【0154】
その後、編集点情報生成部22cは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、上記ステップS12a及びS12cのいずれかの処理により編集点が設定されたかが示されるよう、システムストリームのプレイアイテムを変更する(ステップS13)。
【0155】
以下、図13は、上記ステップS12cで、先頭ピクチャを編集点に設定した新たなVOBユニットVOBUを作成する処理を説明する図である。
図13(a)は、複数のピクチャJ1、J2、J3、J4、J5、J6、J7、J8、J9、J10、・・・からなる1つのVOBユニットVOBU(j)を示している。
【0156】
ここで、ピクチャJ1は、その符号化及び復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャJ4、J7、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャJ2、J3、J5、J6、J8、J9は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャであり、VOBユニットVOBU(j)の各ピクチャは、MPEG‐2で規定されている本来の参照関係となっている。
【0157】
図13(b)は、VOBユニットVOBU(j)の4番目のピクチャJ4を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるPピクチャとして符号化されるべきピクチャJ4は、新たなVOBユニットVOBU(ja)の先頭のIピクチャJa1として符号化される。VOBユニットVOBU(j)における、それぞれBピクチャである2番目ピクチャJ2と3番目のピクチャJ3は、前方のIピクチャJ1のみを参照するBピクチャとして符号化される。なお、VOBユニットVOBU(ja)におけるピクチャJa4、Ja7は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、VOBユニットVOBU(ja)におけるピクチャJa2、Ja3、Ja5、Ja6は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
【0158】
図13(c)は、VOBユニットVOBU(j)の5番目のピクチャJ5を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるBピクチャとして符号化されるべきピクチャJ5は、新たなVOBユニットVOBU(jb)の先頭のIピクチャとして符号化される。なお、VOBユニットVOBU(jb)におけるピクチャJ8は、符号化及び復号化の際に、前方のIピクチャを参照するPピクチャであり、VOBユニットVOBU(jb)におけるピクチャJ6、J7、J9、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
【0159】
図13(d)は、VOBユニットVOBU(j)の6番目のピクチャJ6を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるBピクチャとして符号化されるべきピクチャJ6は、新たなVOBユニットVOBU(jc)の先頭のIピクチャとして符号化される。VOBユニットVOBU(j)における、Bピクチャである5番目ピクチャJ5は、前方のPピクチャJ4のみを参照するBピクチャとして符号化される。なお、VOBユニットVOBU(jc)におけるピクチャJ9は、符号化及び復号化の際に、前方のIピクチャを参照するPピクチャであり、VOBユニットVOBU(jc)におけるピクチャJ7、J8、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
【0160】
このような構成の実施の形態3では、被写体の撮影により得られた画像信号から、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号から、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、この特徴量の発生した撮影タイミングが編集点として妥当であるか否かを判定するので、実施の形態1と同様、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【0161】
また、この実施の形態3では、編集点を挿入する際、符号化前のバッファデータがあるか否かによって、編集点を先頭ピクチャとする新たなVOBユニットVOBUを生成する処理と、イベントの発生タイミングに最も近いVOBユニットVOBUの切れ目を編集点とする処理とを切り替えるので、撮影により得られた画像信号が符号化されていない場合は、編集点を基準としてVOBユニットVOBUを生成することにより正確な位置に編集ポイントを設定することができ、また、撮影により得られた画像信号が符号化されている場合には、オーディオビデオストリームを処理することなく、編集点の設定を簡単に行うことができる。
【0162】
また、この実施の形態3では、編集点は、イベント発生からその検出、つまりイベント発生により撮影状況が変化するまでの遅延時間だけ、撮影状況が変化したタイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生した撮影タイミングに設定することができる。
【0163】
なお、上記実施の形態3では、イベントが発生してから実際に画像、音声、あるいは撮影状態が変化するまでの遅延時間に応じて、編集点を設定する撮影タイミングを決定しているが、イベントは、画像、音声、あるいは撮影状態が変化した後に発生する場合もあり、このような場合には、画像、音声、あるいは撮影状態の変化からイベント発生までの時間に応じて、編集点を設定する撮影タイミングを決定するようにしてもよい。
【0164】
また、上記実施の形態3では、撮影により得られた画像信号が符号化されている場合には、イベントが発生したタイミングに最も近いVOBユニットVOBUの切れ目を編集点としているが、この場合は、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となるよう、そのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化するようにしてもよい。
【0165】
この場合、図14に示すように、編集点を設定する際、符号化前のバッファデータがあるか否かの判定(ステップS11a)の結果によって、編集点を先頭ピクチャとする新たなVOBユニットVOBUを生成する処理(ステップS12c)と、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となり、かつそのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化する処理(ステップS12b)とが切り替えられることとなる。
【0166】
さらに、撮影により得られた画像信号が符号化されている場合には、イベント発生タイミングに最も近いVOBユニットVOBUの切れ目を編集点とする処理と、再符号化により強制的にVOBユニットVOBUを生成する処理とを、再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えているか否かに応じて切り替えるようにしてもよい。
【0167】
図15は、符号化前のバッファデータがない場合に、符号化に使える残り時間に応じて、編集点を設定する処理を切り替えるフローを示している。
この場合、編集点を挿入する際、符号化前のバッファデータがあるか否かを判定し(ステップS12)、バッファデータがあると判定された場合は、実施の形態3と同様に、編集点を先頭ピクチャとする新たなVOBユニットVOBUを強制的に生成する処理(ステップS13a)を行う。
【0168】
一方、符号化前のバッファデータがないと判定された場合には、再符号化に要する時間が、その時点で画像処理部11aでの符号化処理に利用できる残り時間を超えているか否かを判定する(ステップS12a)。そして、再符号化に要する時間が、その時点で符号化処理に使える残り時間を超えていると判定された場合には、編集点は、イベント発生タイミングに近いVOBユニットの切れ目に設定し(ステップS13c)、一方、ステップS12aにて、再符号化に要する時間が、その時点で符号化処理に使える残り時間を超えていないと判定された場合には、イベント発生タイミングに対応するピクチャを先頭とするVOBユニットを強制的に作成する再符号化処理を行う(ステップS13b)。なお、図15に示す処理フローでは、符号化前のバッファデータがない場合には、上記ステップS13bの処理とステップS13cの処理を、再符号化に要する時間と、画像処理部での符号化処理に使える残り時間との比較結果に応じて切り替えているが、この処理フローは、符号化前のバッファデータがない場合は、予め撮影者が設定した、ステップS13b及びステップS13cのいずれか一方の処理を行うものであってもよい。
【0169】
さらに、上記各実施の形態では、オーディオビデオストリームはMPEG‐2に対応するシステムストリームを想定しているが、オーディオビデオストリームは、MPEG‐4やMPEG‐4AVCに対応するシステムストリームを想定したものであってもよい。
【0170】
ただし、MPEG‐4AVC対応のシステムストリームでは、Iピクチャには、ランダムアクセス不可能なIピクチャとランダムアクセス可能なIピクチャ(IDR)があるため、編集点として設定するIピクチャは、イベント発生タイミングから最も近い、ランダムアクセス可能なIピクチャ(IDR)とされる。
【0171】
また、MPEG‐4AVC対応のシステムストリームには、補助的な情報の書き込み領域(SEI)が設定されているため、この書き込み領域に、特徴量の発生がどのような要因によるものであるかを示す情報を埋め込むこともできる。
【0172】
また、上記各実施の形態では、オーディオビデオストリームは、1つのシーケンスに対応するピクチャのデータを含むものであるが、このストリームは、1つのシーケンスに対応するピクチャのデータのほかに、サムネイル編集選択のためのシーケンス外のサブピクチャのデータを埋め込んだものであってもよい。この場合、編集時には、編集点として適切なピクチャを、サムネイル表示により一目で確認することができる。
【0173】
また、上記各実施の形態では、編集点に設定されたピクチャを全て編集に利用しているが、編集点が多いと編集しにくいということも考えられるので、編集点の設定後に、各編集点の設定要因毎に、つまり画像の変化や音声の変化などの別に、編集点を間引くようにしてよい。例えば、設定された複数の編集点から、音声の変化によって設定された編集点を削除することにより、編集時に利用する編集点の情報を削減することができる。
【0174】
また、MPEG‐4AVCのシステムストリームでは、ランダムアクセス可能なIピクチャ(IDR)は、ランダムアクセス不可能なIピクチャよりも間隔をあけて配置されているため、このようなIピクチャ(IDR)を編集点として設定することにより、編集点の数を減らすことができる。
【0175】
またさらに、上記各実施の形態では、編集点の設定は、イベント発生時の特徴量が一定の判定強度以上であるか否かを判定して、イベント発生タイミングを編集点として設定しているが、イベント発生タイミングをすべて編集点として設定し、編集時に、編集点を実際に利用するか否かを決定するようにしてもよい。
【0176】
このような構成の撮影装置は、具体的には、実施の形態1〜3のいずれかの撮像装置の情報生成部を、画像、音声、あるいは撮影状態が変化した撮影タイミングを編集点として示す編集点情報を生成するものとし、さらに、その特徴量判定部を、オーディオビデオストリームを編集する際、上記画像特徴量、音声特徴量、あるいは固有特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定するものとすることにより実現できる。
【0177】
この場合、具体的には、上記画像、音声、及び撮影状態を変化させるすべてのイベントの発生時刻は、撮影タイミングを編集点として示す編集点情報として上記オーディオビデオストリームに埋め込まれることとなる。このため、イベント発生タイミングを編集点に設定する際には、イベント発生タイミングを編集点として利用するか否かの判定をリアルタイムで行う必要がなくなる。
【0178】
また、上記各実施の形態では、編集点を、被写体の画像や音声が変化した撮影タイミングだけでなく、撮影者の生理現象に変化が生じた撮影タイミングや撮影者が撮影器装置を操作した撮影タイミングにも設定する撮影装置を示したが、編集点は、被写体の画像や音声が変化した撮影タイミングのみに設定するようにしてもよい。この場合、撮像装置は、上記実施の形態の固有識別情報取得部10及び固有識別情報処理部10aを含まないものとなる。
【0179】
また、上記各実施の形態の説明では特に言及していないが、図1に示す実施の形態1の撮像装置101、図8に示す実施の形態2の撮像装置102、及び図11に示す実施の形態3の撮像装置103における、撮像部11、記録媒体30a及び記録媒体インターフェース30を除く各機能部は、典型的には集積回路であるLSIとして実現されるものである。これらの機能部は、個別に1チップ化したものでもよいし、それらのうちのいくつかを、またはそれらの全てを含むように1チップ化したものでもよい。
【0180】
例えば、上記各実施の形態の撮像装置における複数の機能部は、記録媒体30a及び記録媒体インターフェース30に相当するメモリ以外の機能部を、1チップ化したものでもよい。
【0181】
またここでは、集積回路にはLSIと呼ばれるものを例に挙げたが、該集積回路は、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0182】
また、集積回路化の手法は、1つまたは複数の機能部をLSIとして実現するものに限らず、該機能部を専用回路又は汎用プロセサで実現してもよい。また、LSIとしては、その製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
【0183】
さらには、半導体技術の進歩又は派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能部の集積化を行ってもよく、例えば、将来的な集積回路化の技術はバイオ技術を適応したもの等である可能性がありえる。
また、近年、被写体を撮影してその動画像を記録可能なデジタルカメラや携帯端末が開発されており、このようなものに、上記実施の形態1〜3の撮像装置を構成する各機能部を搭載することにより、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを記録し、該ストリームの所要部分を自動編集して再生するデジタルカメラや携帯端末を実現することができる。
【産業上の利用可能性】
【0184】
本発明の撮像装置は、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを生成するものであり、特に、家庭用のデジタルビデオカメラ、さらにはデジタルカメラや携帯端末などにおいて有用である。
【図面の簡単な説明】
【0185】
【図1】本発明の実施の形態1による撮像装置101を説明するブロック図である。
【図2】実施の形態1の撮像装置101における記録媒体に記憶されているオーディオビデオストリームを説明する図である。
【図3】実施の形態1の撮像装置101にて自動編集点挿入に関する条件を設定する操作を説明する図である。
【図4】上記実施の形態1の撮像装置101の動作を説明する図である。
【図5】上記実施の形態1の撮像装置101における編集点設定処理を具体的に説明する図であり、処理フロー(図(a))、及び撮影タイミングと、オーディオビデオストリームにおけるVOBユニットの切れ目との関係(図(b))を示している。
【図6】上記実施の形態1の撮像装置101により得られたオーディオビデオストリームを自動編集して再生する処理のフローを示す図である。
【図7】上記実施の形態1の撮像装置101における、編集ポイントの利用方法を説明する図である。
【図8】本発明の実施の形態2による撮像装置102を説明するための図である。
【図9】上記実施の形態2の撮像装置102における編集点設定処理のフローを示す図である。
【図10】上記実施の形態2による撮像装置102における、強制的にVOBユニットVOBUを作成しなおす再符号化処理を説明する図であり、符号化時における通常の参照関係(図(a))、再符号化によるピクチャタイプ及び参照関係の3つの変更例(図(b)〜図(d))を示す。
【図11】本発明の実施の形態3による撮像装置103を説明するための図である。
【図12】上記実施の形態3の撮像装置103における編集点の挿入処理のフローを示す図である。
【図13】上記実施の形態3による撮像装置103における、新たなVOBユニットVOBUを作成する処理を説明する図であり、符号化時における通常の参照関係(図(a))、新たに作成されたVOBユニットの3つの変更例(図(b)〜図(d))を示す。
【図14】上記実施の形態3の撮像装置103における編集点挿入処理フローの変形例を示す図である。
【図15】上記実施の形態3の撮像装置103における編集点挿入処理フローの他の変形例を示す図である。
【符号の説明】
【0186】
10 固有識別情報取得部
10a 固有識別情報処理部
11 撮像部
11a 画像処理部
12 音声取得部
12a 音声処理部
20a,20b,20c 制御部
21 特徴量判定部
22a,22b,22c 編集点情報生成部
30 記録媒体インターフェース部
30a 記録媒体
101,102、103 撮像装置
【技術分野】
【0001】
本発明は撮像装置に関し、特に、撮像装置を用いた撮影により得られたオーディオビデオデータに対して編集点を設定するデータ処理に関するものである。
【背景技術】
【0002】
近年、被写体を撮影してデジタル映像データを符号化して記録媒体に記録するデジタル撮像装置が普及し、一般家庭でも大量のデジタル映像データを扱う機会が増えてきた。
【0003】
ところが、一度撮影した映像は、編集してまとめておきたいところではあるが、編集のスタートポイントを探したりするのが面倒である。例えば、運動会や結婚式などで撮影した映像データは、一旦、記録媒体に記録するものの、その編集が面倒であるなどの理由で、一度も見ずに放置してしまっているという状況も考えられる。
【0004】
また、編集のスタートポイントを見つけても、このスタートポイントに相当するピクチャが、予測符号化処理における画面間予測ピクチャとなっているため、開始位置として容易に使用できないなどの課題もある。
【0005】
このように従来の撮像装置で撮影した映像データは、その重要な部分のみを簡単に視聴したり、記録媒体に残しておくようにしたりするには、面倒な編集作業を必要とするものであった。
【0006】
ところで、特開2003−299010号公報には、映像コンテンツ編集支援システムが開示されており、このシステムは、画像を撮影して映像コンテンツデータを記録する撮像装置と、該撮像装置での撮影により得られた映像コンテンツデータをネットワークなどを介してリアルタイムで受信して表示する編集者端末装置とを有している。
【0007】
この編集支援システムの撮像装置は、ユーザ操作などに基づいて電子マークデータを発生する電子マーク発生部と、発生した電子マークデータを、撮影により得られた映像コンテンツデータにそのタイムコードと関連付けて記述する電子マーク挿入部とを有するものである。また、上記編集支援システムの編集者端末装置は、撮像装置からの電子マークデータに基づいて電子マークリストデータを作成するリスト作成部と、撮像装置からの映像コンテンツデータを表示する表示部とを有し、該表示部に、電子マークデータに対応するタイミングに同期した映像コンテンツデータの画像を表示するものである。
【0008】
このような映像コンテンツ編集支援システムでは、撮影中にユーザ操作により、被写体の撮像データである映像コンテンツデータに電子マークデータを付加することにより、撮像により得られた映像コンテンツデータを、パーソナルコンピュータなどの編集者端末装置で電子マークデータに基づいて自動編集されるものとすることができる。
【特許文献1】特開2003−299010号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
ところが、上記文献記載の映像コンテンツ編集支援システムでは、撮影後の編集作業が自動で行われるようにするには、撮影中に、編集位置を示す電子マークデータを映像コンテンツデータに付加しておく必要があり、撮影時には、編集して残すべきと思われる重要な撮影部分にマーカを付加するといったわずらわしい操作を行わなければならないという問題がある。
【0010】
本発明は、上記のような従来の問題点を解決するためになされたもので、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能とする撮像装置を得ることを目的とする。
【課題を解決するための手段】
【0011】
本願の請求項1に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、ものである。
【0012】
本願の請求項2に係る発明は、請求項1記載の撮像装置において、撮影状態を示す固有識別情報を取得する固有識別情報取得部と、取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【0013】
本願の請求項3に係る発明は、請求項2記載の撮像装置において、上記固有特徴量を、撮影中に生じた撮影者の生理変化の大きさ、または撮影者の操作による調整の大きさを示すものとした、ものである。
【0014】
本願の請求項4に係る発明は、請求項3記載の撮像装置において、上記撮影中に生じた撮影者の生理変化は、撮影者の発汗量の変化、α波の変化、まばたきの回数変化、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つであり、上記固有識別情報取得部は、上記撮影者の生理変化を測定する、該生理変化の種類に応じたセンサを有する、ものである。
【0015】
本願の請求項5に係る発明は、請求項1記載の撮像装置において、上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出し、上記音声処理部は、音声の取得により得られた音声信号に対して、上記画像信号に対する符号化処理に対応した符号化処理を施し、上記情報生成部は、上記編集点として妥当であると判定された撮影タイミングに基づいて、画像信号の符号化により得られた画像ストリームにおける特定のピクチャを上記編集点に設定する、ものである。
【0016】
本願の請求項6に係る発明は、請求項1記載の撮像装置において、上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出する、ものである。
【0017】
本願の請求項7に係る発明は、請求項2記載の撮像装置において、ユーザのマニュアル操作信号に基づいて、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量のそれぞれに対する閾値レベルを設定する制御部を有し、上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【0018】
本願の請求項8に係る発明は、請求項2記載の撮像装置において、複数のシナリオのそれぞれと、上記画像特徴量あるいは音声特徴量、並びに固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各種特徴量の閾値レベルを設定する制御部を有し、上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【0019】
本願の請求項9に係る発明は、請求項8記載の撮像装置において、上記テーブル情報を、ネットワーク上の情報端末からダウンロードして取得した情報とした、ものである。
【0020】
本願の請求項10に係る発明は、請求項1記載の撮像装置において、上記情報生成部は、上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定する、ものである。
【0021】
本願の請求項11に係る発明は、請求項10記載の撮像装置において、上記情報生成部は、上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、ものである。
【0022】
本願の請求項12に係る発明は、請求項1記載の撮像装置において、上記画像処理部は、上記情報生成部からの指示により、上記画像処理部により画像信号を符号化して得られたビデオストリームにおける、上記編集点に対応するピクチャを、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、ものである。
【0023】
本願の請求項13に係る発明は、請求項12記載の撮像装置において、上記情報生成部は、上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、ものである。
【0024】
本願の請求項14に係る発明は、請求項1記載の撮像装置において、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記画像処理部は、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、ものである。
【0025】
本願の請求項15に係る発明は、請求項1記載の撮像装置において、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、上記画像処理部は、上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成し、上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、ものである。
【0026】
本願の請求項16に係る発明は、請求項1記載の撮像装置において、上記画像、あるいは音声撮影状態に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録する、ものである。
【0027】
本願の請求項17に係る発明は、請求項16記載の撮像装置において、上記イベントの発生時刻を、再生条件を示すプレイリストとして上記オーディオビデオストリームに記録する、ものである。
【0028】
本願の請求項18に係る発明は、請求項16記載の撮像装置において、上記編集点が、画像、あるいは音声のうちのいずれの要因によるものであるかを示す情報を、上記オーディオビデオストリームに埋め込む、ものである。
【0029】
本願の請求項19に係る発明は、請求項1記載の撮像装置において、上記画像、あるいは音声に変化を与えるイベントが発生した時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとして上記オーディオビデオストリームに埋め込む、ものである。
【0030】
本願の請求項20に係る発明は、、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部と、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する記録部と、上記オーディオビデオストリームを編集する際、上記画像特徴量あるいは音声特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定する特徴量判定部とを備えた、ものである。
【0031】
本願の請求項21に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像方法であって、被写体を撮像して画像信号を出力する撮像ステップと、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、音声を取得して音声信号を出力する音声取得ステップと、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップと、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含む、ものである。
【0032】
本願の請求項22に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する半導体装置であって、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、ものである。
【発明の効果】
【0033】
本願請求項1の発明によれば、撮像装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部とを備えたので、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することができる。
【0034】
本願請求項2の発明によれば、請求項1記載の撮像装置において、撮影状態を示す固有識別情報を取得する固有識別情報取得部と、取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定するので、撮影状態が大きく変化した撮影タイミングを編集点として設定することができる。
【0035】
本願請求項3の発明によれば、請求項2記載の撮像装置において、上記固有特徴量を、撮影中に生じた撮影者の生理変化の大きさ、あるいは撮影者の操作による調整の大きさを示すものとしたので、撮影者が無意識で撮像装置を操作した撮影タイミングや、撮影者が意識を集中したり興奮したりした撮影タイミングを、編集点として設定することができるという効果がある。
【0036】
本願請求項4の発明によれば、請求項3記載の撮像装置において、撮影者の発汗量の変化、α波の変化、まばたきの頻度、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つをセンサにより測定して、このような撮影者の生理変化が撮影中に生じた撮影タイミングを編集点とするので、撮影者にとって重要なシーンを、撮影者の生理変化に基づいて編集することが可能となる。
【0037】
本願請求項5の発明によれば、請求項1記載の撮像装置において、上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出するので、画像の動きに関する画像特徴量を、予測符号化処理で用いる動きベクトルに基づいて正確に抽出することができる。
【0038】
本願請求項6の発明によれば、請求項1記載の撮像装置において、上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出するので、音の大きさに関する音声特徴量を、音声信号に基づいて正確に抽出することができる。
【0039】
本願請求項7の発明によれば、請求項2記載の撮像装置において、上記画像特徴量あるいは音声特徴量、並びに固有特徴量のそれぞれに対する閾値レベルをマニュアル操作信号に基づいて設定する制御部を有するので、画像特徴量あるいは音声特徴量、並びに固有特徴量の検出強度を、ユーザが設定することができ、これにより、撮影した映像データの自動編集にユーザの嗜好などを反映することができる。
【0040】
本願請求項8の発明によれば、請求項2記載の撮像装置において、複数の異なるシナリオのそれぞれと、画像特徴量あるいは音声特徴量、並びに固有特徴量に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作によるシナリオの選択により、上記各特徴量に対する閾値レベルを設定するので、運動会や結婚式といった撮影場所に応じたシナリオを選択するという簡単な操作により、運動会や結婚式などの撮影が行われる場所に応じた自動編集が可能となる。
【0041】
本願請求項9の発明によれば、請求項8記載の撮像装置において、上記テーブル情報は、ネットワーク上の情報端末からダウンロードして取得するので、撮像装置のメーカのホームページなどを利用して、上記画像、音声あるいは撮影状態の変化である各特徴量に対して、画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを判定する、シナリオに合った適切な判定強度を設定することができる。
【0042】
本願請求項10の発明によれば、請求項1記載の撮像装置において、上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定するので、撮影により得られた画像信号が符号化されている状態でも、符号化データを処理することなく、編集点の設定が可能である。
【0043】
本願請求項11の発明によれば、請求項10記載の撮像装置において、上記情報生成部は、上記編集点を、イベント発生から実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定するので、編集点を、ほぼ、イベントが実際に発生したタイミングに設定することができる。
【0044】
本願請求項12の発明によれば、請求項1記載の撮像装置において、上記画像処理部は、上記情報生成部からの指示により、上記画像信号の符号化により画像ストリームを、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化するので、撮影により得られた画像信号が符号化されている状態でも、符号化データを処理することなく、編集点の設定を正確に行うことができる。
【0045】
本願請求項13の発明によれば、請求項12記載の撮像装置において、上記情報生成部は、上記編集点を、イベント発生から実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定するので、編集点を、ほぼ、イベントが実際に発生したタイミングに設定することができる。
【0046】
本願請求項14の発明によれば、請求項1記載の撮像装置において、符号化前のバッファデータがある場合には、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャをVOBユニットの先頭ピクチャとなるよう符号化し、符号化前のバッファデータがない場合には、上記編集点を、上記イベントが発生した撮影タイミングに最も近いVOBユニットの先頭ピクチャに設定するので、符号化前のバッファデータがある場合に、編集点を正確に設定し、符号化前のバッファデータがない場合に、編集点を簡単に設定することができる。
【0047】
本願請求項15の発明によれば、請求項1記載の撮像装置において、符号化前のバッファデータがある場合には、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャをVOBユニットの先頭ピクチャとなるよう符号化し、符号化前のバッファデータがない場合でも、再符号化に要する時間が画像処理部での符号化処理に利用可能な残り時間を超えていないときには、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャがVOBユニットの先頭ピクチャとなるよう再符号化を行い、符号化前のバッファデータがない場合に、再符号化に要する時間が画像処理部での符号化処理に利用可能な残り時間を超えているときには、上記編集点を、上記イベントが発生した撮影タイミングに最も近いVOBユニットの先頭ピクチャに設定するので、符号化前のバッファデータがある場合、また、符号化前のバッファデータがない場合でも再符号化のために必要な時間が符号化に使える残り時間を超えていない場合には、上記編集点を正確に設定し、符号化前のバッファデータがない場合で再符号化のために必要な時間が符号化に使える残り時間を超えているときには編集点を簡単に設定することができる。
【0048】
本願請求項16の発明によれば、請求項1記載の撮像装置において、イベント発生時刻を、上記編集点としてオーディオビデオストリームに記録するので、編集点を非常に簡単に設定することができる。
【0049】
本願請求項17の発明によれば、請求項16記載の撮像装置において、イベント発生時刻を、再生条件を示すプレイリストとしてオーディオビデオストリームに記録するので、編集点を非常に簡単に設定することができる。
【0050】
本願請求項18の発明によれば、請求項16記載の撮像装置において、上記編集点が、、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、オーディオビデオストリームに埋め込むので、編集時には、編集点がどのような要因によるものであるかによって編集点の間引きを行うことも可能である。
【0051】
本願請求項19の発明によれば、請求項1記載の撮像装置において、イベント発生時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとしてストリームに埋め込むので、編集時には、編集点として適切なピクチャを、サムネイル表示により一目で確認することができる。
【0052】
本願請求項20の発明によれば、撮像装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部とを備え、上記編集点情報をオーディオビデオストリームに埋め込むとともに、該オーディオビデオストリームを編集する際に、上記編集点情報が示す撮影タイミング、つまり個々のイベント発生タイミングを、編集に用いるか否かを判定するので、オーディオビデオストリーム作成時には、イベント発生タイミングを編集点とするか否かの判断が不要となる。
【0053】
本願請求項21の発明によれば、撮像方法において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップとを含むので、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することが可能となる。
【0054】
本願請求項22の発明によれば、半導体装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部とを有するので、撮影により得られたオーディオビデオストリームを、その撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集可能なストリームとすることができる半導体装置を得ることができる。
【発明を実施するための最良の形態】
【0055】
以下、本発明の実施の形態について説明する。
(実施の形態1)
図1及び図2は、本発明の実施の形態1による撮像装置を説明するための図であり、図1は、この実施の形態1の撮像装置の全体構成を示し、図2は、この撮像装置により得られるオーディオビデオストリームを示している。
本実施の形態1の撮像装置101は、被写体の撮影により画像信号Sim及び音声信号Sauを得るとともに、得られた画像信号Sim及び音声信号Sauに、撮影状況を示す情報に基づいた信号処理を施して、撮影者にとって重要と思われる撮影部分を自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なMPEG‐2対応のストリーム(以下オーディオビデオデータともいう。)Dを生成するものである。
【0056】
すなわち、この撮像装置101は、被写体を撮影して画像信号Simを出力する撮像部11と、被写体の撮影により得られた画像信号Simに、フィルタ処理、圧縮符号化処理、及び特徴量抽出処理等の信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部11aとを有している。ここで、画像の変化は、イベントの発生により生じた被写体の画像の変化であり、また、画像特徴量は、画像の変化の大きさや、画像が全くあるいは実質的に変化しない期間の長さなどである。
【0057】
上記撮像装置101は、音声を取得して音声信号Sauに出力する音声取得部12と、該音声信号Sauに、フィルタ処理、圧縮符号化処理、及び特徴量抽出処理などの信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部12aとを有している。ここで、音声の変化は、イベントの発生により生じた被写体からの音声の変化であり、音声特徴量は、音声の変化の大きさや、音声が全くあるいは実質的に変化しない期間の長さなどである。
【0058】
上記撮像装置101は、撮影者の撮影状態を識別する固有の識別情報Didを取得する固有識別情報取得部10と、取得した固有識別情報Didにフィルタ処理や特徴量抽出処理などの信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を含む情報を抽出する固有識別情報処理部10aとを有している。ここで、撮影状態の変化は、イベントの発生により生じた撮影者の生理変化や撮影者による撮像装置の操作であり、固有特徴量は、撮影者の生理変化の大きさや、撮影者によるズーム調整,フォーカス調整の大きさなどである。
【0059】
上記撮像装置101は、上記画像処理部11a、音声処理部12a、及び固有識別情報処理部10aでの特徴量抽出処理により得られた特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当かどうかを判定する特徴量判定部21と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する編集点情報生成部22aとを有している。ここで、撮影状況が変化した撮影タイミングは、撮影中に被写体の画像が変化したタイミング、撮影中に被写体からの音声が変化したタイミング、及び、撮影状態が変化したタイミングを含むものである。また、撮影状態の変化は、撮影中に生じた撮影者の生理変化や撮影者の操作によるズーム、フォーカスなどの変化を含むものである。
【0060】
上記撮像装置101は、画像処理部11a、音声処理部12a、及び固有識別情報処理部10aからの情報に基づいて、画像処理部11aでの画像信号Simの圧縮符号化処理により得られた画像ストリーム、音声処理部12aでの音声信号の圧縮符号化処理により得られた音声ストリーム、及び編集点情報生成部22aにて生成された編集点情報を含むオーディオビデオストリームを作成するシステム処理部13と、該オーディオビデオストリームを格納する記録媒体30aと、該記録媒体30aとデータバスDbusとの間に接続された記録媒体インターフェース部30と、ユーザの操作により発生したユーザ操作信号に基づいて、一連の記録再生処理が行われるよう上記各部を制御する制御部20aとを有している。
【0061】
以下、上記各部で行われる信号処理について詳しく説明する。
上記画像処理部11aで行われる画像信号Simに対するフィルタ処理は、特定の周波数帯域の信号のみを抽出する処理である。画像処理部11aで行われる画像信号Simに対する圧縮符号化処理は、MPEG‐2に対応した画面内及び画面間予測符号化処理である。なお、この予測符号化処理は、MPEG‐2に対応したものに限らず、MPEG‐4あるいはMPEG‐4AVCに対応したものであってもよい。また、ここでは、画像信号Simに対する特徴量抽出処理は、撮影された画像が急に変化した急変部分での変化の大きさや、画像が全くあるいは実質的に変化しない状態の継続時間などを、上記画面間予測符号化処理で用いる、画像の動きを示す動きベクトルに基づいて特徴量として抽出する処理である。画像の急変部分は、例えば、撮影者が、ハッとして、特定の被写体にカメラを向けたときの撮影部分などであり、また、映像の非変部分は、例えば、撮影者の視点が特定の方向に定まって動かないときの撮影部分などである。
【0062】
上記音声取得部12で行われる音声信号Sauに対するフィルタ処理は、特定の周波数帯域の信号のみを抽出する処理である。音声取得部12で行われる音声信号Sauに対する圧縮符号化処理は、音声信号を圧縮して音声圧縮データを生成する、MPEG‐2,MPEG‐4などの画像信号に対する符号化処理に対応した処理である。また、ここでは、音声信号Sauに対する特徴量抽出処理は、音声信号の変化の大きさに基づいて、音声が大きく変化した急変部分での変化の大きさや、音声が全くあるいは実質的に変化しない状態の継続時間などを特徴量として抽出する処理である。音声の急変部分は、例えば、撮影されている人が会話をはじめたとき、演奏会などで音楽演奏が始まったとき、あるいは、運動会などでスタートの合図として用いられるピストルやホイッスルの音が発生したときの録音部分などである。また、音声の非変部分は、演劇などの中間幕の一瞬の静かな状態の録音部分などである。
【0063】
上記固有識別情報処理部10aで行われる固有識別情報Didに対するフィルタ処理は、該固有識別情報Didである固有識別情報取得部10の出力信号の特定周波数成分のみ抽出する処理である。固有識別情報処理部10aで行われる固有識別情報Didに対する特徴量抽出処理は、固有識別情報Didの値が急激にあるいは大きく変化した急変部分での変化の大きさや、固有識別情報Didの値が全く変化しなくなった状態の継続時間などを固有特徴量として抽出する処理である。固有識別情報の急変部分は、例えば、撮影者の、意識の集中による緊張が始まったときに生ずる生理現象の特徴的な変化などに対応する。ここで、上記生理現象の特徴的な変化は、例えば、撮影中に生じた撮影者の生理現象の大きな変化である。また、検出の対象となる生理現象は、発汗作用、まばたき、瞳孔の変化、及び脈拍であり、固有識別情報処理部10aは、発汗作用やまばたき等の各種生理現象の変化を検知する、その種類に応じたセンサを有している。例えば、発汗作用は、撮影者の手の熱伝導率を測定するセンサによりモニタすることができる。なお、上記固有識別情報としての撮影者の生理現象は上記のものに限るものではない。
【0064】
また、上記編集点を判定する処理は、特徴量判定部21が、撮影状況が変化した撮影タイミングが編集点として妥当か否かを判定するものであり、具体的には以下の6つの判定処理である。
第1の判定処理は、画像処理部11aからの特徴量である、画面内のすべてのマクロブロックの動きベクトルの大きさが、あるいは画面内の特定のマクロブロックの動きベクトルの大きさが、決められた閾値を超えたか否かを判定し、動きベクトルの大きさが閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【0065】
画面内のすべてのマクロブロックの動きベクトルの大きさが、決められた閾値を超えた場合は、撮像装置の筐体の揺れの大きさがある閾値を超えたこと、あるいは画面輝度レベルが急に変化したことが考えられる。
【0066】
第2の判定処理は、画像処理部11aからの特徴量である、動きベクトルの大きさの変化やフォーカス距離の変化の大きさがある閾値以下である状態が一定時間続いているか否かを判定し、一定時間以上続いていると判定された撮影タイミングを編集点として適切と判定するものである。
【0067】
動きベクトルの大きさの変化やフォーカス距離の変化の大きさが、ある閾値以下を維持している場合は、撮影者の視点が変化していない状態と考えられる。
【0068】
第3の判定処理は、音声処理部12aからの特徴量である、音のダイナミックレンジの変化の大きさが、決められた閾値を超えたか否かを判定し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。なお、音の変化は、被写体からの音の変化だけでなく、撮影者が発する音、例えば咳払いなどの音も含まれる。
【0069】
第4の判定処理は、音のダイナミックレンジの無変化状態が、一定時間続いているか否かを検出し、無変化状態が一定時間以上続いていると判定された撮影タイミングを、編集点として適切と判定するものである。この場合、無変化部分の先頭位置を編集点とすることができる。
【0070】
第5の判定処理は、固有識別情報処理部10aからの特徴量である、撮影者の心拍数の変化の大きさや撮影者の手の熱伝導率の変化の大きさが、ある閾値を超えたか否かを検出し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【0071】
第6の判定処理は、固有識別情報処理部10aからの特徴量である、まばたきの回数変化や瞳孔の変化の大きさなどが、ある閾値を超えたか否かを検出し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【0072】
なお、フォーカスやズームなどの無意識で行われる操作については、画像処理部11aからの特徴量ではなく、専用のセンサの出力レベルに基づいて、これらの操作が行われた撮影タイミングが編集点として妥当か否かを判定するようにしてもよい。この場合、具体的には、固有識別情報取得部10が上記専用センサの出力を、撮影状態を示す固有識別情報として取得し、固有識別情報処理部10aが、該固有識別情報に基づいて、撮影状態の変化の大きさである、撮影者の操作によるフォーカスやズームなどの調整の大きさを示す固有特徴量を取得する。そして、特徴量判定部21が、固有特徴量を判定して、フォーカスやズームなどの撮影状態が変化した撮影タイミングが編集点として妥当か否かを判定する。また、撮影者の脳波、例えばα波を測定するセンサを設け、該センサの出力レベルに基づいて、α波が変化した撮影タイミングが編集点として妥当か否かを判定するようにしてもよい。この場合、具体的には、固有識別情報取得部10が上記α波測定センサの出力レベルを、撮影状態を示す固有識別情報として取得し、固有識別情報処理部10aが、該固有識別情報に基づいて、撮影状態を表す撮影者のα波の変化の大きさを示す固有特徴量を取得する。そして、特徴量判定部21が、固有特徴量を判定して、撮影状態を表す撮影者のα波が変化した撮影タイミングが編集点として妥当か否かを決定する。また、画像や音の特徴量は、撮影により得られた画像信号や音声信号を信号処理して抽出するのではなく、専用のセンサを用いて検出することも可能である。
【0073】
また、この実施の形態1では、編集点情報生成部22aは、編集点として適切と判定された撮影タイミングを示す情報と、この撮影タイミングが、例えば、音の変化や映像の変化,あるいは撮影状態の変化などの特徴量のうちのどのような特徴量に基づいて判定されたものであるかを示す情報とを生成してシステム処理部13に出力するものである。また、編集点情報生成部22aは、編集点として判定された撮影タイミングに最も近い、この撮影タイミング以前のVOBユニットの先頭のIピクチャを、編集時にアクセスポイントとして用いるピクチャに設定し、このように編集点を上記Iピクチャに設定したことを示す情報をシステム処理部13に出力する。また、システム処理部13は、編集点情報生成部22aからの情報に基づいて、オーディオビデオストリームDに含まれる管理情報であるプレイリストを更新するものとなっている。
つまり、システム処理部13により作成されたオーディオビデオストリームのプレイリストは、編集点として適切と判定された撮影タイミングを示す編集点情報と、編集点として適切と判定された撮影タイミングが、どのような特徴量に基づいて判定されたものであるかを示す情報と、編集時にアクセスポイントとして用いるピクチャにいずれのピクチャを設定したかを示す情報とを含んでいる。
【0074】
但し、上記アクセスポイントとして用いるピクチャは、編集点として判定された、単に画像や音声などの撮影状況が変化した撮影タイミングに最も近い、この撮影タイミング以前のIピクチャに限るものではなく、例えば、編集点の設定を行う、画像の変化や音声の変化などの要因に応じて、被写体の画像または音声、あるいは撮影者の撮影状態に変化を与えるイベントが発生したタイミングから、このイベントに起因する特徴量が検出されるまでの遅延時間を考慮して、編集点とするピクチャを決定しても良い。例えば、撮影状況が変化したタイミングから上記遅延時間だけ遡った撮影タイミングに一番近いIピクチャを編集点として用いるピクチャに設定してもよい。この場合、遅延時間は、フォーカス情報などに応じて決定した時間としても、予めすべの要因に対して一律に、あるいは個々の要因に対して別々に決められた固定の時間としてもよい。
【0075】
また、本実施の形態1では、オーディオビデオストリームはMPEG‐2に対応するものとしているため、上記画像、音声、あるいは撮影状態を変化させるイベントが発生した時刻を、上記画像、音声、あるいは撮影状態の変化の特徴を示す特徴量が検出された時刻として、プレイリストに含めて、該ストリームの管理情報記録領域に書き込んでいるが、該ストリームはMPEG‐4AVCに対応するものでもよく、この場合は、特徴量検出時刻のみを、該ストリームの付加情報記録領域(SEI)に記録してもよい。
【0076】
また、この実施の形態1では、制御部20aは、撮影前にユーザにより選択されたシナリオに基づいて特徴量判定部21に指令信号を出力して、編集点の設定を行う要因となる、例えば、音、映像、撮影者の生理現象などを決定するとともに、編集点設定を行う要因が変化した撮影タイミングを編集点と判定する際の判定強度、つまり特徴量の閾値を決定するものとしている。
【0077】
また、上記制御部20aは、ユーザが、本撮像装置によるガイダンスに応じて、運動会、演奏会、結婚式、旅行などの、撮影場所を選択すると、撮影状況の変化のパターン、例えば、音量の変化パターン、明るさの変化パターン、撮影者の生理現象の変化パターンなどに応じて、編集点設定のための各種の要因に対する判定強度が、予め容易された複数の既定値のうちの1つに設定する。但し、各種の要因に対する判定強度として用意されている既定値は、ユーザの好みなどに応じて、独自に調整可能としてもよい。
【0078】
なお、この撮影装置101は、図示していないが、上記制御部20aからの制御信号に基づいて、記録媒体に記録されたオーディオビデオストリームを復号化して再生する再生部を有している。
【0079】
次に、上記記録媒体に記録されたAVデータの構造について簡単に説明する。
図2は、記録媒体に記録されたAVデータの構造を説明する図である。
ここで、記録媒体は、DVD(Digital Versatile Disk)ディスクなどのディスク状記録媒体としている。ただし、記録媒体は、DVDなどのディスク状記録媒体に限るものではなく、例えば、HDD(ハードディスクドライブ)、メモリーカード、あるいは磁気テープなどでもよい。また、上記記録媒体には、1つのコンテンツに対応する画像信号Sim及び音声信号Sauを符号化して得られたストリームDsと、これらのコンテンツに対応する管理情報Dmとを含むオーディオビデオストリームDが書き込まれている。この管理情報Dmは、ディスク状記録媒体の中心近傍の内側領域に書き込まれ、上記ストリームDsは、この内側領域の外側の領域に書き込まれている。また、ストリームDsは、VOBユニットVOBUにより区分されている。
【0080】
また、上記管理情報DmはプレイリストDmpを含んでおり、このプレイリストDmpには、複数の補助情報playitem[0],[1],[2],・・・,[n],・・・が含まれている。
【0081】
例えば、図2に示す符号化データDのストリームDsには、VOBユニットVOBU(m−k)VOBユニットVOBU(m)、VOBユニットVOBU(m+q)が含まれており、特定のVOBユニットVOBU(m)に対応するプレイリストの補助情報playitem[n]には、時間情報Dtm、AV情報Dav、操作情報Dop、生理的情報Dph、及び編集済みフラグDefが含まれている。ここで、時間情報Dtmは、VOBユニットVOBU(m)の開始時刻を示す情報Dstと、VOBユニットVOBU(m)の終了時刻を示す情報Detとを含んでいる。AV情報Davは、画像に関する特徴量を示す情報Dvi、及び音声に関する特徴量を示す情報Dauを含んでいる。操作情報Dopは、手ブレの程度を示す情報Dhm、フォーカス操作時の操作量を示す情報Dfo、及びズーム操作時の操作量を示す情報Dzmを含んでいる。生理的情報Dphは、撮影者の発汗量を示す汗情報Dsu、撮影者のα波強度を示すα波情報Dαw、操作者のまばたきの頻度を示すまばたき情報Dbk、操作者の瞳孔変化の程度を示す瞳孔情報Dpu、及び操作者の脈拍数を示す脈拍情報Dpsを含んでいる。このように、上記画像、音声、あるいは撮影状態を変化させるイベントが発生した時刻は、上記画像、音声、あるいは撮影状態の変化の特徴を示す特徴量が検出された時刻として、実質的に、プレイリストに含めて該ストリームの管理情報記録領域に書き込まれている。
【0082】
次に動作について説明する。
〔撮影前の設定操作〕
まず、撮影前のマニュアル設定操作について説明する。
撮影者は、運動会や結婚式などの催し物に合わせて、撮影状況が変化した撮影タイミングが編集点として適切であるか否かの判定に用いる判定強度を設定する。
【0083】
この判定強度については、撮像装置に予め設定されている複数のシナリオのうちから、運動会や結婚式に対応するものを選択することにより、編集点設定のための個々の要因に対する判定強度を、選択されたシナリオに応じた値に設定することもできるが、ここでは、操作者がマニュアルで設定する操作について説明する。
【0084】
図3は、撮像装置100の編集点挿入設定を行う画面を示している。
この設定画面100a上には、AV情報の設定ボタン110、操作情報の設定ボタン120、生理的情報の設定ボタン130が表示されている。また、設定画面100aの右下部分には、生理的情報のより詳細な設定を行う詳細設定画面130aが表示されており、該詳細設定画面130a上には、汗情報の設定ボタン131、瞳孔情報の設定ボタン132、及び脈拍情報の設定ボタン133が表示されている。なお、図3では、示していないが、AV情報のより詳細な設定を行う詳細設定画面や操作情報のより詳細な設定を行う詳細設定画面も表示可能となっている。
【0085】
それぞれのボタンは、各要素に対する判定強度を、“−”表示が示す最小レベルと、“+”表示が示す最大レベルとの間で、任意のレベルに設定可能となっている。なお、“0”表示は、これらの中間のレベルを示している。
【0086】
ここで、例えば、汗情報に関する判定強度のレベルが高いということは、発汗量の変化が比較的小さくても、この発汗量の変化が生じた撮影タイミングを、編集点として適切であると判定するということである。一方、汗情報に関する判定強度のレベルが小さいということは、発汗量の変化が比較的大きくても、この発汗量の変化が生じた撮影タイミングは、編集点として適切でないと判定するということである。
【0087】
例えば、運動会など競技大会で撮影を行う場合には、演技や競技の開始時にはその合図などの音声の大きな変化が発生すると考えられるため、AV情報の音声要素に対する判定強度を平均的なレベルより強く設定し、また、生理的情報の脈拍要素に対する判定強度なども、競技中は撮影者がハラハラする場合も考えられることから、強めに設定するのがよいと考えられる。
【0088】
旅行などで風景を撮影する場合には、撮影者は、AV情報の画像要素に対する判定強度を平均的なレベルより強く設定し、また、遠くの景色などを撮影する場合も考えられるので、フォーカスやズームの操作量に対する判定強度を高くする場合があると考えられる。
【0089】
また、結婚式では、撮影者は、AV情報の画像特徴量の判定強度及び音声特徴量の判定強度をともに平均的なレベルより強く設定し、生理的情報の各要素の特徴量についても比較的判定強度を高く設定する場合が考えられる。
【0090】
このような判定強度の設定は、ユーザ操作、つまり撮影者のマニュアル操作に応じて上記制御部20aにて行われ、制御部20aは、ユーザ操作に応じて設定された各要素に対する判定強度を示す制御信号を上記特徴量判定部21に供給する。その後、撮影者が撮影を行うと、上記特徴量判定部21は、上記各特徴量を、対応する、上記制御部20aで設定された判定強度(閾値レベル)に基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する。
【0091】
〔撮影時の動作〕
続いて、撮影時の撮像装置の動作について具体的に説明する。
図4は、実施の形態1の撮像装置の動作フローを説明する図である。
撮影が開始されると(ステップS1)、撮像装置101は、画像情報、音声情報、及び撮影状態に関する情報を取得する(ステップS2)。
【0092】
具体的には、上記ステップS2では、撮像部11が、被写体の撮像により画像信号Dimを出力する処理、音声取得部12が音声を取得して音声信号Dauを出力する処理、及び、固有識別情報取得部10が撮影者による撮像装置の操作及び撮影者の生理的変化を検知して、操作量及び生理的な変化に関する固有識別情報Didを出力する処理が並行して行われる。
【0093】
すると、固有識別情報処理部10aは、固有識別情報取得部10からの固有識別情報Did及び制御部20aからの制御信号に基づいて、フォーカスやズーム操作における操作量、及び撮影者の生理的な変化の大きさを示す、発汗量、まばたきの頻度、脈拍数の変動量など特徴量を検出する(ステップS2a)。また、画像処理部11aでは、撮影部11からの画像信号Dim及び制御部20aからの制御信号に基づいて、画像信号に対してMPEG‐2対応の予測符号化処理を施して画像ストリームを生成するとともに、該予測符号化処理で用いる動きベクトルに基づいて、画像が急変した部分での画像変化の大きさなどである画像の特徴量を含む画像情報を取得する(ステップS2b)。また、音声処理部12aでは、音声取得部12からの音声信号Dim及び制御部20aからの制御信号に基づいて、音声信号に対して符号化処理を施して音声ストリームを生成するとともに、該音声信号に基づいて、音声が急変した部分での音声変化の大きさなどである音声の特徴量を含む音声情報を取得する(ステップS2c)。
【0094】
次に、特徴量判定部21は、ユーザ操作や撮影者の生理的変化に関する特徴量、画像に関する特徴量、及び音声に関する特徴量と、各特徴量に対して設定されている判定強度とに基づいて、特徴量が検出された撮影タイミングが編集点として妥当であるかを判定する(ステップS3)。
【0095】
続いて、編集点情報生成部22aは、編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成するとともに、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する(ステップS4)。
【0096】
その後、システム処理部13は、制御部20aからの制御信号に基づいて、上記画像ストリーム、音声ストリーム、編集点情報、及び編集点ピクチャ情報を含むオーディオビデオストリームを作成して記録媒体インターフェース30に出力する。すると、記録媒体インターフェースは、入力されたオーディオビデオストリームを記録媒体に記録する(ステップS5)。
【0097】
以下、編集点を判定するステップS3の処理について説明する。
具体的には、特徴量判定部21は、制御部20aからの判定強度を示す制御信号に基づいて、固有識別情報処理部10aで検出された固有特徴量、画像処理部11aで検出された画像特徴量、音声処理部12aで検出された音声特徴量のそれぞれについて、それぞれの特徴量が検出された撮影タイミングが編集点として妥当であるか否かを判定する。
【0098】
例えば、固有識別情報処理部10aで検出された、手ブレに関する特徴量は、撮影者の手ブレの大きさである。この検出された手ブレの大きさが、予め撮影前に設定されている判定強度、つまり手ブレの大きさの閾値以上であれば、この手ブレに関する特徴量が検出された撮影タイミングが編集点として妥当であると判定され、手ブレの大きさが上記判定強度より小さければ、該撮影タイミングは編集点として妥当でないと判定される(ステップS3a)。また、固有識別情報処理部10aで検出された、フォーカスに関する特徴量、及びズームに関する特徴量は、それぞれ、フォーカス操作により変化したフォーカス変動量、及びズーム操作により変化したズーム変動量である。そして、これらの特徴量についても、手ブレに関する特徴量と同様に、その大きさが撮影前に設定されている判定強度以上であるか否かに応じて、特徴量が検出された撮影タイミングが編集点として妥当であるか否かが判定される(ステップS3a)。
【0099】
さらに、固有識別情報処理部10aで検出された、発汗に関する特徴量は、撮影者の発汗量である。この検出された発汗量が、予め撮影前に設定されている判定強度、つまり発汗量の閾値以上であれば、この発汗に関する特徴量が検出された撮影タイミングが編集点として妥当であると判定され、上記発汗量が上記検出強度より小さければ、該撮影タイミングは編集点として妥当でないと判定される。また、固有識別情報処理部10aで検出された、α波に関する特徴量、まばたきに関する特徴量、瞳孔に関する特徴量、及び脈拍に関する特徴量は、α波の変化の大きさ、まばたきの頻度、瞳孔の変化の大きさ、及び脈拍数の変化の大きさである。そして、これらの撮影者の生理変化に関する特徴量についても、発汗に関する特徴量と同様、その値が予め撮影前に設定されている判定強度以上であるか否かに応じて、それぞれの特徴量が検出された撮影タイミングが編集点として妥当であるか否かが判定される(ステップS3a)。
【0100】
画像処理部11aで検出された、画像に関する特徴量は、画像が急に変化した部分での変化の大きさ、あるいは画像がまったくあるいは実質的に変化しない部分が継続した時間である。そして、この検出された画像急変部分での変化の大きさ、あるいは画像無変化状態の継続時間が、予め撮影前に設定されている判定強度、つまり変化の大きさの閾値、あるいは状態継続時間の閾値以上であれば、これらの特徴量が検出された撮影タイミングが編集点として妥当であると判定され、そうでなければ、撮影タイミングは編集点として妥当でないと判定される(ステップS3b)。
【0101】
音声処理部12aで検出された、音声に関する特徴量は、音声が大きく変化した部分での変化の大きさ、あるいは音声がまったくあるいは実質的に変化しない状態が継続した時間である。そして、この検出された音声急変部分での変化の大きさ、あるいは音声無変化状態の継続時間が、予め撮影前に設定されている判定強度、つまり変化の大きさの閾値、あるいは状態継続時間の閾値以上であれば、これらの特徴量が検出された撮影タイミングが編集点として妥当であると判定され、そうでなければ、該撮影タイミングは編集点として妥当でないと判定される(ステップS3c)。
【0102】
その後、編集点情報生成部22aは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、該特徴量が検出された撮影タイミングが編集点として妥当であると判定される度に、該撮影タイミングを示す編集点情報を生成するとともに、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する(ステップS4)。
【0103】
図5は、編集点の設定処理を具体的に説明する図であり、図5(a)は、処理フローを示し、図5(b)は、撮影タイミングと、画像ストリームにおけるVOBユニットの切れ目との関係を示している。
【0104】
この実施の形態1では、編集点情報生成部22aは、特徴量による遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベントの発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
【0105】
次に、編集点情報生成部22aは、上記特徴量が検出された撮影タイミングTcpから、上記算出された遅延時間Δtだけ遡った撮影タイミングTepより前で最も近いVOBユニット(i)の切れ目を編集点に設定する(ステップS12a)。
【0106】
その後、編集点情報生成部22aは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、図5(b)に示すように、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いVOBユニットVOBU(f)の先頭のIピクチャF1に設定したことを示す編集点設定情報を生成する。そして、オーディオビデオストリームのプレイアイテムを、撮影タイミングTepが編集点に設定されたことが示されるよう変更する(ステップS13)。
【0107】
なお、図5(b)では、ピクチャF1は、その符号化あるいは復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャF4、F7、F10は、符号化あるいは復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャF2、F3、F5、F6、F8、F9は、符号化あるいは復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
【0108】
そして、各VOBユニットは、複数のピクチャからなり、その先頭にはIピクチャが位置し、隣接するIピクチャとPピクチャの間、あるいは隣接する2つのPピクチャの間には2つのBピクチャが配置されている。また、VOBユニットVOBU(f−1)及びVOBU(f+1)は、VOBユニットVOBU(f)の前後に位置するVOBユニットである。
【0109】
〔再生時の動作〕
そして、再生時には、記録媒体に記録されたオーディオビデオストリームは、埋め込まれている編集点情報、つまり先頭ピクチャが編集点に設定されているVOBユニットに対応するプレイリストの開始時刻と終了時刻に基づいて自動編集して再生される。
【0110】
なお、上記記録媒体に記録されたオーディオビデオストリームの再生は、編集点をピックアップして自動編集して行うものに限らず、ユーザが設定した編集条件に基づいて、記録されたオーディオビデオストリームにおける、設定された編集条件を満たす部分のみを編集して行うものであってもよい。
【0111】
図6は、例えば、設定条件に基づいて、記録されたオーディオビデオストリームを自動編集して再生する処理を説明する図である。
実施の形態1では、撮像装置101の再生部(図示せず)は、記録媒体に記録されたオーディオビデオストリームの再生が開始されると、該オーディオビデオストリームに含まれるプレイリストの各アイテムに基づいた処理が完了しているが否かを判定する(ステップS21)。処理が終了している場合は、再生を終了する。
【0112】
一方、上記再生部は、ステップS21での判定の結果、処理が終了していない場合は、編集点が編集条件を満たしているか否かを判定し(ステップS22)、特徴量に関する設定条件を満たしているVOBユニットVOBUを再生する(ステップS23)。
【0113】
なお、オーディオビデオストリームに含まれている編集点に関する情報は、自動編集に利用できるだけでなく、ユーザによるオーディオビデオストリームの編集作業に利用することもできる。
【0114】
図7は、このような編集点の利用方法を説明する図であり、記録媒体に記録されているオーディオビデオストリームを編集するための表示画面を示している。
ここでは、表示装置200は、テレビジョンセットやパーソナルコンピュータの表示部であり、その表示画面210には、記録媒体に記録されている1つのコンテンツに対応するオーディオビデオストリームの全体を示す帯状インジケータ211、該オーディオビデオストリームにおける特定のVOBユニット211aを拡大して示す帯状インジケータ212、該VOBユニット211aにおける、編集点となっているピクチャ212a、212b、212c、212dのサムネイル画面213a、213b、213c、213dが示されている。
【0115】
また、表示画面210には、処理用サムネイル表示領域220があり、この領域220には、ユーザが編集条件を調整する対象となっている編集点のピクチャが表示されている。表示画面210では、処理用サムネイル表示領域220と隣接して、編集点のピクチャが満たすべき編集条件である特徴量の判定強度を調整するための、各要素に対応した操作領域230及び240が表示されている。
【0116】
ユーザは、このように表示画面210上で、各編集点に設定されているピクチャが満たすべき編集条件、つまり特徴量の判定強度を調整することができる。
【0117】
なお、上記編集サポートのための表示は、Iピクチャをすべてサムネイル画面で表示し、編集点となるピクチャのサムネイル画面を、他のIピクチャのサムネイル画面よりも大きくすることも可能である。
【0118】
また、上記編集サポートのための表示は、編集点となるピクチャをサムネイル表示する順序は、特徴量の発生要因の種別に応じた順序としても、あるいは、すべての要因に対して正規化した特徴量の大きさ順としもよい。
【0119】
さらに、上記編集サポートの表示は、編集点に設定されているピクチャをスライドショー形式で順次表示するものでもよく、この場合、必要な編集点を要否選択することで一次編集を行い、細かな2次編集のためのサポートを行うことも可能である。
【0120】
また、上記編集サポートのための表示は、編集点から数秒ずつを自動的につなぎ合わせて、好みのBGMの音程やテンポに合せて編集点を切り替えてダイジェストで表示するものであってもよい。この場合、記録されているオーディオビデオストリームをこのようなダイジェスト版になるよう編集しなおしても、特に編集しないでもこのような表示を行うだけでもよい。
【0121】
またさらに、制御部20aあるいは編集点情報生成部22aは、編集が終了したかどうかを認識するフラグも管理するものとし、記録されたオーディオビデオストリームは、編集されたものか否かの情報を有するものとしてもよい。
また、編集されたオーディオビデオストリームは、実データ部分は変更しないで、プレイリストのみ変更したものであってもよい。
【0122】
このように本実施の形態1の撮像装置101では、被写体の撮影により得られた画像信号Dimから、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号Dauから、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報Didに基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、上記画像や音声が変化した撮影タイミングが編集点として妥当であるか否かを決定するので、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【0123】
また、この実施の形態1では、編集点は、編集点として妥当であると判定された撮影タイミングに近い、AV符号化データにおけるVOBユニットの切れ目に設定しているので、撮影により得られた画像信号が符号化されている状態でも、符号化された画像信号を処理することなく、編集点の設定が可能である。
【0124】
また、この実施の形態1では、編集点を、イベントの発生時点からイベント発生により撮影状況が変化するまでの遅延時間だけ、撮影状況が変化した撮影タイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生したタイミングに設定することができる。
【0125】
また、この実施の形態1では、撮影状況が変化した撮影タイミングを編集点として適切であると判定する際の判定強度を、操作者がマニュアルで設定する場合について説明したが、編集点設定のための個々の要因に対する判定強度は、撮像装置に予め設定されている複数のシナリオのうちから、運動会や結婚式に対応するものを選択することにより、設定するようにしてもよい。
【0126】
このようにシナリオの選択により個々の要因に対する判定強度を決定する撮像装置は、例えば、実施の形態1の撮像装置において、上記制御部を、複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各要因に対応する特徴量の閾値レベルを設定するものとし、さらに上記特徴量判定部を、上記画像特徴量、音声特徴量、及び固有特徴量を、それぞれに対応する、上記制御部で設定された閾値レベルに基づいて、上記画像、音声、及び撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを判定するものとすることにより、実現することが可能である。
【0127】
この場合、上記複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報には、ネットワーク上の情報端末からダウンロードして取得したものを利用することも可能である。
【0128】
なお、上記テーブル情報に含まれる各特徴量の閾値レベルの組み合わせは、画像特徴量、音声特徴量、及び固有特徴量のうちの2つでもよく、また、上記テーブル情報は、複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量のいずれか1つに対する閾値レベルとの対応関係を示すものでもよい。
【0129】
(実施の形態2)
図8は、本発明の実施の形態2による撮像装置を説明するための図である。
本実施の形態2の撮像装置102は、実施の形態1の撮像装置101における編集点情報生成部22aに代えて、編集点となるピクチャがIピクチャでない場合は、編集点となるピクチャとその近傍のピクチャのピクチャタイプを変更するよう画像処理部11aに再符号化を指令する編集点情報生成部22bを備えたものである。また、制御部20bは、再符号化時に画像処理部11aを制御する点のみ、実施の形態1の制御部20aと異なっている。そして、本実施の形態2の撮影装置102のその他の構成は、実施の形態1の撮像装置101と同一である。
【0130】
次に動作について説明する。
この実施の形態2の撮像装置102では、撮影前のマニュアル設定操作は、実施の形態1と同様に行われる。
【0131】
撮影が開始されると、撮像装置102の特徴量判定部21は、実施の形態1の撮像装置101と同様、画像情報、音声情報、及び撮影状態に関する情報を取得し、該取得した情報から得られた、ユーザ操作や撮影者の生理的変化の特徴量、画像の特徴量、及び音声の特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であるか否かを判定する。
【0132】
そして、この実施の形態2では、編集点情報生成部22bは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であると判定される度に、編集点を示す編集点情報を生成し、編集点に対応するピクチャがIピクチャ以外である場合には再符号化の指令を画像処理部11aに対して行う。
【0133】
図9は、編集点情報の生成処理、及び再符号化処理のフローを示す。
この実施の形態2では、制御部20bは、特徴量の種類に応じた遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベント発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
【0134】
次に、編集点情報生成部22bは、上記特徴量が検出された撮影タイミングTcpから上記遅延時間だけ遡った撮影タイミングTepに対応するピクチャを先頭するVOBユニットを強制的に作成するよう画像処理部11aに指令する。すると、画像処理部11aは、強制的にVOBユニットVOBUを作成しなおす再符号化処理を行う(ステップS12b)。
【0135】
その後、編集点情報生成部22bは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、図10(b)〜(d)に示すように、編集点を、強制的に作成したVOBユニットVOBUの先頭のIピクチャに設定したことを示す編集点ピクチャ情報を生成する。そして、オーディオビデオストリームのプレイアイテムを、撮影タイミングTepが編集点に設定されたことが示されるよう変更する(ステップS13)。
【0136】
以下、強制的にVOBユニットVOBUを作成しなおす再符号化処理を説明する図である。
図10(a)は、複数のピクチャF1、F2、F3、F4、F5、F6、F7、F8、F9、F10、・・・からなる1つのVOBユニットVOBU(f)を示している。
【0137】
ここで、ピクチャF1は、その符号化及び復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャF4、F7、F10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャF2、F3、F5、F6、F8、F9は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャであり、図10(a)に示す各ピクチャは、MPEG‐2で規定されている本来の参照関係となっている。
【0138】
図10(b)は、編集点となるピクチャが、VOBユニットVOBU(f)の4番目のピクチャF4となり、このピクチャF4のピクチャタイプを変更し、かつその前の2つのBピクチャF2及びF3の参照関係を変更する場合を示している。
【0139】
この場合は、ピクチャF4は、PピクチャからIピクチャに変更され、BピクチャF2及びF3は、前方のIピクチャF1のみを参照するよう再符号化される。また、ピクチャF4を先頭とする新たなVOBユニットVOBU(fb1)が作成され、ピクチャF4以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa1)は、BピクチャF2及びF3の参照関係を変更した、VOBユニットVOBU(fb1)直前の新たなVOBユニットである。
【0140】
図10(c)は、編集点となるピクチャが、VOBユニットVOBU(f)の5番目のピクチャF5となり、このピクチャF5及びその後のBピクチャF6の参照関係を変更し、PピクチャF7のピクチャタイプを変更する場合を示している。
【0141】
この場合は、ピクチャF7は、PピクチャからIピクチャに変更され、ピクチャF5及びF6は、ピクチャタイプが変更された後方のIピクチャF7のみを参照するよう再符号化される。また、ピクチャF5を先頭とする新たなVOBユニットVOBU(fb2)が作成され、ピクチャF8以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa2)は、PピクチャF4を最終ピクチャとする、VOBユニットVOBU(fb2)直前の新たなVOBユニットである。
【0142】
図10(d)は、編集点となるピクチャが、VOBユニットVOBU(f)の6番目のピクチャF6となり、このピクチャF6の参照関係と、その前後のBピクチャF5及びF7の参照関係を変更する場合を示している。
【0143】
この場合は、ピクチャF7は、PピクチャからIピクチャに変更され、ピクチャF5は、その前方のPピクチャF4のみを参照し、ピクチャF6は、その後方のPピクチャF7のみを参照するよう再符号化される。また、ピクチャF6を先頭とする新たなVOBユニットVOBU(fb3)が作成され、ピクチャF8以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、VOBユニットVOBU(fa3)は、PピクチャF5を最終ピクチャとする、VOBユニットVOBU(fb3)直前の新たなVOBユニットである。
【0144】
このような構成の実施の形態2では、被写体の撮影により得られた画像信号から、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号から、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、画像や音声などが変化した撮影タイミングが編集点として妥当であるか否かを判定するので、実施の形態1と同様、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【0145】
また、この実施の形態2では、編集点は、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となるよう、そのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化するので、撮影により得られた画像信号が符号化されている状態でも、編集点の設定を正確に行うことができる。
【0146】
また、この実施の形態2では、編集点は、イベントの発生から該イベント発生により撮影状態が変化するまでの遅延時間だけ、画像や音声などの撮影状況が変化した撮影タイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生したタイミングに設定することができる。
【0147】
なお、上記実施の形態2では、編集点に設定されたピクチャが画面間予測ピクチャである場合は、このピクチャが面内予測ピクチャとなるようトランスコードして記録するようにしているが、トランスコードにより得られた面内予測ピクチャは、上記編集点に設定された画面間予測ピクチャとは別に、そのサブピクチャとして記録するようにしてもよい。
この場合、編集時には、編集点に設定されている画面間予測ピクチャをそのサブピクチャとして記録されている画面内予測ピクチャと置き換え、該置き換えた画面内予測ピクチャを、編集点であるVOBユニットの先頭ピクチャとして再生に利用することができる。
【0148】
(実施の形態3)
図11は、本発明の実施の形態3による撮像装置を説明するための図である。
本実施の形態3の撮像装置103は、実施の形態1の撮像装置101における編集点情報生成部22aに代えて、編集点を挿入する際、符号化前のバッファデータがあるか否かによって、先頭ピクチャが編集点に対応した新たなVOBユニットVOBUを生成する処理と、編集点をこの編集点に最も近いVOBユニットVOBUの切れ目に設定する処理とを切り替える編集点情報生成部22cを備えたものである。また、制御部20cは、編集点の設定処理の切り替えに応じて画像処理部11aを制御する点のみ、実施の形態1の制御部20aと異なっている。そして、本実施の形態3の撮影装置103のその他の構成は、実施の形態1の撮像装置101と同一である。
【0149】
次に動作について説明する。
この実施の形態3の撮像装置では、撮影前のマニュアル設定操作は、実施の形態1と同様に行われる。
【0150】
撮影が開始されると、撮像装置103は、実施の形態1の撮像装置101と同様、画像情報、音声情報、及び撮影状態を示す情報を取得し、該取得した情報から得られた、ユーザ操作や撮影者の生理的変化の特徴量、画像の特徴量、及び音声の特徴量に基づいて、画像や音声などの撮影状況が変化した撮影タイミングが編集点として妥当であるか否かを判定する。
【0151】
そして、この実施の形態3では、編集点情報生成部22cは、特徴量判定部21で、各処理部10a、11a、12aから供給されたそれぞれの特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であると判定される度に、編集点を設定した撮影タイミングを示す編集点情報を生成し、編集点の設定処理を行う。
【0152】
図12は、編集点の設定処理のフローを示す。
この実施の形態3では、制御部20cは、特徴量の種類に応じた遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベント発生により撮影状況が変化するまでの時間を算出する(ステップS11)。
【0153】
次に、編集点情報生成部22cは、遅延時間の算出時点で、符号化前の画像信号であるバッファデータがあるか否かを判定し(ステップS11a)、符号化前のバッファデータがあると判定された場合は、作成途中のVOBユニットVOBUをクローズして、新たなVOBユニットVOBUを作成する(ステップS12c)。一方、ステップS11aにて、符号化前のバッファデータがないと判定された場合は、撮影状況が変化したタイミングTcpから、算出された遅延時間だけ遡った撮影タイミングTep以前で、この撮影タイミングTepに最も近いVOBユニットVOBUの切れ目を編集点とする処理を行う(ステップS12a)。このステップS12aの処理は、実施の形態1のステップS12aの処理と同じものである。
【0154】
その後、編集点情報生成部22cは、編集点として妥当であると判定された撮影タイミングTepを示す編集点情報を生成するとともに、上記ステップS12a及びS12cのいずれかの処理により編集点が設定されたかが示されるよう、システムストリームのプレイアイテムを変更する(ステップS13)。
【0155】
以下、図13は、上記ステップS12cで、先頭ピクチャを編集点に設定した新たなVOBユニットVOBUを作成する処理を説明する図である。
図13(a)は、複数のピクチャJ1、J2、J3、J4、J5、J6、J7、J8、J9、J10、・・・からなる1つのVOBユニットVOBU(j)を示している。
【0156】
ここで、ピクチャJ1は、その符号化及び復号化の際に他のピクチャを参照しないIピクチャであり、ピクチャJ4、J7、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、ピクチャJ2、J3、J5、J6、J8、J9は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャであり、VOBユニットVOBU(j)の各ピクチャは、MPEG‐2で規定されている本来の参照関係となっている。
【0157】
図13(b)は、VOBユニットVOBU(j)の4番目のピクチャJ4を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるPピクチャとして符号化されるべきピクチャJ4は、新たなVOBユニットVOBU(ja)の先頭のIピクチャJa1として符号化される。VOBユニットVOBU(j)における、それぞれBピクチャである2番目ピクチャJ2と3番目のピクチャJ3は、前方のIピクチャJ1のみを参照するBピクチャとして符号化される。なお、VOBユニットVOBU(ja)におけるピクチャJa4、Ja7は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャを参照するPピクチャであり、VOBユニットVOBU(ja)におけるピクチャJa2、Ja3、Ja5、Ja6は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
【0158】
図13(c)は、VOBユニットVOBU(j)の5番目のピクチャJ5を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるBピクチャとして符号化されるべきピクチャJ5は、新たなVOBユニットVOBU(jb)の先頭のIピクチャとして符号化される。なお、VOBユニットVOBU(jb)におけるピクチャJ8は、符号化及び復号化の際に、前方のIピクチャを参照するPピクチャであり、VOBユニットVOBU(jb)におけるピクチャJ6、J7、J9、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
【0159】
図13(d)は、VOBユニットVOBU(j)の6番目のピクチャJ6を編集点として新たなVOBユニットVOBUを生成する場合を示している。
この場合は、VOBユニットVOBU(j)におけるBピクチャとして符号化されるべきピクチャJ6は、新たなVOBユニットVOBU(jc)の先頭のIピクチャとして符号化される。VOBユニットVOBU(j)における、Bピクチャである5番目ピクチャJ5は、前方のPピクチャJ4のみを参照するBピクチャとして符号化される。なお、VOBユニットVOBU(jc)におけるピクチャJ9は、符号化及び復号化の際に、前方のIピクチャを参照するPピクチャであり、VOBユニットVOBU(jc)におけるピクチャJ7、J8、J10は、符号化及び復号化の際に、前方のIピクチャあるいはPピクチャと後方のPピクチャとを参照するBピクチャである。
【0160】
このような構成の実施の形態3では、被写体の撮影により得られた画像信号から、画像の変化の特徴を表す画像特徴量を抽出する画像処理部11aと、被写体の撮影により得られた音声信号から、音声の変化の特徴を表す音声特徴量を抽出する音声処理部12aと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部10aとを備え、抽出された特徴量を予め設定されている判定強度と比較して、この特徴量の発生した撮影タイミングが編集点として妥当であるか否かを判定するので、実施の形態1と同様、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【0161】
また、この実施の形態3では、編集点を挿入する際、符号化前のバッファデータがあるか否かによって、編集点を先頭ピクチャとする新たなVOBユニットVOBUを生成する処理と、イベントの発生タイミングに最も近いVOBユニットVOBUの切れ目を編集点とする処理とを切り替えるので、撮影により得られた画像信号が符号化されていない場合は、編集点を基準としてVOBユニットVOBUを生成することにより正確な位置に編集ポイントを設定することができ、また、撮影により得られた画像信号が符号化されている場合には、オーディオビデオストリームを処理することなく、編集点の設定を簡単に行うことができる。
【0162】
また、この実施の形態3では、編集点は、イベント発生からその検出、つまりイベント発生により撮影状況が変化するまでの遅延時間だけ、撮影状況が変化したタイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生した撮影タイミングに設定することができる。
【0163】
なお、上記実施の形態3では、イベントが発生してから実際に画像、音声、あるいは撮影状態が変化するまでの遅延時間に応じて、編集点を設定する撮影タイミングを決定しているが、イベントは、画像、音声、あるいは撮影状態が変化した後に発生する場合もあり、このような場合には、画像、音声、あるいは撮影状態の変化からイベント発生までの時間に応じて、編集点を設定する撮影タイミングを決定するようにしてもよい。
【0164】
また、上記実施の形態3では、撮影により得られた画像信号が符号化されている場合には、イベントが発生したタイミングに最も近いVOBユニットVOBUの切れ目を編集点としているが、この場合は、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となるよう、そのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化するようにしてもよい。
【0165】
この場合、図14に示すように、編集点を設定する際、符号化前のバッファデータがあるか否かの判定(ステップS11a)の結果によって、編集点を先頭ピクチャとする新たなVOBユニットVOBUを生成する処理(ステップS12c)と、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、VOBユニットの切れ目となり、かつそのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化する処理(ステップS12b)とが切り替えられることとなる。
【0166】
さらに、撮影により得られた画像信号が符号化されている場合には、イベント発生タイミングに最も近いVOBユニットVOBUの切れ目を編集点とする処理と、再符号化により強制的にVOBユニットVOBUを生成する処理とを、再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えているか否かに応じて切り替えるようにしてもよい。
【0167】
図15は、符号化前のバッファデータがない場合に、符号化に使える残り時間に応じて、編集点を設定する処理を切り替えるフローを示している。
この場合、編集点を挿入する際、符号化前のバッファデータがあるか否かを判定し(ステップS12)、バッファデータがあると判定された場合は、実施の形態3と同様に、編集点を先頭ピクチャとする新たなVOBユニットVOBUを強制的に生成する処理(ステップS13a)を行う。
【0168】
一方、符号化前のバッファデータがないと判定された場合には、再符号化に要する時間が、その時点で画像処理部11aでの符号化処理に利用できる残り時間を超えているか否かを判定する(ステップS12a)。そして、再符号化に要する時間が、その時点で符号化処理に使える残り時間を超えていると判定された場合には、編集点は、イベント発生タイミングに近いVOBユニットの切れ目に設定し(ステップS13c)、一方、ステップS12aにて、再符号化に要する時間が、その時点で符号化処理に使える残り時間を超えていないと判定された場合には、イベント発生タイミングに対応するピクチャを先頭とするVOBユニットを強制的に作成する再符号化処理を行う(ステップS13b)。なお、図15に示す処理フローでは、符号化前のバッファデータがない場合には、上記ステップS13bの処理とステップS13cの処理を、再符号化に要する時間と、画像処理部での符号化処理に使える残り時間との比較結果に応じて切り替えているが、この処理フローは、符号化前のバッファデータがない場合は、予め撮影者が設定した、ステップS13b及びステップS13cのいずれか一方の処理を行うものであってもよい。
【0169】
さらに、上記各実施の形態では、オーディオビデオストリームはMPEG‐2に対応するシステムストリームを想定しているが、オーディオビデオストリームは、MPEG‐4やMPEG‐4AVCに対応するシステムストリームを想定したものであってもよい。
【0170】
ただし、MPEG‐4AVC対応のシステムストリームでは、Iピクチャには、ランダムアクセス不可能なIピクチャとランダムアクセス可能なIピクチャ(IDR)があるため、編集点として設定するIピクチャは、イベント発生タイミングから最も近い、ランダムアクセス可能なIピクチャ(IDR)とされる。
【0171】
また、MPEG‐4AVC対応のシステムストリームには、補助的な情報の書き込み領域(SEI)が設定されているため、この書き込み領域に、特徴量の発生がどのような要因によるものであるかを示す情報を埋め込むこともできる。
【0172】
また、上記各実施の形態では、オーディオビデオストリームは、1つのシーケンスに対応するピクチャのデータを含むものであるが、このストリームは、1つのシーケンスに対応するピクチャのデータのほかに、サムネイル編集選択のためのシーケンス外のサブピクチャのデータを埋め込んだものであってもよい。この場合、編集時には、編集点として適切なピクチャを、サムネイル表示により一目で確認することができる。
【0173】
また、上記各実施の形態では、編集点に設定されたピクチャを全て編集に利用しているが、編集点が多いと編集しにくいということも考えられるので、編集点の設定後に、各編集点の設定要因毎に、つまり画像の変化や音声の変化などの別に、編集点を間引くようにしてよい。例えば、設定された複数の編集点から、音声の変化によって設定された編集点を削除することにより、編集時に利用する編集点の情報を削減することができる。
【0174】
また、MPEG‐4AVCのシステムストリームでは、ランダムアクセス可能なIピクチャ(IDR)は、ランダムアクセス不可能なIピクチャよりも間隔をあけて配置されているため、このようなIピクチャ(IDR)を編集点として設定することにより、編集点の数を減らすことができる。
【0175】
またさらに、上記各実施の形態では、編集点の設定は、イベント発生時の特徴量が一定の判定強度以上であるか否かを判定して、イベント発生タイミングを編集点として設定しているが、イベント発生タイミングをすべて編集点として設定し、編集時に、編集点を実際に利用するか否かを決定するようにしてもよい。
【0176】
このような構成の撮影装置は、具体的には、実施の形態1〜3のいずれかの撮像装置の情報生成部を、画像、音声、あるいは撮影状態が変化した撮影タイミングを編集点として示す編集点情報を生成するものとし、さらに、その特徴量判定部を、オーディオビデオストリームを編集する際、上記画像特徴量、音声特徴量、あるいは固有特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定するものとすることにより実現できる。
【0177】
この場合、具体的には、上記画像、音声、及び撮影状態を変化させるすべてのイベントの発生時刻は、撮影タイミングを編集点として示す編集点情報として上記オーディオビデオストリームに埋め込まれることとなる。このため、イベント発生タイミングを編集点に設定する際には、イベント発生タイミングを編集点として利用するか否かの判定をリアルタイムで行う必要がなくなる。
【0178】
また、上記各実施の形態では、編集点を、被写体の画像や音声が変化した撮影タイミングだけでなく、撮影者の生理現象に変化が生じた撮影タイミングや撮影者が撮影器装置を操作した撮影タイミングにも設定する撮影装置を示したが、編集点は、被写体の画像や音声が変化した撮影タイミングのみに設定するようにしてもよい。この場合、撮像装置は、上記実施の形態の固有識別情報取得部10及び固有識別情報処理部10aを含まないものとなる。
【0179】
また、上記各実施の形態の説明では特に言及していないが、図1に示す実施の形態1の撮像装置101、図8に示す実施の形態2の撮像装置102、及び図11に示す実施の形態3の撮像装置103における、撮像部11、記録媒体30a及び記録媒体インターフェース30を除く各機能部は、典型的には集積回路であるLSIとして実現されるものである。これらの機能部は、個別に1チップ化したものでもよいし、それらのうちのいくつかを、またはそれらの全てを含むように1チップ化したものでもよい。
【0180】
例えば、上記各実施の形態の撮像装置における複数の機能部は、記録媒体30a及び記録媒体インターフェース30に相当するメモリ以外の機能部を、1チップ化したものでもよい。
【0181】
またここでは、集積回路にはLSIと呼ばれるものを例に挙げたが、該集積回路は、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0182】
また、集積回路化の手法は、1つまたは複数の機能部をLSIとして実現するものに限らず、該機能部を専用回路又は汎用プロセサで実現してもよい。また、LSIとしては、その製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
【0183】
さらには、半導体技術の進歩又は派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能部の集積化を行ってもよく、例えば、将来的な集積回路化の技術はバイオ技術を適応したもの等である可能性がありえる。
また、近年、被写体を撮影してその動画像を記録可能なデジタルカメラや携帯端末が開発されており、このようなものに、上記実施の形態1〜3の撮像装置を構成する各機能部を搭載することにより、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを記録し、該ストリームの所要部分を自動編集して再生するデジタルカメラや携帯端末を実現することができる。
【産業上の利用可能性】
【0184】
本発明の撮像装置は、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを生成するものであり、特に、家庭用のデジタルビデオカメラ、さらにはデジタルカメラや携帯端末などにおいて有用である。
【図面の簡単な説明】
【0185】
【図1】本発明の実施の形態1による撮像装置101を説明するブロック図である。
【図2】実施の形態1の撮像装置101における記録媒体に記憶されているオーディオビデオストリームを説明する図である。
【図3】実施の形態1の撮像装置101にて自動編集点挿入に関する条件を設定する操作を説明する図である。
【図4】上記実施の形態1の撮像装置101の動作を説明する図である。
【図5】上記実施の形態1の撮像装置101における編集点設定処理を具体的に説明する図であり、処理フロー(図(a))、及び撮影タイミングと、オーディオビデオストリームにおけるVOBユニットの切れ目との関係(図(b))を示している。
【図6】上記実施の形態1の撮像装置101により得られたオーディオビデオストリームを自動編集して再生する処理のフローを示す図である。
【図7】上記実施の形態1の撮像装置101における、編集ポイントの利用方法を説明する図である。
【図8】本発明の実施の形態2による撮像装置102を説明するための図である。
【図9】上記実施の形態2の撮像装置102における編集点設定処理のフローを示す図である。
【図10】上記実施の形態2による撮像装置102における、強制的にVOBユニットVOBUを作成しなおす再符号化処理を説明する図であり、符号化時における通常の参照関係(図(a))、再符号化によるピクチャタイプ及び参照関係の3つの変更例(図(b)〜図(d))を示す。
【図11】本発明の実施の形態3による撮像装置103を説明するための図である。
【図12】上記実施の形態3の撮像装置103における編集点の挿入処理のフローを示す図である。
【図13】上記実施の形態3による撮像装置103における、新たなVOBユニットVOBUを作成する処理を説明する図であり、符号化時における通常の参照関係(図(a))、新たに作成されたVOBユニットの3つの変更例(図(b)〜図(d))を示す。
【図14】上記実施の形態3の撮像装置103における編集点挿入処理フローの変形例を示す図である。
【図15】上記実施の形態3の撮像装置103における編集点挿入処理フローの他の変形例を示す図である。
【符号の説明】
【0186】
10 固有識別情報取得部
10a 固有識別情報処理部
11 撮像部
11a 画像処理部
12 音声取得部
12a 音声処理部
20a,20b,20c 制御部
21 特徴量判定部
22a,22b,22c 編集点情報生成部
30 記録媒体インターフェース部
30a 記録媒体
101,102、103 撮像装置
【特許請求の範囲】
【請求項1】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、
被写体を撮像して画像信号を出力する撮像部と、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、
ことを特徴とする撮像装置。
【請求項2】
請求項1記載の撮像装置において、
撮影状態を示す固有識別情報を取得する固有識別情報取得部と、
取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、
上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項3】
請求項2記載の撮像装置において、
上記固有特徴量は、撮影中に生じた撮影者の生理変化の大きさ、または撮影者の操作による調整の大きさを示すものである、
ことを特徴とする撮像装置。
【請求項4】
請求項3記載の撮像装置において、
上記撮影中に生じた撮影者の生理変化は、撮影者の発汗量の変化、α波の変化、まばたきの回数変化、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つであり、
上記固有識別情報取得部は、上記撮影者の生理変化を測定する、該生理変化の種類に応じたセンサを有する、
ことを特徴とする撮像装置。
【請求項5】
請求項1記載の撮像装置において、
上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出し、
上記音声処理部は、音声の取得により得られた音声信号に対して、上記画像信号に対する符号化処理に対応した符号化処理を施し、
上記情報生成部は、上記編集点として妥当であると判定された撮影タイミングに基づいて、画像信号の符号化により得られた画像ストリームにおける特定のピクチャを上記編集点に設定する、
ことを特徴とする撮像装置。
【請求項6】
請求項1記載の撮像装置において、
上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出する、
ことを特徴とする撮像装置。
【請求項7】
請求項2記載の撮像装置において、
ユーザのマニュアル操作信号に基づいて、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量のそれぞれに対する閾値レベルを設定する制御部を有し、
上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項8】
請求項2記載の撮像装置において、
複数のシナリオのそれぞれと、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各種特徴量の閾値レベルを設定する制御部を有し、
上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項9】
請求項8記載の撮像装置において、
上記テーブル情報は、ネットワーク上の情報端末からダウンロードして取得したものである、
ことを特徴とする撮像装置。
【請求項10】
請求項1記載の撮像装置において、
上記情報生成部は、
上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定する、
ことを特徴とする撮像装置。
【請求項11】
請求項10記載の撮像装置において、
上記情報生成部は、
上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、
ことを特徴とする撮像装置。
【請求項12】
請求項1記載の撮像装置において、
上記画像処理部は、
上記情報生成部からの指示により、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、
ことを特徴とする撮像装置。
【請求項13】
請求項12記載の撮像装置において、
上記情報生成部は、
上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、
ことを特徴とする撮像装置。
【請求項14】
請求項1記載の撮像装置において、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、
上記画像処理部は、
上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、
ことを特徴とする撮像装置。
【請求項15】
請求項1記載の撮像装置において、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、
該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、
上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、
上記画像処理部は、
上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成し、
上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、
ことを特徴とする撮像装置。
【請求項16】
請求項1記載の撮像装置において、
上記画像、あるいは音声に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録する、
ことを特徴とする撮像装置。
【請求項17】
請求項16記載の撮像装置において、
上記イベントの発生時刻を、再生条件を示すプレイリストとして上記オーディオビデオストリームに記録する、
ことを特徴とする撮像装置。
【請求項18】
請求項16記載の撮像装置において、
上記編集点が、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、上記オーディオビデオストリームに埋め込む、
ことを特徴とする撮像装置。
【請求項19】
請求項1記載の撮像装置において、
上記情報生成部は、
上記画像、あるいは音声に変化を与えるイベントが発生した時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとして上記オーディオビデオストリームに埋め込む、
ことを特徴とする撮像装置。
【請求項20】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、
被写体を撮像して画像信号を出力する撮像部と、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部と、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する記録部と、
上記オーディオビデオストリームを編集する際、上記画像特徴量あるいは音声特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定する特徴量判定部とを備えた、
ことを特徴とする撮像装置。
【請求項21】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像方法であって、
被写体を撮像して画像信号を出力する撮像ステップと、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、
音声を取得して音声信号を出力する音声取得ステップと、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップと、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含む、
ことを特徴とする撮像方法。
【請求項22】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する半導体装置であって、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、
ことを特徴とする半導体装置。
【請求項1】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、
被写体を撮像して画像信号を出力する撮像部と、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、
ことを特徴とする撮像装置。
【請求項2】
請求項1記載の撮像装置において、
撮影状態を示す固有識別情報を取得する固有識別情報取得部と、
取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、
上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項3】
請求項2記載の撮像装置において、
上記固有特徴量は、撮影中に生じた撮影者の生理変化の大きさ、または撮影者の操作による調整の大きさを示すものである、
ことを特徴とする撮像装置。
【請求項4】
請求項3記載の撮像装置において、
上記撮影中に生じた撮影者の生理変化は、撮影者の発汗量の変化、α波の変化、まばたきの回数変化、瞳孔の変化、及び脈拍の変化のうちの少なくとも1つであり、
上記固有識別情報取得部は、上記撮影者の生理変化を測定する、該生理変化の種類に応じたセンサを有する、
ことを特徴とする撮像装置。
【請求項5】
請求項1記載の撮像装置において、
上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出し、
上記音声処理部は、音声の取得により得られた音声信号に対して、上記画像信号に対する符号化処理に対応した符号化処理を施し、
上記情報生成部は、上記編集点として妥当であると判定された撮影タイミングに基づいて、画像信号の符号化により得られた画像ストリームにおける特定のピクチャを上記編集点に設定する、
ことを特徴とする撮像装置。
【請求項6】
請求項1記載の撮像装置において、
上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出する、
ことを特徴とする撮像装置。
【請求項7】
請求項2記載の撮像装置において、
ユーザのマニュアル操作信号に基づいて、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量のそれぞれに対する閾値レベルを設定する制御部を有し、
上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項8】
請求項2記載の撮像装置において、
複数のシナリオのそれぞれと、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各種特徴量の閾値レベルを設定する制御部を有し、
上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項9】
請求項8記載の撮像装置において、
上記テーブル情報は、ネットワーク上の情報端末からダウンロードして取得したものである、
ことを特徴とする撮像装置。
【請求項10】
請求項1記載の撮像装置において、
上記情報生成部は、
上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定する、
ことを特徴とする撮像装置。
【請求項11】
請求項10記載の撮像装置において、
上記情報生成部は、
上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、
ことを特徴とする撮像装置。
【請求項12】
請求項1記載の撮像装置において、
上記画像処理部は、
上記情報生成部からの指示により、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、
ことを特徴とする撮像装置。
【請求項13】
請求項12記載の撮像装置において、
上記情報生成部は、
上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、
ことを特徴とする撮像装置。
【請求項14】
請求項1記載の撮像装置において、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、
上記画像処理部は、
上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成する、
ことを特徴とする撮像装置。
【請求項15】
請求項1記載の撮像装置において、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、
該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるVOBユニットの先頭ピクチャに設定し、
上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、
上記画像処理部は、
上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、VOBユニットの先頭ピクチャとなるようVOBユニットを形成し、
上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、VOBユニットの先頭に位置するIピクチャとなるよう再符号化する、
ことを特徴とする撮像装置。
【請求項16】
請求項1記載の撮像装置において、
上記画像、あるいは音声に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録する、
ことを特徴とする撮像装置。
【請求項17】
請求項16記載の撮像装置において、
上記イベントの発生時刻を、再生条件を示すプレイリストとして上記オーディオビデオストリームに記録する、
ことを特徴とする撮像装置。
【請求項18】
請求項16記載の撮像装置において、
上記編集点が、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、上記オーディオビデオストリームに埋め込む、
ことを特徴とする撮像装置。
【請求項19】
請求項1記載の撮像装置において、
上記情報生成部は、
上記画像、あるいは音声に変化を与えるイベントが発生した時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとして上記オーディオビデオストリームに埋め込む、
ことを特徴とする撮像装置。
【請求項20】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、
被写体を撮像して画像信号を出力する撮像部と、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部と、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する記録部と、
上記オーディオビデオストリームを編集する際、上記画像特徴量あるいは音声特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定する特徴量判定部とを備えた、
ことを特徴とする撮像装置。
【請求項21】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像方法であって、
被写体を撮像して画像信号を出力する撮像ステップと、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、
音声を取得して音声信号を出力する音声取得ステップと、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップと、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含む、
ことを特徴とする撮像方法。
【請求項22】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する半導体装置であって、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、
ことを特徴とする半導体装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2006−157893(P2006−157893A)
【公開日】平成18年6月15日(2006.6.15)
【国際特許分類】
【出願番号】特願2005−313490(P2005−313490)
【出願日】平成17年10月27日(2005.10.27)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】
【公開日】平成18年6月15日(2006.6.15)
【国際特許分類】
【出願日】平成17年10月27日(2005.10.27)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】
[ Back to top ]