撮像装置

【課題】撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを生成する撮像装置を得る。
【解決手段】被写体の撮影により得られた画像信号から、撮影状態の変化を表す画像特徴量を抽出する画像処理部１１ａと、音声を取得して得られた音声信号から、撮影状態の変化を表す音声特徴量を抽出する音声処理部１２ａと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化を表す状態特徴量を抽出する固有識別情報処理部１０ａとを備え、抽出された特徴量を予め設定されている検出強度と比較して、この特徴量の発生した撮影タイミングが編集点として妥当であるか否かを判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は撮像装置に関し、特に、撮像装置を用いた撮影により得られたオーディオビデオデータに対して編集点を設定するデータ処理に関するものである。
【背景技術】
【０００２】
近年、被写体を撮影してデジタル映像データを符号化して記録媒体に記録するデジタル撮像装置が普及し、一般家庭でも大量のデジタル映像データを扱う機会が増えてきた。
【０００３】
ところが、一度撮影した映像は、編集してまとめておきたいところではあるが、編集のスタートポイントを探したりするのが面倒である。例えば、運動会や結婚式などで撮影した映像データは、一旦、記録媒体に記録するものの、その編集が面倒であるなどの理由で、一度も見ずに放置してしまっているという状況も考えられる。
【０００４】
また、編集のスタートポイントを見つけても、このスタートポイントに相当するピクチャが、予測符号化処理における画面間予測ピクチャとなっているため、開始位置として容易に使用できないなどの課題もある。
【０００５】
このように従来の撮像装置で撮影した映像データは、その重要な部分のみを簡単に視聴したり、記録媒体に残しておくようにしたりするには、面倒な編集作業を必要とするものであった。
【０００６】
ところで、特開２００３−２９９０１０号公報には、映像コンテンツ編集支援システムが開示されており、このシステムは、画像を撮影して映像コンテンツデータを記録する撮像装置と、該撮像装置での撮影により得られた映像コンテンツデータをネットワークなどを介してリアルタイムで受信して表示する編集者端末装置とを有している。
【０００７】
この編集支援システムの撮像装置は、ユーザ操作などに基づいて電子マークデータを発生する電子マーク発生部と、発生した電子マークデータを、撮影により得られた映像コンテンツデータにそのタイムコードと関連付けて記述する電子マーク挿入部とを有するものである。また、上記編集支援システムの編集者端末装置は、撮像装置からの電子マークデータに基づいて電子マークリストデータを作成するリスト作成部と、撮像装置からの映像コンテンツデータを表示する表示部とを有し、該表示部に、電子マークデータに対応するタイミングに同期した映像コンテンツデータの画像を表示するものである。
【０００８】
このような映像コンテンツ編集支援システムでは、撮影中にユーザ操作により、被写体の撮像データである映像コンテンツデータに電子マークデータを付加することにより、撮像により得られた映像コンテンツデータを、パーソナルコンピュータなどの編集者端末装置で電子マークデータに基づいて自動編集されるものとすることができる。
【特許文献１】特開２００３−２９９０１０号公報
【発明の開示】
【発明が解決しようとする課題】
【０００９】
ところが、上記文献記載の映像コンテンツ編集支援システムでは、撮影後の編集作業が自動で行われるようにするには、撮影中に、編集位置を示す電子マークデータを映像コンテンツデータに付加しておく必要があり、撮影時には、編集して残すべきと思われる重要な撮影部分にマーカを付加するといったわずらわしい操作を行わなければならないという問題がある。
【００１０】
本発明は、上記のような従来の問題点を解決するためになされたもので、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能とする撮像装置を得ることを目的とする。
【課題を解決するための手段】
【００１１】
本願の請求項１に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、ものである。
【００１２】
本願の請求項２に係る発明は、請求項１記載の撮像装置において、撮影状態を示す固有識別情報を取得する固有識別情報取得部と、取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【００１３】
本願の請求項３に係る発明は、請求項２記載の撮像装置において、上記固有特徴量を、撮影中に生じた撮影者の生理変化の大きさ、または撮影者の操作による調整の大きさを示すものとした、ものである。
【００１４】
本願の請求項４に係る発明は、請求項３記載の撮像装置において、上記撮影中に生じた撮影者の生理変化は、撮影者の発汗量の変化、α波の変化、まばたきの回数変化、瞳孔の変化、及び脈拍の変化のうちの少なくとも１つであり、上記固有識別情報取得部は、上記撮影者の生理変化を測定する、該生理変化の種類に応じたセンサを有する、ものである。
【００１５】
本願の請求項５に係る発明は、請求項１記載の撮像装置において、上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出し、上記音声処理部は、音声の取得により得られた音声信号に対して、上記画像信号に対する符号化処理に対応した符号化処理を施し、上記情報生成部は、上記編集点として妥当であると判定された撮影タイミングに基づいて、画像信号の符号化により得られた画像ストリームにおける特定のピクチャを上記編集点に設定する、ものである。
【００１６】
本願の請求項６に係る発明は、請求項１記載の撮像装置において、上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出する、ものである。
【００１７】
本願の請求項７に係る発明は、請求項２記載の撮像装置において、ユーザのマニュアル操作信号に基づいて、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量のそれぞれに対する閾値レベルを設定する制御部を有し、上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【００１８】
本願の請求項８に係る発明は、請求項２記載の撮像装置において、複数のシナリオのそれぞれと、上記画像特徴量あるいは音声特徴量、並びに固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各種特徴量の閾値レベルを設定する制御部を有し、上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、ものである。
【００１９】
本願の請求項９に係る発明は、請求項８記載の撮像装置において、上記テーブル情報を、ネットワーク上の情報端末からダウンロードして取得した情報とした、ものである。
【００２０】
本願の請求項１０に係る発明は、請求項１記載の撮像装置において、上記情報生成部は、上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるＶＯＢユニットの先頭ピクチャに設定する、ものである。
【００２１】
本願の請求項１１に係る発明は、請求項１０記載の撮像装置において、上記情報生成部は、上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、ものである。
【００２２】
本願の請求項１２に係る発明は、請求項１記載の撮像装置において、上記画像処理部は、上記情報生成部からの指示により、上記画像処理部により画像信号を符号化して得られたビデオストリームにおける、上記編集点に対応するピクチャを、ＶＯＢユニットの先頭に位置するＩピクチャとなるよう再符号化する、ものである。
【００２３】
本願の請求項１３に係る発明は、請求項１２記載の撮像装置において、上記情報生成部は、上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、ものである。
【００２４】
本願の請求項１４に係る発明は、請求項１記載の撮像装置において、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるＶＯＢユニットの先頭ピクチャに設定し、上記画像処理部は、上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、ＶＯＢユニットの先頭ピクチャとなるようＶＯＢユニットを形成する、ものである。
【００２５】
本願の請求項１５に係る発明は、請求項１記載の撮像装置において、上記情報生成部は、上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるＶＯＢユニットの先頭ピクチャに設定し、上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、上記画像処理部は、上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、ＶＯＢユニットの先頭ピクチャとなるようＶＯＢユニットを形成し、上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、ＶＯＢユニットの先頭に位置するＩピクチャとなるよう再符号化する、ものである。
【００２６】
本願の請求項１６に係る発明は、請求項１記載の撮像装置において、上記画像、あるいは音声撮影状態に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録する、ものである。
【００２７】
本願の請求項１７に係る発明は、請求項１６記載の撮像装置において、上記イベントの発生時刻を、再生条件を示すプレイリストとして上記オーディオビデオストリームに記録する、ものである。
【００２８】
本願の請求項１８に係る発明は、請求項１６記載の撮像装置において、上記編集点が、画像、あるいは音声のうちのいずれの要因によるものであるかを示す情報を、上記オーディオビデオストリームに埋め込む、ものである。
【００２９】
本願の請求項１９に係る発明は、請求項１記載の撮像装置において、上記画像、あるいは音声に変化を与えるイベントが発生した時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとして上記オーディオビデオストリームに埋め込む、ものである。
【００３０】
本願の請求項２０に係る発明は、、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、被写体を撮像して画像信号を出力する撮像部と、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部と、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する記録部と、上記オーディオビデオストリームを編集する際、上記画像特徴量あるいは音声特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定する特徴量判定部とを備えた、ものである。
【００３１】
本願の請求項２１に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像方法であって、被写体を撮像して画像信号を出力する撮像ステップと、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、音声を取得して音声信号を出力する音声取得ステップと、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップと、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含む、ものである。
【００３２】
本願の請求項２２に係る発明は、被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する半導体装置であって、上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声を取得して音声信号を出力する音声取得部と、上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、ものである。
【発明の効果】
【００３３】
本願請求項１の発明によれば、撮像装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部とを備えたので、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することができる。
【００３４】
本願請求項２の発明によれば、請求項１記載の撮像装置において、撮影状態を示す固有識別情報を取得する固有識別情報取得部と、取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定するので、撮影状態が大きく変化した撮影タイミングを編集点として設定することができる。
【００３５】
本願請求項３の発明によれば、請求項２記載の撮像装置において、上記固有特徴量を、撮影中に生じた撮影者の生理変化の大きさ、あるいは撮影者の操作による調整の大きさを示すものとしたので、撮影者が無意識で撮像装置を操作した撮影タイミングや、撮影者が意識を集中したり興奮したりした撮影タイミングを、編集点として設定することができるという効果がある。
【００３６】
本願請求項４の発明によれば、請求項３記載の撮像装置において、撮影者の発汗量の変化、α波の変化、まばたきの頻度、瞳孔の変化、及び脈拍の変化のうちの少なくとも１つをセンサにより測定して、このような撮影者の生理変化が撮影中に生じた撮影タイミングを編集点とするので、撮影者にとって重要なシーンを、撮影者の生理変化に基づいて編集することが可能となる。
【００３７】
本願請求項５の発明によれば、請求項１記載の撮像装置において、上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出するので、画像の動きに関する画像特徴量を、予測符号化処理で用いる動きベクトルに基づいて正確に抽出することができる。
【００３８】
本願請求項６の発明によれば、請求項１記載の撮像装置において、上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出するので、音の大きさに関する音声特徴量を、音声信号に基づいて正確に抽出することができる。
【００３９】
本願請求項７の発明によれば、請求項２記載の撮像装置において、上記画像特徴量あるいは音声特徴量、並びに固有特徴量のそれぞれに対する閾値レベルをマニュアル操作信号に基づいて設定する制御部を有するので、画像特徴量あるいは音声特徴量、並びに固有特徴量の検出強度を、ユーザが設定することができ、これにより、撮影した映像データの自動編集にユーザの嗜好などを反映することができる。
【００４０】
本願請求項８の発明によれば、請求項２記載の撮像装置において、複数の異なるシナリオのそれぞれと、画像特徴量あるいは音声特徴量、並びに固有特徴量に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作によるシナリオの選択により、上記各特徴量に対する閾値レベルを設定するので、運動会や結婚式といった撮影場所に応じたシナリオを選択するという簡単な操作により、運動会や結婚式などの撮影が行われる場所に応じた自動編集が可能となる。
【００４１】
本願請求項９の発明によれば、請求項８記載の撮像装置において、上記テーブル情報は、ネットワーク上の情報端末からダウンロードして取得するので、撮像装置のメーカのホームページなどを利用して、上記画像、音声あるいは撮影状態の変化である各特徴量に対して、画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを判定する、シナリオに合った適切な判定強度を設定することができる。
【００４２】
本願請求項１０の発明によれば、請求項１記載の撮像装置において、上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるＶＯＢユニットの先頭ピクチャに設定するので、撮影により得られた画像信号が符号化されている状態でも、符号化データを処理することなく、編集点の設定が可能である。
【００４３】
本願請求項１１の発明によれば、請求項１０記載の撮像装置において、上記情報生成部は、上記編集点を、イベント発生から実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定するので、編集点を、ほぼ、イベントが実際に発生したタイミングに設定することができる。
【００４４】
本願請求項１２の発明によれば、請求項１記載の撮像装置において、上記画像処理部は、上記情報生成部からの指示により、上記画像信号の符号化により画像ストリームを、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャが、ＶＯＢユニットの先頭に位置するＩピクチャとなるよう再符号化するので、撮影により得られた画像信号が符号化されている状態でも、符号化データを処理することなく、編集点の設定を正確に行うことができる。
【００４５】
本願請求項１３の発明によれば、請求項１２記載の撮像装置において、上記情報生成部は、上記編集点を、イベント発生から実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定するので、編集点を、ほぼ、イベントが実際に発生したタイミングに設定することができる。
【００４６】
本願請求項１４の発明によれば、請求項１記載の撮像装置において、符号化前のバッファデータがある場合には、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャをＶＯＢユニットの先頭ピクチャとなるよう符号化し、符号化前のバッファデータがない場合には、上記編集点を、上記イベントが発生した撮影タイミングに最も近いＶＯＢユニットの先頭ピクチャに設定するので、符号化前のバッファデータがある場合に、編集点を正確に設定し、符号化前のバッファデータがない場合に、編集点を簡単に設定することができる。
【００４７】
本願請求項１５の発明によれば、請求項１記載の撮像装置において、符号化前のバッファデータがある場合には、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャをＶＯＢユニットの先頭ピクチャとなるよう符号化し、符号化前のバッファデータがない場合でも、再符号化に要する時間が画像処理部での符号化処理に利用可能な残り時間を超えていないときには、上記編集点を、上記イベントが発生した撮影タイミングに対応するピクチャに設定して、この編集点のピクチャがＶＯＢユニットの先頭ピクチャとなるよう再符号化を行い、符号化前のバッファデータがない場合に、再符号化に要する時間が画像処理部での符号化処理に利用可能な残り時間を超えているときには、上記編集点を、上記イベントが発生した撮影タイミングに最も近いＶＯＢユニットの先頭ピクチャに設定するので、符号化前のバッファデータがある場合、また、符号化前のバッファデータがない場合でも再符号化のために必要な時間が符号化に使える残り時間を超えていない場合には、上記編集点を正確に設定し、符号化前のバッファデータがない場合で再符号化のために必要な時間が符号化に使える残り時間を超えているときには編集点を簡単に設定することができる。
【００４８】
本願請求項１６の発明によれば、請求項１記載の撮像装置において、イベント発生時刻を、上記編集点としてオーディオビデオストリームに記録するので、編集点を非常に簡単に設定することができる。
【００４９】
本願請求項１７の発明によれば、請求項１６記載の撮像装置において、イベント発生時刻を、再生条件を示すプレイリストとしてオーディオビデオストリームに記録するので、編集点を非常に簡単に設定することができる。
【００５０】
本願請求項１８の発明によれば、請求項１６記載の撮像装置において、上記編集点が、、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、オーディオビデオストリームに埋め込むので、編集時には、編集点がどのような要因によるものであるかによって編集点の間引きを行うことも可能である。
【００５１】
本願請求項１９の発明によれば、請求項１記載の撮像装置において、イベント発生時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとしてストリームに埋め込むので、編集時には、編集点として適切なピクチャを、サムネイル表示により一目で確認することができる。
【００５２】
本願請求項２０の発明によれば、撮像装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部とを備え、上記編集点情報をオーディオビデオストリームに埋め込むとともに、該オーディオビデオストリームを編集する際に、上記編集点情報が示す撮影タイミング、つまり個々のイベント発生タイミングを、編集に用いるか否かを判定するので、オーディオビデオストリーム作成時には、イベント発生タイミングを編集点とするか否かの判断が不要となる。
【００５３】
本願請求項２１の発明によれば、撮像方法において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップとを含むので、撮影により得られたオーディオビデオストリームの、撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集することが可能となる。
【００５４】
本願請求項２２の発明によれば、半導体装置において、被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部とを有するので、撮影により得られたオーディオビデオストリームを、その撮影者にとって重要と思われる部分を、自動であるいはガイダンスに対する簡単な選択操作により編集可能なストリームとすることができる半導体装置を得ることができる。
【発明を実施するための最良の形態】
【００５５】
以下、本発明の実施の形態について説明する。
（実施の形態１）
図１及び図２は、本発明の実施の形態１による撮像装置を説明するための図であり、図１は、この実施の形態１の撮像装置の全体構成を示し、図２は、この撮像装置により得られるオーディオビデオストリームを示している。
本実施の形態１の撮像装置１０１は、被写体の撮影により画像信号Ｓｉｍ及び音声信号Ｓａｕを得るとともに、得られた画像信号Ｓｉｍ及び音声信号Ｓａｕに、撮影状況を示す情報に基づいた信号処理を施して、撮影者にとって重要と思われる撮影部分を自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なＭＰＥＧ‐２対応のストリーム（以下オーディオビデオデータともいう。）Ｄを生成するものである。
【００５６】
すなわち、この撮像装置１０１は、被写体を撮影して画像信号Ｓｉｍを出力する撮像部１１と、被写体の撮影により得られた画像信号Ｓｉｍに、フィルタ処理、圧縮符号化処理、及び特徴量抽出処理等の信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部１１ａとを有している。ここで、画像の変化は、イベントの発生により生じた被写体の画像の変化であり、また、画像特徴量は、画像の変化の大きさや、画像が全くあるいは実質的に変化しない期間の長さなどである。
【００５７】
上記撮像装置１０１は、音声を取得して音声信号Ｓａｕに出力する音声取得部１２と、該音声信号Ｓａｕに、フィルタ処理、圧縮符号化処理、及び特徴量抽出処理などの信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部１２ａとを有している。ここで、音声の変化は、イベントの発生により生じた被写体からの音声の変化であり、音声特徴量は、音声の変化の大きさや、音声が全くあるいは実質的に変化しない期間の長さなどである。
【００５８】
上記撮像装置１０１は、撮影者の撮影状態を識別する固有の識別情報Ｄｉｄを取得する固有識別情報取得部１０と、取得した固有識別情報Ｄｉｄにフィルタ処理や特徴量抽出処理などの信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を含む情報を抽出する固有識別情報処理部１０ａとを有している。ここで、撮影状態の変化は、イベントの発生により生じた撮影者の生理変化や撮影者による撮像装置の操作であり、固有特徴量は、撮影者の生理変化の大きさや、撮影者によるズーム調整，フォーカス調整の大きさなどである。
【００５９】
上記撮像装置１０１は、上記画像処理部１１ａ、音声処理部１２ａ、及び固有識別情報処理部１０ａでの特徴量抽出処理により得られた特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当かどうかを判定する特徴量判定部２１と、該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する編集点情報生成部２２ａとを有している。ここで、撮影状況が変化した撮影タイミングは、撮影中に被写体の画像が変化したタイミング、撮影中に被写体からの音声が変化したタイミング、及び、撮影状態が変化したタイミングを含むものである。また、撮影状態の変化は、撮影中に生じた撮影者の生理変化や撮影者の操作によるズーム、フォーカスなどの変化を含むものである。
【００６０】
上記撮像装置１０１は、画像処理部１１ａ、音声処理部１２ａ、及び固有識別情報処理部１０ａからの情報に基づいて、画像処理部１１ａでの画像信号Ｓｉｍの圧縮符号化処理により得られた画像ストリーム、音声処理部１２ａでの音声信号の圧縮符号化処理により得られた音声ストリーム、及び編集点情報生成部２２ａにて生成された編集点情報を含むオーディオビデオストリームを作成するシステム処理部１３と、該オーディオビデオストリームを格納する記録媒体３０ａと、該記録媒体３０ａとデータバスＤｂｕｓとの間に接続された記録媒体インターフェース部３０と、ユーザの操作により発生したユーザ操作信号に基づいて、一連の記録再生処理が行われるよう上記各部を制御する制御部２０ａとを有している。
【００６１】
以下、上記各部で行われる信号処理について詳しく説明する。
上記画像処理部１１ａで行われる画像信号Ｓｉｍに対するフィルタ処理は、特定の周波数帯域の信号のみを抽出する処理である。画像処理部１１ａで行われる画像信号Ｓｉｍに対する圧縮符号化処理は、ＭＰＥＧ‐２に対応した画面内及び画面間予測符号化処理である。なお、この予測符号化処理は、ＭＰＥＧ‐２に対応したものに限らず、ＭＰＥＧ‐４あるいはＭＰＥＧ‐４ＡＶＣに対応したものであってもよい。また、ここでは、画像信号Ｓｉｍに対する特徴量抽出処理は、撮影された画像が急に変化した急変部分での変化の大きさや、画像が全くあるいは実質的に変化しない状態の継続時間などを、上記画面間予測符号化処理で用いる、画像の動きを示す動きベクトルに基づいて特徴量として抽出する処理である。画像の急変部分は、例えば、撮影者が、ハッとして、特定の被写体にカメラを向けたときの撮影部分などであり、また、映像の非変部分は、例えば、撮影者の視点が特定の方向に定まって動かないときの撮影部分などである。
【００６２】
上記音声取得部１２で行われる音声信号Ｓａｕに対するフィルタ処理は、特定の周波数帯域の信号のみを抽出する処理である。音声取得部１２で行われる音声信号Ｓａｕに対する圧縮符号化処理は、音声信号を圧縮して音声圧縮データを生成する、ＭＰＥＧ‐２，ＭＰＥＧ‐４などの画像信号に対する符号化処理に対応した処理である。また、ここでは、音声信号Ｓａｕに対する特徴量抽出処理は、音声信号の変化の大きさに基づいて、音声が大きく変化した急変部分での変化の大きさや、音声が全くあるいは実質的に変化しない状態の継続時間などを特徴量として抽出する処理である。音声の急変部分は、例えば、撮影されている人が会話をはじめたとき、演奏会などで音楽演奏が始まったとき、あるいは、運動会などでスタートの合図として用いられるピストルやホイッスルの音が発生したときの録音部分などである。また、音声の非変部分は、演劇などの中間幕の一瞬の静かな状態の録音部分などである。
【００６３】
上記固有識別情報処理部１０ａで行われる固有識別情報Ｄｉｄに対するフィルタ処理は、該固有識別情報Ｄｉｄである固有識別情報取得部１０の出力信号の特定周波数成分のみ抽出する処理である。固有識別情報処理部１０ａで行われる固有識別情報Ｄｉｄに対する特徴量抽出処理は、固有識別情報Ｄｉｄの値が急激にあるいは大きく変化した急変部分での変化の大きさや、固有識別情報Ｄｉｄの値が全く変化しなくなった状態の継続時間などを固有特徴量として抽出する処理である。固有識別情報の急変部分は、例えば、撮影者の、意識の集中による緊張が始まったときに生ずる生理現象の特徴的な変化などに対応する。ここで、上記生理現象の特徴的な変化は、例えば、撮影中に生じた撮影者の生理現象の大きな変化である。また、検出の対象となる生理現象は、発汗作用、まばたき、瞳孔の変化、及び脈拍であり、固有識別情報処理部１０ａは、発汗作用やまばたき等の各種生理現象の変化を検知する、その種類に応じたセンサを有している。例えば、発汗作用は、撮影者の手の熱伝導率を測定するセンサによりモニタすることができる。なお、上記固有識別情報としての撮影者の生理現象は上記のものに限るものではない。
【００６４】
また、上記編集点を判定する処理は、特徴量判定部２１が、撮影状況が変化した撮影タイミングが編集点として妥当か否かを判定するものであり、具体的には以下の６つの判定処理である。
第１の判定処理は、画像処理部１１ａからの特徴量である、画面内のすべてのマクロブロックの動きベクトルの大きさが、あるいは画面内の特定のマクロブロックの動きベクトルの大きさが、決められた閾値を超えたか否かを判定し、動きベクトルの大きさが閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【００６５】
画面内のすべてのマクロブロックの動きベクトルの大きさが、決められた閾値を超えた場合は、撮像装置の筐体の揺れの大きさがある閾値を超えたこと、あるいは画面輝度レベルが急に変化したことが考えられる。
【００６６】
第２の判定処理は、画像処理部１１ａからの特徴量である、動きベクトルの大きさの変化やフォーカス距離の変化の大きさがある閾値以下である状態が一定時間続いているか否かを判定し、一定時間以上続いていると判定された撮影タイミングを編集点として適切と判定するものである。
【００６７】
動きベクトルの大きさの変化やフォーカス距離の変化の大きさが、ある閾値以下を維持している場合は、撮影者の視点が変化していない状態と考えられる。
【００６８】
第３の判定処理は、音声処理部１２ａからの特徴量である、音のダイナミックレンジの変化の大きさが、決められた閾値を超えたか否かを判定し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。なお、音の変化は、被写体からの音の変化だけでなく、撮影者が発する音、例えば咳払いなどの音も含まれる。
【００６９】
第４の判定処理は、音のダイナミックレンジの無変化状態が、一定時間続いているか否かを検出し、無変化状態が一定時間以上続いていると判定された撮影タイミングを、編集点として適切と判定するものである。この場合、無変化部分の先頭位置を編集点とすることができる。
【００７０】
第５の判定処理は、固有識別情報処理部１０ａからの特徴量である、撮影者の心拍数の変化の大きさや撮影者の手の熱伝導率の変化の大きさが、ある閾値を超えたか否かを検出し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【００７１】
第６の判定処理は、固有識別情報処理部１０ａからの特徴量である、まばたきの回数変化や瞳孔の変化の大きさなどが、ある閾値を超えたか否かを検出し、閾値を超えたと判定された撮影タイミングを、編集点として適切と判定するものである。
【００７２】
なお、フォーカスやズームなどの無意識で行われる操作については、画像処理部１１ａからの特徴量ではなく、専用のセンサの出力レベルに基づいて、これらの操作が行われた撮影タイミングが編集点として妥当か否かを判定するようにしてもよい。この場合、具体的には、固有識別情報取得部１０が上記専用センサの出力を、撮影状態を示す固有識別情報として取得し、固有識別情報処理部１０ａが、該固有識別情報に基づいて、撮影状態の変化の大きさである、撮影者の操作によるフォーカスやズームなどの調整の大きさを示す固有特徴量を取得する。そして、特徴量判定部２１が、固有特徴量を判定して、フォーカスやズームなどの撮影状態が変化した撮影タイミングが編集点として妥当か否かを判定する。また、撮影者の脳波、例えばα波を測定するセンサを設け、該センサの出力レベルに基づいて、α波が変化した撮影タイミングが編集点として妥当か否かを判定するようにしてもよい。この場合、具体的には、固有識別情報取得部１０が上記α波測定センサの出力レベルを、撮影状態を示す固有識別情報として取得し、固有識別情報処理部１０ａが、該固有識別情報に基づいて、撮影状態を表す撮影者のα波の変化の大きさを示す固有特徴量を取得する。そして、特徴量判定部２１が、固有特徴量を判定して、撮影状態を表す撮影者のα波が変化した撮影タイミングが編集点として妥当か否かを決定する。また、画像や音の特徴量は、撮影により得られた画像信号や音声信号を信号処理して抽出するのではなく、専用のセンサを用いて検出することも可能である。
【００７３】
また、この実施の形態１では、編集点情報生成部２２ａは、編集点として適切と判定された撮影タイミングを示す情報と、この撮影タイミングが、例えば、音の変化や映像の変化，あるいは撮影状態の変化などの特徴量のうちのどのような特徴量に基づいて判定されたものであるかを示す情報とを生成してシステム処理部１３に出力するものである。また、編集点情報生成部２２ａは、編集点として判定された撮影タイミングに最も近い、この撮影タイミング以前のＶＯＢユニットの先頭のＩピクチャを、編集時にアクセスポイントとして用いるピクチャに設定し、このように編集点を上記Ｉピクチャに設定したことを示す情報をシステム処理部１３に出力する。また、システム処理部１３は、編集点情報生成部２２ａからの情報に基づいて、オーディオビデオストリームＤに含まれる管理情報であるプレイリストを更新するものとなっている。
つまり、システム処理部１３により作成されたオーディオビデオストリームのプレイリストは、編集点として適切と判定された撮影タイミングを示す編集点情報と、編集点として適切と判定された撮影タイミングが、どのような特徴量に基づいて判定されたものであるかを示す情報と、編集時にアクセスポイントとして用いるピクチャにいずれのピクチャを設定したかを示す情報とを含んでいる。
【００７４】
但し、上記アクセスポイントとして用いるピクチャは、編集点として判定された、単に画像や音声などの撮影状況が変化した撮影タイミングに最も近い、この撮影タイミング以前のＩピクチャに限るものではなく、例えば、編集点の設定を行う、画像の変化や音声の変化などの要因に応じて、被写体の画像または音声、あるいは撮影者の撮影状態に変化を与えるイベントが発生したタイミングから、このイベントに起因する特徴量が検出されるまでの遅延時間を考慮して、編集点とするピクチャを決定しても良い。例えば、撮影状況が変化したタイミングから上記遅延時間だけ遡った撮影タイミングに一番近いＩピクチャを編集点として用いるピクチャに設定してもよい。この場合、遅延時間は、フォーカス情報などに応じて決定した時間としても、予めすべの要因に対して一律に、あるいは個々の要因に対して別々に決められた固定の時間としてもよい。
【００７５】
また、本実施の形態１では、オーディオビデオストリームはＭＰＥＧ‐２に対応するものとしているため、上記画像、音声、あるいは撮影状態を変化させるイベントが発生した時刻を、上記画像、音声、あるいは撮影状態の変化の特徴を示す特徴量が検出された時刻として、プレイリストに含めて、該ストリームの管理情報記録領域に書き込んでいるが、該ストリームはＭＰＥＧ‐４ＡＶＣに対応するものでもよく、この場合は、特徴量検出時刻のみを、該ストリームの付加情報記録領域（ＳＥＩ）に記録してもよい。
【００７６】
また、この実施の形態１では、制御部２０ａは、撮影前にユーザにより選択されたシナリオに基づいて特徴量判定部２１に指令信号を出力して、編集点の設定を行う要因となる、例えば、音、映像、撮影者の生理現象などを決定するとともに、編集点設定を行う要因が変化した撮影タイミングを編集点と判定する際の判定強度、つまり特徴量の閾値を決定するものとしている。
【００７７】
また、上記制御部２０ａは、ユーザが、本撮像装置によるガイダンスに応じて、運動会、演奏会、結婚式、旅行などの、撮影場所を選択すると、撮影状況の変化のパターン、例えば、音量の変化パターン、明るさの変化パターン、撮影者の生理現象の変化パターンなどに応じて、編集点設定のための各種の要因に対する判定強度が、予め容易された複数の既定値のうちの１つに設定する。但し、各種の要因に対する判定強度として用意されている既定値は、ユーザの好みなどに応じて、独自に調整可能としてもよい。
【００７８】
なお、この撮影装置１０１は、図示していないが、上記制御部２０ａからの制御信号に基づいて、記録媒体に記録されたオーディオビデオストリームを復号化して再生する再生部を有している。
【００７９】
次に、上記記録媒体に記録されたＡＶデータの構造について簡単に説明する。
図２は、記録媒体に記録されたＡＶデータの構造を説明する図である。
ここで、記録媒体は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）ディスクなどのディスク状記録媒体としている。ただし、記録媒体は、ＤＶＤなどのディスク状記録媒体に限るものではなく、例えば、ＨＤＤ（ハードディスクドライブ）、メモリーカード、あるいは磁気テープなどでもよい。また、上記記録媒体には、１つのコンテンツに対応する画像信号Ｓｉｍ及び音声信号Ｓａｕを符号化して得られたストリームＤｓと、これらのコンテンツに対応する管理情報Ｄｍとを含むオーディオビデオストリームＤが書き込まれている。この管理情報Ｄｍは、ディスク状記録媒体の中心近傍の内側領域に書き込まれ、上記ストリームＤｓは、この内側領域の外側の領域に書き込まれている。また、ストリームＤｓは、ＶＯＢユニットＶＯＢＵにより区分されている。
【００８０】
また、上記管理情報ＤｍはプレイリストＤｍｐを含んでおり、このプレイリストＤｍｐには、複数の補助情報ｐｌａｙｉｔｅｍ［０］，［１］，［２］，・・・，［ｎ］，・・・が含まれている。
【００８１】
例えば、図２に示す符号化データＤのストリームＤｓには、ＶＯＢユニットＶＯＢＵ（ｍ−ｋ）ＶＯＢユニットＶＯＢＵ（ｍ）、ＶＯＢユニットＶＯＢＵ（ｍ＋ｑ）が含まれており、特定のＶＯＢユニットＶＯＢＵ（ｍ）に対応するプレイリストの補助情報ｐｌａｙｉｔｅｍ［ｎ］には、時間情報Ｄｔｍ、ＡＶ情報Ｄａｖ、操作情報Ｄｏｐ、生理的情報Ｄｐｈ、及び編集済みフラグＤｅｆが含まれている。ここで、時間情報Ｄｔｍは、ＶＯＢユニットＶＯＢＵ（ｍ）の開始時刻を示す情報Ｄｓｔと、ＶＯＢユニットＶＯＢＵ（ｍ）の終了時刻を示す情報Ｄｅｔとを含んでいる。ＡＶ情報Ｄａｖは、画像に関する特徴量を示す情報Ｄｖｉ、及び音声に関する特徴量を示す情報Ｄａｕを含んでいる。操作情報Ｄｏｐは、手ブレの程度を示す情報Ｄｈｍ、フォーカス操作時の操作量を示す情報Ｄｆｏ、及びズーム操作時の操作量を示す情報Ｄｚｍを含んでいる。生理的情報Ｄｐｈは、撮影者の発汗量を示す汗情報Ｄｓｕ、撮影者のα波強度を示すα波情報Ｄαｗ、操作者のまばたきの頻度を示すまばたき情報Ｄｂｋ、操作者の瞳孔変化の程度を示す瞳孔情報Ｄｐｕ、及び操作者の脈拍数を示す脈拍情報Ｄｐｓを含んでいる。このように、上記画像、音声、あるいは撮影状態を変化させるイベントが発生した時刻は、上記画像、音声、あるいは撮影状態の変化の特徴を示す特徴量が検出された時刻として、実質的に、プレイリストに含めて該ストリームの管理情報記録領域に書き込まれている。
【００８２】
次に動作について説明する。
〔撮影前の設定操作〕
まず、撮影前のマニュアル設定操作について説明する。
撮影者は、運動会や結婚式などの催し物に合わせて、撮影状況が変化した撮影タイミングが編集点として適切であるか否かの判定に用いる判定強度を設定する。
【００８３】
この判定強度については、撮像装置に予め設定されている複数のシナリオのうちから、運動会や結婚式に対応するものを選択することにより、編集点設定のための個々の要因に対する判定強度を、選択されたシナリオに応じた値に設定することもできるが、ここでは、操作者がマニュアルで設定する操作について説明する。
【００８４】
図３は、撮像装置１００の編集点挿入設定を行う画面を示している。
この設定画面１００ａ上には、ＡＶ情報の設定ボタン１１０、操作情報の設定ボタン１２０、生理的情報の設定ボタン１３０が表示されている。また、設定画面１００ａの右下部分には、生理的情報のより詳細な設定を行う詳細設定画面１３０ａが表示されており、該詳細設定画面１３０ａ上には、汗情報の設定ボタン１３１、瞳孔情報の設定ボタン１３２、及び脈拍情報の設定ボタン１３３が表示されている。なお、図３では、示していないが、ＡＶ情報のより詳細な設定を行う詳細設定画面や操作情報のより詳細な設定を行う詳細設定画面も表示可能となっている。
【００８５】
それぞれのボタンは、各要素に対する判定強度を、“−”表示が示す最小レベルと、“＋”表示が示す最大レベルとの間で、任意のレベルに設定可能となっている。なお、“０”表示は、これらの中間のレベルを示している。
【００８６】
ここで、例えば、汗情報に関する判定強度のレベルが高いということは、発汗量の変化が比較的小さくても、この発汗量の変化が生じた撮影タイミングを、編集点として適切であると判定するということである。一方、汗情報に関する判定強度のレベルが小さいということは、発汗量の変化が比較的大きくても、この発汗量の変化が生じた撮影タイミングは、編集点として適切でないと判定するということである。
【００８７】
例えば、運動会など競技大会で撮影を行う場合には、演技や競技の開始時にはその合図などの音声の大きな変化が発生すると考えられるため、ＡＶ情報の音声要素に対する判定強度を平均的なレベルより強く設定し、また、生理的情報の脈拍要素に対する判定強度なども、競技中は撮影者がハラハラする場合も考えられることから、強めに設定するのがよいと考えられる。
【００８８】
旅行などで風景を撮影する場合には、撮影者は、ＡＶ情報の画像要素に対する判定強度を平均的なレベルより強く設定し、また、遠くの景色などを撮影する場合も考えられるので、フォーカスやズームの操作量に対する判定強度を高くする場合があると考えられる。
【００８９】
また、結婚式では、撮影者は、ＡＶ情報の画像特徴量の判定強度及び音声特徴量の判定強度をともに平均的なレベルより強く設定し、生理的情報の各要素の特徴量についても比較的判定強度を高く設定する場合が考えられる。
【００９０】
このような判定強度の設定は、ユーザ操作、つまり撮影者のマニュアル操作に応じて上記制御部２０ａにて行われ、制御部２０ａは、ユーザ操作に応じて設定された各要素に対する判定強度を示す制御信号を上記特徴量判定部２１に供給する。その後、撮影者が撮影を行うと、上記特徴量判定部２１は、上記各特徴量を、対応する、上記制御部２０ａで設定された判定強度（閾値レベル）に基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する。
【００９１】
〔撮影時の動作〕
続いて、撮影時の撮像装置の動作について具体的に説明する。
図４は、実施の形態１の撮像装置の動作フローを説明する図である。
撮影が開始されると（ステップＳ１）、撮像装置１０１は、画像情報、音声情報、及び撮影状態に関する情報を取得する（ステップＳ２）。
【００９２】
具体的には、上記ステップＳ２では、撮像部１１が、被写体の撮像により画像信号Ｄｉｍを出力する処理、音声取得部１２が音声を取得して音声信号Ｄａｕを出力する処理、及び、固有識別情報取得部１０が撮影者による撮像装置の操作及び撮影者の生理的変化を検知して、操作量及び生理的な変化に関する固有識別情報Ｄｉｄを出力する処理が並行して行われる。
【００９３】
すると、固有識別情報処理部１０ａは、固有識別情報取得部１０からの固有識別情報Ｄｉｄ及び制御部２０ａからの制御信号に基づいて、フォーカスやズーム操作における操作量、及び撮影者の生理的な変化の大きさを示す、発汗量、まばたきの頻度、脈拍数の変動量など特徴量を検出する（ステップＳ２ａ）。また、画像処理部１１ａでは、撮影部１１からの画像信号Ｄｉｍ及び制御部２０ａからの制御信号に基づいて、画像信号に対してＭＰＥＧ‐２対応の予測符号化処理を施して画像ストリームを生成するとともに、該予測符号化処理で用いる動きベクトルに基づいて、画像が急変した部分での画像変化の大きさなどである画像の特徴量を含む画像情報を取得する（ステップＳ２ｂ）。また、音声処理部１２ａでは、音声取得部１２からの音声信号Ｄｉｍ及び制御部２０ａからの制御信号に基づいて、音声信号に対して符号化処理を施して音声ストリームを生成するとともに、該音声信号に基づいて、音声が急変した部分での音声変化の大きさなどである音声の特徴量を含む音声情報を取得する（ステップＳ２ｃ）。
【００９４】
次に、特徴量判定部２１は、ユーザ操作や撮影者の生理的変化に関する特徴量、画像に関する特徴量、及び音声に関する特徴量と、各特徴量に対して設定されている判定強度とに基づいて、特徴量が検出された撮影タイミングが編集点として妥当であるかを判定する（ステップＳ３）。
【００９５】
続いて、編集点情報生成部２２ａは、編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成するとともに、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いＶＯＢユニットの先頭のＩピクチャに設定したことを示す編集点ピクチャ情報を生成する（ステップＳ４）。
【００９６】
その後、システム処理部１３は、制御部２０ａからの制御信号に基づいて、上記画像ストリーム、音声ストリーム、編集点情報、及び編集点ピクチャ情報を含むオーディオビデオストリームを作成して記録媒体インターフェース３０に出力する。すると、記録媒体インターフェースは、入力されたオーディオビデオストリームを記録媒体に記録する（ステップＳ５）。
【００９７】
以下、編集点を判定するステップＳ３の処理について説明する。
具体的には、特徴量判定部２１は、制御部２０ａからの判定強度を示す制御信号に基づいて、固有識別情報処理部１０ａで検出された固有特徴量、画像処理部１１ａで検出された画像特徴量、音声処理部１２ａで検出された音声特徴量のそれぞれについて、それぞれの特徴量が検出された撮影タイミングが編集点として妥当であるか否かを判定する。
【００９８】
例えば、固有識別情報処理部１０ａで検出された、手ブレに関する特徴量は、撮影者の手ブレの大きさである。この検出された手ブレの大きさが、予め撮影前に設定されている判定強度、つまり手ブレの大きさの閾値以上であれば、この手ブレに関する特徴量が検出された撮影タイミングが編集点として妥当であると判定され、手ブレの大きさが上記判定強度より小さければ、該撮影タイミングは編集点として妥当でないと判定される（ステップＳ３ａ）。また、固有識別情報処理部１０ａで検出された、フォーカスに関する特徴量、及びズームに関する特徴量は、それぞれ、フォーカス操作により変化したフォーカス変動量、及びズーム操作により変化したズーム変動量である。そして、これらの特徴量についても、手ブレに関する特徴量と同様に、その大きさが撮影前に設定されている判定強度以上であるか否かに応じて、特徴量が検出された撮影タイミングが編集点として妥当であるか否かが判定される（ステップＳ３ａ）。
【００９９】
さらに、固有識別情報処理部１０ａで検出された、発汗に関する特徴量は、撮影者の発汗量である。この検出された発汗量が、予め撮影前に設定されている判定強度、つまり発汗量の閾値以上であれば、この発汗に関する特徴量が検出された撮影タイミングが編集点として妥当であると判定され、上記発汗量が上記検出強度より小さければ、該撮影タイミングは編集点として妥当でないと判定される。また、固有識別情報処理部１０ａで検出された、α波に関する特徴量、まばたきに関する特徴量、瞳孔に関する特徴量、及び脈拍に関する特徴量は、α波の変化の大きさ、まばたきの頻度、瞳孔の変化の大きさ、及び脈拍数の変化の大きさである。そして、これらの撮影者の生理変化に関する特徴量についても、発汗に関する特徴量と同様、その値が予め撮影前に設定されている判定強度以上であるか否かに応じて、それぞれの特徴量が検出された撮影タイミングが編集点として妥当であるか否かが判定される（ステップＳ３ａ）。
【０１００】
画像処理部１１ａで検出された、画像に関する特徴量は、画像が急に変化した部分での変化の大きさ、あるいは画像がまったくあるいは実質的に変化しない部分が継続した時間である。そして、この検出された画像急変部分での変化の大きさ、あるいは画像無変化状態の継続時間が、予め撮影前に設定されている判定強度、つまり変化の大きさの閾値、あるいは状態継続時間の閾値以上であれば、これらの特徴量が検出された撮影タイミングが編集点として妥当であると判定され、そうでなければ、撮影タイミングは編集点として妥当でないと判定される（ステップＳ３ｂ）。
【０１０１】
音声処理部１２ａで検出された、音声に関する特徴量は、音声が大きく変化した部分での変化の大きさ、あるいは音声がまったくあるいは実質的に変化しない状態が継続した時間である。そして、この検出された音声急変部分での変化の大きさ、あるいは音声無変化状態の継続時間が、予め撮影前に設定されている判定強度、つまり変化の大きさの閾値、あるいは状態継続時間の閾値以上であれば、これらの特徴量が検出された撮影タイミングが編集点として妥当であると判定され、そうでなければ、該撮影タイミングは編集点として妥当でないと判定される（ステップＳ３ｃ）。
【０１０２】
その後、編集点情報生成部２２ａは、特徴量判定部２１で、各処理部１０ａ、１１ａ、１２ａから供給されたそれぞれの特徴量に基づいて、該特徴量が検出された撮影タイミングが編集点として妥当であると判定される度に、該撮影タイミングを示す編集点情報を生成するとともに、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いＶＯＢユニットの先頭のＩピクチャに設定したことを示す編集点ピクチャ情報を生成する（ステップＳ４）。
【０１０３】
図５は、編集点の設定処理を具体的に説明する図であり、図５（ａ）は、処理フローを示し、図５（ｂ）は、撮影タイミングと、画像ストリームにおけるＶＯＢユニットの切れ目との関係を示している。
【０１０４】
この実施の形態１では、編集点情報生成部２２ａは、特徴量による遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベントの発生により撮影状況が変化するまでの時間を算出する（ステップＳ１１）。
【０１０５】
次に、編集点情報生成部２２ａは、上記特徴量が検出された撮影タイミングＴｃｐから、上記算出された遅延時間Δｔだけ遡った撮影タイミングＴｅｐより前で最も近いＶＯＢユニット（ｉ）の切れ目を編集点に設定する（ステップＳ１２ａ）。
【０１０６】
その後、編集点情報生成部２２ａは、編集点として妥当であると判定された撮影タイミングＴｅｐを示す編集点情報を生成するとともに、図５（ｂ）に示すように、編集点として用いるピクチャを、該撮影タイミング以前であってこれに最も近いＶＯＢユニットＶＯＢＵ（ｆ）の先頭のＩピクチャＦ１に設定したことを示す編集点設定情報を生成する。そして、オーディオビデオストリームのプレイアイテムを、撮影タイミングＴｅｐが編集点に設定されたことが示されるよう変更する（ステップＳ１３）。
【０１０７】
なお、図５（ｂ）では、ピクチャＦ１は、その符号化あるいは復号化の際に他のピクチャを参照しないＩピクチャであり、ピクチャＦ４、Ｆ７、Ｆ１０は、符号化あるいは復号化の際に、前方のＩピクチャあるいはＰピクチャを参照するＰピクチャであり、ピクチャＦ２、Ｆ３、Ｆ５、Ｆ６、Ｆ８、Ｆ９は、符号化あるいは復号化の際に、前方のＩピクチャあるいはＰピクチャと後方のＰピクチャとを参照するＢピクチャである。
【０１０８】
そして、各ＶＯＢユニットは、複数のピクチャからなり、その先頭にはＩピクチャが位置し、隣接するＩピクチャとＰピクチャの間、あるいは隣接する２つのＰピクチャの間には２つのＢピクチャが配置されている。また、ＶＯＢユニットＶＯＢＵ（ｆ−１）及びＶＯＢＵ（ｆ＋１）は、ＶＯＢユニットＶＯＢＵ（ｆ）の前後に位置するＶＯＢユニットである。
【０１０９】
〔再生時の動作〕
そして、再生時には、記録媒体に記録されたオーディオビデオストリームは、埋め込まれている編集点情報、つまり先頭ピクチャが編集点に設定されているＶＯＢユニットに対応するプレイリストの開始時刻と終了時刻に基づいて自動編集して再生される。
【０１１０】
なお、上記記録媒体に記録されたオーディオビデオストリームの再生は、編集点をピックアップして自動編集して行うものに限らず、ユーザが設定した編集条件に基づいて、記録されたオーディオビデオストリームにおける、設定された編集条件を満たす部分のみを編集して行うものであってもよい。
【０１１１】
図６は、例えば、設定条件に基づいて、記録されたオーディオビデオストリームを自動編集して再生する処理を説明する図である。
実施の形態１では、撮像装置１０１の再生部（図示せず）は、記録媒体に記録されたオーディオビデオストリームの再生が開始されると、該オーディオビデオストリームに含まれるプレイリストの各アイテムに基づいた処理が完了しているが否かを判定する（ステップＳ２１）。処理が終了している場合は、再生を終了する。
【０１１２】
一方、上記再生部は、ステップＳ２１での判定の結果、処理が終了していない場合は、編集点が編集条件を満たしているか否かを判定し（ステップＳ２２）、特徴量に関する設定条件を満たしているＶＯＢユニットＶＯＢＵを再生する（ステップＳ２３）。
【０１１３】
なお、オーディオビデオストリームに含まれている編集点に関する情報は、自動編集に利用できるだけでなく、ユーザによるオーディオビデオストリームの編集作業に利用することもできる。
【０１１４】
図７は、このような編集点の利用方法を説明する図であり、記録媒体に記録されているオーディオビデオストリームを編集するための表示画面を示している。
ここでは、表示装置２００は、テレビジョンセットやパーソナルコンピュータの表示部であり、その表示画面２１０には、記録媒体に記録されている１つのコンテンツに対応するオーディオビデオストリームの全体を示す帯状インジケータ２１１、該オーディオビデオストリームにおける特定のＶＯＢユニット２１１ａを拡大して示す帯状インジケータ２１２、該ＶＯＢユニット２１１ａにおける、編集点となっているピクチャ２１２ａ、２１２ｂ、２１２ｃ、２１２ｄのサムネイル画面２１３ａ、２１３ｂ、２１３ｃ、２１３ｄが示されている。
【０１１５】
また、表示画面２１０には、処理用サムネイル表示領域２２０があり、この領域２２０には、ユーザが編集条件を調整する対象となっている編集点のピクチャが表示されている。表示画面２１０では、処理用サムネイル表示領域２２０と隣接して、編集点のピクチャが満たすべき編集条件である特徴量の判定強度を調整するための、各要素に対応した操作領域２３０及び２４０が表示されている。
【０１１６】
ユーザは、このように表示画面２１０上で、各編集点に設定されているピクチャが満たすべき編集条件、つまり特徴量の判定強度を調整することができる。
【０１１７】
なお、上記編集サポートのための表示は、Ｉピクチャをすべてサムネイル画面で表示し、編集点となるピクチャのサムネイル画面を、他のＩピクチャのサムネイル画面よりも大きくすることも可能である。
【０１１８】
また、上記編集サポートのための表示は、編集点となるピクチャをサムネイル表示する順序は、特徴量の発生要因の種別に応じた順序としても、あるいは、すべての要因に対して正規化した特徴量の大きさ順としもよい。
【０１１９】
さらに、上記編集サポートの表示は、編集点に設定されているピクチャをスライドショー形式で順次表示するものでもよく、この場合、必要な編集点を要否選択することで一次編集を行い、細かな２次編集のためのサポートを行うことも可能である。
【０１２０】
また、上記編集サポートのための表示は、編集点から数秒ずつを自動的につなぎ合わせて、好みのＢＧＭの音程やテンポに合せて編集点を切り替えてダイジェストで表示するものであってもよい。この場合、記録されているオーディオビデオストリームをこのようなダイジェスト版になるよう編集しなおしても、特に編集しないでもこのような表示を行うだけでもよい。
【０１２１】
またさらに、制御部２０ａあるいは編集点情報生成部２２ａは、編集が終了したかどうかを認識するフラグも管理するものとし、記録されたオーディオビデオストリームは、編集されたものか否かの情報を有するものとしてもよい。
また、編集されたオーディオビデオストリームは、実データ部分は変更しないで、プレイリストのみ変更したものであってもよい。
【０１２２】
このように本実施の形態１の撮像装置１０１では、被写体の撮影により得られた画像信号Ｄｉｍから、画像の変化の特徴を表す画像特徴量を抽出する画像処理部１１ａと、被写体の撮影により得られた音声信号Ｄａｕから、音声の変化の特徴を表す音声特徴量を抽出する音声処理部１２ａと、撮影者の生理変化を示す情報Ｄｉｄに基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部１０ａとを備え、抽出された特徴量を予め設定されている判定強度と比較して、上記画像や音声が変化した撮影タイミングが編集点として妥当であるか否かを決定するので、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【０１２３】
また、この実施の形態１では、編集点は、編集点として妥当であると判定された撮影タイミングに近い、ＡＶ符号化データにおけるＶＯＢユニットの切れ目に設定しているので、撮影により得られた画像信号が符号化されている状態でも、符号化された画像信号を処理することなく、編集点の設定が可能である。
【０１２４】
また、この実施の形態１では、編集点を、イベントの発生時点からイベント発生により撮影状況が変化するまでの遅延時間だけ、撮影状況が変化した撮影タイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生したタイミングに設定することができる。
【０１２５】
また、この実施の形態１では、撮影状況が変化した撮影タイミングを編集点として適切であると判定する際の判定強度を、操作者がマニュアルで設定する場合について説明したが、編集点設定のための個々の要因に対する判定強度は、撮像装置に予め設定されている複数のシナリオのうちから、運動会や結婚式に対応するものを選択することにより、設定するようにしてもよい。
【０１２６】
このようにシナリオの選択により個々の要因に対する判定強度を決定する撮像装置は、例えば、実施の形態１の撮像装置において、上記制御部を、複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各要因に対応する特徴量の閾値レベルを設定するものとし、さらに上記特徴量判定部を、上記画像特徴量、音声特徴量、及び固有特徴量を、それぞれに対応する、上記制御部で設定された閾値レベルに基づいて、上記画像、音声、及び撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを判定するものとすることにより、実現することが可能である。
【０１２７】
この場合、上記複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報には、ネットワーク上の情報端末からダウンロードして取得したものを利用することも可能である。
【０１２８】
なお、上記テーブル情報に含まれる各特徴量の閾値レベルの組み合わせは、画像特徴量、音声特徴量、及び固有特徴量のうちの２つでもよく、また、上記テーブル情報は、複数のシナリオのそれぞれと、上記画像特徴量、音声特徴量、及び固有特徴量のいずれか１つに対する閾値レベルとの対応関係を示すものでもよい。
【０１２９】
（実施の形態２）
図８は、本発明の実施の形態２による撮像装置を説明するための図である。
本実施の形態２の撮像装置１０２は、実施の形態１の撮像装置１０１における編集点情報生成部２２ａに代えて、編集点となるピクチャがＩピクチャでない場合は、編集点となるピクチャとその近傍のピクチャのピクチャタイプを変更するよう画像処理部１１ａに再符号化を指令する編集点情報生成部２２ｂを備えたものである。また、制御部２０ｂは、再符号化時に画像処理部１１ａを制御する点のみ、実施の形態１の制御部２０ａと異なっている。そして、本実施の形態２の撮影装置１０２のその他の構成は、実施の形態１の撮像装置１０１と同一である。
【０１３０】
次に動作について説明する。
この実施の形態２の撮像装置１０２では、撮影前のマニュアル設定操作は、実施の形態１と同様に行われる。
【０１３１】
撮影が開始されると、撮像装置１０２の特徴量判定部２１は、実施の形態１の撮像装置１０１と同様、画像情報、音声情報、及び撮影状態に関する情報を取得し、該取得した情報から得られた、ユーザ操作や撮影者の生理的変化の特徴量、画像の特徴量、及び音声の特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であるか否かを判定する。
【０１３２】
そして、この実施の形態２では、編集点情報生成部２２ｂは、特徴量判定部２１で、各処理部１０ａ、１１ａ、１２ａから供給されたそれぞれの特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であると判定される度に、編集点を示す編集点情報を生成し、編集点に対応するピクチャがＩピクチャ以外である場合には再符号化の指令を画像処理部１１ａに対して行う。
【０１３３】
図９は、編集点情報の生成処理、及び再符号化処理のフローを示す。
この実施の形態２では、制御部２０ｂは、特徴量の種類に応じた遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベント発生により撮影状況が変化するまでの時間を算出する（ステップＳ１１）。
【０１３４】
次に、編集点情報生成部２２ｂは、上記特徴量が検出された撮影タイミングＴｃｐから上記遅延時間だけ遡った撮影タイミングＴｅｐに対応するピクチャを先頭するＶＯＢユニットを強制的に作成するよう画像処理部１１ａに指令する。すると、画像処理部１１ａは、強制的にＶＯＢユニットＶＯＢＵを作成しなおす再符号化処理を行う（ステップＳ１２ｂ）。
【０１３５】
その後、編集点情報生成部２２ｂは、編集点として妥当であると判定された撮影タイミングＴｅｐを示す編集点情報を生成するとともに、図１０（ｂ）〜（ｄ）に示すように、編集点を、強制的に作成したＶＯＢユニットＶＯＢＵの先頭のＩピクチャに設定したことを示す編集点ピクチャ情報を生成する。そして、オーディオビデオストリームのプレイアイテムを、撮影タイミングＴｅｐが編集点に設定されたことが示されるよう変更する（ステップＳ１３）。
【０１３６】
以下、強制的にＶＯＢユニットＶＯＢＵを作成しなおす再符号化処理を説明する図である。
図１０（ａ）は、複数のピクチャＦ１、Ｆ２、Ｆ３、Ｆ４、Ｆ５、Ｆ６、Ｆ７、Ｆ８、Ｆ９、Ｆ１０、・・・からなる１つのＶＯＢユニットＶＯＢＵ（ｆ）を示している。
【０１３７】
ここで、ピクチャＦ１は、その符号化及び復号化の際に他のピクチャを参照しないＩピクチャであり、ピクチャＦ４、Ｆ７、Ｆ１０は、符号化及び復号化の際に、前方のＩピクチャあるいはＰピクチャを参照するＰピクチャであり、ピクチャＦ２、Ｆ３、Ｆ５、Ｆ６、Ｆ８、Ｆ９は、符号化及び復号化の際に、前方のＩピクチャあるいはＰピクチャと後方のＰピクチャとを参照するＢピクチャであり、図１０（ａ）に示す各ピクチャは、ＭＰＥＧ‐２で規定されている本来の参照関係となっている。
【０１３８】
図１０（ｂ）は、編集点となるピクチャが、ＶＯＢユニットＶＯＢＵ（ｆ）の４番目のピクチャＦ４となり、このピクチャＦ４のピクチャタイプを変更し、かつその前の２つのＢピクチャＦ２及びＦ３の参照関係を変更する場合を示している。
【０１３９】
この場合は、ピクチャＦ４は、ＰピクチャからＩピクチャに変更され、ＢピクチャＦ２及びＦ３は、前方のＩピクチャＦ１のみを参照するよう再符号化される。また、ピクチャＦ４を先頭とする新たなＶＯＢユニットＶＯＢＵ（ｆｂ１）が作成され、ピクチャＦ４以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、ＶＯＢユニットＶＯＢＵ（ｆａ１）は、ＢピクチャＦ２及びＦ３の参照関係を変更した、ＶＯＢユニットＶＯＢＵ（ｆｂ１）直前の新たなＶＯＢユニットである。
【０１４０】
図１０（ｃ）は、編集点となるピクチャが、ＶＯＢユニットＶＯＢＵ（ｆ）の５番目のピクチャＦ５となり、このピクチャＦ５及びその後のＢピクチャＦ６の参照関係を変更し、ＰピクチャＦ７のピクチャタイプを変更する場合を示している。
【０１４１】
この場合は、ピクチャＦ７は、ＰピクチャからＩピクチャに変更され、ピクチャＦ５及びＦ６は、ピクチャタイプが変更された後方のＩピクチャＦ７のみを参照するよう再符号化される。また、ピクチャＦ５を先頭とする新たなＶＯＢユニットＶＯＢＵ（ｆｂ２）が作成され、ピクチャＦ８以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、ＶＯＢユニットＶＯＢＵ（ｆａ２）は、ＰピクチャＦ４を最終ピクチャとする、ＶＯＢユニットＶＯＢＵ（ｆｂ２）直前の新たなＶＯＢユニットである。
【０１４２】
図１０（ｄ）は、編集点となるピクチャが、ＶＯＢユニットＶＯＢＵ（ｆ）の６番目のピクチャＦ６となり、このピクチャＦ６の参照関係と、その前後のＢピクチャＦ５及びＦ７の参照関係を変更する場合を示している。
【０１４３】
この場合は、ピクチャＦ７は、ＰピクチャからＩピクチャに変更され、ピクチャＦ５は、その前方のＰピクチャＦ４のみを参照し、ピクチャＦ６は、その後方のＰピクチャＦ７のみを参照するよう再符号化される。また、ピクチャＦ６を先頭とする新たなＶＯＢユニットＶＯＢＵ（ｆｂ３）が作成され、ピクチャＦ８以降のピクチャのインデックスの付け替えなどの処理が行われる。なお、ＶＯＢユニットＶＯＢＵ（ｆａ３）は、ＰピクチャＦ５を最終ピクチャとする、ＶＯＢユニットＶＯＢＵ（ｆｂ３）直前の新たなＶＯＢユニットである。
【０１４４】
このような構成の実施の形態２では、被写体の撮影により得られた画像信号から、画像の変化の特徴を表す画像特徴量を抽出する画像処理部１１ａと、被写体の撮影により得られた音声信号から、音声の変化の特徴を表す音声特徴量を抽出する音声処理部１２ａと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部１０ａとを備え、抽出された特徴量を予め設定されている判定強度と比較して、画像や音声などが変化した撮影タイミングが編集点として妥当であるか否かを判定するので、実施の形態１と同様、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【０１４５】
また、この実施の形態２では、編集点は、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、ＶＯＢユニットの切れ目となるよう、そのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化するので、撮影により得られた画像信号が符号化されている状態でも、編集点の設定を正確に行うことができる。
【０１４６】
また、この実施の形態２では、編集点は、イベントの発生から該イベント発生により撮影状態が変化するまでの遅延時間だけ、画像や音声などの撮影状況が変化した撮影タイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生したタイミングに設定することができる。
【０１４７】
なお、上記実施の形態２では、編集点に設定されたピクチャが画面間予測ピクチャである場合は、このピクチャが面内予測ピクチャとなるようトランスコードして記録するようにしているが、トランスコードにより得られた面内予測ピクチャは、上記編集点に設定された画面間予測ピクチャとは別に、そのサブピクチャとして記録するようにしてもよい。
この場合、編集時には、編集点に設定されている画面間予測ピクチャをそのサブピクチャとして記録されている画面内予測ピクチャと置き換え、該置き換えた画面内予測ピクチャを、編集点であるＶＯＢユニットの先頭ピクチャとして再生に利用することができる。
【０１４８】
（実施の形態３）
図１１は、本発明の実施の形態３による撮像装置を説明するための図である。
本実施の形態３の撮像装置１０３は、実施の形態１の撮像装置１０１における編集点情報生成部２２ａに代えて、編集点を挿入する際、符号化前のバッファデータがあるか否かによって、先頭ピクチャが編集点に対応した新たなＶＯＢユニットＶＯＢＵを生成する処理と、編集点をこの編集点に最も近いＶＯＢユニットＶＯＢＵの切れ目に設定する処理とを切り替える編集点情報生成部２２ｃを備えたものである。また、制御部２０ｃは、編集点の設定処理の切り替えに応じて画像処理部１１ａを制御する点のみ、実施の形態１の制御部２０ａと異なっている。そして、本実施の形態３の撮影装置１０３のその他の構成は、実施の形態１の撮像装置１０１と同一である。
【０１４９】
次に動作について説明する。
この実施の形態３の撮像装置では、撮影前のマニュアル設定操作は、実施の形態１と同様に行われる。
【０１５０】
撮影が開始されると、撮像装置１０３は、実施の形態１の撮像装置１０１と同様、画像情報、音声情報、及び撮影状態を示す情報を取得し、該取得した情報から得られた、ユーザ操作や撮影者の生理的変化の特徴量、画像の特徴量、及び音声の特徴量に基づいて、画像や音声などの撮影状況が変化した撮影タイミングが編集点として妥当であるか否かを判定する。
【０１５１】
そして、この実施の形態３では、編集点情報生成部２２ｃは、特徴量判定部２１で、各処理部１０ａ、１１ａ、１２ａから供給されたそれぞれの特徴量に基づいて、撮影状況が変化した撮影タイミングが編集点として妥当であると判定される度に、編集点を設定した撮影タイミングを示す編集点情報を生成し、編集点の設定処理を行う。
【０１５２】
図１２は、編集点の設定処理のフローを示す。
この実施の形態３では、制御部２０ｃは、特徴量の種類に応じた遅延時間、つまり特徴量によって異なる、イベントの発生時点から該イベント発生により撮影状況が変化するまでの時間を算出する（ステップＳ１１）。
【０１５３】
次に、編集点情報生成部２２ｃは、遅延時間の算出時点で、符号化前の画像信号であるバッファデータがあるか否かを判定し（ステップＳ１１ａ）、符号化前のバッファデータがあると判定された場合は、作成途中のＶＯＢユニットＶＯＢＵをクローズして、新たなＶＯＢユニットＶＯＢＵを作成する（ステップＳ１２ｃ）。一方、ステップＳ１１ａにて、符号化前のバッファデータがないと判定された場合は、撮影状況が変化したタイミングＴｃｐから、算出された遅延時間だけ遡った撮影タイミングＴｅｐ以前で、この撮影タイミングＴｅｐに最も近いＶＯＢユニットＶＯＢＵの切れ目を編集点とする処理を行う（ステップＳ１２ａ）。このステップＳ１２ａの処理は、実施の形態１のステップＳ１２ａの処理と同じものである。
【０１５４】
その後、編集点情報生成部２２ｃは、編集点として妥当であると判定された撮影タイミングＴｅｐを示す編集点情報を生成するとともに、上記ステップＳ１２ａ及びＳ１２ｃのいずれかの処理により編集点が設定されたかが示されるよう、システムストリームのプレイアイテムを変更する（ステップＳ１３）。
【０１５５】
以下、図１３は、上記ステップＳ１２ｃで、先頭ピクチャを編集点に設定した新たなＶＯＢユニットＶＯＢＵを作成する処理を説明する図である。
図１３（ａ）は、複数のピクチャＪ１、Ｊ２、Ｊ３、Ｊ４、Ｊ５、Ｊ６、Ｊ７、Ｊ８、Ｊ９、Ｊ１０、・・・からなる１つのＶＯＢユニットＶＯＢＵ（ｊ）を示している。
【０１５６】
ここで、ピクチャＪ１は、その符号化及び復号化の際に他のピクチャを参照しないＩピクチャであり、ピクチャＪ４、Ｊ７、Ｊ１０は、符号化及び復号化の際に、前方のＩピクチャあるいはＰピクチャを参照するＰピクチャであり、ピクチャＪ２、Ｊ３、Ｊ５、Ｊ６、Ｊ８、Ｊ９は、符号化及び復号化の際に、前方のＩピクチャあるいはＰピクチャと後方のＰピクチャとを参照するＢピクチャであり、ＶＯＢユニットＶＯＢＵ（ｊ）の各ピクチャは、ＭＰＥＧ‐２で規定されている本来の参照関係となっている。
【０１５７】
図１３（ｂ）は、ＶＯＢユニットＶＯＢＵ（ｊ）の４番目のピクチャＪ４を編集点として新たなＶＯＢユニットＶＯＢＵを生成する場合を示している。
この場合は、ＶＯＢユニットＶＯＢＵ（ｊ）におけるＰピクチャとして符号化されるべきピクチャＪ４は、新たなＶＯＢユニットＶＯＢＵ（ｊａ）の先頭のＩピクチャＪａ１として符号化される。ＶＯＢユニットＶＯＢＵ（ｊ）における、それぞれＢピクチャである２番目ピクチャＪ２と３番目のピクチャＪ３は、前方のＩピクチャＪ１のみを参照するＢピクチャとして符号化される。なお、ＶＯＢユニットＶＯＢＵ（ｊａ）におけるピクチャＪａ４、Ｊａ７は、符号化及び復号化の際に、前方のＩピクチャあるいはＰピクチャを参照するＰピクチャであり、ＶＯＢユニットＶＯＢＵ（ｊａ）におけるピクチャＪａ２、Ｊａ３、Ｊａ５、Ｊａ６は、符号化及び復号化の際に、前方のＩピクチャあるいはＰピクチャと後方のＰピクチャとを参照するＢピクチャである。
【０１５８】
図１３（ｃ）は、ＶＯＢユニットＶＯＢＵ（ｊ）の５番目のピクチャＪ５を編集点として新たなＶＯＢユニットＶＯＢＵを生成する場合を示している。
この場合は、ＶＯＢユニットＶＯＢＵ（ｊ）におけるＢピクチャとして符号化されるべきピクチャＪ５は、新たなＶＯＢユニットＶＯＢＵ（ｊｂ）の先頭のＩピクチャとして符号化される。なお、ＶＯＢユニットＶＯＢＵ（ｊｂ）におけるピクチャＪ８は、符号化及び復号化の際に、前方のＩピクチャを参照するＰピクチャであり、ＶＯＢユニットＶＯＢＵ（ｊｂ）におけるピクチャＪ６、Ｊ７、Ｊ９、Ｊ１０は、符号化及び復号化の際に、前方のＩピクチャあるいはＰピクチャと後方のＰピクチャとを参照するＢピクチャである。
【０１５９】
図１３（ｄ）は、ＶＯＢユニットＶＯＢＵ（ｊ）の６番目のピクチャＪ６を編集点として新たなＶＯＢユニットＶＯＢＵを生成する場合を示している。
この場合は、ＶＯＢユニットＶＯＢＵ（ｊ）におけるＢピクチャとして符号化されるべきピクチャＪ６は、新たなＶＯＢユニットＶＯＢＵ（ｊｃ）の先頭のＩピクチャとして符号化される。ＶＯＢユニットＶＯＢＵ（ｊ）における、Ｂピクチャである５番目ピクチャＪ５は、前方のＰピクチャＪ４のみを参照するＢピクチャとして符号化される。なお、ＶＯＢユニットＶＯＢＵ（ｊｃ）におけるピクチャＪ９は、符号化及び復号化の際に、前方のＩピクチャを参照するＰピクチャであり、ＶＯＢユニットＶＯＢＵ（ｊｃ）におけるピクチャＪ７、Ｊ８、Ｊ１０は、符号化及び復号化の際に、前方のＩピクチャあるいはＰピクチャと後方のＰピクチャとを参照するＢピクチャである。
【０１６０】
このような構成の実施の形態３では、被写体の撮影により得られた画像信号から、画像の変化の特徴を表す画像特徴量を抽出する画像処理部１１ａと、被写体の撮影により得られた音声信号から、音声の変化の特徴を表す音声特徴量を抽出する音声処理部１２ａと、撮影者の生理変化を示す情報に基づいて、撮影状態の変化の特徴を表す固有特徴量を抽出する固有識別情報処理部１０ａとを備え、抽出された特徴量を予め設定されている判定強度と比較して、この特徴量の発生した撮影タイミングが編集点として妥当であるか否かを判定するので、実施の形態１と同様、撮影者にとって重要と思われる撮影部分を自動で編集可能なオーディオビデオストリームを生成することができる。
【０１６１】
また、この実施の形態３では、編集点を挿入する際、符号化前のバッファデータがあるか否かによって、編集点を先頭ピクチャとする新たなＶＯＢユニットＶＯＢＵを生成する処理と、イベントの発生タイミングに最も近いＶＯＢユニットＶＯＢＵの切れ目を編集点とする処理とを切り替えるので、撮影により得られた画像信号が符号化されていない場合は、編集点を基準としてＶＯＢユニットＶＯＢＵを生成することにより正確な位置に編集ポイントを設定することができ、また、撮影により得られた画像信号が符号化されている場合には、オーディオビデオストリームを処理することなく、編集点の設定を簡単に行うことができる。
【０１６２】
また、この実施の形態３では、編集点は、イベント発生からその検出、つまりイベント発生により撮影状況が変化するまでの遅延時間だけ、撮影状況が変化したタイミングから遡った撮影タイミングに設定するので、編集点を、ほぼイベントが実際に発生した撮影タイミングに設定することができる。
【０１６３】
なお、上記実施の形態３では、イベントが発生してから実際に画像、音声、あるいは撮影状態が変化するまでの遅延時間に応じて、編集点を設定する撮影タイミングを決定しているが、イベントは、画像、音声、あるいは撮影状態が変化した後に発生する場合もあり、このような場合には、画像、音声、あるいは撮影状態の変化からイベント発生までの時間に応じて、編集点を設定する撮影タイミングを決定するようにしてもよい。
【０１６４】
また、上記実施の形態３では、撮影により得られた画像信号が符号化されている場合には、イベントが発生したタイミングに最も近いＶＯＢユニットＶＯＢＵの切れ目を編集点としているが、この場合は、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、ＶＯＢユニットの切れ目となるよう、そのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化するようにしてもよい。
【０１６５】
この場合、図１４に示すように、編集点を設定する際、符号化前のバッファデータがあるか否かの判定（ステップＳ１１ａ）の結果によって、編集点を先頭ピクチャとする新たなＶＯＢユニットＶＯＢＵを生成する処理（ステップＳ１２ｃ）と、編集点として妥当であると判定された撮影タイミングに対応するピクチャが、ＶＯＢユニットの切れ目となり、かつそのピクチャタイプ及びその周辺のピクチャの参照関係が変更されるよう、これらのピクチャを再符号化する処理（ステップＳ１２ｂ）とが切り替えられることとなる。
【０１６６】
さらに、撮影により得られた画像信号が符号化されている場合には、イベント発生タイミングに最も近いＶＯＢユニットＶＯＢＵの切れ目を編集点とする処理と、再符号化により強制的にＶＯＢユニットＶＯＢＵを生成する処理とを、再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えているか否かに応じて切り替えるようにしてもよい。
【０１６７】
図１５は、符号化前のバッファデータがない場合に、符号化に使える残り時間に応じて、編集点を設定する処理を切り替えるフローを示している。
この場合、編集点を挿入する際、符号化前のバッファデータがあるか否かを判定し（ステップＳ１２）、バッファデータがあると判定された場合は、実施の形態３と同様に、編集点を先頭ピクチャとする新たなＶＯＢユニットＶＯＢＵを強制的に生成する処理（ステップＳ１３ａ）を行う。
【０１６８】
一方、符号化前のバッファデータがないと判定された場合には、再符号化に要する時間が、その時点で画像処理部１１ａでの符号化処理に利用できる残り時間を超えているか否かを判定する（ステップＳ１２ａ）。そして、再符号化に要する時間が、その時点で符号化処理に使える残り時間を超えていると判定された場合には、編集点は、イベント発生タイミングに近いＶＯＢユニットの切れ目に設定し（ステップＳ１３ｃ）、一方、ステップＳ１２ａにて、再符号化に要する時間が、その時点で符号化処理に使える残り時間を超えていないと判定された場合には、イベント発生タイミングに対応するピクチャを先頭とするＶＯＢユニットを強制的に作成する再符号化処理を行う（ステップＳ１３ｂ）。なお、図１５に示す処理フローでは、符号化前のバッファデータがない場合には、上記ステップＳ１３ｂの処理とステップＳ１３ｃの処理を、再符号化に要する時間と、画像処理部での符号化処理に使える残り時間との比較結果に応じて切り替えているが、この処理フローは、符号化前のバッファデータがない場合は、予め撮影者が設定した、ステップＳ１３ｂ及びステップＳ１３ｃのいずれか一方の処理を行うものであってもよい。
【０１６９】
さらに、上記各実施の形態では、オーディオビデオストリームはＭＰＥＧ‐２に対応するシステムストリームを想定しているが、オーディオビデオストリームは、ＭＰＥＧ‐４やＭＰＥＧ‐４ＡＶＣに対応するシステムストリームを想定したものであってもよい。
【０１７０】
ただし、ＭＰＥＧ‐４ＡＶＣ対応のシステムストリームでは、Ｉピクチャには、ランダムアクセス不可能なＩピクチャとランダムアクセス可能なＩピクチャ（ＩＤＲ）があるため、編集点として設定するＩピクチャは、イベント発生タイミングから最も近い、ランダムアクセス可能なＩピクチャ（ＩＤＲ）とされる。
【０１７１】
また、ＭＰＥＧ‐４ＡＶＣ対応のシステムストリームには、補助的な情報の書き込み領域（ＳＥＩ）が設定されているため、この書き込み領域に、特徴量の発生がどのような要因によるものであるかを示す情報を埋め込むこともできる。
【０１７２】
また、上記各実施の形態では、オーディオビデオストリームは、１つのシーケンスに対応するピクチャのデータを含むものであるが、このストリームは、１つのシーケンスに対応するピクチャのデータのほかに、サムネイル編集選択のためのシーケンス外のサブピクチャのデータを埋め込んだものであってもよい。この場合、編集時には、編集点として適切なピクチャを、サムネイル表示により一目で確認することができる。
【０１７３】
また、上記各実施の形態では、編集点に設定されたピクチャを全て編集に利用しているが、編集点が多いと編集しにくいということも考えられるので、編集点の設定後に、各編集点の設定要因毎に、つまり画像の変化や音声の変化などの別に、編集点を間引くようにしてよい。例えば、設定された複数の編集点から、音声の変化によって設定された編集点を削除することにより、編集時に利用する編集点の情報を削減することができる。
【０１７４】
また、ＭＰＥＧ‐４ＡＶＣのシステムストリームでは、ランダムアクセス可能なＩピクチャ（ＩＤＲ）は、ランダムアクセス不可能なＩピクチャよりも間隔をあけて配置されているため、このようなＩピクチャ（ＩＤＲ）を編集点として設定することにより、編集点の数を減らすことができる。
【０１７５】
またさらに、上記各実施の形態では、編集点の設定は、イベント発生時の特徴量が一定の判定強度以上であるか否かを判定して、イベント発生タイミングを編集点として設定しているが、イベント発生タイミングをすべて編集点として設定し、編集時に、編集点を実際に利用するか否かを決定するようにしてもよい。
【０１７６】
このような構成の撮影装置は、具体的には、実施の形態１〜３のいずれかの撮像装置の情報生成部を、画像、音声、あるいは撮影状態が変化した撮影タイミングを編集点として示す編集点情報を生成するものとし、さらに、その特徴量判定部を、オーディオビデオストリームを編集する際、上記画像特徴量、音声特徴量、あるいは固有特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定するものとすることにより実現できる。
【０１７７】
この場合、具体的には、上記画像、音声、及び撮影状態を変化させるすべてのイベントの発生時刻は、撮影タイミングを編集点として示す編集点情報として上記オーディオビデオストリームに埋め込まれることとなる。このため、イベント発生タイミングを編集点に設定する際には、イベント発生タイミングを編集点として利用するか否かの判定をリアルタイムで行う必要がなくなる。
【０１７８】
また、上記各実施の形態では、編集点を、被写体の画像や音声が変化した撮影タイミングだけでなく、撮影者の生理現象に変化が生じた撮影タイミングや撮影者が撮影器装置を操作した撮影タイミングにも設定する撮影装置を示したが、編集点は、被写体の画像や音声が変化した撮影タイミングのみに設定するようにしてもよい。この場合、撮像装置は、上記実施の形態の固有識別情報取得部１０及び固有識別情報処理部１０ａを含まないものとなる。
【０１７９】
また、上記各実施の形態の説明では特に言及していないが、図１に示す実施の形態１の撮像装置１０１、図８に示す実施の形態２の撮像装置１０２、及び図１１に示す実施の形態３の撮像装置１０３における、撮像部１１、記録媒体３０ａ及び記録媒体インターフェース３０を除く各機能部は、典型的には集積回路であるＬＳＩとして実現されるものである。これらの機能部は、個別に１チップ化したものでもよいし、それらのうちのいくつかを、またはそれらの全てを含むように１チップ化したものでもよい。
【０１８０】
例えば、上記各実施の形態の撮像装置における複数の機能部は、記録媒体３０ａ及び記録媒体インターフェース３０に相当するメモリ以外の機能部を、１チップ化したものでもよい。
【０１８１】
またここでは、集積回路にはＬＳＩと呼ばれるものを例に挙げたが、該集積回路は、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。
【０１８２】
また、集積回路化の手法は、１つまたは複数の機能部をＬＳＩとして実現するものに限らず、該機能部を専用回路又は汎用プロセサで実現してもよい。また、ＬＳＩとしては、その製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
【０１８３】
さらには、半導体技術の進歩又は派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能部の集積化を行ってもよく、例えば、将来的な集積回路化の技術はバイオ技術を適応したもの等である可能性がありえる。
また、近年、被写体を撮影してその動画像を記録可能なデジタルカメラや携帯端末が開発されており、このようなものに、上記実施の形態１〜３の撮像装置を構成する各機能部を搭載することにより、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを記録し、該ストリームの所要部分を自動編集して再生するデジタルカメラや携帯端末を実現することができる。
【産業上の利用可能性】
【０１８４】
本発明の撮像装置は、撮影者にとって重要と思われる撮影部分を、自動で、あるいはガイダンスに対する簡単な選択操作により編集可能なオーディオビデオストリームを生成するものであり、特に、家庭用のデジタルビデオカメラ、さらにはデジタルカメラや携帯端末などにおいて有用である。
【図面の簡単な説明】
【０１８５】
【図１】本発明の実施の形態１による撮像装置１０１を説明するブロック図である。
【図２】実施の形態１の撮像装置１０１における記録媒体に記憶されているオーディオビデオストリームを説明する図である。
【図３】実施の形態１の撮像装置１０１にて自動編集点挿入に関する条件を設定する操作を説明する図である。
【図４】上記実施の形態１の撮像装置１０１の動作を説明する図である。
【図５】上記実施の形態１の撮像装置１０１における編集点設定処理を具体的に説明する図であり、処理フロー（図（ａ））、及び撮影タイミングと、オーディオビデオストリームにおけるＶＯＢユニットの切れ目との関係（図（ｂ））を示している。
【図６】上記実施の形態１の撮像装置１０１により得られたオーディオビデオストリームを自動編集して再生する処理のフローを示す図である。
【図７】上記実施の形態１の撮像装置１０１における、編集ポイントの利用方法を説明する図である。
【図８】本発明の実施の形態２による撮像装置１０２を説明するための図である。
【図９】上記実施の形態２の撮像装置１０２における編集点設定処理のフローを示す図である。
【図１０】上記実施の形態２による撮像装置１０２における、強制的にＶＯＢユニットＶＯＢＵを作成しなおす再符号化処理を説明する図であり、符号化時における通常の参照関係（図（ａ））、再符号化によるピクチャタイプ及び参照関係の３つの変更例（図（ｂ）〜図（ｄ））を示す。
【図１１】本発明の実施の形態３による撮像装置１０３を説明するための図である。
【図１２】上記実施の形態３の撮像装置１０３における編集点の挿入処理のフローを示す図である。
【図１３】上記実施の形態３による撮像装置１０３における、新たなＶＯＢユニットＶＯＢＵを作成する処理を説明する図であり、符号化時における通常の参照関係（図（ａ））、新たに作成されたＶＯＢユニットの３つの変更例（図（ｂ）〜図（ｄ））を示す。
【図１４】上記実施の形態３の撮像装置１０３における編集点挿入処理フローの変形例を示す図である。
【図１５】上記実施の形態３の撮像装置１０３における編集点挿入処理フローの他の変形例を示す図である。
【符号の説明】
【０１８６】
１０固有識別情報取得部
１０ａ固有識別情報処理部
１１撮像部
１１ａ画像処理部
１２音声取得部
１２ａ音声処理部
２０ａ，２０ｂ，２０ｃ制御部
２１特徴量判定部
２２ａ，２２ｂ，２２ｃ編集点情報生成部
３０記録媒体インターフェース部
３０ａ記録媒体
１０１，１０２、１０３撮像装置

【特許請求の範囲】
【請求項１】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、
被写体を撮像して画像信号を出力する撮像部と、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、
ことを特徴とする撮像装置。
【請求項２】
請求項１記載の撮像装置において、
撮影状態を示す固有識別情報を取得する固有識別情報取得部と、
取得した固有識別情報に信号処理を施して、撮影状態の変化の特徴を示す固有特徴量を抽出する固有識別情報処理部とを備え、
上記特徴量判定部は、上記画像特徴量あるいは音声特徴量の他に、上記固有特徴量を判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項３】
請求項２記載の撮像装置において、
上記固有特徴量は、撮影中に生じた撮影者の生理変化の大きさ、または撮影者の操作による調整の大きさを示すものである、
ことを特徴とする撮像装置。
【請求項４】
請求項３記載の撮像装置において、
上記撮影中に生じた撮影者の生理変化は、撮影者の発汗量の変化、α波の変化、まばたきの回数変化、瞳孔の変化、及び脈拍の変化のうちの少なくとも１つであり、
上記固有識別情報取得部は、上記撮影者の生理変化を測定する、該生理変化の種類に応じたセンサを有する、
ことを特徴とする撮像装置。
【請求項５】
請求項１記載の撮像装置において、
上記画像処理部は、被写体の撮像により得られた画像信号に対して、符号化の対象となるピクチャを、符号化済みのピクチャを参照して予測符号化する画面間予測符号化処理を施し、上記画像特徴量を、該画面間予測符号化処理で用いる、画像の動きの大きさを示す動きベクトルに基づいて抽出し、
上記音声処理部は、音声の取得により得られた音声信号に対して、上記画像信号に対する符号化処理に対応した符号化処理を施し、
上記情報生成部は、上記編集点として妥当であると判定された撮影タイミングに基づいて、画像信号の符号化により得られた画像ストリームにおける特定のピクチャを上記編集点に設定する、
ことを特徴とする撮像装置。
【請求項６】
請求項１記載の撮像装置において、
上記音声処理部は、上記音声特徴量を、音声信号の変化の大きさに基づいて抽出する、
ことを特徴とする撮像装置。
【請求項７】
請求項２記載の撮像装置において、
ユーザのマニュアル操作信号に基づいて、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量のそれぞれに対する閾値レベルを設定する制御部を有し、
上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項８】
請求項２記載の撮像装置において、
複数のシナリオのそれぞれと、上記画像特徴量あるいは音声特徴量、並びに上記固有特徴量の各々に対する閾値レベルの組合せとの対応関係を示すテーブル情報を保持し、ユーザのマニュアル操作により指定されたシナリオと、上記テーブル情報とに基づいて、上記各種特徴量の閾値レベルを設定する制御部を有し、
上記特徴量判定部は、上記各特徴量を、対応する、上記制御部で設定された閾値レベルに基づいて判定して、上記画像、音声、あるいは撮影状態が変化した撮影タイミングが編集点として妥当であるか否かを決定する、
ことを特徴とする撮像装置。
【請求項９】
請求項８記載の撮像装置において、
上記テーブル情報は、ネットワーク上の情報端末からダウンロードして取得したものである、
ことを特徴とする撮像装置。
【請求項１０】
請求項１記載の撮像装置において、
上記情報生成部は、
上記編集点として用いるピクチャを、上記画像信号の符号化により得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるＶＯＢユニットの先頭ピクチャに設定する、
ことを特徴とする撮像装置。
【請求項１１】
請求項１０記載の撮像装置において、
上記情報生成部は、
上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、
ことを特徴とする撮像装置。
【請求項１２】
請求項１記載の撮像装置において、
上記画像処理部は、
上記情報生成部からの指示により、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、ＶＯＢユニットの先頭に位置するＩピクチャとなるよう再符号化する、
ことを特徴とする撮像装置。
【請求項１３】
請求項１２記載の撮像装置において、
上記情報生成部は、
上記編集点を、画像、あるいは音声に変化を与えるイベントが発生した時点から、実際に画像、あるいは音声が変化するまでの遅延時間に応じた撮影タイミングに設定する、
ことを特徴とする撮像装置。
【請求項１４】
請求項１記載の撮像装置において、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、音声、あるいは撮影状態が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記編集点を、上記画像処理部により画像信号を符号化して得られたストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるＶＯＢユニットの先頭ピクチャに設定し、
上記画像処理部は、
上記符号化前のバッファデータが上記画像処理部に保持されている場合には、上記編集点に対応するピクチャが、ＶＯＢユニットの先頭ピクチャとなるようＶＯＢユニットを形成する、
ことを特徴とする撮像装置。
【請求項１５】
請求項１記載の撮像装置において、
上記情報生成部は、
上記画像処理部に符号化前の画像情報であるバッファデータが保持されているか否かを判定し、
該符号化前のバッファデータが保持されている場合には、上記編集点を、上記画像、あるいは音声が変化した撮影タイミングに対応するピクチャに設定し、
該符号化前のバッファデータが保持されていない場合には、上記画像処理部での符号化処理に利用可能な残り時間と、再符号化に要する時間とを比較判定し、
該再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えている場合は、上記編集点を、上記画像処理部により画像信号を符号化して得られた画像ストリームにおける、上記画像、あるいは音声が変化した撮影タイミングに最も近い、ランダムアクセスの単位であるＶＯＢユニットの先頭ピクチャに設定し、
上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像ストリームの再符号化を画像処理部に指令し、
上記画像処理部は、
上記符号化前のバッファデータが保持されている場合には、上記編集点に対応するピクチャが、ＶＯＢユニットの先頭ピクチャとなるようＶＯＢユニットを形成し、
上記符号化前のバッファデータが保持されておらず、かつ上記再符号化に要する時間が上記画像処理部での符号化処理に利用可能な残り時間を超えていない場合は、上記画像信号の符号化により得られた画像ストリームを、上記編集点に対応するピクチャが、ＶＯＢユニットの先頭に位置するＩピクチャとなるよう再符号化する、
ことを特徴とする撮像装置。
【請求項１６】
請求項１記載の撮像装置において、
上記画像、あるいは音声に変化を与えるイベントが発生した時刻を、上記編集点としてオーディオビデオストリームに記録する、
ことを特徴とする撮像装置。
【請求項１７】
請求項１６記載の撮像装置において、
上記イベントの発生時刻を、再生条件を示すプレイリストとして上記オーディオビデオストリームに記録する、
ことを特徴とする撮像装置。
【請求項１８】
請求項１６記載の撮像装置において、
上記編集点が、画像、あるいは音声のいずれの要因によるものであるかを示す情報を、上記オーディオビデオストリームに埋め込む、
ことを特徴とする撮像装置。
【請求項１９】
請求項１記載の撮像装置において、
上記情報生成部は、
上記画像、あるいは音声に変化を与えるイベントが発生した時刻に対応するピクチャを、編集時のサムネイル表示に用いるシーケンス外ピクチャとして上記オーディオビデオストリームに埋め込む、
ことを特徴とする撮像装置。
【請求項２０】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像装置であって、
被写体を撮像して画像信号を出力する撮像部と、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像あるいは音声が変化した撮影タイミングを編集点として示す編集点情報を生成する情報生成部と、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する記録部と、
上記オーディオビデオストリームを編集する際、上記画像特徴量あるいは音声特徴量を判定して、上記編集点情報が編集点として示す撮影タイミングを編集に用いるか否かを決定する特徴量判定部とを備えた、
ことを特徴とする撮像装置。
【請求項２１】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する撮像方法であって、
被写体を撮像して画像信号を出力する撮像ステップと、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理ステップと、
音声を取得して音声信号を出力する音声取得ステップと、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理ステップと、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定ステップと、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成ステップと、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納するステップとを含む、
ことを特徴とする撮像方法。
【請求項２２】
被写体の撮影により画像情報及び音声情報を取得して、該画像情報及び音声情報を含むオーディオビデオストリームを記録する半導体装置であって、
上記被写体の撮像により得られた画像信号に信号処理を施して、画像の変化の特徴を示す画像特徴量を含む画像情報を抽出する画像処理部と、
音声を取得して音声信号を出力する音声取得部と、
上記音声の取得により得られた音声信号に信号処理を施して、音声の変化の特徴を示す音声特徴量を含む音声情報を抽出する音声処理部と、
上記画像特徴量あるいは音声特徴量を判定して、上記画像あるいは音声が変化した撮影タイミングが編集点として妥当であるか否かを決定する特徴量判定部と、
該編集点として妥当であると判定された撮影タイミングを示す編集点情報を生成する情報生成部とを備え、
上記画像情報、音声情報、及び編集点情報を含むオーディオビデオストリームを記録媒体に格納する、
ことを特徴とする半導体装置。

【図１】