映像処理装置およびその制御方法

【課題】音声付の映像について、映像としての不要区間がある場合に、不要区間の映像と音声の両方を削除してしまうことによる音飛びを起こさずに、不要区間の映像を削除する。
【解決手段】映像データおよび音声データを入力する入力手段と、処理対象となる映像データおよび音声データを抽出する抽出手段と、抽出された映像データ中の不要なフレーム集合を検出する検出手段と、不要なフレーム集合よりも前のフレーム集合である第１のフレーム集合と、不要なフレーム集合よりも後のフレーム集合である第２のフレーム集合を決定する決定手段と、第１、第２のフレーム集合を用いて、第１、第２のフレーム集合および不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第１、第２のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像を編集する映像処理装置に関する。
【背景技術】
【０００２】
近年、コンピュータによって映像を編集するアプリケーション（映像編集アプリケーション）が普及している。このようなアプリケーションは、シーンの一部を削除するカット機能、シーンを繋ぐトランジション機能、シーンに映像効果を付与するエフェクト機能などを備えている。ユーザーは、それらの機能を用いて、映像中の不要なシーンを削除したり、複数のシーンを結合したり、映像効果やＢＧＭ（ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ）を追加したりすることで、新たな映像を作成できる。
【０００３】
ところで、不要なシーンの削除や重要シーンの抽出作業は、ユーザーが判断しながら行うと手間がかかる。これに対して、装置が自動的に、映像中の不要区間を検出する技術が知られている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００８‐１６０６３７号
【特許文献２】特開２００９‐０７７２６５号
【特許文献３】特開２００５‐１６７３７７号
【発明の概要】
【発明が解決しようとする課題】
【０００５】
従来、映像中の不要区間を単純に削除する場合には、その時間に対応する音声も一緒に削除してしまうため、連続的な音声の一部を切り取ってしまうことによる音飛びが発生していた。例えば、ピアノの演奏会や人がスピーチしているシーンなどで、このような音飛びが発生すると、ユーザーが大きな違和感を感じるであろう。
【０００６】
本発明は、上記点に鑑みてなされたものであり、音声付の映像について、映像としての不要区間がある場合に、不要区間の映像と音声の両方を削除してしまうことによる音飛びを起こさずに、不要区間の映像を削除することを目的とする。
【課題を解決するための手段】
【０００７】
上記課題を解決するために、本発明の請求項１に記載の映像処理装置によれば、映像データおよび音声データを編集する映像処理装置であって、映像データおよび音声データを入力する入力手段と、前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出手段と、前記抽出された映像データ中の不要なフレーム集合を検出する検出手段と、前記不要なフレーム集合よりも前のフレーム集合である第１のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第２のフレーム集合を決定する決定手段と、前記第１、第２のフレーム集合を用いて、前記第１、第２のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第１、第２のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段とを備える。
【発明の効果】
【０００８】
本発明によれば、音声付の映像について、映像としての不要区間がある場合に、不要区間の映像と音声の両方を削除してしまうことによる音飛びを起こさずに、不要区間の映像を削除できる。
【図面の簡単な説明】
【０００９】
【図１】映像処理装置の外観図
【図２】ボタン入力部を示す図
【図３】映像処理装置のハードウェア構成図
【図４】映像処理装置の機能ブロック図
【図５】編集動作の流れを視覚的に説明する図
【図６】映像処理装置の処理の流れを示すフローチャート
【図７】表示処理の流れを表すフローチャート
【図８】映像処理装置のＵＩ画面の一例を示す図
【図９】映像自動編集処理の手順を示すフローチャート
【図１０】映像自動補完処理の手順を示すフローチャート
【図１１】補完フレーム集合を作成する様子を示す図
【発明を実施するための形態】
【００１０】
以下、本発明の実施形態について図面を参照して詳細に説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すものであり、これに限るものではない。
【００１１】
（実施形態１）
図１は、本実施形態における映像処理装置（映像自動編集装置とも呼ぶ）の外観図である。映像処理装置１００は、映像を表示するディスプレイ１０１、ユーザーによる操作入力が行われるボタン入力部１０２、映像処理装置１００の電源をＯＮ／ＯＦＦするＰｏｗｅｒボタン１０３、映像に付いている音声を出力するスピーカ１０４などで構成される。
【００１２】
図２は、上述したボタン入力部１０２の詳細を示す図である。上ボタン１０２ｂ、下ボタン１０２ｄ、左ボタン１０２ｅ、右ボタン１０２ｃ、そして選択候補を決定する指示を行うＯＫボタン１０２ａから構成される。
【００１３】
図３は、映像処理装置１００のハードウェア構成図である。装置１００は、ＣＰＵ２００（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２、バス２０８を含む。また、装置１００は、オーディオＩ／Ｆ（インターフェース）２０３、ディスプレイＩ／Ｆ２０４、ストレージＩ／Ｆ２０５、ストレージ２０６、入力Ｉ／Ｆ２０７を含む。なお、装置１００は、上述した各部以外を含んでいても良い。例えば、装置１００は、タッチパネルＩ／ＦやメモリーカードＩ／Ｆなどを備え、それらを利用して映像の編集を行うこともできる。以下、映像処理装置１００を構成する各部について、詳細に説明する。ＣＰＵ２００は、ＲＡＭ２０１、ＲＯＭ２０２、バス２０８を利用して映像処理装置１００全体の動作制御を行うものである。ここでは図示しないが、オペレーティングシステム（以下ＯＳ）をはじめ、本実施形態における各処理プログラム、デバイスドライバ等はＲＯＭ２０２に記憶されているものとする。また、ＲＡＭは、上記プログラムあるいはこのプログラムを用いた処理対象のデータ群（パラメータや中間データなども含む）を一時記憶する。そして、一時記憶されたプログラムやデータ群は必要に応じてＣＰＵ２００によって読み出され、処理される。オーディオＩ／Ｆ２０３は、映像に付属している音声データをスピーカ１０４が処理可能な信号に変換する。ディスプレイＩ／Ｆ２０４は、映像処理装置１００で作成されるＵＩ表示画面やダイジェスト映像をディスプレイ１０１が表示できる画像信号に変換する。ストレージＩ／Ｆ２０５は、装置１００またはストレージ２０６に適したデータ形式にするために、装置１００が利用できる映像データ形式とストレージ２０６に記憶できるデータ形式との相互変換を行う。キー入力インターフェース２０７は、ボタン入力装置１０２、Ｐｏｗｅｒボタン１０３からの入力信号を受信し、この信号を、装置１００のＣＰＵ２００などが認識可能な情報に変換する。ストレージ２０６は、ハードディスクドライブに代表される大容量情報記憶装置であって、ストレージ２０６には装置１００で編集する対象となる素材（映像データ）が記録されている。なお、ストレージ２０６自体は、装置１００に搭載されていても良いし、イーサネット（登録商標）やＵＳＢ、メモリーカードＩ／Ｆなどの各種インターフェースを介して外部装置として接続されていてもよい。さらには、ストレージ２０６は複数台が存在し、それぞれのストレージおよび装置１００との間でデータを授受できるようにしても構わない。
【００１４】
図４は、上述した装置１００が備える各機能を示す図である。前述したものと実質的に同じものについては、同一の符号を付与し、詳細な説明は省略する。図４において、装置１００は、主制御部３２０および、図３で示したデータ記憶部（ＲＯＭ２０１、ＲＡＭ２０２、ストレージ２０６）などを含む。また、装置１００は、操作取得部３００、映像データ取得部３０１、音声解析部３０２、重要シーン抽出部３０３、映像データ分離部３０４を備える。また装置１００は、不要区間削除部３０５、映像自動補完部３０６、再生表示部３０７、不要区間検出部３０８、フレーム集合決定部３０９、補完フレーム生成部３１０を備える。これらの各機能は、基本的に、主制御部３２０による制御下で実行され、例えば図３で説明したような構成を用いたプログラムの実行に基づいたソフトウェア処理を用いて動作する。ただし、本発明はこれに限らず、例えば、図４に示した各機能を個々のハードウェア回路として準備し、これらを用いて各種の動作をさせても構わない。なお、本実施形態では、ストレージ２０６に記憶されている音声付き映像を表すデータ（映像データ）の扱いについて述べるものとし、例えば、複数のフレームで構成されるＭＰＥＧ２やＭＰＥＧ４やＭｏｔｉｏｎ−ＪＰＥＧなどの符号化データに相当する。また、本実施形態では、この映像データの各々が、ピアノ発表会などのイベント毎に撮影されたものを例にして説明し、ストレージ２０６には、この映像データが多数記憶されている場合を例にあげて説明する。ここで、例えば、ピアノ発表会の映像データから一部の不要な映像を削除する場合を考える。このようなシーンでは、音と音の繋がり（流れ）が重要である。よって、上記不要な映像を削除した後の音声付き映像においては、音飛びの無いダイジェスト映像になっていることが好ましい。以下、図４に示した各機能について順に説明する。なお、特に詳述しないが、以下の各処理において利用、生成されるデータについて、後段の処理対象となるデータについては、基本的に、ＲＡＭ２０２あるいはストレージ２０６の何れかに一時記憶されるものとする。まず、映像処理装置１００の操作は、ボタン入力部１０２、Ｐｏｗｅｒボタン１０３をユーザーが押下することによって行われる。言い換えれば、装置１００の操作取得部３００は、上記押下を検知し、その操作内容を示す情報を、主制御部３２０に出力する。主制御部３２０は上記操作内容に基づいて各機能を動作させる。ここで、右ボタン１０２ｃや左ボタン１０２ｅは、編集対象となる映像データを選択する操作ボタンとしての役割を担う。また、ＯＫボタン１０２ａは、編集対象となる映像データを決定したり、後述する自動編集の開始を指示する操作ボタンとしての役割を担う。映像データ取得部３０１は、編集対象となる映像データ（音声付きの映像を表すデータ）をストレージ２０６から読み出す。音声解析部３０２はこの映像データに付与された各音声の解析を行う。ここで得られた音声解析の結果は、上記ＲＡＭ２０１に一旦保持される。例えば、ピアノ発表会の映像と音声からなる映像データであれば、音声解析される対象は主にはピアノの音である。重要シーン抽出部３０３は、上記読み出された映像データと上記音声解析の結果に応じて、重要シーンの区間を決定する。例えば、上記ピアノ発表会であれば、ピアノの音が連続的に発生している区間が重要シーンに相当する。映像データ分離部３０４は、ＲＡＭ２０１に保持した重要シーンに相当する音声付きの映像データを、独立した映像データと音声データに分離する。ここで分離された映像データは、不要区間削除部３０５と不要区間検出部３０８に入力される。一方、分離された音声データは、再生表示部３０７に入力される。不要区間検出部３０８は、入力された映像データのフレームを画像解析することによって、手ブレや色飛びを起こしているフレーム、あるいはプライバシー情報を含んでいるフレームなどに相当する不要区間を検出し、この不要区間を表す不要区間情報を出力する。なお、ここで利用される動画解析の方法は公知の技術を用いるものとする。不要区間削除部３０５は、上記不要区間情報に基づいて、不要区間のフレームを削除する。この削除された後の映像データは、映像自動補完部３０６に入力される。フレーム集合決定部３０９は、上記不要区間情報に基づいて、不要区間よりも時間的に前のフレーム集合に相当する第１のフレーム集合と、不要区間よりも時間的に後のフレーム集合に相当する第２のフレーム集合を決定する。補完フレーム生成部３１０は、上記不要区間情報を参照し、かつ第１、第２のフレーム集合を用いて、不要区間のフレームの数と同じ数のフレームからなる補完フレーム集合を生成する。映像自動補完部３０６は、第１のフレーム集合、第２のフレーム集合、上記生成された補完フレーム集合を素材として、それらを所定の順番で配列することにより、新たなフレーム集合を形成する。これにより、前記不要区間のフレームが前後の映像で補完され、不要区間に存在した元の映像を、再生時に大きな違和感が起こらないように削除することができる。再生表示部３０７は、映像自動補完部３０６で補完した映像データと上記映像データ分離部で分離されていた音声データを、時間軸に合わせて再び結合する。そして、結合された音声付きの映像（ダイジェスト映像）を表す映像データに基づいて、ディスプレイ１０１から映像が表示され、スピーカ１０４から音声が出力される。上述した映像としての不要区間を削除する編集方法について、以下で、図を用いて詳細説明する。
【００１５】
図５は、本実施形態で行われる映像としての不要区間に対する編集方法を視覚的に示したものである。
まず、図５（ａ）に示すように、映像データ５００は、編集対象となる音声付きの映像を表す映像データ全体を表す。この映像データ５００は、複数のフレームからなる映像データ５０１と音声データ５０２の２種類から構成されている。本実施形態では、音声解析部３０２は、重要な音声（例えば、ピアノ発表会の映像を編集する場合には、ピアノの音）が含まれている区間を解析する。
【００１６】
次に、図５（ｂ）に示すように、重要シーン抽出部３０３は、重要な音声が含まれる音声区間５０２ａ，５０２ｂに相当するシーンのみを抽出する。ここでの抽出とは、重要な音声区間に相当する映像と音声のセットのみを抽出するものである。さらに、映像データ分離部３０４は、上記抽出された重要シーンのそれぞれについて、映像データと音声データとに分離する。さらに、不要区間検出部３０８は、映像データ中のフレームを画像解析することにより、映像としての不要区間の検出を行う。さらに、不要区間削除部３０５は、不要区間に相当するフレーム５０３の削除を行う。
【００１７】
次に、図５（ｃ）に示すように、フレーム集合決定部３０９は、不要区間に相当するフレーム５０３よりも時間的に前のフレーム集合５０４ａ（第１のフレーム集合）と、フレーム５０３よりも時間的に後のフレーム集合５０４ｂ（第２のフレーム集合）とを決定する。さらに、補完フレーム生成部３１０は、フレーム集合５０４ａから前半の補完フレーム集合５０５ａを生成し、フレーム集合５０４ｂから後半の補完フレーム集合５０５ｂを生成する。
【００１８】
次に、図５（ｄ）に示すように、補完フレーム生成部３１０は、上述した前半の補完フレーム集合５０５ａ、後半の補完フレーム５０５ｂと、フレーム集合５０４ａ、５０４ｂの４つの断片を用いて、補完フレーム集合５０６を生成する。なお、この補完フレーム集合５０６の具体的な生成方法の一例は、図１１などを用いて後述するが、方法としては何種類か考えられる。何れにしろ、映像データからフレーム集合５０３を削除した代わりに、その不要区間の前後のフレーム集合から、不要区間の前半に相当する補完フレーム集合５０５ａと後半に相当する補完フレーム集合５０５ｂを生成する点は共通である。後述する各種類においては、これら補完フレーム集合５０５ａ、５０５ｂと、第１フレーム集合５０４ａや第２フレーム集合５０４ｂとを用いて、如何に連結あるいは混在させるかという点で異なっている。上記連結や混在によって得られる補完フレーム５０６の内部構造は、その連結あるいは混在の方法によって異なる。なお、以上の編集処理を行う場合には、当初から重要であると判断したシーンにおける音声データの削除が行われていない点に注目されたい。
【００１９】
図６は、上述した映像処理装置１００の処理の流れを示すフローチャートである。ここでは、映像処理装置１００においてＰｏｗｅｒボタン１０３が押下され、映像処理装置１００の電源がＯＮになっている場合に、以下の動作が実行される。まず、ステップＳ１０では、主制御部３２０などの制御によって、ディスプレイ１０１上に後述する初期画面の表示を行う。
【００２０】
図７は、ステップＳ１０の表示処理の流れを表すフローチャートである。まず、ステップＳ２０では、ストレージ２０６に記憶されている映像データの情報を取得する。ステップＳ２１では、取得した情報から映像データ毎に代表画像を抽出し、これを素材にして、ユーザーインターフェイス画面（ＵＩ画面）を作成する。代表画像とは、例えば映像データの最初のフレームなどが相当する。ステップＳ２２では、作成されたＵＩ画面が、再生表示部３０７によってディスプレイ１０１に表示される。
【００２１】
図８は、上述したＵＩ画面の一例である。ＵＩ画面４００は、ストレージ２０６に多数保存されている映像データのそれぞれについて、代表画像を表示するための３つのプレビュー領域４０１、４０２ａ、４０２ｂを備えている。ここでは、多数保存されている映像データが、それらが撮影された日時でソートされて管理され、プレビュー画面ではそのソート順に表示されるものとする。領域４０１には、現在注目している映像データの代表画像が表示される。そして領域４０２ａには、注目している映像データより時間的に１つ前の映像データを表す代表画像が表示される。また、そして領域４０２ｂには、注目している映像データより時間的に１つ後の映像データを表す代表画像が表示される。もし、このまま上述した編集作業を始めた場合には、領域４０１に表示された代表画像に相当する映像データを、編集対象として処理が進む。なお、このＵＩ画面４００の下部には、領域４０１、４０２ａ、４０２ｂに表示されるべき映像データの撮影時間などを高速に指定できるインディケータ４０４が配置されている。従って、このインディケータ４０４上の位置ヘッド４０３を移動させることにより、昔に撮影した映像データあるいは最近撮影した映像データなどを高速に見つけることができる。
【００２２】
図６のステップＳ１０が終了すると、ステップＳ１１に進む。ステップＳ１１では、ボタン入力部１０２における右ボタン１０２ｃ、左ボタン１０２ｅが押下されたかどうか判断する。もし、これらのボタンを押下していない場合には、ボタンの押下を検知するまで、このステップＳ１１の処理を繰り返す。一方、上記左右ボタンが押下された場合には、ステップＳ１２に進む。ステップＳ１２では、上述したプレビュー領域４０１、４０２ａ、４０２ｂに表示される代表画像を、左右のボタンの押下状態に応じて、左右にスクロールさせる。これによって、編集対象となる映像データが切り替わる。また、このスクロールにあわせて上記位置ヘッド４０３の位置も左右に変化する。ステップＳ１３では、ＯＫボタン１０２ａが押下されたかどうかを検知する。もしＯＫボタン１０２ａが押下された場合には、そのときに領域４０１に表示されている代表画像に相当する映像データを、編集対象のデータとして決定し、後段の映像自動編集処理を実行する。この映像自動編集処理については後述する。
【００２３】
図９は、図６のステップＳ１４に相当する映像自動編集処理の手順を示すフローチャートである。まず、ステップＳ３０では、映像データ取得部３０１は、ＵＩ画面４００（領域４０１）で選択された映像データをストレージ２０６から読み出す。読み出された映像データは、主に音声付きの映像データであり、ＲＡＭ２０１に保持される。ステップＳ３１では、音声解析部３０２によって、上記読み出された映像に付与されている音声の解析が行われる。例えば、ピアノ発表会のようなイベントに相当する映像データを編集中の場合には、ピアノの音が含まれている部分を重要シーンに特定する音声解析を行う。この重要シーンに相当する音色は予め何種類か登録しておけば良いであろう。ステップＳ３２では、重要シーン抽出部３０３によって、上記音声解析結果に基づいて重要シーンに相当する映像データ（音声付きの映像）を抽出する。ステップＳ３３では、重要シーンが存在するか否かが判定される。更に、重要シーンが幾つ存在するかも記憶する。もし、重要シーンが１つも無い場合には、この映像自動編集処理を終了する。ここでは、処理対象の映像データが、音声付きの映像データでなかった場合にも、重要シーンが１つも無かったと判断されることになる。その一方で、もし重要シーンが存在する場合には、ステップＳ３４に進む。例えば、上述した図５の場合には、２つの重要シーン５０２ａ、５０２ｂが存在していることになる。以下に説明するステップＳ３４からステップＳ３８までは、１つの重要シーンごとに処理するものとして説明する。よって、例えば２つの重要シーンがあれば、ステップＳ３４からステップＳ３８までの工程が２回繰り返される。ステップＳ３４では、重要シーンとして抽出された映像データに付与されている音声データを分離し、映像データと音声データを独立したデータとして保持させる。ステップＳ３５では、分離された後の映像データについて、手ブレ、色飛びなどが存在するかどうか、すなわち、不要区間に相当する映像が存在するかどうかをチェックする。なお、本実施形態においては、不要区間は手ブレや色飛びしている区間としたが、本発明はこれに限らない。例えば、撮影中に一瞬カメラの前を人が横切ったシーンなど、ユーザーが好まないシーンを予め設定しておけば良い。その他、電話番号や車のナンバープレート等のプライバシー情報を含む映像が存在する区間を不要区間としても良い。もし、映像データ中に不要区間が含まれない場合には、ステップＳ３８に進む。映像データに不要区間が含まれる場合には、ステップＳ３６に進む。ステップＳ３６では、不要区間に相当する映像データを削除する。さらに、ステップＳ３７では、後述する映像自動補完処理が実行される。ステップＳ３８では、重要シーンに相当する映像データを再生表示部３０７を介してディスプレイ１０１に表示させる。ここでは、再生表示部３０７によって、映像データと先に分離していた音声データとを再び結合すると共に、それぞれのデータ（符号化データ）を復号することによりディスプレイ１０１とスピーカ１０４に出力する。この結果、映像としての不要区間が除かれ、かつ重要シーンの音声が全て含まれたダイジェスト映像が再生されることになる。
【００２４】
図１０は、ステップＳ３７に相当する映像自動補完処理の手順を示すフローチャートである。まず、ステップＳ５０では、上記ステップＳ３５で取得した不要区間情報を取得する。ステップＳ５１では、取得した不要区間情報に基づいて、映像としての不要区間のフレームの総数がＮ個、不要区間の先頭フレームｆ１、不要区間の末尾フレームｆ２を取得する。さらに、先頭フレームｆ１から時間的に前方へＮ／２フレーム進んだ位置のフレームｆ３、末尾フレームｆ２から時間的に後方へＮ／２フレーム進んだ位置のフレームｆ４をそれぞれ算出する。ステップＳ５２では、フレームｆ３から、フレームｆ１の１つ前のフレームまでに相当するフレーム集合（すなわち、不要区間の先頭フレームｆ１を除く）を第１のフレーム集合Ｆ１と決定する。また、フレームｆ２の１つ後ろのフレームから、フレームｆ４までに相当するフレーム集合（すなわち、不要区間の末尾フレームｆ２を除く）を第２のフレーム集合Ｆ２と決定する。ステップＳ５３では、第１のフレーム集合Ｆ１を複製してＮ／２個の補完フレーム集合Ｆｃ１を生成し、また第２のフレーム集合Ｆ２を複製してＮ／２個の補完フレーム集合Ｆｃ２を生成する。ステップＳ５４では、補完フレーム集合Ｆｃ１、補完フレーム集合Ｆｃ２およびフレーム集合Ｆ１、ならびにフレーム集合Ｆ１、Ｆ２を所定の順序に配列／混在させた、２Ｎ個のフレームからなる補完フレーム集合を生成する。
【００２５】
図１１は、上述した補完フレーム集合（フレーム集合５０６）を作成する様子を示す図である。なお、この補完フレーム集合５０６は、映像としての不要区間であるフレームの総数Ｎの２倍のフレーム数で構成されるものである。ここでは、第１、第２のフレーム集合を用いて、第１、第２のフレーム集合および不要区間であるフレームの集合に代わる、２Ｎ個のフレーム（補完フレーム集合）を生成する。そして、この第１、第２のフレーム集合以外のフレーム（第１のフレーム集合の前に在るフレーム群と第２のフレーム集合の後ろにあるフレーム群）と上記補完フレーム集合からなる映像データを、補完後の映像データとして出力するものである。
【００２６】
同図では、上述した第１のフレーム集合Ｆ１の各フレームを先頭からＦ１（１）、Ｆ１（２）、Ｆ１（３）、・・・Ｆ１（Ｎ／２）とし、補完フレーム集合Ｆｃ１の各フレームを先頭からＦｃ１（１）、Ｆｃ１（２）、Ｆｃ１（３）、・・・Ｆｃ１（Ｎ／２）とする。また、第２のフレーム集合Ｆ２の各フレームを先頭からＦ２（１）、Ｆ２（２）、Ｆ２（３）、・・・Ｆ２（Ｎ／２）とし、補完フレーム集合Ｆｃ２の各フレームを先頭からＦｃ２（１）、Ｆｃ２（２）、Ｆｃ２（３）、・・・Ｆｃ２（Ｎ／２）とする。このとき、フレーム集合Ｆ１、Ｆ２、ならびに補完フレーム集合Ｆｃ１、Ｆｃ２のフレームを、ｆ３の位置からＦ１（１）、Ｆｃ１（１）、Ｆ１（２）、Ｆｃ１（２）、Ｆ１（３）、Ｆｃ１（３）、・・・、Ｆ１（Ｎ／２）、Ｆｃ１（Ｎ／２）と交互に並べる。これに続けて、さらにｆ４の位置までＦ２（１）、Ｆｃ２（１）、Ｆ２（２）、Ｆｃ２（２）、Ｆ２（３）、Ｆｃ２（３）、・・・、Ｆ２（Ｎ／２）、Ｆｃ２（Ｎ／２）と交互にフレームを並べる。その結果、映像としての不要区間のフレームを補完できることになる。なお、上記補完を行うことによれば、これらフレーム集合（ｆ３からｆ４間の映像）は１／２スロー再生で表示されているように見えるであろう。
【００２７】
なお、上記説明では、補完フレーム集合Ｆｃ１、Ｆｃ２とフレーム集合Ｆ１、Ｆ２を交互に並べることにより不要区間のフレームを補完したが、補完フレーム集合Ｆｃ１、Ｆｃ２を用いて他の方法で、映像としての不要区間を補完しても良い。例えば、図１１（ｃ）に示すように、フレーム集合を順番に並べるように補完しても良い。その一例としては、フレーム集合Ｆ１、Ｆ２のフレームは並び替えず、補完フレーム集合Ｆｃ１、Ｆｃ２のフレームを、ｆ１の位置からＦｃ１（Ｎ／２）、・・・、Ｆｃ１（３）、Ｆｃ１（２）、Ｆｃ１（１）と逆順にフレームを並べる。さらにｆ２の位置までＦｃ２（Ｎ／２）、・・・、Ｆｃ２（３）、Ｆｃ２（２）、Ｆｃ２（１）と逆順にフレームを並べる。この場合には、フレーム集合Ｆ１、Ｆ２と補完フレーム集合Ｆｃ１、Ｆｃ２の境界で再生中の映像が逆回し再生されて見えるであろう。
【００２８】
以上の処理により、ステップＳ３７の映像自動補完処理が完了する。ステップＳ３８では、ダイジェスト再生処理が行われる。このダイジェスト再生処理では、再生表示部３０７によって、映像としての不要区間が、上述のように補完された映像データおよび音声データを結合する。そして、結合されたデータをデコードし、ディスプレイ１０１とスピーカ１０４に出力することにより、ダイジェスト再生を行う。映像処理装置１００は、重要シーン抽出部３０３で抽出された重要シーンの数だけステップＳ３３〜Ｓ３８を繰り返す。ステップＳ３３において、全ての重要シーンに対する処理が終了したと判断した場合は、上述した一連の映像自動編集処理を終了する。
【００２９】
以上によれば、ダイジェスト再生しようとする映像に不要区間が含まれていた場合であって、その不要区間をカットした場合にも、重要シーンの音声が途切れてしまうようなことが無い。よって、視聴者は編集後のダイジェスト映像を違和感なく視聴できる。
【００３０】
［変形例］
なお、上述したステップＳ５４は以下のように変形しても構わない。例えば、例えば、図１１の（ｂ）に示すようにフレーム集合Ｆ１、Ｆｃ１、Ｆ２、Ｆｃ２の各フレームを並べることを考える。この場合、不要区間の中央では映像の内容が途切れるであろう。よって、この途切れを見えにくくするためにフェードイン、フェードアウトの効果を追加することが有効である。具体的には、図１１の（ｂ）のように各フレームを並べている場合において、フレームＦ１（１）からフレームＦｃ１（Ｎ／２）への順次再生の際に、各フレームの輝度を徐々に低下させるようにして、Ｆｃ１（Ｎ／２）の再生時には輝度を０にする。その一方で、フレームＦ２（１）からフレームＦｃ２（Ｎ／２）への順次再生の際に、フレームＦ２（１）の再生時には輝度を０とし、各フレームの輝度を徐々に上昇させるようにして、フレームＦｃ２（Ｎ／２）の再生時には元の輝度で再生させる。なお、ここでは、再生されるフレームの輝度を調整することによりフェードイン、フェードアウト効果を実現したが、各フレームの色調を調整するような処理を利用しても良い。
【００３１】
なお、上述した各実施形態は、以下の処理を実行することによっても実現される。即ち、上記実施形態の各工程や機能を実現するソフトウェア（コンピュータプログラム）を、ネットワークや記憶媒体を介してシステムに供給し、そのシステムのコンピュータ（またはＣＰＵ等）が上記プログラムを読み込んで実行する処理である。上記コンピュータプログラムや、それを記憶したコンピュータ可読記憶媒体も本発明の範疇に含まれる。

【特許請求の範囲】
【請求項１】
映像データおよび音声データを編集する映像処理装置であって、
映像データおよび音声データを入力する入力手段と、
前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出手段と、
前記抽出された映像データ中の不要なフレーム集合を検出する検出手段と、
前記不要なフレーム集合よりも前のフレーム集合である第１のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第２のフレーム集合を決定する決定手段と、
前記第１、第２のフレーム集合を用いて、前記第１、第２のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第１、第２のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段と
を備えることを特徴とする映像処理装置。
【請求項２】
前記不要なフレーム集合がＮ個のフレームからなるとき、前記第１のフレーム集合はＮ／２個のフレームからなり、前記第２のフレーム集合はＮ／２個のフレームからなり、前記補完フレーム集合は２Ｎ個のフレームからなることを特徴とする請求項１に記載の映像処理装置。
【請求項３】
前記補完手段は、前記第１のフレーム集合と、前記第２のフレーム集合と、前記第１のフレーム集合を複製したＮ／２フレームと、前記第２のフレーム集合を複製したＮ／２フレームを、所定の順序で配列することにより、前記補完フレーム集合を形成することを特徴とする請求項２に記載の映像処理装置。
【請求項４】
コンピュータに読み込み込ませ実行させることで、前記コンピュータを請求項１乃至３のいずれか１項に記載の映像処理装置として機能させるコンピュータプログラム。
【請求項５】
請求項４に記載のコンピュータプログラムを記憶したことを特徴とするコンピュータ可読記憶媒体。
【請求項６】
映像データおよび音声データを編集する映像処理装置の制御方法であって、
入力手段により、映像データおよび音声データを入力する入力工程と、
抽出手段により、前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出工程と、
検出手段により、前記抽出された映像データ中の不要なフレーム集合を検出する検出工程と、
決定手段により、前記不要なフレーム集合よりも前のフレーム集合である第１のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第２のフレーム集合を決定する決定工程と、
補完手段により、前記第１、第２のフレーム集合を用いて、前記第１、第２のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第１、第２のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完工程と
を備えることを特徴とする制御方法。

【図１】