映像処理装置およびその制御方法
【課題】 音声付の映像について、映像としての不要区間がある場合に、不要区間の映像と音声の両方を削除してしまうことによる音飛びを起こさずに、不要区間の映像を削除する。
【解決手段】 映像データおよび音声データを入力する入力手段と、処理対象となる映像データおよび音声データを抽出する抽出手段と、抽出された映像データ中の不要なフレーム集合を検出する検出手段と、不要なフレーム集合よりも前のフレーム集合である第1のフレーム集合と、不要なフレーム集合よりも後のフレーム集合である第2のフレーム集合を決定する決定手段と、第1、第2のフレーム集合を用いて、第1、第2のフレーム集合および不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第1、第2のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段とを備える。
【解決手段】 映像データおよび音声データを入力する入力手段と、処理対象となる映像データおよび音声データを抽出する抽出手段と、抽出された映像データ中の不要なフレーム集合を検出する検出手段と、不要なフレーム集合よりも前のフレーム集合である第1のフレーム集合と、不要なフレーム集合よりも後のフレーム集合である第2のフレーム集合を決定する決定手段と、第1、第2のフレーム集合を用いて、第1、第2のフレーム集合および不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第1、第2のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像を編集する映像処理装置に関する。
【背景技術】
【0002】
近年、コンピュータによって映像を編集するアプリケーション(映像編集アプリケーション)が普及している。このようなアプリケーションは、シーンの一部を削除するカット機能、シーンを繋ぐトランジション機能、シーンに映像効果を付与するエフェクト機能などを備えている。ユーザーは、それらの機能を用いて、映像中の不要なシーンを削除したり、複数のシーンを結合したり、映像効果やBGM(Back Ground Music)を追加したりすることで、新たな映像を作成できる。
【0003】
ところで、不要なシーンの削除や重要シーンの抽出作業は、ユーザーが判断しながら行うと手間がかかる。これに対して、装置が自動的に、映像中の不要区間を検出する技術が知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008‐160637号
【特許文献2】特開2009‐077265号
【特許文献3】特開2005‐167377号
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来、映像中の不要区間を単純に削除する場合には、その時間に対応する音声も一緒に削除してしまうため、連続的な音声の一部を切り取ってしまうことによる音飛びが発生していた。例えば、ピアノの演奏会や人がスピーチしているシーンなどで、このような音飛びが発生すると、ユーザーが大きな違和感を感じるであろう。
【0006】
本発明は、上記点に鑑みてなされたものであり、音声付の映像について、映像としての不要区間がある場合に、不要区間の映像と音声の両方を削除してしまうことによる音飛びを起こさずに、不要区間の映像を削除することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の請求項1に記載の映像処理装置によれば、映像データおよび音声データを編集する映像処理装置であって、映像データおよび音声データを入力する入力手段と、前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出手段と、前記抽出された映像データ中の不要なフレーム集合を検出する検出手段と、前記不要なフレーム集合よりも前のフレーム集合である第1のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第2のフレーム集合を決定する決定手段と、前記第1、第2のフレーム集合を用いて、前記第1、第2のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第1、第2のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段とを備える。
【発明の効果】
【0008】
本発明によれば、音声付の映像について、映像としての不要区間がある場合に、不要区間の映像と音声の両方を削除してしまうことによる音飛びを起こさずに、不要区間の映像を削除できる。
【図面の簡単な説明】
【0009】
【図1】映像処理装置の外観図
【図2】ボタン入力部を示す図
【図3】映像処理装置のハードウェア構成図
【図4】映像処理装置の機能ブロック図
【図5】編集動作の流れを視覚的に説明する図
【図6】映像処理装置の処理の流れを示すフローチャート
【図7】表示処理の流れを表すフローチャート
【図8】映像処理装置のUI画面の一例を示す図
【図9】映像自動編集処理の手順を示すフローチャート
【図10】映像自動補完処理の手順を示すフローチャート
【図11】補完フレーム集合を作成する様子を示す図
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について図面を参照して詳細に説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すものであり、これに限るものではない。
【0011】
(実施形態1)
図1は、本実施形態における映像処理装置(映像自動編集装置とも呼ぶ)の外観図である。映像処理装置100は、映像を表示するディスプレイ101、ユーザーによる操作入力が行われるボタン入力部102、映像処理装置100の電源をON/OFFするPowerボタン103、映像に付いている音声を出力するスピーカ104などで構成される。
【0012】
図2は、上述したボタン入力部102の詳細を示す図である。上ボタン102b、下ボタン102d、左ボタン102e、右ボタン102c、そして選択候補を決定する指示を行うOKボタン102aから構成される。
【0013】
図3は、映像処理装置100のハードウェア構成図である。装置100は、CPU200(Central Processing Unit)、RAM(Random Access Memory)201、ROM(Read Only Memory)202、バス208を含む。また、装置100は、オーディオI/F(インターフェース)203、ディスプレイI/F204、ストレージI/F205、ストレージ206、入力I/F207を含む。なお、装置100は、上述した各部以外を含んでいても良い。例えば、装置100は、タッチパネルI/FやメモリーカードI/Fなどを備え、それらを利用して映像の編集を行うこともできる。以下、映像処理装置100を構成する各部について、詳細に説明する。CPU200は、RAM201、ROM202、バス208を利用して映像処理装置100全体の動作制御を行うものである。ここでは図示しないが、オペレーティングシステム(以下OS)をはじめ、本実施形態における各処理プログラム、デバイスドライバ等はROM202に記憶されているものとする。また、RAMは、上記プログラムあるいはこのプログラムを用いた処理対象のデータ群(パラメータや中間データなども含む)を一時記憶する。そして、一時記憶されたプログラムやデータ群は必要に応じてCPU200によって読み出され、処理される。オーディオI/F203は、映像に付属している音声データをスピーカ104が処理可能な信号に変換する。ディスプレイI/F204は、映像処理装置100で作成されるUI表示画面やダイジェスト映像をディスプレイ101が表示できる画像信号に変換する。ストレージI/F205は、装置100またはストレージ206に適したデータ形式にするために、装置100が利用できる映像データ形式とストレージ206に記憶できるデータ形式との相互変換を行う。キー入力インターフェース207は、ボタン入力装置102、Powerボタン103からの入力信号を受信し、この信号を、装置100のCPU200などが認識可能な情報に変換する。ストレージ206は、ハードディスクドライブに代表される大容量情報記憶装置であって、ストレージ206には装置100で編集する対象となる素材(映像データ)が記録されている。なお、ストレージ206自体は、装置100に搭載されていても良いし、イーサネット(登録商標)やUSB、メモリーカードI/Fなどの各種インターフェースを介して外部装置として接続されていてもよい。さらには、ストレージ206は複数台が存在し、それぞれのストレージおよび装置100との間でデータを授受できるようにしても構わない。
【0014】
図4は、上述した装置100が備える各機能を示す図である。前述したものと実質的に同じものについては、同一の符号を付与し、詳細な説明は省略する。図4において、装置100は、主制御部320および、図3で示したデータ記憶部(ROM201、RAM202、ストレージ206)などを含む。また、装置100は、操作取得部300、映像データ取得部301、音声解析部302、重要シーン抽出部303、映像データ分離部304を備える。また装置100は、不要区間削除部305、映像自動補完部306、再生表示部307、不要区間検出部308、フレーム集合決定部309、補完フレーム生成部310を備える。これらの各機能は、基本的に、主制御部320による制御下で実行され、例えば図3で説明したような構成を用いたプログラムの実行に基づいたソフトウェア処理を用いて動作する。ただし、本発明はこれに限らず、例えば、図4に示した各機能を個々のハードウェア回路として準備し、これらを用いて各種の動作をさせても構わない。なお、本実施形態では、ストレージ206に記憶されている音声付き映像を表すデータ(映像データ)の扱いについて述べるものとし、例えば、複数のフレームで構成されるMPEG2やMPEG4やMotion−JPEGなどの符号化データに相当する。また、本実施形態では、この映像データの各々が、ピアノ発表会などのイベント毎に撮影されたものを例にして説明し、ストレージ206には、この映像データが多数記憶されている場合を例にあげて説明する。ここで、例えば、ピアノ発表会の映像データから一部の不要な映像を削除する場合を考える。このようなシーンでは、音と音の繋がり(流れ)が重要である。よって、上記不要な映像を削除した後の音声付き映像においては、音飛びの無いダイジェスト映像になっていることが好ましい。以下、図4に示した各機能について順に説明する。なお、特に詳述しないが、以下の各処理において利用、生成されるデータについて、後段の処理対象となるデータについては、基本的に、RAM202あるいはストレージ206の何れかに一時記憶されるものとする。まず、映像処理装置100の操作は、ボタン入力部102、Powerボタン103をユーザーが押下することによって行われる。言い換えれば、装置100の操作取得部300は、上記押下を検知し、その操作内容を示す情報を、主制御部320に出力する。主制御部320は上記操作内容に基づいて各機能を動作させる。ここで、右ボタン102cや左ボタン102eは、編集対象となる映像データを選択する操作ボタンとしての役割を担う。また、OKボタン102aは、編集対象となる映像データを決定したり、後述する自動編集の開始を指示する操作ボタンとしての役割を担う。映像データ取得部301は、編集対象となる映像データ(音声付きの映像を表すデータ)をストレージ206から読み出す。音声解析部302はこの映像データに付与された各音声の解析を行う。ここで得られた音声解析の結果は、上記RAM201に一旦保持される。例えば、ピアノ発表会の映像と音声からなる映像データであれば、音声解析される対象は主にはピアノの音である。重要シーン抽出部303は、上記読み出された映像データと上記音声解析の結果に応じて、重要シーンの区間を決定する。例えば、上記ピアノ発表会であれば、ピアノの音が連続的に発生している区間が重要シーンに相当する。映像データ分離部304は、RAM201に保持した重要シーンに相当する音声付きの映像データを、独立した映像データと音声データに分離する。ここで分離された映像データは、不要区間削除部305と不要区間検出部308に入力される。一方、分離された音声データは、再生表示部307に入力される。不要区間検出部308は、入力された映像データのフレームを画像解析することによって、手ブレや色飛びを起こしているフレーム、あるいはプライバシー情報を含んでいるフレームなどに相当する不要区間を検出し、この不要区間を表す不要区間情報を出力する。なお、ここで利用される動画解析の方法は公知の技術を用いるものとする。不要区間削除部305は、上記不要区間情報に基づいて、不要区間のフレームを削除する。この削除された後の映像データは、映像自動補完部306に入力される。フレーム集合決定部309は、上記不要区間情報に基づいて、不要区間よりも時間的に前のフレーム集合に相当する第1のフレーム集合と、不要区間よりも時間的に後のフレーム集合に相当する第2のフレーム集合を決定する。補完フレーム生成部310は、上記不要区間情報を参照し、かつ第1、第2のフレーム集合を用いて、不要区間のフレームの数と同じ数のフレームからなる補完フレーム集合を生成する。映像自動補完部306は、第1のフレーム集合、第2のフレーム集合、上記生成された補完フレーム集合を素材として、それらを所定の順番で配列することにより、新たなフレーム集合を形成する。これにより、前記不要区間のフレームが前後の映像で補完され、不要区間に存在した元の映像を、再生時に大きな違和感が起こらないように削除することができる。再生表示部307は、映像自動補完部306で補完した映像データと上記映像データ分離部で分離されていた音声データを、時間軸に合わせて再び結合する。そして、結合された音声付きの映像(ダイジェスト映像)を表す映像データに基づいて、ディスプレイ101から映像が表示され、スピーカ104から音声が出力される。上述した映像としての不要区間を削除する編集方法について、以下で、図を用いて詳細説明する。
【0015】
図5は、本実施形態で行われる映像としての不要区間に対する編集方法を視覚的に示したものである。
まず、図5(a)に示すように、映像データ500は、編集対象となる音声付きの映像を表す映像データ全体を表す。この映像データ500は、複数のフレームからなる映像データ501と音声データ502の2種類から構成されている。本実施形態では、音声解析部302は、重要な音声(例えば、ピアノ発表会の映像を編集する場合には、ピアノの音)が含まれている区間を解析する。
【0016】
次に、図5(b)に示すように、重要シーン抽出部303は、重要な音声が含まれる音声区間502a,502bに相当するシーンのみを抽出する。ここでの抽出とは、重要な音声区間に相当する映像と音声のセットのみを抽出するものである。さらに、映像データ分離部304は、上記抽出された重要シーンのそれぞれについて、映像データと音声データとに分離する。さらに、不要区間検出部308は、映像データ中のフレームを画像解析することにより、映像としての不要区間の検出を行う。さらに、不要区間削除部305は、不要区間に相当するフレーム503の削除を行う。
【0017】
次に、図5(c)に示すように、フレーム集合決定部309は、不要区間に相当するフレーム503よりも時間的に前のフレーム集合504a(第1のフレーム集合)と、フレーム503よりも時間的に後のフレーム集合504b(第2のフレーム集合)とを決定する。さらに、補完フレーム生成部310は、フレーム集合504aから前半の補完フレーム集合505aを生成し、フレーム集合504bから後半の補完フレーム集合505bを生成する。
【0018】
次に、図5(d)に示すように、補完フレーム生成部310は、上述した前半の補完フレーム集合505a、後半の補完フレーム505bと、フレーム集合504a、504bの4つの断片を用いて、補完フレーム集合506を生成する。なお、この補完フレーム集合506の具体的な生成方法の一例は、図11などを用いて後述するが、方法としては何種類か考えられる。何れにしろ、映像データからフレーム集合503を削除した代わりに、その不要区間の前後のフレーム集合から、不要区間の前半に相当する補完フレーム集合505aと後半に相当する補完フレーム集合505bを生成する点は共通である。後述する各種類においては、これら補完フレーム集合505a、505bと、第1フレーム集合504aや第2フレーム集合504bとを用いて、如何に連結あるいは混在させるかという点で異なっている。上記連結や混在によって得られる補完フレーム506の内部構造は、その連結あるいは混在の方法によって異なる。なお、以上の編集処理を行う場合には、当初から重要であると判断したシーンにおける音声データの削除が行われていない点に注目されたい。
【0019】
図6は、上述した映像処理装置100の処理の流れを示すフローチャートである。ここでは、映像処理装置100においてPowerボタン103が押下され、映像処理装置100の電源がONになっている場合に、以下の動作が実行される。まず、ステップS10では、主制御部320などの制御によって、ディスプレイ101上に後述する初期画面の表示を行う。
【0020】
図7は、ステップS10の表示処理の流れを表すフローチャートである。まず、ステップS20では、ストレージ206に記憶されている映像データの情報を取得する。ステップS21では、取得した情報から映像データ毎に代表画像を抽出し、これを素材にして、ユーザーインターフェイス画面(UI画面)を作成する。代表画像とは、例えば映像データの最初のフレームなどが相当する。ステップS22では、作成されたUI画面が、再生表示部307によってディスプレイ101に表示される。
【0021】
図8は、上述したUI画面の一例である。UI画面400は、ストレージ206に多数保存されている映像データのそれぞれについて、代表画像を表示するための3つのプレビュー領域401、402a、402bを備えている。ここでは、多数保存されている映像データが、それらが撮影された日時でソートされて管理され、プレビュー画面ではそのソート順に表示されるものとする。領域401には、現在注目している映像データの代表画像が表示される。そして領域402aには、注目している映像データより時間的に1つ前の映像データを表す代表画像が表示される。また、そして領域402bには、注目している映像データより時間的に1つ後の映像データを表す代表画像が表示される。もし、このまま上述した編集作業を始めた場合には、領域401に表示された代表画像に相当する映像データを、編集対象として処理が進む。なお、このUI画面400の下部には、領域401、402a、402bに表示されるべき映像データの撮影時間などを高速に指定できるインディケータ404が配置されている。従って、このインディケータ404上の位置ヘッド403を移動させることにより、昔に撮影した映像データあるいは最近撮影した映像データなどを高速に見つけることができる。
【0022】
図6のステップS10が終了すると、ステップS11に進む。ステップS11では、ボタン入力部102における右ボタン102c、左ボタン102eが押下されたかどうか判断する。もし、これらのボタンを押下していない場合には、ボタンの押下を検知するまで、このステップS11の処理を繰り返す。一方、上記左右ボタンが押下された場合には、ステップS12に進む。ステップS12では、上述したプレビュー領域401、402a、402bに表示される代表画像を、左右のボタンの押下状態に応じて、左右にスクロールさせる。これによって、編集対象となる映像データが切り替わる。また、このスクロールにあわせて上記位置ヘッド403の位置も左右に変化する。ステップS13では、OKボタン102aが押下されたかどうかを検知する。もしOKボタン102aが押下された場合には、そのときに領域401に表示されている代表画像に相当する映像データを、編集対象のデータとして決定し、後段の映像自動編集処理を実行する。この映像自動編集処理については後述する。
【0023】
図9は、図6のステップS14に相当する映像自動編集処理の手順を示すフローチャートである。まず、ステップS30では、映像データ取得部301は、UI画面400(領域401)で選択された映像データをストレージ206から読み出す。読み出された映像データは、主に音声付きの映像データであり、RAM201に保持される。ステップS31では、音声解析部302によって、上記読み出された映像に付与されている音声の解析が行われる。例えば、ピアノ発表会のようなイベントに相当する映像データを編集中の場合には、ピアノの音が含まれている部分を重要シーンに特定する音声解析を行う。この重要シーンに相当する音色は予め何種類か登録しておけば良いであろう。ステップS32では、重要シーン抽出部303によって、上記音声解析結果に基づいて重要シーンに相当する映像データ(音声付きの映像)を抽出する。ステップS33では、重要シーンが存在するか否かが判定される。更に、重要シーンが幾つ存在するかも記憶する。もし、重要シーンが1つも無い場合には、この映像自動編集処理を終了する。ここでは、処理対象の映像データが、音声付きの映像データでなかった場合にも、重要シーンが1つも無かったと判断されることになる。その一方で、もし重要シーンが存在する場合には、ステップS34に進む。例えば、上述した図5の場合には、2つの重要シーン502a、502bが存在していることになる。以下に説明するステップS34からステップS38までは、1つの重要シーンごとに処理するものとして説明する。よって、例えば2つの重要シーンがあれば、ステップS34からステップS38までの工程が2回繰り返される。ステップS34では、重要シーンとして抽出された映像データに付与されている音声データを分離し、映像データと音声データを独立したデータとして保持させる。ステップS35では、分離された後の映像データについて、手ブレ、色飛びなどが存在するかどうか、すなわち、不要区間に相当する映像が存在するかどうかをチェックする。なお、本実施形態においては、不要区間は手ブレや色飛びしている区間としたが、本発明はこれに限らない。例えば、撮影中に一瞬カメラの前を人が横切ったシーンなど、ユーザーが好まないシーンを予め設定しておけば良い。その他、電話番号や車のナンバープレート等のプライバシー情報を含む映像が存在する区間を不要区間としても良い。もし、映像データ中に不要区間が含まれない場合には、ステップS38に進む。映像データに不要区間が含まれる場合には、ステップS36に進む。ステップS36では、不要区間に相当する映像データを削除する。さらに、ステップS37では、後述する映像自動補完処理が実行される。ステップS38では、重要シーンに相当する映像データを再生表示部307を介してディスプレイ101に表示させる。ここでは、再生表示部307によって、映像データと先に分離していた音声データとを再び結合すると共に、それぞれのデータ(符号化データ)を復号することによりディスプレイ101とスピーカ104に出力する。この結果、映像としての不要区間が除かれ、かつ重要シーンの音声が全て含まれたダイジェスト映像が再生されることになる。
【0024】
図10は、ステップS37に相当する映像自動補完処理の手順を示すフローチャートである。まず、ステップS50では、上記ステップS35で取得した不要区間情報を取得する。ステップS51では、取得した不要区間情報に基づいて、映像としての不要区間のフレームの総数がN個、不要区間の先頭フレームf1、不要区間の末尾フレームf2を取得する。さらに、先頭フレームf1から時間的に前方へN/2フレーム進んだ位置のフレームf3、末尾フレームf2から時間的に後方へN/2フレーム進んだ位置のフレームf4をそれぞれ算出する。ステップS52では、フレームf3から、フレームf1の1つ前のフレームまでに相当するフレーム集合(すなわち、不要区間の先頭フレームf1を除く)を第1のフレーム集合F1と決定する。また、フレームf2の1つ後ろのフレームから、フレームf4までに相当するフレーム集合(すなわち、不要区間の末尾フレームf2を除く)を第2のフレーム集合F2と決定する。ステップS53では、第1のフレーム集合F1を複製してN/2個の補完フレーム集合Fc1を生成し、また第2のフレーム集合F2を複製してN/2個の補完フレーム集合Fc2を生成する。ステップS54では、補完フレーム集合Fc1、補完フレーム集合Fc2およびフレーム集合F1、ならびにフレーム集合F1、F2を所定の順序に配列/混在させた、2N個のフレームからなる補完フレーム集合を生成する。
【0025】
図11は、上述した補完フレーム集合(フレーム集合506)を作成する様子を示す図である。なお、この補完フレーム集合506は、映像としての不要区間であるフレームの総数Nの2倍のフレーム数で構成されるものである。ここでは、第1、第2のフレーム集合を用いて、第1、第2のフレーム集合および不要区間であるフレームの集合に代わる、2N個のフレーム(補完フレーム集合)を生成する。そして、この第1、第2のフレーム集合以外のフレーム(第1のフレーム集合の前に在るフレーム群と第2のフレーム集合の後ろにあるフレーム群)と上記補完フレーム集合からなる映像データを、補完後の映像データとして出力するものである。
【0026】
同図では、上述した第1のフレーム集合F1の各フレームを先頭からF1(1)、F1(2)、F1(3)、・・・F1(N/2)とし、補完フレーム集合Fc1の各フレームを先頭からFc1(1)、Fc1(2)、Fc1(3)、・・・Fc1(N/2)とする。また、第2のフレーム集合F2の各フレームを先頭からF2(1)、F2(2)、F2(3)、・・・F2(N/2)とし、補完フレーム集合Fc2の各フレームを先頭からFc2(1)、Fc2(2)、Fc2(3)、・・・Fc2(N/2)とする。このとき、フレーム集合F1、F2、ならびに補完フレーム集合Fc1、Fc2のフレームを、f3の位置からF1(1)、Fc1(1)、F1(2)、Fc1(2)、F1(3)、Fc1(3)、・・・、F1(N/2)、Fc1(N/2)と交互に並べる。これに続けて、さらにf4の位置までF2(1)、Fc2(1)、F2(2)、Fc2(2)、F2(3)、Fc2(3)、・・・、F2(N/2)、Fc2(N/2)と交互にフレームを並べる。その結果、映像としての不要区間のフレームを補完できることになる。なお、上記補完を行うことによれば、これらフレーム集合(f3からf4間の映像)は1/2スロー再生で表示されているように見えるであろう。
【0027】
なお、上記説明では、補完フレーム集合Fc1、Fc2とフレーム集合F1、F2を交互に並べることにより不要区間のフレームを補完したが、補完フレーム集合Fc1、Fc2を用いて他の方法で、映像としての不要区間を補完しても良い。例えば、図11(c)に示すように、フレーム集合を順番に並べるように補完しても良い。その一例としては、フレーム集合F1、F2のフレームは並び替えず、補完フレーム集合Fc1、Fc2のフレームを、f1の位置からFc1(N/2)、・・・、Fc1(3)、Fc1(2)、Fc1(1)と逆順にフレームを並べる。さらにf2の位置までFc2(N/2)、・・・、Fc2(3)、Fc2(2)、Fc2(1)と逆順にフレームを並べる。この場合には、フレーム集合F1、F2と補完フレーム集合Fc1、Fc2の境界で再生中の映像が逆回し再生されて見えるであろう。
【0028】
以上の処理により、ステップS37の映像自動補完処理が完了する。ステップS38では、ダイジェスト再生処理が行われる。このダイジェスト再生処理では、再生表示部307によって、映像としての不要区間が、上述のように補完された映像データおよび音声データを結合する。そして、結合されたデータをデコードし、ディスプレイ101とスピーカ104に出力することにより、ダイジェスト再生を行う。映像処理装置100は、重要シーン抽出部303で抽出された重要シーンの数だけステップS33〜S38を繰り返す。ステップS33において、全ての重要シーンに対する処理が終了したと判断した場合は、上述した一連の映像自動編集処理を終了する。
【0029】
以上によれば、ダイジェスト再生しようとする映像に不要区間が含まれていた場合であって、その不要区間をカットした場合にも、重要シーンの音声が途切れてしまうようなことが無い。よって、視聴者は編集後のダイジェスト映像を違和感なく視聴できる。
【0030】
[変形例]
なお、上述したステップS54は以下のように変形しても構わない。例えば、例えば、図11の(b)に示すようにフレーム集合F1、Fc1、F2、Fc2の各フレームを並べることを考える。この場合、不要区間の中央では映像の内容が途切れるであろう。よって、この途切れを見えにくくするためにフェードイン、フェードアウトの効果を追加することが有効である。具体的には、図11の(b)のように各フレームを並べている場合において、フレームF1(1)からフレームFc1(N/2)への順次再生の際に、各フレームの輝度を徐々に低下させるようにして、Fc1(N/2)の再生時には輝度を0にする。その一方で、フレームF2(1)からフレームFc2(N/2)への順次再生の際に、フレームF2(1)の再生時には輝度を0とし、各フレームの輝度を徐々に上昇させるようにして、フレームFc2(N/2)の再生時には元の輝度で再生させる。なお、ここでは、再生されるフレームの輝度を調整することによりフェードイン、フェードアウト効果を実現したが、各フレームの色調を調整するような処理を利用しても良い。
【0031】
なお、上述した各実施形態は、以下の処理を実行することによっても実現される。即ち、上記実施形態の各工程や機能を実現するソフトウェア(コンピュータプログラム)を、ネットワークや記憶媒体を介してシステムに供給し、そのシステムのコンピュータ(またはCPU等)が上記プログラムを読み込んで実行する処理である。上記コンピュータプログラムや、それを記憶したコンピュータ可読記憶媒体も本発明の範疇に含まれる。
【技術分野】
【0001】
本発明は、映像を編集する映像処理装置に関する。
【背景技術】
【0002】
近年、コンピュータによって映像を編集するアプリケーション(映像編集アプリケーション)が普及している。このようなアプリケーションは、シーンの一部を削除するカット機能、シーンを繋ぐトランジション機能、シーンに映像効果を付与するエフェクト機能などを備えている。ユーザーは、それらの機能を用いて、映像中の不要なシーンを削除したり、複数のシーンを結合したり、映像効果やBGM(Back Ground Music)を追加したりすることで、新たな映像を作成できる。
【0003】
ところで、不要なシーンの削除や重要シーンの抽出作業は、ユーザーが判断しながら行うと手間がかかる。これに対して、装置が自動的に、映像中の不要区間を検出する技術が知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008‐160637号
【特許文献2】特開2009‐077265号
【特許文献3】特開2005‐167377号
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来、映像中の不要区間を単純に削除する場合には、その時間に対応する音声も一緒に削除してしまうため、連続的な音声の一部を切り取ってしまうことによる音飛びが発生していた。例えば、ピアノの演奏会や人がスピーチしているシーンなどで、このような音飛びが発生すると、ユーザーが大きな違和感を感じるであろう。
【0006】
本発明は、上記点に鑑みてなされたものであり、音声付の映像について、映像としての不要区間がある場合に、不要区間の映像と音声の両方を削除してしまうことによる音飛びを起こさずに、不要区間の映像を削除することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の請求項1に記載の映像処理装置によれば、映像データおよび音声データを編集する映像処理装置であって、映像データおよび音声データを入力する入力手段と、前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出手段と、前記抽出された映像データ中の不要なフレーム集合を検出する検出手段と、前記不要なフレーム集合よりも前のフレーム集合である第1のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第2のフレーム集合を決定する決定手段と、前記第1、第2のフレーム集合を用いて、前記第1、第2のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第1、第2のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段とを備える。
【発明の効果】
【0008】
本発明によれば、音声付の映像について、映像としての不要区間がある場合に、不要区間の映像と音声の両方を削除してしまうことによる音飛びを起こさずに、不要区間の映像を削除できる。
【図面の簡単な説明】
【0009】
【図1】映像処理装置の外観図
【図2】ボタン入力部を示す図
【図3】映像処理装置のハードウェア構成図
【図4】映像処理装置の機能ブロック図
【図5】編集動作の流れを視覚的に説明する図
【図6】映像処理装置の処理の流れを示すフローチャート
【図7】表示処理の流れを表すフローチャート
【図8】映像処理装置のUI画面の一例を示す図
【図9】映像自動編集処理の手順を示すフローチャート
【図10】映像自動補完処理の手順を示すフローチャート
【図11】補完フレーム集合を作成する様子を示す図
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について図面を参照して詳細に説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すものであり、これに限るものではない。
【0011】
(実施形態1)
図1は、本実施形態における映像処理装置(映像自動編集装置とも呼ぶ)の外観図である。映像処理装置100は、映像を表示するディスプレイ101、ユーザーによる操作入力が行われるボタン入力部102、映像処理装置100の電源をON/OFFするPowerボタン103、映像に付いている音声を出力するスピーカ104などで構成される。
【0012】
図2は、上述したボタン入力部102の詳細を示す図である。上ボタン102b、下ボタン102d、左ボタン102e、右ボタン102c、そして選択候補を決定する指示を行うOKボタン102aから構成される。
【0013】
図3は、映像処理装置100のハードウェア構成図である。装置100は、CPU200(Central Processing Unit)、RAM(Random Access Memory)201、ROM(Read Only Memory)202、バス208を含む。また、装置100は、オーディオI/F(インターフェース)203、ディスプレイI/F204、ストレージI/F205、ストレージ206、入力I/F207を含む。なお、装置100は、上述した各部以外を含んでいても良い。例えば、装置100は、タッチパネルI/FやメモリーカードI/Fなどを備え、それらを利用して映像の編集を行うこともできる。以下、映像処理装置100を構成する各部について、詳細に説明する。CPU200は、RAM201、ROM202、バス208を利用して映像処理装置100全体の動作制御を行うものである。ここでは図示しないが、オペレーティングシステム(以下OS)をはじめ、本実施形態における各処理プログラム、デバイスドライバ等はROM202に記憶されているものとする。また、RAMは、上記プログラムあるいはこのプログラムを用いた処理対象のデータ群(パラメータや中間データなども含む)を一時記憶する。そして、一時記憶されたプログラムやデータ群は必要に応じてCPU200によって読み出され、処理される。オーディオI/F203は、映像に付属している音声データをスピーカ104が処理可能な信号に変換する。ディスプレイI/F204は、映像処理装置100で作成されるUI表示画面やダイジェスト映像をディスプレイ101が表示できる画像信号に変換する。ストレージI/F205は、装置100またはストレージ206に適したデータ形式にするために、装置100が利用できる映像データ形式とストレージ206に記憶できるデータ形式との相互変換を行う。キー入力インターフェース207は、ボタン入力装置102、Powerボタン103からの入力信号を受信し、この信号を、装置100のCPU200などが認識可能な情報に変換する。ストレージ206は、ハードディスクドライブに代表される大容量情報記憶装置であって、ストレージ206には装置100で編集する対象となる素材(映像データ)が記録されている。なお、ストレージ206自体は、装置100に搭載されていても良いし、イーサネット(登録商標)やUSB、メモリーカードI/Fなどの各種インターフェースを介して外部装置として接続されていてもよい。さらには、ストレージ206は複数台が存在し、それぞれのストレージおよび装置100との間でデータを授受できるようにしても構わない。
【0014】
図4は、上述した装置100が備える各機能を示す図である。前述したものと実質的に同じものについては、同一の符号を付与し、詳細な説明は省略する。図4において、装置100は、主制御部320および、図3で示したデータ記憶部(ROM201、RAM202、ストレージ206)などを含む。また、装置100は、操作取得部300、映像データ取得部301、音声解析部302、重要シーン抽出部303、映像データ分離部304を備える。また装置100は、不要区間削除部305、映像自動補完部306、再生表示部307、不要区間検出部308、フレーム集合決定部309、補完フレーム生成部310を備える。これらの各機能は、基本的に、主制御部320による制御下で実行され、例えば図3で説明したような構成を用いたプログラムの実行に基づいたソフトウェア処理を用いて動作する。ただし、本発明はこれに限らず、例えば、図4に示した各機能を個々のハードウェア回路として準備し、これらを用いて各種の動作をさせても構わない。なお、本実施形態では、ストレージ206に記憶されている音声付き映像を表すデータ(映像データ)の扱いについて述べるものとし、例えば、複数のフレームで構成されるMPEG2やMPEG4やMotion−JPEGなどの符号化データに相当する。また、本実施形態では、この映像データの各々が、ピアノ発表会などのイベント毎に撮影されたものを例にして説明し、ストレージ206には、この映像データが多数記憶されている場合を例にあげて説明する。ここで、例えば、ピアノ発表会の映像データから一部の不要な映像を削除する場合を考える。このようなシーンでは、音と音の繋がり(流れ)が重要である。よって、上記不要な映像を削除した後の音声付き映像においては、音飛びの無いダイジェスト映像になっていることが好ましい。以下、図4に示した各機能について順に説明する。なお、特に詳述しないが、以下の各処理において利用、生成されるデータについて、後段の処理対象となるデータについては、基本的に、RAM202あるいはストレージ206の何れかに一時記憶されるものとする。まず、映像処理装置100の操作は、ボタン入力部102、Powerボタン103をユーザーが押下することによって行われる。言い換えれば、装置100の操作取得部300は、上記押下を検知し、その操作内容を示す情報を、主制御部320に出力する。主制御部320は上記操作内容に基づいて各機能を動作させる。ここで、右ボタン102cや左ボタン102eは、編集対象となる映像データを選択する操作ボタンとしての役割を担う。また、OKボタン102aは、編集対象となる映像データを決定したり、後述する自動編集の開始を指示する操作ボタンとしての役割を担う。映像データ取得部301は、編集対象となる映像データ(音声付きの映像を表すデータ)をストレージ206から読み出す。音声解析部302はこの映像データに付与された各音声の解析を行う。ここで得られた音声解析の結果は、上記RAM201に一旦保持される。例えば、ピアノ発表会の映像と音声からなる映像データであれば、音声解析される対象は主にはピアノの音である。重要シーン抽出部303は、上記読み出された映像データと上記音声解析の結果に応じて、重要シーンの区間を決定する。例えば、上記ピアノ発表会であれば、ピアノの音が連続的に発生している区間が重要シーンに相当する。映像データ分離部304は、RAM201に保持した重要シーンに相当する音声付きの映像データを、独立した映像データと音声データに分離する。ここで分離された映像データは、不要区間削除部305と不要区間検出部308に入力される。一方、分離された音声データは、再生表示部307に入力される。不要区間検出部308は、入力された映像データのフレームを画像解析することによって、手ブレや色飛びを起こしているフレーム、あるいはプライバシー情報を含んでいるフレームなどに相当する不要区間を検出し、この不要区間を表す不要区間情報を出力する。なお、ここで利用される動画解析の方法は公知の技術を用いるものとする。不要区間削除部305は、上記不要区間情報に基づいて、不要区間のフレームを削除する。この削除された後の映像データは、映像自動補完部306に入力される。フレーム集合決定部309は、上記不要区間情報に基づいて、不要区間よりも時間的に前のフレーム集合に相当する第1のフレーム集合と、不要区間よりも時間的に後のフレーム集合に相当する第2のフレーム集合を決定する。補完フレーム生成部310は、上記不要区間情報を参照し、かつ第1、第2のフレーム集合を用いて、不要区間のフレームの数と同じ数のフレームからなる補完フレーム集合を生成する。映像自動補完部306は、第1のフレーム集合、第2のフレーム集合、上記生成された補完フレーム集合を素材として、それらを所定の順番で配列することにより、新たなフレーム集合を形成する。これにより、前記不要区間のフレームが前後の映像で補完され、不要区間に存在した元の映像を、再生時に大きな違和感が起こらないように削除することができる。再生表示部307は、映像自動補完部306で補完した映像データと上記映像データ分離部で分離されていた音声データを、時間軸に合わせて再び結合する。そして、結合された音声付きの映像(ダイジェスト映像)を表す映像データに基づいて、ディスプレイ101から映像が表示され、スピーカ104から音声が出力される。上述した映像としての不要区間を削除する編集方法について、以下で、図を用いて詳細説明する。
【0015】
図5は、本実施形態で行われる映像としての不要区間に対する編集方法を視覚的に示したものである。
まず、図5(a)に示すように、映像データ500は、編集対象となる音声付きの映像を表す映像データ全体を表す。この映像データ500は、複数のフレームからなる映像データ501と音声データ502の2種類から構成されている。本実施形態では、音声解析部302は、重要な音声(例えば、ピアノ発表会の映像を編集する場合には、ピアノの音)が含まれている区間を解析する。
【0016】
次に、図5(b)に示すように、重要シーン抽出部303は、重要な音声が含まれる音声区間502a,502bに相当するシーンのみを抽出する。ここでの抽出とは、重要な音声区間に相当する映像と音声のセットのみを抽出するものである。さらに、映像データ分離部304は、上記抽出された重要シーンのそれぞれについて、映像データと音声データとに分離する。さらに、不要区間検出部308は、映像データ中のフレームを画像解析することにより、映像としての不要区間の検出を行う。さらに、不要区間削除部305は、不要区間に相当するフレーム503の削除を行う。
【0017】
次に、図5(c)に示すように、フレーム集合決定部309は、不要区間に相当するフレーム503よりも時間的に前のフレーム集合504a(第1のフレーム集合)と、フレーム503よりも時間的に後のフレーム集合504b(第2のフレーム集合)とを決定する。さらに、補完フレーム生成部310は、フレーム集合504aから前半の補完フレーム集合505aを生成し、フレーム集合504bから後半の補完フレーム集合505bを生成する。
【0018】
次に、図5(d)に示すように、補完フレーム生成部310は、上述した前半の補完フレーム集合505a、後半の補完フレーム505bと、フレーム集合504a、504bの4つの断片を用いて、補完フレーム集合506を生成する。なお、この補完フレーム集合506の具体的な生成方法の一例は、図11などを用いて後述するが、方法としては何種類か考えられる。何れにしろ、映像データからフレーム集合503を削除した代わりに、その不要区間の前後のフレーム集合から、不要区間の前半に相当する補完フレーム集合505aと後半に相当する補完フレーム集合505bを生成する点は共通である。後述する各種類においては、これら補完フレーム集合505a、505bと、第1フレーム集合504aや第2フレーム集合504bとを用いて、如何に連結あるいは混在させるかという点で異なっている。上記連結や混在によって得られる補完フレーム506の内部構造は、その連結あるいは混在の方法によって異なる。なお、以上の編集処理を行う場合には、当初から重要であると判断したシーンにおける音声データの削除が行われていない点に注目されたい。
【0019】
図6は、上述した映像処理装置100の処理の流れを示すフローチャートである。ここでは、映像処理装置100においてPowerボタン103が押下され、映像処理装置100の電源がONになっている場合に、以下の動作が実行される。まず、ステップS10では、主制御部320などの制御によって、ディスプレイ101上に後述する初期画面の表示を行う。
【0020】
図7は、ステップS10の表示処理の流れを表すフローチャートである。まず、ステップS20では、ストレージ206に記憶されている映像データの情報を取得する。ステップS21では、取得した情報から映像データ毎に代表画像を抽出し、これを素材にして、ユーザーインターフェイス画面(UI画面)を作成する。代表画像とは、例えば映像データの最初のフレームなどが相当する。ステップS22では、作成されたUI画面が、再生表示部307によってディスプレイ101に表示される。
【0021】
図8は、上述したUI画面の一例である。UI画面400は、ストレージ206に多数保存されている映像データのそれぞれについて、代表画像を表示するための3つのプレビュー領域401、402a、402bを備えている。ここでは、多数保存されている映像データが、それらが撮影された日時でソートされて管理され、プレビュー画面ではそのソート順に表示されるものとする。領域401には、現在注目している映像データの代表画像が表示される。そして領域402aには、注目している映像データより時間的に1つ前の映像データを表す代表画像が表示される。また、そして領域402bには、注目している映像データより時間的に1つ後の映像データを表す代表画像が表示される。もし、このまま上述した編集作業を始めた場合には、領域401に表示された代表画像に相当する映像データを、編集対象として処理が進む。なお、このUI画面400の下部には、領域401、402a、402bに表示されるべき映像データの撮影時間などを高速に指定できるインディケータ404が配置されている。従って、このインディケータ404上の位置ヘッド403を移動させることにより、昔に撮影した映像データあるいは最近撮影した映像データなどを高速に見つけることができる。
【0022】
図6のステップS10が終了すると、ステップS11に進む。ステップS11では、ボタン入力部102における右ボタン102c、左ボタン102eが押下されたかどうか判断する。もし、これらのボタンを押下していない場合には、ボタンの押下を検知するまで、このステップS11の処理を繰り返す。一方、上記左右ボタンが押下された場合には、ステップS12に進む。ステップS12では、上述したプレビュー領域401、402a、402bに表示される代表画像を、左右のボタンの押下状態に応じて、左右にスクロールさせる。これによって、編集対象となる映像データが切り替わる。また、このスクロールにあわせて上記位置ヘッド403の位置も左右に変化する。ステップS13では、OKボタン102aが押下されたかどうかを検知する。もしOKボタン102aが押下された場合には、そのときに領域401に表示されている代表画像に相当する映像データを、編集対象のデータとして決定し、後段の映像自動編集処理を実行する。この映像自動編集処理については後述する。
【0023】
図9は、図6のステップS14に相当する映像自動編集処理の手順を示すフローチャートである。まず、ステップS30では、映像データ取得部301は、UI画面400(領域401)で選択された映像データをストレージ206から読み出す。読み出された映像データは、主に音声付きの映像データであり、RAM201に保持される。ステップS31では、音声解析部302によって、上記読み出された映像に付与されている音声の解析が行われる。例えば、ピアノ発表会のようなイベントに相当する映像データを編集中の場合には、ピアノの音が含まれている部分を重要シーンに特定する音声解析を行う。この重要シーンに相当する音色は予め何種類か登録しておけば良いであろう。ステップS32では、重要シーン抽出部303によって、上記音声解析結果に基づいて重要シーンに相当する映像データ(音声付きの映像)を抽出する。ステップS33では、重要シーンが存在するか否かが判定される。更に、重要シーンが幾つ存在するかも記憶する。もし、重要シーンが1つも無い場合には、この映像自動編集処理を終了する。ここでは、処理対象の映像データが、音声付きの映像データでなかった場合にも、重要シーンが1つも無かったと判断されることになる。その一方で、もし重要シーンが存在する場合には、ステップS34に進む。例えば、上述した図5の場合には、2つの重要シーン502a、502bが存在していることになる。以下に説明するステップS34からステップS38までは、1つの重要シーンごとに処理するものとして説明する。よって、例えば2つの重要シーンがあれば、ステップS34からステップS38までの工程が2回繰り返される。ステップS34では、重要シーンとして抽出された映像データに付与されている音声データを分離し、映像データと音声データを独立したデータとして保持させる。ステップS35では、分離された後の映像データについて、手ブレ、色飛びなどが存在するかどうか、すなわち、不要区間に相当する映像が存在するかどうかをチェックする。なお、本実施形態においては、不要区間は手ブレや色飛びしている区間としたが、本発明はこれに限らない。例えば、撮影中に一瞬カメラの前を人が横切ったシーンなど、ユーザーが好まないシーンを予め設定しておけば良い。その他、電話番号や車のナンバープレート等のプライバシー情報を含む映像が存在する区間を不要区間としても良い。もし、映像データ中に不要区間が含まれない場合には、ステップS38に進む。映像データに不要区間が含まれる場合には、ステップS36に進む。ステップS36では、不要区間に相当する映像データを削除する。さらに、ステップS37では、後述する映像自動補完処理が実行される。ステップS38では、重要シーンに相当する映像データを再生表示部307を介してディスプレイ101に表示させる。ここでは、再生表示部307によって、映像データと先に分離していた音声データとを再び結合すると共に、それぞれのデータ(符号化データ)を復号することによりディスプレイ101とスピーカ104に出力する。この結果、映像としての不要区間が除かれ、かつ重要シーンの音声が全て含まれたダイジェスト映像が再生されることになる。
【0024】
図10は、ステップS37に相当する映像自動補完処理の手順を示すフローチャートである。まず、ステップS50では、上記ステップS35で取得した不要区間情報を取得する。ステップS51では、取得した不要区間情報に基づいて、映像としての不要区間のフレームの総数がN個、不要区間の先頭フレームf1、不要区間の末尾フレームf2を取得する。さらに、先頭フレームf1から時間的に前方へN/2フレーム進んだ位置のフレームf3、末尾フレームf2から時間的に後方へN/2フレーム進んだ位置のフレームf4をそれぞれ算出する。ステップS52では、フレームf3から、フレームf1の1つ前のフレームまでに相当するフレーム集合(すなわち、不要区間の先頭フレームf1を除く)を第1のフレーム集合F1と決定する。また、フレームf2の1つ後ろのフレームから、フレームf4までに相当するフレーム集合(すなわち、不要区間の末尾フレームf2を除く)を第2のフレーム集合F2と決定する。ステップS53では、第1のフレーム集合F1を複製してN/2個の補完フレーム集合Fc1を生成し、また第2のフレーム集合F2を複製してN/2個の補完フレーム集合Fc2を生成する。ステップS54では、補完フレーム集合Fc1、補完フレーム集合Fc2およびフレーム集合F1、ならびにフレーム集合F1、F2を所定の順序に配列/混在させた、2N個のフレームからなる補完フレーム集合を生成する。
【0025】
図11は、上述した補完フレーム集合(フレーム集合506)を作成する様子を示す図である。なお、この補完フレーム集合506は、映像としての不要区間であるフレームの総数Nの2倍のフレーム数で構成されるものである。ここでは、第1、第2のフレーム集合を用いて、第1、第2のフレーム集合および不要区間であるフレームの集合に代わる、2N個のフレーム(補完フレーム集合)を生成する。そして、この第1、第2のフレーム集合以外のフレーム(第1のフレーム集合の前に在るフレーム群と第2のフレーム集合の後ろにあるフレーム群)と上記補完フレーム集合からなる映像データを、補完後の映像データとして出力するものである。
【0026】
同図では、上述した第1のフレーム集合F1の各フレームを先頭からF1(1)、F1(2)、F1(3)、・・・F1(N/2)とし、補完フレーム集合Fc1の各フレームを先頭からFc1(1)、Fc1(2)、Fc1(3)、・・・Fc1(N/2)とする。また、第2のフレーム集合F2の各フレームを先頭からF2(1)、F2(2)、F2(3)、・・・F2(N/2)とし、補完フレーム集合Fc2の各フレームを先頭からFc2(1)、Fc2(2)、Fc2(3)、・・・Fc2(N/2)とする。このとき、フレーム集合F1、F2、ならびに補完フレーム集合Fc1、Fc2のフレームを、f3の位置からF1(1)、Fc1(1)、F1(2)、Fc1(2)、F1(3)、Fc1(3)、・・・、F1(N/2)、Fc1(N/2)と交互に並べる。これに続けて、さらにf4の位置までF2(1)、Fc2(1)、F2(2)、Fc2(2)、F2(3)、Fc2(3)、・・・、F2(N/2)、Fc2(N/2)と交互にフレームを並べる。その結果、映像としての不要区間のフレームを補完できることになる。なお、上記補完を行うことによれば、これらフレーム集合(f3からf4間の映像)は1/2スロー再生で表示されているように見えるであろう。
【0027】
なお、上記説明では、補完フレーム集合Fc1、Fc2とフレーム集合F1、F2を交互に並べることにより不要区間のフレームを補完したが、補完フレーム集合Fc1、Fc2を用いて他の方法で、映像としての不要区間を補完しても良い。例えば、図11(c)に示すように、フレーム集合を順番に並べるように補完しても良い。その一例としては、フレーム集合F1、F2のフレームは並び替えず、補完フレーム集合Fc1、Fc2のフレームを、f1の位置からFc1(N/2)、・・・、Fc1(3)、Fc1(2)、Fc1(1)と逆順にフレームを並べる。さらにf2の位置までFc2(N/2)、・・・、Fc2(3)、Fc2(2)、Fc2(1)と逆順にフレームを並べる。この場合には、フレーム集合F1、F2と補完フレーム集合Fc1、Fc2の境界で再生中の映像が逆回し再生されて見えるであろう。
【0028】
以上の処理により、ステップS37の映像自動補完処理が完了する。ステップS38では、ダイジェスト再生処理が行われる。このダイジェスト再生処理では、再生表示部307によって、映像としての不要区間が、上述のように補完された映像データおよび音声データを結合する。そして、結合されたデータをデコードし、ディスプレイ101とスピーカ104に出力することにより、ダイジェスト再生を行う。映像処理装置100は、重要シーン抽出部303で抽出された重要シーンの数だけステップS33〜S38を繰り返す。ステップS33において、全ての重要シーンに対する処理が終了したと判断した場合は、上述した一連の映像自動編集処理を終了する。
【0029】
以上によれば、ダイジェスト再生しようとする映像に不要区間が含まれていた場合であって、その不要区間をカットした場合にも、重要シーンの音声が途切れてしまうようなことが無い。よって、視聴者は編集後のダイジェスト映像を違和感なく視聴できる。
【0030】
[変形例]
なお、上述したステップS54は以下のように変形しても構わない。例えば、例えば、図11の(b)に示すようにフレーム集合F1、Fc1、F2、Fc2の各フレームを並べることを考える。この場合、不要区間の中央では映像の内容が途切れるであろう。よって、この途切れを見えにくくするためにフェードイン、フェードアウトの効果を追加することが有効である。具体的には、図11の(b)のように各フレームを並べている場合において、フレームF1(1)からフレームFc1(N/2)への順次再生の際に、各フレームの輝度を徐々に低下させるようにして、Fc1(N/2)の再生時には輝度を0にする。その一方で、フレームF2(1)からフレームFc2(N/2)への順次再生の際に、フレームF2(1)の再生時には輝度を0とし、各フレームの輝度を徐々に上昇させるようにして、フレームFc2(N/2)の再生時には元の輝度で再生させる。なお、ここでは、再生されるフレームの輝度を調整することによりフェードイン、フェードアウト効果を実現したが、各フレームの色調を調整するような処理を利用しても良い。
【0031】
なお、上述した各実施形態は、以下の処理を実行することによっても実現される。即ち、上記実施形態の各工程や機能を実現するソフトウェア(コンピュータプログラム)を、ネットワークや記憶媒体を介してシステムに供給し、そのシステムのコンピュータ(またはCPU等)が上記プログラムを読み込んで実行する処理である。上記コンピュータプログラムや、それを記憶したコンピュータ可読記憶媒体も本発明の範疇に含まれる。
【特許請求の範囲】
【請求項1】
映像データおよび音声データを編集する映像処理装置であって、
映像データおよび音声データを入力する入力手段と、
前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出手段と、
前記抽出された映像データ中の不要なフレーム集合を検出する検出手段と、
前記不要なフレーム集合よりも前のフレーム集合である第1のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第2のフレーム集合を決定する決定手段と、
前記第1、第2のフレーム集合を用いて、前記第1、第2のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第1、第2のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段と
を備えることを特徴とする映像処理装置。
【請求項2】
前記不要なフレーム集合がN個のフレームからなるとき、前記第1のフレーム集合はN/2個のフレームからなり、前記第2のフレーム集合はN/2個のフレームからなり、前記補完フレーム集合は2N個のフレームからなることを特徴とする請求項1に記載の映像処理装置。
【請求項3】
前記補完手段は、前記第1のフレーム集合と、前記第2のフレーム集合と、前記第1のフレーム集合を複製したN/2フレームと、前記第2のフレーム集合を複製したN/2フレームを、所定の順序で配列することにより、前記補完フレーム集合を形成することを特徴とする請求項2に記載の映像処理装置。
【請求項4】
コンピュータに読み込み込ませ実行させることで、前記コンピュータを請求項1乃至3のいずれか1項に記載の映像処理装置として機能させるコンピュータプログラム。
【請求項5】
請求項4に記載のコンピュータプログラムを記憶したことを特徴とするコンピュータ可読記憶媒体。
【請求項6】
映像データおよび音声データを編集する映像処理装置の制御方法であって、
入力手段により、映像データおよび音声データを入力する入力工程と、
抽出手段により、前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出工程と、
検出手段により、前記抽出された映像データ中の不要なフレーム集合を検出する検出工程と、
決定手段により、前記不要なフレーム集合よりも前のフレーム集合である第1のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第2のフレーム集合を決定する決定工程と、
補完手段により、前記第1、第2のフレーム集合を用いて、前記第1、第2のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第1、第2のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完工程と
を備えることを特徴とする制御方法。
【請求項1】
映像データおよび音声データを編集する映像処理装置であって、
映像データおよび音声データを入力する入力手段と、
前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出手段と、
前記抽出された映像データ中の不要なフレーム集合を検出する検出手段と、
前記不要なフレーム集合よりも前のフレーム集合である第1のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第2のフレーム集合を決定する決定手段と、
前記第1、第2のフレーム集合を用いて、前記第1、第2のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第1、第2のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完手段と
を備えることを特徴とする映像処理装置。
【請求項2】
前記不要なフレーム集合がN個のフレームからなるとき、前記第1のフレーム集合はN/2個のフレームからなり、前記第2のフレーム集合はN/2個のフレームからなり、前記補完フレーム集合は2N個のフレームからなることを特徴とする請求項1に記載の映像処理装置。
【請求項3】
前記補完手段は、前記第1のフレーム集合と、前記第2のフレーム集合と、前記第1のフレーム集合を複製したN/2フレームと、前記第2のフレーム集合を複製したN/2フレームを、所定の順序で配列することにより、前記補完フレーム集合を形成することを特徴とする請求項2に記載の映像処理装置。
【請求項4】
コンピュータに読み込み込ませ実行させることで、前記コンピュータを請求項1乃至3のいずれか1項に記載の映像処理装置として機能させるコンピュータプログラム。
【請求項5】
請求項4に記載のコンピュータプログラムを記憶したことを特徴とするコンピュータ可読記憶媒体。
【請求項6】
映像データおよび音声データを編集する映像処理装置の制御方法であって、
入力手段により、映像データおよび音声データを入力する入力工程と、
抽出手段により、前記入力手段で入力されたデータのうち、処理対象となる映像データおよび音声データを抽出する抽出工程と、
検出手段により、前記抽出された映像データ中の不要なフレーム集合を検出する検出工程と、
決定手段により、前記不要なフレーム集合よりも前のフレーム集合である第1のフレーム集合と、前記不要なフレーム集合よりも後のフレーム集合である第2のフレーム集合を決定する決定工程と、
補完手段により、前記第1、第2のフレーム集合を用いて、前記第1、第2のフレーム集合および前記不要なフレームの集合に代わる補完フレーム集合を生成し、前記映像データ中の第1、第2のフレーム集合以外のフレームと前記補完フレーム集合からなる映像データを出力する補完工程と
を備えることを特徴とする制御方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2012−147392(P2012−147392A)
【公開日】平成24年8月2日(2012.8.2)
【国際特許分類】
【出願番号】特願2011−6126(P2011−6126)
【出願日】平成23年1月14日(2011.1.14)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成24年8月2日(2012.8.2)
【国際特許分類】
【出願日】平成23年1月14日(2011.1.14)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]