映像圧縮方法および装置

【目的】間引きによる画像の表示遅れを軽減して映像の大幅な圧縮を図る。
【構成】画像入力手段１０１、付属情報入力手段１０２，音声入力手段１０３は、順次、映像の画像データ、その付属情報、音声データを入力する。付属情報とは、ビデオテープ等に書き込まれたタイムコードや映像の撮影日時の情報などである。イベント検出手段１０４は、入力された画像データ、付属情報、音声データにより場面の変わり目等をイベントとして検出し、信号線１０８にトリガを出す。さらに、イベント検出手段１０４では、タイマ１０５に問い合わせ、イベントがない場合、一定時間経過するとトリガを出す。画像出力手段１０は、信号線１０８のトリガを受け取る毎に画像データを出力する。音声出力手段１０７は、イベントあるなしに関係なく音声データを出力する。

【発明の詳細な説明】
【０００１】
【産業上の利用分野】本発明は、映像データベーシステムなどにおいて、フレームを間引くことによって映像データを圧縮する方法および装置に関する。
【０００２】
【従来の技術】コンピュータを使って大量の映像を蓄積・管理し、利用する映像データベースシステムにおいては、必要な映像を迅速に検索できることが要求される。一般に検索の手段としてはキーワード（タイトル、主人公など）を使って絞り込む方法がとられるが、キーワードだけでは十分な絞り込みが行えないので、最終的には、その映像が本当に自分の欲しいものかを確認するためのブラウズ機能（映像の中身を、本をぱらぱらめくるような感覚でさっと見る機能）が欠かせない。この場合、レスポンスの早いブラウズを実現するためには、ハードディスク等の高速アクセス可能な記憶装置に、長時間の映像を圧縮して蓄積する必要がある。しかし、従来の映像圧縮方法はＭＰＥＧ（ＭＰＥＧ，ＣＤ１１１７２，Ｃoding ofＭoving Ｐictures and Ａsociated Ａudio for Ｄigital Ｓtrage Ｍedia atＵp Ｔo Ａbout １.５Ｍbps，１９９１）やＨ.２６１（ＣＣＩＴＴＲec．Ｈ．２６１，Ｖideo Ｃodec for Ａudiovisual Ｓervices at px６４ kbit/s，ＣＣＩＴＴＣＯＭ．ＸＶ−Ｒ３７−Ｅ，１９９０）など、ほとんどが映像の品質劣化を最小限に抑える目的で開発されたものであったため、十分な圧縮率が得られなかった。また、画像の圧縮伸長処理のために特別で高価なハードウェアが必要であった。
【０００３】
【発明が解決しようとする課題】映像を大幅に圧縮するための便法として、フレームを等時間間隔に間引く方法が考えられる。例えば、NTSC映像信号では３０フレーム／秒のフレームレートであるが、それらのうち２９フレームを捨てて１フレーム／秒にまで間引くことによって、１／３０にまでデータ量を減らすことができる。間引き映像を再生する時には、紙芝居のように１秒に１枚ずつ画像をディスプレイ上に表示する。したがって、動きはぎくしゃくしたものになるが、音声は連続的に再生されるので、映像内容の概略を理解することは可能であり、映像データベースシステム等におけるブラウズには十分役立つ。
【０００４】しかし、フレームを等時間間隔に間引く方法では、音声に対して画像の表示が遅れているように感じるという問題が生じる。これを図３を使って説明する。
【０００５】図３において、３１は入力される画像データ列（フレーム列）であり、二つのコマーシャルＣＭ１，ＣＭ２から構成され、ＣＭ１の映像３１１からＣＭ２の映像３１２に、３１３の時点で切り替わっていると仮定する。ＣＭ１とＣＭ２の映像を区別するため、ＣＭ１の画像データは網掛けで示す。３１′は３１の入力画像データ列から１秒間隔で間引いて抜粋された画像データ列であり、３２，３３がＣＭ１から抜粋された画像データ、３４，３５がＣＫ２から抜粋された画像データである。再生時には、ｔ₀，ｔ₀+1，ｔ₀+2，ｔ₀+3の各時刻に、画像データ３２，３３，３４，３５がユーザディスプレイ上に紙芝居のように１秒間隔で表示され、同時に音声がスピーカから出力される。この場合、音声は時刻Ｔの時点でＣＭ１からＣＭ２のものに切り替わるのに、画像の方は時刻ｔ₀+2までＣＭ１の画像データ３３が表示されたままである。したがって、Ｔからｔ₀+2の区間で音声内容と画像内容が食い違ってしまい、音声に対して画像の表示が遅れているように感じる。
【０００６】さらに、このフレームを等時間間隔に間引く方法には、ＣＭのように場面が頻繁に切り替わるような映像の場合には、１秒以内等での短いショット（場面）が抜け落ちてしまう可能性もある。
【０００７】本発明の目的は、上記等間隔の間引きのために生じる画像表示遅れの不自然さや重要場面の抜けなどを軽減した上で映像を大幅に圧縮できる映像圧縮方法および装置を提供することにある。
【０００８】
【課題を解決するための手段】本発明は、映像データを順次入力し、その画像データあるいは音声データあるいは付属情報が特定の条件を満たす場合にイベントありと判定し、一定時間経過してもイベントが検出されないと、その時点時点で画像データを出力し、イベントが検出されると、その時点で画像データを出力して経過時間を初期化することを特徴とする。
【０００９】
【作用】通常は入力された画像データ（フレーム）を等時間間隔毎に間引いて出力するが、イベントが検出された場合は、その時点の画像データを出力する。イベントありは例えば場面の変わり目とする。このように、場面の変わり目に代表される重要性の高いイベントを検出し、そのイベントに対応する画像データをもらさず抜粋するように制御することによって、音声内容と画像内容のずれが感じにくくなり、画像が音声に対して遅れているような感じを軽減することができるようになる。
【００１０】
【実施例】以下、本発明の一実施例を図面を用いて説明する。
【００１１】図１は、本発明の一実施例の構成ブロック図である。図において、１００は映像記録装置であり、これから読み出された画像データ、付属情報、音声データがそれぞれ画像入力手段１０１、付属情報入力手段１０２、音声入力手段１０３に入力される。画像入力手段１０１から画像データが画像出力手段１０６とイベント検出手段１０４に順次送られ、同時に、音声データが音声入力手段１０３から音声出力手段１０７とイベント検出手段１０４に送られる。付属情報は付属入力手段１０２からイベント検出手段１０４に順次送られる。付属情報とは、ビデオテープなどに書き込まれたタイムコードや、その映像の撮影日時の情報などである。イベント検出手段１０４は、画像データ、音声データ、付属情報がある特定の条件を満たす場合にイベントありと判定し、信号線１０８を介して画像出力手段１０６にトリガ（画像データ出力トリガ）をかける。また、イベント検出手段１０４は、タイマ１０５が一定時間（実施例では１秒とする）を経過した場合、イベントありと判定されなくても信号線１０８にトリガ信号を出す。画像出力手段１０６は、イベント検出手段１０４から信号線１０８を介してトリガ信号を受けると、画像入力手段１０１から送られてきている画像データを１フレーム出力する。一方、音声出力手段１０７は、音声入力手段１０３から送られた音声データをイベントあるなしに関わらず逐次出力し続ける。
【００１２】図２に、イベント検出手段１０４の処理フローチャートの一例を示す。まず、タイマ１０５を初期化し（ステップ２０１）、画像入力手段１０１から画像データを読込む（ステップ２０２）。ここで、タイマ１０５は初期化時点を０としてそこからの経過時間を計測し、イベント検出手段１０４からの問い合わせに対して返答するものである。画像入力手段１０１から読み込まれた画像データが特定の条件を満たす場合にイベントありと判定し（ステップ２０３）、ステップ２０５に進む。イベントがない場合も、タイマ１０５に問い合わせて、初期化時点から１秒が経過していた場合（ステップ２０４）、ステップ２０５に進む。ステップ２０５では、画像出力手段１０６に信号線１０８を介してトリガ信号を送り、ステップ２０１に戻る。一方、イベントなしで、１秒経過しない場合は、ステップ２０２に戻り、引き続いて画像データの読み込みを行う。
【００１３】図２の処理では、ステップ２０４でイベントが１秒以上検出されない時に画像出力を行えるようにしているが、間隔は何秒おきでも構わない。この間隔が狭ければ狭いほど、動きが滑らかになるが、その反面、データ量は増加するので、通信容量または記憶容量との兼ね合いで適当に決めることができる。また、図２では、画像データでイベントありを判定したが、後述の付属情報や音声データでイベントを判定する場合も、処理フローは基本的に同じである。
【００１４】次に、イベント検出の二、三の実施例について説明する。イベント検出手段１０４では、これらの一つあるいは複数のものを組み合わせてイベントありを判定すればよい。
【００１５】まず、イベント検出の第１の実施例は、画像入力手段１０１からの画像データを用いて、画像処理により場面の変わり目をイベントと検出するものである。これは画像の音声に対する遅れの感覚をなくすのに好適である。即ち、先の図３の例では、ＣＭ１とＣＭ２の変わり目では場面の転換があるはずであり、それをイベントとして検出し、その時点の画像を抜粋しておき、再生時に音声と同期をとりながら表示を行なうことによって、画像が音声に対して遅れている感じがなくなる。
【００１６】なお、場面の変わり目を画像処理によって検出することは、カット検出、シーンチェンジ検出といった名前で呼ばれ、様々な方法がある。例えば、代表的な方法としては、時間的に隣合う二枚の画像Ｉ_t，Ｉ_t-1の対応する画素における輝度値の差を計算して、その絶対値の和（フレーム間差分）をＤ(ｔ）とし、Ｄ(ｔ）がある与えられた閾値よりも大きい時、ｔをカット点とみなす方法がある（大辻、外村、大庭：「輝度情報を使った動画像ブラウジング」、電気情報通信学会技術報告，ＩＥ９０−１０３，１９９１）。この場合、フレーム間差分の代りに、画素変化面積、輝度ヒストグラム差分、ブロック別色相関、ｘ²検定量などがＤ（ｔ）として使われることもある（大辻、外村：「映像カット自動検出方式の検討」，テレビジョン学会技術報告，Ｖol.１６，Ｎo.４３，pp.７−１２）。また、Ｄ（ｔ）をそのまま閾値処理するのではなく、各種時間フィルタをＤ（ｔ）に対して作用した結果を閾値処理する方法もある(Ｋ.Ｏtsuji and Ｙ.Ｔonomura：“Ｐrojection Ｄetecting Ｆilter for Ｖideo Ｃut Ｄetection”Ｐroc．ofＡＣＭＭultimedia ９３，１９９３，pp．２５１−２５７）。この方法は、映像の中に激しく動く物体やフラッシュ光があっても誤検出を生じにくいという特徴を持っている。さらに、先に本出願人は、入力画像データ列について時間的に隣合う画像間に加えて時間的に離れた画像間の複数組の各画像データＩ_i，Ｉ_jの間の距離ｄ（ｉ，ｊ）を計算し、該計算された複数組の距離ｄ（ｉ，ｊ）をもとに時刻ｔにおけるシーン変化率Ｃ（ｔ）を求め、該シーン変化率Ｃ（ｔ）をあらかじめ定めた閾値と比較して、時刻ｔがカット点であるか否か判定することで、時間的にゆっくりとしたシーン変化を検出する方法を提案した（特願平５−３１７６６３号）。画像処理によるイベント検出では、これらのいずれの方法を用いてもよい。
【００１７】イベント検出の第２の実施例は、場面の変わり目を検出するのに、画像データを使わずに付属情報入力手段１０２からの付属情報を使うものである。例えばカメラのＯＮ／ＯＦＦ動作によって生じるタイムコードの不連続性として、場面の変わり目を検出するのである。
【００１８】イベント検出の第３の実施例は、イベントとして映像のカット点ではなく、テロップ（字幕）の出現／消滅、カメラ操作（例えば、パニング、ズーム）の開始／終了、人がフレームイン／アウトを検出するものである。例えば、テロップはニュース映像などでは、内容理解に欠かせないものであり、表示遅れがないようにする方がよい。
【００１９】イベント検出の第４の実施例は、画像データや付属情報から検出されるイベントに限らず、音声入力手段１０３からの音声データから抽出されるイベントを使うものである。例えば、“これ”、“あれ”といった指示代名詞が発話されたことをワードスポッティング技術を使ってイベントとして検出するものである。例えば、“この値段”というナレーションの入ったところでは、価格が画像として表示されているはずであり、その画像は内容を理解するためには欠かすことができない。
【００２０】図１の構成で、画像出力手段１０６と音声出力手段１０７の出力先はファイルであっても、通信回線であってもよいが、非一定間隔で間引かれた画像データを音声データと同期をとりながら再生するためには、画像表示のタイミングを何らかの形で記述しておく必要がある。図４に、記述の一例を示す。図４において、４６は出力データであり、画像ブロックと音声ブロックから構成される。各々の画像ブロックは４１の“画像表示時刻”と４２の“イベントの種類”と４３の“画像データ”から構成され、各々の音声ブロックは４４の“音声出力時刻”と４５の音声データから構成される。４３の画像データは、ＪＰＥＧで圧縮したデータであってもよいし、縮小した画像であってもよい。４１の画像表示時刻は、４３の画像データを再生開始時刻から何ミリ秒後にユーザディスプレイ上に表示すればよいかを表す。４２のイベントの種類は、例えば４３の画像データが場面の変わり目のイベントに対応するものなのか、等間隔にとられたものかを記述している。このようにイベントの種類を記述しておき、場面の変わり目に対応する画像を並べることで図５のような場面一覧表示が可能となる。４５の音声データはどのような形で符号化されていてもよい。図４の例では、音声データは２秒を１ブロックとして記述されている。４４の音声出力時刻は、４５の音声データを出力デバイスに送り出す時刻を表す。図１では省略したが、出力デバイスは４５の音声データが送られてくると、それを一時バッファリングしながら、スピーカ、ヘッドホンに音声を出力する。
【００２１】
【発明の効果】以上説明したように、本発明によれば、間引きのために生じる画像表示遅れの不自然さを軽減した上で映像を大幅に圧縮できる効果がある。さらに、圧縮・伸長に特別なハードウェアを必要としないため、安価に映像データシステムを構成できる効果がある。
【図面の簡単な説明】
【図１】本発明の一実施例の構成ブロック図である。
【図２】本発明の一実施例のイベント検出の処理フロー図である。
【図３】従来の等間隔間引き処理の問題点を説明するための図である。
【図４】出力フォーマットの一例を説明するための図である。
【図５】場面の一覧表示の一例を示す図である。
【符号の説明】
１０１画像入力手段
１０２付属情報入力手段
１０３音声入力手段
１０４イベント検出手段
１０５タイマ
１０６画像出力手段
１０７音声出力手段

【特許請求の範囲】
【請求項１】映像データを順次入力し、その画像データあるいは音声データあるいは付属情報が特定の条件を満たす場合にイベントありと判定し、一定時間経過してもイベントが検出されないと、該一定時間経過した時点時点で画像データを出力し、イベントが検出されると、その時点で画像データを出力して経過時間を初期化することを特徴とする映像圧縮方法。
【請求項２】請求項１記載の映像圧縮方法において、場面の変わり目をイベントとして検出することを特徴とする映像圧縮方法。
【請求項３】画像データ、該画像データの付属情報、音声データを順次入力する手段と、前記入力された画像データあるいは付属情報あるいは音声データが特定条件を満たす場合にイベントありを判定し、一定時間経過してもイベントが検出されないと該一定時間経過した時点時点で画像データ出力トリガを出力し、イベントが検出されるとその時点で画像データ出力トリガを出力して経過時間を初期化する手段と、前記トリガが出力される毎に入力画像データを出力する手段と、入力音声データをイベントのありなしに関係なく連続して出力する手段と、を具備することを特徴とする映像圧縮装置。

【図１】