説明

映像圧縮方法および装置

【目的】 間引きによる画像の表示遅れを軽減して映像の大幅な圧縮を図る。
【構成】 画像入力手段101、付属情報入力手段102,音声入力手段103は、順次、映像の画像データ、その付属情報、音声データを入力する。付属情報とは、ビデオテープ等に書き込まれたタイムコードや映像の撮影日時の情報などである。イベント検出手段104は、入力された画像データ、付属情報、音声データにより場面の変わり目等をイベントとして検出し、信号線108にトリガを出す。さらに、イベント検出手段104では、タイマ105に問い合わせ、イベントがない場合、一定時間経過するとトリガを出す。画像出力手段10は、信号線108のトリガを受け取る毎に画像データを出力する。音声出力手段107は、イベントあるなしに関係なく音声データを出力する。

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、映像データベーシステムなどにおいて、フレームを間引くことによって映像データを圧縮する方法および装置に関する。
【0002】
【従来の技術】コンピュータを使って大量の映像を蓄積・管理し、利用する映像データベースシステムにおいては、必要な映像を迅速に検索できることが要求される。一般に検索の手段としてはキーワード(タイトル、主人公など)を使って絞り込む方法がとられるが、キーワードだけでは十分な絞り込みが行えないので、最終的には、その映像が本当に自分の欲しいものかを確認するためのブラウズ機能(映像の中身を、本をぱらぱらめくるような感覚でさっと見る機能)が欠かせない。この場合、レスポンスの早いブラウズを実現するためには、ハードディスク等の高速アクセス可能な記憶装置に、長時間の映像を圧縮して蓄積する必要がある。しかし、従来の映像圧縮方法はMPEG(MPEG,CD11172,Coding ofMoving Pictures and Asociated Audio for Digital Strage Media atUp To About 1.5 Mbps,1991)やH.261(CCITT Rec.H.261,Video Codec for Audiovisual Services at px64 kbit/s,CCITT COM.XV−R 37−E,1990)など、ほとんどが映像の品質劣化を最小限に抑える目的で開発されたものであったため、十分な圧縮率が得られなかった。また、画像の圧縮伸長処理のために特別で高価なハードウェアが必要であった。
【0003】
【発明が解決しようとする課題】映像を大幅に圧縮するための便法として、フレームを等時間間隔に間引く方法が考えられる。例えば、NTSC映像信号では30フレーム/秒のフレームレートであるが、それらのうち29フレームを捨てて1フレーム/秒にまで間引くことによって、1/30にまでデータ量を減らすことができる。間引き映像を再生する時には、紙芝居のように1秒に1枚ずつ画像をディスプレイ上に表示する。したがって、動きはぎくしゃくしたものになるが、音声は連続的に再生されるので、映像内容の概略を理解することは可能であり、映像データベースシステム等におけるブラウズには十分役立つ。
【0004】しかし、フレームを等時間間隔に間引く方法では、音声に対して画像の表示が遅れているように感じるという問題が生じる。これを図3を使って説明する。
【0005】図3において、31は入力される画像データ列(フレーム列)であり、二つのコマーシャルCM1,CM2から構成され、CM1の映像311からCM2の映像312に、313の時点で切り替わっていると仮定する。CM1とCM2の映像を区別するため、CM1の画像データは網掛けで示す。31′は31の入力画像データ列から1秒間隔で間引いて抜粋された画像データ列であり、32,33がCM1から抜粋された画像データ、34,35がCK2から抜粋された画像データである。再生時には、t0,t0+1,t0+2,t0+3の各時刻に、画像データ32,33,34,35がユーザディスプレイ上に紙芝居のように1秒間隔で表示され、同時に音声がスピーカから出力される。この場合、音声は時刻Tの時点でCM1からCM2のものに切り替わるのに、画像の方は時刻t0+2までCM1の画像データ33が表示されたままである。したがって、Tからt0+2の区間で音声内容と画像内容が食い違ってしまい、音声に対して画像の表示が遅れているように感じる。
【0006】さらに、このフレームを等時間間隔に間引く方法には、CMのように場面が頻繁に切り替わるような映像の場合には、1秒以内等での短いショット(場面)が抜け落ちてしまう可能性もある。
【0007】本発明の目的は、上記等間隔の間引きのために生じる画像表示遅れの不自然さや重要場面の抜けなどを軽減した上で映像を大幅に圧縮できる映像圧縮方法および装置を提供することにある。
【0008】
【課題を解決するための手段】本発明は、映像データを順次入力し、その画像データあるいは音声データあるいは付属情報が特定の条件を満たす場合にイベントありと判定し、一定時間経過してもイベントが検出されないと、その時点時点で画像データを出力し、イベントが検出されると、その時点で画像データを出力して経過時間を初期化することを特徴とする。
【0009】
【作用】通常は入力された画像データ(フレーム)を等時間間隔毎に間引いて出力するが、イベントが検出された場合は、その時点の画像データを出力する。イベントありは例えば場面の変わり目とする。このように、場面の変わり目に代表される重要性の高いイベントを検出し、そのイベントに対応する画像データをもらさず抜粋するように制御することによって、音声内容と画像内容のずれが感じにくくなり、画像が音声に対して遅れているような感じを軽減することができるようになる。
【0010】
【実施例】以下、本発明の一実施例を図面を用いて説明する。
【0011】図1は、本発明の一実施例の構成ブロック図である。図において、100は映像記録装置であり、これから読み出された画像データ、付属情報、音声データがそれぞれ画像入力手段101、付属情報入力手段102、音声入力手段103に入力される。画像入力手段101から画像データが画像出力手段106とイベント検出手段104に順次送られ、同時に、音声データが音声入力手段103から音声出力手段107とイベント検出手段104に送られる。付属情報は付属入力手段102からイベント検出手段104に順次送られる。付属情報とは、ビデオテープなどに書き込まれたタイムコードや、その映像の撮影日時の情報などである。イベント検出手段104は、画像データ、音声データ、付属情報がある特定の条件を満たす場合にイベントありと判定し、信号線108を介して画像出力手段106にトリガ(画像データ出力トリガ)をかける。また、イベント検出手段104は、タイマ105が一定時間(実施例では1秒とする)を経過した場合、イベントありと判定されなくても信号線108にトリガ信号を出す。画像出力手段106は、イベント検出手段104から信号線108を介してトリガ信号を受けると、画像入力手段101から送られてきている画像データを1フレーム出力する。一方、音声出力手段107は、音声入力手段103から送られた音声データをイベントあるなしに関わらず逐次出力し続ける。
【0012】図2に、イベント検出手段104の処理フローチャートの一例を示す。まず、タイマ105を初期化し(ステップ201)、画像入力手段101から画像データを読込む(ステップ202)。ここで、タイマ105は初期化時点を0としてそこからの経過時間を計測し、イベント検出手段104からの問い合わせに対して返答するものである。画像入力手段101から読み込まれた画像データが特定の条件を満たす場合にイベントありと判定し(ステップ203)、ステップ205に進む。イベントがない場合も、タイマ105に問い合わせて、初期化時点から1秒が経過していた場合(ステップ204)、ステップ205に進む。ステップ205では、画像出力手段106に信号線108を介してトリガ信号を送り、ステップ201に戻る。一方、イベントなしで、1秒経過しない場合は、ステップ202に戻り、引き続いて画像データの読み込みを行う。
【0013】図2の処理では、ステップ204でイベントが1秒以上検出されない時に画像出力を行えるようにしているが、間隔は何秒おきでも構わない。この間隔が狭ければ狭いほど、動きが滑らかになるが、その反面、データ量は増加するので、通信容量または記憶容量との兼ね合いで適当に決めることができる。また、図2では、画像データでイベントありを判定したが、後述の付属情報や音声データでイベントを判定する場合も、処理フローは基本的に同じである。
【0014】次に、イベント検出の二、三の実施例について説明する。イベント検出手段104では、これらの一つあるいは複数のものを組み合わせてイベントありを判定すればよい。
【0015】まず、イベント検出の第1の実施例は、画像入力手段101からの画像データを用いて、画像処理により場面の変わり目をイベントと検出するものである。これは画像の音声に対する遅れの感覚をなくすのに好適である。即ち、先の図3の例では、CM1とCM2の変わり目では場面の転換があるはずであり、それをイベントとして検出し、その時点の画像を抜粋しておき、再生時に音声と同期をとりながら表示を行なうことによって、画像が音声に対して遅れている感じがなくなる。
【0016】なお、場面の変わり目を画像処理によって検出することは、カット検出、シーンチェンジ検出といった名前で呼ばれ、様々な方法がある。例えば、代表的な方法としては、時間的に隣合う二枚の画像It,It-1の対応する画素における輝度値の差を計算して、その絶対値の和(フレーム間差分)をD(t)とし、D(t)がある与えられた閾値よりも大きい時、tをカット点とみなす方法がある(大辻、外村、大庭:「輝度情報を使った動画像ブラウジング」、電気情報通信学会技術報告,IE90−103,1991)。この場合、フレーム間差分の代りに、画素変化面積、輝度ヒストグラム差分、ブロック別色相関、x2検定量などがD(t)として使われることもある(大辻、外村:「映像カット自動検出方式の検討」,テレビジョン学会技術報告,Vol.16,No.43,pp.7−12)。また、D(t)をそのまま閾値処理するのではなく、各種時間フィルタをD(t)に対して作用した結果を閾値処理する方法もある(K.Otsuji and Y.Tonomura:“Projection Detecting Filter for Video Cut Detection”Proc.ofACM Multimedia 93,1993,pp.251−257)。この方法は、映像の中に激しく動く物体やフラッシュ光があっても誤検出を生じにくいという特徴を持っている。さらに、先に本出願人は、入力画像データ列について時間的に隣合う画像間に加えて時間的に離れた画像間の複数組の各画像データIi,Ijの間の距離d(i,j)を計算し、該計算された複数組の距離d(i,j)をもとに時刻tにおけるシーン変化率C(t)を求め、該シーン変化率C(t)をあらかじめ定めた閾値と比較して、時刻tがカット点であるか否か判定することで、時間的にゆっくりとしたシーン変化を検出する方法を提案した(特願平5−317663号)。画像処理によるイベント検出では、これらのいずれの方法を用いてもよい。
【0017】イベント検出の第2の実施例は、場面の変わり目を検出するのに、画像データを使わずに付属情報入力手段102からの付属情報を使うものである。例えばカメラのON/OFF動作によって生じるタイムコードの不連続性として、場面の変わり目を検出するのである。
【0018】イベント検出の第3の実施例は、イベントとして映像のカット点ではなく、テロップ(字幕)の出現/消滅、カメラ操作(例えば、パニング、ズーム)の開始/終了、人がフレームイン/アウトを検出するものである。例えば、テロップはニュース映像などでは、内容理解に欠かせないものであり、表示遅れがないようにする方がよい。
【0019】イベント検出の第4の実施例は、画像データや付属情報から検出されるイベントに限らず、音声入力手段103からの音声データから抽出されるイベントを使うものである。例えば、“これ”、“あれ”といった指示代名詞が発話されたことをワードスポッティング技術を使ってイベントとして検出するものである。例えば、“この値段”というナレーションの入ったところでは、価格が画像として表示されているはずであり、その画像は内容を理解するためには欠かすことができない。
【0020】図1の構成で、画像出力手段106と音声出力手段107の出力先はファイルであっても、通信回線であってもよいが、非一定間隔で間引かれた画像データを音声データと同期をとりながら再生するためには、画像表示のタイミングを何らかの形で記述しておく必要がある。図4に、記述の一例を示す。図4において、46は出力データであり、画像ブロックと音声ブロックから構成される。各々の画像ブロックは41の“画像表示時刻”と42の“イベントの種類”と43の“画像データ”から構成され、各々の音声ブロックは44の“音声出力時刻”と45の音声データから構成される。43の画像データは、JPEGで圧縮したデータであってもよいし、縮小した画像であってもよい。41の画像表示時刻は、43の画像データを再生開始時刻から何ミリ秒後にユーザディスプレイ上に表示すればよいかを表す。42のイベントの種類は、例えば43の画像データが場面の変わり目のイベントに対応するものなのか、等間隔にとられたものかを記述している。このようにイベントの種類を記述しておき、場面の変わり目に対応する画像を並べることで図5のような場面一覧表示が可能となる。45の音声データはどのような形で符号化されていてもよい。図4の例では、音声データは2秒を1ブロックとして記述されている。44の音声出力時刻は、45の音声データを出力デバイスに送り出す時刻を表す。図1では省略したが、出力デバイスは45の音声データが送られてくると、それを一時バッファリングしながら、スピーカ、ヘッドホンに音声を出力する。
【0021】
【発明の効果】以上説明したように、本発明によれば、間引きのために生じる画像表示遅れの不自然さを軽減した上で映像を大幅に圧縮できる効果がある。さらに、圧縮・伸長に特別なハードウェアを必要としないため、安価に映像データシステムを構成できる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例の構成ブロック図である。
【図2】本発明の一実施例のイベント検出の処理フロー図である。
【図3】従来の等間隔間引き処理の問題点を説明するための図である。
【図4】出力フォーマットの一例を説明するための図である。
【図5】場面の一覧表示の一例を示す図である。
【符号の説明】
101 画像入力手段
102 付属情報入力手段
103 音声入力手段
104 イベント検出手段
105 タイマ
106 画像出力手段
107 音声出力手段

【特許請求の範囲】
【請求項1】 映像データを順次入力し、その画像データあるいは音声データあるいは付属情報が特定の条件を満たす場合にイベントありと判定し、一定時間経過してもイベントが検出されないと、該一定時間経過した時点時点で画像データを出力し、イベントが検出されると、その時点で画像データを出力して経過時間を初期化することを特徴とする映像圧縮方法。
【請求項2】 請求項1記載の映像圧縮方法において、場面の変わり目をイベントとして検出することを特徴とする映像圧縮方法。
【請求項3】 画像データ、該画像データの付属情報、音声データを順次入力する手段と、前記入力された画像データあるいは付属情報あるいは音声データが特定条件を満たす場合にイベントありを判定し、一定時間経過してもイベントが検出されないと該一定時間経過した時点時点で画像データ出力トリガを出力し、イベントが検出されるとその時点で画像データ出力トリガを出力して経過時間を初期化する手段と、前記トリガが出力される毎に入力画像データを出力する手段と、入力音声データをイベントのありなしに関係なく連続して出力する手段と、を具備することを特徴とする映像圧縮装置。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【図5】
image rotate


【図4】
image rotate