オーディオ概要情報の抽出装置、再生装置、および記録媒体

【課題】オーディオまたはオーディオビデオ情報の指定した長さを持つ概要情報を、コンテンツ全体から均一に、かつ高速に抽出することを可能とした、オーディオ概要情報、オーディオビデオ概要情報の抽出装置、再生装置、および記録媒体を提供すること、
【解決手段】圧縮オーディオビデオコンテンツからサブバンドデータを抽出するサブバンドデータ抽出部Ａ１と、抽出されたサブバンドデータが高レベル音であるか否かを評価する高レベル音評価部Ａ３と、該高レベル音評価部Ａ３で単位時間サブバンドエネルギー総和が最大となる位置の情報を概要情報として登録する概要情報登録部Ａ４と、概要情報記述ファイルとして出力する概要情報記述部Ａ５とからなる。また、抽出された概要情報のビデオ要素としてショットに付随するオーディオ情報を抽出し、再生速度変換し、ビデオ要素と該変換されたオーディオ要素を同期して再生する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、非圧縮または圧縮されたオーディオ情報、または圧縮されたオーディオビデオ情報から、それらの内容を効率的に把握するための概要情報（サマリ）を抽出するオーディオ情報、オーディオビデオ概要情報の抽出装置および記録媒体に関する。また、非圧縮または圧縮されたオーディオ情報、または圧縮されたオーディオビデオ情報から圧縮データ領域で高速に概要情報を抽出することにより、オーディオ情報またはオーディオビデオ情報の高速かつ効率的な閲覧を提供することが可能な、オーディオビデオ概要情報の再生装置に関する。
【背景技術】
【０００２】
ビデオの自動要約作成については、例えば田中、脇本、神田による「シーン検出による動画情報の自動要約・閲覧技術の開発」、電子情報通信学会技術報告、IE99-20（1999）で研究発表（第１の従来技術）されており、該研究発表では、ビデオのシーン変化点を検出した後、階層構造化を行い、各シーンに優先度を付与することによってビデオの要約を自動的に作成している。特に、話題の転換点直後のシーンには高い優先度が付与される。階層構造においては、上位階層ほど優先度が高くなるように設定される。
【０００３】
また、J.Saarela、B.Merialdoによる「Using content models to build audio-video summaries」、SPIE Conference on Strorage and Retrieval for Image and Video Databases VII（1999）においては（第２の従来技術）、汎用的なビデオの概要情報（サマリ）の作成を、制約つきの最適化問題として捉えている。制約としては、最小のショット長、オーディオとビデオの同期、ビデオの連続性、及びオーディオとビデオの冗長性などである。そして、手動によってビデオの内容モデル（記号的な記述）を構築し、サマリの作成を行っている。
【０００４】
また、R.Lienhartらによる「Video Abstracting」、Communications of ACM、Vol.40、No.12（1997）では（第３の従来技術）、映画の予告編に特化した概要情報の作成を目的としている。主な作成手順としては、ビデオのショットへの分割、特別なイベントを含むクリップの解析、クリップの選択、およびクリップの集約である。特別なイベントとしては、俳優の顔の認識・会話の識別、タイトルからの文字情報の抽出、及び銃撃や爆発などのイベントを抽出している。
【発明の開示】
【発明が解決しようとする課題】
【０００５】
これらの従来技術によるオーディオビデオの概要情報抽出は、次のような問題を有している。まず、前記第１の従来技術においては、ビデオの階層構造化により効率的な要約作成を提供するが、階層構造化は手動で行う必要があり、長尺のオーディオビデオ情報に関しては概要情報の抽出に必要な前処理としての階層構造化に、多くの時間を要する可能性がある。また、優先度の付与はシーンが属する階層に依存して行われるため、実質的には人手を要することが多くなる。また、ビデオ単体が対象となっているためオーディオビデオへの拡張は可能であるが、オーディオとしての特性を利用していないため、場合によっては重要な内容を含むオーディオ情報を利用していないため、適切な概要情報が得られないことも考えられる。
【０００６】
また、前記第２の従来技術においては、ビデオの内容モデルの構築を手動で行わなければならないほか、効果的にオーディオの特性を利用する方式を採っていない。同時に、ビデオのセグメントの分類においては、圧縮データ上では実現が困難な、高度な認識技術などが必要となるため、概要情報抽出に要する処理が大きくなることが予想される。前記第３の従来技術に関しても、これらの高度な（コンテンツの意味内容にまで立ち入った）処理が必要となっている。
【０００７】
このように、従来技術ではオーディオビデオ情報の入力から概要情報の出力までの過程において、手動による処理が介在することが多く、また、オーディオ情報を効果的に利用しないため、オーディオとしての特性による概要情報の作成が考慮されていない。また、圧縮または非圧縮のオーディオ単体からの自動概要情報抽出については、これまで有効な方式は検討されていない。
【０００８】
また、概要情報の構造的な側面から見ても、オーディオビデオ情報全体から均一に概要情報が抽出される保証はなく、さらに前記第１と第２の従来技術では、外部から指定された概要情報長に近づけるような制御を行う方式も十分には採用されていない。
【０００９】
本発明は、前記した従来技術に鑑みてなされたものであり、その目的は、非圧縮または圧縮されたオーディオ情報、または圧縮されたオーディオビデオ情報から、それらの内容を効率よく把握するための概要情報（サマリ）を抽出する装置において、圧縮データ領域でオーディオ及びビデオの時空間的な特性を解析し、必要に応じてこれらを統合的に評価し、オーディオまたはオーディオビデオ情報の指定した長さを持つ概要情報を、コンテンツ全体から均一に、かつ高速に抽出することを可能とした、オーディオ概要情報、オーディオビデオ概要情報の抽出装置、再生装置および記録媒体を提供することにある。
【課題を解決するための手段】
【００１０】
前記した目的を達成するために、本発明は、オーディオビデオ概要情報の抽出装置において、入力された圧縮オーディオコンテンツからサブバンドデータを抽出する手段と、該サブバンドデータから、バンドにより重み付けしたサブバンドエネルギーの総和を計算する手段と、単位時間におけるサブバンドエネルギー総和を評価する手段と、オーディオ概要情報を抽出する手段とを具備した点に第１の特徴がある。
【００１１】
また、本発明は、オーディオビデオ概要情報の再生装置において、抽出された概要情報のビデオ要素としてショットの先頭フレームまたはショットの代表フレームを抽出する手段と、該概要情報のオーディオ要素としてショットに付随するオーディオ情報を抽出する手段と、該抽出されたオーディオ要素を時間的に間引いてオーディオの再生速度を変換する手段と、該抽出されたビデオ要素と該変換されたオーディオ要素を同期して再生する手段を具備した点に第２の特徴がある。
【００１２】
さらに、オーディオビデオ概要情報を抽出するためにコンピュータを、入力された圧縮オーディオコンテンツからサブバンドデータを抽出するサブバンドデータ抽出手段及び入力されたオーディオコンテンツをサブバンドデータに変換するサブバンド解析手段の少なくとも一方と、高レベル音を評価する手段、及び、前記オーディオコンテンツの概要情報を登録する手段として機能させるためのオーディオビデオ概要情報を抽出するプログラムを記録したコンピュータ読み取り可能な記録媒体を提供するようにした点に第３の特徴がある。
【発明の効果】
【００１３】
本発明によれば、非圧縮または圧縮されたオーディオ情報、または圧縮されたオーディオビデオ情報に関して、それらの内容を高速かつ効率的に把握するための概要情報を抽出することが可能になる。また、この抽出によって、オーディオビデオ情報の高速な閲覧が可能となる。
【００１４】
また、抽出される概要情報の長さは任意に指定することができると同時に、オーディオビデオ情報から均一に概要情報を抽出するため、コンテンツ全体の把握を効率的に行うことが可能となる。
【００１５】
また、概要情報に含まれる時間情報などを記述することにより、該当するオーディオビデオ情報の概要情報としての特徴記述を行うことが可能となり、コンテンツ記述の標準化であるMPEG-7などへも適用することが可能である。
【００１６】
また、抽出された概要情報の表示速度を変換するなどの、高機能な概要情報の再生を提供することが可能となる。
【発明を実施するための最良の形態】
【００１７】
以下に、図面を参照して、本発明を詳細に説明する。図１は、本発明の第１の実施形態であるオーディオビデオ概要情報の抽出装置の構成を示すブロック図である。
【００１８】
まず、圧縮されたオーディオビデオ情報ＡＶは、該オーディオビデオ情報ＡＶの時間的構造を解析するコンテンツ解析部１に入力される。該コンテンツ解析部１は、図２に示されているような構成を有しており、該圧縮されたオーディオビデオ情報ＡＶは、まずショット分割部１１に入力する。該ショット分割部１１は、ビデオ情報をショット単位Ｓに分割し、次いでコンテンツ全体に対するショット数をカウントし、全ショット数をＮＳとして保持する。次に、分割数決定部１２は、ショット分割部１１から入力される全ショット数ＮＳと、オーディオビデオ情報ＡＶから得られるコンテンツ長ＣＬと、外部から指定される概要情報長ＳＬを用いて、下記の（１）式により分割数ＮＰを決定する。
ＮＰ＝ＮＳ×ＳＬ／ＣＬ・・・（１）
ただし、ＳＬ＞ＣＬ／ＮＳであるとする。例えば、コンテンツ長ＣＬが１時間のものを５分の概要情報長ＳＬに纏めようとすると、前記全ショット数ＮＳが２４０個の場合、分割数ＮＰは２０となる。そして、コンテンツ分割１３においてコンテンツをＮＰ等分する。等分割された区間ＳＡＶと、各区間に属するショットＳとをマッピングする。
【００１９】
以下では、分割区間入力１４で入力された区間ＳＡＶ毎に処理を行う。
まず、ショット入力１５で最初のショットＳnが入力される。ショット長評価部１６では、入力されたショットＳnのショット長ＳＨＬnが予め指定した長さＴ以下の場合に、概要情報ＳＵＭの候補から除外し、次のショットＳn+1の入力処理へ移行する。一方、ショットＳnのショット長ＳＨＬnがTよりも長い場合には、該当するショットＳnを概要情報ＳＵＭの候補とし、代表フレーム抽出部１７に送る。
【００２０】
代表フレーム抽出部１７では、ショットSnの代表フレームRFSnとして、ショットの先頭フレームSFSnまたは特徴フレームKFSnを抽出する。特徴フレームKFSnの抽出には、例えば特願2000-065259に記載された方法などを用いることができる。さらに、代表フレーム特徴値抽出部１８において、代表フレーム抽出部１７で抽出されたフレームRFSnの特徴値CHFSnを抽出し、ショット特徴値抽出部１９において、ショットSnの特徴値CHSnを抽出する。
【００２１】
ショットSnに対する代表フレームRFSnとしての先頭フレームSFSnまたは特徴フレームKFSnの特徴値CHFSnと、ショットSnの特徴値CHSnのいずれか一方又は両方は、代表ショット評価部１Ａに送られる。先頭フレームSFSnまたは特徴フレームKFSnの特徴値CHFSnとしては、例えばMPEG-7（Moving Picture Experts Group phase 7）で規定されている記述子などを用いることができる。
【００２２】
代表ショット評価部１Ａでは、対象となる分割区間SAVにおいて既に代表ショットRSとして登録されている全てのショットに関する代表フレームRFの特徴値CHFと、代表フレーム特徴値抽出部１８から送られたショットSnの代表フレームRFsの特徴値CHFSnとの間で類似度の判定を行う。ここで、特徴値CHFと入力されたショットSnの特徴値CHFSnとの類似度が大きいと判定された場合には反復ショットであると見なされ、該当するショットSnを概要情報SUMの候補から除外し、次のショットSn+1の入力処理へ移行する。一方、特徴値CHFとショットSnの特徴値CHFSnとの類似度が小さいと判定された場合には、独立ショットであると見なされ、該当するショットSnを概要情報SUMの候補とし、代表ショット登録１Ｂでショットの登録を行ったあと、オーディオレベル評価部２に送る。なお、代表ショットとして登録されたショットSnに関する特徴値は別途保持され、それ以降の代表ショットの評価に用いられる。
【００２３】
ショット類似度の判定においては、同様に既に代表ショットRSとして登録されているショットに関する代表ショットの特徴値CHSと、ショット特徴値抽出部１９から送られたショットSnの特徴値CHSnを代用するか、或いは併用してもよい。
【００２４】
オーディオレベル評価部２では、コンテンツ解析部１から入力されたショットSnに関して、図３のサブバンドデータ抽出部２１でショットSnのオーディオ部分のサブバンドデータSDSnを抽出する。そして、無音解析部２２で無音としての特徴値を計算したあと、無音判定部２３でショットSnの全ての区間、またはショットSnの区間のY%以上が無音であると判定された場合に、該当するショットSnを概要情報SUMの候補から除外し、次のショットSn+1の入力処理へ移行する。一方、無音判定部２３での判定において、ショットSnのオーディオ部分がショットSnの区間の（１００−Ｙ）％以上が有音である場合に、ショットSnは低レベル音解析部２４へ送られる。無音解析部２２での無音解析方法及び無音判定部２３での無音判定方法としては、例えば特願平10-235543号に記載された方法などを用いることができる。
【００２５】
低レベル音解析部２４では、同様にサブバンドデータ抽出部２１で抽出されたサブバンドデータSDSnから該当するオーディオのレベルLSnを推定し、指定された十分に低いレベルTHLL以下のオーディオがショットSnの全ての区間、またはショットSnの区間のＺ％以上を占める場合に、該当するショットSnを概要情報SUMの候補から除外し、次のショットSn+1の入力処理へ移行する。一方、低レベル音解析部２４でショットSnのオーディオ部分が、ショットSnの区間の（１００−Ｚ）％以上がオーディオレベルTHLLを超えるオーディオである場合に、該当するショットSnを概要情報SUMの候補とし、高レベル音解析部２６に送る。
【００２６】
高レベル音解析部２６では、サブバンドデータ抽出部２１から得られたショットSnに関するサブバンドデータSDSnに基づいて、図４の単位時間密度計算部２６１でショットSnにおけるあるレベルTHHL以上のオーディオの単位時間密度Dsnを計算する。このとき、オーディオ情報がMPEGオーディオで符号化されている場合、1秒当りの単位時間密度Dsnは、例えば以下のように求めることができる。
Dsn＝（ＮＡＦ_THHL／ＮＡＦ）×ＡＡＬ_THHL ・・・（２）
【００２７】
ここで、NAF_THHLはレベルTHHL以上を持つ1秒間当りのフレーム数、NAFは1秒当りのオーディオフレーム数、AAL_THHLはNAF_THHLに対する平均レベルである。
【００２８】
また、サブバンドエネルギー総和計算部２６２においてサブバンドにより重み付けされたサブバンドエネルギーの総和SBEを計算し、それに基づいて単位時間サブバンドエネルギー計算部２６３で単位時間でのサブバンドエネルギー総和SBsnを計算する。1秒当りの単位時間サブバンドエネルギーSBsnは、例えば以下の（３）式のように求めることができる。
【００２９】
【数１】

【００３０】
ここで、αkはサブバンドkに対する重み付け、sbkはあるフレームにおけるサブバンドkのエネルギーである。
【００３１】
次に、単位時間密度判定部２６４で該当するショットSnがある閾値THDを超える単位時間密度Dsnを持つ場合に、単位時間サブバンドエネルギー判定部２６５へ移行する。単位時間サブバンドエネルギー判定部２６５では、閾値THSBを超える単位時間サブバンドエネルギーSBsnが存在する場合、該当するオーディオを含むショットSnを概要情報の候補として判定し、高レベル音解析ルーチンを抜け出し、動きアクティビティ評価部３へ移行する。
【００３２】
これに対し、オーディオレベルTHHL以上のオーディオの単位時間密度DSnが閾値THD未満の場合、或いは単位時間サブバンドエネルギーSBSnが閾値THSB未満の場合、該当するオーディオを含むショットSnを概要情報の候補から除外し、次のショットSn+1の入力処理へ移行する。
【００３３】
なお、図３の構成において、無音解析部２２，低レベル音解析部２４、および高レベル音解析部２６は、必ずしも全部は必要でなく、少なくとも１つを備えておれば良い。
【００３４】
動きアクティビティ評価部３では、オーディオレベル評価部２から入力されたショットSnに関して、図５の動きベクトル抽出部３１でショットSnに属する全てのフレームの動きベクトル情報MVを抽出する。そして、動きアクティビティ計算部３２において、動きベクトル情報MVを用いてショットSn全体としての動きアクティビティMASnを計算し、それを用いて単位時間動きアクティビティ計算部３３において、ある単位時間（例えば1秒、1フレームなど）における動きアクティビティMAを計算する。動きアクティビティ計算部３２及び単位時間動きアクティビティ３３における処理は、例えばMPEG符号化されたビデオに対して以下のように表せる。ここでは1秒当りの動きアクティビティと仮定する。
【００３５】
【数２】

【００３６】
ここで、ASMVは大きさがX以上の動きベクトルのフレーム内絶対値総和、NMBはフレーム内での大きさがX以上の動きベクトルを持つマクロブロック数、NPSnはショット内の予測符号化フレーム数、NVFは1秒当りのビデオフレーム数である。
【００３７】
動きアクティビティ判定部３４において、求められた動きアクティビティMAと、ある指定された閾値THMAを比較し、MAがTHMAを超える場合に、該当するショットSnを概要情報SUMの候補から除外し、次のショットSn+1の入力処理へ移行する。一方、動きアクティビティ判定部３４でショットSnのある単位時間における動きアクティビティMAが閾値THMAを超えない場合に、該当するショットSnを概要情報SUMの候補とする。
【００３８】
以上の処理により、オーディオビデオ情報AVを等間隔に分割した区間SAVにおいて、概要情報SUMの候補として選択されたショットSは概要情報登録部４に入力され、ショットSの情報が図６のショットメモリ４１に保存される。次いで、区間ＳＡＶでの全ショットの処理が終了したか否かの判断が判断部４２でなされ、この判断が否定の時には次のショットの処理が行われる。
【００３９】
一方、区間ＳＡＶの全ショットの処理が終了した時には、区間SAVにおける全てのショットSに関するショット長の総和SSLは、概要情報長判定部４３において、各区間での平均概要情報長MSL（=SL/NP）に十分近いかどうかを判断される。区間SAVでのショット長総和SSLと平均概要情報長MSLが十分に近いと見なされた場合には、区間SAVでの概要情報抽出処理を終了し、概要情報登録４４で時間情報などが登録される。そして次の区間SAVn+1の入力処理へ移行する。このとき、代表ショット登録１Ｂで登録されていた代表ショットに関する各種特徴値はクリアされる。一方、SSLとMSLが近いと見なされない場合には、閾値変更部４７で、概要情報SUMの候補としての判定に用いる一部または全ての閾値の値を変更し、それまでに抽出されている概要情報SUMの候補を対象として、SSLとMSLが十分近くなるまでショット長評価部１６から動きアクティビティ評価部３での処理を再帰的に繰り返す。
【００４０】
これらの処理を、全ての区間SAVについて行い、最終的にオーディオビデオ情報AVの概要情報SUMを得て、概要情報SUMが登録される。このとき、概要情報の記述が指定されていれば、概要情報記述部５へ移行し、指定されていなければ処理を終了する。
【００４１】
概要情報記述部５では、図７に示されているように、概要情報SUMとして抽出された全てのショットSについて、概要情報記述部５１でそれらの時間情報を少なくとも記述し、概要情報出力部５２で概要情報記述ファイルとして出力する。記述するフォーマットとしては、例えばMPEG-7で規定されているフォーマットなどを用いることができる。全ての区間SAVについて記述が終了すると、全ての処理を終了する。また、概要情報SUMとして抽出された全てのショットSを結合して、別ファイルとして保存することができる。このとき、オーディオビデオファイルとして保存するか、オーディオとビデオを個別に保存することができる。
【００４２】
次に、前記した実施形態のオーディオビデオ概要情報抽出装置の機能は、ソフトウェア（プログラム）で実現することができる。該ソフトウェアは、光ディスク、フロッピー（登録商標）ディスク、ハードディスク等の記録媒体に記録することができる。
【００４３】
図８は、該記録媒体１００に記録されるプログラムの一例を示すものであり、該記録媒体１００には、圧縮オーディオビデオ情報のコンテンツ解析機能１１１、オーディオレベル評価機能１１２、動きアクティビティ評価機能１１３、概要情報登録機能１１４、および概要情報記述機能１１５が記録される。なお、該動きアクティビティ評価機能１１３は、省略してもよい。
【００４４】
また、前記コンテンツ解析機能１１１は、ビデオ情報をショットに分割する機能と、入力コンテンツをある基準に従って等間隔の区間に分割する機能と、該等間隔の区間に含まれるショットの長さを評価する機能および反復ショットを判定する機能の少なくとも一方とから構成することができる。また、前記オーディオレベル評価機能１１２は、無音を判定する機能、低レベル音を判定する機能、および高レベル音を判定する機能から構成することができる。
【００４５】
また、前記動きアクティビティ評価機能１１３は、前記ショットに属するフレームの動きベクトルデータを抽出する機能と、該抽出された動きベクトルデータから動きアクティビティを計算する機能と、単位時間における動きアクティビティを計算する機能と、該単位時間における動きアクティビティを用いて概要情報の候補を判定する機能とから構成することができる。
【００４６】
また、抽出された概要情報を、オーディオビデオとして結合するか、またはオーディオとビデオ個別に結合するかをし、該結合した概要情報を別ファイルとして、記録媒体１００に記録することができる。
【００４７】
なお、前記記録媒１００には、ネットワークのように、データを一時的に記録保持するような伝送媒体も含まれる。
【００４８】
図９は、本発明の第２の実施形態であるオーディオ概要情報の抽出装置の構成を示すブロック図である。
【００４９】
まず、圧縮されたオーディオ情報CAが入力されると、サブバンドデータ抽出部Ａ１でサブバンドデータSDを抽出する。抽出されたサブバンドデータSDは高レベル音評価部Ａ３に送られる。サブバンドデータ抽出部Ａ１の動作としては、第１の実施形態に示した無音・低レベル音評価部５におけるサブバンドデータ抽出部５１と同様である。一方、非圧縮のオーディオ情報UAが入力されると、サブバンド解析部Ａ２で入力オーディオがサブバンド解析され、解析された結果としてのサブバンドデータSDは同様に高レベル音評価部Ａ３に送られる。
【００５０】
高レベル音評価部Ａ３では、第１の実施形態に示した高レベル音解析部２６に含まれるサブバンドエネルギー総和計算部２６２と、単位時間サブバンドエネルギー総和計算部２６３と同様の機能を持つ、図１０のサブバンドエネルギー総和計算部Ａ３１と、単位時間サブバンドエネルギー総和計算部Ａ３２により、入力されたサブバンドデータSDから、それぞれサブバンドエネルギー総和SBEと単位時間でのサブバンドエネルギー総和SBが計算される。
【００５１】
次に、概要情報開始時間決定部Ａ３３において、単位時間サブバンドエネルギー総和SBが最大となる時間位置を、概要情報開始時間T_startとして決定する。また、概要情報終了時間決定部Ａ３４では、単位時間サブバンドエネルギー総和SBが最大値のα倍（0<α<1）となる時間位置を、概要情報終了時間T_endとして決定する。このとき、T_start＞T_endである。
【００５２】
概要情報登録部Ａ４では、高レベル音評価部Ａ３で決定された概要情報開始時間T_startと、概要情報終了時間T_endに基づいて概要情報を登録する。そして、概要情報記述部Ａ５において上記時間情報を少なくとも記述し、概要情報記述ファイルとして出力する。記述するフォーマットとしては、例えばMPEG-7で規定されているフォーマットなどを用いることができる。
【００５３】
オーディオ情報が複数存在する場合には、上記の処理を全てのオーディオ情報に対して行う。
【００５４】
前記した実施形態のオーディオ概要情報抽出装置の機能は、ソフトウェア（プログラム）で実現することができ、該ソフトウェアは、光ディスク、フロッピー（登録商標）ディスク、ハードディスク等の記録媒体１００に記録することができる。また、抽出されたオーディオ概要情報は、個別のファイルとして、該記録媒体１００に記録することができる。
【００５５】
図１１は、該記録媒体１００に記録されるプログラムの一例を示すものであり、該記録媒体１００には、サブバンドデータ抽出機能１２１または／およびサブバンド解析機能１２２、高レベル音評価機能１２３、概要情報登録機能１２４、および概要情報記述機能１２５が記録される。
【００５６】
図１２は、本発明のオーディオビデオの概要情報再生装置の一実施形態を、構成図として表したものである。
【００５７】
前記手段により抽出されたオーディオビデオの概要情報SUMが入力されると、オーディオビデオ分離部Ｐ１において、概要情報のビデオ要素VSUMとオーディオ要素ASUMに分離される。次に、ビデオ速度変換部Ｐ２では、外部から与えられた変換速度パラメータSPに従ってビデオ要素VSUMを空間的に間引いてビデオの再生速度を変換する。同様にして、オーディオ要素ASUMはオーディオ速度変換部Ｐ３において変換速度パラメータSPに従ってビデオ要素VSUMと同じ割合で時間的に間引かれ、オーディオの再生速度を変換する。オーディオの再生速度変換としては、例えばオーディオのフレームの周期的なスキップや、繰り返し再生と周期的スキップの組み合わせなどによって実現することができる。ここで、オーディオを1.5倍の速度にする場合、前者では
＜再生するフレーム番号＞ 1、2、4、5、7、8、10、11、…
と連続する2フレームを再生し、次に続く1フレームスキップすることによって達成される。また後者では、
＜再生するフレーム番号＞ 1、1、4、4、7、7、10、10、…
と同一フレームを2回繰り返して再生し、次に続く2フレームをスキップすることによって達成される。
【００５８】
速度を変換されたビデオ要素VSUM´及びオーディオ要素ASUM´は、オーディオビデオ多重化・同期部Ｐ４に入力され、多重化及び同期処理が行われ、速度変換されたオーディオビデオの概要情報SUM´が得られる。得られたオーディオビデオの概要情報SUM´は、表示再生される。
【図面の簡単な説明】
【００５９】
【図１】本発明の一実施形態の全体構成を示すブロック図である。
【図２】図１のコンテンツ解析部の詳細構成を示すブロック図である。
【図３】図１のオーディオレベル評価部の詳細構成を示すブロック図である。
【図４】図３の高レベル音解析部の詳細構成を示すブロック図である。
【図５】図１の動きアクティビティ評価部の詳細構成を示すブロック図である。
【図６】図１の概要情報登録部の詳細構成を示すブロック図である。
【図７】図１の概要情報記述部の詳細構成を示すブロック図である。
【図８】記録媒体に記録されるプログラムの概要を示す図である。
【図９】本発明の他の実施形態のオーディオ概要情報抽出装置の構成を示すブロック図である。
【図１０】図８の高レベル音評価部の詳細構成を示すブロック図である。
【図１１】記録媒体に記録されるプログラムの概要を示す図である。
【図１２】本発明の他の実施形態のオーディオ概要情報再生装置の構成を示すブロック図である。
【符号の説明】
【００６０】
１・・・コンテンツ解析部、２・・・オーディオレベル評価部、３・・・動きアクティビティ評価部、４・・・概要情報登録部、５・・・概要情報記述部，Ａ１・・・サブバンドデータ抽出部，Ａ２・・・サブバンド解析部，Ａ３・・・高レベル音評価部、Ａ４・・・概要情報登録部、Ａ５・・・概要情報記述部、Ｐ１・・・オーディオビデオ分離部、Ｐ２・・・ビデオ速度変換部、Ｐ３・・・オーディオ速度変換部、Ｐ４・・・オーディオビデオ多重化・同期部、１００・・・記録媒体。

【特許請求の範囲】
【請求項１】
入力された圧縮オーディオコンテンツからサブバンドデータを抽出する手段と、
該サブバンドデータから、バンドにより重み付けしたサブバンドエネルギーの総和を計算する手段と、
単位時間におけるサブバンドエネルギー総和を評価する手段と、
オーディオ概要情報を抽出する手段とを具備したことを特徴とするオーディオ概要情報の抽出装置。
【請求項２】
入力された圧縮オーディオコンテンツからサブバンドデータを抽出する手段と、
該サブバンドデータから、バンドにより重み付けしたサブバンドエネルギーの総和を計算する手段と、
該サブバンドエネルギー総和のある単位時間における総和を計算する手段と、
概要情報の開始時間を判定する手段と、
概要情報の終了時間を判定する手段と、
該開始時間及び終了時間の区間のオーディオ情報を概要情報として抽出する手段を具備したことを特徴とするオーディオ概要情報の抽出装置。
【請求項３】
入力されたオーディオコンテンツをサブバンドデータに変換する手段と、
該サブバンドデータから、バンドにより重み付けしたサブバンドエネルギーの総和を計算する手段と、
時間単位でのサブバンドエネルギー総和を評価する手段と、
オーディオ概要情報を抽出する手段を具備したことを特徴とするオーディオ概要情報の抽出装置。
【請求項４】
入力されたオーディオコンテンツをサブバンドデータに変換する手段と、
該サブバンドデータから、バンドにより重み付けしたサブバンドエネルギーの総和を計算する手段と、
該サブバンドエネルギー総和のある単位時間における総和を計算する手段と、
概要情報の開始時間を判定する手段と、
概要情報の終了時間を判定する手段と、
該開始時間及び終了時間の区間のオーディオ情報を概要情報として抽出する手段を具備したことを特徴とするオーディオ概要情報の抽出装置。
【請求項５】
請求項１ないし４のいずれかに記載のオーディオ概要情報の抽出装置において、
抽出された概要情報の時間情報として、該概要情報の開始時間と終了時間、または開始時間と継続時間を少なくとも記述する手段を具備したことを特徴とするオーディオ概要情報の抽出装置。
【請求項６】
請求項１ないし４のいずれかに記載のオーディオ概要情報の抽出装置において、
抽出された概要情報を個別のファイルとして出力し保存する手段を具備したことを特徴とするオーディオ概要情報の抽出装置。
【請求項７】
オーディオビデオ概要情報の再生装置において、
抽出された概要情報のビデオ要素としてショットの先頭フレームまたはショットの代表フレームを抽出する手段と、
該概要情報のオーディオ要素としてショットに付随するオーディオ情報を抽出する手段と、
該抽出されたオーディオ要素を時間的に間引いてオーディオの再生速度を変換する手段と、
該抽出されたビデオ要素と該変換されたオーディオ要素を同期して再生する手段を具備したことを特徴とするオーディオビデオ概要情報の再生装置。
【請求項８】
オーディオビデオ概要情報の再生装置において、
抽出された概要情報としてのショットのビデオ情報を時間的に間引いてビデオの再生速度を変換する手段と、
該抽出された概要情報としてのショットのオーディオ情報をビデオ情報と同一の割合で時間的に間引いてオーディオの再生速度を変換する手段と、
該再生速度を変換されたビデオ情報とオーディオ情報を同期して再生する手段を具備したことを特徴とするオーディオビデオ概要情報の再生装置。
【請求項９】
請求項７または８に記載のオーディオビデオ概要情報の再生装置において、
前記オーディオの再生速度変換は、オーディオのフレームを周期的にスキップすることにより達成されることを特徴とするオーディオビデオ概要情報の再生装置。
【請求項１０】
請求項７または８に記載のオーディオビデオ概要情報の再生装置において、
前記オーディオの再生速度変換は、オーディオのフレームの繰り返し再生と周期的なスキップを組み合わせることにより達成されることを特徴とするオーディオビデオ概要情報の再生装置。
【請求項１１】
オーディオビデオ概要情報を抽出するためにコンピュータを、
入力された圧縮オーディオコンテンツからサブバンドデータを抽出するサブバンドデータ抽出手段及び入力されたオーディオコンテンツをサブバンドデータに変換するサブバンド解析手段の少なくとも一方と、
高レベル音を評価する手段、及び、
前記オーディオコンテンツの概要情報を登録する手段、
として機能させるためのオーディオビデオ概要情報を抽出するプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【公開番号】特開２００６−１４６２５３（Ｐ２００６−１４６２５３Ａ）
【公開日】平成１８年６月８日（２００６．６．８）
【国際特許分類】

【出願番号】特願２００５−３５７５２８（Ｐ２００５−３５７５２８）
【出願日】平成１７年１２月１２日（２００５．１２．１２）
【分割の表示】特願２０００−３９６８２０（Ｐ２０００−３９６８２０）の分割
【原出願日】平成１２年１２月２７日（２０００．１２．２７）
【出願人】（０００２０８８９１）ＫＤＤＩ株式会社 (2,700)
【Ｆターム（参考）】

記録のためのテレビジョン信号処理 (118,419)

[ Back to top ]

オーディオ概要情報の抽出装置、再生装置、および記録媒体

メニュー

スポンサーリンク

次の公報 »

« 前の公報

オーディオ概要情報の抽出装置、再生装置、および記録媒体

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク