電子透かし埋め込み方法および電子透かし埋め込みプログラムを格納した記録媒体

【課題】デジタル映像コンテンツに電子透かしを埋め込む処理の演算量を削減して処理効率向上および処理時間短縮を実現でき、またハードウェアリソースの増強が望めないプラットフォームにおいても処理時間短縮が可能となる技術を提供する。
【解決手段】デジタル映像コンテンツを構成するビデオデータに対し電子透かしを埋め込む処理を行う際、これに同期再生されるオーディオデータについてサンプリング特性の違い等から音声のタイプを判別し、音声のタイプに応じて電子透かしを埋め込む処理の対象となるビデオデータの領域を限定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、電子透かし技術に関し、特にデジタル映像コンテンツに電子透かしを埋め込む技術に関する。
【背景技術】
【０００２】
デジタル映像コンテンツの著作権保護等のための技術として電子透かし技術がある。電子透かし技術は、静止画像、映像（動画像）、音などのデータに対し、人間の知覚特性を利用して電子透かし情報を知覚できないように埋め込む技術である。埋め込まれる電子透かし情報は、著作権情報や利用者情報等である。例えば、電子透かし処理用のプログラムにより、デジタル映像コンテンツを構成する映像データに対し、そのコンテンツについての著作権保護等のための電子透かし情報が埋め込まれる。また、電子透かし検出処理により、電子透かし入りのデジタル映像コンテンツデータから電子透かし情報が検出される。
【０００３】
従来技術では、映像への電子透かし埋め込み処理を行う場合、無条件で、映像を構成するビデオストリーム全体すなわち全フレーム及びフレーム内全画像領域に対し均一に電子透かし埋め込み処理を実行していた。
【０００４】
特開２００２−１７１４９２号公報には、電子透かし情報埋め込みを行う技術について開示されている。具体的には、符号圧縮した画像信号に電子透かし情報を埋め込む装置において、画像信号をデジタル符号圧縮するときに、ＭＰＥＧにおけるＩフレームごとに電子透かし情報の埋め込みを行う等の旨が記載されている。この技術では、扱えるデータがＭＰＥＧ形式に限定される。
【０００５】
【特許文献１】特開２００２−１７１４９２号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
従来の映像全体に対し電子透かし埋め込み処理を実行する方法では、多数のフレーム及び画素に対し処理を施す必要があるため、大量の演算を必要とする。そのため、処理時間が長くかかるという問題がある。また、この映像全体への電子透かし埋め込み処理について高速化を図ろうとする場合、処理実行のプラットフォームとなるハードウェアの性能向上、すなわちＣＰＵ(中央処理装置)クロックやＨＤＤ（ハードディスクドライブ）アクセス等の性能向上を図る以外に方法が無く、ハードウェアリソースの増強には大きなコストがかかるという問題がある。また、電子透かし埋め込み処理の際、処理実行のプラットフォームとなるハードウェアにおいて使用ＣＰＵが現状で最高性能のものであるなどの性能面での限界がある場合、望ましい電子透かし処理性能が得られないという問題もある。
【０００７】
本発明の目的は、デジタル映像コンテンツに電子透かしを埋め込む処理に関して演算量を削減して処理効率向上および処理時間短縮を実現でき、また、ハードウェアリソースの増強が望めないプラットフォームの場合においても処理時間短縮が可能となる技術を提供することにある。
【課題を解決するための手段】
【０００８】
本発明は、デジタル映像コンテンツを構成するビデオデータに対し電子透かしを埋め込む処理を行う際、これに同期再生されるオーディオデータについてサンプリング特性の違い等から音声の種類を判別し、音声の種類に応じて電子透かしを埋め込む処理の対象となるビデオデータの領域を限定する。
【発明の効果】
【０００９】
電子透かし埋め込みプログラムを含んで構成される電子透かし処理システムまたは電子透かし処理を施したデジタルコンテンツ作成システム及び方法の効率化を実現できる。また、ハードウェアリソースの増強が望めないプラットフォームの場合においても処理時間短縮が可能となる。
【発明を実施するための最良の形態】
【００１０】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
【００１１】
図１は、電子透かし埋め込みプログラムおよび方法および装置における基本的な処理概要の一例を示す説明図である。
【００１２】
本実施の形態の電子透かし埋め込みプログラムは、ビデオデータ（ビデオストリーム）とオーディオデータ（オーディオストリーム）とを含んで構成されるデジタル映像コンテンツについてビデオデータに対し電子透かし情報を埋め込む際、オーディオデータについての音声の種類を判別し、音楽であると判断したオーディオデータ部分領域に対応するビデオデータ部分領域を対象として限定的に電子透かしを埋め込む処理をコンピュータに実行させる。
【００１３】
デジタル映像コンテンツは、多くの場合、映像を構成するビデオデータ部分と音声を構成するオーディオデータ部分とがセットになっている。すなわち、デジタル映像コンテンツは、再生手段によりビデオデータとオーディオデータとが時間的に同期して再生されることでコンテンツとして機能する形式のデータである。また、デジタル映像コンテンツ中で著作権を主張するビデオデータ部分に対応するオーディオデータ部分は、多くの場合、音声の種類として音楽あるいは人声のどちらかに分類できる。例えば、ある映像のシーンにおいて背景音楽（ＢＧＭ）が流れている場合や人声として演説が流れている場合などである。
【００１４】
このように、複数の音声の種類（音楽や人声）がデジタル映像コンテンツを構成するオーディオデータに含まれている場合、オーディオデータについて音声の種類の判別を行い、オーディオデータ部分領域に応じて音楽や人声などのタイプに分類する。この判別に基づき、電子透かし埋め込み処理対象となる映像領域を、音楽が同期再生されるシーン（ビデオデータ部分領域）に限定する。そしてこの限定に基づき、電子透かし埋め込み処理対象とされたビデオデータ部分領域に対しその著作権保護等のための電子透かし埋め込み処理を施す。
【００１５】
オーディオデータ部分領域とは、オーディオデータ全体における、ある再生期間内のオーディオデータである。ビデオデータ部分領域とは、ビデオデータ全体における、ある再生期間内のビデオデータ（フレームの集合）である。
【００１６】
オーディオデータにおける音声の種類の判別処理としては、例えばオーディオデータ部分領域について音楽／その他の音声の二種類への分類を行う。あるいは音楽／人声／その他の複数種類への分類を行う処理形態としてもよい。
【００１７】
本発明の各実施の形態では、デジタル映像コンテンツにおいて映像を構成するビデオデータに対しその著作権保護等のための電子透かし情報を埋め込むに際し、ビデオデータ（図１における「Video」）に対応するすなわち同期再生されるオーディオデータ（図１における「Audio」）について音声の種類の判別を行う。
【００１８】
音声の種類についての判別のために、デジタル映像コンテンツ中のオーディオストリームすなわちオーディオデータ再生時の波形における特徴を調べる。特に、オーディオストリームの部分で音が連続して流れるか、それとも断続して流れるかに着目する。言い換えれば、サンプリング時のアナログ音波形における周波数の変動の大小及びそのサンプリング時におけるサンプリング幅の長短に着目する。
【００１９】
この判別でオーディオデータが音声の種類ごとのオーディオデータ部分領域に区分される。例えば図１の場合、オーディオデータを、オーディオタイプＡ、オーディオタイプＢの二種類に分類している。この判別は、オーディオストリームにおけるサンプリング特性の違いに基づき行う。オーディオデータにおける音声の種類の判別に基づき、ビデオデータ領域全体に対して電子透かし埋め込み処理対象となる領域を、特定のオーディオタイプが同期再生される部分領域に限定する。例えば図１の場合、電子透かし埋め込み処理対象となる領域を、オーディオタイプＢの領域に限定している。そしてこの限定に基づき、電子透かし埋め込み処理対象とされたビデオデータ部分領域に対しその著作権保護等のための電子透かし埋め込み処理を施す。これにより、電子透かし埋め込み処理に要する総演算量が減少される。
【００２０】
図２（ａ），（ｂ）は、アナログ音に対するサンプリング（Ａ／Ｄ変換）の特徴について示す図である。（ａ）は、アナログ音の波形の例を示し、（ｂ）はそれをサンプリングしたデジタルの波形を示す。この図に示すように、アナログ音をデジタル化する場合、一般的に、音楽のように比較的音が連続して流れ周波数の変動が少ない性質の領域についてはサンプリング幅（サンプリング時間）を長くとり、人声のように比較的音が断続的に流れ周波数の変動が多い性質の領域についてはサンプリング幅（サンプリング時間）を短くとる方法で処理が行われる。オーディオデータ中で、サンプリング前のアナログ波形における周波数変動が少ない部分に対応するサンプリング後のデジタル波形の部分は、そのサンプリング幅（サンプリング時間）が比較的長くなっている。
【００２１】
一般的なサンプリングの特徴を踏まえ、例えば、オーディオデータにおけるサンプリング幅の長短を調べることによって、オーディオデータ部分領域について音楽の部分を判断する。さらには、例えばサンプリング幅が長い割合が大きいオーディオデータ部分領域については音楽であると判断する。そしてこのオーディオデータ部分領域に対応するビデオデータ部分領域について電子透かし埋め込み処理対象とし、これに限定して電子透かし埋め込み処理を施す。
【００２２】
また、オーディオデータ部分領域における音声の種類の判別を、オーディオデータ部分領域におけるサンプリング時のサンプリング幅の長短、特にロング・ウィンドウやショート・ウィンドウの出現割合や出現回数を調べることによって行う。そしてその出現割合等を所定のしきい値と比較してその上下で音楽と人声に区分する。
【００２３】
またサンプリング幅の長短等についての情報は、デジタル映像コンテンツ中にヘッダ情報等の形式で含まれるサンプリング幅情報等を参照することで取得してもよいし、オーディオデータに対しサンプリング幅の長短等を算出する処理を別途行ってもよい。
【００２４】
図３は、電子透かし埋め込みプログラムの処理概要を示す一例である。また、図４は、本実施の形態における電子透かし埋め込みプログラムの処理と入出力データを示すブロック図である。
【００２５】
本実施の形態では、デジタル映像コンテンツを構成するうちのオーディオデータについて音声の種類の判別を行い、オーディオデータ部分領域に応じて音楽と人声の二種類のタイプに分類する。この判別に基づき、電子透かし埋め込み処理対象となるビデオデータ領域を、音楽が同期再生されるビデオデータ部分領域に限定する。そしてこの限定に基づき、電子透かし埋め込み処理対象とされたビデオデータ部分領域に対しその著作権保護等のための電子透かし埋め込み処理を施す。図中の斜線領域は、ビデオデータ中で電子透かしデータが埋め込まれた領域である。この電子透かしデータによりそれに対応する映像部分が保護される。
【００２６】
図４で、実施の形態の電子透かし埋め込みプログラムの処理対象となるデジタル映像コンテンツ１０１は、ディジタル化されたビデオデータ１０２と同じくディジタル化されたオーディオデータ１０３とを含んで構成される。デジタル映像コンテンツ１０１の対象となる形式としては、例えばＭＰＥＧ-２等がある。MPEG-2の場合は、ビデオデータ、オーディオデータがディジタル化されているだけでなく、ともに符号化処理が行われている。デジタル映像コンテンツ１０１は、例えばMPEG−２の場合は再生手段により復号化され、ビデオデータ１０２とオーディオデータ１０３とが時間的に同期して再生されることでコンテンツとして機能する。本実施の形態の電子透かし埋め込みプログラムは、大別して、音声判別部１０４と電子透かし埋め込み処理部１０９とで構成される。
【００２７】
音声判別部１０４は、デジタル映像コンテンツ１０１のオーディオデータ１０３の部分について音楽と人声とで別々に扱うための、音声の種類の判別処理を行う処理部である。音声判別部１０４は、デジタル映像コンテンツ１０１を入力し、それに含まれるオーディオデータ１０３について音声の種類を後述の方法により判別して、音楽であると判断される部分と人声であると判断される部分とに分類する。また無音等のその他部分への分類を行ってもよい。特に図３の実施の形態では、オーディオデータ１０３について音楽部分がないかどうかを判断し、音楽と判断されるオーディオデータ部分領域を、電子透かし埋め込み処理部１０９における電子透かし埋め込み処理対象とする。音声判別部１０４は、この判別処理により、オーディオデータ１０３を、音楽と判断されたオーディオ音楽領域１０６と、人声と判断されたオーディオ人声領域１０８とに区分する。またビデオデータ１０２を、各領域１０６，１０８に対応する部分領域に区分する。ビデオ領域１０５は、オーディオ音楽領域１０６に同期再生されるビデオデータ部分領域である。またビデオ領域１０７は、オーディオ人声領域１０６に同期再生されるビデオデータ部分領域である。
【００２８】
電子透かし埋め込み処理部１０９は、ビデオデータ１０２に対し電子透かし情報を埋め込む処理を行う処理部である。電子透かし埋め込み処理部１０９は、音声判別部１０４での処理後、ビデオ領域１０５を電子透かし埋め込み処理対象として電子透かしデータの埋め込み処理を施す。電子透かし埋め込み処理部１０９で処理後に出力される電子透かし入りのビデオデータ部分領域は、電子透かし埋め込み処理対象とならなかったビデオ領域１０７と結合される。
【００２９】
このようにして製造される電子透かし入りデジタル映像コンテンツ１１０は、電子透かし入りビデオデータ１１１とオーディオデータ１１２とを含んで構成される。電子透かし入りビデオデータ１１１は、電子透かし埋め込み処理部１０９での電子透かし埋め込み処理によりビデオデータ１０２のうちのビデオ領域１０５に電子透かしデータが埋め込まれたデータである。
【００３０】
次に、音声判別部１０４の処理動作について説明する。音声判別部１０４では、入力されたデジタル映像コンテンツ１０１のオーディオデータ１０３について各部分のサンプリング幅を認識してその長短により、音楽に対応するオーディオデータ部分領域を特定する。例えば、オーディオデータ１０３の部分領域において、サンプリング幅が長い部分の割合が多い場合あるいはサンプリング幅が長い部分が続く場合、その部分領域を音楽に対応すると判断する。これがオーディオ音楽領域１０６となる。そして、音声判別部１０４は、このオーディオ音楽領域１０６と同期再生されるビデオデータ部分領域に対し電子透かし埋め込み処理が必要であると判定する。これがビデオ領域１０５となる。ビデオデータ１０２全体のうちでビデオ領域１０５が電子透かし埋め込み処理対象として設定される。電子透かし埋め込み処理対象と設定されたビデオ領域１０５は、電子透かし埋め込み処理部１０９に入力されて電子透かし埋め込み処理がなされる。また、オーディオデータ１０３の部分領域において、サンプリング幅が短い部分の割合が多い場合あるいはサンプリング幅が短い部分が続く場合、その部分領域を人声に対応すると判断する。これがオーディオ人声領域１０８となる。
【００３１】
音声判別部１０４において電子透かし埋め込み処理対象と判断されたビデオ領域１０５以外のビデオデータ部分領域、すなわちここではオーディオ人声領域１０８に対応するビデオ領域１０７については電子透かし埋め込み処理対象とはせずそのまま出力する。
【００３２】
音声判別部１０４での音楽と人声のタイプの判別は、主にデジタル映像コンテンツ１０１のメタデータやオーディオデータ１０３に含まれるヘッダ情報等から行う。多くの場合、デジタル映像コンテンツ１０１の作成時点で、そのデータについての各種情報がメタデータあるいはヘッダ情報として作成され、デジタル映像コンテンツ１０１の内部あるいは関連付けされた外部に記述されるのでそれを利用する。本実施の形態では、オーディオデータ１０３に、オーディオストリームにおけるサンプリング幅情報を含む属性情報が付随している。音声判別部１０４は、判別処理の際このサンプリング幅情報を参照してオーディオデータ部分領域におけるサンプリング幅の長短を認識し、この認識をもとに音楽部分を含むか否か、またはその箇所の特定を行う。
【００３３】
または、音声判別部１０４は、このサンプリング幅等の情報について、オーディオデータ１０３を別途分析処理することにより取得してもよい。またサンプリング幅情報以外で、サンプリング幅の長短の情報を算出できる別の情報を利用してもよい。または、オーディオデータ１０３において各部分領域ごとにあらかじめ音楽や人声等の音声の種類を教える識別情報（フラグ）が含まれている場合はそれをそのまま利用して音楽や人声等の分類を行ってもよい。
【００３４】
音声判別部１０４での処理例を示す。判別処理用のメモリにデジタル映像コンテンツ１０１中のオーディオデータ１０３を適宜読み込みながら処理を行う。例えば、読み込まれたうちの一定時間分のオーディオデータ部分領域について、長短のサンプリング幅の出現の回数を計算し、一定時間分のうち長いサンプリング幅と判断した場合の時間が占める割合が、短いサンプリング幅と判断した場合の時間が占める割合より多い場合に、音楽データと判断する。判断するためのオーディオデータの分割方法としては、例えば、ビデオデータ１０２を構成するフレーム（映像を構成する各画面）に対応するように時間領域で区分する。そして、その区分されたオーディオデータ部分領域ごとにサンプリング幅の長短を調べることによる音声の種類の判別処理を行う。
【００３５】
あるいは、少なくとも長いサンプリング幅であると判断するための閾値を設け、その閾値を超えた場合のサンプリング幅の累積値が一定時間分の半分等、出現割合が所定値以上となる場合、この部分領域ではサンプリング幅を長くとっている割合が大きいので、このオーディオデータ部分領域を音楽に対応すると判断する。人声部分を判断する場合は、逆にショート・ウィンドウの出現割合が高い部分領域については、人声であると判断する。
【００３６】
音声判別部１０４は、サンプリング幅の認識のために、オーディオデータ１０３に含まれる、アナログ音サンプリング時のロング・ウィンドウ（long windows）、ショート・ウィンドウ（short windows）の情報を利用する。ウィンドウは、オーディオデータ１０３を構成する元となるアナログ音の波形に対する単位サンプリングにおいて使用されたサンプリング幅を表わす。アナログ音サンプリング時に、入力となるアナログ音の周波数特性に応じてショート・ウィンドウとロング・ウィンドウの二種類のサンプリング幅を用いてサンプリングを行う方法がある。本実施の形態の場合、オーディオデータ１０３は、この方法でサンプリングしたデータであるものとする。オーディオデータ１０３には、オーディオストリーム再生のためにこのウィンドウ情報が付随している。
【００３７】
ロング・ウィンドウとショート・ウィンドウによる音声判別処理例を説明する。簡単にアナログデータのデジタルデータ化の方法について説明する。アナログデータのデジタルデータへの変換は、ある区間（例えば１０２４点とか２０４８点）のデータについて行われる。このとき、解析データ長（ウィンドウの長さ）がアナログデータの周期の整数倍と一致していない場合は、ひずんだ波形を処理することになり、アナログデータにおける実際の波形とデジタルデータにおける波形との誤差が大きくなる。そこで、アナログデータの変化の周期が短い場合は、解析データ長を短くして、誤差を少なくする。アナログデータの変化の周期が長い場合の解析データ長をロング・ウィンドウと呼び、変化の周期が短い場合の解析データ長をショート・ウィンドウと呼ぶ。音楽のデジタルデータ化の場合、音楽では音が連続して流れるため予測を超える周波数の変動は少ない。そのため、ロング・ウィンドウでも実際の波形に近い波形が得られ、ショート・ウィンドウの出現率は低い。人声のデジタルデータ化の場合、人声には破裂音等を含み、間が在るため音が連続せず、頻繁にショート・ウィンドウが出現する。また無音の箇所もみられる。
【００３８】
従って、音声処理部１０４は、オーディオデータ部分領域においてそれぞれのウィンドウの割合や出現数を計算する。例えばあるオーディオデータ部分領域においてロング・ウィンドウの出現数が所定値以上の場合、サンプリング幅が長い部分の割合が大きいので、これに対応するアナログ波形における周波数変動が少ないと判断してこの領域を音楽に対応すると判断する。このオーディオデータ部分領域を音楽に対応すると判断する。
【００３９】
また、別の判別基準としては、長短のサンプリング幅の連続出現数や連続時間を計算してもよい。あるいはサンプリング幅の平均を計算してもよい。そして計算した値を所定のしきい値と比較してその上下により音楽／人声への区分を行う。更に別の判別基準としては、オーディオデータ中でロング・ウィンドウあるいはショート・ウィンドウがどの程度連続して出現するかを調べてもよい。オーディオデータ中でロング・ウィンドウの出現が一定以上連続して続く部分領域すなわちサンプリング幅を長くとっている箇所が続く部分領域については、音楽に対応すると判断する。逆の場合は人声であると判断する。
【００４０】
本実施の形態の電子透かし埋め込みプログラムでは、映像シーンに対応して流されるオーディオストリームから任意範囲のウィンドウ形状すなわちロング・ウィンドウとショート・ウィンドウの情報を取得し、取得したウィンドウ形状におけるショート・ウィンドウの出現頻度が所定のしきい値未満である場合は、その部分領域を音楽シーンすなわち音楽が流れるシーンであると判断する。またそれ以外すなわちショート・ウィンドウの出現頻度がしきい値以上である場合は、その部分領域を人声シーン（会話シーン）であると判断する。ロング・ウィンドウ及びショート・ウィンドウの情報を用いた解析方法は、例えば、「ＭＰＥＧ-２ＡＡＣ」や「ＭＰ３」、「Ｄｏｌｂｙ（商標登録）ＡＣ３（商標登録）」等の形式において利用することができる。
【００４１】
なお、図４には、ディジタルオーディオデータを音楽または人声のいずれかに判別する構成であったが、また無音等のその他部分への分類を行ってもよい。さらには、オーディオデータ１０３中で音声の種類として音声に判別しにくい部分がある場合に、そのオーディオデータ部分領域については音声への区分を行わず、この領域に同期再生されるビデオデータ部分領域を電子透かし埋め込み処理対象と設定して電子透かしを埋め込んでおくようにしてもよい。
【００４２】
また他の処理として、ビデオデータ１０２の部分領域における色や動き等の判別との組み合わせにより音声の判別を行ってもよい。例えば、ビデオデータ部分領域で、色として人間の肌色が多く含まれているかどうかを調べる。肌色が多く含まれている場合にそれと同期再生されるオーディオデータ部分領域は人声である可能性が高いと判断する。
【００４３】
図５は、電子透かし埋め込みプログラムを実行するプラットフォームとなるハードウェア構成例を示す。ＰＣ（パーソナルコンピュータ）５０１は、ＣＰＵ５０２、キャプチャボード５０４、エンコーダ５０５、メモリ５０６を有する構成である。ＰＣ５０１のキャプチャボード５０４にビデオカメラ５０３が通信線で接続されている。ＰＣ５０１は、本電子透かし埋め込みプログラムを図示しないメインメモリ上に有する。ＨＤＤもしくはフレキシブルディスクが格納することにしてもよい。ＣＰＵ５０２が本電子透かし埋め込みプログラムをメインメモリ等から読み込んで実行することで各処理が実現される。従って、本実施の形態では、音声処理部１０４および電子透かし埋め込み処理部１０９をＣＰＵ５０２が実現する。ビデオカメラ５０３は、デジタル映像コンテンツ１０１を作成するための元となる映像と音を入力して撮影及び録音を行う装置である。ここでは音を録音するマイク等については図示を省略し、映像と音とを一つの線でまとめて示す。
【００４４】
ビデオカメラ５０３に入力された映像及び音は、アナログ信号として処理されてキャプチャボード５０４に入力される。キャプチャボード５０４は、入力された映像と音のアナログ信号についてデジタル化すなわちサンプリングを行い、デジタル映像コンテンツ１０１の構成部分となるビデオデータ１０２とオーディオデータ１０３を生成する処理を行う。このサンプリングの際は、アナログ音の波形に対して例えばロング・ウィンドウとショート・ウィンドウの二種類のサンプリング幅を使用した処理を行い、そのサンプリング幅情報をデータにヘッダ情報として付随させる。アナログ音がその周波数特性に応じたサンプリング幅でサンプリングされる。エンコーダ５０５は、ビデオデータ１０２とオーディオデータ１０３についてＭＰＥＧ形式等での必要な符号化（圧縮）処理等を施すためのものである。これはキャプチャボード５０４内に一体構成されていてもよい。キャプチャボード５０４及びエンコーダ５０５を通じて生成されたビデオデータ１０２とオーディオデータ１０３は、メモリ５０６に保存される。このデータをもとにしてデジタル映像コンテンツ１０１が構成される。
【００４５】
メモリ５０６上のビデオデータ１０２及びオーディオデータ１０３に対して、ＣＰＵ５０２により、本電子透かし埋め込みプログラムによる音声判別処理及び電子透かし埋め込み処理を施す。これにより、電子透かし入りデジタル映像コンテンツ１１０が作成される。
【００４６】
なお、本実施の形態では、音声判別処理及び電子透かし埋め込み処理を、一旦完成後のデジタル映像コンテンツ１０１のデータ（オーディオ及びビデオ）に対し実行する処理形態としている。これに限らず、完成前のデジタル映像コンテンツ１０１のデータに対し処理を実行する処理形態としてもよい。また、作成済みのデジタル映像コンテンツ１０１のデータが外部に有る場合は、これをＰＣ５０１のメモリ５０６に読み込んで、これに対しＣＰＵ５０２により本電子透かし埋め込みプログラムを実行して、電子透かし入りデジタル映像コンテンツ１１０を作成してもよい。
【００４７】
電子透かし情報検出側のシステムは従来技術に従うことができる。さらに映像部分とは別に音部分の著作権保護等を行いたい場合には、所定の電子透かし埋め込み技術によりオーディオデータ１０３に対しても電子透かし埋め込み処理を施してもよい。
【００４８】
本実施の形態では、デジタル映像コンテンツ１０１のオーディオデータ１０３部分についての電子透かし情報の埋め込みは別の処理であり、本実施の形態における処理では、音声判別部１０４が人声と判別、または音楽とは判別しないオーディオデータ１０３に対しては電子透かし埋め込み処理を施さない構成としている。しかしながら、肖像権を保護する目的等のため、逆に人声の部分について電子透かし埋め込み処理を行う構成とすることもできる。
【００４９】
その場合は、例えば図４の処理のなかでデジタル映像コンテンツを構成するうちのオーディオデータについて音声の種類の判別を行い、オーディオデータ部分領域に応じて音楽と人声の二種類のタイプに分類する。判別は例えば、オーディオデータにおけるサンプリング幅の長短を調べることによって、オーディオデータ部分領域について人声の部分を判別する。例えばサンプリング幅が短くなる割合が大きいオーディオデータ部分領域については人声であると判別する。そしてこのオーディオデータ部分領域に対応するビデオデータ部分領域について電子透かし埋め込み対象とし、これに限定して電子透かし埋め込み処理を施す。
【００５０】
さらに具体的には、音声処理部１０４は、サンプリング幅の認識のためにロング・ウィンドウ、ショート・ウィンドウの情報を利用する。オーディオデータ部分領域においてそれぞれのウィンドウの割合や出現数を計算し、所定のしきい値と比較してその上下により音声への区分を行う。映像シーンに対応するオーディオストリームから任意範囲のウィンドウ形状すなわちロング・ウィンドウとショート・ウィンドウの情報を取得し、取得したウィンドウ形状におけるショート・ウィンドウの出現頻度が所定のしきい値以上である場合は、その部分領域を人声シーン（会話シーン）であると判断する。
【００５１】
この判別に基づき、音声判別部１０４が例えばサンプリング幅が短いと判別された場合には、図４の場合とは逆に、そのビデオ領域とオーディオ音楽領域が電子透かし埋め込み処理部１０９に送られ、電子透かし処理が行われる。サンプリング幅が長いと判断された場合は、電子透かし埋め込み処理が行われないことになる。
【００５２】
または、電子透かし処理を行う音声の種類を設定できる構成としていもよい。例えば図５で図示しない入力装置によって、図６に示す設定値を変更することが可能な構成とする。図６は、各音声の種類601に対して、判別する基準例６０２と電子透かしを行うか否かをフラグで設定する場合の設定値６０３の一例を示す図である。この設定は、プログラム立上げ時に毎回行う構成としてもよいし、処理の途中で任意に設定変更可能な構成としてもよい。
【００５３】
さらに、図５の例では、ＣＰＵが図４の音声処理部１０４および電子透かし埋め込み処理部１０９を実現する構成としたが、電子透かし埋め込み処理部１０９は別構成の電子透かし埋め込み装置を用いる構成としてもよい。その場合のハードウェア構成を図７に示す。図７の場合、エンコーダ５０５から音声処理部１０４と電子透かし埋め込み装置７０１に対してデータが送付される。音楽に対して電子透かし埋め込み処理を行うことを前提として説明する。音楽と判断されるオーディオデータ部分領域がある場合、音声処理部１０４（ＣＰＵ５０２）はその部分を特定し、その部分領域を特定する情報、例えばフレーム番号を電子透かし埋め込み装置７０１に出力する。
【００５４】
電子透かし埋め込み装置７０１では、図７Ｂで示すように、ＣＰＵ５０２からの指示の有無をチェックする（ステップ７０５）。ＣＰＵ５０２から何らかの信号を入力した場合に、それがオーディオデータ部分領域に対する特定、すなわち、音楽データの位置情報であるか否かを確認する（ステップ７０７）。ない場合には、ＣＰＵからの指示を受けるまで待機する。音楽データの位置情報であった場合は、特定されたオーディオデータ部分領域に対応するビデオデータ部分領域に対して電子透かし埋め込み処理を実施する（ステップ７０９）。音楽データの位置情報でない場合は、ＣＰＵからの指示をうけるまで待機する。
【００５５】
このような構成にすることにより、電子透かし埋め込み処理については、高速なハードウェアを利用することができるため、さらなる高速化を図ることが可能となる。
【００５６】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【００５７】
上述のように、電子透かし埋め込み処理対象となるビデオデータ領域を、音楽が同期再生される部分に限定することで、デジタル映像コンテンツ１０１のビデオデータ１０２部分への電子透かし埋め込み処理に要する総処理時間を短縮できる。電子透かし埋め込みプログラムを含んで構成される電子透かし処理システムまたは電子透かし処理を施したデジタルコンテンツ作成システム及び方法の効率化を実現できる。また、ハードウェアリソースの増強が望めないプラットフォームの場合においても処理時間短縮が可能となる。
【図面の簡単な説明】
【００５８】
【図１】図１は、電子透かし埋め込みプログラムにおける基本的な処理概要を示す説明図である。
【図２】図２は、一般的な、アナログ音に対するサンプリングの特徴について示す図である。
【図３】図３は、電子透かし埋め込みプログラムの処理概要を示す説明図である。
【図４】図４は、電子透かし埋め込みプログラムの処理と入出力データを示すブロック図である。
【図５】図５は、ハードウェア構成例を示す図である。
【図６】図６は、音声の判断基準及び処理対象とする場合の設定値の一例を示す。
【図７】図７は、ハードウェア構成の他の例を示す図である。
【符号の説明】
【００５９】
１０１…デジタル映像コンテンツ、１０２…ビデオデータ、１０３…オーディオデータ、１０４，２０１…音楽／音声判別部、１０５…ビデオ領域、１０６…オーディオ音楽領域、１０７…ビデオ領域、１０８…オーディオ音声領域、１０９，２０２…電子透かし埋め込み処理部、１１０，２０３…電子透かし入りデジタル映像コンテンツ、１１１，２０４…電子透かし入りビデオデータ、１１２…オーディオデータ、５０１…ＰＣ、５０２…ＣＰＵ、５０３…ビデオカメラ、５０４…キャプチャボード、５０５…エンコーダ、５０６…メモリ。

【特許請求の範囲】
【請求項１】
ディジタルビデオデータと複数の音声の種類を含むディジタルオーディオデータを有するディジタルコンテンツに対する電子透かし埋め込みプログラムであって、
ディジタルビデオデータと前記ディジタルビデオデータに時間的に関連するディジタルオーディオデータをメモリに格納するステップと、
前記ディジタルオーディオデータが電子透かし処理対象となる種類のディジタルオーディオデータ部分を含むか否かをプロセッサが判別するステップと、
前記ディジタルオーディオデータが電子透かし処理対象となる種類のディジタルオーディオデータ部分を含む場合には、前記電子透かし処理対象となる種類のディジタルオーディオデータ部分に時間的に関連するディジタルビデオデータ部分に対し電子透かしをプロセッサが埋め込むステップを有することを特徴とするプログラム。
【請求項２】
請求項１記載の電子透かし埋め込みプログラムであって、
判別するステップでは、前記プロセッサは前記ディジタルオーディオデータの所定範囲に分割し、前記所定範囲内のサンプリング時のロング・ウィンドウの出現割合によって前記電子透かし処理対象となる種類のディジタルオーディオデータ部分を含むか否かを判別することを特徴とする電子透かし埋め込みプログラム。
【請求項３】
請求項２記載の電子透かし埋め込みプログラムであって、
することを特徴とする電子透かし埋め込みプログラム。
判別するステップでは、前記プロセッサは各々の範囲のサンプリング時のロング・ウィンドウの出現割合が所定値よりも高い場合に前記範囲のディジタルオーディオデータを前記電子透かし処理対象となる種類のディジタルオーディオデータ部分であるとして判別することを特徴とする電子透かし埋め込みプログラム。
【請求項４】
請求項１記載の電子透かし埋め込みプログラムであって、
判別するステップでは、前記プロセッサは前記ディジタルオーディオデータが音楽である場合に、前記電子透かし処理対象となる種類のディジタルオーディオデータ部分として判別することを特徴とする電子透かし埋め込みプログラム。
【請求項５】
請求項１記載の電子透かし埋め込みプログラムであって、
前記ディジタルビデオデータ及び前記ディジタルオーディオデータをアナログビデオデータ及びディジタルオーディオデータからＡ/Ｄ変換するステップをさらに有することを特徴とする電子透かし埋め込みプログラム。
【請求項６】
請求項１記載の電子透かし埋め込みプログラムであって、
電子透かし処理対象となる種類を設定するステップをさらに有することを特徴とする電子透かし埋め込みプログラム。
【請求項７】
ビデオデータと前記ビデオデータに同期して再生されるオーディオデータを含むディジタル映像コンテンツに対し電子透かしを埋め込む電子透かし埋め込みプログラムにおいて、
前記オーディオデータを部分ごとに音声の種類を判別するステップと、
前記オーディオデータの音声の種類が電子透かし処理対象の音声の種類と一致した場合に前記オーディオデータに同期するビデオデータ部分に対して電子透かしを埋め込むステップを有することを特徴とする電子透かし埋め込みプログラム。
【請求項８】
請求項７記載の電子透かし埋め込みプログラムにおいて、
前記電子透かし処理対象の音声の種類は音楽であることを特徴とする電子透かし埋め込みプログラム。
【請求項９】
請求項７記載の電子透かし埋め込みプログラムにおいて、
前記音声の種類の判別は、前記オーディオデータの一部分におけるサンプリング時のロング・ウィンドウとショート・ウィンドウの出現割合の情報によることを特徴とする電子透かし埋め込みプログラム。

【図１】