説明

電子透かし埋め込み方法および電子透かし埋め込みプログラムを格納した記録媒体

【課題】 デジタル映像コンテンツに電子透かしを埋め込む処理の演算量を削減して処理効率向上および処理時間短縮を実現でき、またハードウェアリソースの増強が望めないプラットフォームにおいても処理時間短縮が可能となる技術を提供する。
【解決手段】 デジタル映像コンテンツを構成するビデオデータに対し電子透かしを埋め込む処理を行う際、これに同期再生されるオーディオデータについてサンプリング特性の違い等から音声のタイプを判別し、音声のタイプに応じて電子透かしを埋め込む処理の対象となるビデオデータの領域を限定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子透かし技術に関し、特にデジタル映像コンテンツに電子透かしを埋め込む技術に関する。
【背景技術】
【0002】
デジタル映像コンテンツの著作権保護等のための技術として電子透かし技術がある。電子透かし技術は、静止画像、映像(動画像)、音などのデータに対し、人間の知覚特性を利用して電子透かし情報を知覚できないように埋め込む技術である。埋め込まれる電子透かし情報は、著作権情報や利用者情報等である。例えば、電子透かし処理用のプログラムにより、デジタル映像コンテンツを構成する映像データに対し、そのコンテンツについての著作権保護等のための電子透かし情報が埋め込まれる。また、電子透かし検出処理により、電子透かし入りのデジタル映像コンテンツデータから電子透かし情報が検出される。
【0003】
従来技術では、映像への電子透かし埋め込み処理を行う場合、無条件で、映像を構成するビデオストリーム全体すなわち全フレーム及びフレーム内全画像領域に対し均一に電子透かし埋め込み処理を実行していた。
【0004】
特開2002−171492号公報には、電子透かし情報埋め込みを行う技術について開示されている。具体的には、符号圧縮した画像信号に電子透かし情報を埋め込む装置において、画像信号をデジタル符号圧縮するときに、MPEGにおけるIフレームごとに電子透かし情報の埋め込みを行う等の旨が記載されている。この技術では、扱えるデータがMPEG形式に限定される。
【0005】
【特許文献1】特開2002−171492号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
従来の映像全体に対し電子透かし埋め込み処理を実行する方法では、多数のフレーム及び画素に対し処理を施す必要があるため、大量の演算を必要とする。そのため、処理時間が長くかかるという問題がある。また、この映像全体への電子透かし埋め込み処理について高速化を図ろうとする場合、処理実行のプラットフォームとなるハードウェアの性能向上、すなわちCPU(中央処理装置)クロックやHDD(ハードディスクドライブ)アクセス等の性能向上を図る以外に方法が無く、ハードウェアリソースの増強には大きなコストがかかるという問題がある。また、電子透かし埋め込み処理の際、処理実行のプラットフォームとなるハードウェアにおいて使用CPUが現状で最高性能のものであるなどの性能面での限界がある場合、望ましい電子透かし処理性能が得られないという問題もある。
【0007】
本発明の目的は、デジタル映像コンテンツに電子透かしを埋め込む処理に関して演算量を削減して処理効率向上および処理時間短縮を実現でき、また、ハードウェアリソースの増強が望めないプラットフォームの場合においても処理時間短縮が可能となる技術を提供することにある。
【課題を解決するための手段】
【0008】
本発明は、デジタル映像コンテンツを構成するビデオデータに対し電子透かしを埋め込む処理を行う際、これに同期再生されるオーディオデータについてサンプリング特性の違い等から音声の種類を判別し、音声の種類に応じて電子透かしを埋め込む処理の対象となるビデオデータの領域を限定する。
【発明の効果】
【0009】
電子透かし埋め込みプログラムを含んで構成される電子透かし処理システムまたは電子透かし処理を施したデジタルコンテンツ作成システム及び方法の効率化を実現できる。また、ハードウェアリソースの増強が望めないプラットフォームの場合においても処理時間短縮が可能となる。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
【0011】
図1は、電子透かし埋め込みプログラムおよび方法および装置における基本的な処理概要の一例を示す説明図である。
【0012】
本実施の形態の電子透かし埋め込みプログラムは、ビデオデータ(ビデオストリーム)とオーディオデータ(オーディオストリーム)とを含んで構成されるデジタル映像コンテンツについてビデオデータに対し電子透かし情報を埋め込む際、オーディオデータについての音声の種類を判別し、音楽であると判断したオーディオデータ部分領域に対応するビデオデータ部分領域を対象として限定的に電子透かしを埋め込む処理をコンピュータに実行させる。
【0013】
デジタル映像コンテンツは、多くの場合、映像を構成するビデオデータ部分と音声を構成するオーディオデータ部分とがセットになっている。すなわち、デジタル映像コンテンツは、再生手段によりビデオデータとオーディオデータとが時間的に同期して再生されることでコンテンツとして機能する形式のデータである。また、デジタル映像コンテンツ中で著作権を主張するビデオデータ部分に対応するオーディオデータ部分は、多くの場合、音声の種類として音楽あるいは人声のどちらかに分類できる。例えば、ある映像のシーンにおいて背景音楽(BGM)が流れている場合や人声として演説が流れている場合などである。
【0014】
このように、複数の音声の種類(音楽や人声)がデジタル映像コンテンツを構成するオーディオデータに含まれている場合、オーディオデータについて音声の種類の判別を行い、オーディオデータ部分領域に応じて音楽や人声などのタイプに分類する。この判別に基づき、電子透かし埋め込み処理対象となる映像領域を、音楽が同期再生されるシーン(ビデオデータ部分領域)に限定する。そしてこの限定に基づき、電子透かし埋め込み処理対象とされたビデオデータ部分領域に対しその著作権保護等のための電子透かし埋め込み処理を施す。
【0015】
オーディオデータ部分領域とは、オーディオデータ全体における、ある再生期間内のオーディオデータである。ビデオデータ部分領域とは、ビデオデータ全体における、ある再生期間内のビデオデータ(フレームの集合)である。
【0016】
オーディオデータにおける音声の種類の判別処理としては、例えばオーディオデータ部分領域について音楽/その他の音声の二種類への分類を行う。あるいは音楽/人声/その他の複数種類への分類を行う処理形態としてもよい。
【0017】
本発明の各実施の形態では、デジタル映像コンテンツにおいて映像を構成するビデオデータに対しその著作権保護等のための電子透かし情報を埋め込むに際し、ビデオデータ(図1における「Video」)に対応するすなわち同期再生されるオーディオデータ(図1における「Audio」)について音声の種類の判別を行う。
【0018】
音声の種類についての判別のために、デジタル映像コンテンツ中のオーディオストリームすなわちオーディオデータ再生時の波形における特徴を調べる。特に、オーディオストリームの部分で音が連続して流れるか、それとも断続して流れるかに着目する。言い換えれば、サンプリング時のアナログ音波形における周波数の変動の大小及びそのサンプリング時におけるサンプリング幅の長短に着目する。
【0019】
この判別でオーディオデータが音声の種類ごとのオーディオデータ部分領域に区分される。例えば図1の場合、オーディオデータを、オーディオタイプA、オーディオタイプBの二種類に分類している。この判別は、オーディオストリームにおけるサンプリング特性の違いに基づき行う。オーディオデータにおける音声の種類の判別に基づき、ビデオデータ領域全体に対して電子透かし埋め込み処理対象となる領域を、特定のオーディオタイプが同期再生される部分領域に限定する。例えば図1の場合、電子透かし埋め込み処理対象となる領域を、オーディオタイプBの領域に限定している。そしてこの限定に基づき、電子透かし埋め込み処理対象とされたビデオデータ部分領域に対しその著作権保護等のための電子透かし埋め込み処理を施す。これにより、電子透かし埋め込み処理に要する総演算量が減少される。
【0020】
図2(a),(b)は、アナログ音に対するサンプリング(A/D変換)の特徴について示す図である。(a)は、アナログ音の波形の例を示し、(b)はそれをサンプリングしたデジタルの波形を示す。この図に示すように、アナログ音をデジタル化する場合、一般的に、音楽のように比較的音が連続して流れ周波数の変動が少ない性質の領域についてはサンプリング幅(サンプリング時間)を長くとり、人声のように比較的音が断続的に流れ周波数の変動が多い性質の領域についてはサンプリング幅(サンプリング時間)を短くとる方法で処理が行われる。オーディオデータ中で、サンプリング前のアナログ波形における周波数変動が少ない部分に対応するサンプリング後のデジタル波形の部分は、そのサンプリング幅(サンプリング時間)が比較的長くなっている。
【0021】
一般的なサンプリングの特徴を踏まえ、例えば、オーディオデータにおけるサンプリング幅の長短を調べることによって、オーディオデータ部分領域について音楽の部分を判断する。さらには、例えばサンプリング幅が長い割合が大きいオーディオデータ部分領域については音楽であると判断する。そしてこのオーディオデータ部分領域に対応するビデオデータ部分領域について電子透かし埋め込み処理対象とし、これに限定して電子透かし埋め込み処理を施す。
【0022】
また、オーディオデータ部分領域における音声の種類の判別を、オーディオデータ部分領域におけるサンプリング時のサンプリング幅の長短、特にロング・ウィンドウやショート・ウィンドウの出現割合や出現回数を調べることによって行う。そしてその出現割合等を所定のしきい値と比較してその上下で音楽と人声に区分する。
【0023】
またサンプリング幅の長短等についての情報は、デジタル映像コンテンツ中にヘッダ情報等の形式で含まれるサンプリング幅情報等を参照することで取得してもよいし、オーディオデータに対しサンプリング幅の長短等を算出する処理を別途行ってもよい。
【0024】
図3は、電子透かし埋め込みプログラムの処理概要を示す一例である。また、図4は、本実施の形態における電子透かし埋め込みプログラムの処理と入出力データを示すブロック図である。
【0025】
本実施の形態では、デジタル映像コンテンツを構成するうちのオーディオデータについて音声の種類の判別を行い、オーディオデータ部分領域に応じて音楽と人声の二種類のタイプに分類する。この判別に基づき、電子透かし埋め込み処理対象となるビデオデータ領域を、音楽が同期再生されるビデオデータ部分領域に限定する。そしてこの限定に基づき、電子透かし埋め込み処理対象とされたビデオデータ部分領域に対しその著作権保護等のための電子透かし埋め込み処理を施す。図中の斜線領域は、ビデオデータ中で電子透かしデータが埋め込まれた領域である。この電子透かしデータによりそれに対応する映像部分が保護される。
【0026】
図4で、実施の形態の電子透かし埋め込みプログラムの処理対象となるデジタル映像コンテンツ101は、ディジタル化されたビデオデータ102と同じくディジタル化されたオーディオデータ103とを含んで構成される。デジタル映像コンテンツ101の対象となる形式としては、例えばMPEG-2等がある。MPEG-2の場合は、ビデオデータ、オーディオデータがディジタル化されているだけでなく、ともに符号化処理が行われている。デジタル映像コンテンツ101は、例えばMPEG−2の場合は再生手段により復号化され、ビデオデータ102とオーディオデータ103とが時間的に同期して再生されることでコンテンツとして機能する。本実施の形態の電子透かし埋め込みプログラムは、大別して、音声判別部104と電子透かし埋め込み処理部109とで構成される。
【0027】
音声判別部104は、デジタル映像コンテンツ101のオーディオデータ103の部分について音楽と人声とで別々に扱うための、音声の種類の判別処理を行う処理部である。音声判別部104は、デジタル映像コンテンツ101を入力し、それに含まれるオーディオデータ103について音声の種類を後述の方法により判別して、音楽であると判断される部分と人声であると判断される部分とに分類する。また無音等のその他部分への分類を行ってもよい。特に図3の実施の形態では、オーディオデータ103について音楽部分がないかどうかを判断し、音楽と判断されるオーディオデータ部分領域を、電子透かし埋め込み処理部109における電子透かし埋め込み処理対象とする。音声判別部104は、この判別処理により、オーディオデータ103を、音楽と判断されたオーディオ音楽領域106と、人声と判断されたオーディオ人声領域108とに区分する。またビデオデータ102を、各領域106,108に対応する部分領域に区分する。ビデオ領域105は、オーディオ音楽領域106に同期再生されるビデオデータ部分領域である。またビデオ領域107は、オーディオ人声領域106に同期再生されるビデオデータ部分領域である。
【0028】
電子透かし埋め込み処理部109は、ビデオデータ102に対し電子透かし情報を埋め込む処理を行う処理部である。電子透かし埋め込み処理部109は、音声判別部104での処理後、ビデオ領域105を電子透かし埋め込み処理対象として電子透かしデータの埋め込み処理を施す。電子透かし埋め込み処理部109で処理後に出力される電子透かし入りのビデオデータ部分領域は、電子透かし埋め込み処理対象とならなかったビデオ領域107と結合される。
【0029】
このようにして製造される電子透かし入りデジタル映像コンテンツ110は、電子透かし入りビデオデータ111とオーディオデータ112とを含んで構成される。電子透かし入りビデオデータ111は、電子透かし埋め込み処理部109での電子透かし埋め込み処理によりビデオデータ102のうちのビデオ領域105に電子透かしデータが埋め込まれたデータである。
【0030】
次に、音声判別部104の処理動作について説明する。音声判別部104では、入力されたデジタル映像コンテンツ101のオーディオデータ103について各部分のサンプリング幅を認識してその長短により、音楽に対応するオーディオデータ部分領域を特定する。例えば、オーディオデータ103の部分領域において、サンプリング幅が長い部分の割合が多い場合あるいはサンプリング幅が長い部分が続く場合、その部分領域を音楽に対応すると判断する。これがオーディオ音楽領域106となる。そして、音声判別部104は、このオーディオ音楽領域106と同期再生されるビデオデータ部分領域に対し電子透かし埋め込み処理が必要であると判定する。これがビデオ領域105となる。ビデオデータ102全体のうちでビデオ領域105が電子透かし埋め込み処理対象として設定される。電子透かし埋め込み処理対象と設定されたビデオ領域105は、電子透かし埋め込み処理部109に入力されて電子透かし埋め込み処理がなされる。また、オーディオデータ103の部分領域において、サンプリング幅が短い部分の割合が多い場合あるいはサンプリング幅が短い部分が続く場合、その部分領域を人声に対応すると判断する。これがオーディオ人声領域108となる。
【0031】
音声判別部104において電子透かし埋め込み処理対象と判断されたビデオ領域105以外のビデオデータ部分領域、すなわちここではオーディオ人声領域108に対応するビデオ領域107については電子透かし埋め込み処理対象とはせずそのまま出力する。
【0032】
音声判別部104での音楽と人声のタイプの判別は、主にデジタル映像コンテンツ101のメタデータやオーディオデータ103に含まれるヘッダ情報等から行う。多くの場合、デジタル映像コンテンツ101の作成時点で、そのデータについての各種情報がメタデータあるいはヘッダ情報として作成され、デジタル映像コンテンツ101の内部あるいは関連付けされた外部に記述されるのでそれを利用する。本実施の形態では、オーディオデータ103に、オーディオストリームにおけるサンプリング幅情報を含む属性情報が付随している。音声判別部104は、判別処理の際このサンプリング幅情報を参照してオーディオデータ部分領域におけるサンプリング幅の長短を認識し、この認識をもとに音楽部分を含むか否か、またはその箇所の特定を行う。
【0033】
または、音声判別部104は、このサンプリング幅等の情報について、オーディオデータ103を別途分析処理することにより取得してもよい。またサンプリング幅情報以外で、サンプリング幅の長短の情報を算出できる別の情報を利用してもよい。または、オーディオデータ103において各部分領域ごとにあらかじめ音楽や人声等の音声の種類を教える識別情報(フラグ)が含まれている場合はそれをそのまま利用して音楽や人声等の分類を行ってもよい。
【0034】
音声判別部104での処理例を示す。判別処理用のメモリにデジタル映像コンテンツ101中のオーディオデータ103を適宜読み込みながら処理を行う。例えば、読み込まれたうちの一定時間分のオーディオデータ部分領域について、長短のサンプリング幅の出現の回数を計算し、一定時間分のうち長いサンプリング幅と判断した場合の時間が占める割合が、短いサンプリング幅と判断した場合の時間が占める割合より多い場合に、音楽データと判断する。判断するためのオーディオデータの分割方法としては、例えば、ビデオデータ102を構成するフレーム(映像を構成する各画面)に対応するように時間領域で区分する。そして、その区分されたオーディオデータ部分領域ごとにサンプリング幅の長短を調べることによる音声の種類の判別処理を行う。
【0035】
あるいは、少なくとも長いサンプリング幅であると判断するための閾値を設け、その閾値を超えた場合のサンプリング幅の累積値が一定時間分の半分等、出現割合が所定値以上となる場合、この部分領域ではサンプリング幅を長くとっている割合が大きいので、このオーディオデータ部分領域を音楽に対応すると判断する。人声部分を判断する場合は、逆にショート・ウィンドウの出現割合が高い部分領域については、人声であると判断する。
【0036】
音声判別部104は、サンプリング幅の認識のために、オーディオデータ103に含まれる、アナログ音サンプリング時のロング・ウィンドウ(long windows)、ショート・ウィンドウ(short windows)の情報を利用する。ウィンドウは、オーディオデータ103を構成する元となるアナログ音の波形に対する単位サンプリングにおいて使用されたサンプリング幅を表わす。アナログ音サンプリング時に、入力となるアナログ音の周波数特性に応じてショート・ウィンドウとロング・ウィンドウの二種類のサンプリング幅を用いてサンプリングを行う方法がある。本実施の形態の場合、オーディオデータ103は、この方法でサンプリングしたデータであるものとする。オーディオデータ103には、オーディオストリーム再生のためにこのウィンドウ情報が付随している。
【0037】
ロング・ウィンドウとショート・ウィンドウによる音声判別処理例を説明する。簡単にアナログデータのデジタルデータ化の方法について説明する。アナログデータのデジタルデータへの変換は、ある区間(例えば1024点とか2048点)のデータについて行われる。このとき、解析データ長(ウィンドウの長さ)がアナログデータの周期の整数倍と一致していない場合は、ひずんだ波形を処理することになり、アナログデータにおける実際の波形とデジタルデータにおける波形との誤差が大きくなる。そこで、アナログデータの変化の周期が短い場合は、解析データ長を短くして、誤差を少なくする。アナログデータの変化の周期が長い場合の解析データ長をロング・ウィンドウと呼び、変化の周期が短い場合の解析データ長をショート・ウィンドウと呼ぶ。音楽のデジタルデータ化の場合、音楽では音が連続して流れるため予測を超える周波数の変動は少ない。そのため、ロング・ウィンドウでも実際の波形に近い波形が得られ、ショート・ウィンドウの出現率は低い。人声のデジタルデータ化の場合、人声には破裂音等を含み、間が在るため音が連続せず、頻繁にショート・ウィンドウが出現する。また無音の箇所もみられる。
【0038】
従って、音声処理部104は、オーディオデータ部分領域においてそれぞれのウィンドウの割合や出現数を計算する。例えばあるオーディオデータ部分領域においてロング・ウィンドウの出現数が所定値以上の場合、サンプリング幅が長い部分の割合が大きいので、これに対応するアナログ波形における周波数変動が少ないと判断してこの領域を音楽に対応すると判断する。このオーディオデータ部分領域を音楽に対応すると判断する。
【0039】
また、別の判別基準としては、長短のサンプリング幅の連続出現数や連続時間を計算してもよい。あるいはサンプリング幅の平均を計算してもよい。そして計算した値を所定のしきい値と比較してその上下により音楽/人声への区分を行う。更に別の判別基準としては、オーディオデータ中でロング・ウィンドウあるいはショート・ウィンドウがどの程度連続して出現するかを調べてもよい。オーディオデータ中でロング・ウィンドウの出現が一定以上連続して続く部分領域すなわちサンプリング幅を長くとっている箇所が続く部分領域については、音楽に対応すると判断する。逆の場合は人声であると判断する。
【0040】
本実施の形態の電子透かし埋め込みプログラムでは、映像シーンに対応して流されるオーディオストリームから任意範囲のウィンドウ形状すなわちロング・ウィンドウとショート・ウィンドウの情報を取得し、取得したウィンドウ形状におけるショート・ウィンドウの出現頻度が所定のしきい値未満である場合は、その部分領域を音楽シーンすなわち音楽が流れるシーンであると判断する。またそれ以外すなわちショート・ウィンドウの出現頻度がしきい値以上である場合は、その部分領域を人声シーン(会話シーン)であると判断する。ロング・ウィンドウ及びショート・ウィンドウの情報を用いた解析方法は、例えば、「MPEG-2 AAC」や「MP3」、「Dolby(商標登録) AC3(商標登録)」等の形式において利用することができる。
【0041】
なお、図4には、ディジタルオーディオデータを音楽または人声のいずれかに判別する構成であったが、また無音等のその他部分への分類を行ってもよい。さらには、オーディオデータ103中で音声の種類として音声に判別しにくい部分がある場合に、そのオーディオデータ部分領域については音声への区分を行わず、この領域に同期再生されるビデオデータ部分領域を電子透かし埋め込み処理対象と設定して電子透かしを埋め込んでおくようにしてもよい。
【0042】
また他の処理として、ビデオデータ102の部分領域における色や動き等の判別との組み合わせにより音声の判別を行ってもよい。例えば、ビデオデータ部分領域で、色として人間の肌色が多く含まれているかどうかを調べる。肌色が多く含まれている場合にそれと同期再生されるオーディオデータ部分領域は人声である可能性が高いと判断する。
【0043】
図5は、電子透かし埋め込みプログラムを実行するプラットフォームとなるハードウェア構成例を示す。PC(パーソナルコンピュータ)501は、CPU502、キャプチャボード504、エンコーダ505、メモリ506を有する構成である。PC501のキャプチャボード504にビデオカメラ503が通信線で接続されている。PC501は、本電子透かし埋め込みプログラムを図示しないメインメモリ上に有する。HDDもしくはフレキシブルディスクが格納することにしてもよい。CPU502が本電子透かし埋め込みプログラムをメインメモリ等から読み込んで実行することで各処理が実現される。従って、本実施の形態では、音声処理部104および電子透かし埋め込み処理部109をCPU502が実現する。ビデオカメラ503は、デジタル映像コンテンツ101を作成するための元となる映像と音を入力して撮影及び録音を行う装置である。ここでは音を録音するマイク等については図示を省略し、映像と音とを一つの線でまとめて示す。
【0044】
ビデオカメラ503に入力された映像及び音は、アナログ信号として処理されてキャプチャボード504に入力される。キャプチャボード504は、入力された映像と音のアナログ信号についてデジタル化すなわちサンプリングを行い、デジタル映像コンテンツ101の構成部分となるビデオデータ102とオーディオデータ103を生成する処理を行う。このサンプリングの際は、アナログ音の波形に対して例えばロング・ウィンドウとショート・ウィンドウの二種類のサンプリング幅を使用した処理を行い、そのサンプリング幅情報をデータにヘッダ情報として付随させる。アナログ音がその周波数特性に応じたサンプリング幅でサンプリングされる。エンコーダ505は、ビデオデータ102とオーディオデータ103についてMPEG形式等での必要な符号化(圧縮)処理等を施すためのものである。これはキャプチャボード504内に一体構成されていてもよい。キャプチャボード504及びエンコーダ505を通じて生成されたビデオデータ102とオーディオデータ103は、メモリ506に保存される。このデータをもとにしてデジタル映像コンテンツ101が構成される。
【0045】
メモリ506上のビデオデータ102及びオーディオデータ103に対して、CPU502により、本電子透かし埋め込みプログラムによる音声判別処理及び電子透かし埋め込み処理を施す。これにより、電子透かし入りデジタル映像コンテンツ110が作成される。
【0046】
なお、本実施の形態では、音声判別処理及び電子透かし埋め込み処理を、一旦完成後のデジタル映像コンテンツ101のデータ(オーディオ及びビデオ)に対し実行する処理形態としている。これに限らず、完成前のデジタル映像コンテンツ101のデータに対し処理を実行する処理形態としてもよい。また、作成済みのデジタル映像コンテンツ101のデータが外部に有る場合は、これをPC501のメモリ506に読み込んで、これに対しCPU502により本電子透かし埋め込みプログラムを実行して、電子透かし入りデジタル映像コンテンツ110を作成してもよい。
【0047】
電子透かし情報検出側のシステムは従来技術に従うことができる。さらに映像部分とは別に音部分の著作権保護等を行いたい場合には、所定の電子透かし埋め込み技術によりオーディオデータ103に対しても電子透かし埋め込み処理を施してもよい。
【0048】
本実施の形態では、デジタル映像コンテンツ101のオーディオデータ103部分についての電子透かし情報の埋め込みは別の処理であり、本実施の形態における処理では、音声判別部104が人声と判別、または音楽とは判別しないオーディオデータ103に対しては電子透かし埋め込み処理を施さない構成としている。しかしながら、肖像権を保護する目的等のため、逆に人声の部分について電子透かし埋め込み処理を行う構成とすることもできる。
【0049】
その場合は、例えば図4の処理のなかでデジタル映像コンテンツを構成するうちのオーディオデータについて音声の種類の判別を行い、オーディオデータ部分領域に応じて音楽と人声の二種類のタイプに分類する。判別は例えば、オーディオデータにおけるサンプリング幅の長短を調べることによって、オーディオデータ部分領域について人声の部分を判別する。例えばサンプリング幅が短くなる割合が大きいオーディオデータ部分領域については人声であると判別する。そしてこのオーディオデータ部分領域に対応するビデオデータ部分領域について電子透かし埋め込み対象とし、これに限定して電子透かし埋め込み処理を施す。
【0050】
さらに具体的には、音声処理部104は、サンプリング幅の認識のためにロング・ウィンドウ、ショート・ウィンドウの情報を利用する。オーディオデータ部分領域においてそれぞれのウィンドウの割合や出現数を計算し、所定のしきい値と比較してその上下により音声への区分を行う。映像シーンに対応するオーディオストリームから任意範囲のウィンドウ形状すなわちロング・ウィンドウとショート・ウィンドウの情報を取得し、取得したウィンドウ形状におけるショート・ウィンドウの出現頻度が所定のしきい値以上である場合は、その部分領域を人声シーン(会話シーン)であると判断する。
【0051】
この判別に基づき、音声判別部104が例えばサンプリング幅が短いと判別された場合には、図4の場合とは逆に、そのビデオ領域とオーディオ音楽領域が電子透かし埋め込み処理部109に送られ、電子透かし処理が行われる。サンプリング幅が長いと判断された場合は、電子透かし埋め込み処理が行われないことになる。
【0052】
または、電子透かし処理を行う音声の種類を設定できる構成としていもよい。例えば図5で図示しない入力装置によって、図6に示す設定値を変更することが可能な構成とする。図6は、各音声の種類601に対して、判別する基準例602と電子透かしを行うか否かをフラグで設定する場合の設定値603の一例を示す図である。この設定は、プログラム立上げ時に毎回行う構成としてもよいし、処理の途中で任意に設定変更可能な構成としてもよい。
【0053】
さらに、図5の例では、CPUが図4の音声処理部104および電子透かし埋め込み処理部109を実現する構成としたが、電子透かし埋め込み処理部109は別構成の電子透かし埋め込み装置を用いる構成としてもよい。その場合のハードウェア構成を図7に示す。図7の場合、エンコーダ505から音声処理部104と電子透かし埋め込み装置701に対してデータが送付される。音楽に対して電子透かし埋め込み処理を行うことを前提として説明する。音楽と判断されるオーディオデータ部分領域がある場合、音声処理部104(CPU502)はその部分を特定し、その部分領域を特定する情報、例えばフレーム番号を電子透かし埋め込み装置701に出力する。
【0054】
電子透かし埋め込み装置701では、図7Bで示すように、CPU502からの指示の有無をチェックする(ステップ705)。CPU502から何らかの信号を入力した場合に、それがオーディオデータ部分領域に対する特定、すなわち、音楽データの位置情報であるか否かを確認する(ステップ707)。ない場合には、CPUからの指示を受けるまで待機する。音楽データの位置情報であった場合は、特定されたオーディオデータ部分領域に対応するビデオデータ部分領域に対して電子透かし埋め込み処理を実施する(ステップ709)。音楽データの位置情報でない場合は、CPUからの指示をうけるまで待機する。
【0055】
このような構成にすることにより、電子透かし埋め込み処理については、高速なハードウェアを利用することができるため、さらなる高速化を図ることが可能となる。
【0056】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【0057】
上述のように、電子透かし埋め込み処理対象となるビデオデータ領域を、音楽が同期再生される部分に限定することで、デジタル映像コンテンツ101のビデオデータ102部分への電子透かし埋め込み処理に要する総処理時間を短縮できる。電子透かし埋め込みプログラムを含んで構成される電子透かし処理システムまたは電子透かし処理を施したデジタルコンテンツ作成システム及び方法の効率化を実現できる。また、ハードウェアリソースの増強が望めないプラットフォームの場合においても処理時間短縮が可能となる。
【図面の簡単な説明】
【0058】
【図1】図1は、電子透かし埋め込みプログラムにおける基本的な処理概要を示す説明図である。
【図2】図2は、一般的な、アナログ音に対するサンプリングの特徴について示す図である。
【図3】図3は、電子透かし埋め込みプログラムの処理概要を示す説明図である。
【図4】図4は、電子透かし埋め込みプログラムの処理と入出力データを示すブロック図である。
【図5】図5は、ハードウェア構成例を示す図である。
【図6】図6は、音声の判断基準及び処理対象とする場合の設定値の一例を示す。
【図7】図7は、ハードウェア構成の他の例を示す図である。
【符号の説明】
【0059】
101…デジタル映像コンテンツ、102…ビデオデータ、103…オーディオデータ、104,201…音楽/音声判別部、105…ビデオ領域、106…オーディオ音楽領域、107…ビデオ領域、108…オーディオ音声領域、109,202…電子透かし埋め込み処理部、110,203…電子透かし入りデジタル映像コンテンツ、111,204…電子透かし入りビデオデータ、112…オーディオデータ、501…PC、502…CPU、503…ビデオカメラ、504…キャプチャボード、505…エンコーダ、506…メモリ。

【特許請求の範囲】
【請求項1】
ディジタルビデオデータと複数の音声の種類を含むディジタルオーディオデータを有するディジタルコンテンツに対する電子透かし埋め込みプログラムであって、
ディジタルビデオデータと前記ディジタルビデオデータに時間的に関連するディジタルオーディオデータをメモリに格納するステップと、
前記ディジタルオーディオデータが電子透かし処理対象となる種類のディジタルオーディオデータ部分を含むか否かをプロセッサが判別するステップと、
前記ディジタルオーディオデータが電子透かし処理対象となる種類のディジタルオーディオデータ部分を含む場合には、前記電子透かし処理対象となる種類のディジタルオーディオデータ部分に時間的に関連するディジタルビデオデータ部分に対し電子透かしをプロセッサが埋め込むステップを有することを特徴とするプログラム。
【請求項2】
請求項1記載の電子透かし埋め込みプログラムであって、
判別するステップでは、前記プロセッサは前記ディジタルオーディオデータの所定範囲に分割し、前記所定範囲内のサンプリング時のロング・ウィンドウの出現割合によって前記電子透かし処理対象となる種類のディジタルオーディオデータ部分を含むか否かを判別することを特徴とする電子透かし埋め込みプログラム。
【請求項3】
請求項2記載の電子透かし埋め込みプログラムであって、
することを特徴とする電子透かし埋め込みプログラム。
判別するステップでは、前記プロセッサは各々の範囲のサンプリング時のロング・ウィンドウの出現割合が所定値よりも高い場合に前記範囲のディジタルオーディオデータを前記電子透かし処理対象となる種類のディジタルオーディオデータ部分であるとして判別することを特徴とする電子透かし埋め込みプログラム。
【請求項4】
請求項1記載の電子透かし埋め込みプログラムであって、
判別するステップでは、前記プロセッサは前記ディジタルオーディオデータが音楽である場合に、前記電子透かし処理対象となる種類のディジタルオーディオデータ部分として判別することを特徴とする電子透かし埋め込みプログラム。
【請求項5】
請求項1記載の電子透かし埋め込みプログラムであって、
前記ディジタルビデオデータ及び前記ディジタルオーディオデータをアナログビデオデータ及びディジタルオーディオデータからA/D変換するステップをさらに有することを特徴とする電子透かし埋め込みプログラム。
【請求項6】
請求項1記載の電子透かし埋め込みプログラムであって、
電子透かし処理対象となる種類を設定するステップをさらに有することを特徴とする電子透かし埋め込みプログラム。
【請求項7】
ビデオデータと前記ビデオデータに同期して再生されるオーディオデータを含むディジタル映像コンテンツに対し電子透かしを埋め込む電子透かし埋め込みプログラムにおいて、
前記オーディオデータを部分ごとに音声の種類を判別するステップと、
前記オーディオデータの音声の種類が電子透かし処理対象の音声の種類と一致した場合に前記オーディオデータに同期するビデオデータ部分に対して電子透かしを埋め込むステップを有することを特徴とする電子透かし埋め込みプログラム。
【請求項8】
請求項7記載の電子透かし埋め込みプログラムにおいて、
前記電子透かし処理対象の音声の種類は音楽であることを特徴とする電子透かし埋め込みプログラム。
【請求項9】
請求項7記載の電子透かし埋め込みプログラムにおいて、
前記音声の種類の判別は、前記オーディオデータの一部分におけるサンプリング時のロング・ウィンドウとショート・ウィンドウの出現割合の情報によることを特徴とする電子透かし埋め込みプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2006−33811(P2006−33811A)
【公開日】平成18年2月2日(2006.2.2)
【国際特許分類】
【出願番号】特願2005−170295(P2005−170295)
【出願日】平成17年6月10日(2005.6.10)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】