説明

音響信号に対する改ざん検出方法及び改ざん検出装置

【課題】デジタルデータである音響信号に対する改ざんを検出することができる改ざん検出方法及び改ざん検出装置を提供する。
【解決手段】
電子透かし埋込装置1は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータを埋め込む。その後、この音響信号を利用者から取得した改ざん検出装置2は、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性に基づいて、取得した前記音響信号に埋め込まれている埋め込みデータを検出し、その検出した埋め込みデータと前記電子透かしデータとを照合する。そして、改ざん検出装置2は、その照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタルデータである音響信号(音声・音楽等)に対する改ざんを検出する改ざん検出方法及び改ざん検出装置に関する。
【背景技術】
【0002】
近年では、デジタル技術の進展に伴い、音声・音楽等の各種の音響信号がデジタルデータとして扱われている。今後この傾向はより顕著となり、様々な領域でデジタルデータの音響信号が用いられるようになることが予測される。
【0003】
デジタルデータの場合、アナログデータと比べて加工処理が容易であるため、加工・編集するための種々の技術が既に多く存在しており、音響信号を対象にしたものも種々提案されている。例えば、特許文献1では、音素片データをピッチ変換して音声合成する際に自然な発音を得ることを可能にする音素片音声合成システムが提案されている。また、特許文献2では、所謂VOCODERタイプの音声合成系が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2003−108177号公報
【特許文献2】特許第3251555号
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したような音声合成技術等を用いることにより、音響信号の加工・編集を容易に行うことが可能になる。その結果、例えば元の所有者が意図しない態様で音響信号が改ざんされる等の事態も生じ得る。しかしながら、現時点ではそのような音響信号に対する改ざんを検出することが困難であるため、改ざんが施された不正な複製データが拡散するおそれがある。
【0006】
本発明は斯かる事情に鑑みてなされたものであり、その主たる目的は、デジタルデータである音響信号に対する改ざんを検出することができる改ざん検出方法及びその方法を実施する改ざん検出装置を提供することにある。
【課題を解決するための手段】
【0007】
本発明者等は、音響信号に対する改ざんの検出方法を種々検討した結果、マルチメディア情報ハイディング(MIH:Multimedia Information Hiding)技術に着目し、音響信号に埋め込まれる電子透かしデータに基づいて当該音響信号の改ざんの有無を判定する方法を知見した。また、本発明者等は、このように電子透かしデータを用いることにより、違法コピー対策を兼ねて改ざんの検出を行うことができるため、様々な領域に応用可能であると考えた。これらの知見に基づいて、本発明者等は、以下に示す態様を発明した。
【0008】
本発明の一の態様の改ざん検出方法は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータを埋め込むステップ(a)と、前記音響信号を外部から取得するステップ(b)と、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性に基づいて、取得した前記音響信号に埋め込まれている埋め込みデータを検出するステップ(c)と、検出した前記埋め込みデータと前記電子透かしデータとを照合するステップ(d)と、照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定するステップ(e)とを有する。
【0009】
この態様において、前記ステップ(e)において前記音響信号が改ざんされていると判定した場合、当該音響信号の改ざん箇所を特定するステップ(f)をさらに有するようにしてもよい。
【0010】
また、前記態様の前記ステップ(f)において、前記埋め込みデータと前記電子透かしデータとが一致しない箇所に基づいて、前記改ざん箇所を特定するようにしてもよい。
【0011】
また、前記態様において、前記ステップ(e)において前記音響信号が改ざんされていると判定した場合、当該音響信号の少なくとも一部が別の音響信号に入れ替えられているか否かを判定するステップ(g)をさらに有するようにしてもよい。
【0012】
また、前記態様において、前記ステップ(e)において前記音響信号が改ざんされていると判定した場合、当該音響信号の少なくとも一部に別の音響信号が付与されているか否かを判定するステップ(h)をさらに有するようにしてもよい。
【0013】
また、前記態様の前記ステップ(a)において、前記電子透かしデータとして画像データを前記音響信号に埋め込むようにしてもよい。
【0014】
また、前記態様において、前記電子透かしデータが埋め込まれている音響信号に基づいて、当該音響信号に位相変調を施した蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ(i)をさらに有し、前記ステップ(c)において、前記ステップ(i)によって推定された蝸牛遅延特性に基づいて、前記埋め込みデータを検出するようにしてもよい。
【0015】
本発明の一の態様の改ざん検出装置は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出装置であって、前記音響信号を外部から取得する音響信号取得手段と、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性に基づいて、前記音響取得手段によって取得された音響信号に埋め込まれている埋め込みデータを検出する埋め込みデータ検出手段と、前記埋め込みデータ検出手段によって検出された埋め込みデータと前記電子透かしデータとを照合する照合手段と、前記照合手段による照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定する改ざん判定手段とを備える。
【0016】
この態様において、前記改ざん判定手段によって前記音響信号が改ざんされていると判定された場合、当該音響信号の改ざん箇所を特定する改ざん箇所特定手段をさらに備えていてもよい。
【0017】
また、前記態様において、前記改ざん箇所特定手段が、前記埋め込みデータと前記電子透かしデータとが一致しない箇所に基づいて、前記改ざん箇所を特定するように構成されていてもよい。
【0018】
また、前記態様において、前記改ざん判定手段によって前記音響信号が改ざんされていると判定された場合、当該音響信号の少なくとも一部が別の音響信号に入れ替えられているか否かを判定する第1改ざん態様判定手段をさらに備えていてもよい。
【0019】
また、前記態様において、前記改ざん判定手段によって前記音響信号が改ざんされていると判定された場合、当該音響信号の少なくとも一部に別の音響信号が付与されているか否かを判定する第2改ざん態様判定手段をさらに備えるようにしてもよい。

【発明の効果】
【0020】
本発明に係る改ざん検出方法及び改ざん検出装置によれば、音響信号に対する改ざんの検出を適確に行うことができる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施の形態1に係る改ざん検出システムの概要を示す説明図。
【図2】本発明の実施の形態1に係る電子透かし埋込装置の構成を示すブロック図。
【図3】本発明の実施の形態1に係る電子透かし埋込装置の構成を示す機能ブロック図。
【図4】本発明の実施の形態1に係る電子透かし埋込装置の構成を示す機能ブロック図。
【図5】本発明の実施の形態における電子透かし埋込装置が備える蝸牛遅延フィルタの特性を示すグラフ。
【図6】本発明の実施の形態1に係る改ざん検出装置の構成を示すブロック図。
【図7】本発明の実施の形態1に係る改ざん検出装置の構成を示す機能ブロック図。
【図8】本発明の実施の形態1に係る改ざん検出装置の構成を示す機能ブロック図。
【図9】蝸牛遅延フィルタの極及び零点を説明するためのグラフ。
【図10】チャープz変換による周波数分析の結果を示すグラフ。
【図11】本発明の実施の形態1における電子透かし埋込装置が実行する電子透かし埋込処理の手順を示すフローチャート。
【図12】本発明の実施の形態1における改ざん検出装置が実行する埋め込みデータ検出処理の手順を示すフローチャート。
【図13】本発明の実施の形態1における改ざん検出装置が実行する改ざん判定処理の手順を示すフローチャート。
【図14】実施の形態2に係る電子透かし埋込装置及び改ざん検出装置の構成を示す機能ブロック図。
【図15】実施の形態2における電子透かし埋込装置が実行する電子透かし埋込処理の手順を示すフローチャート。
【図16】実施の形態2に係る電子透かし埋込装置の構成を示す機能ブロック図。
【図17】埋め込みデータ検出処理(ノンブラインド検出)の手順を示すフローチャート。
【図18】実施の形態2に係る改ざん検出装置の構成を示す機能ブロック図。
【図19】客観評価実験の結果を示すグラフ。
【図20】耐性評価試験の結果を示すグラフ。
【図21】電子透かしデータとして用いるビットマップ画像の例を示す図。
【図22】音響信号に対して改ざんを施さなかった場合における検出後のビットマップ画像を示す図。
【図23】音響信号に対してPCM(G711)の音声符号化を行った場合における検出後のビットマップ画像を示す図。
【図24】音響信号に対して低SNRの白色雑音を音響信号に対して付与した場合における検出後のビットマップ画像を示す図。
【図25】音響信号に対して人工残響を付与した場合における検出後のビットマップ画像を示す図。
【図26】音響信号に対して実環境の残響を付与した場合における検出後のビットマップ画像を示す図。
【図27】音響信号に対してwaveletタイプの音声分析合成系で改変を行った場合における検出後のビットマップ画像を示す図。
【図28】音響信号に対して短時間フーリエ変換対を利用した音声分析合成系で改変を行った場合における検出後のビットマップ画像を示す図。
【図29】音響信号に対して音素片合成による内容改変を行った場合における検出後のビットマップ画像を示す図。
【図30】情報入替型改ざんの場合の音響信号の波形、ビット値が0及び1のときのスペクトルの差、及び検出値を示す図。
【図31】改ざん検出装置が実行する改ざん態様判定処理の手順を示すフローチャート。
【発明を実施するための形態】
【0022】
以下、本発明の好ましい実施の形態を、図面を参照しながら説明する。なお、以下に示す各実施の形態は、本発明の技術的思想を具体化するための方法及び装置を例示するものであって、本発明の技術的思想は下記のものに限定されるわけではない。本発明の技術的思想は、特許請求の範囲に記載された技術的範囲内において種々の変更を加えることができる。
【0023】
本実施の形態では、人間の聴覚が備える蝸牛遅延(Cochlear Delay:CD)特性を利用して改ざん検出を実現する。以下、この蝸牛遅延特性について説明する。音信号が蝸牛内(前庭階及び鼓室階にある非圧縮性のリンパ液内)を伝搬するとき、それらの二つの階の間の圧力差によって生じる蝸牛の基底膜の振動(伝播)には、信号の周波数に依存して、多少の時間差がみられる。この現象が蝸牛遅延であり、音信号の周波数が低いほど遅延が長くなることが知られている。
【0024】
文献「E. Aiba, S. Tanaka, M. Tsuzaki, and M. Unoki, “Judgment of perceptual synchrony between two pulses and its relation to the cochlear delays,” Proc. Fechner day 2007, 211-214, 2007」においては、上記の蝸牛遅延と音の同時性判断との間にどのような関係があるのかが検討されている。具体的には、(a)通常(蝸牛遅延操作なし)の調波複合音、(b)蝸牛の基底膜上において蝸牛遅延を打ち消すような群遅延を与えた調波複合音、(c)蝸牛遅延を増長するような群遅延を与えた調波複合音の三つの複合音を用いて聴覚心理物理実験を行い、その実験結果に基づいて、蝸牛遅延が音の同時性判断にどのような影響を与えるのかが検討されている。当該文献では、複合音(b)よりも、複合音(c)を用いた場合の方が、複合音(a)と同等の同時性判断を示すことが明らかにされている。
【0025】
発明者等は、上述したような蝸牛遅延特性に着目し、電子透かしとして埋め込む情報のデータに応じて蝸牛遅延に似た遅延パターンを原信号に付与することにより、電子音響透かしを実現する方法を提案している(「Unoki, M. and Hamada, D. “Audio watermarking method based on the cochlear delay characteristics,”Proc. IIHMSP2008, 616-619, 2008」及び「Unoki, M. and Hamada, D. “Method of digital-audio watermarking based on cochlear delay characteristics,”Int. J. Innv. Comp., Inf. Cont., 6(3(B)), 1325-1346, 2010)」等)。
【0026】
蝸牛遅延特性を用いた電子音響透かし技術の場合、知覚不可能性(埋め込み情報が利用者に知覚されず、埋め込みによる原信号の知覚可能な歪みが生じないこと)、頑健性(通常の信号変換処理及び埋め込み情報を削除するといった悪意のある攻撃に対して影響を受けないこと)、及び秘匿性(情報が埋め込まれていることに気付かせないこと、気付かれてもその情報を容易に検出されないこと)の3つを十分に満足する。
【0027】
以下、上述した蝸牛遅延特性を用いた電子音響透かし技術を応用して実現される本実施の形態の詳細について説明する。なお、本明細書では、このように原信号を参照することなく電子透かしデータを検出することを「ブラインド検出」と称し、原信号を参照して電子透かしデータを検出することを「ノンブラインド検出」と称する。実施の形態1では「ブラインド検出」を行い、実施の形態2では「ノンブラインド検出」を行う。
【0028】
(実施の形態1)
[改ざん検出システムの構成]
図1は、本発明の実施の形態1に係る改ざん検出システムの概要を示す説明図である。図1に示すように、本実施の形態の改ざん検出システムは、音響信号に対して電子透かしデータを埋め込む電子透かし埋込装置1と、音響信号に対する改ざんを検出する改ざん検出装置2とを備えている。音響信号の所有者は、所有している音響信号を電子透かし埋込装置1に対して入力する。電子透かし埋込装置1は、音響信号の入力を受けて、当該音響信号に対して電子透かしデータを埋め込む。このようにして生成された電子透かしデータ入りの音響信号(以下、「透かし入り音響信号」という)は、インターネット等の通信ネットワーク及びその他の手段を介して各利用者に対して配布される。
【0029】
各利用者の中に、透かし入り音響信号に対してその一部を書き換える等の処理を施すことにより改ざんを行う改ざん者が現れた場合、その改ざん者によって作成された改ざん音響信号が不正に配布される。その不正に配布された改ざん音響信号を取得した改ざん検出装置2は、電子透かし埋込装置1によって音響信号に埋め込まれた電子透かしデータを用いて、当該改ざん音響信号における改ざんを検出する。
【0030】
このように、本実施の形態の改ざん検出システムによる改ざん検出は、電子透かし埋込装置1及び改ざん検出装置2が協働することにより実現される。以下、これらの各装置の詳細な構成について説明する。
【0031】
[電子透かし埋込装置の構成]
図2は、本発明の実施の形態1に係る電子透かし埋込装置の構成を示すブロック図である。図2に示すように、電子透かし埋込装置1は、CPU11、ROM12、RAM13、信号入力部14、信号出力部15及びハードディスク16を備えており、これらのCPU11、ROM12、RAM13、信号入力部14、信号出力部15及びハードディスク16は、バス17によって接続されている。
【0032】
CPU11は、ROM12及びハードディスク16に記憶されているコンピュータプログラムを実行する。これにより、電子透かし埋込装置1は、後述するような動作を実行し、音響信号に対する電子透かしデータの埋め込みを実現する。
【0033】
ROM12は、マスクROM、PROM、EPROM、又はEEPROM等によって構成されており、CPU11によって実行されるコンピュータプログラム及びこれに用いられるデータ等を記憶している。
【0034】
RAM13は、SRAMまたはDRAM等によって構成されており、ハードディスク16に記憶されているプログラムの読み出しに用いられる。また、RAM13は、CPU11がコンピュータプログラムを実行するときに、CPU11の作業領域としても利用される。
【0035】
信号入力部14は、処理対象となる原信号である音響信号及びその音響信号に埋め込まれる電子透かしデータを生成するための所有者情報(所有者を識別するための識別情報等)の入力を、外部の装置から受け付ける。また、信号出力部15は、電子透かしデータが埋め込まれた透かし入り音響信号を外部の装置へ出力する。
【0036】
本実施の形態においては、音響透かしデータとしてビットマップ形式の画像データを用いる。但し、テキストデータ等の他の形式のデータを音響透かしデータとして用いることも可能である。なお、本実施の形態のように音響透かしデータとして画像データを用いた場合、後述するように、不正な処理により音響透かしデータがどの程度壊れたのかを視覚的に確認することができる等のメリットがある。
【0037】
また、本実施の形態において、原信号である音響信号はデジタルデータである。しかし、当該音響信号がアナログデータであってもよく、その場合は、A/D変換機能を備えた信号入力部14が、入力された音響信号をA/D変換することによりデジタルデータに変換した上で、その後の処理を行うようにすればよい。
【0038】
ハードディスク16には、オペレーティングシステム及びアプリケーションプログラム等、並びにCPU11に実行させるための種々のコンピュータプログラムおよび当該コンピュータプログラムの実行に用いられるデータ等がインストールされている。このコンピュータプログラムには、電子透かしデータの埋め込みを行うための電子透かし埋込プログラム16Aが含まれる。
【0039】
ハードディスク16にインストールされる電子透かし埋込プログラム16Aは、フレキシブルディスクドライブ、CD−ROMドライブ、またはDVD−ROMドライブ等の外部記憶装置(図示せず)を介して、可搬型記録媒体から読み出される。
【0040】
なお、このように可搬型記録媒体によって提供されるのみならず、電気通信回線(有線、無線を問わない)を介して電子透かし埋込装置1と通信可能に接続された外部の装置から電子透かし埋込プログラム16Aを提供することも可能である。例えば、電子透かし埋込プログラム16Aがインターネット上のサーバコンピュータのハードディスク内に格納されている場合において、このサーバコンピュータに電子透かし埋込装置1がアクセスして、当該コンピュータプログラムをダウンロードし、これをハードディスク16にインストールすることも可能である。
【0041】
ハードディスク16には、例えば米マイクロソフト社が製造販売するWindows(登録商標)等のマルチタスクオペレーティングシステムがインストールされている。以下の説明において、本実施の形態に係る電子透かし埋込プログラム16Aは当該オペレーティングシステム上で動作するものとする。
【0042】
次に、上記の電子透かし埋込装置1の構成を、図3及び図4に示す機能ブロック図を参照しながら説明する。
図3は、CPU11の構成を示す機能ブロック図である。図3に示すとおり、CPU11は、電子透かしデータ生成部101と、電子透かしデータ埋込部102と、符号化処理部103とを備えている。電子透かしデータ生成部101は、信号入力部14を介して外部から供給された所有者情報を用いてビット列のデータである画像データ(電子透かしデータ)を生成する。この生成は、ハッシュ法等を用いて行われる。
【0043】
電子透かしデータ埋込部102は、電子透かしデータ生成部101によって生成された電子透かしデータを、外部から供給された音響信号に対して埋め込むことによって透かし入り音響信号を生成する。この電子透かしデータ埋込部102の詳細な構成については図4を参照しながら後述する。
【0044】
符号化処理部103は、電子透かしデータ埋込部102によって生成された透かし入り音響信号をその後の利用に適した形式に変換する。具体的に説明すると、符号化処理部103は、透かし入り音響信号を音声ファイル用のWAV形式又はMP3形式に変換したり、G.729等の特定の音声圧縮アルゴリズムを用いて音声通話用の信号に変換したり等の処理を実行する。符号化処理部103は、変換した後の透かし入り音響信号を、信号出力部15を介して外部へ出力する。
【0045】
次に、電子透かしデータ埋込部102の詳細について説明する。図4は、電子透かしデータ埋込部102の構成を示す機能ブロック図である。なお、以下において、nはサンプリング番号を、kは音響信号のフレーム番号をそれぞれ示している。
図4に示すように、電子透かしデータ埋込部102は、音響信号x(n)をフレーム化するフレーム処理部102aと、2つの蝸牛遅延フィルタ102b及び102cと、電子透かしデータs(k)の値に応じて第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cの何れかを選択するフィルタ選択部102dとを備えている。
【0046】
フィルタ選択部102dは、電子透かしデータのビット値が“0”である場合に第1蝸牛遅延フィルタ102bを選択し、同じく“1”である場合に第2蝸牛遅延フィルタ102cを選択する。第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cでは、後述するようにして音響信号に群遅延を与える。このようにして群遅延が付与された音響信号が統合され、電子透かしデータが埋め込まれた音響信号である透かし入り音響信号y(n)が生成される。
【0047】
なお、本実施の形態において、これらの電子透かしデータ生成部101、電子透かしデータ埋込部102(フレーム処理部102a、第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102c、並びにフィルタ選択部102d)、及び符号化処理部103は、CPU11が電子透かし埋込プログラム16Aを実行することによって実現される。
【0048】
[蝸牛遅延フィルタ]
以下、第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cの詳細について説明する。これらの第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cは、人間の聴覚の蝸牛遅延特性を模擬したデジタルフィルタであり、具体的には、振幅成分にはまったく影響を与えず、位相特性のみを変化させる全域通過フィルタで構成される。
【0049】
本実施の形態において、蝸牛遅延フィルタ102b及び102cは、以下の式(1)の伝達関数H(z)により定義される1次の無限インパルス応答型全域通過フィルタで構成される。
【数1】

ここで、bはH(z)のフィルタ係数を表している。
このように、第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cを1次の無限インパルス応答型全域通過フィルタで構成することにより、高速な処理が可能になる。
【0050】
なお、無限インパルス応答型全域通過フィルタの群遅延特性が蝸牛遅延特性をより正確に表していれば、フィルタ次数は1次以上であってもよく、また、フィルタのカスケード段数は1段以上であってもよい。
【0051】
第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cにより与えられる群遅延γm(ω)は以下の式(2)により算出される。
【数2】

【0052】
図5は、本発明の実施の形態1における電子透かし埋込装置1が備える第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cの特性を示すグラフである。図5において、縦軸は群遅延を、横軸は音響信号の周波数をそれぞれ示している。
【0053】
図5において、細い実線は、人間の聴覚における蝸牛遅延を1/10倍に縮小した蝸牛遅延特性を示している。また、太い実線は、フィルタ係数b=0.795の場合に上記式1により定義される第1蝸牛遅延フィルタ102bの特性を示し、破線は、フィルタ係数b=0.865の場合に同じく定義される第2蝸牛遅延フィルタ102cの特性を示している。
【0054】
なお、図5において細い実線で示されている蝸牛遅延特性は、「T. Dau, O. Wegner, V. Mellert, and B. Kollmeier, “Auditory brainstem responses (ABR) with optimized chirp signals compensating basilar membrane dispersion,” J. Acoust. Soc. Am., 107, 1530-1540, 2000」を参考にして定めたものである。
【0055】
以上より、第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cを音響信号にかけると、実際の蝸牛遅延の1/10倍の蝸牛遅延を当該音響信号に付与することになる。したがって、人間の実際の蝸牛遅延特性を近似するためには、このような蝸牛遅延フィルタを10段カスケード接続する必要がある。しかし、実際と同様の蝸牛遅延量を音響信号に与えることにすると、その音響信号を知覚する際の群遅延量は実際の蝸牛遅延量の2倍になってしまうため、遅延が大きすぎると考えられる。そこで、本実施の形態においては、上記のように実際の蝸牛遅延の1/10倍の蝸牛遅延を音響信号に与えることにしている。
【0056】
本実施の形態において、第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cはそれぞれ、下記の式(3)及び式(4)にしたがって、原信号である音響信号x(n)に蝸牛遅延パターンを付与し、中間信号w(n)及びw(n)を得る。そして、フィルタ選択部103が、電子透かしデータのビット値に応じて、フレーム毎に中間信号w(n)及びw(n)を選択・統合することにより、下記の式(5)に示す透かし入り音響信号y(n)を取得する。
【数3】

ただし、(k−1)ΔW<n≦kΔWを満足する。ここで、ΔW(=fs/Nbit)はフレーム長であり、fsは原信号のサンプリング周波数を、Nbitは1秒あたりの情報埋込ビットレートをそれぞれ表している。
【0057】
[改ざん検出装置の構成]
図6は、本発明の実施の形態1に係る改ざん検出装置の構成を示すブロック図である。図6に示すように、改ざん検出装置2は、CPU21、ROM22、RAM23、信号入力部24、ハードディスク25、表示部26、及び音響出力部27を備えており、これらのCPU21、ROM22、RAM23、信号入力部24、ハードディスク25、表示部26、及び音響出力部27は、バス28によって接続されている。
【0058】
CPU21、ROM22及びRAM23のそれぞれについては、電子透かし埋込装置1が備えるCPU11、ROM12及びRAM13と同様であるので、説明を省略する。
【0059】
信号入力部24は、改ざん検出の対象となる音響信号の入力を外部の装置から受け付ける。この音響信号には、電子透かし埋込装置1によって生成された透かし入り音響信号及びその透かし入り音響信号に改ざんが施されることにより生成される改ざん音響信号が含まれる。
【0060】
ハードディスク25には、電子透かし埋込装置1の場合と同様に、オペレーティングシステム及びCPU21に実行させるための種々のコンピュータプログラム等がインストールされている。このコンピュータプログラムには、改ざん検出の対象となる音響信号に埋め込まれている埋め込みデータを検出し、その検出された埋め込みデータに基づいて改ざんの有無を判定する改ざん検出プログラム25Aが含まれる。
【0061】
電子透かし埋込プログラム16Aの場合と同様に、ハードディスク25にインストールされる改ざん検出プログラム25Aは、可搬型記録媒体によって提供されてもよく、電気通信回線を介して提供されてもよい。また、この改ざん検出プログラム25Aは、電子透かし埋込プログラム16Aの場合と同様に、ハードディスク25にインストールされているオペレーティングシステム上で動作するものとする。
【0062】
表示部26は、液晶ディスプレイ等で構成されており、CPU21の指示にしたがって画像(画面)を表示する。また、音響出力部27は、スピーカ等で構成されており、CPU21の指示にしたがって音響信号を出力する。
【0063】
次に、上記の改ざん検出装置2の構成を、図7及び図8に示す機能ブロック図を参照しながら説明する。
図7は、CPU21の構成を示す機能ブロック図である。図7に示すとおり、CPU21は、埋め込みデータ検出部201と、電子透かしデータ生成部202と、データ照合部203と、改ざん検出部204とを備えている。埋め込みデータ検出部201は、信号入力部24を介して外部から供給された音響信号に埋め込まれている埋込データを検出する。この埋め込みデータ検出部201の詳細な構成については図8を参照しながら後述する。
【0064】
電子透かしデータ生成部202は、上述した電子透かしデータ生成部101と同様に、信号入力部14を介して外部から供給された所有者情報を用いてビット列のデータである画像データ(電子透かしデータ)を生成する。ここで、この所有者情報は、電子透かし埋込装置1の電子透かしデータ生成部101に供給されるものと同一である。したがって、電子透かし埋込装置1及び改ざん検出装置2では同一の電子透かしデータが生成されることになる。
【0065】
データ照合部203は、埋め込みデータ検出部201によって検出された埋め込みデータと、電子透かしデータ生成部202によって生成された電子透かしデータとの照合を行う。改ざん検出部204は、データ照合部203による照合の結果に基づいて、改ざん検出対象の音響信号に対する改ざんの有無を判定する。
【0066】
次に、埋め込みデータ埋込部201の詳細について説明する。図8は、埋め込みデータ検出部201の構成を示す機能ブロック図である。図8に示すように、埋め込みデータ検出部201は、外部から取得された改ざん検出対象の音響信号y(n)をフレーム化するフレーム処理部201aと、フレーム化された音響信号y(n)に対して、チャープz変換を施す2つのチャープz変換部201b及び201cと、これらの第1チャープz変換部201b及び第2チャープz変換部201cによるチャープz変換の結果に基づいて、埋め込みデータのビット値を検出するビット値検出部201dとを備えている。
【0067】
なお、本実施の形態において、これらの埋め込みデータ検出部201(フレーム処理部201a、第1チャープz変換部201b及び第2チャープz変換部201c、並びにビット値検出部201d)、電子透かしデータ生成部202、データ照合部203、及び改ざん検出部204は、CPU21が改ざん検出プログラム25Aを実行することによって実現される。
【0068】
[チャープz変換]
第1チャープz変換部201b及び第2チャープz変換部201cが実行するチャープz変換(CZT)は、周波数スペクトルのフレキシブルな分析を可能とする手法として知られ(例えば、「Wang, T. T. “The segmented chirp z-transform and its application in spectrum analysis,” IEEE Trans. Instrumentation and measurement, 39(2), 318-323, 1990」を参照)、高速フーリエ変換(FFT)の実装にも活用されている。このチャープz変換は、離散フーリエ変換(DFT)と比較して、周波数分解能及び周波数応答のダイナミックレンジを自由に変えられるという特徴を有している。また、z平面上で任意のM点でのz変換を効率良く求めることができるという特徴も有している。
【0069】
一般に、チャープz変換は、z=rexp(jω)でN点のDFTと結ばれる(大きさr=1で正規化周波数ω=2πn/Nのとき単位円周上のDFTと等価である)関係にある。ここで、チャープz変換は下記の式(6)により表される。
【数4】

ただし、A=Aexp(j2πθ)、W=Wexp(j2πφ)である。ここで、θ及びφは初期位相である。上述したように、A=1、M=N、W=exp(−j2π/N)のとき、CZTはDFTに一致する。
【0070】
[ブラインド検出の原理]
本実施の形態では、上記のチャープz変換を用いることにより、第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cを用いて音響信号に埋め込まれた電子透かしデータのブラインド検出を実現する。以下、このブラインド検出の原理について説明する。
【0071】
第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cの極及び零点は、図9に示すとおりに配置される。これらの蝸牛遅延フィルタ102b及び102cは、上述したように1次IIR型全域通過フィルタであり、その特徴として極(図9中の“×”)及び零点(図9中の“○”)は中心点から単位円に向かって垂線を描いたときに交差する半径及びその逆数(b及び1/b)の関係にある。一般に、bの値が減少するにしたがい、極は中心点に近付き、零点は単位円から外側に向かって離れていく。反対に、bの値が増加するにしたがい、極及び零点は互いに単位円に向かって近付いていく。この場合の群遅延量は、図5に示すように、bの値の増加とともに増加する。
【0072】
改ざん検出対象の音響信号y(n)は、上述したような遅延情報が埋め込まれた信号として観測されることになる。そのため、y(n)から遅延情報、すなわち遅延情報の付与に利用された蝸牛遅延フィルタの極及び零点の位置を推定することにより、ブラインド検出を実現することができる。
【0073】
なお、原信号x(n)自体も数列の特性として極及び零点を持つため(音源が有界であるとして、その信号の減衰に関係する極など)、観測信号y(n)から仮に極及び零点の位置を推定できたとしても、それはIIR型全域通過フィルタ(蝸牛遅延フィルタ)によって付与されたものなのか、原信号そのものが持つものであるのかを見極める必要がある。
【0074】
チャープz変換を用いることにより、蝸牛遅延フィルタの極及び零点の位置を推定することができることを示すために、上記の式(1)の蝸牛遅延フィルタの零点r=1/bを通るようにrを選択して、原信号x(n)及び遅延情報を埋め込んだ信号y(n)をチャープz変換(A=r、M=N、W=exp(−j2π/N))することにより周波数分析を行う。
【0075】
以下、原信号である楽器音をx(n)とし、第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cを利用して“AIS-Lab.”の電子透かしデータを埋め込んだ信号をy(n)とする。ここでは、第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cはいずれも直流成分のところに極及び零点を配置しており、r=1/b又はr=1/bとしたチャープz変換の周波数分析を行う。なお、サンプリング周波数は44.1kHz、ビットレートはNbit=4bpsとして、1フレーム(250ms)に1ビット相当の遅延情報を埋め込むものとする。
【0076】
図10は、その分析結果を示すグラフである。図10(a)乃至(i)は、左から右にフレーム#1でのx(n)、フレーム#1でのy(n)、フレーム#2のy(n)の周波数スペクトルを、上から下にr=1、r=1/b、r=1/bでのチャープz変換により分析した結果をそれぞれ示している。図10(g)に示すように、x(n)に関する分析結果では、極及び零点配置の周波数付近でのスペクトルには特段変化がみられない。他方、フレーム#1のy(n)ではr=1/bでのチャープz変換の結果(図10(h))において、フレーム#2のy(n)ではr=1/bでのチャープz変換の結果(図10(f))において、最も低い周波数領域(直流成分から低周波数域までの範囲;例えば図5に示す遅延が見られる周波数帯)のところでスペクトル成分が劇的に減少していることがわかる(図中の矢印で示す箇所)。これは、零点の影響によるディップ(くぼみ)に対応しているため、原理的にはその大きさは−∞dBになる。それ以外の分析(r=1、r=1/b(フレーム#1の場合)、及びr=1/b(フレーム#2の場合))では、最も低い周波数のところでスペクトル成分の変化はほとんど見られない(すなわち、−∞dB(線形で0)に近付かない)。なお、この結果に関しては、他のフレーム及び他の対象信号でも同様のことが起こることが確認されている。
【0077】
以上より、対象信号に係わらず、蝸牛遅延フィルタの零点を交差するようにz平面上の軌跡に沿ってチャープz変換を行うことにより、y(n)から蝸牛遅延フィルタの零点の位置を推定することが可能であることが分かる。なお、原理的には、rを零点ではなく極の値にしてチャープz変換を行うことも可能である(極の場合は∞dBのスペクトルピークを得ることになる)が、計算機上でのダイナミックレンジ内のオーバーフローを検出しなければならないため、零点を用いる方が望ましい。零点を利用する場合は、ダイナミックレンジ内の0を探せばよいため、より容易な処理で足りることになる。
【0078】
本実施の形態では、第1チャープz変換部202bがr=1/bのz平面上の軌跡に沿ったチャープz変換を行い、第2チャープz変換部202cがr=1/bのz平面上の軌跡に沿ったチャープz変換を行う。これらのチャープz変換の結果を用いることにより、対象信号が、第1蝸牛遅延フィルタ102b(フィルタ係数b)及び第2蝸牛遅延フィルタ102c(フィルタ係数b)の何れにより群遅延が与えられたものであるのかを推定することが可能になる。
【0079】
[電子透かし埋込装置1及び改ざん検出装置2の動作]
次に、上述したように構成された本実施の形態の電子透かし埋込装置1及び改ざん検出装置2の動作について、図11乃至図13に示すフローチャートと図4及び図8等とを参照しながら説明する。
【0080】
[電子透かし埋込処理]
図11は、本発明の実施の形態1における電子透かし埋込装置1が実行する電子透かし埋込処理の手順を示すフローチャートである。
電子透かし埋込装置1は、フレーム処理部102aにおいて、外部から入力された音響信号(原信号)を各フレームに分割する(S101)。次に、電子透かし埋込装置1は、フィルタ選択部102dにおいて、電子透かしデータのビット値に応じて適用する蝸牛遅延フィルタの選択を行う。具体的には、2進数表現のデータである電子透かしデータ(本実施の形態では画像データ)のビット値が“0”及び“1”の何れであるかを判定し(S102)、その判定結果に応じて第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cの何れかを選択する。
【0081】
ステップS102において電子透かしデータのビット値が“0”であると判定した場合(S102で“0”)、電子透かし埋込装置1は、第1蝸牛遅延フィルタ102bを用いて、音響信号(原信号)に対して位相変調を施す(S103)。他方、電子透かしデータのビット値が“1”であると判定した場合(S102で“1”)、電子透かし埋込装置1は、第2蝸牛遅延フィルタ102cを用いて、音響信号(原信号)に対して位相変調を施す(S104)。これらのステップS103及びS104により、電子透かしデータが音響信号に対して埋め込まれることになる。
【0082】
次に、電子透かし埋込装置1は、当該フレームに埋め込む電子透かしデータのすべてのビットが処理されたか否かを判定する(S105)。ここでまだ処理されていないビットがあると判定した場合(S105でNO)、電子透かし埋込装置1は、ステップS102へ戻り、それ以降の処理を繰り返す。他方、すべてのビットが処理されたと判定した場合(S105でYES)、電子透かし埋込装置1は、ステップS103及びS104により電子透かしデータの各ビットが埋め込まれた音響信号を接合することにより、透かし入り音響信号を生成する(S106)。
【0083】
上記の電子透かし埋込処理をすべてのフレームについて行い、それらを接続することにより、透かし入り音響信号y(n)が生成される。なお、フレームの接続箇所に不連続点が生じることにより(スペクトル拡散の原因でもある)知覚不可能性に影響が出ることを防止するために、接続部前のフレームの後ろ数点(1ms程度)をSpline補間で滑らかにすることが望ましい。
【0084】
以上のようにして生成された透かし入り音響信号は、上述したように、符号化処理部103により適宜の形式に変換され、利用者に配布すべく外部に出力される。
【0085】
[改ざん検出処理]
次に、上述したようにして電子透かしデータが埋め込まれた透かし入り音響信号が各利用者に配布された後、改ざん検出装置2が外部から取得した音響信号に対して改ざんが施されているか否かを判定する改ざん検出処理について、(a)埋め込みデータ検出処理(ブラインド検出)及び(b)改ざん判定処理の2つに分けて説明する。なお、音響信号の取得の態様としては、インターネット等の通信ネットワークを介して取得したり、CD−ROM等の可搬型記録媒体から取得したり等、様々なものが想定される。
【0086】
本実施の形態では、上述したように、原信号を参照しないブラインド検出を行う。なお、改ざん検出装置2は、電子透かし埋込装置1により電子透かしデータが埋め込まれた際のビットレートを示す情報を記憶しており、当該情報に基づいて下記のセグメントの設定を行うものとする。
【0087】
(a)埋め込みデータ検出処理(ブラインド検出)
図12は、本発明の実施の形態1における改ざん検出装置2が実行する埋め込みデータ検出処理の手順を示すフローチャートである。
改ざん検出装置2は、フレーム処理部201aにおいて、外部から取得した改ざん検出対象の音響信号を各フレームに分割する(S201)。次に、改ざん検出装置2は、処理対象のセグメントを設定し(S202)、第1チャープz変換部201bにおいて、当該セグメントの音響信号に対してチャープz変換を行う(S203)。さらに、第2チャープz変換部201cにおいて、同じ音響信号に対してチャープz変換を行う(S204)。
【0088】
次に、改ざん検出装置2は、ステップS203及びS204により得られた2つの周波数スペクトルのうちの何れが、最も低い周波数でのスペクトルの値が急激に減少しているか否かを判定し、その判定結果に基づき、当該音響信号に対して位相変調を施した蝸牛遅延フィルタの零点を推定する(S205)。本実施の形態の場合、上記のようにスペクトルの値が急激に減少しているのが第1チャープz変換部201bにより得られた周波数スペクトルである場合は当該零点が1/bであると推定され、同じく第2チャープz変換部201cにより得られた周波数スペクトルである場合は当該零点が1/bであると推定される。
【0089】
次に、改ざん検出装置2は、ビット値検出部201dにおいて、ステップS205により推定された蝸牛遅延フィルタの零点が1/b及び1/bの何れであるかを判定し(S206)、1/bと判定した場合(S206で“1/b”)はビット値“0”を検出する(S207)。他方、1/bと判定した場合(S206で“1/b”)はビット値“1”を検出する(S208)。
【0090】
その後、改ざん検出装置2は、処理対象のフレームのすべてのセグメントについて処理を行ったか否かを判定する(S209)。ここで、まだ処理を行っていないセグメントがあると判定した場合(S209でNO)、改ざん検出装置2は、ステップS202へ戻り、それ以降の処理を繰り返す。他方、すべてのセグメントについて処理を行ったと判定した場合(S209でYES)、改ざん検出装置2は、ステップS207及びS208においてビット値検出部203により検出したビット値を接合することにより、埋め込みデータを復元する(S210)。
【0091】
以上のようにして、蝸牛遅延フィルタを用いて音響信号に埋め込まれた埋め込みデータをブラインド検出することができる。
【0092】
(b)改ざん判定処理
図13は、本発明の実施の形態1における改ざん検出装置2が実行する改ざん判定処理の手順を示すフローチャートである。
改ざん検出装置2は、データ照合部203において、電子透かしデータ生成部202によって生成された電子透かしデータ(ビット列)と、埋め込みデータ検出部201により上述したようにして検出されて復元された埋め込みデータ(ビット列)とをビット毎に照合する(S301)。その結果、両データにおける全てのビットについてビット値が一致した場合(S302でYES)、改ざん検出装置2は、改ざん検出対象の音響信号からは改ざんが検出されなかったことを示す改ざん非検出メッセージを表示部26にて表示する(S303)。他方、不一致のビット値が一つでもあった場合(S302でNO)、改ざん検出装置2は、不一致ビットを特定し(S304)、そのビットについて改ざんがなされていることを示す改ざん検出メッセージを表示部26にて表示する(S305)。
【0093】
このように、本実施の形態では、音響信号に対して改ざんがなされているか否か、及び改ざんがなされている場合に音響信号中のどのビットが改ざんされているのかを判定することができる。
【0094】
なお、改ざん検出装置2は、ユーザからの指示にしたがって、又は上記のステップS305により改ざん検出メッセージを表示する場合に、改ざんが検出された音響信号のすべて、又は改ざんされているビットを含むその一部を、音響出力部27にて出力するようにしてもよい。この場合、改ざんされているビット部分を出力する際に、当該部分が改ざんされていることを表示部26にて表示することが望ましい。これにより、ユーザは、どの部分が改ざんされているのかを容易に確認することが可能である。
【0095】
本実施の形態のように蝸牛遅延フィルタを用いた場合、電子透かしデータは、音響信号に対して信号変換(音声符号化)が行われたときは壊れにくく、他方、音響信号に対して改ざんが行われたときは壊れやすくなる。そのため、本実施の形態の場合、電子透かしデータの壊れ度合いを測定することにより、改ざんの有無を適確に判別することが可能になる。
【0096】
(実施の形態2)
実施の形態2では、ノンブラインド検出により埋め込みデータの検出を行う。以下、実施の形態2の電子透かし埋込装置及び改ざん検出装置の構成及び動作について説明する。なお、これらの電子透かし埋込装置及び改ざん検出装置のハードウェア構成については実施の形態1の場合と同様であるので説明を省略する。
【0097】
[電子透かし埋込装置及び改ざん検出装置の構成]
図14は、実施の形態2に係る電子透かし埋込装置及び改ざん検出装置の構成を示す機能ブロック図である。図14に示すように、電子透かし埋込装置3は、電子透かしデータを所定の表現のデータに変換する符号化部301と、第1蝸牛遅延フィルタ302a及び第2蝸牛遅延フィルタ302bと、後述する選択的荷重和処理を実行する選択的荷重和接合部303とを備えている。本実施の形態において、これらの符号化部301、第1蝸牛遅延フィルタ302a及び第2蝸牛遅延フィルタ302b、並びに選択的荷重和接合部303は、電子透かし埋込装置3のCPUが、後述する電子透かし埋込処理のための電子透かし埋込プログラムを実行することによって実現される。なお、第1蝸牛遅延フィルタ302a及び第2蝸牛遅延フィルタ302bは、実施の形態1における第1蝸牛遅延フィルタ102b及び第2蝸牛遅延フィルタ102cと同様であるので、説明を省略する
【0098】
また、改ざん検出装置4は、図14に示すように、改ざん検出対象の音響信号及び音響信号(原信号)の位相スペクトルをそれぞれ求める位相算出部401a及び401bと、両音響信号の位相差を検出する位相差検出部402と、埋め込みデータを復元する復号部403とを備えている。本実施の形態において、これらの位相算出部401a及び401b、位相差検出部402、並びに復号部403は、改ざん検出装置4のCPUが、後述する改ざん検出処理のための改ざん検出プログラムを実行することによって実現される。
【0099】
[電子透かし埋込装置及び改ざん検出装置の動作]
次に、上述したように構成された本実施の形態の電子透かし埋込装置3及び改ざん検出装置4の動作について説明する。
【0100】
[電子透かし埋込処理]
図15は、実施の形態2における電子透かし埋込装置3が実行する電子透かし埋込処理の手順を示すフローチャートである。
電子透かし埋込装置3は、符号化部301において、音響信号に埋め込む電子透かしデータを、2進数表現のデータに変換する(S401)。この電子透かしデータは、実施の形態1の場合と同様に、ビットマップ形式の画像データである。
このようにして2進数表現に変換された電子透かしデータは、選択的荷重和接合部303に出力される。
【0101】
次に、電子透かし埋込装置3は、第1蝸牛遅延フィルタ302a及び第2蝸牛遅延フィルタ302bを用いて、外部から入力された音響信号(原信号)に対して位相変調を施す(S402)。その結果、人工的に蝸牛遅延が付加された二つの音響信号が生成されることになる。
このようにして第1蝸牛遅延フィルタ302a及び第2蝸牛遅延フィルタ302bを用いて位相変調された二つの音響信号は、選択的荷重和接合部303に出力される。
【0102】
次に、電子透かし埋込装置3は、選択的荷重和接合部303において、以下のような選択的荷重和処理を実行して電子透かしデータを、位相変調された音響信号に埋め込む(S403)。
選択的荷重和処理では、電子透かしデータのビットが0のときは第1蝸牛遅延フィルタ302aから出力された音響信号が、1のときは第2蝸牛遅延フィルタ302bから出力された音響信号がそれぞれ選択される。そして、これらの選択された音響信号同士が接合されることにより、電子透かしデータが埋め込まれた透かし入り音響信号が生成される。
【0103】
ここで、その接合した部分において急激な位相変化が起こらないように、音響信号同士を荷重和することにより、音響信号の接合が行われる。この荷重和処理は、例えばramped-cosの荷重を付与する等して行われる。このような荷重和処理を行うことにより、透かし入り音響信号の歪みが軽減される。
【0104】
以上の電子透かし埋込処理を式で表すと次のようになる。図16に示す概念図も参照しながら説明する。なお、以下において、nはサンプリング番号を、kは音響信号のフレーム番号をそれぞれ示している。
まず、ステップS401において、電子透かしデータが2進数表現のデータs(k)へと変換される。
【0105】
次に、原信号である音響信号をx(n)とし、第1蝸牛遅延フィルタ302a及び第2蝸牛遅延フィルタ302bそれぞれをH0(z)及びH1(z)とすると、上記のステップS402において、位相変調が施された二つの音響信号(w0(n)、w1(n))が上述した式3及び式4により生成される。
【0106】
そして、ステップS403において、電子透かしデータs(k)のビットが0であるか1であるかに応じてw0(n)又はw1(n)が選択され、上述した式5のとおり、透かし入り音響信号y(n)が生成される。
【0107】
[改ざん検出処理]
本実施の形態においても、実施の形態1の場合と同様、改ざん検出処理には埋め込みデータ検出処理及び改ざん判定処理が含まれる。このうち、改ざん判定処理については実施の形態1の場合と同様であるので説明を省略する。以下、埋め込みデータ検出処理(ノンブラインド検出)について説明する。
【0108】
上述したように、本実施の形態における電子透かし埋込処理では、二つの蝸牛遅延フィルタによって位相変調された二つの音響信号を、時間毎に切り替えることにより、透かし入り音響信号を生成している。これらの二つの音響信号は、原信号に位相変調をかけたものであるため、原信号と透かし入り音響信号との位相特性の差を用いることにより、透かし入り音響信号が、上記の二つの蝸牛遅延フィルタの何れの蝸牛遅延フィルタによって位相変調された信号であるのかを特定することができる。埋め込みデータ検出処理(ノンブラインド検出)は、このような性質を利用して改ざん検出対象の音響信号に埋め込まれている埋め込みデータの検出を行うものである。
【0109】
図17は、埋め込みデータ検出処理(ノンブラインド検出)の手順を示すフローチャートである。
改ざん検出装置4は、位相算出部401a及び401bのそれぞれにおいて、高速フーリエ変換(FFT:Fast Fourier Transform)により、音響信号(原信号)及び改ざん検出対象の音響信号の位相スペクトルを求める(S501)。ここでは、電子透かし埋込処理で利用されたビット単位で、各音響信号の位相スペクトルが算出される。
このようにして求められた各音響信号の位相スペクトルは、位相差検出部402に出力される。
【0110】
次に、改ざん検出装置4は、位相差検出部402において、両音響信号の位相スペクトルの差を算出し(S502)、その算出された位相スペクトルの差と第1蝸牛遅延フィルタ302aによって与えられる群遅延との差の合計値(第1の合計値)、及び同じく位相スペクトルの差と第2蝸牛遅延フィルタ302bによって与えられる群遅延との差の合計値(第2の合計値)を算出する(S503)。そして、位相差検出部402において、これら第1の合計値と第2の合計値とを比較し、第1の合計値が第2の合計値より小さければ電子透かしデータのビット値として“0”を検出し、第1の合計値が第2の合計値以上であれば“1”を検出する(S504)。なお、この処理は、第1蝸牛遅延フィルタ302a及び第2蝸牛遅延フィルタ302bの何れのフィルタを用いて位相変調されたのかを推定することに相当する。
このようにして電子透かしデータのすべてのビットの値が検出された後、それら検出されたビット値が復号部403に出力される。
【0111】
次に、改ざん検出装置4は、復号部403において、上述したようにして検出されたビット値を用いて、改ざん検出対象の音響信号に埋め込まれている埋め込みデータを復元する(S505)。
以上のようにして、蝸牛遅延フィルタを用いて音響信号に埋め込まれた埋め込みデータを検出することができる。
【0112】
以上の埋め込みデータ検出処理を式で表すと次のようになる。図18に示す概念図も参照しながら説明する。なお、以下において、nはサンプリング番号を、kは音響信号のフレーム番号をそれぞれ示している。
まず、ステップS501において、音響信号x(n)及び改ざん検出対象の音響信号y(n)の位相スペクトルがFFTにより求められ、ステップS502において、両音響信号の位相スペクトルの差Φ(ω)が次の式(7)により算出される。
Φ(ω)=arg(FFT[y(n)])−arg(FFT[x(n)]) … (7)
【0113】
次に、ステップS503において、両音響信号の位相スペクトルの差と第1蝸牛遅延フィルタ302a(H0(z))との差の合計値ΔΦ0及び当該位相スペクトルの差と第2蝸牛遅延フィルタ302b(H1(z))との差の合計値ΔΦ1が、次の式(8)及び式(9)によってそれぞれ算出される。ただし、z=eである。
ΔΦ0=Σ|Φ(ω)−arg(H0(e))| … (8)
ΔΦ1=Σ|Φ(ω)−arg(H1(e))| … (9)
【0114】
そして、ステップS504において、上記の合計値ΔΦ0及びΔΦ1の大小関係に基づいて、次の式(10)にしたがって埋め込みデータのビット値s(k)が検出される。
s(k)=0,ΔΦ0<ΔΦ1 又は 1,ΔΦ0≧ΔΦ1 … (10)
最後に、ステップS505において、これらの検出されたビット値s(k)を用いて埋め込みデータが復元される。
【0115】
上述したように、埋め込みデータ検出処理(ノンブラインド検出)を実行することにより、改ざん検出対象の音響信号から埋め込みデータを検出することができる。その後、実施の形態1の場合と同様に、改ざん判定処理を実行することにより、当該音響信号に改ざんが施されているか否か、施されている場合にどの部分が改ざんされているのかを判定することができる。
【0116】
(他の手法との比較評価)
次に、上述した実施の形態1及び2による改ざん検出とLSB(Least Significant Bit replacement)法(N. Cvejic and T. Seppanen, “Digital audio watermarking techniques and technologies,” IGI Global, 2007)による場合との比較評価を行う。以下では、実施の形態1におけるブラインド検出方法をCD(Blind)法と表現し、実勢の形態2におけるノンブラインド検出方法をCD(Non-Blind)法と表現する。
【0117】
本発明者等は、ATR音声データベースにある約8秒の長文データ(12文章,男性・女性話者混在,サンプリング周波数16kHz)に対し、電子透かしデータ(ビットマップ画像)を音声信号に埋め込み、MIH技術の要求項目(知覚不可能性,頑健性)で利用される評価項目(PESQ(Perceptual Evaluation of Speech Quality)及びLSD(Log Spectrum Distortion))と電子透かしデータのビット検出率とを調べた。また、本発明者等は、耐性評価として音響信号に信号変換(3種類の音声符号化:PCM(G711),ADPCM(G726),CS−ACELP(G729))を施した後でのビット検出率を調べた。以下、これらの実験結果について説明する。
【0118】
図19は、上記の客観評価実験の結果を示すグラフであり、(a)乃至(c)はそれぞれCD(Non-Blind)法、CD(Blind)法、及びLSB法におけるPESQ、LSD及びビット検出率についての実験結果を示している。なお、図19では、上記12文章についての平均値が示されている。ここでは、PESQ及びLSDの評価閾値をそれぞれ、ODG値で3(音楽信号評価用のPEAQでの−1に対応)及び1dBとした。図19(a)及び(b)を参照すると、LSB法がPESQ及びLSDが非常に優れていることが確認できる。他方、CD(Non-Blind)法及びCD(Blind)法は、LSB法の場合ほど良好ではないものの、十分に評価閾値内にあり、MIH技術の要求項目を満たしていると言える。また、図19(c)に示すように、ビット検出率については、何れの手法でも十分に評価閾値75%より上にあり、良好な結果が得られている。なお、CD(Blind)法では、CD(Non-Blind)法と比べてPESQ及びLSDが低下しているが、ビット検出率は向上している。
【0119】
図20は、上述した耐性評価試験の結果を示すグラフであり、(a)乃至(c)はそれぞれCD(Non-Blind)法、CD(Blind)法、及びLSB法における結果を示している。ここではビット検出率75%を評価閾値としている。図20(a)乃至(c)を参照すると、LSB法と比べて、CD(Non-Blind)法及びCD(Blind)法が良好な結果が得られている。なお、検出率50%はチャンスレベルに相当する。すなわち、対象ビットは0又は1であるため、適当に選んでビットを割り当てたときの正答率が確率50%となる。そのため、ビット検出率はどんなに低い場合でも統計的には50%付近をうろつくことになる。図19(c)から分かるように、LSB法は知覚不可能性には優れているものの信号変換といったささいな波形処理に非常に敏感となり、情報改ざんとは解釈できない音声符号化処理には脆弱である。他方、CD(Non-Blind)法及びCD(Blind)法では、G711及びG726の音声符号化には頑健であり、G729には十分対応できていないことが、図20(a)及び(b)から理解できる。但し、この結果はG729の音声符号化が波形処理ベースではないことに起因している。近年、広帯域ブロードバンド化の普及に伴い音声符号化も高品質音声を生成する波形ベースの符号化に移行しているため、G729に対応できていなくても実用性は十分であるといえる。
【0120】
このように、CD(Non-Blind)法及びCD(Blind)法を利用した場合、MIH技術の要求を十分に満足した上で、改ざん検出を行うことが可能になる。
【0121】
次に、実施の形態1及び2において対応可能な改ざんの態様の例について説明する。改ざんの態様としては、音声内容の少なくとも一部を別の音声内容に入れ替えるパターン(以下、「情報入替型改ざん」という)、音声内容の少なくとも一部に別の音声内容が付与されるパターン(以下、「情報付与型改ざん」という)等が挙げられる。情報入替型改ざんは、例えば音素片音声合成技術又はVOCODERタイプの音声合成技術等によって実行される。また、情報付与型改ざんは、例えば発話内容を相手に聞き取り難くするための処理等によって実行される。具体的には、音声の明瞭性を低下させるために低SNR(高騒音)の雑音を付与したり残響を付与したり等の処理が想定される。
【0122】
本発明者等は、実施の形態1にしたがって、ATR音声データベースにある約8秒の長文データ(5文章,男性・女性話者混在,サンプリング周波数16kHz)に対し、図21に示すビットマップ画像(音響透かしデータ)を埋め込み、ビット検出率及び検出後のビットマップ画像を調べた。ここで、この画像は、図21において矢符にて示したとおり、上からの下への垂直方向の走査線を左から右への水平方向にずらしていくことによって得られたものである。なお、この画像のサイズは32×32ビットである。
【0123】
音響信号に対して改ざんを施さなかった場合、ビット検出率は100%であり、また、検出後のビットマップ画像は図22(a)乃至(e)に示すとおりとなった。なお、これ以降の図面も含めて、(a)乃至(e)は、5つの異なる音声文章(音響信号)に対する結果をそれぞれ示している。これら図22(a)乃至(e)に示すとおり、ほぼ原画像が保存されている。これに対し、音響信号に対してPCM(G711)の音声符号化を行うと、ビット検出率は85%まで低下するものの、検出後のビットマップ画像は図23(a)乃至(e)に示すように原画像に非常に近いことがわかった。
【0124】
次に、音響信号に対して情報付与型改ざんを施した場合の結果は以下のとおりとなった。まず、マスキングの影響により発話内容の聞き取りを妨害する目的で、低SNRの白色雑音を音響信号に対して付与した場合、ビット検出率は79%であり、検出後のビットマップ画像は図24(a)乃至(e)に示すとおりとなった。また、残響の影響により発話内容の聞き取りを妨害する目的で、音響信号に対して残響を付与した場合であって、人工残響(0.3秒)を付与したときはビット検出率が74%で検出後のビットマップ画像は図25(a)乃至(e)に示すとおりとなり、実環境の雑音(約1.0秒)を付与したときはビット検出率が74%で検出後のビットマップ画像は図26(a)乃至(e)に示すとおりとなった。このように、情報付与型改ざんを施した場合は、いずれもビット検出率は75%弱と耐性としてみたときの評価閾値上にあるものの、図24乃至図26に示すように検出後のビットマップ画像は原形をとどめていない。
【0125】
最後に、音響信号に対して情報入替型改ざんを施した場合の結果は以下のとおりとなった。まず、話者の情報を残した上で発話内容を改ざんする目的で、VOCODERタイプの音声分析合成のうちwaveletタイプの音声分析合成系(GTFB:Gamma Tone FilterBank)を用いて改変を行った場合のビット検出率は90%で検出後のビットマップ画像は図27(a)乃至(e)に示すとおりとなり、同じく短時間フーリエ変換対を利用した音声分析合成系(STFT:Short-time Fourier Transform)を用いて改変を行った場合のビット検出率は91%で検出後のビットマップ画像は図28(a)乃至(e)に示すとおりとなった。なお、ここでは、音声区間の2.5〜5秒のところのみ、これらの分析合成系で加工されたものと入れ替えを行った。また、話者の情報を残した上で発話内容を改ざんする目的で、音響信号に対して音素片合成による内容改変を行った場合、ビット検出率は91%でビットマップ画像は図29(a)乃至(e)に示すとおりとなった。このように、情報入替型改ざんを施した場合、いずれもビット検出率は90%程度と高い。また、図27乃至図29に示すように、検出後のビットマップ画像は中央領域が壊れているもののその左右は原画像に近いという共通性がみられる。
【0126】
このように、検出後のビットマップ画像は、音声符号化では壊れない一方で、改ざんが施された場合は一定程度壊れることになる。また、情報入替型改ざんと情報付与型改ざんとでは、その壊れ度合いが異なっている。そのため、改ざん検出装置が、この壊れ度合いを検出することで、音響信号に対して改ざんが施されているか否か、及び施されている場合にどのような態様の改ざんが施されているのかを判定することができる。
【0127】
上記のような改ざんの態様の判定は、次のようにして行うことも可能である。情報入替型改ざんの場合、蝸牛遅延特性を用いて音響信号に埋め込まれた遅延情報が消失してしまうため、実施の形態1及び2の何れの場合でも、“0”か“1”かの判定が不可能な状況が生じる。この場合、実施の形態1及び2では、if文で強制判定することとしているため、必ず“0”が検出されることになる。例えば、図30(a)に示すように2.5〜5秒の区間を音素片合成すると、実施の形態1の場合、零点の判定に伴う低域側スペクトルの落ち込みが確認されず、0及び1のときのスペクトルの大きさがほぼ同じ状態となる。そのため、図30(b)に示すように両者の差は0dB付近となり、上記の強制判定によってビット値“0”が検出されることになる。これは実施の形態2の場合も同様である。そのため、音響信号の改ざん領域が特定された後、図30(c)に示すようにその特定された領域に0ビットの系列が大量に観測されたときは、情報入替型改ざんが行われたと考えることができる。これに対し、改ざん領域が特定された後、その領域のビットの系列がランダムであるような場合は、情報付与型改ざんが行われたと考えることができる。
【0128】
なお、上述したように、図27乃至図29において画像の中央領域が壊れているのは、音声区間の2.5秒〜5秒のところに入れ替えが行われ、すなわち当該区間において集中して0ビットが検出され、且つ、当該画像が上から下へ、右から左へ走査することによって得られるためである。
【0129】
上記の改ざん態様の判定手法をフローチャートで示すと図31のとおりとなる。実施の形態1又は2の改ざん検出装置は、上述した改ざん判定処理によって改ざんが施されたと判定された音響信号からその改ざんされた領域を抽出し(S601)、その改ざん領域においてビット値“0”の系列の数が所定の閾値以上であるか否かを判定する(S602)。ここで閾値以上であると判定した場合(S602でYES)、改ざん検出装置は、音響信号に対して情報入替型改ざんが施されていることを示す情報入替型改ざんメッセージを表示部にて表示する(S603)。他方、閾値より少ないと判定した場合(S602でNO)、改ざん検出装置は、音響信号に対して情報付与型改ざんが施されていることを示す情報付与型改ざんメッセージを表示部にて表示する(S604)。
【0130】
このようにして、実施の形態1及び2においては、改ざんの有無のみならず、その改ざんの態様を判定することも可能となる。
【0131】
(その他の実施の形態)
上記の各実施の形態においては、電子透かしデータの埋め込み処理及び改ざん検出処理がソフトウェアにより実現されているが、本発明はこれに限定されるわけではない。例えば、これらの処理の全部又は一部が、DSP(Digital Signal Processor)等の専用のハードウェア回路によって実現されてもよい。
【0132】
また、上記の各実施の形態においては、原信号であるモノラル音楽信号に対して電子透かしデータを埋め込んでいるが、本発明はこれに限られるわけではなく、ステレオ音楽信号の両チャンネルに対して電子透かしデータを埋め込むことも可能である。
【産業上の利用可能性】
【0133】
本発明の改ざん検出方法及び改ざん検出装置はそれぞれ、種々の音響信号に対する改ざんの検出を行うための改ざん検出方法及び改ざん検出装置等として有用である。
【符号の説明】
【0134】
1,3 電子透かし埋込装置
11 CPU
12 ROM
13 RAM
14 信号入力部
15 信号出力部
16 ハードディスク
16A 電子透かし埋込プログラム
17 バス
101 電子透かしデータ生成部
102 電子透かしデータ埋込部
102a フレーム処理部
102b 第1蝸牛遅延フィルタ
102c 第2蝸牛遅延フィルタ
102d フィルタ選択部
103 符号化処理部
2,4 改ざん検出装置
21 CPU
22 ROM
23 RAM
24 信号入力部
25 ハードディスク
25A 改ざん検出プログラム
26 表示部
27 音響出力部
28 バス
201 埋め込みデータ検出部
201a フレーム処理部
201b 第1チャープz変換部
201c 第2チャープz変換部
201d ビット値検出部
202 電子透かしデータ生成部
203 データ照合部
204 改ざん検出部


【特許請求の範囲】
【請求項1】
蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータを埋め込むステップ(a)と、
前記音響信号を外部から取得するステップ(b)と、
前記蝸牛遅延フィルタが模擬する蝸牛遅延特性に基づいて、取得した前記音響信号に埋め込まれている埋め込みデータを検出するステップ(c)と、
検出した前記埋め込みデータと前記電子透かしデータとを照合するステップ(d)と、
照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定するステップ(e)と
を有する、改ざん検出方法。
【請求項2】
前記ステップ(e)において前記音響信号が改ざんされていると判定した場合、当該音響信号の改ざん箇所を特定するステップ(f)
をさらに有する、請求項1に記載の改ざん検出方法。
【請求項3】
前記ステップ(f)において、前記埋め込みデータと前記電子透かしデータとが一致しない箇所に基づいて、前記改ざん箇所を特定する、
請求項2に記載の改ざん検出方法。
【請求項4】
前記ステップ(e)において前記音響信号が改ざんされていると判定した場合、当該音響信号の少なくとも一部が別の音響信号に入れ替えられているか否かを判定するステップ(g)
をさらに有する、請求項1乃至3の何れかに記載の改ざん検出方法。
【請求項5】
前記ステップ(e)において前記音響信号が改ざんされていると判定した場合、当該音響信号の少なくとも一部に別の音響信号が付与されているか否かを判定するステップ(h)
をさらに有する、請求項1乃至4の何れかに記載の改ざん検出方法。
【請求項6】
前記ステップ(a)において、前記電子透かしデータとして画像データを前記音響信号に埋め込む、
請求項1乃至5の何れかに記載の改ざん検出方法。
【請求項7】
前記電子透かしデータが埋め込まれている音響信号に基づいて、当該音響信号に位相変調を施した蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ(i)をさらに有し、
前記ステップ(c)において、前記ステップ(i)によって推定された蝸牛遅延特性に基づいて、前記埋め込みデータを検出する、
請求項1乃至6の何れかに記載の改ざん検出方法。
【請求項8】
蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出装置であって、
前記音響信号を外部から取得する音響信号取得手段と、
前記蝸牛遅延フィルタが模擬する蝸牛遅延特性に基づいて、前記音響取得手段によって取得された音響信号に埋め込まれている埋め込みデータを検出する埋め込みデータ検出手段と、
前記埋め込みデータ検出手段によって検出された埋め込みデータと前記電子透かしデータとを照合する照合手段と、
前記照合手段による照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定する改ざん判定手段と
を備える、改ざん検出装置。
【請求項9】
前記改ざん判定手段によって前記音響信号が改ざんされていると判定された場合、当該音響信号の改ざん箇所を特定する改ざん箇所特定手段
をさらに備える、請求項8に記載の改ざん検出装置。
【請求項10】
前記改ざん箇所特定手段が、前記埋め込みデータと前記電子透かしデータとが一致しない箇所に基づいて、前記改ざん箇所を特定するように構成されている、
請求項9に記載の改ざん検出装置。
【請求項11】
前記改ざん判定手段によって前記音響信号が改ざんされていると判定された場合、当該音響信号の少なくとも一部が別の音響信号に入れ替えられているか否かを判定する第1改ざん態様判定手段
をさらに備える、請求項8乃至10の何れかに記載の改ざん検出装置。
【請求項12】
前記改ざん判定手段によって前記音響信号が改ざんされていると判定された場合、当該音響信号の少なくとも一部に別の音響信号が付与されているか否かを判定する第2改ざん態様判定手段
をさらに備える、請求項8乃至11の何れかに記載の改ざん検出装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図31】
image rotate

【図19】
image rotate

【図20】
image rotate

【図30】
image rotate


【公開番号】特開2013−97210(P2013−97210A)
【公開日】平成25年5月20日(2013.5.20)
【国際特許分類】
【出願番号】特願2011−240692(P2011−240692)
【出願日】平成23年11月1日(2011.11.1)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 一般社団法人情報処理学会、社団法人電子情報通信学会の発行によるDVD「第10回情報科学技術フォーラム 講演論文集」が平成23年8月22日に配布され、当該DVDに記録された情報のうち、第3分冊第89ページより第96ページに掲載されていた講演論文「蝸牛遅延に基づいた電子音響透かし法とそのブラインド検出の実現」が公開された。
【出願人】(304024430)国立大学法人北陸先端科学技術大学院大学 (169)