秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム

【課題】人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成する。
【解決手段】周波数解析処理３２は、音声データ４及び音楽データ５の各々に対して周波数解析を行い、音声データ４の時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）を算出し、音楽データ５の時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する。フィルタ関数作成処理３３は、音声最大値スペクトルＶｖ（ｊ）に基づく値を、音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成する。フィルタリング処理３４は、音楽データ５を所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、秘匿化データ６を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、対話音声を秘匿化する音楽データを生成する秘匿化データ生成装置等に関するものである。
【背景技術】
【０００２】
医療機関（調剤薬局などの受付カウンター）、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる対話音声は、第３者に聴取されることが好ましくない個人情報や企業の機密情報が含まれることが少なくない。しかしながら、従来は、簡易的な間仕切りのみによって済ませている施設が多い。これは、事務所や店のスペース・コストの制約から、カラオケボックスのように遮音機能をもつ什器を導入したり、内装工事を行ったりすることは必ずしも容易ではないからである。そこで、現状設備に殆ど手を加えることなく、対話音声を秘匿化する手法が求められている。
【０００３】
音を秘匿化する手法の１つとして、電気的に消音する能動消音法（ＡＮＣ：ＡｃｕｔｉｖｅＮｏｉｓｅＣｏｎｔｒｏｌ：特許文献１参照）があるが、対象は定常的な騒音に限定されるため、音声のように時間変化が顕著な音には適用できない。
【０００４】
もう１つの音を秘匿化する手法として、ＢＧＭ（ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ）を利用する手法がある。例えば、ショッピングセンター、カクテルパーティ、飲食店などではＢＧＭが流れていることが多い。これは、人間の聴覚マスキング効果を活用して雑踏騒音を和らげることを意図している。しかし、人間はカクテルパーティ効果と呼ばれる、聴覚マスキング効果とは全く逆の特性も備えている。カクテルパーティ効果とは、カクテルパーティのように多くの人がそれぞれ雑談している中でも、自分が興味のある人の会話などは自然に聴き取ることができるという音声の選択的聴取のことである。
人間は、カクテルパーティ効果によって、より大きな音源（ＢＧＭ等）により部分的にマスクされた音声を補間して興味のある音声を聴取しようとする働きがある為、通常のＢＧＭによって音声を完全に秘匿化することまでは期待できない。このような問題を解決する為に、（１）エネルギーマスキング、（２）インフォメーションマスキングという２つの手法が提案されている。
【０００５】
（１）エネルギーマスキングについては、例えば、特許文献２に記載されている。特許文献２には、白色雑音（少なくとも可聴域にて、パワーが周波数によらず略均一な傾向を有した雑音）等をマスキング音として流し、聴覚マスキング効果によって音声等をマスキングすることが記載されている。
【０００６】
（２）インフォメーションマスキングについては、例えば、特許文献３、４に記載されている。特許文献３には、ある音響空間に設置されたマイクロホンから音信号を受取り、受け取った音信号にスクランブルをかけてマスキングサウンドを生成し、他の音響空間（音声信号が漏洩して欲しくない空間）に放音することが記載されている。また、特許文献４には、リアルタイムに録音された対話音声を解析し、対話音声を加工してマスキング音を生成し、出力することが記載されている。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特許第２５４４８９９号公報
【特許文献２】特開２０１０−０３１５０１号公報
【特許文献３】特許第４２４５０６０号公報
【特許文献４】特許第４３３６５５２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、特許文献２に記載の手法では、音圧が高いマスキング音が四六時中流れることになり、待合室の人々の雑談や面談中の会話が聞き取り難くなるという問題が指摘されている。
また、特許文献３、４に記載の手法では、マスキング音が人間に不快感を与えるとう問題が指摘されている。また、録音する為のマイクロホン、高速信号処理装置などが必要となり、コストがかかるという問題が指摘されている。尚、不快なマスキング音を和らげるために、更にＢＧＭを合成するという手法も考えられるが、音圧が大きくなり煩わしくなるという別の問題が発生する。
【０００９】
本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を提供することである。また、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる秘匿化装置等を提供することである。
【課題を解決するための手段】
【００１０】
前述した目的を達成するために第１の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析手段と、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、を具備することを特徴とする秘匿化データ生成装置である。
第１の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。特に、音声最大値スペクトルＶｖ（ｊ）を利用することにより、マスキング効果を高めることができる。
【００１１】
第１の発明における前記フィルタ関数作成手段は、前記音声最大値スペクトルＶｖ（ｊｃ）（ｊｃは特定の周波数）を、周波数ｊｃよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、前記音楽平均値スペクトルＶｍ（ｊｃ）を、周波数ｊｃの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を前記除算値スペクトルＤｉｖ（ｊ）とすることが望ましい。
マスキングは、高音側（周波数が高域側）に働きやすいという性質がある為、音声最大値スペクトルＶｖ（ｊｃ）（ｊｃは特定の周波数）を、周波数ｊｃよりも高域側の範囲内の最大値に置換することにより、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。
【００１２】
第１の発明における前記フィルタ関数作成手段は、前記除算値スペクトルＤｉｖ（ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、前記除算値スペクトルＤｉｖ（ｊ）を平滑化することが望ましい。
これによって、フィルタ関数が滑らかになり、ひいては、最終的に生成される秘匿化データが、人間にとって心地良い音楽データとなる。
【００１３】
第１の発明は、スペクトルの変移に基づいて、前記音楽データを、複数のフレームｆを含む音楽ブロックに分割するブロック分割手段、を更に具備し、前記周波数解析手段は、前記音楽ブロックごとに前記音楽平均値スペクトルＶｍ（ｂ、ｊ）（ｂはブロック）を算出し、前記フィルタ関数作成手段は、前記音楽ブロックごとに前記フィルタ関数Ｆ（ｂ、ｊ）を作成し、前記フィルタリング手段は、前記音楽ブロックごとに前記秘匿化データを生成することが望ましい。
音楽データが複数の楽節で構成され、比較的長い場合、一律の平均値スペクトルで表現すると、楽節によりマスキング効果が働きにくくなる箇所が生じてしまう。これに対して、音楽データを、複数のフレームｆを含む音楽ブロックに分割することで、楽節に合ったフィルタ関数を生成することができ、ひいては、マスキング効果を高めることができる。
【００１４】
第１の発明における前記ブロック分割手段は、フレームｆのスペクトルと、隣接するフレーム（ｆ−１）又は（ｆ＋１）のスペクトルと、の差分である第１差分を算出し、前記第１差分が第１閾値を超えているフレームｆを変移フレームとして設定する変移フレーム設定手段と、前記変移フレームの１つを特定フレームとし、前記特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、前記特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、前記左端フレームから前記特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、前記特定フレームから前記右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第２差分を算出し、前記第２差分が第２閾値以下である場合、前記特定フレームを通常のフレームとして設定する変移フレーム解除手段と、を含み、前記変移フレーム設定手段によって設定された全ての前記変移フレームに対して、前記変移フレーム解除手段による処理が実行された後、前記変移フレームごとに前記音楽データを前記音楽ブロックに分割するものであることが望ましい。
これによって、分割数が適切となり、マスキング効果は多少弱まるが、再生される音楽に不自然な単調感を与えることがなくなる。
【００１５】
第１の発明は、複数の前記音楽データを記憶する音楽データ記憶手段と、前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、を更に具備し、前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することが望ましい。
これによって、複数の音楽データに基づいて、複数の秘匿化データを生成することができる。
【００１６】
第２の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、を含むことを特徴とする秘匿化データ生成方法である。
第２の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。特に、音声最大値スペクトルＶｖ（ｊ）を利用することにより、マスキング効果を高めることができる。
【００１７】
第３の発明は、第１の発明の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第３の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルＶｖ（ｊ）を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【００１８】
第４の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化装置であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析手段と、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第４の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルＶｖ（ｊ）を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【００１９】
第５の発明は、第２の発明の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第５の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルＶｖ（ｊ）を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【００２０】
第６の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第６の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルＶｖ（ｊ）を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【００２１】
第７の発明は、コンピュータに、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、を実行させるためのコンピュータ読取可能なプログラムである。
第７の発明のプログラムを汎用のコンピュータにインストールすることによって、第１の発明の秘匿化データ生成装置を得ることができる。
【発明の効果】
【００２２】
本発明により、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を提供することができる。また、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる秘匿化装置等を提供することができる。
【図面の簡単な説明】
【００２３】
【図１】秘匿化装置の概要図
【図２】秘匿化データ生成装置のハードウエア構成図
【図３】秘匿化処理の流れを示すフローチャート
【図４】秘匿化データ生成処理の流れを示す図
【図５】ブロック分割処理を説明する図
【図６】周波数解析処理を説明する図
【図７】フィルタ関数作成処理を説明する図
【図８】フィルタ関数作成処理を説明する図
【図９】フィルタリング処理を説明する図
【図１０】実施例１の音声データを示す図
【図１１】実施例１の音楽データを示す図
【図１２】実施例１のフィルタ関数を示す図
【図１３】実施例２の音楽データを示す図
【図１４】実施例２のブロック１に係るフィルタ関数を示す図
【図１５】実施例２のブロック２に係るフィルタ関数を示す図
【図１６】実施例２のブロック３に係るフィルタ関数を示す図
【発明を実施するための形態】
【００２４】
以下図面に基づいて、本発明の実施形態を詳細に説明する。
図１は、秘匿化装置１の概要図である。図１に示すように、秘匿化装置１は、少なくとも、秘匿化データ生成装置２及び音楽再生装置３から構成される。
秘匿化データ生成装置２は、例えば、コンピュータ等であり、対話音声を秘匿化するための音楽データである秘匿化データ６を生成する。秘匿化データ生成装置２の記憶部には、少なくとも音声データ４及び音楽データ５が記憶される。
音楽再生装置３は、音楽プレーヤ及びスピーカから構成され、秘匿化データ６を再生する。音楽再生装置３の記憶部には、少なくとも秘匿化データ生成装置２によって生成される秘匿化データ６が記憶される。
【００２５】
秘匿化装置１は、用途に応じて様々な構成を採ることが可能である。秘匿化装置１を構成する秘匿化データ生成装置２及び音楽再生装置３は、図１に示すように異なる筐体としても良いし、１つの筐体としても良い。
また、秘匿化データ生成装置２及び音楽再生装置３は、図１に示すように有線によって接続されても良いし、無線によって接続されても良いし、ネットワークを介して接続されても良いし、接続されていなくても良い。
秘匿化データ生成装置２及び音楽再生装置３が接続されていない場合、秘匿化データ生成装置２は、秘匿化データ６を記憶媒体（ＣＤ、ＭＤ、ＵＳＢメモリ、ＳＤカードなどコンピュータ及び音楽プレーヤが読取可能な記憶媒体）に出力し、音楽再生装置３は、記憶媒体から秘匿化データ６を入力する。
【００２６】
少なくとも音楽再生装置３は、対話音声の秘匿化を所望する音響空間に設置される。このような音響空間としては、例えば、調剤薬局などの受付カウンターに隣接する待合室などが考えられる。そして、音楽再生装置３は、このような待合室において秘匿化データ６を再生する。
ここで、本発明の実施の形態に係る秘匿化データ生成装置２が生成する秘匿化データ６は、受付カウンターと待合室の間が簡易的な間仕切りのみであっても、通常の音量によって、待合室にいる人が受付カウンターの対話音声の内容を聞き取ることができない程度に、秘匿化することが可能である。
音楽再生装置３が設置される音響空間としては、その他に、金融機関、保険会社、携帯電話店などのカウンターに隣接する待機スペース、法律事務所などの面談室に隣接する通路、飲食店などの個室などが挙げられる。
【００２７】
図２は、秘匿化データ生成装置２のハードウエア構成図である。尚、図２のハードウエア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
秘匿化データ生成装置２は、制御部２１、記憶部２２、メディア入出力部２３、通信制御部２４、入力部２５、表示部２６、周辺機器Ｉ／Ｆ部２７等が、バス２８を介して接続される。
【００２８】
制御部２１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成される。
ＣＰＵは、記憶部２２、ＲＯＭ、記録媒体等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス２８を介して接続された各装置を駆動制御し、秘匿化データ生成装置２が行う後述する処理を実現する。
ＲＯＭは、不揮発性メモリであり、秘匿化データ生成装置２のブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持している。
ＲＡＭは、揮発性メモリであり、記憶部２２、ＲＯＭ、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部１１が各種処理を行う為に使用するワークエリアを備える。
【００２９】
記憶部２２は、ＨＤＤ（ハードディスクドライブ）であり、制御部２１が実行するプログラム、プログラム実行に必要なデータ、ＯＳ（オペレーティングシステム）等が格納される。プログラムに関しては、ＯＳ（オペレーティングシステム）に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部２１により必要に応じて読み出されてＲＡＭに移され、ＣＰＵに読み出されて各種の手段として実行される。
【００３０】
メディア入出力部２３（ドライブ装置）は、データの入出力を行い、例えば、ＣＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＤＶＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＭＤドライブ等のメディア入出力装置を有する。
通信制御部２４は、通信制御装置、通信ポート等を有し、秘匿化データ生成装置２とネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他の装置間との通信制御を行う。ネットワークは、有線、無線を問わない。
【００３１】
入力部２５は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部２５を介して、秘匿化データ生成装置２に対して、操作指示、動作指示、データ入力等を行うことができる。
表示部２６は、ＣＲＴモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータ１のビデオ機能を実現するための論理回路等（ビデオアダプタ等）を有する。
【００３２】
周辺機器Ｉ／Ｆ（インタフェース）部２７は、秘匿化データ生成装置２に周辺機器を接続させるためのポートであり、秘匿化データ生成装置２は周辺機器Ｉ／Ｆ部２７を介して周辺機器とのデータの送受信を行う。周辺機器Ｉ／Ｆ部２７は、ＵＳＢやＳＤカードリーダ等で構成されている。
バス２８は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
【００３３】
図３は、秘匿化処理の流れを示すフローチャートである。
図３に示すように、秘匿化データ生成装置２の制御部２１は、音声データ４及び音楽データ５を記憶部２２に記憶する（Ｓ１０１）。音楽データ５は、複数記憶するようにしても良い。
音声データ４は、秘匿化対象の音響空間における対話音声ではなく、固定のサンプルデータとする。すなわち、本発明の実施の形態における秘匿化データ生成装置２は、リアルタイム処理は行わない。音声データ４は、予め録音された種々の男声、女声が混在した対話音声である。
音楽データ５は任意であるが、聴取者にとって意味のあるメロディ・リズム・和声進行が含まれているもので、マスキング効果が働きやすくなるという点では声楽データが含まれていることが望ましいが、騒がしくなるため、器楽データのみで楽器編成が少ない室内楽曲などが現実的である。秘匿化データ生成装置２は、音楽データ５ごとに秘匿化データ６を生成する。
【００３４】
次に、秘匿化データ生成装置２の制御部２１は、単一の音楽データ５を選択する（Ｓ１０２）。音楽データ５の選択は、入力部２５を介してユーザが指示するようにしても良い。
次に、秘匿化データ生成装置２の制御部２１は、Ｓ１０２において選択された単一の音楽データ５に基づいて、秘匿化データ６の生成処理を行う（Ｓ１０３）。秘匿化データ６の生成処理の詳細は後述する。
Ｓ１０２及びＳ１０３の処理を繰り返し、複数の秘匿化データ６を生成するようにしても良い。
【００３５】
次に、音楽再生装置３は、Ｓ１０３にて生成された秘匿化データ６を記憶する（Ｓ１０４）。秘匿化データ６は、複数記憶するようにしても良い。
次に、音楽再生装置３は、単一の秘匿化データ６を選択する（Ｓ１０５）。秘匿化データ６の選択は、ユーザが指示するようにしても良い。
次に、音楽再生装置３は、Ｓ１０５において選択された単一の秘匿化データ６を再生する（Ｓ１０６）。再生音量は、環境の変化に応じて、ユーザの指示により適宜変更される。
【００３６】
以上により、秘匿化装置１は、音響空間Ａにおける対話音声が、所定の距離だけ離れている音響空間Ｂにいる人に聴取されないように秘匿化することができる。
以下では、秘匿化データ６の生成処理の詳細について説明する。
【００３７】
図４は、秘匿化データ生成処理の流れを示す図である。図４に示すように、秘匿化データ生成処理は、ブロック分割処理３１、周波数解析処理３２、フィルタ関数作成処理３３及びフィルタリング処理３４を含む。尚、ブロック分割処理３１は、必須ではない。
ここでは、各処理の概要について説明し、詳細は後述する。
【００３８】
ブロック分割処理３１は、音楽データ５を入力し、音楽ブロック群１１を出力する。ブロック分割処理３１は、秘匿化データ生成装置２の制御部２１が、スペクトルの変移に基づいて、音楽データ５を、複数のフレームｆを含む音楽ブロックに分割する処理である。
【００３９】
周波数解析処理３２は、音声データ４及び音楽データ５（又は音楽ブロック群１１）を入力し、音声最大値スペクトル１２及び音楽平均値スペクトル１３を出力する。周波数解析処理３２は、秘匿化データ生成装置２の制御部２１が、音声データ４及び音楽データ５（又は音楽ブロック）の各々に対して周波数解析を行い、音声データ４の時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、音楽データ５の時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する処理である。
【００４０】
音声データ４は、スペクトルの時系列変動が大きく、無音部も含まれるため、平均値では適切な評価ができない。そこで、本発明の実施の形態では、最大値を採用する。
尚、音楽データ５が複数の楽節で構成され、比較的長い場合、一律の平均値スペクトルで表現すると、楽節によりマスキング効果が働きにくくなる箇所が生じる。そこで、必要に応じて、ブロック分割処理３１によって、音楽データ５をスペクトル特性より複数のブロックに分割し、ブロックごとに音楽平均値スペクトルＶｍ（ｊ）を算出する。逆に、３〜４分程度の短い音楽データに対して、このような分割を施すと、マスキング効果は確かに働きやすくなるが、再生される音楽に不自然な単調感を与えるため適用しないこともある。例えば、Ａ−Ｂ−Ｃという三部構成の曲でサビのＢのパートをＡ、Ｃに比べ強く（フォルテ）演奏する指示になっている場合、三部ごとに異なるフィルタ関数を設定すると、ＡとＣが相対的に盛り上がってしまい、サビのＢパートが目立たなくなり、曲全体の構成が崩れてしまう。そこで、一律なフィルタ関数を適用し、ＡとＣのパートは多少マスキング効果が弱くなっても、曲全体の音量バランスを維持するようにする。
【００４１】
フィルタ関数作成処理３３は、音声最大値スペクトルデータ１２及び音楽平均値スペクトルデータ１３を入力し、フィルタ関数データ１４を出力する。フィルタ関数作成処理３３は、秘匿化データ生成装置２の制御部２１が、音声最大値スペクトルＶｖ（ｊ）に基づく値を、音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成する処理である。
【００４２】
フィルタリング処理３４は、音楽データ５及びフィルタ関数データ１４を入力し、秘匿化データ６を出力する。フィルタリング処理３４は、秘匿化データ生成装置２の制御部２１が、音楽データ５を所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、秘匿化データ６を生成する処理である。
【００４３】
図５は、ブロック分割処理を説明する図である。図５に示すように、ブロック分割処理３１は、変移フレーム設定処理４１及び変移フレーム解除処理４２を含む。
【００４４】
例えば、サンプリング周波数Ｆｓを「４４１００Ｈｚ」、サンプル数Ｎを「４０９６」とする。サンプリング周波数Ｆｓ及びサンプル数Ｎによって、音楽データ５に含まれるフレーム数Ｆが定まる。
最初に、ブロック分割処理３１では、秘匿化データ生成装置２の制御部２１が、サンプリング周波数Ｆｓのモノラル音楽信号（ステレオの場合はＬＲ（左右）の合算値とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆフレーム抽出したｆ番目のフレームデータＸ（ｆ、ｊ）（ｆ＝０、・・・、Ｆ−１；ｉ＝０、・・・、Ｎ−１）に対して、ハニング窓関数Ｈ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行う。
次に、制御部２１は、変換データの実部Ａ（ｆ、ｊ）（ｆ＝０、・・・、Ｆ−１；ｊ＝０、・・・、Ｎ−１）、虚部Ｂ（ｆ、ｊ）（ｆ＝０、・・・、Ｆ−１；ｊ＝０、・・・、Ｎ−１）及び強度値Ｖ（ｆ、ｊ）を各々、次式のように算出する。
【００４５】
【数１】

【００４６】
変移フレーム設定処理４１は、秘匿化データ生成装置２の制御部２１が、音楽データ５（又は音楽ブロック）に含まれる各フレームｆのスペクトルと、隣接するフレーム（ｆ−１）又は（ｆ＋１）のスペクトルと、の差分である第１差分を算出し、第１差分が第１閾値を超えているフレームｆを変移フレームとして設定する処理である。
変移フレームとは、直前又は直後のフレームと比較して、スペクトルの変化が大きいフレームを意味する。
【００４７】
具体的には、変移フレーム設定処理４１では、秘匿化データ生成装置２の制御部２１は、ｆ＝０、・・・、Ｆ−１に対応してブロック分割マーク配列をＤ（ｆ）とし、初期状態は全てＤ（ｆ）＝０とする。次に、式（３）の強度値Ｖ（ｆ、ｊ）の隣接フレーム間の差分（第１差分）ｄＶ（ｆ）（ｆ＝１、・・・、Ｆ−１）を次式のように算出し、ｄＶ（ｆ）が所定の閾値（第１閾値）Ｓｄｖ以上の場合、即ちｄＶ（ｆ）＞）Ｓｄｖの場合、Ｄ（ｆ）＝１に設定する（変移フレームに設定する）
【００４８】
【数２】

【００４９】
変移フレーム解除処理４２は、秘匿化データ生成装置２の制御部２１が、変移フレーム設定処理４１の後、変移フレームの１つを特定フレームとし、特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、左端フレームから特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、特定フレームから右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第２差分を算出し、第２差分が第２閾値以下である場合、特定フレームを通常のフレームとして設定する処理である。
変移フレーム解除処理４２を実行する理由は、変移フレーム設定処理４１による分割が細か過ぎる場合がある為である。変移フレーム解除処理４２を実行し、各音楽ブロックが３０秒程度以上になるようにすることが望ましい。
【００５０】
具体的には、変移フレーム解除処理４２では、秘匿化データ生成装置２の制御部２１は、Ｄ（ｆ）＝１である１つのフレーム（特定フレーム）ｆｃに対して、ｆ１＜ｆｃかつＤ（ｆ１）＝１、又は、ｆ１＝０を満たすｆ１を探索する。ｆ１が左端フレームである。また、制御部２１は、特定フレームｆｃに対して、ｆｃ＜ｆ２かつＤ（ｆ２）＝１、又は、ｆ２＝Ｆを満たすｆ２を探索する。ｆ２が右端フレームである。
次に、制御部２１は、強度値Ｖ（ｆ、ｊ）の[ｆ１、ｆｃ]区間の平均スペクトル（左側平均スペクトル）Ｖａ１（ｊ）と、[ｆｃ、ｆ２]区間の平均スペクトル（左側平均スペクトル）Ｖａ２（ｊ）の差分（第２差分）ｄＶａを次式のように算出し、ｄＶａが所定の閾値（第２閾値）Ｓｄｖａ以下の場合、即ちｄＶａ＜Ｓｄｖａの場合、Ｄ（ｆｃ）＝０に再設定する（特定フレームを通常のフレームとして設定する）。
【００５１】
【数３】

【００５２】
そして、制御部２１は、変移フレーム設定処理４１によって設定された全ての変移フレームに対して、変移フレーム解除処理４２が実行された後、残存する変移フレームごとに音楽データ５を音楽ブロックに分割する。
【００５３】
Ｄ（ｆ）＝１となるフレーム数が所定の個数を超える場合、制御部２１は、変移フレーム解除処理４２を再度繰り返し実行する。そして、所望の個数になったら、制御部２１は、Ｄ（ｆ）＝１となるフレームを分割点としてＮｂブロックに分割し、ｂ＝０、・・・、Ｎｂに対応させて、ブロック先頭フレームをＦ（ｂ）と定義する。ただし、Ｆ（０）＝０、Ｆ（Ｎｂ）＝Ｆである。
【００５４】
図５に示す例では、音楽データ５に対して、変移フレーム設定処理４１によって変移フレームが５個設定されている。また、変移フレーム解除処理４２によって４個の変移フレームが通常フレームに設定され、残存変移フレームは１個となっている。そして、音楽データ５は、ブロック１及びブロック２の２つの音楽ブロックに分割されている。
【００５５】
図６は、周波数解析処理を説明する図である。図６に示すように、周波数解析処理３２では、秘匿化データ生成装置２の制御部２１が、音声フレームデータＸ１（ｆ、ｉ）（ｆ＝０、・・・、Ｆ−１、ｉ＝０、・・・、Ｎ−１）及び音楽フレームデータＸ２（ｆ、ｉ）（ｆ＝Ｆ（ｂ）・・・、Ｆ（ｂ＋１）−１；ｉ＝０、・・・、Ｎ−１）の各々に対して周波数解析３２ａを行い、それぞれ音声スペクトル及び音楽スペクトルを算出する。そして、制御部２１が、各音声スペクトルに対しては、時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、各音楽スペクトルに対しては、時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する。
【００５６】
具体的には、周波数解析処理３２では、秘匿化データ生成装置２の制御部２１は、サンプリング周波数Ｆｓのモノラル音声信号およびｂ番目のブロック（ｂ＝０、・・・、Ｎｂ−１）（ブロック分割をしない場合、ｂ＝０、Ｎｂ＝１）のモノラル音楽信号（ステレオの場合、ＬＲ（左右）の合算値とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆｖ個、Ｆ（ｂ＋１）−Ｆ（ｂ）個のフレームを抽出する。
次に、制御部２１は、ｆ番目の音声フレームデータＸ１（ｆ、ｉ）（ｆ＝０、・・・、Ｆｖ−１；ｉ＝０、・・・、Ｎ−１）、及び、音楽フレームデータＸ２（ｆ、ｉ）（ｆ＝Ｆ（ｂ）、・・・、Ｆ（ｂ＋１）−１；ｉ＝０、・・・、Ｎ−１）に対して、ハニング窓関数Ｗ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行う。
次に、制御部２１は、Ｘ１に対する変換データの実部Ａｖ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｖ−１；ｊ＝０、・・・、Ｎ−１）、Ｘ２に対する変換データの実部Ａｍ（ｆ、ｊ）（ｆ＝Ｆ（ｂ）、・・・、Ｆ（ｂ＋１）−１；ｊ＝０、・・・、Ｎ−１）、Ｘ１に対する変換データの虚部Ｂｖ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｖ−１；ｊ＝０、・・・、Ｎ−１）、Ｘ２に対する変換データの虚部Ｂｍ（ｆ、ｊ）（ｆ＝Ｆ（ｂ）、・・・、Ｆ（ｂ＋１）−１；ｊ＝０、・・・、Ｎ−１）を、それぞれ次式のように算出する。
更に、制御部２１は、Ｘ１に対する変換データの強度値の最大値である音声最大値スペクトルＶｖ（ｊ）、Ｘ２に対する変換データの強度値の平均値である音楽平均値スペクトルＶｍ（ｂ、ｊ）を、それぞれ次式のように算出する。
【００５７】
【数４】

【００５８】
図６では、説明を簡単にする為、ブロック分割をしない場合を図示しており（後述する図７〜図９も同様）、音楽平均値スペクトルＶｍ（ｂ、ｊ）は１つである。ブロック分割をする場合、それぞれの音楽ブロックに対して、音楽平均値スペクトルＶｍ（ｂ、ｊ）を算出する。
【００５９】
図７、図８は、フィルタ関数作成処理を説明する図である。フィルタ関数作成処理３３は、図７に示す臨界帯域幅補正処理４３、並びに、図８に示す除算処理４４及び平滑化処理４５を含む。
【００６０】
まず、図７を参照して臨界帯域幅補正処理４３について説明する。
臨界帯域幅補正処理４３は、秘匿化データ生成装置２の制御部２１が、音声最大値スペクトルＶｖ（ｊｃ）を、周波数ｊｃよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを作成し、音楽平均値スペクトルＶｍ（ｊｃ）を、周波数ｊｃの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを作成する処理である。
【００６１】
臨界帯域幅とは、ある周波数ｊの周波数成分Ｖｖ（ｊ）またはＶｍ（ｂ、ｊ）を中心にマスキングが及ぶ周波数の範囲である。臨界帯域幅の近似式としては、次式に示すＥ．Ｚｗｉｃｋｅｒの式が知られている。尚、一般に、周波数が高くなると、臨界帯域幅は広くなることが分かっている。
【００６２】
【数５】

【００６３】
式（１４）におけるｆｒの単位も「Ｈｚ」である。ｆｒとＢｚ（ｆｒ）を本実施の形態におけるフーリエ変換のポイント数の次元に変換すると、次式となる。
【００６４】
【数６】

【００６５】
臨界帯域幅補正処理４３では、秘匿化データ生成装置２の制御部２１は、音声信号スペクトル対して、周波数ｊｃごとに周波数成分Ｖｖ（ｊｃ）をｊ＝ｊｃ−（１−α）×Ｂｚ（ｊ）からｊ＝ｊｃ＋α×Ｂｚ（ｊ）の範囲（周波数ｊｃよりも高域側の範囲）の最大値に置換する。即ち、制御部２１は、ｊｃ＝０、・・・、Ｎ／２に対して、置換後のスペクトル（置換音声最大値スペクトル）Ｖｖ‘（ｊｃ）を次式のように算出する。
【００６６】
【数７】

【００６７】
αは０から１までの実数であり、通常はα＝１．０とする。式（１６）によって、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになる。
【００６８】
一方、音楽信号スペクトル対しては、周波数ｊｃごとに周波数成分Ｖｍ（ｂ、ｊｃ）をｊ＝ｊｃ−０．５×Ｂｚ（ｊ）からｊ＝ｊｃ＋０．５×Ｂｚ（ｊ）の範囲（周波数ｊｃの前後の範囲）の平均値に置換する。即ち、制御部２１は、ｊｃ＝０、・・・、Ｎ／２に対して、置換後のスペクトル（置換音楽平均値スペクトル）Ｖｍ‘（ｂ、ｊｃ）を次式のように算出する。
【００６９】
【数８】

【００７０】
式（１７）によって、音楽スペクトルを周波数方向に平滑化をかけていることになる。
【００７１】
図７では、Ｗ（ｊ）が、置換の際の計算範囲を示している。音声最大値スペクトルＶｖ（ｊｃ）に対しては、Ｗ（ｊ）が周波数ｊｃよりも高域側の範囲を示している。また、音楽平均値スペクトルＶｍ（ｂ、ｊｃ）に対しては、Ｗ（ｊ）が周波数ｊｃの前後の範囲を示している。
【００７２】
次に、図８を参照して、除算処理４４及び平滑化処理４５について説明する。
除算処理４４は、秘匿化データ生成装置２の制御部２１が、音声最大値スペクトルＶｖ（ｊ）に基づく値を音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値を除算値スペクトルＤｉｖ（ｊ）とする処理である。特に、制御部２１は、置換音声最大値スペクトルＶｖ‘（ｊｃ）を置換音楽平均値スペクトルＶｍ‘（ｂ、ｊｃ）によって除した値を除算値スペクトルＤｉｖ（ｊ）とすることが望ましい。
【００７３】
また、平滑化処理４５は、秘匿化データ生成装置２の制御部２１が、除算値スペクトルＤｉｖ（ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、除算値スペクトルＤｉｖ（ｊ）を平滑化する処理である。
【００７４】
具体的には、制御部２１は、周波数（ｊ＝０、・・・、Ｎ／２）ごとに、除算値スペクトルＤｉｖ（ｊ）＝Ｖｖ‘（ｊ）／Ｖｍ‘（ｂ、ｊ）を算出し、これに対して所定のタップ数Ｔ（＜Ｎ／２）によって、次式のように、平滑フィルタをかけた結果をＦｂ（ｊ）とする。
【００７５】
【数９】

【００７６】
αは、音圧を調整するための比例定数（実数値）である。音声信号の音圧と音楽信号の音圧を同程度とする場合、α＝１．０とする。
Ｆｂ（ｊ）の上限値と下限値は予め設定しておく。例えば、中央値を１とすると、上限値を１０倍の「１０」、下限値を１／１０の「０．１」とする。除算結果が上限値を上回る場合、又は、下限値を下回る場合、制御部２１は、それぞれ、Ｆｂ（ｊ）に上限値又は下限値を設定する。
【００７７】
図８に示すように、除算値スペクトルＤｉｖ（ｊ）は、極値（極大値及び極小値）を数多く持つ関数となっている。特に、ところどころ０で割り算する箇所が発生してしまい、その箇所では上限値をもつ極値になり不連続点になる。除算値スペクトルＤｉｖ（ｊ）をそのままフィルタ関数とすると、人間にとって聞き苦しい秘匿化データ６が生成されてしまう。そこで、本発明の実施の形態では、平滑化処理４５を行っている。
図８に示すように、平滑化処理４５を行うことで、フィルタ関数Ｆｂ（ｊ）は、極値が少なく、滑らかな関数となっている。
【００７８】
図９は、フィルタリング処理を説明する図である。図９に示すように、フィルタリング処理３４は、フーリエ変換処理４６、フィルタ関数乗算処理４７及びフーリエ逆変換処理４８を含む。
前述のブロック分割処理３１、周波数解析処理３２及びフィルタ関数作成処理３３では、実数値に対して計算を行っているが、フィルタリング処理３４では、複素数値に対して計算を行う。
【００７９】
フーリエ変換処理４６は、秘匿化データ生成装置２の制御部２１が、音楽フレームデータＸｌ（ｆ、ｉ）及びＸｒ（ｆ、ｉ）（ｆ＝Ｆ（ｂ）、・・・、Ｆ（ｂ＋１）−１；ｉ＝０、・・・、Ｎ−１）をフーリエ変換し、ソース複素スペクトルを算出する処理である。
フィルタ関数乗算処理４７は、制御部２１が、ソース複素スペクトルにフィルタ関数Ｆｂ（ｊ）を乗じ、改変複素スペクトルを算出する処理である。
フーリエ逆変換処理４８は、制御部２１が、改変複素スペクトルをフーリエ逆変換を行い、秘匿化フレームデータＸｌ‘（ｆ、ｉ）及びＸｒ‘（ｆ、ｉ）（ｆ＝Ｆ（ｂ）、・・・、Ｆ（ｂ＋１）−１；ｉ＝０、・・・、Ｎ−１）を算出する処理である。
【００８０】
フーリエ変換処理４６では、制御部２１は、サンプリング周波数Ｆｓのステレオ音声信号（モノラル信号の場合はＸｒ（ｆ、ｉ）＝０とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆフレーム抽出したｆ番目の音楽フレームデータＸｌ（ｆ、ｉ）及びＸｒ（ｆ、ｉ）に対して、ハニング窓関数Ｈ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行い、以下のように、変換データの実部Ａｌ（ｆ、ｊ）及びＡｒ（ｆ、ｊ）、並びに、虚部Ｂｌ（ｆ、ｊ）及びＢｒ（ｆ、ｊ）（ｆ＝Ｆ（ｂ）、・・・、Ｆ（ｂ＋１）−１；ｉ＝０、・・・、Ｎ−１）を算出する。
【００８１】
【数１０】

【００８２】
フィルタ関数乗算処理４７では、制御部２１は、Ｎｂ個のフィルタ関数Ｆｂ（ｊ）を用いて、ブロックｂごとに所定の周波数区間［ｊ１、ｊ２］の全ての周波数成分に乗算する。即ち、制御部２１は、Ｎｂ個のブロック（分割しない場合、ｂ＝０、Ｎｂ＝１）の各ブロックｂの各フレームｆ＝Ｆ（ｂ）、・・・、Ｆ（ｂ＋１）、及び、各周波数ｊ＝ｊ１、・・・、ｊ２において、次式のように変換を行う。
【００８３】
【数１１】

【００８４】
各フレームｆのＡl（ｆ、ｊ）、Ｂl（ｆ、ｊ）、
Ａｒ（ｆ、ｊ）、Ｂｒ（ｆ、ｊ）の各要素に対してフィルタ関数乗算処理４７の結果を各々Ａl‘（ｆ、ｊ）、Ｂl’（ｆ、ｊ）、Ａｒ‘（ｆ、ｊ）、Ｂｒ’（ｆ、ｊ）とする。
フーリエ逆変換処理４８では、制御部２１は、変換対象のフレームｆの秘匿化フレームデータＸｌ‘（ｆ、ｉ）及びＸｒ‘（ｆ、ｉ）に対して、直前に変換されたフレームｆ−１の秘匿化フレームデータＸｌ‘（ｆ−１、ｉ）及びＸｒ‘（ｆ−１、ｉ）が存在する場合、両者が時間軸においてＮ／２サンプル分重複することを考慮し、次式のように計算を行う。
【００８５】
【数１２】

【００８６】
以上、本発明の実施の形態における秘匿化データ生成処理について説明したが、本発明の実施の形態によれば、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。
特に、本発明の実施の形態では、インフォメーションマスキング手法のように対話音源と同期させながら制御信号を提示する必要がないためリアルタイム信号処理を必要とせず、従来の館内ＢＧＭと同様な設備で安価に対話音声の秘匿化を実現できる。また、対話音声の制御に使用する音声・音楽信号として、ＣＭ音声を用いれば、ＢＧＭを新規な広告メディアとして活用でき、広告主側でＢＧＭ再生装置の設置コストを負担する新規な事業モデルを構築できるという効果がある。
【実施例１】
【００８７】
次に、図１０〜図１２を参照しながら、実施例１について説明する。実施例１は、音楽データ５を複数の音楽ブロックに分割しない例である。
図１０は、実施例１の音声データを示す図である。図１１は、実施例１の音楽データを示す図である。図１２は、実施例１のフィルタ関数を示す図である。
【００８８】
図１０（１）は、音声データ４である。図１０（２）は、音声最大値スペクトルＶｖ（ｊ）である。
また、図１１（１）は、音楽データ５である。図１１（２）は、音楽平均値スペクトルＶｍ（ｊ）である。図１１（３）は、秘匿化データ６である。図１１（４）は、秘匿化データ６の平均値スペクトルである。
図１０（２）の音声最大値スペクトルＶｖ（ｊ）と、図１１（４）の秘匿化データ６の平均値スペクトルとを比較すると、関数の形状が略同一となった。関数の形状が略同一ということは、秘匿化データ６が、音声データ４をマスキングする効果が高いことを示している。
【００８９】
図１２はフィルタ関数である。図１１（２）の音楽平均値スペクトルＶｍ（ｊ）に対して、図１２のフィルタ関数を乗算することによって、図１２（４）の秘匿化データ６の平均値スペクトルが得られた。
図１１（２）と図１２（４）とを比較すると、高周波数部分のスペクトルがフィルタ関数により抑えられていることが分かる。
【実施例２】
【００９０】
次に、図１３〜図１６を参照しながら、実施例２について説明する。実施例２は、音楽データ５を複数の音楽ブロックに分割する例である。
図１３は、実施例２の音楽データを示す図である。図１４は、実施例２のブロック１に係るフィルタ関数を示す図である。図１５は、実施例２のブロック２に係るフィルタ関数を示す図である。図１６は、実施例２のブロック３に係るフィルタ関数を示す図である。
尚、実施例２の音声データ４は、実施例１（図１０）と同様である。
【００９１】
図１３に示すように、実施例２では、ブロック１〜ブロック３の３つの音楽ブロックに分割された。
図１４〜図１６のフィルタ関数を比較すると、ブロック１のフィルタ関数は、特に目立つ極大値が２つとなった。ブロック２のフィルタ関数は、特に目立つ極大値が３つとなった。ブロック３のフィルタ関数は、特に目立つ極大値が１つ、特に目立つ極小値が１つとなった。このように、３つのフィルタ関数は、強調する部分が大きく異なった。
仮に、図１３に示す音楽データ５を複数の音楽ブロックに分割せず、１つのフィルタ関数のみを生成すると、そのフィルタ関数では、マスキング効果が働きにくくなる箇所が生じることになると推察される。
【００９２】
以上、添付図面を参照しながら、本発明に係る秘匿化データ生成装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【００９３】
１………秘匿化装置
２………秘匿化データ生成装置
３………音楽再生装置
４………音声データ
５………音楽データ
６………秘匿化データ
１１………音楽ブロック群
１２………音声最大値スペクトルデータ
１３………音声平均値スペクトルデータ
１４………フィルタ関数データ
３１………ブロック分割処理
３２………周波数解析処理
３２ａ………周波数解析
３３………フィルタ関数作成処理
３４………フィルタリング処理
４１………変移フレーム設定処理
４２………変移フレーム解除処理
４３………臨界帯域幅補正処理
４４………除算処理
４５………平滑化処理
４６………フーリエ変換処理
４７………フィルタ関数乗算処理
４８………フーリエ逆変換処理

【特許請求の範囲】
【請求項１】
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析手段と、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
を具備することを特徴とする秘匿化データ生成装置。
【請求項２】
前記フィルタ関数作成手段は、
前記音声最大値スペクトルＶｖ（ｊｃ）（ｊｃは特定の周波数）を、周波数ｊｃよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、
前記音楽平均値スペクトルＶｍ（ｊｃ）を、周波数ｊｃの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、
前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を前記除算値スペクトルＤｉｖ（ｊ）とすることを特徴とする請求項１に記載の秘匿化データ生成装置。
【請求項３】
前記フィルタ関数作成手段は、
前記除算値スペクトルＤｉｖ（ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、前記除算値スペクトルＤｉｖ（ｊ）を平滑化することを特徴とする請求項１又は請求項２に記載の秘匿化データ生成装置。
【請求項４】
スペクトルの変移に基づいて、前記音楽データを、複数のフレームｆを含む音楽ブロックに分割するブロック分割手段、
を更に具備し、
前記周波数解析手段は、前記音楽ブロックごとに前記音楽平均値スペクトルＶｍ（ｂ、ｊ）（ｂはブロック）を算出し、
前記フィルタ関数作成手段は、前記音楽ブロックごとに前記フィルタ関数Ｆ（ｂ、ｊ）を作成し、
前記フィルタリング手段は、前記音楽ブロックごとに前記秘匿化データを生成することを特徴とする請求項１乃至請求項３のいずれかに記載の秘匿化データ生成装置。
【請求項５】
前記ブロック分割手段は、
フレームｆのスペクトルと、隣接するフレーム（ｆ−１）又は（ｆ＋１）のスペクトルと、の差分である第１差分を算出し、前記第１差分が第１閾値を超えているフレームｆを変移フレームとして設定する変移フレーム設定手段と、
前記変移フレームの１つを特定フレームとし、前記特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、前記特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、前記左端フレームから前記特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、前記特定フレームから前記右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第２差分を算出し、前記第２差分が第２閾値以下である場合、前記特定フレームを通常のフレームとして設定する変移フレーム解除手段と、
を含み、
前記変移フレーム設定手段によって設定された全ての前記変移フレームに対して、前記変移フレーム解除手段による処理が実行された後、前記変移フレームごとに前記音楽データを前記音楽ブロックに分割するものであることを特徴とする請求項４に記載の秘匿化データ生成装置。
【請求項６】
複数の前記音楽データを記憶する音楽データ記憶手段と、
前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、
を更に具備し、
前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することを特徴とする請求項１乃至請求項５のいずれかに記載の秘匿化データ生成装置。
【請求項７】
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を含むことを特徴とする秘匿化データ生成方法。
【請求項８】
請求項１乃至請求項６のいずれかに記載の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
【請求項９】
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析手段と、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
【請求項１０】
請求項７に記載の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
【請求項１１】
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
【請求項１２】
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、前記フィルタ関数Ｆｂ（ｊ）を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、
を実行させるためのコンピュータ読取可能なプログラム。
【請求項１３】
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｊ）を算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を前記音楽平均値スペクトルＶｍ（ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｊ）に基づいて、フィルタ関数Ｆｂ（ｊ）を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆを周波数次元に変換し、変換された周波数成分Ｖ（ｆ、ｊ）に対して前記フィルタ関数Ｆｂ（ｊ）を乗じ、更に時間次元に逆変換することで、前記秘匿化データを生成するフィルタリングステップと、
対話音声を秘匿化するための音楽データである秘匿化データを再生する秘匿化データ再生ステップと、
を実行させるためのコンピュータ読取可能なプログラム。

【図１】