説明

秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム

【課題】音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせる。
【解決手段】周波数解析処理32では、音声最大値スペクトルVv(j)及び音楽平均値スペクトルVm(j)を算出する。フィルタ関数作成処理33では、音声最大値スペクトルVv(j)に基づく値を、音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとに聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成する。フィルタリング処理34では、各フレームfをフーリエ変換し、フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、秘匿化データ7を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話音声を秘匿化する音楽データを生成する秘匿化データ生成装置等に関するものである。
【背景技術】
【0002】
医療機関(調剤薬局などの受付カウンター)、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる対話音声は、第3者に聴取されることが好ましくない個人情報や企業の機密情報が含まれることが少なくない。しかしながら、従来は、簡易的な間仕切りのみによって済ませている施設が多い。これは、事務所や店のスペース・コストの制約から、カラオケボックスのように遮音機能をもつ什器を導入したり、内装工事を行ったりすることは必ずしも容易ではないからである。そこで、現状設備に殆ど手を加えることなく、対話音声を秘匿化する手法が求められている。
【0003】
音を秘匿化する手法の1つとして、電気的に消音する能動消音法(ANC:Active Noise Control:特許文献1参照)があるが、対象は定常的な騒音に限定されるため、音声のように時間変化が顕著な音には適用できない。
【0004】
もう1つの音を秘匿化する手法として、BGM(BackGround Music)を利用する手法がある。例えば、ショッピングセンター、カクテルパーティ、飲食店などではBGMが流れていることが多い。これは、人間の聴覚マスキング効果を活用して雑踏騒音を和らげることを意図している。しかし、人間はカクテルパーティ効果と呼ばれる、聴覚マスキング効果とは全く逆の特性も備えている。カクテルパーティ効果とは、カクテルパーティのように多くの人がそれぞれ雑談している中でも、自分が興味のある人の会話などは自然に聴き取ることができるという音声の選択的聴取のことである。
人間は、カクテルパーティ効果によって、より大きな音源(BGM等)により部分的にマスクされた音声を補間して興味のある音声を聴取しようとする働きがある為、通常のBGMによって音声を完全に秘匿化することまでは期待できない。このような問題を解決する為に、(1)エネルギーマスキング、(2)インフォメーションマスキングという2つの手法が提案されている。
【0005】
(1)エネルギーマスキングについては、例えば、特許文献2に記載されている。特許文献2には、白色雑音(少なくとも可聴域にて、パワーが周波数によらず略均一な傾向を有した雑音)等をマスキング音として流し、聴覚マスキング効果によって音声等をマスキングすることが記載されている。
【0006】
(2)インフォメーションマスキングについては、例えば、特許文献3、4に記載されている。特許文献3には、ある音響空間に設置されたマイクロホンから音信号を受取り、受け取った音信号にスクランブルをかけてマスキングサウンドを生成し、他の音響空間(音声信号が漏洩して欲しくない空間)に放音することが記載されている。また、特許文献4には、リアルタイムに録音された対話音声を解析し、対話音声を加工してマスキング音を生成し、出力することが記載されている。
【0007】
しかしながら、特許文献2に記載の手法では、音圧が高いマスキング音が四六時中流れることになり、待合室の人々の雑談や面談中の会話が聞き取り難くなるという問題が指摘されている。
また、特許文献3、4に記載の手法では、マスキング音が人間に不快感を与えるとう問題が指摘されている。また、録音する為のマイクロホン、高速信号処理装置などが必要となり、コストがかかるという問題が指摘されている。尚、不快なマスキング音を和らげるために、更にBGMを合成するという手法も考えられるが、音圧が大きくなり煩わしくなるという別の問題が発生する。
【0008】
そこで、本発明者は、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を発明した(特許文献5参照)。また、本発明者は、人手を費やさずに、秘匿化データのどの再生箇所においてもマスキング効果を満遍なく働かせることができる秘匿化データ生成装置等を発明した(特許文献6参照)。
特許文献5及び特許文献6では、BGM信号に対して音声に対するマスキング効果を強調させるためのフィルタ関数を設定するにあたり、代表的な音声信号の最大値スペクトルを使用するBGM音楽信号の平均値スペクトルで除算した値を基にしてフィルタ関数を設定する手法が提案されている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特許第2544899号公報
【特許文献2】特開2010−031501号公報
【特許文献3】特許第4245060号公報
【特許文献4】特許第4336552号公報
【特許文献5】特願2010−192133号
【特許文献6】特願2011−000929号
【発明の概要】
【発明が解決しようとする課題】
【0010】
ところで、特許文献5及び特許文献6の手法では、ヒト音声信号成分が多く含まれる5kHz〜10kHzの周波数成分が強調されるようにフィルタ関数が設定されやすい。5kHz〜10kHzの周波数帯域は、ヒト聴覚系の感度特性が比較的低い領域ではあるが、このフィルタ関数を用いて音楽信号にフィルタ加工を施した音楽を流そうとすると、ヒト聴覚系の感度特性が高い4kHz未満の周波数帯域を基準に再生音量を設定するため、それに伴って5kHz〜10kHzの周波数帯域の音量が顕著に大きくなり、音色が不自然に変化して煩くなる場合がある。
尚、ヒト聴覚系の感度特性を示す等ラウドネス曲線は、フレッチャー&マンソンらによる計測データを基本にISO226として規格化されたものである。ISO226の規格は、1kHz以下の低い周波数帯域がよりヒト聴覚系の感度特性に合うように、更なる改良が行われている。
【0011】
本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる秘匿化データ生成装置等を提供することである。
【課題を解決するための手段】
【0012】
前述した目的を達成するために第1の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、を具備することを特徴とする秘匿化データ生成装置である。
第1の発明によって、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる。
【0013】
第1の発明における前記フィルタ関数作成手段が用いる前記聴覚感度補正曲線L(j)は、例えば、40フォンの等ラウドネス曲線に基づいて定義される。
40フォンは、通常の音声や音楽を聴取する際の平均的なラウドネスレベルであり、適切なフィルタ関数を作成することができる。
【0014】
また、第1の発明における前記フィルタリング手段は、フレームfごとに、前記フィルタ関数F(j)が乗算された複素スペクトルに対して、所定の周波数の範囲の中で前記複素スペクトルの最大スカラー値を求め、更に、前記複素スペクトルの各要素に対して、当該要素のスカラー値が前記最大スカラー値を超えない範囲内において所定の1以上のスケール値を乗算させる補正を施した後、前記フーリエ逆変換を行うことが望ましい。
これによって、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づけることができ、ひいては、音楽の音色を維持したまま、更にマスキング効果を高めることができる。
【0015】
また、第1の発明における前記フィルタ関数作成手段は、前記音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、前記音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を、前記除算値スペクトルDiv(j)とすることが望ましい。
マスキングは、高音側(周波数が高域側)に働きやすいという性質がある為、音声最大値スペクトルVv(j)を、周波数jよりも高域側の範囲内の最大値に置換すれば、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。
【0016】
また、第1の発明における前記フィルタ関数作成手段は、前記フィルタ関数F(j)の各値に対して前記聴覚感度補正曲線L(j)に基づく値を乗算した後、周波数jの前後の範囲内の平均値に置換することによって、前記フィルタ関数F(j)を平滑化することが望ましい。
これによって、フィルタ関数が滑らかになり、ひいては、最終的に生成される秘匿化データが、人間にとって心地良い音楽データとなる。
【0017】
また、第1の発明における前記周波数解析手段は、前記音楽平均値スペクトルVm(f,j)として、前記音楽データの各フレームfの前後Mフレームに渡って時間軸方向に平均化したスペクトルをフレームfごとに算出し、前記フィルタ関数作成手段は、前記除算値スペクトルDiv(f,j)として、前記音声最大値スペクトルVv(j)に基づく値を、フレームfに対応する前記音楽平均値スペクトルVm(f,j)に基づく値によって互いに対応する周波数jごとに除した値を算出し、更に、前記除算値スペクトルDiv(f,j)の各値に対して、互いに対応する周波数jごとに前記聴覚感度補正曲線L(j)に基づく値を乗算することにより、前記フィルタ関数F(f,j)を作成することが望ましい。
これによって、人手を費やさずに、どの再生箇所においてもマスキング効果が満遍なく働く秘匿化データを生成することができる。
【0018】
また、第1の発明は、複数の前記音楽データを記憶する音楽データ記憶手段と、前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、を更に具備し、前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することが望ましい。
これによって、複数の音楽データに基づいて、複数の秘匿化データを生成することができる。
【0019】
第2の発明は、第1の発明の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第2の発明によって、第1の発明の秘匿化データ生成装置を物理的に分離することができ、第1の発明の秘匿化データ生成装置を働かさなくても、あらかじめ作成された秘匿化データを随時再生することができる。
【0020】
第2の発明における前記秘匿化データ再生手段は、前記秘匿化データを波面が平面波に近い音波として所定平面から均一に放射する機構をもつ平面型スピーカによって構成されていることが望ましい。
これによって、秘匿化対象位置に伝搬される過程で減衰する音波のエネルギー量が、対話音声に比べ記秘匿化データの方が小さくなり、相対的に秘匿化データのエネルギー量が対話音声に比べ大きくなるため、マスキング効果を高めることができる。
【0021】
第3の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、を含むことを特徴とする秘匿化データ生成方法である。
第3の発明によって、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる。
【0022】
第4の発明は、第3の発明の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、前記秘匿化データ記憶ステップによって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、前記秘匿化データ選択ステップによって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第4の発明によって、第2の発明の秘匿化データ生成方法を物理的に分離することができ、第2の発明の秘匿化データ生成方法を働かさなくても、あらかじめ作成された秘匿化データを随時再生することができる。
【0023】
第5の発明は、コンピュータに、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、を実行させるためのコンピュータ読取可能なプログラムである。
第5の発明を汎用のコンピュータにインストールすることによって、第1の発明の秘匿化データ生成装置または第3の発明の秘匿化データ生成方法を汎用コンピュータ上で実現することができる。
【発明の効果】
【0024】
本発明によって、フィルタ加工に起因してBGM音楽中のヒトの聴覚感度が低い周波数帯域の成分が強調されるため再生音量を高めに設定することを抑止し、音色が不自然に変化することを避けることができ、従来よりもBGM音楽の再生音量を抑えながら、従来と同等以上のマスキング効果を働かせることができる。すなわち、従来よりも再生音量が低く、かつ快適な音響環境にて秘匿化効果を向上させることができる。
【図面の簡単な説明】
【0025】
【図1】秘匿化装置の概要図
【図2】秘匿化データ生成装置のハードウエア構成図
【図3】等ラウドネス曲線の一例を示す図
【図4】聴覚感度補正曲線の一例を示す図
【図5】秘匿化処理の流れを示すフローチャート
【図6】秘匿化データ生成処理の流れを示す図
【図7】周波数解析処理を説明する図(1)
【図8】周波数解析処理を説明する図(2)
【図9】フィルタ関数作成処理を説明する図(1)
【図10】フィルタ関数作成処理を説明する図(2)
【図11】フィルタ関数作成処理を説明する図(3)
【図12】フィルタリング処理を説明する図(1)
【図13】フィルタリング処理を説明する図(2)
【図14】フィルタリング処理を説明する図(3)
【図15】秘匿化装置の第1の設置例
【図16】秘匿化装置の第2の設置例
【図17】実施例及び比較例の音声最大値スペクトルを示す図
【図18】実施例及び比較例の音楽平均値スペクトルを示す図
【図19】比較例のフィルタ関数を示す図
【図20】比較例のフィルタリング処理後の音楽信号を示す図
【図21】実施例の聴覚感度補正曲線を示す図
【図22】実施例のフィルタ関数を示す図
【図23】実施例のフィルタリング処理後(圧縮なし)の音楽信号を示す図
【図24】実施例のフィルタリング処理後(圧縮あり)の音楽信号を示す図
【発明を実施するための形態】
【0026】
以下図面に基づいて、本発明の実施形態を詳細に説明する。
図1は、秘匿化装置1の概要図である。図1に示すように、秘匿化装置1は、少なくとも、秘匿化データ生成装置2及び音楽再生装置3から構成される。
秘匿化データ生成装置2は、例えば、コンピュータ等であり、対話音声を秘匿化するための音楽データである秘匿化データ7を生成する。秘匿化データ生成装置2の記憶部には、少なくとも音声データ4、音楽データ5、聴覚感度補正曲線6が記憶される。これらのデータについては後述する。
音楽再生装置3は、音楽プレーヤ及びスピーカから構成され、秘匿化データ7を再生する。音楽再生装置3の記憶部には、少なくとも秘匿化データ生成装置2によって生成される秘匿化データ7が記憶される。
【0027】
秘匿化装置1は、用途に応じて様々な構成を採ることが可能である。秘匿化装置1を構成する秘匿化データ生成装置2及び音楽再生装置3は、図1に示すように異なる筐体としても良いし、1つの筐体としても良い。
また、秘匿化データ生成装置2及び音楽再生装置3は、図1に示すように有線によって接続されても良いし、無線によって接続されても良いし、ネットワークを介して接続されても良いし、接続されていなくても良い。
秘匿化データ生成装置2及び音楽再生装置3が接続されていない場合、秘匿化データ生成装置2は、秘匿化データ7を記憶媒体(CD、MD、USBメモリ、SDカードなどコンピュータ及び音楽プレーヤが読取可能な記憶媒体)に出力し、音楽再生装置3は、記憶媒体から秘匿化データ7を入力する。
【0028】
少なくとも音楽再生装置3は、対話音声の秘匿化を所望する音響空間に設置される。このような音響空間としては、例えば、調剤薬局などの受付カウンターに隣接する待合室などが考えられる。そして、音楽再生装置3は、このような待合室において秘匿化データ7を再生する。
ここで、本発明の実施の形態に係る秘匿化データ生成装置2が生成する秘匿化データ7は、受付カウンターと待合室の間に間仕切りが全く無くても、通常の音量によって、待合室にいる人が受付カウンターの対話音声の内容を聞き取ることができない程度に、秘匿化することが可能である。
音楽再生装置3が設置される音響空間としては、その他に、金融機関、保険会社、携帯電話店などのカウンターに隣接する待機スペース、法律事務所などの面談室に隣接する通路、企業などの応接室、飲食店などの個室などが挙げられる。
【0029】
図2は、秘匿化データ生成装置2のハードウエア構成図である。尚、図2のハードウエア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
秘匿化データ生成装置2は、制御部21、記憶部22、メディア入出力部23、通信制御部24、入力部25、表示部26、周辺機器I/F部27等が、バス28を介して接続される。
【0030】
制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、記憶部22、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス28を介して接続された各装置を駆動制御し、秘匿化データ生成装置2が行う後述する処理を実現する。
ROMは、不揮発性メモリであり、秘匿化データ生成装置2のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部22、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
【0031】
記憶部22は、HDD(ハードディスクドライブ)であり、制御部21が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部21により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
【0032】
メディア入出力部23(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)、MDドライブ等のメディア入出力装置を有する。
通信制御部24は、通信制御装置、通信ポート等を有し、秘匿化データ生成装置2とネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他の装置間との通信制御を行う。ネットワークは、有線、無線を問わない。
【0033】
入力部25は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部25を介して、秘匿化データ生成装置2に対して、操作指示、動作指示、データ入力等を行うことができる。
表示部26は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携して秘匿化データ生成装置2のビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
【0034】
周辺機器I/F(インタフェース)部27は、秘匿化データ生成装置2に周辺機器を接続させるためのポートであり、秘匿化データ生成装置2は周辺機器I/F部27を介して周辺機器とのデータの送受信を行う。周辺機器I/F部27は、USBやSDカードリーダ等で構成されている。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
【0035】
図3は、等ラウドネス曲線の一例を示す図である。等ラウドネス曲線は、ISO226によって規格化されている。等ラウドネス曲線は、ラウドネス(音の聴覚的な強さ)のレベルごとに、周波数の変化に基づいてヒトが感覚的に同じラウドネルレベルに聴取される物理的に計測される音圧レベルの変化を示す曲線である。ラウドネスレベルの単位は、phon(フォン、ホン、ホーン)である。音圧レベルの単位は、dB(デシベル)である。
図3では、横軸が周波数[Hz]、縦軸が音圧レベル[dB]であり、ラウドネスレベルごとに等ラウドネス曲線が定義される。図3では、0(最小可聴音場)、10、20、30、・・・、130[phon]の等ラウドネス曲線が図示されている。
【0036】
図3を見ると分かるように、ラウドネスレベルが大きくなるにつれて、等ラウドネス曲線ごとの最大音圧レベルと最小音圧レベルとの差は小さくなる。すなわち、0[phon]の等ラウドネス曲線における最大音圧レベルと最小音圧レベルとの差が一番大きく、130[phon]の等ラウドネス曲線における最大音圧レベルと最小音圧レベルとの差が一番小さい。
本発明の実施の形態では、通常の音声や音楽を聴取する際の平均的なラウドネスレベルである40[phon]の等ラウドネス曲線を用いて、後述する「聴覚感度補正曲線」を定義する。尚、秘匿化データ7が再生される音響空間の環境がある程度予測できる場合、環境に合わせて等ラウドネス曲線を選択するようにしても良い。
【0037】
図4は、聴覚感度補正曲線の一例を示す図である。聴覚感度補正曲線は、秘匿化データ生成装置2によって利用される。聴覚感度補正曲線は、後述する「フィルタ関数」を補正する際に用いられる。
図4では、各周波数に対する上段が、等ラウドネス曲線の音圧レベルを示しており、各周波数に対する下段が、500Hzを基準(0dB)とした時の聴覚感度補正曲線の音圧レベルを示している。例えば、周波数が20[Hz]に対して、等ラウドネス曲線の音圧レベルが90.0[dB]、聴覚感度補正曲線の音圧レベルが−53.0[dB]である。また、例えば、周波数が30[Hz]に対して、等ラウドネス曲線の音圧レベルが77.0[dB]、聴覚感度補正曲線の音圧レベルが−40.0[dB]である。
図4に示す例では、“聴覚感度補正曲線の音圧レベル(下段の値)=等ラウドネス曲線の音圧レベルの500Hzにおける極小値(=37.0)−等ラウドネス曲線の音圧レベル(上段の値)”によって、聴覚感度補正曲線の音圧レベルを求めている。
聴覚感度補正曲線の算出処理は、この例に限られず、例えば、図3の等ラウドネス曲線を、横軸に平行な所定の直線に従って折り返すことによって、聴覚感度補正曲線を求めても良い。また、聴覚感度補正曲線の基準とする周波数は、等ラウドネス曲線上の極小値になる500Hzに設定する必要もない。
【0038】
ここで、聴覚感度補正曲線の意義について説明する。
ヒト聴覚系の感度は周波数に依存して変化し、4kHz近辺をピークに300Hz以下の低音または5kHz以上の高音になるほど感度が低下する特性をもつ。ところが、音声信号には音楽信号には比較的少ない5kHz〜10kHzの周波数帯の成分が多く含まれるため、フィルタ関数はこれらの周波数帯の成分を強調するように働く。この強調される周波数帯域はヒトの聴覚感度が比較的低い帯域であるため、再生時には聴覚感度が高い4kHz以下の周波数帯域を基準に音量を設定するようになる。そうすると、これに連動して5kHz〜10kHzの周波数帯の音量が不自然に大きくなり、全体的に騒がしくなる。そこで、後述するように、聴感特性曲線を重畳してフィルタ関数を生成することによって、5kHz〜10kHzの周波数帯の強調度合いが抑えられて不自然な音色になることを回避できる。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む300Hz〜3.4kHzの周波数帯が強調されることになり、再生音量をあまり上げなくてもマスキングが有効に働きやすくなる。
【0039】
図5は、秘匿化処理の流れを示すフローチャートである。
図5に示すように、秘匿化データ生成装置2の制御部21は、音声データ4及び音楽データ5を記憶部22に記憶する(S101)。音楽データ5は、複数記憶するようにしても良い。
音声データ4は、秘匿化対象の音響空間における対話音声ではなく、固定のサンプルデータとする。すなわち、本発明の実施の形態における秘匿化データ生成装置2は、リアルタイムにサンプリングされた秘匿化対象の対話音声は使用しない。音声データ4は、予め録音された種々の男声、女声が混在した対話音声である。
音楽データ5は任意である。例えば、聴取者にとって意味のあるメロディ・リズム・和声進行が含まれている必要は必ずしもなく、川のせせらぎ音などの自然音でもかまわない。秘匿化対象の対話音声に類似した周波数成分を多く含む音楽データであれば、マスキング効果が働きやすくなるので、マスキング効果を高めるという意味では、声楽データが含まれていることが望ましい。但し、声楽データが含まれると騒がしくなるため、器楽データのみであり、楽器編成が少ない室内楽曲などが現実的である。秘匿化データ生成装置2は、音楽データ5ごとに秘匿化データ7を生成する。
【0040】
次に、秘匿化データ生成装置2の制御部21は、単一の音楽データ5を選択する(S102)。音楽データ5の選択は、入力部25を介してユーザが指示するようにしても良い。
次に、秘匿化データ生成装置2の制御部21は、S102において選択された単一の音楽データ5に基づいて、秘匿化データ7の生成処理を行う(S103)。秘匿化データ7の生成処理の詳細は後述する。
S102及びS103の処理を繰り返し、複数の秘匿化データ7を生成するようにしても良い。
【0041】
次に、音楽再生装置3は、S103にて生成された秘匿化データ7を記憶する(S104)。秘匿化データ7は、複数記憶するようにしても良い。
次に、音楽再生装置3は、単一の秘匿化データ7を選択する(S105)。秘匿化データ7の選択は、あらかじめ定義されたプレイリスト(再生プログラム)に基づいて自動的に行われるようにする方法が一般的であるが、ユーザが指示するようにしても良い。
次に、音楽再生装置3は、S105において選択された単一の秘匿化データ7を再生する(S106)。再生音量は、環境の変化に応じて、ユーザの指示により適宜変更される。
【0042】
以上により、秘匿化装置1は、音響空間Aにおける対話音声が、所定の距離だけ離れている音響空間Bにいる人に聴取されないように秘匿化することができる。
以下では、秘匿化データ7の生成処理の詳細について説明する。
【0043】
図6は、秘匿化データ生成処理の流れを示す図である。図6に示すように、秘匿化データ生成処理は、フレーム抽出処理31、周波数解析処理32、フィルタ関数作成処理33、及びフィルタリング処理34を含む。
ここでは、各処理の概要について説明し、詳細は後述する。
【0044】
フレーム抽出処理31は、音声データ4及び音楽データ5を入力し、各々に対して所定の区間単位のフレームfに分割し、音声フレーム群10及び音楽フレーム群11を生成する。
【0045】
周波数解析処理32は、音声フレーム群10及び音楽フレーム群11を入力し、音声最大値スペクトルデータ12及び音楽平均値スペクトルデータ13を出力する。周波数解析処理32は、秘匿化データ生成装置2の制御部21が、音声フレーム群10及び音楽フレーム群11の各クレームに対して周波数解析を行い、音声フレームの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルVv(j)(jは周波数)を算出し、音楽フレームの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する処理である。
尚、Vv(j)の添え字「v」は、voiceの頭文字である。また、Vm(f、j)の添え字「m」は、musicの頭文字である。
【0046】
また、周波数解析処理32は、フレームfごとに音楽平均値スペクトルデータ13を出力しても良い。すなわち、秘匿化データ生成装置2の制御部21は、音楽平均値スペクトルVm(f,j)として、音楽フレームの前後Mフレーム(M個)に渡って時間軸方向に平均化したスペクトルを算出するようにしても良い。
【0047】
ここで、Mは、例えば、「M(個)×フレームの長さ(秒)」が数秒程度であることが望ましい。これは、「M(個)×フレームの長さ(秒)」が短すぎると、音楽が不自然に聞こえてしまい、「M(個)×フレームの長さ(秒)」が長すぎると、マスキング効果、即ち音声の秘匿化が適切に働かない箇所が目立つようになるからである。
【0048】
音声データ4は、スペクトルの時系列変動が大きく、無音部も含まれるため、平均値では適切な評価ができない。そこで、本発明の実施の形態では、音声最大値スペクトルVv(j)を1つだけ算出する。
音楽データ5は、フレーム単位の各瞬時スペクトル(位相成分は無視したエネルギー量)に対して、時間軸方向に瞬時スペクトルを平均化した音楽平均値スペクトルVm(j)に置換される。又は、音楽データ5は、フレームfごとに、前後所定のフレーム数に対応する瞬時スペクトルを平均化した音楽平均値スペクトルVm(f,j)に置換される。
【0049】
フィルタ関数作成処理33は、音声最大値スペクトルデータ12及び音楽平均値スペクトルデータ13を入力し、フレームfごとに、フィルタ関数データ14を出力する。フィルタ関数作成処理33は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(j)に基づく値を、音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成する処理である。ここで、聴覚感度補正曲線L(j)の単位は、図4記載のdBではなく無次元に換算した値で、具体的には図4記載のdB値をdとすれば、10d/20で与えられる。
【0050】
また、フィルタ関数作成処理33は、フレームfごとにフィルタ関数データ14を出力しても良い。すなわち、秘匿化データ生成装置2の制御部21は、除算値スペクトルDiv(f,j)として、音声最大値スペクトルVv(j)に基づく値を、フレームfに対応する音楽平均値スペクトルVm(f,j)に基づく値によって互いに対応する周波数jごとに除した値を算出し、更に、除算値スペクトルDiv(f,j)の各値に対して、互いに対応する周波数jごとに聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(f,j)を作成するようにしても良い。
【0051】
フィルタリング処理34は、音楽データ5及びフィルタ関数データ15を入力し、フレームfごとに、秘匿化データ7を出力する。フィルタリング処理34は、秘匿化データ生成装置2の制御部21が、音楽データ5を所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、秘匿化データ7を生成する処理である。
【0052】
以下では、周波数解析処理32及びフィルタ関数作成処理33が、それぞれ、フレームfごとに、音楽平均値スペクトルVm(f,j)及びフィルタ関数F(f,j)を作成する場合を例にして説明する。尚、この例を説明することによって、周波数解析処理32及びフィルタ関数作成処理33が、フレームfごとではなく音楽平均値スペクトルVm(j)及びフィルタ関数F(j)を作成する場合も説明されることは、言うまでもない。
【0053】
図7、図8は、周波数解析処理を説明する図である。図7、図8に示すように、周波数解析処理32は、(狭義の)周波数解析32a、瞬時スペクトル算出処理41、平均スペクトル算出処理42を含む。
【0054】
最初に、音声データ4に対する周波数解析処理について説明する。
例えば、サンプリング周波数Fsを「44100Hz」、サンプル数Nを「4096」とする。サンプリング周波数Fs及びサンプル数Nによって、音声データ4に含まれるフレーム数Fvが定まる。
フレーム抽出処理31では、秘匿化データ生成装置2の制御部21が、サンプリング周波数Fsのモノラル音声信号(ステレオの場合はLR(左右)の合算値とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fvフレーム抽出する。
【0055】
次に、周波数解析処理32aでは、制御部21は、抽出したf番目のフレームデータXv(f、i)(f=0、・・・、Fv−1;i=0、・・・、N−1)に対して、ハニング窓関数H(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行う。
次に、制御部21は、変換データの実部 Av(f、j)(f=0、・・・、Fv−1;j=0、・・・、N−1)、虚部Bv(f、j)(f=0、・・・、Fv−1;j=0、・・・、N−1)及び強度値の時系列の最大値スペクトルVv(j)を各々、次式のように算出する。
【0056】
【数1】

【0057】
図7には、音声フレームデータXv(f、i)のフレーム1(f=0に対応)〜フレームF(f=Fv−1に対応)に対して、周波数解析32aが行われ、音声スペクトル1〜音声スペクトルFが算出され、音声最大値スペクトルVv(j)が算出されることが図示されている。
【0058】
次に、音楽データ5に対する周波数解析処理について説明する。
音声データ4と同様、サンプリング周波数Fsを「44100Hz」、サンプル数Nを「4096」とする。サンプリング周波数Fs及びサンプル数Nによって、音楽データ5に含まれるフレーム数Fmが定まる。
フレーム抽出処理31では、秘匿化データ生成装置2の制御部21が、サンプリング周波数Fsのモノラル音楽信号(ステレオの場合はLR(左右)の合算値とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fmフレーム抽出する。
【0059】
次に、周波数解析処理32aでは、制御部21は、抽出したf番目のフレームデータXm(f、i)(f=0、・・・、Fm−1;i=0、・・・、N−1)に対して、ハニング窓関数H(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行う。
次に、制御部21は、瞬時スペクトル算出処理41として、フレームごとに、位相成分は無視したエネルギー量である瞬時スペクトルを算出する。また、制御部21は、平均スペクトル算出処理42として、前後Mフレーム(M個)の瞬時スペクトルの平均値である平均スペクトルを算出する。
【0060】
具体的には、制御部21は、変換データの実部 Am(f、j)(f=0、・・・、Fm−1;j=0、・・・、N−1)、虚部Bm(f、j)(f=0、・・・、Fm−1;j=0、・・・、N−1)、及び、対象フレームを中点として前後M/2フレーム(M/2個)ずつ、合計Mフレーム(M個)(M<Fm)の平均値スペクトルVm(f、j)(f=0、・・・、Fm−1;j=0、・・・、N/2)を各々、次式のように算出する。
但し、音楽データ5の先頭部、すなわち、f<M/2の場合、前後M/2フレーム(M/2個)ずつの平均を取ることができないことから、Vm(f、j)=Vm(M/2、j)とする。同様に、音楽データ5の後尾部、すなわち、f>Fm−M/2の場合、前後M/2フレーム(M/2個)ずつの平均を取ることができないことから、Vm(f、j)=Vm(Fm−M/2−1、j)とする。
【0061】
【数2】

【0062】
図7には、一例として、音楽データ5のフレームfとフレームf+1に対する周波数解析処理が示されている。
図7には、音楽フレームデータXm(f、i)のフレーム1〜フレームM+1に対して、周波数解析32aが行われ、フレーム1〜フレームMまでの時系列平均が算出され、フレームfに対する音楽平均値スペクトルVm(f、j)が算出されることが図示されている。同様に、図7には、フレーム2〜フレームM+1までの時系列平均が算出され、フレームf+1に対する音楽平均値スペクトルVm(f+1、j)が算出されることが図示されている。
【0063】
また、図8には、図7の補足的な説明として、音楽データ5を入力とし、瞬時スペクトル算出処理41によって、フレームごとに瞬時スペクトルが算出されることが図示されている。また、平均スペクトル算出処理42によって、処理対象のフレームに対して、前後Mフレーム(M個)の瞬時スペクトルの平均値が算出され、平均値スペクトルに置換され、音楽平均値スペクトルデータ13が出力されることが図示されている。
【0064】
図9〜図11は、フィルタ関数作成処理を説明する図である。フィルタ関数作成処理33は、図9に示す臨界帯域幅補正処理43、図10に示す除算処理44、並びに、図11に示す聴覚感度補正処理45及び平滑化処理46を含む。
【0065】
まず、図9を参照して臨界帯域幅補正処理43について説明する。
臨界帯域幅補正処理43は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(j)を、周波数jごとに所定の範囲内の最大値に置換することによって、単一の置換音声最大値スペクトルVv’(j)を作成する処理である。また、臨界帯域幅補正処理43は、フレームfごとに、音楽平均値スペクトルVm(f、j)を、周波数jごとに所定の範囲内の平均値に置換することによって、置換音楽平均値スペクトルVm’(f、j)を作成する処理である。
図9には、一例として、フレームfとフレームf+1に対する臨界帯域幅補正処理が示されている。
【0066】
臨界帯域幅とは、ある周波数jの周波数成分Vv(j)またはVm(f、j)を中心にマスキングが及ぶ周波数の範囲(臨界帯域幅、Barkと呼ばれる。)である。臨界帯域幅の近似式としては、次式に示すE.Zwickerの式が知られている。尚、一般に、周波数が高くなると、臨界帯域幅は広くなることが分かっている。
【0067】
【数3】

【0068】
式(7)におけるfrの単位も「Hz」である。frとBz(fr)を本実施の形態におけるフーリエ変換のポイント数の次元に変換すると、次式となる。
【0069】
【数4】

【0070】
臨界帯域幅補正処理43では、秘匿化データ生成装置2の制御部21は、音声信号スペクトルに対して、周波数jごとに周波数成分Vv(j)をjc=j−(1−α)×Bz(j)からjc=j+α×Bz(j)の範囲の最大値に置換する。即ち、制御部21は、j=0、・・・、N/2に対して、置換後のスペクトル(置換音声最大値スペクトル)Vv’(j)を次式のように算出する。
【0071】
【数5】

【0072】
αは0から1までの実数であり、通常はα=1.0とする。式(9)によって、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになる。
マスキングは、高音側(周波数が高域側)に働きやすいという性質がある為、音声最大値スペクトルVv(j)を、周波数jよりも高域側の範囲内の最大値に置換すれば、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。
【0073】
一方、音楽信号スペクトルに対しては、制御部21は、フレームfごとに処理を行い、周波数jごとに周波数成分Vm(f、j)をjc=j−0.5×Bz(j)からjc=j+0.5×Bz(j)の範囲の平均値に置換する。即ち、制御部21は、j=0、・・・、N/2に対して、置換後のスペクトル(置換音楽平均値スペクトル)Vm’(f、j)を次式のように算出する。
【0074】
【数6】

【0075】
式(10)によって、音楽スペクトルを周波数方向に平滑化をかけていることになる。
【0076】
図9では、W(j)が、置換の際の計算範囲を示している。音声最大値スペクトルVv(j)に対して、単一の置換音声最大値スペクトルVv’(j)が算出されることが図示されている。また、音楽平均値スペクトルVm(f、j)に対しては、置換音楽平均値スペクトルVm’(f、j)が算出され、音楽平均値スペクトルVm(f+1、j)に対しては、置換音楽平均値スペクトルVm’(f+1、j)が算出されることが図示されている。
【0077】
次に、図10を参照して、除算処理44について説明する。
除算処理44は、秘匿化データ生成装置2の制御部21が、フレームfごとに、音声最大値スペクトルVv(j)に基づく値を音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値を除算値スペクトルDiv(f、j)として算出する処理である。特に、制御部21は、フレームfごとに、置換音声最大値スペクトルVv’(j)を置換音楽平均値スペクトルVm’(f、j)によって除した値を除算値スペクトルDiv(f、j)とすることが望ましい。
図10には、一例として、フレームfとフレームf+1に対する除算処理が示されている。
【0078】
次に、図11を参照して、聴覚感度補正処理45及び平滑化処理46について説明する。
聴覚感度補正処理45は、除算値スペクトルDiv(f,j)の各値に対して、互いに対応する周波数jごとに聴覚感度補正曲線L(j)に基づく値を乗算することにより、補正除算値スペクトルDiv’(f、j)を作成する処理である。
図11には、一例として、フレームfとフレームf+1に対する聴覚感度補正処理が示されている。
【0079】
具体的には、制御部21は、周波数(j=0,..,N/2)ごとに除算値スペクトルDiv(f,j)の各値に対して、例えば、40phonの等ラウドネス曲線に基づいて定義される聴覚感度補正曲線L(j)に基づく値を乗算する。
例えば、制御部21は、図4の下段に示す値を変数dBに代入し、倍率値として10dB/20を算出し、この倍率値を乗算する。
【0080】
聴覚感度補正曲線L(j)は、図4に示す例のように、“聴覚感度補正曲線の音圧レベル=等ラウドネス曲線の音圧レベルの500Hz極小値−等ラウドネス曲線の音圧レベル”によって求めても良い。
また、聴覚感度補正曲線L(j)は、等ラウドネス曲線をマイナス側に適宜オフセットを加えて、符号を反転させるようにしても良い。オフセットを加える理由は、単に符号を反転すると、波形振幅が増幅されてしまうからである。
尚、制御部21は、聴覚感度補正曲線L(j)を複数回乗算しても良い。
【0081】
人間の聴覚器官内では、音声や音楽に対して、聴覚感度補正処理45と同様の処理が行われると考えられる。従って、制御部21が聴覚感度補正曲線L(j)を1回乗算することによって生成した秘匿化データ7は、これを聴取する人間の聴覚器官内において聴覚感度補正曲線L(j)が1回乗算されると考えられる。すなわち、合計すると、秘匿化データ7は、聴覚感度補正曲線L(j)が2回乗算されて人間に聴取されると考えられる。一方、秘匿化対象の対話音声も聴覚器官内において聴覚感度補正曲線L(j)が1回乗算されると考えられるため、秘匿化データ7は1回分の余分な乗算により対話音声に対して優位に働くことになる。
【0082】
また、平滑化処理46は、秘匿化データ生成装置2の制御部21が、補正除算値スペクトルDiv’(f、j)を、周波数jの前後の範囲内の平均値に置換することによって、補正除算値スペクトルDiv’(f、j)を平滑化する処理である。
図11には、一例として、フレームfとフレームf+1に対する平滑化処理が示されている。
【0083】
具体的には、制御部21は、周波数(j=0、・・・、N/2)ごとに、補正除算値スペクトルDiv’(f、j)に対して、所定のタップ数T(<N/2)によって、次式のように、平滑フィルタをかけた結果をF(f、j)とする。
【0084】
【数7】

【0085】
βは、音圧を調整するための比例定数(実数値)である。音声信号の音圧と音楽信号の音圧を同程度とする場合、β=1.0とする。
F(f、j)の上限値と下限値は予め設定しておく。例えば、中央値を1とすると、上限値を10倍の「10」、下限値を1/10の「0.1」とする。除算結果が上限値を上回る場合、又は、下限値を下回る場合、制御部21は、それぞれ、F(f、j)に上限値又は下限値を設定する。
【0086】
図11に示すように、補正除算値スペクトルDiv’(f、j)は、極値(極大値及び極小値)を数多く持つ関数となっている。特に、ところどころ0で割り算する箇所が発生してしまい、その箇所では上限値をもつ極値になり不連続点になる。補正除算値スペクトルDiv’(f、j)をそのままフィルタ関数とすると、人間にとって聞き苦しい秘匿化データ7が生成されてしまう。そこで、本発明の実施の形態では、平滑化処理46を行っている。
図11に示すように、平滑化処理46を行うことで、フィルタ関数F(f、j)は、極値が少なく、滑らかな関数となっている。
【0087】
尚、平滑化処理46の後に聴覚感度補正処理45を行うよりも、聴覚感度補正処理45の後に平滑化処理46を行う方が、人間にとってより聞き易い秘匿化データ7を生成することができる。
【0088】
図12〜図14は、フィルタリング処理を説明する図である。フィルタリング処理34は、図12に示すフーリエ変換処理47及びフィルタ関数乗算処理48、並びに、図13に示す周波数次元圧縮処理49及びフーリエ逆変換処理50を含む。
前述の周波数解析処理32及びフィルタ関数作成処理33では、実数値に対して計算を行っているが、フィルタリング処理34では、複素数値をもつ瞬時スペクトルに対して計算を行う。
【0089】
フーリエ変換処理47は、秘匿化データ生成装置2の制御部21が、音楽フレームデータXml(f、i)及びXmr(f、i)(f=0、・・・、Fm−1;i=0、・・・、N−1)をフーリエ変換し、ソース複素スペクトルを算出する処理である。
図12には、一例として、フレームfとフレームf+1に対するフーリエ変換処理が示されている。
【0090】
フーリエ変換処理47では、制御部21は、サンプリング周波数Fsのステレオ音声信号(モノラル信号の場合は一方を0とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fmフレーム抽出したf番目の音楽フレームデータXml(f、i)及びXmr(f、i)に対して、ハニング窓関数H(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行い、以下のように、変換データの実部Aml(f、j)及びAmr(f、j)、並びに、虚部Bml(f、j)及びBmr(f、j)(f=0、・・・、Fm)−1;j=0、・・・、N−1)を算出する。
【0091】
【数8】

【0092】
また、フィルタ関数乗算処理48は、制御部21が、ソース複素スペクトルにフィルタ関数F(f、j)を乗じ、改変複素スペクトルを算出する処理である。
図12には、一例として、フレームfとフレームf+1に対するフィルタ関数乗算処理が示されている。
【0093】
フィルタ関数乗算処理48では、制御部21は、Fm個のフィルタ関数F(f、j)を用いて、フレームfごとに所定の周波数区間[j1、j2]の全ての周波数成分に乗算する。即ち、制御部21は、各フレームf=0、・・・、Fm−1、及び、各周波数j=j1、・・・、j2において、次式のように変換を行う。
【0094】
【数9】

【0095】
次に、図13を参照して、周波数次元圧縮処理49及びフーリエ逆変換処理50について説明する。
周波数次元圧縮処理49は、フレームfごとに、フィルタ関数F(j)が乗算された複素スペクトルに対して、所定の周波数の範囲の中で複素スペクトルの最大スカラー値を求め、更に、複素スペクトルの各要素に対して、当該要素のスカラー値が最大スカラー値を超えない範囲内において所定の1以上のスケール値を乗算させる補正を施し、再改変複素スペクトルを算出する処理である。
図13には、一例として、フレームfとフレームf+1に対する周波数次元圧縮処理が示されている。
【0096】
周波数次元圧縮処理49では、制御部21は、フレームfごとに、フィルタ関数F(f,j)が乗算された複素スペクトル成分に対して、j=j1,・・・,j2の範囲の中で、スカラー値{Aml’(f,j)+Bml’(f,j)1/2を最大にする値、及び、スカラー値{Amr’(f,j)+Bmr’(f,j)1/2を最大にする値を、LRチャンネル別に、Mml(f)、及び、Mmr(f)として算出する。そして、制御部21は、次式のように、1以上の実数値Scl(例えば、Scl=2.0)を乗算する。
【0097】
【数10】

【0098】
式(20)〜(23)によって乗算された結果のスカラー値が、{Aml’’(f,j)+Bml’’(f,j)1/2>Mml(f)、又は、{Amr’’(f,j)+Bmr’’(f,j)1/2>Mmr(f)となる場合、以下のようにMml(f)及びMmr(f)を越えないようにSclを補正して乗算する。
【0099】
{Aml’’(f,j)+Bml’’(f,j)1/2>Mml(f)の場合、制御部21は、Scl’=Mml(f)/{Aml’(f,j)+Bml’(f,j)1/2を算出する。そして、制御部21は、次式の通り、Scl’を乗算する。
【0100】
【数11】

【0101】
同様に、{Amr’’(f,j)+Bmr’’(f,j)1/2>Mmr(f)の場合、制御部21は、Scl’=Mmr(f)/{Amr’(f,j)+Bmr’(f,j)1/2を算出する。そして、制御部21は、次式の通り、Scl’を乗算する。
【0102】
【数12】

【0103】
ここで、周波数次元圧縮処理49の意義について説明する。
聴覚感度補正処理45を行ってフィルタ関数を作成すると、そのフィルタ関数を用いてフィルタリング処理が行われた音楽信号は、スペクトル特性が1/fから1/f特性に近づき、低域部の勾配が急峻になる。音楽信号は元々離散的な周波数特性をもつが、このようにフィルタリング処理が行われた音楽信号は、最も効果的にマスキングが働く白色雑音の特性から程遠いことになる。
一方、例えば、特開2010−031501において提案されているエアコンノイズは、1/fカーブの連続スペクトル特性をもち、平坦な特性をもつ白色ノイズに比べマスキング効果は若干小さくなる程度である。しかし、音楽信号を連続的なスペクトルに変換させるとノイジーな不快感を加えることになり、音楽ではなくなってしまう。
そこで、本発明の実施の形態では、周波数次元圧縮処理49によって、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づける。これによって、音楽の音色を維持したまま、マスキング効果を高めることができる。
【0104】
図14では、一般的な圧縮処理である時間次元圧縮処理と、本発明の実施の形態における周波数次元圧縮処理49との作用の違いを模式的に示している。
時間次元圧縮処理が施されると、全体的に音圧が大きくなり、時間的起伏が少なくなる。つまり、時間次元圧縮処理を施すことによって生成される秘匿化データ7は、人間にとって煩わしく感じるものとなる。また、周波数特性には大きな変化が無いため、全体的にマスキング効果の増大はあまり期待できない。
一方、周波数次元圧縮処理49が施されると、フラットな白色雑音特性が増える。また、時間的な振幅変化は維持される。つまり周波数次元圧縮処理49を施すことによって生成される秘匿化データ7は、マスキング効果が高まると共に、人間にとって煩わしく感じることはない。
【0105】
図13の説明に戻る。フーリエ逆変換処理50は、制御部21が、周波数次元圧縮処理49によって算出される再改変複素スペクトルのフーリエ逆変換を行い、秘匿化フレームデータXml’(f、i)及びXmr’(f、i)(f=0、・・・、Fm−1;i=0、・・・、N−1)を算出する処理である。
【0106】
各フレームfのAml’(f、j)、Bml’(f、j)、Amr’(f、j)、Bmr’(f、j)の各要素に対して周波数次元圧縮処理49の結果を各々Aml’’(f、j)、Bml’’(f、j)、 Amr’’(f、j)、Bmr’’(f、j)とする。
フーリエ逆変換処理50では、制御部21は、変換対象のフレームfの秘匿化フレームデータXml’(f、i)及びXmr’(f、i)に対して、直前に変換されたフレームf−1の秘匿化フレームデータXml’(f−1、i)及びXmr’(f−1、i)が存在する場合、両者が時間軸においてN/2サンプル分重複することを考慮し、次式のように計算を行う。
【0107】
【数13】

【0108】
以上、本発明の実施の形態における秘匿化データ生成処理について説明したが、本発明の実施の形態におけるフィルタ関数作成処理33では、音声最大値スペクトルVv(j)に基づく値を、音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成する。これによって、音声信号に対するマスキング効果を高めつつ、再生される音楽の音色を原音と同等に維持し、音量を絞って再生しても所定のマスキング効果を働かせることができる。
また、本発明の実施の形態におけるフィルタリング処理34では、フレームfごとに、フィルタ関数F(j)が乗算された複素スペクトルに対して、所定の周波数の範囲の中で複素スペクトルの最大スカラー値を求め、更に、複素スペクトルの各要素に対して、当該要素のスカラー値が前記最大スカラー値を超えない範囲内において所定の1以上のスケール値を乗算させる補正を施した後、フーリエ逆変換を行う。これによって、音楽の音色を維持したまま、更にマスキング効果を高めることができる。
そして、本発明の実施の形態では、フィルタ加工を施すことによりBGM音楽の音色が不自然に変化することを避けることができ、従来よりもBGM音楽の再生音量を抑えながら、従来と同等以上のマスキング効果を働かせることができ、従来よりも静かで快適な音響環境で秘匿化効果を向上させることができる。
【0109】
次に、図15、図16を参照しながら、秘匿化装置の設置例について説明する。図15及び図16に示す例では、秘匿化データ生成装置2によって秘匿化データ7が生成され、音楽再生装置3である音楽プレーヤ52に記憶されているものとする。
【0110】
図15は、秘匿化装置1の第1の設置例を示している。
図15に示す例では、平面スピーカ51a及び51bを挟んで左側が面談スペース60であり、右側が待合スペース65になっている。
面談スペース60には、面談カウンターテーブル61、店員用椅子62、来客用椅子63等が設置されている。面談カウンターテーブル61は、パーティション64によって区切られている。また、待合スペース65には、待合ソファー65が設置されている。顧客は、来店すると待合スペース65において待機し、順番に面談スペース60に呼ばれて店員と面談する。
【0111】
平面スピーカ51a及び51bは、ハニカム構造のパネル及びスピーカ(エキサイタ)から構成されており、例えば、ポスラサウンドパネル(本出願人の登録商標)等である。
平面スピーカ51a及び51bのパネルは、待合スペース65より面談カウンターテーブル61にいる店員や来客が覗き込めないパーティション程度の大きさがあること望ましいが、A3サイズ程度の面積しかない立て看板などでも十分に効果を発揮する。すなわち、会話音声71が、平面スピーカ51a及び51bに物理的に遮られることなく、待合ソファー65まで到達しても、本発明の秘匿化データ7によって十分なマスキング効果が得られる。
尚、ポスラ(本出願人の登録商標)サウンドパネルは、横幅1メートル程度まで製作可能である。
【0112】
音楽プレーヤ52は、平面スピーカ51a及び51bと接続され、本発明の実施の形態に係る秘匿化データ7を再生する。
図15に示す例では、平面スピーカ51a及び51bが、それぞれ、マスカー音であるBGMサウンドL72a及びBGMサウンドR72bを出力している(ステレオ再生)。尚、BGMサウンドは、モノラル再生でも良く、平面スピーカの数や配置位置は、環境に応じて適宜変更すれば良い。
【0113】
平面スピーカ51a及び51bは、音楽プレーヤ52によって、秘匿化データ7の波面が平面波に近い音波として、平面から均一に放射する機構を有することが望ましい。これによって、待合スペース65に伝搬される過程で減衰する音波のエネルギー量が、面談スペース60から発声される会話音声71に比べ平面スピーカ51a及び51bから出力されるBGMサウンド72a及び72bの方が小さくなり、相対的にBGMサウンド72a及び72bのエネルギー量が面談スペース60から発声される会話音声71に比べ大きくなるため、マスキング効果を高めることができる。このような平面スピーカ51a及び51bの一例としては、特開2007−301888号公報に開示されている。特開2007−301888号公報に開示されているスピーカは、微細な管構造アレイのパネルによって構成されており、平面波に近い音波を均一に放射する。
【0114】
ここで、平面スピーカ51a及び51bが平面波に近い音波を放射することによって、マスキング効果を高めることができる理由について説明する。
図15に示すように、会話音声71は、球面波の音波として、観測位置である待合スペース65に到達する。同様に、通常のダイナミックスピーカから再生されるBGMも、球面波の音波である。
ここで、球面波の場合、距離の2乗に比例して伝搬される表面積が大きくなり音源に集中していたエネルギーが分散するため、エネルギー(音圧)が距離の2乗に反比例して減衰していくことが知られている。一方、平面波の場合、距離が離れてもエネルギーがあまり減衰しない。
【0115】
すなわち、通常のダイナミックスピーカから再生されるBGMは、球面波の音波であり、離れるとエネルギーが減衰するから、面談スペース60により近い位置に待機している顧客に合わせて音量を調節すると、面談スペース60により遠い位置に待機している顧客にはマスキング効果が十分に働かない場合がある。
一方、平面波に近い音波を放射する平面スピーカ51a及び51bを用いれば、再生されるBGMサウンドL72a、BGMサウンドR72bは、平面波の音波であり、離れてもエネルギーがあまり減衰しないから、面談スペース60により近い位置に待機している顧客に合わせて音量を調節しても、面談スペース60により遠い位置に待機している顧客に対して十分なマスキング効果が働く。
【0116】
図16は、秘匿化装置1の第2の設置例を示している。
図16に示す例では、平面スピーカ51c及び51dを挟んで左側が第1応接スペース81aであり、右側が第2応接スペース81bになっている。
第1応接スペース81a及び第2応接スペース81bには、それぞれ、1つの応接テーブル82と4つの椅子83が設置されている。
第1応接スペース81a及び第2応接スペース81bでは、それぞれ独立して、別々の顧客を応接するようになっている。
【0117】
平面スピーカ51c及び51dは、ハニカム構造のパネル及びスピーカ(エキサイタ)から構成されており、例えば、ポスラサウンドパネル(本出願人の登録商標)等である。図16に示す平面スピーカ51c及び51dは、第1の設置例よりも横幅のサイズを大きくして、パーティションの機能も果たすものである。
平面スピーカ51c及び51dには、複数のスピーカ(エキサイタ)を備えており、それぞれのスピーカから、マスカー音であるBGMサウンドL72a、BGMサウンドR72bが出力される。
第1の設置例と同様、平面スピーカ51c及び51dは、音楽プレーヤ52によって、秘匿化データ7の波面が平面波に近い音波として、平面から均一に放射する機構を有することが望ましい。
【0118】
図16に示すように、マスキー音である第1会話音声71aは、球面波の音波として、観測位置である第2応接スペース81bに到達する。同様に、マスキー音である第2会話音声71bは、球面波の音波として、観測位置である第1応接スペース81aに到達する。
第1会話音声71aに対しては、第2応接スペース81bにおいて、平面スピーカ51dから出力されるBGMサウンドL72a、BGMサウンドR72bがマスカー音となり、マスキング効果を発揮する。同様に、第2会話音声71bに対しては、第1応接スペース81aにおいて、平面スピーカ51cから出力されるBGMサウンドL72a、BGMサウンドR72bがマスカー音となり、マスキング効果を発揮する。
【0119】
以上、秘匿化装置1の設置例を説明したが、前述したように、楽曲信号を再生するスピーカとして、平面波に近い音波を放射する平面スピーカを使用することによって、比較的低い音量でBGMを流しても音声秘匿化効果を発揮できる。
また、平面スピーカは、A3サイズ程度の立て看板から、横幅1メートル程度のパーティションまで、様々な態様とすることができる。
また、平面スピーカのパネル面の絵柄としては、壁紙などのインテリア素材やポスター広告を用いることができ、視覚的にもスピーカがむき出しになるようなインテリア上の不自然さを回避することができる。
【0120】
尚、前述の説明では、平面スピーカが立て看板やパーティションとしたが、本発明の実施の形態はこれに限定されない。例えば、スピーカを部屋の壁に内蔵し、部屋の四方からマスカー音であるBGMサウンドを出力させることも可能である。
【実施例】
【0121】
次に、図17〜図24を参照しながら、実施例及び比較例について説明する。図17、図18は、実施例及び比較例に用いられるデータを示している。図19、図20は、比較例の結果を示している。図21〜図24は、実施例の結果を示している。
実施例では、聴覚感度補正処理45、圧縮処理49を行って、秘匿化データ7を生成した。一方、比較例では、聴覚感度補正処理45、圧縮処理49を行わずに、秘匿化データを生成した。
【0122】
図17は、実施例及び比較例の音声最大値スペクトルを示す図である。図17には、周波数解析処理32によって出力される音声データ4の音声最大値スペクトルが示されている。尚、この音声最大値スペクトルは、12〜13kHzにピークがある。
【0123】
図18は、実施例及び比較例の音楽平均値スペクトルを示す図である。図18には、周波数解析処理32によって出力される音楽データ5の音楽平均値スペクトルが示されている。
図18を参照すると、この音楽平均値スペクトルは、1/fの曲線に近いことが分かる。
【0124】
図19は、比較例のフィルタ関数を示す図である。比較例のフィルタ関数は、聴覚感度補正処理45、圧縮処理49を行わずに作成されている。
後述する図22と比較して、図19を参照すると、5kHz〜10kHzの周波数成分の値が高いことが分かる。この為、比較例のフィルタ関数を用いてフィルタリング処理を行うと、ヒト音声信号成分が多く含まれる5kHz〜10kHzの周波数成分が強調され易い。5kHz〜10kHzの周波数帯域は、ヒト聴覚系の感度特性が比較的低い領域ではあるが、このフィルタ関数を用いて音楽信号にフィルタ加工を施すと、音色が不自然に変化して煩くなる。
【0125】
図20は、比較例のフィルタリング処理後の音楽信号を示す図である。図20には、比較例のフィルタ関数を用いたフィルタリング処理が行われた音楽信号が示されている。
図20に示す音楽信号は、前述したように、音色が不自然に変化して煩わしく感じる。
また、後述する図23、図24と比較して、図20を参照すると、10kHz以上の高域部が高い値になっている。10kHz以上の周波数成分はヒト音声信号成分がそれなりに存在するが、ヒトの聴覚感度が低いため、マスキングにあまり寄与しない。従って、聴覚感度が高い4kHz以下の帯域を基準に再生音量を設定することになり、不必要に全体の音圧レベルを上げてしまうことになる。従って、かなり音量を上げないと、マスキング効果が得られ難い。
【0126】
図21は、実施例の聴覚感度補正曲線を示す図である。図21には、図4の下段に示す各周波数に対する聴覚感度補正曲線6の音圧レベルをプロットして示している。
【0127】
図22は、実施例のフィルタ関数を示す図である。図22には、図21に示す聴覚感度補正曲線6を用いて、フィルタ関数作成処理33によって作成されたフィルタ関数が示されている。
図19と比較して、図22を参照すると、5kHz〜10kHzの周波数成分の値が低いことが分かる。この為、実施例のフィルタ関数を用いてフィルタリング処理34を行うと、5kHz〜10kHzの周波数帯の強調度合いが抑えられて不自然な音色になることを回避できる。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む300Hz〜3.4kHzの周波数帯が強調されることになり、再生音量をあまり上げなくてもマスキングが有効に働きやすくなる。
【0128】
図23は、実施例のフィルタリング処理後(圧縮なし)の音楽信号を示す図である。図23には、実施例のフィルタ関数を用いたフィルタリング処理34が行われた音楽信号が示されている。但し、図23に示す音楽信号は、周波数次元圧縮処理49が行われていない。
図23に示す音楽信号は、前述したように、5kHz〜10kHzの周波数帯の強調度合いが抑えられて自然な音色となっている。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む300Hz〜3.4kHzの周波数帯が強調され、再生音量をあまり上げなくてもマスキングが有効に働く。
【0129】
図24は、実施例のフィルタリング処理後(圧縮あり)の音楽信号を示す図である。図24には、実施例のフィルタ関数を用いたフィルタリング処理34が行われた音楽信号が示されている。また、図24に示す音楽信号は、周波数次元圧縮処理49が行われている。
図24に示す音楽信号は、前述したように、5kHz〜10kHzの周波数帯の強調度合いが抑えられて自然な音色となっている。また、ヒトの聴覚感度が高く音声を識別するためのフォルマント成分に富む300Hz〜3.4kHzの周波数帯が強調され、再生音量をあまり上げなくてもマスキングが有効に働く。
更に、図23と比較して、図24を参照すると、低域部が離散的な値を取りながら、全体として平坦になっていることが分かる。つまり、離散的なスペクトル特性の状態を維持したまま、低域部を白色雑音のように若干平坦に近づけることができている。これによって、音楽の音色を維持したまま、マスキング効果を高めることができる。
【0130】
以上、添付図面を参照しながら、本発明に係る秘匿化データ生成装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0131】
1………秘匿化装置
2………秘匿化データ生成装置
3………音楽再生装置
4………音声データ
5………音楽データ
6………聴覚感度補正曲線
7………秘匿化データ
10………音声フレーム群
11………音楽フレーム群
12………音声最大値スペクトルデータ
13………音声平均値スペクトルデータ
14………フィルタ関数データ
31………フレーム抽出処理
32………周波数解析処理
32a………周波数解析
33………フィルタ関数作成処理
34………フィルタリング処理
41………瞬時スペクトル算出処理
42………平均スペクトル算出処理
43………臨界帯域幅補正処理
44………除算処理
45………聴覚感度補正処理
46………平滑化処理
47………フーリエ変換処理
48………フィルタ関数乗算処理
49………周波数次元圧縮処理
50………フーリエ逆変換処理

【特許請求の範囲】
【請求項1】
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、
前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
を具備することを特徴とする秘匿化データ生成装置。
【請求項2】
前記フィルタ関数作成手段が用いる前記聴覚感度補正曲線L(j)は、40フォンの等ラウドネス曲線に基づいて定義される
ことを特徴とする請求項1に記載の秘匿化データ生成装置。
【請求項3】
前記フィルタリング手段は、フレームfごとに、前記フィルタ関数F(j)が乗算された複素スペクトルに対して、所定の周波数の範囲の中で前記複素スペクトルの最大スカラー値を求め、更に、前記複素スペクトルの各要素に対して、当該要素のスカラー値が前記最大スカラー値を超えない範囲内において所定の1以上のスケール値を乗算させる補正を施した後、前記フーリエ逆変換を行う
ことを特徴とする請求項1又は請求項2に記載の秘匿化データ生成装置。
【請求項4】
前記フィルタ関数作成手段は、
前記音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、
前記音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、
前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を、前記除算値スペクトルDiv(j)とする
ことを特徴とする請求項1乃至請求項3のいずれかに記載の秘匿化データ生成装置。
【請求項5】
前記フィルタ関数作成手段は、前記フィルタ関数F(j)の各値に対して前記聴覚感度補正曲線L(j)に基づく値を乗算した後、周波数jの前後の範囲内の平均値に置換することによって、前記フィルタ関数F(j)を平滑化する
ことを特徴とする請求項1乃至請求項4のいずれかに記載の秘匿化データ生成装置。
【請求項6】
前記周波数解析手段は、前記音楽平均値スペクトルVm(f,j)として、前記音楽データの各フレームfの前後Mフレームに渡って時間軸方向に平均化したスペクトルをフレームfごとに算出し、
前記フィルタ関数作成手段は、前記除算値スペクトルDiv(f,j)として、前記音声最大値スペクトルVv(j)に基づく値を、フレームfに対応する前記音楽平均値スペクトルVm(f,j)に基づく値によって互いに対応する周波数jごとに除した値を算出し、更に、前記除算値スペクトルDiv(f,j)の各値に対して、互いに対応する周波数jごとに前記聴覚感度補正曲線L(j)に基づく値を乗算することにより、前記フィルタ関数F(f,j)を作成する
ことを特徴とする請求項1乃至請求項5のいずれかに記載の秘匿化データ生成装置。
【請求項7】
複数の前記音楽データを記憶する音楽データ記憶手段と、
前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、
を更に具備し、
前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成する
ことを特徴とする請求項1乃至請求項6のいずれかに記載の秘匿化データ生成装置。
【請求項8】
請求項1乃至請求項7のいずれかに記載の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
【請求項9】
請求項8に記載の前記秘匿化データ再生手段が前記秘匿化データを波面が平面波に近い音波として所定平面から均一に放射する機構をもつ平面型スピーカによって構成されている
ことを特徴とする秘匿化装置。
【請求項10】
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を含むことを特徴とする秘匿化データ生成方法。
【請求項11】
請求項10に記載の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、
前記秘匿化データ記憶ステップによって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、
前記秘匿化データ選択ステップによって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
【請求項12】
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を、前記音楽平均値スペクトルVm(j)に基づく値によって互いに対応する周波数jごとに除した値である除算値スペクトルDiv(j)を算出し、更に、前記除算値スペクトルDiv(j)の各値に対して、互いに対応する周波数jごとにヒト聴覚感度の重みを定義した聴覚感度補正曲線L(j)に基づく値を乗算することにより、フィルタ関数F(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数F(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を実行させるためのコンピュータ読取可能なプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2012−226113(P2012−226113A)
【公開日】平成24年11月15日(2012.11.15)
【国際特許分類】
【出願番号】特願2011−93584(P2011−93584)
【出願日】平成23年4月20日(2011.4.20)
【出願人】(000002897)大日本印刷株式会社 (14,506)
【Fターム(参考)】