秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム
【課題】人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成する。
【解決手段】周波数解析処理32は、音声データ4及び音楽データ5の各々に対して周波数解析を行い、音声データ4の時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)を算出し、音楽データ5の時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する。フィルタ関数作成処理33は、音声最大値スペクトルVv(j)に基づく値を、音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成する。フィルタリング処理34は、音楽データ5を所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、秘匿化データ6を生成する。
【解決手段】周波数解析処理32は、音声データ4及び音楽データ5の各々に対して周波数解析を行い、音声データ4の時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)を算出し、音楽データ5の時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する。フィルタ関数作成処理33は、音声最大値スペクトルVv(j)に基づく値を、音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成する。フィルタリング処理34は、音楽データ5を所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、秘匿化データ6を生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話音声を秘匿化する音楽データを生成する秘匿化データ生成装置等に関するものである。
【背景技術】
【0002】
医療機関(調剤薬局などの受付カウンター)、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる対話音声は、第3者に聴取されることが好ましくない個人情報や企業の機密情報が含まれることが少なくない。しかしながら、従来は、簡易的な間仕切りのみによって済ませている施設が多い。これは、事務所や店のスペース・コストの制約から、カラオケボックスのように遮音機能をもつ什器を導入したり、内装工事を行ったりすることは必ずしも容易ではないからである。そこで、現状設備に殆ど手を加えることなく、対話音声を秘匿化する手法が求められている。
【0003】
音を秘匿化する手法の1つとして、電気的に消音する能動消音法(ANC:Acutive Noise Control:特許文献1参照)があるが、対象は定常的な騒音に限定されるため、音声のように時間変化が顕著な音には適用できない。
【0004】
もう1つの音を秘匿化する手法として、BGM(BackGround Music)を利用する手法がある。例えば、ショッピングセンター、カクテルパーティ、飲食店などではBGMが流れていることが多い。これは、人間の聴覚マスキング効果を活用して雑踏騒音を和らげることを意図している。しかし、人間はカクテルパーティ効果と呼ばれる、聴覚マスキング効果とは全く逆の特性も備えている。カクテルパーティ効果とは、カクテルパーティのように多くの人がそれぞれ雑談している中でも、自分が興味のある人の会話などは自然に聴き取ることができるという音声の選択的聴取のことである。
人間は、カクテルパーティ効果によって、より大きな音源(BGM等)により部分的にマスクされた音声を補間して興味のある音声を聴取しようとする働きがある為、通常のBGMによって音声を完全に秘匿化することまでは期待できない。このような問題を解決する為に、(1)エネルギーマスキング、(2)インフォメーションマスキングという2つの手法が提案されている。
【0005】
(1)エネルギーマスキングについては、例えば、特許文献2に記載されている。特許文献2には、白色雑音(少なくとも可聴域にて、パワーが周波数によらず略均一な傾向を有した雑音)等をマスキング音として流し、聴覚マスキング効果によって音声等をマスキングすることが記載されている。
【0006】
(2)インフォメーションマスキングについては、例えば、特許文献3、4に記載されている。特許文献3には、ある音響空間に設置されたマイクロホンから音信号を受取り、受け取った音信号にスクランブルをかけてマスキングサウンドを生成し、他の音響空間(音声信号が漏洩して欲しくない空間)に放音することが記載されている。また、特許文献4には、リアルタイムに録音された対話音声を解析し、対話音声を加工してマスキング音を生成し、出力することが記載されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特許第2544899号公報
【特許文献2】特開2010−031501号公報
【特許文献3】特許第4245060号公報
【特許文献4】特許第4336552号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献2に記載の手法では、音圧が高いマスキング音が四六時中流れることになり、待合室の人々の雑談や面談中の会話が聞き取り難くなるという問題が指摘されている。
また、特許文献3、4に記載の手法では、マスキング音が人間に不快感を与えるとう問題が指摘されている。また、録音する為のマイクロホン、高速信号処理装置などが必要となり、コストがかかるという問題が指摘されている。尚、不快なマスキング音を和らげるために、更にBGMを合成するという手法も考えられるが、音圧が大きくなり煩わしくなるという別の問題が発生する。
【0009】
本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を提供することである。また、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる秘匿化装置等を提供することである。
【課題を解決するための手段】
【0010】
前述した目的を達成するために第1の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、を具備することを特徴とする秘匿化データ生成装置である。
第1の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。特に、音声最大値スペクトルVv(j)を利用することにより、マスキング効果を高めることができる。
【0011】
第1の発明における前記フィルタ関数作成手段は、前記音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、前記音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を前記除算値スペクトルDiv(j)とすることが望ましい。
マスキングは、高音側(周波数が高域側)に働きやすいという性質がある為、音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することにより、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。
【0012】
第1の発明における前記フィルタ関数作成手段は、前記除算値スペクトルDiv(j)を、周波数jの前後の範囲内の平均値に置換することによって、前記除算値スペクトルDiv(j)を平滑化することが望ましい。
これによって、フィルタ関数が滑らかになり、ひいては、最終的に生成される秘匿化データが、人間にとって心地良い音楽データとなる。
【0013】
第1の発明は、スペクトルの変移に基づいて、前記音楽データを、複数のフレームfを含む音楽ブロックに分割するブロック分割手段、を更に具備し、前記周波数解析手段は、前記音楽ブロックごとに前記音楽平均値スペクトルVm(b、j)(bはブロック)を算出し、前記フィルタ関数作成手段は、前記音楽ブロックごとに前記フィルタ関数F(b、j)を作成し、前記フィルタリング手段は、前記音楽ブロックごとに前記秘匿化データを生成することが望ましい。
音楽データが複数の楽節で構成され、比較的長い場合、一律の平均値スペクトルで表現すると、楽節によりマスキング効果が働きにくくなる箇所が生じてしまう。これに対して、音楽データを、複数のフレームfを含む音楽ブロックに分割することで、楽節に合ったフィルタ関数を生成することができ、ひいては、マスキング効果を高めることができる。
【0014】
第1の発明における前記ブロック分割手段は、フレームfのスペクトルと、隣接するフレーム(f−1)又は(f+1)のスペクトルと、の差分である第1差分を算出し、前記第1差分が第1閾値を超えているフレームfを変移フレームとして設定する変移フレーム設定手段と、前記変移フレームの1つを特定フレームとし、前記特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、前記特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、前記左端フレームから前記特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、前記特定フレームから前記右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第2差分を算出し、前記第2差分が第2閾値以下である場合、前記特定フレームを通常のフレームとして設定する変移フレーム解除手段と、を含み、前記変移フレーム設定手段によって設定された全ての前記変移フレームに対して、前記変移フレーム解除手段による処理が実行された後、前記変移フレームごとに前記音楽データを前記音楽ブロックに分割するものであることが望ましい。
これによって、分割数が適切となり、マスキング効果は多少弱まるが、再生される音楽に不自然な単調感を与えることがなくなる。
【0015】
第1の発明は、複数の前記音楽データを記憶する音楽データ記憶手段と、前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、を更に具備し、前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することが望ましい。
これによって、複数の音楽データに基づいて、複数の秘匿化データを生成することができる。
【0016】
第2の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、を含むことを特徴とする秘匿化データ生成方法である。
第2の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。特に、音声最大値スペクトルVv(j)を利用することにより、マスキング効果を高めることができる。
【0017】
第3の発明は、第1の発明の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第3の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルVv(j)を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【0018】
第4の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化装置であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第4の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルVv(j)を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【0019】
第5の発明は、第2の発明の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第5の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルVv(j)を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【0020】
第6の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第6の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルVv(j)を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【0021】
第7の発明は、コンピュータに、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、を実行させるためのコンピュータ読取可能なプログラムである。
第7の発明のプログラムを汎用のコンピュータにインストールすることによって、第1の発明の秘匿化データ生成装置を得ることができる。
【発明の効果】
【0022】
本発明により、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を提供することができる。また、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる秘匿化装置等を提供することができる。
【図面の簡単な説明】
【0023】
【図1】秘匿化装置の概要図
【図2】秘匿化データ生成装置のハードウエア構成図
【図3】秘匿化処理の流れを示すフローチャート
【図4】秘匿化データ生成処理の流れを示す図
【図5】ブロック分割処理を説明する図
【図6】周波数解析処理を説明する図
【図7】フィルタ関数作成処理を説明する図
【図8】フィルタ関数作成処理を説明する図
【図9】フィルタリング処理を説明する図
【図10】実施例1の音声データを示す図
【図11】実施例1の音楽データを示す図
【図12】実施例1のフィルタ関数を示す図
【図13】実施例2の音楽データを示す図
【図14】実施例2のブロック1に係るフィルタ関数を示す図
【図15】実施例2のブロック2に係るフィルタ関数を示す図
【図16】実施例2のブロック3に係るフィルタ関数を示す図
【発明を実施するための形態】
【0024】
以下図面に基づいて、本発明の実施形態を詳細に説明する。
図1は、秘匿化装置1の概要図である。図1に示すように、秘匿化装置1は、少なくとも、秘匿化データ生成装置2及び音楽再生装置3から構成される。
秘匿化データ生成装置2は、例えば、コンピュータ等であり、対話音声を秘匿化するための音楽データである秘匿化データ6を生成する。秘匿化データ生成装置2の記憶部には、少なくとも音声データ4及び音楽データ5が記憶される。
音楽再生装置3は、音楽プレーヤ及びスピーカから構成され、秘匿化データ6を再生する。音楽再生装置3の記憶部には、少なくとも秘匿化データ生成装置2によって生成される秘匿化データ6が記憶される。
【0025】
秘匿化装置1は、用途に応じて様々な構成を採ることが可能である。秘匿化装置1を構成する秘匿化データ生成装置2及び音楽再生装置3は、図1に示すように異なる筐体としても良いし、1つの筐体としても良い。
また、秘匿化データ生成装置2及び音楽再生装置3は、図1に示すように有線によって接続されても良いし、無線によって接続されても良いし、ネットワークを介して接続されても良いし、接続されていなくても良い。
秘匿化データ生成装置2及び音楽再生装置3が接続されていない場合、秘匿化データ生成装置2は、秘匿化データ6を記憶媒体(CD、MD、USBメモリ、SDカードなどコンピュータ及び音楽プレーヤが読取可能な記憶媒体)に出力し、音楽再生装置3は、記憶媒体から秘匿化データ6を入力する。
【0026】
少なくとも音楽再生装置3は、対話音声の秘匿化を所望する音響空間に設置される。このような音響空間としては、例えば、調剤薬局などの受付カウンターに隣接する待合室などが考えられる。そして、音楽再生装置3は、このような待合室において秘匿化データ6を再生する。
ここで、本発明の実施の形態に係る秘匿化データ生成装置2が生成する秘匿化データ6は、受付カウンターと待合室の間が簡易的な間仕切りのみであっても、通常の音量によって、待合室にいる人が受付カウンターの対話音声の内容を聞き取ることができない程度に、秘匿化することが可能である。
音楽再生装置3が設置される音響空間としては、その他に、金融機関、保険会社、携帯電話店などのカウンターに隣接する待機スペース、法律事務所などの面談室に隣接する通路、飲食店などの個室などが挙げられる。
【0027】
図2は、秘匿化データ生成装置2のハードウエア構成図である。尚、図2のハードウエア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
秘匿化データ生成装置2は、制御部21、記憶部22、メディア入出力部23、通信制御部24、入力部25、表示部26、周辺機器I/F部27等が、バス28を介して接続される。
【0028】
制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、記憶部22、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス28を介して接続された各装置を駆動制御し、秘匿化データ生成装置2が行う後述する処理を実現する。
ROMは、不揮発性メモリであり、秘匿化データ生成装置2のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部22、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
【0029】
記憶部22は、HDD(ハードディスクドライブ)であり、制御部21が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部21により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
【0030】
メディア入出力部23(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)、MDドライブ等のメディア入出力装置を有する。
通信制御部24は、通信制御装置、通信ポート等を有し、秘匿化データ生成装置2とネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他の装置間との通信制御を行う。ネットワークは、有線、無線を問わない。
【0031】
入力部25は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部25を介して、秘匿化データ生成装置2に対して、操作指示、動作指示、データ入力等を行うことができる。
表示部26は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータ1のビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
【0032】
周辺機器I/F(インタフェース)部27は、秘匿化データ生成装置2に周辺機器を接続させるためのポートであり、秘匿化データ生成装置2は周辺機器I/F部27を介して周辺機器とのデータの送受信を行う。周辺機器I/F部27は、USBやSDカードリーダ等で構成されている。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
【0033】
図3は、秘匿化処理の流れを示すフローチャートである。
図3に示すように、秘匿化データ生成装置2の制御部21は、音声データ4及び音楽データ5を記憶部22に記憶する(S101)。音楽データ5は、複数記憶するようにしても良い。
音声データ4は、秘匿化対象の音響空間における対話音声ではなく、固定のサンプルデータとする。すなわち、本発明の実施の形態における秘匿化データ生成装置2は、リアルタイム処理は行わない。音声データ4は、予め録音された種々の男声、女声が混在した対話音声である。
音楽データ5は任意であるが、聴取者にとって意味のあるメロディ・リズム・和声進行が含まれているもので、マスキング効果が働きやすくなるという点では声楽データが含まれていることが望ましいが、騒がしくなるため、器楽データのみで楽器編成が少ない室内楽曲などが現実的である。秘匿化データ生成装置2は、音楽データ5ごとに秘匿化データ6を生成する。
【0034】
次に、秘匿化データ生成装置2の制御部21は、単一の音楽データ5を選択する(S102)。音楽データ5の選択は、入力部25を介してユーザが指示するようにしても良い。
次に、秘匿化データ生成装置2の制御部21は、S102において選択された単一の音楽データ5に基づいて、秘匿化データ6の生成処理を行う(S103)。秘匿化データ6の生成処理の詳細は後述する。
S102及びS103の処理を繰り返し、複数の秘匿化データ6を生成するようにしても良い。
【0035】
次に、音楽再生装置3は、S103にて生成された秘匿化データ6を記憶する(S104)。秘匿化データ6は、複数記憶するようにしても良い。
次に、音楽再生装置3は、単一の秘匿化データ6を選択する(S105)。秘匿化データ6の選択は、ユーザが指示するようにしても良い。
次に、音楽再生装置3は、S105において選択された単一の秘匿化データ6を再生する(S106)。再生音量は、環境の変化に応じて、ユーザの指示により適宜変更される。
【0036】
以上により、秘匿化装置1は、音響空間Aにおける対話音声が、所定の距離だけ離れている音響空間Bにいる人に聴取されないように秘匿化することができる。
以下では、秘匿化データ6の生成処理の詳細について説明する。
【0037】
図4は、秘匿化データ生成処理の流れを示す図である。図4に示すように、秘匿化データ生成処理は、ブロック分割処理31、周波数解析処理32、フィルタ関数作成処理33及びフィルタリング処理34を含む。尚、ブロック分割処理31は、必須ではない。
ここでは、各処理の概要について説明し、詳細は後述する。
【0038】
ブロック分割処理31は、音楽データ5を入力し、音楽ブロック群11を出力する。ブロック分割処理31は、秘匿化データ生成装置2の制御部21が、スペクトルの変移に基づいて、音楽データ5を、複数のフレームfを含む音楽ブロックに分割する処理である。
【0039】
周波数解析処理32は、音声データ4及び音楽データ5(又は音楽ブロック群11)を入力し、音声最大値スペクトル12及び音楽平均値スペクトル13を出力する。周波数解析処理32は、秘匿化データ生成装置2の制御部21が、音声データ4及び音楽データ5(又は音楽ブロック)の各々に対して周波数解析を行い、音声データ4の時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、音楽データ5の時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する処理である。
【0040】
音声データ4は、スペクトルの時系列変動が大きく、無音部も含まれるため、平均値では適切な評価ができない。そこで、本発明の実施の形態では、最大値を採用する。
尚、音楽データ5が複数の楽節で構成され、比較的長い場合、一律の平均値スペクトルで表現すると、楽節によりマスキング効果が働きにくくなる箇所が生じる。そこで、必要に応じて、ブロック分割処理31によって、音楽データ5をスペクトル特性より複数のブロックに分割し、ブロックごとに音楽平均値スペクトルVm(j)を算出する。逆に、3〜4分程度の短い音楽データに対して、このような分割を施すと、マスキング効果は確かに働きやすくなるが、再生される音楽に不自然な単調感を与えるため適用しないこともある。例えば、A−B−Cという三部構成の曲でサビのBのパートをA、Cに比べ強く(フォルテ)演奏する指示になっている場合、三部ごとに異なるフィルタ関数を設定すると、AとCが相対的に盛り上がってしまい、サビのBパートが目立たなくなり、曲全体の構成が崩れてしまう。そこで、一律なフィルタ関数を適用し、AとCのパートは多少マスキング効果が弱くなっても、曲全体の音量バランスを維持するようにする。
【0041】
フィルタ関数作成処理33は、音声最大値スペクトルデータ12及び音楽平均値スペクトルデータ13を入力し、フィルタ関数データ14を出力する。フィルタ関数作成処理33は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(j)に基づく値を、音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成する処理である。
【0042】
フィルタリング処理34は、音楽データ5及びフィルタ関数データ14を入力し、秘匿化データ6を出力する。フィルタリング処理34は、秘匿化データ生成装置2の制御部21が、音楽データ5を所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、秘匿化データ6を生成する処理である。
【0043】
図5は、ブロック分割処理を説明する図である。図5に示すように、ブロック分割処理31は、変移フレーム設定処理41及び変移フレーム解除処理42を含む。
【0044】
例えば、サンプリング周波数Fsを「44100Hz」、サンプル数Nを「4096」とする。サンプリング周波数Fs及びサンプル数Nによって、音楽データ5に含まれるフレーム数Fが定まる。
最初に、ブロック分割処理31では、秘匿化データ生成装置2の制御部21が、サンプリング周波数Fsのモノラル音楽信号(ステレオの場合はLR(左右)の合算値とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fフレーム抽出したf番目のフレームデータX(f、j)(f=0、・・・、F−1;i=0、・・・、N−1)に対して、ハニング窓関数H(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行う。
次に、制御部21は、変換データの実部 A(f、j)(f=0、・・・、F−1;j=0、・・・、N−1)、虚部B(f、j)(f=0、・・・、F−1;j=0、・・・、N−1)及び強度値V(f、j)を各々、次式のように算出する。
【0045】
【数1】
【0046】
変移フレーム設定処理41は、秘匿化データ生成装置2の制御部21が、音楽データ5(又は音楽ブロック)に含まれる各フレームfのスペクトルと、隣接するフレーム(f−1)又は(f+1)のスペクトルと、の差分である第1差分を算出し、第1差分が第1閾値を超えているフレームfを変移フレームとして設定する処理である。
変移フレームとは、直前又は直後のフレームと比較して、スペクトルの変化が大きいフレームを意味する。
【0047】
具体的には、変移フレーム設定処理41では、秘匿化データ生成装置2の制御部21は、f=0、・・・、F−1に対応してブロック分割マーク配列をD(f)とし、初期状態は全てD(f)=0とする。次に、式(3)の強度値V(f、j)の隣接フレーム間の差分(第1差分)dV(f)(f=1、・・・、F−1)を次式のように算出し、dV(f)が所定の閾値(第1閾値)Sdv以上の場合、即ちdV(f)>)Sdvの場合、D(f)=1に設定する(変移フレームに設定する)
【0048】
【数2】
【0049】
変移フレーム解除処理42は、秘匿化データ生成装置2の制御部21が、変移フレーム設定処理41の後、変移フレームの1つを特定フレームとし、特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、左端フレームから特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、特定フレームから右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第2差分を算出し、第2差分が第2閾値以下である場合、特定フレームを通常のフレームとして設定する処理である。
変移フレーム解除処理42を実行する理由は、変移フレーム設定処理41による分割が細か過ぎる場合がある為である。変移フレーム解除処理42を実行し、各音楽ブロックが30秒程度以上になるようにすることが望ましい。
【0050】
具体的には、変移フレーム解除処理42では、秘匿化データ生成装置2の制御部21は、D(f)=1である1つのフレーム(特定フレーム)fcに対して、f1<fcかつD(f1)=1、又は、f1=0を満たすf1を探索する。f1が左端フレームである。また、制御部21は、特定フレームfcに対して、fc<f2かつD(f2)=1、又は、f2=Fを満たすf2を探索する。f2が右端フレームである。
次に、制御部21は、強度値V(f、j)の[f1、fc]区間の平均スペクトル(左側平均スペクトル)Va1(j)と、[fc、f2]区間の平均スペクトル(左側平均スペクトル)Va2(j)の差分(第2差分)dVaを次式のように算出し、dVaが所定の閾値(第2閾値)Sdva以下の場合、即ちdVa<Sdvaの場合、D(fc)=0に再設定する(特定フレームを通常のフレームとして設定する)。
【0051】
【数3】
【0052】
そして、制御部21は、変移フレーム設定処理41によって設定された全ての変移フレームに対して、変移フレーム解除処理42が実行された後、残存する変移フレームごとに音楽データ5を音楽ブロックに分割する。
【0053】
D(f)=1となるフレーム数が所定の個数を超える場合、制御部21は、変移フレーム解除処理42を再度繰り返し実行する。そして、所望の個数になったら、制御部21は、D(f)=1となるフレームを分割点としてNbブロックに分割し、b=0、・・・、Nbに対応させて、ブロック先頭フレームをF(b)と定義する。ただし、F(0)=0、F(Nb)=Fである。
【0054】
図5に示す例では、音楽データ5に対して、変移フレーム設定処理41によって変移フレームが5個設定されている。また、変移フレーム解除処理42によって4個の変移フレームが通常フレームに設定され、残存変移フレームは1個となっている。そして、音楽データ5は、ブロック1及びブロック2の2つの音楽ブロックに分割されている。
【0055】
図6は、周波数解析処理を説明する図である。図6に示すように、周波数解析処理32では、秘匿化データ生成装置2の制御部21が、音声フレームデータX1(f、i)(f=0、・・・、F−1、i=0、・・・、N−1)及び音楽フレームデータX2(f、i)(f=F(b)・・・、F(b+1)−1;i=0、・・・、N−1)の各々に対して周波数解析32aを行い、それぞれ音声スペクトル及び音楽スペクトルを算出する。そして、制御部21が、各音声スペクトルに対しては、時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、各音楽スペクトルに対しては、時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する。
【0056】
具体的には、周波数解析処理32では、秘匿化データ生成装置2の制御部21は、サンプリング周波数Fsのモノラル音声信号およびb番目のブロック(b=0、・・・、Nb−1)(ブロック分割をしない場合、b=0、Nb=1)のモノラル音楽信号(ステレオの場合、LR(左右)の合算値とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fv個、F(b+1)−F(b)個のフレームを抽出する。
次に、制御部21は、f番目の音声フレームデータX1(f、i)(f=0、・・・、Fv−1;i=0、・・・、N−1)、及び、音楽フレームデータX2(f、i)(f=F(b)、・・・、F(b+1)−1;i=0、・・・、N−1)に対して、ハニング窓関数W(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行う。
次に、制御部21は、X1に対する変換データの実部Av(f、j)(f=0、・・・、Fv−1;j=0、・・・、N−1)、X2に対する変換データの実部Am(f、j)(f=F(b)、・・・、F(b+1)−1;j=0、・・・、N−1)、X1に対する変換データの虚部Bv(f、j)(f=0、・・・、Fv−1;j=0、・・・、N−1)、X2に対する変換データの虚部Bm(f、j)(f=F(b)、・・・、F(b+1)−1;j=0、・・・、N−1)を、それぞれ次式のように算出する。
更に、制御部21は、X1に対する変換データの強度値の最大値である音声最大値スペクトルVv(j)、X2に対する変換データの強度値の平均値である音楽平均値スペクトルVm(b、j)を、それぞれ次式のように算出する。
【0057】
【数4】
【0058】
図6では、説明を簡単にする為、ブロック分割をしない場合を図示しており(後述する図7〜図9も同様)、音楽平均値スペクトルVm(b、j)は1つである。ブロック分割をする場合、それぞれの音楽ブロックに対して、音楽平均値スペクトルVm(b、j)を算出する。
【0059】
図7、図8は、フィルタ関数作成処理を説明する図である。フィルタ関数作成処理33は、図7に示す臨界帯域幅補正処理43、並びに、図8に示す除算処理44及び平滑化処理45を含む。
【0060】
まず、図7を参照して臨界帯域幅補正処理43について説明する。
臨界帯域幅補正処理43は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(jc)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを作成し、音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを作成する処理である。
【0061】
臨界帯域幅とは、ある周波数jの周波数成分Vv(j)またはVm(b、j)を中心にマスキングが及ぶ周波数の範囲である。臨界帯域幅の近似式としては、次式に示すE.Zwickerの式が知られている。尚、一般に、周波数が高くなると、臨界帯域幅は広くなることが分かっている。
【0062】
【数5】
【0063】
式(14)におけるfrの単位も「Hz」である。frとBz(fr)を本実施の形態におけるフーリエ変換のポイント数の次元に変換すると、次式となる。
【0064】
【数6】
【0065】
臨界帯域幅補正処理43では、秘匿化データ生成装置2の制御部21は、音声信号スペクトル対して、周波数jcごとに周波数成分Vv(jc)をj=jc−(1−α)×Bz(j)からj=jc+α×Bz(j)の範囲(周波数jcよりも高域側の範囲)の最大値に置換する。即ち、制御部21は、jc=0、・・・、N/2に対して、置換後のスペクトル(置換音声最大値スペクトル)Vv‘(jc)を次式のように算出する。
【0066】
【数7】
【0067】
αは0から1までの実数であり、通常はα=1.0とする。式(16)によって、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになる。
【0068】
一方、音楽信号スペクトル対しては、周波数jcごとに周波数成分Vm(b、jc)をj=jc−0.5×Bz(j)からj=jc+0.5×Bz(j)の範囲(周波数jcの前後の範囲)の平均値に置換する。即ち、制御部21は、jc=0、・・・、N/2に対して、置換後のスペクトル(置換音楽平均値スペクトル)Vm‘(b、jc)を次式のように算出する。
【0069】
【数8】
【0070】
式(17)によって、音楽スペクトルを周波数方向に平滑化をかけていることになる。
【0071】
図7では、W(j)が、置換の際の計算範囲を示している。音声最大値スペクトルVv(jc)に対しては、W(j)が周波数jcよりも高域側の範囲を示している。また、音楽平均値スペクトルVm(b、jc)に対しては、W(j)が周波数jcの前後の範囲を示している。
【0072】
次に、図8を参照して、除算処理44及び平滑化処理45について説明する。
除算処理44は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(j)に基づく値を音楽平均値スペクトルVm(j)に基づく値によって除した値を除算値スペクトルDiv(j)とする処理である。特に、制御部21は、置換音声最大値スペクトルVv‘(jc)を置換音楽平均値スペクトルVm‘(b、jc)によって除した値を除算値スペクトルDiv(j)とすることが望ましい。
【0073】
また、平滑化処理45は、秘匿化データ生成装置2の制御部21が、除算値スペクトルDiv(j)を、周波数jの前後の範囲内の平均値に置換することによって、除算値スペクトルDiv(j)を平滑化する処理である。
【0074】
具体的には、制御部21は、周波数(j=0、・・・、N/2)ごとに、除算値スペクトルDiv(j)=Vv‘(j)/Vm‘(b、j)を算出し、これに対して所定のタップ数T(<N/2)によって、次式のように、平滑フィルタをかけた結果をFb(j)とする。
【0075】
【数9】
【0076】
αは、音圧を調整するための比例定数(実数値)である。音声信号の音圧と音楽信号の音圧を同程度とする場合、α=1.0とする。
Fb(j)の上限値と下限値は予め設定しておく。例えば、中央値を1とすると、上限値を10倍の「10」、下限値を1/10の「0.1」とする。除算結果が上限値を上回る場合、又は、下限値を下回る場合、制御部21は、それぞれ、Fb(j)に上限値又は下限値を設定する。
【0077】
図8に示すように、除算値スペクトルDiv(j)は、極値(極大値及び極小値)を数多く持つ関数となっている。特に、ところどころ0で割り算する箇所が発生してしまい、その箇所では上限値をもつ極値になり不連続点になる。除算値スペクトルDiv(j)をそのままフィルタ関数とすると、人間にとって聞き苦しい秘匿化データ6が生成されてしまう。そこで、本発明の実施の形態では、平滑化処理45を行っている。
図8に示すように、平滑化処理45を行うことで、フィルタ関数Fb(j)は、極値が少なく、滑らかな関数となっている。
【0078】
図9は、フィルタリング処理を説明する図である。図9に示すように、フィルタリング処理34は、フーリエ変換処理46、フィルタ関数乗算処理47及びフーリエ逆変換処理48を含む。
前述のブロック分割処理31、周波数解析処理32及びフィルタ関数作成処理33では、実数値に対して計算を行っているが、フィルタリング処理34では、複素数値に対して計算を行う。
【0079】
フーリエ変換処理46は、秘匿化データ生成装置2の制御部21が、音楽フレームデータXl(f、i)及びXr(f、i)(f=F(b)、・・・、F(b+1)−1;i=0、・・・、N−1)をフーリエ変換し、ソース複素スペクトルを算出する処理である。
フィルタ関数乗算処理47は、制御部21が、ソース複素スペクトルにフィルタ関数Fb(j)を乗じ、改変複素スペクトルを算出する処理である。
フーリエ逆変換処理48は、制御部21が、改変複素スペクトルをフーリエ逆変換を行い、秘匿化フレームデータXl‘(f、i)及びXr‘(f、i)(f=F(b)、・・・、F(b+1)−1;i=0、・・・、N−1)を算出する処理である。
【0080】
フーリエ変換処理46では、制御部21は、サンプリング周波数Fsのステレオ音声信号(モノラル信号の場合はXr(f、i)=0とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fフレーム抽出したf番目の音楽フレームデータXl(f、i)及びXr(f、i)に対して、ハニング窓関数H(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行い、以下のように、変換データの実部Al(f、j)及びAr(f、j)、並びに、虚部Bl(f、j)及びBr(f、j)(f=F(b)、・・・、F(b+1)−1;i=0、・・・、N−1)を算出する。
【0081】
【数10】
【0082】
フィルタ関数乗算処理47では、制御部21は、Nb個のフィルタ関数Fb(j)を用いて、ブロックbごとに所定の周波数区間[j1、j2]の全ての周波数成分に乗算する。即ち、制御部21は、Nb個のブロック(分割しない場合、b=0、Nb=1)の各ブロックbの各フレームf=F(b)、・・・、F(b+1)、及び、各周波数j=j1、・・・、j2において、次式のように変換を行う。
【0083】
【数11】
【0084】
各フレームfのAl(f、j)、Bl(f、j)、
Ar(f、j)、Br(f、j)の各要素に対してフィルタ関数乗算処理47の結果を各々Al‘(f、j)、Bl’(f、j)、 Ar‘(f、j)、Br’(f、j)とする。
フーリエ逆変換処理48では、制御部21は、変換対象のフレームfの秘匿化フレームデータXl‘(f、i)及びXr‘(f、i)に対して、直前に変換されたフレームf−1の秘匿化フレームデータXl‘(f−1、i)及びXr‘(f−1、i)が存在する場合、両者が時間軸においてN/2サンプル分重複することを考慮し、次式のように計算を行う。
【0085】
【数12】
【0086】
以上、本発明の実施の形態における秘匿化データ生成処理について説明したが、本発明の実施の形態によれば、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。
特に、本発明の実施の形態では、インフォメーションマスキング手法のように対話音源と同期させながら制御信号を提示する必要がないためリアルタイム信号処理を必要とせず、従来の館内BGMと同様な設備で安価に対話音声の秘匿化を実現できる。また、対話音声の制御に使用する音声・音楽信号として、CM音声を用いれば、BGMを新規な広告メディアとして活用でき、広告主側でBGM再生装置の設置コストを負担する新規な事業モデルを構築できるという効果がある。
【実施例1】
【0087】
次に、図10〜図12を参照しながら、実施例1について説明する。実施例1は、音楽データ5を複数の音楽ブロックに分割しない例である。
図10は、実施例1の音声データを示す図である。図11は、実施例1の音楽データを示す図である。図12は、実施例1のフィルタ関数を示す図である。
【0088】
図10(1)は、音声データ4である。図10(2)は、音声最大値スペクトルVv(j)である。
また、図11(1)は、音楽データ5である。図11(2)は、音楽平均値スペクトルVm(j)である。図11(3)は、秘匿化データ6である。図11(4)は、秘匿化データ6の平均値スペクトルである。
図10(2)の音声最大値スペクトルVv(j)と、図11(4)の秘匿化データ6の平均値スペクトルとを比較すると、関数の形状が略同一となった。関数の形状が略同一ということは、秘匿化データ6が、音声データ4をマスキングする効果が高いことを示している。
【0089】
図12はフィルタ関数である。図11(2)の音楽平均値スペクトルVm(j)に対して、図12のフィルタ関数を乗算することによって、図12(4)の秘匿化データ6の平均値スペクトルが得られた。
図11(2)と図12(4)とを比較すると、高周波数部分のスペクトルがフィルタ関数により抑えられていることが分かる。
【実施例2】
【0090】
次に、図13〜図16を参照しながら、実施例2について説明する。実施例2は、音楽データ5を複数の音楽ブロックに分割する例である。
図13は、実施例2の音楽データを示す図である。図14は、実施例2のブロック1に係るフィルタ関数を示す図である。図15は、実施例2のブロック2に係るフィルタ関数を示す図である。図16は、実施例2のブロック3に係るフィルタ関数を示す図である。
尚、実施例2の音声データ4は、実施例1(図10)と同様である。
【0091】
図13に示すように、実施例2では、ブロック1〜ブロック3の3つの音楽ブロックに分割された。
図14〜図16のフィルタ関数を比較すると、ブロック1のフィルタ関数は、特に目立つ極大値が2つとなった。ブロック2のフィルタ関数は、特に目立つ極大値が3つとなった。ブロック3のフィルタ関数は、特に目立つ極大値が1つ、特に目立つ極小値が1つとなった。このように、3つのフィルタ関数は、強調する部分が大きく異なった。
仮に、図13に示す音楽データ5を複数の音楽ブロックに分割せず、1つのフィルタ関数のみを生成すると、そのフィルタ関数では、マスキング効果が働きにくくなる箇所が生じることになると推察される。
【0092】
以上、添付図面を参照しながら、本発明に係る秘匿化データ生成装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0093】
1………秘匿化装置
2………秘匿化データ生成装置
3………音楽再生装置
4………音声データ
5………音楽データ
6………秘匿化データ
11………音楽ブロック群
12………音声最大値スペクトルデータ
13………音声平均値スペクトルデータ
14………フィルタ関数データ
31………ブロック分割処理
32………周波数解析処理
32a………周波数解析
33………フィルタ関数作成処理
34………フィルタリング処理
41………変移フレーム設定処理
42………変移フレーム解除処理
43………臨界帯域幅補正処理
44………除算処理
45………平滑化処理
46………フーリエ変換処理
47………フィルタ関数乗算処理
48………フーリエ逆変換処理
【技術分野】
【0001】
本発明は、対話音声を秘匿化する音楽データを生成する秘匿化データ生成装置等に関するものである。
【背景技術】
【0002】
医療機関(調剤薬局などの受付カウンター)、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる対話音声は、第3者に聴取されることが好ましくない個人情報や企業の機密情報が含まれることが少なくない。しかしながら、従来は、簡易的な間仕切りのみによって済ませている施設が多い。これは、事務所や店のスペース・コストの制約から、カラオケボックスのように遮音機能をもつ什器を導入したり、内装工事を行ったりすることは必ずしも容易ではないからである。そこで、現状設備に殆ど手を加えることなく、対話音声を秘匿化する手法が求められている。
【0003】
音を秘匿化する手法の1つとして、電気的に消音する能動消音法(ANC:Acutive Noise Control:特許文献1参照)があるが、対象は定常的な騒音に限定されるため、音声のように時間変化が顕著な音には適用できない。
【0004】
もう1つの音を秘匿化する手法として、BGM(BackGround Music)を利用する手法がある。例えば、ショッピングセンター、カクテルパーティ、飲食店などではBGMが流れていることが多い。これは、人間の聴覚マスキング効果を活用して雑踏騒音を和らげることを意図している。しかし、人間はカクテルパーティ効果と呼ばれる、聴覚マスキング効果とは全く逆の特性も備えている。カクテルパーティ効果とは、カクテルパーティのように多くの人がそれぞれ雑談している中でも、自分が興味のある人の会話などは自然に聴き取ることができるという音声の選択的聴取のことである。
人間は、カクテルパーティ効果によって、より大きな音源(BGM等)により部分的にマスクされた音声を補間して興味のある音声を聴取しようとする働きがある為、通常のBGMによって音声を完全に秘匿化することまでは期待できない。このような問題を解決する為に、(1)エネルギーマスキング、(2)インフォメーションマスキングという2つの手法が提案されている。
【0005】
(1)エネルギーマスキングについては、例えば、特許文献2に記載されている。特許文献2には、白色雑音(少なくとも可聴域にて、パワーが周波数によらず略均一な傾向を有した雑音)等をマスキング音として流し、聴覚マスキング効果によって音声等をマスキングすることが記載されている。
【0006】
(2)インフォメーションマスキングについては、例えば、特許文献3、4に記載されている。特許文献3には、ある音響空間に設置されたマイクロホンから音信号を受取り、受け取った音信号にスクランブルをかけてマスキングサウンドを生成し、他の音響空間(音声信号が漏洩して欲しくない空間)に放音することが記載されている。また、特許文献4には、リアルタイムに録音された対話音声を解析し、対話音声を加工してマスキング音を生成し、出力することが記載されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特許第2544899号公報
【特許文献2】特開2010−031501号公報
【特許文献3】特許第4245060号公報
【特許文献4】特許第4336552号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献2に記載の手法では、音圧が高いマスキング音が四六時中流れることになり、待合室の人々の雑談や面談中の会話が聞き取り難くなるという問題が指摘されている。
また、特許文献3、4に記載の手法では、マスキング音が人間に不快感を与えるとう問題が指摘されている。また、録音する為のマイクロホン、高速信号処理装置などが必要となり、コストがかかるという問題が指摘されている。尚、不快なマスキング音を和らげるために、更にBGMを合成するという手法も考えられるが、音圧が大きくなり煩わしくなるという別の問題が発生する。
【0009】
本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を提供することである。また、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる秘匿化装置等を提供することである。
【課題を解決するための手段】
【0010】
前述した目的を達成するために第1の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、を具備することを特徴とする秘匿化データ生成装置である。
第1の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。特に、音声最大値スペクトルVv(j)を利用することにより、マスキング効果を高めることができる。
【0011】
第1の発明における前記フィルタ関数作成手段は、前記音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、前記音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を前記除算値スペクトルDiv(j)とすることが望ましい。
マスキングは、高音側(周波数が高域側)に働きやすいという性質がある為、音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することにより、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。
【0012】
第1の発明における前記フィルタ関数作成手段は、前記除算値スペクトルDiv(j)を、周波数jの前後の範囲内の平均値に置換することによって、前記除算値スペクトルDiv(j)を平滑化することが望ましい。
これによって、フィルタ関数が滑らかになり、ひいては、最終的に生成される秘匿化データが、人間にとって心地良い音楽データとなる。
【0013】
第1の発明は、スペクトルの変移に基づいて、前記音楽データを、複数のフレームfを含む音楽ブロックに分割するブロック分割手段、を更に具備し、前記周波数解析手段は、前記音楽ブロックごとに前記音楽平均値スペクトルVm(b、j)(bはブロック)を算出し、前記フィルタ関数作成手段は、前記音楽ブロックごとに前記フィルタ関数F(b、j)を作成し、前記フィルタリング手段は、前記音楽ブロックごとに前記秘匿化データを生成することが望ましい。
音楽データが複数の楽節で構成され、比較的長い場合、一律の平均値スペクトルで表現すると、楽節によりマスキング効果が働きにくくなる箇所が生じてしまう。これに対して、音楽データを、複数のフレームfを含む音楽ブロックに分割することで、楽節に合ったフィルタ関数を生成することができ、ひいては、マスキング効果を高めることができる。
【0014】
第1の発明における前記ブロック分割手段は、フレームfのスペクトルと、隣接するフレーム(f−1)又は(f+1)のスペクトルと、の差分である第1差分を算出し、前記第1差分が第1閾値を超えているフレームfを変移フレームとして設定する変移フレーム設定手段と、前記変移フレームの1つを特定フレームとし、前記特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、前記特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、前記左端フレームから前記特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、前記特定フレームから前記右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第2差分を算出し、前記第2差分が第2閾値以下である場合、前記特定フレームを通常のフレームとして設定する変移フレーム解除手段と、を含み、前記変移フレーム設定手段によって設定された全ての前記変移フレームに対して、前記変移フレーム解除手段による処理が実行された後、前記変移フレームごとに前記音楽データを前記音楽ブロックに分割するものであることが望ましい。
これによって、分割数が適切となり、マスキング効果は多少弱まるが、再生される音楽に不自然な単調感を与えることがなくなる。
【0015】
第1の発明は、複数の前記音楽データを記憶する音楽データ記憶手段と、前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、を更に具備し、前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することが望ましい。
これによって、複数の音楽データに基づいて、複数の秘匿化データを生成することができる。
【0016】
第2の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、を含むことを特徴とする秘匿化データ生成方法である。
第2の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。特に、音声最大値スペクトルVv(j)を利用することにより、マスキング効果を高めることができる。
【0017】
第3の発明は、第1の発明の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第3の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルVv(j)を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【0018】
第4の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化装置であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第4の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルVv(j)を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【0019】
第5の発明は、第2の発明の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第5の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルVv(j)を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【0020】
第6の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第6の発明によって、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる。特に、音声最大値スペクトルVv(j)を利用して生成した秘匿化データを再生することにより、マスキング効果を高めることができる。
【0021】
第7の発明は、コンピュータに、予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、を実行させるためのコンピュータ読取可能なプログラムである。
第7の発明のプログラムを汎用のコンピュータにインストールすることによって、第1の発明の秘匿化データ生成装置を得ることができる。
【発明の効果】
【0022】
本発明により、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を提供することができる。また、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを再生することができる秘匿化装置等を提供することができる。
【図面の簡単な説明】
【0023】
【図1】秘匿化装置の概要図
【図2】秘匿化データ生成装置のハードウエア構成図
【図3】秘匿化処理の流れを示すフローチャート
【図4】秘匿化データ生成処理の流れを示す図
【図5】ブロック分割処理を説明する図
【図6】周波数解析処理を説明する図
【図7】フィルタ関数作成処理を説明する図
【図8】フィルタ関数作成処理を説明する図
【図9】フィルタリング処理を説明する図
【図10】実施例1の音声データを示す図
【図11】実施例1の音楽データを示す図
【図12】実施例1のフィルタ関数を示す図
【図13】実施例2の音楽データを示す図
【図14】実施例2のブロック1に係るフィルタ関数を示す図
【図15】実施例2のブロック2に係るフィルタ関数を示す図
【図16】実施例2のブロック3に係るフィルタ関数を示す図
【発明を実施するための形態】
【0024】
以下図面に基づいて、本発明の実施形態を詳細に説明する。
図1は、秘匿化装置1の概要図である。図1に示すように、秘匿化装置1は、少なくとも、秘匿化データ生成装置2及び音楽再生装置3から構成される。
秘匿化データ生成装置2は、例えば、コンピュータ等であり、対話音声を秘匿化するための音楽データである秘匿化データ6を生成する。秘匿化データ生成装置2の記憶部には、少なくとも音声データ4及び音楽データ5が記憶される。
音楽再生装置3は、音楽プレーヤ及びスピーカから構成され、秘匿化データ6を再生する。音楽再生装置3の記憶部には、少なくとも秘匿化データ生成装置2によって生成される秘匿化データ6が記憶される。
【0025】
秘匿化装置1は、用途に応じて様々な構成を採ることが可能である。秘匿化装置1を構成する秘匿化データ生成装置2及び音楽再生装置3は、図1に示すように異なる筐体としても良いし、1つの筐体としても良い。
また、秘匿化データ生成装置2及び音楽再生装置3は、図1に示すように有線によって接続されても良いし、無線によって接続されても良いし、ネットワークを介して接続されても良いし、接続されていなくても良い。
秘匿化データ生成装置2及び音楽再生装置3が接続されていない場合、秘匿化データ生成装置2は、秘匿化データ6を記憶媒体(CD、MD、USBメモリ、SDカードなどコンピュータ及び音楽プレーヤが読取可能な記憶媒体)に出力し、音楽再生装置3は、記憶媒体から秘匿化データ6を入力する。
【0026】
少なくとも音楽再生装置3は、対話音声の秘匿化を所望する音響空間に設置される。このような音響空間としては、例えば、調剤薬局などの受付カウンターに隣接する待合室などが考えられる。そして、音楽再生装置3は、このような待合室において秘匿化データ6を再生する。
ここで、本発明の実施の形態に係る秘匿化データ生成装置2が生成する秘匿化データ6は、受付カウンターと待合室の間が簡易的な間仕切りのみであっても、通常の音量によって、待合室にいる人が受付カウンターの対話音声の内容を聞き取ることができない程度に、秘匿化することが可能である。
音楽再生装置3が設置される音響空間としては、その他に、金融機関、保険会社、携帯電話店などのカウンターに隣接する待機スペース、法律事務所などの面談室に隣接する通路、飲食店などの個室などが挙げられる。
【0027】
図2は、秘匿化データ生成装置2のハードウエア構成図である。尚、図2のハードウエア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
秘匿化データ生成装置2は、制御部21、記憶部22、メディア入出力部23、通信制御部24、入力部25、表示部26、周辺機器I/F部27等が、バス28を介して接続される。
【0028】
制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、記憶部22、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス28を介して接続された各装置を駆動制御し、秘匿化データ生成装置2が行う後述する処理を実現する。
ROMは、不揮発性メモリであり、秘匿化データ生成装置2のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部22、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
【0029】
記憶部22は、HDD(ハードディスクドライブ)であり、制御部21が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部21により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
【0030】
メディア入出力部23(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)、MDドライブ等のメディア入出力装置を有する。
通信制御部24は、通信制御装置、通信ポート等を有し、秘匿化データ生成装置2とネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他の装置間との通信制御を行う。ネットワークは、有線、無線を問わない。
【0031】
入力部25は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部25を介して、秘匿化データ生成装置2に対して、操作指示、動作指示、データ入力等を行うことができる。
表示部26は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータ1のビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
【0032】
周辺機器I/F(インタフェース)部27は、秘匿化データ生成装置2に周辺機器を接続させるためのポートであり、秘匿化データ生成装置2は周辺機器I/F部27を介して周辺機器とのデータの送受信を行う。周辺機器I/F部27は、USBやSDカードリーダ等で構成されている。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
【0033】
図3は、秘匿化処理の流れを示すフローチャートである。
図3に示すように、秘匿化データ生成装置2の制御部21は、音声データ4及び音楽データ5を記憶部22に記憶する(S101)。音楽データ5は、複数記憶するようにしても良い。
音声データ4は、秘匿化対象の音響空間における対話音声ではなく、固定のサンプルデータとする。すなわち、本発明の実施の形態における秘匿化データ生成装置2は、リアルタイム処理は行わない。音声データ4は、予め録音された種々の男声、女声が混在した対話音声である。
音楽データ5は任意であるが、聴取者にとって意味のあるメロディ・リズム・和声進行が含まれているもので、マスキング効果が働きやすくなるという点では声楽データが含まれていることが望ましいが、騒がしくなるため、器楽データのみで楽器編成が少ない室内楽曲などが現実的である。秘匿化データ生成装置2は、音楽データ5ごとに秘匿化データ6を生成する。
【0034】
次に、秘匿化データ生成装置2の制御部21は、単一の音楽データ5を選択する(S102)。音楽データ5の選択は、入力部25を介してユーザが指示するようにしても良い。
次に、秘匿化データ生成装置2の制御部21は、S102において選択された単一の音楽データ5に基づいて、秘匿化データ6の生成処理を行う(S103)。秘匿化データ6の生成処理の詳細は後述する。
S102及びS103の処理を繰り返し、複数の秘匿化データ6を生成するようにしても良い。
【0035】
次に、音楽再生装置3は、S103にて生成された秘匿化データ6を記憶する(S104)。秘匿化データ6は、複数記憶するようにしても良い。
次に、音楽再生装置3は、単一の秘匿化データ6を選択する(S105)。秘匿化データ6の選択は、ユーザが指示するようにしても良い。
次に、音楽再生装置3は、S105において選択された単一の秘匿化データ6を再生する(S106)。再生音量は、環境の変化に応じて、ユーザの指示により適宜変更される。
【0036】
以上により、秘匿化装置1は、音響空間Aにおける対話音声が、所定の距離だけ離れている音響空間Bにいる人に聴取されないように秘匿化することができる。
以下では、秘匿化データ6の生成処理の詳細について説明する。
【0037】
図4は、秘匿化データ生成処理の流れを示す図である。図4に示すように、秘匿化データ生成処理は、ブロック分割処理31、周波数解析処理32、フィルタ関数作成処理33及びフィルタリング処理34を含む。尚、ブロック分割処理31は、必須ではない。
ここでは、各処理の概要について説明し、詳細は後述する。
【0038】
ブロック分割処理31は、音楽データ5を入力し、音楽ブロック群11を出力する。ブロック分割処理31は、秘匿化データ生成装置2の制御部21が、スペクトルの変移に基づいて、音楽データ5を、複数のフレームfを含む音楽ブロックに分割する処理である。
【0039】
周波数解析処理32は、音声データ4及び音楽データ5(又は音楽ブロック群11)を入力し、音声最大値スペクトル12及び音楽平均値スペクトル13を出力する。周波数解析処理32は、秘匿化データ生成装置2の制御部21が、音声データ4及び音楽データ5(又は音楽ブロック)の各々に対して周波数解析を行い、音声データ4の時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、音楽データ5の時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する処理である。
【0040】
音声データ4は、スペクトルの時系列変動が大きく、無音部も含まれるため、平均値では適切な評価ができない。そこで、本発明の実施の形態では、最大値を採用する。
尚、音楽データ5が複数の楽節で構成され、比較的長い場合、一律の平均値スペクトルで表現すると、楽節によりマスキング効果が働きにくくなる箇所が生じる。そこで、必要に応じて、ブロック分割処理31によって、音楽データ5をスペクトル特性より複数のブロックに分割し、ブロックごとに音楽平均値スペクトルVm(j)を算出する。逆に、3〜4分程度の短い音楽データに対して、このような分割を施すと、マスキング効果は確かに働きやすくなるが、再生される音楽に不自然な単調感を与えるため適用しないこともある。例えば、A−B−Cという三部構成の曲でサビのBのパートをA、Cに比べ強く(フォルテ)演奏する指示になっている場合、三部ごとに異なるフィルタ関数を設定すると、AとCが相対的に盛り上がってしまい、サビのBパートが目立たなくなり、曲全体の構成が崩れてしまう。そこで、一律なフィルタ関数を適用し、AとCのパートは多少マスキング効果が弱くなっても、曲全体の音量バランスを維持するようにする。
【0041】
フィルタ関数作成処理33は、音声最大値スペクトルデータ12及び音楽平均値スペクトルデータ13を入力し、フィルタ関数データ14を出力する。フィルタ関数作成処理33は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(j)に基づく値を、音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成する処理である。
【0042】
フィルタリング処理34は、音楽データ5及びフィルタ関数データ14を入力し、秘匿化データ6を出力する。フィルタリング処理34は、秘匿化データ生成装置2の制御部21が、音楽データ5を所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、秘匿化データ6を生成する処理である。
【0043】
図5は、ブロック分割処理を説明する図である。図5に示すように、ブロック分割処理31は、変移フレーム設定処理41及び変移フレーム解除処理42を含む。
【0044】
例えば、サンプリング周波数Fsを「44100Hz」、サンプル数Nを「4096」とする。サンプリング周波数Fs及びサンプル数Nによって、音楽データ5に含まれるフレーム数Fが定まる。
最初に、ブロック分割処理31では、秘匿化データ生成装置2の制御部21が、サンプリング周波数Fsのモノラル音楽信号(ステレオの場合はLR(左右)の合算値とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fフレーム抽出したf番目のフレームデータX(f、j)(f=0、・・・、F−1;i=0、・・・、N−1)に対して、ハニング窓関数H(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行う。
次に、制御部21は、変換データの実部 A(f、j)(f=0、・・・、F−1;j=0、・・・、N−1)、虚部B(f、j)(f=0、・・・、F−1;j=0、・・・、N−1)及び強度値V(f、j)を各々、次式のように算出する。
【0045】
【数1】
【0046】
変移フレーム設定処理41は、秘匿化データ生成装置2の制御部21が、音楽データ5(又は音楽ブロック)に含まれる各フレームfのスペクトルと、隣接するフレーム(f−1)又は(f+1)のスペクトルと、の差分である第1差分を算出し、第1差分が第1閾値を超えているフレームfを変移フレームとして設定する処理である。
変移フレームとは、直前又は直後のフレームと比較して、スペクトルの変化が大きいフレームを意味する。
【0047】
具体的には、変移フレーム設定処理41では、秘匿化データ生成装置2の制御部21は、f=0、・・・、F−1に対応してブロック分割マーク配列をD(f)とし、初期状態は全てD(f)=0とする。次に、式(3)の強度値V(f、j)の隣接フレーム間の差分(第1差分)dV(f)(f=1、・・・、F−1)を次式のように算出し、dV(f)が所定の閾値(第1閾値)Sdv以上の場合、即ちdV(f)>)Sdvの場合、D(f)=1に設定する(変移フレームに設定する)
【0048】
【数2】
【0049】
変移フレーム解除処理42は、秘匿化データ生成装置2の制御部21が、変移フレーム設定処理41の後、変移フレームの1つを特定フレームとし、特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、左端フレームから特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、特定フレームから右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第2差分を算出し、第2差分が第2閾値以下である場合、特定フレームを通常のフレームとして設定する処理である。
変移フレーム解除処理42を実行する理由は、変移フレーム設定処理41による分割が細か過ぎる場合がある為である。変移フレーム解除処理42を実行し、各音楽ブロックが30秒程度以上になるようにすることが望ましい。
【0050】
具体的には、変移フレーム解除処理42では、秘匿化データ生成装置2の制御部21は、D(f)=1である1つのフレーム(特定フレーム)fcに対して、f1<fcかつD(f1)=1、又は、f1=0を満たすf1を探索する。f1が左端フレームである。また、制御部21は、特定フレームfcに対して、fc<f2かつD(f2)=1、又は、f2=Fを満たすf2を探索する。f2が右端フレームである。
次に、制御部21は、強度値V(f、j)の[f1、fc]区間の平均スペクトル(左側平均スペクトル)Va1(j)と、[fc、f2]区間の平均スペクトル(左側平均スペクトル)Va2(j)の差分(第2差分)dVaを次式のように算出し、dVaが所定の閾値(第2閾値)Sdva以下の場合、即ちdVa<Sdvaの場合、D(fc)=0に再設定する(特定フレームを通常のフレームとして設定する)。
【0051】
【数3】
【0052】
そして、制御部21は、変移フレーム設定処理41によって設定された全ての変移フレームに対して、変移フレーム解除処理42が実行された後、残存する変移フレームごとに音楽データ5を音楽ブロックに分割する。
【0053】
D(f)=1となるフレーム数が所定の個数を超える場合、制御部21は、変移フレーム解除処理42を再度繰り返し実行する。そして、所望の個数になったら、制御部21は、D(f)=1となるフレームを分割点としてNbブロックに分割し、b=0、・・・、Nbに対応させて、ブロック先頭フレームをF(b)と定義する。ただし、F(0)=0、F(Nb)=Fである。
【0054】
図5に示す例では、音楽データ5に対して、変移フレーム設定処理41によって変移フレームが5個設定されている。また、変移フレーム解除処理42によって4個の変移フレームが通常フレームに設定され、残存変移フレームは1個となっている。そして、音楽データ5は、ブロック1及びブロック2の2つの音楽ブロックに分割されている。
【0055】
図6は、周波数解析処理を説明する図である。図6に示すように、周波数解析処理32では、秘匿化データ生成装置2の制御部21が、音声フレームデータX1(f、i)(f=0、・・・、F−1、i=0、・・・、N−1)及び音楽フレームデータX2(f、i)(f=F(b)・・・、F(b+1)−1;i=0、・・・、N−1)の各々に対して周波数解析32aを行い、それぞれ音声スペクトル及び音楽スペクトルを算出する。そして、制御部21が、各音声スペクトルに対しては、時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、各音楽スペクトルに対しては、時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する。
【0056】
具体的には、周波数解析処理32では、秘匿化データ生成装置2の制御部21は、サンプリング周波数Fsのモノラル音声信号およびb番目のブロック(b=0、・・・、Nb−1)(ブロック分割をしない場合、b=0、Nb=1)のモノラル音楽信号(ステレオの場合、LR(左右)の合算値とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fv個、F(b+1)−F(b)個のフレームを抽出する。
次に、制御部21は、f番目の音声フレームデータX1(f、i)(f=0、・・・、Fv−1;i=0、・・・、N−1)、及び、音楽フレームデータX2(f、i)(f=F(b)、・・・、F(b+1)−1;i=0、・・・、N−1)に対して、ハニング窓関数W(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行う。
次に、制御部21は、X1に対する変換データの実部Av(f、j)(f=0、・・・、Fv−1;j=0、・・・、N−1)、X2に対する変換データの実部Am(f、j)(f=F(b)、・・・、F(b+1)−1;j=0、・・・、N−1)、X1に対する変換データの虚部Bv(f、j)(f=0、・・・、Fv−1;j=0、・・・、N−1)、X2に対する変換データの虚部Bm(f、j)(f=F(b)、・・・、F(b+1)−1;j=0、・・・、N−1)を、それぞれ次式のように算出する。
更に、制御部21は、X1に対する変換データの強度値の最大値である音声最大値スペクトルVv(j)、X2に対する変換データの強度値の平均値である音楽平均値スペクトルVm(b、j)を、それぞれ次式のように算出する。
【0057】
【数4】
【0058】
図6では、説明を簡単にする為、ブロック分割をしない場合を図示しており(後述する図7〜図9も同様)、音楽平均値スペクトルVm(b、j)は1つである。ブロック分割をする場合、それぞれの音楽ブロックに対して、音楽平均値スペクトルVm(b、j)を算出する。
【0059】
図7、図8は、フィルタ関数作成処理を説明する図である。フィルタ関数作成処理33は、図7に示す臨界帯域幅補正処理43、並びに、図8に示す除算処理44及び平滑化処理45を含む。
【0060】
まず、図7を参照して臨界帯域幅補正処理43について説明する。
臨界帯域幅補正処理43は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(jc)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを作成し、音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを作成する処理である。
【0061】
臨界帯域幅とは、ある周波数jの周波数成分Vv(j)またはVm(b、j)を中心にマスキングが及ぶ周波数の範囲である。臨界帯域幅の近似式としては、次式に示すE.Zwickerの式が知られている。尚、一般に、周波数が高くなると、臨界帯域幅は広くなることが分かっている。
【0062】
【数5】
【0063】
式(14)におけるfrの単位も「Hz」である。frとBz(fr)を本実施の形態におけるフーリエ変換のポイント数の次元に変換すると、次式となる。
【0064】
【数6】
【0065】
臨界帯域幅補正処理43では、秘匿化データ生成装置2の制御部21は、音声信号スペクトル対して、周波数jcごとに周波数成分Vv(jc)をj=jc−(1−α)×Bz(j)からj=jc+α×Bz(j)の範囲(周波数jcよりも高域側の範囲)の最大値に置換する。即ち、制御部21は、jc=0、・・・、N/2に対して、置換後のスペクトル(置換音声最大値スペクトル)Vv‘(jc)を次式のように算出する。
【0066】
【数7】
【0067】
αは0から1までの実数であり、通常はα=1.0とする。式(16)によって、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになる。
【0068】
一方、音楽信号スペクトル対しては、周波数jcごとに周波数成分Vm(b、jc)をj=jc−0.5×Bz(j)からj=jc+0.5×Bz(j)の範囲(周波数jcの前後の範囲)の平均値に置換する。即ち、制御部21は、jc=0、・・・、N/2に対して、置換後のスペクトル(置換音楽平均値スペクトル)Vm‘(b、jc)を次式のように算出する。
【0069】
【数8】
【0070】
式(17)によって、音楽スペクトルを周波数方向に平滑化をかけていることになる。
【0071】
図7では、W(j)が、置換の際の計算範囲を示している。音声最大値スペクトルVv(jc)に対しては、W(j)が周波数jcよりも高域側の範囲を示している。また、音楽平均値スペクトルVm(b、jc)に対しては、W(j)が周波数jcの前後の範囲を示している。
【0072】
次に、図8を参照して、除算処理44及び平滑化処理45について説明する。
除算処理44は、秘匿化データ生成装置2の制御部21が、音声最大値スペクトルVv(j)に基づく値を音楽平均値スペクトルVm(j)に基づく値によって除した値を除算値スペクトルDiv(j)とする処理である。特に、制御部21は、置換音声最大値スペクトルVv‘(jc)を置換音楽平均値スペクトルVm‘(b、jc)によって除した値を除算値スペクトルDiv(j)とすることが望ましい。
【0073】
また、平滑化処理45は、秘匿化データ生成装置2の制御部21が、除算値スペクトルDiv(j)を、周波数jの前後の範囲内の平均値に置換することによって、除算値スペクトルDiv(j)を平滑化する処理である。
【0074】
具体的には、制御部21は、周波数(j=0、・・・、N/2)ごとに、除算値スペクトルDiv(j)=Vv‘(j)/Vm‘(b、j)を算出し、これに対して所定のタップ数T(<N/2)によって、次式のように、平滑フィルタをかけた結果をFb(j)とする。
【0075】
【数9】
【0076】
αは、音圧を調整するための比例定数(実数値)である。音声信号の音圧と音楽信号の音圧を同程度とする場合、α=1.0とする。
Fb(j)の上限値と下限値は予め設定しておく。例えば、中央値を1とすると、上限値を10倍の「10」、下限値を1/10の「0.1」とする。除算結果が上限値を上回る場合、又は、下限値を下回る場合、制御部21は、それぞれ、Fb(j)に上限値又は下限値を設定する。
【0077】
図8に示すように、除算値スペクトルDiv(j)は、極値(極大値及び極小値)を数多く持つ関数となっている。特に、ところどころ0で割り算する箇所が発生してしまい、その箇所では上限値をもつ極値になり不連続点になる。除算値スペクトルDiv(j)をそのままフィルタ関数とすると、人間にとって聞き苦しい秘匿化データ6が生成されてしまう。そこで、本発明の実施の形態では、平滑化処理45を行っている。
図8に示すように、平滑化処理45を行うことで、フィルタ関数Fb(j)は、極値が少なく、滑らかな関数となっている。
【0078】
図9は、フィルタリング処理を説明する図である。図9に示すように、フィルタリング処理34は、フーリエ変換処理46、フィルタ関数乗算処理47及びフーリエ逆変換処理48を含む。
前述のブロック分割処理31、周波数解析処理32及びフィルタ関数作成処理33では、実数値に対して計算を行っているが、フィルタリング処理34では、複素数値に対して計算を行う。
【0079】
フーリエ変換処理46は、秘匿化データ生成装置2の制御部21が、音楽フレームデータXl(f、i)及びXr(f、i)(f=F(b)、・・・、F(b+1)−1;i=0、・・・、N−1)をフーリエ変換し、ソース複素スペクトルを算出する処理である。
フィルタ関数乗算処理47は、制御部21が、ソース複素スペクトルにフィルタ関数Fb(j)を乗じ、改変複素スペクトルを算出する処理である。
フーリエ逆変換処理48は、制御部21が、改変複素スペクトルをフーリエ逆変換を行い、秘匿化フレームデータXl‘(f、i)及びXr‘(f、i)(f=F(b)、・・・、F(b+1)−1;i=0、・・・、N−1)を算出する処理である。
【0080】
フーリエ変換処理46では、制御部21は、サンプリング周波数Fsのステレオ音声信号(モノラル信号の場合はXr(f、i)=0とする。)に対して、各々N/2サンプル間隔ごとに(すなわち、N/2サンプル分ずつ重複する。)、N個ずつ、各々Fフレーム抽出したf番目の音楽フレームデータXl(f、i)及びXr(f、i)に対して、ハニング窓関数H(i)=0.5−0.5cos(2πi/N)を用いてフーリエ変換を行い、以下のように、変換データの実部Al(f、j)及びAr(f、j)、並びに、虚部Bl(f、j)及びBr(f、j)(f=F(b)、・・・、F(b+1)−1;i=0、・・・、N−1)を算出する。
【0081】
【数10】
【0082】
フィルタ関数乗算処理47では、制御部21は、Nb個のフィルタ関数Fb(j)を用いて、ブロックbごとに所定の周波数区間[j1、j2]の全ての周波数成分に乗算する。即ち、制御部21は、Nb個のブロック(分割しない場合、b=0、Nb=1)の各ブロックbの各フレームf=F(b)、・・・、F(b+1)、及び、各周波数j=j1、・・・、j2において、次式のように変換を行う。
【0083】
【数11】
【0084】
各フレームfのAl(f、j)、Bl(f、j)、
Ar(f、j)、Br(f、j)の各要素に対してフィルタ関数乗算処理47の結果を各々Al‘(f、j)、Bl’(f、j)、 Ar‘(f、j)、Br’(f、j)とする。
フーリエ逆変換処理48では、制御部21は、変換対象のフレームfの秘匿化フレームデータXl‘(f、i)及びXr‘(f、i)に対して、直前に変換されたフレームf−1の秘匿化フレームデータXl‘(f−1、i)及びXr‘(f−1、i)が存在する場合、両者が時間軸においてN/2サンプル分重複することを考慮し、次式のように計算を行う。
【0085】
【数12】
【0086】
以上、本発明の実施の形態における秘匿化データ生成処理について説明したが、本発明の実施の形態によれば、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる。
特に、本発明の実施の形態では、インフォメーションマスキング手法のように対話音源と同期させながら制御信号を提示する必要がないためリアルタイム信号処理を必要とせず、従来の館内BGMと同様な設備で安価に対話音声の秘匿化を実現できる。また、対話音声の制御に使用する音声・音楽信号として、CM音声を用いれば、BGMを新規な広告メディアとして活用でき、広告主側でBGM再生装置の設置コストを負担する新規な事業モデルを構築できるという効果がある。
【実施例1】
【0087】
次に、図10〜図12を参照しながら、実施例1について説明する。実施例1は、音楽データ5を複数の音楽ブロックに分割しない例である。
図10は、実施例1の音声データを示す図である。図11は、実施例1の音楽データを示す図である。図12は、実施例1のフィルタ関数を示す図である。
【0088】
図10(1)は、音声データ4である。図10(2)は、音声最大値スペクトルVv(j)である。
また、図11(1)は、音楽データ5である。図11(2)は、音楽平均値スペクトルVm(j)である。図11(3)は、秘匿化データ6である。図11(4)は、秘匿化データ6の平均値スペクトルである。
図10(2)の音声最大値スペクトルVv(j)と、図11(4)の秘匿化データ6の平均値スペクトルとを比較すると、関数の形状が略同一となった。関数の形状が略同一ということは、秘匿化データ6が、音声データ4をマスキングする効果が高いことを示している。
【0089】
図12はフィルタ関数である。図11(2)の音楽平均値スペクトルVm(j)に対して、図12のフィルタ関数を乗算することによって、図12(4)の秘匿化データ6の平均値スペクトルが得られた。
図11(2)と図12(4)とを比較すると、高周波数部分のスペクトルがフィルタ関数により抑えられていることが分かる。
【実施例2】
【0090】
次に、図13〜図16を参照しながら、実施例2について説明する。実施例2は、音楽データ5を複数の音楽ブロックに分割する例である。
図13は、実施例2の音楽データを示す図である。図14は、実施例2のブロック1に係るフィルタ関数を示す図である。図15は、実施例2のブロック2に係るフィルタ関数を示す図である。図16は、実施例2のブロック3に係るフィルタ関数を示す図である。
尚、実施例2の音声データ4は、実施例1(図10)と同様である。
【0091】
図13に示すように、実施例2では、ブロック1〜ブロック3の3つの音楽ブロックに分割された。
図14〜図16のフィルタ関数を比較すると、ブロック1のフィルタ関数は、特に目立つ極大値が2つとなった。ブロック2のフィルタ関数は、特に目立つ極大値が3つとなった。ブロック3のフィルタ関数は、特に目立つ極大値が1つ、特に目立つ極小値が1つとなった。このように、3つのフィルタ関数は、強調する部分が大きく異なった。
仮に、図13に示す音楽データ5を複数の音楽ブロックに分割せず、1つのフィルタ関数のみを生成すると、そのフィルタ関数では、マスキング効果が働きにくくなる箇所が生じることになると推察される。
【0092】
以上、添付図面を参照しながら、本発明に係る秘匿化データ生成装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0093】
1………秘匿化装置
2………秘匿化データ生成装置
3………音楽再生装置
4………音声データ
5………音楽データ
6………秘匿化データ
11………音楽ブロック群
12………音声最大値スペクトルデータ
13………音声平均値スペクトルデータ
14………フィルタ関数データ
31………ブロック分割処理
32………周波数解析処理
32a………周波数解析
33………フィルタ関数作成処理
34………フィルタリング処理
41………変移フレーム設定処理
42………変移フレーム解除処理
43………臨界帯域幅補正処理
44………除算処理
45………平滑化処理
46………フーリエ変換処理
47………フィルタ関数乗算処理
48………フーリエ逆変換処理
【特許請求の範囲】
【請求項1】
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
を具備することを特徴とする秘匿化データ生成装置。
【請求項2】
前記フィルタ関数作成手段は、
前記音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、
前記音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、
前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を前記除算値スペクトルDiv(j)とすることを特徴とする請求項1に記載の秘匿化データ生成装置。
【請求項3】
前記フィルタ関数作成手段は、
前記除算値スペクトルDiv(j)を、周波数jの前後の範囲内の平均値に置換することによって、前記除算値スペクトルDiv(j)を平滑化することを特徴とする請求項1又は請求項2に記載の秘匿化データ生成装置。
【請求項4】
スペクトルの変移に基づいて、前記音楽データを、複数のフレームfを含む音楽ブロックに分割するブロック分割手段、
を更に具備し、
前記周波数解析手段は、前記音楽ブロックごとに前記音楽平均値スペクトルVm(b、j)(bはブロック)を算出し、
前記フィルタ関数作成手段は、前記音楽ブロックごとに前記フィルタ関数F(b、j)を作成し、
前記フィルタリング手段は、前記音楽ブロックごとに前記秘匿化データを生成することを特徴とする請求項1乃至請求項3のいずれかに記載の秘匿化データ生成装置。
【請求項5】
前記ブロック分割手段は、
フレームfのスペクトルと、隣接するフレーム(f−1)又は(f+1)のスペクトルと、の差分である第1差分を算出し、前記第1差分が第1閾値を超えているフレームfを変移フレームとして設定する変移フレーム設定手段と、
前記変移フレームの1つを特定フレームとし、前記特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、前記特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、前記左端フレームから前記特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、前記特定フレームから前記右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第2差分を算出し、前記第2差分が第2閾値以下である場合、前記特定フレームを通常のフレームとして設定する変移フレーム解除手段と、
を含み、
前記変移フレーム設定手段によって設定された全ての前記変移フレームに対して、前記変移フレーム解除手段による処理が実行された後、前記変移フレームごとに前記音楽データを前記音楽ブロックに分割するものであることを特徴とする請求項4に記載の秘匿化データ生成装置。
【請求項6】
複数の前記音楽データを記憶する音楽データ記憶手段と、
前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、
を更に具備し、
前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することを特徴とする請求項1乃至請求項5のいずれかに記載の秘匿化データ生成装置。
【請求項7】
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を含むことを特徴とする秘匿化データ生成方法。
【請求項8】
請求項1乃至請求項6のいずれかに記載の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
【請求項9】
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
【請求項10】
請求項7に記載の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
【請求項11】
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
【請求項12】
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、
を実行させるためのコンピュータ読取可能なプログラム。
【請求項13】
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfを周波数次元に変換し、変換された周波数成分V(f、j)に対して前記フィルタ関数Fb(j)を乗じ、更に時間次元に逆変換することで、前記秘匿化データを生成するフィルタリングステップと、
対話音声を秘匿化するための音楽データである秘匿化データを再生する秘匿化データ再生ステップと、
を実行させるためのコンピュータ読取可能なプログラム。
【請求項1】
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
を具備することを特徴とする秘匿化データ生成装置。
【請求項2】
前記フィルタ関数作成手段は、
前記音声最大値スペクトルVv(jc)(jcは特定の周波数)を、周波数jcよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、
前記音楽平均値スペクトルVm(jc)を、周波数jcの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、
前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を前記除算値スペクトルDiv(j)とすることを特徴とする請求項1に記載の秘匿化データ生成装置。
【請求項3】
前記フィルタ関数作成手段は、
前記除算値スペクトルDiv(j)を、周波数jの前後の範囲内の平均値に置換することによって、前記除算値スペクトルDiv(j)を平滑化することを特徴とする請求項1又は請求項2に記載の秘匿化データ生成装置。
【請求項4】
スペクトルの変移に基づいて、前記音楽データを、複数のフレームfを含む音楽ブロックに分割するブロック分割手段、
を更に具備し、
前記周波数解析手段は、前記音楽ブロックごとに前記音楽平均値スペクトルVm(b、j)(bはブロック)を算出し、
前記フィルタ関数作成手段は、前記音楽ブロックごとに前記フィルタ関数F(b、j)を作成し、
前記フィルタリング手段は、前記音楽ブロックごとに前記秘匿化データを生成することを特徴とする請求項1乃至請求項3のいずれかに記載の秘匿化データ生成装置。
【請求項5】
前記ブロック分割手段は、
フレームfのスペクトルと、隣接するフレーム(f−1)又は(f+1)のスペクトルと、の差分である第1差分を算出し、前記第1差分が第1閾値を超えているフレームfを変移フレームとして設定する変移フレーム設定手段と、
前記変移フレームの1つを特定フレームとし、前記特定フレームよりも前の変移フレーム又は先頭フレームを左端フレームとし、前記特定フレームよりも後の変移フレーム又は最終フレームを右端フレームとし、前記左端フレームから前記特定フレームまでの範囲のスペクトルの平均値である左側平均値スペクトルと、前記特定フレームから前記右端フレームまでの範囲のスペクトルの平均値である右側平均値スペクトルと、の差分である第2差分を算出し、前記第2差分が第2閾値以下である場合、前記特定フレームを通常のフレームとして設定する変移フレーム解除手段と、
を含み、
前記変移フレーム設定手段によって設定された全ての前記変移フレームに対して、前記変移フレーム解除手段による処理が実行された後、前記変移フレームごとに前記音楽データを前記音楽ブロックに分割するものであることを特徴とする請求項4に記載の秘匿化データ生成装置。
【請求項6】
複数の前記音楽データを記憶する音楽データ記憶手段と、
前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、
を更に具備し、
前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することを特徴とする請求項1乃至請求項5のいずれかに記載の秘匿化データ生成装置。
【請求項7】
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を含むことを特徴とする秘匿化データ生成方法。
【請求項8】
請求項1乃至請求項6のいずれかに記載の秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
【請求項9】
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化装置であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析手段と、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
【請求項10】
請求項7に記載の秘匿化データ生成方法によって生成する複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
【請求項11】
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
【請求項12】
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfをフーリエ変換し、前記フィルタ関数Fb(j)を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、
を実行させるためのコンピュータ読取可能なプログラム。
【請求項13】
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである音声最大値スペクトルVv(j)(jは周波数)を算出し、前記音楽データの時間軸方向に平均化したスペクトルである音楽平均値スペクトルVm(j)を算出する周波数解析ステップと、
前記音声最大値スペクトルVv(j)に基づく値を前記音楽平均値スペクトルVm(j)に基づく値によって除した値である除算値スペクトルDiv(j)に基づいて、フィルタ関数Fb(j)を作成するフィルタ関数作成ステップと、
前記音楽データを所定の区間単位であるフレームfに分割し、分割された各フレームfを周波数次元に変換し、変換された周波数成分V(f、j)に対して前記フィルタ関数Fb(j)を乗じ、更に時間次元に逆変換することで、前記秘匿化データを生成するフィルタリングステップと、
対話音声を秘匿化するための音楽データである秘匿化データを再生する秘匿化データ再生ステップと、
を実行させるためのコンピュータ読取可能なプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2012−48120(P2012−48120A)
【公開日】平成24年3月8日(2012.3.8)
【国際特許分類】
【出願番号】特願2010−192133(P2010−192133)
【出願日】平成22年8月30日(2010.8.30)
【出願人】(000002897)大日本印刷株式会社 (14,506)
【Fターム(参考)】
【公開日】平成24年3月8日(2012.3.8)
【国際特許分類】
【出願日】平成22年8月30日(2010.8.30)
【出願人】(000002897)大日本印刷株式会社 (14,506)
【Fターム(参考)】
[ Back to top ]