説明

音声処理装置

【課題】ハウリングを防止しつつ、適切なマスカ音を生成する音声処理装置を提供する。
【解決手段】音声解析部13は、入力された音声信号からフォルマントやピッチ等の音声特徴量を抽出する。マスカ音生成部14は、抽出した音声特徴量に基づいて、データベース15に記憶されている音源(汎用マスカ音)を加工し、出力用マスカ音を生成する。汎用マスカ音は、例えば、男性および女性を含む複数人の音声を録音したものであり、語彙的には何ら意味をなさない(会話内容が理解できない)撹乱音が含まれている。マスカ音生成部14は、撹乱音のフォルマントを入力音声信号のフォルマントに一致させる。生成されたマスカ音は、語彙的には何ら意味をなさないものであり、かつ声質や音高は話者と近似している撹乱音が含まれているため、聴取者は、実際の話者の発言内容を理解することが困難となる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、周囲で発生している音声を収音し、収音した音声に基づいて出力する音声を変化させる音声処理装置に関するものである。
【背景技術】
【0002】
従来、周囲で発生している音声を収音して加工し、収音した音声とミキシングしてスピーカから出力することにより、周囲で発生している音声とは異なる音声を聴取者に聞かせるものが提案されている(例えば、特許文献1参照)。これにより、周囲で発生している音声(例えば話者の音声)を聞き取り難くし、話者の音声をマスクすることが可能となる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−118062号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、スピーカから出力された音声が再び収音されると、収音された音声のある周波数成分が増幅されて出力される可能性もあり、ハウリングが発生するおそれがある。また、話者の音声とは異なる音声が収音されると、目的の話者の音声を適切にマスクするマスカ音を出力することができない場合がある。
【0005】
そこで、本発明は、ハウリングを防止しつつ、適切なマスカ音を生成する音声処理装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の音声処理装置は、音声信号を入力する入力部と、入力した音声信号を解析する解析部と、汎用マスカ音を記憶する記憶部と、マスカ音生成部と、マスカ音生成部が生成した出力用マスカ音を出力する出力部と、を備えている。
【0007】
汎用マスカ音とは、どの様な話者であってもある程度マスク効果が期待できるものである。例えば、男性および女性を含む複数人の音声を録音したものであり、語彙的には何ら意味をなさない(会話内容が理解できない)撹乱音が含まれている。聴取者は、このような撹乱音を話者の音声と同時に聞くことで、話者の発言内容を理解することが困難となる。ただし、本人の音声を加工して撹乱音として出力する場合に比べ、マスク効果は低くなる。
【0008】
そこで、本発明のマスカ音生成部は、解析部の解析結果、および前記記憶部に記憶されている汎用マスカ音に基づいて、出力用マスカ音を生成する。例えば、解析部は、入力した音声信号に含まれている話者の音声特徴量(ピッチやフォルマント等)を抽出し、マスカ音生成部は、抽出した話者の音声特徴量に基づいて記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成する。具体的には、記憶部に記憶されている汎用マスカ音のピッチを入力音声信号のピッチに変換したり、汎用マスカ音のフォルマントを入力音声信号のフォルマントに変換(中心周波数を合わせる、帯域幅を合わせる、等)したりする。これにより、実際の話者の声質に近似した声質の撹乱音が出力されるため、汎用マスカ音よりもマスク効果が高くなり、話者の音声を適切にマスクすることができる。また、入力された話者の音声は、解析に用いられるだけであり、話者の音声が増幅等されて出力されることはなく、出力された音声が再び収音されて増幅されることがない(ループ系が形成されない)ため、ハウリングが発生するおそれはない。
【0009】
さらに、入力した音声信号から出力用マスカ音を削減する削減部を備えると、出力された出力用マスカ音が再び収音された場合であっても、話者の音声だけを適切に解析することができる。
【0010】
また、解析結果を所定時間保持する解析結果保持部を備え、マスカ音生成部は、解析部の解析結果と、解析結果保持部に保持されている解析結果を比較し、異なる解析結果が算出された場合に解析部の解析結果に基づく出力用マスカ音の生成を停止する態様としてもよい。
【0011】
この場合、話者の音声とは異なる音声が突発的に入力された場合であっても、出力用マスカ音が大きく変化しない(誤った解析結果が出力用マスク音に反映されない)ため、マスキング効果を安定させることができる。
【発明の効果】
【0012】
この発明によれば、ハウリングを防止しつつ、適切なマスカ音を生成することができる。
【図面の簡単な説明】
【0013】
【図1】サウンドマスキングシステムの構成を示すブロック図である。
【図2】音声信号の周波数特性を示す図である。
【図3】変形例1に係る音声処理装置の構成を示すブロック図である。
【図4】変形例2に係る音声処理装置の構成を示すブロック図である。
【図5】撹乱音と背景音、演出音の対応付けテーブルを示した図である。
【発明を実施するための形態】
【0014】
図1は、本発明の音声処理装置を備えたサウンドマスキングシステムの構成を示すブロック図である。サウンドマスキングシステムは、音声処理装置1、話者2、および聴取者3からなる。音声処理装置1は、話者2の音声を収音し、聴取者3に対して話者2の音声をマスクするマスカ音を放音する。
【0015】
図1において、音声処理装置1は、マイク11、A/D変換部12、音声解析部13、マスカ音生成部14、データベース15、D/A変換部16、およびスピーカ17を備えている。
【0016】
マイク11は、装置周囲で発生する音声(この例では主に話者2の発話音声)を収音する。収音された音声は、A/D変換部12でデジタル音声信号に変換され、音声解析部13に入力される。なお、A/D変換部12におけるサンプリングレートFsは、人の声の主成分が含まれる帯域(例えば10kHz以下)に対応する周波数(例えばFs=20kHz)とすれば十分である。
【0017】
音声解析部13は、入力された音声信号を解析し、音声特徴量を抽出する。音声特徴量は、話者を識別するための指標となる物理パラメータであり、例えばフォルマントやピッチ等からなる。フォルマントは、音声の周波数スペクトル上の複数のピークを示したものであり、声質に影響を与える物理パラメータである。ピッチは、音高(基本周波数)を表す物理パラメータである。聴取者は、2つの音声を聴取したとき、これら2つの音声の声質や音高が近似していれば、これら2つの音声を区別することが困難となる。したがって、スピーカ17から話者2の音声に近似し、かつ異なる内容の音声(例えば語彙的に意味をなさないもの)を撹乱音としてマスカ音に含めて出力すれば、聴取者3は、話者2の発言内容を理解することが困難となり、高いマスク効果が期待できる。
【0018】
そこで、音声解析部13は、まず入力音声信号からピッチを算出する。ピッチは、例えば時間軸上のゼロクロス点(振幅が0となる点)から算出する。また、音声解析部13は、入力音声信号の周波数解析(例えばFFT:高速フーリエ変換)を行い、周波数スペクトルを算出する。そして、音声解析部13は、周波数スペクトルから周波数ピークを検出する。周波数ピークは、周波数スペクトルのなかで、前後の周波数成分よりもレベルが高くなっている周波数成分であり、複数が検出される。ただし、図2(A)に示すように、人の声には非常に微細な周波数ピークが多数含まれるため、包絡成分の周波数ピークだけを抽出する。この周波数ピークがフォルマントとなる。各フォルマントを表すパラメータとしては、中心周波数やレベル、帯域幅(半値幅)等が抽出される。なお、音声特徴量としては、スペクトルの傾斜度等、他の物理パラメータを抽出してもよい。
【0019】
音声解析部13は、以上のようにして抽出した音声特徴量をマスカ音生成部14に出力する。
【0020】
マスカ音生成部14は、入力された音声特徴量、およびデータベース15に記憶されている音源(汎用マスカ音)に基づいて、出力用マスカ音を生成する。具体的には以下の処理を行う。
【0021】
まず、マスカ音生成部14は、データベース15から汎用マスカ音の音声データを読み出す。汎用マスカ音とは、どの様な話者であってもある程度のマスク効果が期待できる汎用的なものである。例えば、男性および女性を含む複数人の音声を録音したものであり、語彙的には何ら意味をなさない(会話内容が理解できない)撹乱音が含まれる。なお、後述のように、汎用マスカ音には、撹乱音の他にも、聴取者の不快感を緩和させるための背景音(川のせせらぎ等)や演出音(鳥の鳴き声等)が含まれていてもよい。データベース15には、汎用マスカ音の音声データとして、撹乱音や背景音、演出音等の周波数軸上の音声信号(または時間軸上の音声信号でもよい。)が記憶されている。
【0022】
マスカ音生成部14は、音声解析部13から入力された音声特徴量に基づいて、読み出した汎用マスカ音のうち、撹乱音に係る音声データを加工する。例えば、読み出した撹乱音のピッチを、入力音声信号のピッチに変換する。この場合、撹乱音の基本周波数成分を、入力音声信号の基本周波数成分に一致させるように周波数シフトする。
【0023】
また、図2(B)に示すように、撹乱音の各フォルマント成分を、入力音声信号のフォルマント成分に一致させる。例えば同図(B)において、撹乱音の第1フォルマント、第2フォルマントおよび第3フォルマントは、入力音声信号の第1フォルマント、第2フォルマントおよび第3フォルマントよりもそれぞれ中心周波数が低いため、高域側にシフトする処理を行う。また、第2フォルマントについては、入力音声信号のレベルよりも高いレベルを有するため、レベルを下げる処理を行う。さらに、第3フォルマントについては、入力音声信号のレベルよりも低いレベルを有するため、レベルを上げる処理を行うとともに、入力音声信号のレベルよりも帯域幅が広いため、帯域幅を狭くする処理も行う。また、第4フォルマントについては低域側にシフトする処理を行うとともに、帯域幅を広くする処理も行う。なお、同図の例では第1フォルマント乃至第4フォルマントについて加工する処理を示したが、加工するフォルマントの次数はこの例に限るものではない。例えば、さらに高次のフォルマント成分を加工してもよい。
【0024】
なお、音声特徴量にスペクトルの傾斜度等の他のパラメータが含まれる場合には、これらのパラメータに基づいてさらに撹乱音の音声データを加工する。
【0025】
マスカ音生成部14は、以上のようにして撹乱音を加工することで出力用マスカ音を生成する。生成された出力用マスカ音は、D/A変換部16でアナログ音声信号に変換され、スピーカ17から放音され、聴取者3に聴取される。
【0026】
このようにしてスピーカ17から放音されたマスカ音は、語彙的には何ら意味をなさないものであり、かつ声質や音高は話者2と近似した撹乱音が含まれているため、聴取者3は、話者2の音声とともに同じような声質や音高で意味の理解できない音声を聞くことになり、実際の話者2の発言内容を抽出して理解することが困難となる。
【0027】
また、このような撹乱音は、声質や音高が話者2に近似しているため、低い音量であってもマスク効果が高く、聴取者3がマスカ音を聞くことによる不快感を低減することができる。さらに、上述のように、背景音(川のせせらぎ等)や演出音(鳥の鳴き声等)の音声データをデータベース15に記憶しておき、出力用マスカ音に含めて出力することにより、より不快感を低減するような態様も可能である。
【0028】
さらに、上記のマスカ音は、入力音声信号に基づいて新たに生成された音声であるため、入力音声信号が増幅して出力されたものではなく、スピーカから放音された音声がマイクに入力され、再び放音されるようなループ系が形成されることはなく、ハウリングが発生するおそれはない。したがって、本実施形態に示すサウンドマスキングシステムでは、マイクやスピーカの配置関係を考慮する必要なく、どの様な設置環境においても安定したマスカ音を出力することができる。
【0029】
また、音声解析部13において抽出されるフォルマント等の音声特徴量は、人の声に特有の物理パラメータであるため、人の声以外の音から抽出することはほとんどない。したがって、装置周囲で発生する環境音(例えばエアコンのノイズ等)によってマスカ音が変化するおそれは低く、安定して適切なマスカ音を生成することができる。
【0030】
なお、上記実施形態においては、データベース15に1種類の撹乱音を記憶しておく例を示したが、フォルマントやピッチの異なる複数種類の撹乱音をデータベース15に記憶しておく態様も可能である。この場合、入力音声信号の音声特徴量に最も近い撹乱音を選択して読み出し、加工して(あるいは加工しないで)出力用マスカ音を生成することにより、演算量を抑えることもできる。
【0031】
また、上記実施形態においては、撹乱音が常に出力される例として説明したが、撹乱音は常に出力される必要はない。例えば話者2が発話していない状態においては撹乱音を出力する必要がないため、音声解析部13において音声特徴量を抽出できなかったときは撹乱音の出力を停止してもよい。
【0032】
また、マスカ音は、連続的に発生する音声と、断続的に発生する音声とを組み合わせてもよい。例えば、話者2が発話していない状態で、音声解析部13において音声特徴量を抽出できなかったときは、データベース15に記憶されている撹乱音をそのまま出力用マスカ音として出力し、話者2が発話し、音声解析部13において音声特徴量を抽出できたときには、撹乱音を加工した出力用マスカ音を出力する。これにより、聴取者3がマスカ音に慣れ、実際の話者2の音声を聞き分けてしまう状態(いわゆるカクテルパーティ効果)を防止することができる。
【0033】
また、連続的に発生する音声として撹乱音と小川のせせらぎ等の背景音とを用い、断続的に発生する音声として鳥の鳴き声等の演出音を用いる態様であってもよい。例えば、撹乱音と背景音については連続的に出力し、演出音については所定のタイミングで断続的に出力する。このとき、背景音については、所定時間分の録音データ(実際の小川のせせらぎを録音したもの等)を繰り返し連続再生し、演出音については、同じく所定時間分の録音データ(実際の鳥の鳴き声を録音したもの等)をランダムあるいは一定時間毎(環境音の繰り返しタイミングに合わせる等)に再生する。この場合も、聴取者3に聞こえる音が常時同じ音にならないため、カクテルパーティ効果を防止することができる。さらに、連続的に発生する音声と断続的に発生する音声の組み合わせは、以下のような応用例も可能である。
【0034】
図5は、撹乱音と背景音、演出音の対応付けテーブルを示した図である。このテーブルは、データベース15に記憶され、マスカ音生成部14が読み出すものである。同図の例では、フォルマントやピッチの異なる複数種類の撹乱音をデータベース15に記憶しておく態様として説明する。
【0035】
同図(A)に示すように、対応付けテーブルには、データベース15に記憶されている各撹乱音と背景音、演出音の組み合わせが記載されている。例えば、撹乱音Aには、背景音A(例えば小川のせせらぎとする。)、演出音A(例えば鳥の鳴き声とする。)が対応づけられている。各撹乱音には、マスク効果が高い背景音や演出音が対応づけられていることが望ましい。
【0036】
この場合、マスカ音生成部14は、入力音声信号の音声特徴量に最も近い撹乱音(例えば撹乱音A)を選択して読み出すとともに、さらにテーブルを参照して、対応づけられている背景音(例えば背景音A)と演出音(例えば演出音A)を選択して読み出す。これにより、入力音声信号に適した撹乱音と背景音が連続的に再生され、演出音が断続的に再生される。
【0037】
さらに、同図(B)に示すように、各撹乱音に対応付けられる背景音や演出音は1つに限るものではない。例えば、同図(B)のように、撹乱音Aについては、背景音Aおよび演出音Aの組み合わせの他にも、背景音Aおよび演出音Bの組み合わせや、背景音Bおよび演出音Bの組み合わせが対応付けテーブルに記載されている。撹乱音Bについては、背景音Bおよび演出音Bの組み合わせの他にも、背景音Cおよび演出音Cの組み合わせが対応付けテーブルに記載されている。
【0038】
この場合、音声処理装置1にユーザ操作用のインタフェースを設け、マスカ音生成部14は、ユーザによる手動選択を受け付け、受け付けた背景音と演出音の組み合わせを選択して読み出す態様とすればよい。また、時間帯、季節、場所等によって自動選択される態様であってもよい。例えば午前中は背景音Aおよび演出音A(川のせせらぎ+鳥の鳴き声)が選択される態様や、夏の午後は背景音Aおよび演出音B(川のせせらぎ+セミの鳴き声)が選択される態様、海に近い場所では背景音B(さざ波音等)が選択される態様、等である。この場合、音の変化がさらに多様化するため、より適切にカクテルパーティ効果を防止することができる。
【0039】
また、同図(C)に示すように、各音の音量比についてもテーブルに記載されていてもよい。なお、同図に示す音量比の数値は、相対的な値を示したものであり、実際の音量値(dB)を表したものではない。
【0040】
例えば、撹乱音Aについては、音量100に対し、背景音Aが音量50、演出音Aが音量10の音量比として記載されている。したがって、マスカ音生成部14は、背景音Aを撹乱音Aの半分程度の音量とし、演出音Aを撹乱音Aの1/10程度の音量としたマスカ音を出力する。また、同図(C)に示す撹乱音A、背景音B、演出音Bの組み合わせのように、演出音の音量を0とし、演出音を出力しない、という態様も可能である。このように、入力音声信号によって発生する背景音や演出音が変化する態様に加え、音量も変化させることができる。
【0041】
また、上述のように、音声処理装置1にユーザ操作用のインタフェースを設ける場合、ユーザから組み合わせの内容や音量比の指定を受け付け、テーブルの記載内容を変更できるようにしてもよい。
【0042】
さらに、本実施形態に示した音声処理装置は、以下のような変形例も可能である。
【0043】
図3は、変形例1に係る音声処理装置の構成を示すブロック図である。なお、同図においては、図1に示した音声処理装置と同一の構成については、同一の符号を付し、その説明を省略する。
【0044】
図3に示す変形例1に係る音声処理装置1は、図1に示した音声処理装置と同様の構成に加えて、削減部18を備えている。
【0045】
削減部18は、いわゆるエコーキャンセラであり、マイク11から入力された音声信号(A/D変換後の信号)のエコー成分を削減する処理を行う。これにより、音声解析部13には、装置周囲で発生する音声(話者の音声)だけが入力されることになり、音声特徴量の抽出精度を向上することができる。
【0046】
削減部18のエコーキャンセルの態様はどの様な態様であってもよいが、例えばスピーカ17からマイク11に至る音響伝達系の伝達特性を模擬した適応型フィルタを用いて出力用マスカ音をフィルタ処理し、マイク11から減算処理することでエコー成分を削減する。
【0047】
ただし、本実施形態では、上述したように、入力音声信号がループしてマイクに入力される系が存在しないため、音声解析部13において、単に出力用マスカ音の成分を除去(無視)して音声特徴量を抽出すればよい。この場合、適応型フィルタは不要である。
【0048】
図4は、変形例2に係る音声処理装置の構成を示すブロック図である。同図においても、図1に示した音声処理装置と同一の構成については、同一の符号を付し、その説明を省略する。
【0049】
図4に示す音声処理装置1は、バッファ19を備えている。バッファ19は、音声解析部13からマスカ音生成部14に入力された音声特徴量を所定時間保持する解析結果保持部に相当する。
【0050】
マスカ音生成部14は、音声解析部13から入力される最新の音声特徴量と、バッファ19に保持されている過去の音声特徴量とを比較し、異なる音声特徴量が算出された場合には、最新の音声特徴量に基づく出力用マスカ音の生成処理を停止し、バッファ19に保持されている過去の音声特徴量に基づいて出力用マスカ音を生成する。この場合、突発的に話者2以外の発話音声が入力された場合であっても、出力用マスカ音が大きく変化しない(誤った音声特徴量が出力用マスク音に反映されない)ため、マスキング効果を安定させることができる。
【0051】
なお、実際の話者が変わって異なる音声特徴量が抽出された場合、所定時間が経過した後も新たな話者の音声特徴量が抽出されるため、バッファ19に保持される音声特徴量が新たな話者の音声特徴量に更新され、再び音声解析部13から入力される最新の音声特徴量と、バッファ19に保持されている過去の音声特徴量と、が一致することになる。そのため、所定時間経過後は、適切なマスカ音を生成することができる。
【符号の説明】
【0052】
1…音声処理装置
2…話者
3…聴取者
11…マイク
12…A/D変換部
13…音声解析部
14…マスカ音生成部
15…データベース
17…スピーカ

【特許請求の範囲】
【請求項1】
音声信号を入力する入力部と、
入力した音声信号を解析する解析部と、
汎用マスカ音を記憶する記憶部と、
前記解析部の解析結果、および前記記憶部に記憶されている汎用マスカ音に基づいて、出力用マスカ音を生成するマスカ音生成部と、
前記出力用マスカ音を出力する出力部と、
を備えた音声処理装置。
【請求項2】
前記解析部は、前記入力した音声信号の音声特徴量を抽出し、
前記マスカ音生成部は、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する請求項1に記載の音声処理装置。
【請求項3】
前記入力した音声信号から前記出力用マスカ音を削減する削減部を備えた請求項1または請求項2に記載の音声処理装置。
【請求項4】
前記解析結果を所定時間保持する解析結果保持部を備え、
前記マスカ音生成部は、前記解析部の解析結果と、前記解析結果保持部に保持されている解析結果を比較し、異なる解析結果が算出された場合に、前記解析部の解析結果に基づく前記出力用マスカ音の生成を停止する請求項1乃至請求項3のいずれかに記載の音声処理装置。
【請求項5】
前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる請求項1乃至請求項4のいずれかに記載の音声処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−88577(P2012−88577A)
【公開日】平成24年5月10日(2012.5.10)
【国際特許分類】
【出願番号】特願2010−236019(P2010−236019)
【出願日】平成22年10月21日(2010.10.21)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】