説明

音声信号処理装置、方法、プログラム、及び記録媒体

【課題】2チャネル分の音声信号に対し、任意に指定された方向の音像のみを分離・増圧することが可能な音声信号処理装置を提供する。
【解決手段】音声信号処理装置(音声信号処理部20で例示)は、入力音声信号を2つのチャネル間の相関信号と無相関信号とに分離する信号分離部(信号分離抽出部23で例示)と、信号分離部で分離された信号に対し、所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる相関信号増加部(相関信号処理部24及びゲイン調整部25bで例示)とを備え、複数のスピーカによって合成される音像群のうち所定の空間的範囲に合成される音像のみを増圧する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のスピーカで再生するための音声信号を処理する音声信号処理装置、方法、プログラム、及び記録媒体に関する。
【背景技術】
【0002】
従来から、音声または楽音コンテンツに含まれる音源を分離し、ある特定の音源だけを取り出すという技術の研究が行われている。特定の音源だけを取り出すことができれば、注目する特定の音声のみを聴くということや、楽器の練習や採譜のために、楽曲に含まれる特定の楽器音だけを聴くということが可能となる。
【0003】
従来から提案されている音響再生方式には、ステレオ(2ch)方式、5.1chサラウンド方式(ITU−R BS.775−1)、7.1ch、9.1ch、22.2chなどがあるが、現在、音声や楽音コンテンツとして最も普及しているチャネル数は2ch(ステレオ)方式である。したがって、そこから特定の音声や楽器音のみを取り出す技術は非常に有用である。
【0004】
このような2ch方式から特定の音声や楽器音のみを取り出す技術として、特許文献1,2に記載の技術が提案されている。特許文献1に記載の音響再生装置では、ボーカル成分の分離に関し、各チャネルについて、人間の声の周波数特性を利用し、例えばバイスペクトル分析により楽器音から分離している。特許文献2に記載の装置では、中央に定位する音像の信号を強調するために、左右チャネルの音声信号をそれぞれ複数の周波数帯域に分割し、帯域毎にパワーの絶対値の比を計算する。そして、その比が1に近い場合には、その帯域の音声信号は、中央に定位する音像に関する信号であると見做して左右の音声信号を加算する。加算される2つの音声信号の位相が揃っている例えば中央定位するボーカル音声信号などの場合には、振幅が約2倍になり、強調されて聞こえるというものである。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】実開平5−60100号公報
【特許文献2】特開2004−343590号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載の技術では、人間の声の周波数特性を利用して音声の分離を行っているが、人間の声の周波数特性が近い楽器音などの音声信号も多数存在するため、そのような音声信号が人間の声とともに含まれている場合、この分離方法で音声のみを取り出すことは技術的に困難である。また、この方法は、取り出す対象が音声(人の声)を示す信号であることに特化したものであり、同じ方法で特定の楽器音を取り出すことは困難である。楽器毎に周波数特性は様々であり、周波数特性が似ている音同士を周波数分析のみにて分離することは困難であることはよく知られている。
【0007】
また、特許文献2に記載の技術では、左右の音声信号の周波数帯域毎のパワーの絶対値の比を基に中央の音像の成分を強調しているが、分離したい音声や楽器音などが常に中央に定位するとは限らない。コンテンツによっては中央よりも左右どちらかのスピーカ寄りの方向にボーカルの音像が定位するものも数多く存在するし、一般的に合奏形態の楽器音の音は、中央には定位せず左右どちらかのスピーカ寄りの方向に定位するように記録されてあるものが多い。また、特許文献2に記載の技術では、中央定位の音像について強調処理のみ施すものであるが、上述した注目する特定の音声や楽器音のみを聴くという目的に対しては、音声信号を分離する必要があり、強調のみでは不十分である。
【0008】
このように、特許文献1,2をはじめとする従来の技術では、ステレオ記録された音声または楽音コンテンツに対し、任意の方向に音像が定位する特定の音声または楽音を示す信号を分離し、取り出して増圧する(抽出する)ことができない。
【0009】
本発明は、上述のような実状に鑑みてなされたものであり、その目的は、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号に対し、任意に指定された方向の音像のみを分離・増圧することが可能な音声信号処理装置、方法、プログラム、及び記録媒体を提供することにある。
【課題を解決するための手段】
【0010】
上述したような課題を解決するために、本発明の第1の技術手段は、複数のスピーカによって合成される音像群のうち所定の空間的範囲に合成される音像のみを増圧する音声信号処理装置であって、入力音声信号を2つのチャネル間の相関信号と無相関信号とに分離する信号分離部と、該信号分離部で分離された信号に対し、前記所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる相関信号増加部とを備えたことを特徴としたものである。
第2の技術手段は、第1の技術手段において、前記信号分離部で分離された信号に対し、前記所定の空間的範囲に合成される音像に関わる無相関信号中の成分を減少させる無相関信号減少部をさらに備えたことを特徴としたものである。
【0011】
第3の技術手段は、第1または第2の技術手段において、前記相関信号増加部における増加の度合いを変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って、前記増加の度合いを示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴としたものである。
第4の技術手段は、第3の技術手段において、前記ユーザインタフェースは、前記相関信号増加部における増加の度合いを周波数帯域毎に変更するユーザ操作を受け付け可能に構成されており、前記パラメータ制御部は、前記ユーザインタフェースで受け付けられたユーザ操作に従って、前記増加の度合い及び変更の対象となった周波数帯域を示すパラメータを変更することを特徴としたものである。
【0012】
第5の技術手段は、第2の技術手段において、前記無相関信号減少部における減少の度合いを変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って、前記減少の度合いを示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴としたものである。
第6の技術手段は、第5の技術手段において、前記ユーザインタフェースは、前記無相関信号減少部における減少の度合いを周波数帯域毎に変更するユーザ操作を受け付け可能に構成されており、前記パラメータ制御部は、前記ユーザインタフェースで受け付けられたユーザ操作に従って、前記減少の度合い及び変更の対象となった周波数帯域を示すパラメータを変更することを特徴としたものである。
【0013】
第7の技術手段は、第1〜第6のいずれか1の技術手段において、前記所定の空間的範囲を変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って前記所定の空間的範囲を示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴としたものである。
【0014】
第8の技術手段は、第3〜第7のいずれか1の技術手段において、前記ユーザインタフェースは、前記所定の空間的範囲に合成される音像に関わる相関信号中の成分の量を可視化して表示することを特徴としたものである。
第9の技術手段は、第8の技術手段において、前記ユーザインタフェースは、前記所定の空間的範囲に合成される音像に関わる相関信号中の成分の量を周波数帯域毎に可視化して表示することを特徴としたものである。
【0015】
第10の技術手段は、第3〜第9のいずれか1の技術手段において、前記ユーザインタフェースは、前記所定の空間的範囲に合成される音像に関わる無相関信号中の成分の量を可視化して表示することを特徴としたものである。
第11の技術手段は、第10の技術手段において、前記ユーザインタフェースは、前記所定の空間的範囲に合成される音像に関わる無相関信号中の成分の量を周波数帯域毎に可視化して表示することを特徴としたものである。
【0016】
第12の技術手段は、複数のスピーカによって合成される音像群のうち所定の空間的範囲に合成される音像のみを増圧する音声信号処理方法であって、信号分離部が、入力音声信号を2つのチャネル間の相関信号と無相関信号とに分離する分離ステップと、相関信号増加部が、前記分離ステップで分離された信号に対し、前記所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる増加ステップと、を有することを特徴としたものである。
【0017】
第13の技術手段は、コンピュータに、複数のスピーカに出力するための入力音声信号を、2つのチャネル間の相関信号と無相関信号とに分離する分離ステップと、該分離ステップで分離された信号に対し、所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる増加ステップと、を実行させるためのプログラムである。
第14の技術手段は、第13の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0018】
本発明によれば、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号に対し、中央の音像だけでなく、中央以外に定位するボーカルや楽器音など全ての音像に対して、任意に指定された方向の音像のみを、分離・増圧することが可能になる。
【図面の簡単な説明】
【0019】
【図1】本発明に係る音声信号処理装置を備えた音声データ再生装置の一構成例を示すブロック図である。
【図2】図1の音声データ再生装置における音声信号処理部の一構成例を示すブロック図である。
【図3】図2の音声信号処理部において音声データをバッファに蓄える様子を示す図である。
【図4】受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図である。
【図5】図1のユーザインタフェース制御部により表示デバイスに表示させるグラフィカルユーザインタフェース(GUI)画面の一例を示す図である。
【図6】図5のGUI画面におけるスライダに対応する、受聴者と音像の方向との位置関係の例を説明するための模式図である。
【図7】図2の後処理部に入力される音声信号の波形例を示す図である。
【図8】図7の音声信号の一部を拡大した図である。
【図9】左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。
【図10】図2の後処理部で施される不連続点除去処理の一例を説明するための模式図である。
【図11】図8の音声信号に対し、図10の不連続点除去処理を施した結果を示す図である。
【図12】図1のユーザインタフェース制御部により表示デバイスに表示させるGUI画面の他の例を示す図である。
【図13】図1のユーザインタフェース制御部により表示デバイスに表示させるGUI画面の他の例を示す図である。
【図14】図1のユーザインタフェース制御部により表示デバイスに表示させるGUI画面の他の例を示す図である。
【図15】図1のユーザインタフェース制御部により表示デバイスに表示させるGUI画面の他の例を示す図である。
【図16】図1のユーザインタフェース制御部により表示デバイスに表示させるGUI画面の他の例を示す図である。
【発明を実施するための形態】
【0020】
本発明に係る音声信号処理装置は、2つの音声信号から任意に指定された方向の音像のみを分離して抽出することが可能な装置であって、音声信号抽出処理装置などとも呼べ、音声データ再生装置に組み込むことができる。なお、音声信号とは、当然、いわゆる音声を記録した信号に限ったものではなく、音響信号とも呼べる。
【0021】
以下、図面を参照しながら、本発明に係る音声信号処理装置の構成例及び処理例について説明する。図1は、本発明に係る音声信号処理装置を備えた音声データ再生装置の一構成例を示すブロック図で、図2は、図1の音声データ再生装置における音声信号処理部の一構成例を示すブロック図である。また、図3は、図2の音声信号処理部において音声データをバッファに蓄える様子を示す図である。
【0022】
図1で例示する音声データ再生装置10は、デコーダ11、音声信号抽出部12、音声信号処理部13、D/Aコンバータ14、増幅器15、スピーカ16、パラメータ制御部17、ユーザインタフェース制御部18、表示デバイス19a、及び入力デバイス19bから構成される。本発明に係る音声信号処理装置は、主に音声信号処理部13で構成され、好ましい構成例ではパラメータ制御部17、ユーザインタフェース制御部18、表示デバイス19a、及び入力デバイス19bを備える。
【0023】
デコーダ11は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部12に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図1では図示しないが、音声データ再生装置10は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ11は、ここで入力されたディジタルコンテンツを復号化することになる。音声信号抽出部12では、得られた信号から音声信号を分離、抽出する。ここではそれは2chステレオ信号とする。その2チャネル分の信号を音声信号処理部13に出力する。
【0024】
ユーザインタフェース制御部18では、ユーザが例えば表示デバイス19aに表示するGUI(Graphical User Interface)を介し、入力デバイス19bであるマウスやキーボード、タッチパネル、あるいはボタン操作などによって入力した入力信号を取得し、パラメータ制御部17に出力する。パラメータ制御部17では入力された信号を、音声信号処理部13での処理に関するパラメータ群に変換し、それらを音声信号処理部13に出力する。
【0025】
音声信号処理部13は、概略的に説明すると、得られた2チャネル信号を、相関信号と無相関信号に分離し、相関信号について、パラメータ制御部17から入力されたパラメータ群を用いて成分毎の増圧度合を調整する。なお、増圧度合とは、抽出(ピックアップ)する度合い、信号成分を増加させる度合いを指す。また、音声信号処理部13は、無相関信号について、抑圧の度合を調整できる構成とすることが好ましい。そして、音声信号処理部13は、そのような調整の結果として得られた音声信号を、D/Aコンバータ14に出力する。D/Aコンバータ14では得られた信号をアナログ信号に変換し、左右それぞれの信号を増幅器15に出力する。各増幅器15では入力されたアナログ信号を拡声し各スピーカ16に伝送し、各スピーカ16から空間中に音として出力される。
【0026】
図1における音声信号処理部13の詳細な構成を、図2を参照しながら説明する。本発明に係る音声信号処理装置は、複数のスピーカによって合成される音像群から所定の空間的範囲に合成される音像のみを増圧する(抽出して増幅する)ための装置である。なお、増圧する音像は、概念的に一つの音像として取り扱っているが、当然、音像群として定義付けることもできる。そのために、本発明に係る音声信号処理装置(音声信号処理部20で例示)は、次の信号分離部及び相関信号増加部を備える。図2で例示する音声信号処理部20は、前処理部21、離散フーリエ変換部22、信号分離抽出部23、相関信号処理部24、ゲイン調整部25a,25b,25c、合成部26、離散フーリエ逆変換部(逆離散フーリエ変換部)27、そして後処理部28から構成される。
【0027】
前処理部21では音声データを読み込み、窓関数演算を行う。離散フーリエ変換部22ではその信号を時間領域の表現から周波数領域の表現に変換する。上述した信号分離部は、入力音声信号を2つのチャネル間の相関信号と無相関信号とに分離する部位であり、相関信号抽出部とも言え、信号分離抽出部23で例示できる。信号分離抽出部23では、音声信号を相関信号と左右チャネルそれぞれから分離される無相関信号に分離する。相関信号処理部24は、相関信号の合成音像の方向に基づいて合成音像の増圧度合を決定する。ゲイン調整部25a,25b,25cは、左チャネル無相関信号、相関信号、右チャネル無相関信号それぞれについてスケーリング処理(ゲイン係数乗算処理)を行う。そうして、増圧処理がなされた相関信号と左右の無相関信号を左右チャネルに再び割り当てる。
【0028】
合成部26は、ゲイン調整部25a,25b,25cからの出力を、チャネル毎に全て合成し、チャネル毎の再割り当て後の信号として、離散フーリエ逆変換部27に出力する。なお、合成部26は、3つの音声信号を加算処理(つまり重ね合わせ処理)するため、加算部あるいは重ね合わせ部とも言える。離散フーリエ逆変換部27は、入力されたスケーリング後の音声信号を再び時間領域に戻し、後処理部28へ出力する。後処理部28は、ノイズ除去を施して信号を図1のD/Aコンバータ14に出力する。
【0029】
以下、音声信号処理部20における各部について、具体的な処理例を説明する。
まず、前処理部21は、1セグメントの半分の長さの音声データを、図1における音声信号抽出部12から読み出す。ここで、音声データとは、例えば48kHzなどの標本化周波数で標本化された2チャネルの離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとする。その値は例えば1024とする。この例では、1セグメントの半分の長さである512点の音声データが読み出し対象となる。
【0030】
読み出した512点の音声データは図3で例示するようなバッファ30に蓄えられる。このバッファは、直前の1セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて1セグメント分の音声データを作成し、その信号に対し、窓関数演算を行う。すなわち、全ての標本データは窓関数演算に2回読み込まれることになる。
【0031】
窓関数演算では、従来提案されている次のHann窓を1セグメント分の音声データに乗算する。
【数1】

ここで、mは自然数、Mは1セグメント長で偶数とする。ステレオの入力信号をそれぞれx(m)、x(m)とすると、窓関数乗算後の音声信号x′(m)、x′(m)は、
【0032】
x′(m)=w(m)x(m) 、
x′(m)=w(m)x(m) (2)
と計算される。このHann窓を用いると、例えば標本点m(ただし、M/2≦m<M)の入力信号x(m)にはsin((m/M)π)が乗算される。そして、その次の回の読み込みではその同じ標本点がm−M/2として読み込まれるので、
【0033】
【数2】

が乗算される。ここで、sin((m/M)π)+cos((m/M)π)=1であるから、もし、何も修正を加えずに読み込んだ信号を半セグメントずつずらして加算すれば、元の信号が完全に復元されることになる。
【0034】
離散フーリエ変換部22について説明する。離散フーリエ変換部22は、そうして得られた音声データを次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る。ここで、DFTは離散フーリエ変換を表し、kは自然数で、0≦k<Mである。X(k)、X(k)は複素数となる。
(k)=DFT(x′(n)) 、
(k)=DFT(x′(n)) (3)
【0035】
次に、信号分離抽出部23での処理について説明する。まず、得られた周波数領域の音声データを小さい帯域に分割する。分割方法についてはEquivalent Rectangular Band(ERB)を用い、ERBの帯域幅で0Hzから標本化周波数の1/2の周波数までの間を分割する。ここで、ERBにより、与えられた周波数の上限fmax[Hz]までをいくつに分割するか、すなわちERBで分割した各帯域の索引の最大値Iは次式によって与えられる。
I=floor(21.4log10(0.00437fmax+1)) (4)
ただし、floor(a)はフロア関数で、実数aを越えない整数の最大値を表す。
【0036】
そして、それぞれのERB幅の帯域(以下、小帯域)の中心周波数F(i)(1≦i≦I)[Hz]は次式によって与えられる。
【数3】

【0037】
また、その時のERBの帯域幅b(i)[Hz]は次式によって求められる。
(i)=24.7(0.00437F(i)+1) (6)
よって、その中心周波数から低域側と高域側にそれぞれERB/2の周波数幅だけシフトすることによりi番目の小帯域の両側の境界周波数F(i)、F(i)を求めることができる。したがって、i番目の小帯域には、K(i)番目の線スペクトルからK(i)番目の線スペクトルが含まれる。ここで、K(i)、K(i)はそれぞれ次の数式(7)、(8)で表される。
(i)=ceil(21.4log10(0.00437F(i)+1)) (7)
(i)=floor(21.4log10(0.00437F(i)+1)) (8)
ただし、ceil(a)は天井関数で、実数aより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばX(0)を除いて、M/2(ただし、Mは偶数)を境に対称となっている。すなわち、X(k)とX(M−k)は0<k<M/2の範囲で複素共役の関係になる。したがって、以下ではK(i)≦M/2の範囲を分析の対象として考え、k>M/2の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。
【0038】
これらの具体例を示す。例えば、標本化周波数が48000Hzの場合、I=49となり、49の小帯域に分割することとなる。ただし、直流成分は分割の対象とせず、どの小帯域にも含まないこととする。なぜならば、以下の方式では左右チャネルの正規化相関係数を求めるが、直流成分は複素数の実部しか持たないために正規化相関係数が1となるため、左右チャネルの直流成分が全て相関係数に割り当てられるという不適当な処理になってしまうからである。また、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。
【0039】
次に、このようにして決定される各小帯域において、左チャネルと右チャネルの正規化相関係数を次式で求めることで、相関係数を取得する。
【数4】

【0040】
この正規化相関係数d(i)は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、0から1の間の実数の値をとる。全く同じ信号同士であれば1、そして全く無相関の信号同士であれば0となる。ここで、左右のチャネルの音声信号の電力P(i)とP(i)の両方が0である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、P(i)とP(i)のいずれか片方が0である場合、数式(9)では演算不可能であるが、正規化相関係数d(i)=0とし、その小帯域の処理を続行する。
【0041】
次に、信号分離抽出部23は、この正規化相関係数d(i)を用いて、左右チャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め、それぞれの変換係数を用いて、左右チャネルの音声信号から相関信号と無相関信号を分離抽出する。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。
【0042】
ここで、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号x(n)、x(n)は、
(m)= s(m)+n(m)、
(m)=αs(m)+n(m) (13)
と表される。ここで、s(m)は左右の相関信号、n(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、n(m)は右チャネルの音声信号から相関信号s(m)を減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。
【0043】
数式(13)により、数式(2)で前述した窓関数乗算後の音声信号x′(m)、x′(m)は、次の数式(14)で表される。ただし、s′(m)、n′(m)、n′(m)はそれぞれs(m)、n(m)、n(m)に窓関数を乗算したものである。
x′(m)=w(m){ s(m)+n(m)}= s′(m)+n′(m)、
x′(m)=w(m){αs(m)+n(m)}=αs′(m)+n′(m)
(14)
【0044】
数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、S(k)、N(k)、N(k)はそれぞれs′(m)、n′(m)、n′(m)を離散フーリエ変換したものである。
(k)= S(k)+N(k)、
(k)=αS(k)+N(k) (15)
【0045】
したがって、i番目の小帯域における音声信号X(i)(k)、X(i)(k)は、
(i)(k)= S(i)(k)+N(i)(k)、
(i)(k)=α(i)(i)(k)+N(i)(k)
ただし、K(i)≦k≦K(i) (16)
と表現される。ここで、α(i)はi番目の小帯域におけるαを表す。以後、i番目の小帯域における相関信号S(i)(k)、無相関信号N(i)(k)、N(i)(k)をそれぞれ、
(i)(k)=S(k)、
(i)(k)=N(k)、
(i)(k)=N(k)
ただし、K(i)≦k≦K(i) (17)
とおくこととする。
【0046】
数式(16)から、数式(12)の音圧P(i)とP(i)は、
(i)=P(i)+P(i)
(i)=[α(i)(i)+P(i) (18)
と表される。ここで、P(i)、P(i)はi番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、
【数5】

と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。
【0047】
また、数式(10)〜(12)より、数式(9)は、
【数6】

と表すことができる。ただし、この算出においてはS(k)、N(k)、N(k)が互いに直交し、かけ合わされたときの電力は0と仮定している。
【0048】
数式(18)と数式(20)を解くことにより、次の式が得られる。
【数7】

【0049】
これらの値を用いて、各小帯域における相関信号と無相関信号を推定する。i番目の小帯域における相関信号S(i)(k)の推定値est(S(i)(k))を、媒介変数μ、μを用いて、
est(S(i)(k))=μ(i)(k)+μ(i)(k) (23)
とおくと、推定誤差εは、
ε=est(S(i)(k))−S(i)(k) (24)
と表される。ここで、est(A)はAの推定値を表すものとする。そして二乗誤差εが最少になるとき、εとX(i)(k)、X(i)(k)はそれぞれ直交するという性質を利用すると、
E[ε・X(i)(k)]=0 、 E[ε・X(i)(k)]=0 (25)
という関係が成り立つ。数式(16)、(19)、(21)〜(24)を利用すると、数式(25)から次の連立方程式が導出できる。
(1−μ−μα(i))P(i)−μ(i)=0
α(i)(1−μ−μα(i))P(i)−μ(i)=0
(26)
【0050】
この数式(26)を解くことによって、各媒介変数が次のように求まる。
【数8】

ここで、このようにして求まる推定値est(S(i)(k))の電力Pest(S)(i)が、数式(23)の両辺を二乗して求まる次の式
est(S)(i)=(μ+α(i)μ(i)+(μ+μ)P(i) (28)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′(A)はAの推定値をスケーリングしたものを表す。
【0051】
【数9】

【0052】
そして、i番目の小帯域における左右チャネルの無相関信号N(i)(k)、N(i)(k)に対する推定値est(N(i)(k))、est(N(i)(k))はそれぞれ、
est(N(i)(k))=μ(i)(k)+μ(i)(k) (30)
est(N(i)(k))=μ(i)(k)+μ(i)(k) (31)
とおくことにより、上述の求め方と同様にして、媒介変数μ〜μは、
【0053】
【数10】

と求めることができる。このようにして求めた推定値est(N(i)(k))、est(N(i)(k))も上述と同様に、次の式によってそれぞれスケーリングする。
【0054】
【数11】

【0055】
以上のように、信号分離抽出部23は、上記変換係数として、数式(27)、(32)、(33)で示した各媒介変数μ〜μ及び数式(29)、(34)、(35)で示したスケーリングの係数で構成される変換係数を用いて、演算(数式(23)、(30)、(31))により推定することで、相関信号と無相関信号(右チャネルの無相関信号、左チャネルの無相関信号)とを分離抽出し、このようにして分離された信号を出力する。出力について具体的に説明すると、信号分離抽出部23は、左チャネルより分離された無相関信号est′(N(i)(k))を左チャネル用のゲイン調整部25aに出力し、右チャネルより分離された無相関信号est′(N(i)(k))を右チャネル用のゲイン調整部25cに出力し、両チャネルより分離された相関信号est′(S(i)(k))を相関信号処理部24に出力する。
【0056】
相関信号処理部24では、上述したように、相関信号からある特定の音像を抽出するための増圧の度合(ゲインに相当)を決定するが、その前処理として、小帯域毎に推定した相関信号によって生成される合成音像の方向を推定する。この推定処理について、図4に基づき説明する。図4は、受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図である。
【0057】
いま、図4に示す位置関係40のように、受聴者から左右のスピーカ41L,41Rの中点にひいた線と、同じく受聴者43からいずれかのスピーカ41L/41Rの中心までひいた線がなす見開き角をθ、受聴者43から推定合成音像42の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ41L,41Rから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像42の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている(以下、立体音響におけるサインの法則と呼ぶ)。
【0058】
【数12】

【0059】
よって、i番目の小帯域における相関信号の合成音像の方向θ(i)は次式によって求められる。ここで、θは予め決定しておく数値で、例えばθ=π/6[rad]などとしてよい。
【数13】

【0060】
次に、このようにして方向が推定された相関信号が、増圧すべき信号であるかどうかを判断する。ここではその判断に際し、例えばデフォルト値などに基づき自動的に判断する場合を説明する。
【0061】
上述した相関信号増加部は、信号分離抽出部23で分離された信号に対し、所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる部位であり、相関信号処理部24及びゲイン調整部25bで例示できる。相関信号中の成分とは、この例で言うと相関信号のi番目の成分(小帯域iについての相関信号)を指す。以下、しばしば、相関信号中の成分の増加を単に相関信号の増加と呼ぶ。相関信号増加部における処理は、デフォルト値に基づく処理であっても、ユーザインタフェースによるユーザ操作に基づいて設定したパラメータを用いた処理と同様であり、後述するユーザ操作に基づいた具体例を援用すれば理解できるため、省略する。音声信号処理部20は、このような構成により、所定の空間的範囲に合成される音像を増圧することができる。
【0062】
また、本発明に係る音声信号処理装置は、次の無相関信号減少部を備えることが好ましい。この無相関信号減少部は、信号分離抽出部23で分離された信号に対し、所定の空間的範囲に合成される音像に関わる無相関信号中の成分を減少させる。無相関信号中の成分とは、この例で言うと無相関信号のi番目の成分(小帯域iについての無相関信号)を指す。以下、しばしば、無相関信号中の成分の減少/増加を単に無相関信号の減少/増加と呼ぶ。音声信号処理部20では、この無相関信号減少部をゲイン調整部25a,25cで例示している。無相関信号減少部における処理は、デフォルト値に基づく処理であっても、ユーザインタフェースによるユーザ操作に基づいて設定したパラメータを用いた処理と同様であり、後述するユーザ操作に基づいた具体例を援用すれば理解できるため、省略する。音声信号処理部20は、このような構成により、所定の空間的範囲に合成される音像を増圧することができるだけでなく、その音像の増圧についての受聴者の相対的な受聴感を、無相関信号の減少により高めることができる。
【0063】
なお、音声信号処理装置は、無相関信号減少部の他に、同じ無相関信号中の成分を逆に増加させる無相関信号増加部を備えてもよい。所定の空間的範囲に合成される音像を増圧することができるだけでなく、その音像の増圧についての受聴者の相対的な受聴感を、この無相関信号増加部によって無相関信号を増加させて調整すること、すなわち相関信号の増圧を防ぐように調整することができる。但し、この調整(無相関信号の増圧)は、相関信号の増加による増圧の影響が受聴者にとって分からないようになるまで行うことのないように構成しておくとよい。そのために、例えば、相関信号の増加分を超えさせないようなリミッターを設けておくか、若しくはユーザインタフェース画面にそのリミットラインの表示を行っておけばよい。
【0064】
以下、デフォルト値の代わりに、より好ましい例として、方向が推定された相関信号が増圧すべき信号であるかどうかを、ユーザが入力した値に基づいて判断する場合を挙げて、相関信号の増加による所定の空間的範囲の増圧や、無相関信号の減少(または増加)による所定の空間的範囲に合成される音像のうち無相関信号についての抑圧・減圧(または増圧)について、説明する。
【0065】
まず、図1におけるユーザインタフェースとパラメータ制御部17について、図5及び図6を参照しながら詳細に説明する。図5は、図1のユーザインタフェース制御部18により表示デバイス19aに表示させるグラフィカルユーザインタフェース(GUI)画面の一例を示す図で、図6は、図5のGUI画面におけるスライダに対応する、受聴者と音像の方向との位置関係の例を説明するための模式図である。以下に説明するユーザインタフェースは、表示デバイス19a、入力デバイス19b、及びユーザインタフェース制御部18でなり、以下に説明するようなユーザインターフェースの各種処理は、ユーザインタフェース制御部18が表示デバイス19a及び/または入力デバイス19bを制御することで施される。
【0066】
図5で例示するGUI画面50は、ユーザインタフェース制御部18が、表示デバイス19aに表示する画面の一例を示したものである。GUI画面50には、フォルダの一覧であるフォルダリスト51が、一覧中のフォルダがユーザ選択可能(つまり入力デバイス19bによりユーザ選択可能)な状態で表示されている。フォルダリスト51に含まれるフォルダ51aはユーザに選択されてハイライト表示されているフォルダであり、このフォルダ51aの中に含まれているファイルの一覧がユーザ選択可能な状態で、ファイルリスト52として表示されている。フォルダリスト51では、選択されるフォルダが変更するたびに、ハイライト表示は対象フォルダ51aに移動し、その選択されたフォルダ51aに含まれるファイルがファイルリスト52に表示される。
【0067】
GUI画面50には、コンテンツ再生制御のための各種操作ボタン59a〜59eがユーザ操作可能に表示されている。ボタン59aはユーザが選択したコンテンツ52aの再生中に、曲の先頭まで戻すボタンのシンボルである。ボタン59bはその再生中に、押下している間だけ、曲の再生を巻き戻すボタンのシンボルである。ボタン59cはユーザが選択したコンテンツ52aの再生を開始するためのボタンのシンボルである。ボタン59dはその再生中に、押下している間だけ、曲の再生を早送りするボタンのシンボルである。ボタン59eはその再生中に、次の曲の先頭まで進めるボタンのシンボルである。
【0068】
また、GUI画面50には、左チャネルから分離される無相関信号の位置を表すシンボル53L、右チャネルから分離される無相関信号の位置を表すシンボル53R、並びに左右チャネルから分離される相関信号の位置を表すシンボル55aが表示されている。また、GUI画面50にはこれらの位置を相対的に示すためのスライダ54も表示されており、シンボル53L,53Rはスライダ54の両端に、シンボル55aはスライダ54のいずれかの位置に表示されている。
ここでスライダ54は、左チャネルから右チャネルにかけての空間を表すシンボルであり、その両端を左右スピーカに見立てたとき、シンボル55aの位置を含む抽出対象範囲の方向の音声信号(つまりその方向の相関信号)を増圧するという意味を表している。
シンボル55aは、ユーザによるドラッグ操作などすることによって、その位置を左右に移動させることができるようになっている。その際、シンボル55bとシンボル55cとはその幅を保ってシンボル55aとともに移動する。その稼働範囲は、スライダ54の右端にシンボル55cの右端が達するところから、スライダ54の左端にシンボル55bの左端が達するところまでである。
【0069】
シンボル55bは、増圧する範囲である抽出対象範囲(上記所定の空間的範囲)の左側の幅を表すシンボルであり、ユーザの操作などによって、具体的にはシンボル55bの左端をドラッグ操作などすることによってシンボル55bの幅が変化する。シンボル55cは、抽出対象範囲の右側の幅を表すシンボルであり、シンボル55bと同様、ユーザの操作などによってその幅を変化させることができる。シンボル55cまたはシンボル55bの幅が変更された場合、シンボル55bの左端とシンボル55cの右端の中点を中心とするようにシンボル55aは再配置される。
また、シンボル56a、シンボル56bは、スライダ54のうちシンボル55a〜55cを除く領域のうち、それぞれ左側の領域を示すシンボル、右側の領域を示すシンボルであり、シンボル55a〜55cの移動によってそれらの幅は変わり、無くなることもある。
【0070】
このように、シンボル55aの移動操作により抽出対象範囲における中心位置を変更することが可能になっており、また、シンボル55bまたはシンボル55cの移動操作により抽出対象範囲における幅を変更することが可能になっている。このように、ユーザインタフェースは、抽出対象範囲(つまり上記所定の空間的範囲)を変更するユーザ操作を受け付け可能に構成しておくことが好ましい。ユーザ操作を受け付けるとは、その操作を受け付けるための画面を表示デバイス19aで表示させるとともに、入力デバイス19bで受け付け可能にしておくことを指す。後述する相関信号や無相関信号に関する度合などのユーザ操作も受け付け可能に構成しておいてもよいが、抽出対象範囲だけ変更操作受付可能に構成しておいてもよい。パラメータ制御部17は、ユーザインタフェースで受け付けられたユーザ操作に従って抽出対象範囲を示すパラメータを変更する。これにより、音像を増圧させる抽出対象範囲をユーザが任意に設定することができる。なお、パラメータ制御部17におけるパラメータの変更や、その変更されたパラメータに基づく図1の音声信号処理部13(図2の音声信号処理部20)での処理例については後述する。
【0071】
シンボル57は、左右チャネルから分離される相関信号の増加の程度(増加の度合い、つまり相関信号を増加させる度合いであって増圧の度合いに対応する)を表すシンボルである。シンボル57の上部に表示されている四角形はツマミを表すシンボルであり、ユーザの操作などによって上下に動く。このように、ユーザインタフェースは、相関信号増加部(相関信号処理部24及びゲイン調整部25b)における増加の度合いを変更するユーザ操作を受け付け可能に構成することが好ましい。そして、パラメータ制御部17は、ユーザインタフェースで受け付けられたユーザ操作に従って、増加の度合いを示すパラメータを変更する。例えばパラメータとしては1より大きい値とし、1より大きくなるに連れて増加の度合いが大きくなるようにすればよい。これにより、相関信号の増加の度合い(増圧の度合い)を設定することができる。以下、増加の度合いを変更するのは主に相関信号処理部24で行い、ゲイン調整部25bではその増加の度合いに対応したゲイン係数を乗算するだけであるため、相関信号増加部の処理を相関信号処理部24の処理として説明する。
【0072】
シンボル58Lは、左チャネルから分離される無相関信号の減少の度合いを表すシンボルである。上部に表示されている四角形はツマミを表すシンボルであり、ユーザの操作などによって上下に動く。シンボル58Rは、右チャネルから分離される無相関信号の減少の度合いを表すシンボルである。上部に表示されている四角形はシンボル58Lのそれと同様、ユーザの操作などによって上下に動く。このように、ユーザインタフェースは、上述した無相関信号減少部における減少の度合いを変更するユーザ操作を受け付け可能に構成しておくことが好ましい。以下、無相関信号の減少の度合いを変更するのは主にゲイン調整部25a,25cで行うため、無相関信号減少部の処理をゲイン調整部25a,25cの処理として説明する。パラメータ制御部17は、ユーザインタフェースで受け付けられたユーザ操作に従って、減少の度合いを示すパラメータを変更する。例えばパラメータとしては0より大きい値とし、1より小さい場合に減少(0に近い程、減少度合が大きい)とすればよい。また、無相関信号増加部も併せて設ける場合には無相関信号減少部と同様にゲイン調整部25a,25cの処理に含めることができ、上記パラメータが1の場合には増減無し、1より大きい場合には増加(大きくなるに連れて増加度合が大きい)ようにすればよい。これにより、無相関信号の減少/増加の程度(つまり、抑圧または増圧の度合い)を設定することができる。
【0073】
また、これらのユーザ操作を双方受付可能に構成しておくことが好ましい。つまり、ユーザインタフェースは、相関信号処理部24における増加の度合いを変更するユーザ操作とゲイン調整部25a,25cにおける減少(または増減)の度合いを変更するユーザ操作とを受け付け可能なように構成しておくことが好ましい。パラメータ制御部17は、ユーザインタフェースで受け付けられたユーザ操作に従って、相関信号の増加の度合いを示すパラメータと無相関信号の減少(または増減)の度合いを示すパラメータとを変更する。
【0074】
このGUI画面50の表示からユーザが相関信号の増圧などの処理を行う手順を説明する。まず、このGUI画面50は、例えばユーザがソフトウェアプログラムを実行することによって表示される。もしくはコンテンツの記録媒体の装着によって自動的に表示させてもよい。また、最初の状態では、例えばシンボル55a,55b,55c,57は表示されていなくてもよい。その場合、ユーザはスライダ54上の任意の点を例えばマウスでクリックすることによって、シンボル55a,55b,55c,57が現れる。シンボル51には本装置の内部記憶装置あるいは外部記憶メディアなどに存在するフォルダが表示され、ユーザはフォルダをマウスクリックなどによって選択するとそのフォルダがハイライト表示される。ハイライト表示されたフォルダに含まれるコンテンツ一覧(ファイルリスト52)に表示される。ユーザは再生したい曲を選択すると、その曲がハイライト表示される。なお、コンテンツ再生中もGUI画面50は表示し続けてよい。
【0075】
例えば選択した曲が、右側にピアノの音、中央にドラム、左側にベースが録音されているとする。そしてユーザは右側のピアノの音をピックアップしたいとする。したがってユーザはスライダ54の上、シンボル55aを表示させたい、すなわち増圧したい範囲の辺りをマウスでクリックし、シンボル55a,55b,55c,57を表示させる。実際、人間は、水平方向の音像定位についての精度は優れており、またカクテルパーティ効果と呼ばれるような特定方向の音像聞き分け能力も備えているため、楽器毎に音像を分けているようなミキシング方法でステレオ録音された音源であれば、たいていの人がその楽器がどの方向から聞こえるかを容易に当てることができる。そのため、ピックアップしたい範囲をユーザが把握することは可能である。
【0076】
そして、シンボル55aをマウスでドラッグすることにより位置を調整・変更する。次に、シンボル57のツマミを上下させ、増加の度合いを決定する。シンボル57のツマミの値は、シンボル57を表示させたタイミング及びシンボル57の位置を上下させたタイミングで図1のパラメータ制御部17に出力される。ここではその増加の度合いが0から10の11段階あるとして、そのうちの10に決定するとする。さらに、抽出対象範囲を示すシンボル55b,55cの、シンボル55aと反対側の端をマウスでドラッグするなどにより幅を変更する。シンボル55bの左端のGUI上の位置座標の水平方向成分(以下、y座標値)は、シンボル55bを表示させたタイミング及びシンボル55bの幅を変更したタイミングでパラメータ制御部17に出力される。同様に、シンボル55cの右端のy座標値は、シンボル55cを表示させたタイミング及びシンボル55cの幅を変更したタイミングでパラメータ制御部17に出力される。
【0077】
また、左右チャネルの無相関信号の減少の度合いはそれぞれシンボル58Lとシンボル58Rのツマミを上下することによって同様に変更できる。ここではその減少の度合いが0から10の11段階で、0の方が減少度合いが高いとしており、またピアノの音のみをピックアップすることを例にしているため、左右チャネルの無相関信号の減少の度合いを示す値を0にしている。なお、無相関信号増加部も併せて設ける場合には、シンボル58Lとシンボル58Rのツマミを上下することによって、それぞれ左右チャネルの無相関信号の増減の度合いを変更できるように構成しておいてもよい。例えば、図5の例のように増減の度合いが0から10の11段階あるとすると、5が増減させず、5未満で無相関信号を減少させ、5より大きくすると無相関信号を増加させるなどとすればよい。ここではピアノの音のみをピックアップすることを例にしているため、左右チャネルの無相関信号の減少の度合いを示す値を0にしているが、例えば、代わりに5にして無相関信号を増減させなくてもよい。
【0078】
シンボル58Lのツマミが表す値は、初期化のタイミング及びシンボル58Lのツマミを上下させたときのタイミングでパラメータ制御部17に出力される。同様に、シンボル58Rのツマミが表す値は、初期化のタイミング及びシンボル58Rのツマミを上下させたときのタイミングでパラメータ制御部17に出力される。
【0079】
抽出対象範囲及び増圧の度合いや無相関信号の減圧(または増圧)の度合いなどが設定され、それらの設定の情報がパラメータ制御部17に入力されたときに、どのように調整がなされるかについて説明する。
図1におけるパラメータ制御部17では、ユーザインタフェース制御部18から入力された値を音声信号処理部13で必要となるパラメータに変換する。具体的には以下に示す変換を行う。
【0080】
まずシンボル55bの左端のy座標値をここでyとし、スライダ54の左端のy座標値を−y、スライダ54の右端のy座標値をyとする。ここで、yの値は予め設定されているとする。そして、図6の位置関係60に示すようにyを受聴者からの見開き角φに変換する。なお、位置関係60において、シンボル61、シンボル62a、シンボル62b、シンボル62cは、それぞれ図5におけるシンボル54、シンボル55a〜55c、シンボル56a、シンボル56bに相当する。図6において、下式(38)が成り立ち、θは上述のように予め設定してあるので、φが求まる。
【数14】

次に、シンボル55cの右端のy座標値をyとすると、同図に示すようにyに対する受聴者からの見開き角φも、上と同様にして求めることができる。
【0081】
ここで、θやyの決め方について補足する。θについては、式(36)に示すサインの法則が、θ=30°=π/6[rad]の条件下で主観的実験によって求められたものであり、式(36)を用いるにあたってはそれが好ましい値となる。ただし、開き角度が変わってもこの法則が適用できることは容易に想像できる。なお、このθの値は、中間変数として用いているだけであり、例えばユーザのスピーカ配置の間隔に応じて変化するものではない。また、yについては、GUIを実装するときのソフトウェアの座標系のスケールに応じて決めればよく、スピーカの配置間隔とは関係がない。
【0082】
次にシンボル57のツマミの値を、図1の音声信号処理部13(図2の音声信号処理部20)で使用する、相関信号の増加の度合いを表すためのゲイン値に変換する。ツマミの値をrとし、変換後の抽出ゲイン値をr′とすると、例えばツマミの上下を聴感上の音量の度合い(音量レベル)に比例させるために、次の数式(39)を用いるなどしてもよい。ここで、κは0を含む自然数であり、例えば10や0などとする。
【数15】

【0083】
このようにして、r′を求める。なお、r′として採用したい定義域とツマミの段階数とに基づき、κや係数(この例では4/20)を決めておけばよい。また、左右チャネルの無相関信号の減少(及び増加)の度合いを表すゲイン値r′、r′も上と同様にして求める。パラメータ制御部17は以上のように、音声信号処理部13に必要なパラメータを算出し、音声信号処理部13に出力する。
この状態で、図5のGUI画面50においてボタン59cをユーザがマウスクリックなどによって押すと、ボタン59cは例えば「一時停止」を表すシンボルに変わるとともに、選択した曲が再生され始める。
【0084】
ここで、音声信号処理部20における処理の説明に戻る。前述したように、相関信号のうち、どの部分を増加させるかについて、パラメータ制御部17で算出したパラメータに基づいて決定する。その具体的方法を以下に述べる。
【0085】
まず、数式(37)で求めた小帯域毎の相関信号の音像の方向θ(i)が、抽出対象範囲(つまり上記所定の空間的範囲)に含まれるかどうかに基づき、相関信号を抽出するためのゲインg(i)を以下のように決定する。
【数16】

すなわち、小帯域毎の相関信号の音像の方向が、抽出対象範囲に含まれていれば抽出ゲイン値としてユーザが設定した値を使用し、含まれていなければ0とする。本発明において相関信号の抽出は相関信号の増加のためであり、そのため、r′>1である。
【0086】
次に、そのようにして抽出した相関信号を左右チャネルに振り分ける。その振り分け方法については再び数式(36)として利用した立体音響におけるサインの法則を用いる。左チャネルに対するスケーリング係数をg、右チャネルに対するスケーリング係数をgとしたとき、左チャネルからはg・g(i)・est′(S(i)(k))、右チャネルからはg・g(i)・est′(S(i)(k))の音声信号を出力することになる。そして、g、gは立体音響におけるサインの法則により、
【数17】

を満たせばよい。
【0087】
ここで、左右チャネルからの出力の電力の合計が、元の相関信号の電力と等しくなるようにg、gを正規化すると、
+g=1+[α(i) (42)
となる。
【0088】
これらを連立させることで、
【数18】

と求められる。この数式(40)に上述のθ(i)、θを代入することによって、g、gを算出する。このようにして算出したスケーリング係数に基づき、上述したように左チャネルにはg・g(i)・est′(S(i)(k))の音声信号を、右チャネルにはg・g(i)・est′(S(i)(k))の音声信号を割り当てる。
【0089】
次に左右の無相関信号を、再び左右チャネルに割り当てる。すなわち、左チャネルにはr・est′(N(i)(k))を、右チャネルにはr・est′(N(i)(k))を割り当てる。よって、左チャネルにはg・g(i)・est′(S(i)(k))とr・est′(N(i)(k))が割り当てられ、右チャネルにはg・g(i)・est′(S(i)(k))とr・est′(N(i)(k))が割り当てられることになる。
【0090】
以上のようにして、i番目の小帯域における、左右チャネルの相関信号と無相関信号の抽出処理後の再割り当てが行われる。これを全ての小帯域について行う。この再割り当ては、左チャネルについて、ゲイン調整部25a,25b,25cによりゲインとスケーリング係数が乗算されることで割り当てられた信号を合成部26で合成し、右チャネルについて、ゲイン調整部25a,25b,25cによりゲインとスケーリング係数が乗算されることで割り当てられた信号を合成部26で合成することでなされる。その結果、左右チャネルに対する周波数領域の出力音声信号Y(k)、Y(k)が求まり、合成部26はそれらの信号を離散フーリエ逆変換部27に出力する。
【0091】
そして、離散フーリエ逆変換部27において、各チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号y′(m)、y′(m)が求まる。ここで、DFT−1は離散フーリエ逆変換(逆離散フーリエ変換)を表す。
y′(m)=DFT−1(Y(k))
y′(m)=DFT−1(Y(k)) (44)
ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号y′(m)、y′(m)も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、1つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
【0092】
次に、後処理部28について説明する。後処理部28はノイズ除去処理を行う。図7及び図8を参照して、ノイズ除去の対象となるノイズについて説明する。図7は、図2の後処理部28に入力される音声信号の波形例を示す図で、図8は、図7の音声信号の一部を拡大した図である。図8に示す音声信号80は、音声信号70における9秒付近を拡大したものであるが、音声信号80は中央付近81にあるように不連続点が生じている。このような不連続点は、信号分離抽出部23を経ることにより後処理部28に入力されるデータに多数含まれてしまうため、それらが再生時に耳障りなノイズとして知覚されてしまうことになる。このような不連続点は、この音声信号処理方式が相関信号を求める際に直流成分を無視して処理するため、すなわち直流成分の線スペクトルを考慮しないために生じる。
【0093】
図9はそれを模式的に示した波形のグラフである。より詳細には、図9は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図9に示すグラフ90において、横軸は時間を表しており、例えば(M−2)(l)という記号は、l番目のセグメントのM−2番目の標本点であることを示している。グラフ90の縦軸は、それらの標本点に対する出力信号の値である。このグラフ90から分かるように、l番目のセグメントの最後から(l+1)番目のセグメントの最初にかけての部分で不連続点が生じてしまう。
【0094】
この問題に対し、ノイズ除去処理を行う。この処理は、波形の不連続点をなくすことによってノイズを除去できる方法であればどのようなものでもよいが、ここでは図10及び図11を参照して、図9で説明したような問題を解決するためのこのような処理の一例について具体的に説明する。図10は、図2の後処理部28で施される不連続点除去処理の一例を説明するための模式図でで、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。また、図11は、図8の音声信号に対し、図10の不連続点除去処理を施した結果を示す図である。
【0095】
後処理部28で施される不連続点除去処理の例では、図10のグラフ100で図9のグラフ90に対する除去例を示すように、l番目のセグメントの最後の波形の微分値と(l+1)番目のセグメントの先頭の微分値が一致するようにする。具体的には後処理部28が、l番目のセグメントの最後の2点による傾きが維持されるような(l+1)番目のセグメントの先頭の値となるよう、(l+1)番目のセグメントの波形に直流成分(バイアス)を加える。その結果、処理後の出力音声信号y″(m)は、
y″(m)=y′(m)+B (45)
となる。Bはバイアスを表す定数であり、1回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図10のグラフ100のように波形が連続するように決定される。
【0096】
このように、後処理部28は、処理セグメントの境界において波形の微分値を維持させるように離散フーリエ逆変換後の音声信号(相関信号またはそれから生成された音声信号)に直流成分を加算することで、不連続点を除去することが好ましい。なお、この例ではマイナスのバイアスをかけているが、当然、上記微分値を一致させるためにはプラスのバイアスをかける場合もある。また、後処理部28で処理対象となる離散フーリエ逆変換後の音声信号は、各数式で例示したように、相関信号または相関信号及び無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、そのスケーリング処理後の音声信号とする。つまり、相関信号や無相関信号に対しスケーリング処理を施し、スケーリング処理後の相関信号や無相関信号に対し、不連続点の除去を行う。
【0097】
また、図10で説明した不連続点除去処理のみでは、バイアス成分が蓄積してしまい、波形の振幅がオーバフローしてしまうことがある。
したがって、次式のように、加算するバイアス成分(直流成分)の振幅の大きさを時間的に減少させることにより収束させることが好ましい。なお、「時間的に減少させる」とは、加算時点からの経過時間、例えば処理セグメント毎の開始点や不連続点の開始点からの経過時間に比例して減少させることを意味する。
y″(m)=y′(m)+B×((M−mσ)/M) (46)
ただし、σはその減少の程度を調整するパラメータであり、例えば0.5などとする。なお、減少のためにはB,σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値(直流成分の振幅の大きさ)に応じて変更する(変化させる)ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。
【0098】
よって、例えばバイアス値がある一定(所定値)以上の値になった場合には、数式(46)の第二項のバイアス項を加算しないようにする処理を安全弁の機能として加えてもよい。つまり、後処理部28は、加算するために求めた直流成分の振幅が所定値未満である場合のみ、直流成分の加算を実行する(不連続点の除去を実行する)ことが好ましい。この方法を採用することにより、バイアス成分が蓄積しないようになる。
【0099】
また、例えば音声の子音部分など、音声信号がホワイトノイズに近いような場合、音声信号波形の変化が激しく元の波形が既に不連続に近いような状態になっているものがある。このような音声信号に上述した不連続点除去処理を適用すると、逆に波形を歪ませてしまう場合もある。つまり、元の波形が不連続に近いような状態の音声信号に対し、上述した不連続点除去処理を適用すると、この処理がそのような元々不連続の状態に近い波形を無理矢理連続にしようとするため、逆に波形を歪ませてしまう可能性がある。
【0100】
この問題を解消するために、後処理部28では次に示す方法で不連続点除去処理(ノイズ除去処理)を行うことが好ましい。それは、音声の子音部分など信号がホワイトノイズに近いような場合、入力音声信号の波形が所定時間内(例えば処理セグメント内やその半分内)で0を交差する回数が、その他の部分に比べて極端に増加することを利用する。なお、0をどこに採るようにするかは任意に決めておけば済む。よって、出力音声信号(少なくとも離散フーリエ逆変換後の音声信号)が半セグメント長の中で0を交差する回数をカウントし、それが一定の値(所定回数)以上である場合には、その次のセグメントを所定回数以上存在する箇所とみなし、その次のセグメント処理において、数式(45)や数式(46)における右辺第二項のバイアス項を加算しないこととする。つまり、それ以外の箇所でのみ不連続点除去処理を実行する。なお、カウントは、セグメント境界とは関係なく一定時間の音声波形について実行してもよいし、複数のセグメント処理分の音声波形について実行してもよく、いずれの場合にもそのカウント結果から次のセグメント処理でバイアス項を加算するか否かを決めればよい。
【0101】
図8の音声信号80における不連続点の箇所(中央付近81)は、上述したようなノイズ除去処理により、図11の音声信号110で示す通り、不連続点が解消され連続になっていることが分かる。このように不連続点を無くし、ノイズを除去できる。
【0102】
以上の一連の処理を、ユーザが選択した曲のデータ(あるいは音声付き映像コンテンツにおける音声データ)に対してリアルタイムに施すことにより、ユーザが再生開始ボタン59cを押すと、ユーザが特定した方向にある音像のみを抽出することができる。そしてこれは、従来の方式のように、ボーカルなど、通常中央に定位する音像を抽出するだけでなく、中央以外に定位するボーカルや楽器音など全ての音像に対して、任意に指定された方向の音像のみを抽出することが可能となる。
例えば、上述した右側の音(ピアノの音)が、例えば図5のシンボル55aの位置から聞こえてくるものであるとして、シンボル57のようにツマミを上げ、シンボル58L、シンボル58Rの無相関信号のツマミは下げている状態を考える。この場合、ピアノの音の左右の音圧バランスは元の信号から変えず、シンボル55cとシンボル55bの幅から決定される区間に含まれる音像が増圧され、その音像以外が全て抑圧されることにより、相対的にピアノの音だけがより抽出されて聞こえる。
【0103】
また、ユーザは、相関信号の増加の度合いを高めに設定してから、スライダ54において抽出対象範囲を左右移動や拡大または縮小させてその領域の音圧を増幅させながら聴取することで、実際に増圧させて聴取したい抽出対象範囲でに合致したシンボル55aやシンボル55b,55cを選択し、そのまま引き続き再生を行うこともできる。
【0104】
以上説明したように、本発明によれば、ステレオ記録された音声または楽音コンテンツなどに含まれる2チャネル分の音声信号に対し、中央の音像だけでなく、中央以外に定位するボーカルや楽器音など全ての音像に対して、任意に指定(デフォルト指定も含む)された方向の音像のみを、分離・増圧することが可能になる。つまり、ある特定の音像のみを増圧することが可能になる。
【0105】
次に、図12〜図16を参照しながら、GUI画面の他の例及びそのGUI画面に基づき設定される音声信号処理について説明する。図12〜図16は、それぞれ、図1のユーザインタフェース制御部18により表示デバイス19aに表示させるGUI画面の他の例を示す図である。なお、図12〜図16において、図5中のシンボルが示す部位と同じ部位には同じシンボルで示し、その説明を省略する。
【0106】
図12で例示するGUI画面120は、ある特定の方向に複数の音像が定位する場合に、そのうち1つの音像のみを増圧するための設定画面である。例えばある特定の方向に、ボーカルの音像とベースの音像が存在する場合について、ボーカルのみをピックアップすることを考える。この場合、図5のGUI画面50での設定及びその設定に基づく増圧処理を施すと、その両方の音像がピックアップされてしまう。このような場合でも、以下に説明する方法を採用することで、例えばボーカルのみをピックアップすることができる。
【0107】
ユーザが図5のGUI画面50を用いて各値を設定するところまでは、図5等を参照しながら説明したような方法と同じである。ここで、ボーカルとベースでは音声信号が含まれる周波数帯域が一般的に異なり、ベースの方が、より低い帯域の信号を多く含む。この例のように同じ方向に定位される複数の音像間で、このように周波数帯域が異なる場合は、その性質を利用してさらに細かい増圧制御を試みることができる。
【0108】
ユーザは例えば、図5のGUI画面50におけるシンボル55aにマウスのカーソルを合わせダブルクリックするなどの方法により、図12のGUI画面120に示すようなサブ画面121を表示させる。このサブ画面121では、ユーザが増圧処理を施したい抽出対象範囲において、どのように周波数帯域毎に増圧するかを設定できる。サブ画面121には、下段に複数のシンボル122が並んでいる。シンボル122は、シンボル57と同様に上下させることができるツマミを表現するシンボルであり、それぞれは上述した小帯域を表すものとしている。各シンボル122のそれぞれの初期値はシンボル57で設定されている値で統一しておけばよい。ここで、ツマミの数については、上述した小帯域の数だけこのツマミを並べてもよいし、いくつかの小帯域毎にまとめて1つのツマミで制御してもよい。
【0109】
さらにサブ画面121には、上段の枠にシンボル123が表示されている。シンボル123は、各ツマミの設定状況を棒グラフで表示させたものである。あるいは、図5等を参照しながら説明したように、上述した処理方式では処理の過程で離散フーリエ変換により各小帯域の音声信号が求められるので、例えば1つ前のセグメント処理時の数式(19)で表される電力P(i)を、数式(37)のθ(i)とともに保持しておき、シンボル55cとシンボル55bにより設定される抽出対象範囲内に入る合成音像を対象に、小帯域毎の電力の和をとった値に、現在ツマミで設定されている値を例えば数式(39)で求められるゲイン値r′の二乗をかけ合わせた値を棒グラフの値として表示するなどしてもよい。このような情報を表示すると、ユーザは抽出対象範囲内における小帯域毎の出力が視覚的に観測でき、さらにツマミの設定値が反映されるため、それを見て確かめながら各帯域をどれくらい抽出するかを決定することができる。
【0110】
さらに、このサブ画面121の表示中も、ユーザはシンボル55c、シンボル55bの幅を変更することができるようにすると、その結果がリアルタイムで棒グラフの値として反映されるので、ユーザは各小帯域の出力を視覚的に確認しながら抽出対象範囲を変更することができる。さらに、同じくサブ画面表示中にシンボル55aの位置も水平方向に移動できるようにし、それに応じてサブ画面121も移動させるようにすると、これも同様の理由で、ユーザは各小帯域の出力を視覚的に確認しながら増圧の方向を変更することができる。
【0111】
また、左右チャネルの無相関信号に対しても、シンボル53Lあるいはシンボル53Rをマウスクリックなどすることにより上述のサブ画面121と同様のサブ画面を表示することができる。その場合、棒グラフの値として使用するのは、1つ前のセグメント処理時の数式(19)で表される電力P(i)を保持しておき、小帯域毎の電力の和をとった値に、現在ツマミで設定されている値を例えば数式(39)で求められるそれぞれのゲイン値r′、r′の二乗をかけ合わせた値を棒グラフの値として表示するなどしてもよい。
【0112】
この例では、ボーカルの音のみを増圧したいので、シンボル122で図示したように、中高域に対応するいくつかのツマミを上げる、もしくは低域に対応するいくつかのツマミを下げるようにする。その結果、図5等を参照しながら説明した方法と同じようにそれぞれの小帯域に対してゲインr′(i)を数式(39)と同様に求める。これより、相関信号を抽出するためのゲインg(i)を以下のように決定する。
【数19】

すなわち、小帯域毎の相関信号の音像の方向が、抽出対象範囲に含まれていれば抽出ゲイン値としてユーザが小帯域毎に設定した値を使用し、含まれていなければ0とする。あとは、図5等を参照しながら説明した方法と同様にして処理を施すことによって、特定の抽出対象範囲内に含まれる相関信号に対し特定の周波数帯域のみ抽出することができる。このように、まずは空間的な分離を行い、音像を抽出した上で、さらに周波数帯域毎の増圧を行うことができるので、特定の楽器音を抽出できる可能性が格段に向上する。この例では、その結果、シンボル123のような棒グラフが表示されるとともに、ベース音ではなくボーカルの音のみを増圧することが可能となる。
【0113】
サブ画面121におけるシンボル122のツマミで例示したように、ユーザインタフェースは、相関信号処理部24における増加の度合いを周波数帯域毎に変更するユーザ操作を受け付け可能に構成しておくことが好ましい。パラメータ制御部17は、ユーザインタフェースで受け付けられたユーザ操作に従って、増加の度合い及び変更の対象となった周波数帯域を示すパラメータを変更する。これにより、相関信号に対し周波数帯域毎に増加の度合い(増圧の度合い)を設定することができる。すなわち、この例では、任意に指定された方向の音像のみを、周波数帯域毎に制御すること、つまり周波数帯域毎に分離・増圧することが可能となる。
【0114】
また、サブ画面121におけるシンボル123の棒グラフで例示したように、ユーザインタフェースは、抽出対象範囲に合成される音像に関わる相関信号中の成分の量を周波数帯域毎に可視化して表示することが好ましい。また、相関信号に関し、この周波数帯域毎の変更を行う構成を採用しなくても上述した周波数帯域毎の可視化表示は採用してもよく、その場合、ユーザは周波数帯域毎の成分量を見ながら、周波数帯域に係わらない全体の成分量を増加させることになる。
【0115】
また、シンボル53L,53Rに対する、サブ画面121と同様のサブ画面について説明したように、ユーザインタフェースは、抽出対象範囲に合成される音像に関わる無相関信号中の成分の量を周波数帯域毎に可視化して表示することが好ましい。また、ユーザインタフェースは、ゲイン調整部25a,25cにおける減少(及び増加)の度合いを周波数帯域毎に変更するユーザ操作を受け付け可能に構成しておくことが好ましい。パラメータ制御部17は、ユーザインタフェースで受け付けられたユーザ操作に従って、減少(及び増加)の度合い及び変更の対象となった周波数帯域を示すパラメータを変更する。これにより、無相関信号に対し周波数帯域毎に減少/増加の度合い(抑圧または増圧の度合い)を設定することができる。また、無相関信号に関し、この周波数帯域毎の変更を行う構成を採用しなくても上述した周波数帯域毎の可視化表示は採用してもよく、その場合、ユーザは周波数帯域毎の成分量を見ながら、周波数帯域に係わらない全体の成分量を減少/増加させることになる。
【0116】
また、成分量の可視化に関し、図12では周波数帯域毎に可視化したが、図13で例示するGUI画面130は、シンボル55aに対応して、棒グラフ状のインジケータ132がシンボル55aの上部に表示している。また、シンボル53L,53Rに対応して、それぞれインジケータ131L,131Rが上部に表示している。このように、ユーザインタフェースは、抽出対象範囲に合成される音像に関わる相関信号中の成分の量及び/または無相関信号中の成分の量を、周波数帯域に関係なく全体の量として、可視化して表示することが好ましい。これにより、ユーザは抽出対象範囲に合成される音像に関わる相関信号や無相関信号中の成分の量を見ながら減少や増加の操作を行うことができるようになる。
【0117】
また、インジケータ132の表示と図12のサブ画面121の表示とを併せて実装する場合には、例えばシンボル55a,53L,53Rのうち選択されたシンボルについて、インジケータ132を表示させるのか、サブ画面121を表示させるのかがユーザ選択可能となるような選択画面を表示させればよい。もしくは入力デバイス19bにおける所定のボタンを押しながら選択するとサブ画面121を表示させるなど、入力デバイス19bの操作方法に応じてインジケータ132を表示させるかサブ画面121を表示させるかを決定してもよい。
【0118】
また、放送コンテンツや音楽コンテンツにおいて、本発明を用いて分離される無相関信号は通常、残響音や背景音成分であることが多いという性質を利用するための設定画面である。この性質を利用して、図14で例示するGUI画面140では、スライダ144においてシンボル145a,145b,145cで示すように相関信号の抽出対象範囲を全範囲に拡大している。さらに、GUI画面140では、シンボル58L,58Rにおけるツマミとシンボル57におけるツマミとで例示したように、相関信号の抽出レベルも上げているが、無相関信号の減少度合いも少しにしている。このような調整によって、例えばスポーツ番組において実況解説をある程度強調しながら、観客の声援を若干下げて番組を視聴すること、つまり臨場感の低下を抑えながら実況解説を強調することが可能となる。したがって、これらのような調整方法を採用することで、より好ましくはこれらの調整方法のいずれかをプリセット機能の1つとしてテレビ装置に搭載することにより、テレビ装置に解説強調機能を付加することができる。
【0119】
上述したように、図5のGUI画面50のスライダ54には、抽出対象範囲が1つだけ(シンボル55a〜55cで示す一組のみ)存在しているが、例えばユーザがスライダ54上の、シンボル55cとシンボル55bで指定された範囲以外の部分をマウスクリックなどすることにより、別の一組の抽出対象範囲を表示することもできる。
図15で例示するGUI画面150は、そのようにして別の一組の抽出対象範囲も表示させた場合の設定画面である。GUI画面150では、スライダ154上に、左から説明すると、シンボル156aで示す非抽出対象範囲、シンボル155a,155c,155dで示す組の抽出対象範囲、シンボル156bで示す非抽出対象範囲、シンボル155b,155e,155fで示す組の抽出対象範囲、シンボル156cで示す非抽出対象範囲が表示されている。この場合でも抽出対象範囲については位置や幅を変えることができるものとする。また、シンボル155a,155bには図5のGUI画面50と同様にそれぞれシンボル157a,157bで示すようにツマミが表示されており、増圧の度合いも抽出対象範囲毎に調整できるものとする。
【0120】
例えば、中央の音(ボーカルの音)がシンボル155aの位置から、右側の音(ピアノの音)がシンボル155bの位置から、それぞれ聞こえてくるものであるとして、シンボル157a,157bのように同じようにツマミを上げると、ボーカルの音とピアノの音とが同じように強調されて聞こえる。これに対し、一方のツマミを他方に比べて上げると、高い方のツマミに該当する位置の音が低い方のツマミに該当する位置の音より強調されて聞こえる。このように、特定の方向の音像のツマミだけを他と比べ相対的に上げることにより、その方向の音像を強調されて聴くことができる。
【0121】
図16で例示するGUI画面160は、図15のGUI画面150において非抽出対象範囲を無くして調整した場合の画面である。GUI画面160では、スライダ164上に、左から説明すると、シンボル165a,165d,165eで示す組の抽出対象範囲、シンボル165b,165f,165gで示す組の抽出対象範囲、及びシンボル165c,165h,165iで示す組の抽出対象範囲が表示されている。この場合でも抽出対象範囲については位置や幅を変えることができるものとするが、抽出対象範囲同士の境界を変える調整となるため、一つの抽出対象範囲を広げれば他の1または2の抽出対象範囲が狭まることになる。また、シンボル165a,165b,165cには図5のGUI画面50と同様にそれぞれシンボル167a,167b,167cで示すようにツマミが表示されており、増圧の度合いも抽出対象範囲毎に調整できるものとする。このように、複数の抽出対象範囲によって全ての空間的領域を占有するように設定することもできる。また、このような調整方法をプリセットとしてテレビ装置に設定しておくこともできる。
【0122】
図16の例では、複数設定した抽出対象範囲は、全体の空間的範囲を個々に任意の幅となるように分割して複数となった抽出対象範囲である。このような複数の抽出対象範囲のうち特定の抽出対象範囲の抽出レベルを他よりも上げることで、その特定の抽出対象範囲に定位する音像に関する音声信号のみを強調再生することができる。
このことにより、例えば放送番組における台詞の強調や、音楽コンテンツにおけるある楽器音の強調などを柔軟に行うことが可能となる。また、例えば、中央の音(ボーカルの音)がシンボル165bの位置から、左側の音(ギターの音)がシンボル165aの位置から、右側の音(ピアノの音)がシンボル165cの位置から、それぞれ聞こえてくるものであるとして、シンボル167bのようにツマミを上げ、シンボル167a,167cのようにツマミをこれに比べて低く下げると、ボーカルの音である中央付近からの音像が強調されて聞こえる。このように、特定の方向の音像のツマミだけを他と比べ相対的に上げることにより、その方向の音像を強調されて聴くことができる。
【0123】
また、図12のGUI画面120におけるサブ画面121や図13のGUI画面130における棒グラフ状のインジケータ132は、図15のGUI画面150や図16のGUI画面160の例のように、シンボル55aが複数存在する場合、それぞれのシンボル55aをマウスクリックなどすることにより、それぞれに対応するサブ画面121やインジケータ132を表示することができる。
【0124】
以上、本発明に係る音声信号処理装置における処理について説明したが、次に、上述した各例にさらに適用可能な応用例について説明する。
上述した各例においては、このようにして本発明により増圧等が施された音声信号を左右のスピーカだけで再生させることを前提に説明したが、マルチチャネル再生方式より広いスイートスポットが得られる波面合成再生方式で再生することが、増圧の効果が狭い聴取エリアに限られず広がることから好ましい。なお、波面合成再生方式とは、直線状または面状に並べたスピーカ群によって音の波面を合成する再生方式であり、例えばWave Field Synthesis(WFS)方式は直線状に並べたスピーカ群(スピーカアレイ)を用いる現実的な実装方法の1つとして近年盛んに研究されている。WFS方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源(仮想音源)から放射されているかのような感覚を受ける。したがって、このような方式では、広い聴取エリアで本発明に係る増圧の効果を享受でき、例えば横に並んだ複数の聴取者が同時に増圧の効果を享受できる。本発明に係る音声信号処理は、マルチチャネル再生方式での再生であっても波面合成再生方式での再生であっても基本的に同じであり、例えばθとyの決め方も同じである。
【0125】
上述した各例では、本発明に係る音声信号処理について、入力音声信号が2chの音声信号である場合、つまりステレオで記録されているコンテンツについてのみ説明したが、より多くのチャネルをもつマルチチャネルの音声信号であっても適用可能である。ステレオ以外に普及している方式としては、5.1ch、7.1ch、9.1ch、22.2chなどがある。これらの方式も全て複数のスピーカによる組み合わせで合成音像を作る方式であるため、本発明に係る相関信号の増圧処理が適用できる。なお、特に説明しないが、無相関信号についての減圧(及び増圧)についても同様に、マルチチャネルの音声信号に対して適用できる。
【0126】
具体的にマルチチャネルの音声信号への適用について説明すると、着目するチャネルを2つ選び、その2つに対して上述したような増圧処理(及び無相関信号の減圧や増圧処理)を行う。これらの方式では、前方の左チャネルと右チャネル間に相関の高い信号が割り当てられることが多いため、前方の左チャネルと右チャネルに本発明に係る増圧処理を適用し、さらに前方センターチャネルのゲイン調整と組み合わせることによって、ある特定の方向の音像のみを抽出するというような細かな調整が可能となる。
【0127】
つまり、5.1chの入力音声信号など3つ以上のチャネルの入力音声信号に対して、前方左右の2チャネルのみから音源抽出を行い、センターチャネルの信号に対して数式(37)で求めるθ(i)は全て0°である(すなわちセンターチャネルの信号は真正面から聞こえてくる信号である)と仮定する。そして、図5のGUI画面50で説明すると、シンボル55aで示すスライダ54の中心点が抽出対象範囲として選択される場合、シンボル57のツマミのレベルに応じてセンターチャネルの音を、逆フーリエ変換しノイズ除去を行った後の音声信号に加算し出力させる。出力スピーカが2つの場合は、センターチャネルの音は左右スピーカに同じバランスで割り当てられ、出力音量を揃えるためにそれぞれ1/√2倍しておくとよい。出力スピーカが5.1chの場合は、センタースピーカ用音声信号からセンタースピーカへ、シンボル57のツマミのレベルに応じた音量で出力させればよい。
【0128】
また、後方の左右のスピーカ用の音声信号も、本発明に係る増圧処理とは無関係にそのまま、もしくはシンボル57のツマミのレベルに応じた音量に増圧して出力するようにすればよい。もしくは、後方の2つの音声信号についても、前方の左右のスピーカ用の音声信号とは独立した相関信号の増圧処理を施してもよい。この場合に提示するGUI画面としては、図5や図12〜図16で説明したようなGUI画面と同じものが挙げられ、前方及び後方に共通のGUI画面中の操作対象のツマミとして後方前方に係わらない調整が可能にしておけば済む。また、前方の音声信号調整用のツマミと後方の音声信号調整用のツマミとを用意しておき(同じGUI画面内に入れるか否かはどちらでもよい)、前方、後方を個別に調整できるようにしておくこともできる。他のマルチチャネルの音声信号についても、5.1chで説明した考え方と同様に適用し、相関信号はそのうち2つの音声信号について求めて増圧すればよい。
【0129】
また、上述した各例においては、相関信号と無相関信号の分離について離散フーリエ空間で行う例を挙げたが、これに限ったものではなく、本発明では分離が可能であればよい。本発明の主たる特徴は所定の空間的範囲に合成される音像のみを、相関信号と無相関信号とに分離してそのうち相関信号について増加させることで増圧することにある。
さらに、相関信号や無相関信号の増減について、相関信号や無相関信号そのものの増減として説明したが、相関信号から生成された信号、相関信号及び無相関信号から生成された信号、無相関信号から生成された信号を、増加または増減の対象としてもよい。このような処理によっても、間接的には相関信号や無相関信号の音圧を変更することができるため、本発明に含まれる。
【0130】
また、上述した各例において説明したように、本発明は、所定の空間的範囲に関わる相関信号を増圧のために増加させる手段を設けた装置であるが、抑圧のために減少させる手段をさらに備えておいてもよい。その場合、別途用意した設定画面において、ツマミの調整により減少の度合いを設定できるようにしておいてもよいし、例えば上述したGUI画面50において無相関信号について値5で増減無しとして例示したようなツマミを採用してもよい。つまり、ツマミの半分より上(または下)にすることで相関信号を増加させて増圧し、半分より下(または上)することで相関信号を減少させて抑圧するようにしておくこともできる。また、この場合、数式(40)や数式(47)等において、r′≧0、r′(i)≧0としておけばよい。
さらに、上述した各例では、無相関信号について減圧させるために減少させる手段を設けた例と、増減させるために増加及び減少させる手段の双方を設けた例を挙げている。無相関信号について減少させる手段を少なくとも設けることで、図5や図12等で例を挙げたように、より相関信号の増圧の効果が増すため好ましいが、一方で、無相関信号について増圧のために増加させる手段だけを設けることもできる。
【0131】
次に、本発明に係る音声信号処理装置の実装について説明する。
本発明に係る音声信号処理装置は、例えばパーソナルコンピュータ(PC)や光ディスク再生装置、音楽再生機能付きの携帯情報端末、テレビ装置、プロジェクタ、あるいは小型の音声処理専用装置など、音声データ再生装置や音声データ再生装置付きの装置に利用できる。PCでは入力デバイスはマウスなどとなるが、携帯情報端末ではボタン操作やタッチパッドなどとなる。また、光ディスク再生装置や小型の処理専用装置では、本体に設置してあるボタン操作や、あるいはGUI画面をモニタ装置やテレビ装置などの表示デバイスに出力させるとともにリモートコントローラなどによって操作してもよい。また、この音声データ再生装置は、音声のみを取り扱う装置として構成することができるだけでなく、テレビ装置やプロジェクタ等で例示したように、映像の伴う装置に組み込むこともできる。
【0132】
また、例えば図2で例示した音声信号処理部20における各構成要素など、本発明に係る音声信号処理装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ(またはDSP:Digital Signal Processor)、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路/IC(Integrated Circuit)チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路/ICチップセットとして搭載することも可能である。
【0133】
また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号処理装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはDSPによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体(外部記録媒体や内部記憶装置)であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばCD−ROMまたはDVD−ROMなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。
【0134】
以上、本発明に係る音声信号処理装置について説明したが、処理の流れを説明したように、本発明は、複数のスピーカによって合成される音像群のうち所定の空間的範囲に合成される音像のみを増圧する音声信号処理方法としての形態も採り得る。この音声信号処理方法は、次の分離ステップ及び増加ステップを有する。分離ステップは、信号分離部が、入力音声信号を2つのチャネル間の相関信号と無相関信号とに分離するステップである。増加ステップは、相関信号増加部が、分離ステップで分離された信号に対し、所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させるステップである。その他の応用例については、音声信号処理装置について説明した通りであり、その説明を省略する。
【0135】
なお、上記プログラムコード自体は、換言すると、この音声信号処理方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、複数のスピーカに出力するための入力音声信号を、2つのチャネル間の相関信号と無相関信号とに分離する分離ステップと、分離ステップで分離された信号に対し、所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる増加ステップと、を実行させるためのプログラムである。その他の応用例については、音声信号処理装置について説明した通りであり、その説明を省略する。
【符号の説明】
【0136】
10…音声データ再生装置、11…デコーダ、12…音声信号抽出部、13,20…音声信号処理部、14…D/Aコンバータ、15…増幅器、16…スピーカ、17…パラメータ制御部、18…ユーザインタフェース制御部、19a…表示デバイス、19b…入力デバイス、21…前処理部、22…離散フーリエ変換部、23…信号分離抽出部、24…相関信号処理部、25a,25b,25c…ゲイン調整部、26…合成部、27…離散フーリエ逆変換部、28…後処理部。

【特許請求の範囲】
【請求項1】
複数のスピーカによって合成される音像群のうち所定の空間的範囲に合成される音像のみを増圧する音声信号処理装置であって、入力音声信号を2つのチャネル間の相関信号と無相関信号とに分離する信号分離部と、該信号分離部で分離された信号に対し、前記所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる相関信号増加部とを備えたことを特徴とする音声信号処理装置。
【請求項2】
前記信号分離部で分離された信号に対し、前記所定の空間的範囲に合成される音像に関わる無相関信号中の成分を減少させる無相関信号減少部をさらに備えたことを特徴とする請求項1に記載の音声信号処理装置。
【請求項3】
前記相関信号増加部における増加の度合いを変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って、前記増加の度合いを示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴とする請求項1または2に記載の音声信号処理装置。
【請求項4】
前記ユーザインタフェースは、前記相関信号増加部における増加の度合いを周波数帯域毎に変更するユーザ操作を受け付け可能に構成されており、前記パラメータ制御部は、前記ユーザインタフェースで受け付けられたユーザ操作に従って、前記増加の度合い及び変更の対象となった周波数帯域を示すパラメータを変更することを特徴とする請求項3に記載の音声信号処理装置。
【請求項5】
前記無相関信号減少部における減少の度合いを変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って、前記減少の度合いを示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴とする請求項2に記載の音声信号処理装置。
【請求項6】
前記ユーザインタフェースは、前記無相関信号減少部における減少の度合いを周波数帯域毎に変更するユーザ操作を受け付け可能に構成されており、前記パラメータ制御部は、前記ユーザインタフェースで受け付けられたユーザ操作に従って、前記減少の度合い及び変更の対象となった周波数帯域を示すパラメータを変更することを特徴とする請求項5に記載の音声信号処理装置。
【請求項7】
前記所定の空間的範囲を変更するユーザ操作を受け付けるためのユーザインタフェースと、該ユーザインタフェースで受け付けられたユーザ操作に従って前記所定の空間的範囲を示すパラメータを変更するパラメータ制御部とをさらに備えたことを特徴とする請求項1〜6のいずれか1に記載の音声信号処理装置。
【請求項8】
前記ユーザインタフェースは、前記所定の空間的範囲に合成される音像に関わる相関信号中の成分の量を可視化して表示することを特徴とする請求項3〜7のいずれか1項に記載の音声信号処理装置。
【請求項9】
前記ユーザインタフェースは、前記所定の空間的範囲に合成される音像に関わる相関信号中の成分の量を周波数帯域毎に可視化して表示することを特徴とする請求項8に記載の音声信号処理装置。
【請求項10】
前記ユーザインタフェースは、前記所定の空間的範囲に合成される音像に関わる無相関信号中の成分の量を可視化して表示することを特徴とする請求項3〜9のいずれか1項に記載の音声信号処理装置。
【請求項11】
前記ユーザインタフェースは、前記所定の空間的範囲に合成される音像に関わる無相関信号中の成分の量を周波数帯域毎に可視化して表示することを特徴とする請求項10に記載の音声信号処理装置。
【請求項12】
複数のスピーカによって合成される音像群のうち所定の空間的範囲に合成される音像のみを増圧する音声信号処理方法であって、
信号分離部が、入力音声信号を2つのチャネル間の相関信号と無相関信号とに分離する分離ステップと、
相関信号増加部が、前記分離ステップで分離された信号に対し、前記所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる増加ステップと、
を有することを特徴とする音声信号処理方法。
【請求項13】
コンピュータに、複数のスピーカに出力するための入力音声信号を、2つのチャネル間の相関信号と無相関信号とに分離する分離ステップと、該分離ステップで分離された信号に対し、所定の空間的範囲に合成される音像に関わる相関信号中の成分を増加させる増加ステップと、を実行させるためのプログラム。
【請求項14】
請求項13に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−244196(P2011−244196A)
【公開日】平成23年12月1日(2011.12.1)
【国際特許分類】
【出願番号】特願2010−114351(P2010−114351)
【出願日】平成22年5月18日(2010.5.18)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】