説明

音声信号変換装置、方法、プログラム、及び記録媒体

【課題】マルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく変換することが可能な音声信号変換装置を提供する。
【解決手段】音声信号変換装置(音声信号処理部113で例示)は、2つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、変換部で離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する相関信号抽出部と、相関信号抽出部で抽出された相関信号またはその相関信号及び無相関信号に対して、もしくはその相関信号またはその相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、逆変換部で離散フーリエ逆変換後の音声信号から波形の不連続点を除去する雑音除去部122とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチチャネル再生方式用の音声信号を変換するための音声信号変換装置、方法、プログラム、及び記録媒体に関する。
【背景技術】
【0002】
従来から提案されている音響再生方式には、ステレオ(2ch)方式、5.1chサラウンド方式(ITU−R BS.775−1)などがあり広く民生用として普及している。2ch方式とは、図1で模式的に図示したように、左スピーカ11Lと右スピーカ11Rから異なる音声データを発生させる方式である。5.1chサラウンド方式とは、図2で模式的に図示したように、左フロントスピーカ21L、右フロントスピーカ21R、それらの間に配置するセンタースピーカ22C、左リアスピーカ23L、右リアスピーカ23R、及び図示しない低音域(一般的に20Hz〜100Hz)専用のサブウーファーに対し、それぞれ異なる音声データを入力して出力する方式である。
【0003】
また、2ch方式や5.1chサラウンド方式の他にも、7.1ch、9.1ch、22.2chなどさまざまな音響再生方式が提案されている。上述した方式はいずれも、聴取者(受聴者)を中心とする円周上または球面上に各スピーカを配置し、理想的には各スピーカから等距離にある聴取位置(受聴位置)、いわゆるスイートスポットで聴くことが好ましいとされている。例えば2ch方式ではスイートスポット12で、5.1chサラウンド方式ではスイートスポット24で聴くことが好ましい。スイートスポットで聴くと、音圧のバランスによる合成音像が製作者の意図するところに定位する。逆に、スイートスポット以外の位置で聴くと、一般的に、音像・音質が劣化する。以下、これらの方式を総称してマルチチャネル再生方式と呼ぶ。
【0004】
一方、マルチチャネル再生方式とは別に、音源オブジェクト指向再生方式もある。この方式は、全ての音が、いずれかの音源オブジェクトが発する音であるとする方式であり、各音源オブジェクト(以下、「仮想音源」と呼ぶ。)が自身の位置情報と音声信号とを含んでいる。音楽コンテンツを例にとると、各仮想音源は、それぞれの楽器の音と楽器が配置されている位置情報とを含む。
そして、音源オブジェクト指向再生方式は、通常、直線状あるいは面状に並べたスピーカ群によって音の波面を合成する再生方式(すなわち波面合成再生方式)により再生される。このような波面合成再生方式のうち、非特許文献1に記載のWave Field Synthesis(WFS)方式は、直線状に並べたスピーカ群(以下、スピーカアレイという)を用いる現実的な実装方法の1つとして近年盛んに研究されている。
【0005】
このような波面合成再生方式は、上述のマルチチャネル再生方式とは異なり、図3で模式的に図示したように、並べられたスピーカ群31の前のどの位置で聴いている受聴者に対しても、良好な音像と音質を両方同時に提示することができるという特長を持つ。つまり、波面合成再生方式でのスイートスポット32は図示するように幅広くなっている。
また、WFS方式によって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源(仮想音源)から放射されているかのような感覚を受ける。
【0006】
この波面合成再生方式では、仮想音源を表す入力信号を必要とする。そして、一般的に、1つの仮想音源には1チャネル分の音声信号とその仮想音源の位置情報が含まれることを必要とする。上述の音楽コンテンツを例にとると、例えば楽器毎に録音された音声信号とその楽器の位置情報ということになる。ただし、仮想音源それぞれの音声信号は必ずしも楽器毎である必要はないが、コンテンツ製作者が意図するそれぞれの音の到来方向と大きさが、仮想音源という概念を用いて表現されている必要がある。
【0007】
ここで、前述のマルチチャンネル方式の中でも最も広く普及している方式はステレオ(2ch)方式であるため、ステレオ方式の音楽コンテンツについて考察する。図4に示すように2つのスピーカ41L,41Rを用いて、ステレオ方式の音楽コンテンツにおけるL(左)チャネルとR(右)チャネルの音声信号を、それぞれ左に設置したスピーカ41L、右に設置したスピーカ41Rで再生する。このような再生を行うと、図4に示すように、各スピーカ41L,41Rから等距離の地点、すなわちスイートスポット43で聴く場合にのみ、ボーカルの声とベースの音が真ん中の位置42bから聞こえ、ピアノの音が左側の位置42a、ドラムの音が右側の位置42cなど、製作者が意図したように音像が定位して聞こえる。
このようなコンテンツを波面合成再生方式で再生し、波面合成再生方式の特長である、どの位置の受聴者に対してもコンテンツ製作者の意図通りの音像定位を提供することを考える。そのためには、図5で示すスイートスポット53のように、どの視聴位置からでも図4のスイートスポット43内で聴いたときの音像が知覚できなければならない。つまり、直線状あるいは面状に並べられたスピーカ群51によって、広いスイートスポット53で、ボーカルの声とベースの音が真ん中の位置52bから聞こえ、ピアノの音が左側の位置52a、ドラムの音が右側の位置52cなど、製作者が意図したように音像が定位して聞こえなければならない。
【0008】
その課題に対し、例えば、図6のようにLチャネルの音、Rチャネルの音をそれぞれ仮想音源62a,62bとして配置した場合を考える。この場合、L/Rチャネルそれぞれが単体で1つの音源を表すのではなく2つのチャンネルによって合成音像を生成するものであるから、それを波面合成再生方式で再生したとしても、やはりスイートスポット63が生成されてしまい、スイートスポット63の位置でしか、図4のような音像定位はしない。つまり、そのような音像定位を実現するには、2chのステレオデータから、何らかの手段によって音像毎の音声に分離し、各音声から仮想音源データを生成することが必要となる。
【0009】
この課題に対し、特許文献1に記載の方法では、2chステレオデータを周波数帯域毎に信号のパワーの相関係数を基に相関信号と無相関信号とに分離し、相関信号については合成音像方向を推定し、それらの結果から仮想音源を生成している。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】欧州特許出願公開第1761110号明細書
【非特許文献】
【0011】
【非特許文献1】A. J. Berkhout, D. de Vries, and P. Vogel, “Acoustic control by wave field synthesis”, J. Acoust. Soc. Am. Volume 93(5), アメリカ合衆国、Acoustical Society of America, May 1993, pp. 2764-2778
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかしながら、特許文献1に記載の方法では、元の音声信号の分析の際、離散フーリエ変換後の左右チャネルの直流成分を無視している。図7は、音声信号を離散フーリエ変換したときの結果の一例を示す模式図である。図7において、鉛直方向の軸は実部、手前方向の軸は虚部を表しており、符号71は直流成分を示している。特許文献1に記載の方法では、この直流成分71を無視するため、フーリエ逆変換後のセグメント間の波形の連続性が保証されず、セグメントの境界では波形が不連続となる。低い帯域の信号が多く含まれるコンテンツでは特に、生成した音声信号波形には不連続点が多く含まれ、それらはノイズとして知覚されてしまう。
【0013】
図8に示す音楽コンテンツ80の例で、このノイズについて説明する。音楽コンテンツ80における左チャネルの音声信号81及び右チャネルの音声信号82を、特許文献1に記載の方法を用いて例えば5つのチャネルに変換すると、図9に示す音楽コンテンツ90のような結果になる。音楽コンテンツ90は、5つのチャネルの音声信号91〜95を有することになる。そして、図10は、図9の上から3番目のチャネルの音声信号93における9秒付近を拡大したものであるが、図10に示す音声信号100では、中央付近101にあるように不連続点が生じている。このような不連続点が多数含まれてしまうため、耳障りなノイズとして知覚されてしまう。
【0014】
このような問題は、マルチチャネル方式用の音声信号に対して、波面合成再生方式で再生させるための音声信号に変換する場合に限ったものではなく、同じくマルチチャネル方式用(チャネル数は同じでも異なってもよい)の音声信号に変換する場合にも生じ得る。それは、このような変換の場合にも上述のような離散フーリエ変換・逆変換を施し且つ左右チャネルの直流成分を無視することがあるためである。
【0015】
本発明は、上述のような実状に鑑みてなされたものであり、その目的は、2chや5.1ch等のマルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく変換することが可能な音声信号変換装置、方法、プログラム、及び記録媒体を提供することにある。
【課題を解決するための手段】
【0016】
上述したような課題を解決するために、本発明の第1の技術手段は、マルチチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換装置であって、2つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、該変換部で離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する相関信号抽出部と、該相関信号抽出部で抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、該逆変換部で離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去部と、を備えたことを特徴としたものである。
【0017】
第2の技術手段は、第1の技術手段において、前記除去部は、処理セグメントの境界において波形の微分値を維持させるように前記離散フーリエ逆変換後の音声信号に直流成分を加算することで、前記不連続点を除去することを特徴としたものである。
【0018】
第3の技術手段は、第2の技術手段において、前記除去部は、加算する前記直流成分の振幅の大きさを、加算時点からの経過時間に比例して減少させることを特徴としたものである。
【0019】
第4の技術手段は、第3の技術手段において、前記除去部は、前記減少させるための比例定数を、加算するために求めた前記直流成分の振幅の大きさに応じて変更することを特徴としたものである。
【0020】
第5の技術手段は、第4の技術手段において、前記除去部は、前記離散フーリエ逆変換後の音声信号の波形が0を交差する回数が所定時間内で所定回数以上存在する箇所以外において、前記直流成分の加算を実行することを特徴としたものである。
【0021】
第6の技術手段は、第2〜第5のいずれか1の技術手段において、前記除去部は、加算するために求めた前記直流成分の振幅が所定値未満である場合のみ、前記直流成分の加算を実行することを特徴としたものである。
【0022】
第7の技術手段は、第1〜第3のいずれか1の技術手段において、前記除去部は、前記離散フーリエ逆変換後の音声信号の波形が0を交差する回数が所定時間内で所定回数以上存在する箇所以外において、前記不連続点の除去を実行することを特徴としたものである。
【0023】
第8の技術手段は、第1〜第7のいずれか1の技術手段において、前記除去部で処理対象となる前記離散フーリエ逆変換後の音声信号は、前記相関信号または前記相関信号及び前記無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、該スケーリング処理後の音声信号とすることを特徴としたものである。
【0024】
第9の技術手段は、第1〜第8のいずれか1の技術手段において、前記マルチチャネルの入力音声信号は3つ以上のチャネルの入力音声信号とし、前記マルチチャネルの入力音声信号のうちいずれか2つの入力音声信号に対して、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部により前記不連続点の除去を行って、前記スピーカ群によって再生させるための音声信号を生成し、前記音声信号変換装置は、生成された音声信号に残りのチャネルの入力音声信号を加算する加算部をさらに備えたことを特徴としたものである。
【0025】
第10の技術手段は、第1〜第9のいずれか1の技術手段において、前記マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部と、ディジタルコンテンツを復号化するデコーダ部と、該デコーダ部で復号化したディジタルコンテンツから音声信号を分離する音声信号抽出部と、該音声信号抽出部で抽出した音声信号から、3チャネル以上で且つ前記入力音声信号とは異なるマルチチャネルの音声信号に変換する音声信号処理部とをさらに備え、該音声信号処理部は、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部を備えることを特徴としたものである。
【0026】
第11の技術手段は、第10の技術手段において、前記ディジタルコンテンツ入力部は、ディジタルコンテンツを格納する記録媒体、ネットワークを介してディジタルコンテンツを配信するサーバまたはディジタルコンテンツを放送する放送局からディジタルコンテンツを入力することを特徴としたものである。
【0027】
第12の技術手段は、第1〜第11のいずれか1の技術手段において、前記音声信号処理部における処理を実行するか否かを、ユーザ操作に応じて切り替える切替部をさらに備えたことを特徴としたものである。
【0028】
第13の技術手段は、マルチチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換方法であって、変換部が、2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、相関信号抽出部が、前記変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、逆変換部が、前記抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、除去部が、前記逆変換ステップで離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、を有することを特徴としたものである。
【0029】
第14の技術手段は、コンピュータに、2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、該変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、該抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、該逆変換ステップで離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、を実行させるためのプログラムである。
第15の技術手段は、第14の技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0030】
本発明によれば、2chや5.1ch等のマルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく変換することが可能になる。
【図面の簡単な説明】
【0031】
【図1】2ch方式を説明するための模式図である。
【図2】5.1chサラウンド方式を説明するための模式図である。
【図3】波面合成再生方式を説明するための模式図である。
【図4】ボーカル、ベース、ピアノ、及びドラムの音がステレオ方式で記録された音楽コンテンツを、左右2つのスピーカを用いて再生する様子を示す模式図である。
【図5】図4の音楽コンテンツを波面合成再生方式で再生した際の、理想的なスイートスポットの様子を示す模式図である。
【図6】図4の音楽コンテンツにおける左/右チャネルの音声信号をそれぞれ左/右スピーカの位置に仮想音源を設定して波面合成再生方式で再生した際の、実際のスイートスポットの様子を示す模式図である。
【図7】音声信号を離散フーリエ変換したときの結果の一例を示す模式図である。
【図8】左チャネル及び右チャネルの音声信号でなる音楽コンテンツの波形の一例を示す図である。
【図9】従来の方法を用いて、図8の音楽コンテンツを5つのチャネルに変換した結果の波形を示す図である。
【図10】図9の音楽コンテンツのうち1つのチャネルの音声信号の一部を拡大した図である。
【図11】本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図である。
【図12】図11の音声データ再生装置における音声信号処理部(本発明に係る音声信号変換装置)の一構成例を示すブロック図である。
【図13】図12の音声信号処理部における音声信号分離抽出部及び雑音除去部での音声信号処理の一例を説明するためのフロー図である。
【図14】図12の音声信号処理部において音声データをバッファに蓄える様子を示す図である。
【図15】受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図である。
【図16】波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。
【図17】図16の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。
【図18】左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。
【図19】本発明に係る不連続点除去処理の一例を説明するための模式図である。
【図20】図19の不連続点除去処理を適用して、左右チャネルの音声信号でなる或る音楽コンテンツを5つのチャネルに変換した結果の波形を示す図である。
【図21】本発明に係る他の不連続点除去処理を適用して、図20で対象とした音楽コンテンツと同じ音楽コンテンツを5つのチャネルに変換した結果の波形を示す図である。
【図22】図21と同じ不連続点除去処理を適用して、図20及び図21で対象とした音楽コンテンツとは異なる音声信号波形の変化が激しい音楽コンテンツを、5つのチャネルに変換した結果の波形を示す図である。
【図23】本発明に係る他の不連続点除去処理を適用して、図22で対象とした音楽コンテンツと同じ音楽コンテンツを5つのチャネルに変換した結果の波形を示す図である。
【図24】図23の不連続点除去処理を適用して、図8の音楽コンテンツを5つのチャネルに変換した結果の波形を示す図である。
【図25】図24の音楽コンテンツのうち1つのチャネルの音声信号の一部を拡大した図である。
【図26】5.1chの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。
【図27】図11の音声データ再生装置を備えたテレビ装置の構成例を示す図である。
【図28】図11の音声データ再生装置を備えたテレビ装置の他の構成例を示す図である。
【図29】図11の音声データ再生装置を備えたテレビ装置の他の構成例を示す図である。
【図30】図11の音声データ再生装置を備えた映像投影システムの構成例を示す図
【図31】図11の音声データ再生装置を備えた映像投影システムの他の構成例を示す図である。
【図32】図11の音声データ再生装置を備えたテレビボードとテレビ装置とでなるシステムの構成例を示す図
【図33】図11の音声データ再生装置を備えた自動車の例を示す図である。
【図34】図11の音声データ再生装置における再生対象のスピーカの例を示す図である。
【発明を実施するための形態】
【0032】
本発明に係る音声信号変換装置は、マルチチャネル再生方式用の音声信号を、チャネル数の同じ又は異なるスピーカ群で再生するための音声信号や波面合成再生方式用の音声信号などに変換する装置であって、音声信号処理装置、音声データ変換装置などとも呼べ、音声データ再生装置に組み込むことができる。なお、音声信号とは、当然、いわゆる音声を記録した信号に限ったものではなく、音響信号とも呼べる。また、波面合成再生方式とは、上述したように直線状または面状に並べたスピーカ群によって音の波面を合成する再生方式である。
【0033】
以下、図面を参照しながら、本発明に係る音声信号変換装置の構成例及び処理例について説明する。また、以下の説明では、まず、本発明に係る音声信号変換装置が、変換により波面合成再生方式用の音声信号を生成する例を挙げる。
図11は、本発明に係る音声信号変換装置を備えた音声データ再生装置の一構成例を示すブロック図で、図12は、図11の音声データ再生装置における音声信号処理部(本発明に係る音声信号変換装置)の一構成例を示すブロック図である。
【0034】
図11で例示する音声データ再生装置110は、デコーダ111、音声信号抽出部112、音声信号処理部113、D/Aコンバータ114、増幅器群115、そしてスピーカ群116から構成される。デコーダ111は、音声のみあるいは音声付き映像のコンテンツを復号化し、信号処理可能な形式に変換し音声信号抽出部112に出力する。そのコンテンツは、放送局から送信されたデジタル放送のコンテンツや、ネットワークを介してディジタルコンテンツを配信するサーバからインターネットからダウンロードしたり、あるいは外部記憶装置等の記録媒体から読み込んだりすることによって取得する。このように、図11では図示しないが、音声データ再生装置110は、マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部を備える。デコーダ111は、ここで入力されたディジタルコンテンツを復号化することになる。音声信号抽出部112では、得られた信号から音声信号を分離、抽出する。ここではそれは2chステレオ信号とする。その2チャネル分の信号を音声信号処理部113に出力する。
【0035】
音声信号処理部113では、得られた2チャネル信号から、3チャネル以上で且つ入力音声信号とは異なるマルチチャネルの音声信号(以下の例では、仮想音源数分の信号として説明する)を生成する。つまり入力音声信号を別のマルチチャネルの音声信号に変換する。音声信号処理部113は、その音声信号をD/Aコンバータ114に出力する。仮想音源の数は、ある一定以上の数があれば予め決めておいても性能上差し支えはないが、仮想音源数が多くなるほど演算量も多くなる。そのため実装する装置の性能を考慮してその数を決定することが望ましい。ここの例では、その数を5として説明する。
【0036】
D/Aコンバータ114では得られた信号をアナログ信号に変換し、それぞれの信号を増幅器115に出力する。各増幅器115では入力されたアナログ信号を拡声し各スピーカ116に伝送し、各スピーカ116から空間中に音として出力される。
【0037】
この図における音声信号処理部の詳細な構成を図12に示す。音声信号処理部113は、音声信号分離抽出部121、雑音除去部122、そして、音声出力信号生成部123から構成される。
【0038】
音声信号分離抽出部121は2チャネルの信号から各仮想音源に対応する音声信号を生成し、それを雑音除去部122に出力する。雑音除去部122では、得られた音声信号波形から知覚上ノイズとなる部分を除去し、ノイズ除去後の音声信号を音声出力信号生成部123に出力する。音声出力信号生成部123では、得られた音声信号から各スピーカに対応するそれぞれの出力音声信号波形を生成する。音声出力信号生成部123では、波面合成再生処理などの処理が施され、例えば、得られた各仮想音源用の音声信号を各スピーカに割り当て、スピーカ毎の音声信号を生成する。波面合成再生処理の一部は音声信号分離抽出部121で担ってもよい。
【0039】
次に、図13に従って、音声信号分離抽出部121及び雑音除去部122での音声信号処理例を説明する。図13は、図12の音声信号処理部における音声信号分離抽出部及び雑音除去部での音声信号処理の一例を説明するためのフロー図で、図14は、図12の音声信号処理部において音声データをバッファに蓄える様子を示す図である。
【0040】
まず、音声信号分離抽出部121は、1セグメントの半分の長さの音声データを、図11における音声信号抽出部112での抽出結果から読み出す(ステップS131)。ここで、音声データとは、例えば48kHzなどの標本化周波数で標本化された離散音声信号波形を指すものとする。そして、セグメントとは、ある一定の長さの標本点群からなる音声データ区間であり、ここでは後ほど離散フーリエ変換の対象となる区間長を指すものとする。その値は例えば1024とする。この例では、1セグメントの半分の長さである512点の音声データが読み出し対象となる。
【0041】
読み出した512点の音声データは図14で例示するようなバッファ140に蓄えられる。このバッファは、直前の1セグメント分の音声信号波形を保持しておけるようになっており、それより過去のセグメントは捨てていく。直前の半セグメント分のデータと最新の半セグメント分のデータを繋げて1セグメント分の音声データを作成し、窓関数演算(ステップS132)に進む。すなわち、全ての標本データは窓関数演算に2回読み込まれることになる。
【0042】
ステップS132における窓関数演算では、従来提案されている次のHann窓を1セグメント分の音声データに乗算する。
【数1】

ここで、mは自然数、Mは1セグメント長で偶数とする。ステレオの入力信号をそれぞれx(m)、x(m)とすると、窓関数乗算後の音声信号x′(m)、x′(m)は、
【0043】
x′(m)=w(m)x(m) 、
x′(m)=w(m)x(m) (2)
と計算される。このHann窓を用いると、例えば標本点m(ただし、M/2≦m<M)の入力信号x(m)にはsin((m/M)π)が乗算される。そして、その次の回の読み込みではその同じ標本点がm−M/2として読み込まれるので、
【0044】
【数2】

が乗算される。ここで、sin((m/M)π)+cos((m/M)π)=1であるから、もし、何も修正を加えずに読み込んだ信号を半セグメントずつずらして加算すれば、元の信号が完全に復元されることになる。
【0045】
そうして得られた音声データを、次の数式(3)のように離散フーリエ変換し、周波数領域の音声データを得る(ステップS133)。ここで、DFTは離散フーリエ変換を表し、kは自然数で、0≦k<Mである。X(k)、X(k)は複素数となる。
(k)=DFT(x′(n)) 、
(k)=DFT(x′(n)) (3)
【0046】
次に、得られた周波数領域の音声データを小さい帯域に分割し、分割した各帯域についてステップS135〜S138の処理を実行する(ステップS134a,S134b)。具体的に個々の処理について説明する。
【0047】
まず、分割方法についてはEquivalent Rectangular Band(ERB)を用い、ERBの帯域幅で0Hzから標本化周波数の1/2の周波数までの間を分割する。ここで、ERBにより、与えられた周波数の上限fmax[Hz]までをいくつに分割するか、すなわちERBで分割した各帯域の索引の最大値Iは次式によって与えられる。
I=floor(21.4log10(0.00437fmax+1)) (4)
ただし、floor(a)はフロア関数で、実数aを越えない整数の最大値を表す。
【0048】
そして、それぞれのERB幅の帯域(以下、小帯域)の中心周波数F(i)(1≦i≦I)[Hz]は次式によって与えられる。
【数3】

【0049】
また、その時のERBの帯域幅b(i)[Hz]は次式によって求められる。
(i)=24.7(0.00437F(i)+1) (6)
よって、その中心周波数から低域側と高域側にそれぞれERB/2の周波数幅だけシフトすることによりi番目の小帯域の両側の境界周波数F(i)、F(i)を求めることができる。したがって、i番目の小帯域には、K(i)番目の線スペクトルからK(i)番目の線スペクトルが含まれる。ここで、K(i)、K(i)はそれぞれ次の数式(7)、(8)で表される。
(i)=ceil(21.4log10(0.00437F(i)+1)) (7)
(i)=floor(21.4log10(0.00437F(i)+1)) (8)
ただし、ceil(a)は天井関数で、実数aより小さくならない整数の最小値を表す。また、離散フーリエ変換した後の線スペクトルは、直流成分すなわち例えばX(0)を除いて、M/2(ただし、Mは偶数)を境に対称となっている。すなわち、X(k)とX(M−k)は0<k<M/2の範囲で複素共役の関係になる。したがって、以下ではK(i)≦M/2の範囲を分析の対象として考え、k>M/2の範囲については複素共役の関係にある対称の線スペクトルと同じ扱いとする。
【0050】
これらの具体例を示す。例えば、標本化周波数が48000Hzの場合、I=49となり、49の小帯域に分割することとなる。ただし、最も高い小帯域区間よりもさらに上の周波数に相当する線スペクトル成分も存在するが、それらは聴感上の影響も殆ど無く、さらに通常は値が微小であるため、それらは最も高い小帯域区間に含めることとして差し支えない。
【0051】
次に、このようにして決定される各小帯域において、左チャネルと右チャネルの正規化相関係数を次式で求めることで、相関係数を取得する(ステップS135)。
【数4】

【0052】
この正規化相関係数d(i)は左右のチャネルの音声信号にどれだけ相関があるかを表すものであり、0から1の間の実数の値をとる。全く同じ信号同士であれば1、そして全く無相関の信号同士であれば0となる。ここで、左右のチャネルの音声信号の電力P(i)とP(i)の両方が0である場合、その小帯域に関して相関信号と無相関信号の抽出は不可能とし、処理を行わず次の小帯域の処理に移ることとする。また、P(i)とP(i)のいずれか片方が0である場合、数式(9)では演算不可能であるが、正規化相関係数d(i)=0とし、その小帯域の処理を続行する。
【0053】
次に、この正規化相関係数d(i)を用いて、左右チャネルの音声信号から相関信号と無相関信号をそれぞれ分離抽出するための変換係数を求め(ステップS136)、ステップS136で取得したそれぞれの変換係数を用いて、左右チャネルの音声信号から相関信号と無相関信号を分離抽出する(ステップS137)。相関信号及び無相関信号は、いずれも推定した音声信号として抽出すればよい。
【0054】
ステップS136,S137の処理例を説明する。ここで、特許文献1と同様、左右チャネルそれぞれの信号は、無相関信号と相関信号から構成され、相関信号については左右から同じ信号が出力されるものとするモデルを採用する。そして、左右から出力される相関信号によって合成される音像は、その相関信号の左右それぞれの音圧のバランスによって方向が決定されるものとする。そのモデルに従うと、入力信号x(n)、x(n)は、
(m)= s(m)+n(m)、
(m)=αs(m)+n(m) (13)
と表される。ここで、s(m)は左右の相関信号、n(m)は左チャネルの音声信号から相関信号s(m)を減算したものであって(左チャネルの)無相関信号として定義できるもの、n(m)は右チャネルの音声信号から相関信号s(m)を減算したものであって(右チャネルの)無相関信号として定義できるものである。また、αは相関信号の左右音圧バランスの程度を表す正の実数である。
【0055】
数式(13)により、数式(2)で前述した窓関数乗算後の音声信号x′(m)、x′(m)は、次の数式(14)で表される。ただし、s′(m)、n′(m)、n′(m)はそれぞれs(m)、n(m)、n(m)に窓関数を乗算したものである。
x′(m)=w(m){ s(m)+n(m)}= s′(m)+n′(m)、
x′(m)=w(m){αs(m)+n(m)}=αs′(m)+n′(m)
(14)
【0056】
数式(14)を離散フーリエ変換することによって、次の数式(15)を得る。ただし、S(k)、N(k)、N(k)はそれぞれs′(m)、n′(m)、n′(m)を離散フーリエ変換したものである。
(k)= S(k)+N(k)、
(k)=αS(k)+N(k) (15)
【0057】
したがって、i番目の小帯域における音声信号X(i)(k)、X(i)(k)は、
(i)(k)= S(i)(k)+N(i)(k)、
(i)(k)=α(i)(i)(k)+N(i)(k)
ただし、K(i)≦k≦K(i) (16)
と表現される。ここで、α(i)はi番目の小帯域におけるαを表す。以後、i番目の小帯域における相関信号S(i)(k)、無相関信号N(i)(k)、N(i)(k)をそれぞれ、
(i)(k)=S(k)、
(i)(k)=N(k)、
(i)(k)=N(k)
ただし、K(i)≦k≦K(i) (17)
とおくこととする。
【0058】
数式(16)から、数式(12)の音圧P(i)とP(i)は、
(i)=P(i)+P(i)
(i)=[α(i)(i)+P(i) (18)
と表される。ここで、P(i)、P(i)はi番目の小帯域におけるそれぞれ相関信号、無相関信号の電力であり、
【数5】

と表される。ここで、左右の無相関信号の音圧は等しいと仮定している。
【0059】
また、数式(10)〜(12)より、数式(9)は、
【数6】

と表すことができる。ただし、この算出においてはS(k)、N(k)、N(k)が互いに直交し、かけ合わされたときの電力は0と仮定している。
【0060】
数式(18)と数式(20)を解くことにより、次の式が得られる。
【数7】

【0061】
これらの値を用いて、各小帯域における相関信号と無相関信号を推定する。i番目の小帯域における相関信号S(i)(k)の推定値est(S(i)(k))を、媒介変数μ、μを用いて、
est(S(i)(k))=μ(i)(k)+μ(i)(k) (23)
とおくと、推定誤差εは、
ε=est(S(i)(k))−S(i)(k) (24)
と表される。ここで、est(A)はAの推定値を表すものとする。そして二乗誤差εが最少になるとき、εとX(i)(k)、X(i)(k)はそれぞれ直交するという性質を利用すると、
E[ε・X(i)(k)]=0 、 E[ε・X(i)(k)]=0 (25)
という関係が成り立つ。数式(16)、(19)、(21)〜(24)を利用すると、数式(25)から次の連立方程式が導出できる。
(1−μ−μα(i))P(i)−μ(i)=0
α(i)(1−μ−μα(i))P(i)−μ(i)=0
(26)
【0062】
この数式(26)を解くことによって、各媒介変数が次のように求まる。
【数8】

ここで、このようにして求まる推定値est(S(i)(k))の電力Pest(S)(i)が、数式(23)の両辺を二乗して求まる次の式
est(S)(i)=(μ+α(i)μ(i)+(μ+μ)P(i) (28)
を満たす必要があるため、この式から推定値を次式のようにスケーリングする。なお、est′(A)はAの推定値をスケーリングしたものを表す。
【0063】
【数9】

【0064】
そして、i番目の小帯域における左右チャネルの無相関信号N(i)(k)、N(i)(k)に対する推定値est(N(i)(k))、est(N(i)(k))はそれぞれ、
est(N(i)(k))=μ(i)(k)+μ(i)(k) (30)
est(N(i)(k))=μ(i)(k)+μ(i)(k) (31)
とおくことにより、上述の求め方と同様にして、媒介変数μ〜μは、
【0065】
【数10】

と求めることができる。このようにして求めた推定値est(N(i)(k))、est(N(i)(k))も上述と同様に、次の式によってそれぞれスケーリングする。
【0066】
【数11】

【0067】
数式(27)、(32)、(33)で示した各媒介変数μ〜μ及び数式(29)、(34)、(35)で示したスケーリングの係数が、ステップS136で求める変換係数に該当する。そして、ステップS137では、これらの変換係数を用いた演算(数式(23)、(30)、(31))により推定することで、相関信号と無相関信号(右チャネルの無相関信号、左チャネルの無相関信号)とを分離抽出する。
【0068】
次に、仮想音源への割り当て処理を行う(ステップS138)。まず、この割り当て処理では前処理として、小帯域毎に推定した相関信号によって生成される合成音像の方向を推定する。この推定処理について、図15〜図17に基づき説明する。図15は、受聴者と左右のスピーカと合成音像との位置関係の例を説明するための模式図、図16は、波面合成再生方式で使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図、図17は、図16の仮想音源と受聴者及び合成音像との位置関係の例を説明するための模式図である。
【0069】
いま、図15に示す位置関係150のように、受聴者から左右のスピーカ151L,151Rの中点にひいた線と、同じく受聴者153からいずれかのスピーカ151L/151Rの中心までひいた線がなす見開き角をθ、受聴者153から推定合成音像152の位置までひいた線がなす見開き角をθとする。ここで、左右のスピーカ151L,151Rから同じ音声信号を、音圧バランスを変えて出力した場合、その出力音声によって生じる合成音像152の方向は、音圧バランスを表す前述のパラメータαを用いて次の式で近似できることが一般的に知られている(以下、立体音響におけるサインの法則と呼ぶ)。
【0070】
【数12】

【0071】
ここで、2chステレオの音声信号を波面合成再生方式で再生できるようにするために、図12に示す音声信号分離抽出部121が2chの信号を複数チャネルの信号に変換する。例えば変換後のチャネル数を5つとした場合、それを図16で示す位置関係160のように、波面合成再生方式における仮想音源162a〜162eと見做し、スピーカ群(スピーカアレイ)161の後方に配置する。なお、仮想音源162a〜162eにおける隣り合う仮想音源との間隔は均等とする。したがって、ここでの変換は、2chの音声信号を仮想音源数の音声信号に変換することになる。既に説明したように、音声信号分離抽出部121は、まず2chの音声信号を、小帯域毎に1つの相関信号と2つの無相関信号に分離する。音声信号分離抽出部121では、さらにそれらの信号をどのように仮想音源数の仮想音源(ここでは5つの仮想音源)に割り当てるかを事前に決めておかなければならない。なお、割り当ての方法については複数の方法の中からユーザ設定可能にしておいてもよいし、仮想音源数に応じて選択可能な方法を変えてユーザに提示するようにしてもよい。
【0072】
割り当て方法の1つの例として、次のような方法を採る。それは、まず、左右の無相関信号については、5つの仮想音源の両端(仮想音源162a,162e)にそれぞれ割り当てる。次に、相関信号によって生じる合成音像については、5つのうちの隣接する2つの仮想音源に割り当てる。隣接するどの2つの仮想音源に割り当てるかについては、まず、前提として、相関信号によって生じる合成音像が5つの仮想音源の両端(仮想音源162a,162e)より内側になるものとし、すなわち、2chステレオ再生時の2つのスピーカによってなす見開き角内におさまるように5つの仮想音源162a〜162eを配置するものとする。そして、合成音像の推定方向から、その合成音像を挟むような隣接する2つの仮想音源を決定し、その2つの仮想音源への音圧バランスの割り当てを調整して、その2つの仮想音源によって合成音像を生じさせるように再生する、という割り当て方法を採る。
【0073】
そこで、図17で示す位置関係170のように、受聴者173から両端の仮想音源162a,162eの中点にひいた線と、端の仮想音源162eにひいた線とがなす見開き角をθ′、受聴者173から合成音像171にひいた線とがなす見開き角をθ′とする。さらに、受聴者173から合成音像171を挟む2つの仮想音源162c,162dの中点にひいた線と、受聴者173から両端の仮想音源162a,162eの中点にひいた線(受聴者173から仮想音源162cにひいた線)とがなす見開き角をφ、受聴者173から合成音像171にひいた線とがなす見開き角をφとする。ここで、φは正の実数である。数式(36)で説明したようにして方向を推定した図15の合成音像152(図17における合成音像171に対応)を、これらの変数を用いて仮想音源に割り当てる方法について説明する。
【0074】
まず、見開き角の差によるスケーリングを次の式のように行う。
θ′=(θ′/θ)θ (37)
これにより、仮想音源の配置による見開き角の差異が考慮されることになる。ただし、θ′とθの値は、音声データ再生装置のシステム実装時に調整すればよく、またθ′とθの値を等しくしなくても特に問題は生じないため、この例では、θ=π/6[rad]、θ′=π/4[rad]として説明する。
【0075】
次に、i番目の合成音像の方向θ(i)が数式(36)によって推定され、例えばθ(i)=π/15[rad]であったとすると、数式(37)よりθ′(i)=π/10[rad]となる。そして、仮想音源が5つの場合、図17に示すように合成音像171は左から数えて3番目の仮想音源162cと4番目の仮想音源162dの間に位置することになる。また、仮想音源が5つである場合、3番目の仮想音源162cと4番目の仮想音源162dの間について、θ′=π/4[rad]より、φ≒0.078[rad]となり、i番目の小帯域におけるφをφ(i)とすると、φ(i)=θ′(i)−φ≒0.022π[rad]となる。このようにして、各小帯域における相関信号によって生じる合成音像の方向を、それを挟む2つの仮想音源の方向からの相対的な角度で表す。そして上述したように、その2つの仮想音源162c,162dでその合成音像を生じさせることを考える。そのためには、2つの仮想音源162c,162dからの出力音声信号の音圧バランスを調整すればよく、その調整方法については、再び数式(36)として利用した立体音響におけるサインの法則を用いる。
【0076】
ここで、i番目の小帯域における相関信号によって生じる合成音像を挟む2つの仮想音源162c,162dのうち、3番目の仮想音源162cに対するスケーリング係数をg、4番目の仮想音源162dに対するスケーリング係数をgとすると、3番目の仮想音源162cからはg・est′(S(i)(k))、4番目の仮想音源162dからはg・est′(S(i)(k))の音声信号を出力することになる。そして、g、gは立体音響におけるサインの法則により、
【数13】

を満たせばよい。
【0077】
一方、3番目の仮想音源162cと4番目の仮想音源162dからの電力の合計が、元の2chステレオの相関信号の電力と等しくなるようにg、gを正規化すると、
+g=1+[α(i) (39)
となる。
【0078】
これらを連立させることで、
【数14】

と求められる。この数式(40)に上述のφ(i)、φを代入することによって、g、gを算出する。このようにして算出したスケーリング係数に基づき、上述したように3番目の仮想音源162cにはg・est′(S(i)(k))の音声信号を、4番目の仮想音源162dからはg・est′(S(i)(k))の音声信号を割り当てる。そして、これも上述したように、無相関信号は両端の仮想音源162a,162eに割り当てられる。すなわち、1番目の仮想音源162aにはest′(N(i)(k))を、5番目の仮想音源162eにはest′(N(i)(k))を割り当てる。
【0079】
この例とは異なり、もし合成音像の推定方向が1番目と2番目の仮想音源の間であった場合には、1番目の仮想音源にはg・est′(S(i)(k))とest′(N(i)(k))の両方が割り当てられることになる。また、もし合成音像の推定方向が4番目と5番目の仮想音源の間であった場合には、5番目の仮想音源にはg・est′(S(i)(k))とest′(N(i)(k))の両方が割り当てられることになる。
【0080】
以上のようにして、ステップS138における、i番目の小帯域についての左右チャネルの相関信号と無相関信号の割り当てが行われる。これをステップS134a,S134bのループにより全ての小帯域について行う。その結果、仮想音源の数をJとすると、各仮想音源(出力チャネル)に対する周波数領域の出力音声信号Y(k),・・・,Y(k)が求まる。
【0081】
そして、得られた各出力チャネルについて、ステップS140〜S142の処理を実行する(ステップS139a,S139b)。以下、ステップS140〜S142の処理について説明する。
【0082】
まず、各出力チャネルを離散フーリエ逆変換することによって、時間領域の出力音声信号y′(m)を求める(ステップS140)。ここで、DFT−1は離散フーリエ逆変換を表す。
y′(m)=DFT−1(Y(k)) (1≦j≦J) (41)
ここで、数式(3)で説明したように、離散フーリエ変換した信号は、窓関数乗算後の信号であったため、逆変換して得られた信号y′(m)も窓関数が乗算された状態となっている。窓関数は数式(1)に示すような関数であり、読み込みは半セグメント長ずつずらしながら行ったため、前述した通り、1つ前に処理したセグメントの先頭から半セグメント長ずつずらしながら出力バッファに加算していくことにより変換後のデータを得る。
【0083】
しかし、このままでは、従来技術として上述した通り、図10の中央付近101で示すような不連続点が変換後のデータに多数含まれてしまい、それらが再生時にノイズとなって知覚される。このような不連続点は、直流成分の線スペクトルを考慮しないことによるものであることは前述した通りである。図18はそれを模式的に示した波形のグラフである。より詳細には、図18は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を説明するための模式図である。図18に示すグラフ180において、横軸は時間を表しており、例えば(M−2)(l)という記号は、l番目のセグメントのM−2番目の標本点であることを示している。グラフ180の縦軸は、それらの標本点に対する出力信号の値である。このグラフ180から分かるように、l番目のセグメントの最後から(l+1)番目のセグメントの最初にかけての部分で不連続点が生じてしまう。
【0084】
図18で説明したような問題を解決するために、本発明に係る音声信号変換装置は、次のように構成する。すなわち、本発明に係る音声信号変換装置は、変換部、相関信号抽出部、逆変換部、及び除去部を備える。変換部は、2つのチャネルの入力音声信号に離散フーリエ変換を施す。相関信号抽出部は、変換部で離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する。つまり、抽出部は、2つのチャネルの入力音声信号の相関信号を抽出する。逆変換部は、(a1)相関信号抽出部で抽出された相関信号に対して、または(a2)その相関信号及び無相関信号(その相関信号を除く信号)に対して、もしくは(b1)その相関信号から生成された音声信号、または(b2)その相関信号及びその無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す。なお、ここでの例では、逆変換部が上記(b2)の音声信号の例である、波面合成再生方式用の仮想音源への割り当て後の音声信号に対して、不連続点を除去した例を挙げたが、これに限らない。例えば、上記(a1)または(a2)の例である仮想音源への割り当て前の音声信号に対して、すなわち抽出された相関信号または抽出された相関信号及び無相関信号に対して、不連続点を除去し、その後、割り当てを行うようにしてもよい。
【0085】
そして、除去部は、逆変換部で離散フーリエ逆変換後の音声信号から波形の不連続点を除去する。つまり、除去部では、相関信号またはそれから生成された音声信号について、離散フーリエ逆変換した後の信号から波形の不連続点を除去する。
図12における音声信号処理部113の例では、上述の変換部、相関信号抽出部、及び逆変換部は音声信号分離抽出部121に含まれることになり、上述の除去部は雑音除去部122で例示できる。
【0086】
図19を参照して、図18で説明したような問題を解決するためのこのような処理について具体的に説明する。図19は、本発明に係る不連続点除去処理の一例を説明するための模式図で、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。
【0087】
本発明における不連続点除去処理では、図19のグラフ190で図18のグラフ180に対する除去例を示すように、l番目のセグメントの最後の波形の微分値と(l+1)番目のセグメントの先頭の微分値が一致するようにする。具体的には雑音除去部122が、l番目のセグメントの最後の2点による傾きが維持されるような(l+1)番目のセグメントの先頭の値となるよう、(l+1)番目のセグメントの波形に直流成分(バイアス)を加える。その結果、処理後の出力音声信号y″(m)は、
y″(m)=y′(m)+B (42)
となる。Bはバイアスを表す定数であり、1回前の出力音声信号と今回の処理の出力音声信号が出力バッファで加算された後、図19のグラフ190のように波形が連続するように決定される。
【0088】
このように、雑音除去部122は、処理セグメントの境界において波形の微分値を維持させるように離散フーリエ逆変換後の音声信号(相関信号またはそれから生成された音声信号)に直流成分を加算することで、不連続点を除去することが好ましい。なお、この例ではマイナスのバイアスをかけているが、当然、上記微分値を一致させるためにはプラスのバイアスをかける場合もある。
【0089】
このように、本発明によれば、2chや5.1ch等のマルチチャネル方式用の音声信号を、不連続点に起因するノイズを発生させることなく、波面合成再生方式で再生させるための音声信号に変換することが可能になる。そして、それにより、波面合成再生方式の特長である、どの位置の受聴者に対してもコンテンツ製作者の意図通りの音像定位を提供するという効果を享受できる。
【0090】
また、雑音除去部122で処理対象となる離散フーリエ逆変換後の音声信号は、各数式で例示したように、相関信号または相関信号及び無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、そのスケーリング処理後の音声信号としてもよい。つまり、相関信号や無相関信号に対しスケーリング処理を施し、スケーリング処理後の相関信号や無相関信号に対し、不連続点の除去を行うようにしてもよい。
【0091】
図20及び図21を参照して本発明のより好ましい例について説明する。図20は、図19の不連続点除去処理を適用して、左右チャネルの音声信号でなる或る音楽コンテンツを5つのチャネルに変換した結果の波形を示す図で、図21は、本発明に係る他の不連続点除去処理を適用して、図20で対象とした音楽コンテンツと同じ音楽コンテンツを5つのチャネルに変換した結果の波形を示す図である。つまり、図21は、左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。
【0092】
図19で説明した不連続点除去処理のみでは、バイアス成分が蓄積してしまい、波形の振幅がオーバフローしてしまうことがある。図20で例示する変換後の音楽コンテンツ200では、5つのチャネルの音声信号201〜205のうち、特に上から2,3番目のチャネルの音声信号202,203でバイアス成分の蓄積が多く見られ、音声信号203ではオーバーフローしてしまっていることが分かる。
【0093】
したがって、本発明では、次式のように、加算するバイアス成分(直流成分)の振幅の大きさを時間的に減少させることにより収束させることが好ましい。なお、「時間的に減少させる」とは、加算時点からの経過時間、例えば処理セグメント毎の開始点や不連続点の開始点からの経過時間に比例して減少させることを意味する。
y″(m)=y′(m)+B×((M−mσ)/M) (43)
ただし、σはその減少の程度を調整するパラメータであり、例えば0.5などとする。なお、減少のためにはB,σはいずれも正とする。さらに、加算用に求めたバイアスの値の絶対値がある一定以上となった場合には、その値に応じてσを動的に増減させるなどしてもよい。増減させるタイミングは次の処理セグメントでよい。これに限らず、減少させるための比例定数に相当するσを、バイアス値の絶対値(直流成分の振幅の大きさ)に応じて変更する(変化させる)ようにしておけば、フィードバック機能が働き、同様の効果が得られる。ただ、これらの方法では音声波形の振幅がオーバフローしないことを保障するものではない。
【0094】
よって、例えばバイアス値がある一定(所定値)以上の値になった場合には、数式(43)の第二項のバイアス項を加算しないようにする処理を安全弁の機能として加えてもよい。つまり、雑音除去部122は、加算するために求めた直流成分の振幅が所定値未満である場合のみ、直流成分の加算を実行する(不連続点の除去を実行する)ことが好ましい。この方法を採用することにより、図20の音楽コンテンツ200として出力される出力結果は、図21に示す音楽コンテンツ210のような出力結果となり、バイアス成分が蓄積しないようになる。特に、音楽コンテンツ200の音声信号202,203に対応する音声信号、すなわち音楽コンテンツ210の5つのチャネルの音声信号211〜215のうち上から2,3番目のチャネルの音声信号212,213においても、バイアス成分が蓄積されていないことが分かる。
【0095】
図22及び図23を参照して本発明のより好ましい例について説明する。図22は、図21と同じ不連続点除去処理を適用して、図20や図21で対象とした音楽コンテンツとは異なる音声信号波形の変化が激しい音楽コンテンツを、5つのチャネルに変換した結果の波形を示す図である。また、図23は、本発明に係る更に他の不連続点除去処理を適用して、図22で対象とした音楽コンテンツと同じ音楽コンテンツを5つのチャネルに変換した結果の波形を示す図である。つまり、図23は、音声信号波形の変化が激しい左右チャネルの音声信号を離散フーリエ変換し左右チャネルの直流成分を無視した場合に、離散フーリエ逆変換後のセグメント境界に生じる波形の不連続点を除去する方法を説明するための模式図である。
【0096】
例えば音声の子音部分など、音声信号がホワイトノイズに近いような場合、音声信号波形の変化が激しく元の波形が既に不連続に近いような状態になっているものがある。このような左右チャネルの音声信号を波面合成再生方式用の音声信号に変換する際に本発明の不連続点除去処理を適用すると、逆に波形を歪ませてしまう場合もある。つまり、元の波形が不連続に近いような状態の音声信号に対し、本発明の不連続点除去処理を適用すると、この処理がそのような元々不連続の状態に近い波形を無理矢理連続にしようとするため、逆に波形を歪ませてしまう可能性がある。その一例が図22である。図22で示す変換後の音楽コンテンツ220では、5つのチャネルの音声信号221〜225のうち1,5番目の音声信号221,225における矢印で示す箇所では特に、歪みが大きくなっており、ノイズとして知覚される。
【0097】
この問題を解消するために、本発明に係る音声信号変換処理における不連続点除去処理では次に示す方法を採用することが好ましい。それは、音声の子音部分など信号がホワイトノイズに近いような場合、入力音声信号の波形が所定時間内(例えば処理セグメント内やその半分内)で0を交差する回数が、その他の部分に比べて極端に増加することを利用する。なお、0をどこに採るようにするかは任意に決めておけば済む。よって、出力音声信号(少なくとも離散フーリエ逆変換後の音声信号)が半セグメント長の中で0を交差する回数をカウントし、それが一定の値(所定回数)以上である場合には、その次のセグメントを所定回数以上存在する箇所とみなし、その次のセグメント処理において、数式(42)や数式(43)における右辺第二項のバイアス項を加算しないこととする。つまり、それ以外の箇所でのみ不連続点除去処理を実行する。なお、カウントは、セグメント境界とは関係なく一定時間の音声波形について実行してもよいし、複数のセグメント処理分の音声波形について実行してもよく、いずれの場合にもそのカウント結果から次のセグメント処理でバイアス項を加算するか否かを決めればよい。
【0098】
このような方法を採用することで、音楽コンテンツ220の特に音声信号221,225における矢印で示す箇所は、図23で示す変換後の音楽コンテンツ230の5つのチャネルの音声信号231〜235のうちの音声信号231,235における矢印で示す箇所のように、歪みがなくなりノイズが発生しない。
【0099】
図23を参照しながら説明したより好ましい不連続点除去処理の効果について図9と比較しながら説明する。図24は、図23の不連続点除去処理を適用して、図8の音楽コンテンツを5つのチャネルに変換した結果の波形を示す図で、図25は、図24の音楽コンテンツ(変換後)のうち1つのチャネルの音声信号の一部を拡大した図である。上述したような不連続点除去処理(ノイズ除去処理)により、図8に示す音楽コンテンツ80が入力音声信号である場合、図24に示す音楽コンテンツ240における5つのチャネルの音声信号241〜245のように変換される。特に、音楽コンテンツ240における上から3番目のチャネルの音声信号243における、図9に対応する不連続点の箇所は、図25の音声信号250で示す通り、不連続点が解消され連続になっていることが分かる。このように不連続点を無くし、ノイズを除去できる。なお、図24及び図25は図23を参照しながら説明した好ましい不連続点除去処理を適用した場合の結果として説明したが、数式(42)または数式(43)のような処理でも、多少の違いはあるものの同様に音声信号250で示すように連続な音声信号になる。
【0100】
以上、本発明に係る音声信号変換処理について、入力音声信号が2chの音声信号である例を挙げて説明したが、次に他のマルチチャネルの音声信号であっても適用可能であることを説明する。ここでは、図26を参照しながら5.1chの入力音声信号を例に挙げるが、他のマルチチャネルの入力音声信号についても同様に適用できる。
【0101】
図26は、5.1chの音声信号を波面合成再生方式で再生する際に、使用するスピーカ群と仮想音源との位置関係の例を説明するための模式図である。5.1chの入力音声に本発明に係る音声信号変換処理を適用することを考える。5.1chのスピーカの配置方法については一般的に図2のように配置されることが多く、受聴者の前方には3つのスピーカ21L、22C,21Rが並んでいる。そして、映画などのコンテンツでは特に、前方中央のいわゆるセンターチャネルは人の台詞音声などの用途で使用されることが多い。つまり、センターチャネルと左チャネル、あるいはセンターチャネルと右チャネルの間で合成音像を生じさせるような音圧制御がされている箇所はあまり多くない。
【0102】
この性質を利用して、図26で示す位置関係260のように、5.1chの前方左右のスピーカ262a,262cへの入力音声信号を本方式(本発明に係る音声信号変換処理)によって変換し、例えば5つの仮想音源263a〜263eに割り当てた後、真ん中の仮想音源263cにセンターチャネル(センタースピーカ用のチャネル)の音声信号を加算する。そのようにして、出力音声信号を仮想音源に対する音像として波面合成再生方式でスピーカアレイ261により再生する。そして後方左右のチャネル用の入力音声信号については、後方に5.1chと同じくスピーカ262d,262eを設置し、そこから何も手を加えずに出力するなどすればよい。
【0103】
このように、マルチチャネルの入力音声信号が3つ以上のチャネルの入力音声信号であることを前提とし、マルチチャネルの入力音声信号のうちいずれか2つの入力音声信号に対して、本発明に係る上述のような音声信号変換処理を行って、波面合成再生方式で再生させるための音声信号を生成し、生成された音声信号に残りのチャネルの入力音声信号を加算して出力するようにしてもよい。この加算は、例えば音声出力信号生成部123において加算部を設けておけば済む。
【0104】
次に、本発明の実装について簡単に説明する。本発明は、例えばテレビなど映像の伴う装置に利用できる。本発明を適用可能な装置の様々な例について、図27〜図33を参照しながら説明する。図27〜図29は、それぞれ図11の音声データ再生装置を備えたテレビ装置の構成例を示す図で、図30及び図31は、それぞれ図11の音声データ再生装置を備えた映像投影システムの構成例を示す図、図32は、図11の音声データ再生装置を備えたテレビボードとテレビ装置とでなるシステムの構成例を示す図、図33は、図11の音声データ再生装置を備えた自動車の例を示す図である。なお、図27〜図33のいずれにおいても、スピーカアレイとしてLSP1〜LSP8で示す8個のスピーカを配列した例を挙げているが、スピーカの数は複数であればよい。
【0105】
本発明に係る音声信号変換装置やそれを備えた音声データ再生装置はテレビ装置に利用できる。テレビ装置におけるこれらの装置の配置は自由に決めればよい。図27で示すテレビ装置270のように、テレビ画面271の下方に、音声データ再生装置におけるスピーカLSP1〜LSP8を直線状に並べたスピーカ群272を設けてもよい。図28で示すテレビ装置280のように、テレビ画面281の上方に、音声データ再生装置におけるスピーカLSP1〜LSP8を直線状に並べたスピーカ群282を設けてもよい。図29で示すテレビ装置290のように、テレビ画面291に、音声データ再生装置における透明のフィルム型スピーカLSP1〜LSP8を直線状に並べたスピーカ群292を埋め込んでもよい。
【0106】
また、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、映像投影システムに利用できる。図30で示す映像投影システム300のように、映像投射装置301aで映像を投射する投射用スクリーン301bに、スピーカLSP1〜LSP8のスピーカ群302を埋め込むようにしてもよい。図31で示す映像投影システムのように、映像投射装置311aで映像を投射する音透過型のスクリーン311bの後ろに、スピーカLSP1〜LSP8を並べたスピーカ群312を配置してもよい。そのほか、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、テレビ台(テレビボード)に埋め込むこともできる。図32で示すシステム(ホームシアターシステム)320のように、テレビ装置321を搭載するためのテレビ台322aにスピーカLSP1〜LSP8を並べたスピーカ群322bを埋め込むようにしてもよい。さらに、本発明に係る音声信号変換装置やそれを備えた音声データ再生装置は、カーオーディオに適用することもできる。図33で示す自動車330のように、車内のダッシュボードにスピーカLSP1〜LSP8を曲線状に並べたスピーカ群332を埋め込むようにしてもよい。
【0107】
また、図27〜図33を参照して説明したような装置などに本発明に係る音声信号変換処理を適用した際、受聴者はこの変換処理(図11や図12の音声信号処理部113における処理)を行うか行わないかについて、装置本体に備えられたボタン操作やあるいはリモートコントローラ操作などでなされたユーザ操作により切り替える切替部を設けることもできる。この変換処理を行わない場合、2ch音声データの再生には、図6に示したように仮想音源を配置して波面合成再生方式で再生してもよい。あるいは図34に示す位置関係340のように、アレイスピーカ341の両端のスピーカ341L,341Rのみを用いて再生してもよい。5.1ch音声データについても同様に、3つの仮想音源に割り当ててもよいし、あるいは両端と真ん中の1つか2つのスピーカのみを用いて再生してもよい。
【0108】
また、本発明で適用可能な波面合成再生方式としては、上述したようにスピーカアレイ(複数のスピーカ)を備えて仮想音源に対する音像としてそれらのスピーカから出力するようにする方式であればよく、非特許文献1に記載のWFS方式の他、人間の音像知覚に関する現象としての先行音効果(ハース効果)を利用した方式など様々な方式が挙げられる。ここで、先行音効果とは、同一の音声を複数の音源から再生し、音源それぞれから聴取者に到達する各音声に小さな時間差がある場合、先行して到達した音声の音源方向に音像が定位する効果を指し示したものである。この効果を利用すれば、仮想音源位置に音像を知覚させることが可能となる。ただし、その効果だけで音像を明確に知覚させることは難しい。ここで、人間は音圧を最も高く感じる方向に音像を知覚するという性質も持ち合わせている。したがって、音声データ再生装置において、上述の先行音効果と、この最大音圧方向知覚の効果とを組み合わせ、これにより、少ない数のスピーカでも仮想音源の方向に音像を知覚させることが可能になる。
【0109】
以上、本発明に係る音声信号変換装置が、マルチチャネル方式用の音声信号に対して波面合成再生方式で再生させるための音声信号に変換することを前提にして説明したが、本発明は、同じくマルチチャネル方式用(チャネル数は同じでも異なってもよい)の音声信号に変換する場合などにも同様に適用できる。変換後の音声信号としては、配置は問わないが少なくとも複数のスピーカからなるスピーカ群によって再生させるための音声信号であればよい。それは、このような変換の場合にも上述のような離散フーリエ変換・逆変換を施し且つ相関信号を得るために直流成分を無視することがあるためである。このように変換された音声信号の再生方法としては、例えば1つ1つの仮想音源用に抽出した信号に対し、それぞれ1つずつスピーカを対応させて波面合成再生方式ではなく普通に出力再生させることが考えられる。さらに、両側の無相関信号はそれぞれ別の、側方や後方に設置するスピーカに割り当てるような再生方法など、様々な再生方法が考えられる。
【0110】
また、例えば図12で例示した音声信号処理部113における各構成要素など、本発明に係る音声信号変換装置の各構成要素やその装置を備えた音声データ再生装置の各構成要素は、例えばマイクロプロセッサ(またはDSP:Digital Signal Processor)、メモリ、バス、インターフェイス、周辺装置などのハードウェアと、これらのハードウェア上にて実行可能なソフトウェアとにより実現できる。上記ハードウェアの一部または全部は集積回路/IC(Integrated Circuit)チップセットとして搭載することができ、その場合、上記ソフトウェアは上記メモリに記憶しておければよい。また、本発明の各構成要素の全てをハードウェアで構成してもよく、その場合についても同様に、そのハードウェアの一部または全部を集積回路/ICチップセットとして搭載することも可能である。
【0111】
また、上述した様々な構成例における機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体を、音声信号変換装置となる汎用コンピュータ等の装置に供給し、その装置内のマイクロプロセッサまたはDSPによりプログラムコードが実行されることによっても、本発明の目的が達成される。この場合、ソフトウェアのプログラムコード自体が上述した様々な構成例の機能を実現することになり、このプログラムコード自体や、プログラムコードを記録した記録媒体(外部記録媒体や内部記憶装置)であっても、そのコードを制御側が読み出して実行することで、本発明を構成することができる。外部記録媒体としては、例えばCD−ROMまたはDVD−ROMなどの光ディスクやメモリカード等の不揮発性の半導体メモリなど、様々なものがが挙げられる。内部記憶装置としては、ハードディスクや半導体メモリなど様々なものが挙げられる。また、プログラムコードはインターネットからダウンロードして実行することや、放送波から受信して実行することもできる。
【0112】
以上、本発明に係る音声信号変換装置について説明したが、処理の流れをフロー図で例示したように、本発明は、マルチチャネルの入力音声信号をスピーカ群によって再生させるための音声信号に変換する音声信号変換方法としての形態も採り得る。
【0113】
この音声信号変換方法は、次の変換ステップ、抽出ステップ、逆変換ステップ、及び除去ステップを有する。変換ステップは、変換部が、2つのチャネルの入力音声信号に離散フーリエ変換を施すステップである。抽出ステップは、相関信号抽出部が、変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出するステップである。逆変換ステップは、逆変換部が、抽出ステップで抽出された相関信号または相関信号及び無相関信号に対して、もしくは相関信号から生成された音声信号に対して、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施すステップである。除去ステップは、除去部が、逆変換ステップで離散フーリエ逆変換後の音声信号から波形の不連続点を除去するステップである。その他の応用例については、音声信号変換装置について説明した通りであり、その説明を省略する。
【0114】
なお、上記プログラムコード自体は、換言すると、この音声信号変換方法をコンピュータに実行させるためのプログラムである。すなわち、このプログラムは、コンピュータに、2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、抽出ステップで抽出された相関信号または相関信号及び無相関信号に対して、もしくは相関信号から生成された音声信号に対して、もしくは相関信号及び無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、逆変換ステップで離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、を実行させるためのプログラムである。
【符号の説明】
【0115】
110…音声データ再生装置、111…デコーダ、112…音声信号抽出部、113…音声信号処理部、114…D/Aコンバータ、115…増幅器、116…スピーカ、121…音声信号分離抽出部、122…雑音除去部、123…音声出力信号生成部。

【特許請求の範囲】
【請求項1】
マルチチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換装置であって、
2つのチャネルの入力音声信号に離散フーリエ変換を施す変換部と、
該変換部で離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する相関信号抽出部と、
該相関信号抽出部で抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換部と、
該逆変換部で離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去部と、
を備えたことを特徴とする音声信号変換装置。
【請求項2】
前記除去部は、処理セグメントの境界において波形の微分値を維持させるように前記離散フーリエ逆変換後の音声信号に直流成分を加算することで、前記不連続点を除去することを特徴とする請求項1に記載の音声信号変換装置。
【請求項3】
前記除去部は、加算する前記直流成分の振幅の大きさを、加算時点からの経過時間に比例して減少させることを特徴とする請求項2に記載の音声信号変換装置。
【請求項4】
前記除去部は、前記減少させるための比例定数を、加算するために求めた前記直流成分の振幅の大きさに応じて変更することを特徴とする請求項3に記載の音声信号変換装置。
【請求項5】
前記除去部は、前記離散フーリエ逆変換後の音声信号の波形が0を交差する回数が所定時間内で所定回数以上存在する箇所以外において、前記直流成分の加算を実行することを特徴とする請求項4に記載の音声信号変換装置。
【請求項6】
前記除去部は、加算するために求めた前記直流成分の振幅が所定値未満である場合のみ、前記直流成分の加算を実行することを特徴とする請求項2〜5のいずれか1項に記載の音声信号変換装置。
【請求項7】
前記除去部は、前記離散フーリエ逆変換後の音声信号の波形が0を交差する回数が所定時間内で所定回数以上存在する箇所以外において、前記不連続点の除去を実行することを特徴とする請求項1〜3のいずれか1項に記載の音声信号変換装置。
【請求項8】
前記除去部で処理対象となる前記離散フーリエ逆変換後の音声信号は、前記相関信号または前記相関信号及び前記無相関信号に対して、時間領域あるいは周波数領域においてスケーリング処理を行い、該スケーリング処理後の音声信号とすることを特徴とする請求項1〜7のいずれか1項に記載の音声信号変換装置。
【請求項9】
前記マルチチャネルの入力音声信号は3つ以上のチャネルの入力音声信号とし、前記マルチチャネルの入力音声信号のうちいずれか2つの入力音声信号に対して、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部により前記不連続点の除去を行って、前記スピーカ群によって再生させるための音声信号を生成し、
前記音声信号変換装置は、生成された音声信号に残りのチャネルの入力音声信号を加算する加算部をさらに備えたことを特徴とする請求項1〜8のいずれか1項に記載の音声信号変換装置。
【請求項10】
前記マルチチャネルの入力音声信号を含むディジタルコンテンツを入力するディジタルコンテンツ入力部と、ディジタルコンテンツを復号化するデコーダ部と、該デコーダ部で復号化したディジタルコンテンツから音声信号を分離する音声信号抽出部と、該音声信号抽出部で抽出した音声信号から、3チャネル以上で且つ前記入力音声信号とは異なるマルチチャネルの音声信号に変換する音声信号処理部とをさらに備え、該音声信号処理部は、前記変換部、前記相関信号抽出部、前記逆変換部、及び前記除去部を備えることを特徴とする請求項1〜9のいずれか1項に記載の音声信号変換装置。
【請求項11】
前記ディジタルコンテンツ入力部は、ディジタルコンテンツを格納する記録媒体、ネットワークを介してディジタルコンテンツを配信するサーバまたはディジタルコンテンツを放送する放送局からディジタルコンテンツを入力することを特徴とする請求項10に記載の音声信号変換装置。
【請求項12】
前記音声信号処理部における処理を実行するか否かを、ユーザ操作に応じて切り替える切替部をさらに備えたことを特徴とする請求項1〜11のいずれか1項に記載の音声信号変換装置。
【請求項13】
マルチチャネルの入力音声信号を、スピーカ群によって再生させるための音声信号に変換する音声信号変換方法であって、
変換部が、2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、
相関信号抽出部が、前記変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、
逆変換部が、前記抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、
除去部が、前記逆変換ステップで離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、
を有することを特徴とする音声信号変換方法。
【請求項14】
コンピュータに、
2つのチャネルの入力音声信号に離散フーリエ変換を施す変換ステップと、
該変換ステップで離散フーリエ変換後の2つのチャネルの音声信号について、直流成分を無視して相関信号を抽出する抽出ステップと、
該抽出ステップで抽出された相関信号または該相関信号及び無相関信号に対して、もしくは前記相関信号から生成された音声信号に対して、もしくは前記相関信号及び前記無相関信号から生成された音声信号に対して、離散フーリエ逆変換を施す逆変換ステップと、
該逆変換ステップで離散フーリエ逆変換後の音声信号から波形の不連続点を除去する除去ステップと、
を実行させるためのプログラム。
【請求項15】
請求項14に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate


【公開番号】特開2011−239036(P2011−239036A)
【公開日】平成23年11月24日(2011.11.24)
【国際特許分類】
【出願番号】特願2010−106645(P2010−106645)
【出願日】平成22年5月6日(2010.5.6)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、独立行政法人情報通信研究機構「高度通信・放送研究開発委託研究/革新的な三次元映像技術による超臨場感コミュニケーション技術の研究開発」、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】