説明

音声信号処理方法及び音声信号処理装置

【課題】 仮想現実感を音声で実現しつつ処理量を低減することを目的とする。
【解決手段】 位置情報、移動情報、定位情報のうち少なくとも1つの情報をそれぞれ有するM(Mは複数)個の音源信号T1,T2,T3,T4を、この情報に基いて、この音源信号の数(M)よりも少ない数(N)の音源信号SL,SRを合成すると共にこの合成音源信号SL,SRに対応する情報を合成し、この合成情報を有するこのN個の合成音源信号SL,SRに対して仮想音像定位処理を施すようにしたものである。

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は例えばゲーム機やパーソナルコンピュータ等に適用して好適な音源信号に仮想音像定位処理を施すようにした音声信号処理方法及び音声信号処理装置に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】一般に、バーチャルリアリティ(仮想現実感)を音声で実現するにあたり、モノラルの音声信号にフィルター処理などの信号処理を施すことにより、2つのスピーカのみを用いて、音像をスピーカ間のみならず、聴取者に対して3次元空間のいずれの位置にでも定位することができる方法が知られている。
【0003】一方、この技術を用い、操作者の操作に伴い、映像と共に音像を仮想定位させることも知られている。ところが、近年のプロセッサの処理性能の向上に伴い、また制作者のより複雑な、よりリアルな仮想現実の再現への要求、追求に伴い、処理自体も高度にそして複雑になりつつある。
【0004】上述基本技術となる音声の仮想定位の手法は、もととなるモノラルの音声信号を点音源と捉えられているため、複雑な配置をしている音源の集合体や、聴取者の近傍に定位させるにあたり、もはや点音源では再現できないような大きな音源オブジェクトを表現しようと考えた場合、予めこれら音源の集合体を複数の点音源T1,T2,T3,T4に分けて保持しておき、これら複数の点音源を個々に仮想定位させ、図2Bに示す如く、それらをミキシングなど合成処理して音声信号を発する如くしている。
【0005】例えば図5に示す如く、4つの点音源T1,T2,T3,T4があった場合、この仮想位置が移動、回転した場合に、すべての点音源T1,T2,T3,T4に対して仮想音像定位処理を行い、受聴者Mに対し例えばT11,T21,T31,T41となる如くする。
【0006】また、仮想位置が変形を伴う場合も同様にすべての点音源T1,T2,T3,T4に対して仮想音像定位処理を行い受聴者Mに対し例えばT12,T22,T32,T42となる如くする。
【0007】然しながら、この手法を用いている以上、実現させようとする音源オブジェクト(位置情報等を有する音源)がより、複雑になり、点音源に分けた数が増していった場合、処理量が莫大なものとなってしまい、他の処理を圧迫してしまったり、または、プロセッサの許容処理量を超えてしまって再生不可能となる恐れがある。
【0008】本発明は斯る点に鑑み、バーチャルリアリティ(仮想現実感)を音声で実現しつつ処理量を低減することを目的とする。
【0009】
【課題を解決するための手段】本発明音声信号処理方法は、位置情報、移動情報、定位情報のうち少なくとも1つの情報をそれぞれ有するM(Mは複数)個の音源信号を、この情報に基いて、この音源信号の数(M)よりも少ない数(N)の音源信号を合成すると共にこの合成音源信号に対応する情報を合成し、この合成情報を有するこのN個の合成音源信号に対して仮想音像定位処理を施すようにしたものである。
【0010】本発明によれば、音源信号より合成した合成音源信号に対して仮想音像定位処理を施すようにしたので処理量を低減することができる。
【0011】また、本発明音声信号処理方法は、M(Mは複数)個の音源信号よりこの音源信号の数(M)より少ない数(N)の音源信号を合成し、このN個の合成音源信号の複数の予め定められた定位位置に基づいて、予め仮想音像定位処理を施し、この仮想音像定位処理を施され得られた複数の合成音源信号を記憶手段に保存し、この合成音源信号の再生定位位置に応じて、この記憶手段よりこの合成音源信号を読み出して再生するようにしたものである。
【0012】斯る、本発明によれば、予め仮想音像定位処理された合成音源信号を記憶手段に保存しておき、合成音源信号の再生定位位置に応じてこの記憶手段より合成音源信号を読み出して再生するようにしたので、処理量を低減できる。また合成音源信号を予め仮想音像定位処理するので、再生時におけるこの処理量も低減できる。
【0013】また、本発明音声信号処理装置は位置情報、移動情報、定位情報のうち少なくとも1つの情報をそれぞれ有するM(Mは複数)個の音源信号を、この情報に基いて合成し、この音源信号の数(M)よりも少ない数(N)の合成音源信号を生成する合成音源信号生成手段と、この合成音源信号に対応する情報を合成し、合成情報を生成する合成情報生成手段と、この合成情報を有するこのN個の合成音源信号に対して、仮想音像定位処理を施す信号処理手段とより成るものである。
【0014】本発明によれば、合成音源信号に対して仮想音像定位処理を施すので、信号処理量を低減することができる。
【0015】また、本発明音声信号処理装置は、M(Mは複数)個の音源信号より、この音源信号の数(M)より少ない数(N)の合成音源信号を生成する合成音源信号生成手段と、このN個の合成音源信号の複数の予め定められた定位位置に基づいて、予め仮想音像定位処理を施され得られた複数の合成音源信号を記憶する記憶手段とを有し、前記合成音源信号の再生定位位置に応じて、この記憶手段よりこの合成音源信号を読み出して再生するようにしたものである。
【0016】斯る、本発明によれば、予め仮想音像定位処理された合成音源信号を記憶手段に保存しておき、合成音源信号の再生定位位置に応じてこの記憶手段より合成音源信号を読み出して再生するようにしたので、処理量を低減できる。また合成音源信号を予め仮想音像定位処理するので、再生時におけるこの処理量も低減できる。
【0017】
【発明の実施の形態】以下、図面を参照して、本発明音声信号処理方法及び音声信号処理装置の実施の形態の例につき説明する。まず、図1を参照して本発明が適用される例えばゲーム機につき説明する。
【0018】このゲーム機は、機器全体の動作を制御するマイクロコンピュータより成る中央制御装置(CPU)1を有し、外部制御器(コントローラ)2を操作者が操作したとき、このコントローラ2の操作に応じた外部制御信号S1がこの中央制御装置1に入力される。
【0019】一方、中央制御装置1は音声を発する音源オブジェクトの位置や移動を決定するため情報をメモリ3から読み取り、音源オブジェクト(点音源)の位置を決定する際の情報としても用いることができる。このメモリ3は例えばROM、RAM、CD−ROM、DVD−ROM等より構成され、必要な情報が書き込まれている。
【0020】操作者が何も操作しない場合であっても、音源オブジェクトが移動する情報が記録されていたり、揺らぎを表現するために、ランダムに移動するような情報が記録されている場合がある。ランダムな移動を実現するために、中央制御装置1内で乱数を発生するソフトウエア又はハードウエアが搭載されていたり、メモリ3内において乱数表のようなものを搭載しておくことが考えられる。
【0021】このメモリ3は、必ずしも同一機器内にあるとは限らず、例えばネットワークを経由した別機器より情報を受け取る場合がある。更に、別機器に対して、別に操作者が存在する場合も考えられ、その操作情報をもとにする位置、移動情報、更には別機器より発せられる揺らぎ情報なども含めて音源オブジェクトの位置決定がなされるような場合もある。
【0022】中央制御装置1により得られた情報などによって決定された位置、移動情報(定位情報を含む)は、音声処理部4に伝達される。音声処理部4では、伝達された位置、移動情報に基づいて入来する音声信号に仮想音像定位処理を施し、最終的にステレオの音声出力信号S2として、音声出力端子5より出力される。
【0023】再現しようとする音源オブジェクトが複数あるときには、中央制御装置1内で複数の音源オブジェクトの位置、移動情報を決定して、音声処理部4にその情報を送り、音声処理部4内では、音源オブジェクトごとに個別に、仮想音像定位処理を施し、その後、それぞれの音源オブジェクトに対応する音声信号を左チャンネル、右チャンネルごとに加算(ミキシング)して、最終的に、すべての音源オブジェクトより発せられる音声信号をステレオの出力信号として、音声出力端子5に送られる。
【0024】仮想音像定位処理を施さない、他の音声信号がある場合は、ここで同時にミキシングして出力される手法など考えられるが、本例ではこの仮想音像定位処理を施さない音声信号に関しては、何も規定しない。
【0025】同時に、中央制御装置1は映像処理部6に対して、表示にかかる情報を伝達し、映像処理部6内では適当な映像処理を施した後、映像信号S3は映像出力端子7より出力される。
【0026】これら音声信号S2及び映像信号S3は、例えばモニタ8の音声入力端子及び映像入力端子に供給され、遊戯者、聴取者などは、バーチャルリアリティを体感するものとなる。
【0027】本例において、複雑な物体を再現する手法について述べる。例えば、恐竜のようなものの実現を考えた場合、その頭部からは声が発せられ、足部からは足音などの音声、尾部があればそこからはまた別の音(例えば尾が地をたたく音)、更には腹部からは異音を発する、更には現実感を増すために更に様々な部分から異なる音を発するよう考える。
【0028】本例のようにゲーム機においてCG(コンピュータグラフィックス)を用いたバーチャルリアリティの再現では、描画する画像の最小単位(ポリゴンなど)に対応させて点音源を配置し、その画像の動きと同じように点音源を移動させ、仮想音像定位処理することにより現実感を再現する手法が用いられている。
【0029】先の、恐竜の例で言えば、声、足跡、尾から発する音などを、画像の口部、足部、尾部に対応して配置させ、それらの動きに合わせて、個々に仮想音像定位処理を行い、それぞれ仮想音像定位処理により得られたステレオ音声信号を左右チャンネルごとに加算して音声出力端子5より出力される。この手法を用いた場合、音源オブジェクト(配置しようとする点音源)の数が増せば増すほど、現実に近い表現ができるが、一方処理は肥大化していく。
【0030】そこで本例においては、音声の位置把握における画像との特異性に着目し、図3Aに示す如く上述音源オブジェクトT1,T2,T3,T4を合成して予めステレオの音声SL,SRとして処理して保持しておくこととする。この場合、この合成音源のステレオ音源SL,SRの位置、移動情報も合成し、この合成情報を形成する如くする。
【0031】一般には聴覚による位置把握のほうが視覚による位置把握に比べてあいまいであり、先にも述べた描画の最小単位にあわせて音源オブジェクトを配置せずしても、位置の把握、空間の認識は可能である。つまり、画像処理ほどの細かい単位で、音源を分類する必要は無い。
【0032】さらに、従来のステレオ再生技術を用いれば、例えば2つのスピーカで再生した場合、それらスピーカから発せられる音は、必ずしもそれらスピーカが置かれている位置にすべての音が配置されているようには聞こえず、2つのスピーカを結ぶ面上に音を配置したように聴取者Mは音を聞くことができる。
【0033】近年の録音編集技術の進歩により、上述2つのスピーカの面上のみならず、その面を中心として、奥行き感を付加して再現することさえ可能になっている。
【0034】以上のような背景から、図3Aに示す如く複数ある音源オブジェクトT1,T2,T3,T4を合成してステレオ音声SL,SRとして事前に編集して保持しておく。この場合、この合成音源のステレオ音源SL,SRの位置、移動情報も合成し、この合成情報を形成する如くする。この合成情報としては、1グループ内合成音源に含まれる位置、移動情報の全ての平均、加算、之等よりのいずれかの選択、推定等がある。この合成音源としてのステレオ音声SL,SRを用い、合成ステレオ音源SL,SRを高々2点適切に配置する。
【0035】映像が伴うものであれば、その映像に用いられる適切な2つのポリゴンに上述得られた2点の音源を配置すれば良いことになる。また、必ずしも映像に配置せず、独自に音源を配置して処理することも可能である。この設定された2点に対して、中央制御装置1では移動などの制御を行い、音声処理部4においては、上述合成情報に基づきこの2点の合成音源SL,SRを仮想音像定位処理し、各左右チャンネル成分に対して図2Aに示す如くミキシング処理を行い出力する。
【0036】例えば図3Bに示す如く、合成音源としてのステレオ音源SL,SRにグループ化処理したときはこの仮想位置が移動、回転した場合には、この移動、回転に基づく合成情報に対応して2点の合成音源のステレオ音源SL,SRに対して仮想音像定位処理を行い、聴取者Mに対し例えば音源SL1,SR1となる如くする。
【0037】また、仮想位置が変形を伴う場合も、同様に変形に基づく合成情報に対応し2点の合成音源のステレオ音源SL,SRに対してのみ仮想音像定位処理を行い聴取者Mに対し例えば音源SL2,SR2となる如くする。
【0038】以上のように、従来音源オブジェクトの数だけの位置、移動情報を制御、仮想音像定位処理する必要があったものが、本例においてはステレオ音源SL,SRに対して高々2つの位置、移動情報を音声処理部4に伝達し、高々2つの仮想音像定位処理を施し、それらを図2Aに示す如く左右チャンネル毎に加算(ミキシング)するだけに処理は軽減される。
【0039】上述、音源オブジェクトの前処理(グループ化処理、ステレオ音声信号化)は、必ずしも発音しようとするすべての音源オブジェクトをステレオの音声にまとめてしまおうというものではなく、すべての音源オブジェクトを従来どおりすべて位置、移動情報を制御し、仮想音像定位処理を施す場合の処理量との比較、グループ化してしまうことによる効果の変化等を製作者が比較して行うべきものである。
【0040】例えば先にも例をあげた恐竜が2頭いた場合、それら音源オブジェクトすべてを1つのグループとしてステレオ音声信号に前処理してしまった場合、それら2頭の恐竜が常に並んで移動する場合は、その再現が可能となるが、2頭が別々の移動をするようなことを考えた場合、その再現は難しくなる。
【0041】一方、2頭分の音源オブジェクトをグループ化してしまうことによって得られるまた別の効果を狙った場合は当然1つのグループに前処理しておくことがある。また、たとえ恐竜が1頭であったとしてもそれら音源を1つにグループ化する必要は無く、例えば、上半身と下半身で2つのグループとしておくことにより、1つにグループ化した場合とは仮想現実の実現への効果が異なる場合もあり、そちらを採用することも考えられる。
【0042】更には、グループ化した音声は必ずしもステレオ音声と限定するものではなく、例えば図4に示す如く点音源として実現可能であればモノラル音源SOとしてしまうこともできる。
【0043】図4例においては、図4Aに示す如く、予め複数の音源オブジェクトT1,T2,T3,T4をグループ化処理して合成音源信号としてのステレオ音源信号SL,SRとして保持しておく。また聴取者Mから離れた位置に定位させる場合を考え、図4Bに示す如く更に大まかな音源SOに変換(更なるグループ化)して保持しておく。
【0044】この場合はステレオ音声SL,SRとしてグループ化された音源オブジェクトをモノラル音声信号となるようにグループ化処理を行い保持しておいた音源SOを図4Cに示す如く定位させることで、位置、移動情報量の縮小、仮想音像定位処理の削減となる。
【0045】本例によれば、従来細分化されていた音源オブジェクトを1つまたは2つの音源にグループ化して、それらのグループごとに適当なチャンネルの音声として予め処理、加工、保持しておき、仮想空間の再現に伴いそれらの前処理された音声を適宜仮想音像定位処理していくことで処理量の低減が図れる。
【0046】尚上述例では、グループ化して1つまたは2つの音源信号を保持する如く述べたが、従来ステレオ音声で再現しているものより複雑に再現しようとするのであれば3つ以上音源信号を保持する如くしても良い。この場合保持している音源信号の数だけ位置、移動制御、仮想音像定位処理が必要となるが、このグループ化した音源信号の数Nをもとの音源オブジェクトの数(もともとの点音源の数)Mよりも少なくなるように適当にグループ化することにより、処理量は低減される。
【0047】また上述例においては仮想音像定位処理を経過時間に従って行うように述べたが、この代わりにM(Mは複数)個例えば4個の音源信号より、この音源信号の数(M)より少ない数(N)の音源信号を合成し、このN個例えば2個の合成音源信号の複数の予め定められた定位位置に基づいて予め仮想音像定位処理を施し、この仮想音像定位処理を施され、得られた複数の合成音源信号をメモリ(記憶手段)3に保存し、この合成音源信号の再生定位位置に応じて、このメモリ3よりこの合成音源信号を読み出して再生するようにしても良い。
【0048】この場合、上述例同様の作用効果が得られると共に予め仮想音像定位処理された合成音源信号をメモリ3に保存しておき、合成音源信号の再生定位位置に応じて、このメモリ3より合成音源信号を読み出して再生するようにしたので、この再生時の信号処理量も低減できる。
【0049】また上述例では、仮想音像定位処理して、ステレオ音声信号を得ているが、例えば5.1ch等のマルチチャンネル・サラウンド信号として出力するようにしても良い。
【0050】また、本発明は上述例に限ることなく、本発明の要旨を逸脱することなく、その他種々の構成が採り得ることは勿論である。
【0051】
【発明の効果】本発明によれば仮想現実感を音声で実現しつつ信号処理量を低減することができる。
【図面の簡単な説明】
【図1】ゲーム機の例を示す構成図である。
【図2】ミキシング処理の例の説明に供する線図である。
【図3】本発明音声信号処理方法の実施の形態の例の説明に供する線図である。
【図4】本発明音声信号処理方法の実施の形態の他の例の説明に供する線図である。
【図5】従来の音声信号処理方法の例の説明に供する線図である。
【符号の説明】
1‥‥中央制御装置、2‥‥コントローラ、3‥‥メモリ、4‥‥音声処理部、6‥‥映像処理部、8‥‥モニタ、T1,T2,T3,T4‥‥点音源、SL,SR‥‥合成ステレオ音源(合成音源)、SO‥‥合成音源

【特許請求の範囲】
【請求項1】 位置情報、移動情報、定位情報のうち少なくとも1つの情報をそれぞれ有するM(Mは複数)個の音源信号を、前記情報に基いて、前記音源信号の数(M)よりも少ない数(N)の音源信号を合成すると共にこの合成音源信号に対応する情報を合成し、前記合成情報を有する前記N個の合成音源信号に対して、仮想音像定位処理を施すようにしたことを特徴とする音声信号処理方法。
【請求項2】 請求項1記載の音声信号処理方法において、前記M個の音源信号のうちの少なくとも1つの音源信号又は前記N個の合成音源信号のうち少なくとも1つの合成音源信号が有する前記情報は、ユーザの操作に応じて変更できるようにしたことを特徴とする音声信号処理方法。
【請求項3】 請求項1記載の音声信号処理方法において、前記合成音源信号の数Nが2であることを特徴とする音声信号処理方法。
【請求項4】 請求項1記載の音声信号処理方法において、前記M個の音源信号のうち少なくとも1つの音源信号又は前記N個の合成音源信号のうち少なくとも1つの合成音源信号が有する情報に対し、ランダムな揺らぎを与えるステップをも備えることを特徴とする音声信号処理方法。
【請求項5】 M(Mは複数)個の音源信号より、該音源信号の数(M)より少ない数(N)の音源信号を合成し、前記N個の合成音源信号の複数の予め定められた定位位置に基づいて、予め仮想音像定位処理を施し、この仮想音像定位処理を施され得られた複数の合成音源信号を記憶手段に保存し、前記合成音源信号の再生定位位置に応じて、前記記憶手段より前記合成音源信号を読み出して再生するようにしたことを特徴とする音声信号処理方法。
【請求項6】 請求項5記載の音声信号処理方法において、前記合成音源信号の再生定位位置はユーザの操作に応じて変更できるようにしたことを特徴とする音声信号処理方法。
【請求項7】 請求項5記載の音声信号処理方法において、前記記憶手段より読み出された前記合成音源信号の再生定位位置に対し、ランダムな揺らぎを与えるステップをも備えることを特徴とする音声信号処理方法。
【請求項8】 請求項5記載の音声信号処理方法において、前記合成音源信号の数(N)が2であることを特徴とする音声信号処理方法。
【請求項9】 請求項1又は5記載の音声信号処理方法において、前記合成音源信号の数(N)は2以上であって、この合成音源信号が有する情報はそれぞれの合成音源信号間の相対的な定位情報であることを特徴とする音声信号処理方法。
【請求項10】 請求項1記載の音声信号処理方法において、前記M個の音源信号又は前記N個の合成音源信号の再生定位位置の変化に対応して映像信号が変更され、この映像信号が出力されるステップをも備えることを特徴とする音声信号処理方法。
【請求項11】 位置情報、移動情報、定位情報のうち少なくとも1つの情報をそれぞれ有するM(Mは複数)個の音源信号を、前記情報に基いて合成し、前記音源信号の数(M)よりも少ない数(N)の合成音源信号を生成する合成音源信号生成手段と、前記合成音源信号に対応する情報を合成し、合成情報を生成する合成情報生成手段と、前記合成情報を有する前記N個の合成音源信号に対して、仮想音像定位処理を施す信号処理手段とより成ることを特徴とする音声信号処理装置。
【請求項12】 M(Mは複数)個の音源信号より、この音源信号の数(M)より少ない数(N)の合成音源信号を生成する合成音源信号生成手段と、前記N個の合成音源信号の複数の予め定められた定位位置に基づいて、予め仮想音像定位処理を施され得られた複数の合成音源信号を記憶する記憶手段とを有し、前記合成音源信号の再生定位位置に応じて、前記記憶手段より前記合成音源信号を読み出して再生するようにしたことを特徴とする音声信号処理装置。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【図4】
image rotate


【図5】
image rotate


【公開番号】特開2002−51399(P2002−51399A)
【公開日】平成14年2月15日(2002.2.15)
【国際特許分類】
【出願番号】特願2000−235926(P2000−235926)
【出願日】平成12年8月3日(2000.8.3)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】