音声信号処理方法及び音声信号処理装置

【課題】仮想現実感を音声で実現しつつ処理量を低減することを目的とする。
【解決手段】位置情報、移動情報、定位情報のうち少なくとも１つの情報をそれぞれ有するＭ（Ｍは複数）個の音源信号Ｔ１，Ｔ２，Ｔ３，Ｔ４を、この情報に基いて、この音源信号の数（Ｍ）よりも少ない数（Ｎ）の音源信号ＳＬ，ＳＲを合成すると共にこの合成音源信号ＳＬ，ＳＲに対応する情報を合成し、この合成情報を有するこのＮ個の合成音源信号ＳＬ，ＳＲに対して仮想音像定位処理を施すようにしたものである。

【発明の詳細な説明】
【０００１】
【発明の属する技術分野】本発明は例えばゲーム機やパーソナルコンピュータ等に適用して好適な音源信号に仮想音像定位処理を施すようにした音声信号処理方法及び音声信号処理装置に関する。
【０００２】
【従来の技術及び発明が解決しようとする課題】一般に、バーチャルリアリティ（仮想現実感）を音声で実現するにあたり、モノラルの音声信号にフィルター処理などの信号処理を施すことにより、２つのスピーカのみを用いて、音像をスピーカ間のみならず、聴取者に対して３次元空間のいずれの位置にでも定位することができる方法が知られている。
【０００３】一方、この技術を用い、操作者の操作に伴い、映像と共に音像を仮想定位させることも知られている。ところが、近年のプロセッサの処理性能の向上に伴い、また制作者のより複雑な、よりリアルな仮想現実の再現への要求、追求に伴い、処理自体も高度にそして複雑になりつつある。
【０００４】上述基本技術となる音声の仮想定位の手法は、もととなるモノラルの音声信号を点音源と捉えられているため、複雑な配置をしている音源の集合体や、聴取者の近傍に定位させるにあたり、もはや点音源では再現できないような大きな音源オブジェクトを表現しようと考えた場合、予めこれら音源の集合体を複数の点音源Ｔ１，Ｔ２，Ｔ３，Ｔ４に分けて保持しておき、これら複数の点音源を個々に仮想定位させ、図２Ｂに示す如く、それらをミキシングなど合成処理して音声信号を発する如くしている。
【０００５】例えば図５に示す如く、４つの点音源Ｔ１，Ｔ２，Ｔ３，Ｔ４があった場合、この仮想位置が移動、回転した場合に、すべての点音源Ｔ１，Ｔ２，Ｔ３，Ｔ４に対して仮想音像定位処理を行い、受聴者Ｍに対し例えばＴ１１，Ｔ２１，Ｔ３１，Ｔ４１となる如くする。
【０００６】また、仮想位置が変形を伴う場合も同様にすべての点音源Ｔ１，Ｔ２，Ｔ３，Ｔ４に対して仮想音像定位処理を行い受聴者Ｍに対し例えばＴ１２，Ｔ２２，Ｔ３２，Ｔ４２となる如くする。
【０００７】然しながら、この手法を用いている以上、実現させようとする音源オブジェクト（位置情報等を有する音源）がより、複雑になり、点音源に分けた数が増していった場合、処理量が莫大なものとなってしまい、他の処理を圧迫してしまったり、または、プロセッサの許容処理量を超えてしまって再生不可能となる恐れがある。
【０００８】本発明は斯る点に鑑み、バーチャルリアリティ（仮想現実感）を音声で実現しつつ処理量を低減することを目的とする。
【０００９】
【課題を解決するための手段】本発明音声信号処理方法は、位置情報、移動情報、定位情報のうち少なくとも１つの情報をそれぞれ有するＭ（Ｍは複数）個の音源信号を、この情報に基いて、この音源信号の数（Ｍ）よりも少ない数（Ｎ）の音源信号を合成すると共にこの合成音源信号に対応する情報を合成し、この合成情報を有するこのＮ個の合成音源信号に対して仮想音像定位処理を施すようにしたものである。
【００１０】本発明によれば、音源信号より合成した合成音源信号に対して仮想音像定位処理を施すようにしたので処理量を低減することができる。
【００１１】また、本発明音声信号処理方法は、Ｍ（Ｍは複数）個の音源信号よりこの音源信号の数（Ｍ）より少ない数（Ｎ）の音源信号を合成し、このＮ個の合成音源信号の複数の予め定められた定位位置に基づいて、予め仮想音像定位処理を施し、この仮想音像定位処理を施され得られた複数の合成音源信号を記憶手段に保存し、この合成音源信号の再生定位位置に応じて、この記憶手段よりこの合成音源信号を読み出して再生するようにしたものである。
【００１２】斯る、本発明によれば、予め仮想音像定位処理された合成音源信号を記憶手段に保存しておき、合成音源信号の再生定位位置に応じてこの記憶手段より合成音源信号を読み出して再生するようにしたので、処理量を低減できる。また合成音源信号を予め仮想音像定位処理するので、再生時におけるこの処理量も低減できる。
【００１３】また、本発明音声信号処理装置は位置情報、移動情報、定位情報のうち少なくとも１つの情報をそれぞれ有するＭ（Ｍは複数）個の音源信号を、この情報に基いて合成し、この音源信号の数（Ｍ）よりも少ない数（Ｎ）の合成音源信号を生成する合成音源信号生成手段と、この合成音源信号に対応する情報を合成し、合成情報を生成する合成情報生成手段と、この合成情報を有するこのＮ個の合成音源信号に対して、仮想音像定位処理を施す信号処理手段とより成るものである。
【００１４】本発明によれば、合成音源信号に対して仮想音像定位処理を施すので、信号処理量を低減することができる。
【００１５】また、本発明音声信号処理装置は、Ｍ（Ｍは複数）個の音源信号より、この音源信号の数（Ｍ）より少ない数（Ｎ）の合成音源信号を生成する合成音源信号生成手段と、このＮ個の合成音源信号の複数の予め定められた定位位置に基づいて、予め仮想音像定位処理を施され得られた複数の合成音源信号を記憶する記憶手段とを有し、前記合成音源信号の再生定位位置に応じて、この記憶手段よりこの合成音源信号を読み出して再生するようにしたものである。
【００１６】斯る、本発明によれば、予め仮想音像定位処理された合成音源信号を記憶手段に保存しておき、合成音源信号の再生定位位置に応じてこの記憶手段より合成音源信号を読み出して再生するようにしたので、処理量を低減できる。また合成音源信号を予め仮想音像定位処理するので、再生時におけるこの処理量も低減できる。
【００１７】
【発明の実施の形態】以下、図面を参照して、本発明音声信号処理方法及び音声信号処理装置の実施の形態の例につき説明する。まず、図１を参照して本発明が適用される例えばゲーム機につき説明する。
【００１８】このゲーム機は、機器全体の動作を制御するマイクロコンピュータより成る中央制御装置（ＣＰＵ）１を有し、外部制御器（コントローラ）２を操作者が操作したとき、このコントローラ２の操作に応じた外部制御信号Ｓ１がこの中央制御装置１に入力される。
【００１９】一方、中央制御装置１は音声を発する音源オブジェクトの位置や移動を決定するため情報をメモリ３から読み取り、音源オブジェクト（点音源）の位置を決定する際の情報としても用いることができる。このメモリ３は例えばＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等より構成され、必要な情報が書き込まれている。
【００２０】操作者が何も操作しない場合であっても、音源オブジェクトが移動する情報が記録されていたり、揺らぎを表現するために、ランダムに移動するような情報が記録されている場合がある。ランダムな移動を実現するために、中央制御装置１内で乱数を発生するソフトウエア又はハードウエアが搭載されていたり、メモリ３内において乱数表のようなものを搭載しておくことが考えられる。
【００２１】このメモリ３は、必ずしも同一機器内にあるとは限らず、例えばネットワークを経由した別機器より情報を受け取る場合がある。更に、別機器に対して、別に操作者が存在する場合も考えられ、その操作情報をもとにする位置、移動情報、更には別機器より発せられる揺らぎ情報なども含めて音源オブジェクトの位置決定がなされるような場合もある。
【００２２】中央制御装置１により得られた情報などによって決定された位置、移動情報（定位情報を含む）は、音声処理部４に伝達される。音声処理部４では、伝達された位置、移動情報に基づいて入来する音声信号に仮想音像定位処理を施し、最終的にステレオの音声出力信号Ｓ２として、音声出力端子５より出力される。
【００２３】再現しようとする音源オブジェクトが複数あるときには、中央制御装置１内で複数の音源オブジェクトの位置、移動情報を決定して、音声処理部４にその情報を送り、音声処理部４内では、音源オブジェクトごとに個別に、仮想音像定位処理を施し、その後、それぞれの音源オブジェクトに対応する音声信号を左チャンネル、右チャンネルごとに加算（ミキシング）して、最終的に、すべての音源オブジェクトより発せられる音声信号をステレオの出力信号として、音声出力端子５に送られる。
【００２４】仮想音像定位処理を施さない、他の音声信号がある場合は、ここで同時にミキシングして出力される手法など考えられるが、本例ではこの仮想音像定位処理を施さない音声信号に関しては、何も規定しない。
【００２５】同時に、中央制御装置１は映像処理部６に対して、表示にかかる情報を伝達し、映像処理部６内では適当な映像処理を施した後、映像信号Ｓ３は映像出力端子７より出力される。
【００２６】これら音声信号Ｓ２及び映像信号Ｓ３は、例えばモニタ８の音声入力端子及び映像入力端子に供給され、遊戯者、聴取者などは、バーチャルリアリティを体感するものとなる。
【００２７】本例において、複雑な物体を再現する手法について述べる。例えば、恐竜のようなものの実現を考えた場合、その頭部からは声が発せられ、足部からは足音などの音声、尾部があればそこからはまた別の音（例えば尾が地をたたく音）、更には腹部からは異音を発する、更には現実感を増すために更に様々な部分から異なる音を発するよう考える。
【００２８】本例のようにゲーム機においてＣＧ（コンピュータグラフィックス）を用いたバーチャルリアリティの再現では、描画する画像の最小単位（ポリゴンなど）に対応させて点音源を配置し、その画像の動きと同じように点音源を移動させ、仮想音像定位処理することにより現実感を再現する手法が用いられている。
【００２９】先の、恐竜の例で言えば、声、足跡、尾から発する音などを、画像の口部、足部、尾部に対応して配置させ、それらの動きに合わせて、個々に仮想音像定位処理を行い、それぞれ仮想音像定位処理により得られたステレオ音声信号を左右チャンネルごとに加算して音声出力端子５より出力される。この手法を用いた場合、音源オブジェクト（配置しようとする点音源）の数が増せば増すほど、現実に近い表現ができるが、一方処理は肥大化していく。
【００３０】そこで本例においては、音声の位置把握における画像との特異性に着目し、図３Ａに示す如く上述音源オブジェクトＴ１，Ｔ２，Ｔ３，Ｔ４を合成して予めステレオの音声ＳＬ，ＳＲとして処理して保持しておくこととする。この場合、この合成音源のステレオ音源ＳＬ，ＳＲの位置、移動情報も合成し、この合成情報を形成する如くする。
【００３１】一般には聴覚による位置把握のほうが視覚による位置把握に比べてあいまいであり、先にも述べた描画の最小単位にあわせて音源オブジェクトを配置せずしても、位置の把握、空間の認識は可能である。つまり、画像処理ほどの細かい単位で、音源を分類する必要は無い。
【００３２】さらに、従来のステレオ再生技術を用いれば、例えば２つのスピーカで再生した場合、それらスピーカから発せられる音は、必ずしもそれらスピーカが置かれている位置にすべての音が配置されているようには聞こえず、２つのスピーカを結ぶ面上に音を配置したように聴取者Ｍは音を聞くことができる。
【００３３】近年の録音編集技術の進歩により、上述２つのスピーカの面上のみならず、その面を中心として、奥行き感を付加して再現することさえ可能になっている。
【００３４】以上のような背景から、図３Ａに示す如く複数ある音源オブジェクトＴ１，Ｔ２，Ｔ３，Ｔ４を合成してステレオ音声ＳＬ，ＳＲとして事前に編集して保持しておく。この場合、この合成音源のステレオ音源ＳＬ，ＳＲの位置、移動情報も合成し、この合成情報を形成する如くする。この合成情報としては、１グループ内合成音源に含まれる位置、移動情報の全ての平均、加算、之等よりのいずれかの選択、推定等がある。この合成音源としてのステレオ音声ＳＬ，ＳＲを用い、合成ステレオ音源ＳＬ，ＳＲを高々２点適切に配置する。
【００３５】映像が伴うものであれば、その映像に用いられる適切な２つのポリゴンに上述得られた２点の音源を配置すれば良いことになる。また、必ずしも映像に配置せず、独自に音源を配置して処理することも可能である。この設定された２点に対して、中央制御装置１では移動などの制御を行い、音声処理部４においては、上述合成情報に基づきこの２点の合成音源ＳＬ，ＳＲを仮想音像定位処理し、各左右チャンネル成分に対して図２Ａに示す如くミキシング処理を行い出力する。
【００３６】例えば図３Ｂに示す如く、合成音源としてのステレオ音源ＳＬ，ＳＲにグループ化処理したときはこの仮想位置が移動、回転した場合には、この移動、回転に基づく合成情報に対応して２点の合成音源のステレオ音源ＳＬ，ＳＲに対して仮想音像定位処理を行い、聴取者Ｍに対し例えば音源ＳＬ１，ＳＲ１となる如くする。
【００３７】また、仮想位置が変形を伴う場合も、同様に変形に基づく合成情報に対応し２点の合成音源のステレオ音源ＳＬ，ＳＲに対してのみ仮想音像定位処理を行い聴取者Ｍに対し例えば音源ＳＬ２，ＳＲ２となる如くする。
【００３８】以上のように、従来音源オブジェクトの数だけの位置、移動情報を制御、仮想音像定位処理する必要があったものが、本例においてはステレオ音源ＳＬ，ＳＲに対して高々２つの位置、移動情報を音声処理部４に伝達し、高々２つの仮想音像定位処理を施し、それらを図２Ａに示す如く左右チャンネル毎に加算（ミキシング）するだけに処理は軽減される。
【００３９】上述、音源オブジェクトの前処理（グループ化処理、ステレオ音声信号化）は、必ずしも発音しようとするすべての音源オブジェクトをステレオの音声にまとめてしまおうというものではなく、すべての音源オブジェクトを従来どおりすべて位置、移動情報を制御し、仮想音像定位処理を施す場合の処理量との比較、グループ化してしまうことによる効果の変化等を製作者が比較して行うべきものである。
【００４０】例えば先にも例をあげた恐竜が２頭いた場合、それら音源オブジェクトすべてを１つのグループとしてステレオ音声信号に前処理してしまった場合、それら２頭の恐竜が常に並んで移動する場合は、その再現が可能となるが、２頭が別々の移動をするようなことを考えた場合、その再現は難しくなる。
【００４１】一方、２頭分の音源オブジェクトをグループ化してしまうことによって得られるまた別の効果を狙った場合は当然１つのグループに前処理しておくことがある。また、たとえ恐竜が１頭であったとしてもそれら音源を１つにグループ化する必要は無く、例えば、上半身と下半身で２つのグループとしておくことにより、１つにグループ化した場合とは仮想現実の実現への効果が異なる場合もあり、そちらを採用することも考えられる。
【００４２】更には、グループ化した音声は必ずしもステレオ音声と限定するものではなく、例えば図４に示す如く点音源として実現可能であればモノラル音源ＳＯとしてしまうこともできる。
【００４３】図４例においては、図４Ａに示す如く、予め複数の音源オブジェクトＴ１，Ｔ２，Ｔ３，Ｔ４をグループ化処理して合成音源信号としてのステレオ音源信号ＳＬ，ＳＲとして保持しておく。また聴取者Ｍから離れた位置に定位させる場合を考え、図４Ｂに示す如く更に大まかな音源ＳＯに変換（更なるグループ化）して保持しておく。
【００４４】この場合はステレオ音声ＳＬ，ＳＲとしてグループ化された音源オブジェクトをモノラル音声信号となるようにグループ化処理を行い保持しておいた音源ＳＯを図４Ｃに示す如く定位させることで、位置、移動情報量の縮小、仮想音像定位処理の削減となる。
【００４５】本例によれば、従来細分化されていた音源オブジェクトを１つまたは２つの音源にグループ化して、それらのグループごとに適当なチャンネルの音声として予め処理、加工、保持しておき、仮想空間の再現に伴いそれらの前処理された音声を適宜仮想音像定位処理していくことで処理量の低減が図れる。
【００４６】尚上述例では、グループ化して１つまたは２つの音源信号を保持する如く述べたが、従来ステレオ音声で再現しているものより複雑に再現しようとするのであれば３つ以上音源信号を保持する如くしても良い。この場合保持している音源信号の数だけ位置、移動制御、仮想音像定位処理が必要となるが、このグループ化した音源信号の数Ｎをもとの音源オブジェクトの数（もともとの点音源の数）Ｍよりも少なくなるように適当にグループ化することにより、処理量は低減される。
【００４７】また上述例においては仮想音像定位処理を経過時間に従って行うように述べたが、この代わりにＭ（Ｍは複数）個例えば４個の音源信号より、この音源信号の数（Ｍ）より少ない数（Ｎ）の音源信号を合成し、このＮ個例えば２個の合成音源信号の複数の予め定められた定位位置に基づいて予め仮想音像定位処理を施し、この仮想音像定位処理を施され、得られた複数の合成音源信号をメモリ（記憶手段）３に保存し、この合成音源信号の再生定位位置に応じて、このメモリ３よりこの合成音源信号を読み出して再生するようにしても良い。
【００４８】この場合、上述例同様の作用効果が得られると共に予め仮想音像定位処理された合成音源信号をメモリ３に保存しておき、合成音源信号の再生定位位置に応じて、このメモリ３より合成音源信号を読み出して再生するようにしたので、この再生時の信号処理量も低減できる。
【００４９】また上述例では、仮想音像定位処理して、ステレオ音声信号を得ているが、例えば５．１ｃｈ等のマルチチャンネル・サラウンド信号として出力するようにしても良い。
【００５０】また、本発明は上述例に限ることなく、本発明の要旨を逸脱することなく、その他種々の構成が採り得ることは勿論である。
【００５１】
【発明の効果】本発明によれば仮想現実感を音声で実現しつつ信号処理量を低減することができる。
【図面の簡単な説明】
【図１】ゲーム機の例を示す構成図である。
【図２】ミキシング処理の例の説明に供する線図である。
【図３】本発明音声信号処理方法の実施の形態の例の説明に供する線図である。
【図４】本発明音声信号処理方法の実施の形態の他の例の説明に供する線図である。
【図５】従来の音声信号処理方法の例の説明に供する線図である。
【符号の説明】
１‥‥中央制御装置、２‥‥コントローラ、３‥‥メモリ、４‥‥音声処理部、６‥‥映像処理部、８‥‥モニタ、Ｔ１，Ｔ２，Ｔ３，Ｔ４‥‥点音源、ＳＬ，ＳＲ‥‥合成ステレオ音源（合成音源）、ＳＯ‥‥合成音源

【特許請求の範囲】
【請求項１】位置情報、移動情報、定位情報のうち少なくとも１つの情報をそれぞれ有するＭ（Ｍは複数）個の音源信号を、前記情報に基いて、前記音源信号の数（Ｍ）よりも少ない数（Ｎ）の音源信号を合成すると共にこの合成音源信号に対応する情報を合成し、前記合成情報を有する前記Ｎ個の合成音源信号に対して、仮想音像定位処理を施すようにしたことを特徴とする音声信号処理方法。
【請求項２】請求項１記載の音声信号処理方法において、前記Ｍ個の音源信号のうちの少なくとも１つの音源信号又は前記Ｎ個の合成音源信号のうち少なくとも１つの合成音源信号が有する前記情報は、ユーザの操作に応じて変更できるようにしたことを特徴とする音声信号処理方法。
【請求項３】請求項１記載の音声信号処理方法において、前記合成音源信号の数Ｎが２であることを特徴とする音声信号処理方法。
【請求項４】請求項１記載の音声信号処理方法において、前記Ｍ個の音源信号のうち少なくとも１つの音源信号又は前記Ｎ個の合成音源信号のうち少なくとも１つの合成音源信号が有する情報に対し、ランダムな揺らぎを与えるステップをも備えることを特徴とする音声信号処理方法。
【請求項５】Ｍ（Ｍは複数）個の音源信号より、該音源信号の数（Ｍ）より少ない数（Ｎ）の音源信号を合成し、前記Ｎ個の合成音源信号の複数の予め定められた定位位置に基づいて、予め仮想音像定位処理を施し、この仮想音像定位処理を施され得られた複数の合成音源信号を記憶手段に保存し、前記合成音源信号の再生定位位置に応じて、前記記憶手段より前記合成音源信号を読み出して再生するようにしたことを特徴とする音声信号処理方法。
【請求項６】請求項５記載の音声信号処理方法において、前記合成音源信号の再生定位位置はユーザの操作に応じて変更できるようにしたことを特徴とする音声信号処理方法。
【請求項７】請求項５記載の音声信号処理方法において、前記記憶手段より読み出された前記合成音源信号の再生定位位置に対し、ランダムな揺らぎを与えるステップをも備えることを特徴とする音声信号処理方法。
【請求項８】請求項５記載の音声信号処理方法において、前記合成音源信号の数（Ｎ）が２であることを特徴とする音声信号処理方法。
【請求項９】請求項１又は５記載の音声信号処理方法において、前記合成音源信号の数（Ｎ）は２以上であって、この合成音源信号が有する情報はそれぞれの合成音源信号間の相対的な定位情報であることを特徴とする音声信号処理方法。
【請求項１０】請求項１記載の音声信号処理方法において、前記Ｍ個の音源信号又は前記Ｎ個の合成音源信号の再生定位位置の変化に対応して映像信号が変更され、この映像信号が出力されるステップをも備えることを特徴とする音声信号処理方法。
【請求項１１】位置情報、移動情報、定位情報のうち少なくとも１つの情報をそれぞれ有するＭ（Ｍは複数）個の音源信号を、前記情報に基いて合成し、前記音源信号の数（Ｍ）よりも少ない数（Ｎ）の合成音源信号を生成する合成音源信号生成手段と、前記合成音源信号に対応する情報を合成し、合成情報を生成する合成情報生成手段と、前記合成情報を有する前記Ｎ個の合成音源信号に対して、仮想音像定位処理を施す信号処理手段とより成ることを特徴とする音声信号処理装置。
【請求項１２】Ｍ（Ｍは複数）個の音源信号より、この音源信号の数（Ｍ）より少ない数（Ｎ）の合成音源信号を生成する合成音源信号生成手段と、前記Ｎ個の合成音源信号の複数の予め定められた定位位置に基づいて、予め仮想音像定位処理を施され得られた複数の合成音源信号を記憶する記憶手段とを有し、前記合成音源信号の再生定位位置に応じて、前記記憶手段より前記合成音源信号を読み出して再生するようにしたことを特徴とする音声信号処理装置。

【図１】