説明

オーディオ信号の空間的抽出のためのシステム

サウンド処理システムは、オーディオコンテンツの少なくとも2つの異なる入力チャンネルを含むオーディオ入力信号を受信する。サウンド処理システムは、オーディオ入力信号を細かく解析して、オーディオ入力信号に含まれる可聴サウンドソースをサウンドソースベクトルに分離する。可聴サウンドソースをサウンドソースベクトルに分離することは、聴取者によって知覚されるサウンドステージにおける各可聴サウンドソースの知覚位置に基づいてもよい。サウンドソースベクトルは、サウンド処理システムを用いて個別に、および独立して処理され得る、聴取者によって知覚されるサウンドステージにわたる空間スライスを表してもよい。処理後、サウンドソースベクトルは、それぞれのラウドスピーカを駆動するために使用される、出力チャンネルを有するオーディオ出力信号を形成するように選択的にアセンブルされてもよい。

【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、米国仮特許出願第61/248,770号(2009年10月4日出願)の優先権の利益を主張し、この出願は、参照によって援用される。
【0002】
(発明の分野)
本発明は、概して、オーディオシステムに関し、より具体的には、オーディオ信号のコンテンツを空間的に抽出するためのシステムに関する。
【背景技術】
【0003】
サウンドシステムを用いてオーディオ信号から可聴サウンドを生成することはよく知られている。オーディオ信号は、事前に録音されたオーディオ信号または生のオーディオ信号であってもよい。オーディオ信号の受信後、サウンドシステムはオーディオ信号を処理することができ、一般的には、可聴サウンドを生成するように、増幅形式のオーディオ信号をラウドスピーカに提供する。生のオーディオ信号の例は、歌手およびオーケストラ等のバンドによる生のステージ演奏であろう。事前に録音されたオーディオ信号の例は、歌手およびバンドの曲が記憶されているコンパクトディスクまたは電子データファイルであろう。任意の他のオーディオソースが同様に提供されてもよい。
【0004】
一般的に、コンパクトディスク、電子データファイル、および他の形式のオーディオ信号の記憶は、スタジオまたは生のコンサート会場で演奏している歌手およびバンド等の、オーディオソースのマスタ録音から作成される。歌手およびバンドは、歌手およびバンドによって作成されている生の音楽を受信および捕捉するように、マイク、増幅器、および録音機器を使用して演奏する場合がある。録音中、サウンドミキシングエンジニアは、録音のための所望の生サウンドを受信するために、バンドのメンバーの間に任意の数のマイクを戦略的に設置することができる。録音機器は、マイクおよびバンドによって演奏されている他の楽器から生のオーディオ入力を受信するように構成された、任意の数の入力チャンネルを含む。
【0005】
サウンドミキシングエンジニアは次いで、歌手およびバンドによる所望の全体的なサウンドを取得するように、オーディオ信号が受信されたチャンネルをミキシングまたは調整する。加えて、サウンドミキシングエンジニアは、その後録音をどのように再生するかを指定するように、録音されたオーディオを再びミキシングまたはそうでなければ調整することができる。例えば、サウンドミキシングエンジニアは、録音がオーディオシステムのラウドスピーカを通じて再生されるとき、聴取者によって歌手の位置が中央位置に知覚され、バイオリンが歌手の左側として知覚され、ギターが歌手の右側として知覚されるように、個別のオーディオ信号を調整することができる。
【0006】
また、オーディオシステムは、ステレオ信号等のように2つ以上のチャンネルオーディオ入力信号を受信し、受信された入力チャンネルよりも多い出力チャンネルを展開することができる。そのようなオーディオシステムとして、「Logic 7TM」として知られる、Northridge CaliforniaのHarman International Industries,Incorporatedによって製造されるシステムが挙げられる。そのようなシステムは、オーディオ入力信号の相互の位相の解析に基づいて、オーディオ入力信号を出力チャンネルに配分する。
【発明の概要】
【課題を解決するための手段】
【0007】
サウンド処理システムは、少なくとも2つの別個のオーディオチャンネルを含むオーディオ入力信号を受信することができる。オーディオ入力信号は、オーディオ入力信号の中に含まれる可聴サウンドソース、またはオーディオソースの知覚位置を決定するために解析され得る。知覚位置は、聴取者によって知覚されるサウンドステージに基づいて識別され得る。聴取者によって知覚されるサウンドステージは、ステレオオーディオシステム、またはサラウンドサウンドオーディオシステム、またはオーディオ入力信号に基づいて聴取者によって知覚されるサウンドステージを作成するように可聴サウンドを出力することが可能な任意の他の形式のオーディオ再生システムを通したオーディオ入力信号の再生に概念的に基づいてもよい。
【0008】
サウンド処理システムは、聴取者によって知覚されるサウンドステージを任意の既定の数の知覚位置に分割することができ、聴取者によって知覚されるサウンドステージの空間スライスと称され得る。例えば、オーディオ入力信号がステレオ入力信号である場合、知覚位置の数は、左前出力チャンネル、右前出力チャンネル、中央出力チャンネル、右横出力チャンネル、左横出力チャンネル、右後出力チャンネル、および左後出力チャンネルを表す7つのオーディオ出力チャンネル等の、所望の数の出力オーディオチャンネルに等しくてもよい。加えて、オーディオ入力信号は、複数の既定の周波数帯域に分割されてもよく、可聴サウンドソースの知覚位置は、既定の周波数帯域内で識別されてもよい。
【0009】
オーディオ入力信号を空間スライスに分割するために、サウンド処理システムは、空間スライスの各々に対して利得ベクトルを決定し、生成することができる。利得ベクトルの各々は、オーディオ入力信号の全周波数範囲内の既定の周波数帯に及ぶ利得値を含む。利得値は、聴取者によって知覚されるサウンドステージの中の可聴サウンドソースの位置に従って、オーディオ入力信号の中に含まれた可聴サウンドソースが空間スライスに分割されるように、オーディオ入力信号のコンテンツに基づいて生成されてもよい。利得ベクトルは、位置フィルタバンクを形成する複数の位置フィルタを用いて形成されてもよい。一実施例において、位置フィルタバンクの中の位置フィルタの数は、空間スライスの数および所望のオーディオ出力チャンネルの数に対応することができる。
【0010】
位置フィルタバンクは、各空間スライスが対応するサウンドソースベクトルを含むことができるように、オーディオ入力信号を別個かつ独立のサウンドソースに分割するために、オーディオ入力信号に適用されてもよい。各サウンドソースベクトルは、聴取者によって知覚されるサウンドステージの空間スライスの中に含まれる1つ以上の可聴サウンドソースを表すオーディオ入力信号の一部を含んでもよい。
【0011】
サウンドソースベクトルは、オーディオ処理システムによって独立して処理されてもよい。処理は、サウンドソースベクトルの各々に含まれる可聴サウンドソースの分類を含むことができる。例えば、分類は、第1の空間スライスの中の第1のサウンドソースベクトルの中に表される可聴サウンドソースをトランペット等の楽器として識別すること、第2の空間スライスの中の第2のサウンドソースベクトルの中に含まれる可聴サウンドソースを人間の声として識別することを含むことができる。処理はまた、等化、遅延、または任意の他のサウンド処理技術を含んでもよい。
【0012】
処理に続いて、サウンドソースベクトルは、ラウドスピーカが駆動され得る、複数のオーディオ出力チャンネルを含有するオーディオ出力信号を形成するようにアセンブルされてもよい。アセンブルは、サウンドソースベクトルを組み合わせるステップ、サウンドソースベクトルを分割するステップ、オーディオ出力チャンネルとしてサウンドソースベクトルを通過するだけのステップ、または複数のオーディオ出力チャンネルを含有するオーディオ出力信号を生成するために、サウンドソースベクトルの任意の他の形式の共同使用を含むことができる。
【0013】
本発明の他のシステム、方法、および利点は、以下の図および発明を実施するための形態を検討することによって、当業者には明白である、または明白となるであろう。そのような付加的システム、方法、特徴、および利点は全て、本説明内に含まれ、本発明の範囲内にあって、以下の請求項によって保護されることが意図される。
【0014】
本発明は、以下の図面および説明を参照することによって、より深く理解されるであろう。図中の構成要素は、必ずしも正確な縮尺ではなく、代わりに、本発明の原理を例示するために、強調されて描かれている。さらに、図中、同一参照番号は、異なる図によって対応する部品を指す。
【図面の簡単な説明】
【0015】
【図1】図1は、オーディオ処理システムを含む例示的オーディオシステムの模式図である。
【図2】図2は、聴取者によって知覚されるサウンドステージの例である。
【図3】図3は、聴取者によって知覚されるサウンドステージの別の例である。
【図4】図4は、推定された知覚位置と聴取者によって知覚されるサウンドステージとの間の例示的関係を表すグラフである。
【図5】図5は、位置フィルタバンクの例である。
【図6】図6は、複数の空間スライスの中の聴取者によって知覚されるサウンドステージおよび複数の利得ベクトルの例である。
【図7】図7は、図1のオーディオ処理システムの模式図例である。
【図8】図8は、図1のオーディオ処理システムの別の模式図例である。
【図9】図9は、図1のオーディオ処理システムの別の模式図例である。
【図10】図10は、聴取者によって知覚されるサウンドステージの別の例である。
【図11】図11は、図1のオーディオ処理システムの例示的操作流れ図である。
【図12】図12は、図11の操作流れ図の第2部分である。
【発明を実施するための形態】
【0016】
図1は、オーディオ処理システム102を含む例示的なオーディオシステム100である。オーディオシステム100はまた、オーディオコンテンツの少なくとも1つのサウンドソース104と、少なくとも1つの増幅器106と、複数のラウドスピーカ108を含むことができる。オーディオシステム100は、可聴のサウンドコンテンツを生成することが可能な任意のシステムであってもよい。例示的なオーディオシステム100として、車両用オーディオシステム、ホームシアターシステム等の固定式一般家庭用オーディオシステム、映画館またはテレビ等のマルチメディアシステム用オーディオシステム、マルチルームオーディオシステム、スタジアムまたはコンベンションセンター内等の公共案内システム、屋外オーディオシステム、または可聴のオーディオサウンドを再生成することが所望される任意の他の会場が挙げられる。
【0017】
オーディオコンテンツのソース104は、少なくとも2つのチャンネルにおいて異なるオーディオ信号を生成し、出力することができる任意の形式の1つ以上のデバイスであってもよい。オーディオコンテンツのソース104の例として、コンパクトディスクまたはビデオディスクプレーヤ等のメディアプレーヤ、ビデオシステム、ラジオ、カセットテーププレーヤ、無線または有線通信デバイス、ナビゲーションシステム、パーソナルコンピュータ、MP3プレーヤまたはIPODTM等のコーデック、または少なくとも2つのチャンネル上で異なるオーディオ信号を出力することが可能な任意の他の形式のオーディオ関連デバイスが挙げられる。
【0018】
図1において、オーディオコンテンツのソース104は、予め録音された可聴サウンド等のソース材料から、それぞれのオーディオ入力チャンネル110において2つ以上のオーディオ信号を生成する。オーディオ信号は、オーディオコンテンツのソース104によって生成されるオーディオ入力信号であってもよく、アナログサウンドソース材料に基づいたアナログ信号であってもよく、またはデジタルサウンドソース材料に基づいたデジタル信号であってもよい。したがって、オーディオコンテンツのソース104は、アナログからデジタルまたはデジタルからアナログへの変換器等の信号変換能力を含んでもよい。一実施例において、オーディオコンテンツのソース104は、2つのオーディオ入力信号110に提供される右左のチャンネルを表す2つの実質的に異なるオーディオ信号から構成されるステレオオーディオ信号を生成することができる。別の実施例において、オーディオコンテンツのソース104は、5.1サラウンド、6.1サラウンド、7.1サラウンド、またはオーディオ入力チャンネル110のそれぞれ同じ番号上に生成される任意の他の数の異なるオーディオ信号等の、2つを超えるオーディオ入力チャネル110に2つを超えるオーディオ信号を生成することができる。
【0019】
増幅器106は、比較的小さい振幅のオーディオ入力信号を受信し、比較的より大きい振幅の同様のオーディオ信号を出力する任意の回路またはスタンドアロンデバイスであってもよい。2つ以上のオーディオ入力信号は、2つ以上の増幅器入力チャンネル112上で受信され、2つ以上のオーディオ出力チャンネル114上に出力され得る。オーディオ信号の振幅の増幅に加えて、増幅器106はまた、位相をシフトすること、周波数等化を調整すること、遅延を調整すること、またはオーディオ信号の任意の他の形式の操作または調整を実施することのための信号処理能力を含むこともできる。また、増幅器106は、オーディオ出力チャンネル114に提供されるオーディオ信号の音量、バランスおよび/またはフェードを調整する能力を含むことができる。代替の実施例において、ラウドスピーカ108が1組のヘッドフォンの形式であるとき、またはオーディオ出力チャンネルが別のオーディオデバイスへの入力として機能するとき等においては、増幅器が省略されてもよい。さらに他の実施例において、ラウドスピーカ108が電ソース内蔵式のラウドスピーカであるとき等において、ラウドスピーカ108は増幅器を含んでもよい。
【0020】
ラウドスピーカ108は、部屋、車両、またはラウドスピーカ108を操作できる任意の他の空間等の、聴取空間内に位置してもよい。ラウドスピーカ108は、任意の寸法であってもよく、任意の範囲の周波数において動作してもよい。各オーディオ出力チャンネル114は、1つ以上のラウドスピーカ108を駆動するように信号を供給することができる。ラウドスピーカ108の各々は、単一の変換器、または複数の変換器を含むことができる。ラウドスピーカ108はまた、サブウーファ、ウーファ、ミッドレンジ、およびツイータ等の異なる周波数範囲において動作させられてもよい。2つ以上のラウドスピーカ108がオーディオシステム100の中に含まれてもよい。
【0021】
オーディオ処理システム102は、オーディオ入力チャンネル110において、オーディオコンテンツのソース104からのオーディオ入力信号を受信することができる。処理に続いて、オーディオ処理システム102は、増幅器入力チャンネル112に処理されたオーディオ信号を提供する。オーディオ処理システム102は、別個のユニットであってもよく、またはオーディオコンテンツのソース104、増幅器106、および/またはラウドスピーカ108と組み合わされてもよい。また、他の実施例において、オーディオ処理システム102は、オーディオコンテンツのソース104、オーディオ増幅器106、ラウドスピーカ108、および/または任意の他のデバイスまたはメカニズム(他のオーディオ処理システム102を含む)とインターフェースするようにネットワークまたは通信バスを介して通信してもよい。
【0022】
1つ以上のオーディオプロセッサ118が、オーディオ処理システム102の中に含まれてもよい。オーディオプロセッサ118は、コンピュータプロセッサ、マイクロプロセッサ、デジタル信号プロセッサ、または任意の他のデバイス等のオーディオおよび/またはビデオ信号を処理することが可能な1つ以上のコンピューティングデバイス、一連のデバイス、あるいはロジカル演算を実施することが可能な他のメカニズムであってもよい。オーディオプロセッサ118は、メモリ内に保存された命令を実行するために、メモリ120と関連して動作することができる。命令は、ソフトウェア、ファームウェア、コンピュータコード、またはこれらの何らかの組み合わせの形式であってもよく、オーディオプロセッサ118によって実行されると、オーディオ処理システム102に機能を提供することができる。メモリ120は、揮発性メモリ、不揮発性メモリ、電子メモリ、磁気メモリ、光学式メモリ、または任意の他の形式のデータ記憶装置等の、任意の形式の1つ以上のデータ記憶装置であってもよい。命令に加えて、操作パラメータおよびデータもまたメモリ120の中に記憶されてもよい。オーディオ処理システム102はまた、アナログ信号とデジタル信号との間の変換、フィルタ、ユーザインターフェース、通信ポート、および/またはオーディオシステム100内でユーザおよび/またはプログラマが操作およびアクセス可能である任意の他の機能のためのデバイスのような機能電気デバイス、電気機械デバイス、または機械デバイスを含むことができる。
【0023】
動作において、オーディオ処理システム102は、オーディオ入力信号を受信し、処理する。概して、オーディオ入力信号の処理中、オーディオプロセッサ118は、オーディオ入力信号内に表された複数の可聴サウンドのソースの各々の複数の知覚位置を識別する。知覚位置は、聴取者によって知覚されるサウンドステージ内の可聴サウンドのそれぞれのソースの物理的位置を表す。したがって、聴取者が実際のステージ上で発生している生演奏の場にいる場合、知覚位置は、ギタリスト、ドラマ、歌手、およびオーディオ信号内のサウンドを生成している任意の他の演奏者または物体等の、演奏者のステージ上の位置に整合することになる。
【0024】
オーディオプロセッサ118は、オーディオ入力信号を一連の空間オーディオストリーム、または空間スライスに分解し、これらは各々、知覚位置のそれぞれ1つ(少なくとも)からのオーディオコンテンツを含有する。所与の知覚位置内に共存する任意のサウンドソースは、同じ空間オーディオストリームの中に含まれ得る。聴取者によって知覚されるサウンドステージ全体に任意の数の異なる空間オーディオストリームが作成されてもよい。空間オーディオストリームは、オーディオプロセッサ118によって独立して処理されてもよい。
【0025】
動作中、オーディオプロセッサ118は、それぞれの可聴サウンドのソースの識別された知覚位置に基づいて、複数のそれぞれの出力チャンネルのうちの各々に対して複数のフィルタを生成することができる。オーディオプロセッサ118は、空間オーディオストリームを生成するために、フィルタをオーディオ入力信号に適用することができる。空間オーディオストリームは独立して処理されてもよい。処理に続いて、空間オーディオストリームは、複数のそれぞれのオーディオ出力信号を有するオーディオ出力信号を生成するために、アセンブルされても、または再び組み合わされてもよい。オーディオ出力信号は、増幅器入力ライン112に提供される。オーディオ処理システム102は、オーディオ入力信号に含まれる入力チャンネルの数よりも多いか、または少ないオーディオ出力チャンネルを提供することができる。代替として、オーディオ処理システム102は、入力チャンネルとして提供されたものと同じ数のオーディオ出力チャンネルを提供してもよい。
【0026】
図2は、ステレオオーディオ入力信号等の、オーディオ入力信号を受信するためのステレオシステム構成で形成された聴取者によって知覚されるサウンドステージ200全体の知覚を例示する実施例である。図2において、左のラウドスピーカ202および右のラウドスピーカ204が、オーディオコンテンツのソースのそれぞれ左右のチャンネルによって駆動されることにより、聴取位置206にいる聴取者によって受信されるオーディオを生成する。他の実施例において、追加のチャンネルおよびそれぞれのラウドスピーカ、ラウドスピーカ位置、ならびに追加/異なる寸法の聴取位置が例示されてもよい。
【0027】
図2において、聴取位置206は、各ラウドスピーカ202および204に対する距離が実質的に同じであるように、実質的にラウドスピーカ202と204との間にある中央位置208に位置している。この実施例において、聴取者が、ラウドスピーカ202および204から発せられる可聴サウンドに基づいて、聴取者によって知覚されるサウンドステージ200内の任意の数のサウンドソースの知覚位置を決定することが可能なように、3つの因子を組み合わせることができる。因子として、左右のチャンネル内のサウンドソースの相対増幅レベル、左右のチャンネル内のサウンドソースの相対的遅延(到達時間)、および左右のチャンネル内のサウンドソースの相対的位相が挙げられる。
【0028】
サウンドソースのレベルが、聴取者の位置206において、左のチャンネル(左のラウドスピーカ202)がより大きいと知覚された場合、サウンドソースは、左のラウドスピーカ202により近い聴取者によって知覚されるサウンドステージ200内の第1の知覚位置(S1)210に位置しているように、聴取者によって知覚される傾向がある。同様に、右のラウドスピーカ204からのサウンドソースが聴取者の位置206に最初に到達すると、サウンドソースは、右のラウドスピーカ204により近い第2の知覚位置(S2)212にある聴取者によって知覚されるサウンドステージ200内に位置しているように知覚される傾向がある。このように、音量および到達の時間に応じて、異なるサウンドソースが、聴取者によって知覚されるサウンドステージ200内の異なる知覚位置にあるように、聴取者によって知覚される場合がある。また、ラウドスピーカ202および204が、その間に異なる位相シフトを有するオーディオ信号によって駆動される場合、サウンドソースが、右のラウドスピーカ204を越えて第3の知覚位置(S3)214に位置しているように知覚されることが可能である。図2は、聴取者によって知覚されるサウンドステージ200内のサウンドソースのいくつかの例示的位置を単純に示しており、他の実施例では、任意の数の知覚位置に位置している任意の数のサウンドソースが存在してもよい。
【0029】
図2において、聴取者によって知覚されるサウンドステージ200は、7つのゾーンに分割されており、これらは、空間スライスまたは知覚位置218、220、222、224、226、228、および230とも呼ばれる。他の実施例において、聴取者によって知覚されるサウンドステージ200は、任意の他の数の知覚位置に分割されてもよい。図2において、第1の知覚位置(S1)210は、オーディオプロセッサ118によって、第3の空間スライス222内に位置すると推定され、第2の知覚位置(S2)212は、第5の知覚スライス226内に位置すると推定され、中央位置208は、第4の空間スライス224内に位置する。
【0030】
図3は、空間スライスに分解されている、聴取者によって知覚されるサウンドステージ300の別の例である。サウンドステージ300は、5.1、6.1、7.1、または何らかの他のサラウンドサウンドオーディオ信号等のマルチチャンネルオーディオ信号を受信するためのサラウンドサウンドシステムによって形成された。図3において、左スピーカ302、右スピーカ304、中央スピーカ316、左横スピーカ308、右横スピーカ310、左後スピーカ312、および右後スピーカ314は、聴取位置316から離れて位置している。聴取位置316は、ラウドスピーカ302、304、306、308、310、312、および314の円形状位置に起因して、実質的に同心位置に位置している。他の実施例において、任意の他の数のラウドスピーカおよび/またはラウドスピーカ位置、ならびに聴取者位置が例示されてもよい。
【0031】
図3において、それぞれのラウドスピーカ302、304、306、308、310、312および314の各々に対応する7つの空間スライスまたは知覚位置320、322、324、326、328、330、および332は、聴取者位置316を取り巻く。他の実施例では、任意の数の空間スライスが使用されてもよい。加えて、異なる実施例において各空間スライスの幅は異なっていてもよい。例えば、空間スライスは、聴取者によって知覚されるサウンドステージ300内で重なり合うか、または離間していてもよい。
【0032】
オーディオ信号118は、聴取者によって知覚されるサウンドステージ300内の第1の知覚されたサウンドソース(S1)336が第3の空間スライス324内に位置すると推定することができ、第2の知覚されたサウンドソース(S2)338は、第6の空間スライス330内に位置すると推定され得る。他の実施例において、任意の数の知覚されたサウンドソースは、空間スライス320、322、324、326、328、330、および332内に位置してもよい。
【0033】
聴取者によって知覚されるサウンドステージ300内のサウンドソースの位置の推定は、オーディオ入力信号のチャンネルの相対的振幅、位相、および到達の時間の比較に基づくことができる。右チャンネル(R)および左チャンネル(L)から構成されるステレオオーディオ入力信号の例では、オーディオプロセッサによる推定された位置の計算は、次の式に基づく。
【0034】
【数1】

式中、S(ω)は、それぞれの聴取者によって知覚されるサウンドステージ300内の推定位置、L(ω)は、周波数領域における左オーディオ入力信号の複素数表現(実数成分および虚数成分から構成される)、R(ω)は、周波数領域の右オーディオ入力信号の複素数表現(実数成分および虚数成分から構成される)、Bはバランス関数である。V(ω)およびV(ω)は、別個の複素ベクトル(実数成分および虚数成分から構成される)で、各々1に等しい大きさを有する。V(ω)およびV(ω)は、周波数依存遅延をL(ω)およびR(ω)に適用するために使用され得る。遅延の値、すなわち、V(ω)およびV(ω)の値は、左(L)および右(R)入力チャンネルの所与のサウンドソースの到達の時間に存在し得る任意の差を相殺するように選択され得る。したがって、V(ω)およびV(ω)は、2つの入力チャンネルにおいて所与のサウンドソースを時間整合するために使用されてもよい。V(ω)およびV(ω)によって提供される遅延は、代替として、左および右オーディオ入力信号を周波数領域に変換する前に、時間領域において達成されてもよいことが理解されるであろう。変数ωは、周波数または周波数の範囲を示す。バランス関数は、聴取者によって知覚されるサウンドステージ内のサウンドソースが、聴取者によって知覚されるサウンドステージの中央の左手であるか、聴取者によって知覚されるサウンドステージの中央の右手であるかを識別するために使用され得る。バランス関数(B)は次の式によって表すことができる。
【0035】
【数2】

式中、Aは、オーディオプロセッサ118による、左オーディオ入力信号(L)の振幅と右オーディオ入力信号(R)の振幅との振幅比較を表す。一実施例において、Aは、左オーディオ入力信号の振幅が右オーディオ入力信号の振幅よりも大きいときにオーディオプロセッサ118によって1に等しく設定することができ、Aは、左オーディオ入力信号の振幅が右オーディオ入力信号の振幅に等しいときにオーディオプロセッサ118によって0に等しく設定することができ、Aは、左オーディオ入力信号の振幅が右オーディオ入力信号の振幅よりも小さいときにオーディオプロセッサ118によってマイナス1に等しく設定することができる。
【0036】
5つまたは7つの入力チャンネルサラウンドオーディオソース等の、複数の入力チャンネルがある場合、複数の入力チャンネルを考慮するために、式1および2の代わりに次の代替の式が使用されてもよい。
【0037】
【数3】

式中、S(ω)は、それぞれの聴取者によって知覚されるサウンドステージ300内の推定された位置であり、M(ω)は、周波数領域内の第k番目のオーディオ入力信号の複素数表現(実数成分および虚数成分から構成される)、V(ω)は、複素方向ベクトル(実数成分および虚数成分から構成される)である。Cは、1より大きい整数であり、入力チャンネルの数を表し、したがって、5つの入力チャンネルのサラウンドオーディオソースの例では、C=5である。方向ベクトルV(ω)の値は、マルチチャンネル入力信号に対して意図されるように、スピーカの角度を表すように選択されてもよい。例えば、5つの入力チャンネルを有するマルチチャンネル入力信号の場合、0度にある前方に位置する中央スピーカ、+/−30度にある左および右スピーカ、+/−110度にある左および右後サラウンドスピーカから構成される一般的な再生構成に対して入力信号が作成されると想定することが妥当である。この例示的な構成に対して、方向ベクトルの妥当な選択は、Vcenter(ω)=1+0i、VLeft(ω)=0.866+0.5i、VRight(ω)=0.866−0.5i、VLeftSurround(ω)=−0.342+0.940i、およびVRightSurround(ω)=−0.342−0.940iから構成されることができ、iは、−1の平方根に等しい複素数演算子である。式3は、合成信号ベクトルを導出するために、入力信号チャンネルの各々の合成サウンドフィールドに対する寄与を合計するために使用され得る。この合成信号ベクトルは、複素数値である(実数成分および虚数成分から構成される)。式3の角度関数は、合計プロセスから得られる合成信号ベクトルの角度を計算するために使用されてもよい。この実施例において角度を計算する際に、中央チャンネルスピーカは、ゼロ度に対応する。他の実施例において、ゼロ度は、他の場所に位置してもよい。係数2/πは、+2乃至−2の範囲になるように、S(ω)の値を縮小する。式3は、2つ以上のチャンネルを有する入力信号に対して使用されてもよい。代替として、別の実施例において、複数の入力信号は、いくつかの分離した知覚サウンドステージが作成されるように、式1および2に適用するために、対に分解されてもよい。例えば、知覚サウンドステージは、左前と右前、左前と左横、左横と左後等の間に作成されてもよい。別の実施例において、5つまたは7つの入力チャンネルサラウンドオーディオソースを2つの入力チャンネルステレオオーディオソースにダウンミックスする等、3つ以上の入力チャンネルのオーディオソースが、2つの入力チャンネルオーディオソースにダウンミックスされてもよい。抽出および処理に続いて、オーディオソースは、2つ以上のオーディオ出力チャンネルに戻るようにアップミックスされてもよい。
【0038】
図4は、図2の聴取者によって知覚されるサウンドステージ等の聴取者によって知覚されるサウンドステージ404に対する、計算された推定位置S(ω)402の関係を示す例示的グラフである。聴取者によって知覚されるサウンドステージは、複数の既定のゾーンに分割されてもよく、各々が既定の範囲の位置値の中からの位置値を有する。図4において、サウンドステージ404の位置値は、−2乃至+2の既定の範囲の位置値内にあり、位置ゼロゾーンとして識別される聴取者によって知覚されるサウンドステージ404の中央にある中央位置406、位置マイナス1ゾーンとして識別される左横位置408、マイナス2位置ゾーンとして識別される左端横位置410、プラス1位置ゾーンとして識別される右横位置412、およびプラス2位置ゾーンとして識別される右端横位置414を含む。他の実施例において、図3に例示される聴取者によって知覚されるサウンドステージ等の、他の聴取者によって知覚されるサウンドステージが例示され得る。加えて、聴取者によって知覚されるサウンドステージ全体の異なるゾーンを識別するために、他の範囲の位置値が使用されてもよく、追加またはこれより少ないゾーンが存在してもよい。
【0039】
図4において、推定される知覚位置S(ω)402は、聴取者によって知覚されるサウンドステージ404内の位置に対応するように、マイナス2乃至プラス2の間であるように計算される。他の実施例において、推定される知覚位置S(ω)402を表すために、他の値が使用されてもよい。推定される知覚位置S(ω)402の値は、振幅比較A(式2)に基づいて、プラス、マイナス、またはゼロであるように、式1に従って計算される。
【0040】
オーディオシステム内の動作および信号処理は、オーディオ入力信号の解析に基づいて、周波数領域、または時間領域内で発生することができる。簡潔性を目的として、本文は主に周波数領域ベースの実装をとりあげるが、時間ベースの実装、または時間ベースと周波数ベースとを組み合わせた実装が可能であり、本システムの範囲内である。
【0041】
オーディオ入力信号は、重複ウィンドウ解析をあるブロックの時間サンプルに適用し、離散フーリエ変換(DFT)、ウェーブレット変換、または他の変換プロセスを用いてサンプルを変換することによって、周波数領域表現に変換され得る。各ブロックの時間サンプルは、時間的瞬間、またはオーディオ入力信号のスナップショットと称されてもよい。時間的瞬間、またはスナップショットは、任意の既定の期間、または時間のウィンドウであってもよい。このため、オーディオ入力信号は、スナップショット、または一連の隣接するまたは隣接しないセグメントに分割することができ、各セグメントは、開始時間と終了時間との間に既定量の時間を形成する、開始時間および終了時間を有する。オーディオ入力信号の1つのセグメントの終了時間は、セグメントが終了から終了までの構成で形成されるように、オーディオ入力信号の次のセグメントの開始時間に隣接することができる。一実施例において、セグメントの各々は、約10ミリ秒の期間を有する時間のウィンドウまたはスナップショットを表してもよい。一般的に、スナップショットは、約5乃至約50ミリ秒の期間を有する。周波数領域において、オーディオ入力信号の各スナップショットは、既定の周波数スペクトルにわたって複数の周波数ビンに分離されてもよい。周波数ビンは各々、0Hz乃至24kHzの可聴周波数範囲等の既定の周波数範囲に及ぶように、各々約50Hz等の既定のサイズであってもよい。例えば、48kHz等の既定のサンプルレート、および1024のビン等の既定数のビンに基づいて、ビンの各々は、46.875Hzの帯域幅を有してもよい。別の実施例において、ビンのサイズは、オーディオ入力信号のサンプルレートに基づいて、オーディオ処理システム毎に動的かつ自動的に変化してもよい。例えば、オーディオ入力信号が、44.1kHz、48kHz、88.2kHz、または96kHzのうちのいずれかのサンプルレートでサンプルされ得るデジタル信号である場合、オーディオ入力信号のサンプルレートは、オーディオ処理システムによって検知され得、周波数ビンのサイズは、オーディオ処理システムがオーディオ入力信号のサンプルレートで実行したように対応して調整され得る。
【0042】
一実施例において、0Hz乃至24kHzの可聴周波数範囲上に1024の周波数ビンが存在することができる。代替として、オーディオ入力信号のスナップショットは、並列帯域通過フィルタのバンクを使用して時間領域の周波数帯域に分割されてもよい。オーディオ入力信号はまた、式1および2に基づいて、聴取者によって知覚されるサウンドステージ全体で既定数の知覚位置または空間スライスに分割されてもよい。知覚位置の各々において、オーディオ入力信号の分割された部分が現されてもよい。
【0043】
図5は、聴取者によって知覚されるサウンドステージならびに式1および2に基づいて、オーディオ処理システム102によって生成される例示的な位置フィルタバンク500を表す。図5において、7つの位置フィルタの表示が例示されている。位置フィルタは、ラウドスピーカを駆動するために、オーディオ出力信号の中に含まれるオーディオ出力チャンネルとして提供されるいくつかの出力チャンネルと合致してもよい。代替として、ラウドスピーカを駆動するようにオーディオ出力チャンネルを形成するために使用される前に、さらなる処理または使用のための対応する数の出力チャンネルを生成するために、任意の数のフィルタが使用されてもよい。したがって、任意の数の位置フィルタが使用されてもよく、位置フィルタの出力チャンネルがさらに処理され、次いで、ラウドスピーカを駆動するために使用されるオーディオ出力チャンネルの数と合致するように組み合わされるかまたは分割されてもよい。例えば、オーディオ入力信号の中に存在する可聴サウンドソースが、オーディオ出力チャンネルに対応する、聴取者によって知覚されるサウンドステージの中のある位置にはない場合、その位置の左右のオーディオ出力チャンネルに対して2つの信号が作成されてもよい。別の実施例において、オーディオ入力信号の中に存在する可聴サウンドソースが、2つ以上のオーディオ出力チャンネルに対応する、聴取者によって知覚されるサウンドステージの中のある位置にある場合、信号は、2つ以上のオーディオ出力チャンネル上に複製されてもよい。
【0044】
図5において、位置フィルタは、オーディオ出力チャンネルに対応する出力チャンネルを含むことができる。このため、位置フィルタは、中央チャンネル出力フィルタ502、右前出力フィルタ504、左前出力フィルタ506、右横出力フィルタ508、左横出力フィルタ510、右後出力フィルタ512、および左後出力フィルタ514を含む。この実施例において、出力フィルタ502、504、506、508、510、512、および514は、サラウンドサウンドオーディオシステムの中央、右前、左前、右横、左横、右後、および左後専用のラウドスピーカ等の、それぞれのラウドスピーカを駆動する出力チャンネルに対応することができ、所望の効果を提供するように、1つ以上のスピーカは、聴取者の耳、または任意の他のスピーカ位置より上または下の高さの知覚を提供する。他の実施例において、出力フィルタ502、504、506、508、510、512、および514は、最終的に2つ以上のオーディオ出力チャンネルの一部になるようにさらに処理される、中間出力チャンネルに対応してもよい。必要性に応じて、他の実施例においては、これより少ないかまたは多い数の位置フィルタが表され、使用されてもよい。位置フィルタバンク500は、利得軸518として識別される第1の軸、および推定される知覚位置S(ω)(図4)に対応する、推定知覚位置軸520として識別される第2の軸を含む。図5において、利得軸518は縦軸であり、推定知覚位置軸520は水平軸である。
【0045】
フィルタの各々は、聴取者によって知覚されるサウンドステージにわたるサウンドソースの推定知覚位置に基づいて、オーディオプロセッサ118によって構築され、実装される。フィルタは、オーディオ入力信号の解析に基づいて、周波数領域、または時間領域においてオーディオプロセッサ118によって計算され得る。式1および2を使用して、周波数領域において、推定される知覚位置値が計算されてもよい。前述のように、一実施例において、計算された推定知覚位置値は、−2乃至+2の値であってもよい。他の実施例において、計算された推定知覚位置値に任意の他の範囲の値が使用されてもよい。特定の計算された推定知覚位置値に基づいて、対応する利得値が決定されてもよい。
【0046】
図5において、交点524は、利得軸518上の約0.5の利得値に存在する。交点524は、第1の位置から離れるように、第2の位置に向かうサウンドエネルギーの遷移の開始を記すことができる。出力チャンネルを表す位置フィルタの場合、交点524は、第1の出力チャンネルと第2の出力チャンネルとの間のサウンドエネルギーの遷移を示すことができる。すなわち、この実施例において、1つのチャンネルの利得値が減少すると、別のチャンネルの利得値は対応して増加することができる。このため、隣接して配置される出力チャンネルのサウンド出力は、任意の所与の時点で、計算された推定知覚位置値に基づいて、隣接して配置された出力チャンネルの間において配分され得る。例えば、中央チャンネル出力フィルタ502は、計算された推定知覚位置値がゼロにあるときに1の利得にあるが、計算された推定知覚位置値が−0.5であるとき、中央チャンネル出力フィルタ502の利得値は約0.15にあり、左前チャンネル出力フィルタ506の利得値は約0.85にある。交点524は、位置フィルタの各々を表す線の傾きによって特徴付けられるフィルタ構造に基づいて、調整されてもよい。
【0047】
このように、推定知覚位置520をある時間的瞬間において計算することによって、オーディオ処理システムは、同じ時間的瞬間に対して、出力フィルタの対応する利得値を生じさせることができる。前述のように、オーディオ入力信号は、周波数帯域に分割される。したがって、計算された利得値は、推定知覚位置520を計算するために、各それぞれの周波数帯域内のオーディオ入力信号の一部に対する式1および2の適用に基づいて、各周波数帯域内において計算される。図5に示される交点524は、0.5以外の利得値で発生することができる。図5に示された実施例の位置フィルタ502、504、506、508、510、512、および514は、隣接フィルタとのみ重複する。隣接フィルタとの間にこれより多いかまたは少ない重複を有する他の位置フィルタ構造を使用することができる。位置フィルタ構造が考案されてもよく、3つ以上の位置フィルタが、聴取者によって知覚されるサウンドステージにわたるサウンドソースの所与の推定知覚位置S(ω)に対してゼロ以外の利得値を有する。加えて、または代替として、位置フィルタの利得値は、プラスおよびマイナスの両方であり得る。
【0048】
図6は、聴取者によって知覚されるサウンドステージ600を表す実施例であり、ある時間的瞬間において聴取者によって知覚されるサウンドステージ600にわたる既定の数(x)の知覚位置または空間スライス602を表す。前述のように、7つの空間スライスが示されるが、任意の数(x)の空間スライス602が可能である。図6において、聴取者によって知覚されるサウンドステージ600は、概して、中央608の周囲に対称である、左ラウドスピーカ604および右ラウドスピーカ606を含む。他の実施例において、図3に例示される聴取者によって知覚されるサウンドステージ等の聴取者によって知覚されるサウンドステージの他の構成が実装されてもよい。
【0049】
前述のように、式1および2は、既定の周波数帯域または周波数ビンに分割されるオーディオ入力信号に適用される。計算された推定知覚位置値に基づいて、利得値もまた前述のように導出され得る。利得値は、空間スライス602の各1つに対して利得位置ベクトル610を用いて表される位置フィルタの中に含まれてもよい。各利得位置ベクトル610は、0乃至1の範囲の利得値等の利得値612を含むことができる。
【0050】
図6において、利得値612はGsnとして表され、「s」は空間スライス番号であり、「n」は周波数ビン番号に対応するそれぞれの利得位置ベクトル610の中の周波数帯域位置である。利得位置ベクトル610の各々は縦方向に、空間スライス602の特定の1つにおける第1の既定の周波数(f1)乃至第2の既定の周波数(f2)のオーディオ入力信号の周波数範囲を表す。利得位置ベクトル610の各々の中の利得値612の数は、オーディオ入力信号が分割されている周波数ビン(Bn)の数(n)に対応することができる。前述のように、オーディオ入力信号は、0Hz乃至20kHz等の既定の範囲の周波数(f1乃至f2)にわたって1024のビン等の、既定数(n)の周波数ビンに分割されてもよい。このように、一実施例において、利得位置ベクトル610の各々は、オーディオ入力信号のサンプルレートが48kHzであるとき、全周波数範囲の約46.875Hz幅増分等の、帯域幅(または周波数ビン)の各既定部分に対する利得値となる、0Hz乃至24kHzの範囲の周波数範囲にわたって1024の利得値612(n=0乃至1023)を含むことができる。
【0051】
動作中、オーディオ入力信号は、利得位置フィルタに適用されてもよい。各時間的瞬間に対して、利得位置ベクトル610の各々内での利得値612の各々は、次式のように、対応する周波数ビン(Bn)の中のオーディオ入力信号(In)の一部が乗算され得る。
【0052】
【数4】

式中、Ssnは、周波数ビン番号「n」に対応する空間スライス番号「s」の中のサウンドソース値である。
【0053】
空間スライスの各々の中のサウンドソース値(Ssn)の配列から形成されて得られるサウンドソースベクトル(Ss)は、その時間的瞬間に対して、それぞれのサウンドソースを用いて空間スライス602を更新することができる。サウンドソースベクトル(Ss)の中のサウンドソース値(「n」個のサウンドソース値)の各々は、利得値に類似する周波数ビン(Bn)に応じて、既定の周波数範囲(f1乃至f2)にわたって配分されてもよい。このように、特定の空間スライス602の中のサウンドソースの周波数範囲は、f1乃至f2の既定の周波数範囲にわたって全体的に表され得る。加えて、周波数ビン(Bn)に対応する周波数の任意の所与の帯域内の「s」個の空間スライス602にわたって水平方向に、オーディオ入力信号内の聴取者によって知覚されるサウンドステージ600にわたって存在するサウンドソースの全てが表されてもよい。利得値612は、聴取者によって知覚されるサウンドステージにわたって水平方向に同じ周波数ビン(Bn)に適用されるため、利得値612が所与の周波数帯域(n)の中の空間スライス602にわたって追加されると、結果は、最大利得値に等しい場合がある。例えば、利得値の範囲が0乃至1である場合、第1の周波数ビン(B1)に対する空間スライス602の全てにわたる利得値612に水平方向の和は、1に等しくあってもよい。
【0054】
各それぞれの空間スライス602の中のサウンドソースベクトル(Ss)は、聴取者によって知覚されるサウンドステージにわたって、1つ以上のサウンドソース、または可聴サウンドソースを表すことができる。オーディオ入力信号(オーディオソース材料)は、ミキシングエンジニアによって、各サウンドソースを知覚的に設置するように、生成またはミキシングされていてもよい。例えば、サウンドエンジニアは、オーディオ録音がオーディオシステムを通じて再生されるとき、聴取者が自分がコンサート会場の正面近く、一群の音楽家が楽器を演奏し、歌っているステージ中央近くの座席に位置しているかのように知覚するように、ステレオオーディオ録音を生成(またはミキシング)しようと試み得る。この例において、サウンドエンジニアは、例えば、歌手がサウンドステージの中央近くに位置し、バスギターが聴取者によって知覚されるサウンドステージ上の左側に位置し、ピアノがサウンドステージの右側に位置している等のように、聴取者によって知覚されるサウンドステージにわたってバンドのメンバーを配分するように、オーディオ録音をミキシングすることができるかもしれない。別の例において、オーディオ録音がサラウンドサウンドオーディオ録音として生成されているとき、サウンドエンジニアは、聴取者がコンサート会場の聴衆の一部であるかのように知覚し、聴衆の中に存在し、録音の中に含まれる他の聴取者が、聴取者の背後および/または隣にいるかのように知覚されることを所望する場合がある。
【0055】
サウンドソースの各々はこうして、それぞれの空間スライスの中の別個のサウンドソースベクトル(Ss)の中に含まれ得る。このため、個別のサウンドソースの操作およびさらなる処理は、個別のサウンドソースベクトル(Ss)をさらに処理することによって実施されてもよい。位置フィルタバンクの中の位置フィルタの数がオーディオ出力チャンネルの数に等しい場合、サウンドソースベクトル(Ss)の各々は、ラウドスピーカを駆動するためにサウンドソース材料として使用されてもよい。代替として、オーディオ出力チャンネルの数が、サウンドソースベクトル(Ss)の数より多いか、または少ない場合、サウンドソースベクトル(Ss)は、サウンドソースベクトルを含有するそれぞれの数のオーディオ出力チャンネルを含むようにオーディオ出力信号を生成するために、アセンブルされ、組み合わされ、分割され、複製され、通過され、および/またはその他処理されてもよい。オーディオ出力信号の中に含まれるオーディオ出力チャンネルはまた、1つ以上のそれぞれのラウドスピーカを駆動するために出力される前にさらに処理されてもよい。
【0056】
図7は、周波数領域で動作しているオーディオ処理システム102の機能処理ブロックの模式図例である。オーディオ処理システム102は、オーディオ入力信号解析モジュール700と、後処理モジュール702とを含む。オーディオ入力信号解析モジュール700は、オーディオ入力前処理モジュール704と、サウンドソースベクトル生成モジュール706と、パラメータ入力制御モジュール708とを含む。他の例において、オーディオ処理システム102の機能を記述するために、追加またはこれより少ないモジュールが使用されてもよい。本明細書において使用される「モジュール」または「モジュール(複数)」の用語は、ソフトウェア(コンピュータコード、命令)またはハードウェア(回路、電子構成要素、および/またはロジック)、あるいはソフトウェアおよびハードウェアの組み合わせとして定義される。
【0057】
図7において、オーディオ入力前処理モジュール704は、オーディオ入力信号712を受信することができる。オーディオ入力信号712は、ステレオの対の入力信号、5チャンネル、6チャンネル、または7チャンネルの入力信号等のマルチチャンネルオーディオ入力信号、あるいは2以上のオーディオ入力信号の任意の他の数のオーディオ入力信号であってもよい。オーディオ入力前処理モジュール704は、任意の形式の時間領域から周波数領域への変換プロセスを含むことができる。図7において、オーディオ入力前処理モジュール706は、オーディオ入力信号712の各々に対してウィンドウイングモジュール714および変換機能716を含む。ウィンドウイングモジュール714および変換機能716は、あるブロックの時間サンプルに対して重複ウィンドウ解析を実施し、離散フーリエ変換(DFT)または他の変換プロセスを用いてサンプルを変換する。他の実施例において、オーディオ入力信号の処理は、時間領域で実施されてもよく、オーディオ入力前処理モジュール704は、オーディオ入力信号処理モジュール700から省略されてもよく、時間領域フィルタバンクによって置換されてもよい。
【0058】
前処理された(またはされない)オーディオ入力信号は、サウンドソースベクトル生成モジュール706に提供されてもよい。サウンドソースベクトル生成モジュール706は、サウンドソース生成ベクトル(Ss)を生成することができる。サウンドソースベクトル生成モジュール706は、利得ベクトル生成モジュール720と、信号分類器モジュール722と、ベクトル処理モジュール724とを含むことができる。利得ベクトル生成モジュール720は、図6を参照して記載するように、空間スライス602の各々に対して、利得位置ベクトル610を生成することができる。
【0059】
利得ベクトル生成モジュール720による利得位置ベクトルの生成は、推定位置生成モジュール728、位置フィルタバンク生成モジュール730、バランスモジュール732、知覚モデル734、ソースモデル736、およびジャンル検出モジュール738を用いて処理するステップを含むことができる。推定位置生成モジュール728は、前述のように、式1を使用して推定知覚位置値を計算することができる。位置フィルタバンク生成モジュール730は、図5を参照して上述したように、位置フィルタバンク500を計算することができ、バランスモジュールは、式2を使用して、サウンドソース生成ベクトル(Ss)を計算することができる。
【0060】
知覚モデル734およびソースモデル736は、推定位置生成モジュール728、位置フィルタバンク生成モジュール730、およびバランスモジュール732を用いて利得位置ベクトルを展開するように処理を改善するために使用されてもよい。概して、知覚モデル734およびソースモデル736は、聴取者によって知覚されるサウンドステージ内の可聴サウンドソースの計算された位置における突然の変化を補正するために、スナップショット毎に利得位置ベクトルの計算の調整を可能にするように協調して動作することができる。例えば、知覚モデル734およびソースモデル736は、そうでなければ知覚位置に突然のシフトを発生させ得る、聴取者によって知覚されるサウンドステージ内の特定のサウンドソースの存在および振幅における突然の変化を補正することができる。知覚モデルは、経時的に(例えば、いくつかのスナップショットに及ぶ)利得位置ベクトルの生成中に、一時ベースの聴覚マスキング推定、および周波数ベースの聴覚マスキング推定のうちの少なくとも1つに基づいて、利得位置ベクトルの平滑化を実施することができる。ソースモデル736は、既定の数のスナップショットにわたって、オーディオ入力信号の振幅および周波数の所定の変化率を超えないように、オーディオ入力信号を監視し、平滑化を提供する。
【0061】
監視するステップは、前のスナップショットのうちの少なくとも1つを考慮しながら、周波数ビン毎にオーディオ入力信号の各スナップショット、または時間的瞬間に対して実施されてもよい。一実施例において、2つの前のスナップショットが既定の加重因子を用いて個別に加重され、平均化され、現在のスナップショットとの比較のために使用される。最新の前のスナップショットは、より古いスナップショットよりも高い既定の加重を有する場合がある。ソースモデル736によって、既定の変化率を超える振幅または周波数の変化を識別した後、知覚モデル734は、オーディオ入力信号の知覚サウンドステージの中に含まれる、サウンドソースまたは可聴サウンド、あるいはオーディオソースの知覚位置の変化率を削減するために、利得位置ベクトルの中の利得値を自動的活動的に平滑化することができる。例えば、複数のオーディオソースは、時には、共に同じ知覚位置または空間スライスの中にあり、時には、異なる時間的瞬間に異なる知覚位置を占有するとき、平滑化は、オーディオソースが知覚位置の間を「ジャンプ」しているようにみえないように使用されてもよい。そのような知覚位置の間の急速な移動は、そうでなければ、聴取者によって、第1の出力チャンネルによって駆動されているラウドスピーカのうちの1つから、第2の出力チャンネルによって駆動されているラウドスピーカの別の1つにジャンプするオーディオソースとして知覚されてもよい。
【0062】
代替として、または加えて、ソースモデル736は、知覚位置または空間スライスの境界を定義するために使用されてもよく、知覚位置は、ソースモデル736に含まれるサウンドソースに基づいてオーディオ入力信号の中において識別されたオーディオソースに従って、自動的に調整可能である。このように、オーディオソースが2つ以上の知覚位置にあると識別される場合、知覚位置を表す領域は、知覚位置の境界を調整することによって、増加または減少することができる。例えば、知覚位置の領域は、オーディオソース全体が単一の知覚位置にあるように、位置フィルタバンク500(図5)の中のフィルタの交点の調整によって広げることができる。別の例において、2つ以上のオーディオソースが同じ知覚位置の中にあると決定される場合、知覚位置または空間スライスの境界は、オーディオソースが別個の空間スライスに出現するまで、徐々に削減されてもよい。単一の知覚位置の中の複数のオーディオソースは、例えば、識別されたソースの異なる動作周波数範囲に対応するソースモデルの中のソースを識別することによって、識別されてもよい。他の空間スライスの境界もまた自動的に調整されてもよい。前述のように、知覚位置の境界は、重複していてもよく、相互に離間していてもよく、または隣接して整列していてもよい。
【0063】
知覚モデル734はまた、ある時点から次の時点への円滑な遷移を維持するために、利得位置ベクトルの中に含まれる利得値を経時的に平滑化してもよい。ソースモデル736は、オーディオ入力信号の中に含まれた異なるオーディオソースのモデルを含むことができる。動作中、ソースモデル736は、オーディオ入力信号を監視し、知覚モデル734を用いて平滑化処理を管理することができる。例として、ソースモデル736は、ドラム等のサウンドソースの突然の発現を検出する場合があり、空間スライスにわたって不鮮明にするのではなく、空間の固有の位置においてドラムの発現を捕捉するために、知覚モデル734に平滑化の量を削減させる場合がある。ソースモデル736の中の含まれるモデルを使用して、知覚モデル734は、所与の周波数帯域がどの程度減衰されるべきかを決定する際に、オーディオ入力信号の中に含まれるサウンドソースの物理的特徴を考慮することができる。図7には別個のモジュールとして例示されるが、他の例では、知覚モデル734とソースモデル736とは、組み合わされてもよい。
【0064】
ジャンル検出モジュール738は、クラシック音楽、ジャズ音楽、ロック音楽、講演等の、オーディオ入力信号のジャンルを検出することができる。ジャンル検出モジュール738は、オーディオ入力信号を分類するためにオーディオ入力信号を解析することができる。代替として、またはこれに加えて、ジャンル検出モジュール738は、オーディオ入力信号を特定のジャンルであると決定し、分類するために、オーディオ入力信号、無線データシステム(RDS)データ、または任意の他の形式の外部的に提供される情報を用いて、含まれたデータを受信し、解読してもよい。ジャンル検出モジュール738によって決定されたジャンル情報はまた、利得ベクトル生成モジュール720の中の他のモジュールに提供されてもよい。例えば、サラウンドサウンド用途において、位置フィルタバンク生成モジュール730は、ジャンル検出モジュール738から、ジャンルがクラシック音楽であるという示唆を受信し、オーディオ入力信号のどの部分も右後および左後オーディオ出力チャンネルに出力されないように、位置フィルタバンク500(図5)のフィルタの交点位置を調整することによって、位置フィルタバンク500(図5)を自動的に調整することができる。
【0065】
信号分類器モジュール722は、知覚位置のそれぞれ1つに含まれる1つ以上のオーディオソースを識別するために、聴取者によって知覚されるサウンドステージにわたる知覚位置(空間スライス)の各々において動作することができる。信号分類器モジュール722は、サウンドソースベクトル(Ss)からサウンドソースを識別することができる。例えば、知覚位置のうちの第1において、信号分類器モジュール722は、そのオーディオソースを歌手の声として識別する場合があり、第2の知覚位置において、そのオーディオソースは、トランペット等の特定の楽器として識別される場合があり、第3の知覚位置において、複数のそれぞれのオーディオソースは、声および特定の楽器として識別される場合があり、聴取者によって知覚されるサウンドステージの第4の知覚位置において、そのオーディオソースは、拍手等の聴衆の雑音として識別される場合がある。オーディオソースの識別は、特定の知覚位置の中に含まれる可聴サウンドの信号解析に基づいてもよい。
【0066】
信号分類器モジュール722は、パラメータ入力制御708から受信された入力情報、ベクトル生成モジュール720の出力信号、および/またはベクトル処理モジュール724の出力信号に基づいてサウンドソースを識別することができる。例えば、識別は、パラメータ入力制御708から提供されるRDSデータ信号等の、位置利得位置ベクトルおよびパラメータの観点におけるサウンドソースベクトル(Ss)の周波数、振幅、スペクトル特徴に基づいてもよい。したがって、信号分類器モジュール722は、聴取者によって知覚されるサウンドステージ内のそれぞれの知覚位置の各々に含まれる1つ以上のオーディオソースの分類を実施することができる。分類は、既定のサウンドソース、周波数、またはトーン特徴のライブラリを用いて等の、比較に基づいてもよい。代替として、またはこれに加えて、分類は、周波数解析、トーン特徴、またはサウンドソース分類を実施するための任意の他の機構または技法に基づいてもよい。例えば、サウンドソースの分類は、入力信号の中に含まれる残響コンテンツの抽出および/または解析、入力信号の中に含まれる雑音の推定の使用、入力信号の中に含まれる会話の検出、ドラムの比較的突然の発現特徴等のオーディオソースのわかっている識別特徴に基づく入力信号の中に含まれる特定のオーディオソースの検出に基づいてもよい。
【0067】
信号分類器モジュール722は、ベクトル処理モジュール724に所与の空間スライス内の所与のサウンドソースを所与の出力チャンネルに割り当てさせることができる。例えば、声の信号は、声の信号が聴取者によって知覚されるサウンドステージの中の位置に関わらず、所与の出力チャンネル(例えば、中央出力チャンネル)に割り当てられる場合がある。別の例では、会話(講演)として識別された信号は、より快適であるように所望のオーディオフィールドを取得し、知性を高める、または任意他の理由のために、2つ以上の出力チャンネルに割り当てられてもよい。
【0068】
図7において、空間スライスの分類は、フィードバックオーディオ分類信号として、1)位置フィルタバンク生成モジュール730、2)知覚モデル734、3)ソースモデル736、および4)ジャンル検出モジュール738の各々に提供され得る。フィードバックオーディオソース分類信号は、聴取者によって知覚されるサウンドステージにわたる各知覚位置の識別、および各知覚位置の中に含まれる1つ以上のオーディオソースの識別を含むことができる。モジュールの各々は、オーディオ入力信号の以降のスナップショットのそれぞれの処理を実施する際に、フィードバックオーディオソース分類信号を使用することができる。
【0069】
例えば、位置フィルタバンク生成モジュール730は、単一の空間スライス等の既定数の空間スライス内の所与のサウンドソースの周波数成分の全て、または実質的に全てを捕捉するために、位置フィルタバンクの中の出力フィルタの位置および/または幅の調整によって、知覚位置の領域を調整することができる。例えば、空間スライスの位置および/幅は、声信号であると識別されたオーディオソース等の、オーディオ入力信号内の識別されたオーディオソースを追跡し、捕捉するように、位置フィルタバンク500(図5)の中のフィルタの交点の調整によって、調整されてもよい。知覚モデル734は、既定のパラメータに基づいて、マスキング推定を調整するように、オーディオソース分類信号を使用することができる。例示的な既定のパラメータは、サウンドソースが強い調和構造を有するかどうか、および/またはサウンドソースが急激な発現を有するかどうかを含む。ソースモデル736は、聴取者によって知覚されるサウンドステージの空間スライスの中のオーディオソースを識別するためにフィードバックオーディオソース分類信号を使用することができる。例えば、フィードバックオーディオソース分類信号が、いくつかの知覚位置で声のオーディオソースを、他の知覚位置で音楽のオーディオソースを示す場合、ソースモデル736は、オーディオ入力信号の異なる知覚位置に声および音楽ベースのモデルを適用する。
【0070】
信号分類器モジュール722はまた、分類出力ライン726上に空間スライスの分類の表示を提供することもできる。分類出力ライン726上の分類データ出力は、分類データの受信側と互換性のある任意の形式であってもよい。分類データは、空間スライスの表示および知覚空間スライス内に含有されるサウンドソースの表示を含むことができる。分類データの受信側は、データベースあるいは他のデータ保存および体系化機構を有する記憶装置、コンピューティングデバイス、あるいは任意の他の内部モジュールあるいは外部デバイスまたはモジュールであってもよい。分類データは、分類データガ生成されたオーディオデータ等の他のデータと関連して記憶されてもよい。例えば、分類データは、オーディオデータのヘッダまたはサイドチェーンの中に記憶される場合がある。個別の空間スライス、または1つ以上のスナップショットの中の空間スライス全体のオフラインまたはリアルタイム処理もまた分類データを使用して実施されてもよい。オフライン処理は、コンピューティング能力を備えるデバイスおよびシステムによって実施されてもよい。ヘッダまたはサイドチェーン等の中に、オーディオデータと関連して記憶されると、分類データは、他のデバイスおよびシステムによるオーディオデータの処理の一部として使用されてもよい。他のコンピューティングデバイス、オーディオ関連デバイス、またはオーディオ関連システムによるリアルタイム処理もまた、対応するオーディオデータを処理するために、出力ライン726上に提供される分類データを使用することができる。
【0071】
ジャンル検出モジュール738は、オーディオ入力信号のジャンルを識別するために、オーディオソース分類信号を使用することができる。例えば、オーディオソース分類信号が異なる知覚位置の中に声だけを示す場合、ジャンルは、ジャンル検出モジュール738によって会話と識別され得る。
【0072】
利得ベクトル生成モジュール720は、ベクトル処理モジュール724による受信に対して、利得ベクトル出力ライン744上に利得位置ベクトルを生成することができる。ベクトル処理モジュール724はまた、オーディオ入力信号フィードフォワードライン746上で、フィードフォワードオーディオ信号としてオーディオ入力信号712を受信することもできる。図7において、フィードフォワードオーディオ信号は、周波数領域にあり、他の実施例において、ベクトル処理モジュール724は時間領域、または周波数領域および時間領域の組み合わせで動作してもよく、オーディオ入力信号は、時間領域でベクトル処理モジュール724に提供されてもよい。
【0073】
ベクトル処理モジュール724は、聴取者によって知覚されるサウンドステージにわたる各空間スライスに対してサウンドソースベクトル(Ss)を生成するように、周波数ビンの各々の中のオーディオ入力信号(フィードフォワード信号)に利得位置ベクトルを適用するために式4を使用することができる。サウンドソースベクトル(Ss)の個別および独立の処理もまたベクトル処理モジュール724内で実施されてもよい。例えば、個別のサウンドソースベクトル(Ss)は、ベクトル処理モジュール724によって出力される前に、フィルタリングまたは振幅調整されてもよい。加えて、追加の残響が歌手の声に追加される場合等、所定のサウンドソースベクトル(Ss)に効果が追加される場合がある。個別のサウンドソースベクトル(Ss)はまた、ベクトル処理モジュール724による処理の一部として、独立して遅延または変更、再構成、強化、または修復されてもよい。サウンドソースベクトル(Ss)はまた、ベクトル処理モジュール724によって出力される前に、平滑化、またはそうでなければ個別に処理されてもよい。加えて、サウンドソースベクトル(Ss)は、出力される前に、ベクトル処理モジュール724によって、組み合わせまたは分割をされる等で、アセンブルされてもよい。したがって、オリジナルの録音は、個別の空間スライス調整のレベルに基づいて、再生の品質を向上するように「調整」されてもよい。
【0074】
ベクトル処理モジュール724を用いた処理に続いて、処理されたサウンドソースベクトル(Ss)は、ベクトル出力ライン748上で、サウンドソースベクトル信号として出力されてもよい。サウンドソースベクトル信号の各々は、オーディオ入力信号内からの1つ以上の別個のオーディオソースを表すことができる。サウンドソースベクトル信号は、入力信号として信号分類器モジュール722および後処理モジュール702に提供されてもよい。
【0075】
パラメータ入力制御器708は、利得ベクトル生成モジュール720、信号分類器モジュール722、およびベクトル処理モジュール724に対してパラメータ入力を選択的に提供することができる。パラメータ入力は、利得位置ベクトルおよび/または処理されたサウンドソースベクトル(Ss)を生成するために、処理に影響、修正および/または向上するように、モジュールによって使用可能な任意の信号または表示であってもよい。例えば、車両の場合、パラメータ入力は、エンジンノイズ、道路の騒音、車両の内部および外部に位置するマイクおよび加速度計、車両速度、天候制御設定、コンバーチブル上部の上下、サウンドシステムの音量、RDSデータ、コンパクトディスク(CD)等のオーディオ入力信号のソース、デジタルビデオデコーダ(DVD)、AM/FM/衛星ラジオ、携帯電話、Bluetooth(登録商標)接続、MP3プレーヤ、Ipod(登録商標)、または任意の他のオーディオ入力信号ソース等の、外部の信号を含む場合がある。他のパラメータ入力は、オーディオ信号がロスの多い知覚オーディオコーデックによって圧縮されたことの表示、使用されたコーデックのタイプ(MP3等)、および/または入力信号がエンコードされたビットレートを含んでもよい。同様に、会話信号の場合、パラメータ入力は、採用された会話コーデックのタイプの表示、エンコードされたビットレート、および/または入力信号内の声アクティビティの表示を含んでもよい。他の実施例において、オーディオ処理に有用である他のパラメータが提供されてもよい。
【0076】
利得ベクトル生成モジュール720内において、パラメータ入力は、オーディオ入力信号のジャンルを検出するように、ジャンル検出モジュール738のための情報を提供することができる。例えば、パラメータ入力が、オーディオ入力信号が携帯電話からであることを示す場合、ジャンル検出モジュール738は、オーディオ入力信号が声信号であることを示す場合がある。信号分類器722に提供されるパラメータ入力は、空間スライスの中の個別のオーディオソースを分類するために使用されてもよい。例えば、パラメータ入力が、オーディオソースがナビゲーションシステムであることを示している場合、信号分類器722は、オーディオソースとして声を示す空間スライルを検索し、他の空間スライスを無視することができる。加えて、パラメータは、信号分類器722が、オーディオソースを含む特定の空間スライスの中に含まれる雑音または他のオーディオコンテンツを認識することを可能にしてもよい。ベクトル処理モジュール724は、パラメータに基づいて、空間スライスの処理を調整することができる。例えば、車両の場合、速度のパラメータは、より高速で、低周波数のオーディオソース、または所定の空間スライス、または所定のサウンドソースベクトルの振幅を増加するために使用されてもよい。
【0077】
図7において、サウンドソースベクトル信号は、前処理モジュール704に類似の処理を使用して、周波数領域から時間領域に変換するために、後処理モジュール702を通じて処理される場合がある。このように、後処理モジュール702は、サウンドソースベクトル信号の変換器752およびウィンドウイングモジュール754を含んでもよい。変換器752およびウィンドウイングモジュール754は、ブロックの時間サンプルを変換するために、離散フーリエ変換(DFT)または他の変換プロセスを使用することができる。他の実施例において、異なる周波数領域から時間領域への変換プロセスが使用されてもよい。また他の実施例において、ベクトル出力ライン748上に提供されたサウンドソースベクトル信号は、時間領域において少なくとも部分的に実施されているサウンドソースベクトル処理モジュール706を用いた処理のために、時間領域にあってもよく、後処理モジュール702が省略されてもよい。サウンドソースベクトル信号または処理後のサウンドソースベクトル信号は、空間スライスに分割されたオーディオソースを表し、さらなる処理の対象であってもよく、聴取空間内のラウドスピーカを駆動するために使用されてもよく、または任意の他のオーディオ処理関連活動のために使用されてもよい。
【0078】
図8は、オーディオ入力信号解析モジュール700、サウンドソースベクトル処理モジュール802、および後処理モジュール804を含むことができる、オーディオ処理システム102の別の実施例の模式図である。オーディオ入力分析モジュール700は、前処理モジュール704と、サウンドソースベクトル生成モジュール706と、パラメータ入力制御器708とを含むことができる。加えて、前述のように、サウンドソースベクトル生成モジュール706は、利得ベクトル生成モジュール720、信号分類器モジュール722、およびベクトル処理モジュール724を含むことができる。
【0079】
図8において、前処理モジュール704は、左ステレオ信号(L)および右ステレオ信号(R)の形式でオーディオ入力信号806を受信する。他の実施例において、任意の数のオーディオ入力信号を提供することができる。前述のように、オーディオ入力信号806は、前処理モジュール704を用いて周波数領域に変換されてもよく、サウンドソースベクトル生成モジュール706によって時間領域で直接受信されてもよい。
【0080】
サウンドソースベクトル生成モジュール706は、これもまた前述のように、利得ベクトル生成モジュール720、信号分類器モジュール722、およびベクトル処理モジュール724を使用して、ベクトル出力ライン748上でサウンドソースベクトル(Ss)を生成することができる。ベクトル出力ライン748上のサウンドソースベクトル(Ss)は、サウンドソースベクトル処理モジュール802によって受信されてもよい。サウンドソースベクトル処理モジュール802はまた、それぞれの空間スライスの中のサウンドソースの識別(サウンドソースベクトル(Ss)を示す、信号分類器モジュール722からのオーディオ分類信号を受信することができる。
【0081】
サウンドソースベクトル処理モジュール802は、処理されたサウンドソースベクトル(Ss)に基づいて、出力チャンネルライン810上にオーディオ出力チャンネルを生成することができる。サウンドソースベクトル処理モジュール802は、サウンドソースベクトル修正モジュール812と、組立モジュール814とを含むことができる。
【0082】
サウンドソースベクトル修正モジュール812は、ベクトル処理モジュール724に関して前述したものと類似の機能を含むことができる。サウンドソースベクトル修正モジュール812は、処理されたサウンドソースベクトル(Ss)の各々において個別に動作可能な複数の修正ブロック813を含む。このように、サウンドソースベクトル修正モジュール812は、残響を追加、等化を実施、遅延を追加、効果を追加、ダイナミックレンジ圧縮または拡張を実施、過渡を強化、信号帯域幅を拡張、不足している信号成分を再構築するように内挿および/または外挿、および/またはサウンドソースベクトル(Ss)毎のベースで任意の他のオーディオ処理関連アクティビティを実施するために使用されてもよい。サウンドソースベクトル修正モジュール812内の処理は、劣化したオーディオ信号を修復、回復、および強化するために使用されてもよい。このように、聴取者によって知覚されるサウンドステージにわたる個別の空間スライスは、他のサウンドソースベクトル(Ss)の中の一切のオーディオソースに影響を与えることなく、独立して修正、調整、および/または補間されてもよい。例えば、特定の空間スライスの遅延は、所定の空間スライスの知覚を強調するため、または知覚されるサウンドステージの知覚幅を変更するために実施される場合がある。
【0083】
サウンドソースベクトル修正モジュール812はまた、個別のベクトルの中のオーディオソースの識別に基づいて、個別のサウンドソースベクトル(Ss)の識別を実施することもできる。前述のように、信号分類器モジュール722は、知覚位置のそれぞれ1つに含まれる1つ以上のオーディオソースを識別するために、聴取者によって知覚されるサウンドステージにわたる知覚位置の各々において動作することができる。オーディオソースの識別に続いて、対応するサウンドソースベクトル(Ss)が、識別されたオーディオソースに基づいて修正されてもよい。オーディオソースの識別を以降のスナップショットを処理するためのフィードバックとして使用するベクトル処理モジュール724とは対照的に、サウンドソースベクトル修正モジュール812には、フィードフォワードとして、オーディオソースの識別が提供される。このため、サウンドソースベクトル修正モジュール812は、信号分類器モジュール722によって提供されるようなそれぞれのオーディオソースの識別に基づいて、個別のサウンドソースベクトル(Ss)を処理することができる。
【0084】
オーディオソースの識別に基づく修正は、個別のオーディオソースの修復、知覚されるサウンドステージおよび/または入力信号の中に含まれる個別のオーディオソースの幅の調整、残響のレベルの調整、会話ソースのレベルの調整、声のソースの削減または除去、振動ソースの強化、ダイナミックレンジ圧縮または拡張、帯域幅拡張、個別のオーディオソースの不足構成要素を再構築するための外挿および/または内挿、オーディオソース特定の効果または教科、および聴取者によって知覚されるサウンドステージにわたる知覚位置調整を含むことができる。個別の識別されたオーディオソースの修復は、ライブラリまたはMIDIプレーヤ等の他のオーディオソース再作成デバイスからの特定のオーディオソースのオーディオ出力の一部の置換を含むことができる。例えば、所定の周波数内の雑音出力を有するノートを含む、サックスとして識別されたオーディオソースは、ライブラリから、またはサックスのオーディオを再作成することが可能なサウンドソースからのサックスオーディオ出力の同じ周波数内の同じノートで置換されてもよい。入力オーディオ信号は、MP3コーデック等の知覚オーディオコーデック、または任意の他の形式のロスが多い圧縮による処理の結果として、破損または劣化する場合がある。劣化/破損の他のソースとして、悪質なオーディオ録音および/または記憶方式、AM/FMおよび衛星ラジオ放送、テレビ放送、ビデオコーデック、Bluetooth(登録商標)等のワイヤレス接続、ボイスコーデック、ならびに携帯電話網を含む電話網が挙げられる。
【0085】
オーディオソースの特異的効果または強化として、識別されたオーディオソースに特異的である特定のサウンドソースベクトル(Ss)の中に含まれるサウンドソース値に対する変更が挙げられてもよい。例えば、声として識別されたオーディオソースは、聴取者が声をより容易に認識可能であるように、所定の周波数帯域内に振幅を増加または調整されてもよい。特異的サウンドソースベクトル(Ss)は、2つ以上のサウンドソースベクトル(Ss)の中に発現するオーディオソースの明瞭度を増加するように、ダイナミックレンジ圧縮機能の適用によって圧縮されてもよい。例えば、話者の声が、中央のサウンドソースベクトル(Ss)だけではなく、それぞれの楽器または背景雑音も含む、隣接した左右のサウンドソースベクトルにも存在する場合、中央のサウンドソースベクトルは、動的に圧縮される、またはそのレベルを変更される場合がある。別の例において、特定のサウンドソースベクトル(Ss)の中のトランペット等の楽器は、明確さを向上するように等化されてもよい。
【0086】
知覚位置調整は、識別されたオーディオソースを、聴取者によって知覚されるサウンドフィールド内のある位置から別の異なる位置へ移動させることが関与し得る。例えば、歌手の声等のサウンドソースは、聴取者によって知覚されるサウンドステージ内の連続的に位置するサウンドソースベクトル(Ss)内のギター等の、第2のサウンドソースを含む中央チャンネル内にあってもよい。信号分類器モジュール722を用いて歌手の声およびギターとして識別された後、ギターのサウンドソースは、サウンドソースベクトル修正モジュール812によって、歌手の声からさらに離れて離間するように、聴取者によって知覚されるサウンドステージの中で移動されてもよい。例えば、ギターは、サウンドソースベクトル修正モジュール812を用いて、オーディオソースを、オーディオソースを含有しないと識別された別のサウンドソースベクトル(Ss)へ移動させることによって、右ラウドスピーカに向かって移動されてもよい。ベクトル処理モジュール724は、できるだけサウンドソースおよび空間スライスを識別および/または特定するように動作し、一方で、サウンドソースベクトル修正モジュール812は、識別されたおよび/または特定されたサウンドソースおよび空間スライスを修正するように機能する。
【0087】
出力チャンネルを作成するステップは、サウンドソースベクトル(Ss)が導出された知覚位置または空間スライスのユーザによって知覚されるサウンドステージ内の位置に応じて、組立モジュール814を用いて、いくつかのサウンドソースベクトル(Ss)を共に組み合わせるステップまたは分割するステップを含むことができる。例えば、5つの出力チャンネルを備えるシステムにおいて、聴取者によって知覚されるサウンドステージの中央近辺のいくつかの知覚位置からのサウンドソースベクトル(Ss)は、中央出力チャンネルを形成して中央ラウドスピーカを駆動するように組み合わされてもよい。5つのチャンネルを備えるサラウンドサウンド出力システムの別の実施例において、4つの空間スライスだけが存在する場合、空間スライスのうちの2つは、横または後出力チャンネルを形成するように組み合わされてもよい。他の実施例において、知覚位置または空間スライスの数は、出力チャンネルの数に一致する。前述のように、これは、2つのチャンネルステレオ録音は、5、6、7、または任意の数の出力チャンネルに変換されることを可能にする。
【0088】
サウンドソースベクトル(Ss)はまた、元のオーディオ入力信号の中のオーディオソースを聴取者によって知覚されるサウンドステージ内の異なる位置に移動するために、サウンドソースベクトル修正モジュール812と協力する組立モジュール814によって再配置または再マッピングされてもよい。聴取者によって知覚されるサウンドステージ内のオーディオソースの各々は、サウンドソースベクトル(Ss)の別個の1つの中に含有される場合があるため、サウンドソースは、聴取者によって知覚されるサウンドステージ内の異なる位置に移動、またはマッピングされてもよい。すなわち、オーディオ入力信号の中の各オーディオソースの聴取者によって知覚されるサウンドステージ内の位置が決定され、捕獲されるため、かつオーディオソースは、サウンドソースベクトル(Ss)を用いて、個別の知覚位置または空間スライスに分離され得るため、サウンドソースが概して出力オーディオチャンネルの同じ位置に位置するべきか、または出力オーディオチャンネル内の新しい知覚位置に移動されるべきかを決定することができる。
【0089】
例えば、第1の知覚位置または空間スライスが、歌手の声を含有し、第1の知覚位置に隣接して位置する第2の知覚位置が、ギターを含む場合、歌手の声は、中央出力チャンネルに割り当てまたはマッピングされてもよく、ギターは、歌手の声から離れて分離される、聴取者によって知覚されるサウンドステージの左右の両側に割り当てまたはマッピングされてもよい。歌手の声およびギターは、組立モジュール814を用いて、歌手の声を含有するサウンドソースベクトル(Ss)を中央出力チャンネルに適切にマッピングし、ギターを含有するサウンドソースベクトル(Ss)を左および右前、横および/または後の出力チャンネルにマッピングすることによって、分離されてもよい。このように、オーディオ処理システム102は、2チャンネルオーディオ入力信号を、サラウンドサウンド出力信号等の任意の数のマルチチャンネル出力信号に変換するだけでなく、オーディオ入力信号内の個別のオーディオソースが所望の出力チャンネルのうちの1つ以上のうちのいずれかに割り当てられることを可能にしてもよい。
【0090】
加えて、サウンドソースベクトル(Ss)は、出力チャンネルが隣接して位置しているラウドスピーカを駆動するとき、サウンドソースベクトル(Ss)の中に含まれるオーディオソースが、2つのラウドスピーカの間に位置すると知覚的に認識されるように、2つの異なる出力チャンネルに割り当てられてもよい。さらに、特定の用途において、ラウドスピーカが、車両のドアパネル、ダッシュボードまたはリアデッキ等に、異なる高さおよび配向で車両内に配置されるとき等、サウンドソースベクトル(Ss)は、車両内の運転席および助手席での聴取経験を最適化するために、ラウドスピーカ位置の観点で調和して選択的に割り当てられてもよい。また、サウンドソースベクトル(Ss)の群は、1つ以上の出力チャンネルに統計的にマッピングされてもよい。代替として、サウンドソースベクトル(Ss)は、異なるサウンドソースベクトル(Ss)がパラメータ入力制御器708からの外部パラメータ、オーディオ入力信号のコンテンツ、またはサウンドソースベクトル(Ss)の出力チャンネルに対するマッピングの変更をトリガするように有用である他の条件、に基づいて自動的に、所定期間1つ以上の出力チャンネルに出現してから、次いで、1つ以上の他の出力チャンネルに移動するように、組立モジュール814によって動的にグループ化されてもよい。したがって、サウンドソースベクトル(Ss)の出力チャンネルに対するマッピングは、1対1のマッピング、または1対多のマッピング、または多対1のマッピングの場合がある。サウンドソースベクトル(Ss)のいくつかまたは全てのマッピングは、左入力信号が再生スピーカ配列の左側上の出力チャンネル(そして次にスピーカ)にマッピングされ、右入力信号が再生スピーカ配列の右側上の出力チャンネル(そして次にスピーカ)にマッピングされるような場合がある。加えて、または代替として、サウンドソースベクトル(Ss)のいくつかまたは全てのマッピングは、左入力信号がスピーカ配列の右側上の出力チャンネルにマッピングされ、および/または右入力信号がスピーカ配列の左側上の出力チャンネルにマッピングされるような場合がある。加えて、または代替として、サウンドソースベクトル(Ss)のいくつかまたは全てのマッピングは、左入力信号がスピーカ配列の両側上の出力チャンネルにマッピングされ、および/または右入力信号がスピーカ配列の両側上の出力チャンネルにマッピングされるような場合がある。マッピングの選択は、出力信号に対して所望の聴取者によって知覚されるサウンドステージを取得するように必要に応じて、ユーザによって事前に決定され、設定されてもよい。サウンドソースベクトル(Ss)の出力チャンネルへのマッピングは、マッピングが周波数に応じて変わることができるように、周波数依存であってもよい。一実施例において、周波数依存マッピングは、再生成されるサウンドステージ内でより良質かつより安定した空間イメージを取得するために使用されてもよい。
【0091】
出力チャンネルライン810上のオーディオ出力チャンネルは、後処理モジュール804によって受信されてもよい。後処理モジュール804は、任意の形式の周波数領域から時間領域への変換プロセスを使用して、周波数ベースのオーディオ出力チャンネルを時間ベースのオーディオ出力チャンネルに変換することができる。図8において、後処理モジュール804は、オーディオ出力信号の中に含まれるオーディオ出力チャンネルの各々に対して、変換器816と、ウィンドウイングモジュール818を含む。変換器816およびウィンドウイングモジュール818は、ブロックの時間サンプルに変換するために、離散フーリエ変換(DFT)または他の変換プロセスを使用することができる。他の実施例において、出力チャンネルライン上に提供されるオーディオ出力チャンネルは、時間領域において少なくとも部分的に実施されるサウンドソースベクトル処理モジュール706を用いた処理のために、時間領域にあってもよく、後処理モジュール804が省略されてもよい。
【0092】
図9は、オーディオ入力信号解析モジュール700と、システム管理モジュール902とを含むことができる、オーディオ処理システム102の別の実施例の模式図である。前述のように、オーディオ入力分析モジュール700は、前処理ブロック704と、サウンドソースベクトル生成モジュール706と、パラメータ入力制御器708とを含むことができる。加えて、サウンドソースベクトル生成モジュール706は、利得ベクトル生成モジュール720と、信号分類器722と、ベクトル処理モジュール724とを含むことができる。オーディオ入力信号904に基づいて、オーディオ入力信号解析モジュール700は、ベクトル出力ライン748上にサウンドソースベクトル(Ss)を生成することができる。図9において、オーディオ入力信号904は、時間領域に提供される左/右ステレオ対として例示される。他の実施例において、周波数領域または時間領域のいずれかに、任意の数のオーディオ入力信号が存在してもよい。
【0093】
ベクトル出力ライン748上に存在するサウンドソースベクトル(Ss)は、システム管理モジュール902によって受信されてもよい。システム管理モジュール902は、エネルギー測定モジュール906と、システム制御モジュール908とを含むことができる。エネルギー測定モジュール906は、ベクトル出力ライン748上でそれぞれのサウンドソースベクトル(Ss)を受信するように、ベクトル測定モジュール910を含むことができる。ベクトル測定モジュール910は各々、サウンドソースベクトル(Ss)のそれぞれ1つのエネルギーレベルを測定することができる。ベクトル管理モジュール910は、RMS(実効値)ベースの測定、またはピークベースの測定等の方法を使用して、信号レベルを測定することができる。加えてまたは代替として、ベクトル測定モジュール910は、信号の知覚される音の大きさを測定することができる。
【0094】
システム制御モジュール908は、制御器912と、ユーザインターフェース914と、データ記憶モジュール916とを含むことができる。制御器912は、図1を参照して記載したプロセッサ120に類似のスタンドアロン型プロセッサであってもよく、またはプロセッサ120(図1)を用いて実施される機能を表してもよい。ユーザインターフェース914は、ユーザがオーディオ信号処理システム102に情報を提供し、そこから受信することが可能な、任意の視覚式、可聴式、および/または触角式機構、プロセッサ、またはデバイスを含むことができる。例えば、ユーザインターフェース914は、電気信号を何らかの視覚的に認知される形式でユーザに提示される情報に変換するディスプレイを含んでもよい。ディスプレイのいくつかの例として、液晶ディスプレイ(「LCD」)、ブラウン管(「CRT」)、電子発光ディスプレイ(「ELD」)、ヘッドアップディスプレイ(「HUD」)、プラズマディスプレイパネル(「PDP」)、発光ダイオードディスプレイ(「LED」)、または真空蛍光ディスプレイ(「VFD」)が挙げられる。ユーザインターフェース914は、ユーザとオーディオ信号処理システム102との相互作用を表す、電信信号を制御器912から受信し、制御器912に電気信号を提供することができる。一実施例において、ユーザインターフェース914は、制御器912に電気的に接続されるユーザ入力デバイスを含んでもよい。入力デバイスは、ホイールボタン、ジョイスティック、キーパッド、ユーザから入力を受信し、制御器912への入力信号等の入力を提供することが可能なタッチ画面構成またな任意の他のデバイスまたは機構であってもよい。別の実施例において、ディスプレイは、制御器912、またはオーディオ信号処理システム102の中に含まれる任意の他のモジュールまたはデバイスに信号を伝送するタッチ画面ディスプレイであってもよい。ユーザによってタッチされたディスプレイ上の領域、ユーザがディスプレイにタッチした時間の長さ、ユーザがディスプレイに触れて指先を移動する方向等の情報は、異なる信号入力として、オーディオ信号処理システム102に伝達されてもよい。
【0095】
ユーザインターフェース914はまた、ユーザがオーディオ信号処理システム102と可聴式に相互作用することを可能にする、ボイスベースのインターフェースを含むこともできる。ボイスベースのインターフェースは、ユーザが、マイクおよびボイス認識ソフトウェアを使用して、オーディオ信号処理システム102に入力を提供することを可能にしてもよい。ユーザの発話は、制御器912のためのテキストデータを生成するように、マイクを使用して電気信号に変換され、ボイス認識ソフトウェアを使用して処理される。
【0096】
データ記憶モジュール916は、データログおよび記憶を可能にするように、コンピュータコードを含むことができる。コンピュータコードは、制御器912によって実効可能なロジックおよび/または命令の形式であってもよい。制御器912による命令の実行は、それぞれのサウンドソースベクトル(Ss)の各々からのエネルギーレベルをログするための機能を提供する場合がある。加えて、オーディオ信号処理システム102に提供された、またはオーディオ処理システム102を用いて生成された任意の他のデータまたはパラメータをログするステップは、データ記憶モジュール916を用いてログされてもよい。データ記憶モジュール916はまた、データベース保守および制御ツール、または任意の他の形式のデータ体系化および記憶デバイスを含むことができる。データ記憶モジュール916はまた、図1を参照して記載されるメモリ118の一部として含まれてもよい。
【0097】
図9のオーディオ処理システム102は、前述のように、オーディオ処理システム102の他の機能のうちのいずれかと共に使用されてもよい。したがって、ユーザインターフェース914は、オーディオ処理システム102のユーザが、オーディオ処理システム102の前述の機能のうちのいずれかに影響を与える、または制御を有することが可能である機能を含んでもよい。例えば、ユーザインターフェース914は、ユーザが、図5を参照して記載された個別の位置フィルタの幅および傾きを手動で調整することを可能にし得る。このように、ユーザは、単純な制御ノブを用いて等で、オーディオ入力信号の中に含まれる特定のサウンドソースがサウンドソースベクトル(Ss)のうちのどれに位置してもよいかを手動で調整することができる。別の実施例において、ユーザには、図8を参照して記載された組立モジュール814によって、サウンドソースベクトル(Ss)がどのようにグループ化、分割、またはそうでなければ操作されるかを手動で調整するための能力が提供されてもよい。したがって、オーディオ出力チャンネルよりも多いサウンドソースベクトル(Ss)が存在する場合、ユーザは、サウンドソースが出現するラウドスピーカを調整し、それによって、聴取者によって知覚されるサウンドステージ内のオーディオソースの知覚位置を調整することができる。また、ユーザから図7を参照して記載されたパラメータ入力制御モジュール708への手動入力は、ユーザインターフェース914を介して入力されてもよい。図8を参照して記載されたサウンドソースベクトル修正モジュール812を使用してサウンドソースベクトル(Ss)の中に含まれたサウンドソースベクトル(Ss)またはオーディオソースの手動調整もまた、ユーザインターフェース914を介して実施されてもよい。図9のベクトル測定モジュール910の出力は、処理されたサウンドソースベクトル(Ss)のレベル、または処理されたサウンドソースベクトル(Ss)の中に含まれるオーディオソースを調整するように、図8の修正ブロック813によって使用されてもよい。例えば、修正ブロック813は、ベクトル測定モジュール910を用いて測定された相対的エネルギーレベルに基づいて、サラウンドオーディオ信号の生成において使用されるサウンドソースベクトル(Ss)のエネルギーレベルを上昇させることができる。
【0098】
図10は、特定の効果を達成するように、サウンドソースベクトル(Ss)上で実施され得る、オーディオ処理システム102内のいくつかの調整の実施例である。調整機能は、ユーザによって手動で実施、プロセッサによって自動的に実施、または手動および自動制御の何らかの組み合わせを用いて実施されてもよい。図10は、右ラウドスピーカ1004および左ラウドスピーカ1006を駆動する出力オーディオチャンネルを用いて形成された聴取者によって知覚されるオーディオ出力サウンドステージ1002を含む。聴取者によって知覚されるオーディオ出力サウンドステージ1002は、中央位置1008を含む。他の実施例において、聴取者によって知覚されるサウンドステージ1002は、図3に類似のサラウンドサウンドステージであってもよい。
【0099】
図10には、中央空間スライス1010が例示される。他の実施例において、任意の他の出力チャンネルが同様に調整されてもよい。中央空間スライスは、サウンドソースベクトル修正モジュール812または組立モジュール814によって、矢印1012によって示されるように、聴取者によって知覚されるオーディオ出力サウンドステージ1002内の位置において調整されてもよい。加えて、中央空間スライス1010にチャンネルされる、聴取者によって知覚されるサウンドステージ1002の幅または長さもまた、位置フィルタバンク500(図5)内の中央空間フィルタ502の傾きを変更することによって、矢印1014によって示されるように調整されてもよい。空間フィルタのうちのいずれかの傾きを調整すると、隣接して位置する空間フィルタとの交点が変化することになる。このように、図10の実施例において、中央空間スライス1010を狭くするように中央空間フィルタ502の傾きを調整すると、聴取者によって知覚されるサウンドステージ1002内において、中央1008から離れ、右スピーカ1004および左スピーカ1006のうちの1つまたは両方に向かってオーディオソースを移動させることができる。逆に、中央空間スライス1010を広くするように中央チャンネル出力フィルタ502の傾きを調整すると、聴取者によって知覚されるサウンドステージ1002内において、中央1008により近くにオーディオソースを移動させることができる。
【0100】
加えて、または代替として、オーディオ出力チャンネルの振幅または大きさは、他のオーディオ出力チャンネルのいずれかに対して独立して調整されてもよい。図10において、中央出力チャンネルの振幅の調整は、矢印1016を用いて例示される。振幅の調整は、中央出力チャンネル1010内にあるとして識別されたサウンドソースベクトル(Ss)の中に含まれるサウンドベクトルの振幅を調整することによって、サウンドソースベクトル処理モジュール802(図8)の中で実施されてもよい。
【0101】
そのような振幅調整の特異的実施例は、オーディオを含むビデオ放送の分野にある。テレビ番組等の多数のビデオ放送は、オーディオ入力信号の聴取者によって知覚されるサウンドステージ内の中央位置の中にオーディオダイアログを含むので、利用者には、オーディオ入力信号の中に含まれる他のオーディオソースを変更しないままにする一方で、受信されるテレビ番組の会話部分を強調するための機能が提供される場合がある。このため、オーディオ入力信号の中に含まれる背景雑音によって、会話を聞くことが困難である、補聴器を用いるユーザ等のユーザは、残りのサウンドソースベクトル(Ss)の振幅を実質的に変わりなく維持する一方で、会話を効果的に助長するように、6dB等の既定量、中央の空間スライスに関連するサウンドソースベクトル(Ss)に関連するサウンドソースベクトル(Ss)を上昇させることができる。中央空間スライスに関連するサウンドソースベクトル(Ss)が上昇した後、サウンドソースベクトル(Ss)は、1対のステレオ出力チャンネル等の、1つ以上の出力チャンネルを形成するように再アセンブルされてもよい。代替として、またはこれに加えて、会話を含有すると識別された中央の空間スライス以外の空間スライスを上昇させることができる。加えて、会話が前に存在した空間スライスの中の会話の不在の識別に基づいて、上昇は選択的に適用されてもよい。別の実施例において、アナウンサの声をより大きくするために、圧縮を含むテレビ番組の中で受信されるコマーシャルの振幅が削減されてもよい。
【0102】
一実施例において、空間スライス1010の位置および/または幅の調整による空間スライス1010の領域の調整、およびオーディオ出力チャンネルの振幅または大きさの調整は、前述のように、聴取者によって知覚されるサウンドステージ内のオーディオソースの識別に基づいて、オーディオ処理システムによって自動的に実施されてもよい。加えて、または代替として、そのような調整は手動で実施されてもよい。例えば、ユーザは、空間スライス1010の位置を聴取者によって知覚されるサウンドステージ1002にわたって前後に移動または通過させることを可能にするチューニングノブまたは他の形式のユーザインターフェース等の第1の調整器を有してもよい。ユーザは、空間スライス1010の幅を調整するための第2の調整器、および空間スライス1010内のオーディオコンテンツの大きさを調整するための第3の調整器を有してもよい。このように、ユーザは、聴取者によって知覚されるサウンドステージ1002内のどこかに設置された、ギター等の1つ以上の可聴サウンドソースを設置するために、視聴者によって知覚されるサウンドステージ1002内で空間スライス1010をあちこち移動するように、第1の調整器を調整することができる。設置された後、ユーザは、空間スライス1010内の1つ以上の可聴サウンドソースを完全に包囲するように、空間スライス1010の幅を調整するように、第2の調整器を調整することができる。さらに、ユーザが第1および第2の調整器を使用して所望されるような空間スライスの領域を調整した後、ユーザは、空間スライス1010内で現在包囲されている1つ以上の可聴サウンドソースの大きさを増加または減少するように、第3の調整器を調整することができる。
【0103】
図11は、図1〜10を参照して記載する、オーディオ処理システム102による例示的なオーディオ処理を例示するプロセス流れ図である。この実施例において、オーディオ信号は、時間領域において提供され、周波数領域に変換される。他の実施例において、オーディオ信号は、周波数領域において受信されてもよく、および/または処理は、時間領域および周波数領域、時間領域のみ、または周波数領域のみで実施されてもよい。ブロック1102において、オーディオ処理システム102は、オーディオソースからオーディオ入力信号を受信する。オーディオ入力信号のスナップショットまたは時間的瞬間は、ブロック1104において、時間領域から周波数領域に変換され、周波数ビンに分離される。ブロック1106において、聴取者によって知覚されるサウンドステージにわたるサウンドソースの各々の推定知覚位置S(ω)は、推定位置生成モジュール728を用いて決定されてもよい。推定知覚位置S(ω)は、前述のように式1および2に基づいて決定されてもよい。推定知覚位置S(ω)は、ブロック1108において、位置フィルタバンク500に適用される。
【0104】
ブロック1110において、利得値は、既定の数の、またはユーザによって選択された数の空間スライスのうちの1つに対してそれの位置利得ベクトルを形成するように、周波数ビンの各々に対して導出される。知覚モデル734およびソースモデル736は、ブロック1112において利得位置ベクトルに適用されてもよい。ブロック1114において、利得位置ベクトルが全ての空間スライスに対して形成されたか決定される。利得位置ベクトルが空間スライス全てに決定されていない場合、ブロック1116において次の空間スライスが選択され、ブロック1110、1112、および1114が繰り返される。ブロック1114において、利得位置ベクトルが空間スライス全てに決定されていない場合、動作はブロック1118に進み、空間スライスの各々に対してサウンドソースベクトル(Ss)を形成する。周波数ビンの各々のオーディオ入力信号の一部は、サウンドソース値(Ssn)を生成して、空間スライスの各々に対してサウンドソースベクトル(Ss)を形成するように、位置利得位置ベクトルのうちの各1つの中の対応する利得値によって乗算されてもよい。
【0105】
ブロック1120において、サウンドソースベクトル(Ss)が空間スライスの各々に対して決定されたか決定される。決定されていない場合、ブロック1122において、動作は、サウンドソースベクトル(Ss)がまだ決定されていない次の空間スライスに移動し、サウンドソースベクトル(Ss)が空間スライスの各々に対して導出されるまで、ブロック1118および1120を繰り返す。ブロック1120において、サウンドソースベクトル(Ss)が空間スライスの全てに対して導出されている場合、動作は、図12のブロック1124に進む。ブロック1124において、サウンドソースベクトル(Ss)の各々は、信号分類器722を用いて、サウンドソースベクトル(Ss)のうちのそれぞれ1つ以上によって表されるサウンドソースを識別するように解析される。
【0106】
ブロック1126において、空間スライスの各々に対するサウンドソースが決定されたかどうかが決定される。空間スライスの全てがサウンドソースに対して解析されていない場合、動作は、信号分類器モジュール722が空間スライスの中の追加のサウンドソースを識別するために、ブロック1124に戻る。一方、空間スライスが全て検討されている場合、空間スライスの各々に対してフィードバックオーディオソース分類信号が生成され、オーディオ入力信号の以降のスナップショットを処理する際に使用するために、ブロック1128において、位置フィルタバンク生成モジュール730、知覚モデル734、およびソースモデル736に提供されてもよい。
【0107】
ブロック1130において、フィードフォワードオーディオソース分類信号は、オーディオ入力信号の現在処理されているスナップショットのサウンドソースベクトル(Ss)をさらに処理するために、オーディオソースベクトル修正モジュール812に提供される。サウンドソースベクトル修正モジュール812は、ブロック1132でのフィードフォワードオーディオソース分類信号に基づいて、サウンドソースベクトル(Ss)を修正することができる。サウンドソースベクトル(Ss)は、オーディオ出力チャンネルを含有するオーディオ出力信号を形成するために、ブロック1134で組立モジュール814を用いて、再び組み合わされる等で、アセンブルされてもよい。ブロック1136において、オーディオ出力チャンネルは、周波数領域から時間領域へ変換されてもよい。動作は次いで、ブロック1104に戻り、オーディオ入力信号の別のスナップショットを変換し、再び動作を実施してもよい。
【0108】
前述のオーディオ処理システムを使用して、2つ以上のチャンネルの任意のオーディオ入力信号は、オーディオ入力信号を聴取者によって知覚されるサウンドステージにわたって空間スライスに分割することによって、オーディオ入力信号の中に含有されるオーディオソースの知覚位置を識別するように、細かく解析されてもよい。オーディオ入力信号の現在のスナップショットは、オーディオソースを識別するために、サウンドソースベクトル(Ss)をそれぞれ含有する空間スライスに細かく解析されてもよい。オーディオソースがサウンドソースベクトル(Ss)に分割された後、オーディオソースの各々が分類され、分類に基づいてさらに処理されてもよい。代替として、空間スライスに分解されていたオーディオ入力信号、およびサウンドソースベクトル(Ss)を含有する空間スライスの各々は、独立して処理されてもよい。他のシステムにおいて、個別のサウンドソースを表すオーディオ入力信号の一部を処理するためにそのように細かく解析することは可能ではない。個別の空間スライスの独立処理が実施された後、空間スライスは、出力オーディオ信号を形成するようにさらに操作されてもよい。操作は、オーディオ出力チャンネルを形成するように、空間スライスを移動させるか、組み合わせるか、または分割するステップが関与してもよい。
【0109】
本発明の多様な実施形態が記載されるが、本発明の範囲内でより多くの実施形態および実装が可能であることは当業者には明らかであろう。したがって、本発明は添付の請求項およびそれらの同等物を考慮する点を除いては、限定されないものとする。

【特許請求の範囲】
【請求項1】
オーディオ処理システムであって、
プロセッサと、
利得ベクトル生成モジュールであって、該利得ベクトル生成モジュールは、オーディオ入力信号を解析し、および該オーディオ入力信号に含まれる複数のオーディオソースの各々の、聴取者によって知覚されるサウンドステージ内の複数のそれぞれの知覚位置を推定するように、該プロセッサによって実行可能であり、
該それぞれの知覚位置の各々に対する位置利得ベクトルを生成するように、該プロセッサによってさらに実行可能である利得ベクトル生成モジュールと、
該位置利得ベクトルを該オーディオ入力信号に適用して複数のサウンドソースベクトルを生成するように、該プロセッサによって実行可能であるベクトル処理モジュールであって、該サウンドソースベクトルの各々は、該それぞれの知覚位置のうちの1つを表す、ベクトル処理モジュールと
を備える、システム。
【請求項2】
サウンドソースベクトル処理モジュールをさらに備え、該サウンドソースベクトル処理モジュールは、前記サウンドソースベクトルを修正し、および該サウンドソースベクトルをアセンブルして、複数のラウドスピーカを駆動するように構成されるオーディオ出力信号を生成するように、前記プロセッサによって実行可能であり、該サウンドソースベクトル処理モジュールは、該サウンドソースベクトルをアセンブルするように選択的に構成可能であることにより、前記オーディオ入力信号におけるオーディオチャンネルの数が、該オーディオ出力信号におけるチャンネルの数よりも少なく、多く、または等しくある、請求項1に記載のオーディオ処理システム。
【請求項3】
前記利得位置ベクトルの各々は、複数の利得値を含み、該利得値の各々は、前記オーディオ入力信号の全周波数範囲の一部に対応し、該利得値は、該オーディオ入力信号の該全周波数範囲の該一部に適用される、請求項1に記載のオーディオ処理システム。
【請求項4】
前記利得ベクトル生成モジュールによる前記オーディオ入力信号の解析は、該オーディオ入力信号を複数の周波数ビンに分割し、該周波数ビンの各々は、該オーディオ入力信号内に含まれる周波数帯を含む、請求項1に記載のオーディオ処理システム。
【請求項5】
前記利得ベクトル生成モジュールは、位置フィルタを含み、前記知覚位置が、該位置フィルタに適用されて、前記位置利得ベクトルを生成する、請求項1に記載のオーディオ処理システム。
【請求項6】
信号分類器モジュールをさらに備え、該信号分類器モジュールは、前記それぞれの知覚位置の各々における前記オーディオソースの各々を識別するように、前記プロセッサによって実行可能である、請求項1に記載のオーディオ処理システム。
【請求項7】
前記位置利得ベクトルおよび前記サウンドソースベクトルは、複数の時点の各々において繰り返し生成され、前記オーディオ処理システムは、知覚モデルをさらに備え、該知覚モデルは、いくつかの該時点にわたって、時間に基づく聴覚マスキング推定値および周波数に基づく聴覚マスキング推定値のうちの少なくとも1つに基づいて、該利得位置ベクトルを平滑化し、および前記オーディオソースのそれぞれの知覚位置の突然の変化を回避するように、前記プロセッサによって実行可能である、請求項1に記載のオーディオ処理システム。
【請求項8】
ソースモデルをさらに備え、該ソースモデルは、前記オーディオ入力信号を平滑化して、所定回数のスナップショットにわたって、該オーディオ入力信号の振幅および周波数の所定の変化率を超えることを回避するように、前記プロセッサによって実行可能である、請求項1に記載のオーディオ処理システム。
【請求項9】
前記位置利得ベクトルおよび前記サウンドソースベクトルは、複数の時点の各々において繰り返し生成され、前記オーディオ処理システムは、前記プロセッサによって実行可能である知覚モデルおよびソースモデルをさらに備え、該ソースモデルは、所定の変化率を超える前記オーディオ入力信号の振幅または周波数の変化を識別するように実行可能であり、該知覚モデルは、該所定の変化率を超える振幅または周波数の該識別された変化に基づいて、該利得位置ベクトルを動的に平滑化するように実行可能である、請求項1に記載のオーディオ処理システム。
【請求項10】
サウンドソースベクトル処理モジュールをさらに備え、該サウンドソースベクトル処理モジュールは、前記知覚位置のうちの所定の1つを表すサウンドソースベクトルを識別し、および該サウンドソースベクトルの利得を調整することにより、該識別されたサウンドソースベクトルに表されるサウンドソースの振幅を調整するように、プロセッサによって実行可能であり、該サウンドソースベクトル処理モジュールは、該利得調整されたサウンドソースベクトルを残りのサウンドソースベクトルとアセンブルして、複数のラウドスピーカに提供するためのオーディオ入力信号を生成するようにさらに実行可能である、請求項1に記載のオーディオ処理システム。
【請求項11】
オーディオ信号を処理する方法であって、
オーディオプロセッサを用いてオーディオ入力信号を受信することと、
該オーディオプロセッサを用いて、該オーディオ入力信号内に表される複数の可聴サウンドソースの各々の複数の知覚位置を識別することであって、該知覚位置は、聴取者によって知覚されるサウンドステージ内の該それぞれの可聴サウンドソースの物理的な位置を表す、ことと、
該それぞれの可聴サウンドソースの該識別された知覚位置に基づいて、複数のそれぞれの入力チャンネルの各々に対して、該オーディオプロセッサを用いて複数のフィルタを生成することと
を含み、該オーディオプロセッサは、該フィルタを該オーディオ入力信号に適用して、複数のサウンドソースベクトルを生成し、該サウンドソースベクトルの各々は、該オーディオ入力信号の一部を表す、方法。
【請求項12】
前記サウンドソースベクトルの各々を別個に、および独立的して修正することをさらに含み、それにより、前記オーディオ入力信号の部分を別個に、および独立して修正する、請求項11に記載の方法。
【請求項13】
前記オーディオプロセッサを用いて前記修正されたサウンドソースベクトルを処理することをさらに含み、それにより、複数のそれぞれのオーディオ出力チャンネルの各々におけるそれぞれのラウドスピーカを駆動するように構成されるオーディオ出力信号を生成する、請求項12に記載の方法。
【請求項14】
前記修正されたサウンドソースベクトルを処理することは、前記それぞれのオーディオ出力チャンネルのうちの各1つを形成するように、該修正されたサウンドソースベクトルのサブセットを共に組み合わせることを含む、請求項13に記載の方法。
【請求項15】
前記オーディオ入力信号は、複数のオーディオ入力チャンネルを備え、前記それぞれのオーディオ出力チャンネルの数は、該オーディオ入力チャンネルの数よりも多いか、または少ない、請求項13に記載の方法。
【請求項16】
複数の知覚位置を識別することは、前記オーディオ入力信号を複数の所定の周波数帯に分離することと、該所定の周波数帯のうちの少なくとも1つにおいて前記複数の可聴サウンドソースのうちの1つ以上の該知覚位置を識別することとを含む、請求項11に記載の方法。
【請求項17】
前記複数の可聴サウンドソースのうちの1つ以上の前記知覚位置を識別することは、位置値の所定の範囲の中からの位置値を前記聴取者によって知覚されるサウンドステージを形成する複数の所定のゾーンの各々に割り当てることを含む、請求項16に記載の方法。
【請求項18】
前記オーディオ入力信号に前記フィルタを適用することは、該オーディオ入力信号内に混合されている一群の前記可聴サウンドソースをいくつかの異なるサウンドソースベクトルに分離することを含み、該一群の可聴サウンドソースは、該一群内の該可聴サウンドソースのうちの各々の前記識別されたそれぞれの知覚位置に基づいて分離される、請求項11に記載の方法。
【請求項19】
前記複数のフィルタを生成することは、調整可能な交点によって該フィルタを構築することを含み、それにより、該フィルタの各々によって表される前記それぞれの知覚位置の領域が、前記オーディオ入力信号内に表される前記可聴サウンドソースのサウンドエネルギーを該知覚位置のうちの1つ以上内に割り振るように調整可能である、請求項11に記載の方法。
【請求項20】
前記聴取者によって知覚されるサウンドステージ内において、前記それぞれの知覚位置のうちの1つ以上の位置および幅のうちの少なくとも1つを調整することによって、該それぞれの知覚位置のうちの1つ以上の前記領域を調整することをさらに含む、請求項19に記載の方法。
【請求項21】
前記知覚位置のうちの1つ以上の位置および幅のうちの少なくとも1つを調整することは、前記入力オーディオ信号のジャンルを決定することと、該決定されたジャンルに基づいて調整可能な交点を調整することとを含む、請求項19に記載の方法。
【請求項22】
プロセッサによって実行可能である命令を含むコンピュータ可読媒体であって、該コンピュータ可読媒体は、
オーディオ入力信号を受信するための命令と、
複数の利得位置ベクトルを生成するための命令であって、該利得位置ベクトルの各々は、該オーディオ入力信号が聴取空間に可聴サウンドとして出力されるときに作成される知覚サウンドステージにおける位置に対応しており、該利得位置ベクトルの各々は、該対応位置において該オーディオ入力信号の複数の所定の周波数帯のうちのそれぞれの1つの各々にある利得値を含む、命令と、
それぞれの複数の出力チャンネルのうちの各々に対する複数の位置フィルタを生成するための命令であって、該位置フィルタは、該利得位置ベクトルから生成される、命令と、
各位置フィルタのそれぞれを該オーディオ入力信号に適用して、複数のサウンドソースベクトルのうちのそれぞれの1つを形成するための命令と
を備える、コンピュータ可読媒体。
【請求項23】
前記サウンドソースベクトルの各々においてそれぞれのオーディオソースを識別するための命令と、該識別されたそれぞれのオーディオソースに従って、該サウンドソースベクトルの各々を別個に、および独立して処理するための命令とをさらに備える、請求項22に記載のコンピュータ可読媒体。
【請求項24】
前記サウンドソースベクトルの各々を独立して処理するための命令と、該サウンドソースベクトルをアセンブルして、オーディオ出力信号を形成するための命令とをさらに備え、該オーディオ出力信号は、それぞれのラウドスピーカを独立して駆動するように構成される複数のオーディオ出力チャンネルを備える、請求項23に記載のコンピュータ可読媒体。
【請求項25】
複数の利得位置ベクトルを生成するための命令は、前記オーディオ入力信号を周波数領域に変換するための命令と、該オーディオ入力信号を前記所定の周波数帯に分割するための命令とを備える、請求項22に記載のコンピュータ可読媒体。
【請求項26】
前記位置フィルタの各々を前記オーディオ入力信号に適用するための命令は、前記所定の周波数帯のうちのそれぞれの1つにおける前記利得値の各々を、該オーディオ入力信号の該所定の周波数帯のうちの対応する1つに適用するための命令を備える、請求項22に記載のコンピュータ可読媒体。
【請求項27】
複数の利得位置ベクトルを生成するための命令は、前記位置の各々において前記オーディオ入力信号の前記所定の周波数帯の各々に対する利得値を生成するための命令を備える、請求項22に記載のコンピュータ可読媒体。
【請求項28】
オーディオ信号を処理する方法であって、
オーディオ入力信号を受信することと、
該オーディオ入力信号を複数のサウンドソース位置ベクトルに分割することであって、該サウンドソース位置ベクトルの各々は、聴取者によって知覚されるサウンドステージにわたる知覚位置を表し、該サウンドソース位置ベクトルのうちの少なくともいくつかは、該オーディオ入力信号に含まれる可聴サウンドソースを含む、ことと、
該サウンドソース位置ベクトルを独立して修正することと、
複数のオーディオ出力チャンネルを含むオーディオ出力信号を作成するように、該サウンドソース位置ベクトルをアセンブルすることであって、該オーディオ出力チャンネルの各々は、それぞれのラウドスピーカを駆動するように構成される、ことと
を含む、方法。
【請求項29】
前記オーディオ入力信号を複数のサウンドソース位置ベクトルに分割することは、該オーディオ入力信号を複数の所定の周波数帯に分割することと、該所定の周波数帯の各々に対する複数のサウンドソース値を生成することとを含み、該サウンドソースベクトルの各々は、前記知覚位置のうちの特定の1つに対する該複数のサウンドソース値から形成される、請求項28に記載の方法。
【請求項30】
前記オーディオ入力信号を複数のサウンドソース位置ベクトルに分割することは、複数の位置フィルタを生成することと、該サウンドソース位置ベクトルを生成するように、該オーディオ入力信号を該位置フィルタに適用することとを含む、請求項28に記載の方法。
【請求項31】
オーディオ出力信号を作成するように前記サウンドソース位置ベクトルをアセンブルすることは、前記オーディオ出力チャンネルの各々を形成するように、該サウンドソース位置ベクトルを組み合わせることを含む、請求項28に記載の方法。
【請求項32】
オーディオ出力信号を作成するように前記サウンドソース位置ベクトルをアセンブルすることは、該サウンドソース位置ベクトルのうちの1つから前記オーディオ出力チャンネルのうちの1つを形成することを含む、請求項28に記載の方法。
【請求項33】
オーディオ出力信号を作成するように前記サウンドソース位置ベクトルをアセンブルすることは、前記オーディオ出力チャンネルのうちの少なくとも2つに該サウンドソース位置ベクトルのうちの1つを含むことを含む、請求項28に記載の方法。
【請求項34】
前記サウンドソース位置ベクトルを独立して修正することは、該サウンドソース位置ベクトルのうちの特定の1つに含まれる前記オーディオサウンドソースのみを独立して調整することを含む、請求項28に記載の方法。
【請求項35】
前記サウンドソース位置ベクトルを独立して修正することは、それぞれの1つ以上のサウンドソース位置ベクトルに分割された前記オーディオ入力信号のうちの1つ以上の部分についての、雑音低減、音量調整、残響調整、過渡的増大、圧縮、および周波数等化のうちの少なくとも1つを独立して行うことを含む、請求項28に記載の方法。
【請求項36】
前記サウンドソース位置ベクトルを独立して修正することは、該サウンドソース位置ベクトルのうちの第1のベクトルに含まれる前記可聴サウンドソースを、該サウンドソース位置ベクトルのうちの第2のベクトルまで移動させることを含む、請求項28に記載の方法。
【請求項37】
オーディオ処理システムであって、
オーディオ入力信号を受信するように構成されるプロセッサを備え、
該プロセッサは、該オーディオ入力信号を周波数領域に変換するようにさらに構成され、
該プロセッサは、該オーディオ入力信号を複数の所定の周波数帯に分離するようにさらに構成され、
該プロセッサは、複数の利得位置ベクトルを生成するようにさらに構成され、該利得位置ベクトルの各々は、聴取者によって知覚されるサウンドステージにわたる複数の知覚位置のうちの1つに対応し、
該プロセッサは、該利得位置ベクトルを該オーディオ入力信号に適用して、該オーディオ入力信号に含まれる可聴サウンドソースを該複数の知覚位置に分離するようにさらに構成され、
該プロセッサは、別個の可聴サウンドソースを別個に、および独立して処理するようにさらに構成され、
該プロセッサは、該別個の可聴サウンドソースをアセンブルして、複数のオーディオ出力チャンネルを含むオーディオ出力信号を形成するようにさらに構成される、システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公表番号】特表2013−507048(P2013−507048A)
【公表日】平成25年2月28日(2013.2.28)
【国際特許分類】
【出願番号】特願2012−532145(P2012−532145)
【出願日】平成22年10月4日(2010.10.4)
【国際出願番号】PCT/US2010/051372
【国際公開番号】WO2011/044064
【国際公開日】平成23年4月14日(2011.4.14)
【出願人】(592051453)ハーマン インターナショナル インダストリーズ インコーポレイテッド (91)
【Fターム(参考)】