音声処理装置、音声処理方法、プログラムおよび記録媒体

【課題】ユーザの操作によって対話的に複数の符号化音声データを再生する際に必要とされる復号処理の計算量を低減させ、復号処理を効率化する音声処理装置、音声処理方法、プログラムおよび記録媒体を提供すること。
【解決手段】複数の符号化音声データを復号して逆量子化して周波数データを生成し、各周波数データに加工処理を施して合成した後、合成された単一の周波数データに対して変換処理を施して音声データを生成する音声処理装置を提供する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、符号化された音声データの処理に関し、より詳細には、符号化された音声データを再生する際の計算量を低減する音声処理装置、音声処理方法、プログラムおよび記録媒体に関する。
【背景技術】
【０００２】
従来、音声データを再生するために、符号化された音声データ（以下、符号化音声データとして参照する。）を復号して再生する技術が存在する。通常、符号化音声データを再生するには、符号化音声データを復号して逆量子化し、逆離散コサイン変換（ＩＤＣＴ：Inverse Discrete Cosine Transform）変換や逆修正離散コサイン変換（ＩＭＤＣＴ：Inverse Modified Discrete Cosine Transform）、サブバンドフィルタ処理、ＩＩＲ（Infinite impulse response）処理等の変換処理を施して展開データを生成する。
【０００３】
このような符号化音声データの復号処理の高速化を図る技術として、例えば、特開２００２−５８０３０号公報（特許文献１）は、符号化音声信号から可変長符号の復号によりスケールファクタを復号および逆量子化することにより周波数データを算出し、この周波数データに周波数−時間変換を施してデジタル音声信号を出力する符号化音声信号復号装置を開示する。この符号化音声信号復号装置は、復号処理のうち最も計算量が多く処理時間を要する周波数−時間変換処理をＩＭＤＣＴ回路で行うことにより、音声信号の復号処理の高速化を図っている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００２−５８０３０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記特許文献が開示する技術は、単一の音声データを順次復号してＩＭＤＣＴ処理を施す構成であるため、例えば、ユーザの操作によって対話的に非同期に複数の音声データを復号する必要があるビデオゲーム機やパチンコ機器等の遊戯機器、カーナビゲーションシステム、ＡＴＭ、カラオケ装置等のユーザ対話型機器に当該技術を採用した場合、総ての符号化音声データについてＩＭＤＣＴ処理をする必要があり、ＩＭＤＣＴ処理に要する計算量が、復号すべき音声データの個数に比例して増大してしまう。また、非同期に生じる複数の音声データの復号処理を高速化することができず、上述した遊戯機器等の組み込み系装置において小規模化が要求されるＣＰＵの回路規模を増大させ、さらにその消費電力量をも増大させてしまう。
【０００６】
本発明は上記の課題を解決するものであり、ユーザの操作によって対話的に複数の符号化音声データを再生する際に必要とされる復号処理の計算量を低減させ、復号処理を効率化する音声処理装置、音声処理方法、プログラムおよび記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００７】
すなわち、本発明によれば、複数の符号化音声データを復号および逆量子化して周波数データを生成し、各周波数データに加工処理を施して合成した後、合成された単一の周波数データに変換処理を施して音声信号を生成する音声処理装置を提供する。これにより、本発明は、再生すべき複数の音声データ総てに演算量の多い変換処理を施す構成に比べて、変換処理に要する演算量を格段に低減することができる。これにより、ＣＰＵの回路規模の縮小化を図ることができ、その消費電力量を削減することができる。
【０００８】
本発明によれば、複数の符号化音声データを再生する際に必要とされる復号処理の計算量を低減させ、復号処理を効率化する音声処理方法、プログラムおよび記録媒体を提供することができる。
【図面の簡単な説明】
【０００９】
【図１】本実施形態の音声処理装置１１０の機能構成１００を示す図。
【図２】本実施形態の音声処理装置１１０が実行する処理を示す概念図。
【図３】本実施形態の音声処理装置１１０が実行する処理を示すフローチャート。
【図４】本実施形態の音声処理装置１１０が実行する加工処理の一実施形態を示す概念図。
【図５】本実施形態の音声処理装置１１０が実行する加工処理の別の実施形態を示す概念図。
【発明を実施するための形態】
【００１０】
以下、本発明について実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。
【００１１】
図１は、複数の符号化音声データを復号する本実施形態の音声処理装置１１０の機能構成１００を示す。音声処理装置１１０は、制御部１１２と、復号部１１４と、逆量子化部１１６と、加工処理部１１８と、記憶装置１２４と、音声データバッファ１２６とを含む。
【００１２】
制御部１１２は、音声処理装置１１０に実装される各機能手段を制御する機能手段であり、適宜、後述の機能手段を呼び出してその処理を実行させることにより、符号化音声データの復号処理を行う。制御部１１２は、音声処理装置１１０のユーザの操作をトリガとするハードウェアまたは上位アプリケーション等からの音声データの再生要求を受領すると、復号部１１４、逆量子化部１１６および加工処理部１１８を呼び出して、符号化音声データを復号し、逆量子化および加工処理を施す。そして、制御部１１２は、同時に再生すべき他の音声データの再生要求を受領したか否か判断し、再生すべき他の音声データが存在する場合には、対象となる符号化音声データを復号し、逆量子化および加工処理を施す。
【００１３】
本実施形態では、制御部１１２は、或る音声データの復号、逆量子化および加工処理中に他の音声データの再生要求を受領すると、当該再生要求をＲＡＭにＦＩＦＯ方式で格納することができる。そして、制御部１１２は、当該ＲＡＭを参照して再生要求の有無を判断することにより、同時に再生すべき他の音声データの有無を判断することができる。
【００１４】
また、本実施形態では、制御部１１２は、復号部１１４によって復号された音声データを逆量子化部１１６に逆量子化させて音声データバッファ１２６に保存させ、加工処理部１１８に対し、再生すべき音声データの周波数データを音声データバッファ１２６から取得させて加工処理を施させる。この場合、制御部１１２は、再生要求が格納された上記ＲＡＭを参照して、加工処理を施すべき周波数データを判断し、加工処理部１１８に加工処理を実行させる。再生対象の音声データについて、終端まで復号、逆量子化および加工処理が完了した時点で、制御部１１２は、当該音声データの再生要求を上記ＲＡＭからクリアする。
【００１５】
制御部１１２は、同時に再生すべき総ての音声データの復号、逆量子化および加工処理が終了すると、後述する合成処理部１２０および変換処理部１２２を呼び出して、これらの音声データを合成および変換させる。
【００１６】
記憶装置１２４は、音声処理装置１１０が再生すべき符号化音声データが格納される記憶手段であり、ハードディスク装置（ＨＤＤ）やＥＰＲＯＭ、フラッシュメモリ等の不揮発性記憶装置によって実装できる。符号化音声データは、一定の時間間隔のサンプリング数に応じた２進数で表現可能な音声データを示す数値である。また、符号化音声データは、音声信号に対して、ＭＤＣＴ処理、ＤＣＴ処理、サブバンドフィルタまたはＩＩＲフィルタ処理を施し、さらに量子化処理および符号化処理を施して生成される音声データである。本実施形態では、ハフマン符号化などの符号化処理を採用することができる。記憶装置１２４には、複数の符号化音声データが、各符号化音声データを一意に識別可能な符号化音声データ識別子と関連付けて格納されている。
【００１７】
復号部１１４は、記憶装置１２４に格納された符号化音声データを復号して量子化データを生成する機能手段である。復号部１１４は、音声データの再生要求により指定された符号化音声データを復号する。当該再生要求には、再生すべき符号化音声データの音声データ識別子が含まれており、復号部１１４は、この音声データ識別子を使用して、再生すべき符号化音声データを記憶装置１２４から取得する。本実施形態の復号処理は、例えば、ハフマン復号などの可変長符号復号処理を採用することができる。
【００１８】
逆量子化部１１６は、復号部１１４が復号した音声データの量子化データを逆量子化して、再生すべき音声データの周波数領域データである周波数データを作成する機能手段である。本実施形態では、逆量子化部１１６は、作成した周波数データを音声データバッファ１２６に格納する。音声データバッファ１２６は、ＲＡＭ等の記憶装置によって実装でき、ブロック単位の周波数データが上書保存される。
【００１９】
加工処理部１１８は、再生すべき音声データの音量を調整する加工処理を実行する機能手段である。具体的には、加工処理部１１８は、音声データの周波数データの各成分に、再生すべき音声データの音量であるゲイン（利得）を掛け合わせて音量を変更または調整する音量調整処理を実行することができる。また、加工処理部１１８は、音声データの周波数データの各成分に、再生すべき音声データの左右のゲインをそれぞれ掛け合わせて音像を調整してパンニングを行うパンニング処理を実行することができる。
【００２０】
本実施形態では、加工処理部１１８は、音声データバッファ１２６に格納された周波数データを取得して加工処理を施し、後述する合成処理部１２０が、加工処理が施された複数の音声データの周波数データを合成するが、他の実施形態では、加工処理部１１８が、加工処理を施した音声データの周波数データを音声データバッファ１２６に保存し、後述する合成処理部１２０が、加工処理された複数の音声データの周波数データを音声データバッファ１２６から取得して合成してもよい。
【００２１】
本実施形態では、加工処理部１１８が、音声データ識別子と当該音声データ識別子が示す音声のゲインとが関連付けて登録されたデータベースを参照することにより、加工処理を施すべき音声データのゲインを取得することができる。また、本実施形態では、加工処理部１１８が、音声データ識別子と当該音声データ識別子が示す音声の左右のゲインとが関連付けて登録されたデータベースを参照することにより、加工処理を施すべき音声データのゲインを取得することができる。
【００２２】
他の実施形態では、音声データ再生要求を送信する上位アプリケーションが、再生すべき音声の音声データ識別子と、そのゲインを音声データ再生要求によって指定することにより、加工処理を施すべき音声データのゲインを取得することができる。また、他の実施形態では、音声データ再生要求を送信する上位アプリケーションが、再生すべき音声の音声データ識別子と、その左右のゲインを音声データ再生要求によって指定することにより、加工処理を施すべき音声データのゲインを取得することができる。さらに、他の実施形態では、当該上位アプリケーションが、再生すべき音声の音声データ識別子と、そのゲインと、左右のゲインの比率とを音声データ再生要求によって指定することにより、加工処理を施すべき音声データのゲインを取得することができる。
【００２３】
さらに、音声処理装置１１０は、合成処理部１２０と、変換処理部１２２とを含む。
【００２４】
合成処理部１２０は、加工処理が施された音声データの周波数データである複数の加工済みデータを合成する合成処理を実行して単一の合成データを生成する機能手段である。合成処理部１２０は、同時に再生すべき総ての音声データに対し、復号、逆量子化、加工処理が完了した時点で制御部１１２から呼び出され、音声データバッファ１２６に格納されている総ての加工済みデータを取得して合成し、単一の音声データの周波数データである合成データを生成する。本実施形態の合成処理は、加工済みデータの各成分を加算することにより行われる。
【００２５】
本実施形態では、合成処理部１２０は、加工処理部１１８が音声データバッファ１２６から取得して生成した加工済みデータに対して合成処理を施すが、他の実施形態では、加工処理部１１８が、加工済データを、その音声データ識別子と関連付けて音声データバッファ１２６に格納し、制御部１１２が、合成すべき加工済データをその音声データ識別子により指定して、合成処理部１２０に合成処理を実行させるようにしてもよい。
【００２６】
変換処理部１２２は、合成処理部１２０が生成した単一の合成データを領域変換する変換処理を実行する機能手段である。本実施形態の変換処理は、ＩＭＤＣＴ処理、ＩＤＣＴ処理、サブバンドフィルタ処理およびＩＩＲフィルタ処理を含む。変換処理部１２２は、周波数データである合成データに対して領域変換を施して、展開データである時間領域データの音声信号を生成する。
【００２７】
本実施形態の音声処理装置１１０は、一定サイズのブロック単位で区切られた符号化音声データをブロック単位で復号し、復号された音声データに逆量子化処理および加工処理を施して合成するが、他の実施形態では、符号化音声データを１周波数成分単位で復号し、逆量子化処理および加工処理を施して合成してもよい。この処理を、同時に再生すべき総ての音声データについて１ブロック分繰り返すことにより、１ブロック分の合成データを生成することができる。これにより、１ブロック分の周波数データを複数保持する音声データバッファを設ける必要性がなくなるため、音声データバッファを使用せずに音声データの逆量子化や加工処理を行うことができ、音声処理装置の処理を高速化することができる。
【００２８】
本実施形態の音声処理装置１１０は、例えば、ビデオゲーム機、パチンコ機器やスロットマシーン等の遊戯機器、カーナビゲーションシステム、現金自動預け払い機（ＡＴＭ）、カラオケ機器などのユーザの操作によって対話的に音声を再生する音声再生装置を含み、ＰＥＮＴＩＵＭ（登録商標）プロセッサや互換プロセッサなどのＣＰＵまたはＭＰＵを搭載し、ＩＴＲＯＮ、Ｗｉｎｄｏｗｓ（登録商標）シリーズ、Ｍａｃ（登録商標）ＯＳシリーズ、ＵＮＩＸ（登録商標）またはＬＩＮＵＸ（登録商標）などのＯＳの管理下で、アセンブラ、Ｃ、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔ、ＰＥＲＬ、ＲＵＢＹ、ＰＹＴＨＯＮなどのプログラム言語で記述された本実施形態のプログラムを実行する。また、音声処理装置１１０は、プログラムを実行するための実行空間を提供するＲＡＭ、プログラムやデータなどを持続的に保持するためのＨＤＤなどを含んでおり、本実施形態の各機能手段をプログラムの実行により、当該音声処理装置上に実現する。
【００２９】
本実施形態の各機能手段は、上述したプログラミング言語などで記述された装置実行可能なプログラムにより実現でき、本発明のプログラムは、ハードディスク装置、ＣＤ−ＲＯＭ、ＭＯ、フレキシブルディスク、ＥＥＰＲＯＭ、ＥＰＲＯＭなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
【００３０】
図２は、本実施形態の音声処理装置１１０が実行する復号処理を示す概念図である。音声処理装置１１０は、音声処理装置１１０のユーザの操作に起因する音声データの再生要求が指定する符号化音声データである圧縮データ２１０ａ，２１０ｂ，２１０ｃを記憶装置１２４から取得し、それぞれ復号、逆量子化および加工処理を実行する。音声処理装置１１０は、同時に再生すべき音声データの加工済データが生成されると、これらの加工済データに合成処理を施して合成した後、合成された単一の合成データに対して変換処理を実行して展開データ２１２を得る。本実施形態では、演算量の多い変換処理を単一の合成データに対してのみ実行するため、再生すべき複数の音声データ総てに対して変換処理を施す構成に比べて、変換処理に要する演算量を格段に低減することができる。これにより、ＣＰＵの回路規模の縮小化を図ることができ、その消費電力量を削減することができる。
【００３１】
図３は、本実施形態の音声処理装置１１０が実行する処理を示すフローチャートである。図３の処理は、ステップＳ３００で開始し、ステップＳ３０１で音声処理装置１１０の制御部１１２が音声データの再生要求の有無を確認する。ステップＳ３０２では、制御部１１２は音声データの再生要求が存在するか否か判断し、音声データの再生要求が存在しないと判断した場合には（ｎｏ）、制御部１１２はステップＳ３０１およびＳ３０２の処理を反復させる。一方、ステップＳ３０２の判定で音声データの再生要求が存在すると判断した場合には（ｙｅｓ）、処理をステップＳ３０３に分岐させる。
【００３２】
ステップＳ３０３では、復号部１１４が、再生要求で指定された符号化音声データを、その音声データ識別子を用いて記憶装置１２４から取得して復号する。ステップＳ３０４では、制御部１１２が逆量子化部１１６を呼び出し、逆量子化部１１６は、復号された音声データを逆量子化して音声データの周波数データを生成し、音声データバッファ１２６に保存する。
【００３３】
ステップＳ３０５では、制御部１１２が、ＲＡＭを参照して音声データの再生要求の有無を判断することにより、他に復号すべき音声データがあるか否か判断する。ステップＳ３０５の判定で他の復号すべき音声データがあると判断した場合には（ｙｅｓ）、処理をステップＳ３０３に分岐させる。一方、他の復号すべき音声データが無いと判断した場合には（ｎｏ）、処理をステップＳ３０６に分岐させる。
【００３４】
ステップＳ３０６では、制御部１１２が加工処理部１１８を呼び出し、加工処理部１１８は、音声データバッファ１２６から音声データの周波数データを取得して加工処理を施す。そして、制御部１１２は合成処理部１２０を呼び出し、合成処理部１２０は、加工処理が施された総ての音声データの周波数データに対して合成処理を施す。ステップＳ３０７では、制御部１１２が変換処理部１２２を呼び出し、変換処理部１２２は、合成された単一の音声データに対して変換処理を施す。ステップＳ３０８では、制御部１１２は、変換処理が施された音声データを出力する。ステップＳ３０９では、制御部１１２は、音声処理装置１１０のＯＳからの終了要求を受信したか否か判断し、終了要求を受信していない場合には（ｎｏ）、処理をステップＳ３０１に戻し、上述した処理を反復させる。一方、終了要求を受信した場合には（ｙｅｓ）、処理をステップＳ３１０に分岐させて終了させる。
【００３５】
本実施形態では、音声データの出力は、変換処理が施された音声データを音声再生装置が読み込むサウンドバッファに書き込むことにより実現するが、他の実施形態では、当該音声データをファイル等に書き出し、またはネットワークを介して音声再生装置等に送信することにより実現してもよい。
【００３６】
図４は、本実施形態の音声処理装置１１０が実行する加工処理の一実施形態を示す概念図である。図４に示す実施形態では、同時に再生される２つの音声データ４１０，４２０に対して、復号、逆量子化、加工処理、合成処理および変換処理が施される。本実施形態の音声データ４１０，４２０は、１２８サンプル単位で変換されているが、他の実施形態では、２の冪乗のサンプル数単位で音声データを変換することもできる。さらに、本実施形態では、２つのモノラル音声データ４１０，４２０に対する加工処理について説明するが、他の実施形態では、複数チャンネルの音声データや、さらに多くの音声データにも加工処理を施すことができる。
【００３７】
符号データ４１２，４２２は、復号処理が実行される前の音声データ４１０，４２０の符号化音声データであり、それぞれバイナリデータであるＰ_１〜Ｐ_１２８およびＱ_１〜Ｑ_１２８をデータ成分として有する。周波数データ４１４，４２４は、符号データ４１２，４２２を復号および逆量子化して得られたデータであり、各サンプリングデータの波形や周波数等の周波数特性を示すデータ成分Ｘ_１〜Ｘ_１２８、Ｙ_１〜Ｙ_１２８を有している。
【００３８】
加工済データ４１６，４２６は、周波数データ４１４，４２４に加工処理を施して得られるデータである。図４に示す実施形態の加工処理は、音声データの音量を変更または調整する音量調整処理であり、音声データ４１０のゲインであるＶ_１を周波数データ４１４の各データ成分に掛け合わせることにより加工処理を実現し、加工済データ４１６を生成する。同様に、音声データ４２０のゲインであるＶ_２を周波数データ４２４の各データ成分に掛け合わせることにより、加工済データ４２６を生成する。
【００３９】
合成データ４３０は、加工済データ４１６，４２６に対して合成処理を施して得られるデータであり、加工済データ４１６，４２６の各データ成分を加算することにより得られる。そして、この合成データ４３０に対して変換処理を実行することにより、音声データ４１０および４２０の音声信号である変換データ４３２（Ｓ_１，Ｓ_２，…Ｓ_１２８）が生成される。
【００４０】
図５は、本実施形態の音声処理装置１１０が実行する加工処理の別の実施形態を示す概念図である。図５に示す実施形態では、図４に示す実施形態と同様に、同時に再生される２つの音声データ５１０，５２０に対して、復号、逆量子化、加工処理、合成処理および変換処理が施される。本実施形態の音声データ５１０，５２０は、図４に示す実施形態と同様に、１２８サンプル単位で変換されているが、他の実施形態では、２の冪乗のサンプル数単位で音声データを変換することもできる。さらに、本実施形態では、２つのモノラル音声データ５１０，５２０に対する加工処理について説明するが、他の実施形態では、複数チャンネルの音声データや、さらに多くの音声データにも加工処理を施すことができる。
【００４１】
符号データ５１２，５２２は、復号処理が実行される前の音声データ５１０，５２０の符号化音声データであり、それぞれバイナリデータであるＰ_１〜Ｐ_１２８およびＱ_１〜Ｑ_１２８をデータ成分として有する。周波数データ５１４，５２４は、符号データ５１２，５２２を復号および逆量子化して得られるデータであり、各サンプリングデータの波形や周波数等の周波数特性を示すデータ成分Ｘ_１〜Ｘ_１２８、Ｙ_１〜Ｙ_１２８を有している。
【００４２】
加工済データ５１６，５１８，５２６，５２８は、周波数データ５１４，５２４に加工処理を施して得られるデータである。図５に示す実施形態の加工処理は、音声データの左右の音量を独立して変更または調整するパンニング処理である。本実施形態では、音声データ５１０の右側ゲインであるＶ_１Ｒおよび左側ゲインであるＶ_１Ｌを、周波数データ５１４の各データ成分にそれぞれ掛け合わせることによりパンニング処理を実現し、音声データ５１０の左右の加工済データ５１６，５１８を生成する。同様に、音声データ５２０の右側ゲインであるＶ_２Ｒおよび左側ゲインであるＶ_２Ｌを、周波数データ５２４の各データ成分にそれぞれ掛け合わせることによりパンニング処理を実現し、音声データ５２０の左右の加工済データ５２６，５２８を生成する。
【００４３】
合成データ５３０は、右側の加工済データ５１６，５２６に対して合成処理を施して得られるデータであり、右側の加工済データ５１６，５２６の各データ成分を加算することにより得られる。合成データ５３２は、左側の加工済データ５１８，５２８に対して合成処理を施して得られるデータであり、左側の加工済データ５１８，５２８の各データ成分を加算することにより得られる。そして、これらの合成データ５３０，５３２に対してそれぞれ変換処理を施すことにより、音声データ５１０および５２０の左右の音声信号である変換データ５３４（Ｓ_１Ｒ，Ｓ_２Ｒ，…Ｓ_１２８Ｒ）および変換データ５３６（Ｓ_１Ｌ，Ｓ_２Ｌ，…Ｓ_１２８Ｌ）が生成される。
【００４４】
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【００４５】
１００…機能構成、１１０…音声処理装置、１１２…制御部、１１４…復号部、１１６…逆量子化部、１１８…加工処理部、１２０…合成処理部、１２２…変換処理部、１２４…記憶装置、１２６…音声データバッファ

【特許請求の範囲】
【請求項１】
符号化された音声データである符号化音声データを処理する音声処理装置であって、前記音声処理装置は、
符号化音声データが格納された記憶手段と、
前記記憶手段から符号化音声データを取得して復号する復号手段と、
復号された音声データを逆量子化して周波数データを生成する逆量子化手段と、
前記周波数データに加工処理を施す加工処理手段と、
前記加工処理が施された複数の周波数データを合成する合成手段と、
合成された単一の周波数データに対して変換処理を施して音声信号を生成する変換処理手段と
を含む音声処理装置。
【請求項２】
前記変換処理手段が実行する変換処理は、ＩＭＤＣＴ処理、ＩＤＣＴ処理、サブバンドフィルタまたはＩＩＲフィルタ処理である、請求項１に記載の音声処理装置。
【請求項３】
前記符号化音声データは、音声信号に対して、ＭＤＣＴ処理、ＤＣＴ処理、サブバンドフィルタまたはＩＩＲフィルタ処理を施して生成される、請求項１または２に記載の音声処理装置。
【請求項４】
前記加工処理手段は、前記周波数データの各成分に対して、再生すべき音声データに対応するゲインを掛け合わせることにより前記音声データの音量を調整する、請求項１〜３のいずれか１項に記載の音声処理装置。
【請求項５】
前記加工処理手段は、前記周波数データの各成分に対して、再生すべき音声データに対応する左右のゲインをそれぞれ掛け合わせることにより前記音声データのパンニングを行う、請求項１〜４のいずれか１項に記載の音声処理装置。
【請求項６】
符号化された音声データである符号化音声データを処理する方法であって、前記方法は、音声処理装置が、
記憶手段に格納された複数の符号化音声データを復号するステップと、
復号された音声データを逆量子化して複数の周波数データを生成するステップと、
前記複数の周波数データに加工処理を施すステップと、
前記加工処理が施された複数の周波数データを合成するステップと、
合成された単一の周波数データに対して変換処理を施して音声信号を生成するステップと
を実行する方法。
【請求項７】
前記変換処理は、ＩＭＤＣＴ処理、ＩＤＣＴ処理、サブバンドフィルタまたはＩＩＲフィルタ処理である、請求項６に記載の方法。
【請求項８】
前記符号化音声データは、音声信号に対して、ＭＤＣＴ処理、ＤＣＴ処理、サブバンドフィルタまたはＩＩＲフィルタ処理を施して生成される、請求項６または７に記載の方法。
【請求項９】
前記加工処理を施すステップは、前記周波数データの各成分に対して、再生すべき音声データに対応するゲインを掛け合わせることにより前記音声データの音量を調整する、請求項６〜８のいずれか１項に記載の方法。
【請求項１０】
前記加工処理を施すステップは、前記周波数データの各成分に対して、再生すべき音声データに対応する左右のゲインをそれぞれ掛け合わせることにより前記音声データのパンニングを行う、請求項６〜９のいずれか１項に記載の方法。
【請求項１１】
音声処理装置に対して、請求項６〜１０のいずれか１項に記載のステップを実行させるための装置実行可能なプログラム。
【請求項１２】
請求項１１に記載されたプログラムを記録したコンピュータ可読な記録媒体。

【図１】