説明

録音音量の正規化方法

同じ音量設定でも異なる録音の再生音量の間に好ましくないばらつきが知覚されることを防ぐための、保存された録音の再生音量を正規化する方法及び装置である。例示的な処理方法においては、保存された録音がその音量を決定するために処理される。その音量、すなわちそれから導かれるある値は、録音を再生する場合の再生利得の設定に用いられる。こうして、所定の音量設定に対して、大きな音の録音には再生利得を低く、静かな録音には再生利得を高く設定することができる。1つ又はそれ以上の例示的な実施形態において、録音は入手されたときあるいは少なくとも最初の再生の前に処理され、利得補償パラメータが音量に基づいて計算され、同時に保存される。そして、対応する保存された利得調整パラメータは選択して用いることができ、特定の録音を再生するのに応じて選択される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に音の再生、特に個々の録音の音量に基づく再生利得の補償に関するものである。
【背景技術】
【0002】
所与の録音の音量は、知覚される再生音量に影響を与える。このため、同じ再生音量設定であっても、聞き手により、ある録音が他の録音よりも大きい或いは静かだと知覚されることがある。再生音量の結果的な違いは、場面によっては特に問題になることがある。
【0003】
例えば、携帯電話機のユーザが、その携帯電話機に自分用の着信音をダウンロードすることは今では普通のことになっている。自分用の着信音が普及するにつれて、携帯電話機のユーザは自分の好き嫌いの変化に適合して着信音に変えることができるようになり、異なる発信者に対して異なる着信音を割当てることが可能になってきた。しかし、異なる着信音ファイルに固有の音量は大きく変化することがあり、これが、同じ着信音量設定であっても、異なる着信音の間で知覚される着信音の音量に好ましくないばらつきを与えることになる。
【0004】
録音の音量のばらつきから生じる同様の問題は、音声メールシステムなどの場合にも起きる。そのようなシステムにおいては、知覚される再生音量が、保存された個々のメッセージに固有な音量の違いによって、同じ再生音量設定においてもメッセージの間で変化する。
【0005】
もちろん、個々の録音音量がばらつく結果としての再生音量の問題は、上記2つの場合に限られるわけではない。録音音量のばらつきはきわめて多くの場面で起きる。例えば、音楽がデジタル形式で保存、売買、転送される場合が増えるにつれ、個々の音量がかなり異なる可能性のあるデジタル音楽ファイルを集めたユーザは、同じ再生の問題に直面することになるであろう。
【発明の開示】
【0006】
本発明は、1つ又はそれ以上の保存された録音、例えばデジタルオーディオファイル、の再生音量を正規化する方法と装置を提供する。それぞれのそのようなファイルは、録音の音量に基づいて利得制御パラメータを求めるために処理される。制約のない例では、所与の録音の音量は、その振幅値の2乗平均偏差(RMS)を測定することによって決定される。高い音量が測定された録音に対する利得制御パラメータは、所与の音量設定に対する実効的な再生利得を減らすことになる。逆に、低い音量が測定された録音に対する利得制御パラメータは、所与の音量設定に対する実効的な再生利得を増やすことになる。このようにして、所与の再生音量設定の異なる録音に対して、知覚される再生音量を、対応づけて保存された利得制御パラメータを用いることによって正規化することができる。
【0007】
こうして例示的な実施形態において、本発明は改善された再生のための録音の処理方法を提供する。本方法は、音量を決めるために保存された録音を解析する工程と、音量に基づいて録音のための利得制御パラメータを決定する工程と、録音がのちに再生される場合の再生利得を設定するために前記利得制御パラメータを保存する工程とを備える。複数の録音に対して決められる利得制御パラメータは、個別のデータファイルや項目内に個々に保存することも、録音の中に埋め込むことも、複数の項目を有するデータ構造の中にまとめて保存することもできる。いずれにせよ、所与の録音が選択されて再生されるとき、録音の再生音量を正規化して用いるために、対応する利得制御パラメータも保存領域から読み出されることになる。
【0008】
上記方法もしくはその変形を用いた例示的な装置は、音量を求めるために保存された録音を処理し、音量に基づいて録音のための利得制御パラメータを求め、録音がのちに再生される場合の再生利得の設定のために前記利得制御パラメータを保存するように構成された1つ又はそれ以上の処理回路を備える。機能的には、1つ又はそれ以上の処理回路は、録音の音量を求めるように構成された音量決定回路と、音量に基づいて利得制御パラメータを求めるように構成された利得制御パラメータ算出回路として、構成される。
【0009】
しかし、本発明は、ハードウェア、ソフトウェア、あるいはそれらを組合せたものとして実施されるであろうから、その実現に関しては相当の柔軟性が存在する。例えば、本発明の再生音量の正規化方法は、全体もしくは一部が、汎用又は専用マイクロプロセッサもしくは他のデジタル処理回路によって実行される蓄積プログラム命令で実現されてよい。
【0010】
相当の柔軟性が、本発明が使われるような応用に関しても存在する。ひとつの例示的な実施形態において、移動局、ページャ(pager)、携帯情報端末(PDA: Portable Digital Assistant)などのような携帯通信機器が、保存された着信音の再生音量を正規化するように構成される。言い換えれば、所与の着信音の音量設定に対して、本発明の動作は、異なる着信音の間で知覚される着信音の音量から好ましくないばらつきを除く(あるいは、少なくとも減少させる)可能性がある。そのような動作は、ユーザの通信機器が異なる発信者識別子などに対して異なる着信音を用いるようになっている場合に、特に便利である。
【0011】
他の例示的な実施形態では、ネットワーク経由の音声メールサーバが、保存された音声メールメッセージの再生音量を正規化するために、本発明の方法を使うものである。これは、所与のネットワーク加入者に対して保存された音声メールメッセージを再生する前に、サーバが、各メッセージの利得制御パラメータを求め(て保存する)ことができ、メッセージの再生利得を設定するためにその利得制御パラメータを使うことができる。この方法により、音声メールメッセージの音量に生じ得る大きなばらつきが利得制御パラメータを用いて補償され、それにより、加入者は保存された音声メールメッセージの再生時により均一なメッセージ音量を享受できる。音量の正規化は、例えば、メッセージが加入者へ送信される前(あるいは送信中)に、保存されたメッセージの振幅値を変更するもしくはオフセットすることによって、ネットワークで行えることに注意されたい。補償はまた、例えばネットワークから受信した変更情報に基づいて加入者の端末で行うこともできる。
【0012】
本発明には、着信音や音声メールの音量を正規化すること以外にも幅広い用途がある。この音量の正規化処理は、例えば、異なる発信源から得ることが可能で録音音量に大きなばらつきが生じ得るようなデジタルオーディオファイルを備えたデジタル音楽ライブラリに応用することができる。こうして、パーソナルコンピュータ(PC)やインターネットで接続可能なデジタルメディアサーバにおける音楽演奏ソフトウェアが、各ファイルの再生音量が正規化されるように、個々のオーディオファイルに対して利得制御パラメータを生成(し保存)するよう構成される。サーバへの応用においては、正規化がサーバで行われて正規化されたファイルデータが流されるか伝送される、あるいは、サーバが原ファイルデータ(raw file data)を流すか伝送すると共に対応する利得制御パラメータを送る。後者において、受信する再生端末又はシステムは、原ファイルデータの正規化に受信した利得制御パラメータを用いることができる。
もちろん、本発明は上述の特長や効果に限定されることはない。当業者は以下の詳細な説明を読み、関連する図を見ることによって,
本発明の更なる特長や効果を認識するであろう。
【発明を実施するための最良の形態】
【0013】
添付された図に移る前に、基本となる利得補償過程について本発明の枠組みを説明しておくことは役に立つかもしれない。本発明は、1つ又はそれ以上の保存された録音がその音量を求めるために処理される方法及び装置を提供する。利得補償パラメータは、録音の音量に基づいて処理されたそれぞれの録音に対して求められ、その利得補償パラメータは保存される。所与の録音が再生するために選択されると、対応する利得補償パラメータが、録音の再生音量を正規化する、録音の再生に用いる再生利得を確定するために用いられる。すなわち、録音の音量にかなり差がある2つの異なる録音の再生音量が、それぞれの録音に対してそれに対応する利得補償パラメータを用いた再生利得を補正することによって、ほぼ同一にされる。
【0014】
上記方法に留意し、図1は、音量処理部12と補償計算部14とを備えたオーディオ処理装置もしくはシステム10の機能の少なくとも一部分を示している。更に、オーディオ処理システム10は、1つ又はそれ以上の録音を保存するように構成された蓄積システム16を備えるもしくは関連付けられている。次に、音量処理部12は、蓄積システム16からの保存された録音を(直接又は間接的に)取り出し、その録音の音量を求めるためにその録音を処理するように構成される。測定された音量は、補償計算部14で対応する利得補償パラメータを求めるために使われ、求めた利得補償パラメータは、後に録音を再生する間の再生利得の設定に使用するために保存される。
【0015】
図2は、この利得補償方法の概要となる例示的な処理の論理を示している。このような処理の論理は、ハードウェア、ソフトウェア、あるいはそれらを組合せたものとして実現することができる。1つの実施形態において、オーディオ処理システム10の処理論理は、マイクロプロセッサなどによる実行のためのコンピュータプログラム命令として実現される。そのようなコンピュータプログラム命令は、ソフトウェア、ファームウェア、あるいはマイクロコードとして実現される。他の実施形態では、処理論理は、カスタムチップ(ASIC: Application Specific Integrated Circuit)、プログラム可能なLSI(FPGA: Field Programmable Gate Array)、プログラム可能な複合論理デバイス(CPLD: Complex Programmable Logic Device)、などのようなハードウェアに実現される。処理回路の種別がハードウェア、ソフトウェア、あるいはそれらを組合せたものということに関係なく、本発明は実現されるであろう。
【0016】
特定の実現の詳細に関係なく、処理は所与の保存された録音を処理してその音量を求めることから始まる(ステップ100)。こうして求められた録音の音量の測定に基づき、対応する利得制御パラメータを決定する処理が続けられる(ステップ102)。利得制御パラメータは、録音の音量と逆の関係−例えば、大きな値の音量に対して利得制御パラメータは小さくなるという逆数の関係−に従って求めることができる。もちろん、対象となるオーディオ再生システムの音量(利得)制御の構成の性質が主に利得制御パラメータの最適な形を決められるので、利得制御パラメータは音量の値であることも出来るし、もしくは音量の値を何乗かした値とすることも出来る。
【0017】
利得補償パラメータが求められ、それが倍率係数もしくはdBオフセットの値のいずれであっても、本例の処理は続けられて利得制御パラメータを保存する(ステップ104)。この保存は、利得制御パラメータを蓄積システム16に含まれるファイルもしくは他のデータ構造へ書き込む工程、あるいは、録音に利得制御パラメータを付加するないしは埋め込む工程を備えるであろう。この後者のやり方は、デジタルオーディオファイルに使用可能なデータ領域の余地があり、及び/又はファイルヘッダ情報を変更することができる場合には、特に魅力的であろう。
【0018】
図3は、こうして求められ保存された録音の利得制御について、再生処理部18とそれにつながるオーディオ出力回路20とを機能的に示したものである。オーディオ出力回路20は、更に、利得制御回路22、AD変換器24、オーディオ振幅器26及びオーディオ出力変換器(スピーカ)28を含む。再生処理部18は、再生のために蓄積システム16からの選択された録音に直接又は間接にアクセスし、録音に対応して保存されている利得制御パラメータを用いて利得制御回路22により再生利得を設定する。更にまた、利得制御回路22は、総合利得が利得補償パラメータと音量設定との関数となるように、再生音量制御入力に応答してもよいことに注意されたい。
【0019】
図3に関連して、音量に基づく利得制御補償はデジタル領域で行われる。このことは、もとになる録音がデジタルオーディオファイルの場合には好都合であろう。そして、利得制御回路22は、効果的に、利得制御パラメータの値の関数として、音量制御入力のアップダウンによって決められたように名目的な利得を調整する。この補償は、録音のデジタル(振幅)値にオフセット値を加えたり減じたりすることに基づき、もしくは録音のデジタル(振幅)値を数学的に増減することによるであろう。もし利得制御パラメータが録音の全振幅値(full scale value)に対して計算される場合に、利得の補償が音声ファイルの(デジタル)振幅範囲に対して基本的に適切になる。また、録音再生用の利得補償パラメータによって決まる利得の設定は、現在選定されている音量設定によって決まる利得の設定とは別に設定できることにも注意されたい。この場合、例えば、2つの利得制御回路が縦続に配置され、一方の利得制御回路が利得制御パラメータで制御され、他方の利得制御回路が音量制御入力で制御されてよい。
【0020】
当業者は、対象となる録音が、対応する利得補償値がアナログ又はデジタル領域で求められる、テープなどのようにアナログ形式で保存されることを評価するであろう。同様に、再生利得の設定ステップはデジタル又はアナログ領域で行える。制約のない例では、利得補償パラメータがアナログ領域で求められ、保存が容易なデジタル値に変換された後、対応する録音の再生中は、デジタル領域であってもアナログ領域であっても、デジタル−アナログ変換をした後に適用されることになるであろう。まとめて言えば、本発明は、このように例示的な音量の正規化方法の、全デジタル、全アナログ、アナログ/デジタル混合のいずれへの実現をも可能とするものである。
【0021】
図4に示される例示的な処理論理は、図3の回路で具現された機能を実現するために用いられる。ここでは、処理は保存された録音の選択から始まる(ステップ106)。一時メモリ及び/又は非破壊の永久メモリに保存されている特定の録音の選択は、ユーザ入力もしくは他の選択機構、例えば携帯電話や他の無線通信端末での着信音の選択と再生論理のような、を契機とすることができる。
【0022】
特定の録音が選択あるいは少なくとも識別された後、処理論理は選択された録音に対応して保存された利得制御パラメータを取り出す(ステップ108)。利得制御パラメータは、録音と同じメモリに保存されても、異なるメモリに保存されてもよい。また、利得制御パラメータは、ファイル名で録音とリンクしている例のように単一ファイルで保存されていても、あるいは、保存された利得制御パラメータと対応して保存された録音とを論理的に関連付けるためのそれ以外の機構によって保存されてもよい。別の方法として、複数の利得制御パラメータが、例えば表や記入項目のような録音の識別子で索引することのできる、共通のデータ構造にまとめて保存されてもよい。更に別な方法として、利得制御パラメータが録音自身に保存されてもよい。この方法は、録音が情報を付加できるファイル形式、例えば、専用情報が配置できる可変長のヘッダもしくはデータ領域を有するときに、特に有効である。
【0023】
保存や検索が済んでも、例示的な処理は続けられて、再生利得の設定、例えば利得制御パラメータに基づいて再生信号の流れにおけるデジタル又はアナログ利得の増減と、が行われる(ステップ110)。簡単な例として、対象となる装置の現在の音量制御設定が、1から10までの範囲の音量尺度で“5”であるとしよう。本発明による利点がない場合、現在の音量設定が高い音量での録音の再生では再生音量が高くなりすぎるという不都合が生じるかもしれない。逆に低音量の録音が選択されたとき、現在の音量設定での再生では再生音量が低すぎるという不都合が生るかもしれない。本発明を実施する、すなわち、個々の録音に対して再生利得をそれぞれの録音音量に基づいて調節することにより、異なる録音の再生音量が所与の現在の音量設定に対して正規化される。
【0024】
特定の録音の再生用に利得制御パラメータ(GCP: gain control parameter とも呼ばれる)を生成して、そのパラメータを再生利得の設定を決めるために用いることは、自動的に行うことができる。図5は例示的な処理を示すもので、利得制御パラメータは蓄積部から取り出されるか、必要に応じてその場で生成される。その場での生成は、録音の名目的な再生速度もしくは高速再生の速度のもとでリアルタイムに行われてよいことに注意されたい。再生速度の何倍にもなり得る高速処理では、利得制御パラメータは例えば数ミリ秒というような時間で決定されるので、それに必要なだけの計算能力が利用できることが望ましい。GCPを生成するために再生が始まるまでの遅れが大きくなる場合には、対象となる装置は、そのユーザに対して遅れを視聴覚で示すような周知手段を持つように構成されてよい。
【0025】
こうして例示的な処理は、再生する録音の選択から始まる(ステップ120)。またこの選択は、ユーザによる直接又は間接の入力であっても、それ以外の着信音や演奏曲リストなどによる手順であってもよい。処理論理は、選択された録音のために使える利得制御パラメータがあるか否かを調べる(ステップ122)。使える場合には、利得制御パラメータの値と現在の音量設定とに基づいて再生利得を設定する処理が続けられる(ステップ124)。この処理は、利得制御パラメータの関数として第1の利得を設定し、音量設定の関数として第2の利得を設定するというように実行されるか、あるいは、利得制御パラメータの値と現在の音量設定との両方の関数として複合された利得を設定することによって実行される。処理は続いて、補償正された再生利得に設定されて録音が再生、例えば、可聴信号として及び/又は別の装置やシステムへ供給される源信号として、出力される(ステップ126)。
【0026】
もし、ステップ122で選択された録音のために使える利得制御パラメータがない場合には、例示的な処理論理は、適切な利得制御パラメータを求めるために録音の処理を呼び出し(ステップ128)、求めた利得制御パラメータを保存し(ステップ130)、上に述べたステップ124と126の再生利得補償に用いられることに注意されたい。
【0027】
保存された録音に対する利得補償パラメータを自動的に求める方法を更に見るために、図6は、一時(又は永久)記憶のメモリへの録音の取り込みに応じて利得補償パラメータを求める処理の論理を示している。そして、録音の受信又はダウンロードと共に、端末での処理が始められる(ステップ140)。この端末は携帯電話機、ページャ、音楽プレイヤーなどを含み、デジタルオーディオファイルを対応する通信ネットワークから無線もしくは有線で、あるいはホスト装置(PC)から局所的なインタフェースポートを経由して受け取る。
【0028】
録音を受信すると、音量を求めるために録音の解析処理が始められる(ステップ142)。次に、処理は求められた録音の音量に基づく利得制御補償パラメータの値を求めることに移る(ステップ144)。次に、その利得制御パラメータは保存され、その後に録音が再生されるときに使われる再生利得を決めるのに用いられる(ステップ146)。端末の処理能力が十分大きければ、新たな録音を受け取るのに対応して、端末のユーザには意識されずに、すなわち、通常の端末処理で認識できるような中断がなく、新しく受け取った録音が再生できるまでの時間遅れに気がつかない状態で、自動的に利得制御パラメータを求めることができることに注意されたい。もちろん、何か気がつくような遅れが起き得る場合には、端末はユーザに何かの告知ができるように構成することができる。
【0029】
本発明が実施される装置について、図7は、装置10が再生処理回路32、1つ又はそれ以上のメモリ回路34、及びオプションとして、オーディオ出力回路36を備えた例示的な装置(又はシステム)30として実現できることを示す。この場合、再生処理回路32は、装置10として示された1つ又はそれ以上の処理回路12及び14の機能を組み込んでいる。メモリ回路34は、異なるメモリ装置を含んでもよく、タイプの異なるメモリ素子を含んでもよい。例えば、作業用の一時データのバッファリングのためのランダムアクセスメモリ(RAM)、本発明の音量正規化処理の実現に用いるプログラム命令を含むプログラムデータを保存する読み出し専用メモリ(ROM)、及び不揮発性RAM(NVRAM: Non-Volatile RAM)、電気的に消去可能なプログラマブルROM(EPROM: Electrically Erasable Programmable ROM)、フラッシュメモリなどでよい。
【0030】
特定の種類のメモリが用いられることに関係なく、再生処理回路32は、1つ又はそれ以上の種類のメモリ素子への読み書きをするため、もしくはそのような素子にアクセスする別の処理回路とのインタフェースとなる、蓄積部インタフェース回路40を含むかもしれない。再生処理回路32は、更に、保存された録音の復号及び/又は伸長の処理をするための再生デコーダ42を含むかもしれない。制約のない例では、含まれるいかなるデコーダ42も、1つ又はそれ以上の独自の及び/又は標準化された録音形式を扱えるように構成される。こうして、デコーダ42は、MPEGレイヤ3(MP3)のデジタルオーディオファイル、WINDOWS(登録商標)メディアオーディオ(WMA)のデジタルオーディオファイル、適応変換オーディオ符号化(ATRAC)のデジタルオーディオファイル、最新オーディオ符号化(AAC)のデジタルオーディオファイル、及びそれ以外のオーディオファイルを処理することができるように構成される。このように、装置30は、必要性や要望に応じて、多くのデジタルオーディオファイル形式のうち、1つ又はそれ以上のいずれの形式に対しても、例示的な音量の正規化が行えるように構成される。
【0031】
本発明による音量の正規化は、例えば符号化されている元のオーディオファイルの利得を変更することに比べて、優れた解決策を示す。具体的には、符号化された元のオーディオファイルの利得を変更するには、復号と再符号化が必要になる。ほとんどのオーディオ圧縮方法は非可逆なので、復号と再符号化を行う過程で新たな量子化雑音や飽和歪を生じることになる。これに比べて、本発明の再生正規化は、オーディオファイルの再符号化の必要がなく、再生時の音量の正規化をユーザによる利得制御(音量制御)と同時に行うことができる。
【0032】
そして、1つ又はそれ以上の実施形態において、再生処理回路32は、保存された録音の音量をハードウェア、ソフトウェア、あるいはそれらを組合せたものによって求めるように構成された、音量決定回路44を含む。ここでは“音量”という用語は広義に解釈される。こうして、音量決定回路44は、保存された録音の二乗平均偏差(RMS: Root-Mean-Square)の測定に基づいてその音量を求めるように構成することができる。デジタルオーディオファイルにおいて、デジタル化された振幅値は所与のファイルに対するRMS測定が行えるように処理することができる。同様に、音量決定回路44は根二乗和(RSS: Root-Sum-Square)測定に基づいて音量を求めるように構成することができる。また、デジタルオーディオファイルに対してRSS測定は、ファイルの中のデジタル化された振幅値に基づいて行うことができる。もちろん、アナログ録音、デジタル録音のいずれであっても、RSS及び/又はRMSの測定は必要性や要望に応じてアナログ領域で行うことができる。1つ又はそれ以上の他の実施形態において、保存された録音の音量は、録音の最大レベル及び/又は平均レベルを調べることによって求められる。それぞれの録音に対してその測定は、録音に用いられた全振幅値(full-scale value)を参照して行われることが望ましい。
【0033】
更に、上記いずれの音量の測定方法も、人間の聴覚にどう聞こえるかに応じて調整することができる。再生音量が同じであっても、人間の耳には、ある周波数範囲内の音が他の周波数範囲内の音より大きく聞こえることがある。詳しくは、低い周波数と高い周波数の音は中間の周波数帯の音よりも音量が低く知覚される。そして、音量決定回路44は、対応する利得制御パラメータが音響心理への考慮を反映するように、保存された録音に対して音量の周波数加重測定を行うように構成することができる。
【0034】
このようにして、所与の保存された録音の再生音量を正規化するのに用いられる利得補償パラメータは、その録音の音響心理特性が反映されたものとなる。所与の録音に対する利得制御パラメータは、録音の周波数特性と無関係に求められた場合、その他の場合よりも利得減衰が少なくあるいは多くなるように計算されてよい。単に周波数に無関係に利得制御パラメータを計算すれば、通常の周波数に依存した計算の場合とは異なる値が出る。音響心理モデルに基づいて利得制御パラメータを計算するという追加の作業、すなわち、周波数に依存した音量の決定、は、再生時間が短く周波数領域が狭いような着信音に対して、特に有効であろう。
【0035】
録音の音量の評価値が得られると、利得制御パラメータ算出回路46は録音の再生利得を確定するために用いられる対応する利得補償パラメータを求める。ある実施形態においては、利得補償パラメータは、単に録音に対して求められた音量そのもののことがある。その値は、これまでにも何度か述べたが、RMS値、RSS値、ピーク値、平均対ピーク値、平均値、あるいは他の音量測定によるものでよい。更に、それらの測定のいずれかもしくはいずれもが、周波数加重であっても無しでもよい。ここでまた、少なくとも1つの実施形態において、利得補償パラメータは実際に1つ又はそれ以上の値を含むことがあることに注意されたい。
【0036】
他の実施形態では、利得補償パラメータは、音量測定から計算で求められた値のこともある。この計算は、単に逆数の関係か、もっと複雑な導出法によるものかもしれない。1つの方法によれば、利得補償パラメータは音量の測定から求められた利得補償値であり、その値は再生利得を乗算で補正するための乗算係数、もしくは再生利得を加減算で補正するためのオフセット値であってよい。いずれにせよ、利得補償パラメータの範囲と分解能はオーディオ再生システムの詳細な実現に依存する。どの場合でも、利得補償パラメータは再生利得補償用にメモリに保存される。
【0037】
再生利得の補償を実行するには、再生処理回路32は、利得補償パラメータを(復号された)録音出力に適用する利得制御回路48を備えてよい。再生処理回路32も、再生音量制御入力を受け取り、利得制御パラメータと現在の音量制御入力値との組み合わせに基づいて録音出力信号の利得を設定してよい。例えば、利得補償パラメータが比例係数xで与えられ、音量制御設定が比例係数yで与えられる場合には、組み合わせた利得設定はx・yで表わされてよい。もちろん、オフセットによる補償では、音量制御利得yは利得補償パラメータxによってy±xというように調整される。
【0038】
利得制御回路48が再生処理回路32から除かれる場合には、再生処理回路32は利得制御信号と録音出力信号とを出力する。この2つの信号は、再生処理回路32と同じ場所か離れた場所にある、オーディオ出力回路36に送られる。いずれの場合も、再生処理回路32からの利得制御信号の出力は、音量と補償利得とを合わせたものであるか、もしくは、オーディオ出力回路36に直接入力される音量制御を持った補償利得だけであるようにすることができる。
【0039】
オーディオ出力回路36が、入力として補償されていない録音出力信号を受け取ったときは、利得補償パラメータ及びオプションで音量利得設定を入力信号に提供するように構成された利得制御回路50を含むことができる。オーディオ出力回路36が再生処理回路32から利得補償された録音出力信号を受け取った場合は、そのような利得制御は省略することができる。当業者は、そのような実現の詳細が本発明の態様を制限するものではないことを認識し、そのような詳細は必要性や要望に応じて変わり得ることを理解すべきである。
【0040】
どの場合でも、例示的なオーディオ出力回路36は更にデジタル−アナログ変換機52を含む。デジタル−アナログ変換機52は、利得補償された録音信号をアナログ波形に変換して、増幅器54へのステレオ又は多チャンネルの波形入力とする。次に、増幅器54は、低インピーダンススピーカのようなオーディオ出力変換器56を駆動するのに適した信号を出力する。デジタル領域における処理は、例えばデジタル音楽ファイルを演奏するように構成された携帯音楽プレイヤーでは、利便性の問題であるかもしれないが、そのような処理は本発明を限定する態様ではないことにも注意すべきである。実際、利得補償処理と録音そのものは、そのまま(あるいは変換されて)アナログ領域に存在してよい。
【0041】
更に、本発明による再生音量の正規化方法は、保存された録音の再生やそのような録音の再生を管理する、基本的にはいかなる種類の装置やシステムにも有効に用いられると理解されるべきであるが、ある場面では本発明が特に有効である。例えば、図8は、装置10が、携帯無線電話、無線ページャ、通信機能付きの携帯情報機器(PDA)などのような例示的な無線通信装置60として実現されてもよいことを示している。そして、その実現の詳細は、個々の目的の機能によって変化してよいが、例示的な装置60は、装置60に保存された少なくともいくつかの録音に対して、本発明による再生音量正規化の方法を実行するように構成される。
【0042】
図示された機能要素のすべてが本発明に特有の信号処理を行うことに関連するわけではないが、例示的な装置60は、送受信アンテナ部62、スイッチ/送受切換器64、受信機66及び送信機68を備えた無線周波数(RF)送受信機、システムコントローラ70、1つ又はそれ以上のメモリ回路72、ホストシステム76(例えばPC)と通信するためのホストインタフェース74、及びユーザインタフェース77を備える。例示的なユーザインタフェース77は、ディスプレイインタフェース78と図形表示が可能なカラーLCDか他のスクリーン種別のディスプレイ80、キーパッドインタフェースとキーパッド82、及び、オーディオ入力/出力サブシステム84を備える。オーディオサブシステム84は、オーディオ入力変換器86(例えば、マイクロフォン)とオーディオ出力変換器88(例えば、スピーカ)とに接続されてよい。
【0043】
ハードウェア、ソフトウェア、あるいはその両方を備えた本発明は、システムコントローラ70に実現されてよい。例示的なシステムコントローラ70は、1つ又はそれ以上のマイクロプロセッサ及び/又は他の処理回路、さら必要な場合はそれを補助する回路を備える。このようにシステムコントローラ70は、(回路12と14の機能を含む)再生処理回路32がメモリ回路72から録音を、例えばデータバスを介して読み出し、音量と対応する利得制御パラメータを求めるために録音を処理し、そして、後に再生のために選択された録音に対応して再生音量を正規化するときに用いるための利得制御パラメータをメモリ回路72に書き込むことができるように構成されてよい。もちろん、利得制御パラメータは選択された録音に対してその場で求めることもでき、選択された録音の音量はすぐに正規化するために作業メモリに保存される。
【0044】
録音を入手するということでは、装置60は、受信機66及び送信機68を用いて対応する無線通信ネットワークからの無線信号として録音を“ダウンロード”してもよく、及び/又は、局所的なホスト76からホストインタフェース回路74を介して録音をダウンロードしてもよい。ホストインタフェース回路74は、基本的にはどんなタイプの局所的な通信インタフェース回路を含んでもよい。制限のない例として、ホストインタフェース回路74はつぎのうちの1つ又はそれ以上を備えてよい。すなわち、ユニバーサルシリアルバス(USB: Universal serial Bus)インタフェース、IEEE1394(Fireware)インタフェース、赤外線(例えばIrDA)インタフェース、短距離無線インタフェース(例えば、Bluetooth、802.11、など)である。
【0045】
また、オーディオサブシステム84は、本発明による例示的な再生音量の正規化を実行するように構成され得るマイクロプロセッサ、もしくは他の(おそらくは専用の)処理回路を備えてよいことに注意されたい。実際、本発明は、比較的少ない処理資源を用いて実現することができ、たいていは安価なプログラム可能なもしくは専用の論理回路を用いて実現される。こうして本発明は、商業的には、特定のマイクロプロセッサもしくはマイクロコントローラのコアで実行されるソフトウェアとして、及び/又は集積回路の設計に用いられる種類の電子設計自動化(EDA: Electronic Design Automation)ツール用のデジタル合成ファイルとして、プログラムされた又は構成済みの集積回路素子という形で実現されてよい。
【0046】
図9は、更に本発明の柔軟性をその実現の詳細からだけでなく応用面からも示すものである。無線通信ネットワーク90は、1つ又はそれ以上のコアネットワーク(CNs: Core Networks)92を備える。このコアネットワーク92は、例えば、IS−95B、IS−2000、あるいは広帯域CDMA(WCDMA)無線通信ネットワークというようなパケット交換及び/又は回線交換コアネットワークであってよい。特に興味深いのは、CN92が、無線通信ネットワーク90のユーザに向けた音声メールメッセージを蓄える音声メールサーバシステム93として構成される、装置10の実現を含んでいることである。
【0047】
これらの保存されたメッセージは、無線アクセスネットワーク(RAN: Radio Access Network)94を経由して、例えば図8に示された端末60として構成されるような個々の移動端末(MS: Movile Station)96に送られる。メッセージは、公衆データネットワーク98(例えばインターネット)に通信でつながっている種々のユーザ端末から、公衆電話交換ネットワーク(PSTN)99のユーザから、更に他のネットワーク90のユーザからというように、通常種々の相手から到来する。このように種々の起点から到来し、音声メールサーバ93によって保存された音声メールメッセージは音量にバラツキがあるのが普通である。そのため、ユーザの移動端末96で多数のメッセージを再生すれば、メッセージごとに音量の好ましくないばらつきが生じるかもしれない。
【0048】
個々のメッセージが移動端末96に送られ、再生のために一時メモリに保存されるとき、移動端末96はメッセージの再生に先立ってそれぞれの再生音量の正規化を行うことができる。しかし、メッセージが実時間再生のために移動端末に流されるとき、音声メールサーバ93は再生音量の正規化をメッセージストリーミングの一部として行うことができる。その処理は、が到来する音声メールメッセージを受け取り、音量補正パラメータを求めるためにそれを処理し、再生音量の正規化のためのそれらのパラメータを保存する、音声メールサーバ93に基づき実現できる。
【0049】
音量の正規化は、メッセージがユーザの移動端末96に流されるときに、利得補償を所与のメッセージを含むデータに適用して行うことができる。別の方法としては、利得補償パラメータを移動端末96に転送することによるもので、メッセージ転送中か転送開始前に移動端末96が受け取った利得補償パラメータをメッセージの再生音量の正規化を行うために利用できるようになる。
【0050】
当業者は、直前に示した音声メールの音量の正規化や以前に示した着信音の正規化以外の、多くの応用にすぐに気付くであろう。例えば、音声メールサーバ93は、大まかに言って、ネットワーク90、より一般的にはインターネット、を介してつながることができるどんなメディアサーバ(例えばストリーミングメディアサーバ)であるとも見なし得る。このように、本発明はいかなる種類の保存された録音に対する再生音量の正規化にも用いられ、携帯通信端末−携帯電話、ページャ、PDA−や、PC、ストリーミング又は転送用のメディアファイルを保有するネットワークサーバ、などに直接の応用が見出される。このように、本発明は、これまでに述べた説明やそれに付随した図に限定されるものではない。むしろ、制限されるのは、本発明の請求項とその合理的かつ正当な等価物だけである。
【図面の簡単な説明】
【0051】
【図1】本発明の1つ又はそれ以上の実施形態に従って再生音量の正規化を行うために構成される例示的な装置又はシステム10の図である。
【図2】図1の装置で実施することのできる例示的な利得制御パラメータの決定を示した図である。
【図3】再生処理部とオーディオ再生回路とを含む装置又はシステム10の別の図である。
【図4】図3の装置で実施することができる例示的な再生音量の正規化を示した図である。
【図5】更に例示的な再生音量の正規化処理の詳細を示した図である。
【図6】更に例示的な再生音量の正規化処理の詳細を示した別の図である。
【図7】本発明の1つ又はそれ以上の実施形態によって構成される例示的な装置の図である。
【図8】本発明の1つ又はそれ以上の実施形態によって構成される例示的な移動局−例えば携帯無線電話−の図である。
【図9】本発明の1つ又はそれ以上の実施形態によって構成される音声メールサーバを備えた無線通信ネットワークの図である。

【特許請求の範囲】
【請求項1】
改善された再生のために録音を処理する録音処理方法であって、
音量を求めるために保存された録音を処理する処理ステップと、
前記音量に基づいて前記録音のための利得制御パラメータを決定する決定ステップと、
前記録音が後で再生されるときの再生利得の設定のために、前記利得制御パラメータを保存する保存ステップとを有することを特徴とする録音処理方法。
【請求項2】
前記利得制御パラメータの保存ステップは、複数の録音に対応して複数の記入項目を保持するよう構成された保存データ構造に前記利得制御パラメータを記入項目としてを保存するステップを含むことを特徴とする請求項1に記載の録音処理方法。
【請求項3】
前記利得制御パラメータの保存ステップは、録音の一部として前記利得制御パラメータを保存するステップを含むことを特徴とする請求項1に記載の録音処理方法。
【請求項4】
前記音量を求めるために保存された録音を処理する処理ステップは、通信ネットワーク(90)のノード(93)で、前記通信ネットワーク(90)のユーザへの音声メールメッセージが後に再生される間に前記利得制御パラメータが利得補償を可能にするよう、保存された音声メールメッセージを処理するステップを含むことを特徴とする請求項1に記載の録音処理方法。
【請求項5】
前記音量を求めるために保存された録音を処理する処理ステップは、無線通信端末(60)で、着信音ファイルが後に再生される間に前記利得制御パラメータが利得補償を可能にするよう、保存された着信音ファイルを処理するステップを含むことを特徴とする請求項1に記載の録音処理方法。
【請求項6】
前記録音がデジタルオーディオファイルを含み、前記音量を求めるために保存された録音を処理する処理ステップは、前記デジタルオーディオファイルを含むデジタル値を解析するステップを含むことを特徴とする請求項1に記載の録音処理方法。
【請求項7】
前記デジタルオーディオファイルを含むデジタル値を解析するステップは、前記デジタル値に基づき周波数加重された音量パラメータを計算するステップを含むことを特徴とする請求項6に記載の録音処理方法。
【請求項8】
前記デジタルオーディオファイルを含むデジタル値を解析するステップは、前記デジタル値に基づき音響心理モデルパラメータを計算するステップを含むことを特徴とする請求項6に記載の録音処理方法。
【請求項9】
前記デジタルオーディオファイルを含むデジタル値を解析するステップは、前記デジタル値の二乗平均偏差値を求めるステップ、前記デジタル値の根二乗和値を求めるステップ、及び前記デジタル値のピーク値を求めるステップの少なくとも1つを含むことを特徴とする請求項6に記載の録音処理方法。
【請求項10】
前記音量を求めるために保存された録音を処理する処理ステップは、前記録音の二乗平均偏差値を求めるステップ、前記録音の根二乗和値を求めるステップ、前記録音のピーク値を求めるステップの少なくとも1つを含むことを特徴とする請求項6に記載の録音処理方法。
【請求項11】
録音再生の間に少なくとも前記利得制御パラメータの一部に基づいて再生利得を設定する設定ステップを更に有することを特徴とする請求項1に記載の録音処理方法。
【請求項12】
前記録音再生の間に少なくとも前記利得制御パラメータの一部に基づいて再生利得を設定する設定ステップは、前記利得制御パラメータと再生音量設定との組み合わせに基づいて全体の再生利得を生成するステップを含むことを特徴とする請求項11に記載の録音処理方法。
【請求項13】
前記録音としてオーディオデータの局所メモリへの受信に応答して、前記保存された録音を処理するステップと、前記利得補償パラメータを求めるステップと、前記利得補償パラメータを保存するステップとを自動的に実施する自動実施ステップを更に有することを特徴とする請求項1に記載の録音処理方法。
【請求項14】
前記録音の最初の試行再生の認識に応答して、前記保存された録音を処理するステップと、前記利得補償パラメータを求めるステップと、前記利得補償パラメータを保存するステップとを自動的に実施する自動実施ステップを更に有することを特徴とする請求項1に記載の録音処理方法。
【請求項15】
録音の改善された再生のための録音再生装置(10)であって、
音量を求めるために保存された録音を処理し、前記音量に基づいて前記録音のための利得制御パラメータを決定し、前記録音が後で再生されるときの再生利得の設定のために前記利得制御パラメータを保存するように構成された1つ又はそれ以上の処理回路(12、14)を有することを特徴とする録音再生装置(10)。
【請求項16】
前記1つ又はそれ以上の処理回路(12、14、18)は、前記保存された利得制御パラメータに基づいた再生利得制御を含む前記録音の再生処理を行うよう更に構成されることを特徴とする請求項15に記載の録音再生装置(10)。
【請求項17】
前記録音再生装置(10)が前記1つ又はそれ以上の処理回路(12、14)を備えるデジタルオーディオ再生回路(32)を含み、
前記デジタルオーディオ再生回路(32)は、複数のデジタルオーディオファイルを録音として前記デジタルオーディオ再生回路(32)に結合された局所メモリ(34)に保存し、前記複数のデジタルオーディオファイルの各々に対して、前記録音再生装置(10)により個々に決定され保存された利得制御パラメータに従って前記複数のデジタルオーディオファイルを再生するよう構成されることを特徴とする請求項15に記載の録音再生装置(10)。
【請求項18】
前記録音再生装置(10)が無線通信端末(60)を備え、
前記無線通信端末(60)は、前記無線通信端末(60)に保存された着信音ファイルのために求められた利得制御パラメータに従って、前記保存された着信音ファイルの再生利得を制御するよう構成された前記デジタルオーディオ再生回路(32,70)を含むことを特徴とする請求項17に記載の録音再生装置(10)。
【請求項19】
前記録音再生装置(10)は、前記デジタルオーディオ再生回路(32)を含むデジタル音楽プレイヤーを含むことを特徴とする請求項17に記載の録音再生装置(10)。
【請求項20】
前記録音再生装置(10)は、保存された音声メールの再生利得を制御するよう構成された無線通信ネットワーク(90)の処理ノード(93)を含むことを特徴とする請求項15に記載の録音再生装置(10)。
【請求項21】
前記1つ又はそれ以上の処理回路(12、14)は、前記録音の音量を求めるよう構成された音量決定回路(44)と、前記音量に基づいて前記利得制御パラメータを求めるよう構成された利得制御パラメータ算出回路(46)とを備えることを特徴とする請求項15に記載の録音再生装置(10)。
【請求項22】
前記1つ又はそれ以上の処理回路(12、14)は、前記利得制御パラメータをメモリ(34)に書き込み、前記利得制御パラメータをメモリ(34)から読み出すために、1つ又はそれ以上の結合されたメモリ回路(34)とインタフェースするよう構成されたインタフェース回路(40)を更に備えることを特徴とする請求項21に記載の録音再生装置(10)。
【請求項23】
少なくとも前記利得制御パラメータの一部に基づいて録音の再生利得を設定するよう構成された利得制御回路(48)を更に備えることを特徴とする請求項21に記載の録音再生装置(10)。
【請求項24】
録音の再生を制御し、少なくとも利得制御パラメータの一部に基づいてその再生用の再生利得を設定するように構成された再生処理回路(18、32)を更に備えた請求項21の装置(10)。
【請求項25】
前記音量決定回路(44)は、前記録音の二乗平均偏差値を算出するよう構成された二乗平均偏差算出回路と、前記録音の根二乗和値を算出するよう構成された根二乗和算出回路と、前記録音のピーク値を検出するよう構成されたピーク値検出回路と、前記録音の録音レベルを検出するよう構成された録音レベル検出回路とのいずれか1つを備えることを特徴とする請求項21に記載の録音再生装置(10)。
【請求項26】
前記1つ又はそれ以上の処理回路(12、14)は、前記録音の音量を周波数加重された音量パラメータとして求めるよう構成されることを特徴とする請求項15に記載の録音再生装置(10)。
【請求項27】
前記1つ又はそれ以上の処理回路(12、14)は、前記録音の音量を音響心理モデルパラメータとして求めるよう構成されることを特徴とする請求項15に記載の録音再生装置(10)。
【請求項28】
前記1つ又はそれ以上の処理回路(12、14)は、前記録音の二乗平均偏差値と、前記録音の根二乗和値と、前記録音のピーク値との少なくとも1つを求めることによって前記録音の音量を計算するよう構成されることを特徴とする請求項15に記載の録音再生装置(10)。
【請求項29】
保存された録音の再生音量を正規化する再生音量正規化方法であって、
再生前に前記録音のための音量値を求めるために録音を処理する処理ステップと、
前記録音の音量値から求められた利得補償パラメータに基づいて前記録音の再生に用いられる再生利得を設定することにより、前記録音の再生音量を正規化するステップとを有することを特徴とする再生音量正規化方法。
【請求項30】
前記利得補償パラメータをメモリ(16、34、72)に保存する保存ステップと、
再生のために選択される録音に応じて前記利得補償パラメータをメモリ(16、34、72)から検索する検索ステップとを更に有することを特徴とする請求項29に記載の再生音量正規化方法。
【請求項31】
デジタルオーディオファイルの再生音量の正規化を行うよう動作する装置(30)であって、
デジタルオーディオファイルを保存するよう構成されたメモリ回路(34)と、
前記デジタルオーディオファイルの音量の解析に基づいて、前記デジタルオーディオファイルのための利得制御パラメータを求めて保存するよう構成され、且つ、前記デジタルオーディオファイルの再生のための再生利得を設定するために、前記利得制御パラメータを用いて前記デジタルオーディオファイルの再生音量を正規化するよう構成された再生処理回路(32)とを有することを特徴とする装置(30)。
【請求項32】
前記装置(30)は、1つ又はそれ以上の保存された着信音ファイルの各々のために利得制御パラメータを求めて保存するよう構成された無線通信端末(60)含み、
前記再生処理回路(32)は、対応する利得制御パラメータに基づいて、所与の着信音の音量設定のために現在選択されている着信音ファイルの再生音量を正規化することを特徴とする請求項31に記載の装置(30)。
【請求項33】
前記無線通信端末(60)は、ダウンロード動作における前記着信音ファイルの受信に応答して、所与の着信音ファイルのために利得制御パラメータを求めて保存するよう構成されることを特徴とする請求項32に記載の装置(30)。
【請求項34】
保存された音声メールメッセージの再生音量を正規化するよう動作する音声メールシステム(93)であって、
音声メールメッセージを保存するよう構成されたメモリ回路と、
前記音声メールメッセージのための利得制御パラメータを前記音声メールメッセージの音量の解析に基づいて求めて保存するよう構成され、且つ、前記音声メールメッセージの再生のための再生利得を設定するために、前記利得制御パラメータを用いて前記音声メールメッセージの再生音量を正規化するよう構成された再生処理回路を有することを特徴とする音声メールシステム(93)。
【請求項35】
前記音声メールシステムが通信ネットワーク(90)の処理ノード(93)を備え、
前記処理ノード(93)は、前記通信ネットワークのユーザのために音声メールメッセージを保存するよう構成された1つ又はそれ以上のメモリ回路を備え、且つ、前記再生処理回路として構成された1つ又はそれ以上のデジタル論理回路を備えることを特徴とする請求項34に記載の音声メールシステム(93)。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公表番号】特表2008−521028(P2008−521028A)
【公表日】平成20年6月19日(2008.6.19)
【国際特許分類】
【出願番号】特願2007−541171(P2007−541171)
【出願日】平成17年7月22日(2005.7.22)
【国際出願番号】PCT/US2005/026092
【国際公開番号】WO2006/055058
【国際公開日】平成18年5月26日(2006.5.26)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
【出願人】(502087507)ソニー エリクソン モバイル コミュニケーションズ, エービー (823)