説明

携帯端末および録音レベル最適化方法

【課題】録音された音声の音量を最適化すること。他の機器でも音量が最適化された状態で音声を再生可能な音声データを提供すること。
【解決手段】携帯端末によって、圧縮音声データが非圧縮音声データに展開され、展開された非圧縮音声データの複数の音声レベルの値の範囲を許容範囲に拡大するように音声レベルが最適化音声レベルに変換され(110)、変換された最適化音声レベルがデータ列とされ(110)圧縮されて最適化圧縮音声データとされ、圧縮された最適化圧縮音声データが記憶される。携帯端末によって、複数の音声レベルの値のうち最大値で許容範囲の上限値を割った値と、複数の音声レベルの値のうち最小値で許容範囲の下限値を割った値とのうち、小さい方の値が増幅率として算出され(111,112)、算出された増幅率が複数の音声レベルのそれぞれに掛けられることによって、最適化音声レベルが算出される(113)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、携帯端末および録音レベル最適化方法に関し、特に、録音レベルを最適化するのに適した携帯端末および録音レベル最適化方法に関する。
【背景技術】
【0002】
音楽などの音声データの録音レベルは、録音や録音された音声の調整などを行なう者が異なったり、録音場所や録音設備などの録音環境が異なったりすることによって、音声データによってばらつきがあり、各音声データがすべての再生機器に対して適正となっているとは限らない。
【0003】
したがって、音楽などの音声データを再生する際に、音声データごとに音の大きさが異なることがよくある。このため、複数の音声データを連続して再生するときに、ある音声データの録音レベルが小さいためにボリュームを大きくした場合に、次の音声データの録音レベルが大きいため出力音量が大きくなり過ぎてしまうことがあった。逆に、ある音声データの録音レベルが大きいためにボリュームを小さくした場合に、次の音声データの録音レベルが小さいため出力音量が小さくなりすぎてしまうことがあった。
【0004】
このような問題を解決するため、音声データの音量を再生時に最適化したり(たとえば、特許文献1参照)、予め最適化しておいたり(たとえば、特許文献2参照)するものがあった。
【0005】
特許文献1には、レベル検出回路によって検出された外部から入力された音声、音楽データのピークレベルと、予め設定された使用スピーカに対する最適なピークレベルとを比較し、その差分を計算し、入力された音声、音楽データが差分値に基づいて最適な出力レベルで使用スピーカから出力されるようにボリュームが制御される携帯電話機が記載されている。
【0006】
また、特許文献2には、入力されるデジタルデータを圧縮データの状態で記録媒体に記録する要求に応じて、入力されたデジタルデータについて、データを加工して加工データを生成する加工処理を実行し、さらに加工処理で得られた加工データについて、データを圧縮して圧縮データを生成する圧縮処理を実行し、圧縮処理で得られた圧縮データを記録媒体に記録する記録装置が記載されている。
【特許文献1】特開2003−37650号公報
【特許文献2】特開2004−46959号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、特許文献1に記載されている技術では、差分値を音楽データとは別に保持しておく必要があるため、音楽データが汎用的なフォーマットのデータであったとしても、差分値を扱えるハードウェアやソフトウェアがない限り、他の機器では、最適な出力レベルで出力することができないといった問題があった。
【0008】
同様に、汎用的な符号化方式(たとえば、MP3(MPEG Audio Layer-3))の音声データの音量を最適化する際に、音量を最適化するためのパラメータデータを、音声データと別のデータとして記憶するものがあった。この場合、音声データだけを他機器に受け渡した場合、この他機器では、音声データの音量を最適化するために、改めて、音量の最適化のための処理を行なう必要があった。
【0009】
また、たとえ、音声データとともにその音声データの音量を最適化するためのパラメータデータを他機器に受け渡したとしても、受け渡されたパラメータデータを扱える機能がこの他機器になく、この他機器にはこの符号化方式の音声データを扱える機能しかない場合、やはり、改めて、コンテンツデータの音量を最適化するために、音量の最適化のための処理を行なう必要があった。
【0010】
また、特許文献2には、どのように音量を加工するかについては記載されていない。このため、特許文献2に記載されている技術を用いたとしても、デジタルデータの音量を最適化することができるか否かは不明である。
【0011】
この発明は上述の問題点を解決するためになされたもので、この発明の目的の1つは、録音された音声の音量を最適化することが可能な携帯端末を提供することである。
【0012】
この発明の他の目的は、ある機器で音量が最適化された音声データを受け渡された他機器でも音量が最適化された状態で再生可能な音声データを提供することが可能な携帯端末を提供することである。
【課題を解決するための手段】
【0013】
上述した課題を解決するために、この発明のある局面によれば、携帯端末は、展開部と、最適化部と、圧縮部と、記憶部とを備える。
【0014】
展開部は、録音された音声の録音レベルを時間軸に対する電圧値の関数で示す音声信号を所定周期ごとに標本化して標本化された標本電圧値を量子化して量子化された音声レベルをデータ列とした非圧縮音声データが圧縮されたデータである圧縮音声データを、非圧縮音声データに展開する。
【0015】
最適化部は、展開部によって展開された非圧縮音声データの複数の音声レベルの値の範囲を、音声レベルの振幅として許容される範囲である許容範囲に拡大するように音声レベルを最適化音声レベルに変換する。圧縮部は、最適化部によって変換された最適化音声レベルをデータ列とし圧縮して最適化圧縮音声データとする。記憶部は、圧縮部によって圧縮された最適化圧縮音声データを記憶する。
【0016】
この発明に従えば、携帯端末によって、圧縮音声データが非圧縮音声データに展開され、展開された非圧縮音声データの複数の音声レベルの値の範囲を許容範囲に拡大するように音声レベルが最適化音声レベルに変換され、変換された最適化音声レベルがデータ列とされ圧縮されて最適化圧縮音声データとされ、圧縮された最適化圧縮音声データが記憶される。
【0017】
このため、録音された音声の音量と相関する複数の音声レベルの値を許容範囲まで拡大することによって、録音された音声の音量を最適化することが可能な携帯端末を提供することができる。また、この携帯端末で音量が最適化された音声データを他の機器に受け渡した場合、他の機器でも音量が最適化された状態で音声を再生可能な音声データを提供することが可能な携帯端末を提供することができる。
【0018】
好ましくは、携帯端末は、記憶部に記憶された最適化圧縮音声データを読出して、最適化音声信号に変換する変換部と、変換部によって変換された最適化音声信号を増幅して出力する増幅出力部とをさらに備える。
【0019】
この発明に従えば、携帯端末によって、記憶された最適化圧縮音声データが読出されて、最適化音声信号に変換され、変換された最適化音声信号が増幅されて出力される。このため、音量が最適化された音声を出力することができる。
【0020】
好ましくは、携帯端末は、外部から圧縮音声データを受信する通信部をさらに備え、展開部は、通信部によって受信された圧縮音声データを展開する。
【0021】
この発明に従えば、携帯端末によって、外部から圧縮音声データが受信され、受信された圧縮音声データが展開される。このため、外部からの圧縮音声データで示される音声の音量を最適化することができる。
【0022】
好ましくは、記憶部は、圧縮音声データをさらに記憶し、展開部は、記憶部に記憶された圧縮音声データを展開する。
【0023】
この発明に従えば、携帯端末によって、圧縮音声データが記憶され、記憶された圧縮音声データが展開される。このため、記憶された圧縮音声データで示される音声の音量を最適化することができる。
【0024】
さらに好ましくは、最適化部は、複数の音声レベルの値のうち最大値で許容範囲の上限値を割った値と、複数の音声レベルの値のうち最小値で許容範囲の下限値を割った値とのうち、小さい方の値を増幅率として算出する増幅率算出部と、増幅率算出部によって算出された増幅率を複数の音声レベルのそれぞれに掛けることによって、最適化音声レベルを算出する最適化データ算出部とを含む。
【0025】
この発明に従えば、携帯端末によって、複数の音声レベルの値のうち最大値で許容範囲の上限値を割った値と、複数の音声レベルの値のうち最小値で許容範囲の下限値を割った値とのうち、小さい方の値が増幅率として算出され、算出された増幅率が複数の音声レベルのそれぞれに掛けられることによって、最適化音声レベルが算出される。
【0026】
このため、音声レベルの最大値または最小値が許容範囲の上限値または下限値と同じ値になるまで複数の音声レベルの値を拡大することによって、録音された音声の音量を最適化することができる。
【0027】
さらに好ましくは、最適化部は、複数の音声レベルの値のうち最小値の絶対値または最大値で、許容範囲の下限値の絶対値または上限値を割った値を、増幅率として算出する増幅率算出部と、増幅率算出部によって算出された増幅率を複数の音声レベルのそれぞれに掛けることによって、最適化音声レベルを算出する最適化データ算出部とを含む。
【0028】
この発明に従えば、携帯端末によって、複数の音声レベルの値のうち最小値の絶対値または最大値で、許容範囲の下限値の絶対値または上限値を割った値が、増幅率として算出され、算出された増幅率が複数の音声レベルのそれぞれに掛けられることによって、最適化音声レベルが算出される。
【0029】
このため、複数の音声レベルのうちの最小値の絶対値および最大値がほぼ同じ値であり、許容範囲の下限値の絶対値および上限値がほぼ同じ値であるときには、複数の音声レベルの値のうち最小値の絶対値または最大値のいずれを用いて増幅率を算出しても、許容範囲の下限値の絶対値または上限値のいずれを用いて増幅率を算出しても、ほぼ同じ増幅率を算出することができる。
【0030】
したがって、複数の音声レベルのうちの最小値の絶対値および最大値がほぼ同じ値であり、許容範囲の下限値の絶対値および上限値がほぼ同じ値であることが分かっている場合には、複数の音声レベルの値のうち最小値の絶対値または最大値のいずれを用いて増幅率を算出し、許容範囲の下限値の絶対値または上限値のいずれを用いて増幅率を算出するかを予め決めておくことによって、複数の音声レベルの値のうち最大値で許容範囲の上限値を割った値と、複数の音声レベルの値のうち最小値で許容範囲の下限値を割った値とを比較することなしに、増幅率を算出することができる。そして、算出された増幅率を用いて、音声レベルの最大値または最小値が許容範囲の上限値または下限値とほぼ同じ値になるまで複数の音声レベルの値を拡大することによって、録音された音声の音量を最適化することができる。
【0031】
さらに好ましくは、最適化部は、複数の音声レベルの値のうち最小値の絶対値または最大値のうちの大きい方の値で、複数の音声レベルの絶対値のそれぞれを割ることによって、複数の音声レベルそれぞれに対する補正率を算出する補正率算出部をさらに含み、最適化データ算出部は、補正率算出部によって複数の音声レベルそれぞれに対して算出された補正率を複数の音声レベルのそれぞれにさらに掛けることによって最適化音声レベルを算出する。
【0032】
この発明に従えば、携帯端末によって、複数の音声レベルの値のうち最小値の絶対値または最大値のうちの大きい方の値で、複数の音声レベルの絶対値のそれぞれが割られることによって、複数の音声レベルそれぞれに対する補正率が算出され、複数の音声レベルそれぞれに対して算出された補正率が複数の音声レベルのそれぞれにさらに掛けられることによって最適化音声レベルが算出される。
【0033】
このため、携帯端末によって、音声レベルの絶対値が大きい音声レベル、つまり、大きい音量の音声に対応する音声レベルほど、大きい補正率が掛けられ、音声レベルの絶対値が小さい音声レベル、つまり、小さい音量の音声に対応する音声レベルほど、小さい補正率が掛けられることによって、最適化音声レベルが算出される。その結果、大きい音声と小さい音声とのメリハリを強調するように、音声の音量を最適化することができる。
【0034】
また、ある音声レベルの閾値より大きい音声レベルには、大きい補正率を掛けて、その閾値より小さい音声レベルには、小さい補正率を掛けることによって、最適化音声レベルを算出する場合と比較して、音声レベルの絶対値に比例する補正率が掛けられることによって最適化音声レベルが算出されるので、閾値に対応する箇所で不連続となることなく、連続した最適化音声レベルを算出することができる。その結果、不自然とならないように音声の音量を最適化することができる。
【0035】
この発明の他の局面によれば、録音レベル最適化方法は、録音された音声の録音レベルを携帯端末で最適化する方法である。録音レベル最適化方法は、録音レベルを時間軸に対する電圧値の関数で示す音声信号を所定周期ごとに標本化して標本化された標本電圧値を量子化して量子化された音声レベルをデータ列とした非圧縮音声データが圧縮されたデータである圧縮音声データを、非圧縮音声データに展開するステップと、展開された非圧縮音声データの複数の音声レベルの値の範囲を、音声レベルの振幅として許容される範囲である許容範囲に拡大するように音声レベルを最適化音声レベルに変換するステップと、変換された最適化音声レベルをデータ列とし圧縮して最適化圧縮音声データとするステップと、圧縮された最適化圧縮音声データを記憶するステップとを含む。
【0036】
この発明に従えば、録音された音声の音量と相関する複数の音声レベルの値を許容範囲まで拡大することによって、録音された音声の音量を最適化することが可能な録音レベル最適化方法を提供することができる。また、この携帯端末で音量が最適化された音声データを他の機器に受け渡した場合、他の機器でも音量が最適化された状態で音声を再生可能な音声データを提供することが可能な録音レベル最適化方法を提供することができる。
【発明を実施するための最良の形態】
【0037】
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰返さない。
【0038】
[第1の実施の形態]
図1は、この発明の実施の形態に従う携帯電話100の構成の概略を示すブロック図である。
【0039】
図1を参照して、携帯電話100は、制御部10と、記憶部12と、操作入力部13と、表示部14と、無線通信部15と、音声入出力部16と、アンテナ17とを含む。
【0040】
記憶部12は、ROM(Read Only Memory)やフラッシュメモリなどの不揮発性メモリやRAM(Random Access Memory)などの揮発性メモリなどの半導体メモリで構成される。記憶部12は、携帯電話100の通話機能、ウェブブラウザ機能、電子メール機能およびアプリケーションプログラム実行機能などの各種機能を制御部10に実行させるためのプログラムやデータを記憶する。
【0041】
操作入力部13は、電話番号や各種データなどの数字やアルファベットやその他の文字などを入力するためのダイヤルボタン131や4方向ボタン132やその他のボタンで構成される。操作入力部13の構成については、後述する図2で詳細に説明する。操作入力部13は、ユーザから各ボタンによるデータの入力を受付けて、入力されたデータを制御部10に受け渡す。
【0042】
表示部14は、液晶表示装置(Liquid Crystal Display、以下「LCD」という)で構成される。なお、表示部14は、EL(ElectroLuminescence)ディスプレイなど他の表示装置で構成されてもよい。表示部14は、制御部10から受けた文字データおよび画像データを表示する。
【0043】
無線通信部15は、他の携帯電話またはサーバから基地局を介してアンテナ17で受信した信号を制御部10に受渡し、制御部10から受けて基地局を介して他の携帯電話またはサーバへ送信する信号をアンテナ17から出力させる。
【0044】
音声入出力部16は、マイク161、イヤレシーバ162、および、スピーカで構成される。音声入出力部16は、外部から入力された音声を電気信号に変えて、制御部10に受渡し、制御部10からの電気信号を音声に変換して、イヤレシーバ162またはスピーカから外部に出力する。なお、イヤレシーバ162は、電話通話における相手の声の出力を主な目的として用いられ、スピーカは、音楽や着信音などの出力を主な目的として用いられる。
【0045】
制御部10は、マイクロプロセッサ(Micro Processing Unit、以下「MPU」という)などで構成され、複数のMPUやDSP(Digital Signal Processor)を含むようにしてもよいし、1つのMPUで構成されるようにしてもよい。制御部10は、記憶部12に記憶されたプログラムに従って、記憶部12、操作入力部13、無線通信部15または音声入出力部16から入力されたデータを処理して、記憶部12、表示部14、無線通信部15または音声入出力部16に出力する。
【0046】
図2は、この発明の実施の形態に従う携帯電話100の外観を示す外観図である。
図2を参照して、携帯電話100は、操作入力部13を備えた第1の部分と表示部14を備えた第2の部分とが折畳み可能なように接続される。第2の部分には、イヤレシーバ162が、表示部14をはさんで第1の部分が接続される接続部と反対側に設けられる。第1の部分には、マイク161が、操作入力部13をはさんで第2の部分が接続される接続部と反対側に設けられる。また、スピーカ163は、第2の部分のイヤレシーバ162が設けられている側の裏側に設けられる。
【0047】
操作入力部13は、0から9まで、*および#の文字がそれぞれ描かれた複数のダイヤルボタン131と、4方向ボタン132と、「クリア」「メモ」および「マナー」の文字がそれぞれ描かれたファンクションボタン133と、受話器が上げられている状態の絵が描かれた開始ボタン134と、受話器が置かれている状態の絵が描かれた終了ボタン135と、「F」の文字が描かれた決定ボタン136とを含む。
【0048】
図3は、この発明の実施の形態に従う携帯電話100の制御部10の機能の概略を示す機能ブロック図である。
【0049】
図3を参照して、制御部10は、音声データ展開部101と、音声レベル最適化部110と、音声データ圧縮部102とを含む。
【0050】
音声データ展開部101は、無線通信部15によって外部から受信されたAAC(登録商標)(Advanced Audio Coding)方式の音声データ、または、記憶部12の最適化前音声データ記憶部121に記憶されたAAC方式の音声データを受取る。音声データ展開部101は、受取ったAAC方式の音声データをPCM(Pulse Code Modulation)方式の音声データに展開する。音声データ展開部101は、展開したPCM方式の音声データを音声レベル最適化部110に受け渡す。
【0051】
PCM方式の音声データは、アナログ録音された音声の録音レベルを時間軸に対する電圧値の関数で示す音声信号を所定周期ごとに標本化して、標本化された標本電圧値を量子化して、量子化された音声レベルをデータ列とした音声データである。このため、PCM方式の音声データにおいては、録音された音声の録音レベルと相関する音声レベルの変更が容易であるので、音声データで示される音声の録音レベルが容易に変更できる。
【0052】
なお、標本化における所定周期(サンプリング周期)は、サンプリング周波数の逆数であり、サンプリング周波数は、たとえば、音楽CD(Compact Disc)の場合、44.1kHzである。また、音楽CDの量子化ビット数は、16ビットである。本実施の形態においては、量子化ビット数は、16ビットであることとする。しかし、量子化ビット数は、これに限定されず、24ビットや他のビット数であってもよい。
【0053】
AAC方式の音声データは、聴覚心理符号化や予測符号化やハフマン符号化などの方式を用いて、PCM方式の音声データを圧縮した音声データである。このため、AAC方式の音声データにおいては、PCM方式の音声データと比較してデータ量は少なくなるが、PCM方式の音声データに含まれる音声レベルのデータ列が大幅に変更された状態となるため、音声データで示される音声の録音レベルの変更は容易ではない。
【0054】
音声レベル最適化部110は、音声データ展開部101によって展開されたPCM方式の音声データを受取る。音声レベル最適化部110は、受取ったPCM方式の音声データの録音レベルを最適化する。音声レベル最適化部110は、最適化後のPCM方式の音声データを音声データ圧縮部102に受け渡す。PCM方式の音声データの録音レベルの最適化については、後述する図4で詳細に説明する。
【0055】
音声データ圧縮部102は、音声レベル最適化部110によって最適化された後のPCM方式の音声データを圧縮し、最適化後のAAC方式の音声データとする。音声データ圧縮部102は、最適化後のAAC方式の音声データを記憶部12の最適化後音声データ記憶部122に記憶させる。
【0056】
なお、音声データ展開部101、音声レベル最適化部110、および、音声データ圧縮部102は、それぞれ、ハードウェアとして制御部10に含まれるようにしてもよいし、ソフトウェアが制御部10によって実行されることによって、制御部10に仮想的に構成されるようにしてもよい。たとえば、音声データ展開部101および音声データ圧縮部102は、音声処理用のDSPとして制御部10に組込まれるようにし、音声レベル最適化部110は、ソフトウェアの機能として実現されるようにしてもよい。
【0057】
図4は、この発明の第1の実施の形態に従う携帯電話100の制御部10の音声レベル最適化部110の機能の概略を示す機能ブロック図である。
【0058】
図4を参照して、音声レベル最適化部110は、最大音声レベル探索部111と、増幅率算出部112と、最適化レベル演算部113とを含む。
【0059】
最大音声レベル探索部111は、音声データ展開部101によって展開されたPCM方式の音声データを受取る。最大音声レベル探索部111は、受取ったPCM方式の音声データから、サンプリング周期ごとの音声レベルXn(={X1,X2,・・・})を取出す。最大音声レベル探索部111は、取出した音声レベルXnのうちから最大値Xmaxと最小値Xminとを探索する。最大音声レベル探索部111は、探索された音声レベルの最大値Xmaxと最小値Xminとを増幅率算出部112に受け渡す。
【0060】
増幅率算出部112は、最大音声レベル探索部111によって探索されたXmaxおよびXminを受取る。増幅率算出部112は、受取ったXmaxおよびXmin、および、音声レベルXnのとり得る許容範囲Amin≦Xn≦Amaxの上限値Amaxおよび下限値Aminを用いて、Amin/XminとAmax/Xmaxとのうち小さい方の値を増幅率Kとして算出する。これを計算式で記述すると、増幅率K=min(Amin/Xmin,Amax/Xmax)である。増幅率算出部112は、算出した増幅率Kを最適化レベル演算部113に受け渡す。
【0061】
なお、本実施の形態においては、量子化ビット数を16ビットとしたので、音声レベルXnのとり得る許容範囲の上限値Amaxおよび下限値Aminは、それぞれ、Amax=7FFFH(10進数では+32767)、および、Amin=8000H(10進数では−32768)である。
【0062】
たとえば、Xmax=+24575、Xmin=−22528とした場合、K=min((−32768)/(−22528),32767/24575)=min(1.45455,1.33335)=1.33335となる。
【0063】
最適化レベル演算部113は、音声データ展開部101によって展開されたPCM方式の音声データ、および、増幅率算出部112によって算出された増幅率Kを受取る。最適化レベル演算部113は、受取ったPCM方式の音声データから、サンプリング周期ごとの音声レベルXn(={X1,X2,・・・})を取出す。
【0064】
最適化レベル演算部113は、取出した音声レベルXnのそれぞれに、受取った増幅率Kを掛けることによって、最適化後の音声データに含まれる音声レベルYn(={Y1,Y2,・・・})を算出する。つまり、計算式で記述すると、Yn=K×Xn(n=1,2,・・・)となる。最適化レベル演算部113は、算出した最適化後の音声レベルYnを含む最適化後のPCM方式の音声データを、音声データ圧縮部102に受け渡す。
【0065】
たとえば、音声レベルXn=24575(=Xmax)であれば、最適化後の音声レベルYn=1.33335×24575=32767になる。また、音声レベルXn=−22528(=Xmin)であれば、最適化後の音声レベルYn=1.33335×(−22528)=−30038になる。また、音声レベルXn=20000であれば、最適化後の音声レベルYn=1.33335×20000=26667となる。また、音声レベルXn=10000であれば、最適化後の音声レベルYn=1.33335×10000=13334となる。
【0066】
図5は、この発明の実施の形態に従う最適化された音声を出力する携帯電話100の機能の概略を示す機能ブロック図である。
【0067】
図5を参照して、制御部10は、アナログ変換部103をさらに含む。アナログ変換部103は、記憶部12の最適化後音声データ記憶部122に記憶された最適化後のAAC方式の音声データを受取る。アナログ変換部103は、受取った最適化後のAAC方式の音声データを、最適化後のアナログ音声信号に変換する。アナログ変換部103は、変換した最適化後のアナログ音声信号を、音声入出力部16の増幅部160に受渡す。
【0068】
操作入力部13は、ボリューム入力部137を含む。ボリューム入力部137は、スピーカ163またはイヤレシーバ162から出力する音のボリュームに対する操作をユーザから受付ける。ボリューム入力部137は、受付けたボリュームに対する操作に応じたボリューム値を記憶部12のボリューム値記憶部123に記憶させる。
【0069】
音声入出力部16の増幅部160は、アナログ変換部103によって変換された最適化後のアナログ音声信号を受取る。増幅部160は、ボリューム値記憶部123に記憶されたボリューム値を読取る。増幅部160は、受取った最適化後のアナログ音声信号を、読取ったボリューム値に応じて増幅する。増幅部160は、増幅した最適化後のアナログ増幅音声信号を、設定に応じて、スピーカ163またはイヤレシーバ162に受け渡す。
【0070】
スピーカ163またはイヤレシーバ162は、増幅部160によって増幅された最適化後のアナログ増幅音声信号を受取る。スピーカ163またはイヤレシーバ162は、受取った最適化後のアナログ増幅音声信号を外部に出力する。
【0071】
以上説明したように、本実施の形態における携帯電話100によれば、図3の音声データ展開部101で説明したように、録音された音声の録音レベルを時間軸に対する電圧値の関数で示す音声信号を所定周期ごとに標本化して標本化された標本電圧値を量子化して量子化された音声レベルをデータ列としたPCM方式の音声データが圧縮されたデータであるAAC方式の音声データが、PCM方式の音声データに展開される。
【0072】
図3の音声レベル最適化部110、ならびに、図4の最大音声レベル探索部111、増幅率算出部112および最適化レベル演算部113で説明したように、展開されたPCM方式の音声データの複数の音声レベルの値Xnの範囲が、音声レベルの振幅として許容される許容範囲Amin≦Xn≦Amaxに拡大されるように、音声レベルが最適化後の音声レベルに変換される。
【0073】
図4の最適化レベル演算部113および図3の音声データ圧縮部102で説明したように、変換された最適化後の音声レベルがデータ列とされて最適化後のPCM方式の音声データとされ、圧縮されて最適化後のAAC方式の音声データとされ、圧縮された最適化後のAAC方式の音声データが記憶部12の最適化後音声データ記憶部122に記憶される。
【0074】
これによって、録音された音声の音量と相関する複数の音声レベルの値を許容範囲まで拡大することによって、録音された音声の音量を最適化することが可能な携帯電話100を提供することができる。また、この携帯電話100で音量が最適化された音声データを他の機器に受け渡した場合、他の機器でも音量が最適化された状態で音声を再生可能な最適化後のAAC方式の音声データを提供することが可能な携帯電話100を提供することができる。
【0075】
また、本実施の形態における携帯電話100によれば、図5のアナログ変換部103で説明したように、記憶部12の最適化後音声データ記憶部122に記憶された最適化後のAAC方式の音声データが読出されて、最適化後のアナログ音声信号に変換される。図5の増幅部160で説明したように、変換された最適化後のアナログ音声信号が増幅されてスピーカ163またはイヤレシーバ162に出力される。
【0076】
これによって、携帯電話100によって、音量が最適化された音声を出力することができる。
【0077】
また、本実施の形態における携帯電話100によれば、図3の音声データ展開部101で説明したように、無線通信部15によって、外部からAAC方式の音声データが受信される。図3の音声データ展開部101で説明したように、受信されたAAC方式の音声データが展開される。
【0078】
これによって、携帯電話100によって、外部からのAAC方式の音声データで示される音声の音量を最適化することができる。
【0079】
また、本実施の形態における携帯電話100によれば、図3の音声データ展開部101で説明したように、AAC方式の音声データが記憶部12の最適化前音声データ記憶部121に記憶される。図3の音声データ展開部101で説明したように、記憶されたAAC方式の音声データが展開される。
【0080】
これによって、携帯電話100によって、記憶されたAAC方式の音声データで示される音声の音量を最適化することができる。
【0081】
さらにまた、本実施の形態における携帯電話100によれば、図4の最大音声レベル探索部111および増幅率算出部112で説明したように、複数の音声レベルXnのうちの最大値Xmaxで許容範囲の上限値Amaxを割った値と、複数の音声レベルXnのうちの最小値Xminで許容範囲の下限値Aminを割った値とのうち、小さい方の値min(Amax/Xmax,Amin/Xmin)が増幅率Kとして算出される。
【0082】
図4の最適化レベル演算部113で説明したように、算出された増幅率Kが複数の音声レベルXnのそれぞれに掛けられることによって、最適化後の音声レベルYn=K×Xnが算出される。
【0083】
これによって、音声レベルの最大値Xmaxまたは最小値Xminが許容範囲の上限値Amaxまたは下限値Aminと同じ値になるまで複数の音声レベルの値Xnを拡大することによって、録音された音声の音量を最適化することができる。
【0084】
[第2の実施の形態]
図6は、この発明の第2の実施の形態に従う携帯電話100Aの制御部10Aの音声レベル最適化部110Aの機能の概略を示す機能ブロック図である。
【0085】
図6を参照して、音声レベル最適化部110Aは、制御部10Aに含まれる。また、制御部10Aは、携帯電話100Aに含まれる。制御部10Aの機能のうち音声レベル最適化部110Aの機能以外の機能は、図3で説明した第1の実施の形態における制御部10の機能と同様であるので、重複する説明は繰返さない。また、携帯電話100Aの構成のうち制御部10A以外の構成は、図1で説明した第1の実施の形態における携帯電話100の構成と同様であるので、重複する説明は繰返さない。
【0086】
音声レベル最適化部110Aは、最大音量レベル探索部111と、増幅率算出部112と、補正率算出部114と、最適化レベル演算部113Aとを含む。最大音声レベル探索部111および増幅率算出部112は、それぞれ、図4で説明した第1の実施の形態における最大音声レベル探索部111および増幅率算出部112と同様であるので、重複する説明は繰返さない。
【0087】
補正率算出部114は、音声データ展開部101によって展開されたPCM方式の音声データを受取る。補正率算出部114は、受取ったPCM方式の音声データから、サンプリング周期ごとの音声レベルXn(n=1,2,・・・)を取出す。補正率算出部114は、最大音声レベル探索部111によって探索されたXmaxおよびXminを受取る。
【0088】
補正率算出部114は、取出した音声レベルXnの絶対値|Xn|のそれぞれを、受取ったXminの絶対値|Xmin|とXmaxとのうち大きい方の値で割ることによって補正率Rnを算出する。これを計算式で記述すると、補正率Rn=|Xn|/max(Xmax,|Xmin|)(n=1,2,・・・)である。補正率算出部114は、算出した補正率Rnを最適化レベル演算部113Aに受け渡す。
【0089】
たとえば、Xmax=+24575、Xmin=−22528とした場合、Rn=|Xn|/max(24575,|−22528|)=|Xn|/24575となる。音声レベルXn=24575(=Xmax)であれば、補正率Rn=|24575|/24575=1.00000になる。また、音声レベルXn=−22528(=Xmin)であれば、補正率Rn=|−22528|/24575=0.91670になる。また、音声レベルXn=20000であれば、補正率Rn=|20000|/24575=0.81384となる。また、音声レベルXn=10000であれば、補正率Rn=|10000|/24575=0.40692となる。
【0090】
最適化レベル演算部113Aは、音声データ展開部101によって展開されたPCM方式の音声データ、増幅率算出部112によって算出された増幅率K、および、補正率算出部114によって算出された補正率Rnを受取る。最適化レベル演算部113Aは、受取ったPCM方式の音声データから、サンプリング周期ごとの音声レベルXn(={X1,X2,・・・})を取出す。
【0091】
最適化レベル演算部113Aは、取出した音声レベルXnのそれぞれに、受取った増幅率Kおよび補正率Rnを掛けることによって、最適化後の音声データに含まれる音声レベルYn(={Y1,Y2,・・・})を算出する。つまり、計算式で記述すると、Yn=K×Rn×Xn(n=1,2,・・・)となる。最適化レベル演算部113Aは、算出した最適化後の音声レベルYnを含む最適化後のPCM方式の音声データを、音声データ圧縮部102に受け渡す。
【0092】
たとえば、音声レベルXn=24575(=Xmax)であれば、最適化後の音声レベルYn=1.33335×1.00000×24575=32767になる。また、音声レベルXn=−22528(=Xmin)であれば、最適化後の音声レベルYn=1.33335×0.91670×(−22528)=−27536になる。また、音声レベルXn=20000であれば、最適化後の音声レベルYn=1.33335×0.81384×20000=21703となる。また、音声レベルXn=10000であれば、最適化後の音声レベルYn=1.33335×0.40692×10000=5426となる。
【0093】
このように、音声レベルの絶対値が大きい音声レベルXn(たとえば、Xn=20000)、つまり、大きい音量の音声に対応する音声レベルXnほど、大きい割合の補正率(たとえば、0.81384)が掛けられることによって、補正しない場合の値(たとえば、第1の実施の形態におけるXn=20000に対応するYn=26667)と比較してより近い値の最適化後の音声レベルYn(たとえば、Yn=21703)が算出される。
【0094】
また、音声レベルの絶対値が小さい音声レベルXn(たとえば、Xn=10000)、つまり、小さい音量の音声に対する音声レベルXnほど、小さい割合の補正率(たとえば、0.40692)が掛けられることによって、補正しない場合の値(たとえば、第1の実施の形態におけるXn=10000に対応するYn=13334)と比較してより小さい値の最適化後の音声レベルYn(たとえば、Yn=5426)が算出される。
【0095】
図4で説明した第1の実施の形態の場合は、ダイナミックレンジが均等に拡大されるが、第2の実施の形態の場合は、より大きい音量の部分のダイナミックレンジはより大きい倍率で変更され、より小さい音量の部分のダイナミックレンジはより小さい倍率で変更される。このため、大きい音声と小さい音声とのメリハリが強調される。
【0096】
以上説明したように、本実施の形態における携帯電話100Aによれば、図6の補正率算出部114で説明したように、複数の音声レベルの値Xnのうち最小値の絶対値|Xmin|またはXmaxのうちの大きい方の値max(|Xmin|,Xmax)で、複数の音声レベルXnの値のそれぞれが割られることによって、複数の音声レベルそれぞれに対する補正率Rnが算出される。
【0097】
図6の最適化レベル演算部113Aで説明したように、算出された増幅率Kおよび補正率Rnが、複数の音声レベルXnのそれぞれに掛けられることによって、最適化後の音声レベルYn=K×Rn×Xnが算出される。
【0098】
これによって、携帯電話100によって、音声レベルの絶対値|Xn|が大きい音声レベル、つまり、大きい音量の音声に対応する音声レベルほど、大きい補正率Rnが掛けられ、音声レベルの絶対値|Xn|が小さい音声レベル、つまり、小さい音量の音声に対応する音声レベルほど、小さい補正率Rnが掛けられることによって、最適化後の音声レベルYnが算出される。その結果、大きい音声と小さい音声とのメリハリを強調するように、音声の音量を最適化することができる。
【0099】
また、ある音声レベルの閾値Xthより大きい音声レベルには、大きい補正率Rlを掛けて、その閾値Xthより小さい音声レベルには、小さい補正率Rsを掛けることによって、最適化後の音声レベルを算出する場合と比較して、音声レベルの絶対値|Xn|に比例する補正率Rn(=Xn/max(Xmax,|Xmin|))が掛けられることによって最適化後の音声レベルYnが算出されるので、閾値Xthに対応する箇所で不連続となることなく、連続した最適化後の音声レベルYnを算出することができる。その結果、不自然とならないように音声の音量を最適化することができる。
【0100】
次に、本実施の形態の変形例について説明する。
前述した実施の形態においては、携帯電話100,100Aとして本発明を説明した。しかし、これに限定されず、図3から図6までで説明した機能によって携帯電話で録音レベルを最適化する録音レベル最適化方法、または、図3から図6までで説明した機能を実行する録音レベル最適化プログラムとして発明を捉えることができる。
【0101】
前述した実施の形態においては、圧縮音声データの符号化方式は、AAC方式とした。しかし、これに限定されず、圧縮音声データの符号化方式は、MP3(MPEG Audio Layer-3)、AMR(Advanced Multi Rate CODEC)、WMA(Windows(登録商標)Media Audio)、および、ATRAC3(登録商標)(Adaptive TRansform Acoustic Coding 3)のいずれかであってもよいし、音声データを圧縮して符号化するものであれば他の符号化方式であってもよい。
【0102】
また、前述した実施の形態においては、非圧縮音声データの符号化方式は、PCM方式とした。しかし、これに限定されず、DPCM(Differential PCM)、および、ADPCM(Adaptive Differential PCM)のいずれかであってもよいし、音声データを圧縮せずに符号化するものであれば他の符号化方式であってもよい。
【0103】
前述した実施の形態においては、増幅率算出部112は、Amin/XminとAmax/Xmaxとのうち小さい方の値を増幅率Kとして算出するようにした。しかし、これに限定されず、音声レベルの値のうち最小値の絶対値|Xmin|または最大値Xmaxで、許容範囲の下限値の絶対値|Amin|または上限値Amaxを割った値を、増幅率Kとして算出するようにしてもよい。
【0104】
音声レベルの値のうち最小値の絶対値|Xmin|または最大値Xmaxがほぼ同じ値であり、許容範囲の下限値の絶対値|Amin|または上限値Amaxがほぼ同じ値であれば、音声レベルの値のうち最小値の絶対値|Xmin|または最大値Xmaxのいずれを用いて増幅率Kを算出しても、許容範囲の下限値の絶対値|Amin|または上限値Amaxのうちいずれを用いて増幅率Kを算出しても、ほぼ同じ増幅率が算出される。
【0105】
したがって、音声レベルの値のうち最小値の絶対値|Xmin|または最大値Xmaxがほぼ同じ値であり、許容範囲の下限値の絶対値|Amin|または上限値Amaxがほぼ同じ値であることが分かっている場合には、音声レベルの値のうち最小値の絶対値|Xmin|または最大値Xmaxのいずれを用いて増幅率Kを算出し、許容範囲の下限値の絶対値|Amin|または上限値Amaxのうちいずれを用いて増幅率Kを算出するかを予め決めておくことによって、増幅率算出部112によってAmin/XminとAmax/Xmaxとを比較することなしに、増幅率Kを算出することができる。
【0106】
このため、携帯電話100,100Aは、Amin/XminとAmax/Xmaxとを比較する機能を含んでいなくても、音声レベルの最大値Xmaxまたは最小値Xminが許容範囲の上限値AmaxまたはAminとほぼ同じ値になるまで音声レベルの値を拡大することによって、録音された音声の音量を最適化することができる。
【0107】
前述した実施の形態においては、図5で説明したように、アナログ変換部103によってアナログ音声信号に変換した後に、音声信号を増幅するようにした。しかし、これに限定されず、デジタルの音声データの状態で音声を増幅するように音声データを変更するようにしてもよい。
【0108】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【図面の簡単な説明】
【0109】
【図1】この発明の実施の形態に従う携帯電話の構成の概略を示すブロック図である。
【図2】この発明の実施の形態に従う携帯電話の外観を示す外観図である。
【図3】この発明の実施の形態に従う携帯電話の制御部の機能の概略を示す機能ブロック図である。
【図4】この発明の第1の実施の形態に従う携帯電話の制御部の音声レベル最適化部の機能の概略を示す機能ブロック図である。
【図5】この発明の実施の形態に従う最適化された音声を出力する携帯電話の機能の概略を示す機能ブロック図である。
【図6】この発明の第2の実施の形態に従う携帯電話の制御部の音声レベル最適化部の機能の概略を示す機能ブロック図である。
【符号の説明】
【0110】
10,10A 制御部、12 記憶部、13 操作入力部、14 表示部、15 無線通信部、16 音声入出力部、17 アンテナ、100,100A 携帯電話、101 音声データ展開部、102 音声データ圧縮部、103 アナログ変換部、110,110A 音声レベル最適化部、111 最大音声レベル探索部、112 増幅率算出部、113,113A 最適化レベル演算部、114 補正率算出部、121 最適化前音声データ記憶部、122 最適化後音声データ記憶部、123 ボリューム値記憶部、131 ダイヤルボタン、132 4方向ボタン、133 ファンクションボタン、134 開始ボタン、135 終了ボタン、136 決定ボタン、137 ボリューム入力部、160 増幅部、161 マイク、162 イヤレシーバ、163 スピーカ。

【特許請求の範囲】
【請求項1】
録音された音声の録音レベルを時間軸に対する電圧値の関数で示す音声信号を所定周期ごとに標本化して標本化された標本電圧値を量子化して量子化された音声レベルをデータ列とした非圧縮音声データが圧縮されたデータである圧縮音声データを、前記非圧縮音声データに展開する展開手段と、
前記展開手段によって展開された前記非圧縮音声データの複数の前記音声レベルの値の範囲を、前記音声レベルの振幅として許容される範囲である許容範囲に拡大するように前記音声レベルを最適化音声レベルに変換する最適化手段と、
前記最適化手段によって変換された前記最適化音声レベルをデータ列とし圧縮して最適化圧縮音声データとする圧縮手段と、
前記圧縮手段によって圧縮された前記最適化圧縮音声データを記憶する記憶手段とを備える、携帯端末。
【請求項2】
前記記憶手段に記憶された前記最適化圧縮音声データを読出して、最適化音声信号に変換する変換手段と、
前記変換手段によって変換された前記最適化音声信号を増幅して出力する増幅出力手段とをさらに備える、請求項1に記載の携帯端末。
【請求項3】
外部から前記圧縮音声データを受信する通信手段をさらに備え、
前記展開手段は、前記通信手段によって受信された前記圧縮音声データを展開する、請求項1または請求項2に記載の携帯端末。
【請求項4】
前記記憶手段は、前記圧縮音声データをさらに記憶し、
前記展開手段は、前記記憶手段に記憶された前記圧縮音声データを展開する、請求項1または請求項2に記載の携帯端末。
【請求項5】
前記最適化手段は、
前記複数の音声レベルの値のうち最大値で前記許容範囲の上限値を割った値と、前記複数の音声レベルの値のうち最小値で前記許容範囲の下限値を割った値とのうち、小さい方の値を増幅率として算出する増幅率算出手段と、
前記増幅率算出手段によって算出された前記増幅率を前記複数の音声レベルのそれぞれに掛けることによって、前記最適化音声レベルを算出する最適化データ算出手段とを含む、請求項1から請求項4までのいずれかに記載の携帯端末。
【請求項6】
前記最適化手段は、
前記複数の音声レベルの値のうち最小値の絶対値または最大値で、前記許容範囲の下限値の絶対値または上限値を割った値を、増幅率として算出する増幅率算出手段と、
前記増幅率算出手段によって算出された前記増幅率を前記複数の音声レベルのそれぞれに掛けることによって、前記最適化音声レベルを算出する最適化データ算出手段とを含む、請求項1から請求項4までのいずれかに記載の携帯端末。
【請求項7】
前記最適化手段は、
前記複数の音声レベルの値のうち最小値の絶対値または最大値のうちの大きい方の値で、前記複数の音声レベルの絶対値のそれぞれを割ることによって、前記複数の音声レベルそれぞれに対する補正率を算出する補正率算出手段をさらに含み、
前記最適化データ算出手段は、前記補正率算出手段によって前記複数の音声レベルそれぞれに対して算出された前記補正率を前記複数の音声レベルのそれぞれにさらに掛けることによって前記最適化音声レベルを算出する、請求項5または請求項6に記載の携帯端末。
【請求項8】
録音された音声の録音レベルを携帯端末で最適化する録音レベル最適化方法であって、
前記録音レベルを時間軸に対する電圧値の関数で示す音声信号を所定周期ごとに標本化して標本化された標本電圧値を量子化して量子化された音声レベルをデータ列とした非圧縮音声データが圧縮されたデータである圧縮音声データを、前記非圧縮音声データに展開するステップと、
展開された前記非圧縮音声データの複数の前記音声レベルの値の範囲を、前記音声レベルの振幅として許容される範囲である許容範囲に拡大するように前記音声レベルを最適化音声レベルに変換するステップと、
変換された前記最適化音声レベルをデータ列とし圧縮して最適化圧縮音声データとするステップと、
圧縮された前記最適化圧縮音声データを記憶するステップとを含む、録音レベル最適化方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−5041(P2008−5041A)
【公開日】平成20年1月10日(2008.1.10)
【国際特許分類】
【出願番号】特願2006−170402(P2006−170402)
【出願日】平成18年6月20日(2006.6.20)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】