説明

音量調整装置、音量調整方法及びプログラム

【課題】 音声データの音量を適切に自動調整することができる音量調整装置を提供すること。
【解決手段】 区間データ取得部14は、音声を示す音声データから前記音声の一部区間を示す区間データを取得し、FFT部16、補正部18、基準スペクトル記憶部20及び逆FFT部22は、取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する。振幅最大倍率算出部24及び増幅率決定部24は、聴感補正済み区間データが示す音声の振幅に基づいて、区間データに適用する増幅率を決定する。その後、増幅部28は、決定される前記増幅率により区間データに対して増幅処理を施す。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音量調整装置、音量調整方法及びプログラムに関し、特に、音声データの音量を自動調整する音量調整装置及び方法並びにプログラムに関する。
【背景技術】
【0002】
ゲームソフトウェアの開発では、台詞等の多数の音声データを使用する。これらの音声データは、ゲーム進行に合わせた適宜のタイミングで再生される。従来、こうした音声データは、マイク等で収録した後、制作段階でスピーカやヘッドホンを通して予め聴いて、手作業でその音量を調整し、所期の音量の音声データ群がゲームソフトウェアに組み込まれるようにしている。このように人手で音声データの音量調整を実施するのは、音声データの周波数特性はそれぞれ異なり、同じ音量でも実際にユーザが再生音を聴いた感覚は異なるから、人間の実際の聴感に依らなければ適切な音量調整が出来ないからである。
【0003】
なお、下記特許文献1には、騒音環境で使用する音響再生装置の自動音量制御を行う自動音量調整装置が開示されている。
【特許文献1】特開平6−310962号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、多数の音声データを聞いて、手作業でその音量を調整する作業は、非常に時間が掛かる。また、作業者の疲労により音量調整が適切に行えない場合もありうる。
【0005】
本発明は上記課題に鑑みてなされたものであって、その目的は、音声データの音量を適切に自動調整することができる音量調整装置、音量調整方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明に係る音量調整装置は、音声を示す音声データの音量を調整する音量調整装置において、前記音声データから前記音声の一部区間を示す区間データを取得する区間データ取得手段と、前記区間データ取得手段により取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正手段と、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定手段と、前記増幅率決定手段により決定される前記増幅率により、前記区間データ取得手段により取得される前記区間データに対して増幅処理を施す増幅手段と、を含むことを特徴とする。
【0007】
また、本発明に係る音量調整方法は、音声を示す音声データの音量を調整する音量調整方法において、前記音声データから前記音声の一部区間を示す区間データを取得する区間データ取得ステップと、前記区間データ取得ステップで取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正ステップと、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定ステップと、前記増幅率決定ステップで決定される前記増幅率により、前記区間データ取得ステップにより取得される前記区間データに対して増幅処理を施す増幅ステップと、を含むことを特徴とする。
【0008】
また、本発明に係るプログラムは、音声を示す音声データから前記音声の一部区間を示す区間データを取得する区間データ取得手段、前記区間データ取得手段により取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正手段、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定手段、及び前記増幅率決定手段により決定される前記増幅率により、前記区間データ取得手段により取得される前記区間データに対して増幅処理を施す増幅手段としてコンピュータを機能させるためのプログラムである。このプログラムは、CD−ROMやDVD−ROM等のコンピュータ読み取り可能な各種情報記憶媒体に格納されてもよい。
【0009】
本発明では、音声の一部区間を示す区間データに対して聴感補正処理を施す。そして、この聴感補正済みの区間データが示す音声の振幅に基づいて決定される増幅率により、区間データに対して増幅処理を施す(波形の振幅を大きくする計算処理)。本発明によれば、聴感補正後の区間データが示す波形の振幅に基づいて区間データの増幅率を決定するので、周波数による人間の聴感の違いを考慮して、音声データに対して音量調整を施すことができる。こうして、音声データの音量を適切に自動調整することができる。
【0010】
なお、前記聴感補正手段は、前記区間データ取得手段により取得される前記区間データに基づいて前記一部区間のスペクトルを算出するスペクトル算出手段と、所定の基準スペクトルを記憶する基準スペクトル記憶手段と、前記スペクトル算出手段により算出されるスペクトルを、前記基準スペクトル記憶手段に記憶される基準スペクトルに基づいて補正するスペクトル補正手段と、前記スペクトル補正手段により補正されるスペクトルに基づいて、前記区間データ取得手段により取得される前記区間データを変換し、前記聴感補正済み区間データを生成するデータ変換手段と、を含んでもよい。スペクトル算出手段としてFFT(Fast Fourier Transform)を用い、データ変換手段として逆FFTを用いれば、高速に音声データの音量を自動調整することができるようになる。
【0011】
また、前記区間データ取得手段は、前記音声データから前記区間データを順次取得し、前記聴感補正手段は、前記区間データ取得手段により順次取得される前記区間データに対して聴感補正処理を順次施し、前記聴感補正済み区間データを順次生成し、前記増幅率決定手段は、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を順次決定し、前記増幅手段は、前記増幅率決定手段により順次決定される前記増幅率により、前記区間データ取得手段により順次取得される前記区間データに対して増幅処理を順次施し、前記音量調整装置は、前記増幅手段により順次増幅処理が施される前記各区間データを合成する合成手段をさらに含むようにしてもよい。こうすれば、音声データの全体に対して音量調整を施すことができるようになる。
【発明を実施するための最良の形態】
【0012】
図1は、本発明の実施形態に係る音量調整装置の構成を示す図である。同図に示すように、音量調整装置10は、音声データ記憶部12、区間データ切出部14、FFT部16、補正部18、基準スペクトル記憶部20、逆FFT部22、振幅最大倍率算出部24、増幅率決定部26、増幅部28、クロスフェード部30、増幅結果記憶部32を含んで構成されている。これらは、例えばコンピュータに所定のプログラムをインストールし、コンピュータに該プログラムを実行させることにより実現することができる。
【0013】
まず、音声データ記憶部12は、音量調整の対象となる音声データを複数記憶する。この音声データは、例えばマイクで人の声を録音することにより作成されるものであり、音声の波形を示すものである。区間データ取得部14は、音声データ記憶部12に記憶される音声データを読み出し、該音声データが示す音声の一部区間を示す区間データを順次取得する。すなわち、区間データ取得部14は、音声データが示す音声から、所定長の時間区間の音声を切り出し、その音声を示す区間データを取得する。この際、切り出し区間は音声の先頭から末尾に向けて順にずらされる。そして、各区間データが示す音声は、その前側の区間データが示す音声と一部が重なり、また後ろ側の区間データが示す音声とも一部が重なる。図2(a)は、こうして取得される区間データの波形例を示している。
【0014】
FFT部16は、区間データ取得部14により順次取得される区間データに基づいて、図2(b)に示すような、その区間データが示す区間の音声のスペクトル(周波数特性データ)を、FFT(Fast Fourier Transform)により順次算出する。基準スペクトル記憶部20は、図2(c)に示すような、予め定めた音声のスペクトルを基準スペクトル(所定の周波数特性データ)として記憶するものである。ここでは、この基準スペクトルとして、例えばフレッチャー=マンソンの等ラウドネス曲線(人間の聴感を示すスペクトル)等に応じたものを採用している。
【0015】
補正部18は、基準スペクトル記憶部20から基準スペクトルを読み出し、その内容に従ってFFT部16から出力される区間データのスペクトルを補正する。そして、逆FFT部22は、この補正済みのスペクトルを用いて逆FFTを実施し、聴感補正済みの区間データを算出する。
【0016】
振幅最大倍率算出部24は、聴感補正済みの区間データと、区間データ取得部14により取得される区間データと、の振幅の倍率の瞬間最大値を算出し、この値に従って区間データに対する増幅率を決定する。このとき、直前に取得された区間データについて算出された瞬間最大値と比較して、差が所定値以上であれば、今回取得された区間データについて算出された瞬間最大値を前回取得された区間データについて算出された瞬間最大値に近づける処理をして、その圧縮済みの値を増幅率とする。また、波形の立ち上がりなどでは例外的に大きな増幅率を与える。さらに、今回取得された区間データについて算出された瞬間最大値(倍率)が所定値未満であった場合には、増幅率を小さな値に抑える。或いは、音量の揺らぎを抑えるべく、前回取得された区間データについて決定された増幅率(或いはその値に0<α<1である係数αを乗じた増幅率)を用いる。
【0017】
そして、増幅部28は、こうして決定される増幅率を、区間データ取得部14で取得されていた区間データに乗算し、増幅処理を実施する。クロスフェード部30は、こうして増幅された区間データの前側の一部が、直前に取得され、増幅された区間データの後ろ側の一部に重畳させ、これにより増幅済みの音声データを合成する。そして、増幅結果記憶部32は、この合成結果を記憶する。
【0018】
図3は、音量調整装置10の処理を示すフロー図である。同図に示すように、音量調整装置10は、まず区間データ取得部14により、音声データ記憶部12に記憶される音声データを読み出し、その全域から複数の区間データを切り出す(S101)。次に、FFT部16により、各区間データに対してFFTを施し、各区間データのスペクトルを算出する(S102)。そして、補正部18により、それらのスペクトルに対して、基準スペクトルに基づく補正を施す(S103)。また、逆FFT部22により、これら補正済みのスペクトルを対して逆FFTをそれぞれ施し、聴感補正済みの区間データを算出する(S104)。
【0019】
音量調整装置10では、次に振幅最大倍率算出部24により、各聴感補正済みの区間データと、それに対応する、区間データ取得部14により取得された区間データと、の振幅の倍率の瞬間最大値を算出し(S105)、この値に従って区間データに対する増幅率を決定する(S106)。そして、増幅部28により、こうして決定される各増幅率を、区間データ取得部14で取得されていた各区間データに乗算し、増幅処理を実施する(S107)。その後、クロスフェード部30により、こうして増幅された各区間データを合成し(S108)、その合成結果を増幅結果記憶部32に記憶する(S109)。
【0020】
以上説明した音量調整装置10によれば、FFT部16、補正部18、基準スペクトル記憶部20及び逆FFT部22により区間データに対して聴感補正処理を施し、この聴感補正済み区間データが示す音声の振幅に基づいて、区間データに適用する増幅率を決定するので、周波数による人間の聴感の違いを考慮して、音声データに対して音量調整を施すことができる。この結果、音声データの音量を人間の聴感を考慮して適切に自動調整することができるようになる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施形態に係る音量調整装置の構成を示す図である。
【図2】音量調整装置によるデータ処理を説明する図である。
【図3】音量調整装置によるデータ処理を示すフロー図である。
【符号の説明】
【0022】
10 音量調整装置、12 音声データ記憶部、14 区間データ取得部、16 FFT部、18 補正部、20 基準スペクトル記憶部、22 逆FFT部、24 振幅最大倍率算出部、26 増幅率決定部、28 増幅部、30 クロスフェード部、32 増幅結果記憶部。

【特許請求の範囲】
【請求項1】
音声を示す音声データの音量を調整する音量調整装置において、
前記音声データから前記音声の一部区間を示す区間データを取得する区間データ取得手段と、
前記区間データ取得手段により取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正手段と、
前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定手段と、
前記増幅率決定手段により決定される前記増幅率により、前記区間データ取得手段により取得される前記区間データに対して増幅処理を施す増幅手段と、
を含むことを特徴とする音量調整装置。
【請求項2】
請求項1に記載の音量調整装置において、
前記聴感補正手段は、
前記区間データ取得手段により取得される前記区間データに基づいて前記一部区間のスペクトルを算出するスペクトル算出手段と、
所定の基準スペクトルを記憶する基準スペクトル記憶手段と、
前記スペクトル算出手段により算出されるスペクトルを、前記基準スペクトル記憶手段に記憶される基準スペクトルに基づいて補正するスペクトル補正手段と、
前記スペクトル補正手段により補正されるスペクトルに基づいて、前記区間データ取得手段により取得される前記区間データを変換し、前記聴感補正済み区間データを生成するデータ変換手段と、
を含むことを特徴とする音量調整装置。
【請求項3】
請求項1又は2に記載の音量調整装置において、
前記区間データ取得手段は、前記音声データから前記区間データを順次取得し、
前記聴感補正手段は、前記区間データ取得手段により順次取得される前記区間データに対して聴感補正処理を順次施し、前記聴感補正済み区間データを順次生成し、
前記増幅率決定手段は、前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を順次決定し、
前記増幅手段は、前記増幅率決定手段により順次決定される前記増幅率により、前記区間データ取得手段により順次取得される前記区間データに対して増幅処理を順次施し、
前記音量調整装置は、前記増幅手段により順次増幅処理が施される前記各区間データを合成する合成手段をさらに含む、
ことを特徴とする音量調整装置。
【請求項4】
音声を示す音声データの音量を調整する音量調整方法において、
前記音声データから前記音声の一部区間を示す区間データを取得する区間データ取得ステップと、
前記区間データ取得ステップで取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正ステップと、
前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定ステップと、
前記増幅率決定ステップで決定される前記増幅率により、前記区間データ取得ステップにより取得される前記区間データに対して増幅処理を施す増幅ステップと、
を含むことを特徴とする音量調整方法。
【請求項5】
音声を示す音声データから前記音声の一部区間を示す区間データを取得する区間データ取得手段、
前記区間データ取得手段により取得される前記区間データに対して聴感補正処理を施し、聴感補正済み区間データを生成する聴感補正手段、
前記聴感補正済み区間データが示す音声の振幅に基づいて、前記区間データに適用する増幅率を決定する増幅率決定手段、及び
前記増幅率決定手段により決定される前記増幅率により、前記区間データ取得手段により取得される前記区間データに対して増幅処理を施す増幅手段
としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2007−60041(P2007−60041A)
【公開日】平成19年3月8日(2007.3.8)
【国際特許分類】
【出願番号】特願2005−240341(P2005−240341)
【出願日】平成17年8月22日(2005.8.22)
【出願人】(506113602)株式会社コナミデジタルエンタテインメント (1,441)
【Fターム(参考)】