説明

音質補正装置及び音声補正方法

【課題】オーディオ信号の内容に応じた好適な音質補正を行うことのできる音質補正装置及び音質補正方法の提供。
【解決手段】実施形態に係る音質補正装置は、オーディオ信号が入力される入力手段と、入力された前記オーディオ信号の特徴量を、一定の時間長の第1区間毎に算出する特徴量算出手段と、算出された前記特徴量に基づいて、前記第1区間毎にスコア値を算出するスコア算出手段と、入力された前記オーディオ信号の変調スペクトルの、所定の変調周波数におけるパワー値を算出する変調スペクトルパワー算出手段と、前記第1区間を複数含む第2区間において算出された前記パワー値が一定値以上である場合、当該第2区間に含まれる複数の前記第1区間毎の前記スコア値を補正するスコア補正手段と、補正された前記スコア値に基づいて前記オーディオ信号を補正する信号補正手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音質補正装置及び音声補正方法に関する。
【背景技術】
【0002】
テレビジョン放送を受信する放送受信装置や、記録メディアに記録されたデータを再生する再生装置がある。そして、受信したテレビジョン放送やメディアに記録されたデータのオーディオ信号を再生・出力する場合には、当該オーディオ信号に音質補正処理を実行することにより、高音質のオーディオ信号を出力できることが好ましい。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−152015号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、オーディオ信号に対して音質補正処理を施す場合には、オーディオ信号の内容に応じた好適な補正を行えることが好ましい。
そこで本発明の実施形態は、オーディオ信号の内容に応じた好適な音質補正を行うことのできる音質補正装置及び音質補正方法の提供を目的とする。
【課題を解決するための手段】
【0005】
上記の課題を解決するために、実施形態に係る音質補正装置は、入力手段と特徴量算出手段とスコア算出手段と変調スペクトルパワー算出手段とスコア補正手段と信号補正手段とを備える。入力手段にはオーディオ信号が入力される。と徴量算出手段は、入力されたオーディオ信号の特徴量を、一定の時間長の第1区間毎に算出する。スコア算出手段は、算出された特徴量に基づいて、第1区間毎にスコア値を算出する。変調スペクトルパワー算出手段は、入力された前記オーディオ信号の変調スペクトルの、所定の変調周波数におけるパワー値を算出する。スコア補正手段は、前記第1区間を複数含む第2区間において算出された前記パワー値が一定値以上である場合、当該第2区間に含まれる複数の前記第1区間毎の前記スコア値を補正する。信号補正手段は、補正された前記スコア値に基づいて前記オーディオ信号を補正する信号補正手段とを備える。
【図面の簡単な説明】
【0006】
【図1】第1実施形態のテレビ装置の利用形態例を示す図。
【図2】第1実施形態のテレビ装置のシステム構成例を示す図。
【図3】第1実施形態のテレビ装置のオーディオ処理に関する機能ブロック例を示す図。
【図4】第1実施形態のテレビ装置によるオーディオ処理例を示す図。
【図5】第1実施形態のテレビ装置によるオーディオ処理フロー例を示す図。
【図6】第2実施形態のテレビ装置によるオーディオ処理フロー例を示す図。
【発明を実施するための形態】
【0007】
以下、図面を参照して第1実施形態を説明する。
図1は第1実施形態に係る音質補正装置の利用形態例を示す図である。第1実施形態に係る音質補正装置は、例えば受信装置100として実現される。そして受信装置100は、デジタルインタフェース300を介して表示・スピーカ装置200と接続されている。
【0008】
受信装置100は、チューナ15、20及び23(図1では不図示)、オーディオ処理部27、映像・オーディオ出力部32等を備える。また表示・スピーカ装置200は、映像・オーディオ入力部201、スピーカ部203等を備える。
【0009】
チューナ15、20及び23は、テレビ放送の放送信号を受信する。オーディオ処理部27は、これらチューナが受信した放送信号に含まれるオーディオ信号を補正する。次に映像・オーディオ出力部32は、当該補正されたオーディオ信号をデジタルインタフェース300を介して表示・スピーカ装置200に出力する。そして表示・スピーカ装置200のスピーカ部203は、映像・オーディオ入力部201に入力されたオーディオ信号の音を出力する。
【0010】
ここでオーディオ処理部27は、オーディオ信号を補正する場合に、当該オーディオ信号の内容に応じた補正を行うことができる。例えばオーディオ信号には、音楽の演奏音が含まれる区間や、演奏音及び歌唱音声が含まれる区間、また演奏音及び人間が発話した音声が含まれる区間等が含まれる場合がある。これに対し本実施形態の受信装置100は、人間が発話した音声が含まれる区間を検出して、当該区間に対して好適な音質補正を行うことができるものであるが、詳細については図2乃至図5を参照して後述する。
【0011】
次に図2を参照して、受信装置100及び表示・スピーカ装置200のシステム構成例を説明する。
受信装置100は、入力端子14、チューナ15、PSK復調部16、TS復号部17、入力端子19、チューナ20、OFDM復調部21、TS復号部22、アナログチューナ23、アナログ復調部24、信号処理部25、入力端子26、オーディオ処理部27、グラフィック処理部29、OSD信号生成部30、表示処理部31、映像・オーディオ出力部32、操作部35、受光部36、通信I/F37、コネクタ38、HDD39、制御部40、CPU41、ROM42、RAM43、不揮発性メモリ44等を備える。
【0012】
入力端子14は、BS/CS(Broadcasting Satellite/Communication Satellite)デジタル放送受信用のアンテナ13と接続される。そして入力端子14には、アンテナ13が受信した衛星デジタルテレビジョン放送信号が入力される。
【0013】
衛星デジタル放送用のチューナ15は、入力端子14に入力された放送信号を受信する。そして、チューナ15で受信された放送信号は、PSK(Phase Shift Keying)復調部16にてデジタルの映像信号及びオーディオ信号に復調された後、TS(Transport Stream)復号部17にて復号される。当該復号された映像信号及びオーディオ信号は、信号処理部25に出力される。
【0014】
入力端子19には、当該入力端子19に接続された地上波放送受信用のアンテナ18が受信した地上デジタルテレビジョン放送信号が入力される。そして地上デジタル放送用のチューナ20は、入力端子19に入力された放送信号を受信する。そして、チューナ20が受信した放送信号は、例えば日本ではOFDM(Orthogonal Frequency Division Multiplexing)復調部21デジタルの映像信号及びオーディオ信号に復調された後、TS復号部22にて復号され、当該復号されたデジタル映像信号及びオーディオ信号は信号処理部25に出力される。
【0015】
また、地上波放送受信用のアンテナ18が受信した地上アナログテレビジョン放送信号は、入力端子19を介して地上アナログ放送用のアナログチューナ23に入力される。そしてアナログチューナ23が受信した放送信号は、アナログ復調部24に出力されてアナログの映像信号及びオーディオ信号に復調された後、信号処理部25に出力される。
【0016】
ここで、信号処理部25は、TS復号部17及び22の夫々から入力されたデジタルの映像信号(データ)及びオーディオ信号(データ)に対して、所定のデジタル信号処理を施し、オーディオ処理部27及びグラフィック処理部29に出力する。また信号処理部25は、制御部40から入力される映像・オーディオ信号に対しても同様に信号処理を実行して出力する。
【0017】
また信号処理部25には入力端子26が接続されている。ここで入力端子26は、例えば複数の入力端子であり、アナログの映像信号及びオーディオ信号を、受信装置100の外部から入力可能とするものである。そして信号処理部25は、アナログ復調部24及び入力端子26からそれぞれ入力されたアナログの映像信号及びオーディオ信号をデジタル化し、当該デジタル化した映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、オーディオ処理部27及びグラフィック処理部29に出力する。
【0018】
オーディオ処理部27は、信号処理部25から入力されたデジタルのオーディオ信号に対して後述する音質補正処理を実行する。そしてオーディオ処理部27は、補正したオーディオ信号を、スピーカ装置が出力可能な形式のオーディオ信号に変換する。そしてオーディオ処理部27は、当該変換したオーディオ信号を映像・オーディオ出力部32に出力する。
【0019】
グラフィック処理部29は、信号処理部25から入力されるデジタルの映像信号に対し、OSD(On Screen Display)信号生成部31が生成するOSD信号を重畳する機能を有する。そしてグラフィック処理部29は、当該重畳した信号を表示処理部31に出力する。またグラフィック処理部29は、信号処理部25から入力された映像信号と、OSD信号生成部30から入力されたOSD信号との何れかを選択的に表示処理部31に出力することもできる。
【0020】
表示処理部31は、入力されたデジタルの映像信号を、表示装置が表示可能な形式の映像信号に変換した後、当該変換した映像信号を映像・オーディオ出力部32に出力する。
【0021】
映像・オーディオ出力部32は、オーディオ処理部27から入力されたオーディオ信号と表示処理部31から入力された映像信号とを、デジタルインタフェース300を介して表示・スピーカ装置200に出力する。
【0022】
操作部35は、ユーザからの操作入力を受ける操作パネル等の操作入力装置である。また受光部36は、リモートコントローラ等の操作入力装置(不図示)からの操作入力信号を受信する。そして操作部35及び受光部36は、受け付けた操作入力の情報を制御部40に出力する。
【0023】
通信I/F37は、コネクタ38に接続された外部機器との通信を実行する。ここで通信I/F37は、例えばイーサネット(登録商標)を用いた一般的なLAN通信や、USB(Universal Serial Bus)による通信を実行する。そして通信コネクタ38には、例えばHDD等の記憶装置、PC、DVD(Digital Versatile Disk)レコーダ等の再生装置が接続される。また通信I/F37は、コネクタ38をインターネット等のネットワークに接続することも可能である。そして通信I/F37は、コネクタ38を介して外部機器から入力された映像やオーディオ等の信号(データ)を、制御部40を介して信号処理部25に出力することもできる。
【0024】
HDD39は、映像及びオーディオのデータを記憶する機能を有する。ここでHDD39は、例えばチューナ15、20及び23等が受信したテレビ放送の映像及びオーディオデータや、通信I/F37に入力された映像及びオーディオデータを記憶する。
【0025】
制御部40は、CPU(Central Processing Unit)41、ROM42、RAM43、不揮発性メモリ44を備え、受信装置100の各構成を制御し、各種の処理動作を制御する。ここでCPU41は、各種処理動作の制御を実行する場合、ROM(Read Only Memory)42に格納された制御プログラムを読み込み、RAM(Random Access Memory)43を作業領域として用いる。またCPU41は、不揮発性メモリ44に格納された各種の設定情報及び制御情報等も読み込む。
【0026】
また制御部40は、例えば操作部35から入力される操作情報、またはリモートコントローラ(不図示)等の操作入力装置から送信され受光部36が受信した操作情報を受けて、その操作情報の内容に応じて、受信装置100の各構成を制御する。
【0027】
また制御部40は、HDD39に映像及び音声データを記憶させ、当該記憶させたデータを読み出して信号処理部25に出力することができる。更に制御部40は、通信I/F37に入力された映像・音声データを信号処理部25に出力する。
【0028】
続いて表示・スピーカ装置200のシステム構成例を説明する。表示・スピーカ装置200は、映像・オーディオ入力部201、表示部202、スピーカ部203等を備える。ここで映像・オーディオ入力部201には、受信装置100から出力された映像信号及びオーディオ信号が、デジタルインタフェース300を介して入力される。そして映像・オーディオ入力部201は、入力された映像信号を表示部202に、入力されたオーディオ信号をスピーカ部203に出力する。そして表示部202は、入力された映像信号に基づいた映像を表示し、スピーカ部203は、入力されたオーディオ信号に基づいた音を出力する。
【0029】
次に図3を参照して、オーディオ処理部27の機能ブロック例を説明する。
オーディオ処理部27は、例えば音声特徴量検出部51、音声度算出部52、音楽特徴量検出部53、音楽度算出部54、区間判別部55、調整部56、音質補正部57等を備える。
【0030】
音声特徴量検出部51には、信号処理部25からオーディオ信号が入力される。そして音声特徴量検出部51は、入力されたオーディオ信号から、例えば人が発声した音声の音の成分に関する特徴量を検出する。ここで、まず音声特徴量検出部51は、入力されたオーディオ信号を、例えば時間長が数百msec程度の区間毎にフレームとして切り出す。さらに音声特徴量検出部51は、フレーム毎のオーディオ信号を数十msec程度のサブフレーム単位に分割する。
【0031】
そして音声特徴量検出部51は、当該サブフレーム単位で、オーディオ信号の各種パラメータを検出する。ここで音声特徴量検出部51は、例えばオーディオ信号の振幅の2乗和であるパワー値や、オーディオ信号の時間波形が単位時間毎に振幅方向に零を横切る回数である零交差周波数等の、人間の発話時の音声の検出が可能となるパラメータを検出する。
【0032】
そして音声特徴量検出部51は、検出したこれらのパラメータのフレーム毎の平均、分散、最大、最小等の統計量を算出し、当該算出した統計量を特徴量として検出する。なお音声特徴量検出部51は、特徴量として他のパラメータを検出しても構わない。
【0033】
ここで、各パラメータの性質について説明する。例えば人間が発声する区間においては、当該発話の区間と沈黙の区間が交互に現れる場合がある。このため、サブフレーム毎のオーディオ信号の振幅パワー値の分散が大きくなる傾向があり、当該パワー値の分散を検出することにより、発声区間を検出することができる。また、人が発声する音声においては、母音では零交差周波数が低く、子音では零交差周波数が高くなるため、サブフレーム毎の零交差周波数の分散が大きくなる傾向がある。
【0034】
また音声特徴量検出部51は、入力されたオーディオ信号の発話区間を識別するための特徴量として、変調スペクトルを検出(算出)する。ここで発話区間とは、オーディオ信号の時間区間のうち、スピーチや会話等の、人間が発話した音声の信号が含まれる区間を指す。また、変調スペクトルとは、所定の周波数成分(又は所定の周波数範囲)における、当該周波数成分(範囲)のパワー値(パワー値)の時間変化の周期性を示すスペクトルである。
【0035】
人間が発話した音声においては、音声が含まれる例えば8kHz以下の帯域の周波数成分において、当該周波数成分のパワー値が4Hz程度の周期で変動する。一方、人間が発声した音声であっても、例えば歌唱の音声では、パワー値の変動は上記の周期に当てはまらないことが多い。このため、変調スペクトルに基づいて、入力されたオーディオ信号中の所定の周波数成分のパワー値変動の周期性を判別することにより、オーディオ信号中の発話音声の区間と歌唱音声の区間とを判別できる。
【0036】
なお音声特徴量検出部51は、人間の発話時の音声を識別可能な周波数成分について、変調スペクトルパワー値の変動を算出すればよい。また、当該パワー値の変動の周期は必ずしも4Hz程度であるとは限らず、例えば2乃至10Hz程度の周期で変動する場合もあるが、一般的に4Hz程度の周期で変動する場合が多い。
【0037】
ここで音声特徴量検出部51は、変調スペクトルを検出する場合、まず、入力されたオーディオ信号のある時間区間における時間波形をフーリエ変換して、当該オーディオ信号の周波数毎のパワースペクトル(周波数−パワースペクトル)を算出する。続いて音声特徴量検出部51は、複数の連続する区間毎の周波数−パワースペクトルに基づいて、ある周波数成分のパワー値の時間変化を示すパワースペクトルを算出する。次に音声特徴量検出部51は、当該時間変化を示すパワースペクトルをフーリエ変換することにより、ある周波数の音のパワー値の時間変化の周期性の度合いを示す変調スペクトルを算出する。
【0038】
つまり音声特徴量検出部51は、オーディオ信号を例えばサブフレーム毎にフーリエ変換して周波数−パワースペクトルを算出する。そして当該周波数−パワースペクトルの時間軌跡をフーリエ変換することにより、フレーム毎の変調スペクトルを算出する。そして音声特徴量検出部51は、算出した変調スペクトルを区間判別部55に出力する。
【0039】
また、当該変調スペクトルの算出において音声特徴量検出部51は、オーディオ信号のフーリエ変換により算出した周波数−パワースペクトルを、例えば人間の聴覚上の周波数成分分解能に適した周波数スケールであるメルスケールのパワースペクトルに変換する。更にここで音声特徴量検出部51は、フーリエ変換で得られたパワースペクトルに対し、メルスケールに変換するとともに複数の三角波フィルタバンクによる分析を行い、複数の帯域に分割されたメルスケールの周波数−パワースペクトルを算出する。
【0040】
なお、人間が発声する音声の周波数は、一般的に約8kHz以下の帯域である。このため音声特徴量検出部51は、フーリエ変換により算出した周波数−パワースペクトルのうち、約8kHz以下の帯域のスペクトルに対して当該メルスケール変換及び三角波フィルタバンク分析を実行する。そして音声特徴量検出部51は、メルスケール変換及びフィルタバンク分析されたパワースペクトルから変調スペクトルを算出する。
【0041】
音声度算出部52は、音声特徴量検出部51が検出した各種の特徴量パラメータに基づいて、入力されたオーディオ信号における人間が発声した音声成分の度合いを算出する。そして音声度算出部52は、発声音声の度合いを示す音声スコアを生成し、当該生成したスコアを区間判別部55に出力する。
【0042】
ここで、音声度算出部52による音声の度合いの判別方法を説明する。音声度算出部52は、例えば線形識別関数により音声の度合いを算出する。そして当該線形識別関数では、例えば以下の式により、音声スコアS1が算出される。
【0043】
S1=A0+A1・X1+A2・X2+・・・・・・An・Xn
ここでX1乃至Xnは、音声特徴量検出部51が検出した各種の特徴量パラメータであり、A0乃至Anは、特徴量パラメータの重み付け係数である。なお重み付け係数A0乃至Anとしては、人間が発声した音声の特徴を強く示す特徴量パラメータに対応する係数ほど大きい値となっている。また、重み付け係数A0乃至Anは、例えば、オーディオの内容が既知であるオーディオ信号を参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。
【0044】
また、重み付け係数A0乃至Anは、音声スコアS1の値が、入力された特徴量パラメータの値に応じて例えば0−1の範囲を取り得るような係数となっていてもよい。また音声度算出部52による音声度合いの判別は上記の方法に限るものではなく、例えばGMM(Gaussian Mixture Models)等の手法を用いてもよく、更に入力されたオーディオ信号のチャンネル数に応じて異なる判別式を用いてもよい。
【0045】
音楽特徴量検出部53には、信号処理部25からオーディオ信号が入力される。そして音楽特徴量検出部53は、入力されたオーディオ信号から、例えば楽曲及びBGM(Back Ground Music)等の、音楽の音の成分に関する特徴量を検出する。このとき音楽特徴量検出部53は、音声特徴量検出部51と同様に、入力されたオーディオ信号を、例えば時間長が数百msec程度の区間毎にフレームとして切り出して、さらに数十msec程度のサブフレーム単位に分割する。
【0046】
そして音楽特徴量検出部53は、当該サブフレーム単位でオーディオ信号の各種パラメータを検出する。ここで音楽特徴量検出部53は、例えばフーリエ変換したオーディオ信号の所定の周波数帯域でのパワー値、ステレオのオーディオ信号におけるLRパワー比、及びフーリエ変換したオーディオ信号における音階情報等のパラメータを検出する。そして音楽特徴量検出部53は、検出したこれらのパラメータのフレーム毎の平均、分散、最大、最小等の統計量を算出し、当該算出した統計量を特徴量として検出する。なお音楽特徴量検出部53は、特徴量として他のパラメータを検出しても構わない。
【0047】
ここで、各パラメータの性質について説明する。例えば楽器等の演奏の音を含むオーディオ信号には、楽曲を構成する楽器に応じた特定の周波数帯域に振幅パワーが集中する場合が多い。このため、フーリエ変換したオーディオ信号の所定の周波数帯域でのパワー値を検出することにより、オーディオ信号中に所定の楽器による演奏の音の成分が含まれているかを識別することができる。
【0048】
また、音楽の録音時には、ボーカル以外の楽器演奏がセンター以外に定位する場合が多い。このため例えばステレオ形式のオーディオ信号においては、左右のチャンネル間のパワー比が大きくなる傾向がある。つまり、例えばステレオのオーディオ信号におけるL側とR側とのチャンネルのオーディオ信号のパワーの比を検出することにより、オーディオ信号中に楽器演奏の音が含まれるか否かを判別できる。
【0049】
また、楽器等による演奏の音が含まれるオーディオ信号においては、ある音階の音の成分が含まれる場合、当該音階の1乃至数オクターブ上(又は下)の音階の音、即ち倍音の成分も含まれる場合が多い。そのため、ある音階の音を検出した場合に、当該音階の音に対応した倍音のパワー値を検出することにより、楽器等が演奏されているか否かを判別できる。なお倍音とは、ある音の周波数の略整数倍の周波数の音を指す。
【0050】
音楽度算出部54は、音楽特徴量検出部53が検出した各種の特徴量パラメータに基づいて、入力されたオーディオ信号における音楽の音の度合いを算出する。そして音楽度算出部54は、オーディオ信号中に含まれる音の成分のうちの音楽の音成分の度合いを示す音楽スコアを生成し、当該生成した音声スコアを区間判別部55に出力する。
【0051】
ここで、音楽度算出部54は、音声度算出部52と同様に、例えば線形識別関数により音楽の度合いを算出する。
当該線形識別関数では、例えば以下の式により、音楽スコアS2が算出される。
S2=B0+B1・Y1+B2・Y2+・・・・・・Bn・Yn
ここでY1乃至Ynは、音声特徴量検出部53が検出した各種の特徴量パラメータであり、B0乃至Bnは、特徴量パラメータの重み付け係数である。なお重み付け係数B0乃至Bnとしては、音楽の音の特徴を強く示す特徴量パラメータに対応する係数ほど大きい値となっている。また、重み付け係数B0乃至Bnは、例えば、オーディオの内容が既知であるオーディオ信号を参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。
【0052】
また、重み付け係数B0乃至Bnは、音楽スコアS2の値が、入力された特徴量パラメータの値に応じて例えば0−1の範囲を取り得るような係数となっていてもよい。なお音楽度算出部54による音楽度合いの算出は上記の方法に限るものではなく、例えばGMM(Gaussian Mixture Models)等の手法を用いてもよく、更に入力されたオーディオ信号のチャンネル数に応じて異なる判別式を用いてもよい。
【0053】
区間判別部55は、音声特徴量検出部51から入力された変動スペクトル情報に基づいて、複数のフレームが、人間が発話した音声を含む区間であるか否かを判別する。ここで区間判別部55は、例えば変動スペクトル情報に基づいて、変調周波数の所定の帯域において、変調スペクトルのパワー値が一定の閾値以上であるかを判別する。そしてこのとき区間判別部55は、例えば4Hz付近の変調周波数や、2−10Hzの範囲の変調周波数において、変調スペクトルのパワー値が閾値以上であるかを判別する。
【0054】
そして区間判別部55は、過去のP個のフレームにおいて、変調スペクトルパワー値が閾値以上を示すフレームが一定数以上である場合に、当該P個のフレームを人間が発話している発話区間であると判別する。また区間判別部55は、発話区間として判別した区間の後の区間については、変調スペクトルのパワー値が閾値以上を示すフレームの数が一定数以上でない場合であっても、当該区間を発話区間であると判別しても良い。
【0055】
このとき区間判別部55は、例えばある区間を発話区間として判別した場合に、一定のマージン時間mを設定し、当該マージン時間内に判別した区間を発話区間として判別する。なお当該判別処理に関しては図5及び6を参照して後述する。
【0056】
また区間判別部55は、音声度算出部52及び音楽度算出部54から入力された音声スコア及び音楽スコアを、当該スコアが算出された区間が発話区間であるか否かに応じて補正する。即ち区間判別部55は、発話区間と判別した区間に含まれるフレーム毎に算出された音声スコアの値に、例えば一定値を加算又は乗算して当該音声スコアを補正(補強)する。
【0057】
なお、音声特徴量検出部52や音楽特徴量検出部54で算出したスコア値を、そのままオーディオ信号の音質補正のレベルに対応する度合い情報として利用すると次のような問題が起こる恐れがある。例えばドラマ等の放送番組のオーディオ信号においては、BGMの音と台詞(発話)の音とが混在する区間がある。このような区間において、当該区間のある時点では音楽要素だけが、別の時点では音声要素だけがあるような場合、音声スコアや音楽スコアの判別式により算出したスコアが急激に変動する場合がある。そしてスコアの急激な変動はオーディオ信号の音質補正の急激な切替りにつながり、ユーザにとって不適な音を出力する恐れがある。
【0058】
ここで、BGMと台詞とが混在する区間中のある時点のオーディオ信号を補正する場合、当該時点の過去に台詞音声が存在すると判別できれば、オーディオ信号に使用するスコア値の急激な変動を抑えて滑らかにオーディオ信号を補正できる。これに対し本実施形態の受信装置100は、発話音声を高い確度で検出できる特定のパラメータを、音声スコア及び音楽スコア算出の後段で用いて、スコア判別式により算出されたのスコア値を事後的に調整制御できる。
【0059】
さらに、一般に音楽要素が音声要素より支配的になるような区間においては、音声要素が埋もれる場合がある。この場合、当該音声の要素の検出は一般的に困難となるが、8kHz以下の帯域に対して抽出した4Hz付近の変調スペクトルパワーは、音楽が重畳された区間でも音声を検出する確度が大きい。このため上記調整制御用のパラメータとして用いるのに好適である。
【0060】
調整部56は、音声度算出部52が生成した音声スコアS1及び音楽度算出部54が生成した音楽スコアS2の調整を行う。ここで調整部56は、例えば複数のフレーム単位でスコアの移動平均値を算出して、フレーム毎の音声スコア及び音楽スコアを平滑化する。
【0061】
音質補正部57は、調整部56が調整した音声スコア及び音楽スコアに基づいて、オーディオ信号の補正を行う。ここで音質補正部57は、例えば音声スコアが入力されると、当該スコアのスコア値に応じて、オーディオ信号を人間の声に適した音質に補正する。前述の通り、スコア値は例えば0−1の間の数値を取り得る。そして音質補正部57は、当該数値の大小に応じた度合いで音質を補正する。
【0062】
そして音質補正部57は、オーディオ信号を人間の声に適した音質に補正する場合、例えばステレオ形式等のオーディオ信号のセンターに定位する信号成分を強調する補正を行う。これは、スポーツ番組の実況や音楽番組のトークシーンにおける人間の声の信号は、複数チャンネルのオーディオ信号のセンターに定位している場合が多いためであり、センターの信号成分を強調することにより、発話した声の信号を明瞭にする音質補正が可能となる。
【0063】
なお音質補正部57による、声に適した音質の補正は上記に限るものではなく、オーディオ信号に含まれる人間の発声した音声の成分を、ユーザにとって好適な音質にできる補正であればどのような補正であっても構わない。しかし何れの補正であっても、音質補正部57は、入力された音声スコアのスコア値に応じた度合いでこれらの補正を実行する。
【0064】
また音質補正部57は、音楽スコアが入力されると、当該スコアのスコア値に基づいて、オーディオ信号を音楽に適した音質に補正する。ここで音質補正部57は、例えばオーディオ信号に対してワイドステレオ処理やリバーブ処理等を行うことにより、オーディオ信号を音楽に適した音質に補正する。ワイドステレオ処理とは、例えば2チャンネルのステレオ形式のオーディオ信号に対して、L及びRのオーディオ信号の夫々を調整することにより、当該オーディオ信号の音をスピーカ装置から出力した場合に当該出力音が広がり感のある音となるように補正する処理である。またリバーブ処理とは、オーディオ信号に対して、当該オーディオ信号の音の成分が残響効果を有するように補正する処理である。
【0065】
なお音質補正部57による音楽に適した音質の補正は上記に限るものではなく、オーディオ信号中の音楽の音声成分をユーザにとって好適な音質にできる補正であればどのような補正であっても構わない。しかし何れの補正であっても、音質補正部57は、入力された音楽スコアのスコア値に応じた度合いでこれらの補正を実行する。
【0066】
そして音声音質補正部57は、補正したオーディオ信号を映像・オーディオ出力部32に出力する。
次に図4を参照して、オーディオ処理部27による処理例を説明する。
図4に示すオーディオ信号Sgは、例えば数百msecの時間長毎の区間であるフレームF1乃至Fnに分割される。そして、夫々のフレームは、更に数十msecの時間長毎の区間であるサブフレームG1乃至Gnに分割される。ここで音声特徴量検出部51及び音楽特徴量検出部54は、サブフレームG1乃至Gnの夫々から各種パラメータを検出し、当該検出したパラメータを用いて、フレームの特徴量を算出する。
【0067】
そしてフレームの特徴量が算出されると、音声度算出部52及び音楽度算出部54は、当該特徴量に基づいて、オーディオ信号中の音声の音成分及び音楽の音成分の度合いを示すスコアをフレーム単位で算出する。
【0068】
また、ここで音声特徴量検出部51は、サブフレーム毎にオーディオ信号Sgをフーリエ変換してパワースペクトルを算出し、複数のサブフレーム毎のパワースペクトルを用いてパワースペクトルの時間軌跡を生成する。そして音声特徴量検出部51は、スペクトルの時間軌跡を更にフーリエ変換することにより、変調スペクトルを得る。ここで区間判別部55は、当該変調スペクトルに基づいて、当該変調スペクトルの所定の変調周波数におけるパワー値が一定の値である閾値以上であるか否かを判別する。
【0069】
そしてオーディオ処理部27は、上記の処理をフレーム毎に繰り返す。このとき、区間判別部55は、例えばP個のフレームのうち一定数以上の数のフレームで、変調スペクトルのパワー値が一定値以上である場合、当該P個のフレームの区間を発話区間であると判別する。
【0070】
そして区間判別部55は、当該発話区間であると判別した区間に含まれるフレーム毎に算出された音声スコアの値に、例えば一定値を加算又は乗算して当該音声スコアを補正する。
【0071】
次に図5を参照して、オーディオ処理部27によるオーディオ処理フロー例を説明する。
まず音声特徴量検出部51及び音楽特徴量検出部54に、フレーム単位のオーディオ信号が入力される(S501)。そして音声特徴量検出部51及び音楽特徴量検出部54は、入力されたフレームの特徴量を算出する(S502)。また、ここで音声特徴量検出部51は、フレーム単位のオーディオ信号の変調スペクトルのパワー値を算出する(S503)。
【0072】
続いて音声度算出部52及び音楽度算出部54は、算出された特徴量に基づいて、当該特徴量が算出されたフレームのオーディオ信号における音声及び音楽の音成分の度合いを示すスコアを算出する(S503)。なおここで音声度算出部52は、オーディオ信号中の音声の音の成分の度合いを示す音声スコアを算出し、音楽度算出部54は、オーディオ信号中の音楽の音の成分の度合いを示す音楽スコアを算出する。
【0073】
次に区間判別部55は、連続するP個のフレームにおいて、変調スペクトルのパワー値が閾値を超えるフレームの数が一定数以上であるか否かを判別する(S505)。ここでフレーム数が一定数以上の場合(S505のYes)、区間判別部55は、マージン時間として一定時間mを設定し(S506)、音声スコアを補正する(S507)。なおS505において、変調スペクトルのパワー値の閾値は例えば複数であっても良い。そしてこの場合S507において区間判別部55は、変調スペクトルのパワー値が超えた閾値に応じた度合いで音声スコアを補正する。
【0074】
一方S505においてフレーム数が一定数に満たない場合(S505のNo)、区間判別部55は、マージン時間mをデクリメントして(S508)、マージン時間mが0より大きいかを判別する(S509)。そして区間判別部55は、マージン時間mが0より大きい場合(S509のYes)、S507の処理を実行し、マージン時間が0の場合(S509のNo)、S510の処理を実行する。
【0075】
このようにマージン時間を設定することにより、例えばドラマ等における台詞の区間のように、発話区間が途切れがちな区間であっても、連続的に発話の区間であるとして判別し、オーディオ信号に対して変動を抑えた補正をすることができる。
【0076】
なお区間判別部55は、マージン時間が設定されていない場合、S508の処理を省略し、またS509においてマージン時間mが0であると判別する。またS508において区間判別部55は、マージン時間mを例えば数十msecデクリメントする。
【0077】
次にオーディオ処理部27は、後続するフレームがある場合(S510のYes)、S501の処理を実行してフレームを入力する。一方フレームが入力されない場合(S510のNo)、オーディオ処理部27による処理フローは完了する。
【0078】
なお本実施形態において、受信装置100は音楽の度合いを示す音楽スコアと音声の度合いを示す音声スコアとの2つのスコアを算出するとして説明したが、スコアの形式はこれに限るものではない。例えば1つのスコアの値により音声及び音楽の度合いの両方を示しても構わない。そしてこの場合にも区間判別部55は、変調スペクトルのパワー値に応じて、当該1つのスコアを補正する。また、ここで区間判別部55は、変調スペクトルパワー値に基づいて発話区間と判別した区間のスコアを、音声の度合いが強くなるように補正する。そして音質補正部57は、入力されたスコアの値が示す音声及び音楽の度合いに応じてオーディオ信号を補正する。
【0079】
また本実施形態において、受信装置と表示装置とは別の装置であるとして説明しているが、例えばテレビジョン装置のように受信装置と表示装置とが一体であっても構わない。
【0080】
(第2実施形態)
以下、図6を参照して、第2実施形態を説明する。なお、第2実施形態に係る音質補正装置は、第1実施形態と同様に例えば受信装置100として実現される。そして第2実施形態に係る受信装置100のシステム構成及び構成毎の機能については第1実施形態と同様であるため、ここでは第1実施形態と異なる機能及び処理フロー例を中心に説明する。
【0081】
第1実施形態に係る受信装置100においては、音声特徴量検出部51が検出した変調スペクトルに基づいて区間判別部55がスコアを補正していた。これに対し第2実施形態に係る受信装置100において区間判別部55は、音声特徴量検出部51が検出した特徴量のうちの何れかの特徴量と、音楽特徴量検出部53が検出した特徴量のうちの何れかの特徴量とに基づいてスコアを補正する。
【0082】
まず図3を参照して第2実施形態に係るオーディオ処理部27の機能例を説明する。
音声特徴量検出部51は、第1実施形態と同様に特徴量を検出し、当該検出した特徴量を音声度算出部52に出力する。また音声特徴量検出部51は、検出した特徴量のうち、オーディオ信号中の発話区間の識別に有効な特徴量を、音声スコア補正用の特徴量として区間判別部55に出力する。なおここで音声特徴量検出部51は、例えば変調スペクトルのパワー値を区間判別部55に出力するが、ここで音声特徴量検出部は、発話区間の識別に有効な特徴量であればどのような特徴量を出力しても構わない。
【0083】
また音声特徴量検出部51は、検出した特徴量を音声度算出部52に出力し、音声度算出部52は、入力された特徴量に基づいて音声スコアを算出する。
音楽特徴量検出部53は、特徴量を検出すると共に、検出した特徴量のうち、オーディオ信号中の音楽の区間を効果的に判別することができる特徴量を、音楽スコア補正用の特徴量として区間判別部55に出力する(音楽特徴量検出部53から区間判別部55へのデータフローは不図示)。ここで音楽特徴量検出部53は、例えば音階に関する特徴量のように、オーディオ信号中に音楽が含まれていることを強く示す特徴量を区間判別部55に出力するが、出力する特徴量はこれに限るものではない。
【0084】
また音楽特徴量53は、検出した特徴量を音楽度算出部54に出力する。そして音楽度算出部54は、入力された特徴量に基づいて、オーディオ信号中の音楽の音の成分の度合いを示す音楽スコアを算出する。
【0085】
区間判別部55は、入力された音声スコア補正用の特徴量と音楽スコア補正用の特徴量とに基づいて、音声スコア及び音楽スコアを補正する。ここで区間判別部55は、例えばP個のフレームにおいて音声スコア補正用の特徴量C1が閾値以上であるフレームが一定数以上の場合であって、当該P個のフレーム中に音楽スコア補正用の特徴量C2が閾値以上であるフレームが一定数以上の場合に、当該P個のフレームの区間に対して算出された音声スコア及び音楽スコアの値をクリップ処理する。
【0086】
ここでクリップ処理とは、音声スコア及び音楽スコアの値を、これらのスコア値が取り得る値の中程度の範囲に制限する処理である。つまり、例えば音声スコア値や音楽スコア値が取り得る値の最大値が1で最小値が0の場合、当該クリップ処理により、スコアの値は例えば0.3−0.7程度の範囲に補正される。なおクリップ処理により補正される値の範囲はこれに限るものではなく、少なくともスコアが取り得る値の最小値より大きな値と当該取り得る値の最大値より小さな値との間の範囲であればよい。
【0087】
ここで図6を参照して、第2実施形態に係るオーディオ処理の処理フロー例を説明する。
まずオーディオ処理部27にオーディオ信号が入力されると、音声特徴量検出部51及び音楽特徴量検出部54は、入力されたオーディオ信号のフレーム単位で特徴量を算出する(S601)。ここで音声特徴量検出部51は、変調スペクトルのパワー値等の、音声スコアの補正に用いるための特徴量C1を検出する(S602)。またこのとき音楽特徴量検出部53は、例えば音階に関する特徴量等の、音楽スコアの補正に用いるための特徴量C2を検出する(S603)。
【0088】
続いて音声度算出部52及び音楽度算出部54は、算出された特徴量に基づいて、当該特徴量が算出されたフレームのオーディオ信号における音声成分や音楽成分を示すスコアを算出する(S604)。
【0089】
次に区間判別部55は、連続するP個のフレームにおいて、音声スコア補正用の特徴量の値が閾値を超えるフレームの数が一定数以上であるか否かを判別する(S605)。ここでフレーム数が一定数以上の場合(S605のYes)、区間判別部55は続いて音楽スコア補正用の特徴量の値が閾値を超えるフレームの数が一定数以上であるか否かを判別する(S606)。そしてフレーム数が一定数以上の場合(S606のYes)、区間判別部55は、マージン時間mを設定し(S607)、音声スコア値及び音楽スコア値をクリップ処理する(S608)。なおS608において区間判別部55は、音声スコア値と音楽スコア値とのうち少なくとも一方をクリップ処理しても構わない。
【0090】
一方S605又はS606において、特徴量の値が閾値を越えるフレームの数が一定数未満の場合(S605のNo、S606のNo)、区間判別部55はマージン時間mをデクリメントして(S609)、マージン時間mが0より大きいかを判別する(S610)。そして区間判別部55は、マージン時間mが0より大きい場合(S610のYes)、S608の処理を実行し、マージン時間が0の場合(S610のNo)、S611の処理を実行する。
【0091】
次にオーディオ処理部27は、後続するフレームがある場合(S611のYes)、次のフレームを入力してS601の処理を実行する。一方、残りのフレームがない場合(S611のNo)、オーディオ処理部27による処理フローは完了する。
【0092】
第1及び第2実施形態によれば、受信装置100は、入力されたオーディオ信号中の歌唱区間と発話区間とを判別して、夫々の区間に応じた音質のオーディオ信号を出力することができる。また受信装置100は、オーディオ信号から検出されたフレームの特徴量に基づいて算出したスコア値を、複数のフレームに対して算出した例えば変調スペクトルのパワー値等の特徴量に基づいて補正することができる。このため、オーディオ信号中に音楽要素と発話要素とが混在する区間において、スコア値の変動を抑制し、当該スコアに基づいて補正されるオーディオ信号の変動を抑えることができる。
【0093】
なお、本発明の実施形態は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。例えば本実施形態の区間判別部55が補正したスコア値に基づいて、発話区間をインデクシングする装置等に応用することもできる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【符号の説明】
【0094】
100…受信装置、13…アンテナ、14…入力端子、15…チューナ、16…PSK復調部、17…TS復号部、18…アンテナ、19…入力端子、20…チューナ、21…OFDM復調部、22…TS復号部、23…アナログチューナ、24…アナログ復調部、25…信号処理部、26…入力端子、27…オーディオ処理部、29…グラフィック処理部、30…OSD信号生成部、31…表示処理部、32…映像・オーディオ出力部、35…操作部、36…受光部、37…通信I/F、38…コネクタ、39…HDD、40…制御部、41…CPU、42…ROM、43…RAM、44…不揮発性メモリ、51…音声特徴量検出部、52…音声度算出部、53…音楽特徴量検出部、54…音楽度算出部、55…区間判別部、56…調整部、57…音質補正部、200…表示・スピーカ装置、200…表示部、203…スピーカ部

【特許請求の範囲】
【請求項1】
オーディオ信号が入力される入力手段と、
入力された前記オーディオ信号の特徴量を、一定の時間長の第1区間毎に算出する特徴量算出手段と、
算出された前記特徴量に基づいて、前記第1区間毎にスコア値を算出するスコア算出手段と、
入力された前記オーディオ信号の変調スペクトルの、所定の変調周波数におけるパワー値を算出する変調スペクトルパワー算出手段と、
前記第1区間を複数含む第2区間において算出された前記パワー値が一定値以上である場合、当該第2区間に含まれる複数の前記第1区間毎の前記スコア値を補正するスコア補正手段と、
補正された前記スコア値に基づいて前記オーディオ信号を補正する信号補正手段と
を備える音質補正装置。
【請求項2】
前記算出手段は、前記第1区間毎に前記パワー値を算出し、
前記スコア補正手段は、前記第2区間に、算出された前記パワー値が一定値以上である前記第1区間が一定数以上含まれる場合に前記スコア値を補正する、請求項1記載の音質補正装置。
【請求項3】
前記スコア補正手段は、前記第2区間に、算出された前記パワー値が一定値以上である前記第1区間が一定数以上含まれる場合、当該第2区間に後続する区間の前記パワー値が一定値以上でない場合であっても、当該後続する区間の前記スコア値を補正する、請求項2記載の音質補正装置。
【請求項4】
前記変調スペクトルパワー算出手段は、前記変調スペクトルの、2乃至10Hzの変調周波数帯域に含まれる変調周波数成分のパワー値を算出する、請求項1記載の音質補正装置。
【請求項5】
前記スコア算出手段は、算出された前記特徴量に基づいて、前記オーディオ信号に含まれる声の音の成分の度合いを示す音声スコア値を前記第1区間毎に算出し、
前記スコア補正手段は、前記第1区間を複数含む第2区間において算出された前記パワー値が一定値以上である場合、当該第2区間に含まれる複数の前記第1区間毎の前記音声スコア値を補正し、
前記信号補正手段は、補正された前記音声スコア値に基づいて前記オーディオ信号に第1の補正を実行する、請求項1記載の音質補正装置。
【請求項6】
前記スコア算出手段は、算出された前記特徴量に基づいて、前記オーディオ信号に含まれる音楽の音の成分の度合いを示す音楽スコア値を算出し、
前記スコア補正手段は、前記第1区間を複数含む第2区間において算出された特徴量のうち、何れかの特徴量が示す値が一定値以上である場合、当該第2区間に含まれる複数の前記第1区間毎の前記音楽スコア値を補正し、
前記信号補正手段は、補正された前記音楽スコア値に基づいて、前記オーディオ信号に、前記第1の補正とは異なる第2の補正を実行する、請求項5記載の音質補正装置。
【請求項7】
前記スコア補正手段は、前記第2区間に対して算出された前記パワー値が第1の値以上であり、前記第2区間に対して算出された前記何れかの特徴量が示す値が第2の値以上である場合、前記音声スコア値を、当該音声スコア値が取り得る値の最大値よりも小さな値と、前記取り得る値の最小値よりも大きな値との間の値にクリップする前記第1の補正を実行する、請求項6記載の音質補正装置。
【請求項8】
前記スコア補正手段は、前記第2区間に対して算出された前記パワー値が第1の値以上であり、前記第2区間に対して算出された前記何れかの特徴量が示す値が第2の値以上である場合、前記音楽スコア値を、当該音楽スコア値が取り得る値の最大値よりも小さな値と、前記取り得る値の最小値よりも大きな値との間の値にクリップする第2の補正を実行する、請求項6記載の音質補正装置。
【請求項9】
オーディオ信号が重畳された放送波を受信するチューナを更に備え、
前記入力手段には、前記チューナが受信した放送波に重畳された前記オーディオ信号が入力される、請求項1記載の音質補正装置。
【請求項10】
オーディオ信号が入力される装置における音質補正方法であって、
オーディオ信号が入力されることと、
入力された前記オーディオ信号の特徴量を、一定の時間長の第1区間毎に算出することと、
算出された前記特徴量に基づいて、前記第1区間毎にスコア値を算出することと、
入力された前記オーディオ信号の変調スペクトルの、所定の変調周波数におけるパワー値を算出することと、
前記第1区間を複数含む第2区間において算出された前記パワー値が一定値以上である場合、当該第2区間に含まれる複数の前記第1区間毎の前記スコア値を補正し、当該補正したスコア値に基づいて前記オーディオ信号を補正することと
を備える音質補正方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−63726(P2012−63726A)
【公開日】平成24年3月29日(2012.3.29)
【国際特許分類】
【出願番号】特願2010−210078(P2010−210078)
【出願日】平成22年9月17日(2010.9.17)
【出願人】(000003078)株式会社東芝 (54,554)