説明

オーディオ信号補正装置及びオーディオ信号補正方法

【課題】入力オーディオ信号の高音質化に優れたオーディオ信号補正装置を提供する。
【解決手段】オーディオ信号補正装置は、入力オーディオ信号から特徴パラメータを算出する特徴パラメータ算出手段と、前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出する照合手段と、前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定する第1判定手段と、前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定する第2判定手段と、前記第1判定手段により判定された前記オーディオ信号の種類に応じて前記入力オーディオ信号を補正し、また前記混合度合いに応じて前記入力オーディオ信号を補正する補正手段と、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号を補正し高音質化するオーディオ信号補正装置及びオーディオ信号補正方法に関する。
【背景技術】
【0002】
近年、高画質、高音質のAV機器に注目が集まり、このようなAV機器の研究開発が盛んになっている。例えば、入力オーディオ信号から特定信号を抽出して、抽出した特定信号に対して信号処理を施して距離感または広がり感を変化させる技術が開示されている(特許文献1参照)。具体的には、入力オーディオ信号に含まれる人の声の特定信号を抽出し、抽出した特定信号の周波数特性や音量を変化させる処理によって距離感を変化させる。また、入力オーディオ信号に含まれる歓声や拍手などの特定信号を抽出し、抽出した特定信号に対して例えばサラウンド処理を施し、広がり感を変化させる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−67858号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記特許文献1に開示された入力オーディオ信号処理技術では、入力オーディオ信号から特定信号を抽出し、抽出した特定信号に応じて補正手法を決定し、高音質化を図っている。
【0005】
しかしながら、入力オーディオ信号には様々な音源の信号成分が混在しているため、入力オーディオ信号の高音質化は容易ではない。単に、抽出した特定信号に応じて補正手法を決定するだけでは、適切な補正手法が選択できないこともあり、高音質化は難しい。
【0006】
本発明の目的は、入力オーディオ信号の高音質化に優れたオーディオ信号補正装置及びオーディオ信号補正方法を提供することにある。
【課題を解決するための手段】
【0007】
本発明の一実施形態に係るオーディオ信号補正装置は、入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたLチャネル成分信号とRチャネル成分信号との差分信号を算出する差分信号算出手段と、各分割フレームから算出された各差分信号から1以上の特徴パラメータを算出する特徴パラメータ算出手段と、前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出する照合手段と、前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定する第1判定手段と、前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定する第2判定手段と、前記第1判定手段により判定された前記オーディオ信号の種類に応じて前記入力オーディオ信号を補正し、また前記混合度合いに応じて前記入力オーディオ信号を補正する補正手段と、を備えている。
【0008】
本発明の一実施形態に係るオーディオ信号補正方法は、入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたLチャネル成分信号とRチャネル成分信号との差分信号を算出し、各分割フレームから算出された各差分信号から1以上の特徴パラメータを算出し、前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出し、前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定し、この判定されたオーディオ信号の種類に応じて前記入力オーディオ信号を補正し、前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定し、前記混合度合いに応じて前記入力オーディオ信号を補正する。
【発明の効果】
【0009】
本発明によれば、入力オーディオ信号の高音質化に優れたオーディオ信号補正装置及びオーディオ信号補正方法を提供できる。
【図面の簡単な説明】
【0010】
【図1】本発明の一実施形態に係るオーディオ信号補正装置の概略構成を示すブロック図である。
【図2】リアルタイム特性解析モジュールの概略構成を示すブロック図である。
【図3】特徴パラメータの分布の一例を示す図である。
【図4】特徴パラメータ生成の一例を示すフローチャートである。
【図5】信号音種別の判定の一例を示すフローチャートである。
【図6】音声参照モデル補正の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照し、本発明の実施形態について説明する。
【0012】
図1は、本発明の一実施形態に係るオーディオ信号補正装置の概略構成を示すブロック図である。図1に示すように、オーディオ信号補正装置は、リアルタイム特性解析モジュール1、選択モジュール2、音声補正モジュール3を備えている。さらに、音声補正モジュール3は、歓声シーン入力モジュール31、実況解説シーン入力モジュール32、その他シーン入力モジュール33、第1音質補正モジュール34、第2音質補正モジュール35、第3音質補正モジュール36を備えている。
【0013】
なお、本実施形態では、音声補正モジュール3は、スポーツ中継等のコンテンツのオーディオ信号の特性に応じてこのオーディオ信号を適切に補正するように構成されているが、本発明はこの構成に限定されるものではない。例えば、他のコンテンツのオーディオ信号を補正する場合、音声補正モジュール3は、他のコンテンツのオーディオ信号の特性に応じてこのオーディオ信号を適切に補正するように構成される。
【0014】
リアルタイム特性解析モジュール1は、入力オーディオ信号から特徴パラメータを抽出し、抽出した特徴パラメータからリアルタイムにオーディオ信号(シーン)の種類を解析する。例えば、スポーツ中継等のコンテンツの場合、リアルタイム特性解析モジュール1は、入力オーディオ信号の特徴パラメータから、リアルタイムに、歓声シーンのオーディオ信号、実況解説シーンのオーディオ信号、その他シーンのオーディオ信号(例えば通常プレイシーンのオーディオ信号)を分類する。
【0015】
選択モジュール2は、リアルタイムに変化する解析結果に応じて入力オーディオ信号の出力先を選択する。例えば、選択モジュール2は、歓声シーンに対応したオーディオ信号の検出に基づき、歓声シーン入力モジュール31への入力を選択し、入力オーディオ信号を歓声シーン入力モジュール31へ入力する。また、選択モジュール2は、実況解説シーンに対応したオーディオ信号の検出に基づき、実況解説シーン入力モジュール32への入力を選択し、入力オーディオ信号を実況解説シーン入力モジュール32へ入力する。また、選択モジュール2は、その他シーンに対応したオーディオ信号(例えば通常プレイシーンに対応したオーディオ信号)の検出に基づき、その他シーン入力モジュール33への入力を選択し、入力オーディオ信号をその他シーン入力モジュール33へ入力する。なお、選択モジュール2は、リアルタイムに変化する解析結果に応じて、歓声シーン入力モジュール31への入力を選択したり、実況解説シーン入力モジュール32への入力を選択したり、その他シーン入力モジュール33への入力を選択したりする。
【0016】
第1音質補正モジュール34は、歓声シーン入力モジュール31からの入力オーディオ信号を、歓声シーンに対応した補正手法で補正する。例えば、歓声シーン(応援、ブーイングなど含む)で、実況解説音声が聞き取り難くなるほど実況音より環境音が非常に大きい場合、第1音質補正モジュール34は、入力オーディオ信号に含まれた音声成分を大幅に強調し、実況を聞き取り易くする。
【0017】
また、第2音質補正モジュール35は、実況解説シーン入力モジュール32からの入力オーディオ信号を、実況解説シーンに対応した補正手法で補正する。例えば、実況解説シーンでは、環境音より実況音が大きくなる傾向にあるが、より実況を聞き取り易くするために、第2音質補正モジュール35は、入力オーディオ信号に含まれた音声成分をやや強調し、実況をより聞き取り易くする。
【0018】
また、第3音質補正モジュール36は、その他シーン入力モジュール33からの入力オーディオ信号を、その他シーン(例えば通常プレイシーン)に対応した補正手法で補正する。例えば、通常プレイシーンではフィールド内の音がメインとなり、臨場感を高めるために、第3音質補正モジュール36は、入力オーディオ信号をワイドステレオ用に補正する。
【0019】
次に、図2を参照して、上記したリアルタイム特性解析モジュール1について説明する。図2は、リアルタイム特性解析モジュール1の概略構成を示すブロック図である。図2に示すように、リアルタイム特性解析モジュール1は、LR差分信号算出モジュール11、特徴パラメータ算出モジュール12、参照モデル照合モジュール13、閾値判定モジュール14、音声・非音声混合度合い判定モジュール15を備えている。さらに、特徴パラメータ算出モジュール12は、パワー変動算出モジュール121、零交差周波数算出モジュール122、スペクトル変動算出モジュール123などを備えている。
【0020】
LR差分信号算出モジュール11は、入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたL(Left)チャネル成分信号とR(Right)チャネル成分信号との差分信号を算出する。例えば、LR差分信号算出モジュール11は、入力オーディオ信号を数百msec程度の単位で複数のフレームとして分割し、さらに各フレームを数十msec程度の単位でサブフレームに分割し、各サブフレームからLR差分信号を算出する。
【0021】
特徴パラメータ算出モジュール12は、各サブフレームから算出されたLR差分信号から複数の特徴パラメータを算出する。例えば、パワー変動算出モジュール121は、サブフレームの単位でパワーを算出する。零交差周波数算出モジュール122は、サブフレームの単位で零交差周波数(時間波形が振幅方向に零を横切る回数)を算出する。スペクトル変動算出モジュール123は、サブフレームの単位でスペクトル変動(所定サブフレームと直前サブフレームとのFFTパワースペクトル成分変動)を算出する。本実施形態では、特徴パラメータ算出モジュール12が、パワー、零交差周波数、スペクトル変動の3つのパラメータを算出するケースについて説明するが、本発明はこれに限定されるものではない。例えば、特徴パラメータ算出モジュール12は、n個のパラメータを算出することができる。つまり、特徴パラメータ算出モジュール12は、第1パラメータ算出モジュールからn-thパラメータ値算出モジュールまでのn個のパラメータ値算出モジュールにより構成することができる。特徴パラメータ算出モジュール12は、フレームの単位で、パワー、零交差周波数、及びスペクトル変動の平均、分散等の統計量を求め、統計量に基づき特徴パラメータを算出する。
【0022】
参照モデル照合モジュール13は、所定の特徴パラメータと複数の参照モデルとを照合する。例えば、参照モデル照合モジュール13は、あらかじめ学習により構築した音種別(シーン別)ごとの参照モデル(分布データ)を保持し、所定の特徴パラメータと各参照モデルとを比較し、所定の特徴パラメータが所定の参照モデルに属する確からしさ、すなわち尤度を算出する。
【0023】
閾値判定モジュール14は、算出尤度が閾値条件を満たす場合に、所定の参照モデルが示すオーディオ信号(シーン)の種類を所定の特徴パラメータが示すオーディオ信号(シーン)の種類と判定する。つまり、閾値判定モジュール14は、算出尤度が閾値条件を満たす場合に、オーディオ信号(シーン)の種類を確定することができる。
【0024】
音声・非音声混合度合い判定モジュール15は、算出尤度が閾値条件を満たさない場合に、音声成分と非音声成分の混合度合いを判定し、音声補正モジュール3は、混合度合いに基づき入力オーディオ信号を補正する。例えば、第3音質補正モジュール36が、混合度合いに基づき入力オーディオ信号の補正を制御する。
【0025】
ここで、閾値判定モジュール14と音声・非音声混合度合い判定モジュール15の連携について説明する。例えば、参照モデル照合モジュール13が、特徴パラメータと各参照モデルとを照合し、特徴パラメータが各参照モデルに属する各尤度を算出し、算出された各尤度の中から最大尤度を選択する。このケースで、閾値判定モジュール14は、最大尤度が閾値条件を満たす場合に、最大尤度の算出に使用された参照モデルが示すオーディオ信号(シーン)の種類を特徴パラメータが示すオーディオ信号(シーン)の種類と判定する。つまり、特徴パラメータが示すオーディオ信号(シーン)の種類が確定する。ところが、最大尤度が閾値条件を満たさない場合には、閾値判定モジュール14は、特徴パラメータが示すオーディオ信号(シーン)の種類を確定することができない。そこで、音声・非音声混合度合い判定モジュール15が機能し、閾値判定モジュール14で確定できなかったオーディオ信号(シーン)の種類を確定する。つまり、音声・非音声混合度合い判定モジュール15が、最大尤度に基づき音声成分と非音声成分の混合度合いを判定(推定)し、音声補正モジュール3が、混合度合いに基づき入力オーディオ信号の補正度合いを制御する。
【0026】
上記したようにリアルタイムに判定されたオーディオ信号(シーン)の種類に応じて、選択モジュール2及び音声補正モジュール3が、入力オーディオ信号を補正したり、リアルタイムに判定された混合度合いに応じて、音声補正モジュール3が、入力オーディオ信号の補正度合いを制御したりする。これにより、オーディオ信号補正装置は、オーディオ信号(シーン)の種類に応じてリアルタイムに補正されたオーディオ信号を出力することができる。
【0027】
次に、図4〜図6に示すフローチャートを参照し、上記した各処理についてさらに詳しく説明する。図4は、特徴パラメータ生成の一例を示すフローチャートである。図5は、信号音種別の判定の一例を示すフローチャートである。図6は、音声参照モデル補正の一例を示すフローチャートである。
【0028】
図4に示すように、LR差分信号算出モジュール11は、入力オーディオ信号を数百msec程度の単位で複数のフレームとして分割し、さらに各フレームを数十msec程度の単位でサブフレームに分割し(S101)、各サブフレームからLR差分信号を生成する(S102)。一般に、人の音声はセンター寄りに定位する性質があるため、LR差分信号を生成すると音声成分が抑制される。これにより、歓声など特定の音種の識別を容易にすることができる。
【0029】
続いて、パワー変動算出モジュール121が、サブフレームの単位でパワーを算出し(S103)、零交差周波数算出モジュール122が、サブフレームの単位で零交差周波数を算出し(S104)、スペクトル変動算出モジュール123が、サブフレームの単位でスペクトル変動を算出し(S105)、さらに必要に応じて他の判別情報が算出される(S106)。特徴パラメータ算出モジュール12は、フレームの単位で、パワー、零交差周波数、及びスペクトル変動の平均、分散等の統計量を求め、統計量に基づき特徴パラメータを算出する(S107、S108)。
【0030】
続いて、信号音種(シーンの種類)が判定される(S200)。図5に示すように、参照モデル照合モジュール13は、特徴パラメータと各音種の参照モデルとを照合する(S201)。参照モデル構築の例としては、GMM(Gaussian Mixture Model)が挙げられる。GMMを利用した参照モデルは、特徴パラメータ数の次元を有する正規分布の混合和で表現される。
【0031】
すなわち下記(式1)に示すように、xを特徴パラメータのD次元ベクトルx={x1,x2,…,xD}、μを特徴パラメータの期待値(平均値)、Σを特徴パラメータの共分散行列、αkを複数の正規分布を重みづけ線形和で表したときの各分布の重みとする。
【数1】

【0032】
これらにより計算されたNは尤度を表し、D次元の特徴パラメータ正規分布の混合和となる。あるフレームにおける特徴パラメータが参照モデルである混合ガウス分布から生成されたとすると、当該信号の尤度は上記(式1)で求められ、通常はこの尤度値を対数化する。特徴パラメータと各参照モデルとを照合し、特徴パラメータが各参照モデルに属する各尤度を算出し、算出された各尤度の中から最大尤度を選択し、この最大尤度の算出に使用された参照モデルを判定の候補とする。
【0033】
ここで、参照モデルの音種又は参照モデルを得るための学習データの量によって、参照モデルの信頼性に差が出ることがある。大きな歓声や楽曲のようにスペクトル構造等に定常的性質が出やすい音種の参照モデルは、正規分布の偏差が小さく収束性の高い理想的なものになる。例えば、図3に示すように、歓声は、定常的性質が出やすい音種であり、歓声に対応した特徴パラメータの分布から構築される参照モデルの信頼性は比較的高くなる。
【0034】
一方、プレイシーンのようにコンテンツごとに特有な環境音を含む音種の参照モデル及び人の音声などの音種の参照モデルは、定常的性質があまり現れず、分布の広がりが大きくなりやすい。それだけではなく、コンテンツごとに特有な環境音を含む音種の参照モデルの構築のための十分な学習データの収集は難しい。音声などの音種の参照モデルは、収録環境に依存する各種の雑音成分、また発話に含まれる微小な沈黙(無音)区間の影響等もあり、理想的に構築することが比較的難しい。例えば、図3に示すように、プレイシーン及び音声は、定常的性質があまり現れず、分布の広がりが大きくなりやすく、プレイシーンに対応した特徴パラメータの分布から構築される参照モデル、及び音声に対応した特徴パラメータの分布から構築される参照モデルの信頼性は比較的低くなる。
【0035】
このため、閾値判定モジュール14によるオーディオ信号(シーン)の種類判定、及び音声・非音声混合度合い判定モジュール15による混合度合い判定が重要となる。歓声(応援の鳴り物やブーイングなども含む)のような、定常的性質の現れやすい音種の参照モデルの分布偏差は小さい。このため、歓声の特徴パラメータと歓声の参照モデルとを照合した場合、照合結果は期待値(平均値)に近く、尤度が大きくなる傾向が高い。よって、歓声のような音種については比較的容易に判定が可能となる。特徴パラメータと参照モデルとの照合の後、算出された尤度と閾値αと比較し、閾値αを上回る尤度を有するフレームが連続でβ回以上続けば(S202、YES)(S203、YES)、この時点で入力オーディオ信号の属する音種を歓声と確定する(S204)。
【0036】
この際、歓声と確定した際のフレーム尤度、または過去β回以上続いた複数フレームで平滑化した尤度情報を出力すれば、歓声である情報の信頼性をより正確に伝えることができ、後段の音質補正にてきめ細かい補正制御が可能になる。
【0037】
閾値αを上回る尤度が得られない(S202、NO)、又は閾値αを上回る尤度を有するフレームが連続でβ回以上続かない(S203、NO)場合は、閾値判定モジュール14によるオーディオ信号(シーン)の正確な種類判定は難しい。つまり、閾値判定モジュール14において歓声と確定した以外の入力オーディオ信号に対しては、音声・非音声混合度合い判定モジュール15による混合度合い判定が適用される(S300)。
【0038】
図6に示すように、実際のコンテンツ(入力オーディオ信号)では、音声の信号成分とプレイシーンの信号成分とが明確に分離されていない場合が多く、単純に、入力オーディオ信号は音声である、又は入力オーディオ信号はプレイシーンであるという判定は適切ではない。そこで、音声成分である確からしさに対する非音声成分である確からしさの度合い(混合度合い)をパラメータとして出力し、この混合度合いに応じてワイドステレオ等の音質補正を制御する。
【0039】
音声・非音声混合度合い判定モジュール15は、特徴パラメータと音声の参照モデルとの照合により得られた第1の尤度と特徴パラメータと非音声の参照モデルとの照合により得られた第2の尤度との差、又はこれら第1の尤度と第2の尤度との比から、上記した混合度合いを算出する。
【0040】
ただし、特徴パラメータがLR差分信号から抽出されているため、混合度合いを正確に算出できない可能性がある。すなわち、LR差分信号ではセンターに定位しやすい音声成分が抑制されている。このため、特徴パラメータの分布に音声より背景音がより反映され易く、音声とプレイシーンの混合度合いを正確に算出し難い。一方、LR差分信号を生成する前のPCM信号よりD次元特徴パラメータを抽出すると、処理負荷が2倍となってしまう。
【0041】
そこで、音声・非音声混合度合い判定モジュール15は、単純な特徴パラメータに着目し、音声・非音声混合度合いを検出する。例えば、音声・非音声混合度合い判定モジュール15は、ピッチ推定により、音声・非音声混合度合いを検出する。ピッチは人の(有声音の)発声において声帯の振動に起因して現れる基本周波数である。一般に男性で100Hz前後、女性で200Hz付近という値となる。ピッチ推定は様々あるが、簡単な抽出としては時間域での自己相関性がある。
【0042】
下記(式2)のように、あるフレームの信号s(n)と時間τだけずらした信号s(n+τ)の振幅の差分をNフレーム分蓄積する。このε(τ)を最小化するようなτを基本周期とし、その逆数を推定ピッチ値とみなす(S301)。
【数2】

【0043】
各サブフレームにおけるこの推定ピッチ値が一般的な人の音声ピッチ範囲{lowPitch,uppPitch}に存在するかどうかを見て、フレームに占める存在割合c1を算出する(S302)。
【0044】
また、ピッチ推定自体の信頼性は必ずしも高いとはいえない。このため、音声・非音声混合度合い判定モジュール15は、他の音声的性質に着目してこのパラメータの信頼性を強化することもできる。例えば、音声・非音声混合度合い判定モジュール15は、信号の零交差数等により、音声・非音声混合度合いを検出する。音声のように、子音と母音の切替りが頻繁であると零交差数の変動が大きくなる。したがって、零交差数変動性が大きく、かつ推定ピッチ値が標準的な人の音声ピッチ範囲に収まっていれば、当該信号が音声である確度は高くなる。ここで零交差数変動性であるが、フレームにおける平均零交差数の値をmeanZCとしたとき、計算値がmeanZCを超えるサブフレームの割合c2を算出する(S303)。
【0045】
以上の割合c1,c2を用いて音声の尤度を補正する。GMMモデルとの照合で得られた尤度は(式3)で表され、通常この尤度は対数化される。
【0046】
N’=ln(N) …(式3)
このとき、音声モデルより出力される対数化尤度Nsp’については、対数化前の尤度に対して以下(式4)に示す補正項を導入する(S304)。
【0047】
Nsp’=ln(Nsp + c1 * c2) …(式4)
このNsp’と非音声モデルより出力される対数化尤度Nnsp’(式3,4と同様に、GMM非音声モデルとの照合で得られた尤度Nnspをc1,c2で補正した値)より、音声の確からしさに対する非音声の確からしさの混合度合いを以下(式5)に示すように決定し、出力する(S305)。
【0048】
Ratio=Nnsp’ − Nsp’ …(式5)
以上のように、参照モデルとの照合が容易でない音声と非音声のような音種については、音声と非音声成分の確からしさの混合度合いを数値化した情報を出力し、後段の音質補正処理ではこの情報を元に補正の度合いを制御する。
【0049】
ここで、上記したオーディオ信号補正装置の作用効果についてまとめる。
【0050】
(1)オーディオ信号補正装置は、リアルタイムでオーディオ信号(シーン)の種類に応じた音質補正をきめ細かく制御することができる。
【0051】
(2)オーディオ信号補正装置は、LR差分信号より特徴パラメータを抽出し、特徴パラメータと参照モデルとの照合結果に基づき、参照モデルの信頼性が高い歓声などの音種を判定し、音種判定結果に基づき音質補正を制御する。LR差分信号から抽出した特徴パラメータを使用することにより、歓声等の音種の判定精度の向上を図ることができる。
【0052】
(3)オーディオ信号補正装置は、参照モデルの信頼性が低い音声・非音声成分の混合度合いを求め、混合度合いに応じて音質補正を制御する。
【0053】
(4)オーディオ信号補正装置は、ピッチ推定及び信号の零交差数など簡易な特徴量から、音声・非音声混合度合いを検出する。これにより、オーディオ信号補正装置は、音声・非音声混合度合いを少ない処理量で推定することができ、またLR差分信号から特徴パラメータが抽出されていても(音声成分が抑制されていても)、音声・非音声混合度合いを高精度に検出することができる。
【0054】
以上により、オーディオ信号補正装置は、スポーツをはじめとする各種コンテンツでリアルタイムに多分類シーンに応じた音質補正をきめ細かく行うことが可能となる。また、オーディオ信号補正装置は、記録済みコンテンツの再生時に、上記した音質補正を適用することもできる。
【0055】
さらに、オーディオ信号補正装置は、例えばTV、DVDプレイヤー、DVDレコーダ、及びHDDレコーダに適用することができる。これにより、ユーザは、シーンに応じた高音質で番組放送又はDVDコンテンツを楽しむことができる。
【0056】
なお、上記したモジュールとは、ハードウェアで実現するものであっても良いし、CPU等を使ってソフトウェアで実現するものであってもよい。
【0057】
なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【符号の説明】
【0058】
1…リアルタイム特性解析モジュール、11…LR差分信号算出モジュール、12…特徴パラメータ算出モジュール、121…パワー変動算出モジュール、122…零交差周波数算出モジュール、123…スペクトル変動算出モジュール、13…参照モデル照合モジュール、14…閾値判定モジュール、15…音声・非音声混合度合い判定モジュール、2…選択モジュール、3…音声補正モジュール、31…歓声シーン入力モジュール、32…実況解説シーン入力モジュール、33…その他シーン入力モジュール、34…第1音質補正モジュール、35…第2音質補正モジュール、36…第3音質補正モジュール

【特許請求の範囲】
【請求項1】
入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたLチャネル成分信号とRチャネル成分信号との差分信号を算出する差分信号算出手段と、
各分割フレームから算出された各差分信号から1以上の特徴パラメータを算出する特徴パラメータ算出手段と、
前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出する照合手段と、
前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定する第1判定手段と、
前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定する第2判定手段と、
前記第1判定手段により判定された前記オーディオ信号の種類に応じて前記入力オーディオ信号を補正し、また前記混合度合いに応じて前記入力オーディオ信号を補正する補正手段と、
を備えたことを特徴とするオーディオ信号補正装置。
【請求項2】
前記照合手段は、前記特徴パラメータと各参照モデルとを照合し、前記特徴パラメータが各参照モデルに属する各尤度を算出し、算出された各尤度の中から最大尤度を選択し、
前記第1判定手段は、前記最大尤度が閾値条件を満たす場合に、前記最大尤度の算出に使用された参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示す前記オーディオ信号の種類と判定し、
前記第2判定手段は、前記最大尤度が閾値条件を満たさない場合に、前記最大尤度に基づき前記特徴パラメータの音声成分と非音声成分の混合度合いを判定する、
ことを特徴とする請求項1に記載のオーディオ信号補正装置。
【請求項3】
前記第2判定手段は、人の声帯の振動に起因して現れる基本周波数に基づき、前記特徴パラメータの音声成分と非音声成分の混合度合いを判定することを特徴とする請求項1に記載のオーディオ信号補正装置。
【請求項4】
前記第2判定手段は、子音と母音の切り替わりに応じて発生する零交差数の変動性に基づき、前記特徴パラメータの音声成分と非音声成分の混合度合いを判定することを特徴とする請求項1に記載のオーディオ信号補正装置。
【請求項5】
入力オーディオ信号を所定時間単位の複数フレームに分割し、各分割フレームに含まれたLチャネル成分信号とRチャネル成分信号との差分信号を算出し、
各分割フレームから算出された各差分信号から1以上の特徴パラメータを算出し、
前記特徴パラメータと複数の参照モデルとを照合し、前記特徴パラメータが前記複数の参照モデルの中の所定の参照モデルに属する尤度を算出し、
前記尤度が閾値条件を満たす場合に、前記所定の参照モデルが示すオーディオ信号の種類を前記特徴パラメータが示すオーディオ信号の種類と判定し、この判定されたオーディオ信号の種類に応じて前記入力オーディオ信号を補正し、
前記尤度が前記閾値条件を満たさない場合に、前記特徴パラメータから音声成分と非音声成分の混合度合いを判定し、
前記混合度合いに応じて前記入力オーディオ信号を補正する、
ことを特徴とするオーディオ信号補正方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate