音質制御装置、音質制御方法及び音質制御用プログラム

【課題】オーディオ信号に対して、再生信号の特性と視聴時の周囲の環境音の特性に応じた適切な音質制御処理を施すことを可能とした音質制御装置、音質制御方法及び音質制御用プログラムを提供すること。
【解決手段】実施の形態によれば、音質制御装置は、補正ゲイン算出手段とスコア算出手段と音質制御手段と制御手段とを備える。補正ゲイン算出手段は、入力オーディオ信号の再生音が環境音にマスクされないように周波数帯域毎の補正ゲインを算出する。スコア算出手段は、入力オーディオ信号から音種別毎の確度を示すスコアを算出する。音質制御手段は、外部から供給される音質制御信号に基づいて入力オーディオ信号に音質制御処理を施す。制御手段は、補正ゲインとスコアとに基づいて音質制御信号を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明の実施の形態は、再生すべきオーディオ（可聴周波数）信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質制御処理を施す音質制御装置、音質制御方法及び音質制御用プログラムに関する。
【背景技術】
【０００２】
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質制御処理を施すことによって、より一層の高音質化を図るようにしている。また、テレビ等の視聴時に周囲の背景雑音（環境音）によってテレビのコンテンツ再生音が聞きづらい状況において、再生音を補正する方法が提案されている。
【０００３】
このような状況において、特許文献１では、コンテンツのオーディオ再生信号とマイクから取得される環境音のラウドネス（あるいはレベル）との比較や再生信号の有音声・無音声判定に基づく音量制御や、環境音のスペクトル重心周波数に応じたイコライジング処理による補正を行うことで、環境音に応じたオーディオ再生信号の出力レベルを制御する技術が開示されている。
【０００４】
しかしながら、上記技術は、コンテンツのオーディオ再生信号の解析は有音声か無音声かの２値判定であり、またその判定結果に応じて音声であればより音量を大きく制御するものである。この場合、有音声判定の場合でも環境音の信号特性によっては必ずしも音声が聞きづらいとは限らず、その場合にはより過剰に音量が増大されることになり、不快な音量になる可能性がある。
【０００５】
また、上記技術は、コンテンツのオーディオ再生信号と環境音のラウドネス(あるいはレベル)との比較に応じた音量制御を行っているが、オーディオ再生信号の音種別に合った音質制御をしている訳ではなく、音量以外の音質制御（サラウンド、イコライザ、センター強調等）としては、必ずしも適切に制御されない。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２０１０−１５４３８８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
オーディオ信号に対して、再生信号の特性と視聴時の周囲の環境音の特性に応じた適切な音質制御処理を施すことを可能とした音質制御装置、音質制御方法及び音質制御用プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
実施の形態によれば、音質制御装置は、補正ゲイン算出手段とスコア算出手段と音質制御手段と制御手段とを備える。補正ゲイン算出手段は、入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する。スコア算出手段は、入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する。音質制御手段は、外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す。制御手段は、補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインと、スコア算出手段で算出された音種別毎のスコアとに基づいて、音質制御手段に供給する音質制御信号を生成する。
【図面の簡単な説明】
【０００９】
【図１】実施の形態におけるデジタルテレビジョン放送受信装置とそれを中心としたネットワークシステムの一例とを概略的に説明するために示す図。
【図２】同実施の形態におけるデジタルテレビジョン放送受信装置の主要な信号処理系の一例を説明するために示すブロック構成図。
【図３】同実施の形態におけるデジタルテレビジョン放送受信装置のオーディオ処理部に含まれる音質制御処理部の一例を説明するために示すブロック構成図。
【図４】同実施の形態における音質制御処理部に含まれる特徴パラメータ算出部が行なう動作の一例を説明するために示す図。
【図５】同実施の形態における特徴パラメータ算出部が行なう主要な処理動作の一例を説明するために示すフローチャート。
【図６】同実施の形態における音質制御処理部に含まれる音声・音楽識別スコア算出部及び音楽・背景音識別スコア算出部が行なう動作の一例を説明するために示すフローチャート。
【図７】同実施の形態における音質制御処理部に含まれる検出スコア算出部が行なう主要な処理動作の一例の一部を説明するために示すフローチャート。
【図８】同実施の形態における検出スコア算出部が行なう主要な処理動作の一例の他の部分を説明するために示すフローチャート。
【図９】同実施の形態における検出スコア算出部が行なう主要な処理動作の一例の残部を説明するために示すフローチャート。
【図１０】同実施の形態における音質制御処理部に含まれるマスキング補正ゲイン算出部が行なう動作の一例を説明するために示す図。
【図１１】同実施の形態における音質制御処理部に含まれる補正特性制御部が行なう主要な処理動作の一例の一部を説明するために示すフローチャート。
【図１２】同実施の形態における補正特性制御部が行なう主要な処理動作の一例の残部を説明するために示すフローチャート。
【図１３】同実施の形態における補正特性制御部が主要な処理動作中に使用する補正特性算出重み係数の一例を説明するために示す図。
【図１４】同実施の形態における音質制御処理部に含まれる音質制御部の一例を説明するために示すブロック構成図。
【図１５】同実施の形態における補正特性制御部が行なう主要な処理動作の他の例を説明するために示すフローチャート。
【図１６】同実施の形態における補正特性制御部が主要な処理動作中に使用する補正強度算出重み係数の一例を説明するために示す図。
【発明を実施するための形態】
【００１０】
以下、実施の形態について図面を参照して詳細に説明する。図１は、この実施の形態で説明するデジタルテレビジョン放送受信装置１１の外観と、このデジタルテレビジョン放送受信装置１１を中心として構成されるネットワークシステムの一例とを概略的に示している。
【００１１】
すなわち、デジタルテレビジョン放送受信装置１１は、主として、薄型のキャビネット１２と、このキャビネット１２を起立させて支持する支持台１３とから構成されている。そして、このキャビネット１２には、例えばＳＥＤ（surface-conduction electron-emitter display）表示パネルまたは液晶表示パネル等でなる平面パネル型の映像表示器１４、一対のスピーカ１５，１５、操作部１６、リモートコントローラ１７から送信される操作情報を受ける受光部１８、マイクロホンＭＩＣ等が設置されている。
【００１２】
また、このデジタルテレビジョン放送受信装置１１には、例えばＳＤ（secure digital）メモリカード、ＭＭＣ（multimedia card）及びメモリスティック等の第１のメモリカード１９が着脱可能となっており、この第１のメモリカード１９に対して番組や写真等の情報の記録再生が行なわれるようになっている。
【００１３】
さらに、このデジタルテレビジョン放送受信装置１１には、例えば契約情報等の記録された第２のメモリカード［ＩＣ（integrated circuit）カード等］２０が着脱可能となっており、この第２のメモリカード２０に対して情報の記録再生が行なわれるようになっている。
【００１４】
また、このデジタルテレビジョン放送受信装置１１は、第１のＬＡＮ（local area network）端子２１、第２のＬＡＮ端子２２、ＵＳＢ（universal serial bus）端子２３及びＩＥＥＥ（institute of electrical and electronics engineers）１３９４端子２４を備えている。
【００１５】
このうち、第１のＬＡＮ端子２１は、ＬＡＮ対応ＨＤＤ（hard disk drive）専用ポートとして使用される。すなわち、この第１のＬＡＮ端子２１は、それに接続されたＮＡＳ（network attached storage）であるＬＡＮ対応のＨＤＤ２５に対して、イーサネット（登録商標）により情報の記録再生を行なうために使用される。
【００１６】
このように、デジタルテレビジョン放送受信装置１１にＬＡＮ対応ＨＤＤ専用ポートとしての第１のＬＡＮ端子２１を設けることにより、他のネットワーク環境やネットワーク使用状況等に影響されることなく、ＨＤＤ２５に対してハイビジョン画質による放送番組の情報記録を安定して行なうことができる。
【００１７】
また、第２のＬＡＮ端子２２は、イーサネット（登録商標）を用いた一般的なＬＡＮ対応ポートとして使用される。すなわち、この第２のＬＡＮ端子２２は、ハブ２６を介して、ＬＡＮ対応のＨＤＤ２７、ＰＣ（personal computer）２８、ＨＤＤ内蔵のＤＶＤ（digital versatile disk）レコーダ２９等の機器を接続して、例えば家庭内ネットワークを構築し、これらの機器と情報伝送を行なうために使用される。
【００１８】
この場合、ＰＣ２８及びＤＶＤレコーダ２９については、それぞれ、家庭内ネットワークにおいてコンテンツのサーバ機器として動作するための機能を持ち、さらにコンテンツのアクセスに必要なＵＲＩ（uniform resource identifier）情報を提供するサービスを備えたＵＰｎＰ（universal plug and play）対応機器として構成される。
【００１９】
なお、ＤＶＤレコーダ２９については、第２のＬＡＮ端子２２を介して通信されるデジタル情報が制御系のみの情報であるため、デジタルテレビジョン放送受信装置１１との間でアナログの映像及びオーディオ情報を伝送するために、専用のアナログ伝送路３０が設けられている。
【００２０】
さらに、この第２のＬＡＮ端子２２は、ハブ２６に接続されたブロードバンドルータ３１を介して、例えばインターネット等の外部のネットワーク３２に接続される。そして、この第２のＬＡＮ端子２２は、ネットワーク３２を介してＰＣ３３や携帯電話３４等と情報伝送を行なうためにも使用される。
【００２１】
また、上記ＵＳＢ端子２３は、一般的なＵＳＢ対応ポートとして使用されるもので、例えばハブ３５を介して、携帯電話３６、デジタルカメラ３７、メモリカードに対するカードリーダ／ライタ３８、ＨＤＤ３９、キーボード４０等のＵＳＢ機器を接続し、これらのＵＳＢ機器と情報伝送を行なうために使用される。
【００２２】
さらに、上記ＩＥＥＥ１３９４端子２４は、例えばＡＶ−ＨＤＤ４１及びＤ（digital）−ＶＨＳ（video home system）４２等のような複数の情報記録再生機器をシリアル接続し、各機器と選択的に情報伝送を行なうために使用される。
【００２３】
図２は、上記したデジタルテレビジョン放送受信装置１１の主要な信号処理系を示している。すなわち、ＢＳ／ＣＳ（broadcasting satellite／communication satellite）デジタル放送受信用のアンテナ４３で受信した衛星デジタルテレビジョン放送信号は、入力端子４４を介して衛星デジタル放送用のチューナ４５に供給されることにより、所望のチャンネルの放送信号が選局される。
【００２４】
そして、このチューナ４５で選局された放送信号は、ＰＳＫ（phase shift keying）復調器４６及びＴＳ（transport stream）復号器４７に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部４８に出力される。
【００２５】
また、地上波放送受信用のアンテナ４９で受信した地上デジタルテレビジョン放送信号は、入力端子５０を介して地上デジタル放送用のチューナ５１に供給されることにより、所望のチャンネルの放送信号が選局される。
【００２６】
そして、このチューナ５１で選局された放送信号は、例えば日本ではＯＦＤＭ（orthogonal frequency division multiplexing）復調器５２及びＴＳ復号器５３に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。
【００２７】
また、上記地上波放送受信用のアンテナ４９で受信した地上アナログテレビジョン放送信号は、入力端子５０を介して地上アナログ放送用のチューナ５４に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ５４で選局された放送信号は、アナログ復調器５５に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。
【００２８】
ここで、上記信号処理部４８は、ＴＳ復号器４７，５３からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部５６及びオーディオ処理部５７に出力している。
【００２９】
また、上記信号処理部４８には、複数（図示の場合は４つ）の入力端子５８ａ，５８ｂ，５８ｃ，５８ｄが接続されている。これら入力端子５８ａ〜５８ｄは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置１１の外部から入力可能とするものである。
【００３０】
そして、上記信号処理部４８は、上記アナログ復調器５５及び各入力端子５８ａ〜５８ｄからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部５６及びオーディオ処理部５７に出力する。
【００３１】
グラフィック処理部５６は、信号処理部４８から供給されるデジタルの映像信号に、ＯＳＤ（on screen display）信号生成部５９で生成されるＯＳＤ信号を重畳して出力する機能を有する。このグラフィック処理部５６は、信号処理部４８の出力映像信号と、ＯＳＤ信号生成部５９の出力ＯＳＤ信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
【００３２】
グラフィック処理部５６から出力されたデジタルの映像信号は、映像処理部６０に供給される。この映像処理部６０は、入力されたデジタルの映像信号を、前記映像表示器１４で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器１４に出力して映像表示させるとともに、出力端子６１を介して外部に導出させる。
【００３３】
また、上記オーディオ処理部５７は、入力されたデジタルのオーディオ信号に対して、後述する音質制御処理を施した後、前記スピーカ１５で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ１５に出力されてオーディオ再生に供されるとともに、出力端子６２を介して外部に導出される。
【００３４】
さらに、このオーディオ処理部５７には、前記マイクロホンＭＩＣが接続されており、マイクロホンＭＩＣによって採取した周囲の環境音に対応した信号が供給されるようになっている。
【００３５】
ここで、このデジタルテレビジョン放送受信装置１１は、上記した各種の受信動作を含むその全ての動作を制御部６３によって統括的に制御されている。この制御部６３は、ＣＰＵ（central processing unit）６３ａを内蔵しており、前記操作部１６からの操作情報、または、リモートコントローラ１７から送出され前記受光部１８に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
【００３６】
この場合、制御部６３は、主として、そのＣＰＵ６３ａが実行する制御プログラムを格納したＲＯＭ（read only memory）６３ｂと、該ＣＰＵ６３ａに作業エリアを提供するＲＡＭ（random access memory）６３ｃと、各種の設定情報及び制御情報等が格納される不揮発性メモリ６３ｄとを利用している。
【００３７】
また、この制御部６３は、カードＩ／Ｆ（interface）６４を介して、前記第１のメモリカード１９が装着可能なカードホルダ６５に接続されている。これによって、制御部６３は、カードホルダ６５に装着された第１のメモリカード１９と、カードＩ／Ｆ６４を介して情報伝送を行なうことができる。
【００３８】
さらに、上記制御部６３は、カードＩ／Ｆ６６を介して、前記第２のメモリカード２０が装着可能なカードホルダ６７に接続されている。これにより、制御部６３は、カードホルダ６７に装着された第２のメモリカード２０と、カードＩ／Ｆ６６を介して情報伝送を行なうことができる。
【００３９】
また、上記制御部６３は、通信Ｉ／Ｆ６８を介して第１のＬＡＮ端子２１に接続されている。これにより、制御部６３は、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５と、通信Ｉ／Ｆ６８を介して情報伝送を行なうことができる。この場合、制御部６３は、ＤＨＣＰ（dynamic host configuration protocol）サーバ機能を有し、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５にＩＰ（internet protocol）アドレスを割り当てて制御している。
【００４０】
さらに、上記制御部６３は、通信Ｉ／Ｆ６９を介して第２のＬＡＮ端子２２に接続されている。これにより、制御部６３は、第２のＬＡＮ端子２２に接続された各機器（図１参照）と、通信Ｉ／Ｆ６９を介して情報伝送を行なうことができる。
【００４１】
また、上記制御部６３は、ＵＳＢＩ／Ｆ７０を介して前記ＵＳＢ端子２３に接続されている。これにより、制御部６３は、ＵＳＢ端子２３に接続された各機器（図１参照）と、ＵＳＢＩ／Ｆ７０を介して情報伝送を行なうことができる。
【００４２】
さらに、上記制御部６３は、ＩＥＥＥ１３９４Ｉ／Ｆ７１を介してＩＥＥＥ１３９４端子２４に接続されている。これにより、制御部６３は、ＩＥＥＥ１３９４端子２４に接続された各機器（図１参照）と、ＩＥＥＥ１３９４Ｉ／Ｆ７１を介して情報伝送を行なうことができる。
【００４３】
図３は、上記オーディオ処理部５７内に備えられる音質制御処理部７２を示している。この音質制御処理部７２では、入力端子７３に供給されたオーディオ信号が、直列接続された複数（図示の場合は４つ）の音質制御部７４，７５，７６，７７によって、それぞれ異なる種類の音質制御処理を施された後、出力端子７８から取り出される。
【００４４】
一例を言えば、音質制御部７４は入力オーディオ信号にリバーブ処理を施し、音質制御部７５は入力オーディオ信号にワイドステレオ処理を施し、音質制御部７６は入力オーディオ信号にセンター強調処理を施し、音質制御部７７は入力オーディオ信号にイコライザ処理を施している。
【００４５】
そして、これらの音質制御部７４〜７７にあっては、後述する補正特性制御部７９から各音質制御部７４〜７７に対してそれぞれ別個に生成されて出力される音質制御信号に基づいて、入力オーディオ信号に施す音質制御処理の強度が独立に制御されるようになっている。
【００４６】
一方、上記音質制御処理部７２では、入力端子７３に供給されたオーディオ信号が特徴パラメータ算出部８０に供給されている。この特徴パラメータ算出部８０は、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータ、音楽信号と例えばＢＧＭ（back ground music）、拍手及び歓声等の背景音となる背景音信号とを判別するための各種の特徴パラメータ、音声や音楽の信号とノイズ信号とを判別するための各種の特徴パラメータ等を算出している。
【００４７】
この場合、特徴パラメータ算出部８０は、入力されたオーディオ信号を、図４（ａ）に示すように、数１００ｍｓｅｃ程度のフレーム単位に切り出し、さらに、図４（ｂ）に示すように、各フレームを数１０ｍｓｅｃ程度のサブフレームに分割する。そして、サブフレーム単位で各種の特徴パラメータを生成するための判別情報を取得し、取得した判別情報のフレーム単位での統計量を算出することにより、特徴パラメータを算出する処理を行なっている。
【００４８】
すなわち、特徴パラメータ算出部８０では、入力されたオーディオ信号から、サブフレーム単位で、音声信号と音楽信号とを判別するための各種の判別情報、音楽信号と背景音信号とを判別するための各種の判別情報、音声や音楽の信号とノイズ信号とを判別するための各種の判別情報等を取得し、取得した各種の判別情報それぞれについて、フレーム単位での統計量（例えば平均，分散，最大，最小等）を求めることにより、種々の特徴パラメータを算出している。
【００４９】
例えば、特徴パラメータ算出部８０では、サブフレーム単位で入力オーディオ信号の信号振幅の二乗和であるパワー値を判別情報として算出し、その算出されたパワー値に対するフレーム単位での統計量を求めることにより、パワー値に関する特徴パラメータｐｗを生成している。
【００５０】
また、特徴パラメータ算出部８０では、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数を判別情報として算出し、その算出された零交差周波数に対するフレーム単位での統計量を求めることにより、零交差周波数に関する特徴パラメータｚｃを生成している。
【００５１】
さらに、特徴パラメータ算出部８０では、サブフレーム単位で入力オーディオ信号の周波数領域でのスペクトル変動を判別情報として算出し、その算出されたスペクトル変動に対するフレーム単位での統計量を求めることにより、スペクトル変動に関する特徴パラメータｓｆを生成している。
【００５２】
また、特徴パラメータ算出部８０では、サブフレーム単位で入力オーディオ信号における２チャンネルステレオの左右（ＬＲ）信号のパワー比（ＬＲパワー比）を判別情報として算出し、その算出されたＬＲパワー比に対するフレーム単位での統計量を求めることにより、ＬＲパワー比に関する特徴パラメータｌｒを生成している。
【００５３】
さらに、特徴パラメータ算出部８０では、サブフレーム単位で入力オーディオ信号のスペクトル平坦度を判別情報として算出し、その算出されたスペクトル平坦度に対するフレーム単位での統計量を求めることにより、ノイズ信号に関する特徴パラメータＳＦＭを生成している。
【００５４】
図５は、上記特徴パラメータ算出部８０が、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータ、音楽信号と背景音信号とを判別するための各種の特徴パラメータ、音声や音楽の信号とノイズ信号とを判別するための各種の特徴パラメータを生成する処理動作の一例をまとめたフローチャートを示している。
【００５５】
まず、処理が開始（ステップＳ５ａ）されると、特徴パラメータ算出部８０は、ステップＳ５ｂで、入力オーディオ信号から数１０ｍｓｅｃ程度のサブフレームを抽出する。そして、特徴パラメータ算出部８０は、ステップＳ５ｃで、入力オーディオ信号からサブフレーム単位でのパワー値を算出する。
【００５６】
その後、特徴パラメータ算出部８０は、ステップＳ５ｄで、入力オーディオ信号からサブフレーム単位での零交差周波数を算出し、ステップＳ５ｅで、入力オーディオ信号からサブフレーム単位でのスペクトル変動を算出し、ステップＳ５ｆで、入力オーディオ信号からサブフレーム単位でのＬＲパワー比を算出する。
【００５７】
また、特徴パラメータ算出部８０は、ステップＳ５ｇで、入力オーディオ信号からサブフレーム単位でスペクトル平坦度を算出する。同様に、特徴パラメータ算出部８０は、ステップＳ５ｈで、入力オーディオ信号からサブフレーム単位で他の算出可能な判別情報を算出する。
【００５８】
その後、特徴パラメータ算出部８０は、ステップＳ５ｉで、サブフレーム単位で算出された各種の判別情報が、数１００ｍｓｅｃ程度のフレーム分蓄積されると、ステップＳ５ｊで、各種の判別情報に対してそれぞれフレーム単位での統計量を求めることにより種々の特徴パラメータを生成し、処理を終了（ステップＳ５ｋ）する。
【００５９】
上記のようにして、特徴パラメータ算出部８０で生成された各種の特徴パラメータは、再び、図３に示すように、音声・音楽識別スコア算出部８１、音楽・背景音識別スコア算出部８２及び検出スコア算出部８３にそれぞれ供給される。
【００６０】
このうち、音声・音楽識別スコア算出部８１は、特徴パラメータ算出部８０で生成された各種の特徴パラメータに基づいて、入力端子７３に供給されたオーディオ信号が、スピーチのような音声信号の特性に近いか、音楽（楽曲）信号の特性に近いかを定量的に示す音声・音楽識別スコアＳ１を算出し、上記検出スコア算出部８３に出力している。
【００６１】
また、音楽・背景音識別スコア算出部８２は、特徴パラメータ算出部８０で生成された各種の特徴パラメータに基づいて、入力端子７３に供給されたオーディオ信号が、音楽信号の特性に近いか、背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアＳ２を算出し、上記検出スコア算出部８３に出力している。
【００６２】
この検出スコア算出部８３は、詳細は後述するが、音声・音楽識別スコアＳ１、音楽・背景音識別スコアＳ２及び特徴パラメータに基づいて、入力端子７３に供給されたオーディオ信号に、音声信号が含まれている確度を示す音声スコアＳＳ、音楽信号が含まれている確度を示す音楽スコアＳＭ、ノイズ信号が含まれている確度を示すノイズスコアＳＮを生成している。
【００６３】
ここで、上記音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出について説明するに先立ち、各種の特徴パラメータの性質について説明しておくことにする。まず、上記パワー値に関する特徴パラメータｐｗについて説明する。すなわち、パワー変動に関して言えば、一般に、音声は、発話している区間と沈黙している区間とが交互に現れるため、サブフレーム間での信号パワーの違いが大きくなり、フレーム単位で見ると各サブフレーム間のパワー値の分散が大きくなる傾向にある。ここでパワー変動とは、サブフレームにおいて計算したパワー値について、より長いフレーム区間内での値の変動に着目した特徴量を指し、具体的にはパワーの分散値等を用いる。
【００６４】
また、上記零交差周波数に関する特徴パラメータｚｃについて説明すると、零交差周波数に関して言えば、前述した発話区間と沈黙区間との違いに加えて、音声信号は零交差周波数が子音では高く母音では低くなるため、フレーム単位で見ると各サブフレーム間の零交差周波数の分散が大きくなる傾向にある。
【００６５】
さらに、上記スペクトル変動に関する特徴パラメータｓｆについて説明すると、スペクトル変動に関して言えば、音声信号は、音楽信号のようにトーナル（調音構造的）な信号に比べて周波数特性の変動が激しいため、フレーム単位で見るとスペクトル変動分散が大きくなる傾向にある。
【００６６】
また、上記したＬＲパワー比に関する特徴パラメータｌｒについて説明すると、ＬＲパワー比に関して言えば、音楽信号では、ボーカル以外の楽器演奏がセンター以外に定位していることが多いため、左右のチャンネル間のパワー比が大きくなる傾向にある。
【００６７】
さらに、上記ノイズ信号に関する特徴パラメータＳＦＭについて説明すると、この特徴パラメータＳＦＭは、ノイズ信号に典型的に見られるスペクトル平坦度を利用しており、このスペクトル平坦度に対するフレーム単位での統計量を求めることにより生成することができる。
【００６８】
次に、上記音声・音楽識別スコア算出部８１及び音楽・背景音識別スコア算出部８２における音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出について説明する。音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出手法については１つの手法に特定しないが、ここでは、線形識別関数を用いた算出手法について説明する。
【００６９】
線形識別関数を用いる手法では、音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出に必要な各種特徴パラメータに乗ずる重み付け係数をオフライン学習により算出している。この重み付け係数としては、信号種別の判別に効果の高い特徴パラメータほど大きい値が与えられる。
【００７０】
また、重み付け係数は、音声・音楽識別スコアＳ１については、予め準備した多くの既知の音声信号及び音楽信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出され、音楽・背景音識別スコアＳ２については、予め準備した多くの既知の音楽信号及び背景音信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。
【００７１】
まず、音声・音楽識別スコアＳ１の算出について説明すると、今、学習対象とする参照データのｋ番目のフレームの特徴パラメータセットをベクトルｘで表わし、入力オーディオ信号が属する信号区間｛音声、音楽｝としてｚで以下のように表わすものとする。
【００７２】
ｘ^ｋ＝（１，ｘ_１^ｋ，ｘ_２^ｋ，……，ｘ_ｎ^ｋ） … （１）
ｚ^ｋ＝｛−１，＋１｝ … （２）
ここで、上記（１）式の各要素は、抽出したｎ個の特徴パラメータに対応する。また、上記（２）式の−１，＋１は、それぞれ、音声区間及び音楽区間に対応し、使用する音声・音楽判別用の参照データの正解信号種別となる区間について、予め人手で２値のラベル付けをしたものである。さらに、上記（２）式より、以下の線形識別関数を立てる。
【００７３】
ｆ（ｘ）＝Ａ_０＋Ａ_１・ｘ_１＋Ａ_２・ｘ_２＋……＋Ａ_ｎ・ｘ_ｎ … （３）
ｋ＝１〜Ｎ（Ｎは参照データの入力フレーム数）に対し、ベクトルｘを抽出し、（３）式の評価値と（２）式の正解信号種別との誤差二乗和である（４）式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数Ａ_ｉ（ｉ＝０〜ｎ）が決定される。
【数１】

【００７４】
学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を（３）式より計算し、ｆ（ｘ）＜０であれば音声区間、ｆ（ｘ）＞０であれば音楽区間と判定する。そして、このときのｆ（ｘ）が上記音声・音楽識別スコアＳ１に相当する。これにより、
Ｓ１＝Ａ_０＋Ａ_１・ｘ_１＋Ａ_２・ｘ_２＋……＋Ａ_ｎ・ｘ_ｎ
が算出される。
【００７５】
また、音楽・背景音識別スコアＳ２の算出についても同様に、学習対象とする参照データのｋ番目のフレームの特徴パラメータセットをベクトルｙで表わし、入力オーディオ信号が属する信号区間｛背景音、音楽｝としてｚで以下のように表わすものとする。
【００７６】
ｙ^ｋ＝（１，ｙ_１^ｋ，ｙ_２^ｋ，……，ｙ_ｍ^ｋ） … （５）
ｚ^ｋ＝｛−１，＋１｝ … （６）
ここで、上記（５）式の各要素は、抽出したｍ個の特徴パラメータに対応する。また、上記（６）式の−１，＋１は、それぞれ、背景音区間及び音楽区間に対応し、使用する音楽・背景音判別用の参照データの正解信号種別となる区間について、予め人手で２値のラベル付けをしたものである。さらに、上記（６）式より、以下の線形識別関数を立てる。
【００７７】
ｆ（ｙ）＝Ｂ_０＋Ｂ_１・ｙ_１＋Ｂ_２・ｙ_２＋……＋Ｂ_ｍ・ｙ_ｍ … （７）
ｋ＝１〜Ｎ（Ｎは参照データの入力フレーム数）に対し、ベクトルｙを抽出し、（７）式の評価値と（６）式の正解信号種別との誤差二乗和である（８）式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数Ｂ_ｉ（ｉ＝０〜ｍ）が決定される。
【数２】

【００７８】
学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を（７）式より計算し、ｆ（ｙ）＜０であれば背景音区間、ｆ（ｙ）＞０であれば音楽区間と判定する。そして、このときのｆ（ｙ）が上記音楽・背景音識別スコアＳ２に相当する。これにより、
Ｓ２＝Ｂ_０＋Ｂ_１・ｙ_１＋Ｂ_２・ｙ_２＋……＋Ｂ_ｍ・ｙ_ｍ
が算出される。
【００７９】
なお、音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出については、上記した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴パラメータに乗ずる手法に限定されるものではなく、例えば各特徴パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各特徴パラメータに重み付けされた得点を付与し、スコアを算出する等の手法も用いることが可能である。
【００８０】
図６は、上記のように線形識別関数を用いたオフライン学習で算出した各特徴パラメータの重み付け係数に基づき、音声・音楽識別スコア算出部８１及び音楽・背景音識別スコア算出部８２が音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２を算出する処理動作の一例をまとめたフローチャートを示している。
【００８１】
すなわち、処理が開始（ステップＳ６ａ）されると、音声・音楽識別スコア算出部８１は、ステップＳ６ｂで、特徴パラメータ算出部８０で算出される各種の特徴パラメータに対して、予め学習した音声・音楽判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・音楽識別スコア算出部８１は、ステップＳ６ｃで、重み付け係数を乗じた各特徴パラメータの総和を、音声・音楽識別スコアＳ１として算出する。
【００８２】
また、音楽・背景音識別スコア算出部８２は、ステップＳ６ｄで、特徴パラメータ算出部８０で算出される各種の特徴パラメータに対して、予め学習した音楽・背景音判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・背景音識別スコア算出部８２は、ステップＳ６ｅで、重み付け係数を乗じた各特徴パラメータの総和を、音楽・背景音識別スコアＳ２として算出し、処理を終了（ステップＳ６ｆ）する。
【００８３】
図７乃至図９は、上記検出スコア算出部８３が、音声・音楽識別スコアＳ１、音楽・背景音識別スコアＳ２及び特徴パラメータに基づいて、音声スコアＳＳ、音楽スコアＳＭ及びノイズスコアＳＮを生成する処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ７ａ）されると、検出スコア算出部８３には、ステップＳ７ｂで、音声・音楽識別スコアＳ１、音楽・背景音識別スコアＳ２及び特徴パラメータが供給される。
【００８４】
すると、検出スコア算出部８３は、ステップＳ７ｃで、音声・音楽識別スコアＳ１が負値（Ｓ１＜０、つまり、音楽より音声に近い）であるか否かを判別し、負値であると判断された場合（ＹＥＳ）、ステップＳ７ｄで、音楽・背景音識別スコアＳ２が正値（Ｓ２＞０、つまり、背景音より音楽に近い）であるか否かを判別する。
【００８５】
そして、音楽・背景音識別スコアＳ２が正値であると判断された場合（ＹＥＳ）、つまり、Ｓ１＜０かつＳ２＞０のとき、検出スコア算出部８３は、ステップＳ７ｅで、音声・音楽識別スコアＳ１が負値であるため、その絶対値をとった値、つまり、|Ｓ１|を音声スコアＳＳとして設定する。その後、検出スコア算出部８３は、ステップＳ７ｆで、音声信号特性に近いので音楽スコアＳＭを０に設定する。
【００８６】
また、上記ステップＳ７ｄで音楽・背景音識別スコアＳ２が正値でない（Ｓ２＜０、つまり、音楽より背景音に近い）と判断された場合（ＮＯ）、つまり、Ｓ１＜０かつＳ２＜０のとき、検出スコア算出部８３は、ステップＳ７ｇで、音声・音楽識別スコアＳ１が負値であるため、その絶対値をとった値、つまり、|Ｓ１|に、背景音に含まれる音声成分を考慮してαｓ・|Ｓ２|を加算した値（|Ｓ１|＋αｓ・|Ｓ２|）を、音声スコアＳＳとして設定する。この場合、音楽・背景音識別スコアＳ２が負値であるため、その絶対値を取った値|Ｓ２|に、音声成分に関して予め設定された所定の重み付け係数αｓを乗算することになる。その後、検出スコア算出部８３は、ステップＳ７ｈで、音声信号特性に近いので音楽スコアＳＭを０に設定する。
【００８７】
そして、上記ステップＳ７ｆまたはステップＳ７ｈの後、検出スコア算出部８３は、ステップＳ７ｉで、音声スコアＳＳを安定化させるための補正値ＳＳ３及び音楽スコアＳＭを安定化させるための補正値ＳＭ３を更新する。この更新処理は、連続してＣｓ回以上、音声スコアＳＳが正値（ＳＳ＞０）であった場合、既に算出されている安定化補正値ＳＳ３に、音声成分に関して予め設定された所定の安定化係数βｓを加算した値（ＳＳ３＋βｓ）を、音声スコアＳＳに対する新たな安定化補正値ＳＳ３として更新する。また、既に算出されている安定化補正値ＳＭ３から、音楽成分に関して予め設定された所定の安定化係数γｍを減算した値（ＳＭ３−γｍ）を、音楽スコアＳＭに対する新たな安定化補正値ＳＭ３として更新する。
【００８８】
一方、上記ステップＳ７ｃで音声・音楽識別スコアＳ１が負値でない（Ｓ１＞０、つまり、音声より音楽に近い）と判断された場合（ＮＯ）、検出スコア算出部８３は、ステップＳ８ａで、音楽・背景音識別スコアＳ２が正値（Ｓ２＞０、つまり、背景音より音楽に近い）であるか否かを判別する。
【００８９】
そして、音楽・背景音識別スコアＳ２が正値であると判断された場合（ＹＥＳ）、つまり、Ｓ１＞０かつＳ２＞０のとき、検出スコア算出部８３は、ステップＳ８ｂで、音楽信号特性に近いので音声スコアＳＳを０に設定する。その後、検出スコア算出部８３は、ステップＳ８ｃで、音声・音楽識別スコアＳ１を音楽スコアＳＭとして設定する。
【００９０】
また、上記ステップＳ８ａで音楽・背景音識別スコアＳ２が正値でない（Ｓ２＜０、つまり、音楽より背景音に近い）と判断された場合（ＮＯ）、つまり、Ｓ１＞０かつＳ２＜０のとき、検出スコア算出部８３は、ステップＳ８ｄで、音声・音楽識別スコアＳ１を負値にして音声度合いに対応させた値、つまり、−Ｓ１に、背景音に含まれる音声成分を考慮してαｓ・|Ｓ２|を加算した値（−Ｓ１＋αｓ・|Ｓ２|）を、音声スコアＳＳとして設定する。この場合、音楽・背景音識別スコアＳ２が負値であるため、その絶対値を取った値|Ｓ２|に、音声成分に関して予め設定された所定の重み付け係数αｓを乗算することになる。
【００９１】
その後、検出スコア算出部８３は、ステップＳ８ｅで、音声・音楽識別スコアＳ１から背景音に含まれる音楽成分を考慮してαｍ・|Ｓ２|を減算した値（Ｓ１−αｍ・|Ｓ２|）を、音楽スコアＳＭとして設定する。この場合、音楽・背景音識別スコアＳ２が負値であるため、その絶対値を取った値|Ｓ２|に、音楽成分に関して予め設定された所定の重み付け係数αｍを乗算することになる。
【００９２】
そして、上記ステップＳ８ｃまたはステップＳ８ｅの後、検出スコア算出部８３は、ステップＳ８ｆで、音声スコアＳＳを安定化させるための補正値ＳＳ３及び音楽スコアＳＭを安定化させるための補正値ＳＭ３を更新する。この更新処理は、連続してＣｍ回以上、音楽スコアＳＭが正値（ＳＭ＞０）であった場合、既に算出されている安定化補正値ＳＳ３から、音声成分に関して予め設定された所定の安定化係数γｓを減算した値（ＳＳ３−γｓ）を、音声スコアＳＳに対する新たな安定化補正値ＳＳ３として更新する。また、既に算出されている安定化補正値ＳＭ３に、音楽成分に関して予め設定された所定の安定化係数βｍを加算した値（ＳＭ３＋βｍ）を、音楽スコアＳＭに対する新たな安定化補正値ＳＭ３として更新する。
【００９３】
ここで、上記ステップＳ７ｉまたはステップＳ８ｆの後、検出スコア算出部８３は、ステップＳ７ｊで、安定化補正値ＳＳ３及びＳＭ３をクリップする。これは、音声スコアＳＳに対する安定化補正値ＳＳ３を、予め設定された最小値ＳＳ３ｍｉｎと最大値ＳＳ３ｍａｘとの範囲内に収める、つまり、ＳＳ３ｍｉｎ≦ＳＳ３≦ＳＳ３ｍａｘとしている。また、音楽スコアＳＭに対する安定化補正値ＳＭ３を、予め設定された最小値ＳＭ３ｍｉｎと最大値ＳＭ３ｍａｘとの範囲内に収める、つまり、ＳＭ３ｍｉｎ≦ＳＭ３≦ＳＭ３ｍａｘとしている。
【００９４】
その後、検出スコア算出部８３は、ステップＳ９ａで、クリップされた安定化補正値ＳＳ３を音声スコアＳＳに加算することにより、音声スコアＳＳに対する安定化補正処理を行なうとともに、クリップされた安定化補正値ＳＭ３を音楽スコアＳＭに加算することにより、音楽スコアＳＭに対する安定化補正処理を実行する。
【００９５】
次に、上記検出スコア算出部８３は、ステップＳ９ｂで、ノイズ・非ノイズ識別ベーススコアＳ３を算出する。このノイズ・非ノイズ識別ベーススコアＳ３の算出は、特徴パラメータＳＦＭを利用しており、複数の周波数帯域（低域、中域、高域）毎のスペクトル平坦度に対する統計量を求めることにより算出される。
【００９６】
その後、検出スコア算出部８３は、ステップＳ９ｃで、ノイズ・非ノイズ識別ベーススコアＳ３が正値（Ｓ３＞０）であるか否かを判別し、正値であると判断された場合（ＹＥＳ）、ステップＳ９ｄで、ノイズ・非ノイズ識別ベーススコアＳ３をノイズスコアＳＮとして設定する。また、上記ステップＳ９ｃでノイズ・非ノイズ識別ベーススコアＳ３が正値でないと判断された場合（ＮＯ）、検出スコア算出部８３は、ステップＳ９ｅで、ノイズスコアＳＮを０に設定する。
【００９７】
そして、上記ステップＳ９ｄまたはステップＳ９ｅの後、検出スコア算出部８３は、ステップＳ９ｆで、設定されたノイズスコアＳＮに対して安定化補正処理やクリッピング処理を施し、ステップＳ９ｇで、スコア間調整補正を実行して処理を終了（ステップＳ９ｈ）する。
【００９８】
このスコア間調整補正は、設定された音声スコアＳＳ、音楽スコアＳＭ及びノイズスコアＳＮ相互間のバランス調整を行なうもので、例えば音楽スコアＳＭ及びノイズスコアＳＮが共に規定値より大きい場合には、主観的な印象に合わせるため音楽スコアＳＭをノイズスコアＳＮに応じて低くするように補正する等の動作である。
【００９９】
そして、上記検出スコア算出部８３は、スコア間調整補正処理が施された音声スコアＳＳ、音楽スコアＳＭ及びノイズスコアＳＮを、前記補正特性制御部７９（図３参照）に出力している。
【０１００】
ここで、再び図３に示すように、音質制御処理部７２は、環境音マスキング特性算出部８４を備えている。この環境音マスキング特性算出部８４には、入力端子８５を介して周囲の環境音に対応した信号が供給されている。この場合、入力端子８５に供給される信号は、前記マイクロホンＭＩＣで採取した周囲の環境音に対応した信号から、エコーキャンセラ等を用いてオーディオ信号の再生音の回り込み成分を抑制したものとなっている。
【０１０１】
そして、この環境音マスキング特性算出部８４は、入力端子８５に供給された環境音信号レベルに対し、聴覚の周波数マスキング特性を参照してノイズマスキングレベルを算出している。このノイズマスキングレベルの算出は、環境音信号を時間周波数変換した周波数帯域毎のパワーに基づいた周波数マスキング特性を、全帯域の周波数成分に対して重ね合わせることで実現される。
【０１０２】
この環境音マスキング特性算出部８４で算出されたノイズマスキングレベルは、マスキング補正ゲイン算出部８６に供給される。このマスキング補正ゲイン算出部８６は、図１０に示すように、オーディオ信号の周波数特性（パワー）が、環境音マスキング特性算出部８４で算出されたノイズマスキングレベル以下の帯域に対して、信号成分がノイズに埋もれて聴取しにくい事態が生じないように、図中矢印で示すように、ノイズマスキングレベル以上に引き上げるためのゲイン係数を、補正ゲイン値として周波数帯域毎に算出している。
【０１０３】
ただし、過大なゲイン補正や、時系列での急激なゲインの変化は、聴感状の違和感を招くので、算出したゲイン係数に対してクリッピング処理や時間平滑化処理を施した値を補正ゲイン値Ｇm［k］としている。なお、ｋは、周波数帯域を示すインデックスである。そして、マスキング補正ゲイン算出部８６は、算出した補正ゲイン値Ｇm［k］を上記補正特性制御部７９に出力している。
【０１０４】
この補正特性制御部７９は、検出スコア算出部８３から供給される音声スコアＳＳ、音楽スコアＳＭ及びノイズスコアＳＮや、マスキング補正ゲイン算出部８６から供給される補正ゲイン値Ｇm［k］等に基づいて、各音質制御部７４〜７７に対して音質制御処理の強度を独立に制御するための音質制御信号をそれぞれ生成している。
【０１０５】
図１１及び図１２は、この補正特性制御部７９が、音声スコアＳＳ、音楽スコアＳＭ、ノイズスコアＳＮ及び補正ゲイン値等に基づいて、入力オーディオ信号にイコライザ処理を施す音質制御部７７に対して音質制御を行なう処理動作の一例をまとめたフローチャートを示している。
【０１０６】
すなわち、処理が開始（ステップＳ１１ａ）されると、補正特性制御部７９は、ステップＳ１１ｂで、上記したマスキング補正ゲイン算出部８６から供給される補正ゲイン値Ｇm［k］（＞１．０）を正規化する。以下、正規化された補正ゲインをＧmn［k］と表わす。この場合、下式に示すように、全帯域（周波数帯域を示すインデックスの最小値１から最大値ｋまで）に渡って底上げするゲイン成分、つまり、
Ｇmg＝min（Ｇm［1］，Ｇm［2］，……，Ｇm［k］）
をグローバル補正ゲインＧmgとして算出し、このグローバル補正ゲインＧmgを基準に、下式のように正規化する。
【０１０７】
Ｇmn［k］＝Ｇm［k］／Ｇmg
なお、min（Ｇmn［k］）＝１．０となる。
【０１０８】
次に、補正特性制御部７９は、ステップＳ１１ｃで、検出スコア算出部８３から供給される音声スコアＳＳ、音楽スコアＳＭ及びノイズスコアＳＮを比較して、最もスコアが高い音種別、つまり、支配的な音種別が音声であるか否かを判別する。そして、支配的な音種別が音声である（つまり、音声スコアＳＳが最も高い）と判断された場合（ＹＥＳ）、補正特性制御部７９は、ステップＳ１１ｄで、後の処理で使用する補正特性算出重み係数を得るために、図１３（ａ）に一例を示すように、音声に対応して予め設定された係数群を選択する。これは、音声帯域以外の補正ゲインを抑圧するものであり、再生音が音声の場合に音声帯域以外の強調によって音声が聞きづらくなることを防ぐものである。
【０１０９】
その後、補正特性制御部７９は、ステップＳ１１ｅで、先に判別された支配的な音種別のスコア（音声スコアＳＳ）に対し、それ以外の他の音種別のスコアを考慮して、図１３（ａ）に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正音声スコアＳＳ´を生成する。具体的にいえば、補正音声スコアＳＳ´は、音声スコアＳＳから、音楽スコアＳＭ及びノイズスコアＳＮの大きい方を減算して得られる。すなわち、
ＳＳ´＝ＳＳ−max（ＳＭ，ＳＮ）
となる。
【０１１０】
また、上記ステップＳ１１ｃで支配的な音種別が音声でないと判断された場合（ＮＯ）、補正特性制御部７９は、ステップＳ１２ａで、支配的な音種別が音楽であるか否かを判別し、音楽である（つまり、音楽スコアＳＭが最も高い）と判断された場合（ＹＥＳ）、ステップＳ１２ｂで、後の処理で使用する補正特性算出重み係数を得るために、図１３（ｂ）に一例を示すように、音楽に対応して予め設定された係数群を選択する。これは、音楽の臨場感向上において重要となる低域及び高域以外の中域部の補正ゲインを抑圧するものであり、再生音が音楽の場合に音楽帯域（低域及び高域）以外の強調によって音楽の臨場感が低下することを防ぐものである。
【０１１１】
その後、補正特性制御部７９は、ステップＳ１２ｃで、先に判別された支配的な音種別のスコア（音楽スコアＳＭ）に対し、それ以外の他の音種別のスコアを考慮して、図１３（ｂ）に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正音楽スコアＳＭ´を生成する。具体的にいえば、補正音楽スコアＳＭ´は、音楽スコアＳＭから、音声スコアＳＳ及びノイズスコアＳＮの大きい方を減算して得られる。すなわち、
ＳＭ´＝ＳＭ−max（ＳＳ，ＳＮ）
となる。
【０１１２】
また、上記ステップＳ１２ａで支配的な音種別が音楽でないと判断された場合（ＮＯ）、補正特性制御部７９は、支配的な音種別がノイズである（つまり、ノイズスコアＳＮが最も高い）と判断し、ステップＳ１２ｄで、後の処理で使用する補正特性算出重み係数を得るために、図１３（ｃ）に一例を示すように、ノイズに対応して予め設定された係数群を選択する。これは、帯域全体の補正ゲインを抑圧するものであり、再生音がノイズの場合にゲイン補正による強調によって返ってうるさく聞きづらい音質になることを防ぐものである。
【０１１３】
その後、補正特性制御部７９は、ステップＳ１２ｅで、先に判別された支配的な音種別のスコア（ノイズスコアＳＮ）に対し、それ以外の他の音種別のスコアを考慮して、図１３（ｃ）に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正ノイズスコアＳＮ´を生成する。具体的にいえば、補正ノイズスコアＳＮ´は、ノイズスコアＳＮから、音声スコアＳＳ及び音楽スコアＳＭの大きい方を減算して得られる。すなわち、
ＳＮ´＝ＳＮ−max（ＳＳ，ＳＭ）
となる。
【０１１４】
そして、上記ステップＳ１１ｅ、ステップＳ１２ｃまたはステップＳ１２ｅの後、補正特性制御部７９は、ステップＳ１１ｆで、補正音声スコアＳＳ´、補正音楽スコアＳＭ´または補正ノイズスコアＳＮ´に基づいて、対応する補正特性算出重み係数群の中から係数を決定する。
【０１１５】
この場合、例えば、支配的な音種別が音声の場合には、補正音声スコアＳＳ´が大きいほど音声帯域の重み付けが高い係数が選択される。ただし、この係数は、音声帯域を強調するものではなく、音声帯域以外のゲイン補正による強調により音声が聴きづらくなることを抑制するためのものである。同様に、音楽の場合には、低域と高域とに重み付けを行ない、ノイズの場合には、スコアが大きいほど、全帯域に渡って強調を抑制する重み付けを行なう。
【０１１６】
そして、決定された補正特性算出重み係数に基づいて、正規化後の補正ゲインＧmn［k］が補正される。この場合、重み付け係数による補正後の補正ゲインＧmnw［k］は、補正特性算出重み係数をWg［k］とすると、
Ｇmnw［k］＝Wg［k］×Ｇmn［k］
となる。
【０１１７】
ただし、重み係数によりＧmn［k］が１．０以下になる場合には、Ｇmn［k］を１．０とする。これは、オーディオ信号の特性（音種別）によっては、環境音のマスキング特性に基づく補正ゲインにより過剰な補正や音色の変化を抑制する（ゲイン補正がフラットな特性になるようにする）ための対応である。
【０１１８】
例えば、オーディオ信号の支配的な音種別が音声で、環境音のマスキング特性に基づく補正ゲイン値が音声帯域を強調するような補正である場合には、重み係数をそのまま適用すると音声帯域が過剰に強調されてしまうが、補正ゲイン値を１．０以下にならないようにクリップすることにより、低域及び高域の周波数成分の減衰（音声帯域の強調）を抑制することができる。
【０１１９】
逆に、環境音のマスキング特性に基づく補正ゲイン値が音声帯域以外（低域あるいは高域）を強調するような、音種別と不整合な補正である場合には、音声が聞きづらくなる方向の補正につながるため、この補正ゲインを低下させるように重み付けが行なわれることになる。結果として、ゲイン補正の特性は、周波数領域でフラットに近づく方向の補正となるため、音色の変化の抑制につながる。なお、重み係数により抑制された補正ゲインは、グローバルゲインの補正により補償される。
【０１２０】
オーディオ信号の支配的な音種別が音楽の場合についても、周波数特性は逆になるが同様のことが言える。
【０１２１】
次に、補正特性制御部７９は、ステップＳ１１ｇで、重み係数により環境音のマスキング特性に基づくゲイン補正が満たせなくなる帯域に対する補償のため、重み係数により最も補正ゲイン値が低下したゲイン値、つまり、最も補正率が高かったゲインを算出する。すなわち、
min（Ｇmnw［k］／Ｇmn［k］）（＜１．０）
を探索し、この最大補正率をＲmnw_maxとする。ただし、Ｇmnw［k］が最小１．０でクリップされることを考慮して探索する。
【０１２２】
そして、補正特性制御部７９は、ステップＳ１１ｈで、最大補正率Ｒmnw_maxに基づいて、下式によりグローバル補正ゲインＧmgを補正したＧmgwを算出して、
Ｇmgw＝Ｇmg／Ｒmnw_max
処理を終了（ステップＳ１１ｉ）する。
【０１２３】
以上に説明した実施の形態によれば、入力オーディオ信号にイコライザ処理を施す音質制御部７７に対し、補正後の補正ゲインＧmnw［k］とグローバル補正ゲインＧmgwとを通知することによって、環境音に応じた適切な音質制御処理を施すことができるとともに、オーディオ信号の音種別（音声、音楽、ノイズ）に適した音質制御処理を施すことができるようになる。
【０１２４】
すなわち、環境音のマスキング特性に応じた周波数帯域毎のゲイン補正に対して、オーディオ信号の音種別判定を考慮して修正することにより、環境音に応じた適切な音質制御を行なうことができるとともに、過剰な音質制御やオーディオ信号の音種別判定と整合しない音質制御が行なわれることを抑制し、音色の変化を抑えた自然な音質の再生音を得ることが可能となる。
【０１２５】
また、上記した音質制御部７７によるイコライザ処理のように周波数帯域毎に補正強度を変更するものでない音質制御、例えば、音質制御部７４によるリバーブ処理、音質制御部７５によるワイドステレオ処理、音質制御部７６によるセンター強調処理等については、原音とその遅延信号とのミクシングゲインを変更することで補正強度を制御することができる。
【０１２６】
図１４は、音質制御部７７を除く各音質制御部７４〜７６のうち、入力オーディオ信号にリバーブ処理を施す音質制御部７４の一例を示している。なお、他の音質制御部７５，７６については、音質制御部７４とほぼ同様の構成及び動作を有するため、それらの説明は省略する。
【０１２７】
すなわち、音質制御部７４は、入力端子７４ａに供給されたオーディオ信号が、リバーブ処理部７４ｂ及び遅延補償部７４ｃにそれぞれ供給される。このうち、リバーブ処理部７４ｂは、入力オーディオ信号にエコー効果を与えるためのリバーブ処理を施した後、可変利得増幅部７４ｄに出力している。
【０１２８】
この可変利得増幅部７４ｄは、入力オーディオ信号に対して、上記補正特性制御部７９から出力され入力端子７４ｅを介して供給される音質制御信号に基づいた補正強度で増幅処理を施している。この場合、可変利得増幅部７４ｄのゲインＧは、音質制御信号に基づいて０．０〜１．０の範囲で可変される。
【０１２９】
また、上記遅延補償部７４ｃは、入力オーディオ信号とリバーブ処理部７４ｂから得られるオーディオ信号との処理遅延を吸収するために設けられている。この遅延補償部７４ｄから出力されたオーディオ信号は、可変利得増幅部７４ｆに供給される。
【０１３０】
この可変利得増幅部７４ｆは、可変利得増幅部７４ｄのゲインＧに対して、１．０−Ｇなるゲインで、入力オーディオ信号に増幅処理を施している。そして、上記可変利得増幅部７４ｄ，７４ｆから出力される各オーディオ信号は、加算部７４ｇにより加算されて、出力端子７８ｈから取り出される。
【０１３１】
なお、他の音質制御部７５，７６では、上記した音質制御部７４のリバーブ処理部７４ｂが、ワイドステレオ処理部、センター強調処理部等に入れ替わることになる。
【０１３２】
図１５は、上記した補正特性制御部７９が、音声スコアＳＳ、音楽スコアＳＭ、ノイズスコアＳＮ及び補正ゲイン値等に基づいて、入力オーディオ信号にリバーブ処理を施す音質制御部７４に対して音質制御を行なう処理動作の一例をまとめたフローチャートを示している。
【０１３３】
すなわち、処理が開始（ステップＳ１５ａ）されると、補正特性制御部７９は、ステップＳ１５ｂで、上記したマスキング補正ゲイン算出部８６から供給される補正ゲイン値Ｇm［k］を正規化する。この補正ゲイン値を正規化する手法は、先にステップＳ１１ｂの処理で説明した内容と同様である。
【０１３４】
次に、補正特性制御部７９は、ステップＳ１５ｃで、正規化された補正ゲイン値Ｇmn［k］に基づいて、音楽スコアＳＭを修正する補正スコアを算出するためのパラメータとして、音楽ゲイン補正ベース値Ｇbmを算出する。この音楽ゲイン補正ベース値Ｇbmは、正規化された補正ゲイン値Ｇmn［k］と、図１６（ｂ）に示すような補正強度算出重み係数Ｗsm［k］とから、下式により算出する。
【０１３５】
Ｇbm＝Σ（Ｗsm［k］×Ｇmn［k］）
図１６（ｂ）は、音楽に対応して予め設定された補正強度算出重み係数Ｗsm［k］の一例を示しており、中域に重み付けがなされている。つまり、音楽に関する典型的な周波数特性と相反する周波数特性を重視した係数となっている。このため、音楽ゲイン補正ベース値Ｇbmは、音楽信号において相対的に重視しない補正ゲイン値Ｇmn［k］をどの程度含むかを示す指標となっている。これは、音楽帯域以外のゲイン補正による度合いを考慮したもので、この値が大きいほど音楽帯域以外のゲイン補正が強いと推測されるため、音楽向けをより強くスコア補正するためのものである。
【０１３６】
次に、補正特性制御部７９は、ステップＳ１５ｄで、音楽ゲイン補正ベース値Ｇbmに基づいて、音楽スコアＳＭを修正するための音楽強度補正スコアＳbmを算出する。この音楽強度補正スコアＳbmは、音楽ゲイン補正ベース値Ｇbmに応じて高くなるように対応付けられるように変換される。例えば、Ｓbm＝α×Ｇbm（αは変換のための係数）の一次関数で変換した上で、音楽強度補正スコアＳbmの最大値でクリップ処理する。
【０１３７】
そして、補正特性制御部７９は、ステップＳ１５ｅで、音楽強度補正スコアＳbmを元の音楽スコアＳＭに加算する、つまり、
ＳＭ＝ＳＭ＋Ｓbm
なる演算を行なうことにより、音楽向けの音響効果（この場合、リバーブ処理）を強化するように音楽スコアＳＭの補正が行なわれる。
【０１３８】
同様に、補正特性制御部７９は、ステップＳ１５ｆで、正規化された補正ゲイン値Ｇmn［k］に基づいて、音声スコアＳＳを修正する補正スコアを算出するためのパラメータとして、音声ゲイン補正ベース値Ｇbsを算出する。この音声ゲイン補正ベース値Ｇbsは、正規化された補正ゲイン値Ｇmn［k］と、図１６（ａ）に示すような補正強度算出重み係数Ｗss［k］とから、下式により算出する。
【０１３９】
Ｇbs＝Σ（Ｗss［k］×Ｇmn［k］）
図１６（ａ）は、音声に対応して予め設定された補正強度算出重み係数Ｗss［k］の一例を示しており、音声帯域以外の帯域（低域及び高域）に重み付けがなされている。つまり、音声に関する典型的な周波数特性と相反する周波数特性を重視した係数となっている。このため、音声ゲイン補正ベース値Ｇbsは、音声信号において相対的に重視しない補正ゲイン値Ｇmn［k］をどの程度含むかを示す指標となっている。これは、音声帯域以外のゲイン補正による度合いを考慮したもので、この値が大きいほど音声帯域以外のゲイン補正が強いと推測されるため、音声向けをより強くスコア補正するためのものである。
【０１４０】
次に、補正特性制御部７９は、ステップＳ１５ｇで、音声ゲイン補正ベース値Ｇbsに基づいて、音声スコアＳＳを修正するための音声強度補正スコアＳbsを算出する。この音声強度補正スコアＳbsは、音声ゲイン補正ベース値Ｇbsに応じて高くなるように対応付けられるように変換される。例えば、Ｓbs＝β×Ｇbs（βは変換のための係数）の一次関数で変換した上で、音声強度補正スコアＳbsの最大値でクリップ処理する。
【０１４１】
そして、補正特性制御部７９は、ステップＳ１５ｈで、音声強度補正スコアＳbsを元の音声スコアＳＳに加算する、つまり、
ＳＳ＝ＳＳ＋Ｓbs
なる演算を行なうことにより、音声向けの音響効果を強化するように音声スコアＳＳの補正が行なわれる。
【０１４２】
その後、補正特性制御部７９は、ステップＳ１５ｉで、ステップＳ１５ｅにより補正された音楽スコアＳＭ及びステップＳ１５ｈにより補正された音声スコアＳＳに基づいて、音声制御部７４の入力端子７４ｅに供給する音質制御信号を生成し音声制御部７４に出力して、処理を終了（ステップＳ１５ｊ）する。
【０１４３】
図１４乃至図１６で説明した実施の形態によれば、環境音を考慮して音楽スコアＳＭ及び音声スコアＳＳを補正し、その補正された音楽スコアＳＭ及び音声スコアＳＳに基づいて生成した音質制御信号を、入力オーディオ信号にリバーブ処理を施す音質制御部７４に通知するようにしたので、環境音に応じた適切な音質制御処理を施すことができるとともに、オーディオ信号の音種別（音声、音楽）に適した音質制御処理を施すことができるようになる。
【０１４４】
すなわち、オーディオ信号の音種別に応じた音質制御を行なう際に、環境音のマスキング特性を考慮することにより、オーディオ信号の音種別に応じた適切な音質制御を行なうことができるとともに、環境音にマスキングされてしまうオーディオ信号の音質制御効果を高め、より効果的な音質制御を実現すると共に再生オーディオ信号に合っていない環境音による過剰な音質補正を防ぐことができる。
【０１４５】
また、上記した実施の形態では、補正すべき音質の要素として、リバーブ、ワイドステレオ、センター強調、イコライザ等を挙げたが、これに限らず、例えばサラウンド等を含む音質制御可能な各種の要素について音質制御を行なうことができることはもちろんである。
【０１４６】
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
【符号の説明】
【０１４７】
１１…デジタルテレビジョン放送受信装置、１２…キャビネット、１３…支持台、１４…映像表示器、１５…スピーカ、１６…操作部、１７…リモートコントローラ、１８…受光部、ＭＩＣ…マイクロホン、１９…第１のメモリカード、２０…第２のメモリカード、２１…第１のＬＡＮ端子、２２…第２のＬＡＮ端子、２３…ＵＳＢ端子、２４…ＩＥＥＥ１３９４端子、２５…ＨＤＤ、２６…ハブ、２７…ＨＤＤ、２８…ＰＣ、２９…ＤＶＤレコーダ、３０…アナログ伝送路、３１…ブロードバンドルータ、３２…ネットワーク、３３…ＰＣ、３４…携帯電話、３５…ハブ、３６…携帯電話、３７…デジタルカメラ、３８…カードリーダ／ライタ、３９…ＨＤＤ、４０…キーボード、４１…ＡＶ−ＨＤＤ、４２…Ｄ−ＶＨＳ、４３…アンテナ、４４…入力端子、４５…チューナ、４６…ＰＳＫ復調器、４７…ＴＳ復号器、４８…信号処理部、４９…アンテナ、５０…入力端子、５１…チューナ、５２…ＯＦＤＭ復調器、５３…ＴＳ復号器、５４…チューナ、５５…アナログ復調器、５６…グラフィック処理部、５７…オーディオ処理部、５８ａ〜５８ｄ…入力端子、５９…ＯＳＤ信号生成部、６０…映像処理部、６１，６２…出力端子、６３…制御部、６３ａ…ＣＰＵ、６３ｂ…ＲＯＭ、６３ｃ…ＲＡＭ、６３ｄ…不揮発性メモリ、６４…カードＩ／Ｆ、６５…カードホルダ、６６…カードＩ／Ｆ、６７…カードホルダ、６８，６９…通信Ｉ／Ｆ、７０…ＵＳＢＩ／Ｆ、７１…ＩＥＥＥ１３９４Ｉ／Ｆ、７２…音質制御処理部、７３…入力端子、７４…音質制御部、７４ａ…入力端子、７４ｂ…リバーブ処理部、７４ｃ…遅延補償部、７４ｄ…可変利得増幅部、７４ｅ…入力端子、７４ｆ…可変利得増幅部、７４ｇ…加算部、７４ｈ…出力端子、７５〜７７…音質制御部、７８…出力端子、７９…補正特性制御部、８０…特徴パラメータ算出部、８１…音声・音楽識別スコア算出部、８２…音楽・背景音識別スコア算出部、８３…検出スコア算出部、８４…環境音枚キング特性算出部、８５…入力端子、８６…マスキング補正ゲイン算出部。

【特許請求の範囲】
【請求項１】
入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する補正ゲイン算出手段と、
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出するスコア算出手段と、
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す音質制御手段と、
前記補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインと、前記スコア算出手段で算出された音種別毎のスコアとに基づいて、前記音質制御手段に供給する音質制御信号を生成する制御手段とを具備する音質制御装置。
【請求項２】
前記制御手段は、
前記スコア算出手段で算出された音種別毎のスコアを比較して支配的な音種別を判別する判別手段と、
前記音種別毎に予め設定された複数種類の重み係数の中から、前記判別手段で判別した音種別に対応した重み係数を選択する選択手段と、
前記選択手段で選択した周波数帯域毎の重み係数に基づいて、前記補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインを補正する補正手段とを具備する請求項１記載の音質制御装置。
【請求項３】
前記制御手段は、
前記スコア算出手段で算出された音種別毎のスコアを比較して支配的な音種別を判別する判別手段と、
前記音種別毎に予め設定され、それぞれが入力オーディオ信号の周波数帯域毎に複数の係数を選択可能に有する複数種類の重み係数の中から、前記判別手段で判別した音種別に対応した重み係数を選択する第１の選択手段と、
前記判別手段で判別された音種別以外の音種別に対応するスコアに基づいて、前記第１の選択手段で選択した重み係数に選択可能に含まれる複数の係数の中から所望の係数を選択する第２の選択手段と、
前記第２の選択手段で選択された入力オーディオ信号の周波数帯域毎の係数に基づいて、前記補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインを補正する補正手段とを具備する請求項１記載の音質制御装置。
【請求項４】
前記制御手段は、前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、音種別毎に予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音種別毎のスコアを補正する請求項１記載の音質制御装置。
【請求項５】
前記制御手段は、
前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、入力オーディオ信号に含まれる音声信号に対応して予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音声信号の含まれている確度を示す音声スコアを補正する音声スコア補正手段と、
前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、入力オーディオ信号に含まれる音楽信号に対応して予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音楽信号の含まれている確度を示す音楽スコアを補正する音楽スコア補正手段とを具備する請求項１記載の音質制御装置。
【請求項６】
前記スコア算出手段は、
入力オーディオ信号から音種別の判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、
前記特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、
前記特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する音楽背景音識別スコア算出手段と、
ノイズを判別するための特徴パラメータ、前記音声音楽識別スコア及び前記音楽背景音識別スコアに基づいて、音声信号の含まれている確度を示す音声スコア、音楽信号の含まれている確度を示す音楽スコア、ノイズ信号の含まれている確度を示すノイズスコアをそれぞれ算出する算出手段とを具備する請求項１記載の音質制御装置。
【請求項７】
前記音質制御手段は、入力オーディオ信号に対して、少なくともリバーブ処理、ワイドステレオ処理、センター強調処理、イコライザ処理、サラウンド処理のいずれかを施す請求項１記載の音質制御装置。
【請求項８】
入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する工程と、
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する工程と、
音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す工程と、
前記周波数帯域毎の補正ゲインと前記音種別毎のスコアとに基づいて、前記音質制御信号を生成する工程とを有する音質制御方法。
【請求項９】
入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する処理と、
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する処理と、
音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す処理と、
前記周波数帯域毎の補正ゲインと前記音種別毎のスコアとに基づいて、前記音質制御信号を生成する処理とを、コンピュータに実行させることを特徴とする音質制御用プログラム。

【図１】