説明

音質制御装置、音質制御方法及び音質制御用プログラム

【課題】オーディオ信号に対して、再生信号の特性と視聴時の周囲の環境音の特性に応じた適切な音質制御処理を施すことを可能とした音質制御装置、音質制御方法及び音質制御用プログラムを提供すること。
【解決手段】実施の形態によれば、音質制御装置は、補正ゲイン算出手段とスコア算出手段と音質制御手段と制御手段とを備える。補正ゲイン算出手段は、入力オーディオ信号の再生音が環境音にマスクされないように周波数帯域毎の補正ゲインを算出する。スコア算出手段は、入力オーディオ信号から音種別毎の確度を示すスコアを算出する。音質制御手段は、外部から供給される音質制御信号に基づいて入力オーディオ信号に音質制御処理を施す。制御手段は、補正ゲインとスコアとに基づいて音質制御信号を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明の実施の形態は、再生すべきオーディオ(可聴周波数)信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質制御処理を施す音質制御装置、音質制御方法及び音質制御用プログラムに関する。
【背景技術】
【0002】
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質制御処理を施すことによって、より一層の高音質化を図るようにしている。また、テレビ等の視聴時に周囲の背景雑音(環境音)によってテレビのコンテンツ再生音が聞きづらい状況において、再生音を補正する方法が提案されている。
【0003】
このような状況において、特許文献1では、コンテンツのオーディオ再生信号とマイクから取得される環境音のラウドネス(あるいはレベル)との比較や再生信号の有音声・無音声判定に基づく音量制御や、環境音のスペクトル重心周波数に応じたイコライジング処理による補正を行うことで、環境音に応じたオーディオ再生信号の出力レベルを制御する技術が開示されている。
【0004】
しかしながら、上記技術は、コンテンツのオーディオ再生信号の解析は有音声か無音声かの2値判定であり、またその判定結果に応じて音声であればより音量を大きく制御するものである。この場合、有音声判定の場合でも環境音の信号特性によっては必ずしも音声が聞きづらいとは限らず、その場合にはより過剰に音量が増大されることになり、不快な音量になる可能性がある。
【0005】
また、上記技術は、コンテンツのオーディオ再生信号と環境音のラウドネス(あるいはレベル)との比較に応じた音量制御を行っているが、オーディオ再生信号の音種別に合った音質制御をしている訳ではなく、音量以外の音質制御(サラウンド、イコライザ、センター強調等)としては、必ずしも適切に制御されない。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2010−154388号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
オーディオ信号に対して、再生信号の特性と視聴時の周囲の環境音の特性に応じた適切な音質制御処理を施すことを可能とした音質制御装置、音質制御方法及び音質制御用プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
実施の形態によれば、音質制御装置は、補正ゲイン算出手段とスコア算出手段と音質制御手段と制御手段とを備える。補正ゲイン算出手段は、入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する。スコア算出手段は、入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する。音質制御手段は、外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す。制御手段は、補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインと、スコア算出手段で算出された音種別毎のスコアとに基づいて、音質制御手段に供給する音質制御信号を生成する。
【図面の簡単な説明】
【0009】
【図1】実施の形態におけるデジタルテレビジョン放送受信装置とそれを中心としたネットワークシステムの一例とを概略的に説明するために示す図。
【図2】同実施の形態におけるデジタルテレビジョン放送受信装置の主要な信号処理系の一例を説明するために示すブロック構成図。
【図3】同実施の形態におけるデジタルテレビジョン放送受信装置のオーディオ処理部に含まれる音質制御処理部の一例を説明するために示すブロック構成図。
【図4】同実施の形態における音質制御処理部に含まれる特徴パラメータ算出部が行なう動作の一例を説明するために示す図。
【図5】同実施の形態における特徴パラメータ算出部が行なう主要な処理動作の一例を説明するために示すフローチャート。
【図6】同実施の形態における音質制御処理部に含まれる音声・音楽識別スコア算出部及び音楽・背景音識別スコア算出部が行なう動作の一例を説明するために示すフローチャート。
【図7】同実施の形態における音質制御処理部に含まれる検出スコア算出部が行なう主要な処理動作の一例の一部を説明するために示すフローチャート。
【図8】同実施の形態における検出スコア算出部が行なう主要な処理動作の一例の他の部分を説明するために示すフローチャート。
【図9】同実施の形態における検出スコア算出部が行なう主要な処理動作の一例の残部を説明するために示すフローチャート。
【図10】同実施の形態における音質制御処理部に含まれるマスキング補正ゲイン算出部が行なう動作の一例を説明するために示す図。
【図11】同実施の形態における音質制御処理部に含まれる補正特性制御部が行なう主要な処理動作の一例の一部を説明するために示すフローチャート。
【図12】同実施の形態における補正特性制御部が行なう主要な処理動作の一例の残部を説明するために示すフローチャート。
【図13】同実施の形態における補正特性制御部が主要な処理動作中に使用する補正特性算出重み係数の一例を説明するために示す図。
【図14】同実施の形態における音質制御処理部に含まれる音質制御部の一例を説明するために示すブロック構成図。
【図15】同実施の形態における補正特性制御部が行なう主要な処理動作の他の例を説明するために示すフローチャート。
【図16】同実施の形態における補正特性制御部が主要な処理動作中に使用する補正強度算出重み係数の一例を説明するために示す図。
【発明を実施するための形態】
【0010】
以下、実施の形態について図面を参照して詳細に説明する。図1は、この実施の形態で説明するデジタルテレビジョン放送受信装置11の外観と、このデジタルテレビジョン放送受信装置11を中心として構成されるネットワークシステムの一例とを概略的に示している。
【0011】
すなわち、デジタルテレビジョン放送受信装置11は、主として、薄型のキャビネット12と、このキャビネット12を起立させて支持する支持台13とから構成されている。そして、このキャビネット12には、例えばSED(surface-conduction electron-emitter display)表示パネルまたは液晶表示パネル等でなる平面パネル型の映像表示器14、一対のスピーカ15,15、操作部16、リモートコントローラ17から送信される操作情報を受ける受光部18、マイクロホンMIC等が設置されている。
【0012】
また、このデジタルテレビジョン放送受信装置11には、例えばSD(secure digital)メモリカード、MMC(multimedia card)及びメモリスティック等の第1のメモリカード19が着脱可能となっており、この第1のメモリカード19に対して番組や写真等の情報の記録再生が行なわれるようになっている。
【0013】
さらに、このデジタルテレビジョン放送受信装置11には、例えば契約情報等の記録された第2のメモリカード[IC(integrated circuit)カード等]20が着脱可能となっており、この第2のメモリカード20に対して情報の記録再生が行なわれるようになっている。
【0014】
また、このデジタルテレビジョン放送受信装置11は、第1のLAN(local area network)端子21、第2のLAN端子22、USB(universal serial bus)端子23及びIEEE(institute of electrical and electronics engineers)1394端子24を備えている。
【0015】
このうち、第1のLAN端子21は、LAN対応HDD(hard disk drive)専用ポートとして使用される。すなわち、この第1のLAN端子21は、それに接続されたNAS(network attached storage)であるLAN対応のHDD25に対して、イーサネット(登録商標)により情報の記録再生を行なうために使用される。
【0016】
このように、デジタルテレビジョン放送受信装置11にLAN対応HDD専用ポートとしての第1のLAN端子21を設けることにより、他のネットワーク環境やネットワーク使用状況等に影響されることなく、HDD25に対してハイビジョン画質による放送番組の情報記録を安定して行なうことができる。
【0017】
また、第2のLAN端子22は、イーサネット(登録商標)を用いた一般的なLAN対応ポートとして使用される。すなわち、この第2のLAN端子22は、ハブ26を介して、LAN対応のHDD27、PC(personal computer)28、HDD内蔵のDVD(digital versatile disk)レコーダ29等の機器を接続して、例えば家庭内ネットワークを構築し、これらの機器と情報伝送を行なうために使用される。
【0018】
この場合、PC28及びDVDレコーダ29については、それぞれ、家庭内ネットワークにおいてコンテンツのサーバ機器として動作するための機能を持ち、さらにコンテンツのアクセスに必要なURI(uniform resource identifier)情報を提供するサービスを備えたUPnP(universal plug and play)対応機器として構成される。
【0019】
なお、DVDレコーダ29については、第2のLAN端子22を介して通信されるデジタル情報が制御系のみの情報であるため、デジタルテレビジョン放送受信装置11との間でアナログの映像及びオーディオ情報を伝送するために、専用のアナログ伝送路30が設けられている。
【0020】
さらに、この第2のLAN端子22は、ハブ26に接続されたブロードバンドルータ31を介して、例えばインターネット等の外部のネットワーク32に接続される。そして、この第2のLAN端子22は、ネットワーク32を介してPC33や携帯電話34等と情報伝送を行なうためにも使用される。
【0021】
また、上記USB端子23は、一般的なUSB対応ポートとして使用されるもので、例えばハブ35を介して、携帯電話36、デジタルカメラ37、メモリカードに対するカードリーダ/ライタ38、HDD39、キーボード40等のUSB機器を接続し、これらのUSB機器と情報伝送を行なうために使用される。
【0022】
さらに、上記IEEE1394端子24は、例えばAV−HDD41及びD(digital)−VHS(video home system)42等のような複数の情報記録再生機器をシリアル接続し、各機器と選択的に情報伝送を行なうために使用される。
【0023】
図2は、上記したデジタルテレビジョン放送受信装置11の主要な信号処理系を示している。すなわち、BS/CS(broadcasting satellite/communication satellite)デジタル放送受信用のアンテナ43で受信した衛星デジタルテレビジョン放送信号は、入力端子44を介して衛星デジタル放送用のチューナ45に供給されることにより、所望のチャンネルの放送信号が選局される。
【0024】
そして、このチューナ45で選局された放送信号は、PSK(phase shift keying)復調器46及びTS(transport stream)復号器47に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部48に出力される。
【0025】
また、地上波放送受信用のアンテナ49で受信した地上デジタルテレビジョン放送信号は、入力端子50を介して地上デジタル放送用のチューナ51に供給されることにより、所望のチャンネルの放送信号が選局される。
【0026】
そして、このチューナ51で選局された放送信号は、例えば日本ではOFDM(orthogonal frequency division multiplexing)復調器52及びTS復号器53に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
【0027】
また、上記地上波放送受信用のアンテナ49で受信した地上アナログテレビジョン放送信号は、入力端子50を介して地上アナログ放送用のチューナ54に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ54で選局された放送信号は、アナログ復調器55に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
【0028】
ここで、上記信号処理部48は、TS復号器47,53からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部56及びオーディオ処理部57に出力している。
【0029】
また、上記信号処理部48には、複数(図示の場合は4つ)の入力端子58a,58b,58c,58dが接続されている。これら入力端子58a〜58dは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置11の外部から入力可能とするものである。
【0030】
そして、上記信号処理部48は、上記アナログ復調器55及び各入力端子58a〜58dからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部56及びオーディオ処理部57に出力する。
【0031】
グラフィック処理部56は、信号処理部48から供給されるデジタルの映像信号に、OSD(on screen display)信号生成部59で生成されるOSD信号を重畳して出力する機能を有する。このグラフィック処理部56は、信号処理部48の出力映像信号と、OSD信号生成部59の出力OSD信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
【0032】
グラフィック処理部56から出力されたデジタルの映像信号は、映像処理部60に供給される。この映像処理部60は、入力されたデジタルの映像信号を、前記映像表示器14で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器14に出力して映像表示させるとともに、出力端子61を介して外部に導出させる。
【0033】
また、上記オーディオ処理部57は、入力されたデジタルのオーディオ信号に対して、後述する音質制御処理を施した後、前記スピーカ15で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ15に出力されてオーディオ再生に供されるとともに、出力端子62を介して外部に導出される。
【0034】
さらに、このオーディオ処理部57には、前記マイクロホンMICが接続されており、マイクロホンMICによって採取した周囲の環境音に対応した信号が供給されるようになっている。
【0035】
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含むその全ての動作を制御部63によって統括的に制御されている。この制御部63は、CPU(central processing unit)63aを内蔵しており、前記操作部16からの操作情報、または、リモートコントローラ17から送出され前記受光部18に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
【0036】
この場合、制御部63は、主として、そのCPU63aが実行する制御プログラムを格納したROM(read only memory)63bと、該CPU63aに作業エリアを提供するRAM(random access memory)63cと、各種の設定情報及び制御情報等が格納される不揮発性メモリ63dとを利用している。
【0037】
また、この制御部63は、カードI/F(interface)64を介して、前記第1のメモリカード19が装着可能なカードホルダ65に接続されている。これによって、制御部63は、カードホルダ65に装着された第1のメモリカード19と、カードI/F64を介して情報伝送を行なうことができる。
【0038】
さらに、上記制御部63は、カードI/F66を介して、前記第2のメモリカード20が装着可能なカードホルダ67に接続されている。これにより、制御部63は、カードホルダ67に装着された第2のメモリカード20と、カードI/F66を介して情報伝送を行なうことができる。
【0039】
また、上記制御部63は、通信I/F68を介して第1のLAN端子21に接続されている。これにより、制御部63は、第1のLAN端子21に接続されたLAN対応のHDD25と、通信I/F68を介して情報伝送を行なうことができる。この場合、制御部63は、DHCP(dynamic host configuration protocol)サーバ機能を有し、第1のLAN端子21に接続されたLAN対応のHDD25にIP(internet protocol)アドレスを割り当てて制御している。
【0040】
さらに、上記制御部63は、通信I/F69を介して第2のLAN端子22に接続されている。これにより、制御部63は、第2のLAN端子22に接続された各機器(図1参照)と、通信I/F69を介して情報伝送を行なうことができる。
【0041】
また、上記制御部63は、USB I/F70を介して前記USB端子23に接続されている。これにより、制御部63は、USB端子23に接続された各機器(図1参照)と、USB I/F70を介して情報伝送を行なうことができる。
【0042】
さらに、上記制御部63は、IEEE1394 I/F71を介してIEEE1394端子24に接続されている。これにより、制御部63は、IEEE1394端子24に接続された各機器(図1参照)と、IEEE1394 I/F71を介して情報伝送を行なうことができる。
【0043】
図3は、上記オーディオ処理部57内に備えられる音質制御処理部72を示している。この音質制御処理部72では、入力端子73に供給されたオーディオ信号が、直列接続された複数(図示の場合は4つ)の音質制御部74,75,76,77によって、それぞれ異なる種類の音質制御処理を施された後、出力端子78から取り出される。
【0044】
一例を言えば、音質制御部74は入力オーディオ信号にリバーブ処理を施し、音質制御部75は入力オーディオ信号にワイドステレオ処理を施し、音質制御部76は入力オーディオ信号にセンター強調処理を施し、音質制御部77は入力オーディオ信号にイコライザ処理を施している。
【0045】
そして、これらの音質制御部74〜77にあっては、後述する補正特性制御部79から各音質制御部74〜77に対してそれぞれ別個に生成されて出力される音質制御信号に基づいて、入力オーディオ信号に施す音質制御処理の強度が独立に制御されるようになっている。
【0046】
一方、上記音質制御処理部72では、入力端子73に供給されたオーディオ信号が特徴パラメータ算出部80に供給されている。この特徴パラメータ算出部80は、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータ、音楽信号と例えばBGM(back ground music)、拍手及び歓声等の背景音となる背景音信号とを判別するための各種の特徴パラメータ、音声や音楽の信号とノイズ信号とを判別するための各種の特徴パラメータ等を算出している。
【0047】
この場合、特徴パラメータ算出部80は、入力されたオーディオ信号を、図4(a)に示すように、数100msec程度のフレーム単位に切り出し、さらに、図4(b)に示すように、各フレームを数10msec程度のサブフレームに分割する。そして、サブフレーム単位で各種の特徴パラメータを生成するための判別情報を取得し、取得した判別情報のフレーム単位での統計量を算出することにより、特徴パラメータを算出する処理を行なっている。
【0048】
すなわち、特徴パラメータ算出部80では、入力されたオーディオ信号から、サブフレーム単位で、音声信号と音楽信号とを判別するための各種の判別情報、音楽信号と背景音信号とを判別するための各種の判別情報、音声や音楽の信号とノイズ信号とを判別するための各種の判別情報等を取得し、取得した各種の判別情報それぞれについて、フレーム単位での統計量(例えば平均,分散,最大,最小等)を求めることにより、種々の特徴パラメータを算出している。
【0049】
例えば、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号の信号振幅の二乗和であるパワー値を判別情報として算出し、その算出されたパワー値に対するフレーム単位での統計量を求めることにより、パワー値に関する特徴パラメータpwを生成している。
【0050】
また、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数を判別情報として算出し、その算出された零交差周波数に対するフレーム単位での統計量を求めることにより、零交差周波数に関する特徴パラメータzcを生成している。
【0051】
さらに、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号の周波数領域でのスペクトル変動を判別情報として算出し、その算出されたスペクトル変動に対するフレーム単位での統計量を求めることにより、スペクトル変動に関する特徴パラメータsfを生成している。
【0052】
また、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号における2チャンネルステレオの左右(LR)信号のパワー比(LRパワー比)を判別情報として算出し、その算出されたLRパワー比に対するフレーム単位での統計量を求めることにより、LRパワー比に関する特徴パラメータlrを生成している。
【0053】
さらに、特徴パラメータ算出部80では、サブフレーム単位で入力オーディオ信号のスペクトル平坦度を判別情報として算出し、その算出されたスペクトル平坦度に対するフレーム単位での統計量を求めることにより、ノイズ信号に関する特徴パラメータSFMを生成している。
【0054】
図5は、上記特徴パラメータ算出部80が、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータ、音楽信号と背景音信号とを判別するための各種の特徴パラメータ、音声や音楽の信号とノイズ信号とを判別するための各種の特徴パラメータを生成する処理動作の一例をまとめたフローチャートを示している。
【0055】
まず、処理が開始(ステップS5a)されると、特徴パラメータ算出部80は、ステップS5bで、入力オーディオ信号から数10msec程度のサブフレームを抽出する。そして、特徴パラメータ算出部80は、ステップS5cで、入力オーディオ信号からサブフレーム単位でのパワー値を算出する。
【0056】
その後、特徴パラメータ算出部80は、ステップS5dで、入力オーディオ信号からサブフレーム単位での零交差周波数を算出し、ステップS5eで、入力オーディオ信号からサブフレーム単位でのスペクトル変動を算出し、ステップS5fで、入力オーディオ信号からサブフレーム単位でのLRパワー比を算出する。
【0057】
また、特徴パラメータ算出部80は、ステップS5gで、入力オーディオ信号からサブフレーム単位でスペクトル平坦度を算出する。同様に、特徴パラメータ算出部80は、ステップS5hで、入力オーディオ信号からサブフレーム単位で他の算出可能な判別情報を算出する。
【0058】
その後、特徴パラメータ算出部80は、ステップS5iで、サブフレーム単位で算出された各種の判別情報が、数100msec程度のフレーム分蓄積されると、ステップS5jで、各種の判別情報に対してそれぞれフレーム単位での統計量を求めることにより種々の特徴パラメータを生成し、処理を終了(ステップS5k)する。
【0059】
上記のようにして、特徴パラメータ算出部80で生成された各種の特徴パラメータは、再び、図3に示すように、音声・音楽識別スコア算出部81、音楽・背景音識別スコア算出部82及び検出スコア算出部83にそれぞれ供給される。
【0060】
このうち、音声・音楽識別スコア算出部81は、特徴パラメータ算出部80で生成された各種の特徴パラメータに基づいて、入力端子73に供給されたオーディオ信号が、スピーチのような音声信号の特性に近いか、音楽(楽曲)信号の特性に近いかを定量的に示す音声・音楽識別スコアS1を算出し、上記検出スコア算出部83に出力している。
【0061】
また、音楽・背景音識別スコア算出部82は、特徴パラメータ算出部80で生成された各種の特徴パラメータに基づいて、入力端子73に供給されたオーディオ信号が、音楽信号の特性に近いか、背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアS2を算出し、上記検出スコア算出部83に出力している。
【0062】
この検出スコア算出部83は、詳細は後述するが、音声・音楽識別スコアS1、音楽・背景音識別スコアS2及び特徴パラメータに基づいて、入力端子73に供給されたオーディオ信号に、音声信号が含まれている確度を示す音声スコアSS、音楽信号が含まれている確度を示す音楽スコアSM、ノイズ信号が含まれている確度を示すノイズスコアSNを生成している。
【0063】
ここで、上記音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出について説明するに先立ち、各種の特徴パラメータの性質について説明しておくことにする。まず、上記パワー値に関する特徴パラメータpwについて説明する。すなわち、パワー変動に関して言えば、一般に、音声は、発話している区間と沈黙している区間とが交互に現れるため、サブフレーム間での信号パワーの違いが大きくなり、フレーム単位で見ると各サブフレーム間のパワー値の分散が大きくなる傾向にある。ここでパワー変動とは、サブフレームにおいて計算したパワー値について、より長いフレーム区間内での値の変動に着目した特徴量を指し、具体的にはパワーの分散値等を用いる。
【0064】
また、上記零交差周波数に関する特徴パラメータzcについて説明すると、零交差周波数に関して言えば、前述した発話区間と沈黙区間との違いに加えて、音声信号は零交差周波数が子音では高く母音では低くなるため、フレーム単位で見ると各サブフレーム間の零交差周波数の分散が大きくなる傾向にある。
【0065】
さらに、上記スペクトル変動に関する特徴パラメータsfについて説明すると、スペクトル変動に関して言えば、音声信号は、音楽信号のようにトーナル(調音構造的)な信号に比べて周波数特性の変動が激しいため、フレーム単位で見るとスペクトル変動分散が大きくなる傾向にある。
【0066】
また、上記したLRパワー比に関する特徴パラメータlrについて説明すると、LRパワー比に関して言えば、音楽信号では、ボーカル以外の楽器演奏がセンター以外に定位していることが多いため、左右のチャンネル間のパワー比が大きくなる傾向にある。
【0067】
さらに、上記ノイズ信号に関する特徴パラメータSFMについて説明すると、この特徴パラメータSFMは、ノイズ信号に典型的に見られるスペクトル平坦度を利用しており、このスペクトル平坦度に対するフレーム単位での統計量を求めることにより生成することができる。
【0068】
次に、上記音声・音楽識別スコア算出部81及び音楽・背景音識別スコア算出部82における音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出について説明する。音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出手法については1つの手法に特定しないが、ここでは、線形識別関数を用いた算出手法について説明する。
【0069】
線形識別関数を用いる手法では、音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出に必要な各種特徴パラメータに乗ずる重み付け係数をオフライン学習により算出している。この重み付け係数としては、信号種別の判別に効果の高い特徴パラメータほど大きい値が与えられる。
【0070】
また、重み付け係数は、音声・音楽識別スコアS1については、予め準備した多くの既知の音声信号及び音楽信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出され、音楽・背景音識別スコアS2については、予め準備した多くの既知の音楽信号及び背景音信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。
【0071】
まず、音声・音楽識別スコアS1の算出について説明すると、今、学習対象とする参照データのk番目のフレームの特徴パラメータセットをベクトルxで表わし、入力オーディオ信号が属する信号区間{音声、音楽}としてzで以下のように表わすものとする。
【0072】
=(1,x,x,……,x) … (1)
={−1,+1} … (2)
ここで、上記(1)式の各要素は、抽出したn個の特徴パラメータに対応する。また、上記(2)式の−1,+1は、それぞれ、音声区間及び音楽区間に対応し、使用する音声・音楽判別用の参照データの正解信号種別となる区間について、予め人手で2値のラベル付けをしたものである。さらに、上記(2)式より、以下の線形識別関数を立てる。
【0073】
f(x)=A+A・x+A・x+……+A・x … (3)
k=1〜N(Nは参照データの入力フレーム数)に対し、ベクトルxを抽出し、(3)式の評価値と(2)式の正解信号種別との誤差二乗和である(4)式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数A(i=0〜n)が決定される。
【数1】

【0074】
学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を(3)式より計算し、f(x)<0であれば音声区間、f(x)>0であれば音楽区間と判定する。そして、このときのf(x)が上記音声・音楽識別スコアS1に相当する。これにより、
S1=A+A・x+A・x+……+A・x
が算出される。
【0075】
また、音楽・背景音識別スコアS2の算出についても同様に、学習対象とする参照データのk番目のフレームの特徴パラメータセットをベクトルyで表わし、入力オーディオ信号が属する信号区間{背景音、音楽}としてzで以下のように表わすものとする。
【0076】
=(1,y,y,……,y) … (5)
={−1,+1} … (6)
ここで、上記(5)式の各要素は、抽出したm個の特徴パラメータに対応する。また、上記(6)式の−1,+1は、それぞれ、背景音区間及び音楽区間に対応し、使用する音楽・背景音判別用の参照データの正解信号種別となる区間について、予め人手で2値のラベル付けをしたものである。さらに、上記(6)式より、以下の線形識別関数を立てる。
【0077】
f(y)=B+B・y+B・y+……+B・y … (7)
k=1〜N(Nは参照データの入力フレーム数)に対し、ベクトルyを抽出し、(7)式の評価値と(6)式の正解信号種別との誤差二乗和である(8)式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数B(i=0〜m)が決定される。
【数2】

【0078】
学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を(7)式より計算し、f(y)<0であれば背景音区間、f(y)>0であれば音楽区間と判定する。そして、このときのf(y)が上記音楽・背景音識別スコアS2に相当する。これにより、
S2=B+B・y+B・y+……+B・y
が算出される。
【0079】
なお、音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出については、上記した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴パラメータに乗ずる手法に限定されるものではなく、例えば各特徴パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各特徴パラメータに重み付けされた得点を付与し、スコアを算出する等の手法も用いることが可能である。
【0080】
図6は、上記のように線形識別関数を用いたオフライン学習で算出した各特徴パラメータの重み付け係数に基づき、音声・音楽識別スコア算出部81及び音楽・背景音識別スコア算出部82が音声・音楽識別スコアS1及び音楽・背景音識別スコアS2を算出する処理動作の一例をまとめたフローチャートを示している。
【0081】
すなわち、処理が開始(ステップS6a)されると、音声・音楽識別スコア算出部81は、ステップS6bで、特徴パラメータ算出部80で算出される各種の特徴パラメータに対して、予め学習した音声・音楽判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・音楽識別スコア算出部81は、ステップS6cで、重み付け係数を乗じた各特徴パラメータの総和を、音声・音楽識別スコアS1として算出する。
【0082】
また、音楽・背景音識別スコア算出部82は、ステップS6dで、特徴パラメータ算出部80で算出される各種の特徴パラメータに対して、予め学習した音楽・背景音判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・背景音識別スコア算出部82は、ステップS6eで、重み付け係数を乗じた各特徴パラメータの総和を、音楽・背景音識別スコアS2として算出し、処理を終了(ステップS6f)する。
【0083】
図7乃至図9は、上記検出スコア算出部83が、音声・音楽識別スコアS1、音楽・背景音識別スコアS2及び特徴パラメータに基づいて、音声スコアSS、音楽スコアSM及びノイズスコアSNを生成する処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS7a)されると、検出スコア算出部83には、ステップS7bで、音声・音楽識別スコアS1、音楽・背景音識別スコアS2及び特徴パラメータが供給される。
【0084】
すると、検出スコア算出部83は、ステップS7cで、音声・音楽識別スコアS1が負値(S1<0、つまり、音楽より音声に近い)であるか否かを判別し、負値であると判断された場合(YES)、ステップS7dで、音楽・背景音識別スコアS2が正値(S2>0、つまり、背景音より音楽に近い)であるか否かを判別する。
【0085】
そして、音楽・背景音識別スコアS2が正値であると判断された場合(YES)、つまり、S1<0かつS2>0のとき、検出スコア算出部83は、ステップS7eで、音声・音楽識別スコアS1が負値であるため、その絶対値をとった値、つまり、|S1|を音声スコアSSとして設定する。その後、検出スコア算出部83は、ステップS7fで、音声信号特性に近いので音楽スコアSMを0に設定する。
【0086】
また、上記ステップS7dで音楽・背景音識別スコアS2が正値でない(S2<0、つまり、音楽より背景音に近い)と判断された場合(NO)、つまり、S1<0かつS2<0のとき、検出スコア算出部83は、ステップS7gで、音声・音楽識別スコアS1が負値であるため、その絶対値をとった値、つまり、|S1|に、背景音に含まれる音声成分を考慮してαs・|S2|を加算した値(|S1|+αs・|S2|)を、音声スコアSSとして設定する。この場合、音楽・背景音識別スコアS2が負値であるため、その絶対値を取った値|S2|に、音声成分に関して予め設定された所定の重み付け係数αsを乗算することになる。その後、検出スコア算出部83は、ステップS7hで、音声信号特性に近いので音楽スコアSMを0に設定する。
【0087】
そして、上記ステップS7fまたはステップS7hの後、検出スコア算出部83は、ステップS7iで、音声スコアSSを安定化させるための補正値SS3及び音楽スコアSMを安定化させるための補正値SM3を更新する。この更新処理は、連続してCs回以上、音声スコアSSが正値(SS>0)であった場合、既に算出されている安定化補正値SS3に、音声成分に関して予め設定された所定の安定化係数βsを加算した値(SS3+βs)を、音声スコアSSに対する新たな安定化補正値SS3として更新する。また、既に算出されている安定化補正値SM3から、音楽成分に関して予め設定された所定の安定化係数γmを減算した値(SM3−γm)を、音楽スコアSMに対する新たな安定化補正値SM3として更新する。
【0088】
一方、上記ステップS7cで音声・音楽識別スコアS1が負値でない(S1>0、つまり、音声より音楽に近い)と判断された場合(NO)、検出スコア算出部83は、ステップS8aで、音楽・背景音識別スコアS2が正値(S2>0、つまり、背景音より音楽に近い)であるか否かを判別する。
【0089】
そして、音楽・背景音識別スコアS2が正値であると判断された場合(YES)、つまり、S1>0かつS2>0のとき、検出スコア算出部83は、ステップS8bで、音楽信号特性に近いので音声スコアSSを0に設定する。その後、検出スコア算出部83は、ステップS8cで、音声・音楽識別スコアS1を音楽スコアSMとして設定する。
【0090】
また、上記ステップS8aで音楽・背景音識別スコアS2が正値でない(S2<0、つまり、音楽より背景音に近い)と判断された場合(NO)、つまり、S1>0かつS2<0のとき、検出スコア算出部83は、ステップS8dで、音声・音楽識別スコアS1を負値にして音声度合いに対応させた値、つまり、−S1に、背景音に含まれる音声成分を考慮してαs・|S2|を加算した値(−S1+αs・|S2|)を、音声スコアSSとして設定する。この場合、音楽・背景音識別スコアS2が負値であるため、その絶対値を取った値|S2|に、音声成分に関して予め設定された所定の重み付け係数αsを乗算することになる。
【0091】
その後、検出スコア算出部83は、ステップS8eで、音声・音楽識別スコアS1から背景音に含まれる音楽成分を考慮してαm・|S2|を減算した値(S1−αm・|S2|)を、音楽スコアSMとして設定する。この場合、音楽・背景音識別スコアS2が負値であるため、その絶対値を取った値|S2|に、音楽成分に関して予め設定された所定の重み付け係数αmを乗算することになる。
【0092】
そして、上記ステップS8cまたはステップS8eの後、検出スコア算出部83は、ステップS8fで、音声スコアSSを安定化させるための補正値SS3及び音楽スコアSMを安定化させるための補正値SM3を更新する。この更新処理は、連続してCm回以上、音楽スコアSMが正値(SM>0)であった場合、既に算出されている安定化補正値SS3から、音声成分に関して予め設定された所定の安定化係数γsを減算した値(SS3−γs)を、音声スコアSSに対する新たな安定化補正値SS3として更新する。また、既に算出されている安定化補正値SM3に、音楽成分に関して予め設定された所定の安定化係数βmを加算した値(SM3+βm)を、音楽スコアSMに対する新たな安定化補正値SM3として更新する。
【0093】
ここで、上記ステップS7iまたはステップS8fの後、検出スコア算出部83は、ステップS7jで、安定化補正値SS3及びSM3をクリップする。これは、音声スコアSSに対する安定化補正値SS3を、予め設定された最小値SS3minと最大値SS3maxとの範囲内に収める、つまり、SS3min≦SS3≦SS3maxとしている。また、音楽スコアSMに対する安定化補正値SM3を、予め設定された最小値SM3minと最大値SM3maxとの範囲内に収める、つまり、SM3min≦SM3≦SM3maxとしている。
【0094】
その後、検出スコア算出部83は、ステップS9aで、クリップされた安定化補正値SS3を音声スコアSSに加算することにより、音声スコアSSに対する安定化補正処理を行なうとともに、クリップされた安定化補正値SM3を音楽スコアSMに加算することにより、音楽スコアSMに対する安定化補正処理を実行する。
【0095】
次に、上記検出スコア算出部83は、ステップS9bで、ノイズ・非ノイズ識別ベーススコアS3を算出する。このノイズ・非ノイズ識別ベーススコアS3の算出は、特徴パラメータSFMを利用しており、複数の周波数帯域(低域、中域、高域)毎のスペクトル平坦度に対する統計量を求めることにより算出される。
【0096】
その後、検出スコア算出部83は、ステップS9cで、ノイズ・非ノイズ識別ベーススコアS3が正値(S3>0)であるか否かを判別し、正値であると判断された場合(YES)、ステップS9dで、ノイズ・非ノイズ識別ベーススコアS3をノイズスコアSNとして設定する。また、上記ステップS9cでノイズ・非ノイズ識別ベーススコアS3が正値でないと判断された場合(NO)、検出スコア算出部83は、ステップS9eで、ノイズスコアSNを0に設定する。
【0097】
そして、上記ステップS9dまたはステップS9eの後、検出スコア算出部83は、ステップS9fで、設定されたノイズスコアSNに対して安定化補正処理やクリッピング処理を施し、ステップS9gで、スコア間調整補正を実行して処理を終了(ステップS9h)する。
【0098】
このスコア間調整補正は、設定された音声スコアSS、音楽スコアSM及びノイズスコアSN相互間のバランス調整を行なうもので、例えば音楽スコアSM及びノイズスコアSNが共に規定値より大きい場合には、主観的な印象に合わせるため音楽スコアSMをノイズスコアSNに応じて低くするように補正する等の動作である。
【0099】
そして、上記検出スコア算出部83は、スコア間調整補正処理が施された音声スコアSS、音楽スコアSM及びノイズスコアSNを、前記補正特性制御部79(図3参照)に出力している。
【0100】
ここで、再び図3に示すように、音質制御処理部72は、環境音マスキング特性算出部84を備えている。この環境音マスキング特性算出部84には、入力端子85を介して周囲の環境音に対応した信号が供給されている。この場合、入力端子85に供給される信号は、前記マイクロホンMICで採取した周囲の環境音に対応した信号から、エコーキャンセラ等を用いてオーディオ信号の再生音の回り込み成分を抑制したものとなっている。
【0101】
そして、この環境音マスキング特性算出部84は、入力端子85に供給された環境音信号レベルに対し、聴覚の周波数マスキング特性を参照してノイズマスキングレベルを算出している。このノイズマスキングレベルの算出は、環境音信号を時間周波数変換した周波数帯域毎のパワーに基づいた周波数マスキング特性を、全帯域の周波数成分に対して重ね合わせることで実現される。
【0102】
この環境音マスキング特性算出部84で算出されたノイズマスキングレベルは、マスキング補正ゲイン算出部86に供給される。このマスキング補正ゲイン算出部86は、図10に示すように、オーディオ信号の周波数特性(パワー)が、環境音マスキング特性算出部84で算出されたノイズマスキングレベル以下の帯域に対して、信号成分がノイズに埋もれて聴取しにくい事態が生じないように、図中矢印で示すように、ノイズマスキングレベル以上に引き上げるためのゲイン係数を、補正ゲイン値として周波数帯域毎に算出している。
【0103】
ただし、過大なゲイン補正や、時系列での急激なゲインの変化は、聴感状の違和感を招くので、算出したゲイン係数に対してクリッピング処理や時間平滑化処理を施した値を補正ゲイン値Gm[k]としている。なお、kは、周波数帯域を示すインデックスである。そして、マスキング補正ゲイン算出部86は、算出した補正ゲイン値Gm[k]を上記補正特性制御部79に出力している。
【0104】
この補正特性制御部79は、検出スコア算出部83から供給される音声スコアSS、音楽スコアSM及びノイズスコアSNや、マスキング補正ゲイン算出部86から供給される補正ゲイン値Gm[k]等に基づいて、各音質制御部74〜77に対して音質制御処理の強度を独立に制御するための音質制御信号をそれぞれ生成している。
【0105】
図11及び図12は、この補正特性制御部79が、音声スコアSS、音楽スコアSM、ノイズスコアSN及び補正ゲイン値等に基づいて、入力オーディオ信号にイコライザ処理を施す音質制御部77に対して音質制御を行なう処理動作の一例をまとめたフローチャートを示している。
【0106】
すなわち、処理が開始(ステップS11a)されると、補正特性制御部79は、ステップS11bで、上記したマスキング補正ゲイン算出部86から供給される補正ゲイン値Gm[k](>1.0)を正規化する。以下、正規化された補正ゲインをGmn[k]と表わす。この場合、下式に示すように、全帯域(周波数帯域を示すインデックスの最小値1から最大値kまで)に渡って底上げするゲイン成分、つまり、
Gmg=min(Gm[1],Gm[2],……,Gm[k])
をグローバル補正ゲインGmgとして算出し、このグローバル補正ゲインGmgを基準に、下式のように正規化する。
【0107】
Gmn[k]=Gm[k]/Gmg
なお、min(Gmn[k])=1.0となる。
【0108】
次に、補正特性制御部79は、ステップS11cで、検出スコア算出部83から供給される音声スコアSS、音楽スコアSM及びノイズスコアSNを比較して、最もスコアが高い音種別、つまり、支配的な音種別が音声であるか否かを判別する。そして、支配的な音種別が音声である(つまり、音声スコアSSが最も高い)と判断された場合(YES)、補正特性制御部79は、ステップS11dで、後の処理で使用する補正特性算出重み係数を得るために、図13(a)に一例を示すように、音声に対応して予め設定された係数群を選択する。これは、音声帯域以外の補正ゲインを抑圧するものであり、再生音が音声の場合に音声帯域以外の強調によって音声が聞きづらくなることを防ぐものである。
【0109】
その後、補正特性制御部79は、ステップS11eで、先に判別された支配的な音種別のスコア(音声スコアSS)に対し、それ以外の他の音種別のスコアを考慮して、図13(a)に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正音声スコアSS´を生成する。具体的にいえば、補正音声スコアSS´は、音声スコアSSから、音楽スコアSM及びノイズスコアSNの大きい方を減算して得られる。すなわち、
SS´=SS−max(SM,SN)
となる。
【0110】
また、上記ステップS11cで支配的な音種別が音声でないと判断された場合(NO)、補正特性制御部79は、ステップS12aで、支配的な音種別が音楽であるか否かを判別し、音楽である(つまり、音楽スコアSMが最も高い)と判断された場合(YES)、ステップS12bで、後の処理で使用する補正特性算出重み係数を得るために、図13(b)に一例を示すように、音楽に対応して予め設定された係数群を選択する。これは、音楽の臨場感向上において重要となる低域及び高域以外の中域部の補正ゲインを抑圧するものであり、再生音が音楽の場合に音楽帯域(低域及び高域)以外の強調によって音楽の臨場感が低下することを防ぐものである。
【0111】
その後、補正特性制御部79は、ステップS12cで、先に判別された支配的な音種別のスコア(音楽スコアSM)に対し、それ以外の他の音種別のスコアを考慮して、図13(b)に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正音楽スコアSM´を生成する。具体的にいえば、補正音楽スコアSM´は、音楽スコアSMから、音声スコアSS及びノイズスコアSNの大きい方を減算して得られる。すなわち、
SM´=SM−max(SS,SN)
となる。
【0112】
また、上記ステップS12aで支配的な音種別が音楽でないと判断された場合(NO)、補正特性制御部79は、支配的な音種別がノイズである(つまり、ノイズスコアSNが最も高い)と判断し、ステップS12dで、後の処理で使用する補正特性算出重み係数を得るために、図13(c)に一例を示すように、ノイズに対応して予め設定された係数群を選択する。これは、帯域全体の補正ゲインを抑圧するものであり、再生音がノイズの場合にゲイン補正による強調によって返ってうるさく聞きづらい音質になることを防ぐものである。
【0113】
その後、補正特性制御部79は、ステップS12eで、先に判別された支配的な音種別のスコア(ノイズスコアSN)に対し、それ以外の他の音種別のスコアを考慮して、図13(c)に示す補正特性算出重み係数群の中から必要な係数を決定するためのスコア補正を行なうことにより、補正ノイズスコアSN´を生成する。具体的にいえば、補正ノイズスコアSN´は、ノイズスコアSNから、音声スコアSS及び音楽スコアSMの大きい方を減算して得られる。すなわち、
SN´=SN−max(SS,SM)
となる。
【0114】
そして、上記ステップS11e、ステップS12cまたはステップS12eの後、補正特性制御部79は、ステップS11fで、補正音声スコアSS´、補正音楽スコアSM´または補正ノイズスコアSN´に基づいて、対応する補正特性算出重み係数群の中から係数を決定する。
【0115】
この場合、例えば、支配的な音種別が音声の場合には、補正音声スコアSS´が大きいほど音声帯域の重み付けが高い係数が選択される。ただし、この係数は、音声帯域を強調するものではなく、音声帯域以外のゲイン補正による強調により音声が聴きづらくなることを抑制するためのものである。同様に、音楽の場合には、低域と高域とに重み付けを行ない、ノイズの場合には、スコアが大きいほど、全帯域に渡って強調を抑制する重み付けを行なう。
【0116】
そして、決定された補正特性算出重み係数に基づいて、正規化後の補正ゲインGmn[k]が補正される。この場合、重み付け係数による補正後の補正ゲインGmnw[k]は、補正特性算出重み係数をWg[k]とすると、
Gmnw[k]=Wg[k]×Gmn[k]
となる。
【0117】
ただし、重み係数によりGmn[k]が1.0以下になる場合には、Gmn[k]を1.0とする。これは、オーディオ信号の特性(音種別)によっては、環境音のマスキング特性に基づく補正ゲインにより過剰な補正や音色の変化を抑制する(ゲイン補正がフラットな特性になるようにする)ための対応である。
【0118】
例えば、オーディオ信号の支配的な音種別が音声で、環境音のマスキング特性に基づく補正ゲイン値が音声帯域を強調するような補正である場合には、重み係数をそのまま適用すると音声帯域が過剰に強調されてしまうが、補正ゲイン値を1.0以下にならないようにクリップすることにより、低域及び高域の周波数成分の減衰(音声帯域の強調)を抑制することができる。
【0119】
逆に、環境音のマスキング特性に基づく補正ゲイン値が音声帯域以外(低域あるいは高域)を強調するような、音種別と不整合な補正である場合には、音声が聞きづらくなる方向の補正につながるため、この補正ゲインを低下させるように重み付けが行なわれることになる。結果として、ゲイン補正の特性は、周波数領域でフラットに近づく方向の補正となるため、音色の変化の抑制につながる。なお、重み係数により抑制された補正ゲインは、グローバルゲインの補正により補償される。
【0120】
オーディオ信号の支配的な音種別が音楽の場合についても、周波数特性は逆になるが同様のことが言える。
【0121】
次に、補正特性制御部79は、ステップS11gで、重み係数により環境音のマスキング特性に基づくゲイン補正が満たせなくなる帯域に対する補償のため、重み係数により最も補正ゲイン値が低下したゲイン値、つまり、最も補正率が高かったゲインを算出する。すなわち、
min(Gmnw[k]/Gmn[k])(<1.0)
を探索し、この最大補正率をRmnw_maxとする。ただし、Gmnw[k]が最小1.0でクリップされることを考慮して探索する。
【0122】
そして、補正特性制御部79は、ステップS11hで、最大補正率Rmnw_maxに基づいて、下式によりグローバル補正ゲインGmgを補正したGmgwを算出して、
Gmgw=Gmg/Rmnw_max
処理を終了(ステップS11i)する。
【0123】
以上に説明した実施の形態によれば、入力オーディオ信号にイコライザ処理を施す音質制御部77に対し、補正後の補正ゲインGmnw[k]とグローバル補正ゲインGmgwとを通知することによって、環境音に応じた適切な音質制御処理を施すことができるとともに、オーディオ信号の音種別(音声、音楽、ノイズ)に適した音質制御処理を施すことができるようになる。
【0124】
すなわち、環境音のマスキング特性に応じた周波数帯域毎のゲイン補正に対して、オーディオ信号の音種別判定を考慮して修正することにより、環境音に応じた適切な音質制御を行なうことができるとともに、過剰な音質制御やオーディオ信号の音種別判定と整合しない音質制御が行なわれることを抑制し、音色の変化を抑えた自然な音質の再生音を得ることが可能となる。
【0125】
また、上記した音質制御部77によるイコライザ処理のように周波数帯域毎に補正強度を変更するものでない音質制御、例えば、音質制御部74によるリバーブ処理、音質制御部75によるワイドステレオ処理、音質制御部76によるセンター強調処理等については、原音とその遅延信号とのミクシングゲインを変更することで補正強度を制御することができる。
【0126】
図14は、音質制御部77を除く各音質制御部74〜76のうち、入力オーディオ信号にリバーブ処理を施す音質制御部74の一例を示している。なお、他の音質制御部75,76については、音質制御部74とほぼ同様の構成及び動作を有するため、それらの説明は省略する。
【0127】
すなわち、音質制御部74は、入力端子74aに供給されたオーディオ信号が、リバーブ処理部74b及び遅延補償部74cにそれぞれ供給される。このうち、リバーブ処理部74bは、入力オーディオ信号にエコー効果を与えるためのリバーブ処理を施した後、可変利得増幅部74dに出力している。
【0128】
この可変利得増幅部74dは、入力オーディオ信号に対して、上記補正特性制御部79から出力され入力端子74eを介して供給される音質制御信号に基づいた補正強度で増幅処理を施している。この場合、可変利得増幅部74dのゲインGは、音質制御信号に基づいて0.0〜1.0の範囲で可変される。
【0129】
また、上記遅延補償部74cは、入力オーディオ信号とリバーブ処理部74bから得られるオーディオ信号との処理遅延を吸収するために設けられている。この遅延補償部74dから出力されたオーディオ信号は、可変利得増幅部74fに供給される。
【0130】
この可変利得増幅部74fは、可変利得増幅部74dのゲインGに対して、1.0−Gなるゲインで、入力オーディオ信号に増幅処理を施している。そして、上記可変利得増幅部74d,74fから出力される各オーディオ信号は、加算部74gにより加算されて、出力端子78hから取り出される。
【0131】
なお、他の音質制御部75,76では、上記した音質制御部74のリバーブ処理部74bが、ワイドステレオ処理部、センター強調処理部等に入れ替わることになる。
【0132】
図15は、上記した補正特性制御部79が、音声スコアSS、音楽スコアSM、ノイズスコアSN及び補正ゲイン値等に基づいて、入力オーディオ信号にリバーブ処理を施す音質制御部74に対して音質制御を行なう処理動作の一例をまとめたフローチャートを示している。
【0133】
すなわち、処理が開始(ステップS15a)されると、補正特性制御部79は、ステップS15bで、上記したマスキング補正ゲイン算出部86から供給される補正ゲイン値Gm[k]を正規化する。この補正ゲイン値を正規化する手法は、先にステップS11bの処理で説明した内容と同様である。
【0134】
次に、補正特性制御部79は、ステップS15cで、正規化された補正ゲイン値Gmn[k]に基づいて、音楽スコアSMを修正する補正スコアを算出するためのパラメータとして、音楽ゲイン補正ベース値Gbmを算出する。この音楽ゲイン補正ベース値Gbmは、正規化された補正ゲイン値Gmn[k]と、図16(b)に示すような補正強度算出重み係数Wsm[k]とから、下式により算出する。
【0135】
Gbm=Σ(Wsm[k]×Gmn[k])
図16(b)は、音楽に対応して予め設定された補正強度算出重み係数Wsm[k]の一例を示しており、中域に重み付けがなされている。つまり、音楽に関する典型的な周波数特性と相反する周波数特性を重視した係数となっている。このため、音楽ゲイン補正ベース値Gbmは、音楽信号において相対的に重視しない補正ゲイン値Gmn[k]をどの程度含むかを示す指標となっている。これは、音楽帯域以外のゲイン補正による度合いを考慮したもので、この値が大きいほど音楽帯域以外のゲイン補正が強いと推測されるため、音楽向けをより強くスコア補正するためのものである。
【0136】
次に、補正特性制御部79は、ステップS15dで、音楽ゲイン補正ベース値Gbmに基づいて、音楽スコアSMを修正するための音楽強度補正スコアSbmを算出する。この音楽強度補正スコアSbmは、音楽ゲイン補正ベース値Gbmに応じて高くなるように対応付けられるように変換される。例えば、Sbm=α×Gbm(αは変換のための係数)の一次関数で変換した上で、音楽強度補正スコアSbmの最大値でクリップ処理する。
【0137】
そして、補正特性制御部79は、ステップS15eで、音楽強度補正スコアSbmを元の音楽スコアSMに加算する、つまり、
SM=SM+Sbm
なる演算を行なうことにより、音楽向けの音響効果(この場合、リバーブ処理)を強化するように音楽スコアSMの補正が行なわれる。
【0138】
同様に、補正特性制御部79は、ステップS15fで、正規化された補正ゲイン値Gmn[k]に基づいて、音声スコアSSを修正する補正スコアを算出するためのパラメータとして、音声ゲイン補正ベース値Gbsを算出する。この音声ゲイン補正ベース値Gbsは、正規化された補正ゲイン値Gmn[k]と、図16(a)に示すような補正強度算出重み係数Wss[k]とから、下式により算出する。
【0139】
Gbs=Σ(Wss[k]×Gmn[k])
図16(a)は、音声に対応して予め設定された補正強度算出重み係数Wss[k]の一例を示しており、音声帯域以外の帯域(低域及び高域)に重み付けがなされている。つまり、音声に関する典型的な周波数特性と相反する周波数特性を重視した係数となっている。このため、音声ゲイン補正ベース値Gbsは、音声信号において相対的に重視しない補正ゲイン値Gmn[k]をどの程度含むかを示す指標となっている。これは、音声帯域以外のゲイン補正による度合いを考慮したもので、この値が大きいほど音声帯域以外のゲイン補正が強いと推測されるため、音声向けをより強くスコア補正するためのものである。
【0140】
次に、補正特性制御部79は、ステップS15gで、音声ゲイン補正ベース値Gbsに基づいて、音声スコアSSを修正するための音声強度補正スコアSbsを算出する。この音声強度補正スコアSbsは、音声ゲイン補正ベース値Gbsに応じて高くなるように対応付けられるように変換される。例えば、Sbs=β×Gbs(βは変換のための係数)の一次関数で変換した上で、音声強度補正スコアSbsの最大値でクリップ処理する。
【0141】
そして、補正特性制御部79は、ステップS15hで、音声強度補正スコアSbsを元の音声スコアSSに加算する、つまり、
SS=SS+Sbs
なる演算を行なうことにより、音声向けの音響効果を強化するように音声スコアSSの補正が行なわれる。
【0142】
その後、補正特性制御部79は、ステップS15iで、ステップS15eにより補正された音楽スコアSM及びステップS15hにより補正された音声スコアSSに基づいて、音声制御部74の入力端子74eに供給する音質制御信号を生成し音声制御部74に出力して、処理を終了(ステップS15j)する。
【0143】
図14乃至図16で説明した実施の形態によれば、環境音を考慮して音楽スコアSM及び音声スコアSSを補正し、その補正された音楽スコアSM及び音声スコアSSに基づいて生成した音質制御信号を、入力オーディオ信号にリバーブ処理を施す音質制御部74に通知するようにしたので、環境音に応じた適切な音質制御処理を施すことができるとともに、オーディオ信号の音種別(音声、音楽)に適した音質制御処理を施すことができるようになる。
【0144】
すなわち、オーディオ信号の音種別に応じた音質制御を行なう際に、環境音のマスキング特性を考慮することにより、オーディオ信号の音種別に応じた適切な音質制御を行なうことができるとともに、環境音にマスキングされてしまうオーディオ信号の音質制御効果を高め、より効果的な音質制御を実現すると共に再生オーディオ信号に合っていない環境音による過剰な音質補正を防ぐことができる。
【0145】
また、上記した実施の形態では、補正すべき音質の要素として、リバーブ、ワイドステレオ、センター強調、イコライザ等を挙げたが、これに限らず、例えばサラウンド等を含む音質制御可能な各種の要素について音質制御を行なうことができることはもちろんである。
【0146】
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
【符号の説明】
【0147】
11…デジタルテレビジョン放送受信装置、12…キャビネット、13…支持台、14…映像表示器、15…スピーカ、16…操作部、17…リモートコントローラ、18…受光部、MIC…マイクロホン、19…第1のメモリカード、20…第2のメモリカード、21…第1のLAN端子、22…第2のLAN端子、23…USB端子、24…IEEE1394端子、25…HDD、26…ハブ、27…HDD、28…PC、29…DVDレコーダ、30…アナログ伝送路、31…ブロードバンドルータ、32…ネットワーク、33…PC、34…携帯電話、35…ハブ、36…携帯電話、37…デジタルカメラ、38…カードリーダ/ライタ、39…HDD、40…キーボード、41…AV−HDD、42…D−VHS、43…アンテナ、44…入力端子、45…チューナ、46…PSK復調器、47…TS復号器、48…信号処理部、49…アンテナ、50…入力端子、51…チューナ、52…OFDM復調器、53…TS復号器、54…チューナ、55…アナログ復調器、56…グラフィック処理部、57…オーディオ処理部、58a〜58d…入力端子、59…OSD信号生成部、60…映像処理部、61,62…出力端子、63…制御部、63a…CPU、63b…ROM、63c…RAM、63d…不揮発性メモリ、64…カードI/F、65…カードホルダ、66…カードI/F、67…カードホルダ、68,69…通信I/F、70…USB I/F、71…IEEE1394 I/F、72…音質制御処理部、73…入力端子、74…音質制御部、74a…入力端子、74b…リバーブ処理部、74c…遅延補償部、74d…可変利得増幅部、74e…入力端子、74f…可変利得増幅部、74g…加算部、74h…出力端子、75〜77…音質制御部、78…出力端子、79…補正特性制御部、80…特徴パラメータ算出部、81…音声・音楽識別スコア算出部、82…音楽・背景音識別スコア算出部、83…検出スコア算出部、84…環境音枚キング特性算出部、85…入力端子、86…マスキング補正ゲイン算出部。

【特許請求の範囲】
【請求項1】
入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する補正ゲイン算出手段と、
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出するスコア算出手段と、
外部から供給される音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す音質制御手段と、
前記補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインと、前記スコア算出手段で算出された音種別毎のスコアとに基づいて、前記音質制御手段に供給する音質制御信号を生成する制御手段とを具備する音質制御装置。
【請求項2】
前記制御手段は、
前記スコア算出手段で算出された音種別毎のスコアを比較して支配的な音種別を判別する判別手段と、
前記音種別毎に予め設定された複数種類の重み係数の中から、前記判別手段で判別した音種別に対応した重み係数を選択する選択手段と、
前記選択手段で選択した周波数帯域毎の重み係数に基づいて、前記補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインを補正する補正手段とを具備する請求項1記載の音質制御装置。
【請求項3】
前記制御手段は、
前記スコア算出手段で算出された音種別毎のスコアを比較して支配的な音種別を判別する判別手段と、
前記音種別毎に予め設定され、それぞれが入力オーディオ信号の周波数帯域毎に複数の係数を選択可能に有する複数種類の重み係数の中から、前記判別手段で判別した音種別に対応した重み係数を選択する第1の選択手段と、
前記判別手段で判別された音種別以外の音種別に対応するスコアに基づいて、前記第1の選択手段で選択した重み係数に選択可能に含まれる複数の係数の中から所望の係数を選択する第2の選択手段と、
前記第2の選択手段で選択された入力オーディオ信号の周波数帯域毎の係数に基づいて、前記補正ゲイン算出手段で算出された周波数帯域毎の補正ゲインを補正する補正手段とを具備する請求項1記載の音質制御装置。
【請求項4】
前記制御手段は、前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、音種別毎に予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音種別毎のスコアを補正する請求項1記載の音質制御装置。
【請求項5】
前記制御手段は、
前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、入力オーディオ信号に含まれる音声信号に対応して予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音声信号の含まれている確度を示す音声スコアを補正する音声スコア補正手段と、
前記補正ゲイン算出手段で算出された入力オーディオ信号の周波数帯域毎の補正ゲインと、入力オーディオ信号に含まれる音楽信号に対応して予め設定された重み係数とに基づいて、前記スコア算出手段で算出された音楽信号の含まれている確度を示す音楽スコアを補正する音楽スコア補正手段とを具備する請求項1記載の音質制御装置。
【請求項6】
前記スコア算出手段は、
入力オーディオ信号から音種別の判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、
前記特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、
前記特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する音楽背景音識別スコア算出手段と、
ノイズを判別するための特徴パラメータ、前記音声音楽識別スコア及び前記音楽背景音識別スコアに基づいて、音声信号の含まれている確度を示す音声スコア、音楽信号の含まれている確度を示す音楽スコア、ノイズ信号の含まれている確度を示すノイズスコアをそれぞれ算出する算出手段とを具備する請求項1記載の音質制御装置。
【請求項7】
前記音質制御手段は、入力オーディオ信号に対して、少なくともリバーブ処理、ワイドステレオ処理、センター強調処理、イコライザ処理、サラウンド処理のいずれかを施す請求項1記載の音質制御装置。
【請求項8】
入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する工程と、
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する工程と、
音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す工程と、
前記周波数帯域毎の補正ゲインと前記音種別毎のスコアとに基づいて、前記音質制御信号を生成する工程とを有する音質制御方法。
【請求項9】
入力オーディオ信号に対してその再生音が周囲の環境音にマスクされないように周波数帯域毎にゲインを補正するための補正ゲインを算出する処理と、
入力オーディオ信号から音種別毎に含まれている確度を示すスコアをそれぞれ算出する処理と、
音質制御信号に基づいて入力オーディオ信号に対して音質制御処理を施す処理と、
前記周波数帯域毎の補正ゲインと前記音種別毎のスコアとに基づいて、前記音質制御信号を生成する処理とを、コンピュータに実行させることを特徴とする音質制御用プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate