説明

音質補正装置、音質補正方法及び音質補正用プログラム

【課題】この発明は、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とした音質補正装置、音質補正方法及び音質補正用プログラムを提供することを目的としている。
【解決手段】入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出し、算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコア(S1)を算出する。そして、この音声音楽識別スコア(S1)に基づいて、入力オーディオ信号に対してそれぞれ異なる種類の音質補正処理を施す複数の音質補正手段(78〜81)に対する補正強度を制御する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、再生すべきオーディオ(可聴周波数)信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質補正処理を施す音質補正装置、音質補正方法及び音質補正用プログラムに関する。
【背景技術】
【0002】
周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。
【0003】
この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽(非音声)信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施すことで音質が向上する。
【0004】
このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すことが考えられている。しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。
【0005】
特許文献1には、入力される音響信号の零交差回数やパワー変動等を分析することによって、音響信号を「音声」と「非音声」と「不定」との3種類に分類し、音響信号に対する周波数特性を、「音声」と判別されたとき音声帯域を強調した特性に、「非音声」と判別されたときフラットな特性に、「不定」と判別されたとき前の判定による特性を維持するように制御する構成が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平7−13586号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
そこで、この発明は上記事情を考慮してなされたもので、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とした音質補正装置、音質補正方法及び音質補正用プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
この発明に係る音質補正装置は、入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、入力オーディオ信号に対してそれぞれ異なる種類の音質補正処理を施す複数の音質補正手段と、音声音楽識別スコア算出手段で算出された音声音楽識別スコアに基づいて、複数の音質補正手段に対する補正強度をそれぞれ制御する制御手段とを備えるようにしたものである。
【0009】
また、この発明に係る音質補正方法は、入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する工程と、算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する工程と、算出された音声音楽識別スコアに基づいて、入力オーディオ信号に対してそれぞれ異なる種類の音質補正処理を施す複数の音質補正手段に対する補正強度を制御する工程とを有するようにしたものである。
【0010】
さらに、この発明に係る音質補正用プログラムは、入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する処理と、算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する処理と、算出された音声音楽識別スコアに基づいて、入力オーディオ信号に対してそれぞれ異なる種類の音質補正処理を施す複数の音質補正手段に対する補正強度を制御する処理とを、コンピュータに実行させるようにしたものである。
【発明の効果】
【0011】
上記した発明によれば、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアに基づいて、入力オーディオ信号に対してそれぞれ異なる種類の音質補正処理を施す複数の音質補正手段に対する補正強度を制御するようにしたので、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とすることができる。
【図面の簡単な説明】
【0012】
【図1】この発明の実施の形態を示すもので、デジタルテレビジョン放送受信装置とそれを中心としたネットワークシステムの一例とを概略的に説明するために示す図。
【図2】同実施の形態におけるデジタルテレビジョン放送受信装置の主要な信号処理系を説明するために示すブロック構成図。
【図3】同実施の形態におけるデジタルテレビジョン放送受信装置のオーディオ処理部に含まれる音質補正処理部を説明するために示すブロック構成図。
【図4】同実施の形態における音質補正処理部に含まれる特徴パラメータ算出部の動作を説明するために示す図。
【図5】同実施の形態における特徴パラメータ算出部が行なう処理動作を説明するために示すフローチャート。
【図6】同実施の形態における音質補正処理部が行なう音声・音楽識別スコア及び音楽・背景音識別スコアの算出動作を説明するために示すフローチャート。
【図7】同実施の形態における音質補正処理部が行なうスコア補正動作の一部を説明するために示すフローチャート。
【図8】同実施の形態における音質補正処理部が行なうスコア補正動作の残部を説明するために示すフローチャート。
【図9】同実施の形態における音質補正処理部が行なう間欠スコアの生成手法を説明するために示す図。
【図10】同実施の形態における音質補正処理部が行なう間欠スコアを生成する動作の一例を説明するために示すフローチャート。
【図11】同実施の形態における音質補正処理部が行なう間欠スコアを生成する動作の他の例を説明するために示すフローチャート。
【図12】同実施の形態における音質補正処理部に含まれる音質補正部の一例を説明するために示すブロック構成図。
【図13】同実施の形態における音質補正処理部が音質補正の強度を設定するのに使用するテーブルを説明するために示す図。
【図14】同実施の形態における音質補正処理部がテーブルに基づいて音質補正強度を変更する処理動作を説明するために示すフローチャート。
【図15】同実施の形態における音質補正処理部によって行なわれる音質補正強度の遷移状況を説明するために示す図。
【発明を実施するための最良の形態】
【0013】
以下、この発明の実施の形態について図面を参照して詳細に説明する。図1は、この実施の形態で説明するデジタルテレビジョン放送受信装置11の外観と、このデジタルテレビジョン放送受信装置11を中心として構成されるネットワークシステムの一例とを概略的に示している。
【0014】
すなわち、デジタルテレビジョン放送受信装置11は、主として、薄型のキャビネット12と、このキャビネット12を起立させて支持する支持台13とから構成されている。そして、このキャビネット12には、例えばSED(surface-conduction electron-emitter display)表示パネルまたは液晶表示パネル等でなる平面パネル型の映像表示器14、一対のスピーカ15,15、操作部16、リモートコントローラ17から送信される操作情報を受ける受光部18等が設置されている。
【0015】
また、このデジタルテレビジョン放送受信装置11には、例えばSD(secure digital)メモリカード、MMC(multimedia card)及びメモリスティック等の第1のメモリカード19が着脱可能となっており、この第1のメモリカード19に対して番組や写真等の情報の記録再生が行なわれるようになっている。
【0016】
さらに、このデジタルテレビジョン放送受信装置11には、例えば契約情報等の記録された第2のメモリカード[IC(integrated circuit)カード等]20が着脱可能となっており、この第2のメモリカード20に対して情報の記録再生が行なわれるようになっている。
【0017】
また、このデジタルテレビジョン放送受信装置11は、第1のLAN(local area network)端子21、第2のLAN端子22、USB(universal serial bus)端子23及びIEEE(institute of electrical and electronics engineers)1394端子24を備えている。
【0018】
このうち、第1のLAN端子21は、LAN対応HDD(hard disk drive)専用ポートとして使用される。すなわち、この第1のLAN端子21は、それに接続されたNAS(network attached storage)であるLAN対応のHDD25に対して、イーサネット(登録商標)により情報の記録再生を行なうために使用される。
【0019】
このように、デジタルテレビジョン放送受信装置11にLAN対応HDD専用ポートとしての第1のLAN端子21を設けることにより、他のネットワーク環境やネットワーク使用状況等に影響されることなく、HDD25に対してハイビジョン画質による放送番組の情報記録を安定して行なうことができる。
【0020】
また、第2のLAN端子22は、イーサネット(登録商標)を用いた一般的なLAN対応ポートとして使用される。すなわち、この第2のLAN端子22は、ハブ26を介して、LAN対応のHDD27、PC(personal computer)28、HDD内蔵のDVD(digital versatile disk)レコーダ29等の機器を接続して、例えば家庭内ネットワークを構築し、これらの機器と情報伝送を行なうために使用される。
【0021】
この場合、PC28及びDVDレコーダ29については、それぞれ、家庭内ネットワークにおいてコンテンツのサーバ機器として動作するための機能を持ち、さらにコンテンツのアクセスに必要なURI(uniform resource identifier)情報を提供するサービスを備えたUPnP(universal plug and play)対応機器として構成される。
【0022】
なお、DVDレコーダ29については、第2のLAN端子22を介して通信されるデジタル情報が制御系のみの情報であるため、デジタルテレビジョン放送受信装置11との間でアナログの映像及びオーディオ情報を伝送するために、専用のアナログ伝送路30が設けられている。
【0023】
さらに、この第2のLAN端子22は、ハブ26に接続されたブロードバンドルータ31を介して、例えばインターネット等の外部のネットワーク32に接続される。そして、この第2のLAN端子22は、ネットワーク32を介してPC33や携帯電話34等と情報伝送を行なうためにも使用される。
【0024】
また、上記USB端子23は、一般的なUSB対応ポートとして使用されるもので、例えばハブ35を介して、携帯電話36、デジタルカメラ37、メモリカードに対するカードリーダ/ライタ38、HDD39、キーボード40等のUSB機器を接続し、これらのUSB機器と情報伝送を行なうために使用される。
【0025】
さらに、上記IEEE1394端子24は、例えばAV−HDD41及びD(digital)−VHS(video home system)42等のような複数の情報記録再生機器をシリアル接続し、各機器と選択的に情報伝送を行なうために使用される。
【0026】
図2は、上記したデジタルテレビジョン放送受信装置11の主要な信号処理系を示している。すなわち、BS/CS(broadcasting satellite/communication satellite)デジタル放送受信用のアンテナ43で受信した衛星デジタルテレビジョン放送信号は、入力端子44を介して衛星デジタル放送用のチューナ45に供給されることにより、所望のチャンネルの放送信号が選局される。
【0027】
そして、このチューナ45で選局された放送信号は、PSK(phase shift keying)復調器46及びTS(transport stream)復号器47に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部48に出力される。
【0028】
また、地上波放送受信用のアンテナ49で受信した地上デジタルテレビジョン放送信号は、入力端子50を介して地上デジタル放送用のチューナ51に供給されることにより、所望のチャンネルの放送信号が選局される。
【0029】
そして、このチューナ51で選局された放送信号は、例えば日本ではOFDM(orthogonal frequency division multiplexing)復調器52及びTS復号器53に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
【0030】
また、上記地上波放送受信用のアンテナ49で受信した地上アナログテレビジョン放送信号は、入力端子50を介して地上アナログ放送用のチューナ54に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ54で選局された放送信号は、アナログ復調器55に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部48に出力される。
【0031】
ここで、上記信号処理部48は、TS復号器47,53からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部56及びオーディオ処理部57に出力している。
【0032】
また、上記信号処理部48には、複数(図示の場合は4つ)の入力端子58a,58b,58c,58dが接続されている。これら入力端子58a〜58dは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置11の外部から入力可能とするものである。
【0033】
そして、上記信号処理部48は、上記アナログ復調器55及び各入力端子58a〜58dからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部56及びオーディオ処理部57に出力する。
【0034】
グラフィック処理部56は、信号処理部48から供給されるデジタルの映像信号に、OSD(on screen display)信号生成部59で生成されるOSD信号を重畳して出力する機能を有する。このグラフィック処理部56は、信号処理部48の出力映像信号と、OSD信号生成部59の出力OSD信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。
【0035】
グラフィック処理部56から出力されたデジタルの映像信号は、映像処理部60に供給される。この映像処理部60は、入力されたデジタルの映像信号を、前記映像表示器14で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器14に出力して映像表示させるとともに、出力端子61を介して外部に導出させる。
【0036】
また、上記オーディオ処理部57は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ15で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ15に出力されてオーディオ再生に供されるとともに、出力端子62を介して外部に導出される。
【0037】
ここで、このデジタルテレビジョン放送受信装置11は、上記した各種の受信動作を含むその全ての動作を制御部63によって統括的に制御されている。この制御部63は、CPU(central processing unit)64を内蔵しており、前記操作部16からの操作情報、または、リモートコントローラ17から送出され前記受光部18に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。
【0038】
この場合、制御部63は、主として、そのCPU64が実行する制御プログラムを格納したROM(read only memory)65と、該CPU64に作業エリアを提供するRAM(random access memory)66と、各種の設定情報及び制御情報等が格納される不揮発性メモリ67とを利用している。
【0039】
また、この制御部63は、カードI/F(interface)68を介して、前記第1のメモリカード19が装着可能なカードホルダ69に接続されている。これによって、制御部63は、カードホルダ69に装着された第1のメモリカード19と、カードI/F68を介して情報伝送を行なうことができる。
【0040】
さらに、上記制御部63は、カードI/F70を介して、前記第2のメモリカード20が装着可能なカードホルダ71に接続されている。これにより、制御部63は、カードホルダ71に装着された第2のメモリカード20と、カードI/F70を介して情報伝送を行なうことができる。
【0041】
また、上記制御部63は、通信I/F72を介して第1のLAN端子21に接続されている。これにより、制御部63は、第1のLAN端子21に接続されたLAN対応のHDD25と、通信I/F72を介して情報伝送を行なうことができる。この場合、制御部63は、DHCP(dynamic host configuration protocol)サーバ機能を有し、第1のLAN端子21に接続されたLAN対応のHDD25にIP(internet protocol)アドレスを割り当てて制御している。
【0042】
さらに、上記制御部63は、通信I/F73を介して第2のLAN端子22に接続されている。これにより、制御部63は、第2のLAN端子22に接続された各機器(図1参照)と、通信I/F73を介して情報伝送を行なうことができる。
【0043】
また、上記制御部63は、USB I/F74を介して前記USB端子23に接続されている。これにより、制御部63は、USB端子23に接続された各機器(図1参照)と、USB I/F74を介して情報伝送を行なうことができる。
【0044】
さらに、上記制御部63は、IEEE1394 I/F75を介してIEEE1394端子24に接続されている。これにより、制御部63は、IEEE1394端子24に接続された各機器(図1参照)と、IEEE1394 I/F75を介して情報伝送を行なうことができる。
【0045】
図3は、上記オーディオ処理部57内に備えられる音質補正処理部76を示している。この音質補正処理部76では、入力端子77に供給されたオーディオ信号が、直列接続された複数(図示の場合は4つ)の音質補正部78,79,80,81によって、それぞれ異なる種類の音質補正処理を施された後、出力端子82から取り出される。
【0046】
一例を言えば、音質補正部78は入力オーディオ信号にリバーブ処理を施し、音質補正部79は入力オーディオ信号にワイドステレオ処理を施し、音質補正部80は入力オーディオ信号にセンター強調処理を施し、音質補正部81は入力オーディオ信号にイコライザ処理を施している。
【0047】
そして、これらの音質補正部78〜81にあっては、後述するミクシング制御部88から各音質補正部78〜81に対してそれぞれ別個に生成されて出力される補正強度制御信号に基づいて、入力オーディオ信号に施す音質補正処理の強度が独立に制御されるようになっている。
【0048】
一方、上記音質補正処理部76では、入力端子77に供給されたオーディオ信号が特徴パラメータ算出部83に供給されている。この特徴パラメータ算出部83は、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータや、音楽信号と例えばBGM(back ground music)、拍手及び歓声等の背景音となる背景音信号とを判別するための各種の特徴パラメータを算出している。
【0049】
すなわち、この特徴パラメータ算出部83は、入力されたオーディオ信号を、図4(b)に示すように、数10msec程度のサブフレーム単位に切り出し、図4(a)に示すように切り出したサブフレームから構成される数100msec程度のフレーム単位に算出処理を行なう。
【0050】
そして、この特徴パラメータ算出部83では、入力されたオーディオ信号から、サブフレーム単位で、音声信号と音楽信号とを判別するための各種の判別情報や、音楽信号と背景音信号とを判別するための各種の判別情報等を算出し、算出された各種の判別情報のそれぞれについて、フレーム単位での統計量(例えば平均,分散,最大,最小等)を求めることにより、種々の特徴パラメータを生成している。
【0051】
例えば、特徴パラメータ算出部83では、サブフレーム単位で入力オーディオ信号の信号振幅の二乗和であるパワー値を判別情報として算出し、その算出されたパワー値に対するフレーム単位での統計量を求めることにより、パワー値に関する特徴パラメータpwを生成している。
【0052】
また、特徴パラメータ算出部83では、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数を判別情報として算出し、その算出された零交差周波数に対するフレーム単位での統計量を求めることにより、零交差周波数に関する特徴パラメータzcを生成している。
【0053】
さらに、特徴パラメータ算出部83では、サブフレーム単位で入力オーディオ信号の周波数領域でのスペクトル変動を判別情報として算出し、その算出されたスペクトル変動に対するフレーム単位での統計量を求めることにより、スペクトル変動に関する特徴パラメータsfを生成している。
【0054】
また、特徴パラメータ算出部83では、サブフレーム単位で入力オーディオ信号における2チャンネルステレオの左右(LR)信号のパワー比(LRパワー比)を判別情報として算出し、その算出されたLRパワー比に対するフレーム単位での統計量を求めることにより、LRパワー比に関する特徴パラメータlrを生成している。
【0055】
さらに、特徴パラメータ算出部83では、サブフレーム単位で、入力オーディオ信号の周波数領域変換後、楽曲の楽器音に特徴的な特定の周波数帯域のパワー成分の集中度合いを判別情報として算出している。この集中度合いは、入力オーディオ信号の全帯域または特定の帯域内における、上記した特徴的な特定の周波数帯域のパワー占有割合等で示される。特徴パラメータ算出部83では、この判別情報に対するフレーム単位での統計量を求めることにより、楽器音に特徴的な特定の周波数帯域の集中度合いに関する特徴パラメータinstを生成している。
【0056】
図5は、上記特徴パラメータ算出部83が、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータや、音楽信号と背景音信号とを判別するための各種の特徴パラメータを生成する処理動作をまとめたフローチャートの一例を示している。
【0057】
まず、処理が開始(ステップS5a)されると、特徴パラメータ算出部83は、ステップS5bで、入力オーディオ信号から数10msec程度のサブフレームを抽出する。そして、特徴パラメータ算出部83は、ステップS5cで、入力オーディオ信号からサブフレーム単位でのパワー値を算出する。
【0058】
その後、特徴パラメータ算出部83は、ステップS5dで、入力オーディオ信号からサブフレーム単位での零交差周波数を算出し、ステップS5eで、入力オーディオ信号からサブフレーム単位でのスペクトル変動を算出し、ステップS5fで、入力オーディオ信号からサブフレーム単位でのLRパワー比を算出する。
【0059】
また、特徴パラメータ算出部83は、ステップS5gで、入力オーディオ信号からサブフレーム単位で、楽器音に特徴的な特定の周波数帯域のパワー成分の集中度合いを算出する。同様に、特徴パラメータ算出部83は、ステップS5hで、入力オーディオ信号からサブフレーム単位での他の判別情報を算出する。
【0060】
その後、特徴パラメータ算出部83は、ステップS5iで、入力オーディオ信号から数100msec程度のフレームを抽出する。そして、特徴パラメータ算出部83は、ステップS5jで、サブフレーム単位で算出した各種の判別情報に対して、それぞれフレーム単位での統計量を求めることにより種々の特徴パラメータを生成し、処理を終了(ステップS5k)する。
【0061】
上記のようにして、特徴パラメータ算出部83で生成された各種の特徴パラメータは、再び、図3に示すように、音声・音楽識別スコア算出部84及び音楽・背景音識別スコア算出部85にそれぞれ供給される。
【0062】
このうち、音声・音楽識別スコア算出部84は、特徴パラメータ算出部83で生成された各種の特徴パラメータに基づいて、入力端子77に供給されたオーディオ信号が、スピーチのような音声信号の特性に近いか、音楽(楽曲)信号の特性に近いかを定量的に示す音声・音楽識別スコアS1を算出している。
【0063】
また、音楽・背景音識別スコア算出部85は、特徴パラメータ算出部83で生成された各種の特徴パラメータに基づいて、入力端子77に供給されたオーディオ信号が、音楽信号の特性に近いか、背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアS2を算出している。
【0064】
そして、上記音声・音楽識別スコア算出部84から出力される音声・音楽識別スコアS1と、音楽・背景音識別スコア算出部85から出力される音楽・背景音識別スコアS2とは、スコア補正部86に供給される。このスコア補正部86は、詳細は後述するが、音声・音楽識別スコアS1を音楽・背景音識別スコアS2に基づいて補正することにより、音種別スコアSを生成している。
【0065】
ここで、上記音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出について説明するに先立ち、各種の特徴パラメータの性質について説明しておくことにする。まず、上記パワー値に関する特徴パラメータpwについて説明する。すなわち、パワー変動に関して言えば、一般に、音声は、発話している区間と沈黙している区間とが交互に現れるため、サブフレーム間での信号パワーの違いが大きくなり、フレーム単位で見ると各サブフレーム間のパワー値の分散が大きくなる傾向にある。ここでパワー変動とは、サブフレームにおいて計算したパワー値について、より長いフレーム区間内での値の変動に着目した特徴量を指し、具体的にはパワーの分散値等を用いる。
【0066】
また、上記零交差周波数に関する特徴パラメータzcについて説明すると、零交差周波数に関して言えば、前述した発話区間と沈黙区間との違いに加えて、音声信号は零交差周波数が子音では高く母音では低くなるため、フレーム単位で見ると各サブフレーム間の零交差周波数の分散が大きくなる傾向にある。
【0067】
さらに、上記スペクトル変動に関する特徴パラメータsfについて説明すると、スペクトル変動に関して言えば、音声信号は、音楽信号のようにトーナル(調音構造的)な信号に比べて周波数特性の変動が激しいため、フレーム単位で見るとスペクトル変動分散が大きくなる傾向にある。
【0068】
また、上記したLRパワー比に関する特徴パラメータlrについて説明すると、LRパワー比に関して言えば、音楽信号では、ボーカル以外の楽器演奏がセンター以外に定位していることが多いため、左右のチャンネル間のパワー比が大きくなる傾向にある。
【0069】
上記音声・音楽識別スコア算出部84では、これらの特徴パラメータpw,zc,sf,lrのように、音声信号と音楽信号との性質の違いに着目した、これらの信号種別を切り分け易い特徴パラメータを用いて、音声・音楽識別スコアS1を算出している。
【0070】
ただし、これらの特徴パラメータpw,zc,sf,lrは、純粋な音声信号と音楽信号とを判別するためには有効であるが、例えば大人数の拍手、歓声、笑い声、雑踏等の背景音が重畳されている音声信号に対しては、必ずしも同じような判別効果を発揮することができるわけではなく、背景音の影響により音楽信号であるとの誤判定を起こし易くなっている。
【0071】
このような誤判定の発生を抑制するために、上記音楽・背景音識別スコア算出部85では、入力オーディオ信号が音楽信号の特性に近いか背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアS2を算出している。
【0072】
そして、上記スコア補正部86では、音楽・背景音識別スコアS2を用いて、背景音の影響を除外するように音声・音楽識別スコアS1を補正している。これにより、スコア補正部86からは、音声・音楽識別スコアS1が背景音の影響により実際よりも音楽信号に近い値になってしまうという不都合が抑制された音種別スコアSが出力される。
【0073】
この場合、音楽・背景音識別スコア算出部85では、音楽信号と背景音信号とを判別するために適した判別情報として、楽器の特定周波数成分の集中度合いに対応した特徴パラメータinstを採用している。
【0074】
この特徴パラメータinstについて説明すると、音楽信号は、楽曲を構成する楽器によって特定の周波数帯域に振幅パワーが集中することが多くなっている。例として、現代の楽曲では、多くの場合、ベースとなる楽器が存在し、そのベース音を解析すると、信号の周波数領域において、振幅パワーが特定の低周波数帯域に集中している。
【0075】
これに対し、背景音信号には、このような特定の低周波数帯域のパワー集中度は見られないものである。つまり、ベースとなる楽器の低周波成分が特定の周波数帯域に集中し易いという観点から、楽曲と背景音とを区別するための判別情報として、ベース成分のエネルギー集中度を用いることは非常に有効である。これにより、上記特徴パラメータinstは、音楽信号と背景音信号とを判別する上で有効な指標となる。
【0076】
次に、上記音声・音楽識別スコア算出部84及び音楽・背景音識別スコア算出部85における音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出について説明する。音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出手法については1つの手法に特定しないが、ここでは、線形識別関数を用いた算出手法について説明する。
【0077】
線形識別関数を用いる手法では、音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出に必要な各種特徴パラメータに乗ずる重み付け係数をオフライン学習により算出している。この重み付け係数としては、信号種別の判別に効果の高い特徴パラメータほど大きい値が与えられる。
【0078】
また、重み付け係数は、音声・音楽識別スコアS1については、予め準備した多くの既知の音声信号及び音楽信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出され、音楽・背景音識別スコアS2については、予め準備した多くの既知の音楽信号及び背景音信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。
【0079】
まず、音声・音楽識別スコアS1の算出について説明すると、今、学習対象とする参照データのk番目のフレームの特徴パラメータセットをベクトルxで表わし、入力オーディオ信号が属する信号区間{音声、音楽}としてzで以下のように表わすものとする。
【0080】
=(1,x,x,……,x) … (1)
={−1,+1} … (2)
ここで、上記(1)式の各要素は、抽出したn個の特徴パラメータに対応する。また、上記(2)式の−1,+1は、それぞれ、音声区間及び音楽区間に対応し、使用する音声・音楽判別用の参照データの正解信号種別となる区間について、予め人手で2値のラベル付けをしたものである。さらに、上記(2)式より、以下の線形識別関数を立てる。
【0081】
f(x)=A+A・x+A・x+……+A・x … (3)
k=1〜N(Nは参照データの入力フレーム数)に対し、ベクトルxを抽出し、(3)式の評価値と(2)式の正解信号種別との誤差二乗和である(4)式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数A(i=0〜n)が決定される。
【数1】

【0082】
学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を(3)式より計算し、f(x)<0であれば音声区間、f(x)>0であれば音楽区間と判定する。そして、このときのf(x)が上記音声・音楽識別スコアS1に相当する。これにより、
S1=A+A・x+A・x+……+A・x
が算出される。
【0083】
また、音楽・背景音識別スコアS2の算出についても同様に、学習対象とする参照データのk番目のフレームの特徴パラメータセットをベクトルyで表わし、入力オーディオ信号が属する信号区間{背景音、音楽}としてzで以下のように表わすものとする。
【0084】
=(1,y,y,……,y) … (5)
={−1,+1} … (6)
ここで、上記(5)式の各要素は、抽出したm個の特徴パラメータに対応する。また、上記(6)式の−1,+1は、それぞれ、背景音区間及び音楽区間に対応し、使用する音楽・背景音判別用の参照データの正解信号種別となる区間について、予め人手で2値のラベル付けをしたものである。さらに、上記(6)式より、以下の線形識別関数を立てる。
【0085】
f(y)=B+B・y+B・y+……+B・y … (7)
k=1〜N(Nは参照データの入力フレーム数)に対し、ベクトルyを抽出し、(7)式の評価値と(6)式の正解信号種別との誤差二乗和である(8)式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数B(i=0〜m)が決定される。
【数2】

【0086】
学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を(7)式より計算し、f(y)<0であれば背景音区間、f(y)>0であれば音楽区間と判定する。そして、このときのf(y)が上記音楽・背景音識別スコアS2に相当する。これにより、
S2=B+B・y+B・y+……+B・y
が算出される。
【0087】
なお、音声・音楽識別スコアS1及び音楽・背景音識別スコアS2の算出については、上記した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴パラメータに乗ずる手法に限定されるものではなく、例えば各特徴パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各特徴パラメータに重み付けされた得点を付与し、スコアを算出する等の手法も用いることが可能である。
【0088】
図6は、上記のように線形識別関数を用いたオフライン学習で算出した各特徴パラメータの重み付け係数に基づき、音声・音楽識別スコア算出部84及び音楽・背景音識別スコア算出部85が音声・音楽識別スコアS1及び音楽・背景音識別スコアS2を算出する処理動作をまとめたフローチャートの一例を示している。
【0089】
すなわち、処理が開始(ステップS6a)されると、音声・音楽識別スコア算出部84は、ステップS6bで、特徴パラメータ算出部83で算出される各種の特徴パラメータに対して、予め学習した音声・音楽判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・音楽識別スコア算出部84は、ステップS6cで、重み付け係数を乗じた各特徴パラメータの総和を、音声・音楽識別スコアS1として算出する。
【0090】
また、音楽・背景音識別スコア算出部85は、ステップS6dで、特徴パラメータ算出部83で算出される各種の特徴パラメータに対して、予め学習した音楽・背景音判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・背景音識別スコア算出部85は、ステップS6eで、重み付け係数を乗じた各特徴パラメータの総和を、音楽・背景音識別スコアS2として算出し、処理を終了(ステップS6f)する。
【0091】
また、図7及び図8は、上記スコア補正部86が音声・音楽識別スコアS1を音楽・背景音識別スコアS2に基づいて補正することにより、上記音種別スコアSを算出する処理動作をまとめたフローチャートの一例を示している。
【0092】
すなわち、処理が開始(ステップS7a)されると、スコア補正部86は、ステップS7bで、音質・音楽識別スコア算出部84及び音楽・背景音識別スコア算出部85から音声・音楽識別スコアS1及び音楽・背景音識別スコアS2を入力し、ステップS7cで、音声・音楽識別スコアS1が負(S1<0)であるか否か、つまり、入力オーディオ信号が音声であるか否かを判別する。
【0093】
そして、音声・音楽識別スコアS1が正(S1>0)、つまり、入力オーディオ信号が音楽であると判断された場合(NO)、スコア補正部86は、ステップS7dで、音楽・背景音識別スコアS2が正(S2>0)であるか否か、つまり、入力オーディオ信号が音楽であるか否かを判別する。
【0094】
上記ステップ7dにより音楽・背景音識別スコアS2が負(S2<0)、つまり、入力オーディオ信号が背景音であると判断された場合(NO)、スコア補正部86は、音楽・背景音識別スコアS2を用いて、背景音の影響が除外されるように音声・音楽識別スコアS1を補正する。
【0095】
この補正は、まず、ステップS7eで、音声・音楽識別スコアS1から背景音に関する寄与分を減らすように、音声・音楽識別スコアS1に音楽・背景音識別スコアS2に所定の係数αを乗算した値を加算する。つまり、S1=S1+(α×S2)としている。この場合、音楽・背景音識別スコアS2は負であるから、音声・音楽識別スコアS1としては、その値が減少することになる。
【0096】
その後、スコア補正部86は、ステップS7eでの音声・音楽識別スコアS1に対する過度の補正を防ぐため、ステップS7fで、ステップS7eによる演算誤の音声・音楽識別スコアS1が、予め設定された最小値S1minと最大値S1maxとの範囲内に収まるように、つまり、S1min≦S1≦S1maxとなるようにクリップ処理を施している。
【0097】
そして、このステップS7fの後、または、上記ステップS7dで音楽・背景音識別スコアS2が正(S2>0)、つまり、音楽であると判断された場合(YES)、スコア補正部86は、ステップS7gで、上記した音質補正部78〜81において音楽用の音質補正処理効果を高めるための安定化パラメータS3を生成する。
【0098】
この場合、安定化パラメータS3は、音質補正部78〜81に対する補正処理の強度を決定している音声・音楽識別スコアS1に対して、補正強度を高めるとともに安定化を図るように作用する。これは、音楽シーンによっては、音声・音楽識別スコアS1が大きな値にならないことがあり、その場合、音楽信号に対して十分な音質補正効果が得られなくなることを防止しているものである。
【0099】
すなわち、ステップS7gにおいて、安定化パラメータS3は、音声・音楽識別スコアS1が正となっている時間、つまり、音楽信号であると判別されている継続時間が長いほど音質補正処理が強化されるように、音声・音楽識別スコアS1が正と判定されたフレームが、予め設定されたCm回以上連続して検出される毎に、予め設定された所定値βを累積加算することにより生成される。
【0100】
また、この安定化パラメータS3の値は、フレームを跨いでも保持されているため、入力オーディオ信号が音声に変わった場合にも、引き続き更新される。すなわち、上記ステップS7cで音声・音楽識別スコアS1が負(S1<0)、つまり、入力オーディオ信号が音声であると判断された場合(YES)、スコア補正部86は、ステップS7hで、音声・音楽識別スコアS1が負となっている時間、つまり、音声信号であると判別されている継続時間が長いほど、音質補正部78〜81における音楽用の音質補正処理効果が軽減されるように、音声・音楽識別スコアS1が負と判定されたフレームが、予め設定されたCs回以上連続して検出される毎に、安定化パラメータS3から予め設定された所定値γを減算する。
【0101】
その後、スコア補正部86は、ステップS7iで、上記ステップS7gまたはS7hで生成された安定化パラメータS3による過度の補正を防ぐために、安定化パラメータS3が予め設定された最小値S3minと最大値S3maxとの範囲内に収まるように、つまり、S3min≦S3≦S3maxとなるようにクリップ処理を施している。
【0102】
そして、スコア補正部86は、ステップS7jで、上記ステップS7fによりクリップ処理の施された音声・音楽識別スコアS1に、上記ステップS7iによりクリップ処理の施された安定化パラメータS3を加算することによって、補正スコアS1′を生成している。
【0103】
その後、スコア補正部86は、ステップS8aで、上記補正スコアS1′が負(S1′<0)であるか否かを判別し、負であると判断された場合(YES)、ステップS8bで、入力オーディオ信号の音種別が音声であると判断する。
【0104】
そして、スコア補正部86は、ステップS8cで、補正スコアS1′が負値であるためその絶対値をとり、補正スコアの絶対値|S1′|が音声用として予め設定された最大値MAXsよりも大きいか否かを判別する。
【0105】
ここで、補正スコアの絶対値|S1′|が最大値MAXsよりも大きくないと判断された場合(NO)、スコア補正部86は、ステップS8dで、補正スコアの絶対値|S1′|を音種別スコアSとして出力し、処理を終了(ステップS8j)する。
【0106】
また、上記ステップS8cで補正スコアの絶対値|S1′|が最大値MAXsよりも大きいと判断された場合(YES)、スコア補正部86は、ステップS8eで、最大値MAXsを音種別スコアSとして出力し、処理を終了(ステップS8j)する。
【0107】
一方、上記ステップS8aで、上記補正スコアS1′が正であると判断された場合(NO)、スコア補正部86は、ステップS8fで、入力オーディオ信号の音種別が音楽であると判断する。
【0108】
そして、スコア補正部86は、ステップS8gで、補正スコアS1′が音楽用として予め設定された最大値MAXmよりも大きいか否かを判別する。補正スコアS1′が最大値MAXmよりも大きくないと判断された場合(NO)、スコア補正部86は、ステップS8hで、補正スコアS1′を音種別スコアSとして出力し、処理を終了(ステップS8j)する。
【0109】
また、上記ステップS8gで補正スコアS1′が最大値MAXmよりも大きいと判断された場合(YES)、スコア補正部86は、ステップS8iで、最大値MAXmを音種別スコアSとして出力し、処理を終了(ステップS8j)する。
【0110】
そして、上記のようにしてスコア補正部86から出力される音種別スコアSは、再び、図3に示すように、間欠通知処理部87に供給される。この間欠通知処理部87は、数10msecの解析区間毎に算出される音種別スコアSを、約1sec程度毎の間隔で上記音質補正部78〜81による音質補正処理に供させるように平滑化あるいは重み付けし、それを間欠スコアSdとして前記ミキシング制御部88に通知している。
【0111】
このように、音種別スコアSから、それよりも長い周期を有する間欠スコアSdを生成し、その間欠スコアSdをミクシング制御部88に供給して音質補正部78〜81による音質補正処理に供させるようにしている。これにより、ハードウエア構成またはソフトウエア構成によっては、音声・音楽・背景音の判別処理系と音質補正処理系とが分離して実装されるような場合に、両者間の通信負荷を削減することができる。
【0112】
図9は、音種別スコアSと間欠スコアSdとの対応関係を示している。音種別スコアSを平滑化する手法としては、通知間隔内に存在する複数の音種別スコアS(n)の平均値を利用する方法や、下式のように通知時刻に近い音種別スコアS(n)の値を重視するような重み付け係数a(n)を音種別スコアS(n)に乗算する算出する方法等が考えられる。
【0113】
Sd=a(n)・Sd(n)+a(n-1)・Sd(n-1)+a(n-2)・Sd(n-2)+……
ここで、nは音種別スコアSの算出間隔を単位とした離散時間であり、重み付け係数aはa(n−1)<a(n)≦1.0の関係にある。
【0114】
図10は、上記した間欠通知処理部87が音種別スコアSから間欠スコアSdを生成する処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS10a)されると、間欠通知処理部87は、ステップS10bで、スコア補正部86から音種別スコアSを受信する。
【0115】
その後、間欠通知処理部87は、ステップS10cで、間欠スコアSdをミクシング制御部88に通知する周期が廻ってきたか否かを判別し、通知時刻に達していないと判断された場合(NO)、ステップS10dで、スコア補正部86から受信した音種別スコアSを例えば前記した不揮発性メモリ67等に蓄積して、ステップS10bの処理に戻される。
【0116】
また、上記ステップS10cで通知時刻に達したと判断された場合(YES)、間欠通知処理部87は、ステップS10eで、蓄積された音種別スコアS(n)と重み付け係数a(n)とから、間欠スコアSdを算出する。
【0117】
その後、間欠通知処理部87は、ステップS10fで、不揮発性メモリ67に蓄積された音種別スコアSをクリアし、ステップS10gで、ステップS10eにより算出された間欠スコアSdに、それが音楽であるか音声であるかを示す音種別情報を付して、ミクシング制御部88に送信し、ステップS10bの処理に戻される。
【0118】
また、図11は、上記した間欠通知処理部87が音種別スコアSから間欠スコアSdを生成する処理動作の他の例をまとめたフローチャートを示している。すなわち、処理が開始(ステップS11a)されると、間欠通知処理部87は、ステップS11bで、スコア補正部86から音種別スコアSを受信する。
【0119】
その後、間欠通知処理部87は、ステップS11cで、間欠スコアSdをミクシング制御部88に通知する周期が廻ってきたか否かを判別し、通知時刻に達していないと判断された場合(NO)、ステップS11dで、スコア補正部86から受信した音種別スコアSを例えば前記した不揮発性メモリ67等に蓄積して、ステップS11bの処理に戻される。
【0120】
また、上記ステップS11cで通知時刻に達したと判断された場合(YES)、間欠通知処理部87は、ステップS11eで、蓄積された音種別スコアS(n)と重み付け係数a(n)とから、音楽用の間欠スコアSdmsを算出する。この場合、音楽用の間欠スコアSdmsは、音種別が音楽の値のみが使用される。
【0121】
さらに、間欠通知処理部87は、ステップS11fで、蓄積された音種別スコアS(n)と重み付け係数a(n)とから、音声用の間欠スコアSdspを算出する。この場合も、音声用の間欠スコアSdspは、音種別が音声の値のみが使用される。
【0122】
その後、間欠通知処理部87は、ステップS11gで、不揮発性メモリ67に蓄積された音種別スコアSをクリアし、ステップS11hで、ステップS11e及び11fにより算出された音楽用及び音声用の各間欠スコアSdms及びSdspをミクシング制御部88に送信して、ステップS11bの処理に戻される。
【0123】
次に、図12は、上記した各音質補正部78〜81のうち音質補正部78の一例を示している。なお、他の音質補正部79〜81については、音質補正部78とほぼ同様の構成及び動作を有するため、それらの説明は省略する。
【0124】
すなわち、音質補正部78は、入力端子78aに供給されたオーディオ信号が、リバーブ処理部78b及び遅延補償部78cにそれぞれ供給される。このうち、リバーブ処理部78bは、入力オーディオ信号にエコー効果を与えるためのリバーブ処理を施した後、可変利得増幅部78dに出力している。
【0125】
この可変利得増幅部78dは、入力オーディオ信号に対して、上記ミクシング制御部88から出力され入力端子78eを介して供給される補正強度制御信号に基づいたゲインGで増幅処理を施している。この場合、可変利得増幅部78dのゲインGは、補正強度制御信号に基づいて、0.0〜1.0の範囲で可変される。
【0126】
また、上記遅延補償部78cは、入力オーディオ信号とリバーブ処理部78bから得られるオーディオ信号との処理遅延を吸収するために設けられている。この遅延補償部78dから出力されたオーディオ信号は、可変利得増幅部78fに供給される。
【0127】
この可変利得増幅部78fは、可変利得増幅部78dのゲインGに対して、1.0−Gなるゲインで、入力オーディオ信号に増幅処理を施している。そして、上記可変利得増幅部78d,78fから出力される各オーディオ信号は、加算部78gにより加算されて、出力端子78hから取り出される。
【0128】
なお、他の音質補正部79〜81では、上記した音質補正部78のリバーブ処理部78bが、ワイドステレオ処理部、センター強調処理部、イコライザ処理部等に入れ替わることになる。
【0129】
図13は、上記ミクシング制御部88が、入力された間欠スコアSdに基づいて各音質補正部78〜81に対する音質補正の強度を設定するためのテーブルを示している。この補正強度設定テーブルは、音質補正の種類(リバーブ、ワイドステレオ、センター強調、イコライザ)別に、音種別と、間欠スコアSdが最大値のときに可変利得増幅部78dに設定するゲインGと、間欠スコアSdが最小値のときに可変利得増幅部78dに設定するゲインGと、音質補正を強化する方向に制御する場合の前方遷移時間と、音質補正を軽減する方向に制御する場合の後方遷移時間とを規定している。
【0130】
そして、例えば音質補正部78におけるリバーブ処理について言えば、ミクシング制御部88は、音種別が音楽で間欠スコアSdが最大値の場合、または、図11の算出方法に基づく間欠スコアSdmsが最大値である場合、リバーブ処理部78bから出力されるオーディオ信号のみが出力端子78hから出力されるように、可変利得増部78dのゲインGを1.0に設定させ、原音側となる可変利得増幅部78fのゲインを0.0(=1.0−G)に設定させる補正強度制御信号を音質補正部78に出力することで、リバーブ処理に対する音質補正強度を最も強くしている。
【0131】
逆に、音種別が音楽で間欠スコアSdが最小値の場合、音種別が音声である場合、または、図11の算出方法に基づく間欠スコアSdmsが最小値である場合、ミクシング制御部88は、リバーブ処理部78bから出力されるオーディオ信号を増幅する可変利得増部78dのゲインGを0.0に設定させ、原音側となる可変利得増幅部78fのゲインを1.0(=1.0−G)に設定させることで、リバーブ処理に対する音質補正強度を最も弱くしている。
【0132】
また、例えば音質補正部80におけるセンター強調処理について言えば、ミクシング制御部88は、音種別が音声で間欠スコアSdが最大値の場合、または、図11の算出方法に基づく間欠スコアSdspが最大値である場合、センター強調処理部(音質補正部78で言えばリバーブ処理部78bの位置に存在する)から出力されるオーディオ信号のみが出力端子から出力されるように、可変利得増部(音質補正部78で言えば可変利得増幅部78dの位置に存在する)のゲインGを1.0に設定させ、原音側となる可変利得増幅部(音質補正部78で言えば可変利得増幅部78fの位置に存在する)のゲインを0.0(=1.0−G)に設定させる補正強度制御信号を音質補正部80に出力することで、センター強調処理に対する音質補正強度を最も強くしている。
【0133】
逆に、音種別が音声で間欠スコアSdが最小値の場合、音種別が音楽である場合、または、図11の算出方法に基づく間欠スコアSdspが最小値である場合、ミクシング制御部88は、センター強調処理部から出力されるオーディオ信号を増幅する可変利得増部のゲインGを0.0に設定させ、原音側となる可変利得増幅部のゲインを1.0(=1.0−G)に設定させることで、センター強調処理に対する音質補正強度を最も弱くしている。
【0134】
また、リバーブに対する音質補正を強化していく場合、ミクシング制御部88は、前方遷移時間T1fsec毎に一定量ずつ補正を強化させる補正強度制御信号を音質補正部78に出力する。さらに、リバーブに対する音質補正を軽減していく場合にも、ミクシング制御部88は、後方遷移時間T1bsec毎に一定量ずつ補正を軽減させる補正強度制御信号を音質補正部78に出力する。
【0135】
このように、音質補正を種類毎に強化する場合と軽減する場合とで、それぞれ遷移時間を設けることにより、楽曲(音楽判定)中あるいはトーク(音声判定)中の誤判定による補正の主観的な違和感を軽減することができる。
【0136】
この誤判定による主観的な影響は、音質補正の種類によって異なる。例えば、イコライザに対する補正強度は、楽曲中に急に弱くすると大きな影響が生じる。一方、トークでの誤判定の影響はそれほど大きくないため、前方遷移時間を短くするとともに後方遷移時間を長くすることにより、誤判定による影響を緩和しつつ、高い補正効果を維持することができる。
【0137】
また、音楽向けの補正であるリバーブによる補正は、トークでの誤判定に与える影響が大きいため、後方遷移時間を短くすると共に前方遷移時間を長くすることで影響を緩和することができる。
【0138】
図14は、上記したミクシング制御部88が、入力された間欠スコアSd、または、図13の音種別に対応した間欠スコアSdmsあるいはSdspに基づいて音質補正の強度を制御する処理動作をまとめたフローチャートを示している(以下では、全てSdとして表記している)。すなわち、処理が開始(ステップS14a)されると、ミクシング制御部88は、ステップS14bで、間欠スコアSdが通知されたか否かを判別する。
【0139】
そして、通知されたと判断された場合(YES)、ミクシング制御部88は、ステップS14cで、通知された間欠スコアSdに基づいて補正強度設定テーブルを参照することにより、それぞれの音質補正の種類毎に目標となる補正強度を算出する。
【0140】
このステップS14cの後、または、上記ステップS14bで間欠スコアSdが通知されないと判断された場合(NO)、ミクシング制御部88は、ステップS14dで、現在の補正強度が目標の補正強度(ステップS14bでNOの場合は、最後に通知された間欠スコアSdにより算出された目標の補正強度)と一致しているか否かを判別する。
【0141】
そして、一致していないと判断された場合(NO)、ミクシング制御部88は、ステップS14eで、現在の補正強度が目標の補正強度より弱いか否かを判別する。現在の補正強度が目標の補正強度より弱いと判断された場合(YES)、補正強度を強める必要があるため、ミクシング制御部88は、ステップS14fで、補正強度対応テーブルの前方遷移時間に基づいて以下の式で算出されるステップ幅の単位で、現在の補正強度を強化する方向に更新する。なお、このステップS14fにおける現在の補正強度を強化する方向への更新は、予め設定された所定の制御周期(例えば数10msec)毎に行なわれる。
【0142】
また、上記ステップS14eで現在の補正強度が目標の補正強度より強いと判断された場合(NO)、補正強度を弱める必要があるため、ミクシング制御部88は、ステップS14gで、補正強度対応テーブルの後方遷移時間に基づいて以下の式で算出されるステップ幅の単位で、現在の補正強度を軽減する方向に更新する。なお、このステップS14eにおける現在の補正強度を軽減する方向への更新も、予め設定された所定の制御周期(例えば数10msec)で行なわれる。
【0143】
そして、上記ステップS14fまたはS14gの後、もしくは、上記ステップS14dで現在の補正強度が目標の補正強度と一致していると判断された場合(YES)、ミクシング制御部88は、ステップS14hで、次の補正強度の制御周期が廻ってくるまで待機した後、ステップS14bの処理に戻される。
【0144】
ここで、補正強度を更新する際の上記ステップ幅Gstepは、間欠スコアSdの最大値(間欠スコアSdが8ビットであれば10進で“255”)に対応する補正強度をGmaxとし、間欠スコアSdの最小値(間欠スコアSdが8ビットであれば10進で“0”)に対応する補正強度をGminとし、制御周期をTcntとし、遷移時間をTtransとすると、
Gstep=(Gmax−Gmin)・Tcnt/Ttrans
で表わされる。
【0145】
図15は、ミクシング制御部88による音質補正強度の遷移状況を示している。すなわち、間欠スコアが通知される毎に、目標の補正強度は、図15に一点鎖線で示すように、間欠スコアSdの通知間隔(約1sec)毎に、最大補正強度Gmaxと最小補正強度Gminとの範囲内で更新される。
【0146】
そして、この通知間隔内において、図15に太線で示すように、所定の制御周期Tcnt(数10msec)毎に、遷移時間Ttransに基づいて決まるステップ幅Gstep単位で、目標補正強度に向けて補正強度が順次更新されている。
【0147】
上記した実施の形態によれば、まず、入力オーディオ信号から音声と音楽との特徴量をそれぞれ解析し、それらの特徴パラメータから入力オーディオ信号が音声信号に近いか音楽信号に近いかをスコア判定するとともに、音楽と判定された場合には、背景音の影響を考慮して先のスコア判定結果を補正している。
【0148】
そして、この補正されたスコア値に基づいて、複数種類の音質補正要素(リバーブ、ワイドステレオ、センター強調、イコライザ等)毎に補正強度を制御するとともに、補正要素毎に強度を変更する際の遷移時間を制御するようにしている。このため、誤判定やスコア変動に対するロバスト性(主観的な違和感の軽減)と補正効果向上の両立を図ることができるようになる。
【0149】
また、補正されたスコア値を、所定の通知間隔内で平滑化または重み付け加算することにより間欠スコアを生成し、その間欠スコアに基づいて、目標となる補正強度を更新する制御を所定の通知間隔毎に間欠的に行なうようにしている。このため、音声・音楽・背景音の判別処理系と音質補正処理系との間の、ハードウエア的またはソフトウエア的な通信帯域を削減して、処理負荷を低減することができる。
【0150】
さらに、上記した実施の形態では、補正すべき音質の要素として、リバーブ、ワイドステレオ、センター強調、イコライザ等を挙げたが、これに限らず、例えばサラウンド等を含む音質補正可能な各種の要素について音質補正を行なうことができることはもちろんである。
【0151】
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
【符号の説明】
【0152】
11…デジタルテレビジョン放送受信装置、12…キャビネット、13…支持台、14…映像表示器、15…スピーカ、16…操作部、17…リモートコントローラ、18…受光部、19…第1のメモリカード、20…第2のメモリカード、21…第1のLAN端子、22…第2のLAN端子、23…USB端子、24…IEEE1394端子、25…HDD、26…ハブ、27…HDD、28…PC、29…DVDレコーダ、30…アナログ伝送路、31…ブロードバンドルータ、32…ネットワーク、33…PC、34…携帯電話、35…ハブ、36…携帯電話、37…デジタルカメラ、38…カードリーダ/ライタ、39…HDD、40…キーボード、41…AV−HDD、42…D−VHS、43…アンテナ、44…入力端子、45…チューナ、46…PSK復調器、47…TS復号器、48…信号処理部、49…アンテナ、50…入力端子、51…チューナ、52…OFDM復調器、53…TS復号器、54…チューナ、55…アナログ復調器、56…グラフィック処理部、57…オーディオ処理部、58a〜58d…入力端子、59…OSD信号生成部、60…映像処理部、61,62…出力端子、63…制御部、64…CPU、65…ROM、66…RAM、67…不揮発性メモリ、68…カードI/F、69…カードホルダ、70…カードI/F、71…カードホルダ、72,73…通信I/F、74…USB I/F、75…IEEE1394 I/F、76…音質補正処理部、77…入力端子、78…音質補正部、78a…入力端子、78b…リバーブ処理部、78c…遅延補償部、78d…可変利得増幅部、78e…入力端子、78f…可変利得増幅部、78g…加算部、78h…出力端子、79〜81…音質補正部、82…出力端子、83…特徴パラメータ算出部、84…音声・音楽識別スコア算出部、85…音楽・背景音識別スコア算出部、86…スコア補正部、87…間欠通知処理部、88…ミクシング制御部。

【特許請求の範囲】
【請求項1】
入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、
前記特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、
前記入力オーディオ信号に対してそれぞれ異なる種類の音質補正処理を施す複数の音質補正手段と、
前記音声音楽識別スコア算出手段で算出された音声音楽識別スコアに基づいて、前記複数の音質補正手段に対する補正強度をそれぞれ制御する制御手段とを具備することを特徴とする音質補正装置。
【請求項2】
前記制御手段は、前記複数の音質補正手段に対する補正強度をそれぞれ変更する際に、前記複数の音質補正手段毎に予め設定された遷移時間に基づいて段階的に補正強度を変更することを特徴とする請求項1記載の音質補正装置。
【請求項3】
前記制御手段は、前記音声音楽識別スコアに基づいて前記複数の音質補正手段に対してそれぞれ目標とする補正強度を設定し、前記複数の音質補正手段毎に現在の補正強度を目標とする補正強度に向けて、予め設定された遷移時間に基づいて段階的に変更することを特徴とする請求項1記載の音質補正装置。
【請求項4】
前記制御手段は、予め設定された所定の間隔毎に、前記音声音楽識別スコアに基づく前記複数の音質補正手段に対する補正強度の制御を行なうことを特徴とする請求項1記載の音質補正装置。
【請求項5】
前記特徴パラメータ算出手段は、前記入力オーディオ信号から音楽信号と背景音信号との判別を行なうための各種の特徴パラメータを算出し、
前記特徴パラメータ算出手段で算出された音楽信号と背景音信号とを判別するための各種の特徴パラメータに基づいて、前記入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する音楽背景音識別スコア算出手段と、
前記音声音楽識別スコア算出手段で算出された音声音楽識別スコアが音楽信号であることを示し、かつ、前記音楽背景音識別スコア算出手段で算出された音楽背景音識別スコアが背景音信号であることを示している場合、前記音楽背景音識別スコアの値に基づいて前記音声音楽識別スコアを補正する音声音楽識別スコア補正手段とを備え、
前記制御手段は、前記音声音楽識別スコア補正手段で補正された前記音声音楽識別スコアに基づいて、前記複数の音質補正手段に対する補正強度をそれぞれ制御することを特徴とする請求項1記載の音質補正装置。
【請求項6】
前記制御手段は、前記音声音楽識別スコアと前記複数の各音質補正手段に対する補正強度とを対応付けたテーブルを有し、前記音声音楽識別スコアが入力されたとき、前記テーブルを参照して、前記複数の音質補正手段に対する補正強度をそれぞれ設定することを特徴とする請求項1記載の音質補正装置。
【請求項7】
前記複数の音質補正手段は、前記入力オーディオ信号に対して、少なくともリバーブ処理、ワイドステレオ処理、センター強調処理、イコライザ処理、サラウンド処理のいずれかを施すことを特徴とする請求項1記載の音質補正装置。
【請求項8】
入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する工程と、
算出された各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する工程と、
算出された前記音声音楽識別スコアに基づいて、前記入力オーディオ信号に対してそれぞれ異なる種類の音質補正処理を施す複数の音質補正手段に対する補正強度を制御する工程とを有することを特徴とする音質補正方法。
【請求項9】
入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する処理と、
算出された各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する処理と、
算出された前記音声音楽識別スコアに基づいて、前記入力オーディオ信号に対してそれぞれ異なる種類の音質補正処理を施す複数の音質補正手段に対する補正強度を制御する処理とを、コンピュータに実行させることを特徴とする音質補正用プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate