説明

音響処理装置

【課題】音響信号の目標成分以外の成分を維持しながら目標成分を高精度に抑圧する。
【解決手段】係数列生成部33は、音響信号xの目標成分を抑圧するための処理係数列G(t)を単位区間Tu毎に順次に生成する要素であり、基礎係数列生成部42と係数列加工部44Aとを含んで構成される。基礎係数列生成部42は、特定帯域B0内の各周波数fの係数値h(f,t)が音響信号xを抑圧する抑圧値γ0に設定されるとともに特定帯域B0外の各周波数fの係数値h(f,t)が音響信号xを維持する通過値γ1に設定された基礎係数列H(t)を生成する。係数列加工部44は、基礎係数列H(t)において特定帯域B0内の各周波数fに対応する複数の係数値h(f,t)のうち目標成分以外の各周波数fの係数値h(f,t)を通過値γ1に変更することで単位区間Tu毎に処理係数列G(t)を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号の特定の成分(以下「目標成分」という)を抑圧する技術に関する。
【背景技術】
【0002】
音響信号から特定の目標成分を抑圧する技術が従来から提案されている。例えば特許文献1や特許文献2には、右チャネルおよび左チャネルの音響信号の類似度に応じて周波数毎に設定された係数値(減衰係数)を音響信号の各周波数成分に乗算することで前方(中央)の定位成分を抑圧する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第3670562号公報
【特許文献2】特開2009−188971号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1や特許文献2の技術のもとでは、所定方向の定位成分の全部が一律に抑圧されるから、目標方向に複数の音像が定位するように生成された音響信号から特定の音像の音響成分のみを選択的に抑圧することができないという問題がある。以上の事情を考慮して、本発明は、音響信号の目標成分以外の成分を維持しながら目標成分を抑圧することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の音響処理装置は、音響信号の目標成分が抑圧されるように周波数毎の係数値が設定された処理係数列(例えば処理係数列G(t))を音響信号の単位区間毎に生成する装置であって、特定帯域(例えば特定帯域B0)内の各周波数の係数値が音響信号を抑圧する抑圧値(例えば抑圧値γ0)に設定されるとともに特定帯域外の各周波数の係数値が音響信号を維持する通過値(例えば通過値γ1)に設定された基礎係数列(例えば基礎係数列H(t))を生成する基礎係数列生成手段(例えば基礎係数列生成部42)と、基礎係数列生成手段が生成した基礎係数列において特定帯域内の各周波数に対応する複数の係数値のうち目標成分以外の各周波数の係数値を通過値に変更することで単位区間毎に処理係数列を生成する係数列加工手段(例えば係数列加工部44A,44B)とを具備する。以上の構成においては、基礎係数列の特定帯域内の係数値のうち目標成分以外の音響成分に対応する各周波数の係数値が通過値に設定される。したがって、音響信号の特定帯域内の音響成分のうち目標成分以外の音響成分を維持しながら目標成分を抑圧できる(すなわち目標成分を高精度に抑圧できる)という利点がある。
【0007】
本発明の第1態様において、係数列加工手段は、音響信号のうち特定帯域内の周波数成分の発生点から所定の時間にわたってその周波数の係数値が通過値に設定されるように、基礎係数列生成手段による生成後の基礎係数列を加工する発音点解析手段(例えば発音点解析部52)を含む。以上の態様においては、特定帯域内の音響成分の発音点から所定の期間にわたってその音響成分に対応する係数値が通過値に設定されるから、特定帯域内で発音点が顕著な音響成分(例えば打楽器音)を成分抑圧処理の実行後に維持できるという利点がある。
【0008】
第1態様の好適例において、基礎係数列生成手段は、特定帯域のうち所定方向の定位成分(例えば選択定位域C0内の定位成分)の各周波数の係数値が抑圧値に設定されるとともに他の周波数の係数値が通過値に設定された基礎係数列を生成する。以上の態様においては、基礎係数列のうち抑圧値に設定される係数値が、特定帯域のうち所定方向の定位成分に対応する係数値に限定されるから、所定方向に定位する目標成分を高精度に抑圧できるという効果が実現される。
【0009】
第1態様の好適例に係る音響処理装置は、基準音高の時系列を記憶する記憶手段を具備し、発音点解析手段は、特定帯域内の各周波数成分の複数の発生点のうち基準音高の時系列に対応する発生点については、所定の時間においても係数値を抑圧値に設定する。以上の態様では、基準音高の時系列に対応する発生点(すなわち、目標成分の発生点)については係数値が抑圧値に設定されるから、目標成分を高精度に抑圧できるという利点がある。なお、以上の態様の具体例は、例えば第3実施形態として後述される。
【0010】
本発明の第2態様において、係数列加工手段は、音響信号の特定帯域内の周波数成分について単位区間毎に特定される複数の基本周波数(例えば候補周波数Fc(1)〜Fc(N))のうち目標成分に該当する可能性が高い基本周波数を目標周波数(例えば目標周波数Ftar)として特定し、複数の基本周波数のうち目標周波数以外の各基本周波数とその倍音周波数とに対応する各係数値が通過値に設定されるように、基礎係数列生成手段による生成後の基礎係数列を加工する基本周波数解析手段(例えば基本周波数解析部56)を含む。以上の態様においては、特定帯域から特定された複数の基本周波数のうち目標周波数以外の各基本周波数とその倍音周波数とに対応する係数値が通過値に設定されるから、特定帯域内で調波構造を持つ目標成分以外の音響成分を成分抑圧処理の実行後に維持できるという利点がある。
【0011】
第2態様の具体例に係る基本周波数解析手段は、音響信号のうち特定帯域内の周波数成分について単位区間毎に複数の基本周波数を特定する周波数検出手段(例えば周波数検出部62)と、動的計画法による経路探索で単位区間毎の複数の基本周波数から目標周波数の時系列を特定する遷移解析手段(例えば遷移解析部66)と、複数の基本周波数のうち遷移解析手段が特定した目標周波数以外の各基本周波数とその倍音周波数とに対応する各係数値が通過値に設定されるように基礎係数列を加工する係数列設定手段(例えば係数列設定部68)とを含む。以上の態様においては、動的計画法による経路探索を利用することで演算量を削減しながら目標周波数の時系列を特定できるという利点がある。また、動的計画法を適用することで、基本周波数の瞬時的な欠落や検出誤りに対しても頑健な経路探索が実現される。
【0012】
第2態様の具体例において、周波数検出手段は、各周波数が音響信号の基本周波数に該当する尤度(例えば尤度Ls(δF))を算定するとともに尤度が高い複数の周波数を基本周波数として選定し、遷移解析手段は、尤度に応じた第1確率(例えば確率PA1(n))を基本周波数毎に算定し、第1確率を利用した経路探索で目標周波数の時系列を特定する。以上の態様においては、周波数検出手段が検出する基本周波数の尤度に応じた第1確率を利用して目標周波数の時系列が特定されるから、特定帯域内で基本周波数が顕著な調波構造の目標成分を高精度に抑圧できるという利点がある。
【0013】
第2態様の具体例において、複数の基本周波数の各々に対応する調波構造の音響特性と目標成分に対応する音響特性との類否を示す特性指標値(例えば特性指標値V(n))を単位区間毎に算定する指標算定手段(例えば指標算定部64)を具備し、遷移解析手段は、特性指標値に応じた第2確率(例えば確率PA2(n))を基本周波数毎に算定し、第2確率を利用した経路探索で目標周波数の時系列を特定する。以上の態様においては、特性指標値に応じた第2確率を利用して目標周波数の時系列が特定されるから、目標成分に対応する基本周波数を音響特性の類否という観点から高精度に評価することが可能である。
【0014】
第2態様の具体例において、確率算定手段は、一の単位区間の各基本周波数から直後の単位区間の各基本周波数に遷移する第3確率(例えば確率PA3(n)_ν)を、相前後する各単位区間について各基本周波数の差異(例えば周波数差ε)に応じて算定し、第3確率を利用した経路探索で目標周波数の時系列を特定する。以上の態様においては、相前後する単位区間における基本周波数の差異に応じた第3確率を利用して目標周波数の時系列が特定されるから、基本周波数が極端に変化する経路が誤検出される可能性を低減できるという利点がある。
【0015】
第2態様の具体例において、遷移解析手段は、動的計画法による経路探索で単位区間毎の複数の基本周波数から基本周波数の時系列を特定する第1処理手段(例えば第1処理部71)と、目標成分の有無を単位区間毎に判定する第2処理手段(例えば第2処理部72)とを含み、第1処理手段が特定した複数の基本周波数の時系列のうち第2処理手段が目標成分の存在を肯定した単位区間の基本周波数を目標周波数として特定する。以上の態様においては、第1処理手段が特定した複数の基本周波数の時系列のうち第2処理手段が目標成分の存在を肯定した単位区間の基本周波数が目標周波数として特定されるから、遷移解析手段が第1処理手段のみを具備する構成と比較して、目標成分の基本周波数を高精度に特定できるという利点がある。
【0016】
第1処理手段と第2処理手段とを具備する第2態様の好適例の音響処理装置は、基準音高の時系列を記憶する記憶手段(例えば記憶装置24)と、複数の単位区間の各々について、周波数検出手段が当該単位区間について特定した複数の基本周波数の各々と、当該単位区間に対応する基準音高との差異に応じた音高尤度(例えば音高尤度LP(n))を算定する音高評価手段(例えば音高評価部92)とを具備し、第1処理手段は、複数の基本周波数の各々について音高尤度を利用した経路探索で推定系列を特定し、第2処理手段は、推定系列上の基本周波数に対応する音高尤度に応じて単位区間毎に算定される発音状態の確率と、非発音状態の確率とを利用した経路探索で状態系列を特定する。以上の態様では、周波数検出手段が検出した基本周波数と基準音高との差異に応じた音高尤度が第1処理手段および第2処理手段による経路探索に適用されるから、目標成分の基本周波数を高精度に特定できるという利点がある。なお、以上の態様の具体例は第5実施形態として後述される。
【0017】
本発明の第3態様において、係数列加工手段は、複数の単位区間で構成される解析区間毎に目標成分の有無を判定し、目標成分の存在が否定される解析区間内の単位区間について、全部の係数値が通過値に設定された処理係数列を生成する発音解析手段(例えば発音解析部84)を含む。以上の態様においては、目標成分の存在が否定される解析区間内の単位区間(例えば解析区間の中央に位置する単位区間)については各係数値が通過値に設定された処理係数列が生成されるから、目標成分が存在しない単位区間の音響信号の部分的な欠落を防止できるという利点がある。なお、以上の態様の具体例は例えば第2実施形態として後述される。
【0018】
本発明の好適な態様に係る音響処理装置は、基準音高の時系列を記憶する記憶手段(例えば記憶装置24)と、周波数情報が示す基本周波数が、当該周波数情報に対応する時点の基準音高の1.5倍の周波数を含む所定の範囲内にある場合に基本周波数を1/1.5倍に補正し、基準音高の2倍の周波数を含む所定の範囲内にある場合に基本周波数を1/2倍に補正する補正手段(例えば補正部94)とを具備する。以上の態様では、周波数情報が示す基本周波数が基準音高に応じて補正される(五度エラーやオクターブエラーが補償される)から、目標成分の基本周波数を正確に特定することが可能である。なお、以上の態様の具体例は例えば第6実施形態として後述される。
【0019】
以上の各態様に係る音響処理装置は、処理係数列の生成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音響信号の目標成分が抑圧されるように周波数毎の係数値が設定された処理係数列を音響信号の単位区間毎に生成するために、特定帯域内の各周波数の係数値が音響信号を抑圧する抑圧値に設定されるとともに特定帯域外の各周波数の係数値が音響信号を維持する通過値に設定された基礎係数列を生成する基礎係数列生成処理と、基礎係数列生成処理で生成した基礎係数列において特定帯域内の各周波数に対応する複数の係数値のうち目標成分以外の各周波数の係数値を通過値に変更することで単位区間毎に処理係数列を生成する係数列加工処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0020】
【図1】第1実施形態に係る音響処理装置のブロック図である。
【図2】定位画像の模式図である。
【図3】係数列加工部のブロック図である。
【図4】発音点解析部の動作のフローチャートである。
【図5】発音点解析部が偏心度を算定する動作の説明図である。
【図6】偏心度の説明図である。
【図7】偏心度の時間的な変化と発音点との関係の説明図である。
【図8】発音点の直後の係数値の変化を示すグラフである。
【図9】基本周波数解析部のブロック図である。
【図10】周波数検出部の動作のフローチャートである。
【図11】帯域成分を生成する窓関数の模式図である。
【図12】周波数検出部の動作の説明図である。
【図13】周波数検出部が基本周波数を検出する動作の説明図である。
【図14】指標算定部の動作のフローチャートである。
【図15】指標算定部が特徴量(MFCC)を抽出する動作の説明図である。
【図16】第1処理部の動作のフローチャートである。
【図17】第1処理部が単位区間毎に候補周波数を選択する処理の説明図である。
【図18】第1処理部の処理に適用される確率の説明図である。
【図19】第1処理部の処理に適用される確率の説明図である。
【図20】第2処理部の動作のフローチャートである。
【図21】第2処理部が単位区間毎に目標成分の有無を判定する処理の説明図である。
【図22】第2処理部の処理に適用される確率の説明図である。
【図23】第2処理部の処理に適用される確率の説明図である。
【図24】第2処理部の処理に適用される確率の説明図である。
【図25】第2実施形態における係数列加工部のブロック図である。
【図26】解析区間の説明図である。
【図27】発音解析部の動作のフローチャートである。
【図28】第3実施形態における係数列加工部のブロック図である。
【図29】第4実施形態における係数列加工部のブロック図である。
【図30】本発明の第5実施形態における基本周波数解析部のブロック図である。
【図31】第5実施形態の音高評価部が音高尤度を選定する処理の説明図である。
【図32】第6実施形態における基本周波数解析部のブロック図である。
【図33】補正部による補正の前後の基本周波数と基準音高との関係を示すグラフである。
【図34】基本周波数と補正値との関係を示すグラフである。
【図35】変形例における信号処理部の動作の説明図である。
【発明を実施するための形態】
【0021】
<A:第1実施形態>
図1は、本発明の第1実施形態の音響処理装置100のブロック図である。図1に示すように、音響処理装置100には入力装置12と表示装置14と信号供給装置16と放音装置18とが接続される。入力装置12は、利用者からの指示を受付ける操作子で構成される。表示装置14(例えば液晶表示装置)は、音響処理装置100からの指示に応じて画像を表示する。
【0022】
信号供給装置16は、相異なる位置に設置された音源が発音した複数の音響成分(歌唱音や伴奏音)の混合音の時間波形を表現する音響信号x(xL,xR)を音響処理装置100に供給する。左チャネルの音響信号xLおよび右チャネルの音響信号xRは、各音響成分の音源に対応する音像が相異なる位置に定位する(すなわち音響成分の振幅や位相が音源の位置に応じて相違する)ように収音または加工(例えばミキサ等を利用して左右の振幅比を人為的に操作する処理)されたステレオ形式の信号である。周囲の音響を収音して音響信号xを生成する収音機器(ステレオマイク)や、可搬型または内蔵型の記録媒体(例えばCD)から音響信号xを取得して音響処理装置100に供給する再生装置や、通信網から音響信号xを受信して音響処理装置100に供給する通信装置が信号供給装置16として採用され得る。
【0023】
音響処理装置100は、信号供給装置16が供給する音響信号xから音響信号y(yL,yR)を生成する。左チャネルの音響信号yLおよび右チャネルの音響信号yRは、音響信号xのうち特定の音響成分(以下「目標成分」という)を他の音響成分に対して抑圧したステレオ形式の信号である。音響信号xのうち所定の方向に音像が定位する目標成分が抑圧される。以下の説明では、音響信号xに含まれる歌唱音を目標成分として抑圧する場合を想定する。放音装置18(例えばステレオスピーカやステレオヘッドホン)は、音響処理装置100が生成した音響信号y(yL,yR)に応じた音波を放射する。
【0024】
図1に示すように、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムや演算処理装置22が使用する各種の情報を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体が記憶装置24として任意に採用される。なお、音響信号x(xL,xR)を記憶装置24に格納した構成(したがって信号供給装置16は省略される)も採用され得る。
【0025】
演算処理装置22は、記憶装置24に格納されたプログラムを実行することで、音響信号xから音響信号yを生成するための複数の機能(周波数分析部31,係数列生成部33,信号処理部35,波形合成部37,表示制御部39)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
【0026】
周波数分析部31は、窓関数の乗算で音響信号xを単位区間(フレーム)Tu毎に区分し、音響信号xLの周波数スペクトルXLと音響信号xRの周波数スペクトルXRとを単位区間Tu毎に順次に生成する。周波数スペクトルXLは、相異なる周波数(周波数帯域)fに対応する複数の周波数成分XL(f,t)で表現される複素スペクトルである。同様に、周波数スペクトルXRは、複数の周波数成分XR(f,t)で表現される複素スペクトルである。記号tは時間(例えば単位区間Tuの番号)を意味する。周波数スペクトルXLおよび周波数スペクトルXRの生成には、例えば短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。
【0027】
係数列生成部33は、音響信号xの目標成分を抑圧するための処理係数列G(t)を単位区間Tu毎に順次に生成する。処理係数列G(t)は、相異なる周波数fに対応する複数の係数値g(f,t)の系列である。係数値g(f,t)は、音響信号xLの周波数成分XL(f,t)および音響信号xRの周波数成分XR(f,t)に対する利得(スペクトルゲイン)に相当し、音響信号xの特性に応じて可変に設定される。具体的には、処理係数列G(t)のうち音響信号xに目標成分が存在すると推定される周波数fの係数値g(f,t)は、音響信号xの強度を抑圧する数値(以下「抑圧値」という)γ0に設定され、目標成分が存在しないと推定される周波数fの係数値g(f,t)は、音響信号xの強度を維持する数値(以下「通過値」という)γ1に設定される。抑圧値γ0は例えば0であり、通過値γ1は例えば1である。
【0028】
信号処理部35は、係数列生成部33が生成した処理係数列G(t)を周波数スペクトルXLおよび周波数スペクトルXRの各々に作用させる処理(以下「成分抑圧処理」という)で音響信号yLの周波数スペクトルYLと音響信号yRの周波数スペクトルYRとを単位区間Tu毎に生成する。各単位区間Tuの周波数スペクトルXLおよび周波数スペクトルXRに対する成分抑圧処理には、その単位区間Tuについて係数列生成部33が生成した処理係数列G(t)が適用される。すなわち、信号処理部35は、係数列生成部33による処理係数列G(t)の生成に必要な時間だけ周波数スペクトルXLおよび周波数スペクトルXRを遅延させてから処理係数列G(t)を適用する。
【0029】
本実施形態の成分抑圧処理は、周波数スペクトルXLおよび周波数スペクトルXRと処理係数列G(t)との乗算である。具体的には、成分抑圧処理の実行後の音響信号yLの各周波数成分YL(f,t)は、以下の数式(1a)に示すように音響信号xLの周波数成分XL(f,t)と処理係数列G(t)の係数値g(f,t)との乗算値に設定される。同様に、成分抑圧処理の実行後の各周波数成分YR(f,t)は、以下の数式(1b)に示すように周波数成分XR(f,t)と係数値g(f,t)との乗算値に設定される。
【数1】

数式(1a)から理解されるように、音響信号xLのうち係数値g(f,t)が抑圧値γ0に設定された周波数fの周波数成分XL(f,t)に対応する音響成分(すなわち目標成分)は成分抑圧処理で抑圧され、係数値g(f,t)が通過値γ1に設定された周波数fの周波数成分XL(f,t)に対応する音響成分(すなわち目標成分以外の音響成分)は成分抑圧処理を通過する(すなわち抑圧されずに維持される)。同様に、音響信号xRの目標成分は成分抑圧処理で抑圧され、音響信号xRの目標成分以外の音響成分は成分抑圧処理を通過する。
【0030】
図1の波形合成部37は、信号処理部35が生成した周波数スペクトルYLおよび周波数スペクトルYRからステレオ形式の音響信号yLおよび音響信号yRを生成する。具体的には、波形合成部37は、単位区間Tu毎の周波数スペクトルYLを時間領域の波形信号に変換するとともに前後の単位区間Tuで相互に連結することで音響信号yLを生成する。同様に、波形合成部37は、単位区間Tu毎の周波数スペクトルYRから時間領域の音響信号yRを生成する。波形合成部37が生成した音響信号y(yL,yR)が放音装置18に供給されて音波として再生される。
【0031】
図1の表示制御部39は、利用者が目標成分を指定するために参照する図2の定位画像142を生成して表示装置14に表示させる。定位画像142は、相交差する定位軸(横軸)144と周波数軸(縦軸)146とで規定される平面内に複数の音像点qを配置した画像である。定位軸142上の位置ξと周波数fとに対応する音像点qは、所定の基準点(例えば音響信号xの収録点)から位置ξの方向に定位する周波数fの周波数成分が音響信号xに存在することを意味する。
【0032】
表示制御部39は、周波数fに対応する音像点qの位置ξを以下の数式(2)で算定する。なお、数式(2)の記号|XL(f,t)|は、音響信号xLの周波数成分XL(f,t)の振幅を意味し、記号|XR(f,t)|は、音響信号xRの周波数成分XR(f,t)の振幅を意味する。所定個(単数または複数)の単位区間Tuにわたる数式(2)の音像点qが定位画像142に配置される。なお、数式(2)の詳細は、例えば、M. Vinyes, J. Bonada, A. Loscos, "Demixing Commercial Music Productions wia Human-Assisted Time-Frequency Masking",Audio Engineering Society 120th Convention, France, 2006に開示されている。
【数2】

【0033】
利用者は、入力装置12を適宜に操作することで定位画像142の任意の領域(以下「選択領域」という)148を指定することが可能である。表示制御部39は、図2に示すように、利用者が指定した選択領域148を表示装置14に表示させる。選択領域148の位置や各縁辺の寸法は利用者からの指示に応じて可変に設定される。音響信号xを構成する複数の音響成分の各々(収録時の各音源)に対応する音像点qは、その音響成分の定位位置と周波数特性とに応じた領域に偏在する。利用者は、定位画像142内の各音像点qの分布を確認しながら、自身の所望の目標成分に対応する音像点qを内包するように選択領域148を指定する。なお、音響信号xに出現し得る複数種の音響成分の各々について周波数帯域が事前に登録され、利用者が選択した種類の音響成分について登録された周波数帯域が選択領域148の周波数軸上の分布範囲として自動的に設定される構成も好適である。
【0034】
図2に示すように、利用者が指定した選択領域148内の各音像点qに対応する周波数(周波数帯域)fの集合(すなわち、周波数軸146上の選択領域148の分布範囲)を以下では「特定帯域B0」と表記し、選択領域148内の各音像点qが分布する定位軸142上の範囲(定位軸142上の選択領域148の分布範囲)を以下では「選択定位域C0」と表記する。すなわち、選択定位域C0に音像が定位する特定帯域B0内の定位成分が音響信号xからの抑圧対象として利用者により概略的に指定される。
【0035】
図1の係数列生成部33は、基礎係数列生成部42と係数列加工部44Aとを含んで構成される。基礎係数列生成部42は、処理係数列G(t)の初期値(基礎)となる基礎係数列H(t)を単位区間Tu毎に生成する。基礎係数列H(t)は、相異なる周波数fに対応する複数の係数値h(f,t)の系列である。
【0036】
基礎係数列H(t)を周波数スペクトルXLおよび周波数スペクトルXRの各々に作用させた場合に選択領域148内に存在する各周波数成分(すなわち、特定帯域B0内の周波数fのうち選択定位域C0内の定位成分)が他の周波数成分に対して抑圧されるように、基礎係数列生成部42は基礎係数列H(t)を生成する。具体的には、基礎係数列生成部42は、
基礎係数列H(t)のうち選択領域148内の周波数成分の各周波数f(すなわち、選択領域148内に音像点qが存在する各周波数f)に対応する係数値h(f,t)を抑圧値γ0(音響成分を抑圧させる数値)に設定し、他の係数値h(f,t)を通過値γ1(音響成分を通過させる数値)に設定する。
【0037】
利用者が指定した選択領域148内(選択定位域C0に定位する特定帯域B0内の定位成分)には目標成分以外の音響成分も混在し得る。したがって、基礎係数列H(t)を処理係数列G(t)として音響信号xに適用した場合には、目標成分以外の音響成分が目標成分とともに抑圧される。具体的には、特定帯域B0内で選択定位域C0の方向(位置ξ)に定位する音響成分(すなわち特定帯域B0内で目標成分と同方向に音像が定位する音響成分)は目標成分以外の音響成分でも目標成分とともに抑圧され得る。そこで、図1の係数列加工部44Aは、選択領域148内の周波数成分のうち目標成分以外の周波数成分が成分抑圧処理を通過する(音響信号yでも維持される)ように基礎係数列H(t)の各係数値h(f,t)を変更することで単位区間Tu毎に前述の処理係数列G(t)を生成する。すなわち、係数列加工部44Aは、概略的には、基礎係数列生成部42が生成した基礎係数列H(t)において選択領域148内の各周波数成分に対応する複数の係数値h(f,t)のうち目標成分以外の音響成分の各周波数成分の周波数fに対応する係数値h(f,t)を通過値γ1(音響成分を通過させる数値)に変更して処理係数列G(t)を生成する。
【0038】
図3は、係数列加工部44Aのブロック図である。図3に示すように、係数列加工部44Aは、発音点解析部52と遅延部54と基本周波数解析部56とを含んで構成される。係数列加工部44Aの各要素について以下に詳述する。
【0039】
<発音点解析部52>
発音点解析部52は、音響信号xのうち選択領域148内の各音響成分の発音点の直後の部分(音量が立上がるアタック部分)が成分抑圧処理を通過するように基礎係数列H(t)を加工する。図4は、発音点解析部52の動作のフローチャートである。単位区間Tu毎に図4の処理が実行される。図4の処理を開始すると、発音点解析部52は、音響信号xLの周波数スペクトルXLと音響信号xRの周波数スペクトルXRとを、時間軸上で相対応する単位区間Tuについて加算または平均することで単位区間Tu毎に周波数スペクトル(複素スペクトル)Zを生成する(S11)。なお、音響信号xLと音響信号xRとの加算(または平均)のうち選択領域148内の各音像点qに対応する複数の周波数成分を選択して周波数軸上に配列した系列を周波数スペクトルZとして利用することも可能である。発音点解析部52は、周波数スペクトルZのうち特定帯域B0内の各周波数成分Z(f,t)の解析で各音響成分の発音点を検出する(S12A〜S12E)。発音点の検出には公知の技術が任意に採用され得るが、以下に例示する方法が格別に好適である。
【0040】
発音点解析部52は、図5に示すように、特定帯域B0を複数の単位帯域Buに区分する(S12A)。また、発音点解析部52は、処理S11で生成した周波数スペクトルZのうち特定帯域B0内に存在する複数のピークpkを検出し、複数の単位帯域Buの各々をピークpk毎に複数の帯域Bpkに区分する(S12B)。各ピークpkの検出には公知の技術が任意に採用される。そして、発音点解析部52は、以下の数式(3)で表現される偏心度ωpkを帯域Bpk毎に算定する(S12C)。数式(3)の記号|Z(f,t)|は、周波数スペクトルZのうち周波数fの周波数成分Z(f,t)の振幅を意味し、記号φ(f,t)は、周波数スペクトルZの周波数成分Z(f,t)の位相角を意味する。
【数3】

【0041】
発音点解析部52は、処理S12Cで帯域Bpk毎に算定した偏心度ωpkを単位帯域Buの複数の帯域Bpkについて平均することで偏心度Ωuを算定する(S12D)。すなわち、偏心度Ωuは特定帯域B0内の各単位帯域Buについて時間軸上の単位区間Tu毎に算定される。
【0042】
数式(3)における位相角φ(f,t)の偏微分は群遅延を意味する。すなわち、数式(3)は、周波数スペクトルZのパワー|Z(f,t)|2を加重値とした遅延群の加重和に相当する。したがって、偏心度Ωuは、図6に示すように、窓関数で規定される単位区間Tuの時間軸上の中心点tcと、単位区間Tu内の音響信号xのうち単位帯域Bu内のエネルギーの時間軸上の重心tgとの相違(偏心)の指標として利用され得る。
【0043】
音響成分の発音点の到来前および発音点の経過後の定常的な状態(音響成分のエネルギーが安定した状態)では中心点tcと重心tgとが時間軸上で略一致する。他方、音響成分の発音点では重心tgが中心点tcの後方に移動(偏心)する。したがって、図7に示すように、特定の単位帯域Buの偏心度Ωuは、その単位帯域Bu内の音響成分の発音点の近傍で瞬間的に増加する。以上の傾向を考慮して、第1実施形態では、各単位帯域Buの偏心度Ωuの時間的な変化に応じて単位帯域Bu毎に音響成分の発音点を検出する(S12E)。すなわち、発音点解析部52は、図7に示すように、各単位帯域Buの偏心度Ωuが所定の閾値Ωu_thを上回る単位区間Tuをその単位帯域Buの音響成分の発音点として検出する。閾値Ωu_thは、特定帯域B0内の全部の単位帯域Buについて同一値に設定される。ただし、単位帯域Buの周波数fの高低に応じて単位帯域Bu毎に閾値Ωu_thを相違させた構成も採用され得る。
【0044】
以上の処理(S12A〜S12E)で特定帯域B0内の音響成分の発音点を検出すると、発音点解析部52は、発音点から所定長の期間τにわたってその音響成分が成分抑圧処理を通過するように基礎係数列H(t)の各係数値h(f,t)を設定する(S13)。すなわち、発音点解析部52は、図8に示すように、基礎係数列H(t)のうち処理S12Eで発音点が検出された単位帯域Bu内の係数値h(f,t)を、その発音点から所定の期間τ(τ=τ1+τ2)にわたって、抑圧値γ0を上回る通過値γ1に設定する。具体的には、図8に示すように、通過値γ1は、発音点を始点とする期間τ1内の各単位区間Tuでは1に設定され、期間τ1の経過後の期間τ2内の各単位区間Tuにて段階的に低下して抑圧値γ0に到達する。したがって、基礎係数列生成部42が生成した基礎係数列H(t)では抑圧対象とされる特定帯域B0内の音響成分のうち例えば発音点が顕著な打楽器音の音響成分が成分抑圧処理を通過するようになる。期間τ1や期間τ2の時間長は、特定帯域B0のうち成分抑圧処理を通過させるべき音響成分(典型的には打楽器音)の継続長に応じて適宜に選定される。以上が発音点解析部52の動作である。
【0045】
なお、発音点解析部52による基礎係数列H(t)の加工の結果、特定帯域B0のうち打楽器音以外の音響成分(例えば目標成分となる歌唱音)についても発音点の直後の区間が成分抑圧処理を通過することになる。しかし、打楽器音以外の音響成分は打楽器音と比較すると発音点での音量の上昇が緩慢であるから、発音点解析部52による処理では打楽器音以外の音響成分が過度に顕在化することはない。
【0046】
図3の遅延部54は、周波数分析部31が生成した周波数スペクトルXLおよび周波数スペクトルXRを、発音点解析部52での処理(図4の処理S11から処理S13)に必要な時間だけ遅延させて基本周波数解析部56に供給する。したがって、各単位区間Tuの周波数スペクトルXLおよび周波数スペクトルXRとその単位区間Tuについて発音点解析部52が生成した基礎係数列H(t)とが並列(同時)に基本周波数解析部56に供給される。
【0047】
<基本周波数解析部56>
基本周波数解析部56は、特定帯域B0内の音響成分のうち目標成分以外で調波構造を持つ音響成分が成分抑圧処理を通過するように発音点解析部52での処理後の基礎係数列H(t)を加工することで処理係数列G(t)を生成する。概略的には、基本周波数解析部56は、選択領域148内(特定帯域B0内)の複数の周波数成分からM個の基本周波数(ピッチ)F0を単位区間Tu毎に検出するとともに、各単位区間TuのM個の基本周波数F0のうち目標成分に該当する可能性が高い基本周波数F0を目標周波数Ftar(tar:target)として特定し、M個の基本周波数F0のうち目標周波数Ftar以外の各基本周波数F0とその倍音周波数とに対応する音響成分が成分抑圧処理を通過するように処理係数列G(t)を生成する。図9に示すように、基本周波数解析部56は、周波数検出部62と指標算定部64と遷移解析部66と係数列設定部68とを含んで構成される。基本周波数解析部56の各要素について以下に詳述する。
【0048】
<周波数検出部62>
周波数検出部62は、選択領域148内の複数の周波数成分に対応するM個の基本周波数F0を検出する。周波数検出部62による基本周波数F0の検出には公知の技術が任意に採用され得るが、図10を参照して以下に例示する方法が格別に好適である。図10の処理は単位区間Tu毎に順次に実行される。なお、以下に例示する方法の詳細は、A. P. Klapuri, "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness", IEEE Trans. Speech and Audio Proc., 11(6), 804-816, 2003に開示されている。
【0049】
図10の処理を開始すると、周波数検出部62は、図4の処理S11と同様に、遅延部54による遅延後の周波数スペクトルXLと周波数スペクトルXRとを加算または平均することで周波数スペクトルZを生成する(S21)。例えば、周波数スペクトルXLと周波数スペクトルXRとの加算または平均のうち選択領域148内(特定帯域B0内)の各周波数成分を選択して周波数軸上に配列した系列が周波数スペクトルZとして生成される。そして、周波数検出部62は、周波数スペクトルZのうち特定帯域B0内のピークpkを強調した周波数スペクトルZpを生成する(S22)。具体的には、周波数検出部62は、以下の数式(4A)から数式(4C)の演算で周波数スペクトルZpの各周波数fの周波数成分Zp(f)を算定する。
【数4】

【0050】
数式(4C)の定数k0および定数k1は所定値(例えばk0=50Hz,k1=6kHz)に設定される。数式(4B)は、周波数スペクトルZのピークを強調する演算である。数式(4A)の記号N(f)は、周波数スペクトルZの周波数成分Z(f)の周波数軸上の移動平均である。したがって、数式(4A)から理解されるように、周波数スペクトルZのピークに対応する周波数成分Zp(f)が極大値となり、相隣接するピークpkの間の周波数成分Zp(f)が0となる周波数スペクトルZpが生成される。
【0051】
周波数検出部62は、周波数スペクトルZpをJ個の帯域成分Zp_1(f)〜Zp_J(f)に分割する(S23)。第j番目(j=1〜J)の帯域成分Zp_j(f)は、以下の数式(5)で表現されるように、処理S22で生成した周波数スペクトルZp(周波数成分Zp(f))に窓関数Wj(f)を乗算した成分である。
【数5】

数式(5)の記号Wj(f)は、周波数軸上に設定された窓関数を意味する。窓関数W1(f)〜WJ(f)は、人間の聴覚特性(メル尺度)を考慮して、図11に示すように高域側ほど分解能が低下するように設定される。図12には、処理S23で生成される第j番目の帯域成分Zp_j(f)が図示されている。
【0052】
周波数検出部62は、処理S23で算定したJ個の帯域成分Zp_1(f)〜Zp_J(f)の各々について、以下の数式(6)で表現される関数値Lj(δF)を算定する(S24)。
【数6】

図12に示すように、帯域成分Zp_j(f)は、周波数FLjから周波数FHjまでの周波数帯域Bj内に分布する。周波数帯域Bj内には、低域側の周波数FLjに対して周波数Fs(オフセット)だけ高域側の周波数(FLj+Fs)を起点として周波数δFの間隔(周期)毎に対象周波数fpが設定される。周波数Fsおよび周波数δFは可変値である。記号I(Fs,δF)は、周波数帯域Bj内の対象周波数fpの総数を意味する。以上の説明から理解されるように、関数値a(Fs,δF)は、周波数帯域Bj内のI(Fs,δF)個の対象周波数fpの各々における帯域成分Zp_j(f)の合計値(I(Fs,δF)個の数値の総和)に相当する。変数c(Fs,δF)は、関数値a(Fs,δF)を正規化する要素である。
【0053】
数式(6)の記号max{A(Fs,δF)}は、相異なる周波数Fsについて算定される複数の関数値A(Fs,δF)のうちの最大値を意味する。図13は、数式(6)で算定される関数値Lj(δF)と各対象周波数fpの周波数δFとの関係を示すグラフである。図13に示すように、関数値Lj(δF)には複数のピークが存在する。数式(6)から理解されるように、周波数δFの間隔で配列する各対象周波数fpが帯域成分Zp_j(f)の各ピークの周波数(すなわち調波周波数)に近似するほど関数値Lj(δF)は大きい数値となる。すなわち、関数値Lj(δF)がピークとなる周波数δFは、帯域成分Zp_j(f)の基本周波数F0に該当する可能性が高い。
【0054】
周波数検出部62は、処理S24で帯域成分Zp_j(f)毎に算定した関数値Lj(δF)をJ個の帯域成分Zp_1(f)〜Zp_J(f)について加算または平均することで関数値Ls(δF)(Ls(δF)=L1(δF)+L2(δF)+L3(δF)+……+LJ(δF))を算定する(S25)。以上の説明から理解されるように、周波数δFが選択領域148内(特定帯域B0内)の周波数成分(周波数スペクトルZ)の基本周波数F0に近いほど、関数値Ls(δF)は大きい数値となる。すなわち、関数値Ls(δF)は、各周波数δFが選択領域148内の音響成分の基本周波数F0に該当する尤度(確率)を意味し、関数値Ls(δF)の分布は、周波数δFを確率変数とする基本周波数F0の確率密度関数に相当する。
【0055】
周波数検出部62は、処理S25で算定した尤度Ls(δF)の複数のピークのうち各ピークでの尤度Ls(δF)の数値の降順でM個(すなわち尤度Ls(δF)が大きい方からM個)のピークを選択し、各ピークに対応するM個の周波数δFを選択領域148内(特定帯域B0内)の各音響成分の基本周波数F0として特定する(S26)。M個の基本周波数F0の各々は、選択領域148内(特定帯域B0内)で調波構造を持つ各音響成分(目標成分を含む)の基本周波数である。なお、M個の基本周波数F0を特定する方法は以上の例示に限定されない。例えば、尤度Ls(δF)が最大となる1個のピークの周波数を基本周波数F0として特定し、その基本周波数F0と各倍音周波数とに対応する周波数成分を周波数スペクトルZから除外したうえで尤度Ls(δF)を再計算して1個の基本周波数F0を特定するという処理を反復してM個の基本周波数F0を特定する方法が好適である。以上の方法によれば、各音響成分の倍音周波数を基本周波数F0として誤検出する可能性が低減されるという利点がある。
【0056】
更に、周波数検出部62は、処理S26で特定したM個の基本周波数F0のうち尤度Ls(δF)の降順でN個(すなわち尤度Ls(δF)が大きい方からN個)の基本周波数F0を目標成分の基本周波数の候補(以下「候補周波数」という)Fc(1)〜Fc(N)として選択する(S27)。M個の基本周波数F0のうち尤度Ls(δF)が大きい基本周波数F0を目標成分(歌唱音)の候補周波数Fc(1)〜Fc(N)として選択するのは、音響信号xのなかで比較的に顕著な音響成分(音量が大きい音響成分)である目標成分は、目標成分以外の音響成分と比較して尤度Ls(δF)が大きい数値になり易いという傾向があるからである。以上に説明した図10の処理(S21〜S27)が単位区間Tu毎に順次に実行されることで、M個の基本周波数F0とそのうちのN個の候補周波数Fc(1)〜Fc(N)とが単位区間Tu毎に特定される。
【0057】
<指標算定部64>
図9の指標算定部64は、周波数検出部62が処理S27で特定したN個の候補周波数Fc(1)〜Fc(N)の各々について、その候補周波数Fc(n)(n=1〜N)に対応する調波構造の特徴量(典型的には音色の特徴量)と目標成分に想定される特徴量との類否を示す特性指標値V(n)を算定する。すなわち、特性指標値V(n)は、候補周波数Fc(n)が目標成分に該当する可能性を音響特性(音色)の観点から評価した指標(歌唱音を目標成分とした本実施形態では音声らしさの尤度)に相当する。以下の説明ではMFCC(Mel Frequency Cepstral Coeffcient)を調波構造の特徴量として例示する。ただし、MFCC以外の特徴量を利用することも可能である。
【0058】
図14は、指標算定部64の動作のフローチャートである。図14の処理が単位区間Tu毎に順次に実行されることで単位区間Tu毎にN個の特性指標値V(1)〜V(N)が算定される。図14の処理を開始すると、指標算定部64は、N個の候補周波数Fc(1)〜Fc(N)から1個の候補周波数Fc(n)を選択する(S31)。そして、指標算定部64は、処理S31で選択した候補周波数Fc(n)を基本周波数F0とする調波構造(包絡線)の特徴量を算定する(S32〜S35)。
【0059】
まず、指標算定部64は、図15に示すように、処理S21で生成された周波数スペクトルZからパワースペクトル|Z|2を生成し(S32)、パワースペクトル|Z|2のうち処理S31で選択した候補周波数Fc(n)とその倍音周波数κFc(n)(κ=2,3,4,……)との各々に対応するパワー値を特定する(S33)。例えば、指標算定部64は、候補周波数Fc(n)と各倍音周波数κFc(n)とを中心周波数として周波数軸上に設定された各窓関数(例えば三角窓)をパワースペクトル|Z|2に乗算し、窓関数毎の乗算値の最大値(図15の黒点)を候補周波数Fc(n)および各倍音周波数κFc(n)に対応するパワー値として特定する。
【0060】
指標算定部64は、図15に示すように、候補周波数Fc(n)および各倍音周波数κFc(n)について処理S33で算定したパワー値を補間することで包絡線ENV(n)を生成する(S34)。具体的には、パワー値を変換した対数値(dB値)の補間を実行してからパワー値に再変換することで包絡線ENV(n)が算定される。処理S34での補間には、例えばラグランジュ補間等の公知の補間技術が任意に採用され得る。以上の説明から理解されるように、包絡線ENV(n)は、音響信号xのうち候補周波数Fc(n)を基本周波数F0とする音響成分(調波音)の周波数スペクトルの包絡線に相当する。指標算定部64は、処理S34で生成した包絡線ENV(n)からMFCC(特徴量)を算定する(S35)。MFCCの算定の方法は任意である。
【0061】
指標算定部64は、処理S35で算定したMFCCから特性指標値V(n)(目標成分らしさの尤度)を算定する(S36)。特性指標値V(n)の算定には公知の技術が任意に採用されるが、SVM(Support Vector Machine)が好適である。すなわち、指標算定部64は、音声(歌唱音)と非音声(例えば楽器の演奏音)とが混在する学習サンプルを複数のクラスタに分類する分離平面(境界)を事前に学習し、各クラスタ内のサンプルが音声に該当する確率(例えば0以上かつ1以下の中間的な数値)をクラスタ毎に設定する。特性指標値V(n)を算定する段階では、指標算定部64は、処理S35で算定したMFCCが所属すべきクラスタを分離平面の適用で決定し、そのクラスタに付与された確率を特性指標値V(n)として特定する。例えば候補周波数Fc(n)に対応する音響成分が目標成分(歌唱音)に該当する可能性が高いほど特性指標値V(n)は1に近い数値に設定され、目標成分に該当しない確率が高いほど特性指標値V(n)は0に近い数値に設定される。
【0062】
指標算定部64は、N個の候補周波数Fc(1)〜Fc(N)の全部について以上の処理(S31〜S36)を実行したか否かを判定する(S37)。処理S37の判定の結果が否定である場合、指標算定部64は、未処理の候補周波数Fc(n)を新規に選択したうえで(S31)、前述の処理S32から処理S37の処理を実行する。そして、N個の候補周波数Fc(1)〜Fc(N)の全部を処理すると(S37:YES)、指標算定部64は図14の処理を終了する。したがって、相異なる候補周波数Fc(n)に対応するN個の特性指標値V(1)〜V(N)が単位区間Tu毎に順次に算定される。
【0063】
<遷移解析部66>
図9の遷移解析部66は、周波数検出部62が単位区間Tu毎に算定したN個の候補周波数Fc(1)〜Fc(N)から、目標成分の基本周波数に該当する可能性が高い目標周波数Ftarを選択する。すなわち、目標周波数Ftarの時系列(軌跡)が特定される。図9に示すように、遷移解析部66は、第1処理部71と第2処理部72とを含んで構成される。第1処理部71および第2処理部72の各々の機能について以下に詳述する。
【0064】
<第1処理部71>
第1処理部71は、N個の候補周波数Fc(1)〜Fc(N)のうち目標成分に該当する可能性が高い候補周波数Fc(n)を単位区間Tu毎に特定する。図16は、第1処理部71の動作のフローチャートである。周波数検出部62がN個の候補周波数Fc(1)〜Fc(N)を最新の1個の単位区間(以下では特に「新規単位区間」という)Tuについて特定するたびに図16の処理が実行される。
【0065】
図16の処理は、概略的には、図17に示すように、新規単位区間Tuを最後尾とするK個の単位区間Tuにわたる経路RAを特定する処理である。経路RAは、各単位区間TuのN個の候補周波数Fc(n)(図17では4個の候補周波数Fc(1)〜Fc(4))のうち目標成分に該当する可能性(尤度)が高い候補周波数Fc(n)をK個の単位区間Tuについて配列した時系列(候補周波数Fc(n)の遷移)を表現する。経路RAの探索には公知の技術が任意に採用され得るが、演算量の削減の観点から動的計画法が格別に好適である。図16では、動的計画法の例示であるビタビ(viterbi)アルゴリズムを利用して経路RAを特定する場合が想定されている。図16の処理を以下に詳述する。
【0066】
第1処理部71は、新規単位区間Tuについて特定されたN個の候補周波数Fc(1)〜Fc(N)のうちの1個の候補周波数Fc(n)を選択する(S41)。そして、第1処理部71は、図18に示すように、処理S41で選択した候補周波数Fc(n)の出現の確率(PA1(n),PA2(n))を算定する(S42)。
【0067】
確率PA1(n)は、候補周波数Fc(n)について図10の処理S25で算定された尤度Ls(δF)(=Ls(Fc(n))に応じて可変に設定される。具体的には、候補周波数Fc(n)の尤度Ls(Fc(n))が大きいほど確率PA1(n)は大きい数値に設定される。第1処理部71は、例えば、尤度Ls(Fc(n))に応じた変数λ(n)を確率変数とする正規分布(平均μA1,分散σA12)を表現する以下の数式(7)の演算で候補周波数Fc(n)の確率PA1(n)を算定する。
【数7】

数式(7)の変数λ(n)は、例えば尤度Ls(Fc(n))を正規化した数値である。尤度Ls(Fc(n))の正規化の方法は任意であるが、例えば尤度Ls(Fc(n))を尤度Ls(δF)の最大値で除算した数値が正規化後の尤度λ(n)として好適である。平均μA1および分散σA12の数値は実験的または統計的に選定される(例えばμA1=1,σA1=0.4)。
【0068】
処理S42で算定される確率PA2(n)は、候補周波数Fc(n)について指標算定部64が算定した特性指標値V(n)に応じて可変に設定される。具体的には、候補周波数Fc(n)の特性指標値V(n)が大きい(目標成分に該当する可能性が高い)ほど確率PA2(n)は大きい数値に設定される。第1処理部71は、例えば、特性指標値V(n)を確率変数とする正規分布(平均μA2,分散σA22)を表現する以下の数式(8)の演算で確率PA2(n)を算定する。平均μA2および分散σA22の数値は実験的または統計的に選定される(例えばμA2=σA2=1)。
【数8】

【0069】
第1処理部71は、図18に示すように、新規単位区間Tuについて処理S41で選択した候補周波数Fc(n)と、直前の単位区間TuのN個の候補周波数Fc(1)〜Fc(N)との各組合せについてN個の確率PA3(n)_1〜PA3(n)_Nを算定する(S43)。確率PA3(n)_ν(ν=1〜N)は、直前の単位区間Tuの第ν番目の候補周波数Fc(ν)から新規単位区間Tuの候補周波数Fc(n)に遷移する確率を意味する。具体的には、単位区間Tuの間で音響成分の音高が極端に変化する可能性は低いという傾向を考慮して、直前の候補周波数Fc(ν)と現在の候補周波数Fc(n)との差異(音高差)が大きいほど確率PA3(n)_νは小さい数値に設定される。第1処理部71は、例えば以下の数式(9)の演算でN個の確率PA3(n)_1〜PA3(n)_Nを算定する。
【数9】

すなわち、数式(9)は、関数値min{6,max (0,|ε|−0.5)}を確率変数とする正規分布(平均μA3,分散σA32)を表現する。数式(9)の記号εは、半音を単位として直前の候補周波数Fc(ν)と現在の候補周波数Fc(n)との差分を表現した変数を意味する。関数値min{6,max(0,|ε|−0.5)}は、半音単位の周波数差εの絶対値|ε|から0.5を減算した数値(負数となる場合は0)が6を下回る場合にはその数値に設定され、数値が6を上回る場合(すなわち6半音を上回る程度に周波数が相違する場合)には6に設定される。なお、音響信号xの最初の単位区間Tuの確率PA3(n)_1〜PA3(n)_Nは所定値(例えば1)に設定される。また、平均μA3および分散σA32の数値は実験的または統計的に選定される(例えばμA3=0,σA3=4)。
【0070】
以上の手順で確率(PA1(n),PA2(n),PA3(n)_1〜PA3(n)_N)を算定すると、第1処理部71は、図19に示すように、新規単位区間Tuの候補周波数Fc(n)と、直前の単位区間TuのN個の候補周波数Fc(1)〜Fc(N)との各組合せについてN個の確率πA(1)〜πA(N)を算定する(S44)。確率πA(ν)は、図18の確率PA1(n)と確率PA2(n)と確率PA3(n)_νとに応じた数値である。例えば確率PA1(n)と確率PA2(n)と確率PA3(n)_νとの各々の対数値の加算値が確率πA(ν)として算定される。以上の説明から理解されるように、確率πA(ν)は、直前の単位区間Tuの第ν番目の候補周波数Fc(ν)から新規単位区間Tuの候補周波数Fc(n)に遷移する確率(尤度)を意味する。
【0071】
第1処理部71は、処理S44で算定したN個の確率πA(1)〜πA(N)のうちの最大値πA_maxを選択し、図19に示すように、直前の単位区間TuのN個の候補周波数Fc(1)〜Fc(N)のうち最大値πA_maxに対応する候補周波数Fc(ν)と新規単位区間Tuの候補周波数Fc(n)とを連結する経路(図19の太線)を設定する(S45)。更に、第1処理部71は、新規単位区間Tuの候補周波数Fc(n)について確率ΠA(n)を算定する(S46)。確率ΠA(n)は、直前の単位区間TuのN個の候補周波数Fc(1)〜Fc(N)のうち処理S45で選択した候補周波数Fc(ν)について過去に算定した確率ΠA(ν)と現在の候補周波数Fc(n)について処理S45で選択した最大値πA_maxとに応じた数値(例えば各々の対数値の加算値)に設定される。
【0072】
第1処理部71は、新規単位区間TuのN個の候補周波数Fc(1)〜Fc(N)の全部について以上の処理(S41〜S46)を実行したか否かを判定する(S47)。処理S47の判定の結果が否定である場合、第1処理部71は、未処理の候補周波数Fc(n)を新規に選択したうえで(S41)、処理S42から処理S47を実行する。すなわち、処理S41から処理S47が新規単位区間TuのN個の候補周波数Fc(1)〜Fc(N)の各々について実行され、直前の単位区間Tuの1個の候補周波数Fc(ν)からの経路(処理S45)とその経路に対応する確率ΠA(n)(処理S46)とが新規単位区間Tuの候補周波数Fc(n)毎に算定される。
【0073】
新規単位区間Tuの全部(N個)の候補周波数Fc(1)〜Fc(N)について処理が完了すると(S47:YES)、第1処理部71は、新規単位区間Tuを最後尾とするK個の単位区間Tuにわたる候補周波数Fc(n)の経路RAを確定する(S48)。経路RAは、新規単位区間TuのN個の候補周波数Fc(1)〜Fc(N)のうち処理S46で算定した確率ΠA(n)が最大となる候補周波数Fc(n)から、処理S45で連結した各候補周波数Fc(n)をK個の単位区間Tuにわたって順次に遡及(バックトラック)した経路である。なお、処理S41から処理S47を完了した単位区間TuがK個未満である段階(すなわち音響信号xの始点から第(K−1)個までの各単位区間Tuについて処理が完了した段階)では経路RAの確定(処理S48)は実行されない。以上に説明したように、周波数検出部62が新規単位区間TuについてN個の候補周波数Fc(1)〜Fc(N)を特定するたびに、その新規単位区間Tuを最後尾とするK個の単位区間Tuにわたる経路RAが特定される。
【0074】
<第2処理部72>
ところで、音響信号xのなかには目標成分が存在しない単位区間Tu(例えば歌唱音が停止した区間)も存在する。第1処理部71による経路RAの探索では各単位区間Tuにおける目標成分の有無が判断されないから、実際には目標成分が存在しない単位区間Tuについても経路RA上では候補周波数Fc(n)が特定される。以上の事情を考慮して、第2処理部72は、経路RAの各候補周波数Fc(n)に対応するK個の単位区間Tuの各々について目標成分の有無を判定する。
【0075】
図20は、第2処理部72の動作のフローチャートである。第1処理部71が経路RAを特定するたび(単位区間Tu毎)に図20の処理が実行される。図20の処理は、概略的には、図21に示すように、経路RAに対応するK個の単位区間Tuにわたる経路RBを特定する処理である。経路RBは、K個の単位区間Tuの各々について目標成分の発音状態Sv(v:voiced)および非発音状態Su(u:unvoiced)の何れかを選択して配列した時系列(発音状態/非発音状態の遷移)を表現する。各単位区間Tuの発音状態Svは、経路RAのうちその単位区間Tuの候補周波数Fc(n)が目標成分として発音される状態を意味し、非発音状態Suは目標成分が発音されない状態を意味する。経路RBの探索には公知の技術が任意に採用され得るが、演算量の削減の観点から動的計画法が格別に好適である。図20では、動的計画法の例示であるビタビアルゴリズムを利用して経路RBを特定する場合が想定されている。図20の処理を以下に詳述する。
【0076】
第2処理部72は、K個の単位区間Tuの何れか(以下「選択単位区間」という)を選択する(S51)。具体的には、図20の第1回目の処理S51ではK個の単位区間Tuのうち最初の単位区間Tuが選択され、第2回目以降の処理S51の実行毎に直後の単位区間Tuが選択される。
【0077】
第2処理部72は、図22に示すように、選択単位区間Tuについて確率PB1_vと確率PB1_uとを算定する(S52)。確率PB1_vは、選択単位区間Tuにて目標成分が発音状態Svに該当する確率を意味し、確率PB1_uは、選択単位区間Tuにて目標成分が非発音状態Suに該当する確率を意味する。
【0078】
選択単位区間Tuの候補周波数Fc(n)が目標成分に該当する可能性が高いほど、その候補周波数Fc(n)について指標算定部64が算定した特性指標値V(n)(目標成分らしさ)は大きい数値となるという傾向を考慮して、発音状態Svの確率PB1_vの算定には特性指標値V(n)が適用される。具体的には、第2処理部72は、特性指標値V(n)を確率変数とする正規分布(平均μB1,分散σB12)を表現する以下の数式(10)の演算で確率PB1_vを算定する。数式(10)から理解されるように、特性指標値V(n)が大きいほど確率PB1_vは大きい数値に設定される。平均μB1および分散σB12の数値は実験的または統計的に選定される(例えばμB1=σB1=1)。
【数10】

【0079】
他方、非発音状態Suの確率PB1_uは、例えば以下の数式(11)で算定される固定値である。
【数11】

【0080】
次いで、第2処理部72は、図22に破線で示すように、選択単位区間Tuの発音状態Svおよび非発音状態Suと直前の単位区間Tuの発音状態Svおよび非発音状態Suとの各組合せについて遷移の確率(PB2_vv,PB2_uv,PB2_uu,PB2_vu)を算定する(S53)。確率PB2_vvは、図22から理解されるように、直前の単位区間Tuの発音状態Svから選択単位区間Tuの発音状態Svに遷移する確率(vv:voiced->voiced)を意味する。同様に、確率PB2_uvは、非発音状態Suから発音状態Svに遷移する確率(uv:unvoiced->voiced)を意味し、確率PB2_uuは、非発音状態Suから非発音状態Suに遷移する確率(uu:unvoiced->unvoiced)を意味し、確率PB2_vuは、発音状態Svから非発音状態Suに遷移する確率(vu:voiced->unvoiced)を意味する。具体的には、第2処理部72は、各確率を以下の数式(12A)および数式(12B)のように算定する。
【数12】

前述の数式(9)で算定される確率PA3(n)_νと同様に、直前の単位区間Tuと選択単位区間Tuとの間で候補周波数Fc(n)の周波数差εの絶対値|ε|が大きいほど数式(12A)の確率PB2_vvは小さい数値に設定される。数式(12A)の平均μB2および分散σB22の数値は実験的または統計的に選定される(例えばμB2=0,σB2=4)。数式(12A)および数式(12B)から理解されるように、相前後する単位区間Tuにて発音状態Svが維持される確率PB2_vvは、発音状態Svおよび非発音状態Suの一方から他方に遷移する確率(SPB2_uv,PB2_vu)や非発音状態Suが維持される確率PB2_uuと比較して低い確率に設定される。
【0081】
第2処理部72は、直前の単位区間Tuの発音状態Svおよび非発音状態Suの何れかを、選択単位区間Tuの発音状態Svに関する各確率(PB1_v,PB2_vv,PB2_uv)に応じて選択して選択単位区間Tuの発音状態Svに連結する(S54A〜S54C)。まず、第2処理部72は、図23に示すように、直前の単位区間Tuの状態(発音状態Sv/非発音状態Su)から選択単位区間Tuの発音状態Svに遷移する確率(πBvv,πBuv)を算定する(S54A)。確率πBvvは、直前の単位区間Tuの発音状態Svから選択単位区間Tuの発音状態Svに遷移する確率であり、処理S52で算定した確率PB1_vと処理S53で算定した確率PB2_vvとに応じた数値(例えば各々の対数値の加算値)に設定される。同様に、確率πBuvは、直前の単位区間Tuの非発音状態Suから選択単位区間Tuの発音状態Svに遷移する確率を意味し、確率PB1_vと確率PB2_uvとに応じて算定される。
【0082】
第2処理部72は、図23に示すように、直前の単位区間Tuの状態(発音状態Sv/非発音状態Su)のうち確率πBvvおよび確率πBuvの最大値πBv_maxに対応する状態を選択して選択単位区間Tuの発音状態Svと連結し(S54B)、選択単位区間Tuの発音状態Svについて確率ΠBを算定する(S54C)。確率ΠBは、直前の単位区間Tuについて処理S54Bで選択した状態について過去に算定された確率ΠBと処理S54Bで特定した最大値πBv_maxとに応じた数値(例えば各々の対数値の加算値)に設定される。
【0083】
第2処理部72は、選択単位区間Tuの非発音状態Suについても同様に、直前の単位区間Tuの発音状態Svおよび非発音状態Suの何れかを、選択単位区間Tuの非発音状態Suに関する各確率(PB1_u,PB2_uu,PB2_vu)に応じて選択してその非発音状態Suに連結する(S55A〜S55C)。すなわち、第2処理部72は、図24に示すように、確率PB1_uおよび確率PB2_uu応じた確率(すなわち非発音状態Suから非発音状態Suに遷移する確率)πBuuと、確率PB1_uおよび確率PB2_vuに応じた確率πBvuとを算定し(S55A)、直前の単位区間Tuの発音状態Svおよび非発音状態Suのうち確率πBuuおよび確率πBvuの最大値πBu_maxに対応する状態(図24では発音状態Sv)を選択して選択単位区間Tuの非発音状態Suと連結する(S55B)。そして、第2処理部72は、処理S55Bで選択した状態について過去に算定した確率ΠBと処理S55Bで選択した確率πBu_maxとに応じて選択単位区間Tuの非発音状態Suの確率ΠBを算定する(S55C)。
【0084】
選択単位区間Tuの発音状態Svおよび非発音状態Suの各々について以上の手順で直前の単位区間Tuの状態との連結(S54B,S55B)と確率ΠBの算定(S54C,S55C)とを完了すると、第2処理部72は、K個の単位区間Tuの全部について処理が完了したか否かを判定する(S56)。処理S56の判定の結果が否定である場合、第2処理部72は、現在の選択単位区間Tuの直後の単位区間Tuを新規な選択単位区間Tuとして選択したうえで(S51)、前述の処理S52から処理S56の処理を実行する。
【0085】
K個の単位区間Tuの各々について処理が完了すると(S56:YES)、第2処理部72は、K個の単位区間Tuにわたる経路RBを確定する(S57)。具体的には、第2処理部72は、K個のうち最後尾の単位区間Tuの発音状態Svおよび非発音状態Suのうち確率ΠBが大きい状態から、処理S54Bまたは処理S55Bで連結した経路をK個の単位区間Tuにわたって順次に遡及することで経路RBを特定する。そして、K個の単位区間Tuにわたる経路RBのうち第1番目の単位区間Tuでの状態(発音状態Sv/非発音状態Su)を、その1個の単位区間Tuの状態(目標成分の発音の有無)として確定する(S58)。第2処理部72が目標成分の存在を肯定した単位区間Tu(すなわち、発音状態Svと判定された単位区間Tu)の候補周波数Fc(n)が目標周波数Ftar(目標成分の基本周波数F0)として確定する。遷移解析部66(第1処理部71,第2処理部72)による以上の処理が単位区間Tu毎に実行されることで、目標成分が存在する単位区間Tuとその基本周波数(目標周波数Ftar)とが特定される。
【0086】
図9の係数列設定部68は、各単位区間Tuの基礎係数列H(t)のうち周波数検出部62がその単位区間Tuについて検出したM個の基本周波数F0と各々の倍音周波数とに対応する各係数値h(f,t)を通過値γ1(すなわち音響成分を通過させる数値)に設定することで処理係数列G(t)を生成する。ただし、係数列設定部68は、遷移解析部66が特定した目標周波数Ftarとその倍音周波数(2Ftar,3Ftar,……)とに対応する各係数値h(f,t)を抑圧値γ0(すなわち音響成分を抑圧する数値)に維持する。
【0087】
係数列設定部68が生成した処理係数列G(t)を信号処理部35が周波数スペクトルXLおよび周波数スペクトルXRに作用させること(成分抑圧処理)で音響信号y(yL,yR)の周波数スペクトルYLおよび周波数スペクトルYRが生成される。以上の説明から理解されるように、音響信号yは、音響信号xのうち選択領域148(特定帯域B0)の外側の音響成分と、選択領域148内の各音響成分のうち発音点の直後の部分(特に打楽器音)と、選択領域148内で調波構造を持つ複数の音響成分のうち目標成分を除外した(M−1)個の音響成分との混合音に相当する。すなわち、音響信号xから目標成分を選択的に抑圧した音響信号yが生成される。
【0088】
以上に説明した第1実施形態では、基礎係数列H(t)において選択領域148(特定帯域B0)内の各周波数成分に対応する係数値h(f,t)のうち目標成分以外の音響成分に対応する周波数の係数値h(f,t)が、音響成分を通過させる通過値γ1に変更されることで処理係数列G(t)が生成される。したがって、選択領域148内の各周波数成分が一律に抑圧される構成と比較して、音響信号xのうち目標成分以外の音響成分を維持しながら目標成分を抑圧できる(すなわち、目標成分を高精度に抑圧できる)という利点がある。
【0089】
具体的には、第1実施形態では、音響信号xの選択領域148内の各周波数成分のうち音響成分の発音点の直後の部分に対応する各周波数成分の係数値h(f,t)が通過値γ1に設定されるから、選択領域148内で発音点が顕著な音響信号(例えば打楽器音)を成分抑圧処理の実行後の音響信号yにて維持することが可能である。また、選択領域148(特定帯域B0)から検出されたM個の基本周波数F0のうち目標周波数Ftar以外の各基本周波数F0とその倍音周波数とに対応する係数値h(f,t)が通過値γ1に設定されるから、選択領域148内で調波構造を持つ目標成分以外の音響成分を成分抑圧処理の実行後の音響信号yにて維持することが可能である。
【0090】
また、目標周波数Ftarを検出する遷移解析部66は、N個の候補周波数Fc(1)〜Fc(N)のうち目標成分に該当する可能性が高い候補周波数Fc(n)を選択する第1処理部71に加えて、単位区間Tu毎の目標成分の有無を判定する第2処理部72とを含んで構成される。すなわち、各単位区間Tuでの目標成分の有無を含めた目標成分の遷移が特定される。したがって、遷移解析部66が第1処理部71のみを含む構成と比較すると、音響信号xのうち目標成分が存在しない単位区間Tuの音響成分が抑圧される可能性を低減することが可能である。
【0091】
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0092】
第1実施形態では、選択領域148(特定帯域B0)のうち音響成分の発音点の部分と目標成分以外の調波構造の音響成分とが成分抑圧処理を通過するように処理係数列G(t)が生成される。したがって、音響成分の発音点の部分および調波構造の音響成分(目標成分を含む)の何れにも該当しない音響成分(以下「残余成分」という)は目標成分とともに抑圧される。以上の構成では、音響信号xのうち目標成分が存在しない区間でも残余成分が抑圧されるから、成分抑圧処理後の音響信号yが不自然な印象となる可能性がある。以上の事情を考慮して、第2実施形態では、目標成分が存在しない区間において、残余成分を含む全部の音響成分が成分抑圧処理を通過するように処理係数列G(t)を生成する。
【0093】
第2実施形態では、第1実施形態の係数列加工部44A(図3)が図25の係数列加工部44Bに置換される。係数列加工部44Bは、第1実施形態の係数列加工部44A(発音点解析部52,遅延部54,基本周波数解析部56)に遅延部82と発音解析部84とを追加した構成である。基本周波数解析部56による処理後の基礎係数列H(t)(第1実施形態の処理係数列G(t))が発音解析部84に供給される。
【0094】
遅延部82は、周波数分析部31が生成した周波数スペクトルXLおよび周波数スペクトルXRを、発音点解析部52および基本周波数解析部56での処理に必要な時間だけ遅延させて発音解析部84に供給する。したがって、各単位区間Tuの周波数スペクトルXLおよび周波数スペクトルXRとその単位区間Tuの基礎係数列H(t)を発音点解析部52および基本周波数解析部56で加工した基礎係数列H(t)とが並列(同時)に発音解析部84に供給される。
【0095】
発音解析部84は、単位区間Tu毎に音響信号xにおける目標成分の有無を判定する。単位区間Tu毎の目標成分の有無の判定には公知の技術が任意に採用され得るが、以下の説明では、複数の単位区間Tuで構成される図26の区間(以下「解析区間」という)Ta内の音響信号xの特徴量θを利用して単位区間Tu毎の目標成分の有無を判定する方法を例示する。特徴量θは、音響信号xに目標成分(例えば歌唱音)が存在する場合と存在しない場合とで相異なる数値となるように音響信号xの音響特性に応じて変化する可変値である。
【0096】
図27は、発音解析部84の動作のフローチャートである。図27の処理は、単位区間Tu毎に順次に実行される。図27の処理を開始すると、発音解析部84は、目標成分の有無の判定の対象となる1個の単位区間Tu(以下「対象単位区間Tu_tar」という)を含むように解析区間Taを設定する(S60)。例えば、図26に示すように、対象単位区間Tu_tarとその前後の所定個にわたる単位区間Tuとの集合が解析区間Taとして設定される。解析区間Taは、例えば0.5秒〜1.0秒程度の時間に設定される。相前後する解析区間Taが時間軸上で相互に重複するように解析区間Taは処理S60の実行毎に更新される。例えば、解析区間Taは、単位区間Tuの1個分(例えば0.05秒)ずつ処理S60の実行毎に順次に後方にシフトされる。
【0097】
発音解析部84は、処理S60で設定した解析区間Taの特徴量θを算定する(S61〜S63)。以下の説明では、解析区間Ta内の各単位区間TuのMFCCに応じた特徴量θを例示する。具体的には、発音解析部84は、音響信号xのうち解析区間Ta内の単位区間Tu毎にMFCCを算定する(S61)。例えば、音響信号xの周波数スペクトルXLまたは周波数スペクトルXRや両者を加算した周波数スペクトルZからMFCCが算定される。MFCCの算定の方法は任意である。そして、発音解析部84は、解析区間Ta内の複数の単位区間TuにわたるMFCCの平均μaと分算σa2とを算定する(S62)。平均μaは、例えば、図26に示すように対象単位区間Tu_tarに近い単位区間Tuほど大きい数値となる(すなわち、解析区間Ta内の両端部(前端部,後端部)に近い単位区間Tuほど小さい数値となる)ように設定された加重値wを適用した加重平均である。発音解析部84は、処理S62で算定した平均μaと分散σa2とを要素とするベクトルを特徴量θとして生成する(S63)。なお、平均μaや分散σa2以外の統計量を特徴量θの生成に適用することも可能である。
【0098】
発音解析部84は、処理S63で生成した特徴量θに応じて解析区間Ta内の目標成分の有無を判定する(S64)。特徴量θに応じた目標成分の有無の判定にはSVMが好適に利用される。具体的には、目標成分が存在する音響信号と目標成分が存在しない音響信号との各々から前述と同様の方法(S61〜S63)で抽出された特徴量θを学習サンプルとする学習で、目標成分の有無の境界となる分離平面が事前に生成される。発音解析部84は、処理S63で生成した特徴量θに分離平面を適用することで、解析区間Ta内の音響信号xに目標成分が存在するか否かを判定する。
【0099】
解析区間Ta内に目標成分が存在すると判定した場合(S64:YES)、発音解析部84は、対象単位区間Tu_tarについて基本周波数解析部56が生成した基礎係数列H(t)を変更せずに処理係数列G(t)として信号処理部35に供給する(S65)。したがって、第1実施形態と同様に、選択領域148(特定帯域B0)に含まれる音響成分の発音点の部分と目標成分以外の調波構造の音響成分とが成分抑圧処理を通過し、それ以外の音響成分(目標成分および残余成分)が成分抑圧処理で抑圧される。
【0100】
他方、解析区間Ta内に目標成分が存在しないと判定した場合(S64:NO)、発音解析部84は、対象単位区間Tu_tarについて基本周波数解析部56が生成した基礎係数列H(t)の全部の係数値h(f,t)を通過値γ1(音響成分を通過させる数値)に設定することで処理係数列G(t)を生成する(S66)。すなわち、処理係数列G(t)のうち特定帯域B0を含む全帯域にわたる係数値g(f,t)が通過値γ1に設定される。したがって、音響信号xの対象単位区間Tu_tar内の全部の音響成分が成分抑圧処理を通過する。すなわち、音響信号xの何れの音響成分も抑圧されずに音響信号y(y=x)として放音装置18に供給される。
【0101】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、目標成分が存在しない単位区間Tuにおいて音響信号xの全帯域の音響成分が成分抑圧処理を通過するから、聴感的に自然な印象の音響信号yを生成できるという利点がある。例えば、歌唱音と伴奏音との混合音の音響信号xのうちの歌唱音を目標成分として抑圧する場合、目標成分が存在しない区間(例えば前奏や間奏の区間)について伴奏音の部分的な欠落(残余成分の抑圧)が回避されるから、再生音の音質の劣化を防止することが可能である。
【0102】
<C:第3実施形態>
発音点の直後の区間τに対応する係数値h(f,t)を発音点解析部52が通過値γ1に設定する以上の各形態では、選択領域148内の音響成分のうち打楽器音以外の音響成分(例えば目標成分たる歌唱音)についても発音点の直後の区間が成分抑圧処理を通過する結果となる。第3実施形態では、目標成分の発音点については直後の区間に対応する係数値h(f,t)を抑圧値γ0に設定する。
【0103】
図28は、第3実施形態における係数列加工部44Aと記憶装置24とを併記したブロック図である。係数列加工部44Aの構成は第1実施形態(図3)と同様である。図28に示すように、第3実施形態の記憶装置24には楽曲情報DMが記憶される。楽曲情報DMは、楽曲を構成する各音符の音高(以下「基準音高」という)PREFを時系列に指定する。以下の例示では、楽曲の主旋律に相当する歌唱音(ガイドメロディ)の音高が基準音高PREFとして指定される場合を想定する。例えば、楽曲の音高を指定するイベントデータ(ノートオンイベント)と各イベントデータの処理の時点を指定するタイミングデータとを時系列に配列したMIDI(Musical Instrument Digital Interface)形式の時系列データが楽曲情報DMとして好適に採用される。
【0104】
音響信号x(xL,xR)が示す楽曲と楽曲情報DMが示す楽曲とは共通する。したがって、音響信号xの目標成分(歌唱音)が示す音高の時系列と楽曲情報DMが指定する基準音高PREFの時系列とは時間軸上で相互に対応する。第3実施形態の発音点解析部52は、楽曲情報DMで指定される基準音高PREFの時系列を、図4の処理S12A〜S12Eで検出した複数の発音点のうち目標成分の発音点を特定するために利用する。
【0105】
具体的には、発音点解析部52は、図4の処理S13において、処理S12A〜S12Eで検出した複数の発音点のうち、楽曲情報DMから特定される各基準音高PREFの発生点(ノートオンイベントの発生点)に単位区間Tuの時間軸上の位置が近似し、かつ、発音点が検出された単位帯域Buがその基準音高PREFに近似する発音点(すなわち、基準音高PREFと時刻および音高が類似する発音点)を、目標成分の発音点として推定する。例えば、楽曲情報DMが指定する各基準音高PREFの発生点を含む所定の時間範囲の単位区間Tuについて検出され、かつ、単位帯域Buが基準音高PREFを包含する発音点が、目標成分の発音点として推定される。
【0106】
発音点解析部52は、複数の発音点のうち以上の手順で推定した目標成分の発音点に対応する単位帯域Bu内の係数値h(f,t)を、その発音点の直後の区間τでも抑圧値γ0に維持する(すなわち通過値γ1に変更しない)。他方、複数の発音点のうち目標成分以外の発音点について、発音点解析部52は、第1実施形態と同様に、発音点の直後の区間τにて各係数値h(f,t)を通過値γ1に設定する(図8)。したがって、基礎係数列生成部42が生成した基礎係数列H(t)では抑圧対象とされる音響成分のうち目標成分以外の音響成分(特に打楽器音)の発音直後の区間が成分抑圧処理を通過するようになる。なお、処理S12A〜S12Eで検出した全部の発音点について区間τ内の係数値h(f,t)を通過値γ1に設定し、そのうちの目標成分の発音点に対応する係数値h(f,t)を抑圧値γ0に変更する構成も採用され得る。
【0107】
以上に説明したように、第3実施形態では、複数の発音点のうち目標成分の発音点については区間τでも係数値h(f,t)が抑圧値γ0に設定されるから、第1実施形態と比較して目標成分を高精度に抑圧できるという利点がある。なお、発音点解析部52が目標成分の発音点について係数値h(f,t)を抑圧値γ0に設定する第3実施形態の構成は、第2実施形態にも同様に適用され得る。また、以上に例示した構成に加えて、目標成分や目標成分以外の音響成分の代表的な音響特性(例えば周波数特性)を記憶装置24に保持しておき、各発音点での音響信号xの音響特性と記憶装置24に記憶された各音響特性とを対比することで目標成分の発音点を推定する構成も好適である。
【0108】
<D:第4実施形態>
第3実施形態では、音響信号xの目標成分の音高の時系列と楽曲情報DMが指定する基準音高PREFの時系列(以下「基準音高系列」という)との間で時間的な対応を仮定したが、実際には両者が完全には対応しない場合もある。そこで、第4実施形態では、音響信号xに対する基準音高系列の相対的な位置(時間軸上の時刻)を調整する。
【0109】
図29は、第4実施形態における係数列加工部44Aのブロック図である。図29に示すように、第4実施形態の係数列加工部44Aは、第3実施形態と同様の要素(発音点解析部52,遅延部54,基本周波数解析部56)に時間調整部86を追加した構成である。記憶装置24は、第3実施形態と同様に楽曲情報DMを記憶する。
【0110】
時間調整部86は、音響信号xの目標成分の音高の時系列と記憶装置24内の楽曲情報DMが指定する基準音高系列とが相互に時間軸上で対応するように音響信号x(各単位区間Tu)と基準音高系列との相対的な位置(時間差)を決定する。音響信号xと基準音高系列との間で時間軸上の位置を調整する方法は任意であるが、遷移解析部66が第1実施形態または第2実施形態と同様の方法で特定した基本周波数Ftarの時系列(以下「解析音高系列」という)と楽曲情報DMが指定する基準音高系列とを対比する方法を以下では例示する。解析音高系列は、時間調整部86による処理の結果(すなわち基準音高系列との時間的な対応)を加味せずに特定された基本周波数Ftarの時系列である。
【0111】
時間調整部86は、音響信号xの全体にわたる解析音高系列と楽曲の全体にわたる基準音高系列との間で両者の時間差Δを変数とする相互相関関数C(Δ)を算定し、相互相関関数C(Δ)の関数値(相互相関)が最大となる時間差ΔAを特定する。例えば、相互相関関数C(Δ)の関数値が増加から減少に変化する地点の時間差Δが時間差ΔAとして特定される。相互相関関数C(Δ)を平滑化してから時間差ΔAを特定する構成も好適である。そして、時間調整部86は、解析音高系列および基準音高系列の一方を他方に対して時間差ΔAだけ遅延(または先行)させる。
【0112】
発音点解析部52は、時間調整部86による解析の結果を利用して、図4の処理S12A〜S12Eで特定した複数の発音点のうち目標成分の発音点を推定する。すなわち、発音点解析部52は、解析音高系列と基準音高系列とに時間差ΔAを付与した状態で、解析音高系列のうち各発音点が検出された単位区間Tuと基準音高系列における各基準音高PREFとを対比することで、基準音高PREFと時刻および音高が類似する発音点を目標成分の発音点として推定する。基本周波数解析部56の動作は第1実施形態と同様である。ただし、前述の説明から理解されるように、基本周波数解析部56(遷移解析部66)は、時間調整部86が基準音高系列と対比する解析音高系列を特定するための経路探索と、発音点解析部52での処理後の基礎係数列H(t)を加工するための経路探索とを順次に実行する。
【0113】
第4実施形態では、時間調整部86が時間軸上の位置を調整した音響信号xと基準音高系列との対比で目標成分の発音点が推定されるから、音響信号xと基準音高系列との時間軸上の位置が相互に対応しない場合でも、目標成分の発音点を高精度に特定できるという利点がある。
【0114】
なお、以上の説明では、楽曲の全体について解析音高系列と基準音高系列とを対比したが、楽曲の所定の区間(例えば先頭から14秒ないし15秒程度の区間)のみについて解析音高系列と基準音高系列とを対比して時間差ΔAを特定することも可能である。また、解析音高系列および基準音高系列の各々を先頭から所定の時間毎に区分し、解析音高系列と基準音高系列との間で相互に対応する区間同士を対比することで、区間毎に時間差ΔAを算定する構成も好適である。以上のように楽曲の区間毎に時間差ΔAを算定する構成によれば、解析音高系列と基準音高系列とでテンポが相違する場合でも、解析音高系列と基準音高系列との対応を高精度に特定できるという利点がある。
【0115】
<E:第5実施形態>
図30は、第5実施形態における基本周波数解析部56および記憶装置24のブロック図である。図30に示すように、記憶装置24は、第3実施形態と同様に楽曲情報DMを記憶する。第5実施形態の基本周波数解析部56は、楽曲情報DMで指定される基準音高PREFの時系列を、音響信号xの目標成分の基本周波数Ftarの時系列を特定するために利用する。
【0116】
図30に示すように、第5実施形態の基本周波数解析部56は、第1実施形態と同様の要素(周波数検出部62,指標算定部64,遷移解析部66,係数列設定部68)に音高評価部92を追加した構成である。音高評価部92は、周波数検出部62が特定したN個の候補周波数Fc(1)〜Fc(N)の各々について音高尤度LP(n)(LP(1)〜LP(N))を単位区間Tu毎に算定する。各単位区間Tuの音高尤度LP(n)は、楽曲のうちその単位区間Tuに対応する時点について楽曲情報DMが指定する基準音高PREFと、周波数検出部62が検出した候補周波数Fc(n)との差異に応じた数値である。基準音高PREFが楽曲の歌唱音に対応する第5実施形態では、音高尤度LP(n)は、各候補周波数Fc(n)が楽曲の歌唱音に該当する可能性の指標(尤度)として機能する。例えば、音高尤度LP(n)は、候補周波数Fc(n)と基準音高PREFとの差異が小さいほど大きい数値となるように所定の範囲(1以下の正数)内で選定される。
【0117】
図31は、音高評価部92が音高尤度LP(n)を選定する処理の説明図である。図31には、候補周波数Fc(n)を確率変数とする確率分布αが図示されている。確率分布αは、例えば基準音高PREFを平均値とする正規分布である。図31の横軸(確率分布αの確率変数)は、セント(cent)を単位とした候補周波数Fc(n)である。
【0118】
音高評価部92は、楽曲のうち楽曲情報DMが基準音高PREFを指定する区間(すなわち楽曲内で歌唱音が存在する区間)内の各単位区間Tuについては、図31の確率分布αにおいて候補周波数Fc(n)に対応する確率を音高尤度LP(n)として特定する。他方、楽曲のうち楽曲情報DMが基準音高PREFを指定しない区間(すなわち楽曲内で歌唱音が存在しない区間)内の各単位区間Tuについては、音高評価部92は音高尤度LP(n)を所定の下限値に設定する。
【0119】
ところで、目標成分の周波数は、例えばビブラート等の音楽的な表現により、所期の周波数を中心として時間的に変動(揺動)する可能性がある。そこで、基準音高PREFを中心とする所定の範囲内(目標成分の周波数の変動が予定される所定の範囲内)では音高尤度LP(n)が過度に小さい数値とならないように、確率分布αの形状(具体的には分散)が選定される。例えば、歌唱音のビブラートによる周波数の変動は、目標の周波数を中心とした4半音分(高域側2半音および低域側2半音)の範囲にわたる。したがって、基準音高PREFを中心とした4半音程度の範囲内では音高尤度LP(n)が過度に小さい数値とならないように、確率分布αの分散は、基準音高PREFに対して1半音程度の周波数幅(PREF×21/12)に設定される。なお、図31ではセントを単位とした周波数を横軸に図示したが、周波数の単位をヘルツ(Hz)とした場合の確率分布αは、基準音高PREFを挟んだ高域側と低域側とで形状(分散)が相違する。
【0120】
図30の第1処理部71は、図16の処理S44で候補周波数Fc(n)毎に算定する確率πA(ν)に、音高評価部92が算定した音高尤度LP(n)を反映させる。具体的には、第1処理部71は、図16の処理S42で算定した確率PA1(n)および確率PA2(n)と、処理S43で算定した確率PA3(n)_νと、音高評価部92が算定した音高尤度LP(n)との各々の対数値の加算値を確率πA(ν)として算定する。
【0121】
したがって、候補周波数Fc(n)の音高尤度LP(n)が高いほど、処理S46で算定される確率ΠA(n)は大きい数値となる。すなわち、音高尤度LP(n)が高い候補周波数Fc(n)(すなわち、楽曲の歌唱音に該当する可能性が高い候補周波数Fc(n))ほど、推定経路RAの経路上の周波数として選択される可能性が高い。以上に説明したように、第5実施形態の第1処理部71は、各候補周波数Fc(n)の音高尤度LP(n)を利用した経路探索で推定経路RAを特定する手段として機能する。
【0122】
また、第2処理部72は、図20の処理S54Aで発音状態Svについて算定される確率πBvvおよび確率πBuvに、音高評価部92が算定した音高尤度LP(n)を反映させる。具体的には、第2処理部72は、処理S52で算定した確率PB1_vと、処理S53で算定した確率PB2_vvと、推定経路RAのうち選択単位区間Tuに対応する候補周波数Fc(n)の音高尤度LP(n)との各々の対数値の加算値を確率πBvvとして算定する。同様に、確率PB1_vと確率PB2_uvと音高尤度LP(n)とに応じて確率πBuvが算定される。
【0123】
したがって、候補周波数Fc(n)の音高尤度LP(n)が高いほど、処理S54Cで確率πBvvまたはπBuvに応じて算定される確率ΠBは大きい数値となる。すなわち、音高尤度LP(n)が高い候補周波数Fc(n)の発音状態Svほど状態系列RBとして選択される可能性が高い。他方、楽曲のうち基準音高PREFの音響成分が存在しない単位区間Tu内の候補周波数Fc(n)については音高尤度LP(n)が下限値に設定されるから、基準音高PREFの音響成分が存在しない各単位区間Tu(すなわち非発音状態Suが選択されるべき単位区間Tu)について発音状態Svが誤選択される可能性を充分に低減することが可能である。以上に説明したように、第5実施形態の第2処理部72は、推定経路RA上の候補周波数Fc(n)の音高尤度LP(n)を利用した経路探索で状態系列RBを特定する手段として機能する。
【0124】
第5実施形態では、各候補周波数Fc(n)と楽曲情報DMで指定される基準音高PREFとの差異に応じた音高尤度LP(n)が推定経路RAおよび状態系列RBの経路探索に適用されるから、音高尤度LP(n)を利用しない構成と比較して、目標成分の基本周波数Ftarの推定精度を向上させることが可能である。もっとも、第1処理部71による推定経路RAの探索と第2処理部72による状態系列RBの探索との一方のみに音高尤度LP(n)を反映させる構成も採用され得る。
【0125】
なお、音高尤度LP(n)は、目標成分(歌唱音)らしさを示す指標という観点からすると特性指標値V(n)と性質が類似するから、特性指標値V(n)の代わりに音高尤度LP(n)を適用する(図30の構成から指標算定部64を省略する)ことも可能である。すなわち、図16の処理S42で特性指標値V(n)に応じて算定される確率PA2(n)が音高尤度LP(n)に置換され、図20の処理S52で特性指標値V(n)に応じて算定される確率PB1_vが音高尤度LP(n)に置換される。
【0126】
また、記憶装置24内の楽曲情報DMが楽曲の複数のパートの各々について基準音高PREFの時系列の指定(トラック)を含む構成では、各候補周波数Fc(n)の音高尤度LP(n)の算定と推定経路RAおよび状態系列RBの探索とを、楽曲のパート毎に実行することが可能である。具体的には、音高評価部92は、楽曲の複数のパートの各々について、そのパートの基準音高PREFと各候補周波数Fc(n)との差異に応じた音高尤度LP(n)(LP(1)〜LP(N))を単位区間Tu毎に算定する。そして、複数のパートの各々について、そのパートの各音高尤度LP(n)を適用した推定経路RAおよび状態系列RBの経路探索が第5実施形態と同様に実行される。以上の構成によれば、楽曲の複数のパートの各々について基本周波数Ftarの時系列(周波数情報DF)を生成することが可能である。
【0127】
なお、第1実施形態を基礎とした構成を以上の説明では例示したが、音高評価部92を具備する第5実施形態の構成は第2実施形態から第4実施形態にも同様に適用され得る。例えば、第4実施形態の時間調整部86を第5実施形態に追加することも可能である。音高評価部92は、時間調整部86による解析の結果を利用して音高尤度LP(n)を単位区間Tu毎に算定する。具体的には、周波数検出部62が各単位区間Tuについて検出した候補周波数Fc(n)と、時間調整部86による調整後(時間差ΔAの付与後)の基準音高系列においてその単位区間Tuと同時刻に位置する基準音高PREFとの差異に応じて、音高評価部92は音高尤度LP(n)を算定する。以上の構成によれば、音響信号xと基準音高系列との時間軸上の位置が相互に対応しない場合でも、基本周波数Ftarの時系列を高精度に特定できるという利点がある。
【0128】
<F:第6実施形態>
図32は、第6実施形態における基本周波数解析部56のブロック図である。第6実施形態の基本周波数解析部56は、第1実施形態と同様の要素(周波数検出部62,指標算定部64,遷移解析部66,係数列設定部68)に補正部94を追加した構成である。補正部94は、遷移解析部66が特定した基本周波数Ftarを補正することで基本周波数Ftar_c(c:corrected)を生成する。なお、第5実施形態と同様に、記憶装置24には、音響信号xと共通の楽曲の基準音高PREFを時系列に指定する楽曲情報DMが格納される。
【0129】
図33の部分(A)は、第1実施形態と同様の方法で特定された基本周波数Ftarの時系列と、楽曲情報DMが指定する基準音高PREFの時系列とを併記したグラフである。符号Eaで示すように基準音高PREFの1.5倍程度の周波数が基本周波数Ftarとして誤検出される場合(以下ではこの誤検出を「五度エラー」という)と、符号Ebで示すように基準音高PREFの2倍の周波数が基本周波数Ftarとして誤検出される場合(以下ではこの誤検出を「オクターブエラー」という)とが図33の部分(A)から把握される。五度エラーおよびオクターブエラーの原因としては、例えば音響信号xの各音響成分の倍音成分が相互に重複することや、1オクターブだけ離れた音響成分または5度の関係にある音響成分が楽曲内で音楽的に発生し易いことが想定される。
【0130】
図32の補正部94は、基本周波数Ftarに発生する以上のような誤差(特に五度エラーやオクターブエラー)を補正することで基本周波数Ftar_cを生成する。具体的には、補正部94は、以下の数式(13)に示すように、基本周波数Ftarと補正値βとの乗算で補正後の基本周波数Ftar_cを単位区間Tu毎に算定する。
Ftar_c=β×Ftar ……(13)
【0131】
ただし、歌唱音のビブラート等の音楽的な表現により基本周波数Ftarと基準音高PREFとの相違が発生した場合にまで基本周波数Ftarを補正することは妥当ではない。そこで、基本周波数Ftarが、楽曲のうち基本周波数Ftarに対応する時点の基準音高PREFに対して所定の範囲内にある場合、補正部94は、基本周波数Ftarを補正せずに基本周波数Ftar_cとして確定する。例えば、基本周波数Ftarが基準音高PREFに対して高域側の3半音程度の範囲内(すなわちビブラート等の音楽的な表現として想定される基本周波数Ftarの変動の範囲内)にある場合、補正部94は数式(13)の補正を停止する。
【0132】
数式(13)の補正値βは、基本周波数Ftarに応じて可変に設定される。図34は、基本周波数Ftar(横軸)と補正値β(縦軸)との関係を定義する関数Λのグラフである。図34では、正規分布を示す関数Λを例示した。基本周波数Ftarに対応する時点の基準音高PREFの1.5倍の周波数(Ftar=1.5PREF)について補正値βが1/1.5(≒0.67)となり、かつ、基準音高PREFの2倍の周波数(Ftar=2PREF)について補正値βが1/2(=0.5)となるように、補正部94は、楽曲情報DMが指定する基準音高PREFに応じて関数Λ(例えば正規分布の平均や分散)を選定する。
【0133】
図32の補正部94は、基準音高PREFに応じた関数Λにおいて基本周波数Ftarに対応する補正値βを特定して数式(13)の演算に適用する。すなわち、例えば基本周波数Ftarが基準音高PREFの1.5倍である場合には、数式(13)の補正値βが1/1.5に設定され、基本周波数Ftarが基準音高PREFの2倍である場合には、数式(13)の補正値βが1/2に設定される。したがって、図33の部分(B)に示すように、五度エラーにより基準音高PREFの1.5倍程度と誤検出された基本周波数Ftarやオクターブエラーにより基準音高PREFの2倍程度と誤検出された基本周波数Ftarは、基準音高PREFに近い基本周波数Ftar_cに補正される。係数列設定部68は、補正部94による補正後の基本周波数Ftar_cに応じて処理係数列G(t)を生成する。
【0134】
第6実施形態では、遷移解析部66が解析した基本周波数Ftarの時系列が楽曲情報DMの各基準音高PREFに応じて補正されるから、第1実施形態と比較して目標成分の基本周波数Ftar_cを正確に検出することが可能である。前述の例示では特に、補正前の基本周波数Ftarが基準音高PREFの1.5倍である場合の補正値βが1/1.5に設定され、基本周波数Ftarが基準音高PREFの2倍である場合の補正値βが1/2に設定されるから、基本周波数Ftarの推定時に特に発生し易い五度エラーやオクターブエラーを有効に補償できるという利点がある。
【0135】
なお、第1実施形態を基礎とした構成を以上の説明では例示したが、補正部94を具備する第6実施形態の構成は第2実施形態から第5実施形態にも同様に適用され得る。例えば、第4実施形態の時間調整部86を第6実施形態に追加することも可能である。補正部94は、時間調整部86による解析の結果を利用して基本周波数Ftarを補正する。具体的には、各単位区間Tuの基本周波数Ftarが、時間調整部86による調整後の基準音高系列においてその単位区間Tuと同時刻に位置する基準音高PREFの1.5倍である場合に補正値βが1/1.5となり、基本周波数Ftarが基準音高PREFの2倍である場合に補正値βが1/2となるように、補正部94は関数Λを選定する。以上の構成によれば、音響信号xと基準音高系列との時間軸上の位置が相互に対応しない場合でも、基本周波数Ftarを高精度に補正できるという利点がある。
【0136】
また、以上の例示では正規分布を示す関数Λを利用して補正値βを決定したが、補正値βを決定する方法は適宜に変更される。例えば、基準音高PREFの1.5倍の周波数を含む所定の範囲(例えば基準音高PREFを中心として1半音程度の帯域幅の範囲)内に基本周波数Ftarがある場合(五度エラーの発生が推定される場合)には補正値βを1/1.5に設定し、基準音高PREFの2倍の周波数を含む所定の範囲内に基本周波数Ftarがある場合(オクターブエラーの発生が推定される場合)には補正値βを1/2に設定することも可能である。すなわち、補正値βが基本周波数Ftarに対して連続的に変化する構成は必須ではない。
【0137】
<G:変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
【0138】
(1)変形例1
発音点解析部52および基本周波数解析部56の一方を省略した構成や、発音点解析部52と基本周波数解析部56との順序を逆転させた構成も採用され得る。また、第2実施形態では、目標成分が存在しないと発音解析部84が判定した各単位区間Tuについて発音点解析部52や基本周波数解析部56が動作を停止する構成も採用され得る。
【0139】
(2)変形例2
指標算定部64は省略され得る。指標算定部64を省略した構成では、第1処理部71での経路RAの特定に特性指標値V(n)が適用されない。すなわち、処理S42での確率PA2(n)の算定が省略され、尤度Ls(Fc(n))に応じた確率PA1(n)と前後の単位区間Tuでの周波数差εに応じた確率PA3(n)_νとに応じて経路RAが特定される。
【0140】
(3)変形例3
第1実施形態における特性指標値V(n)の算定や第2実施形態における目標成分の有無の判定の手段はSVMに限定されない。例えば、k-meansアルゴリズム等の公知の技術による学習の結果を利用した構成でも、第1実施形態での特性指標値V(n)の算定(目標成分に該当するか否かの分類)や第2実施形態での目標成分の有無の判定が実現され得る。
【0141】
(4)変形例4
周波数検出部62がM個の基本周波数F0を検出する方法は任意である。例えば、特開2001−125562号公報に開示されるように、相異なる基本周波数の調波構造を示す複数の音モデルの混合分布として音響信号xをモデル化したときの各音モデルの重み値から基本周波数の確率密度関数を推定し、確率密度関数のピークが存在するM個の基本周波数F0を特定する構成(PreFEst)も採用され得る。
【0142】
(5)変形例5
図35の部分(A)に示すように、処理係数列G(t)を利用した成分抑圧処理の実行後の周波数スペクトルY(YL,YR)には、係数値g(f,t)の抑圧値γ0と通過値γ1との差異に起因した急激な強度の変化が発生して再生音の音質を低下させる可能性がある。そこで、図35の部分(B)の例示のように、周波数スペクトルYのうち処理係数列G(t)の抑圧値γ0に対応する帯域b内の成分を、信号処理部35が補間する構成も採用され得る。周波数スペクトルYの補間には、例えばスプライン補間等の公知の補間技術が任意に採用され得る。なお、帯域b内の位相角を決定する方法は任意であるが、例えば処理前の周波数スペクトルX(XL,XR)の位相角を適用する構成や、帯域bの両側の位相角を補間する構成や、位相角を乱数に設定する構成が採用され得る。
【0143】
(6)変形例6
以上の各形態では、M個の基本周波数F0のうち尤度Ls(δF)の降順でN個の基本周波数F0を周波数検出部62が候補周波数Fc(1)〜Fc(N)として選択したが(図10の処理S27)、N個の候補周波数Fc(1)〜Fc(N)を特定する方法は任意である。例えば、処理S26で特定されたM個の基本周波数F0について指標算定部64が特性指標値Vを算定し、M個の基本周波数F0のうち特性指標値Vが大きいN個(目標成分らしいN個)を候補周波数Fc(1)〜Fc(N)として特定する構成も採用され得る。
【0144】
(7)変形例7
以上の各形態では、処理係数列G(t)を生成する係数列生成部33と処理係数列G(t)を音響信号xに適用する信号処理部35との双方を具備する音響処理装置100を例示したが、処理係数列G(t)を生成する音響処理装置(処理係数列生成装置)としても本発明は実現され得る。処理係数列生成装置が生成した処理係数列G(t)は、別個の音響処理装置に搭載された信号処理部35に提供されて音響信号xの処理(目標成分の抑圧)に利用される。
【0145】
(8)変形例8
係数列加工部44(44A,44B)が、処理係数列G(t)を変形することで、目標成分を強調する処理係数列Ge(t)(e:enhance)を生成する構成も好適である。処理係数列Ge(t)は、処理係数列G(t)と同様に信号処理部35での処理に適用される。具体的には、強調用の処理係数列Ge(t)の各係数値は、目標成分の抑圧用の処理係数列G(t)の各係数値g(f,t)を通過値γ1から減算した数値に設定される。すなわち、処理係数列Ge(t)のうち音響信号xに目標成分が存在する各周波数fの係数値は、音響成分を通過させる大きい数値に設定され、目標成分が存在しない各周波数fの係数値は、音響成分を抑圧させる小さい数値に設定される。
【符号の説明】
【0146】
100……音響処理装置、12……入力装置、14……表示装置、16……信号供給装置、18……放音装置、22……演算処理装置、24……記憶装置、31……周波数分析部、33……係数列生成部、35……信号処理部、37……波形合成部、39……表示制御部、42……基礎係数列生成部、44A,44B……係数列加工部、52……発音点解析部、54,82……遅延部、56……基本周波数解析部、62……周波数検出部、64……指標算定部、66……遷移解析部、68……係数列設定部、71……第1処理部、72……第2処理部、84……発音解析部。


【特許請求の範囲】
【請求項1】
音響信号の目標成分が抑圧されるように周波数毎の係数値が設定された処理係数列を前記音響信号の単位区間毎に生成する装置であって、
特定帯域内の各周波数の係数値が前記音響信号を抑圧する抑圧値に設定されるとともに前記特定帯域外の各周波数の係数値が前記音響信号を維持する通過値に設定された基礎係数列を生成する基礎係数列生成手段と、
前記基礎係数列生成手段が生成した前記基礎係数列において前記特定帯域内の各周波数に対応する複数の係数値のうち前記目標成分以外の各周波数の係数値を前記通過値に変更することで前記単位区間毎に前記処理係数列を生成する係数列加工手段と
を具備する音響処理装置。
【請求項2】
前記係数列加工手段は、
前記音響信号のうち前記特定帯域内の周波数成分の発生点から所定の時間にわたって当該周波数の係数値が前記通過値に設定されるように、前記基礎係数列生成手段による生成後の基礎係数列を加工する発音点解析手段を含む
請求項1の音響処理装置。
【請求項3】
基準音高の時系列を記憶する記憶手段を具備し、
前記発音点解析手段は、前記特定帯域内の各周波数成分の複数の発生点のうち前記基準音高の時系列に対応する発生点については、前記所定の時間においても前記係数値を前記抑圧値に設定する
請求項2の音響処理装置。
【請求項4】
前記係数列加工手段は、
前記音響信号の前記特定帯域内の周波数成分について単位区間毎に特定される複数の基本周波数のうち前記目標成分に該当する可能性が高い基本周波数を目標周波数として特定し、前記複数の基本周波数のうち前記目標周波数以外の各基本周波数とその倍音周波数とに対応する各係数値が前記通過値に設定されるように、前記基礎係数列生成手段による生成後の基礎係数列を加工する基本周波数解析手段を含む
請求項1から請求項3の何れかの音響処理装置。
【請求項5】
前記基本周波数解析手段は、
前記音響信号のうち前記特定帯域内の周波数成分について単位区間毎に複数の基本周波数を特定する周波数検出手段と、
動的計画法による経路探索で単位区間毎の前記複数の基本周波数から前記目標周波数の時系列を特定する遷移解析手段と、
前記複数の基本周波数のうち前記遷移解析手段が特定した目標周波数以外の各基本周波数とその倍音周波数とに対応する各係数値が前記通過値に設定されるように前記基礎係数列を加工する係数列設定手段とを含み、
前記遷移解析手段は、
動的計画法による経路探索で単位区間毎の前記複数の基本周波数から基本周波数の時系列を特定する第1処理手段と、
目標成分の有無を単位区間毎に判定する第2処理手段とを含み、
前記第1処理手段が特定した複数の基本周波数の時系列のうち前記第2処理手段が前記目標成分の存在を肯定した単位区間の基本周波数を前記目標周波数として特定する
請求項4の音響処理装置。
【請求項6】
前記係数列加工手段は、
前記複数の単位区間で構成される解析区間毎に前記目標成分の有無を判定し、前記目標成分の存在が否定される解析区間内の単位区間について、全部の係数値が前記通過値に設定された前記処理係数列を生成する発音解析手段を含む
請求項1から請求項5の何れかの音響処理装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate

【図35】
image rotate


【公開番号】特開2012−109924(P2012−109924A)
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【出願番号】特願2011−45974(P2011−45974)
【出願日】平成23年3月3日(2011.3.3)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】