説明

音声信号処理装置及びその方法

【課題】 入力音声信号からピッチ周期を検出し,そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う場合に,入力音声信号に複数の音源の音声信号が混在する場合であっても,圧縮・伸張後の音声信号において,複数の音源からの音声信号各々の明瞭感をバランス良く保って音質劣化を防止できること。
【解決手段】 入力音声信号Mから一のピッチ周期を検出するにあたり,その信号にフィルタ処理を施した後の信号に基づいてその信号のピッチ周期の複数候補を検出するピッチ周期検出部2と,入力音声信号M又はこれに上記フィルタ処理と異なる他のフィルタ処理等を施した信号に基づいて,前記ピッチ周期の複数候補の中から一のピッチ周期を選択するピッチ周期選択部3と,このようにして選択された前記一のピッチ周期に基づいて入力音声信号Mの時間軸の圧縮処理や伸張処理を行う信号圧縮/伸張部4とを具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は,入力音声信号からピッチ周期を検出し,そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置及びその方法に関するものである。
【背景技術】
【0002】
カラオケのテンポ(速度)変更やビデオの再生速度変更等を行う際に,音程を変えずに音声信号(オーディオ信号)の再生速度を速くしたり遅くしたりする時間軸圧縮伸張処理(音声信号処理の一例)が要求される。
従来,非特許文献1及び非特許文献2には,音声信号の周期性の強い部分を見出し,その周期(ピッチ周期)の単位での音声信号の省略や繰り返し(挿入)によって(ピッチ周期に基づく)時間軸圧縮伸張処理を行う技術が示されている。この技術では,音声信号における省略するピッチ周期分の信号をその次のピッチ周期分の信号にクロスフェードの重み付けにより重複加算する,或いは挿入するピッチ周期分の信号をその前後のピッチ周期分の信号をクロスフェードの重み付けにより重複加算した信号とするPICOLA(Pointer Interval Control OverLap and Add,ポインター移動量制御による重複加算法)という手法が採用されている。
【0003】
図5は,PICOLA方式により時間軸圧縮が行われる際の音声信号の波形を模式的に表したものである。
まず,図5(a)に示すように,時間軸圧縮(音声信号の省略)の対象となる音声信号の範囲の先頭位置Po1にポインタが設定され,このポインタ位置Po1からの音声信号について,そのピッチ周期P(強い周期性を有する周期)が検出される。ピッチ周期Pの検出方法の例については後述する。
次に,図5(b)に示すように,前記ポインタ位置Po1からピッチ周期P分の(ピッチ周期Pの長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した信号a’を生成する。即ち,2つの信号a,bを合成(加算)する際に,図5(a)に破線W1,W2で示すように,信号aに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)し,信号bに対する重みは時間軸が進むに従ってフェードイン(次第に増大)するようクロスフェードの重み付けがなされる。
次に,信号aを削除(省略)するとともに,信号bを信号a’に置き換える。これにより,1ピッチ周期P分の時間軸圧縮が完了する。ここで,音声信号の省略部に設定された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸圧縮が可能となる。
次に,目標圧縮比がRx(0<Rx<1)であるとすると,ポインタが,前記Po1の位置からC(=P×Rx/(1−Rx))だけ進んだ位置Po2に再設定され,前記Po1の位置から位置Po2までの圧縮処理後の音声信号が出力されるとともに,このポインタ位置Po2から同様の時間軸圧縮処理が繰り返される。これにより,P+Cの長さの元の音声信号から,Cの長さの圧縮音声信号が生成(出力)されることになり,目標圧縮比Rx(=C/(P+C))を達成する時間軸圧縮がなされる。
【0004】
一方,図6は,PICOLA方式により時間軸伸張が行われる際の音声信号の波形を模式的に表したものである。
まず,図6(a)に示すように,時間軸伸張(音声信号の挿入)の対象となる音声信号の範囲の先頭位置Po3にポインタが設定され,このポインタ位置Po3からの音声信号について,そのピッチ周期P(強い周期性を有する周期)が検出される。
次に,図6(b)に示すように,前記ポインタ位置Po3からピッチ周期P分の(ピッチ周期Pの長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した信号a’を生成する。時間軸伸張の場合のクロスフェードの重み付けは,図6(a)に破線W3,W4で示すように,信号aに対する重みは時間軸が進むに従ってフェードイン(次第に増加)し,信号bに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)するよう重み付けがなされる。
次に,信号a,bの間に信号a’を挿入する。これにより,1ピッチ周期P分の時間軸伸張が完了する。ここで,挿入された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸伸張が可能となる。
次に,目標伸張比がRy(0<Ry<1)であるとすると,ポインタが,前記Po3の位置からP+S(S=P×1/(Ry−1))だけ進んだ位置Po4に再設定され,前記Po3の位置から位置Po4までの伸張処理後の音声信号が出力されるとともに,このポインタ位置Po4から同様の時間軸伸張処理が繰り返される。これにより,Sの長さの元の音声信号から,P+Sの長さの圧縮音声信号が生成(出力)されることになり,目標伸張比Ry(=(P+S)/S)を達成する時間軸伸張がなされる。
【0005】
ところで,処理する音声信号が,ステレオオーディオ信号等のように複数チャンネルの音声信号である場合,各チャンネルについてPICOLAを適用すると,ピッチ周期を求める高負荷の演算をチャンネルごとに実行する必要があるため演算負荷が非常に高くなることに加え,チャンネルごとにピッチ周期が異なりうるので,圧縮伸張処理後の音声信号にチャンネル間で元の音声信号とは異なる位相差が生じ,聞く人に違和感を与えてしまうという問題点がある。
この問題を解決するためには,音声信号の圧縮伸張に用いるピッチ周期を,全てのチャンネルで統一(共通化)することが有効である。
例えば,特許文献1には,ステレオ音声信号のLチャンネルとRチャンネルとを加算した信号(L+R)についてピッチ周期を検出し,そのピッチ周期に基づいて両チャンネルの音声信号の圧縮伸張処理(PICOLA)を行う技術が提案されている。
さらに,特許文献2には,複数のチャンネル信号を加算した信号或いは最大の振幅を有するチャンネル信号についてピッチ周期を検出し,そのピッチ周期に基づいて全てのチャンネル信号の圧縮伸張処理を行う技術が提案されている。
これらの技術により,ピッチ周期を求める高負荷の演算を1つの音声信号について求めるだけで済むので演算負荷の増大を防止できるとともに,圧縮伸張処理後の音声信号に,聞く人に違和感を与えるようなチャンネル間での信号の位相差が生じることを防止できる。
【特許文献1】特開2001−5500号公報
【特許文献2】特開2002−297200号公報
【非特許文献1】森田,板倉「自己相関関数を用いた音声の時間軸での伸縮」,日本音響学会講演論文集,昭和61年3月,p.199−200
【非特許文献2】森田,板倉「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価」,日本音響学会講演論文集,昭和61年10月,p.149−150
【非特許文献3】猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」,電子情報通信学会技術報告,2001年4月,vol.EA2001−7,p.49−56
【非特許文献4】高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」,電子情報通信学会技術報告,2003年1月,vol.US2002−87,EA2002−108
【発明の開示】
【発明が解決しようとする課題】
【0006】
ここで,ピッチ周期の検出対象となる音声信号(1チャンネル(モノラル)の入力音声信号や,複数チャンネルの入力音声信号の合成音声信号)に,複数の異なる音源からの音声信号が混在している場合,特許文献1や特許文献2に示される技術では,最も周期性の強い代表的な音源の音声信号に対応するピッチ周期が検出されることになる。
このため,特許文献1や特許文献2に示される技術では,複数音源の信号が混在する場合における時間軸圧縮又は伸張後の音声信号において,代表的な一の音源の音声信号は明瞭となるが,その他の音源からの音声信号については明瞭感がなくなり,音声信号全体としての品質劣化につながるという問題点があった。
例えば,入力音声信号に,人の歌唱音と楽器の演奏音とが混在する場合,演奏音は明瞭であるが,歌唱音が不明瞭となる等の音質劣化が生じる。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,入力音声信号からピッチ周期を検出し,そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う場合に,入力音声信号に複数の音源の音声信号が混在する場合であっても,圧縮・伸張後の音声信号において,複数の音源からの音声信号各々の明瞭感をバランス良く保って音質劣化を防止できる音声信号処理装置及びその方法を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するために本発明は,一の入力音声信号又は複数チャンネルの入力音声信号の合成音声信号(以下,ピッチ周期検出用信号という)から一のピッチ周期を検出するにあたり,まず第1段階として,そのピッチ周期検出用信号に所定の信号処理(第1の信号処理)を施した後の信号に基づいてその信号のピッチ周期の複数候補を検出する。
ここで,前記信号処理は,前記入力音声信号に混在する複数の音源からの音声信号の一部を抽出若しくは除去したり,一部の音声信号の周期性(ピッチ周期)を強調若しくは減衰させる等の処理である。また,前記ピッチ周期の複数の候補は,例えば,ピッチ周期としての評価値が高いものから既定数分を候補とすること等が考えられる。
これにより,前記入力音声信号に複数の音源からの音声信号が混在する場合に,それらの中で必ずしも代表的(最も周期性が強い)とはいえない音源の音声信号(例えば,楽器演奏音が混在する場合の歌唱音声信号等)の抽出等を前記信号処理によって行い,その信号に対応したピッチ周期の複数候補を検出できる。
さらに,第2段階として,前記ピッチ周期検出信号又はこれに上記信号処理と異なる他の信号処理(第2の信号処理)を施した信号に基づいて,前記ピッチ周期の複数候補の中から一のピッチ周期を選択する。
このようにして選択された前記一のピッチ周期は,前記ピッチ周期の複数候補検出に用いた信号,即ち,前記ピッチ周期検出用信号に混在する音声信号の中から前記信号処理によって抽出或いは強調等された音源の音声信号と,その他の音源の音声信号との両方に対応したピッチ周期となる。
従って,このようにして検出(選択)された前記一のピッチ周期に基づいて前記入力音声信号の時間軸の圧縮処理や伸張処理を行えば,その処理後の音声信号において,前記入力音声信号に混在する複数の音源からの音声信号各々の明瞭感をバランス良く保つことができる。
【0008】
さらに,前記ピッチ周期検出用信号に前述の信号処理(第1の信号処理)とは異なる1又は複数の信号処理(第3の信号処理)を施し,その処理後の1又は複数の信号各々に基づいて,前述の第1段階の処理により検出された前記ピッチ周期の複数候補を絞り込み,その絞り込まれた候補の中から,前述の第2段階の処理によって前記一のピッチ周期を選択することも考えられる。
これにより,前述の第1段階と第2段階との間の中間段階において,前記第1段階及び第2段階におけるピッチ周期の検出若しくは選択の対象となる音源の音声信号とは異なる他の音源の音声信号の抽出,強調等(第3の信号処理)が可能となり,これらの音声信号にも対応したピッチ周期が選択(絞り込み)されることとなる。その結果,前述の第1段階及び第2段階と,それらの間の1以上の中間段階とで,3種以上の異なる音源の音声信号各々にバランス良く対応したピッチ周期を求めるることが可能となる。
ここで,各段階(第1,第2,その中間)での前記信号処理としては,例えば,各々異なる周波数帯域についての帯域制限フィルタ処理等とすることが考えられる。
その他,イコライジングによる周波数強調によって特定の周波数帯の信号を増幅或いは減衰させる信号処理や,ブラインド音源分離方式(BSS方式)によって前記入力音声信号に含まれる複数の音源の音声信号を分離する信号処理等が考えられる。なお,BSS(Blind Source Separation)方式の詳細は,例えば非特許文献3や非特許文献4等に詳説されている。
【発明の効果】
【0009】
本発明によれば,第1段階で入力音声信号若しくは複数の入力音声信号の合成音声信号から信号処理により抽出,強調等を行った所望の音源の音声信号に対応したピッチ周期の複数候補を検出し,その複数候補の中から,その後の第2段階で他の音源の音声信号に対応した一のピッチ周期を選択し,さらにはそれらの中間段階でさらに他の音源の音声信号に対応したピッチ周期の候補を絞り込むことにより,複数の音源の音声信号各々にバランス良く対応したピッチ周期を選択することができる。そして,そのようにして選択されたピッチ周期に基づいて,入力音声信号の時間軸の圧縮処理や伸張処理を行うことにより,その処理後の音声信号において,前記入力音声信号に混在する複数の音源からの音声信号各々の明瞭感をバランス良く保って音質劣化を防止することができる。
【発明を実施するための最良の形態】
【0010】
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の第1実施形態に係る音声信号処理装置Z1の概略構成を表すブロック図,図2は本発明の第2実施形態に係る音声信号処理装置Z2の概略構成を表すブロック図,図3は本発明の第3実施形態に係る音声信号処理装置Z3の概略構成を表すブロック図,図4は本発明の第4実施形態に係る音声信号処理装置Z4の概略構成を表すブロック図,図5はPICOLA方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図,図6はPICOLA方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図,図7は時間軸圧縮・伸張処理に用いられる音声信号(原音)の波形の一例を表す図,図8及び図9は図7に示す音声信号(原音)に従来の手法で時間軸伸張を行った後の信号の波形の一例を表す図,図10は図7に示す音声信号(原音)に本発明の手法で時間軸伸張を行った後の信号の波形の一例を表す図,図11は楽曲音声信号の波形の一例及びその楽曲音声信号に対して従来の手法と本発明の手法とで検出されたピッチ周期の時間変化を表すグラフである。
【0011】
<第1実施形態>
以下,図1に示すブロック図を用いて,本発明の第1実施形態に係る音声信号処理装置Z1について説明する。
図1に示すように,音声信号処理装置Z1は,第1フィルタ(1)と,ピッチ周期検出部2と,ピッチ周期選択部3と,信号圧縮/伸張部4とを具備している。
前記第1フィルタ(1)は,外部から入力される入力モノラル信号M(一の入力音声信号及びピッチ周期検出用信号の一例)に,帯域制限フィルタ処理(第1の信号処理の一例)を施すものである。
前記ピッチ周期検出部2は,前記第1フィルタ(1)によるフィルタ処理後の信号を入力し,その信号のピッチ周期の複数候補を検出するものである(ピッチ周期候補検出手段の一例)。
前記ピッチ周期選択部3は,前記入力モノラル信号(ピッチ周期検出用信号の一例)を入力し,その信号に基づいて,前記ピッチ周期検出部2によって検出されたピッチ周期の複数候補の中から,信号圧縮又は伸張に用いる一のピッチ周期を選択するものである(ピッチ周期選択手段の一例)。
前記信号圧縮/伸張部4は,前記ピッチ周期選択部3(ピッチ周期選択手段)により選択された一のピッチ周期を入力し,これを用いて,例えば,前述したPICOLA方式(図5,図6参照)により,前記入力モノラル信号M(入力音声信号の一例)の時間軸の圧縮及び伸張を行うものである(時間軸調節手段の一例)。
図1に示す音声処理装置Z1及び後述する他の実施形態に係る音声処理装置Z2〜Z4は,その各構成要素を,それぞれCPUやメモリ等からなる処理回路やDSP(Digital Signal Processor)として構成することが考えられるが,その他にも,各構成要素が行う処理(工程)を実現する処理プログラムを所定のコンピュータによって実行するもの等であってもよい。
本音声信号処理装置Z1の特徴は,前記第1フィルタ(1)及び前記ピッチ周期検出部2と,前記ピッチ周期選択部3とにより,ピッチ周期検出を2段階で行う点にある。以下,これについて詳述する。
【0012】
<<第1段階>>
まず,前記第1フィルタ(1)により,前記入力モノラル信号Mに対し,バンドバスフィルタ,ローパスフィルタ,ハイパスフィルタ等の帯域制限フィルタ処理を施す。
この第1フィルタ(1)では,前記入力モノラル信号Mに複数の音源からの音声信号が混在する場合に,それらの中で必ずしも代表的(最も周期性が強い)とはいえない音源の音声信号であって,圧縮/伸張後の明瞭感を確保したい音声信号(例えば,楽器演奏音が混在する場合の歌唱音声信号等)の帯域(人の音声の場合,例えば,200Hz〜8KHz)のみを通過させるようなフィルタ処理を施す。
そして,その信号処理後の信号に対応したピッチ周期の複数候補を,前記ピッチ周期検出部2により検出する。ここで,前記ピッチ周期検出部2によるピッチ周期の複数候補の検出(算出)方法の一例を以下に示す。
前記入力モノラル信号M(例えば,歌唱音声や楽器音等が混在したオーディオ信号)のピッチ周期として適正と考えられるピッチ周期Pの全候補j(jはデジタル音声信号のサンプル数を表し,時間換算したピッチ周期は,「j×サンプリング周期」となる。)として予めj=N0〜Nの所定範囲を設定し,前記第1フィルタ(1)による信号処理(フィルタ処理)後のデジタル音声信号をピッチ周期の評価対象信号Xiとし,その(2N+1)点分のサンプル信号Xi(i=0〜2N,i≧1)について,前記ピッチ周期の全候補j(N0〜N)それぞれについての周期性の強さを評価する。そして,最も周期性の評価結果に基づいてピッチ周期の複数候補を求める。例えば,最も周期性が強いと評価されるものから順に,予め定められた個数(複数個)分,若しくは予め設定された評価値よりも周期性が強いと評価されたもの(複数),或いはそれらの組合せ等によってピッチ周期の複数候補を求める。
この場合,周期性の評価対象とする信号Xiの時間範囲i(サンプル数)を0〜N(ここで,参照される評価対象信号の最大時間範囲は,0〜2N)としたときに,周期性の強さの評価関数を,次の(1)式や(2)式とすることが考えられる。
【数1】

これらは,jサンプルだけ離れた信号値どうしの差(絶対値又は2乗値)を計算し,その差が小さいほど周期jにおける周期性が強い(即ち,周期jごとに似た波形が現れる)として評価するものである。従って,j=N0〜Nそれぞれについて,(1)式又は(2)式による評価値を計算し,その評価値が最も小さいもの(最も周期性評価が高いもの)から所定の規則に従った複数個分のjをピッチ周期の複数候補として検出(算出)する。
上記以外にも,例えば,jの範囲を複数区間に分割し,その分割区間毎に最も周期性評価の高いもの(前記評価値の最も小さいもの)を選択する方法も考えられる。即ち,jの区間をN0〜N1,N1〜N2,…,Nk〜N(但し,N0<N1<N2<…<Nk<N)というように分割し,分割区間各々において周期性評価が最大となる(例えば,(1)式や(2)式による評価値が最小となる)jをピッチ周期の複数候補とする。
【0013】
<<第2段階>>
次に,前記ピッチ周期選択部3により,前記入力モノラル信号Mに基づいて,前記第1段階で得られたピッチ周期の複数候補の中から,圧縮/伸張に用いる一のピッチ周期を選択する。
具体的には,前記入力モノラル信号M(デジタル音声信号)を前記ピッチ周期の評価対象信号Xiとし,その(2N+1)点分のサンプル信号Xi(i=0〜2N,i≧1)について,前記第1段階で求めたピッチ周期の候補それぞれについての周期性の強さを評価した上で,最も周期性の強いピッチ周期を圧縮/伸張に用いる一のピッチ周期とする。ピッチ周期の評価方法は,前記第1段階と同様である。
このようにして選択された一のピッチ周期は,前記ピッチ周期の複数候補検出に用いた信号,即ち,前記入力モノラル信号M(ピッチ周期検出用信号)に混在する音声信号の中から前記第1フィルタ(1)によって抽出された音源の音声信号と,その他の音源の音声信号との両方に対応したピッチ周期となる。
そして,前記信号圧縮/伸張部4では,前記入力モノラル信号Mに基づいて前記2段階の処理により検出された前記一のピッチ周期を用いて,前記入力モノラル信号Mについて所望の圧縮率(伸張率)で時間軸圧縮(伸張)がなされ,圧縮(伸張)後の音声信号M’が出力される。ここで,圧縮・伸張の方式は,前述したPICOLA方式が採用される。
このようにして出力される圧縮・伸張処理後の音声信号M’においては,前記入力音声信号に混在する複数の音源からの音声信号各々の明瞭感をバランス良く保つことができ,音質が向上する。
【0014】
<第2実施形態>
次に,図2のブロック図を用いて,本発明の第2実施形態に係る音声信号処理装置Z2について説明する。
図2に示すように,音声信号処理装置Z2は,前記音声信号処理装置Z1に新たな構成要素として合成信号生成部5を加えたものである。
入力音声信号が,ステレオオーディオ信号等のように複数チャンネルの入力音声信号である場合,各チャンネル信号ごとにピッチ周期の検出及び圧縮/伸張を行った信号を合成すると,チャンネルごとにピッチ周期が異なり得るので,圧縮/伸張処理後の音声信号にチャンネル間で元の音声信号とは異なる位相差が生じ,聞く人に違和感を与えてしまう。
この問題を解決するためには,音声信号の圧縮/伸張に用いるピッチ周期を,全てのチャンネルで統一(共通化)することが有効である。
そこで,当該音声信号処理装置Z2では,前記合成信号生成部5により,複数チャンネルの入力ステレオ信号(入力音声信号の一例)の合成音声信号(ピッチ周期検出用信号の一例)を生成し,その合成音声信号に基づいて前記信号処理装置Z1と同様に2段階の処理を経て一のピッチ周期を求める。
前記合成信号生成部5としては,例えば,各チャンネル信号を加算(ステレオ2チャンネルの場合,L+R)するものや,各チャンネル信号を加算した信号(L+R)と減算した信号(L−R)とを生成し,そのうちのいずれかパワー(振幅)の大きい方を前記合成音声信号とするもの等が考えられる。
そして,前記信号圧縮/伸張部4では,前記合成音声信号に基づいて前記2段階の処理により検出された前記一のピッチ周期を用いて,前記ステレオ信号(L,R)の両チャンネル信号それぞれについて所望の圧縮率(伸張率)で時間軸圧縮(伸張)がなされ,圧縮(伸張)後の音声信号L’,R’が出力される。ここで,圧縮・伸張の方式は,前述したPICOLA方式が採用される。
このように,複数チャンネルの音声入力信号から得た1つのピッチ周期Pに基づいて,全てのチャンネル信号の圧縮・伸張処理がなされるので,演算負荷の増大や,聞く人に違和感を与えるような圧縮・伸張後のチャンネル間の位相差発生を防止できる。このような構成も,本発明の実施形態の一例である。
【0015】
<第3実施形態>
次に,図3のブロック図を用いて,本発明の第3実施形態に係る音声信号処理装置Z3について説明する。
図3に示すように,音声信号処理装置Z3は,前記音声信号処理装置Z1に新たな構成要素として,前記ピッチ周期選択部3への入力信号に対して帯域制限フィルタ処理(第2の信号処理の一例)を施す第2フィルタ(6)を加えたものである。この第2フィルタ(6)のフィルタ特性は,前記第1フィルタ(1)のフィルタ特性とは異なるものである。
このように,前記第2段階における前記ピッチ周期選択部3(ピッチ周期選択手段の一例)において,前記入力モノラル信号M(ピッチ周期検出用信号の一例)に前記第1フィルタ(1)の信号処理とは異なるフィルタ処理(第2の信号処理の一例)を施した信号に基づいて,前記ピッチ周期の複数候補の中から一のピッチ周期を選択する構成も考えられる。
この第2段階でのフィルタ処理(信号処理)により,例えば,最も周期性の強い音源からの音声信号を除去する,或いは,所望の音源からの音声信号のみを抽出する等により,ピッチ周期検出に用いる音源信号を任意に選択でき,圧縮/伸張後の信号(M’)について所望の音質調整を行うことが可能となる。
もちろん,このように第2段階において信号処理を行う構成を,前記音声信号処理装置Z2(複数チャンネルの入力音声信号(ステレオオーディオ信号等)の処理装置)に適用することも考えられる。
【0016】
<第4実施形態>
次に,図4のブロック図を用いて,本発明の第4実施形態に係る音声信号処理装置Z4について説明する。
図4に示すように,音声信号処理装置Z4は,前記音声信号処理装置Z1に新たな構成要素として,前記第1段階と前記第2段階とにおけるピッチ周期の複数候補検出と一のピッチ周期選択との間の中間段階で,前記第1段階で検出されたピッチ周期の複数候補をさらに絞り込むピッチ周期候補中間選択部20を加えたものである。
前記ピッチ周期候補中間選択部20は,前記入力モノラル信号M(ピッチ周期検出用信号の一例)に,前記第1フィルタ(1)の処理(第1の信号処理)とは各々異なるフィルタ処理(第3の信号処理の一例)を施す複数の第3フィルタ11,12,…,1Nと,それらによりフィルタ処理が施された後の複数の信号各々に基づいて,前記ピッチ周期検出部2(ピッチ周期候補検出手段)により検出された前記ピッチ周期の複数候補を順次絞り込む複数のピッチ周期中間選択部21,22,…,2Nとを具備している(ピッチ周期絞り込み手段の一例)。
前記第3フィルタ(11〜1N)各々は,前記第1段階及び第2段階におけるピッチ周期検出(選択)の対象となる音源の音声信号とは異なる他の音源の音声信号を抽出するフィルタ特性とする。
ここで,前記ピッチ周期中間選択部(21〜2N)は,相互に直列接続されており,前記入力モノラル信号M(ピッチ周期検出用信号の一例)に対して各々前記第1フィルタ(1)と異なるフィルタ処理が施された信号を前記ピッチ周期の評価対象信号Xiとし,各々前段の前記ピッチ周期中間選択部(21〜2(N−1))から出力されるピッチ周期の複数の候補(第1段目の前記ピッチ周期中間選択部21については,前記ピッチ周期検出部2によって検出された前記ピッチ周期の複数候補)それぞれについての周期性の強さを評価した結果に基づいて前記ピッチ周期の複数候補を順次少数(複数)の候補に絞り込む。その絞り込み(複数のピッチ周期の選択)の方法は,前記ピッチ周期検出部2において,ピッチ周期の全候補から前記ピッチ周期の複数候補を選択する方法と同様である。
このような構成により,前記第1段階と第2段階との間の中間段階において,前記第1段階及び第2段階とは異なる音源の音声信号にも対応したピッチ周期を選択することが可能となり,3種以上の異なる音源の音声信号各々にバランス良く対応した一のピッチ周期を求めることが可能となる。
そして,前記ピッチ周期選択部3(ピッチ周期選択手段)により,前記ピッチ周期中間選択部(21〜2N,ピッチ周期絞り込み手段の一例)により絞り込まれた複数のピッチ周期の候補の中から一のピッチ周期を選択する。
【0017】
次に,図7〜図10に示す音声波形により,本発明の作用効果について説明する。なお,図7〜図10に示す音声波形について,いずれも,その横軸(時間軸)の幅は0.2秒分,各音声信号のサンプリングレートは44100Hzであり,ピッチ周期検出の際に周期性評価を行うピッチ周期の全範囲は350〜1400サンプル(前述のピッチ周期の全候補N0〜Nに相当)としている。
図7(a)は,ピッチ周期検出に用いる模擬信号(前記入力モノラル信号Mや前記合成音声信号に相当,ピッチ周期検出用信号の一例,以下,原音という)の波形の一例を表し,図7(b),(c)は,その原音に含まれる2つの異なる音声信号(以下,原音成分1,原音成分2という)各々の波形を表す。前記原音成分1(b)は50Hz正弦波であり,前記原音成分2(c)は,533Hz正弦波である。
これに対し,図8(a)は,前記原音に対し,前記原音成分2から求まるピッチ周期(533Hz相当)を用いて前記PICOLA方式により1.41倍の時間軸伸張処理を施した信号の波形を表したものである。また,図8(b),(c)は,各々図8(a)に示す伸張後の信号に含まれる前記原音成分1,前記原音成分2の各々に相当する伸張後の信号である。
図8(a)に示す前記原音の伸長処理後の信号波形は,音質維持の観点からすれば,時間軸が伸張されたことを除いて前記原音の波形(図7(a))に近いことが好ましい。しかし,図8(a)に示すように,一方の前記原音成分2に最も適応したピッチ周期を用いて時間軸伸張を行うと,前記原音の波形とは大きく異なる波形となる。これは,図8(b)に示すように,他方の前記原音成分1に相当する伸張処理後の波形,即ち,時間軸伸張に用いるピッチ周期の選択に全く考慮されなかった低周波数側の信号の波形が大きく歪むためである。
【0018】
一方,図9(a)は,前記原音に対し,前記原音成分1から求まるピッチ周期(50Hz相当)を用いて前記PICOLA方式により1.41倍の時間軸伸張処理を施した信号の波形を表したものである。また,図9(b),(c)は,各々図9(a)に示す伸張後の信号に含まれる前記原音成分1,前記原音成分2の各々に相当する伸張後の信号の波形である。
この場合も,図8に示したのと同様に,図9(a)に示す前記原音の伸長処理後の信号波形は,前記原音の波形とは大きく異なる波形となる。これは,図9(c)に示すように,時間軸伸張に用いるピッチ周期の選択に全く考慮されなかった高周波数側の前記原音成分2の伸張後の信号にパワー(振幅)の減衰が生じるためである。
このような波形の違い(図7(a)の波形に対する図8(a)及び図9(a)の波形の違い)は,聴覚上も大きな音質劣化として表れる。
【0019】
次に,図10を用いて,前記音声信号処理装置Z3(図1)の構成によりピッチ周期検出及び時間軸伸張を行った例について説明する。
ここで,前記第1フィルタ(1)は,前記原音成分2のみを抽出するフィルタ,前記第2フィルタ(6)は,前記原音成分1のみを抽出するフィルタとしている。
また,前記第1段階での前記ピッチ周期検出部2によるピッチ周期の複数候補の検出処理には,ピッチ周期の全範囲(全候補,350〜1400サンプルの範囲)を均等に4区間に分割し,各区間毎に最も周期性評価の高いもの(前述の(1)式による評価値の最も小さいもの)を複数候補(4候補)として検出する処理を適用した。
さらに,前記第2段階での前記ピッチ周期選択部3による一のピッチ周期の選択処理には,前記ピッチ周期の複数候補(4つ)の中から,最も周期性評価の高いもの(前述の(1)式による評価値の最も小さいもの)を前記一のピッチ周期として選択する処理を適用した。
図10(a)は,前記信号処理装置Z1により,信号処理(フィルタ処理)を伴う2段階でのピッチ周期検出(選択)を経て求めたピッチ周期を用いて,前記原音(図7(a))に対し1.41倍の時間軸伸張を施した信号の波形である。
また,図10(b),(c)は,各々図10(a)に示す伸張後の信号に含まれる前記原音成分1,前記原音成分2の各々に相当する伸張後の信号の波形である。
図10(a)〜(c)に示すように,本発明の適用により,前記原音の波形に対する大きな劣化のない出力波形が得られることがわかる。これは,前記第1段階において,前記第1フィルタ(1)によって前記原音から前記原音成分2が抽出され,該原音成分2に対応したピッチ周期の複数候補が検出されるとともに,その複数候補の中から,最も前記原音成分1に対応した一のピッチ周期が選択されるため,前記原音成分1及び前記原音成分2の両方にバランス良く対応した一のピッチ周期が選択されることによる。さらに,前記信号処理装置Z4(図4)のように前記第1段階と前記第2段階との間の中間段階の処理を設けることにより,より多くの音源の音声信号にバランス良く対応したピッチ周期を選択することが可能となる。
このようなピッチ周期を用いて,前記原音に対して圧縮/伸張処理を施した音声信号(例えば,図10(a))は,前述の図8(a),図9(a)等に示すような,従来のピッチ周期検出処理の検出結果を用いた圧縮/伸張後の音声信号に比べて,聴覚上も音質劣化が少ない。
【0020】
また,図11は,歌唱音声と楽器音とが混在した楽曲音声信号の波形の一例(a)と,その楽曲音声信号に対して従来の手法で検出されたピッチ周期の時間変化を表すグラフ(b)と本発明の手法で検出されたピッチ周期の時間変化を表すグラフ(c)とを表す。図11(b),(c)のグラフの縦軸は検出されたピッチ周期(サンプル数)を表し,横軸は時間軸(横軸の数値は,1秒間に44100回のサンプリングが行われることを条件として時間をサンプリング回数(サンプル数)で換算したもの)を表す。
ここで,音声信号のサンプリングレートは44100Hzであり,ピッチ周期検出の際に周期性評価を行うピッチ周期の全範囲は,従来の手法及び本発明の手法のいずれにおいても350〜1400サンプル(前述のピッチ周期の全候補N0〜Nに相当)としている。
また,本発明の手法(図11(c))では,前記音声信号処理装置Z1(図1)を用い,前記第1フィルタ(1)として,そのカットオフ周波数が200Hz及び8KHz,そのスロープ特性が−12dB/octであるIIR型フィルタを用いた場合のものである。
また,前記第1段階での前記ピッチ周期検出部2によるピッチ周期の複数候補の検出処理には,ピッチ周期の全範囲(全候補,350〜1400サンプルの範囲)を均等に4区間に分割し,各区間毎に最も周期性評価の高いもの(前述の(1)式による評価値の最も小さいもの)を複数候補(4候補)として検出する処理を適用した。
さらに,前記第2段階での前記ピッチ周期選択部3による一のピッチ周期の選択処理には,前記ピッチ周期の複数候補(4つ)の中から,最も周期性評価の高いもの(前述の(1)式による評価値の最も小さいもの)を前記一のピッチ周期として選択する処理を適用した。
従来の手法図11(b)においては,検出されたピッチ周期がその上限及び下限付近に多く散らばってそのばらつきが大きいのに対し,本発明の手法図11(c)においては,そのばらつきが小さくなり,ピッチ周期=約700サンプルの前後で比較的滑らかに連続したピッチ周期の抽出が行われていることが表れている。
これはフィルタ(音声帯域制限)によって歌唱音声に対応したピッチ周期であるとともに,楽曲音声信号全体としても違和感のないピッチ周期が検出(選択)されていることを示しており,従来手法よりも本発明の手法の方が,聴覚上の音質が向上することを客観的に表している。
【0021】
以上示した実施形態では,前記第1段階における信号処理として,比較的軽い演算負荷で複数の音源からの音声信号を分離できる帯域制限フィルタ処理を適用した。
その他,前記第1段階における信号処理としては,イコライジングによる周波数強調によって特定の周波数帯の信号を増幅或いは減衰させる信号処理や,ブラインド音源分離方式(BSS方式)によって前記入力音声信号に含まれる複数の音源の音声信号を分離する信号処理等も考えられる。
前記イコライジングによる周波数強調では,例えば,特定の音源の周波数帯域について増幅ゲインを設定し,その周波数帯域の音声信号の振幅をFIRフィルタ処理等を施すことによって増幅(強調)する。これにより,特定の音源の音声信号に対応したピッチ周期を得ることができる。
また,前記BSS方式に基づく音源分離によれば,予め複数音源各々の周波数帯域を指定しなくても自動的に音源分離され,各音源の音声信号が得られる点で有効である。但し,演算負荷は大きくなる。
【産業上の利用可能性】
【0022】
本発明は,音声信号の時間軸圧縮・伸張を行う音声信号処理への利用が可能である。
【図面の簡単な説明】
【0023】
【図1】本発明の第1実施形態に係る音声信号処理装置Z1の概略構成を表すブロック図。
【図2】本発明の第2実施形態に係る音声信号処理装置Z2の概略構成を表すブロック図。
【図3】本発明の第3実施形態に係る音声信号処理装置Z3の概略構成を表すブロック図。
【図4】本発明の第4実施形態に係る音声信号処理装置Z4の概略構成を表すブロック図。
【図5】PICOLA方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図。
【図6】PICOLA方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図。
【図7】時間軸圧縮・伸張処理に用いられる音声信号(原音)の波形の一例を表す図。
【図8】図7に示す音声信号(原音)に従来の手法で時間軸伸張を行った後の信号の波形の一例を表す図。
【図9】図7に示す音声信号(原音)に従来の手法で時間軸伸張を行った後の信号の波形の一例を表す図。
【図10】図7に示す音声信号(原音)に本発明の手法で時間軸伸張を行った後の信号の波形の一例を表す図。
【図11】楽曲音声信号の波形の一例及びその楽曲音声信号に対して従来の手法と本発明の手法とで検出されたピッチ周期の時間変化を表すグラフ。
【符号の説明】
【0024】
Z1〜Z4…音声信号処理装置
1,11〜1N,6…フィルタ
2…ピッチ周期検出部
3…ピッチ周期選択部
4…信号圧縮/伸張部
5…合成信号生成部
20…ピッチ周期候補中間選択部
21〜2N…ピッチ周期中間選択部

【特許請求の範囲】
【請求項1】
一の入力音声信号又は複数チャンネルの入力音声信号の合成音声信号であるピッチ周期検出用信号に第1の信号処理を施した信号に基づいて,その信号のピッチ周期の複数候補を検出するピッチ周期候補検出手段と,
前記ピッチ周期検出用信号又は該ピッチ周期検出用信号に前記第1の信号処理とは異なる第2の信号処理を施した信号に基づいて,前記ピッチ周期の複数候補の中から一のピッチ周期を選択するピッチ周期選択手段と,
前記ピッチ周期選択手段により選択された前記一のピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び/又は伸張を行う時間軸調節手段と,
を具備してなることを特徴とする音声信号処理装置。
【請求項2】
前記ピッチ周期検出用信号に前記第1の信号処理とは異なる1又は複数の第3の信号処理を施した後の1又は複数の信号各々に基づいて,前記ピッチ周期候補検出手段により検出された前記ピッチ周期の複数候補を絞り込むピッチ周期絞り込み手段を具備し,
前記ピッチ周期選択手段が,前記ピッチ周期絞り込み手段により絞り込まれた候補の中から一のピッチ周期を選択してなる請求項1に記載の音声信号処理装置。
【請求項3】
前記第1の信号処理が,帯域制限フィルタ処理である請求項1又は2に記載の音声信号処理装置。
【請求項4】
前記第2の信号処理及び/又は前記第3の信号処理が,前記第1の信号処理とは異なる周波数帯域についての帯域制限フィルタ処理である請求項3に記載の音声信号処理装置。
【請求項5】
一の入力音声信号又は複数チャンネルの入力音声信号の合成音声信号であるピッチ周期検出用信号に第1の信号処理を施した後の信号に基づいて,その信号のピッチ周期の複数の候補を検出するピッチ周期候補検出工程と,
前記ピッチ周期検出用信号又は該ピッチ周期検出用信号に前記第1の信号処理とは異なる第2の信号処理を施した後の信号に基づいて,前記ピッチ周期の複数の候補の中から一のピッチ周期を選択するピッチ周期選択工程と,
前記ピッチ周期選択工程により選択された前記一のピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び/又は伸張を行う時間軸調節工程と,
を有してなることを特徴とする音声信号処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate