音声信号処理装置及びその方法

【課題】入力音声信号からピッチ周期を検出し，そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う場合に，入力音声信号に複数の音源の音声信号が混在する場合であっても，圧縮・伸張後の音声信号において，複数の音源からの音声信号各々の明瞭感をバランス良く保って音質劣化を防止できること。
【解決手段】入力音声信号Ｍから一のピッチ周期を検出するにあたり，その信号にフィルタ処理を施した後の信号に基づいてその信号のピッチ周期の複数候補を検出するピッチ周期検出部２と，入力音声信号Ｍ又はこれに上記フィルタ処理と異なる他のフィルタ処理等を施した信号に基づいて，前記ピッチ周期の複数候補の中から一のピッチ周期を選択するピッチ周期選択部３と，このようにして選択された前記一のピッチ周期に基づいて入力音声信号Ｍの時間軸の圧縮処理や伸張処理を行う信号圧縮／伸張部４とを具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は，入力音声信号からピッチ周期を検出し，そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置及びその方法に関するものである。
【背景技術】
【０００２】
カラオケのテンポ（速度）変更やビデオの再生速度変更等を行う際に，音程を変えずに音声信号（オーディオ信号）の再生速度を速くしたり遅くしたりする時間軸圧縮伸張処理（音声信号処理の一例）が要求される。
従来，非特許文献１及び非特許文献２には，音声信号の周期性の強い部分を見出し，その周期（ピッチ周期）の単位での音声信号の省略や繰り返し（挿入）によって（ピッチ周期に基づく）時間軸圧縮伸張処理を行う技術が示されている。この技術では，音声信号における省略するピッチ周期分の信号をその次のピッチ周期分の信号にクロスフェードの重み付けにより重複加算する，或いは挿入するピッチ周期分の信号をその前後のピッチ周期分の信号をクロスフェードの重み付けにより重複加算した信号とするＰＩＣＯＬＡ（Pointer Interval Control OverLap and Add，ポインター移動量制御による重複加算法）という手法が採用されている。
【０００３】
図５は，ＰＩＣＯＬＡ方式により時間軸圧縮が行われる際の音声信号の波形を模式的に表したものである。
まず，図５（ａ）に示すように，時間軸圧縮（音声信号の省略）の対象となる音声信号の範囲の先頭位置Ｐｏ１にポインタが設定され，このポインタ位置Ｐｏ１からの音声信号について，そのピッチ周期Ｐ（強い周期性を有する周期）が検出される。ピッチ周期Ｐの検出方法の例については後述する。
次に，図５（ｂ）に示すように，前記ポインタ位置Ｐｏ１からピッチ周期Ｐ分の（ピッチ周期Ｐの長さの）２つの信号ａ，ｂをクロスフェードの重み付けにより重複加算した信号ａ’を生成する。即ち，２つの信号ａ，ｂを合成（加算）する際に，図５（ａ）に破線Ｗ１，Ｗ２で示すように，信号ａに対する重みは時間軸が進むに従ってフェードアウト（次第に低下）し，信号ｂに対する重みは時間軸が進むに従ってフェードイン（次第に増大）するようクロスフェードの重み付けがなされる。
次に，信号ａを削除（省略）するとともに，信号ｂを信号ａ’に置き換える。これにより，１ピッチ周期Ｐ分の時間軸圧縮が完了する。ここで，音声信号の省略部に設定された信号ａ’は，クロスフェードの重み付けにより重複加算した信号であるので，その前後の音声信号との繋がりがスムーズとなり，違和感の少ない時間軸圧縮が可能となる。
次に，目標圧縮比がＲｘ（０＜Ｒｘ＜１）であるとすると，ポインタが，前記Ｐｏ１の位置からＣ（＝Ｐ×Ｒｘ／（１−Ｒｘ））だけ進んだ位置Ｐｏ２に再設定され，前記Ｐｏ１の位置から位置Ｐｏ２までの圧縮処理後の音声信号が出力されるとともに，このポインタ位置Ｐｏ２から同様の時間軸圧縮処理が繰り返される。これにより，Ｐ＋Ｃの長さの元の音声信号から，Ｃの長さの圧縮音声信号が生成（出力）されることになり，目標圧縮比Ｒｘ（＝Ｃ／（Ｐ＋Ｃ））を達成する時間軸圧縮がなされる。
【０００４】
一方，図６は，ＰＩＣＯＬＡ方式により時間軸伸張が行われる際の音声信号の波形を模式的に表したものである。
まず，図６（ａ）に示すように，時間軸伸張（音声信号の挿入）の対象となる音声信号の範囲の先頭位置Ｐｏ３にポインタが設定され，このポインタ位置Ｐｏ３からの音声信号について，そのピッチ周期Ｐ（強い周期性を有する周期）が検出される。
次に，図６（ｂ）に示すように，前記ポインタ位置Ｐｏ３からピッチ周期Ｐ分の（ピッチ周期Ｐの長さの）２つの信号ａ，ｂをクロスフェードの重み付けにより重複加算した信号ａ’を生成する。時間軸伸張の場合のクロスフェードの重み付けは，図６（ａ）に破線Ｗ３，Ｗ４で示すように，信号ａに対する重みは時間軸が進むに従ってフェードイン（次第に増加）し，信号ｂに対する重みは時間軸が進むに従ってフェードアウト（次第に低下）するよう重み付けがなされる。
次に，信号ａ，ｂの間に信号ａ’を挿入する。これにより，１ピッチ周期Ｐ分の時間軸伸張が完了する。ここで，挿入された信号ａ’は，クロスフェードの重み付けにより重複加算した信号であるので，その前後の音声信号との繋がりがスムーズとなり，違和感の少ない時間軸伸張が可能となる。
次に，目標伸張比がＲｙ（０＜Ｒｙ＜１）であるとすると，ポインタが，前記Ｐｏ３の位置からＰ＋Ｓ（Ｓ＝Ｐ×１／（Ｒｙ−１））だけ進んだ位置Ｐｏ４に再設定され，前記Ｐｏ３の位置から位置Ｐｏ４までの伸張処理後の音声信号が出力されるとともに，このポインタ位置Ｐｏ４から同様の時間軸伸張処理が繰り返される。これにより，Ｓの長さの元の音声信号から，Ｐ＋Ｓの長さの圧縮音声信号が生成（出力）されることになり，目標伸張比Ｒｙ（＝（Ｐ＋Ｓ）／Ｓ）を達成する時間軸伸張がなされる。
【０００５】
ところで，処理する音声信号が，ステレオオーディオ信号等のように複数チャンネルの音声信号である場合，各チャンネルについてＰＩＣＯＬＡを適用すると，ピッチ周期を求める高負荷の演算をチャンネルごとに実行する必要があるため演算負荷が非常に高くなることに加え，チャンネルごとにピッチ周期が異なりうるので，圧縮伸張処理後の音声信号にチャンネル間で元の音声信号とは異なる位相差が生じ，聞く人に違和感を与えてしまうという問題点がある。
この問題を解決するためには，音声信号の圧縮伸張に用いるピッチ周期を，全てのチャンネルで統一（共通化）することが有効である。
例えば，特許文献１には，ステレオ音声信号のＬチャンネルとＲチャンネルとを加算した信号（Ｌ＋Ｒ）についてピッチ周期を検出し，そのピッチ周期に基づいて両チャンネルの音声信号の圧縮伸張処理（ＰＩＣＯＬＡ）を行う技術が提案されている。
さらに，特許文献２には，複数のチャンネル信号を加算した信号或いは最大の振幅を有するチャンネル信号についてピッチ周期を検出し，そのピッチ周期に基づいて全てのチャンネル信号の圧縮伸張処理を行う技術が提案されている。
これらの技術により，ピッチ周期を求める高負荷の演算を１つの音声信号について求めるだけで済むので演算負荷の増大を防止できるとともに，圧縮伸張処理後の音声信号に，聞く人に違和感を与えるようなチャンネル間での信号の位相差が生じることを防止できる。
【特許文献１】特開２００１−５５００号公報
【特許文献２】特開２００２−２９７２００号公報
【非特許文献１】森田，板倉「自己相関関数を用いた音声の時間軸での伸縮」，日本音響学会講演論文集，昭和６１年３月，ｐ．１９９−２００
【非特許文献２】森田，板倉「ポインター移動量制御による重複加算法（ＰＩＣＯＬＡ）を用いた音声の時間軸での伸張圧縮とその評価」，日本音響学会講演論文集，昭和６１年１０月，ｐ．１４９−１５０
【非特許文献３】猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」，電子情報通信学会技術報告，２００１年４月，ｖｏｌ．ＥＡ２００１−７，ｐ．４９−５６
【非特許文献４】高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」，電子情報通信学会技術報告，２００３年１月，ｖｏｌ．ＵＳ２００２−８７，ＥＡ２００２−１０８
【発明の開示】
【発明が解決しようとする課題】
【０００６】
ここで，ピッチ周期の検出対象となる音声信号（１チャンネル（モノラル）の入力音声信号や，複数チャンネルの入力音声信号の合成音声信号）に，複数の異なる音源からの音声信号が混在している場合，特許文献１や特許文献２に示される技術では，最も周期性の強い代表的な音源の音声信号に対応するピッチ周期が検出されることになる。
このため，特許文献１や特許文献２に示される技術では，複数音源の信号が混在する場合における時間軸圧縮又は伸張後の音声信号において，代表的な一の音源の音声信号は明瞭となるが，その他の音源からの音声信号については明瞭感がなくなり，音声信号全体としての品質劣化につながるという問題点があった。
例えば，入力音声信号に，人の歌唱音と楽器の演奏音とが混在する場合，演奏音は明瞭であるが，歌唱音が不明瞭となる等の音質劣化が生じる。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，入力音声信号からピッチ周期を検出し，そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う場合に，入力音声信号に複数の音源の音声信号が混在する場合であっても，圧縮・伸張後の音声信号において，複数の音源からの音声信号各々の明瞭感をバランス良く保って音質劣化を防止できる音声信号処理装置及びその方法を提供することにある。
【課題を解決するための手段】
【０００７】
上記目的を達成するために本発明は，一の入力音声信号又は複数チャンネルの入力音声信号の合成音声信号（以下，ピッチ周期検出用信号という）から一のピッチ周期を検出するにあたり，まず第１段階として，そのピッチ周期検出用信号に所定の信号処理（第１の信号処理）を施した後の信号に基づいてその信号のピッチ周期の複数候補を検出する。
ここで，前記信号処理は，前記入力音声信号に混在する複数の音源からの音声信号の一部を抽出若しくは除去したり，一部の音声信号の周期性（ピッチ周期）を強調若しくは減衰させる等の処理である。また，前記ピッチ周期の複数の候補は，例えば，ピッチ周期としての評価値が高いものから既定数分を候補とすること等が考えられる。
これにより，前記入力音声信号に複数の音源からの音声信号が混在する場合に，それらの中で必ずしも代表的（最も周期性が強い）とはいえない音源の音声信号（例えば，楽器演奏音が混在する場合の歌唱音声信号等）の抽出等を前記信号処理によって行い，その信号に対応したピッチ周期の複数候補を検出できる。
さらに，第２段階として，前記ピッチ周期検出信号又はこれに上記信号処理と異なる他の信号処理（第２の信号処理）を施した信号に基づいて，前記ピッチ周期の複数候補の中から一のピッチ周期を選択する。
このようにして選択された前記一のピッチ周期は，前記ピッチ周期の複数候補検出に用いた信号，即ち，前記ピッチ周期検出用信号に混在する音声信号の中から前記信号処理によって抽出或いは強調等された音源の音声信号と，その他の音源の音声信号との両方に対応したピッチ周期となる。
従って，このようにして検出（選択）された前記一のピッチ周期に基づいて前記入力音声信号の時間軸の圧縮処理や伸張処理を行えば，その処理後の音声信号において，前記入力音声信号に混在する複数の音源からの音声信号各々の明瞭感をバランス良く保つことができる。
【０００８】
さらに，前記ピッチ周期検出用信号に前述の信号処理（第１の信号処理）とは異なる１又は複数の信号処理（第３の信号処理）を施し，その処理後の１又は複数の信号各々に基づいて，前述の第１段階の処理により検出された前記ピッチ周期の複数候補を絞り込み，その絞り込まれた候補の中から，前述の第２段階の処理によって前記一のピッチ周期を選択することも考えられる。
これにより，前述の第１段階と第２段階との間の中間段階において，前記第１段階及び第２段階におけるピッチ周期の検出若しくは選択の対象となる音源の音声信号とは異なる他の音源の音声信号の抽出，強調等（第３の信号処理）が可能となり，これらの音声信号にも対応したピッチ周期が選択（絞り込み）されることとなる。その結果，前述の第１段階及び第２段階と，それらの間の１以上の中間段階とで，３種以上の異なる音源の音声信号各々にバランス良く対応したピッチ周期を求めるることが可能となる。
ここで，各段階（第１，第２，その中間）での前記信号処理としては，例えば，各々異なる周波数帯域についての帯域制限フィルタ処理等とすることが考えられる。
その他，イコライジングによる周波数強調によって特定の周波数帯の信号を増幅或いは減衰させる信号処理や，ブラインド音源分離方式（ＢＳＳ方式）によって前記入力音声信号に含まれる複数の音源の音声信号を分離する信号処理等が考えられる。なお，ＢＳＳ（Blind Source Separation）方式の詳細は，例えば非特許文献３や非特許文献４等に詳説されている。
【発明の効果】
【０００９】
本発明によれば，第１段階で入力音声信号若しくは複数の入力音声信号の合成音声信号から信号処理により抽出，強調等を行った所望の音源の音声信号に対応したピッチ周期の複数候補を検出し，その複数候補の中から，その後の第２段階で他の音源の音声信号に対応した一のピッチ周期を選択し，さらにはそれらの中間段階でさらに他の音源の音声信号に対応したピッチ周期の候補を絞り込むことにより，複数の音源の音声信号各々にバランス良く対応したピッチ周期を選択することができる。そして，そのようにして選択されたピッチ周期に基づいて，入力音声信号の時間軸の圧縮処理や伸張処理を行うことにより，その処理後の音声信号において，前記入力音声信号に混在する複数の音源からの音声信号各々の明瞭感をバランス良く保って音質劣化を防止することができる。
【発明を実施するための最良の形態】
【００１０】
以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の第１実施形態に係る音声信号処理装置Ｚ１の概略構成を表すブロック図，図２は本発明の第２実施形態に係る音声信号処理装置Ｚ２の概略構成を表すブロック図，図３は本発明の第３実施形態に係る音声信号処理装置Ｚ３の概略構成を表すブロック図，図４は本発明の第４実施形態に係る音声信号処理装置Ｚ４の概略構成を表すブロック図，図５はＰＩＣＯＬＡ方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図，図６はＰＩＣＯＬＡ方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図，図７は時間軸圧縮・伸張処理に用いられる音声信号（原音）の波形の一例を表す図，図８及び図９は図７に示す音声信号（原音）に従来の手法で時間軸伸張を行った後の信号の波形の一例を表す図，図１０は図７に示す音声信号（原音）に本発明の手法で時間軸伸張を行った後の信号の波形の一例を表す図，図１１は楽曲音声信号の波形の一例及びその楽曲音声信号に対して従来の手法と本発明の手法とで検出されたピッチ周期の時間変化を表すグラフである。
【００１１】
＜第１実施形態＞
以下，図１に示すブロック図を用いて，本発明の第１実施形態に係る音声信号処理装置Ｚ１について説明する。
図１に示すように，音声信号処理装置Ｚ１は，第１フィルタ（１）と，ピッチ周期検出部２と，ピッチ周期選択部３と，信号圧縮／伸張部４とを具備している。
前記第１フィルタ（１）は，外部から入力される入力モノラル信号Ｍ（一の入力音声信号及びピッチ周期検出用信号の一例）に，帯域制限フィルタ処理（第１の信号処理の一例）を施すものである。
前記ピッチ周期検出部２は，前記第１フィルタ（１）によるフィルタ処理後の信号を入力し，その信号のピッチ周期の複数候補を検出するものである（ピッチ周期候補検出手段の一例）。
前記ピッチ周期選択部３は，前記入力モノラル信号（ピッチ周期検出用信号の一例）を入力し，その信号に基づいて，前記ピッチ周期検出部２によって検出されたピッチ周期の複数候補の中から，信号圧縮又は伸張に用いる一のピッチ周期を選択するものである（ピッチ周期選択手段の一例）。
前記信号圧縮／伸張部４は，前記ピッチ周期選択部３（ピッチ周期選択手段）により選択された一のピッチ周期を入力し，これを用いて，例えば，前述したＰＩＣＯＬＡ方式（図５，図６参照）により，前記入力モノラル信号Ｍ（入力音声信号の一例）の時間軸の圧縮及び伸張を行うものである（時間軸調節手段の一例）。
図１に示す音声処理装置Ｚ１及び後述する他の実施形態に係る音声処理装置Ｚ２〜Ｚ４は，その各構成要素を，それぞれＣＰＵやメモリ等からなる処理回路やＤＳＰ（Digital Signal Processor）として構成することが考えられるが，その他にも，各構成要素が行う処理（工程）を実現する処理プログラムを所定のコンピュータによって実行するもの等であってもよい。
本音声信号処理装置Ｚ１の特徴は，前記第１フィルタ（１）及び前記ピッチ周期検出部２と，前記ピッチ周期選択部３とにより，ピッチ周期検出を２段階で行う点にある。以下，これについて詳述する。
【００１２】
＜＜第１段階＞＞
まず，前記第１フィルタ（１）により，前記入力モノラル信号Ｍに対し，バンドバスフィルタ，ローパスフィルタ，ハイパスフィルタ等の帯域制限フィルタ処理を施す。
この第１フィルタ（１）では，前記入力モノラル信号Ｍに複数の音源からの音声信号が混在する場合に，それらの中で必ずしも代表的（最も周期性が強い）とはいえない音源の音声信号であって，圧縮／伸張後の明瞭感を確保したい音声信号（例えば，楽器演奏音が混在する場合の歌唱音声信号等）の帯域（人の音声の場合，例えば，２００Ｈｚ〜８ＫＨｚ）のみを通過させるようなフィルタ処理を施す。
そして，その信号処理後の信号に対応したピッチ周期の複数候補を，前記ピッチ周期検出部２により検出する。ここで，前記ピッチ周期検出部２によるピッチ周期の複数候補の検出（算出）方法の一例を以下に示す。
前記入力モノラル信号Ｍ（例えば，歌唱音声や楽器音等が混在したオーディオ信号）のピッチ周期として適正と考えられるピッチ周期Ｐの全候補ｊ（ｊはデジタル音声信号のサンプル数を表し，時間換算したピッチ周期は，「ｊ×サンプリング周期」となる。）として予めｊ＝Ｎ₀〜Ｎの所定範囲を設定し，前記第１フィルタ（１）による信号処理（フィルタ処理）後のデジタル音声信号をピッチ周期の評価対象信号Ｘ_iとし，その（２Ｎ＋１）点分のサンプル信号Ｘ_i（ｉ=０〜２Ｎ，ｉ≧１）について，前記ピッチ周期の全候補ｊ（Ｎ₀〜Ｎ）それぞれについての周期性の強さを評価する。そして，最も周期性の評価結果に基づいてピッチ周期の複数候補を求める。例えば，最も周期性が強いと評価されるものから順に，予め定められた個数（複数個）分，若しくは予め設定された評価値よりも周期性が強いと評価されたもの（複数），或いはそれらの組合せ等によってピッチ周期の複数候補を求める。
この場合，周期性の評価対象とする信号Ｘ_iの時間範囲ｉ（サンプル数）を０〜Ｎ（ここで，参照される評価対象信号の最大時間範囲は，０〜２Ｎ）としたときに，周期性の強さの評価関数を，次の（１）式や（２）式とすることが考えられる。
【数１】

これらは，ｊサンプルだけ離れた信号値どうしの差（絶対値又は２乗値）を計算し，その差が小さいほど周期ｊにおける周期性が強い（即ち，周期ｊごとに似た波形が現れる）として評価するものである。従って，ｊ＝Ｎ₀〜Ｎそれぞれについて，（１）式又は（２）式による評価値を計算し，その評価値が最も小さいもの（最も周期性評価が高いもの）から所定の規則に従った複数個分のｊをピッチ周期の複数候補として検出（算出）する。
上記以外にも，例えば，ｊの範囲を複数区間に分割し，その分割区間毎に最も周期性評価の高いもの（前記評価値の最も小さいもの）を選択する方法も考えられる。即ち，ｊの区間をＮ₀〜Ｎ₁，Ｎ₁〜Ｎ₂，…，Ｎ_k〜Ｎ（但し，Ｎ₀＜Ｎ₁＜Ｎ₂＜…＜Ｎ_k＜Ｎ）というように分割し，分割区間各々において周期性評価が最大となる（例えば，（１）式や（２）式による評価値が最小となる）ｊをピッチ周期の複数候補とする。
【００１３】
＜＜第２段階＞＞
次に，前記ピッチ周期選択部３により，前記入力モノラル信号Ｍに基づいて，前記第１段階で得られたピッチ周期の複数候補の中から，圧縮／伸張に用いる一のピッチ周期を選択する。
具体的には，前記入力モノラル信号Ｍ（デジタル音声信号）を前記ピッチ周期の評価対象信号Ｘ_iとし，その（２Ｎ＋１）点分のサンプル信号Ｘ_i（ｉ=０〜２Ｎ，ｉ≧１）について，前記第１段階で求めたピッチ周期の候補それぞれについての周期性の強さを評価した上で，最も周期性の強いピッチ周期を圧縮／伸張に用いる一のピッチ周期とする。ピッチ周期の評価方法は，前記第１段階と同様である。
このようにして選択された一のピッチ周期は，前記ピッチ周期の複数候補検出に用いた信号，即ち，前記入力モノラル信号Ｍ（ピッチ周期検出用信号）に混在する音声信号の中から前記第１フィルタ（１）によって抽出された音源の音声信号と，その他の音源の音声信号との両方に対応したピッチ周期となる。
そして，前記信号圧縮／伸張部４では，前記入力モノラル信号Ｍに基づいて前記２段階の処理により検出された前記一のピッチ周期を用いて，前記入力モノラル信号Ｍについて所望の圧縮率（伸張率）で時間軸圧縮（伸張）がなされ，圧縮（伸張）後の音声信号Ｍ’が出力される。ここで，圧縮・伸張の方式は，前述したＰＩＣＯＬＡ方式が採用される。
このようにして出力される圧縮・伸張処理後の音声信号Ｍ’においては，前記入力音声信号に混在する複数の音源からの音声信号各々の明瞭感をバランス良く保つことができ，音質が向上する。
【００１４】
＜第２実施形態＞
次に，図２のブロック図を用いて，本発明の第２実施形態に係る音声信号処理装置Ｚ２について説明する。
図２に示すように，音声信号処理装置Ｚ２は，前記音声信号処理装置Ｚ１に新たな構成要素として合成信号生成部５を加えたものである。
入力音声信号が，ステレオオーディオ信号等のように複数チャンネルの入力音声信号である場合，各チャンネル信号ごとにピッチ周期の検出及び圧縮／伸張を行った信号を合成すると，チャンネルごとにピッチ周期が異なり得るので，圧縮／伸張処理後の音声信号にチャンネル間で元の音声信号とは異なる位相差が生じ，聞く人に違和感を与えてしまう。
この問題を解決するためには，音声信号の圧縮／伸張に用いるピッチ周期を，全てのチャンネルで統一（共通化）することが有効である。
そこで，当該音声信号処理装置Ｚ２では，前記合成信号生成部５により，複数チャンネルの入力ステレオ信号（入力音声信号の一例）の合成音声信号（ピッチ周期検出用信号の一例）を生成し，その合成音声信号に基づいて前記信号処理装置Ｚ１と同様に２段階の処理を経て一のピッチ周期を求める。
前記合成信号生成部５としては，例えば，各チャンネル信号を加算（ステレオ２チャンネルの場合，Ｌ＋Ｒ）するものや，各チャンネル信号を加算した信号（Ｌ＋Ｒ）と減算した信号（Ｌ−Ｒ）とを生成し，そのうちのいずれかパワー（振幅）の大きい方を前記合成音声信号とするもの等が考えられる。
そして，前記信号圧縮／伸張部４では，前記合成音声信号に基づいて前記２段階の処理により検出された前記一のピッチ周期を用いて，前記ステレオ信号（Ｌ，Ｒ）の両チャンネル信号それぞれについて所望の圧縮率（伸張率）で時間軸圧縮（伸張）がなされ，圧縮（伸張）後の音声信号Ｌ’，Ｒ’が出力される。ここで，圧縮・伸張の方式は，前述したＰＩＣＯＬＡ方式が採用される。
このように，複数チャンネルの音声入力信号から得た１つのピッチ周期Ｐに基づいて，全てのチャンネル信号の圧縮・伸張処理がなされるので，演算負荷の増大や，聞く人に違和感を与えるような圧縮・伸張後のチャンネル間の位相差発生を防止できる。このような構成も，本発明の実施形態の一例である。
【００１５】
＜第３実施形態＞
次に，図３のブロック図を用いて，本発明の第３実施形態に係る音声信号処理装置Ｚ３について説明する。
図３に示すように，音声信号処理装置Ｚ３は，前記音声信号処理装置Ｚ１に新たな構成要素として，前記ピッチ周期選択部３への入力信号に対して帯域制限フィルタ処理（第２の信号処理の一例）を施す第２フィルタ（６）を加えたものである。この第２フィルタ（６）のフィルタ特性は，前記第１フィルタ（１）のフィルタ特性とは異なるものである。
このように，前記第２段階における前記ピッチ周期選択部３（ピッチ周期選択手段の一例）において，前記入力モノラル信号Ｍ（ピッチ周期検出用信号の一例）に前記第１フィルタ（１）の信号処理とは異なるフィルタ処理（第２の信号処理の一例）を施した信号に基づいて，前記ピッチ周期の複数候補の中から一のピッチ周期を選択する構成も考えられる。
この第２段階でのフィルタ処理（信号処理）により，例えば，最も周期性の強い音源からの音声信号を除去する，或いは，所望の音源からの音声信号のみを抽出する等により，ピッチ周期検出に用いる音源信号を任意に選択でき，圧縮／伸張後の信号（Ｍ’）について所望の音質調整を行うことが可能となる。
もちろん，このように第２段階において信号処理を行う構成を，前記音声信号処理装置Ｚ２（複数チャンネルの入力音声信号（ステレオオーディオ信号等）の処理装置）に適用することも考えられる。
【００１６】
＜第４実施形態＞
次に，図４のブロック図を用いて，本発明の第４実施形態に係る音声信号処理装置Ｚ４について説明する。
図４に示すように，音声信号処理装置Ｚ４は，前記音声信号処理装置Ｚ１に新たな構成要素として，前記第１段階と前記第２段階とにおけるピッチ周期の複数候補検出と一のピッチ周期選択との間の中間段階で，前記第１段階で検出されたピッチ周期の複数候補をさらに絞り込むピッチ周期候補中間選択部２０を加えたものである。
前記ピッチ周期候補中間選択部２０は，前記入力モノラル信号Ｍ（ピッチ周期検出用信号の一例）に，前記第１フィルタ（１）の処理（第１の信号処理）とは各々異なるフィルタ処理（第３の信号処理の一例）を施す複数の第３フィルタ１１，１２，…，１Ｎと，それらによりフィルタ処理が施された後の複数の信号各々に基づいて，前記ピッチ周期検出部２（ピッチ周期候補検出手段）により検出された前記ピッチ周期の複数候補を順次絞り込む複数のピッチ周期中間選択部２１，２２，…，２Ｎとを具備している（ピッチ周期絞り込み手段の一例）。
前記第３フィルタ（１１〜１Ｎ）各々は，前記第１段階及び第２段階におけるピッチ周期検出（選択）の対象となる音源の音声信号とは異なる他の音源の音声信号を抽出するフィルタ特性とする。
ここで，前記ピッチ周期中間選択部（２１〜２Ｎ）は，相互に直列接続されており，前記入力モノラル信号Ｍ（ピッチ周期検出用信号の一例）に対して各々前記第１フィルタ（１）と異なるフィルタ処理が施された信号を前記ピッチ周期の評価対象信号Ｘ_iとし，各々前段の前記ピッチ周期中間選択部（２１〜２（Ｎ−１））から出力されるピッチ周期の複数の候補（第１段目の前記ピッチ周期中間選択部２１については，前記ピッチ周期検出部２によって検出された前記ピッチ周期の複数候補）それぞれについての周期性の強さを評価した結果に基づいて前記ピッチ周期の複数候補を順次少数（複数）の候補に絞り込む。その絞り込み（複数のピッチ周期の選択）の方法は，前記ピッチ周期検出部２において，ピッチ周期の全候補から前記ピッチ周期の複数候補を選択する方法と同様である。
このような構成により，前記第１段階と第２段階との間の中間段階において，前記第１段階及び第２段階とは異なる音源の音声信号にも対応したピッチ周期を選択することが可能となり，３種以上の異なる音源の音声信号各々にバランス良く対応した一のピッチ周期を求めることが可能となる。
そして，前記ピッチ周期選択部３（ピッチ周期選択手段）により，前記ピッチ周期中間選択部（２１〜２Ｎ，ピッチ周期絞り込み手段の一例）により絞り込まれた複数のピッチ周期の候補の中から一のピッチ周期を選択する。
【００１７】
次に，図７〜図１０に示す音声波形により，本発明の作用効果について説明する。なお，図７〜図１０に示す音声波形について，いずれも，その横軸（時間軸）の幅は０．２秒分，各音声信号のサンプリングレートは４４１００Ｈｚであり，ピッチ周期検出の際に周期性評価を行うピッチ周期の全範囲は３５０〜１４００サンプル（前述のピッチ周期の全候補Ｎ₀〜Ｎに相当）としている。
図７（ａ）は，ピッチ周期検出に用いる模擬信号（前記入力モノラル信号Ｍや前記合成音声信号に相当，ピッチ周期検出用信号の一例，以下，原音という）の波形の一例を表し，図７（ｂ），（ｃ）は，その原音に含まれる２つの異なる音声信号（以下，原音成分１，原音成分２という）各々の波形を表す。前記原音成分１（ｂ）は５０Ｈｚ正弦波であり，前記原音成分２（ｃ）は，５３３Ｈｚ正弦波である。
これに対し，図８（ａ）は，前記原音に対し，前記原音成分２から求まるピッチ周期（５３３Ｈｚ相当）を用いて前記ＰＩＣＯＬＡ方式により１．４１倍の時間軸伸張処理を施した信号の波形を表したものである。また，図８（ｂ），（ｃ）は，各々図８（ａ）に示す伸張後の信号に含まれる前記原音成分１，前記原音成分２の各々に相当する伸張後の信号である。
図８（ａ）に示す前記原音の伸長処理後の信号波形は，音質維持の観点からすれば，時間軸が伸張されたことを除いて前記原音の波形（図７（ａ））に近いことが好ましい。しかし，図８（ａ）に示すように，一方の前記原音成分２に最も適応したピッチ周期を用いて時間軸伸張を行うと，前記原音の波形とは大きく異なる波形となる。これは，図８（ｂ）に示すように，他方の前記原音成分１に相当する伸張処理後の波形，即ち，時間軸伸張に用いるピッチ周期の選択に全く考慮されなかった低周波数側の信号の波形が大きく歪むためである。
【００１８】
一方，図９（ａ）は，前記原音に対し，前記原音成分１から求まるピッチ周期（５０Ｈｚ相当）を用いて前記ＰＩＣＯＬＡ方式により１．４１倍の時間軸伸張処理を施した信号の波形を表したものである。また，図９（ｂ），（ｃ）は，各々図９（ａ）に示す伸張後の信号に含まれる前記原音成分１，前記原音成分２の各々に相当する伸張後の信号の波形である。
この場合も，図８に示したのと同様に，図９（ａ）に示す前記原音の伸長処理後の信号波形は，前記原音の波形とは大きく異なる波形となる。これは，図９（ｃ）に示すように，時間軸伸張に用いるピッチ周期の選択に全く考慮されなかった高周波数側の前記原音成分２の伸張後の信号にパワー（振幅）の減衰が生じるためである。
このような波形の違い（図７（ａ）の波形に対する図８（ａ）及び図９（ａ）の波形の違い）は，聴覚上も大きな音質劣化として表れる。
【００１９】
次に，図１０を用いて，前記音声信号処理装置Ｚ３（図１）の構成によりピッチ周期検出及び時間軸伸張を行った例について説明する。
ここで，前記第１フィルタ（１）は，前記原音成分２のみを抽出するフィルタ，前記第２フィルタ（６）は，前記原音成分１のみを抽出するフィルタとしている。
また，前記第１段階での前記ピッチ周期検出部２によるピッチ周期の複数候補の検出処理には，ピッチ周期の全範囲（全候補，３５０〜１４００サンプルの範囲）を均等に４区間に分割し，各区間毎に最も周期性評価の高いもの（前述の（１）式による評価値の最も小さいもの）を複数候補（４候補）として検出する処理を適用した。
さらに，前記第２段階での前記ピッチ周期選択部３による一のピッチ周期の選択処理には，前記ピッチ周期の複数候補（４つ）の中から，最も周期性評価の高いもの（前述の（１）式による評価値の最も小さいもの）を前記一のピッチ周期として選択する処理を適用した。
図１０（ａ）は，前記信号処理装置Ｚ１により，信号処理（フィルタ処理）を伴う２段階でのピッチ周期検出（選択）を経て求めたピッチ周期を用いて，前記原音（図７（ａ））に対し１．４１倍の時間軸伸張を施した信号の波形である。
また，図１０（ｂ），（ｃ）は，各々図１０（ａ）に示す伸張後の信号に含まれる前記原音成分１，前記原音成分２の各々に相当する伸張後の信号の波形である。
図１０（ａ）〜（ｃ）に示すように，本発明の適用により，前記原音の波形に対する大きな劣化のない出力波形が得られることがわかる。これは，前記第１段階において，前記第１フィルタ（１）によって前記原音から前記原音成分２が抽出され，該原音成分２に対応したピッチ周期の複数候補が検出されるとともに，その複数候補の中から，最も前記原音成分１に対応した一のピッチ周期が選択されるため，前記原音成分１及び前記原音成分２の両方にバランス良く対応した一のピッチ周期が選択されることによる。さらに，前記信号処理装置Ｚ４（図４）のように前記第１段階と前記第２段階との間の中間段階の処理を設けることにより，より多くの音源の音声信号にバランス良く対応したピッチ周期を選択することが可能となる。
このようなピッチ周期を用いて，前記原音に対して圧縮／伸張処理を施した音声信号（例えば，図１０（ａ））は，前述の図８（ａ），図９（ａ）等に示すような，従来のピッチ周期検出処理の検出結果を用いた圧縮／伸張後の音声信号に比べて，聴覚上も音質劣化が少ない。
【００２０】
また，図１１は，歌唱音声と楽器音とが混在した楽曲音声信号の波形の一例（ａ）と，その楽曲音声信号に対して従来の手法で検出されたピッチ周期の時間変化を表すグラフ（ｂ）と本発明の手法で検出されたピッチ周期の時間変化を表すグラフ（ｃ）とを表す。図１１（ｂ），（ｃ）のグラフの縦軸は検出されたピッチ周期（サンプル数）を表し，横軸は時間軸（横軸の数値は，１秒間に４４１００回のサンプリングが行われることを条件として時間をサンプリング回数（サンプル数）で換算したもの）を表す。
ここで，音声信号のサンプリングレートは４４１００Ｈｚであり，ピッチ周期検出の際に周期性評価を行うピッチ周期の全範囲は，従来の手法及び本発明の手法のいずれにおいても３５０〜１４００サンプル（前述のピッチ周期の全候補Ｎ₀〜Ｎに相当）としている。
また，本発明の手法（図１１（ｃ））では，前記音声信号処理装置Ｚ１（図１）を用い，前記第１フィルタ（１）として，そのカットオフ周波数が２００Ｈｚ及び８ＫＨｚ，そのスロープ特性が−１２ｄＢ／ｏｃｔであるＩＩＲ型フィルタを用いた場合のものである。
また，前記第１段階での前記ピッチ周期検出部２によるピッチ周期の複数候補の検出処理には，ピッチ周期の全範囲（全候補，３５０〜１４００サンプルの範囲）を均等に４区間に分割し，各区間毎に最も周期性評価の高いもの（前述の（１）式による評価値の最も小さいもの）を複数候補（４候補）として検出する処理を適用した。
さらに，前記第２段階での前記ピッチ周期選択部３による一のピッチ周期の選択処理には，前記ピッチ周期の複数候補（４つ）の中から，最も周期性評価の高いもの（前述の（１）式による評価値の最も小さいもの）を前記一のピッチ周期として選択する処理を適用した。
従来の手法図１１（ｂ）においては，検出されたピッチ周期がその上限及び下限付近に多く散らばってそのばらつきが大きいのに対し，本発明の手法図１１（ｃ）においては，そのばらつきが小さくなり，ピッチ周期＝約７００サンプルの前後で比較的滑らかに連続したピッチ周期の抽出が行われていることが表れている。
これはフィルタ（音声帯域制限）によって歌唱音声に対応したピッチ周期であるとともに，楽曲音声信号全体としても違和感のないピッチ周期が検出（選択）されていることを示しており，従来手法よりも本発明の手法の方が，聴覚上の音質が向上することを客観的に表している。
【００２１】
以上示した実施形態では，前記第１段階における信号処理として，比較的軽い演算負荷で複数の音源からの音声信号を分離できる帯域制限フィルタ処理を適用した。
その他，前記第１段階における信号処理としては，イコライジングによる周波数強調によって特定の周波数帯の信号を増幅或いは減衰させる信号処理や，ブラインド音源分離方式（ＢＳＳ方式）によって前記入力音声信号に含まれる複数の音源の音声信号を分離する信号処理等も考えられる。
前記イコライジングによる周波数強調では，例えば，特定の音源の周波数帯域について増幅ゲインを設定し，その周波数帯域の音声信号の振幅をＦＩＲフィルタ処理等を施すことによって増幅（強調）する。これにより，特定の音源の音声信号に対応したピッチ周期を得ることができる。
また，前記ＢＳＳ方式に基づく音源分離によれば，予め複数音源各々の周波数帯域を指定しなくても自動的に音源分離され，各音源の音声信号が得られる点で有効である。但し，演算負荷は大きくなる。
【産業上の利用可能性】
【００２２】
本発明は，音声信号の時間軸圧縮・伸張を行う音声信号処理への利用が可能である。
【図面の簡単な説明】
【００２３】
【図１】本発明の第１実施形態に係る音声信号処理装置Ｚ１の概略構成を表すブロック図。
【図２】本発明の第２実施形態に係る音声信号処理装置Ｚ２の概略構成を表すブロック図。
【図３】本発明の第３実施形態に係る音声信号処理装置Ｚ３の概略構成を表すブロック図。
【図４】本発明の第４実施形態に係る音声信号処理装置Ｚ４の概略構成を表すブロック図。
【図５】ＰＩＣＯＬＡ方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図。
【図６】ＰＩＣＯＬＡ方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図。
【図７】時間軸圧縮・伸張処理に用いられる音声信号（原音）の波形の一例を表す図。
【図８】図７に示す音声信号（原音）に従来の手法で時間軸伸張を行った後の信号の波形の一例を表す図。
【図９】図７に示す音声信号（原音）に従来の手法で時間軸伸張を行った後の信号の波形の一例を表す図。
【図１０】図７に示す音声信号（原音）に本発明の手法で時間軸伸張を行った後の信号の波形の一例を表す図。
【図１１】楽曲音声信号の波形の一例及びその楽曲音声信号に対して従来の手法と本発明の手法とで検出されたピッチ周期の時間変化を表すグラフ。
【符号の説明】
【００２４】
Ｚ１〜Ｚ４…音声信号処理装置
１，１１〜１Ｎ，６…フィルタ
２…ピッチ周期検出部
３…ピッチ周期選択部
４…信号圧縮／伸張部
５…合成信号生成部
２０…ピッチ周期候補中間選択部
２１〜２Ｎ…ピッチ周期中間選択部

【特許請求の範囲】
【請求項１】
一の入力音声信号又は複数チャンネルの入力音声信号の合成音声信号であるピッチ周期検出用信号に第１の信号処理を施した信号に基づいて，その信号のピッチ周期の複数候補を検出するピッチ周期候補検出手段と，
前記ピッチ周期検出用信号又は該ピッチ周期検出用信号に前記第１の信号処理とは異なる第２の信号処理を施した信号に基づいて，前記ピッチ周期の複数候補の中から一のピッチ周期を選択するピッチ周期選択手段と，
前記ピッチ周期選択手段により選択された前記一のピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び／又は伸張を行う時間軸調節手段と，
を具備してなることを特徴とする音声信号処理装置。
【請求項２】
前記ピッチ周期検出用信号に前記第１の信号処理とは異なる１又は複数の第３の信号処理を施した後の１又は複数の信号各々に基づいて，前記ピッチ周期候補検出手段により検出された前記ピッチ周期の複数候補を絞り込むピッチ周期絞り込み手段を具備し，
前記ピッチ周期選択手段が，前記ピッチ周期絞り込み手段により絞り込まれた候補の中から一のピッチ周期を選択してなる請求項１に記載の音声信号処理装置。
【請求項３】
前記第１の信号処理が，帯域制限フィルタ処理である請求項１又は２に記載の音声信号処理装置。
【請求項４】
前記第２の信号処理及び／又は前記第３の信号処理が，前記第１の信号処理とは異なる周波数帯域についての帯域制限フィルタ処理である請求項３に記載の音声信号処理装置。
【請求項５】
一の入力音声信号又は複数チャンネルの入力音声信号の合成音声信号であるピッチ周期検出用信号に第１の信号処理を施した後の信号に基づいて，その信号のピッチ周期の複数の候補を検出するピッチ周期候補検出工程と，
前記ピッチ周期検出用信号又は該ピッチ周期検出用信号に前記第１の信号処理とは異なる第２の信号処理を施した後の信号に基づいて，前記ピッチ周期の複数の候補の中から一のピッチ周期を選択するピッチ周期選択工程と，
前記ピッチ周期選択工程により選択された前記一のピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び／又は伸張を行う時間軸調節工程と，
を有してなることを特徴とする音声信号処理方法。

【図１】