音響信号の符号化方法および装置

【課題】ヒトの聴覚特性を利用することにより、子音成分を限定された数の周波数で再生される音源を用いて忠実に再現することが可能な音響信号の符号化方法および装置を提供する。
【解決手段】時系列のサンプル列により構成されるデジタル音響信号に対して、単位区間ごとに解析を行って複数の周波数に対するスペクトル強度を得た後、周波数を帯域別に複数のグループに分割し、帯域ごとに、下限音高から上限音高の範囲内で強度が最大となる周波数を探索し（Ｓ２２）、強度が最大となる周波数以外の周波数についての強度を減衰する（Ｓ２３）。各帯域ごとに最大強度以外を減衰した結果を用いて符号化を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音響信号の符号化技術に関し、特に、ＭＩＤＩ形式等の符号データに符号化するのに好適な符号化技術に関する。
【背景技術】
【０００２】
従来、ＭＩＤＩ音源を用いて音響信号を再生することを可能とするため、音響信号をＭＩＤＩ符号等の符号データに変換することが行われている（特許文献１〜３参照）。ＭＩＤＩ音源では、３２和音など限定された周波数で再生されるため、符号化の際には、限定された数の周波数を選択して符号化することが必要となる。出願人も、音響信号から限定された数の周波数を選択して符号化する技術について提案している（特許文献１参照）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００２−４１０３７号公報
【特許文献２】特許第４０６１０７０号公報
【特許文献３】特許第４１５６２６８号公報
【非特許文献】
【０００４】
【非特許文献１】赤木正人：“聴覚フィルタとそのモデル”，電子情報通信学会誌 77(9), 948-956, 1994-09-25.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記特許文献１に記載の発明では、先に選択された強度が大きい周波数の周辺の信号成分を一律に減衰させることにより、互いに隣接する周波数成分がなるべく選択されないようにしている。そのため、ボーカル再生において子音を表現するのに本来必要な成分も削除されてしまい、返って再現性が低下するという問題を抱えていた。
【０００６】
一方、ヒトの聴覚は２４本の聴覚神経系で周波数弁別を行っており、理論的には２４個の帯域フィルタで近似することができ、２４個の出力信号の割合で複数（同時には１２種未満）の周波数成分の識別を行っていることが知られている（非特許文献１参照）。すなわち、各帯域フィルタ内に含まれる周波数成分は同時刻では単一周波数成分しか認識できず、同一帯域フィルタに含まれる複数の周波数成分は時間差をもって認識される（うなり音またはビートとして、個人差はあるが同一帯域内の１／４半音程度の周波数の微細な相違が認識される）。
【０００７】
そこで、本発明は、ヒトの聴覚特性を利用することにより、子音成分を限定された数の周波数で再生される音源を用いて忠実に再現することが可能な音響信号の符号化方法および装置を提供することを課題とする。
【課題を解決するための手段】
【０００８】
上記課題を解決するため、本発明第１の態様では、所定のサンプリング周波数でデジタル化されたＪ個の時系列のサンプル列として与えられる音響信号を符号化するにあたり、前記サンプル列に対して、所定数Ｔ（Ｔ＜Ｊ）個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に所定数Ｗ（Ｗ＜Ｔ）個のサンプルを重複させながら設定し、個々の単位区間ごとに、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、周波数変換を行うことにより、各単位区間に対して、前記Ｎ種類の周波数に対応したスペクトル強度を算出し、前記Ｎ種類の各周波数ｆ（ｎ）を互いに重複しないように所定数の周波数グループに分割し、前記各単位区間に対して、各周波数グループに含まれる周波数のスペクトル強度の中で最大値をとる周波数以外のスペクトル強度に所定の割合だけ減衰させるように補正を行い、補正スペクトル強度を作成し、前記単位区間の先頭時刻と直後の単位区間の先頭時刻との時間差と、前記単位区間の補正スペクトル強度に基づいて、所定の形式の符号コードを生成するようにしたことを特徴とする。
【０００９】
本発明第１の態様によれば、各単位区間に対して周波数変換を行ってＮ種類の周波数に対応したスペクトル強度を算出し、Ｎ種類の各周波数ｆ（ｎ）を互いに重複しないように所定数の周波数グループに分割し、各周波数グループに含まれる周波数のスペクトル強度の中で最大値をとる周波数以外のスペクトル強度に所定の割合だけ減衰させるように補正を行い、得られた解析結果を基に符号コードを生成するようにしたので、音響信号の子音成分を、３２和音などの限定された周波数で再生される音源（例えばＭＩＤＩ音源）を用いて忠実に再現することが可能となる。
【００１０】
また、本発明第２の態様では、本発明第１の態様において、前記所定数の周波数グループは、ヒト聴覚系の特性に基づき、前記ｎの値を規格上のノートナンバーと定義して、１７，４５，５７，６４，６９，７２，７６，７９，８２，８５，８８，９１，９３，９６，９８，１０１，１０４，１０６，１０９，１１３，１１６，１１９，１２３，１２７，１２８を境界とする２４個で設定されることを特徴とする。
【００１１】
また、本発明第３の態様では、本発明第１の態様において、前記所定数の周波数グループは、ヒト聴覚系の特性に基づき、周波数ｆ（ｎ）の値が２０，１００，２００，３００，４００,５１０，６３０，７７０，９２０,１０８０,１２７０,１４８０,１７２０,２０００,２３２０,２７００,３１５０,３７００,４４００,５３００,６４００,７７００，９５００，１２０００，１５５００Ｈｚを境界とする２４個で設定されることを特徴とする。
【００１２】
本発明第２、第３の態様によれば、ヒト聴覚系の特性に基づき２４個の周波数グループに分類するようにして補正を行うようにしたので、ヒトの聴覚特性に適した最適な周波数成分で符号化を行うことができる。特に、本発明第２の態様によれば、周波数グループの分類を、再生音源のＭＩＤＩ規格に対応したノートナンバーｎで行っているため、再生ＭＩＤＩ音源に適した符号化を行うことができる。
【００１３】
また、本発明第４の態様では、本発明第１から第３のいずれかの態様において、前記スペクトル強度の算出を、個々の単位区間ごとに、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、周波数変換を行うことにより、単位区間ｐに対して、前記Ｎ種類の周波数に対応した第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出し、前記単位区間ｐに対して直前に位置する単位区間ｐ−１における第１のスペクトル強度Ｅ１（ｐ−１，ｎ）との対応する周波数ごとの変化に基づく評価値が、所定のしきい値より大きい場合に限り、当該単位区間ｐをｑ（ｑ≦ｐ）番目の選出単位区間ｑとして選出し、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、前記第１のスペクトル算出段階における周波数変換に比較して高精度な周波数変換を行うことにより、前記Ｎ種類の周波数に対応した第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出することにより、前記スペクトル強度として第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出するものであり、前記スペクトルの補正は、前記第２のスペクトル強度Ｅ２（ｑ，ｎ）に対して所定の割合だけ減衰させるように補正を行い、前記補正スペクトル強度として補正スペクトル強度Ｅ‘（ｑ，ｎ）を作成するようにしていることを特徴とする。
【００１４】
本発明第４の態様によれば、設定された各単位区間に対して簡易な第１の周波数変換を行い、その強度が直前の単位区間と比較して所定の基準以上に大きい場合に、選出単位区間として選出し、その選出単位区間に対してより高精度な第２の周波数変換を行って、得られた解析結果を基に符号コードを生成するようにしたので、固定間隔で音響信号全体に渡って情報を解析しつつ、特徴的な部分のみを符号化することになるため、和音を含む音響信号や、音声信号の周波数変化をより適切に解析することが可能となる。
【００１５】
また、本発明第５の態様では、本発明第４の態様において、前記第１のスペクトル算出および第２のスペクトル算出を、Ｎ種類の各周波数ｆ（ｎ）に対して隣接する周波数を超えない範囲で所定のＭ種類の副周波数ｆ（ｎ，ｍ）を設定し、前記第１のスペクトル強度Ｅ１（ｐ，ｎ）および第２のスペクトル強度Ｅ２（ｑ，ｎ）として、前記Ｍ種類の副周波数の中で最も大きい強度を示す副周波数に対応する強度値を算出するようにしたことを特徴とする。
【００１６】
本発明第５の態様によれば、解析する周波数の間隔を微細に設定することにより、より詳細な周波数解析が可能となり、適切な周波数成分を特定することができる。
【００１７】
また、本発明第６の態様では、本発明第４または第５の態様において、前記符号コードを生成する際、隣接する２つの選出単位区間ｑと選出単位区間ｑ＋１に対して、前記選出単位区間ｑがｐ番目の単位区間ｐであった場合に、Ｐ（ｑ）＝ｐと定義し、前記選出単位区間ｑ＋１における周波数ｆ（ｎ）、ｆ（ｎ−１）、ｆ（ｎ＋１）に対応する前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）のいずれかと、当該選出単位区間ｑ＋１の直前に位置する単位区間Ｐ（ｑ＋１）−１における周波数ｆ（ｎ）に対応する前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）との差が所定のしきい値Ｌｄｉｆ未満で、かつ前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）のいずれかおよび前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）が所定のしきい値Ｌｍｉｎより大きい場合、前記選出単位区間ｑと選出単位区間ｑ＋１を連結し、前記符号コードの基礎となる時間差として、前記選出単位区間ｑに定義された選出単位区間ｑの先頭時刻と、選出単位区間ｑ＋１の直後の選出単位区間ｑ＋２の先頭時刻との時間差を用いるようにしていることを特徴とする。
【００１８】
本発明第６の態様によれば、符号コードを生成する際、隣接する２つの選出単位区間のうち、後続の選出単位区間とその直前の単位区間の強度の差が所定のしきい値未満で、後続の選出単位区間の強度とその直前の単位区間の強度がともに所定のしきい値より大きい場合に、隣接する２つの選出単位区間を連結するようにしたので、選出されていないものの、時間的に最も近い単位区間が連結判断の際に考慮されることとなり、適切に音成分を連結することが可能になる。
【００１９】
また、本発明第７の態様では、本発明第６の態様において、前記第１のスペクトル算出および第２のスペクトル算出は、Ｎ種類の各周波数ｆ（ｎ）に対して隣接する周波数を超えない範囲で所定のＭ種類の副周波数ｆ（ｎ，ｍ）を設定し、前記第１のスペクトル強度Ｅ１（ｐ，ｎ）および第２のスペクトル強度Ｅ２（ｑ，ｎ）として、前記Ｍ種類の副周波数の中で最も大きい強度を示す副周波数ｆ１（ｎ，ｍｍａｘ１）およびｆ２（ｎ，ｍｍａｘ２）に対応する強度値を算出するものであり、前記符号コードを生成する際、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）を決定する副周波数ナンバーｍｍａｘ１、ｍｍａｘ２、ｍｍａｘ３の少なくともいずれか１つと、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）を決定する副周波数ナンバーｍｍａｘ０との差が所定のしきい値Ｎｄｉｆ未満という条件をさらに満たした場合に限り、前記選出単位区間ｑと選出単位区間ｑ＋１を連結するようにしていることを特徴とする。
【００２０】
本発明第７の態様によれば、解析する周波数の間隔を微細に設定することにより、より詳細な周波数解析が可能となり、さらに、音成分の連結条件として、後続の選出単位区間とその直前の単位区間の副周波数との差がしきい値未満であることを追加したので、より精度の高い解析結果に基づいて音成分を連結することが可能となる。
【００２１】
また、本発明第８の態様では、本発明第７の態様において、前記選出単位区間ｑが、既に他の選出単位区間と連結されている場合、前記選出単位区間ｑが連結されている先頭の選出単位区間をｑｏとし、前記符号化段階は、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）を決定する副周波数ナンバーｍｍａｘ１、ｍｍａｘ２、ｍｍａｘ３の少なくともいずれか１つと、前記第１のスペクトル強度Ｅ１（Ｐ（ｑｏ），ｎ）を決定する副周波数ナンバーｍｍａｘｏとの差が所定のしきい値Ｎａｄｉｆ未満という条件をさらに満たした場合に限り、前記選出単位区間ｑと選出単位区間ｑ＋１を連結することを特徴とする。
【００２２】
本発明第８の態様によれば、さらに、音成分の連結条件として、前方の選出単位区間が、既に他の選出単位区間と連結されている場合、後続の選出単位区間とその直前の選出単位区間が連結されている先頭の選出単位区間の副周波数との差がしきい値未満であることを追加したので、副周波数が緩やかに変化する異なる音成分に属する後続の選出単位区間を誤って連結することを防ぎ、より精度の高い音成分の連結を実現することが可能となる。
【００２３】
また、本発明第９の態様では、本発明第４から第８のいずれかの態様において、前記第１のスペクトル算出を、前記単位区間の区間信号の構成要素となるべきＮ種類の要素信号を、各々当該周波数ｆ（ｎ）の周期の整数倍に対応し、前記Ｔに最も近いＴ（ｎ）個のサンプルとして準備し、前記Ｎ個の各周波数ｆ（ｎ）に対応する要素信号と、それぞれ対応する前記単位区間ｐのＴ（ｎ）個のサンプルで構成される区間信号との相関演算を行うことにより、第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出し、前記第２のスペクトルの算出を、前記準備された前記Ｎ個の各周波数ｆ（ｎ）に対応する要素信号と、それぞれ対応する前記選出単位区間ｑのＴ（ｎ）個のサンプルで構成される区間信号との相関演算を行い、相関値が最も高い周波数ｆ（ｎｍａｘ）に対応する要素信号を調和信号として選出し、前記選出された調和信号と当該調和信号について得られた相関値との積で与えられるＴ（ｎｍａｘ）個のサンプルを含有信号とし、当該含有信号を前記区間信号から減じることにより、Ｔ（ｎｍａｘ）個のサンプルで構成される差分信号を演算により求め、前記Ｔ（ｎｍａｘ）個のサンプルを反映させ更新されたＴ（ｎ）個のサンプルを新たな区間信号として、前記調和信号の選出および差分信号の演算を実行して新たな含有信号および差分信号を得る処理を繰り返し行うことによりＮ個の含有信号を求め、求められた含有信号の相関値に基づいて、前記Ｎ種類の周波数に対応した第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出することを特徴とする。
【００２４】
本発明第９の態様によれば、全ての単位区間に対する第１のスペクトル算出を、簡易な離散フーリエ変換により行い、選出単位区間に対する第２のスペクトル算出を高精度な一般化調和解析により行うようにしたので、全ての単位区間の解析結果を参考にしつつ、選出単位区間の情報を高精度に得ることを、全体として効率的に行うことが可能となる。
【００２５】
また、本発明第１０の態様では、本発明第９の態様において、前記第１のスペクトル算出における前記相関の演算を、直前に位置する単位区間ｐ−１における各周波数ｆ（ｎ）に対応する直前相関演算結果に対し、前記単位区間ｐ−１における先頭Ｗサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果より減算するとともに、前記単位区間ｐにおけるＴ（ｎ）サンプル中の最後尾Ｗサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果に加算することにより、前記単位区間ｐにおける各周波数ｆ（ｎ）に対応する相関演算結果を取得し、当該相関演算結果に基づいて前記第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出することにより行うことを特徴とする。
【００２６】
本発明第１０の態様によれば、第１のスペクトル算出における各単位区間に対する簡易な相関演算を行う際、直前の単位区間に対して行われた相関演算結果を利用し、直前相関演算結果の先頭部分を除去するとともに、当該単位区間の最後尾に対する相関演算を行って、その結果を直前相関演算結果に加算するようにしたので、直前の単位区間の相関演算結果の大部分を流用することができ、全ての単位区間に対する演算処理を高速化することが可能となる。
【発明の効果】
【００２７】
本発明によれば、和音信号や、音声信号の周波数変化をより適切に解析することが可能な音響信号の符号化方法および装置を提供することが可能となるという効果を有する。
【図面の簡単な説明】
【００２８】
【図１】本実施形態における音響信号の符号化装置のハードウェア構成図である。
【図２】本発明に係る音響信号の符号化方法の概要を示すフローチャートである。
【図３】時間軸方向の拡大、周波数の増加・時間情報の縮小の概念を示す図である。
【図４】従来技術と比較した本実施形態の区間設定の概念を示す図である。
【図５】本実施形態における解析周波数の論理的／物理的範囲の関係を示す図である。
【図６】本実施形態における単位区間と解析範囲の関係を示す図である。
【図７】本実施形態における単位区間の解析処理の様子を示す図である。
【図８】時間軸拡大処理後の音響信号から抽出した単位区間におけるサンプル列と、調和信号の対応関係を示す図である。
【図９】単位区間長Ｔが調和信号の１／２周期以上で３／４周期未満の場合の解析フレームの時間軸延長を説明する図である。
【図１０】単位区間長Ｔが調和信号の１／４周期以上で１／２周期未満の場合の解析フレームの時間軸延長を説明する図である。
【図１１】非特許文献１を基に作成された周波数基準の帯域フィルタを示す図である。
【図１２】図１１に示した帯域フィルタの単位を変換したＭＩＤＩノートナンバー基準の帯域フィルタを示す図である。
【図１３】Ｓ８における聴覚フィルタ補正の詳細を示すフローチャートである。
【図１４】連結判断の対象とする選出単位区間と単位区間との関係を示す図である。
【発明を実施するための形態】
【００２９】
以下、本発明の好適な実施形態について、図面を参照して詳細に説明する。
図１は、本発明の一実施形態における音響信号の符号化装置のハードウェア構成図である。音響信号の符号化装置は、汎用のコンピュータで実現することができ、図１に示すように、ＣＰＵ１（CPU: Central Processing Unit）と、コンピュータのメインメモリであるＲＡＭ２（RAM: Random Access Memory）と、データを記憶するための大容量のデータ記憶装置３（例えば，ハードディスク）と、ＣＰＵが実行するプログラムを記憶するためのプログラム記憶装置４（例えば，ハードディスク）と、キーボード、マウス等のキー入力Ｉ／Ｆ５と、外部デバイス（データ記憶媒体）とデータ通信するためのデータ入出力インターフェース６と、表示デバイス（ディスプレイ）に情報を送出するための表示出力インターフェース７と、を備え、互いにバスを介して接続されている。
【００３０】
音響信号の符号化装置のプログラム記憶装置４には、ＣＰＵ１を動作させ、コンピュータを、音響信号の符号化装置として機能させるための専用のプログラムが実装されている。専用のプログラムを実行することにより、ＣＰＵ１は、区間設定手段、第１のスペクトル算出手段（要素信号準備手段、相関演算手段を含む）、第２のスペクトル算出手段（要素信号準備手段、調和信号選出手段、差分信号演算手段を含む）、スペクトル補正手段、符号化手段としての機能を実現することになる。また、データ記憶装置３は、処理に必要な様々なデータを記憶する。
【００３１】
図２は、本実施形態に係る音響信号の符号化方法の概要を示すフローチャートである。本実施形態に係る音響信号の符号化方法は、図２に示した各ステップ（各段階）の詳細な手順を記録したプログラムを、コンピュータが実行することにより、行われる。コンピュータとしては、演算処理を行うためのＣＰＵやメモリ、プログラムやデータを記憶するハードディスク等の記憶装置、音響信号等のデータ入力を行うためのデータ入力機器、指示入力を行うキーボード、マウス等の入力機器、必要な情報を画面に表示する液晶ディスプレイ等の表示機器を備えた汎用のコンピュータを用いることができる。また、図２に示した各ステップ（各段階）の詳細な手順を記録したプログラムが組み込まれた汎用のコンピュータにより本実施形態に係る音響信号の符号化装置が実現される。
【００３２】
まず、コンピュータ（符号化装置）は、処理対象であるデジタル音響信号を、データ入力機器から読み込む。デジタル音響信号は、アナログ音響信号を所定のサンプリング周波数、量子化ビット数でサンプリングしたものであり、本実施形態では、サンプリング周波数４４．１ｋＨｚ、量子化ビット数１６ビットでサンプリングした場合を例にとって以下説明していく。サンプリング周波数４４．１ｋＨｚでサンプリングした場合、デジタル音響信号は、１秒間に４４１００個のサンプル（強度値）を有するサンプル列（サンプルの配列：強度配列）として構成されることになる。
【００３３】
デジタル音響信号を読み込んだら、コンピュータ（符号化装置）は、デジタル音響信号を時間軸方向に所定の倍率Ｋ（Ｋは整数）だけ拡大する（Ｓ１）。具体的には、デジタル音響信号を構成するサンプルの数をＫ倍にする。そして、Ｋ個ごとに、元のサンプルと同じ値のものを配置し、その間の（Ｋ−１）個のサンプルの値としては、両側に位置する元のサンプルの値を用いて線形補間したものを与える。原音響信号の各サンプルｊ（ｊ＝０・・・Ｊ−１）についてのサンプル値をｘ（ｊ）とすると、コンピュータは、以下の〔数式１〕に従った処理を実行することにより、拡大後の音響信号の各サンプルｊ・Ｋ＋ｋ（０≦ｋ≦Ｋ−１）についてのサンプル値ｘ´（ｊ・Ｋ＋ｋ）を算出する。以下の〔数式１〕において、ｗはｋ／Ｋで与えられる０≦ｗ≦１の値をとる実数値とする。
【００３４】
〔数式１〕
ｘ´（ｊ・Ｋ＋ｋ）＝（１−ｗ）・ｘ（ｊ）＋ｗ・ｘ（ｊ＋１）
【００３５】
Ｓ１における処理の結果、デジタル音響信号を構成するＪ個のサンプルは、Ｊ×Ｋ個に拡大される。図３（ａ）にＳ１における拡大処理による波形の変化を示す。図３（ａ）における波形は、サンプルの値をプロットしたものを線分で結んだものであるが、サンプル数が多いため、曲線状に表現されるものである。上記〔数式１〕に従った処理を実行することにより、左側に示したような波形が右側に示したような波形に変化することになる。なお、図３の例では、説明の便宜上Ｋ＝２の場合を示している。このように、音響信号を時間軸方向に拡大して解析を行うことにより、元の音響信号に対してそのまま解析を行う場合と同等な周波数解析精度を維持しながら、解析における時間分解能を向上させ、周波数変動を高精度に抽出することが可能となる。
【００３６】
コンピュータ（符号化装置）は、続くＳ２〜Ｓ５において、所定の区間に対して周波数解析を行う。本実施形態では、周波数解析の対象とする区間の設定を、単位区間を設定した後、所定の条件を満たす単位区間を選出単位区間として選出することにより行う。本実施形態における解析対象とする区間の設定の概念を、特許文献２に代表される従来技術と比較して説明する。図４は、従来技術と比較した本実施形態の区間設定の概念を示す図である。従来の場合も本実施形態も、後述するように、サンプリングにより得られた所定数のサンプルを単位区間として設定し、単位区間ごとに周波数解析を行う点は同一である。図４（ａ）に示すように、特許文献２に開示されている従来技術では、ゼロ交差点を特定し、そのゼロ交差点を利用して単位区間の設定位置を可変とする。図４（ａ）では例として３つの単位区間が設定されているが、これらの開始位置（左端）の間隔は均一ではない。そして、設定された各単位区間に対して、離散フーリエ変換及び一般化調和解析の両方を実行して解析結果を得る。
【００３７】
これに対して、図４（ｂ）に示すように、本実施形態では、固定間隔で単位区間を設定し、各単位区間に対して離散フーリエ変換を実行して解析結果を得る。そして、その解析結果を直前の単位区間と比較して、所定の条件を満たす場合に、選出単位区間として選出する。図４（ｂ）の例では、単位区間１、５、６がそれぞれ選出単位区間１、２、３として選出されている。そして、選出単位区間に対して一般化調和解析を実行して解析結果を得る。
【００３８】
具体的には、まず、コンピュータ（符号化装置）が、時間軸方向に拡大されたサンプル上に単位区間を設定する（Ｓ２）。単位区間の長さ（サンプル数Ｔ）は、サンプリング周波数との関係で設定されるが、サンプリング周波数が４４．１ｋＨｚの場合、低域部まで忠実に解析するためには、４０９６サンプル以上必要である。そこで、本実施形態では、１単位区間のサンプル数Ｔ＝４０９６として単位区間を設定している。
【００３９】
単位区間の設定は、特許文献１、３に開示されているように、デジタル音響信号の先頭から順次サンプルを抽出することにより行われる。単位区間は、全てのサンプルを漏らさず設定し、好ましくは、連続する単位区間においてサンプルが重複するように設定する。本発明では、各単位区間の先頭の間隔（シフト幅という）を固定値で設定する。すなわち、重複させるサンプル数を一定として設定する。本実施形態では、シフト幅Ｗ＝６４の固定値とする。これにより、Ｔ＝４０９６の場合、先頭の単位区間をｊ＝０〜４０９５、２番目の単位区間をｊ＝６４〜４１５９、３番目の単位区間をｊ＝１２８〜４２２３というように、６４個のサンプルを重複させながら、設定することになる。そして、各サンプルの値ｘ（ｊ）を各単位区間ｐ（ｐは０以上の整数）ごとの値ｘ（ｐ，ｉ）（０≦ｉ≦Ｔ−１）と表現する。
【００４０】
次に、設定された各単位区間を対象として第１の周波数解析である離散フーリエ変換を実行し、各単位区間のスペクトルを算出する（Ｓ３）。各単位区間のスペクトルの算出は、特許文献１〜３に開示されているように、ＭＩＤＩのノートナンバーｎに対応する１２８種の解析周波数ｆ（ｎ）＝４４０・２^(n-69)/12の調和信号（調和関数）を基本にした離散フーリエ変換により、１２８個の成分を抽出することにより行う。“１２８種”“１２８個”というのは一例であり、例えば、ＭＩＤＩ規格の場合、ノートナンバーｎ＝０〜１２７の範囲に対応するが、グランドピアノを再現するための規格音域は、ノートナンバーｎ＝２１〜１０８の範囲である。したがって、この場合、８８種類の解析周波数を用いて８８個の成分を抽出することになる。また、前述したように、音響信号を時間軸方向に所定の倍率Ｋだけ拡大して周波数解析を行う場合、後述する時間軸拡大処理を省略すると、低音部に位置する解析周波数では解析不能になるため解析周波数の種類は更に少なくなる。例えば、Ｋ＝４の場合、解析周波数はＭＩＤＩ規格上でもノートナンバーｎ＝２４〜１２７（１０４種類）の範囲に制限され、更にグランドピアノの規格音域では、ノートナンバーｎ＝２４〜１０８（６４種類）の範囲に制限される。
【００４１】
本実施形態では、音響信号を時間軸方向にＫ倍に拡大したことに伴い、ｎの上限、下限をそれぞれαだけ下方に移動させる。αは、α＝１２・ｌｏｇ₂Ｋ（例えばＫ＝４の場合α＝２４）で定義される整数である。したがって、特許文献１〜３では、０≦ｎ≦１２７であるが、本実施形態では、−α≦ｎ≦１２７−αである。これにより各調和信号の周波数は、１／Ｋ倍に設定されることになる。ここで、本実施形態における解析周波数の論理的／物理的範囲の関係を図５に示す。図５に示すように、グランドピアノの規格音域は、ｎ＝２１〜１０８の範囲であるため、通常の解析を行う場合は、ｎ＝２１〜１０８の範囲で行うことになる。ところが、本発明では、時間軸拡大することにより周波数を低音側にシフトして解析処理を行う。また、ノートナンバーｎ＝２１以下については、対応する調和信号の１周期が単位区間より長くなるため、時間軸延長（後述）による長周期解析を行う。この結果、ｎ＝−３〜８４について周波数成分が得られるが、最終的に補正処理を行うことにより、ｎ＝２１〜１０８の範囲周波数成分が得られる。
【００４２】
ノートナンバーｎに対応して解析周波数を設定した場合、周波数が高くなるにつれ、ノートナンバー間の周波数間隔が広くなるため、特に、ｎが６０を超えると解析精度が低下してしまう。そこで、本実施形態では、特許文献３に開示したように、ノートナンバー間をＭ個の微分音（副周波数）に分割した１２８Ｍ個の要素信号ｆ（ｎ，ｍ）＝４４０・２^{(n-69+m/M)/12}を用いて解析を行い、１２８Ｍ個の成分を抽出する。後述するＳ１０の符号コード作成処理においてピッチベンド符号の付加など特殊な符号化を行わない限り、各ノートナンバーにおけるＭ個の微分音の情報は不要であるため、Ｍ個の微分音の成分の最大値を当該ノートナンバーにおける成分として代表させ、結果的に１２８個の成分を抽出する。
【００４３】
コンピュータ（符号化装置）による具体的な処理手順としては、各単位区間ｐごとに、まず、ノートナンバー分の強度値の配列Ｅ１（ｐ，ｎ）（−α≦ｎ≦１２７−α）と副周波数配列Ｓ（ｐ，ｎ）を設定し、初期値を全て０とする。続いて、−α≦ｎ≦１２７−αおよび０≦ｍ≦Ｍ−１に対して以下の〔数式２〕に従った処理を実行し、Ｅ１（ｐ，ｎ，ｍ）を最大にする（ｎｍａｘ，ｍｍａｘ）を求める。ただし、処理負荷との関係から、低音部分を必要としない場合は、ｎ＜０については処理を省略することにより、処理負荷を軽減することもできる。
【００４４】
〔数式２〕
Ａ(ｐ，ｎ，ｍ)＝(１／Ｔ（ｎ）)・Σ_i=0,T(n)-1ｘ(ｐ，ｉ) sin(２πｆ（ｎ，ｍ）（ｉ＋ｐＷ）／ｆｓ)
Ｂ(ｐ，ｎ，ｍ)＝(１／Ｔ（ｎ）)・Σ_i=0,T(n)-1ｘ(ｐ，ｉ) cos (２πｆ（ｎ，ｍ）（ｉ＋ｐＷ）／ｆｓ)
Ｅ１(ｐ，ｎ，ｍ)＝｛Ａ(ｐ，ｎ，ｍ)｝²＋｛Ｂ(ｐ，ｎ，ｍ)｝²
【００４５】
上記〔数式２〕においてＴ（ｎ）は解析フレーム長であり、調和信号（調和関数）の１周期が単位区間長Ｔ以下の場合、単位区間長Ｔを超えない範囲で調和信号の周期の最大の整数倍になるように設定する。ただし、本発明では、時間軸拡大することにより周波数を低音側にシフトして解析処理を行うため、調和信号（調和関数）の１周期が単位区間長Ｔを超える場合が発生する。具体的には、調和信号の１周期が単位区間長Ｔより大きい場合、Ｔ（ｎ）＝ｇ×ｆｓ／ｆ（ｎ，ｍ）で与え、Ｔ＜Ｔ（ｎ）におけるｘ(ｉ)の値については、後述する時間軸延長処理に基づき設定する。なお、ｇは１以上の整数値、ｆｓはサンプリング周波数（例えば、４４．１ｋＨｚ）である。
【００４６】
上記〔数式２〕に従った処理を各単位区間に対して実行し、Ａ(ｐ，ｎ，ｍ)、Ｂ(ｐ，ｎ，ｍ)、Ｅ１(ｐ，ｎ，ｍ)を求めることも可能である。ここで、本実施形態における単位区間と解析範囲の関係を図６に示す。図６において、上端の波形は原音響信号、下端の波形は調和関数をそれぞれ模式的に示したものである。図６の例では、対象とする単位区間である対象単位区間と、その直前の単位区間である直前単位区間のみを示してあるが、それぞれの相関計算範囲は、矩形の横方向の長さになる。本実施形態では、相関計算範囲Ｔを４０９６サンプル、シフト幅Ｗを６４サンプルとしているため、重複部分が非常に大きい。そこで、本実施形態では、重複部分については、直前単位区間における解析結果を利用することにより、解析処理の効率化を図っている。
【００４７】
本実施形態における単位区間の解析処理の様子を図７に示す。図７に示すように、対象単位区間における解析結果を得る際に、直前単位区間の重複部分を利用する。具体的には、対象単位区間と重複しない直前単位区間の先頭部分を削除し、直前単位区間と重複しない対象単位区間の最後尾部分のみ、相関演算を行って追加する。従って、単位区間内全体に渡って相関演算を行うのは、先頭の単位区間（ｐ＝０）に対してだけということになる。
【００４８】
ｐ≧１の場合、すなわち、２番目以降の単位区間ｐについて処理する場合、直前の単位区間（ｐ−１）についてのＡ(ｐ−１，ｎ，ｍ)、Ｂ(ｐ−１，ｎ，ｍ)が既に算出されている。本実施形態では、Ａ(ｐ−１，ｎ，ｍ)、Ｂ(ｐ−１，ｎ，ｍ)を用いて、以下の〔数式３〕に従った処理を実行することにより、単位区間ｐについてのＡ(ｐ，ｎ，ｍ) 、Ｂ(ｐ，ｎ，ｍ)を算出する。
【００４９】
〔数式３〕
Ａ(ｐ，ｎ，ｍ)＝Ａ(ｐ−１，ｎ，ｍ) −(１／Ｔ（ｎ）)・Σ_i=0,W-1ｘ(ｐ−１，ｉ) sin(２πｆ（ｎ，ｍ）（ｉ＋（ｐ−１）Ｗ）／ｆｓ)＋(１／Ｔ（ｎ）)・Σ_{i=T(n)-W,T(n)-1}ｘ(ｐ，ｉ) sin(２πｆ（ｎ，ｍ）（ｉ＋ｐＷ）／ｆｓ)
Ｂ(ｐ，ｎ，ｍ)＝Ｂ(ｐ−１，ｎ，ｍ) −(１／Ｔ（ｎ）)・Σ_i=0,W-1ｘ(ｐ−１，ｉ) cos (２πｆ（ｎ，ｍ）（ｉ＋（ｐ−１）Ｗ）／ｆｓ)＋(１／Ｔ（ｎ）)・Σ_{i=T(n)-W,T(n)-1}ｘ(ｐ，ｉ) cos (２πｆ（ｎ，ｍ）（ｉ＋ｐＷ）／ｆｓ)
Ｅ１(ｐ，ｎ，ｍ)＝｛Ａ(ｐ，ｎ，ｍ)｝²＋｛Ｂ(ｐ，ｎ，ｍ)｝²
【００５０】
続いて、ノートナンバーｎごとに、０≦ｍ≦Ｍ−１の範囲で、Ｅ（ｐ，ｎ，ｍ）を最大にする（ｐ，ｎ，ｍｍａｘ）を求め、Ｅ１(ｐ，ｎ)＝Ｅ１(ｐ，ｎ，ｍｍａｘ)、Ｓ（ｐ，ｎ）＝ｍｍａｘとする処理を行う。そして、算出されたＥ１(ｐ，ｎ)、Ｓ（ｐ，ｎ）をメモリに一時保存する。メモリに一時保存されたＥ１(ｐ，ｎ)、Ｓ（ｐ，ｎ）は、後述する単音成分連結処理において用いる。
【００５１】
次に、単位区間ｐにおいて算出されたスペクトル強度Ｅ１(ｐ，ｎ)と、直前区間（ｐ−１）において算出されたスペクトル強度Ｅ１(ｐ−１，ｎ)との変化の評価を行う（Ｓ４）。具体的には、まず、以下の〔数式４〕に従った処理を実行することにより、単位区間ｐの直前区間（ｐ−１）との変化評価値ｄＥ(ｐ−１，ｐ)を算出する。
【００５２】
〔数式４〕
ｄＥ(ｐ−１，ｐ)＝（１００／Ｎ）・Σ_n=0,N-1｛｜Ｅ１(ｐ，ｎ)−Ｅ１(ｐ−１，ｎ)｜／（Ｅ１(ｐ，ｎ)＋Ｅ１(ｐ−１，ｎ)）｝
【００５３】
そして、得られた変化評価値ｄＥ(ｐ−１，ｐ)が、所定のしきい値（例えば４０）未満である場合は、ｐ←ｐ＋１としてＳ２に戻り、次の単位区間ｐの設定を行う。
【００５４】
一方、得られた変化評価値ｄＥ(ｐ−１，ｐ)が、所定のしきい値以上である場合は、その単位区間ｐを選出単位区間ｑとして選出し、選出単位区間ｑについて一般化調和解析を行う（Ｓ５）。ｑの値は最初に選出された選出単位区間を０とし、以降は選出されるごとに１ずつ加算した値を与える。具体的には、まず、Ｓ３において設定されたＥ１(ｐ，ｎ)が最大になるＥ１(ｐ，ｎｍａｘ)を求める。すなわち、−α≦ｎ≦１２７−αの全てのｎのうち、Ｅ１(ｐ，ｎ)が最大になるｎの値をｎｍａｘとして求めるとともに、そのときのＥ１(ｐ，ｎ)をＥ１(ｐ，ｎｍａｘ)として求める。これは、上記〔数式２〕の処理を全てのｎに対して実行し、算出されたｎ個のＥ１(ｐ，ｎ)のうち最大のものを選択することにより行われる。さらに、求めたｎｍａｘを用いて、ｍｍａｘ＝Ｓ（ｐ，ｎｍａｘ）と設定する。
【００５５】
そして、得られたｎｍａｘ、ｍｍａｘを用いて以下の〔数式５〕に従った処理を実行することにより、Ａ(ｐ，ｎｍａｘ，ｍｍａｘ)、Ｂ(ｐ，ｎｍａｘ，ｍｍａｘ)を算出する。〔数式５〕に従った処理を実行するに際し、まず、単位区間ｐはｑ番目に選出された選出単位区間ｑであるとした場合に、Ｐ（ｑ）＝ｐと設定し、選出単位区間ｑにおいてノートナンバー分の相関強度配列Ｅ２（ｑ，ｎ）を定義し、初期値を全て０未満の値（例えば−１）に設定しておく。
【００５６】
〔数式５〕
Ａ(ｐ，ｎｍａｘ，ｍｍａｘ)＝(１／Ｔ（ｎｍａｘ）)・Σ_{i=0,T(nmax)-1}ｘ(ｐ，ｉ)・ sin(２πｆ（ｎｍａｘ，ｍｍａｘ）ｉ／ｆｓ)
Ｂ(ｐ，ｎｍａｘ，ｍｍａｘ)＝(１／Ｔ（ｎｍａｘ）)・Σ_{i=0,T(nmax)-1}ｘ(ｐ，ｉ) cos (２πｆ（ｎｍａｘ，ｍｍａｘ）ｉ／ｆｓ)
Ｅ２(ｑ，ｎｍａｘ)＝｛Ａ(ｐ，ｎｍａｘ，ｍｍａｘ)｝²＋｛Ｂ(ｐ，ｎｍａｘ，ｍｍａｘ)｝²
【００５７】
そして、算出されたＡ(ｐ，ｎｍａｘ，ｍｍａｘ)、Ｂ(ｐ，ｎｍａｘ，ｍｍａｘ)を用いて、以下の〔数式６〕に従った処理を実行することにより、単位区間ｐ内のサンプル（ｐ，ｉ）の値ｘ（ｐ，ｉ）を０≦ｉ≦Ｔ（ｎｍａｘ）−１に渡って更新する。
【００５８】
〔数式６〕
ｘ(ｐ，ｉ)←ｘ(ｐ，ｉ)−Ａ(ｐ，ｎｍａｘ，ｍｍａｘ) ・sin(２πｆ（ｎｍａｘ，ｍｍａｘ）ｉ／ｆｓ)−Ｂ(ｐ，ｎｍａｘ，ｍｍａｘ) ・cos (２πｆ（ｎｍａｘ，ｍｍａｘ）ｉ／ｆｓ)
【００５９】
〔数式６〕の処理は、元の音響信号から含有信号を除去する処理である。含有成分を除去した後の音響信号に対して、さらに処理したｎｍａｘの値以外のｎを対象としてＥ２(ｑ，ｎ)が最大になる新たなＥ２(ｑ，ｎｍａｘ)を求め、その新たなｎｍａｘを用いて、〔数式５〕〔数式６〕に従った処理を実行する。この結果、さらに含有信号が音響信号から除去される。コンピュータ（符号化装置）は、このような処理を１２８個全てのｎに対して実行し、Ｅ２(ｑ，ｎ)を得る。
【００６０】
本実施形態では、処理負荷を軽減するため、Ｍの値については、ノートナンバーに基づいて可変に設定し、例えば解析する周波数間隔が１００Ｈｚ程度になるようにしている。そして、ノートナンバー６０以下は分割せずＭ＝１にする。また、精度は若干落ちるが、相関強度配列Ｅ１(ｐ，ｎ)を決定するための〔数式２〕の処理でＳ（ｐ，ｎ）を決定し、相関強度配列Ｅ２(ｑ，ｎ)を決定するための〔数式５〕の処理は、ｍ＝Ｓ（ｐ，ｎ）に固定して行い、微分音解析を省略するようにしても良い。また、〔数式５〕の処理で、既に同一ノートナンバーに対して副周波数が異なる信号成分が複数回に渡って解析される可能性があるが、Ｅ２(ｑ，ｎ)に既に値がセットされている場合は、Ｅ１（ｐ，ｎ）の最大値の選定候補から除外するようにしても良い。
【００６１】
ここで、単位区間における解析フレームの設定について説明する。尚、以下説明は前述の選出単位区間においても同様に適用される。図８は、時間軸拡大処理後の音響信号から抽出した単位区間におけるサンプル列と、調和信号の対応関係を示す図である。このうち、図８（ａ）は、時間軸拡大処理後の音響信号から抽出した単位区間におけるサンプル列である。各サンプルにおけるサンプル値（４０９６個）を結ぶことにより、図８（ａ）に示すような波形状で示される。１２８個の調和信号のうち、図８（ｂ）に示すような１周期が単位区間長Ｔ以下の高音部の解析調和信号と相関演算を行う際、および単位区間Ｔより選出された調和信号である含有信号を減算する際には、調和信号の１周期が単位区間長Ｔを超えない範囲まで周期を整数倍した長さを解析フレーム長Ｔ（ｎ）とし、単位区間Ｔの先頭からサンプルＴ（ｎ）個を抽出して、解析フレームとする。
【００６２】
調和信号の１周期が単位区間長Ｔより大きい場合、相関計算区間である解析フレーム長Ｔ（ｎ）を調和信号の１周期分とするため、単位区間長ＴにＴ（ｎ）−Ｔ個のサンプル数を追加することにより時間軸延長処理を行う。この場合、調和信号の１周期を４つの分割区間Ｑ１−Ｑ４として設定する。そして、図８（ｄ）に示すように、単位区間長Ｔが、調和信号の３／４周期に相当する場合は、調和信号の分割区間Ｑ３（１／２周期から３／４周期の区間）に対応する単位区間のサンプルを、調和信号の３／４周期（２７０度：分割区間Ｑ３と分割区間Ｑ４の境界）の時点において時間軸方向に反転させたサンプルを追加する。２７０度の時点において時間軸方向に反転させるのは、調和信号の１周期が正弦波であると仮定すると、分割区間Ｑ３と分割区間Ｑ４（３／４周期から１周期の区間）は２７０度を軸に時間軸方向に左右対称である特徴を利用したものである。このようにして時間軸延長が行われ、図８（ｃ）に示すような波形の解析フレーム（５４６１サンプル）が得られる。図８（ｃ）（ｄ）の例では、単位区間長Ｔが、調和信号の３／４周期に相当する場合を示したが、単位区間長Ｔが、調和信号の３／４周期以上である場合は、同様に処理が行われ、解析フレーム長Ｔ（ｎ）は最大５４６１サンプルとなる。この場合、調和信号の３／４周期を超えた部分の単位区間のサンプルは、単位区間内のいずれかのサンプルが重複して使用されることになる。
【００６３】
また、図９（ｂ）に示すように、単位区間長Ｔが、調和信号の１／２周期以上で３／４周期未満に相当する場合（単位区間の最終サンプルが分割区間Ｑ３に属する場合）は、分割区間Ｑ４全体と分割区間Ｑ３の一部が欠損しているため、分割区間Ｑ２（１／４周期から１／２周期の区間）に対応する単位区間のサンプルを、調和信号の１／２周期（１８０度：分割区間Ｑ２と分割区間Ｑ３の境界）の時点において時間軸および振幅軸方向に反転させたサンプルを分割区間Ｑ３に追加し、さらに追加された分割区間Ｑ３のサンプルを、調和信号の３／４周期（２７０度）の時点において反転させたサンプルを追加する。１８０度の時点において時間軸および振幅軸方向に反転させるのは、調和信号の１周期が正弦波であると仮定すると、分割区間Ｑ２と分割区間Ｑ３は１８０度を軸に時間軸および振幅軸方向に１８０度回転させた対称形である特徴を利用したものである。このようにして時間軸延長が行われ、図９（ａ）に示すような波形の解析フレーム（最大８１９２サンプル）が得られる。この場合、調和信号の１／２周期を超えた部分の単位区間のサンプルは、単位区間内のいずれかのサンプルが重複して使用されることになる。
【００６４】
また、図１０（ｂ）に示すように、単位区間長Ｔが、調和信号の１／４周期以上で１／２周期未満に相当する場合（単位区間の最終サンプルが分割区間Ｑ２に属する場合）は、分割区間Ｑ３・Ｑ４全体と分割区間Ｑ２の一部が欠損しているため、Ｑ１区間（先頭から１／４周期の区間）に対応する単位区間のサンプルを、調和信号の１／４周期（９０度：分割区間Ｑ１と分割区間Ｑ２の境界）の時点において時間軸方向に反転させたサンプルを分割区間Ｑ２に追加し、さらに追加された分割区間Ｑ２のサンプルを、調和信号の１／２周期（１８０度）の時点において時間軸および振幅軸方向に反転させたサンプルを分割区間Ｑ３に追加し、さらに追加された分割区間Ｑ３のサンプルを、調和信号の３／４周期（２７０度）の時点において時間軸方向に反転させたサンプルを追加する。９０度の時点において時間軸方向に反転させるのは、調和信号の１周期が正弦波であると仮定すると、分割区間Ｑ１と分割区間Ｑ２は９０度を軸に時間軸方向に左右対称である特徴を利用したものである。このようにして時間軸延長が行われ、図１０（ａ）に示すような波形の解析フレーム（最大１６３８４サンプル）が得られる。この場合、調和信号の１／４周期を超えた部分の単位区間のサンプルは、単位区間内のいずれかのサンプルが重複して使用されることになる。
尚、単位区間長Ｔが、調和信号の１／４周期未満に相当する場合（単位区間の最終サンプルが分割区間Ｑ１に属する場合）も起こり得るが、これをもとに時間軸延長を行って相関計算を行っても、ソースとなる情報量が少なすぎて、有意な相関値が得られないため、単位区間長Ｔが、調和信号の１／４周期未満に相当する周波数に対しては解析対象としないものとする。
【００６５】
各選出単位区間ｑについて解析フレームを変化させながら周波数解析を行い、スペクトル（１２８個の周波数成分）が算出されたら、個々の選出単位区間ごとに、Ｓ５において算出されたスペクトルに基づいて、Ｎ種類の各周波数に対応して、各周波数を特定可能な周波数情報と、各々に対応するスペクトル強度、および当該選出単位区間の開始と終了を特定可能な時間情報で構成される単音成分を作成する（Ｓ６）。具体的には、算出したスペクトルに、各ノートナンバーｎの時刻、時間長の情報を追加し、[開始時刻，時間長，主周波数ｎ，副周波数Ｓ（Ｐ（ｑ），ｎ），強度Ｅ２（ｑ，ｎ）]で構成される単音成分を作成する。「開始時刻」としては選出単位区間の先頭の時刻を、デジタル音響信号全体において特定できる情報であれば良く、本実施形態では、単位区間の先頭サンプル（ｉ＝０）に付されたデジタル音響信号全体におけるサンプル番号（絶対サンプルアドレス：ｊに対応）を記録している。この絶対サンプルアドレスをサンプリング周波数（４４１００）で除算することにより、音響信号先頭からの時刻が得られる。時間長は、本実施形態では選出単位区間ごとに可変で与えられることを特徴とし、直後に後続する一般化調和解析を行った選出単位区間の開始時刻までの差分（後続する選出単位区間の開始時刻−当該選出単位区間の開始時刻）で与えられる。直後に後続する選出単位区間が存在しない場合（最終の選出単位区間）、単位区間のシフト幅Ｗを時間長として与える。
【００６６】
続いて、時間軸方向に拡大して処理されたことによる変動を是正するため、各単音成分を補正する処理を行う（Ｓ７）。単音成分が作成されたら、全ての周波数情報（ノートナンバー値に対応）に１２・ｌｏｇ₂Ｋだけ加算する処理を行う。例えば、Ｋ＝４の場合、２４半音（２オクターブ）だけ全体的に音高を上げる。この処理は、Ｓ１においてサンプル数をＫ倍したことにより周波数が１／Ｋになっているため、周波数をＫ倍にして元の状態に戻すために行う。この補正によりノートナンバーが規格値上限の１２７を超えるノートナンバーをもつ符号コードは削除する。具体的には補正前のノートナンバーが１２８−１２・ｌｏｇ₂Ｋ以上の符号コードが削除される。
【００６７】
続いて、全ての開始時刻，時間長に１／Ｋを乗算する。これにより、後述する符号化処理によりＭＩＤＩ符号に変換した場合、ＭＩＤＩ符号全体の演奏時間、および各ノートイベントの発音時間が１／Ｋに縮小される。この処理は、Ｓ１においてサンプル数をＫ倍したことにより全体の演奏時間がＫ倍になっているため、時刻を１／Ｋにして元の状態に戻すために行う。
【００６８】
Ｓ７における処理の結果、周波数（音高）はＫ倍になるとともに、時間情報は１／Ｋになる。Ｓ７の補正処理による音成分の変化の様子を図３（ｂ）に示す。図３（ｂ）においては、Ｋ＝２の場合の音成分の変化を、音符により示している。Ｓ７の補正処理により左側の“ミ”の音符は、右側では１オクターブ高い（周波数が２倍）“ミ”の音符に変化している。一方、左側の四分音符が、右側では時間的に１／２の八分音符に変化している。
【００６９】
各単音成分の周波数をＫ倍、時間軸を１／Ｋ倍にする処理を行ったら、次に、聴覚フィルタ補正を行う（Ｓ８）。具体的には、Ｓ７までの処理により得られた０≦ｎ≦１２７の周波数範囲を２４個の帯域に分割し、各帯域単位でＥ２（ｑ，ｎ）に対して補正を行う。
【００７０】
本実施形態において聴覚フィルタ補正に用いる帯域フィルタについて説明しておく。非特許文献１を基に作成された帯域フィルタを図１１に示す。図１１においては、２４個の帯域に帯域番号１〜２４を付し、各帯域番号で特定される２４個の帯域について、下限周波数、中心周波数、上限周波数、帯域幅を示している。下限周波数、上限周波数はそれぞれ、各帯域の下限の周波数、上限の周波数を示しており、各帯域の下限周波数、上限周波数はそれぞれ各帯域フィルタにおける上下のカットオフ周波数、当該周波数より上側または下側の周波数成分は通さない（フィルタ利得dB値がマイナス無限大に近い）ときの上限周波数、下限周波数に一致している。中心周波数は、帯域フィルタ内で最も信号成分を通す（フィルタ利得dB値がプラス無限大に近い）ピーク周波数である。帯域幅は、各帯域の幅であり、下限周波数と上限周波数の差分値となっている。
【００７１】
図１２は、図１１に示した帯域フィルタをＭＩＤＩノートナンバー単位に変換したものである。すなわち、図１１に示した周波数ｆ（ｎ）（単位Ｈｚ）と、図１２に示したノートナンバーｎの関係は、ｆ（ｎ）＝４４０・２^(n-69)/12を満たすものとなっている。ただし、ノートナンバーが複数の帯域で重複しないように、各帯域の上限音高を１つ高い帯域の下限音高よりも１だけ減じた値としている。
【００７２】
各帯域は、帯域番号ｂを用いてＮｒ（ｂ）≦ｎ＜Ｎｒ（ｂ＋１）のノートナンバーｎの範囲で特定される。２５個の帯域境界値Ｎｒ（ｂ）（ｂ＝１，・・・，２５）は、Ｎｒ（ｂ）＝｛１７，４５，５７，６４，６９，７２，７６，７９，８２，８５，８８，９１，９３，９６，９８，１０１，１０４，１０６，１０９，１１３，１１６，１１９，１２３，１２７，１２８｝である。２５個の帯域境界値Ｎｒ（ｂ）のうち、ｂ＝１〜２４に対応するものは、各帯域の下限音高を示し、ｂ＝２５に対応する帯域境界値“１２８”のみ、帯域の中心音高を示している。図１１、図１２に示した帯域フィルタは典型例であり、上限、中心、下限の数値は適宜変更することができる。また、帯域の数についても、２４個が現状は定説であるが、これに限定されず、新たな知見に基づいて変更することができる。
【００７３】
図１３は、Ｓ８における聴覚フィルタ補正の詳細を示すフローチャートである。まず、帯域番号ｂを１に設定する（Ｓ２１）。これにより一番低い帯域である帯域番号１から処理が行われることになる。次に、帯域番号ｂに対応する下限音高Ｎｒ（ｂ）から上限音高Ｎｒ（ｂ＋１）−１の範囲内で相関値配列Ｅ２（ｑ，ｎ）が最大となる極大ノートナンバーｎｂｍａｘを探索する（Ｓ２２）。
【００７４】
続いて、帯域番号ｂに対応する下限音高Ｎｒ（ｂ）から上限音高Ｎｒ（ｂ＋１）−１の範囲内で極大ノートナンバーｎｂｍａｘ以外のノートナンバーｎに対応する相関値配列Ｅ２（ｑ，ｎ）の値を所定の割合だけ減衰する（Ｓ２３）。具体的には、極大ノートナンバーｎｂｍａｘ以外の各ノートナンバーｎに対応する相関値配列Ｅ２（ｑ，ｎ）に１未満の所定の実数値γを乗算して減衰補正する。実数値γは減衰補正を行うためのものであるので、１未満の値であれば適宜設定することができるが、本実施形態では、γ＝０．１に設定されている。したがって、Ｓ２３における処理により、極大ノートナンバーｎｂｍａｘ以外のノートナンバーｎに対応する各相関値Ｅ２（ｑ，ｎ）は、１／１０に減衰されることになる。
【００７５】
帯域番号ｂについて、極大ノートナンバーｎｂｍａｘの探索および他のノートナンバーに対応する相関値の減衰を行ったら、帯域番号ｂをカウントアップ（ｂ←ｂ＋１）する（Ｓ２４）。そして、最も高い帯域である帯域番号２４と帯域番号ｂとの比較を行う（Ｓ２５）。Ｓ２５における比較の結果、ｂが２４以下であれば、Ｓ２２に戻って次の帯域について、極大ノートナンバーｎｂｍａｘの探索（Ｓ２２）および他のノートナンバーに対応する相関値の減衰処理（Ｓ２３）を行う。一方、Ｓ２５における比較の結果、ｂが２５以上であれば、全ての帯域について処理を行ったことになるので、聴覚フィルタ補正処理を終了する。
【００７６】
Ｓ８における聴覚フィルタ補正処理の結果は、補正相関強度配列Ｅ‘（ｑ，ｎ）として出力される。補正相関強度配列Ｅ‘（ｑ，ｎ）における各補正相関値は、１２８個のＥ２（ｑ，ｎ）のうち、１０４個は減衰され、残る２４個は減衰されない状態のものとなる。
【００７７】
聴覚フィルタ補正処理を行ったら、次に、連続する選出単位区間において単音成分を連結（統合）する処理を行う（Ｓ９）。具体的には、連続する選出単位区間における単音成分が、所定の連結条件を満たす場合、２つの単音成分を連結する。ここで、連結判断の対象とする選出単位区間と単位区間との関係を図１４に示す。
【００７８】
図１４は、図４（ｂ）と同様、単位区間１−６のうち、単位区間１、５、６がそれぞれ選出単位区間１、２、３として選出された例を示している。本実施形態では、連結判断の対象を音成分として選出される選出単位区間の間ではなく、選出単位区間と隣接する単位区間の間で行う点に特徴がある。図１４の例では、選出単位区間１と選出単位区間２（単位区間５）を連結するかどうか判断する際に、選出単位区間１と選出単位区間２（単位区間５）の間で連結条件を判断するのではなく、選出単位区間２（単位区間５）とその直前の単位区間４の間で連結条件を判断する。これにより、時間的に最も近い単位区間が連結判断の際に考慮されることとなり、適切に音成分を連結することが可能になる。
【００７９】
連結条件としては、同一の音として連続性を有する状態を適宜設定することができる。本実施形態では、選出単位区間ｑと選出単位区間ｑ＋１を連結するか否かを判断するにあたり、４つの条件について判断する。第１の条件は、選出単位区間ｑ＋１（単位区間としてはＰ（ｑ＋１））における単音成分の強度から直前の単位区間Ｐ（ｑ＋１）−１における単音成分の強度を減じた値が所定のしきい値Ｌｄｉｆ未満であること。第２の条件は、その双方の強度が所定のしきい値Ｌｍｉｎより大きいこと。第３の条件は、ノートナンバーに対して上下１の変移を考慮し、副周波数を考慮した周波数の差が所定の閾値Ｎｄｉｆ未満であること。第４の条件は、選出単位区間ｑが既に他の選出単位区間と連結されている場合、選出単位区間ｑと連結されている先頭の選出単位区間ｑｏと選出単位区間ｑ＋１の副周波数を考慮した周波数の差が所定の閾値Ｎａｄｉｆ未満であること。以上４つの条件を全て満たす場合に、連続性を有するとして、後続の単音成分を前方の単音成分に連結する。第１の条件と第２の条件においても、ノートナンバーに対して上下１の変移を考慮する。本実施形態では、ノートナンバーの変移を考慮した以下の〔数式７〕〜〔数式９〕に従った４条件を満たすかどうかを判断することにより連結を行うか否かを決定する。
【００８０】
〔数式７〕
Ｅ１（Ｐ（ｑ＋１），ｎ）−Ｅ１（Ｐ（ｑ＋１）−１，ｎ）＜Ｌｄｉｆ
Ｅ１（Ｐ（ｑ＋１）−１，ｎ）＞ＬｍｉｎかつＥ１（Ｐ（ｑ＋１），ｎ）＞Ｌｍｉｎ
｜Ｓ（Ｐ（ｑ＋１）−１，ｎ）−Ｓ（Ｐ（ｑ＋１），ｎ）｜＜Ｎｄｉｆ
｜Ｓ（Ｐ（ｑｏ），ｎ）−Ｓ（Ｐ（ｑ＋１），ｎ）｜＜Ｎａｄｉｆ
【００８１】
上記〔数式７〕において１行目の式は、後続の単音成分の強度から前方の単音成分の強度を減じた値が所定のしきい値Ｌｄｉｆ未満であることを示し、２行目の式は、前方の単音成分と後続の単音成分の強度がともに所定のしきい値Ｌｍｉｎより大きいことを示し、３行目の式は、副周波数を考慮したノートナンバー単位の周波数の差が所定の閾値Ｎｄｉｆ未満であることを示している。４行目の式は、前方の選出単位区間がそれより前方の選出単位区間と既に連結されている場合に、先頭の選出単位区間ｑoと後続の選出単位区間ｑ＋１の副周波数を考慮したノートナンバー単位の周波数の差が所定の閾値Ｎａｄｉｆ未満であることを示している。
【００８２】
〔数式８〕
Ｅ１（Ｐ（ｑ＋１），ｎ−１）−Ｅ１（Ｐ（ｑ＋１）−１，ｎ）＜Ｌｄｉｆ
Ｅ１（Ｐ（ｑ＋１）−１，ｎ）＞ＬｍｉｎかつＥ１（Ｐ（ｑ＋１），ｎ−１）＞Ｌｍｉｎ
｜Ｓ（Ｐ（ｑ＋１）−１，ｎ）−Ｓ（Ｐ（ｑ＋１），ｎ−１）−Ｍ｜＜Ｎｄｉｆ
｜Ｓ（Ｐ（ｑｏ），ｎ）−Ｓ（Ｐ（ｑ＋１），ｎ−１）−Ｍ｜＜Ｎａｄｉｆ
【００８３】
上記〔数式７〕が同一ノートナンバー同士で比較しているのに対して、上記〔数式８〕においては、後続の単音成分として１ノートナンバー分下げたものを対象としている点が異なっている。３行目の式は、周波数をノートナンバー単位にすると、第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ−１）を決定する周波数Ｓ（Ｐ（ｑ＋１），ｎ−１）と、第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）を決定する副周波数Ｓ（Ｐ（ｑ＋１）−１，ｎ）との差が所定のしきい値Ｎｄｉｆ未満であることを示している。４行目の式は、周波数をノートナンバー単位にすると、第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ−１）を決定する周波数Ｓ（Ｐ（ｑ＋１），ｎ−１）と、第１のスペクトル強度Ｅ１（Ｐ（ｑｏ），ｎ）を決定する副周波数Ｓ（Ｐ（ｑｏ），ｎ）との差が所定のしきい値Ｎａｄｉｆ未満であることを示している。
【００８４】
〔数式９〕
Ｅ１（Ｐ（ｑ＋１），ｎ＋１）−Ｅ１（Ｐ（ｑ＋１）−１，ｎ）＜Ｌｄｉｆ
Ｅ１（Ｐ（ｑ＋１）−１，ｎ）＞ＬｍｉｎかつＥ１（Ｐ（ｑ＋１），ｎ＋１）＞Ｌｍｉｎ
｜Ｓ（Ｐ（ｑ＋１）−１，ｎ）−Ｓ（Ｐ（ｑ＋１），ｎ＋１）＋Ｍ｜＜Ｎｄｉｆ
｜Ｓ（Ｐ（ｑｏ），ｎ）−Ｓ（Ｐ（ｑ＋１），ｎ＋１）＋Ｍ｜＜Ｎａｄｉｆ
【００８５】
上記〔数式７〕が同一ノートナンバー同士で比較しているのに対して、上記〔数式９〕においては、後続の単音成分として１ノートナンバー分上げたものを対象としている点が異なっている。３行目の式は、周波数をノートナンバー単位にすると、第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ＋１）を決定する周波数Ｓ（Ｐ（ｑ＋１），ｎ＋１）と、第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）を決定する副周波数Ｓ（Ｐ（ｑ＋１）−１，ｎ）との差が所定のしきい値Ｎｄｉｆ未満であることを示している。４行目の式は、周波数をノートナンバー単位にすると、第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ＋１）を決定する周波数Ｓ（Ｐ（ｑ＋１），ｎ＋１）と、第１のスペクトル強度Ｅ１（Ｐ（ｑｏ），ｎ）を決定する副周波数Ｓ（Ｐ（ｑｏ），ｎ）との差が所定のしきい値Ｎａｄｉｆ未満であることを示している。
【００８６】
本実施形態における具体的な処理手順としては、まず、〔数式７〕に示した条件を全て満たすかどうかを判断する。そして、満たす場合には、連結処理へ進む。〔数式７〕に示した条件のうち１つでも満たさないものがある場合は、〔数式８〕に示した条件を全て満たすかどうかを判断する。そして、満たす場合には、連結処理へ進む。〔数式８〕に示した条件のうち１つでも満たさないものがある場合は、〔数式９〕に示した条件を全て満たすかどうかを判断する。そして、満たす場合には、連結処理へ進む。〔数式９〕に示した条件のうち１つでも満たさないものがある場合は、連結を行わないという決定を行う。
【００８７】
連結後の主周波数、副周波数、強度は大きい方の単音成分の各値を採用し、時間長は双方の和で与える。この時、強度は聴覚フィルタ補正を行った後の値を使用する。連結条件としての具体的なしきい値は、本実施形態では、Ｌｄｉｆ＝１０[単位：１２８段階ベロシティ換算]、Ｌｍｉｎ＝１[単位：１２８段階ベロシティ換算]、Ｎｄｉｆ＝４／２５[単位：ノートナンバー換算] 、Ｎａｄｉｆ＝８／２５[単位：ノートナンバー換算]としている。連結処理は、符号コードへの変換前に行うものであるため、各しきい値は、ノートナンバー、ベロシティに換算したものである。Ｓ９における連結処理の結果、連結処理されなかった単音成分はそのまま残ることになる。また、連結により連結音成分が得られることになるが、連結音成分は、単音成分と同様、[開始時刻，時間長，主周波数ｎ，副周波数Ｓ（Ｐ（ｑ），ｎ），強度Ｅ‘（ｑ，ｎ）]で構成され、このうち時間長が単音成分より大きい値を有することになる。連結処理により、単音成分と連結音成分が混在することになるが、以降これらをまとめて音成分と呼ぶことにする。なお、Ｓ９における連結処理については、実行した方が、長音の音符で表現することになり、符号量が少なくなりＭＩＤＩ音源で円滑で自然な演奏が行われるようになるため、一般に望ましいが、ピッチベンド符号の付加などが行われないと、逆にビブラートなど音の微妙な時間的変化が消失するためＭＩＤＩ音源で不自然に聞こえる場合もあるため、必ずしも必須ではない。Ｓ９における連結処理を行わない場合、全てが短い音符として表現されることになる。
【００８８】
Ｓ９の連結処理を終えたら、最終的に得られた[開始時刻，時間長，主周波数ｎ，副周波数Ｓ（Ｐ（ｑ），ｎ），強度Ｅ‘（ｑ，ｎ）]の音成分を、符号コードに変換する（Ｓ１０）。符号コードの形式としては、周波数情報と、各周波数に対応するスペクトル強度、および単位区間の開始と終了を特定可能な時間情報を有するものであれば、どのような形式のものであっても良いが、本実施形態では、ＭＩＤＩ形式に変換する。ＭＩＤＩでは、発音開始と発音終了を別のイベントとして発生するため、本実施形態では、１つの音成分を２つのＭＩＤＩノートイベントに変換する。具体的には、「開始時刻」で、ノートナンバーｎのノートオンイベントを発行し、ベロシティ値は強度Ｅ‘（ｑ，ｎ）の最大値をＥｍａｘとして、１２８・｛Ｅ‘（ｑ，ｎ）／Ｅｍａｘ｝^1/4で与える。時刻については、Standard MIDI Fileでは、直前イベントとの相対時刻（デルタタイム）で与える必要があり、その時刻単位は任意の整数値で定義でき、例えば、１／１５３６[秒]の単位に変換して与える。そして、絶対時刻が「開始時刻」＋「時間長」で特定される終了時刻で（デルタタイムでは「時間長」で与えられる終了時刻で）、ノートナンバーｎのノートオフイベントを発行する。この際、時間長には、０以上１以下の実数を乗じる。これは、使用するＭＩＤＩ音源の音色にも依存するが、ＭＩＤＩ音源の余韻を考慮して早めにノートオフ指示をするためである。時間長をそのまま用いてもＭＩＤＩ音源の処理上問題はないが、発音の際、後続音と部分的に重なる場合がある。
【００８９】
Ｓ１０の符号コード変換処理を終えたら、次に、符号コードに対して必要な調整を行う（Ｓ１１）。例えば、符号コードとしてＭＩＤＩ符号に変換する際、ＭＩＤＩ音源で処理可能な同時発音数についても考慮するため、同時発音数の調整を行う必要がある。ＭＩＤＩ音源で処理可能な同時発音数が３２である場合、時間軸方向に発音期間中（ノートオン状態）のノートイベントの個数を連続的にカウントし、同時に３２個を超えるノートイベントが存在する箇所が見つかった場合は、各々対になるノートオフイベントを近傍区間内で探索し、各ノートイベント対のベロシティ値とデュレーション値（ノートオフ時刻−ノートオン時刻）の積（エネルギー値）で優先度を評価し、指定和音数（この場合“３２”）以下になるように優先度の低い（エネルギー値の小さい）ノートイベント対を局所的に削除する処理を行う。“局所的に”とは、３２を超えるノートイベント対が存在する部分に限りという意味である。この際、ベロシティ値またはデュレーション値のいずれかが所定の下限値より低い場合、優先度に関係なく削除する処理も行う。この段階で、本願で提案した聴覚フィルタ補正の効果が顕著に働き、選択される３２個のノートイベントのうち２４個のノートイベントは、図１２で定義される２４個の各帯域内に含まれるノートナンバーより各々より少なくとも１つずつ選択され、残りの８個のノートナンバーは、いずれか８種の帯域より重複して選択される可能性が高くなる。実際には、図５に示されるように、符号化対象のノートナンバーをピアノの音域である２１〜１０８の範囲に限定することが多く、その場合、図１２で有効な帯域は１〜１８番に制限されるため、１８個の各帯域内に含まれるノートナンバーより各々より少なくとも１つずつ選択され、残りの１４個のノートナンバーは、いずれか１４種の帯域より重複して選択される可能性が高くなる。ただし、これはあくまで、このように選択される確率が高くなるように補正をしたということで、選出単位区間によっては、選択されるノートイベントは１８種未満のいずれかの帯域から選択されたり、１つの帯域から３種以上のノートナンバーが重複して選択されることもあり得る。このように符号化されたＭＩＤＩデータを、３２和音以上同時発音可能なＭＩＤＩ音源を用いて再生すると、特定の周波数帯域に限定されず、ヒト聴覚系が同時に聴取できる全ての周波数帯域の音域をカバーするため、ヒトが符号化前の原音響信号をそのまま聴取するのと同等な臨場感で明瞭に聴取することが可能になる。
【００９０】
さらに、符号コードで処理可能なビットレートについても考慮するため、ビットレートの調整を行う。ＭＩＤＩ符号に変換する場合、時間軸方向に、例えば１秒間隔にノートイベント対の個数をカウントし、各々の符号データ量を平均５バイト（４０ビット）とし、ＭＩＤＩ音源で処理可能な最大ビットレートを９０００［ｂｐｓ（ビット／秒）］とすると、１秒間あたりイベント数が９０００／４０＝２２５個を超えている区間が見つかった場合は、その区間に存在するノートオンまたはノートオフイベントと各々対になるノートオフまたはノートオンイベントを近傍区間内で探索し、各ノートイベント対のベロシティ値とデュレーション値（ノートオフ時刻−ノートオン時刻）の積（エネルギー値）で優先度を評価し、指定イベント個数（この場合“２２５”）以下になるように優先度の低い（エネルギー値の小さい）ノートイベント対を局所的に削除する処理を行う。この際、ベロシティ値またはデュレーション値のいずれかが所定の下限値より低い場合、優先度に関係なく削除する処理も行う。この段階でも、本願で提案した聴覚フィルタ補正の効果が顕著に働き、図１２で定義される２４個（ピアノ音域に限定した運用の場合は１８個）の各帯域内に含まれる少なくとも１つのノートナンバーのノートイベントは削除されず残存する可能性が高くなる。
【００９１】
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、ノートナンバー間をＭ個の微分音（副周波数）を用いて解析を行うようにしたが、微分音を用いず、ノートナンバーに対応したＮ種類の周波数のみで解析するようにしても良い。この場合、解析精度は若干落ちるが、解析対象の周波数の数が減るため、処理負荷は軽減される。微分音を用いない場合、Ｓ９の単音成分の連結処理の判断において、〔数式７〕〜〔数式９〕では、いずれも３行目、４行目の式は判断しないことになる。
【００９２】
また、上記実施形態では、単位区間の設定前に、Ｓ１において時系列方向へのサンプル数の拡大処理を行い、単音成分の作成後、Ｓ７において単音成分の補正として各単音成分の周波数をＫ倍、時間軸を１／Ｋ倍にする処理を行っているが、特別に高い時間分解能を必要としない場合、必ずしも実行しなくても良い。
【００９３】
また、上記実施形態では、周波数解析を第１の周波数解析と第２の周波数解析に分け、第１の周波数解析の結果、所定の条件を満たした選出単位区間に対して第２の周波数解析を実行するようにしたが、各単位区間に対して、特許文献１〜３に開示されているような公知の周波数解析を実行するようにしても良い。
【産業上の利用可能性】
【００９４】
本発明は、ＰＣＭ等により得られた音響信号を、ＭＩＤＩ符号等の符号コードに変換する技術を用い、放送メディア（地上・ＢＳなどによるデジタルラジオ・テレビ放送など）、通信メディア（ＣＳ放送、インターネット・ストリーミング放送、携帯電話サービス、携帯音楽配信サービスなど）、パッケージメディア（ＣＤ、ＤＶＤ、ＢｌｕｅＲａｙ、メモリＩＣカードなど）向けのオーディオコンテンツ制作産業に利用することができる。
【符号の説明】
【００９５】
１・・・ＣＰＵ
２・・・ＲＡＭ
３・・・データ記憶装置
４・・・プログラム記憶装置
５・・・キー入力Ｉ／Ｆ
６・・・データ入出力Ｉ／Ｆ
７・・・表示出力Ｉ／Ｆ

【特許請求の範囲】
【請求項１】
所定のサンプリング周波数でデジタル化されたＪ個の時系列のサンプル列として与えられる音響信号を符号化するための符号化方法であって、
前記サンプル列に対して、所定数Ｔ（Ｔ＜Ｊ）個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に所定数Ｗ（Ｗ＜Ｔ）個のサンプルを重複させながら設定する区間設定段階と、
個々の単位区間ごとに、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、周波数変換を行うことにより、各単位区間に対して、前記Ｎ種類の周波数に対応したスペクトル強度を算出するスペクトル算出段階と、
前記Ｎ種類の各周波数ｆ（ｎ）を互いに重複しないように所定数の周波数グループに分割し、前記各単位区間に対して、各周波数グループに含まれる周波数のスペクトル強度の中で最大値をとる周波数以外のスペクトル強度に所定の割合だけ減衰させるように補正を行い、補正スペクトル強度を作成するスペクトル補正段階と、
前記単位区間の先頭時刻と直後の単位区間の先頭時刻との時間差と、前記単位区間の補正スペクトル強度に基づいて、所定の形式の符号コードを生成する符号化段階と、
を有することを特徴とする音響信号の符号化方法。
【請求項２】
請求項１において、
前記所定数の周波数グループは、ヒト聴覚系の特性に基づき、前記ｎの値を規格上のノートナンバーと定義して、１７，４５，５７，６４，６９，７２，７６，７９，８２，８５，８８，９１，９３，９６，９８，１０１，１０４，１０６，１０９，１１３，１１６，１１９，１２３，１２７，１２８を境界とする２４個で設定されることを特徴とする音響信号の符号化方法。
【請求項３】
請求項１において、
前記所定数の周波数グループは、ヒト聴覚系の特性に基づき、周波数ｆ（ｎ）の値が２０，１００，２００，３００，４００,５１０，６３０，７７０，９２０,１０８０,１２７０,１４８０,１７２０,２０００,２３２０,２７００,３１５０,３７００,４４００,５３００,６４００,７７００，９５００，１２０００，１５５００Ｈｚを境界とする２４個で設定されることを特徴とする音響信号の符号化方法。
【請求項４】
請求項１から請求項３のいずれか一項において、
前記スペクトル算出段階は、
個々の単位区間ごとに、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、周波数変換を行うことにより、単位区間ｐに対して、前記Ｎ種類の周波数に対応した第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出する第１のスペクトル算出段階と、
前記単位区間ｐに対して直前に位置する単位区間ｐ−１における第１のスペクトル強度Ｅ１（ｐ−１，ｎ）との対応する周波数ごとの変化に基づく評価値が、所定のしきい値より大きい場合に限り、当該単位区間ｐをｑ（ｑ≦ｐ）番目の選出単位区間ｑとして選出し、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、前記第１のスペクトル算出段階における周波数変換に比較して高精度な周波数変換を行うことにより、前記Ｎ種類の周波数に対応した第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出する第２のスペクトル算出段階と、
により構成され、
前記スペクトル強度として第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出するものであり、
前記スペクトル補正段階は、前記第２のスペクトル強度Ｅ２（ｑ，ｎ）に対して所定の割合だけ減衰させるように補正を行い、前記補正スペクトル強度として補正スペクトル強度Ｅ‘（ｑ，ｎ）を作成するようにしていることを特徴とする音響信号の符号化方法。
【請求項５】
請求項４において、
前記第１のスペクトル算出段階および第２のスペクトル算出段階はＮ種類の各周波数ｆ（ｎ）に対して隣接する周波数を超えない範囲で所定のＭ種類の副周波数ｆ（ｎ，ｍ）を設定し、前記第１のスペクトル強度Ｅ１（ｐ，ｎ）および第２のスペクトル強度Ｅ２（ｑ，ｎ）として、前記Ｍ種類の副周波数の中で最も大きい強度を示す副周波数に対応する強度値を算出することを特徴とする音響信号の符号化方法。
【請求項６】
請求項４または請求項５において、
前記符号化段階は、隣接する２つの選出単位区間ｑと選出単位区間ｑ＋１に対して、前記選出単位区間ｑがｐ番目の単位区間ｐであった場合に、Ｐ（ｑ）＝ｐと定義し、前記選出単位区間ｑ＋１における周波数ｆ（ｎ）、ｆ（ｎ−１）、ｆ（ｎ＋１）に対応する前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）のいずれかと、当該選出単位区間ｑ＋１の直前に位置する単位区間Ｐ（ｑ＋１）−１における周波数ｆ（ｎ）に対応する前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）との差が所定のしきい値Ｌｄｉｆ未満で、かつ前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）のいずれかおよび前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）が所定のしきい値Ｌｍｉｎより大きい場合、前記選出単位区間ｑと選出単位区間ｑ＋１を連結し、前記符号コードの基礎となる時間差として、前記選出単位区間ｑに定義された選出単位区間ｑの先頭時刻と、選出単位区間ｑ＋１の直後の選出単位区間ｑ＋２の先頭時刻との時間差を用いることを特徴とする音響信号の符号化方法。
【請求項７】
請求項６において、
前記符号化段階は、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）を決定する副周波数の少なくともいずれか１つと、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）を決定する副周波数とのノートナンバー単位の差が所定のしきい値Ｎｄｉｆ未満という条件をさらに満たした場合に限り、前記選出単位区間ｑと選出単位区間ｑ＋１を連結することを特徴とする音響信号の符号化方法。
【請求項８】
請求項７において、
前記選出単位区間ｑが、既に他の選出単位区間と連結されている場合、前記選出単位区間ｑが連結されている先頭の選出単位区間をｑｏとし、
前記符号化段階は、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）を決定する副周波数の少なくともいずれか１つと、前記第１のスペクトル強度Ｅ１（Ｐ（ｑｏ），ｎ）を決定する副周波数とのノートナンバー単位の差が所定のしきい値Ｎａｄｉｆ未満という条件をさらに満たした場合に限り、前記選出単位区間ｑと選出単位区間ｑ＋１を連結することを特徴とする音響信号の符号化方法。
【請求項９】
請求項４から請求項８のいずれか一項において、
前記第１のスペクトル算出段階は、前記単位区間の区間信号の構成要素となるべきＮ種類の要素信号を、各々当該周波数ｆ（ｎ）の周期の整数倍に対応し、前記Ｔに最も近いＴ（ｎ）個のサンプルとして準備する要素信号準備段階と、
前記Ｎ個の各周波数ｆ（ｎ）に対応する要素信号と、それぞれ対応する前記単位区間ｐのＴ（ｎ）個のサンプルで構成される区間信号との相関演算を行うことにより、第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出する相関演算段階により構成され、
前記第２のスペクトル算出段階は、
前記要素信号準備段階と、
前記Ｎ個の各周波数ｆ（ｎ）に対応する要素信号と、それぞれ対応する前記選出単位区間ｑのＴ（ｎ）個のサンプルで構成される区間信号との相関演算を行い、相関値が最も高い周波数ｆ（ｎｍａｘ）に対応する要素信号を調和信号として選出する調和信号選出段階と、
前記選出された調和信号と当該調和信号について得られた相関値との積で与えられるＴ（ｎｍａｘ）個のサンプルを含有信号とし、当該含有信号を前記区間信号から減じることにより、Ｔ（ｎｍａｘ）個のサンプルで構成される差分信号を求める差分信号演算段階と、を有し、
前記Ｔ（ｎｍａｘ）個のサンプルを反映させ更新されたＴ（ｎ）個のサンプルを新たな区間信号として、前記調和信号選出段階および差分信号演算段階を実行して新たな含有信号および差分信号を得る処理を繰り返し行うことによりＮ個の含有信号を求め、求められた含有信号の相関値に基づいて、前記Ｎ種類の周波数に対応した第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出することを特徴とする音響信号の符号化方法。
【請求項１０】
請求項９において、
前記相関演算段階は、
直前に位置する単位区間ｐ−１における各周波数ｆ（ｎ）に対応する直前相関演算結果に対し、前記単位区間ｐ−１における先頭Ｗサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果より減算するとともに、前記単位区間ｐにおけるＴ（ｎ）サンプル中の最後尾Ｗサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果に加算することにより、前記単位区間ｐにおける各周波数ｆ（ｎ）に対応する相関演算結果を取得し、当該相関演算結果に基づいて前記第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出することを特徴とする音響信号の符号化方法。
【請求項１１】
請求項１から請求項１０のいずれか一項において、
前記符号化段階は、前記符号コードとしてＭＩＤＩ形式を用いて符号化を行い、前記符号コードの前記周波数の情報としてノートナンバーを用い、前記第２のスペクトル強度としてベロシティを用い、前記選出単位区間ｑの先頭時刻と直後の選出単位区間ｑ＋１の先頭時刻との時間差を各々直前のＭＩＤＩイベントからの相対時刻であるデルタタイム１とデルタタイム２で定義し、これらの定義されたノートナンバー、ベロシティ、デルタタイム１を基にＭＩＤＩのノートオンイベントを作成するとともに、ノートナンバー、デルタタイム２を基にＭＩＤＩのノートオフイベントを作成するようにしていることを特徴とする音響信号の符号化方法。
【請求項１２】
所定のサンプリング周波数でデジタル化されたＪ個の時系列のサンプル列として与えられる音響信号を符号化するための符号化装置であって、
前記サンプル列に対して、所定数Ｔ（Ｔ＜Ｊ）個のサンプルで構成される単位区間を、隣接する単位区間と時間軸方向に所定数Ｗ（Ｗ＜Ｔ）個のサンプルを重複させながら設定する区間設定手段と、
個々の単位区間ごとに、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、周波数変換を行うことにより、各単位区間に対して、前記Ｎ種類の周波数に対応したスペクトル強度を算出するスペクトル算出手段と、
前記Ｎ種類の各周波数ｆ（ｎ）を互いに重複しないように所定数の周波数グループに分割し、前記各単位区間に対して、各周波数グループに含まれる周波数のスペクトル強度の中で最大値をとる周波数以外のスペクトル強度に所定の割合だけ減衰させるように補正を行い、補正スペクトル強度を作成するスペクトル補正手段と、
前記単位区間の先頭時刻と直後の単位区間の先頭時刻との時間差と、前記単位区間の補正スペクトル強度に基づいて、所定の形式の符号コードを生成する符号化手段と、
を有することを特徴とする音響信号の符号化装置。
【請求項１３】
請求項１２において、
前記所定数の周波数グループは、ヒト聴覚系の特性に基づき、前記ｎの値を規格上のノートナンバーと定義して、１７，４５，５７，６４，６９，７２，７６，７９，８２，８５，８８，９１，９３，９６，９８，１０１，１０４，１０６，１０９，１１３，１１６，１１９，１２３，１２７，１２８を境界とする２４個で設定されることを特徴とする音響信号の符号化装置。
【請求項１４】
請求項１２において、
前記所定数の周波数グループは、ヒト聴覚系の特性に基づき、周波数ｆ（ｎ）の値が２０，１００，２００，３００，４００,５１０，６３０，７７０，９２０,１０８０,１２７０,１４８０,１７２０,２０００,２３２０,２７００,３１５０,３７００,４４００,５３００,６４００,７７００，９５００，１２０００，１５５００Ｈｚを境界とする２４個で設定されることを特徴とする音響信号の符号化装置。
【請求項１５】
請求項１２から請求項１４のいずれか一項において、
前記スペクトル算出手段は、
個々の単位区間ごとに、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、周波数変換を行うことにより、単位区間ｐに対して、前記Ｎ種類の周波数に対応した第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出する第１のスペクトル算出手段と、
前記単位区間ｐに対して直前に位置する単位区間ｐ−１における第１のスペクトル強度Ｅ１（ｐ−１，ｎ）との対応する周波数ごとの変化に基づく評価値が、所定のしきい値より大きい場合に限り、当該単位区間ｐをｑ（ｑ≦ｐ）番目の選出単位区間ｑとして選出し、解析対象とする少なくともＮ種類の各周波数ｆ（ｎ）について、前記第１のスペクトル算出段階における周波数変換に比較して高精度な周波数変換を行うことにより、前記Ｎ種類の周波数に対応した第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出する第２のスペクトル算出手段と、
により構成され、
前記スペクトル強度として第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出するものであり、
前記スペクトル補正手段は、前記第２のスペクトル強度Ｅ２（ｑ，ｎ）に対して所定の割合だけ減衰させるように補正を行い、前記補正スペクトル強度として補正スペクトル強度Ｅ‘（ｑ，ｎ）を作成するようにしていることを特徴とする音響信号の符号化装置。
【請求項１６】
請求項１５において、
前記第１のスペクトル算出手段および第２のスペクトル算出手段はＮ種類の各周波数ｆ（ｎ）に対して隣接する周波数を超えない範囲で所定のＭ種類の副周波数ｆ（ｎ，ｍ）を設定し、前記第１のスペクトル強度Ｅ１（ｐ，ｎ）および第２のスペクトル強度Ｅ２（ｑ，ｎ）として、前記Ｍ種類の副周波数の中で最も大きい強度を示す副周波数に対応する強度値を算出することを特徴とする音響信号の符号化装置。
【請求項１７】
請求項１５または請求項１６において、
前記符号化手段は、隣接する２つの選出単位区間ｑと選出単位区間ｑ＋１に対して、前記選出単位区間ｑがｐ番目の単位区間ｐであった場合に、Ｐ（ｑ）＝ｐと定義し、前記選出単位区間ｑ＋１における周波数ｆ（ｎ）、ｆ（ｎ−１）、ｆ（ｎ＋１）に対応する前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）のいずれかと、当該選出単位区間ｑ＋１の直前に位置する単位区間Ｐ（ｑ＋１）−１における周波数ｆ（ｎ）に対応する前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）との差が所定のしきい値Ｌｄｉｆ未満で、かつ前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）のいずれかおよび前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）が所定のしきい値Ｌｍｉｎより大きい場合、前記選出単位区間ｑと選出単位区間ｑ＋１を連結し、前記符号コードの基礎となる時間差として、前記選出単位区間ｑに定義された選出単位区間ｑの先頭時刻と、選出単位区間ｑ＋１の直後の選出単位区間ｑ＋２の先頭時刻との時間差を用いることを特徴とする音響信号の符号化装置。
【請求項１８】
請求項１７において、
前記符号化手段は、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）を決定する副周波数の少なくともいずれか１つと、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１）−１，ｎ）を決定する副周波数とのノートナンバー単位の差が所定のしきい値Ｎｄｉｆ未満という条件をさらに満たした場合に限り、前記選出単位区間ｑと選出単位区間ｑ＋１を連結することを特徴とする音響信号の符号化装置。
【請求項１９】
請求項１８において、
前記選出単位区間ｑが、既に他の選出単位区間と連結されている場合、前記選出単位区間ｑが連結されている先頭の選出単位区間をｑｏとし、
前記符号化手段は、前記第１のスペクトル強度Ｅ１（Ｐ（ｑ＋１），ｎ）、Ｅ１（Ｐ（ｑ＋１），ｎ−１）、Ｅ１（Ｐ（ｑ＋１），ｎ＋１）を決定する副周波数の少なくともいずれか１つと、前記第１のスペクトル強度Ｅ１（Ｐ（ｑｏ），ｎ）を決定する副周波数とのノートナンバー単位の差が所定のしきい値Ｎａｄｉｆ未満という条件をさらに満たした場合に限り、前記選出単位区間ｑと選出単位区間ｑ＋１を連結することを特徴とする音響信号の符号化装置。
【請求項２０】
請求項１５から請求項１９のいずれか一項において、
前記第１のスペクトル算出手段は、前記単位区間の区間信号の構成要素となるべきＮ種類の要素信号を、各々当該周波数ｆ（ｎ）の周期の整数倍に対応し、前記Ｔに最も近いＴ（ｎ）個のサンプルとして準備する要素信号準備手段と、
前記Ｎ個の各周波数ｆ（ｎ）に対応する要素信号と、それぞれ対応する前記単位区間ｐのＴ（ｎ）個のサンプルで構成される区間信号との相関演算を行うことにより、第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出する相関演算手段により構成され、
前記第２のスペクトル算出手段は、
前記要素信号準備手段と、
前記Ｎ個の各周波数ｆ（ｎ）に対応する要素信号と、それぞれ対応する前記選出単位区間ｑのＴ（ｎ）個のサンプルで構成される区間信号との相関演算を行い、相関値が最も高い周波数ｆ（ｎｍａｘ）に対応する要素信号を調和信号として選出する調和信号選出手段と、
前記選出された調和信号と当該調和信号について得られた相関値との積で与えられるＴ（ｎｍａｘ）個のサンプルを含有信号とし、当該含有信号を前記区間信号から減じることにより、Ｔ（ｎｍａｘ）個のサンプルで構成される差分信号を求める差分信号演算手段と、を有し、
前記Ｔ（ｎｍａｘ）個のサンプルを反映させ更新されたＴ（ｎ）個のサンプルを新たな区間信号として、前記調和信号選出手段および差分信号演算手段による処理を実行して新たな含有信号および差分信号を得る処理を繰り返し行うことによりＮ個の含有信号を求め、求められた含有信号の相関値に基づいて、前記Ｎ種類の周波数に対応した第２のスペクトル強度Ｅ２（ｑ，ｎ）を算出することを特徴とする音響信号の符号化装置。
【請求項２１】
請求項２０において、
前記相関演算手段は、
直前に位置する単位区間ｐ−１における各周波数ｆ（ｎ）に対応する直前相関演算結果に対し、前記単位区間ｐ−１における先頭Ｗサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果より減算するとともに、前記単位区間ｐにおけるＴ（ｎ）サンプル中の最後尾Ｗサンプルに対応する相関演算を行い、各周波数ごとの相関値を前記直前相関演算結果に加算することにより、前記単位区間ｐにおける各周波数ｆ（ｎ）に対応する相関演算結果を取得し、当該相関演算結果に基づいて前記第１のスペクトル強度Ｅ１（ｐ，ｎ）を算出することを特徴とする音響信号の符号化装置。
【請求項２２】
請求項１２から請求項２１のいずれか一項において、
前記符号化手段は、前記符号コードとしてＭＩＤＩ形式を用いて符号化を行い、前記符号コードの前記周波数の情報としてノートナンバーを用い、前記第２のスペクトル強度としてベロシティを用い、前記選出単位区間ｑの先頭時刻と直後の選出単位区間ｑ＋１の先頭時刻との時間差を各々直前のＭＩＤＩイベントからの相対時刻であるデルタタイム１とデルタタイム２で定義し、これらの定義されたノートナンバー、ベロシティ、デルタタイム１を基にＭＩＤＩのノートオンイベントを作成するとともに、ノートナンバー、デルタタイム２を基にＭＩＤＩのノートオフイベントを作成するようにしていることを特徴とする音響信号の符号化装置。
【請求項２３】
請求項１から請求項１１のいずれかに記載の音響信号の符号化方法をコンピュータに実行させるためのプログラム。
【請求項２４】
請求項１２から請求項２２のいずれかに記載の音響信号の符号化装置としてコンピュータを機能させるためのプログラム。

【図１】