音響信号に対する情報の埋め込み装置および音響信号を利用した位置検出装置

【課題】可能な限り少ない数のスピーカから発せられる音を利用して、二次元における詳細な位置を特定することが可能な音響信号に対する情報の埋め込み装置および音響信号を利用した位置検出装置を提供する。
【解決手段】所定長のビット列で構成される９種のＩＤを用意しておき、ＩＤ１１のビット値およびＩＤ１１とＩＤ３１、ＩＤ１１とＩＤ１３のビット値の異同に基づき所定周波数成分の強度を変化させた音響信号をＦＬスピーカから出力する。同様な処理を、他のチャンネルに対しても行い、所定周波数成分の強度を変化させた音響信号をＦＲスピーカ、ＢＬスピーカ、ＢＲスピーカから出力する。４つのスピーカに囲まれた範囲に設置されたマイクロフォンでは、それぞれＩＤ１１からＩＤ３３を抽出し、事前に記録したＩＤと位置との対応関係に基づいて、対応する位置を検出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音響信号に埋め込まれた情報を利用して、位置を検出するための技術に関する。
【背景技術】
【０００２】
近年、携帯電話機等にＧＰＳ技術が採用され、端末の位置検出を行うことが可能になってきている。しかし、ＧＰＳを用いた位置検出は分解能が低いため、屋内の位置を特定するには十分でないという問題がある。
【０００３】
一方、出願人は、流れている音楽のタイトル等を知ることができる楽曲属性情報の提供サービスなどに応用可能とするため、音響信号の周波数成分の比率を属性情報のビット値に応じて変更することにより、属性情報（付加情報）を埋め込む技術を提案している（特許文献１参照）。
【０００４】
また、出願人は、特許文献１に記載の発明における、広いホール等で２つのスピーカが離れている場合、双方のチャンネルからの音が混ざり合った中央付近では抽出することができないという問題を解決するため、音脈分凝の原理を利用して、情報の埋め込みおよび抽出を行う技術を提案している（特許文献２参照）。
【特許文献１】特開２００６−３２３２４６号公報
【特許文献２】特開２００８−２５６９４８号
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上述のように、ＧＰＳを用いた位置検出は分解能が低いため、屋内において詳細な位置を特定するには十分でないという問題がある。上記特許文献１、２の技術を利用することにより、それぞれから発するスピーカに位置を特定する情報を埋め込めば、位置検出に利用することも可能であるが、詳細な位置を特定するためには多数のスピーカを設置しなければならないという問題がある。また、一方向の位置検出だけでなく、二次元における位置検出を行うことができないという問題がある。
【０００６】
そこで、本発明は、可能な限り少ない数のスピーカから発せられる音を利用して、二次元における詳細な位置を特定することが可能な音響信号に対する情報の埋め込み装置および音響信号を利用した位置検出装置を提供することを課題とする。
【課題を解決するための手段】
【０００７】
上記課題を解決するため、本発明では、少なくとも４チャンネルの時系列のサンプル列で構成される音響信号に対して、前記音響信号が少なくとも４つのスピーカで再生される際に、それぞれのスピーカ近辺の４箇所、４つのスピーカの中間（ｎ²−５）箇所、および４つのスピーカの中央１箇所の計ｎ²箇所の位置で互いに異なるｎ²種の識別情報が抽出可能になるように、互いに異なるｎ²種の識別情報をｎ種の前後識別情報とｎ種の左右識別情報の組み合わせとして聴取不能な状態で埋め込む装置であって、前記音響信号より、所定数のサンプルを各チャンネルごとに読み込み、音響フレームを作成する音響フレーム読込手段と、前記読み込んだ各チャンネルの音響フレームに対して、所定の窓関数を用いて周波数変換を行い、前記音響フレームに対する窓スペクトルを得る周波数変換手段と、前記生成された各窓スペクトルから所定の周波数範囲における複数のスペクトル集合を抽出し、そのチャンネルに埋め込むべき本来の前後または左右識別情報を構成するビット値に基づいて、前記窓スペクトルに対応する複数のスペクトル集合間の強度値を一方の強度値が他方の強度値より所定の程度で強くなるように変更するものであり、前後識別情報を用いる場合、前記強度値の大小関係を逆転させない範囲において、さらに強度値を変更させる程度を（ｎ＋１）／２段階に設定するとともに、他のスピーカとの間のほぼ中央で抽出させるべき前後識別情報のビット値が前記本来の前後識別情報のビット値と同一である場合に最大の程度になるようにし、本来の前後識別情報を抽出させる位置と隣接する位置において抽出させるべき前後識別情報のビット値が前記本来の前後識別情報のビット値と異なる場合に、最小の程度となるようにしており、左右識別情報を用いる場合、前記強度値の大小関係を逆転させない範囲において、さらに強度値を変更させる程度を（ｎ＋１）／２段階に設定するとともに、他のスピーカとの間のほぼ中央で抽出させるべき左右識別情報のビット値が前記本来の左右識別情報のビット値と同一である場合に最大の程度になるようにし、本来の左右識別情報を抽出させる位置と隣接する位置において抽出させるべき左右識別情報のビット値が前記本来の左右識別情報のビット値と異なる場合に、最小の程度となるようにしている周波数成分変更手段と、前記変更されたスペクトル集合を含む各窓スペクトルに対して周波数逆変換を行って、改変音響フレームを生成する周波数逆変換手段と、前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段を有する音響信号に対する情報の埋め込み装置を提供する。
【０００８】
また、本発明では、あらかじめ聴取不能な状態でｎ²種の識別情報が埋め込まれた音響信号から、前記音響信号を少なくとも４つのスピーカで再生し、それぞれのスピーカ近辺の４箇所、４つのスピーカの中間（ｎ²−５）箇所、および４つのスピーカの中央１箇所の計ｎ²箇所の位置を検出する装置であって、各スピーカを基準とする相対位置と前記識別情報を対応付けた位置関係を記憶した位置関係記憶手段と、前記音響信号が再生されている空間内の所定の位置で音響信号をモノラル入力し、所定区間をデジタル化して、所定数のサンプルで構成される音響フレームを獲得する音響フレーム獲得手段と、前記読み込んだ音響フレームのうち、奇数番目、偶数番目の一方をＡタイプ、他方をＢタイプとし、前記Ａタイプの音響フレームに対して第１窓関数を用いて周波数変換を行い、前記Ｂタイプの音響フレームに対して第２窓関数を用いて周波数変換を行い、前記第１窓関数に対応するスペクトルである第１窓スペクトル、前記第２窓関数に対応するスペクトルである第２窓スペクトルを得る周波数変換手段と、前記生成された各窓スペクトルから所定の周波数範囲における互いに重複しない２個のスペクトル集合を、周波数が高い方のスペクトル集合の周波数幅が大きくなるように抽出し、更に各スペクトル集合を１／２の周波数幅に均等分割し、前記第１窓スペクトルから抽出した４個のスペクトル集合の強度値を周波数が低い順にＥ１、Ｅ３、Ｅ５、Ｅ７として算出し、前記第２窓スペクトルから抽出した４個のスペクトル集合の強度値を周波数が低い順にＥ２、Ｅ４、Ｅ６、Ｅ８として算出し、Ｅ１とＥ４の積と、Ｅ２とＥ３の積との大小関係、およびＥ５とＥ８の積と、Ｅ６とＥ７の積との大小関係に基づいて、埋め込まれていたビット値を抽出する符号化手段と、前記抽出されたビット値をワード単位で所定の規則により変換して時系列に各々ｎ種の前後識別情報と左右識別情報を抽出し、これらを結合して前記ｎ²種の識別情報として抽出する識別情報抽出手段と、前記識別情報抽出手段により得られた識別情報を用いて、前記位置関係記憶手段を参照して位置情報を取得し、当該取得した位置情報を出力する位置出力手段を有する音響信号を利用した位置検出装置を提供する。
【発明の効果】
【０００９】
本発明によれば、少なくとも４つの各チャンネル用の本来の識別情報と、中間検出用の（ｎ²−５）種の識別情報、および４つのスピーカの中央１種の識別情報の計ｎ²種の識別情報を用意し、４つの各チャンネルに対応するビット値を埋め込む際、中間検出用の識別情報のビット値に従って、各チャンネルの所定周波数範囲における変更対象周波数成分の強度の程度を段階的に変化させるようにしたので、各スピーカの間に所定の間隔で設置されたマイクロフォンで取得された音は、所定周波数範囲において、いずれかのスピーカの音からの影響を大きく受けることになり、（ｎ²−４）種の識別情報を抽出することができ、その抽出した情報により４つのスピーカに囲まれた範囲における相対的位置を特定することが可能となる。
【発明を実施するための最良の形態】
【００１０】
以下、本発明の実施形態について図面を参照して詳細に説明する。
（１．本発明の基本概念）
（１．１．一次元の位置検出）
本発明の基本概念の説明に際し、本発明の基礎となる一次元の位置検出について説明する。図１（ａ）は、従来（特許文献１、２等に示された技術）の、音響信号を利用した識別情報の抽出を示す図である。図１（ａ）の例では、Ｌチャンネル音響信号に識別情報としてＩＤ１を埋め込み、Ｒチャンネル音響信号に識別情報としてＩＤ２を埋め込んでいる。このような音響信号を再生すると、Ｌスピーカ付近のマイクロフォンから取り込んだ音、Ｒスピーカ付近のマイクロフォンから取り込んだ音から抽出装置はそれぞれＩＤ１、ＩＤ２を抽出する。しかし、ＬスピーカとＲスピーカからほぼ等距離のマイクロフォンから取り込んだ音からは、抽出装置はＩＤを正しく抽出することができない。これは、ＬスピーカとＲスピーカからほぼ等距離のマイクロフォンでは、Ｌスピーカからの音とＲスピーカからの音が混在するためである。特許文献２に示された技術では、中央付近でＩＤ１、ＩＤ２のいずれかを抽出することは可能であるが、ＩＤ１、ＩＤ２とは別個のＩＤを抽出することはできない。
【００１１】
出願人は、左右スピーカの中央付近で左右それぞれのスピーカ付近とは異なるＩＤを抽出する技術を、特願２００８−２４５０２０において提案した。特願２００８−２４５０２０の発明では、Ｌスピーカ付近のマイクロフォンから取り込んだ音、Ｒスピーカ付近のマイクロフォンから取り込んだ音からは、従来と同様、抽出装置はそれぞれＩＤ１、ＩＤ２を抽出するが、さらに、ＬスピーカとＲスピーカからほぼ等距離のマイクロフォンから取り込んだ音から別個のＩＤ３を抽出する。すなわち、ＩＤ１が埋め込まれたＬスピーカからの音、ＩＤ２が埋め込まれたＲスピーカからの音を同時に取り込んで、ＩＤ３を抽出する。
【００１２】
さらに、特願２００８−３１２７４１では、図１（ｂ）に示すように、Ｌスピーカ付近のマイクロフォンから取り込んだ音、Ｒスピーカ付近のマイクロフォンから取り込んだ音からは、従来と同様、抽出装置はそれぞれＩＤ１、ＩＤ５を抽出するとともに、ＬスピーカとＲスピーカからほぼ等距離（中央）のマイクロフォンにより取り込んだ音から別個のＩＤ３を抽出し、さらに、Ｌスピーカ付近のマイクロフォンと中央のマイクロフォンからほぼ等距離のマイクロフォンにより取り込んだ音から別個のＩＤ２を抽出し、Ｒスピーカ付近のマイクロフォンと中央のマイクロフォンからほぼ等距離のマイクロフォンにより取り込んだ音から別個のＩＤ４を抽出する。すなわち、ＩＤ１が埋め込まれたＬスピーカからの音、ＩＤ５が埋め込まれたＲスピーカからの音を同時に取り込んで、ＩＤ２、ＩＤ３、ＩＤ４を抽出する。
【００１３】
図２を用いて特願２００８−２４５０２０、特願２００８−３１２７４１の概念をより詳細に説明する。図２において、“０”“１”は、埋め込まれるビット値を示し、“０”“１”を含む矩形は、ビット値が埋め込まれる音響フレームを示している。音響フレームについては、詳細は後述するが、所定の長さのデジタル音響信号の１区間を示すものである。また、実際には、後述するように、１音響フレームに１ビットが埋め込まれるという単純なものではないが、図１では、説明の便宜上簡略化している。図２において、図面左右方向は時間的長さ、図面上下方向は、所定周波数範囲の周波数成分の強度を示している。図２（ａ）は、特願２００８−２４５０２０に記載された発明を示すものである。特願２００８−２４５０２０では、中央で１種の識別情報を抽出し、全体で計３種の識別情報を抽出する。図２（ａ）の例では、Ｌスピーカ用、Ｒスピーカ用にそれぞれ識別情報として符号“０１（１６進表記）”、“ＥＦ（１６進表記）”を埋め込むが、この際、中央で抽出させるべき識別情報である符号“４Ｂ（１６進表記）”を構成するビット列“01001011”に応じて、所定周波数範囲の周波数成分の強度を変化させて記録しておく。これにより、中央のマイクロフォンで取得した音を解析した場合に、符号“４Ｂ”が識別情報として抽出されることになる。
【００１４】
特願２００８−３１２７４１では、特願２００８−２４５０２０からさらに進み、中央で１種の識別情報、Ｌスピーカと中央との中間、Ｒスピーカと中央との中間でそれぞれ１以上の識別情報を抽出し、全体で計ｎ種の識別情報を抽出する。図２（ｂ）の例では、Ｌスピーカと中央との中間、Ｒスピーカと中央との中間でそれぞれ１個の識別情報を抽出し、全体で計５種の識別情報を抽出している。
【００１５】
図２（ｂ）の例では、Ｌスピーカ用、Ｒスピーカ用にそれぞれ識別情報として符号“０４（１６進表記）”、“ＤＦ（１６進表記）”を埋め込む。この際、中間の３箇所で抽出させるべき識別情報である符号“０５（１６進表記）”“１７（１６進表記）”“５Ｆ（１６進表記）”を構成する各ビット列“00000101” “00010111” “01011111”に応じて、所定周波数範囲の周波数成分の強度を変化させて記録しておく。図２（ｂ）における第１段目の符号“０４”に対応したビット列の矩形と、第５段目の符号“ＤＦ”に対応したビット列の矩形を見ればわかるように、本発明では、Ｌスピーカ用、Ｒスピーカ用の所定周波数範囲の周波数成分の強度を大・中・小の３段階に変化させている。これにより、中間の３箇所の各マイクロフォンで取得される音の所定周波数成分が影響され、取得した音の所定周波数成分を解析した場合に、それぞれ符号“０５”“１７”“５Ｆ”が識別情報として抽出されることになる。
【００１６】
図２（ｂ）において第１段目のビット列、第５段目のビット列の各ビットから図面上下方向に伸びる矢印は、そのビットが影響を与える範囲を示している。例えば、第１段目のビット列の左端ビット“０”は強度“大”であるため、比較的遠い位置のマイクロフォンまで影響することになり、第２から第４段目のビット列の左端ビットのビット値は“０”となる。逆に第５段目のビット列の左端ビット“１”は強度“小”であるため、比較的近い位置のマイクロフォンにも影響しない。
【００１７】
左端から２番目のビットについては、第１段目のビット列ではビット値“０”強度“大”であり、左端ビットの場合と同じであるが、第５段目のビット列でビット値“１” 強度“中”である。このため、第４段目においては、第５段目からの影響が第１段目からの影響に勝り、左から２番目のビット値は“１”となる。左端から３番目のビットについては、第１段目、第５段目のビット列共にビット値“０”強度“大”であるため、第３段目においては、両方の影響を受けて“０”となる。
【００１８】
特願２００８−３１２７４１では、第１段目と第５段目における所定周波数範囲の強度により中間のマイクロフォンで取得される周波数成分の強度を変化させるようにするため、途中のマイクロフォンにおいて異なるビット値が検出されることはない。例えば左端ビットの場合、第１段目のビット値“０”が、第４段目まで影響するため、途中の第２段目や第３段目のビット値が“１”になるようなことはなく、第１段目から第４段目までは全て同一のビット値“０”となる。左から２番目〜８番目までのビット値を縦方向（図面上下方向）に見ると、隣接する段の間でビット値に相違が生じるのは１箇所だけであり、２箇所で相違することはない。
【００１９】
（１．２．二次元の位置検出）
次に、本発明の特徴である二次元の位置検出について説明する。図２１（ａ）は、二次元方向に配置したマイクロフォンにおいて、互いに異なる識別情報を抽出する状態を示す図である。図２１（ａ）の例では、ＦＬチャンネル音響信号に識別情報としてＩＤ１１を埋め込み、ＦＲチャンネル音響信号に識別情報としてＩＤ１２を埋め込み、ＢＬチャンネル音響信号に識別情報としてＩＤ２１を埋め込み、ＢＲチャンネル音響信号に識別情報としてＩＤ２２を埋め込んでいる。このような音響信号を再生すると、ＦＬスピーカ付近のマイクロフォンから取り込んだ音、ＦＲスピーカ付近のマイクロフォンから取り込んだ音、ＢＬスピーカ付近のマイクロフォンから取り込んだ音、ＢＲスピーカ付近のマイクロフォンから取り込んだ音から抽出装置はそれぞれＩＤ１１、ＩＤ１２、ＩＤ２１、ＩＤ２２を抽出する。さらに、ＦＬスピーカとＦＲスピーカからほぼ等距離のマイクロフォンから取り込んだ音から別個のＩＤ１３を抽出し、ＦＬスピーカとＢＬスピーカからほぼ等距離のマイクロフォンから取り込んだ音から別個のＩＤ３１を抽出し、ＦＲスピーカとＢＲスピーカからほぼ等距離のマイクロフォンから取り込んだ音から別個のＩＤ３２を抽出し、ＢＬスピーカとＢＲスピーカからほぼ等距離のマイクロフォンから取り込んだ音から別個のＩＤ２３を抽出する。そして、中央のマイクロフォン（４つのスピーカからほぼ等距離）から取り込んだ音から別個のＩＤ３３を抽出する。すなわち、ＩＤ１３、ＩＤ３１、ＩＤ３２、ＩＤ２３、ＩＤ３３は、複数のスピーカからの音を同時に取り込むことにより抽出される。
【００２０】
また、本発明では、マイクロフォンの数を増やし、より多くの識別情報を抽出することも行う。図２１（ｂ）の例では、マイクロフォンの数を２５個に増やして、２５種の識別情報を抽出している。
【００２１】
図２２を用いて本発明の概念をより詳細に説明する。図２２において、“０”“１”は、埋め込まれるビット値を示し、“０”“１”を含む矩形は、ビット値が埋め込まれる音響フレームを示している。音響フレームについては、詳細は後述するが、所定の長さのデジタル音響信号の１区間を示すものである。また、実際には、後述するように、１音響フレームに１ビットが埋め込まれるという単純なものではないが、図１では、説明の便宜上簡略化している。図２２に示した“０”“１”を含む矩形の図面左右方向の長さは時間的長さを示している。“０”“１”を含む矩形のうち、スピーカに近い４つの集合においては、図面上下方向の長さにより所定周波数範囲の周波数成分の強度を表現している。
【００２２】
図２２は、９箇所の位置を検出する場合を示すものである。この場合、中央で１種の識別情報を抽出し、全体で計９種の識別情報を抽出する。図２２に示した識別情報は、１ワード４ビットの２ワード構成となっており、前半の１ワードが前後方向、後半の１ワードが左右方向を特定している。図２２の例では、ＦＬスピーカ用、ＦＲスピーカ用、ＢＬスピーカ用、ＢＲスピーカ用にそれぞれ識別情報として符号“０１（１６進表記）”、“０Ｆ（１６進表記）”、“Ｅ１（１６進表記）”、“ＥＦ（１６進表記）”を埋め込む。この際、中間で抽出させるべき識別情報である符号“４１（１６進表記）” 、“０Ｂ（１６進表記）”、“ＥＢ（１６進表記）”、“４Ｆ（１６進表記）”を構成するビット列に応じて、所定周波数範囲の周波数成分の強度を変化させて記録しておく。
【００２３】
図２３は、２５箇所の位置を検出する場合を示すものである。この場合、中央で１種の識別情報を抽出し、全体で計２５種の識別情報を抽出する。図２３の例では、ＦＬスピーカ用、ＦＲスピーカ用、ＢＬスピーカ用、ＢＲスピーカ用にそれぞれ識別情報として符号“０Ａ（１６進表記）”、“０５（１６進表記）” 、“ＦＡ（１６進表記）”、“Ｆ５（１６進表記）”を埋め込む。この際、中間の３箇所で抽出させるべき識別情報である符号“１Ａ（１６進表記）”“３Ａ（１６進表記）”“７Ａ（１６進表記）”“０Ｂ（１６進表記）”“０９（１６進表記）”“０Ｄ（１６進表記）”“ＦＢ（１６進表記）”“Ｆ９（１６進表記）”“ＦＤ（１６進表記）”“１５（１６進表記）”“３５（１６進表記）”“７５（１６進表記）”を構成する各ビット列に応じて、所定周波数範囲の周波数成分の強度を変化させて記録しておく。図２３における４つのスピーカ付近の符号“０Ａ（１６進表記）”、“０５（１６進表記）” 、“ＦＡ（１６進表記）”、“Ｆ５（１６進表記）”に対応したビット列の矩形を見ればわかるように、本発明では、ＦＬスピーカ用、ＦＲスピーカ用、ＢＬスピーカ用、ＢＲスピーカ用の所定周波数範囲の周波数成分の強度を大・中・小の３段階に変化させている。これにより、中間の各マイクロフォンで取得される音の所定周波数成分が影響され、取得した音の所定周波数成分を解析した場合に、それぞれ異なる識別情報が抽出されることになる。
【００２４】
図２３において、各ビットを埋め込む際の強度が検出位置に与える影響は、図２（ｂ）を用いて説明した場合と同様となる。例えば、ＦＬスピーカ付近（第１段目）のビット列の左端ビット“０”は強度“大”であるため、比較的遠い位置のマイクロフォンまで影響することになり、第２から第４段目のビット列の左端ビットのビット値は“０”となる。逆にＢＬスピーカ付近（第５段目）のビット列の左端ビット“１”は強度“小”であるため、比較的近い位置のマイクロフォンにも影響しない。
【００２５】
左端から２番目のビットについては、ＦＬスピーカ付近（第１段目）のビット列ではビット値“０”が強度“大”であり、左端ビットの場合と同じであるが、ＢＬスピーカ付近（第５段目）のビット列でビット値“１”が強度“中”である。このため、第４段目においては、第５段目からの影響が第１段目からの影響に勝り、左から２番目のビット値は“１”となる。
【００２６】
図２（ｂ）を用いて説明した場合と同様、図２３の例では、第１段目と第５段目における所定周波数範囲の強度により中間のマイクロフォンで取得される周波数成分の強度を変化させるようにするため、途中のマイクロフォンにおいて異なるビット値が検出されることはない。例えば左端ビットの場合、第１段目のビット値“０”が、第４段目まで影響するため、途中の第２段目や第３段目のビット値が“１”になるようなことはなく、第１段目から第４段目までは全て同一のビット値“０”となる。左から２番目〜４番目までのビット値を縦方向（図面上下方向）に見ると、隣接する段の間でビット値に相違が生じるのは１箇所だけであり、２箇所で相違することはない。
【００２７】
図２３の例においては、１ワード目の前半４ビットは左右方向において同一であり、２ワード目の後半４ビットは前後方向において同一である。左右の中間に配置されたマイクロフォンで抽出される識別情報の２ワード目は、左右のスピーカ付近の識別情報の２ワード目の各ビットを埋め込む際の強度値に影響される。この影響の様子は、前後の場合および図２（ｂ）の例の場合と同様となる。
【００２８】
次に、４チャンネルの符号を埋め込む際に、強度をどのように変化させるかについて説明する。図２１（ａ）、図２２に示したように９種の識別情報を抽出させる場合は、強度を２段階に変化させる必要があり、図２１（ｂ）、図２３に示したように２５種の識別情報を抽出させる場合は、強度を“大” “中” “小”の３段階に変化させる必要がある。ここでは、強度を“大” “中” “小”とする場合について説明する。図２０は、１組のＡタイプ音響フレーム、Ｂタイプ音響フレーム（奇数番目か偶数番目かにより区別）における所定周波数成分の様子を示す図である。本発明では、後述するように、音響信号をサンプリングすることにより得られた所定数のサンプルを１音響フレームとして処理を行う。４チャンネルの音響信号の場合は、ＦＬ-ch（前左チャンネル）、ＦＲ-ch（前右チャンネル）、ＢＬ-ch（後左チャンネル）、ＢＲ-ch（後右チャンネル）とも同様に処理が行われるが、図２０においては、代表してＦＬ-ch（前左チャンネル）のみを示している。また、左端の１、２は音響フレームのＡタイプ、Ｂタイプの別を示し、Ｕ、Ｄはそれぞれ変更対象周波数帯全体内の相対的な高周波、低周波成分を示し、右端の１、２は高周波、低周波に分けたそれぞれにおけるさらに低周波側、高周波側の別を示している。したがって、図２０の例では、２個の音響フレームを示しており、例えば、“１Ｕ２”は、Ａタイプの音響フレームの高周波側のさらに高周波側を示していることになる。また、Ａタイプ、Ｂタイプの音響フレームは、実際に半分のサンプルが重複して設定されるが、図２０では、説明の便宜上独立した形態で示している。また、図２０において、“１Ｕ２”等の各周波数成分の文字の大きさは、相対的な強度の大小を示している。
【００２９】
本発明では、奇数番目の音響フレームの高周波側と低周波側の成分強度の大小関係と、偶数番目の音響フレームの高周波側と低周波側の成分強度の大小関係が逆転するように処理を行う。奇数番目と偶数番目のどちらの音響フレームの高周波側を大きくするかによって、埋め込むビット値を変化させることができる。例えば、図２０（ａ）が、ビット値“０”が埋め込まれた状態であるとすると、逆に１Ｕ２と２Ｕ１を大きくし、１Ｕ１と２Ｕ２を小さくした状態がビット値“１”が埋め込まれた状態となる。上記図２を用いて説明した強度“大” “中” “小”はそれぞれ図２０（ａ）（ｂ）（ｃ）に対応している。すなわち、強度“大”であるほど、強度が大きい側（図２０の例では１Ｕ１や２Ｕ２）と強度が小さい側（図２０の例では１Ｕ２と２Ｕ１）の差が大きく、強度“小”であるほど、強度が大きい側と強度が小さい側の差が小さくなる。なお、９種の識別情報を抽出させる場合は、強度“大” “小”を用いれば良いだけである。
【００３０】
（２．１．埋め込み装置の構成）
次に、本発明に係る音響信号に対する情報の埋め込み装置について説明する。図３は、本発明に係る音響信号に対する情報の埋め込み装置の構成を示す機能ブロック図である。図３において、１０は音響フレーム読込手段、２０は周波数変換手段、３０は周波数成分変更手段、４０は周波数逆変換手段、５０は改変音響フレーム出力手段、６０は記憶手段、６１は音響信号記憶部、６２は識別情報記憶部、６３は改変音響信号記憶部、７０はビット配列作成手段である。なお、図３に示す装置は、ステレオ音響信号に対応している。
【００３１】
音響フレーム読込手段１０は、識別情報の埋め込み対象とする元のステレオ音響信号の各チャンネルから所定数のサンプルを１フレームとして読み込む機能を有している。周波数変換手段２０は、音響フレーム読込手段１０が読み込んだ音響信号のフレームをフーリエ変換等により周波数変換してスペクトルを生成する機能を有している。周波数成分変更手段３０は、生成されたスペクトルから所定の周波数範囲に相当するスペクトル集合を複数抽出し、識別情報記憶部６２から抽出した識別情報よりビット配列作成手段７０が作成したビット配列に基づいて、スペクトル集合の状態を変更する機能を有している。周波数逆変換手段４０は、変更されたスペクトル集合を含む複数のスペクトルに対して周波数逆変換を行うことにより、改変音響フレームを生成する機能を有している。改変音響フレーム出力手段５０は、生成された改変音響フレームを順次出力する機能を有している。
【００３２】
記憶手段６０は、識別情報を埋め込む対象とするステレオ音響信号を記憶した音響信号記憶部６１と、ビット列として構成され、ステレオ音響信号に埋め込まれる識別情報を記憶した識別情報記憶部６２と、識別情報埋め込み後の改変音響信号を記憶する改変音響信号記憶部６３を有しており、その他処理に必要な各種情報を記憶するものである。ビット配列作成手段７０は、識別情報記憶部６２から識別情報を抽出し、識別情報の各ワードについて、符号変換テーブルを参照し、対応するビット配列を作成する機能を有している。
【００３３】
なお、音響情報に埋め込む識別情報は、位置を特定するために、各位置を他の位置と区別して、一意に識別することが可能な情報である。なお、本実施形態では、検出側における識別情報の抽出精度を高めるため、Ｎｗビットの識別情報をＮｈビットに変換した後、このＮｈビットの各ビットを埋め込む処理を行っている。Ｎｗ、Ｎｈの具体的な数値は適宜設定可能であるが、本実施形態ではＮｗ、ＮｈをそれぞれＮｗ＝８、Ｎｈ＝１６としている。本実施形態では、ビット配列作成手段７０が作成するビット配列は、１６ビットとなり、ビット配列作成後は、この１６ビットを１ワードとして処理している。図３に示した各構成手段は、現実にはコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。
【００３４】
（２．２．埋め込み装置の処理動作）
次に、図３に示した音響信号に対する情報の埋め込み装置の処理動作について説明する。音響フレーム読込手段１０は、音響信号記憶部６１に記憶されたステレオ音響信号の前左、前右、後左、後右の各チャンネルから、それぞれ所定数Ｎのサンプルを１音響フレームとして読み込む。音響フレーム読込手段１０が読み込む１音響フレームのサンプル数Ｎは、適宜設定することができるが、サンプリング周波数が４４．１ｋＨｚの場合、４０９６サンプル程度とすることが望ましい。したがって、音響フレーム読込手段１０は、前左、前右、後左、後右の各チャンネルについてそれぞれ４０９６サンプルずつ、順次音響フレームとして読み込んでいくことになる。
【００３５】
音響フレームとしては、ＡタイプとＢタイプが存在する。Ａタイプの音響フレーム、Ｂタイプの音響フレームは、それぞれ同タイプの先行する音響フレームの最後のサンプルの次のサンプルを先頭サンプルとして設定される。そして、ＡタイプとＢタイプの音響フレームは互いに所定数（本実施形態では２０４８）のサンプルを重複して設定される。例えば、Ａタイプの音響フレームを先頭からＡ１、Ａ２、Ａ３…とし、Ｂタイプの音響フレームを先頭からＢ１、Ｂ２、Ｂ３…とすると、Ａ１はサンプル１〜４０９６、Ａ２はサンプル４０９７〜８１９２、Ａ３はサンプル８１９３〜１２２８８、Ｂ１はサンプル２０４９〜６１４４、Ｂ２はサンプル６１４５〜１０２４０、Ｂ３はサンプル１０２４１〜１４３３６となる。なお、ＡタイプとＢタイプは相対的なものであるので、どちらが先であっても良い。すなわち、上記とは逆にＡ１がサンプル２０４９〜６１４４、Ａ２がサンプル６１４５〜１０２４０、Ａ３がサンプル１０２４１〜１４３３６、Ｂ１がサンプル１〜４０９６、Ｂ２がサンプル４０９７〜８１９２、Ｂ３がサンプル８１９３〜１２２８８であっても良い。
【００３６】
周波数変換手段２０は、振幅変換後の音響フレームに対して周波数変換を行って、その音響フレームのスペクトルを得る。具体的には、窓関数を利用して周波数変換を行う。周波数変換としては、フーリエ変換、ウェーブレット変換その他公知の種々の手法を用いることができる。本実施形態では、フーリエ変換を用いた場合を例にとって説明する。
【００３７】
一般に、所定の信号に対してフーリエ変換を行う場合、信号を所定の長さに区切って行う必要があるが、この場合、所定長さの信号に対してそのままフーリエ変換を行うと、擬似高調波成分が発生する。そこで、一般にフーリエ変換を行う場合には、ハニング窓と呼ばれる窓関数を用いて、信号の値を変化させた後、変化後の値に対してフーリエ変換を実行する。
【００３８】
本実施形態においても、窓関数を利用しているが、Ａタイプの音響フレーム、Ｂタイプの音響フレームで、使用する窓関数を分けている。本実施形態では、図４（ａ）（ｂ）に示したような第１窓関数Ｗ（１，ｉ）、第２窓関数Ｗ（２，ｉ）を用意し、抽出側で認識し易いようにした。第１窓関数Ｗ（１，ｉ）は、Ａタイプの音響フレームに対して用いるためのものであり、図４（ａ）に示すように所定のサンプル番号ｉの位置において、最大値１をとり、後部においては、最小値０をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、窓関数Ｗ（１，ｉ）の設計によって異なってくるが、本実施形態では、後述する〔数式１〕で定義される。Ａタイプの音響フレームについてのフーリエ変換は、この窓関数Ｗ（１，ｉ）を乗じたものに対して行われることになる。
【００３９】
また、第２窓関数Ｗ（２，ｉ）は、Ｂタイプの音響フレームに対して用いるためのものであり、図４（ｂ）に示すように、所定のサンプル番号ｉの位置において、最大値１をとり、前部においては、最小値０をとるように設定されている。どのサンプル番号の場合に最大値をとるかについては、窓関数Ｗ（２，ｉ）の設計によって異なってくるが、本実施形態では、後述する〔数式２〕で定義される。Ｂタイプの音響フレームについてのフーリエ変換は、この窓関数Ｗ（２，ｉ）を乗じたものに対して行われることになる。
【００４０】
なお、上述のように、本実施形態においては、音響フレームは重複して読み込まれる。すなわち、奇数番目の音響フレームと偶数番目の音響フレームは、所定数のサンプルを重複して読み込む。上記のように、奇数フレームと偶数フレームでは、用いられる窓関数が異なるが、奇数フレームと偶数フレームは単に奇数か偶数かの違いだけであるため、どちらに対してどちらの処理を行っても良い。したがって、本明細書では、奇数フレーム、偶数フレームの一方をＡタイプフレーム、他方をＢタイプフレームと呼ぶことにする。本実施形態では、奇数フレームをＡタイプフレーム、偶数フレームをＢタイプフレームとして説明するが、逆に偶数フレームをＡタイプフレーム、奇数フレームをＢタイプフレームとしても良い。
【００４１】
本実施形態では、窓関数Ｗ（１，ｉ）、Ｗ（２，ｉ）は、以下の〔数式１〕〔数式２〕で定義される。なお、図４において、横軸は時間軸（ｉ）である。ｉは、後述するように、各音響フレーム内のＮ個のサンプルに付した通し番号であるため時刻ｔに比例している。また、図４（ａ）（ｂ）において縦軸は信号の振幅値（レベル）を示す。図４（ａ）（ｂ）において縦軸は窓関数Ｗ（１，ｉ）、Ｗ（２，ｉ）の値を示しており、Ｗ（１，ｉ）、Ｗ（２，ｉ）の最大値はいずれも１である。
【００４２】
〔数式１〕
ｉ≦Ｎ／８のとき、Ｗ（１，ｉ）＝０．０
Ｎ／８＜ｉ≦３Ｎ／８のとき、Ｗ（１，ｉ）＝０．５−０．５ｃｏｓ（４π（ｉ−Ｎ／８）／Ｎ）
３Ｎ／８＜ｉ≦１１Ｎ／１６のとき、Ｗ（１，ｉ）＝１．０
１１Ｎ／１６＜ｉ≦１３Ｎ／１６のとき、Ｗ（１，ｉ）＝０．５＋０．５ｃｏｓ（８π（ｉ−１１Ｎ／１６）／Ｎ）
ｉ＞１３Ｎ／１６のとき、Ｗ（１，ｉ）＝０．０
【００４３】
〔数式２〕
ｉ≦３Ｎ／１６のとき、Ｗ（２，ｉ）＝０．０
３Ｎ／１６＜ｉ≦５Ｎ／１６のとき、Ｗ（２，ｉ）＝０．５−０．５ｃｏｓ（８π（ｉ−３Ｎ／１６）／Ｎ）
５Ｎ／１６＜ｉ≦５Ｎ／８のとき、Ｗ（２，ｉ）＝１．０
５Ｎ／８＜ｉ≦７Ｎ／８のとき、Ｗ（２，ｉ）＝０．５＋０．５ｃｏｓ（４π（ｉ−５Ｎ／８）／Ｎ）
ｉ＞７Ｎ／８のとき、Ｗ（２，ｉ）＝０．０
【００４４】
なお、図４および上記〔数式１〕〔数式２〕から明らかなように、窓関数Ｗ（１，ｉ）とＷ（２，ｉ）は、互いに非対称な形状である。これは、後述する抽出側において、両者の識別を容易にするためである。
【００４５】
本発明においては、奇数フレームと偶数フレームを、所定サンプルずつ重複して読み込むため、情報の埋め込みを行った後、音響信号に復元する際に、窓関数を乗じた奇数フレームと、窓関数を乗じた偶数フレームの重複サンプルを加算した場合に、ほぼ元の値に戻るようにしなければならない。このため、奇数フレームと偶数フレームの重複部分において、窓関数Ｗ（１，ｉ）、Ｗ（２，ｉ）を加算すると、全区間固定値１になるように定義されている。
【００４６】
周波数変換手段２０が、Ａタイプの音響フレームに対してフーリエ変換を行う場合は、左チャンネル信号Ｘｌ（ｉ）、右チャンネル信号Ｘｒ（ｉ）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（１，ｉ）を用いて、以下の〔数式３〕に従った処理を行い、左チャンネルに対応する変換データの実部Ａｌ（１，ｊ）、虚部Ｂｌ（１，ｊ）、右チャンネルに対応する変換データの実部Ａｒ（１，ｊ）、虚部Ｂｒ（１，ｊ）を得る。なお、以下の説明において、左チャンネル信号Ｘｌ（ｉ）を用いた説明は、前左チャンネル信号、後左チャンネル信号に共通するものであり、右チャンネル信号Ｘｒ（ｉ）を用いた説明は、前右チャンネル信号、後右チャンネル信号に共通するものである。
【００４７】
〔数式３〕
Ａｌ（１，ｊ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘｌ（ｉ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｌ（１，ｊ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘｌ（ｉ）・ｓｉｎ（２πｉｊ／Ｎ）
Ａｒ（１，ｊ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘｒ（ｉ）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｒ（１，ｊ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘｒ（ｉ）・ｓｉｎ（２πｉｊ／Ｎ）
【００４８】
周波数変換手段２０が、Ｂタイプの音響フレームに対してフーリエ変換を行う場合は、左チャンネル信号Ｘｌ（ｉ＋Ｎ／２）、右チャンネル信号Ｘｒ（ｉ＋Ｎ／２）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（２，ｉ）を用いて、以下の〔数式４〕に従った処理を行い、左チャンネルに対応する変換データの実部Ａｌ（２，ｊ）、虚部Ｂｌ（２，ｊ）、右チャンネルに対応する変換データの実部Ａｒ（２，ｊ）、虚部Ｂｒ（２，ｊ）を得る。
【００４９】
〔数式４〕
Ａｌ（２，ｊ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘｌ（ｉ＋Ｎ／２）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｌ（２，ｊ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘｌ（ｉ＋Ｎ／２）・ｓｉｎ（２πｉｊ／Ｎ）
Ａｒ（２，ｊ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘｒ（ｉ＋Ｎ／２）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂｒ（２，ｊ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘｒ（ｉ＋Ｎ／２）・ｓｉｎ（２πｉｊ／Ｎ）
【００５０】
上記〔数式３〕〔数式４〕において、ｉは、各音響フレーム内のＮ個のサンプルに付した通し番号であり、ｉ＝０，１，２，…Ｎ−１の整数値をとる。また、ｊは周波数の値について、値の小さなものから順に付した通し番号であり、ｉと同様にｊ＝０，１，２，…Ｎ／２−１の整数値をとる。サンプリング周波数が４４．１ｋＨｚ、Ｎ＝４０９６の場合、ｊの値が１つ異なると、周波数が１０．８Ｈｚ異なることになる。
【００５１】
上記〔数式３〕〔数式４〕に従った処理を実行することにより、各音響フレームの各窓関数に対応するスペクトルが得られる。続いて、周波数成分変更手段３０が、生成されたスペクトルから所定周波数範囲のスペクトル集合を抽出する。本実施形態では、Ｆ１以上Ｆ２以下の範囲のものを抽出する。
【００５２】
周波数変換手段２０は、周波数変換を実行した後に、各スペクトル集合の平均値が設定値になるように変換する。いわゆる振幅を変換する処理を行う。この振幅変換は、各フレームごとのレベル差を軽減し、適切な情報の埋め込みが可能になるようにすることを目的としているため、設定値Ｚｏとしては適宜設定することができる。
【００５３】
周波数変換手段２０は、得られたスペクトル集合に対して、振幅変換を行うにあたり、まず変換倍率の算出を行う。変換倍率の算出は、所定周波数範囲のスペクトル集合の実効強度値の平均である平均実効値で上記設定値を除算することにより行う。具体的には、ＬチャンネルのＡタイプの音響フレーム、Ｂタイプの音響フレーム、ＲチャンネルのＡタイプの音響フレーム、Ｂタイプの音響フレームのスペクトル集合についての変換倍率Ｚｌ（１）、Ｚｌ（２）、Ｚｒ（１）、Ｚｒ（２）は、以下の〔数式５〕に従った処理により算出される。対象音響フレームが無音に近く、分母の二乗総和値が所定の値に満たない場合は、変換倍率を１．０に設定し、振幅変換は行わないようにする。振幅変換が実行されることにより、全ての音響フレームは、元の状態における信号強度に関わらず、各音響フレームのスペクトル集合の平均実効値が設定値となるように振幅変換された状態で、情報の埋め込みが行われることになる。
【００５４】
〔数式５〕
Ｚｌ（１）＝Ｚｏ／［Σ_j=m,…,M-1｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝］^1/2
Ｚｌ（２）＝Ｚｏ／［Σ_j=m,…,M-1｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝］^1/2
Ｚｒ（１）＝Ｚｏ／［Σ_j=m,…,M-1｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝］^1/2
Ｚｒ（２）＝Ｚｏ／［Σ_j=m,…,M-1｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝］^1/2
【００５５】
上記〔数式５〕において、ｍおよびＭは変更対象周波数帯の下限および上限で、Ｚｏ＝Ｍ−ｍであり、本実施形態では、Ｚｏ＝２８８である。
【００５６】
さらに、ｊ＝ｍ，…，Ｍ−１（周波数Ｆ１，．．．，Ｆ２に相当）の範囲で、Ａｌ（１，ｊ）およびＢｌ（１，ｊ）の各々の要素に対してＺｌ（１）を乗じ、Ａｌ（２，ｊ）およびＢｌ（２，ｊ）の各々の要素に対してＺｌ（２）を乗じ、Ａｒ（１，ｊ）およびＢｒ（１，ｊ）の各々の要素に対してＺｒ（１）を乗じ、Ａｒ（２，ｊ）およびＢｒ（２，ｊ）の各々の要素に対してＺｒ（２）を乗じることにより、振幅変換を行う。以下説明において、Ａｌ（１，ｊ）、Ｂｌ（１，ｊ）、Ａｌ（２，ｊ）、Ｂｌ（２，ｊ）、Ａｒ（１，ｊ）、Ｂｒ（１，ｊ）、Ａｒ（２，ｊ）、Ｂｒ（２，ｊ）はこれらの振幅変換を行った値とする。
【００５７】
周波数成分変更手段３０は、Ａタイプの音響フレームについて、ビット配列作成手段７０が作成したビット配列に応じて、所定周波数成分の割合を変更する処理を行う。本発明では、ビット配列を１ビットまたは２ビットずつ読み込み、Ａタイプ、Ｂタイプの１対の音響フレームに対して１ビットまたは２ビットの情報を埋め込む。埋め込まれる１ビットの値は、“０” “１”の２通りがある。本実施形態では、これらを値１、値２と定義する。２種類の符号を埋め込むことができるという点で、これらを符号１、符号２と表現することも可能である。この際、“０”“１”の２通りのうち、いずれを値１、値２（符号１、符号２）と定義しても良い。抽出側において、埋め込み側で埋め込まれた１ビットが特定できれば良いためである。したがって、この定義は、埋め込み側と抽出側で一致している必要がある。
【００５８】
周波数成分の変更の手法としては、様々なものが考えられるが、本実施形態では、人間の聴覚心理特性である音脈分凝の原理を利用する。音脈分凝とは、時系列に高い音と低い音が交互に進行するパターンに対して、人間が、あたかも高低２つのトラックが連続して流れるように音を補間して聞いてしまう錯覚現象である。
【００５９】
具体的には、埋め込み装置で、音響信号から抽出した所定数のサンプルで構成される音響フレーム内の所定周波数範囲の周波数成分を変更するに際し、その強弱が音脈分凝を発生させるような状態に変更する。これにより、人間には、音が途切れたようには聞こえないが、抽出装置では、その明確な変化を認識することができる。
【００６０】
本実施形態では、音脈分凝の原理を利用して、音響フレームの変更対象周波数帯の成分を２つの状態に変更し、１ビットの情報を埋め込むようにしている。音脈分凝の原理を利用した情報の埋め込み手法としては、上記特許文献２に示したような手法を採用することもできるが、本実施形態では、抽出感度および精度を向上させることを目的として識別情報を埋め込むための周波数領域を大きく確保できるように、識別情報を埋め込むための周波数領域において、高低２つの帯域で二重に音脈分凝の原理が機能するようにした。なお、高低２つの帯域は独立して音脈分凝を機能させるため、双方の周波数幅は必ずしも同一である必要はなく（ただし、各々の帯域は周波数方向に更に２分割されるが、２分割領域の幅は同一にする）。ここで、埋め込み処理の前後における音響フレームの所定周波数成分の変化の状態について説明する。図５に、本実施形態によるＡタイプ、ＢタイプのＬチャンネル１音響フレームの所定周波数成分の状態を示す。Ｒチャンネルについては、Ｌチャンネルと同様であるので省略してある。図５に示す各音響フレームにおいて、横軸は時間方向、縦軸は周波数方向を示している。
【００６１】
図５においては、縦軸の周波数方向において、周波数領域が６つに区分されているが、上から２番目〜５番目の領域、すなわち、周波数Ｆ１以上Ｆ２以下の間が変更対象周波数帯であり、最上部すなわち周波数Ｆ２超、最下部すなわちＦ１未満は、変更対象でない周波数帯である。すなわち、本実施形態では、周波数Ｆ１以上Ｆ２以下を所定周波数範囲として、スペクトル集合の強度を変更することになる。図５（ａ）に示すように、Ａタイプ音響フレームの変更対象周波数帯については、周波数が低い順に、そのスペクトル集合を１Ｄ１、１Ｄ２、１Ｕ１、１Ｕ２で表現することとする。また、図５（ｂ）に示すように、Ｂタイプ音響フレームの変更対象周波数帯については、周波数が低い順に、そのスペクトル集合を２Ｄ１、２Ｄ２、２Ｕ１、２Ｕ２で表現することとする。
【００６２】
１ビット埋め込み方式で、符号１を埋め込む場合、図５（ｃ）（ｅ）に示すように、１Ｄ１と２Ｄ２の強度の積、１Ｕ１と２Ｕ２の強度の積を相対的に強い状態に変更し、１Ｄ２と２Ｄ１の強度の積、１Ｕ２と２Ｕ１の強度の積を相対的に弱い状態に変更する。この状態を“状態１”と呼ぶことにする。符号２を埋め込む場合は、図５（ｄ）（ｆ）に示すように、１Ｄ２と２Ｄ１の強度の積、１Ｕ２と２Ｕ１の強度の積を相対的に強い状態に変更し、１Ｄ１と２Ｄ２の強度の積、１Ｕ１と２Ｕ２の強度の積を相対的に弱い状態に変更する。この状態を“状態２”と呼ぶことにする。網掛けされた部分の濃さは、同濃度のものは、積を求めるための組となるスペクトル集合であることを示している。網掛けの色が濃い方が相対的に強度が強い状態に変更される組を示している。
【００６３】
１ビット埋め込み方式では、図５（ｃ）（ｅ）または（ｄ）（ｆ）に示すような２つの状態にＡタイプ、Ｂタイプの音響フレームの周波数成分を変更することにより、情報の埋め込みを行っている。２つの状態であるので１ビット分の情報量に相当する。図５（ｃ）〜（ｆ）に示したように、１ビット埋め込み方式の場合、変更対象周波数帯の上位周波数帯と下位周波数帯が全く同一のパターンとなっている。２ビット埋め込み方式の場合は、上位周波数帯と下位周波数帯を独立に変更することにより、上位周波数帯で１ビット、下位周波数帯で１ビットの表現が可能となる。
【００６４】
本実施形態では、上記変更対象周波数帯Ｆ１〜Ｆ２を、“０．３４ｋＨｚ〜３．４ｋＨｚ”に設定する。これは、以下のような理由による。すなわち、音声通信として普及度の高い携帯電話機を受信端末として利用する場合、上限については、電話回線帯域および携帯電話機の上限である３．４ｋＨｚとする必要がある。これは、携帯電話機の内部に搭載されているローパスフィルターが、電話交換機に合わせて、３．４ｋＨｚ以下に対応したものとなっているためである。また、上位周波数帯の下限については、上限の３．４ｋＨｚから１オクターブ下がった１．７ｋＨｚとすることとした。そして、下位周波数帯の上限を上位周波数帯の下限と同じく、１．７ｋＨｚとし、下位周波数帯の下限については、電話回線帯域および携帯電話機の下限である０．３ｋＨｚ以上とする必要がある。これは、携帯電話機の内部に搭載されているハイパスフィルターが、電話交換機に合わせて、０．３ｋＨｚ以上に対応したものとなっているためである。そこで、上限の１．７ｋＨｚから２オクターブ強下がった０．３４ｋＨｚとすることとした。下位周波数帯の周波数範囲は、上位周波数帯の周波数範囲に比べ若干狭くなるが、分布している信号成分の強度は平均４倍程度になるため、上位周波数帯より下位周波数帯の方が大きな感度を持つと推定できる。なお、“０．３４ｋＨｚ”“１．７ｋＨｚ”“３．４ｋＨｚ”という値は、代表的な値であり、必ずしも正確な値である必要はなく、そこから若干ずれた値であっても良い。
【００６５】
図５に示した例では、相対的に強い状態と弱い状態に変更することについて説明したが、この強弱の程度については、状況に応じて設定することが可能である。両者の割合は、以下に述べるように、その差が大きいほど抽出時の精度が高くなるが、補間される割合は不完全になり、再生時に不連続成分によるノイズが聞こえる。一方、両者の割合が均等であるほど再生品質は原音に近付くが、埋め込んだビットの抽出ができなくなり、再生品質と抽出精度はトレードオフの関係になる。例えば、強い方を１００％、弱い方を０％とした場合、音脈分凝により、補間される部分の音は図５のような変更を行なう前に原音響信号で鳴っていた音の５０％程度となることが確認されている。そこで、強い方を７０％、弱い方を３０％とした場合、音脈分凝により、補間される部分の音は図５のような変更を行なう前に原音響信号で鳴っていた音とほぼ同程度となり、この割合が抽出精度を維持できる限界であることが確認されている。このため、相対的に強いスペクトル集合と、相対的に弱いスペクトル集合の強度の割合を７０％と３０％程度とすることを目標に設定することが好ましい。ただし、本発明では、中間で検出されるビットをいずれのスピーカから発せられたものとするかにより、強弱を変更させる必要も生じる。そこで、本実施形態では、後述する具体的な処理において、強い状態を設定するための係数α₁＝０．６６、α₂＝０．７２、α₃＝０．７８、弱い状態を設定するための係数β₁＝０．３４、β₂＝０．２８、β₃＝０．２２とする。なお、α₃、β₃については、２５種の識別情報を抽出させるために、強度を３段階に設定する場合に必要なものであり、９種の識別情報を抽出させるために、強度を２段階に設定する場合には不要である。逆に、より多くの識別情報を抽出させるために、強度をより多くの段階に設定する場合には、より多くのα_k（ｋ＝１，２，・・・，（ｎ＋１）／２）の設定が必要となる。また、強い状態に変更すべきスペクトル集合の強度が元々小さい場合には、係数α、βを補正する必要が生じる。このため、周波数成分変更手段３０は、まず、以下の〔数式６〕に従った処理を実行することにより、各スペクトル集合の強度Ｅ_1D1、Ｅ_2D1、Ｅ_1D2、Ｅ_2D2、Ｅ_1U1、Ｅ_2U1、Ｅ_1U2、Ｅ_2U2を算出する。
【００６６】
〔数式６〕
Ｅ_1D1＝Σ_{j=m,…,m+G-1}｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝
Ｅ_2D1＝Σ_{j=m,…,m+G-1}｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝
Ｅ_1D2＝Σ_{j=m+G,…,m+2G-1}｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝
Ｅ_2D2＝Σ_{j=m+G,…,m+2G-1}｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝
Ｅ_1U1＝Σ_{j=m+2G,…,m+2G+Gu-1}｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝
Ｅ_2U1＝Σ_{j=m+2G,…,m+2G+Gu-1}｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝
Ｅ_1U2＝Σ_{j=m+2G+Gu,…,m+2G+2Gu-1}｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝
Ｅ_2U2＝Σ_{j=m+2G+Gu,…,m+2G+2Gu-1}｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝
【００６７】
上記〔数式６〕において、ｍは変更対象周波数帯の下限の成分の番号、Ｇは変更対象周波数帯内の下位周波数帯の２分割領域の幅で、Ｇｕは変更対象周波数帯内の上位周波数帯の２分割領域の幅で、ｍ＋２Ｇ＋２Ｇｕは変更対象周波数帯の上限の成分の番号である。例えば、変更対象周波数帯として、０．３４ｋＨｚ〜３．４ｋＨｚを設定する場合、ｍ＝３２、ｍ＋２Ｇ＋２Ｇｕ＝３２０（＝Ｍ）となる。したがって、下位周波数帯の２分割領域の幅Ｇ（＝（Ｍ／２−ｍ）／２）＝６４で、上位周波数帯の２分割領域の幅Ｇｕ（＝（Ｍ−Ｍ／２）／２）＝８０である。
【００６８】
さらに、周波数成分変更手段３０は、算出された各スペクトル集合の強度を利用して、弱い状態に変更すべきスペクトル集合に対する強い状態に変更すべきスペクトル集合の強度割合γを算出する。具体的には、以下の〔数式７〕に従って強度割合γを算出する。
【００６９】
〔数式７〕
埋め込みデータが値１の場合、γ＝（Ｅ_1D1・Ｅ_1U1・Ｅ_2D2・Ｅ_2U2）／（Ｅ_1D2・Ｅ_1U2・Ｅ_2D1・Ｅ_2U1）
埋め込みデータが値２の場合、γ＝（Ｅ_1D2・Ｅ_1U2・Ｅ_2D1・Ｅ_2U1）／（Ｅ_1D1・Ｅ_1U1・Ｅ_2D2・Ｅ_2U2）
【００７０】
さらに強度割合γの値に応じて、周波数成分変更手段３０は、以下の〔数式８〕に従った処理を実行することにより、係数α₁、α₂、α₃、β₁、β₂、β₃を補正して係数α、βを得る。なお、以下の〔数式８〕において、α_kは、α₁、α₂、α₃のいずれかを意味する。
【００７１】
〔数式８〕
０．０１＜γ＜１．０の場合、α＝α_k・γ^-1/4、β＝β_k・γ^1/4
γ≦０．０１の場合、α＝１０．０・α_k、β＝０．１・β_k
γ≧１．０の場合、補正を行わない（α＝α_k、β＝β_k）
【００７２】
さらに、周波数成分変更手段３０は、連続するＡタイプ音響フレーム、Ｂタイプ音響フレームにおける実部Ａｌ（１，ｊ）、Ａｒ（１，ｊ）、Ａｌ（２，ｊ）、Ａｒ（２，ｊ）、Ｂｌ（１，ｊ）、Ｂｒ（１，ｊ）、Ｂｌ（２，ｊ）、Ｂｒ（２，ｊ）に対して、周波数領域パラメータとして、下限ｍ（＝３２）から上限Ｍ（＝３２０）を設定し、ｍからＭ／２を幅Ｇ（＝（Ｍ／２−ｍ）／２）をもつ２個の領域に分割し、ｍ＋２ＧからＭを幅Ｇｕ（＝（Ｍ−Ｍ／２）／２）をもつ２個の領域に分割し、埋め込むべきビット値に応じて、各々改変を加える。一例として、埋め込むべきビット値が“値１”である場合、以下の〔数式９〕に従った処理を実行することにより、周波数成分の状態を“状態１”、すなわち、図５（ｃ）（ｅ）に示したような状態に変更する。
【００７３】
〔数式９〕
ｊ＝ｍ〜ｍ＋Ｇ−１の各成分に対して
Ｅ（１，ｊ）＝｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²＋Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ａｌ´（１，ｊ）＝Ａｌ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ｂｌ´（１，ｊ）＝Ｂｌ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ａｒ´（１，ｊ）＝Ａｒ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｂｒ´（１，ｊ）＝Ｂｒ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｅ（２，ｊ）＝｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²＋Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ａｌ´（２，ｊ）＝Ａｌ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ｂｌ´（２，ｊ）＝Ｂｌ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ａｒ´（２，ｊ）＝Ａｒ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ｂｒ´（２，ｊ）＝Ｂｒ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
ｊ＝ｍ＋Ｇ〜ｍ＋２Ｇ−１の各成分に対して
Ｅ（１，ｊ）＝｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²＋Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ａｌ´（１，ｊ）＝Ａｌ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ｂｌ´（１，ｊ）＝Ｂｌ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ａｒ´（１，ｊ）＝Ａｒ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｂｒ´（１，ｊ）＝Ｂｒ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｅ（２，ｊ）＝｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²＋Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ａｌ´（２，ｊ）＝Ａｌ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ｂｌ´（２，ｊ）＝Ｂｌ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ａｒ´（２，ｊ）＝Ａｒ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ｂｒ´（２，ｊ）＝Ｂｒ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
ｊ＝ｍ＋２Ｇ〜ｍ＋２Ｇ＋Ｇｕ−１の各成分に対して
Ｅ（１，ｊ）＝｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²＋Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ａｌ´（１，ｊ）＝Ａｌ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ｂｌ´（１，ｊ）＝Ｂｌ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ａｒ´（１，ｊ）＝Ａｒ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｂｒ´（１，ｊ）＝Ｂｒ（１，ｊ）・Ｅ（１，ｊ）・α／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｅ（２，ｊ）＝｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²＋Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ａｌ´（２，ｊ）＝Ａｌ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ｂｌ´（２，ｊ）＝Ｂｌ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ａｒ´（２，ｊ）＝Ａｒ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ｂｒ´（２，ｊ）＝Ｂｒ（２，ｊ）・Ｅ（２，ｊ）・β／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
ｊ＝ｍ＋２Ｇ＋Ｇｕ〜Ｍ−１の各成分に対して
Ｅ（１，ｊ）＝｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²＋Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ａｌ´（１，ｊ）＝Ａｌ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ｂｌ´（１，ｊ）＝Ｂｌ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｌ（１，ｊ）²＋Ｂｌ（１，ｊ）²｝^1/2
Ａｒ´（１，ｊ）＝Ａｒ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｂｒ´（１，ｊ）＝Ｂｒ（１，ｊ）・Ｅ（１，ｊ）・β／｛Ａｒ（１，ｊ）²＋Ｂｒ（１，ｊ）²｝^1/2
Ｅ（２，ｊ）＝｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²＋Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ａｌ´（２，ｊ）＝Ａｌ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ｂｌ´（２，ｊ）＝Ｂｌ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｌ（２，ｊ）²＋Ｂｌ（２，ｊ）²｝^1/2
Ａｒ´（２，ｊ）＝Ａｒ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
Ｂｒ´（２，ｊ）＝Ｂｒ（２，ｊ）・Ｅ（２，ｊ）・α／｛Ａｒ（２，ｊ）²＋Ｂｒ（２，ｊ）²｝^1/2
【００７４】
この場合は、スペクトル集合単位の強弱パターンは、高周波側と低周波側で同一となる。周波数逆変換手段４０は、上記のようにして、周波数成分の状態が変更されたフレームスペクトルを周波数逆変換して改変音響フレームを得る処理を行う。この周波数逆変換は、当然のことながら、周波数変換手段２０が実行した手法に対応していることが必要となる。本実施形態では、周波数変換手段２０において、フーリエ変換を施しているため、周波数逆変換手段４０は、フーリエ逆変換を実行することになる。
【００７５】
具体的には、Ａタイプの音響フレームに対しては、周波数逆変換手段４０は、上記〔数式９〕により得られたスペクトルの左チャンネルの実部Ａｌ´（１，ｊ）等、虚部Ｂｌ´（１，ｊ）等、右チャンネルの実部Ａｒ´（１，ｊ）等、虚部Ｂｒ´（１，ｊ）等を用いて、以下の〔数式１０〕に従った処理を行い、Ｘｌ´（ｉ）、Ｘｒ´（ｉ）を算出する。なお、上記〔数式９〕において改変されていない周波数成分については、Ａｌ´（１，ｊ）等として、元の周波数成分であるＡｌ（１，ｊ）等を用いる。周波数逆変換を計算するにあたり、Ａｌ´（１，ｊ）およびＢｌ´（１，ｊ）に対しては〔数式５〕におけるＺｌ（１）を、Ａｒ´（１，ｊ）およびＢｒ´（１，ｊ）に対しては〔数式５〕におけるＺｒ（１）を除することにより、同時に振幅逆変換を施す必要がある。
【００７６】
〔数式１０〕
Ｘｌ´（ｉ）＝１／Ｎ・｛Σ_jＡｌ´（１，ｊ）・ｃｏｓ（２πｉｊ／Ｎ）／Ｚｌ（１）−Σ_jＢｌ´（１，ｊ）・ｓｉｎ（２πｉｊ／Ｎ）／Ｚｌ（１）｝＋Ｘｌｐ（ｉ＋Ｎ／２）
Ｘｒ´（ｉ）＝１／Ｎ・｛Σ_jＡｒ´（１，ｊ）・ｃｏｓ（２πｉｊ／Ｎ）／Ｚｒ（１）−Σ_jＢｒ´（１，ｊ）・ｓｉｎ（２πｉｊ／Ｎ）／Ｚｒ（１）｝＋Ｘｒｐ（ｉ＋Ｎ／２）
【００７７】
上記〔数式１０〕においては、式が繁雑になるのを防ぐため、Σ_j=0,…_,N-1をΣ_jとして示している。上記〔数式１０〕における第１式の“＋Ｘｌｐ（ｉ＋Ｎ／２）”、第２式の“＋Ｘｒｐ（ｉ＋Ｎ／２）”の項は、直前に改変された改変音響フレームのデータＸｌｐ（ｉ）、Ｘｒｐ（ｉ）が存在する場合に、時間軸上Ｎ／２サンプル分重複することを考慮して加算するためのものである。上記〔数式１０〕によりＡタイプの改変音響フレームの左チャンネルの各サンプルＸｌ´（ｉ）、右チャンネルの各サンプルＸｒ´（ｉ）、が得られることになる。
【００７８】
Ｂタイプの音響フレームに対しては、周波数逆変換手段４０は、上記〔数式９〕により得られたスペクトルの左チャンネルの実部Ａｌ´（２，ｊ）、虚部Ｂｌ´（２，ｊ）、右チャンネルの実部Ａｒ´（２，ｊ）、虚部Ｂｒ´（２，ｊ）を用いて、以下の〔数式１１〕に従った処理を行い、Ｘｌ´（ｉ）、Ｘｒ´（ｉ）を算出する。なお、上記〔数式９〕において改変されていない周波数成分については、以下の〔数式１１〕においてはＡｌ´（２，ｊ）、Ｂｌ´（２，ｊ）、Ａｒ´（２，ｊ）、Ｂｒ´（２，ｊ）として、元の値であるＡｌ（２，ｊ）、Ｂｌ（２，ｊ）、Ａｒ（２，ｊ）、Ｂｒ（２，ｊ）を用いる。周波数逆変換を計算するにあたり、Ａｌ´（２，ｊ）およびＢｌ´（２，ｊ）に対しては〔数式５〕におけるＺｌ（２）を、Ａｒ´（２，ｊ）およびＢｒ´（２，ｊ）に対しては〔数式５〕におけるＺｒ（２）を除することにより、同時に振幅逆変換を施す必要がある。
【００７９】
〔数式１１〕
Ｘｌ´（ｉ＋Ｎ／２）＝１／Ｎ・｛Σ_jＡｌ´（２，ｊ）・ｃｏｓ（２πｉｊ／Ｎ）／Ｚｌ（２）−Σ_jＢｌ´（２，ｊ）・ｓｉｎ（２πｉｊ／Ｎ）／Ｚｌ（２）｝＋Ｘｌｐ（ｉ＋Ｎ）
Ｘｒ´（ｉ＋Ｎ／２）＝１／Ｎ・｛Σ_jＡｒ´（２，ｊ）・ｃｏｓ（２πｉｊ／Ｎ）／Ｚｒ（２）−Σ_jＢｒ´（２，ｊ）・ｓｉｎ（２πｉｊ／Ｎ）／Ｚｒ（２）｝＋Ｘｒｐ（ｉ＋Ｎ）
【００８０】
上記〔数式１１〕によりＢタイプの改変音響フレームの左チャンネルの各サンプルＸｌ´（ｉ）、右チャンネルの各サンプルＸｒ´（ｉ）、が得られることになる。
【００８１】
改変音響フレーム出力手段５０は、周波数逆変換手段４０の処理により得られたＡタイプの改変音響フレーム、Ｂタイプの改変音響フレームを順次出力ファイルに出力する。
【００８２】
次に、図３に示した音響信号に対する情報の埋め込み装置の処理の全体的な流れについて説明する。まず、事前に図６に示すようなＮｗビットの基準符号とＮｈビットのハミング符号が対応付けられた符号変換テーブルを用意する。この符号変換テーブルは、各ハミング符号間のハミング距離が互いに３以上となるものであれば、どのように作成しても良い。本実施形態では、コンピュータに専用のプログラムを実行させることにより、コンピュータを変換テーブル作成装置として機能させることにより作成する。変換テーブル作成装置による符号変換テーブル作成のフローチャートを図７に示す。
【００８３】
変換テーブル作成装置は、最初に初期化処理を行う（Ｓ６１１）。具体的には、８ビット基準符号“０”に１６ビット符号“１”を対応付けて符号変換テーブルのｉ（＝０）番目に登録するとともに、８ビット基準符号ＫＦの初期値を１、１６ビット符号ＨＦの初期値を２とする。続いて、ｉ＝０に初期設定する（Ｓ６１２）。次に、１６ビット符号ＨＦ及びそれの１５通りの巡回符号と、符号変換テーブルのｉ番目に既に登録されている他の１６ビット符号及びそれの１５通り巡回符号とのハミング距離を算出する（Ｓ６１３）。この段階で１６通り×１６通りで２５６通りのハミング距離が算出される。
【００８４】
算出したハミング距離の少なくとも１つが３未満の場合、ＨＦの値を１増加して更新した後（Ｓ６１４）、Ｓ６１２に戻って、次の１６ビット符号ＨＦについての処理を行う。一方、算出したハミング距離が全て３以上の場合、ｉの値を１増加して更新する（Ｓ６１５）。そして、ｉがＫＦ−１未満である場合には、Ｓ６１３に戻って、符号変換テーブル内のｉ番目に登録されている１６ビット符号及びそれの１５通り巡回符号とのハミング距離を算出する。Ｓ６１５の後、ｉがＫＦ−１以上となった場合には、１６ビット符号ＨＦを符号変換テーブルの８ビット符号ＫＦの位置に登録するとともに、ＫＦ、ＨＦの値をそれぞれ１ずつ増加して更新する（Ｓ６１６）。そして、ＨＦが６５５３６未満である場合は、Ｓ６１２に戻って、次の８ビット符号ＫＦについての処理を行う。ＨＦが６５５３６以上である場合は、１６ビットの範囲で表現可能な全ての１６ビット符号ＨＦが登録されたことになるので、符号変換テーブル作成処理を終了する。
【００８５】
このようにして図６に示した符号変換テーブルが作成される。図６の符号変換テーブルは、巡回符号を考慮しないハミング符号との対応部分だけを抜き出したものである。この符号変換テーブルには、１６ビットのハミング符号が定義可能な０〜６５５３５の範囲内で、各々１６通りの巡回符号が互いにハミング距離３以上になるように、８ビットの基準符号を定義したもので、基準符号としては７ビットより若干多い０〜１３１の値が表現可能となっている。
【００８６】
図６に示したような符号変換テーブルが用意できたら、次に２５種の識別情報を決定する。本実施形態では、識別情報を２ワード構成としており、前半の１ワードが５種、後半の１ワードが５種となるように決定することにより、２５種の識別情報を決定する。前半、後半それぞれの５種のワードは、符号変換テーブルに示した０〜１３１の基準符号のいずれかを選択することにより行う。図２（ｂ）を用いて説明したように、本発明の性質上、第２、第３、第４の符号の各ビットは、第１、第５の符号の少なくともいずれか一方のビットと同一でなければならないため、作成には工夫を要する。このような組み合わせとしては、例として図８に示すような２つがある。
【００８７】
第１符号〜第５符号は、隣接する符号間において、同一ビット値が連続しているか、全てが同一ビット値でなければならない。これを満足する１６ビットのビット列は、ＡＳＣＩＩ英数字（全６２文字）に限定すると、図８に示した２例の組み合わせのみとなる。したがって、作成者は、図８に示したどちらかの組み合わせを選択し、第１符号〜第５符号を作成する。なお、図８の例では、基準符号をＡＳＣＩＩ英数字に変換した英文字を添えて示してある。図８に示した組み合わせのうちのいずれかを第１符号〜第５符号として１ワードを形成し、第２ワード目は、第１ワード目と全く異なる符号を選択し、例えば第１ワード目の第１符号〜第５符号のビット反転符号でもう１ワードを形成し、２ワード構成の２５種の識別情報が識別情報記憶部６２に記憶されることになる。図８の２種の符号セットは一部が同一であるため、これらを第１ワードと第２ワードに使用することはできない。
【００８８】
識別情報の準備が完了したら、図３に示した埋め込み装置による処理が可能となる。続いて、図３に示した埋め込み装置の処理を、図９のフローチャートに従って説明する。図３に示した装置を構成する各構成要素は、連携して図９に従った処理を実行する。図９は、１つのチャンネルの識別情報１ワード分の処理に対応したものとなっている。したがって、４チャンネルの場合、各チャンネルにおいてほぼ同じ処理が並行して実行される。また、本発明では、１ワード分を設定された所定回数Ｎａだけ繰り返して実行した後、次の１ワードを読み込む処理を実行する。例えば、Ｎａ＝３と設定されている場合、３ワード分同じビット列が繰り返し埋め込まれる。
【００８９】
図９においては、まず、ビット配列作成手段７０は、識別情報記憶部６２から抽出した識別情報の各ワードについて、符号変換テーブルを参照し、対応するビット配列を作成する（Ｓ１０１）。具体的には、まず、識別情報記憶部６２から、前左（ＦＬ）チャンネル、前右（ＦＲ）チャンネル用の第１符号または後左（ＢＬ）チャンネル、後右（ＢＲ）チャンネル用の第５符号を１ワード（８ビット）、中間で読み出す中間用の第２〜第４符号を１ワード（８ビット）抽出し、図６に示した符号変換テーブルを参照し、対応するハミング符号で構成される１６ビットのビット配列を作成する。このＳ１０１では、識別情報の１ワード目と２ワード目で異なる処理が行われる。１ワード目の場合は、上記の通りであるが、２ワード目の場合は、識別情報記憶部６２から、前左（ＦＬ）チャンネル、後左（ＢＬ）チャンネル用の第１符号または前右（ＦＲ）チャンネル、後右（ＢＲ）チャンネル用の第５符号を１ワード（８ビット）、中間で読み出す中間用の第２〜第４符号を１ワード（８ビット）抽出し、図６に示した符号変換テーブルを参照し、対応するハミング符号で構成される１６ビットのビット配列を反転して作成する。
【００９０】
そして、この各１６ビット（３つの符号についてそれぞれ１ワードのため、１チャンネルにつき４８ビット）が、音響信号に対する情報の埋め込み装置として用いられるコンピュータ内のレジスタに読み込まれることになる。このように、識別情報記憶部６２においては、１ワードは８ビットであるが、埋め込み処理時は、この１６ビットの配列で、識別情報内の１ワード分の処理を行う。
【００９１】
次に、周波数成分変更手段３０が、レジスタに保持された各識別情報のＮｈ（＝１６）ビットから１ビットを読み込む処理を行う（Ｓ１０２）。このＳ１０２における処理も１ワード目と２ワード目で異なる。１ワード目については、ＦＬチャンネル、ＦＲチャンネルに対して処理する場合は、第１〜第３符号の各１ビットずつを読み込み、ＢＬチャンネル、ＢＲチャンネルに対して処理する場合は、第３〜第５符号の各１ビットずつを読み込むことになる。２ワード目については、ＦＬチャンネル、ＢＬチャンネルに対して処理する場合は、第１〜第３符号の各１ビットずつを読み込み、ＦＲチャンネル、ＢＲチャンネルに対して処理する場合は、第３〜第５符号の各１ビットずつを読み込むことになる。
【００９２】
続いて、音響フレーム読込手段１０が、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルをＡタイプの１音響フレームとして読み込み、周波数変換手段２０が周波数変換を行って、得られたフレームスペクトルに対して振幅変換を行う（Ｓ１０３）。具体的には、まず、読み込んだ音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る。すなわち、各音響フレームについて、窓関数Ｗ（１，ｉ）を用いて、上記〔数式２〕に従った処理を行う。そして、上記〔数式５〕に従った処理を実行してＺｌ（１）、Ｚｒ（１）を算出し振幅変換を行う。同様に、音響フレーム読込手段１０が、音響信号記憶部６１に記憶されたステレオ音響信号の左右の各チャンネルから、それぞれ所定数のサンプルをＢタイプの１音響フレームとして読み込み、周波数変換手段２０が周波数変換を行って、得られたフレームスペクトルに対して振幅変換を行う（Ｓ１０４）。具体的には、まず、読み込んだ音響フレームに対して、周波数変換を行って、その音響フレームのスペクトルであるフレームスペクトルを得る。すなわち、各音響フレームについて、窓関数Ｗ（２，ｉ）を用いて、上記〔数式３〕に従った処理を行う。そして、上記〔数式５〕に従った処理を実行してＺｌ（２）、Ｚｒ（２）を算出し振幅変換を行う。
【００９３】
続いて、周波数成分変更手段３０が、読み込んだビット値に応じてＡタイプ音響フレームおよびＢタイプ音響フレームの周波数成分の状態を変更するにあたり、〔数式６〕〜〔数式８〕に従った処理を実行して変換割合α、βを決定する処理を行う（Ｓ１０５）。具体的には、読み込んだ本来のチャンネルの符号（１ワード目であれば、ＦＬチャンネル、ＦＲチャンネルの場合は第１の符号、ＢＬチャンネル、ＢＲチャンネルの場合は第５の符号、２ワード目であれば、ＦＬチャンネル、ＢＬチャンネルの場合は第１の符号、ＦＲチャンネル、ＢＲチャンネルの場合は第５の符号）のビット値と中間の符号（１ワード目であれば、ＦＬチャンネル、ＦＲチャンネルの場合は第２の符号、ＢＬチャンネル、ＢＲチャンネルの場合は第４の符号、２ワード目であれば、ＦＬチャンネル、ＢＬチャンネルの場合は第２の符号、ＦＲチャンネル、ＢＲチャンネルの場合は第４の符号）のビット値、中央の符号（第３の符号）のビット値が同一か否かを判断する。そして、本来のチャンネルの符号のビット値、中間の符号のビット値、中央の符号のビット値全てが同一の場合はα_kとしてα₃を用い、中間の符号のビット値と中央の符号のビット値が異なる場合はα_kとしてα₂を用い、本来のチャンネルの符号のビット値と中間の符号のビット値が異なる場合はα_kとしてα₁を用いて、上記〔数式８〕に従った処理を実行することにより、α、βを決定する。この決定された変換割合α、βを用いて、周波数成分変更手段３０は、ビット配列作成手段７０から受け取った値１、値２に応じて上記〔数式９〕に従った処理を実行し、変更対象周波数帯の成分の状態を“状態１”、“状態２”のいずれかに変更する（Ｓ１０６）。
【００９４】
次に、周波数逆変換手段４０が、上記Ｓ１０６の処理によりＡタイプの音響フレームに対応する各スペクトル集合の強度が変更されたスペクトルを振幅逆変換、周波数逆変換して改変音響フレームを得る処理を行う（Ｓ１０７）。この振幅逆変換は〔数式５〕で算出したＺｌ（１）、Ｚｒ（１）の逆数をスペクトルに乗じることにより行ない、この周波数逆変換は、当然のことながら、周波数変換手段２０がＳ１０３において実行した手法に対応していることが必要となる。本実施形態では、周波数変換手段２０において、フーリエ逆変換を施しているため、周波数逆変換手段４０は、フーリエ逆変換を実行することになる。具体的には、上記〔数式９〕により得られたスペクトルの左チャンネルの実部Ａｌ´（１，ｊ）等、虚部Ｂｌ´（１，ｊ）等、右チャンネルの実部Ａｒ´（１，ｊ）等、虚部Ｂｒ´（１，ｊ）等を用いて、上記〔数式１０〕に従った処理を行い、Ｘｌ´（ｉ）、Ｘｒ´（ｉ）を算出する。改変音響フレーム出力手段５０は、得られた改変音響フレームを順次出力ファイルに出力する。
【００９５】
同様に、周波数逆変換手段４０が、上記Ｓ１０６の処理によりＢタイプの音響フレームに対応する各スペクトル集合の強度が変更されたスペクトルを振幅逆変換、周波数逆変換して改変音響フレームを得る処理を行う（Ｓ１０８）。具体的には、振幅逆変換は〔数式５〕で算出したＺｌ（２）、Ｚｒ（２）の逆数をスペクトルに乗じることにより行ない、上記〔数式９〕により得られたスペクトルの左チャンネルの実部Ａｌ´（２，ｊ）等、虚部Ｂｌ´（２，ｊ）等、右チャンネルの実部Ａｒ´（２，ｊ）等、虚部Ｂｒ´（２，ｊ）等を用いて、上記〔数式１１〕に従った処理を行い、Ｘｌ´（ｉ）、Ｘｒ´（ｉ）を算出する。
【００９６】
改変音響フレーム出力手段５０は、得られた改変音響フレームを順次出力ファイルに出力する。こうして各チャンネルについて、ＡタイプおよびＢタイプの２つの音響フレームに対する処理を終えたら、周波数成分変更手段３０がビット配列中の次の１ビットを読み込む（Ｓ１０２）。以上のような処理を音響信号の両チャンネルの全サンプルに渡って実行していく。すなわち、所定数のサンプルを音響フレームとして読み込み、音響信号から読み込むべき音響フレームがなくなったら（Ｓ１０３、Ｓ１０４）、処理を終了する。なお、Ｓ１０１において読み込んだ１ワード分のビット配列（Ｎｈ＝１６ビット）の各ビットに対応する処理を終えた場合、Ｓ１０２からＳ１０１に戻り、識別情報の次のワードを読み込む処理を行うことになる。識別情報の全ワードに対して処理が終了した場合は、識別情報の先頭ワードに戻って処理を行う。この結果、全ての音響フレームに対して処理を行った全ての改変音響フレームが出力ファイルに記録されて、改変音響信号として得られる。得られた改変音響信号は、記憶手段６０内の改変音響信号記憶部６３に出力され、記憶される。
【００９７】
なお、本実施形態では、元の識別情報である１ワード８ビットを変換して、１６ビットのビット配列とし、識別情報１ワード分の処理をする場合について説明したが、本発明では、抽出側と取り決めがある限り、識別情報の１ワードを他のビット数単位で記録することが可能である。
【００９８】
上記のようにして得られた改変音響信号のうち、識別情報が埋め込まれている部分については、変更対象周波数帯の成分は、状態１、状態２の２通りの分布しかないことになる。しかし、変更対象周波数帯の成分以外については、元の音響信号のままであるので、制作者の設定に基づいた種々な分布になる。
【００９９】
以上、埋め込み装置について説明したが、ここで、本実施形態で行っている振幅変換を用いた埋め込みおよび抽出について、図１０から図１３を用いて説明する。図１０および図１１は、比較のために、振幅変換を用いない場合の埋め込み処理および抽出処理を示し、図１２および図１３は本実施形態における振幅変換を用いた埋め込み処理および抽出処理を示す。これらの説明図においては、音響フレーム奇数および偶数３対分について、３ビットの情報を埋め込むことを想定した音響信号の信号波形を示しており、説明の便宜上、音響フレームが互いに重複しない状態で示している。各図において、左端の波形は時間次元の通常の音響信号波形を示しており、横方向は時間軸であり、右に向かうに従って時間が進行し、縦方向は強度（振幅）である。中央または右端の波形は周波数変換後の所定の周波数範囲のスペクトル成分の合算値を信号波形で表現しており、仮想的にバンドパスフィルターを通した後の信号波形になっている。縦方向は同様に強度であり、本来は左端に比べ顕著に低くなるが、ここでは説明の都合上、左端と同程度に拡大して表現している。また、２種類の波形のレベルも本来は差があるが、ここでは同一レベルで表現している。実際には、周波数変換後のデータとして所定の周波数範囲外の高周波数成分や低周波数成分も存在するが、これらについては改変を加えないという前提で図示しておらず、図５に従った埋め込みを行なう２種の周波数帯域成分に限定して２種の信号波形で示している。
【０１００】
図１０（ａ）は原音響信号を示しており、最初の１対の音響フレームは全体に渡って強度がほぼ一定、中央の１対の音響フレームは奇数フレームの強度が小さく偶数フレームの強度が大きいものであり、最後の１対の音響フレームは奇数フレームの強度が大きく偶数フレームの強度が小さいものである。このような音響信号に対して、周波数変換を行った結果が図１０（ｂ）で、図５で示されように埋め込み対象成分は上下２分割して成分変更を施す都合上、図１０（ｂ）では（ｂ−１）および（ｂ−２）の２種の波形に分離して表現した。周波数変換後の波形形状は周波数ごとに異なり、図１０（ａ）と必ずしも相似形にはならないが、ここでは周波数変換前と同様になると仮定して説明する。図１０（ｂ−１）および（ｂ−２）に対して、［０，０，０］という３ビットのデータを図５で説明した方法に基づいて埋め込むことにより（図５ではビット０は符号１に相当する）、図１０（ｃ−１）および（ｃ−２）が得られる。最初の１対は図５のようなパターンが表現できているが、残り２対の上下一方は、原段階に対して逆方向に大小関係を構築することが要求され、品質維持の都合上、適切なパターンが構築できていないことがわかる。このような改変を加えた結果に対して、周波数逆変換を行った結果が図１０（ｄ）である。一般に音響信号波形の外形（エンベロープという）はエネルギー分布が大きい低周波成分で決定され、これらは本願では所定の周波数範囲外の信号成分に含まれ、図１０（ｃ）の段階では改変が加えられていないため、周波数逆変換後の図１０（ｄ）は周波数変換前の図１０（ａ）と類似した形状になる。
【０１０１】
このような埋め込みを行なった結果に対して、抽出処理を行う様子を図１１に示す。図１１（ａ）および図１１（ｂ）は各々図１０（ｄ）および図１０（ｃ）に対応する。図１１（ｂ）において、ビット判定を行なうにあたり、最初の１対以外は図５で想定されているパターンが形成されていないため、正しいビットを判定することが難しくなる。
【０１０２】
次に、本実施形態における振幅変換を導入した手法について図１２および図１３を用いて説明する。図１２（ａ）は図１０（ａ）と同じ原音響信号を示しており、同様に周波数変換を行った図１２（ｂ）も図１０（ｂ）と同じである。ここで、６つのフレーム単位に振幅変換を行った結果が図１２（ｃ）である。図１２の場合、図１２（ａ）で各フレーム内の振幅が平坦であるため、図１２（ｃ）では全体が平坦になっているが、実際には各フレーム内は微細に変動しており、そのフレーム内変動分は図１２（ｃ）の段階でも踏襲されるため、本図のように完全に平坦になることは通常ない。（実際は図１２（ｃ）は周波数次元のデータになるため、周波数次元のデータも平坦にならず変動した形態になる。）また、変換倍率はフレームごとに設定し、上下２つの周波数成分に対しては同一の倍率で変換を行うため、通常は上下で顕著な差が生じる（ただし、時間軸方向は比較的揃う）。これに対して、［０，０，０］という３ビットのデータを埋め込むと、図１２（ｄ−１）および（ｄ−２）が得られる。原段階である図１２（ｃ）が平坦な波形であるため、全てのフレームにおいて図５のような理想的なパターンが容易に構築できることがわかる。続いて、前記フレームごとに設定した倍率の逆数を乗じて振幅逆変換を行った結果が図１２（ｅ）である。この段階では図１０（ｃ）と類似したパターンが生じることが多いが、本形状はいかなるものでも構わない。最後に周波数逆変換を行うと、図１２（ｆ）が得られ、同様に原信号波形の図１２（ａ）と類似した形状になる。
【０１０３】
このような埋め込みを行なった結果に対して、抽出処理を行う様子を図１３に示す。図１３（ａ）、（ｂ）および（ｃ）は各々図１２（ｆ）、（ｅ）および（ｄ）に対応する。図１３（ｂ）の周波数変換後の波形形状は図１２（ｂ）とは基本的に異なるが、算出される振幅変換倍率は類似した値になり、ほぼ同様な倍率で振幅変換が行われ図１３（ｃ）が得られる。図１３（ｃ）の段階で、ビット判定を行なうと、全てのフレームにおいて図５のような理想的なパターンが形成されているため、正しいビットを判定することが可能になる。
【０１０４】
以上、振幅変換を導入した本実施形態では、図１２（ｃ）に示したように、埋め込み対象の信号成分が時間軸方向に平坦になるように変換を行って埋め込むようにしているため、高周波側と低周波側の成分強度の大小関係が完全に逆になるような不自然な変更を行う確率が低くなり、品質を維持しながら、抽出側における抽出精度を高めることが可能となる。
【０１０５】
（３．１．位置検出装置の構成）
次に、本発明に係る音響信号を利用した位置検出装置について説明する。図１４は、本発明に係る音響信号を利用した位置検出装置の一実施形態を示す構成図である。図１４において、１００は音響信号入力手段、１１０は基準フレーム獲得手段、１２０は位相変更フレーム設定手段、１３０は周波数変換手段、１４０は符号判定パラメータ算出手段、１５０は符号出力手段、１６０は識別情報抽出手段、１７０は音響フレーム保持手段、１８０は巡回符号表作成手段、１９０は位置関係記憶手段、２００は位置出力手段である。
【０１０６】
音響信号入力手段１００は、流れている音声をデジタル音響信号として取得し、入力する機能を有している。現実には、マイクロフォンおよびＡ／Ｄ変換器により実現される。マイクロフォンとしては、変更対象周波数帯の成分が検出可能なものであれば、モノラル無指向性のものであっても、ステレオ指向性のものであっても使用可能である。ステレオ指向性のものであっても一方のチャンネルだけ利用すれば良い。また、図３に示した装置で情報の埋め込みを行った場合には、音響信号はステレオで再生されるが、ＦＬチャンネルに埋め込まれた識別情報を抽出する場合は、ＦＬスピーカ付近にマイクロフォンを設置し、ＦＲチャンネルに埋め込まれた識別情報を抽出する場合は、ＦＲスピーカ付近にマイクロフォンを設置し、ＢＬチャンネルに埋め込まれた識別情報を抽出する場合は、ＢＬスピーカ付近にマイクロフォンを設置し、ＢＲチャンネルに埋め込まれた識別情報を抽出する場合は、ＢＲスピーカ付近にマイクロフォンを設置し、各チャンネルに埋め込まれた複数の情報を利用して識別情報を抽出する場合は、ＦＬスピーカ、ＦＲスピーカ、ＢＬスピーカ、ＢＲスピーカに囲まれた範囲に、隣接するスピーカの間をほぼ４等分した間隔でマイクロフォンを設置する。このマイクロフォンは特別精度の高いものでなく、一般的な精度のマイクロフォンを用いても情報の抽出が可能となる。基準フレーム獲得手段１１０は、入力されたデジタルのモノラル音響信号（あるいはステレオ音響信号の１チャンネル）から所定数のサンプルで構成される音響フレームを基準フレームとして読み込む機能を有している。基準フレームとしては、埋め込み時と同様にＡタイプ、Ｂタイプのものが設定される。位相変更フレーム設定手段１２０は、Ａタイプ、Ｂタイプそれぞれの基準フレームと所定サンプルずつ移動させることにより位相を変更した音響フレームを位相変更フレームとして設定する機能を有している。
【０１０７】
周波数変換手段１３０は、基本的には、図３に示した周波数変換手段２０とほぼ同様の機能を有している。ただし、音を取り込むタイミングが、音響信号の先頭からとはならないため、正しい位相を特定するために、複数の位相で振幅変換、周波数変換を行う点、元の音響信号が４チャンネルであっても、１つのチャンネルで行う点が異なっている。
【０１０８】
周波数変換手段１３０は、Ａタイプの音響フレームに対してフーリエ変換を行う場合は、信号Ｘ（ｉ−Ｎ／２＋ｐＮ／６）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（１，ｉ）を用いて、以下の〔数式１２〕に従った処理を行い、変換データの実部Ａ（１，ｊ，ｐ）、虚部Ｂ（１，ｊ，ｐ）を得る機能を有している。ｐは位相番号であり、０〜５の整数値をとる。
【０１０９】
〔数式１２〕
Ａ（１，ｊ，ｐ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘ（ｉ−Ｎ／２＋ｐ・Ｎ／６）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂ（１，ｊ，ｐ）＝Σ_i=0,…,N-1Ｗ（１，ｉ）・Ｘ（ｉ−Ｎ／２＋ｐ・Ｎ／６）・ｓｉｎ（２πｉｊ／Ｎ）
【０１１０】
周波数変換手段１３０は、Ｂタイプの音響フレームに対してフーリエ変換を行う場合は、信号Ｘ（ｉ＋ｐ・Ｎ／６）（ｉ＝０，…，Ｎ−１）に対して、窓関数Ｗ（２，ｉ）を用いて、以下の〔数式１３〕に従った処理を行い、変換データの実部Ａ（２，ｊ，ｐ）、虚部Ｂ（２，ｊ，ｐ）を得る機能を有している。
【０１１１】
〔数式１３〕
Ａ（２，ｊ，ｐ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘ（ｉ＋ｐ・Ｎ／６）・ｃｏｓ（２πｉｊ／Ｎ）
Ｂ（２，ｊ，ｐ）＝Σ_i=0,…,N-1Ｗ（２，ｉ）・Ｘ（ｉ＋ｐ・Ｎ／６）・ｓｉｎ（２πｉｊ／Ｎ）
【０１１２】
周波数変換手段１３０は、周波数変換手段２０と同様に振幅変換を行う。振幅変換を行うにあたり、まず変換倍率の算出を行う。変換倍率の算出は、所定周波数範囲のスペクトル集合の実効強度値の平均である平均実効値で、設定値を除算することにより行う。設定値は、適宜定めておくことができるが、埋め込み時における振幅変換の場合と同一値としておくことが必要となる。したがって、本実施形態では、設定値Ｚｏは２８８（＝Ｍ−ｍ）にする必要がある。具体的には、Ａタイプの音響フレーム、Ｂタイプの音響フレームについての変換倍率Ｚ（１，ｐ）、Ｚ（２，ｐ）、これらの直前のＡタイプの音響フレーム、Ｂタイプの音響フレームについての変換倍率Ｚ_-1（１，ｐ）、Ｚ_-1（２，ｐ）は、以下の〔数式１４〕に従った処理により算出される。振幅変換が実行されることにより、全ての音響フレームは、元の状態における信号強度に関わらず、各音響フレームの平均実効値が設定値となるように振幅変換された状態で、情報の抽出が行われることになる。なお、ｐは位相番号であり、０〜５の整数値をとる。
【０１１３】
〔数式１４〕
Ｚ（１，ｐ）＝Ｚｏ／［Σ_j=m,…,M-1｛Ａ（１，ｊ，ｐ）²＋Ｂ（１，ｊ，ｐ）²｝］^1/2
Ｚ（２，ｐ）＝Ｚｏ／［Σ_j=m,…,M-1｛Ａ（２，ｊ，ｐ）²＋Ｂ（２，ｊ，ｐ）²｝］^1/2
Ｚ_-1（１，ｐ）＝Ｚｏ／［Σ_j=m,…,M-1｛Ａ_-1（１，ｊ，ｐ）²＋Ｂ_-1（１，ｊ，ｐ）²｝］^1/2
Ｚ_-1（２，ｐ）＝Ｚｏ／［Σ_j=m,…,M-1｛Ａ_-1（２，ｊ，ｐ）²＋Ｂ_-1（２，ｊ，ｐ）²｝］^1/2
【０１１４】
ｊ＝ｍ，…，Ｍ−１（周波数Ｆ１，．．．，Ｆ２に相当）およびｐ＝０，．．．，５の範囲で、Ａ（１，ｊ，ｐ）およびＢ（１，ｊ，ｐ）の各々の要素に対してＺ（１，ｐ）を乗じ、Ａ（２，ｊ，ｐ）およびＢ（２，ｊ，ｐ）の各々の要素に対してＺ（２，ｐ）を乗じ、Ａ_-1（１，ｊ，ｐ）およびＢ_-1（１，ｊ，ｐ）の各々の要素に対してＺ_-1（１，ｐ）を乗じ、Ａ_-1（２，ｊ，ｐ）およびＢ_-1（２，ｊ，ｐ）の各々の要素に対してＺ_-1（２，ｐ）を乗じることにより、振幅変換を行う。以下説明において、Ａ（１，ｊ，ｐ）、Ｂ（１，ｊ，ｐ）、Ａ（２，ｊ，ｐ）、Ｂ（２，ｊ，ｐ）、Ａ_-1（１，ｊ，ｐ）、Ｂ_-1（１，ｊ，ｐ）、Ａ_-1（２，ｊ，ｐ）、Ｂ_-1（２，ｊ，ｐ）はこれらの振幅変換を行った値とする。
【０１１５】
符号判定パラメータ算出手段１４０は、生成されたスペクトルから所定の周波数範囲に相当するスペクトル集合を抽出し、各スペクトル集合の強度値を算出するとともに、この強度値を利用して符号判定パラメータを算出し、この符号判定パラメータの大小関係に基づいて、所定の状態であると判断する機能を有している。上述のように、本実施形態では、Ａタイプの音響フレームとＢタイプの音響フレームがＮ／２サンプルずつ重複して設定されているため、ある音響フレームについて、強度値、符号判定パラメータを算出する際には、直前の音響フレームによる残響成分を考慮する必要がある。ところが、残響成分は計算により算出されるものであるので、必ずしも正確なものが算出されるとは限らず、算出された残響成分を除去することにより、反って抽出精度が低下する場合がある。そこで、本実施形態では、残響成分を除去しない場合の強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４、および符号判定パラメータＣと、除去した場合の強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´、および補正符号判定パラメータＣ´を算出し、これらを利用して最適であると思われる状態を判断する。
【０１１６】
Ａタイプの音響フレームの各成分Ａ（１，ｊ，ｐ）、Ｂ（１，ｊ，ｐ）に対して１フレーム分前のＢタイプの音響フレームに対応する各成分をＡ_-1（２，ｊ，ｐ）、Ｂ_-1（２，ｊ，ｐ）とすると、Ｂタイプの音響フレームの各成分Ａ（２，ｊ，ｐ）、Ｂ（２，ｊ，ｐ）に対応して、１フレーム分前の音響フレームは以下補正を施す前の前記Ａタイプの音響フレームとなる。符号判定パラメータ算出手段１４０は、各スペクトル集合の強度値の算出の前に、まず、各スペクトル集合の基本強度値Ｅ（１，ｊ，ｐ）、Ｅ（２，ｊ，ｐ）、および残響成分を除去した基本強度値Ｅ´（１，ｊ，ｐ）、Ｅ´（２，ｊ，ｐ）を、以下の〔数式１５〕に従った処理により算出する。
【０１１７】
〔数式１５〕
Ｅ（１，ｊ，ｐ）＝Ａ（１，ｊ，ｐ）²＋Ｂ（１，ｊ，ｐ）²
Ｅ（２，ｊ，ｐ）＝Ａ（２，ｊ，ｐ）²＋Ｂ（２，ｊ，ｐ）²
Ｅ_-1（１，ｊ，ｐ）＝Ａ_-1（１，ｊ，ｐ）²＋Ｂ_-1（１，ｊ，ｐ）²
Ｅ_-1（２，ｊ，ｐ）＝Ａ_-1（２，ｊ，ｐ）²＋Ｂ_-1（２，ｊ，ｐ）²
Ｅ´（１，ｊ，ｐ）＝Ｅ（１，ｊ，ｐ）−ｑ・Ｅ_-1（２，ｊ，ｐ）
Ｅ´（２，ｊ，ｐ）＝Ｅ（２，ｊ，ｐ）−ｑ・Ｅ（１，ｊ，ｐ）
【０１１８】
上記〔数式１５〕における６つの式のうち、上から５番目（下から２番目）の式は、あるＡタイプの音響フレームに着目したときに、その前半のＮ／２サンプルが重複するＢタイプの音響フレームからの残響成分を除去するためのものである。また、上から６番目（下から１番目）の式は、あるＢタイプの音響フレームに着目したときに、その前半のＮ／２サンプルが重複するＡタイプの音響フレームからの残響成分を除去するためのものである。Ｅ´（１，ｊ，ｐ）≧０、Ｅ´（２，ｊ，ｐ）≧０とし、〔数式１５〕の上から５番目、６番目の式に従った処理の結果、負の値となった場合には、０に設定する。
【０１１９】
上記〔数式１５〕において、ｑは残響成分の大きさを示す係数であるが、この係数ｑは１未満の値を持つものであり、実験の結果、Ｎ＝４０９６のときｑ＝０．０６、Ｎ＝２０４８のときｑ＝０．１２、Ｎ＝１０２４のときｑ＝０．２４、Ｎ＝５１２のときｑ＝０．４８が最適である。
【０１２０】
そして、残響成分を除去しない場合の各スペクトル集合の強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４、Ｅ５、Ｅ６、Ｅ７、Ｅ８、除去した場合の強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´、Ｅ５´、Ｅ６´、Ｅ７´、Ｅ８´を、算出した基本強度値Ｅ（１，ｊ，ｐ）、Ｅ（２，ｊ，ｐ）、Ｅ´（１，ｊ，ｐ）、Ｅ´（２，ｊ，ｐ）を用いて以下の〔数式１６〕に基づいて算出する。
【０１２１】
〔数式１６〕
Ｅ１（ｐ）＝Σ_{j=m,…,m+G-1}Ｅ（１，ｊ，ｐ）
Ｅ２（ｐ）＝Σ_{j=m,…,m+G-1}Ｅ（２，ｊ，ｐ）
Ｅ３（ｐ）＝Σ_{j=m+G,…,m+2G-1}Ｅ（１，ｊ，ｐ）
Ｅ４（ｐ）＝Σ_{j=m+G,…,m+2G-1}Ｅ（２，ｊ，ｐ）
Ｅ５（ｐ）＝Σ_{j=m+2G,…,m+2G+Gu-1}Ｅ（１，ｊ，ｐ）
Ｅ６（ｐ）＝Σ_{j=m+2G,…,m+2G+Gu-1}Ｅ（２，ｊ，ｐ）
Ｅ７（ｐ）＝Σ_{j=m+2G+Gu,…,m+2G+2Gu-1}Ｅ（１，ｊ，ｐ）
Ｅ８（ｐ）＝Σ_{j=m+2G+Gu,…,m+2G+2Gu-1}Ｅ（２，ｊ，ｐ）
Ｅ１´（ｐ）＝Σ_{j=m,…,m+G-1}Ｅ´（１，ｊ，ｐ）
Ｅ２´（ｐ）＝Σ_{j=m,…,m+G-1}Ｅ´（２，ｊ，ｐ）
Ｅ３´（ｐ）＝Σ_{j=m+G,…,m+2G-1}Ｅ´（１，ｊ，ｐ）
Ｅ４´（ｐ）＝Σ_{j=m+G,…,m+2G-1}Ｅ´（２，ｊ，ｐ）
Ｅ５´（ｐ）＝Σ_{j=m+2G,…,m+2G+Gu-1}Ｅ´（１，ｊ，ｐ）
Ｅ６´（ｐ）＝Σ_{j=m+2G,…,m+2G+Gu-1}Ｅ´（２，ｊ，ｐ）
Ｅ７´（ｐ）＝Σ_{j=m+2G+Gu,…,m+2G+2Gu-1}Ｅ´（１，ｊ，ｐ）
Ｅ８´（ｐ）＝Σ_{j=m+2G+Gu,…,m+2G+2Gu-1}Ｅ´（２，ｊ，ｐ）
【０１２２】
結局〔数式１５〕〔数式１６〕により、各スペクトル集合の強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４、Ｅ５、Ｅ６、Ｅ７、Ｅ８が算出されるとともに、当該各スペクトル集合に対応するタイプの別を問わない直前の音響フレームにおけるスペクトル集合の強度にｑを乗じた値を減じることにより強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´、Ｅ５´、Ｅ６´、Ｅ７´、Ｅ８´が算出されることになる。
【０１２３】
また、符号判定パラメータ算出手段１４０は、残響成分を除去せずに算出した強度値Ｅ１、Ｅ２、Ｅ３、Ｅ４、Ｅ５、Ｅ６、Ｅ７、Ｅ８を用いて、符号判定パラメータＣを算出する。１音響フレームに１ビット埋め込む方式の場合、以下の〔数式１７〕に従った処理を実行することにより、候補符号Ｂについて仮判定するとともに、符号判定パラメータＣを算出する。
【０１２４】
〔数式１７〕
１）Ｅ１（ｐ）・Ｅ５（ｐ）＞Ｅ２（ｐ）・Ｅ６（ｐ）かつＥ４（ｐ）・Ｅ８（ｐ）＞Ｅ３（ｐ）・Ｅ７（ｐ）の場合
Ｂ＝０と仮判定、
Ｃ＝Ｅ１（ｐ）・Ｅ５（ｐ）・｛Ｅ４（ｐ）・Ｅ８（ｐ）−Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）｝／｛Ｅ１（ｐ）・Ｅ５（ｐ）・Ｅ４（ｐ）・Ｅ８（ｐ）＋Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）｝
２）Ｅ２（ｐ）・Ｅ６（ｐ）＞Ｅ１（ｐ）・Ｅ５（ｐ）かつＥ３（ｐ）・Ｅ７（ｐ）＞Ｅ４（ｐ）・Ｅ８（ｐ）の場合
Ｂ＝１と仮判定、
Ｃ＝｛Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）−Ｅ１（ｐ）・Ｅ５（ｐ）・Ｅ４（ｐ）・Ｅ８（ｐ）｝／｛Ｅ１（ｐ）・Ｅ５（ｐ）・Ｅ４（ｐ）・Ｅ８（ｐ）＋Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）｝
３）Ｅ１（ｐ）・Ｅ５（ｐ）・Ｅ４（ｐ）・Ｅ８（ｐ）＞Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）の場合
Ｂ＝０と仮判定、
Ｃ＝｛Ｅ１（ｐ）・Ｅ５（ｐ）・Ｅ４（ｐ）・Ｅ８（ｐ）−Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）｝／｛Ｅ１（ｐ）・Ｅ５（ｐ）・Ｅ４（ｐ）・Ｅ８（ｐ）＋Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）｝
４）上記１）〜３）以外の場合
Ｂ＝１と仮判定、
Ｃ＝｛Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）−Ｅ１（ｐ）・Ｅ５（ｐ）・Ｅ４（ｐ）・Ｅ８（ｐ）｝／｛Ｅ１（ｐ）・Ｅ５（ｐ）・Ｅ４（ｐ）・Ｅ８（ｐ）＋Ｅ２（ｐ）・Ｅ６（ｐ）・Ｅ３（ｐ）・Ｅ７（ｐ）｝
【０１２５】
また、符号判定パラメータ算出手段１４０は、残響成分を除去して算出した強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´、Ｅ５´、Ｅ６´、Ｅ７´、Ｅ８´を用いて、補正符号判定パラメータＣ´を算出する。１音響フレームに１ビット埋め込む方式の場合、上記〔数式１７〕において、Ｅ１（ｐ）〜Ｅ８（ｐ）をそれぞれＥ１´（ｐ）〜Ｅ８´（ｐ）に置き換えることにより、候補符号Ｂに代えて候補符号Ｂ´について仮判定するとともに、符号判定パラメータＣに代えて補正符号判定パラメータＣ´を算出する。
【０１２６】
一方、符号判定パラメータ算出手段１４０は、１音響フレームに２ビット埋め込む方式の場合、２ビットの各ビットについて、それぞれ候補符号をＢ１、Ｂ２、符号判定パラメータをＣ１、Ｃ２とすると、以下の〔数式１８〕に従った処理を実行することにより、候補符号Ｂ１について仮判定するとともに、符号判定パラメータＣ１を算出する。
【０１２７】
〔数式１８〕
１）Ｅ１（ｐ）＞Ｅ２（ｐ）かつＥ４（ｐ）＞Ｅ３（ｐ）の場合
Ｂ１＝０と仮判定、
Ｃ１＝｛Ｅ１（ｐ）・Ｅ４（ｐ）−Ｅ２（ｐ）・Ｅ３（ｐ）｝／｛Ｅ１（ｐ）・Ｅ４（ｐ）＋Ｅ２（ｐ）・Ｅ３（ｐ）｝
２）Ｅ２（ｐ）＞Ｅ１（ｐ）かつＥ３（ｐ）＞Ｅ４（ｐ）の場合
Ｂ１＝１と仮判定、
Ｃ１＝｛Ｅ２（ｐ）・Ｅ３（ｐ）−Ｅ１（ｐ）・Ｅ４（ｐ）｝／｛Ｅ１（ｐ）・Ｅ４（ｐ）＋Ｅ２（ｐ）・Ｅ３（ｐ）｝
３）Ｅ１（ｐ）・Ｅ４（ｐ）＞Ｅ２（ｐ）・Ｅ３（ｐ）の場合
Ｂ１＝０と仮判定、
Ｃ１＝｛Ｅ１（ｐ）・Ｅ４（ｐ）−Ｅ２（ｐ）・Ｅ３（ｐ）｝／｛Ｅ１（ｐ）・Ｅ４（ｐ）＋Ｅ２（ｐ）・Ｅ３（ｐ）｝
４）上記１）〜３）以外の場合
Ｂ１＝１と仮判定、
Ｃ１＝｛Ｅ２（ｐ）・Ｅ３（ｐ）−Ｅ１（ｐ）・Ｅ４（ｐ）｝／｛Ｅ１（ｐ）・Ｅ４（ｐ）＋Ｅ２（ｐ）・Ｅ３（ｐ）｝
【０１２８】
また、以下の〔数式１９〕に従った処理を実行することにより、候補符号Ｂ２について仮判定するとともに、符号判定パラメータＣ２を算出する。
【０１２９】
〔数式１９〕
１）Ｅ５（ｐ）＞Ｅ６（ｐ）かつＥ８（ｐ）＞Ｅ７（ｐ）の場合
Ｂ２＝０と仮判定、
Ｃ２＝｛Ｅ５（ｐ）・Ｅ８（ｐ）−Ｅ６（ｐ）・Ｅ７（ｐ）｝／｛Ｅ５（ｐ）・Ｅ８（ｐ）＋Ｅ６（ｐ）・Ｅ７（ｐ）｝
２）Ｅ６（ｐ）＞Ｅ５（ｐ）かつＥ７（ｐ）＞Ｅ８（ｐ）の場合
Ｂ２＝１と仮判定、
Ｃ２＝｛Ｅ６（ｐ）・Ｅ７（ｐ）−Ｅ５（ｐ）・Ｅ８（ｐ）｝／｛Ｅ５（ｐ）・Ｅ８（ｐ）＋Ｅ６（ｐ）・Ｅ７（ｐ）｝
３）Ｅ５（ｐ）・Ｅ８（ｐ）＞Ｅ６（ｐ）・Ｅ７（ｐ）の場合
Ｂ２＝０と仮判定、
Ｃ２＝｛Ｅ５（ｐ）・Ｅ８（ｐ）−Ｅ６（ｐ）・Ｅ７（ｐ）｝／｛Ｅ５（ｐ）・Ｅ８（ｐ）＋Ｅ６（ｐ）・Ｅ７（ｐ）｝
４）上記１）〜３）以外の場合
Ｂ２＝１と仮判定、
Ｃ２＝｛Ｅ６（ｐ）・Ｅ７（ｐ）−Ｅ５（ｐ）・Ｅ８（ｐ）｝／｛Ｅ５（ｐ）・Ｅ８（ｐ）＋Ｅ６（ｐ）・Ｅ７（ｐ）｝
【０１３０】
また、符号判定パラメータ算出手段１４０は、残響成分を除去して算出した強度値Ｅ１´、Ｅ２´、Ｅ３´、Ｅ４´、Ｅ５´、Ｅ６´、Ｅ７´、Ｅ８´を用いて、補正符号判定パラメータＣ１´、Ｃ２´を算出する。１音響フレームに２ビット埋め込む方式の場合、上記〔数式１８〕〔数式１９〕において、Ｅ１（ｐ）〜Ｅ８（ｐ）をそれぞれＥ１´（ｐ）〜Ｅ８´（ｐ）に置き換えることにより、候補符号Ｂ１、Ｂ２に代えて候補符号Ｂ１´、Ｂ２´について仮判定するとともに、符号判定パラメータＣ１、Ｃ２に代えて補正符号判定パラメータＣ１´、Ｃ２´を算出する。
【０１３１】
符号出力手段１５０は、１つの基準フレームに対応する音響フレーム（基準フレームおよび位相変更フレーム）の中から最適な位相であると判断されるものを判断し、その音響フレームの状態に対応する符号を出力する機能を有している。符号判定パラメータ算出手段１４０と符号出力手段１５０により符号化手段が構成される。識別情報抽出手段１６０は、符号出力手段１５０により出力された２値の配列をＮｈビット単位で抽出し、巡回符号表を参照することにより、Ｎｗビットの基準符号に変換する機能を有している。音響フレーム保持手段１７０は、Ａタイプ、Ｂタイプそれぞれについて連続する２個の基準フレームを保持可能なバッファメモリである。巡回符号表作成手段１８０は、上記変換テーブル作成装置と同様、Ｎｗビットが取り得る２のＮｗ乗個以下の基準符号に対して、互いにハミング距離が少なくとも３以上となるＮｈ（＞Ｎｗ）ビットのハミング符号を割り当てることにより、Ｎｗビットの基準符号とＮｈビットのハミング符号が対応付けられた符号変換テーブルおよび巡回符号表を作成する機能を有している。位置関係記憶手段１９０は、左右スピーカを基準とする相対位置と基準符号を対応付けた位置関係テーブルを記憶したものである。位置出力手段２００は、識別情報抽出手段１６０により得られた基準符号を用いて、位置関係記憶手段１９０内の位置関係テーブルを参照して、位置情報を取得し、出力する。具体的な出力には、液晶ディスプレイ等の表示機器を用いる。
【０１３２】
図１４に示した各構成手段は、現実には情報処理機能を有する小型のコンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。特に、本発明の目的をより簡易に達成するためには、携帯電話機やＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）等の演算処理機能（コンピュータとしての機能）を備えた携帯型端末装置をハードウェアとして用いることが望ましい。位置検出装置としての機能を備えた携帯型端末装置を携帯して左右のスピーカの間を移動させることにより、携帯型端末装置が備えたマイクロフォンにより取得した音に基づいて、４つのスピーカに囲まれた範囲内の相対的位置を検出することができる。
【０１３３】
（３．２．位置検出装置の処理動作）
次に、図１４に示した音響信号を利用した位置検出装置の処理動作について、図１５のフローチャートに従って説明する。位置検出装置を起動すると、まず、本装置では、位相判定テーブルＳ（ｐ）、位相決定ログ、位相確定フラグ、総和値累積テーブルＴｅ（１、ｐ）〜Ｔｅ（８、ｐ）、ビットカウンタを初期化する（Ｓ２００）。位相判定テーブルＳ（ｐ）は、位相を判定するためのテーブルであり、ｐは０〜５の整数値をとる。初期値はＳ（ｐ）＝０に設定されている。位相決定ログは、１つの基準フレームと５つの位相変更フレームの組ごとに、決定された位相すなわち位相番号ｐを記録していくものであり、初期状態では０が設定されている。位相確定フラグは、位相が確定しているかどうかを示すフラグであり、初期状態ではＯｆｆに設定されている。総和値累積テーブルＴｅ（１、ｐ）〜Ｔｅ（８、ｐ）は、過去（バイト周期×Ｎｈフレーム）分の総和値Ｅ１〜Ｅ４、残響補正後の総和値Ｅ１´〜Ｅ４´を６通りの位相別に保存したものであり、初期状態ではＴｅ（１、ｐ）〜Ｔｅ（８、ｐ）＝０に設定されている。ビットカウンタについては初期値として０を設定する。
【０１３４】
続いて、巡回符号表作成手段１８０が、巡回符号表を作成する（Ｓ２１０）。巡回符号表とは、図６に示した符号変換テーブルにおいて、変換元の７ビット基準符号に対応する変換後の１６ビットハフマン符号のビット列を１ビットずつ移動させた巡回ビットパターンを記録したものである。巡回符号表作成手段１８０は、まず、変換テーブル作成装置と同様、図７のフローチャートに従った処理により図６に示したような符号変換テーブルを作成した後、巡回符号表を作成する。具体的には、巡回符号表作成手段１８０は、図６に示したような符号変換テーブルにおいて、８ビット基準符号に対応付けられた１６ビットハミング符号のビット列を１ビットずつ移動した巡回ビットパターンを作成し、８ビット基準符号に対応付けて記録する。例えば、図６の８ビット基準符号“０”には、１６ビットハミング符号“００００，００００，００００，０００１”が正規のビットパターンとして対応付けられているので、巡回符号表作成手段１８０は、１ビット移動した１６ビット符号“００００，００００，００００，００１０”（１０進表記“２”）、２ビット移動した１６ビット符号“００００，００００，００００，０１００”（１０進表記“４”）、…、１５ビット移動した１６ビット符号“１０００，００００，００００，００００”（１０進表記“３２７６８”）までの１５個のビットパターンを巡回ビットパターンとして作成する。このようにして、作成された巡回符号表の一例を図１６に示す。ビット配列のビット数Ｎｈを１６、ハミング距離を３とした場合図１６に示した巡回符号表を用いてビットパターンの照合を行うことになる。
【０１３５】
図１６の巡回符号表においては、いずれも１０進表記で示してある。例えば、１行目の８ビット基準符号“０”に対しては、正規の１６ビットハミング符号“１”と１５個の巡回ビットパターン“２”“４” “８”“１６” “３２”“６４” “１２８”“２５６” “５１２”“１０２４” “２０４８” “４０９６” “８１９２” “１６３８４” “３２７６８”が対応付けて記録される。
【０１３６】
このように、初期値が設定され、巡回符号表が作成された状態で、携帯端末に対して、位置検出装置としての起動の指示を行う。これは、例えば、位置検出装置を携帯電話機等の携帯端末で実現している場合は、所定のボタンを操作することにより実行できる。位置検出装置は、指示が入力されると、音響信号入力手段１００が、流れている音楽を録音し、デジタル化してデジタル音響信号として入力する。具体的には、無指向性マイクロフォン（または指向性マイクロフォンの一方のチャンネル）から入力される音声を、Ａ／Ｄ変換器によりデジタル化する処理を行うことになる。
【０１３７】
続いて、基準フレーム獲得手段１１０が、音響信号入力手段１００から入力された音響信号から、所定数のサンプルで構成される音響フレームを基準フレームとして抽出する（Ｓ２０１）。具体的には、Ａタイプ、Ｂタイプについての基準フレームを抽出して音響フレーム保持手段１７０に読み込むことになる。基準フレーム獲得手段１１０が基準フレームとして読み込む１音響フレームのサンプル数は、図２に示した音響フレーム読込手段１０で設定されたものと同一にする必要がある。したがって、本実施形態の場合、基準フレーム獲得手段１１０は、Ａタイプ、Ｂタイプについてそれぞれ４０９６サンプルずつ、順次基準フレームとして読み込んでいくことになる。音響フレーム保持手段１７０には、各チャンネルについて、Ａタイプ、Ｂタイプ２個ずつの基準フレーム、すなわち２．５Ｎサンプルが格納可能となっており、新しい基準フレームが読み込まれると、古い基準フレームを破棄するようになっている。したがって、音響フレーム保持手段１７０には、常に基準フレーム４個分（連続する１０２４０サンプル）が格納されていることになる。
【０１３８】
位置検出装置で処理する音響フレームは、先頭から途切れることなく隣接して設定される基準フレームと、この基準フレームと位相を変更した位相変更フレームとに分けることができる。基準フレームについては、Ａタイプの音響フレームとＢタイプの音響フレームが、２０４８サンプルずつ重複している場合、最初の基準フレームとしてサンプル番号１からサンプル番号４０９６までを設定したら、次の基準フレームは、サンプル番号２０４９からサンプル番号６１４４、さらに次の基準フレームは、サンプル番号４０９７からサンプル番号８１９２、さらに次の基準フレームは、サンプル番号６１４５からサンプル番号１０２４０、というように途切れることなく設定される。そして、各基準フレームについて、１／６フレーム（約６８３サンプル）ずつ移動した５個の位相変更フレームを設定する。例えば、最初の基準フレームについては、サンプル番号６８３、１３６６、２０４９、２７３２、３４１３から始まる４０９６のサンプルで構成される５個の位相変更フレームが設定されることになる。続いて、周波数変換手段１３０、符号判定パラメータ算出手段１４０が、読み込んだ各音響フレームについて、位相を特定した後、埋め込まれている情報を判定し、対応する符号を出力する（Ｓ２０２）。出力される情報の形式は、識別情報が埋め込まれる場合に対応する値１、値２の２通りの形式となる。
【０１３９】
ここで、ステップＳ２０２の位相確定および符号判定の詳細を図１７のフローチャートに従って説明する。まず、位相確定フラグがＯｎであるかＯｆｆであるかの確認を行う（Ｓ３０１）。位相確定フラグがＯｎである場合は、位相確定処理（Ｓ３０３〜Ｓ３０９）を行わず、符号判定処理のみを行う（Ｓ３０２）。ただし、初期状態では位相は確定しておらず、位相確定フラグがＯｆｆとなっているので、候補符号テーブルＢ（ｐ）の初期化を行う（Ｓ３０３）。候補符号テーブルＢ（ｐ）は、１つの基準フレームおよび５個の位相変更フレームを特定するｐ＝０〜５の位相番号および、この６個の音響フレームの状態から得られる２値の符号を記録するものである。
【０１４０】
続いて、符号判定パラメータ算出手段１４０は、符号判定処理を行う（Ｓ３０２）。ここで、符号判定処理の詳細を図１８に示す。まず、周波数変換手段１３０が、読み込んだ各音響フレームに対して、周波数変換を行って各窓スペクトルを得る（Ｓ４０１）。具体的には、上記〔数式１２〕〔数式１３〕に従った処理を実行し、変換データの実部Ａ（１，ｊ，ｐ）、虚部Ｂ（１，ｊ，ｐ）、実部Ａ（２，ｊ，ｐ）、虚部Ｂ（２，ｊ，ｐ）を得る。
【０１４１】
Ｓ４０１の処理については、実際には、Ａタイプ音響フレームについて周波数変換を行った後、Ｎ／２サンプルだけシフトしてＢタイプ音響フレームについて周波数変換を行う。これらの変換データＡ（１，ｊ，ｐ）、Ｂ（１，ｊ，ｐ）、Ａ（２，ｊ，ｐ）、Ｂ（２，ｊ，ｐ）に対して、上記〔数式１４〕に従った処理を実行し、振幅変換を行う（Ｓ４０２）。
【０１４２】
上記周波数変換手段１３０における処理により、周波数に対応した成分であるスペクトルで表現されたフレームスペクトルが得られる。続いて、符号判定パラメータ算出手段１４０は、符号判定パラメータＣ、Ｃ´を上述のようにして算出した後、符号判定パラメータＣ、Ｃ´を用いて、変更対象周波数帯の成分の状態がどのような状態であるか、すなわち、１ビットの値としてどのような値が埋め込まれていたかを判断する処理を行う（Ｓ４０３）。具体的には、上記〔数式１５〕〜〔数式１７〕に従った処理を実行して、符号判定パラメータＣ、Ｃ´を算出する。そして、この両者を比較して、Ｃ＞Ｃ´であれば候補符号Ｂを候補符号テーブルＢ（ｐ）に設定し、Ｃ≦Ｃ´であれば候補符号Ｂ´を候補符号テーブルＢ（ｐ）に出力する。
【０１４３】
Ｓ４０３の具体的な処理手順としては、まず、上記〔数式１５〕の１番目の式と２番目の式を利用して基本強度値Ｅ（１，ｊ，ｐ）、Ｅ（２，ｊ，ｐ）を算出した後、上記〔数式１６〕の１番目から４番目までの式を利用してＥ１（ｐ）、Ｅ２（ｐ）、Ｅ３（ｐ）、Ｅ４（ｐ）を算出し、上記〔数式１７〕に従って候補符号Ｂおよび符号判定パラメータＣを算出する処理を行う。続いて、上記〔数式１５〕の３番目から６番目までの式を利用して、残響補正処理を行って基本強度値Ｅ´（１，ｊ，ｐ）、Ｅ´（２，ｊ，ｐ）を算出する。そして、上記〔数式１６〕の５番目から８番目までの式を利用してＥ１´（ｐ）、Ｅ２´（ｐ）、Ｅ３´（ｐ）、Ｅ４´（ｐ）を算出し、上記〔数式１７〕に従って候補符号Ｂ´および補正符号判定パラメータＣ´を算出する処理を行う。
【０１４４】
また、上記判定の結果、位相ｐにおける候補符号テーブルＢ（ｐ）に値１、値２のいずれかを出力した場合には、さらに、以下の〔数式２０〕に従って位相判定テーブルＳ（ｐ）の更新を行う（Ｓ４０４）。
【０１４５】
〔数式２０〕
Ｃ＞Ｃ´である場合、Ｓ（ｐ）←Ｓ（ｐ）＋Ｃ
Ｃ≦Ｃ´である場合、Ｓ（ｐ）←Ｓ（ｐ）＋Ｃ´
【０１４６】
ここで、図１７のフローチャートに戻って、符号判定パラメータ算出手段１４０は、候補符号テーブルＢ（ｐ）に、位相ｐにおいて符号判定処理（Ｓ３０２）で仮決定された符号を保存する（Ｓ３０４）。
【０１４７】
続いて、全ての位相番号ｐに対応する処理を終えたかどうかを判定する（Ｓ３０５）。これは、ある基準フレームに対して全ての位相変更フレームの処理を行ったかどうかを判定している。本実施形態では、ｐが０〜５までの値をとるので、６回分処理していない場合は、処理していた音響フレームから所定サンプル数ずらして、位相の異なる音響フレームを設定し、Ｓ３０２に戻って処理を繰り返す。なお、ｐ＝０の場合が基準フレームであり、ｐ＝１〜５の場合が位相変更フレームである。全ての位相番号ｐに対応する処理を終えた場合は、位相判定テーブルＳ（ｐ）の値が最大となる位相番号ｐｍａｘに対応する位相が最適位相であると判定し、候補符号テーブルＢ（ｐ）に記録されている符号Ｂ（ｐｍａｘ）を出力する（Ｓ３０６）。
【０１４８】
続いて、位相決定ログの更新を行う（Ｓ３０７）。位相決定ログとは、１つの基準フレームと５つの位相変更フレームの組ごとに、決定された位相すなわち位相番号ｐを記録するものである。そして、位相決定ログを参照して、位相が過去所定回数同一であったかどうかを判断する（Ｓ３０８）。本実施形態では、この回数を１０回としている。位相が過去所定回数同一であった場合には、位相確定フラグをＯｎに設定する（Ｓ３０９）。これにより、同一位相が所定回数続いた場合には、最適位相はｐｍａｘとなる可能性が高いため、位相確定処理（Ｓ３０３〜Ｓ３０９）を行わず、位相番号ｐ＝ｐｍａｘに対してのみ符号判定処理（Ｓ３０２）を行うことになる。
【０１４９】
再び図１５のフローチャートに戻って説明する。位相確定および符号出力が行なわれたら、出力された符号の値に対応する１ビットをバッファに保存する（Ｓ２０３）。次に、ビットカウンタを“１”だけカウントアップする（Ｓ２０４）。
【０１５０】
次に、ビットカウンタが１５以下であるか１６以上であるかを判断する（Ｓ２０５）。ビットカウンタが１５以下の場合は、Ｓ２０１に戻って、次のＡタイプ、Ｂタイプの基準フレームを抽出する処理を行う。
【０１５１】
（BB612）
次に、ビットカウンタが１５以下であるか１６以上であるかを判断する（Ｓ２０５）。ビットカウンタが１５以下の場合は、Ｓ２０１に戻って、次のＡタイプ、Ｂタイプの基準フレームを抽出する処理を行う。
【０１５２】
（BB612）
ビットカウンタが１６以上である場合は、バッファに保存された１６ビットのビット配列と巡回符号表内のビットパターンとの照合を行う（Ｓ２０６）。照合の結果、一致するビットパターンが１６ビットハミング符号または巡回ビットパターンとして存在する場合には、適合パターン有りと判断し、対応する基準符号８ビットを抽出して出力する（Ｓ２０８）。音響フレームから抽出された１６ビットのビット列が巡回ビットパターンのいずれかであった場合、これらのビットパターンは埋め込み時に埋め込んでいるはずであるので、対応する１６ビットハミング符号のビットパターンをずれた位置で読み込んでいると判断し、８ビット基準符号を抽出するのである。Ｓ２０６の照合の結果、一致するビットパターンが１６ビットハミング符号、巡回ビットパターンのいずれにも存在しない場合には、適合パターン無しと判断し、Ｓ２０１に戻って、次の基準フレームを抽出する処理を行う。
【０１５３】
Ｓ２０８において、基準符号８ビットを抽出して出力した場合には、ビットカウンタを０に初期化する（Ｓ２０９）。そして、Ｓ２０１に戻って、次の基準フレームから抽出する処理を行う。本発明では、埋め込み時にＮａ回重複して同一ワードを埋め込んでいるが、埋め込み時の先頭ビットから１６ビットが偶然にも抽出されない限り、通常（Ｎａ−１）回の同一ワードが抽出されることになる（１ワード分は前後の異なるワード間をまたがって抽出されるため、Ｓ２０６の照合の結果、通常エラーになる）。この場合、実際に情報として必要なのは１ワード分のみであるため、後続する（Ｎａ−２）ワード分の８ビット基準符号を読み飛ばすのである。もちろん、状況によっては、（Ｎａ−２）ワード以下の８ビット基準符号しか読み込まれない場合もあれば、全く読み込まれない場合もある。
【０１５４】
図１５に示す処理を各基準フレームに対して実行することにより、識別情報の１ワードが抽出されることになる。Ｓ２０１において全ての基準フレームが抽出されたと判断された場合には、処理を終了する。
【０１５５】
上記Ｓ２０８の処理において、識別情報抽出手段１６０は、まず、符号出力手段１５０により出力された２値の配列をＮｈビット単位で抽出し、巡回符号表を参照することにより、Ｎｗビットの基準符号に変換する。正しく処理が行われれば、この基準符号は、第１〜第５のいずれかの符号と同一となる。そして、位置出力手段２００が、識別情報抽出手段１６０により得られた識別情報を用いて、位置関係記憶手段１９０内の位置関係テーブルを参照して、位置情報を取得し、出力する。位置関係記憶手段１９０内の位置関係テーブルの一例を図１９に示す。位置関係テーブルには、検出位置と識別情報の対応関係が記録されている。識別情報としては、各ワードを第１符号〜第５符号のいずれかとした２ワード構成のものをあらかじめ記録しておく。抽出された識別情報で、この位置関係テーブルを参照することにより、検出位置の情報が得られるので、位置出力手段２００はその検出位置を出力する。具体的には、図１９に検出位置として示された“前左スピーカ付近”等の内容を表示装置（図示省略）の画面に表示出力する。
【０１５６】
（３．３．位相補正処理について）
上記のように、抽出時には、埋め込み時に埋め込んだ音響フレームに対応して、音響信号を読み込むことができるとは限らない。そこで、音響フレームの位相をずらして複数通り（本実施形態では６通り）で読み込み、その中で最適な位相を決定し、その位相で特定される音響フレームに対応する符号を出力することにしている。例えば、６通りで読み込む場合、先頭の音響フレームは、本来サンプル番号１〜４０９６のサンプルであるが、サンプル番号１、６８３、１３６６、２０４９、２７３２、３４１３から始まる４０９６のサンプルで構成される６個の各音響フレームに対して処理を行い、最適な音響フレームに対応する符号を出力することになる。なお、図１６のフローチャートを用いて説明したように、本実施形態では、同一位相が所定回数連続した場合には、それ以降はその位相を確定したものとして処理を行う。
【０１５７】
（４．５．１ｃｈサラウンド再生に対応した例）
上記の例では、４チャンネルの音響信号を４つのスピーカから再生する場合について説明したが、本発明は、さらに多くのチャンネルに対応することが可能である。ここでは、一例として５．１ｃｈサラウンド再生に対応させる場合について説明する。５．１ｃｈサラウンド再生に対応させる場合、上記のような４つのスピーカに加えて、中央のスピーカであるＦＣスピーカと、低音強調用のスピーカであるＬＦスピーカを用意する。そして、ＦＣスピーカから出力させるべきＦＣチャンネルの音響信号と、ＬＦスピーカから出力させるべきＬＦチャンネルの音響信号それぞれの低周波成分に対して、上記説明のようにして、周波数成分の変更を行う。
【０１５８】
ここで、５．１ｃｈサラウンド再生の場合における本発明の適用について、４チャンネルの場合の図２２と対比しながら説明する。図２４は、５．１ｃｈサラウンド再生の場合の６個のスピーカと、各位置で検出される識別情報の関係を示す図である。ＦＬスピーカ、ＦＲスピーカ、ＢＬスピーカ、ＢＲスピーカに囲まれた９つのビット列（９種の識別情報）は、図２２に示したものと同一であるが、図２４では、所定周波数成分の強度を反映していない。図２４では、各スピーカから発せられる音に埋め込まれた識別情報に所定周波数成分の強度を反映させたビット列を、ＦＬスピーカ、ＦＣスピーカ、ＬＦスピーカ、ＦＲスピーカについては、図面上側に、ＢＬスピーカ、ＢＲスピーカについては、図面下側に示している。
【０１５９】
５．１ｃｈサラウンド再生の場合であっても、ＦＬスピーカ、ＦＲスピーカ、ＢＬスピーカ、ＢＲスピーカから発せられる音の所定周波数成分は、４チャンネルの場合と全く同じである。この場合、ＦＣスピーカ、ＬＦスピーカからは、所定周波数成分の強度を小さくした状態で、共に“００００１０１１”の識別情報が埋め込まれた音を発する。図２２と比較すると、ＦＣスピーカ、ＬＦスピーカから音を発した場合でも、先の４つのスピーカに基づく識別情報の抽出精度に影響しないようにしている。５．１ｃｈサラウンド再生を、２５種の識別情報に対応させる場合は、図２２に示した例において、ＦＣスピーカを、ＦＬスピーカとＦＲスピーカの中間に配置し、ＬＦスピーカを部屋のスペースに合わせて任意の位置に配置し、共に“００００１００１”の識別情報が埋め込まれた音を発する。図２４では、ＬＦスピーカをＦＬスピーカとＦＲスピーカの中間に配置させているが、ＬＦスピーカ（重低音）は指向性がないため、どこに配置しても良いというのが５．１ｃｈサラウンド再生上の仕様である。
【０１６０】
（５．信号成分が小さい場合にさらに確実に情報の埋め込みを行う手法）
ここまでの説明のように、本発明では、元の信号成分に無音に近い部分があっても、情報の埋め込みを可能とするものである。このままでも、もちろん十分であるが、本発明においては、より確実に情報を埋め込むような処理を付加することも可能である。具体的には、周波数変換を行う前に、音響信号に聴取困難な微弱な白色ノイズを重畳させる。
【０１６１】
この場合、図３に示した音響フレーム読込手段１０は、所定数のサンプルを１音響フレームとして読み込んだ後、所定の振幅範囲で所定サンプル数単位で同一値を加算または減算する機能を有している。本実施形態では、左チャンネル信号Ｘｌ（ｉ）、右チャンネル信号Ｘｒ（ｉ）（ｉ＝０，…，Ｎ−１）に対して、−３２〜＋３２の振幅範囲（Ｘｌ（ｉ）、Ｘｒ（ｉ）のとり得る値が−３２７６８〜＋３２７６７の場合）で一様乱数Ｈを発生させ、Ｋ（本実施形態ではＫ＝５）個のサンプル間は同一値Ｈを用いて以下の〔数式２１〕に示すような処理を実行し、Ｘｌ（ｉ）、Ｘｒ（ｉ）の値を更新する。
【０１６２】
〔数式２１〕
Ｘｌ（ｉ）←Ｘｌ（ｉ）＋Ｈ
Ｘｒ（ｉ）←Ｘｒ（ｉ）−Ｈ
【０１６３】
すなわち、上記〔数式２１〕に従った処理をＮサンプルに渡って実行することにより、１つの音響フレームに白色ノイズが発生されることになる。この白色ノイズの発生処理は、図９のフローチャートにおいては、Ｓ１０３、Ｓ１０４の音響フレーム抽出処理の直後に行われることになる。
【０１６４】
上記のように、白色ノイズを発生させた場合であっても、抽出側の、音響信号を利用した位置検出装置の構成は図１４と同一であり、処理動作は図１５、図１７、図１８のフローチャートに従ったものと同一である。
【０１６５】
（６．分解能の拡張）
上記実施形態では、各チャンネルにおいて一方向につき３種の符号（内１つは他のチャンネルと重複するため、全体で一方向の符号は５種となる。）に基づいて所定周波数範囲の成分強度を３段階に変更することにより、二次元の範囲において左右スピーカ付近を含む計２５箇所における相対的位置を特定するようにした。また、各チャンネルにおいて一方向につき２種の符号（内１つは他のチャンネルと重複するため、全体で一方向の符号は３種となる。）に基づいて所定周波数範囲の成分強度を２段階に変更することにより、二次元の範囲において左右スピーカ付近を含む計９箇所における相対的位置を特定することができることについても説明した。本発明では、より多くの箇所における相対的位置を特定するため、各チャンネルにおいて、より多くの符号に基づいて所定周波数範囲の成分強度をより多くの段階に変更するようにしても良い。例えば、各チャンネルにおいて一方向につき４種の符号に基づいて所定周波数範囲の成分強度を４段階に変更することにより、二次元の範囲において各スピーカ付近を含む計４９箇所における相対的位置を特定することができる。また、各チャンネルにおいて一方向につき５種の符号に基づいて所定周波数範囲の成分強度を５段階に変更することにより、二次元の範囲において各スピーカ付近を含む計８１箇所における相対的位置を特定することができる。一般化すると、各チャンネルにおいて（ｎ＋１）／２種の符号に基づいて所定周波数範囲の成分強度を（ｎ＋１）／２段階に変更することにより、二次元の範囲において各スピーカ付近を含む計ｎ²箇所における相対的位置を特定することができる。多くの箇所の相対的位置を特定することにより、位置検出の分解能が高まっていくことになる。
【０１６６】
（７．周波数範囲の変形例）
本願では抽出精度を向上させるため、電話帯域全体に埋め込み領域を拡大する方法を採用したが、再生品質を向上させるため、下位の変更対象周波数帯の幅を上記実施形態より狭くすることも可能である。具体的には、変更対象周波数帯の下限Ｆ１を０．８５ｋＨｚとする。この場合、上位周波数帯は１．７ｋＨｚ〜３．４ｋＨｚ、下位周波数帯は０．８５ｋＨｚ〜１．７ｋＨｚとなる。ただし、実験の結果、前記電話帯域全体に埋め込み領域を設定した方法と比較し、品質上の顕著な差は無く、むしろ抽出精度の低下のデメリットの方が大きく、結果的に優位性は見られなかった。また出願人は、電話帯域全体に埋め込み領域を設定する際、上記実施形態で示した方法ではなく、下位周波数帯を０．８５ｋＨｚ〜１．７ｋＨｚに狭くし、その下に、さらに独立した周波数帯０．３４ｋＨｚ〜０．８５ｋＨｚを三重に設置する手法についても実験したが、比較の結果、下位周波数帯を０．３４ｋＨｚ〜１．７ｋＨｚの１本にまとめる方が雑音の抑圧効果が高く、感度も２倍程度に拡大されることがわかった。低音部は信号エネルギー成分が大きいため、わずかな拡大により感度が顕著に改善されたのだと思われる。結局、周波数方向に４つの周波数領域に分け、上位周波数帯と下位周波数帯の幅を近づけ、二重の音脈分凝を形成する手法が、人間の聴覚に対して、最もノイズを抑制できることがわかった。
【０１６７】
（８．その他）
以上、本発明の好適な実施形態について限定したが、本発明は上記実施形態に限定されず、種々の変形が可能である。例えば、上記実施形態では、１音響フレームのサンプル数Ｎ＝４０９６としたが、Ｎ＝２０４８、１０２４、５１２等を設定するようにしても良い。これにより、同一時間あたりの音響フレーム数が、２倍、４倍、８倍となり、全体として２〜８倍の情報の埋め込みが可能となる。
【０１６８】
また、上記実施形態では、音響信号を利用した位置検出装置を、携帯電話機等の携帯型端末装置単体で実現した場合を例にとって説明したが、他のコンピュータと連携して実現するようにしても良い。具体的には、携帯型端末装置と専用コンピュータを無線通信可能に接続し、音響信号入力手段１００〜音響フレーム保持手段１７０の構成要素のうち、演算負荷の大きいものは、専用コンピュータで処理する。例えば、音響信号入力手段１００、基準フレーム獲得手段１１０、位相変更フレーム設定手段１２０、識別情報抽出手段１６０、巡回符号表作成手段１８０、位置関係記憶手段１９０、位置出力手段２００を携帯型端末装置に備え、周波数変換手段１３０、符号判定パラメータ算出手段１４０、符号出力手段１５０、音響フレーム保持手段１７０を専用コンピュータに備えるようにして、必要な情報を両者間で通信するようにする。これにより、携帯型端末装置の処理性能が低い場合であっても高速な処理を行うことが可能となる。
【０１６９】
また、上記実施形態では、識別情報が埋め込まれる音響信号として、前左チャンネル、前右チャンネル、後左チャンネル、後右チャンネルの内容が異なる４チャンネルのステレオ音響信号を利用した場合を例にとって説明したが、元の音響信号自体は４つのチャンネルともに全く同じものであっても良い。すなわち、モノラル音響信号に対して、それぞれ異なる識別情報を埋め込んだもの（所定周波数範囲以外は全く同じ音響信号）をＦＬスピーカ、ＦＲスピーカ、ＢＬスピーカ、ＢＲスピーカから再生するようにしても良い。
【０１７０】
また、周波数成分変更手段３０による所定周波数成分の変更を、図５および〔数式９〕に従って実行するようにしたが、埋め込むべきビット値に応じた周波数成分の変更は、公知の様々な手法を用いることができ、例えば特許文献１に示したような手法を用いることも可能である。この場合、抽出側においても、当然その埋め込み手法に応じた手法で抽出が行われる。
【図面の簡単な説明】
【０１７１】
【図１】一次元の位置検出の基本概念を示す図である。
【図２】一次元の位置検出の概念をより詳細に説明した図である。
【図３】音響信号に対する情報の埋め込み装置の機能ブロック図である。
【図４】本発明で用いる時間方向窓関数を示す図である。
【図５】本発明の一実施形態における変更対象周波数帯の成分の変化の状態を示す図である。
【図６】８ビット符号と１６ビット符号の符号変換テーブルの一例を示す図である。
【図７】符号変換テーブル作成の処理概要を示すフローチャートである。
【図８】第１符号〜第５符号の組み合わせ例を示す図である。
【図９】図３に示した装置の処理概要を示すフローチャートである。
【図１０】振幅変換を用いない埋め込み処理を説明するための図である。
【図１１】振幅変換を用いない抽出処理を説明するための図である。
【図１２】振幅変換を用いた埋め込み処理を説明するための図である。
【図１３】振幅変換を用いた抽出処理を説明するための図である。
【図１４】本発明に係る音響信号を利用した位置検出装置の機能ブロック図である。
【図１５】図１４に示した装置の処理概要を示すフローチャートである。
【図１６】本発明で用いる巡回符号表の一例を示す図である。
【図１７】図１５のＳ２０２の位相確定および符号出力の詳細を示すフローチャートである。
【図１８】図１７のＳ３０２の符号判定処理の詳細を示すフローチャートである。
【図１９】検出位置と抽出識別情報の関係を記録した位置関係テーブルの一例を示す図である。
【図２０】識別情報を埋め込む際に、強度“大” “中” “小”とするために所定周波数成分をどのように変化させるかを説明する図である。
【図２１】本発明の基本概念の説明図である。
【図２２】本発明の概念をより詳細に説明した図である。
【図２３】検出位置を増やした場合の、本発明の概念の詳細説明図である。
【図２４】５．１ｃｈサラウンド再生の場合の、本発明の概念の詳細説明図である。
【符号の説明】
【０１７２】
１０・・・音響フレーム読込手段
２０・・・周波数変換手段
３０・・・周波数成分変更手段
４０・・・周波数逆変換手段
５０・・・改変音響フレーム出力手段
６０・・・記憶手段
６１・・・音響信号記憶部
６２・・・識別情報記憶部
６３・・・改変音響信号記憶部
７０・・・ビット配列作成手段
１００・・・音響信号入力手段
１１０・・・基準フレーム獲得手段
１２０・・・位相変更フレーム設定手段
１３０・・・周波数変換手段
１４０・・・符号判定パラメータ算出手段
１５０・・・符号出力手段
１６０・・・識別情報抽出手段
１７０・・・音響フレーム保持手段
１８０・・・巡回符号表作成手段
１９０・・・位置関係記憶手段
２００・・・位置出力手段

【特許請求の範囲】
【請求項１】
少なくとも４チャンネルの時系列のサンプル列で構成される音響信号に対して、前記音響信号が少なくとも４つのスピーカで再生される際に、それぞれのスピーカ近辺の４箇所、４つのスピーカの中間（ｎ²−５）箇所、および４つのスピーカの中央１箇所の計ｎ²箇所の位置で互いに異なるｎ²種の識別情報が抽出可能になるように、互いに異なるｎ²種の識別情報をｎ種の前後識別情報とｎ種の左右識別情報の組み合わせとして聴取不能な状態で埋め込む装置であって、
前記音響信号より、所定数のサンプルを各チャンネルごとに読み込み、音響フレームを作成する音響フレーム読込手段と、
前記読み込んだ各チャンネルの音響フレームに対して、所定の窓関数を用いて周波数変換を行い、前記音響フレームに対する窓スペクトルを得る周波数変換手段と、
前記生成された各窓スペクトルから所定の周波数範囲における複数のスペクトル集合を抽出し、そのチャンネルに埋め込むべき本来の前後または左右識別情報を構成するビット値に基づいて、前記窓スペクトルに対応する複数のスペクトル集合間の強度値を一方の強度値が他方の強度値より所定の程度で強くなるように変更するものであり、
前後識別情報を用いる場合、前記強度値の大小関係を逆転させない範囲において、さらに強度値を変更させる程度を（ｎ＋１）／２段階に設定するとともに、他のスピーカとの間のほぼ中央で抽出させるべき前後識別情報のビット値が前記本来の前後識別情報のビット値と同一である場合に最大の程度になるようにし、本来の前後識別情報を抽出させる位置と隣接する位置において抽出させるべき前後識別情報のビット値が前記本来の前後識別情報のビット値と異なる場合に、最小の程度となるようにしており、
左右識別情報を用いる場合、前記強度値の大小関係を逆転させない範囲において、さらに強度値を変更させる程度を（ｎ＋１）／２段階に設定するとともに、他のスピーカとの間のほぼ中央で抽出させるべき左右識別情報のビット値が前記本来の左右識別情報のビット値と同一である場合に最大の程度になるようにし、本来の左右識別情報を抽出させる位置と隣接する位置において抽出させるべき左右識別情報のビット値が前記本来の左右識別情報のビット値と異なる場合に、最小の程度となるようにしている周波数成分変更手段と、
前記変更されたスペクトル集合を含む各窓スペクトルに対して周波数逆変換を行って、改変音響フレームを生成する周波数逆変換手段と、
前記生成された改変音響フレームを順次出力する改変音響フレーム出力手段と、
を有することを特徴とする音響信号に対する情報の埋め込み装置。
【請求項２】
請求項１において、
前記周波数変換手段は、各チャンネルごとに、前記読み込んだ音響フレームのうち、各々奇数番目、偶数番目の一方をＡタイプ、他方をＢタイプとし、前記Ａタイプの音響フレームに対して第１窓関数を用いて周波数変換を行い、前記Ｂタイプの音響フレームに対して第２窓関数を用いて周波数変換を行い、前記第１窓関数に対応するスペクトルである第１窓スペクトル、前記第２窓関数に対応するスペクトルである第２窓スペクトルを得るようにし、
前記周波数成分変更手段は、前記生成された各窓スペクトルから所定の周波数範囲における互いに重複しない２個のスペクトル集合を、周波数が高い方のスペクトル集合の周波数幅が大きくなるように抽出し、更に各スペクトル集合を１／２の周波数幅に均等分割し、各窓スペクトルについての４個のスペクトル集合を、前記第１窓スペクトルから抽出したスペクトル集合を周波数が低い順に、１Ｄ１、１Ｄ２、１Ｕ１、１Ｕ２とし、前記第２窓スペクトルから抽出したスペクトル集合を周波数が低い順に、２Ｄ１、２Ｄ２、２Ｕ１、２Ｕ２とした場合に、埋め込むべきビット値に基づいて、１Ｄ１の強度値と２Ｄ２の強度値との積と、１Ｄ２の強度値と２Ｄ１の強度値との積のいずれか一方が他方より所定の程度以上に大きくなり、同時に１Ｕ１の強度値と２Ｕ２の強度値との積と、１Ｕ２の強度値と２Ｕ１の強度値との積のいずれか一方が他方より所定の程度以上に大きくなるように、各スペクトル集合の強度を変更するようにしていることを特徴とする音響信号に対する情報の埋め込み装置。
【請求項３】
請求項１または請求項２において、
前記周波数成分変更手段は、１Ｄ１の強度値と２Ｄ２の強度値との積と、１Ｄ２の強度値と２Ｄ１の強度値との積と、１Ｕ１の強度値と２Ｕ２の強度値との積と、１Ｕ２の強度値と２Ｕ１の強度値との積のうち、大きくなるように変更する側のスペクトル集合に対しては、係数αを乗じた強度とし、小さくなるように変更する側のスペクトル集合に対しては、係数αより小さい係数βを乗じた強度とするものであり、前記強度値を変更させる（ｎ＋１）／２段階の程度に応じて係数α、係数βを決定するようにしていることを特徴とする音響信号に対する情報の埋め込み装置。
【請求項４】
請求項３において、
前記周波数成分変更手段は、前記強度の積を相対的に大きくなるように変更するスペクトル集合の強度の積を、前記強度の積を相対的に小さくなるように変更するスペクトル集合の強度の積で割った値γが、１より小さい場合に、前記係数αよりγの平方根を除した係数と、前記係数βにγの平方根を乗じた係数を、前記係数α、βに代えて用いるものであることを特徴とする音響信号に対する情報の埋め込み装置。
【請求項５】
請求項１から請求項４のいずれかにおいて、
前記音響フレーム読込手段は、各チャンネルごとに、前記Ａタイプの音響フレームと前記Ｂタイプの音響フレームを、所定数のサンプルを重複させて読み込むものであり、
前記改変音響フレーム出力手段は、前記生成された改変音響フレームを先行する改変音響フレームと各々連結させて出力するものであることを特徴とする音響信号に対する情報の埋め込み装置。
【請求項６】
請求項１から請求項５のいずれかにおいて、
前記周波数成分変更手段は、前記所定周波数範囲を０．３４ｋＨｚ以上および３．４ｋＨｚ以下として設定するものであることを特徴とする音響信号に対する情報の埋め込み装置。
【請求項７】
コンピュータを、請求項１から請求項６のいずれかに記載の音響信号に対する情報の埋め込み装置として、機能させるためのプログラム。
【請求項８】
あらかじめ聴取不能な状態でｎ²種の識別情報が埋め込まれた音響信号から、前記音響信号を少なくとも４つのスピーカで再生し、それぞれのスピーカ近辺の４箇所、４つのスピーカの中間（ｎ²−５）箇所、および４つのスピーカの中央１箇所の計ｎ²箇所の位置を検出する装置であって、
各スピーカを基準とする相対位置と前記識別情報を対応付けた位置関係を記憶した位置関係記憶手段と、
前記音響信号が再生されている空間内の所定の位置で音響信号をモノラル入力し、所定区間をデジタル化して、所定数のサンプルで構成される音響フレームを獲得する音響フレーム獲得手段と、
前記読み込んだ音響フレームのうち、奇数番目、偶数番目の一方をＡタイプ、他方をＢタイプとし、前記Ａタイプの音響フレームに対して第１窓関数を用いて周波数変換を行い、前記Ｂタイプの音響フレームに対して第２窓関数を用いて周波数変換を行い、前記第１窓関数に対応するスペクトルである第１窓スペクトル、前記第２窓関数に対応するスペクトルである第２窓スペクトルを得る周波数変換手段と、
前記生成された各窓スペクトルから所定の周波数範囲における互いに重複しない２個のスペクトル集合を、周波数が高い方のスペクトル集合の周波数幅が大きくなるように抽出し、更に各スペクトル集合を１／２の周波数幅に均等分割し、前記第１窓スペクトルから抽出した４個のスペクトル集合の強度値を周波数が低い順にＥ１、Ｅ３、Ｅ５、Ｅ７として算出し、前記第２窓スペクトルから抽出した４個のスペクトル集合の強度値を周波数が低い順にＥ２、Ｅ４、Ｅ６、Ｅ８として算出し、Ｅ１とＥ４の積と、Ｅ２とＥ３の積との大小関係、およびＥ５とＥ８の積と、Ｅ６とＥ７の積との大小関係に基づいて、埋め込まれていたビット値を抽出する符号化手段と、
前記抽出されたビット値をワード単位で所定の規則により変換して時系列に各々ｎ種の前後識別情報と左右識別情報を抽出し、これらを結合して前記ｎ²種の識別情報として抽出する識別情報抽出手段と、
前記識別情報抽出手段により得られた識別情報を用いて、前記位置関係記憶手段を参照して位置情報を取得し、当該取得した位置情報を出力する位置出力手段と、
を有することを特徴とする音響信号を利用した位置検出装置。
【請求項９】
コンピュータを、請求項８に記載の音響信号を利用した位置検出装置として、機能させるためのプログラム。

【図１】