説明

記録された音声信号の時間整合

【課題】同一音源の異なる記録からの信号を整合させるためのシステムおよび方法を提供する。
【解決手段】第1の媒体信号および第2の媒体信号を時間整合させるための方法は、前記第1および第2の媒体信号を、サンプリングレートを使用して生成されたデジタルサンプルの流れとして受け取ることと、前記第1の媒体信号と前記第2の媒体信号との間の近似不整合を決定することと、前記近似不整合に基づいた粗時間シフトを決定することと、粗シフトされた第2の信号を生成するために、前記粗時間シフトにより前記第2の媒体信号をシフトさせることと、前記第1の媒体信号と前記粗シフトされた第2の信号との間の整合時間シフトを決定することと、前記第1の媒体信号と整合された、シフトされた第2の信号を生成するために、前記粗シフトされた第2の信号を前記整合時間シフトによりシフトさせることと、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は媒体ファイルを処理するためのシステムおよび方法に関し、詳細には、同一音源の異なる記録からの信号を整合させるためのシステムおよび方法に関する。
【背景技術】
【0002】
ステージ上のシーンやパフォーマンスの音声ビデオ記録では、例えば、確実に全シーンが見えるようにするために、ステージからやや離れてビデオを記録することが行われることが多い。それ故、ビデオカメラ上のマイクロホンで良質な音声を得ることは困難になる。ビデオカメラ上のマイクロホンは、群集ノイズ、気流ノイズ、暖房換気空調/屋内ノイズ、および交通ノイズをピックアップする場合や、さらには過剰な反響や高い周波数域の吸収に影響されやすい場合がある。また、ビデオカメラ上のマイクロホンは、充分な品質のものでない場合がある。環境内のかかるノイズをピックアップする可能性を低減させるために、音声は、理想的には音源の近くに配置されるマイクロホンを使用して記録される。例えば、バンド内の各楽器のような、特定の音源上に個々のマイクロホンが配されると、ノイズの影響の受けやすさを更に減らせる場合がある。コンサートの背景では、ビデオカメラ上のマイクロホンがピックアップする音声を補強する目的で、ステージには、しばしば、ステージの床上に、またはステージ上方の天井から垂下された、局所音声ピックアップが備えられる。最終ビデオの作成においては、きわめて近接したマイクロホンから記録される音声信号が、ビデオカメラマイクロホンからの音声よりも好まれるか、または、あるいはカメラマイクロホン音声と混合されるかもしれない;ここで前記ビデオカメラマイクロホンからの音声あるいは、カメラマイクロホン音声は雰囲気ムードを最終的な混合音声に提供するために帯域通過フィルタリング、減衰および近接マイクロホンへの音声の追加により処理さる。
【0003】
音声信号と同一シーンのビデオ信号記録との混合に関わる一つの問題は、これらの信号が内在的に非同期であるという点である。信号の混合には信号の整合(アラインメント)が必要である。例えば、対話を含むシーンでは、音声が人物の会話のビデオ描写に遅れないように、またはその逆とならないように、音声はビデオと整合されていなければならない。ハイエンドの記録システムは、タイムスタンプを行うとともに異なる音声信号を同期させるために、SMPTEタイムコードを使用する。かかるタイムスタンピングは、消費者レベルの器材では必ずしも利用できない。音声は、近接マイクロホンとビデオカメラ間のケーブル路または無線リンクを用いて同期されてもよい。しかしながら、記録中に同期調整するには、記録に先立つ計画と準備が必要であるが、それは行われることがないことが多い。
【0004】
記録は、一の音声ビデオ源としてのマイクロホン付ビデオカメラと、他の一の源としての近接マイクロホンと、を用いて行われてもよい。その時、第2の音源をビデオ記録へと統合するために、編集ツールが使用できる。かかる編集ツールとしては、例えば、Roxio Creater(登録商標)やSony Vegas(登録商標)がある。編集ツールを使用して第2音源からの音声をビデオ記録に統合するのは、しばしば、エディタが手動で音声をビデオ中に適切に整合させて配置することを要求する面倒な作業である。一旦適切に整合されても、音声は、2つの記録間のドリフトのため、たとえわずか1分間の再生後でさえ、徐々に整合していなくなる場合がある。
【0005】
記録間のドリフトは、わずかに異なる周波数を有する異なるレコーダからの時計に起因し得る。ドリフトは、同一の正確さで絶対時間を保持しない場合がある可変ビットレートを用いたオーディオコーデックに起因してもよい。ドリフトの他の一原因は、記録されているパフォーマンス中のカメラの移動でもよい。ドリフトの影響は、近接マイクロホンとビデオカメラ音声信号が混合される場合のほうが、単一の音声信号が最終的なファイル内に保持される(即ち、近接マイクロホン信号が遠方のマイクロホン信号に取って替わる)場合よりも大きい。混合信号が時間とともに相互から一層離れてドリフトするにつれて、和はコムフィルタされて鳴り、次に反響し、次に大いに反響し、そして次には離散的なエコーを有するに至る場合がある。単一信号では、反響やエコーは問題とならない場合があるが、ビデオと音声とのリップ同期(リップシンク:訳者注)は再生中に悪化する。
【0006】
一音源からの音声記録を、他の音源からの同一シーンのビデオまたは音声記録と整合させることの困難さを、シーンから離れて配置されたカメラからの記録と、シーンの近くに配置されたマイクロホンからの音声記録との前後関係で説明した。類似の問題は、例えば、音声が映画のセット上で記録され、対話が最終的な映画に含ませるべくスタジオ内で再録音されるときに提示される。このプロセスは、自動対話置換(ADR)と呼ばれ、対話をよりわかりやすく(雑音をより少なく、反響をより少なく)する、対話を外国語に翻訳する、または元の対話に含まれていた冒涜的発言を除去もしくは置換するために使用される。置換音声記録は、シーンのビデオ記録と同時の記録ではない場合がある。しかしながら、整合問題は、音声を元の記録されたビデオと混合するときに生成する、ただしそのビデオは本明細書の目的上、混合される記録と同一シーンであると考えて差し支えない。音声信号の整合に関わる問題は、ビデオ記録を含まないかも知れない他の用途やシナリオにおいて生成し得る。
【0007】
整合の問題は、ストリーミングメディア信号に関しても生成し得る。媒体信号のストリーミングは遍在するようになり、整合問題が各種の用途で生成し得る。例えば、高精細度(「HD」)ラジオ局は、同一コンテントを含むアナログ伝送波とデジタル伝送波の両方を放送する。放送者は、手動でこれらの伝送波の整合を試みる(そして、時には失敗する)。受信器(即ち、聴者のラジオ受信装置)は、2つの伝送波を整合させる備えがない。天候と地形(丘陵やその他不規則な地表など)はデジタル信号喪失の原因となりうるが、かかる場合には受信器はアナログ信号の受信へと立ち戻る。
デジタル信号は強まったり弱まったりしてもよく、その結果受信器はアナログ信号とデジタル信号との間を行き来する。アナログおよびデジタル信号が整合されていない場合には、行き来する受信は不愉快な聴取経験を強要する。
【0008】
異なる発生源を使用して同一シーンにかかる音声記録をさらに容易かつ確実に整合させる方法が必要とされている。
【発明の概要】
【課題を解決するための手段】
【0009】
第1の媒体信号および第2の媒体信号を時間整合させるためのおよび方法。第1および第2の媒体信号は、一音声パフォーマンスとして、または音声ビデオ記録の音声部分として、結合するために記録される音声信号でもよい。音声信号は、異なる発生源からの同一パフォーマンスの記録でもよい。システムは、共通のサンプリングレートを使用して生成されるデジタルサンプルとして音声信号を取り出す。システムは、第1および第2の信号間の当初の不整合を低減させるための少なくとも一つの粗整合機能を含む。粗整合機能は、粗シフトされた第2の信号を生成するように構成されてもよい。細密整合機能は、第1の信号および粗シフトされた第2の信号間の不整合評価を行うことにより、第1の信号および粗シフトされた第2の信号間の整合時間シフトを決定する。信号間の当初の不整合を低減させるために、またかなりの不整合が要求する処理およびメモリ資源への負荷を低減させるために、異なる粗整合機能が使用されてもよい。
【0010】
本発明の他のデバイス、装置、システム、方法、特徴および利点は、以下の図および詳細な説明を調べてみれば当業者には明らかであろう、または明らかとなろう。全てのかかる付加的なシステム、方法、特徴および利点は本明細書の中に含まれ、本発明の範囲内にあり、添付の請求の範囲により保護されることが意図されている。
【0011】
例えば、本願発明は以下の項目を提供する。
(項目1)
第1の媒体信号および第2の媒体信号を時間整合させるための方法であって、
上記第1および第2の媒体信号を、サンプリングレートを使用して生成されたデジタルサンプルの流れとして受け取ることと、
上記第1の媒体信号と上記第2の媒体信号との間の近似不整合を決定することと、
上記近似不整合に基づいた粗時間シフトを決定することと、
粗シフトされた第2の信号を生成するために、上記粗時間シフトにより上記第2の媒体信号をシフトさせることと、
上記第1の媒体信号と上記粗シフトされた第2の信号との間の整合時間シフトを決定することと、
上記第1の媒体信号と整合された、シフトされた第2の信号を生成するために、上記粗シフトされた第2の信号を上記整合時間シフトによりシフトさせることと、を含む方法。
(項目2)
上記整合時間シフトを決定するステップは、
上記第1の媒体信号と上記粗シフトされた第2の信号の相互相関を実行し、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のために上記結果を微分することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
上記第1の媒体信号と上記第2の媒体信号の相互情報に基づく分析を実行することと、を使用することのいずれかの方法を含む、上記項目に記載の方法。
(項目3)
上記粗整合機能を使用する上記ステップは、上記粗整合機能を複数の粗整合機能から選択することを含む、上記項目のうちのいずれか一項に記載の方法。
(項目4)
粗時間シフトを決定する上記ステップは、上記粗時間シフトが上記第1の選択された粗整合機能を使用することを決定できなかった際は、上記複数の粗整合機能の異なる粗整合機能を使用することを含む、上記項目のうちのいずれか一項に記載の方法。
(項目5)
上記第2の媒体信号をシフトさせる上記ステップの後に、上記粗整合機能を使用する上記ステップを実行することと、上記粗時間シフトを決定することと、第2の粗シフトされた第2の信号を生成するために、上記第2の媒体信号をシフトさせることと、をさらに含み、整合される上記信号は、上記第1の媒体信号および上記粗シフトされた第2の信号であり、上記粗整合機能を使用する上記ステップは、上記複数の粗整合機能の1つを選択する上記ステップを含む、上記項目のうちのいずれか一項に記載の方法。
(項目6)
上記粗整合機能を使用する上記ステップを反復することと、上記粗時間シフトを決定することと、粗シフトされた第2の信号をさらに生成するために、上記第2の媒体信号をシフトさせることと、をさらに含み、整合される上記信号は、上記第1の媒体信号および上記事前に粗シフトされた第2の信号であり、上記粗整合機能を使用する上記ステップは、上記複数の粗整合機能の1つを選択する上記ステップを含む、上記項目のうちのいずれか一項に記載の方法。
(項目7)
上記粗整合機能を使用する上記ステップは、
上記第1および第2の信号のそれぞれをサブサンプリング係数によってサブサンプリングすることと、
上記第1のサブサンプルされた信号と上記第2のサブサンプルされた信号との間の遅延を検出することと、を含み、
上記粗時間シフトを決定する上記ステップは、上記検出された遅延を使用することを含む、上記項目のうちのいずれか一項に記載の方法。
(項目8)
上記遅延を決定する上記ステップは、
上記第1および第2のサブサンプルされた信号の相互相関を実行することであって、上記粗時間シフトを決定する上記ステップは、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することを含む、実行することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のために上記結果を微分することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
上記第1および第2の媒体信号の相互情報に基づく分析を実行することと、のいずれかの方法を使用することを含む、上記項目のうちのいずれか一項に記載の方法。
(項目9)
上記粗整合機能を使用する上記ステップは、
第1および第2の信号包絡線を検出するために、上記第1および第2の信号のそれぞれを復調することと、
第1および第2のダウンサンプルされた包絡線を生成するために、上記第1および第2の信号包絡線を、ダウンサンプリング係数によってダウンサンプリングすることと、
上記第1のダウンサンプルされた包絡線と上記第2のダウンサンプルされた包絡線との間の遅延を検出することと、を含み、
上記粗時間シフトを決定する上記ステップは、上記検出された遅延を使用することを含む、上記項目のうちのいずれか一項に記載の方法。
(項目10)
上記遅延を決定する上記ステップは、
上記第1および第2のダウンサンプルされた包絡線の相互相関を実行することであって、上記粗時間シフトを決定する上記ステップは、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することを含む、実行することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のために上記結果を微分することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
上記第1および第2の媒体信号の相互情報に基づく分析を実行することと、のいずれかの方法を使用することを含む、上記項目のうちのいずれか一項に記載の方法。
(項目11)
上記粗整合機能を使用する上記ステップは、
上記第2の信号から信号特徴を抽出することと、
上記第1の信号から信号部分を抽出することと、
上記信号特徴を上記信号部分と比較することと、
上記信号部分が上記信号特徴と一致する場合は、上記第1の信号内の上記信号部分の開始時間への時間遅延を識別することと、
上記信号部分を第1の信号から抽出する上記ステップを反復し、上記信号部分が上記信号特徴と一致するまで、上記信号特徴を上記信号部分と比較することと、を含む、上記項目のうちのいずれか一項に記載の方法。
(項目12)
信号特徴および信号部分を抽出する上記ステップは、上記第1および第2の信号内の音声要素を抽出することを含み、
上記信号特徴と上記信号部分を比較する上記ステップは、音声認識機能を実行することを含む、上記項目のうちのいずれか一項に記載の方法。
(項目13)
信号特徴および信号部分を抽出する上記ステップは、上記第1および第2の信号内の信号パターンまたは意味特徴を抽出することを含み、
上記信号特徴と上記信号部分を比較する上記ステップは、パターン認識機能を実行することを含む、上記項目のうちのいずれか一項に記載の方法。
(項目14)
上記第1および第2の媒体信号を受け取る上記ステップは、
媒体信号サイズより小さいブロックサイズを決定することと、
第1および第2の媒体信号のそれぞれを複数のブロックに分割することと、
上記粗整合機能を使用し、粗時間シフトを決定する上記ステップにおいて、上記第1および第2の媒体信号の対応するブロックを処理することと、をさらに含む、上記項目のうちのいずれか一項に記載の方法。
(項目15)
第1および第2の媒体信号を時間整合させるためのシステムであって、
上記第1の信号と上記第2の信号との間の初期不整合を低減させるための少なくとも1つの粗整合機能であって、上記粗整合機能は、粗シフトされた第2の信号を生成するように構成された、少なくとも1つの粗整合機能と、
上記粗シフトされた第2の信号と、上記第1の信号と上記粗シフトされた第2の信号との間の上記第1の信号との間の整合時間シフトを決定するように構成された、細密整合機能と、を含むシステム。
(項目16)
上記細密整合機能は、
上記第1の媒体信号と上記粗シフトされた第2の信号の相互相関を実行し、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のために上記結果を微分することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
上記第1および第2の媒体信号の相互情報に基づく分析を実行することと、のいずれかを使用することにより、遅延を検出するように構成された不整合推定器を含む、上記項目に記載のシステム。
(項目17)
上記少なくとも1つの粗整合機能は、
第1および第2のサブサンプルされた信号を生成するために、サブサンプリング係数により上記第1および第2の信号をサブサンプルするように構成された、第1および第2のサブサンプリング機能であって、上記第1および第2のサブサンプルされた信号を使用して、上記第1のサブサンプルされた信号と上記第2のサブサンプルされた信号との間の粗時間遅延を決定する、第1のサブサンプリング機能および第2のサブサンプリング機能と、
上記第2の信号を、上記粗時間遅延に対応するサンプルの時間シフト数シフトさせることにより、上記粗シフトされた第2の信号を生成するように構成された、粗信号シフタと、を含む、上記項目のうちのいずれか一項に記載のシステム。
(項目18)
上記第1および第2のサブサンプルされた信号の相互相関を実行し、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
上記第1および第2のサブサンプルされた信号を加え、上記合計内のノッチを検出することと、
位相接続法を実行することと、のいずれかを使用して、上記粗時間遅延を決定するように構成された不整合推定器をさらに含む、上記項目のうちのいずれか一項に記載のシステム。
(項目19)
上記少なくとも1つの粗整合機能は、
対応する包絡線を検出するために、上記第1および第2の信号を復調するように構成された、第1および第2の包絡線復調器と、
第1および第2のダウンサンプルされた包絡線を生成するために、ダウンサンプリング係数により、上記第1および第2の包絡線をダウンサンプルするように構成された、第1および第2のダウンサンプラと、この場合、上記第1および第2のダウンサンプされた包絡線を使って、上記第1および第2のダウンサンプされた信号の間の粗時間遅延を決定し、
上記第2の信号を、上記粗時間遅延に対応するサンプルの時間シフト数シフトさせることにより、上記粗シフトされた第2の信号を生成するように構成された、粗信号シフタと、を含む、上記項目のうちのいずれか一項に記載のシステム。
(項目20)
上記第1および第2のサブサンプルされた信号の相互相関を実行し、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
上記第1および第2の媒体信号の相互情報に基づく分析を実行することと、のいずれかを使用する上記粗時間遅延を決定するように構成された、不整合推定器をさらに含む、上記項目のうちのいずれか一項に記載のシステム。
(項目21)
上記少なくとも1つの粗整合機能は、
上記第2の信号内で比較するべき特徴を抽出するように構成された特徴抽出機能と、
上記第1の信号から上記特徴に一致するパターンまたは意味特徴を抽出するように構成された一致パターン抽出機能と、
上記一致を比較するべき上記特徴と一致させるための特徴比較器と、
上記第1の信号内のパターンに一致するために時間シフトを決定するように構成された特徴遅延比較器と、
上記第2の信号を上記時間シフトに基づく上記第1の信号と整合するように構成された、粗信号シフタと、を含む、上記項目のうちのいずれか一項に記載のシステム。
【0012】
(摘要)
第1および第2の媒体信号を時間整合させるためのシステムおよび方法。第1および第2の媒体信号は、1つの音声性能として、または音声動画録音の音声部分として結合するために録音された、音声信号であってもよい。システムは、一般的なサンプリングレートを使用して生成された、デジタルサンプルとしての音声信号を取得する。システムは、第1の信号と第2の信号との間の初期不整合を軽減するための、少なくとも1つの粗整合機能を含む。粗整合機能は、粗シフトされた第2の信号を生成するように構成され得る。細密整合機能は、第1の信号と粗シフトされた第2の信号との間の相互相関を実行することにより、粗シフトされた第2の信号と第1の信号との間の整合時間シフトを決定する。
【図面の簡単な説明】
【0013】
下記の説明は、以下の図を参照することによってより良く理解されるであろう。図中の構成要素は必ずしも一定の比率ではなく、それよりも本発明の原理を示すことに重点が置かれている。図では、類似の参照番号は、異なる図面にわたって対応する部分を表わす。
【図1A】媒体ファイルを整合させるシステムの例の動作を示す概略図である。
【図1B】媒体ファイルを整合させるシステムの例のブロック図である。
【図2A】図1Bに示されたシステムに使用され得る粗整合機能の例のブロック図である。
【図2B】2つの信号間の相関の結果を示すヒストグラムの例である。
【図2C】2つの信号間の相関の結果を示すヒストグラムの例である。
【図3A】図1Bに示されたシステムに使用され得る粗整合機能の他の例のブロック図である。
【図3B】図1Bに示されたシステムに使用され得る粗整合機能の他の例のブロック図である。
【図4】図1Bに示されたシステムに使用され得る粗整合機能の他の例のブロック図である。
【図5】図5は、図1Bに示されたシステムに使用され得る細密整合機能の例のブロック図である。
【図6】媒体ファイルを整合させる方法の例を示すフローチャートである。
【発明を実施するための形態】
【0014】
図1Aは、媒体ファイルを整合させるシステム100の例の動作を示す概略図である。図1Aのシステム100は、マルチメディアレコーダ102、ステージ104、およびビデオカメラからの媒体ファイルをステージ104からの媒体ファイルと整合させる時間整合システム106を含む。マルチメディアレコーダ102は、信号レコーダ110、ビデオカメラ112、およびカメラマイクロホン114を含む。システム100のマルチメディアレコーダ102は、ステージ104上のシーンまたはパフォーマンスのビデオを、マルチメディアレコーダ102に望ましい視野を提供する場所から記録するユーザにより操作されてもよい。選択される場所は、マルチメディアレコーダ102で記録される音声の品質に影響を及ぼすために、ステージ104の環境(124で)内の構造物による反響からのバックグラウンドノイズや効果に充分な、ステージ104からやや離れた場所でもよい。信号レコーダ110は、ステージ104上のパフォーマンスのビデオおよび音声記録を音声付きビデオファイルとして記録し、格納する。
【0015】
一以上の近接マイクロホン116a〜cは、ステージ104上またはそのごく近くに配置されてもよい。近接マイクロホン116a〜cは、ステージ104上のパフォーマンスの所望の音声部分をピックアップするように配置されてもよい。所望の音声はミキサー118に伝送されてもよく、そのミキサー118は所望の音声の混合バージョンを音声レコーダ120に伝送するように構成されてもよい。ミキサー118は、近接マイクロホン116a〜cのそれぞれから受けとった音声信号を制御された仕方で結合するために使用されてもよい。音声レコーダ120は、所望の音声の混合バージョンを使用して、ステージ104上のパフォーマンスの音声部分の音声記録またはオーディオファイルを生成する。
【0016】
一実装例では、音声付きビデオファイルは、ステージ104の近くの近接マイクロホン116a〜cで記録されるパフォーマンスの音声部分からのオーディオファイルと、後処理において混合されてもよい。近接マイクロホン116a〜cで記録されるパフォーマンスの音声部分の品質は、マルチメディアレコーダ102により記録される音声よりも大幅に高くかつ再生のためにより適切に処理されてもよい。近接マイクロホン116a〜cで記録されるパフォーマンスの音声部分は、マルチメディアレコーダ102による音声記録に影響を及ぼしている環境条件124の支配を受けない場所から記録される。音声付きビデオファイルを、近接マイクロホン116a〜cで記録されるパフォーマンスの音声部分からのオーディオファイルと混合する前に、時間整合システム106は、ファイルがパフォーマンスに対して同一時から始まって混合されることを確実にするために、両ファイルを整合させる。
【0017】
何らかの形のメモリ領域内で記録された媒体ファイルが利用できるときは、時間整合システム106は後処理で提供されてもよいことに留意されたい。ファイルは、任意の適切な方法でアクセスされ時間整合システム106に入力されてもよく、その方法はファイルが格納されるメモリの種類および時間整合システム106が利用できるファイル入力資源に依存し得る。実施例では、時間整合システム106は、基本的なコンピュータシステム資源を有する任意の適切なコンピュータ制御デバイス内で作動するものであってよい。時間整合システム106は任意の適切なファイルアクセスシステムを含むものであってもよく、これにはUSBデバイス、フラッシュドライブおよびSDカード等のメモリーカードのような携帯用の記憶装置に対するインタフェイス、電子テープ上に格納されるファイル用のテープドライブインタフェイス、および媒体ファイルへのアクセスに適した任意の他のタイプのファイルアクセスシステムを含む。時間整合システム106は、ディスプレイ、キーボード、マウス、キーパッド、ノブ、ボタン等のユーザインタフェイスデバイスを含んでもよい。整合プロセス自体のためのユーザインタフェース要件は、プロセスが大幅に自動化されるにつれて、開始、およびプロセスと基礎的なフィードバックの開始に限られうることに留意されたい。更に、時間整合システム106は、デスクトップ、ラップトップまたはワークステーション等の標準コンピューティングシステム上で、または時間整合に加えて他の機能を有するマルチメディア処理システム上で、作動するソフトウェア用途として実現されてもよい点も留意されたい。
【0018】
一実装例では、記録された媒体ファイルは、任意の適切な形式のアナログ信号またはデジタル信号として提供されるものであってもよい。適切な形式の例としては、任意のMPEG形式(例えばMP3等)M4A、MOV、QTFF(QuickTime)、WMA、およびWAVやAIFF等の普及しているPCM形式が挙げられるが、これに限定されるものではない。時間整合システム106の実施例は、媒体ファイル内の任意の適切な形式のデータを受け取るように構成されていてもよいと理解されるべきである。媒体ファイル内の音声データは、サンプルされた音声信号、または記録されたままの音声のタイムラインを維持する任意の種類のデータもしくは信号、のいずれかとしてアクセスされる。音声データは、2つのリアルタイムストリームとして提供されてもよい。リアルタイムストリームは、データネットワークまたは無線放送のような任意の種類の電子的接続を通して受け取られてもよい。
【0019】
図1Bは、媒体ファイルを整合させるシステムの例のブロック図である。図1Bのシステムは、図1Aの時間整合システム106として実現されてもよい。時間整合システム106は、粗整合機能160、細密整合機能162および信号合成器170を含む。時間整合システム106は、整合のための第1の媒体信号150および第2の媒体信号152を受け取る。第1の媒体信号150は、例えば、図1Aのマルチメディアレコーダ102により記録される、音声信号付きビデオファイルまたは音声付きビデオファイルの音声部分でもよい。第2の媒体信号152は、図1Aの近接マイクロホン116a〜cによりピックアップされる音声信号を受け取るレコーダ120により記録されるパフォーマンスの音声部分でもよい。いかなる実施例においても、第1および第2の媒体信号150、152は、異なる発生源から記録され、再生のために結合または併合されるべき任意の2つの媒体信号であってもよい。異なる発生源から記録される2つの媒体信号は、同一パフォーマンスの記録からでもよい。一実施例では、一方の媒体信号は、再生のために他方の媒体信号の対応部分中に統合されるべき音声の一以上の部分でもよい。かかる実施は、例えば、異なる言語を使用するための音声の吹き替え、いかがわしい言葉を除去するための対話の改変、または他の類似の用途を含む。
【0020】
第1の媒体信号150および第2の媒体信号152は、音声信号を表現するデジタルサンプルへのアクセスを可能にするとともにタイミング情報を含む情報を提供する形式のものでもよい。例えば、第1および第2の媒体信号150、152は、対応するアナログ信号のアナログ表現から変換されるデジタルサンプルのストリームでもよい。デジタルサンプルのストリームは、非圧縮の形態をとり、アナログから公知のサンプリングレートを使用して変換されるものでもよい。第1の媒体信号150および第2の媒体信号152は、圧縮されたデジタル音声信号であってもよい。しかしながら、第1および第2の媒体信号150、152は、後述するように非圧縮の形態で、またはパフォーマンスに対するタイミングを信号中で使用し維持するように処理されうると理解されるべきである。下記の説明では、第1および第2の媒体信号150、152は、公知のサンプリングレートで変換された変換アナログオーディオ信号のデジタルサンプルのストリームであると理解されるべきである。デジタルサンプルは、配列または他の適切なデータ構造として一続きで格納されてもよい。第1および第2の媒体信号150、152のそれぞれは、サンプル数(サイズ)、開始点、サンプリングレート、記録開始時間、記録終止時間、日付、および保持するのが有用である他の情報のような、各信号に関する情報を格納するためのヘッダまたは情報ブロックを含んでもよい。
【0021】
図1Bを参照すると、時間整合システム106は、粗整合機能160において、第1の媒体信号150と第2の媒体信号152を受け取る。粗整合機能160は、媒体信号のおおよその整合を行うことにより、媒体信号の当初の不整合を低減させる。2つの媒体信号150、152は、当初は様々な程度に整合されていない場合がある。微細な尺度では、2つの音声記録は1ミリ秒未満だけシフトされてもよい。粗い尺度では、(図1Aを参照して記載したように)もし源までの異なる距離で音声記録が行われたとすると、音波の伝播時間は数十ミリ秒または数百ミリ秒オーダーの不整合を生じさせることになろう。更になお粗い尺度では、一方の音声記録は、他方の記録の数分前に開始された場合には、何千万サンプルもの不整合が生じることになる。極めて粗い尺度では、媒体信号150、152は、短いクリップ(例えば20秒)と長い記録(例えば1時間)である場合があり、そして、短いクリップを長い記録の中から見つける、あるいは短いクリップを長い記録の中に挿入する場所を見つけることが求められる。第1および第2の媒体信号150、152間の当初の不整合が大きければ大きいほど、これらを整合させるプロセスにおける計算負荷は大きい。
【0022】
粗整合機能160は、媒体信号の一方を他方とおおよそ時間整合させる粗時間シフトを示す粗時間遅延を決定する。粗整合機能160は、第1または第2の媒体信号の一方を他方に対してシフトされてもよい。下記の例の説明では、諸実施例の説明のために、第2の媒体信号152がシフトされ、粗シフトされた第2の信号として出力される。特定の実施では、その実施の固有の要件により、いずれかの信号が他方に対してシフトされてもよい。
【0023】
図1Bの粗整合機能160は、細密整合機能162への入力としての粗シフトされた第2の信号を生成する。粗シフトされた第2の信号は、信号の開始点が時間シフトされた第2の媒体信号152の実質的なコピーとして生成されてもよい。信号の開始点は、例えば、第2の媒体信号152におけるサンプル列中へのインデックスにより示されてもよい。インデックスは、デフォルトとして0または1に設定され、次に粗時間遅延に従って改変されてもよい。例えば、インデックスは、所与のサンプリングレートに基づいて粗時間遅延に等価なサンプル数だけ増やされ(または、その逆方向にシフトさせ、インデックスが信号中の第1のサンプルを示さないときは減らされ)てもよい。
【0024】
細密整合機能162は、第1の媒体信号150と粗シフトされた第2の信号との「サンプルごとの」整合を行う。「サンプルごとの」整合は、2つの信号間の不整合の不整合評価を行い、次に決定された不整合だけ一方の信号をシフトさせることを含んでもよい。一実施例では、不整合評価は、2つの信号の相関を決定すること、および分析される時間シフトのいずれかにピークがないか決定するためにその相関の結果を分析すること、を含んでもよい。ピークが検出された場合、粗シフトされた第2の信号は、微細な時間遅延だけシフトされて、微細にシフトされた第2の信号が生成される。微細にシフトされた第2の信号は、次に信号合成器170内で第1の媒体信号150と結合されてもよい。
【0025】
信号合成器170は、整合システムを使用する特定の用途に適すると考えられる任意の仕方で信号を結合するものであってもよい。図1Aに示される例では、一方の媒体信号はマルチメディアレコーダ102より記録される音声付きビデオ信号であり、他方の媒体信号はパフォーマンスの音声部分である。信号合成器170は、マルチメディアレコーダ102により記録された音声を微細にシフトされた第2の信号に入れ替えることにより、または音声とビデオの双方を有する媒体信号の音声部分を単に破棄することにより、結合信号180を生成し得る。信号は、結合信号に雰囲気ムードを提供するために、音声とビデオの双方を有する媒体信号中の音声信号がより低い水準で付加されて混合されてもよい。信号合成器170は、一方の音声チャンネルに第1の媒体信号150を有し、他方のチャンネルに微細にシフトされた第2の信号を有するものとして結合信号180を生成してもよい。
【0026】
ここでは、不整合評価は相関機能を実行するものとして、どのように不整合が決定されるのかを制限する意図なしに記載されていることに留意されたい。相関機能は「相互相関」機能でもよい、しかし、同様に、他の方法が実施されてもよい。2つの信号間の不整合を決定するために使用され得る他の方法としては、時間遅延スペクトル分析法、位相アンラッピング法、および2つの信号の相関、コヒーレンスまたは相互情報量に基づく任意の適切な分析が挙げられるが、これに限定されるものではない。不整合評価を行うために、任意の適切な時間遅延評価機能を使用してもよい。同様に、粗整合機能160における粗時間遅延の決定を、任意の適切な相関機能または適切な時間遅延評価機能を使用して行ってもよい。粗時間遅延は、パターンマッチ技術、または一のメディアクリップが他の一のメディアクリップ中に配置される他の類似の方法を使用して、後述するように決定されてもよい。
【0027】
更に、ここでは、不整合の決定は、ヒストグラム中のように、相互相関の結果中に「ピーク」を同定することを含むものとして記載されている点に留意されたい。ピークは、正か負のいずれであってもよい相関値から検出されてもよい。所望のピークは相関中で最大の絶対値を有する。不整合は、相互相関の結果中の重心の算出により決定されてもよい。重心の算出では、相互相関中の各位置が、相関値の絶対値に等しい加重を使用して平均される。広く、ゆがんだピークは、重心を使用してより良く評価されてもよい。非常に強いピークは、パターン認識や他のより正確でない方法により同定されるピークに等しい重心を有するであろう。ピークは、結果を微分することにより検出されてもよく、例えば、ヒルベルト変換のような公知のアルゴリズムを使用することを含んでもよい。ここでは、用語「ピーク」は、不整合を決定するために使用される技術に関係なく、不整合評価算出結果中の不整合評価の徴候に言及するものと理解されるべきである。
【0028】
図1Bの時間整合システム106の実施例では、用途および/または不整合の程度に応じ、異なる粗整合機能が使用されてもよい。一実施例では、媒体信号のサンプルごとの細密整合が行なわれる前に、一以上の整合粗信号整合が順次に行われてもよい。図2〜4を参照して記述される粗整合機能は、計算負荷を低減させるための信号処理プロセスを含む。次の3種類の信号処理プロセスが使用されてもよい:(1)サブサンプリング、(2)包絡線検波、および(3)特徴抽出。図2-4は、これら3つのプロセスを使用する3つの粗整合機能の例を示す。
【0029】
図2Aは、図1Bに示したシステムに使用され得る第1の粗整合機能200の一例のブロック図である。図2Aの第1の粗整合機能200は、第1の媒体信号202aおよび第2の媒体信号202bのブロック処理を示す。第1および第2の媒体信号202a、202bは、図1Bを参照して上述した媒体信号150、152に対応し得る。第1および第2の媒体信号202a、202bは、整合プロセスの前ステップにおいて整合粗信号整合を使用して部分的に整合された、粗整合された媒体信号であってもよい。
【0030】
図2Aは、媒体信号202a、202bをブロック203へと分割することを示す。媒体信号202a、202bが非常に大きなメモリ資源を必要とする場合は、より小さなブロック203の処理が有用なことがある。より小さなブロック203は、記録装置内でのドリフトに起因する潜在的な整合エラーの修正に使用されてもよい。マルチメディアレコーダ102や音声レコーダ120(図1A)等の記録装置は、時間とともにドリフトしてもよく、あるものは他のものより多くドリフトし得る。2台のレコーダ(例えば、図1Aのマルチメディアレコーダ102と音声レコーダ120など)間のドリフトの違いによって、整合におけるエラーが生じる場合がある。レコーダ間のドリフトは、2つの媒体信号202a、202bの相互相関をとり、相互相関の結果のヒストグラムを分析することにより評価されてもよい。2台のレコーダ間のドリフトの違いは、ヒストグラム中のメインピークの幅を計量することにより決定されてもよい。ドリフトは、異なるブロックにおいて実効遅延を見積もることにより決定されてもよい。実効遅延は、ドリフトのため時間とともに増加し得る。より広いピークは、複数のピークが重なりあって不鮮明になったことを示すものである。ピークの幅は、個々のブロック203のサイズを決定し得る。
【0031】
ブロック203a、bのサイズは、可能なドリフトの最大のものの数倍よりも大きいサイズに設定されるべきである。ブロックは、各ブロックに対して不整合が算出されるように処理されてもよい。各ブロックの不整合は、各ブロックが処理されながら後続のブロックを再定義するために使用されてもよく、よって2つの媒体信号202a、202b間のありうるドリフトを低減させる結果となる。例えば、持続長さDサンプルの記録初めの後にTサンプルを開始する時間ブロックXで、Mサンプルの不整合が決定されたとすると、第2信号ブロック203bのブロックX内の信号は、Mサンプルだけシフトされるべきことになる(訳注:T、M、Dはそれぞれ個数を表す;以下同様)。第1の信号ブロック203aのブロックX+1は、(T+D)サンプルから始まるように定義される;しかし、第2の信号ブロック203bのブロックX+1は(T+D+M)サンプルから始まるように定義される。
【0032】
図2Bおよび2Cは、ブロックのサイズが実効遅延に及ぼす影響を示すために提供するヒストグラムの例である。図2Bは、両信号間の固定的遅延なしで4つの異なるサイズを有するブロックに分割された2つの信号間の4つの相関の結果を示す。図2Bの4つの結果は、100ミリ秒ブロック相関250、500ミリ秒ブロック相関260、1000ミリ秒ブロック相関264、および4000ミリ秒ブロック相関266を含む。100ミリ秒ブロック相関250は、100ミリ秒ブロックピーク252を有し、500ミリ秒ブロック相関260は、500ミリ秒ブロックピーク262を有し、1000ミリ秒ブロック相関264は、1000ミリ秒ブロックピーク266を有し、4000ミリ秒ブロック相関266は、4000ミリ秒ブロックピーク269を有する。図2Bの相関250、260、264および266は、ブロックサイズが増加するにつれて、相関のピーク値(252、262、266、および269)は減少し、ピークに寄与するサンプル数がより多くなることを示す。また、ブロックサイズが増加するにつれて、ピーク周辺の領域はよりノイズが多くなる。
【0033】
図2Cは、4つの異なるサイズを有するブロックに分割された2つの信号間の4つの相関の他の一グループの結果であるが、両信号間に50ミリ秒の固定的遅延を伴う場合のものを示す。図2Cの4つの結果は、100ミリ秒ブロック相関270、500ミリ秒ブロック相関278、1000ミリ秒ブロック相関280、および4000ミリ秒ブロック相関286、を含む。図2Cに示すように相関された信号の一方は、他方から50ミリ秒遅延させられた。100ミリ秒ブロック相関270は、いかなる遅延も示さない100ミリ秒ブロックピーク272を有する。500ミリ秒ブロック相関260は、500ミリ秒ブロックピーク279を、50ミリ秒における279aとその10ミリ秒後におけるもう一つの279bとに有し、それぞれ固定的遅延とドリフトとを反映している。1000ミリ秒ブロック相関264も、1000ミリ秒ブロックピーク281を、50ミリ秒における281aとその10ミリ秒後における281bとに有し、それぞれ固定的な50ミリ秒の遅延とドリフトとを示している。4000ミリ秒のブロック相関286は、4000ミリ秒ブロックピーク287を、50ミリ秒における287aとその10ミリ秒後における287bとに有し、後者はドリフトを示している。
【0034】
いかなる意図的に挿入された固定的遅延もない図2Bに示される結果は、約10ミリ秒の実効遅延を生じさせているドリフトを例示している。ドリフトは、全てのブロックサイズで検出できる。図2Cは、意図的に挿入された50ミリ秒の遅延を有するものであるが、その結果もまた10ミリ秒の実効遅延の原因となるドリフトを示している。
しかしながら、意図的な50ミリ秒の遅延により、実効遅延は、下方の3つのパネル(278,280および286)内では検出できるが、小さな(100ミリ秒)ブロックサイズの100ミリ秒ブロック270内では検出できない。
【0035】
図2Aに示す媒体信号202a、202bのブロック処理は、第1の信号ブロック203aに分割される第1の信号202aと、第2の信号ブロック203bに分割される第2の信号202bとを示す。第1および第2の信号ブロック203a、203bは、次に、粗整合を決定するために、下記に詳述されるようなサブサンプリングを使用して処理される。実施例では、粗整合処理は、各信号からの対応する1対のブロックを用いて行われてもよい。例えば、粗整合のために、各信号からの第1のブロックが使用されてもよい。用途、信号の特徴、またはユーザの採択により選択されるパラメータに応じて、粗整合は、各信号の全てのブロックまたはいくつかのブロックを処理することにより行われてもよい。分析のため、おおよその一の最良値を決定するため、または他の所望の目的のために、複合の粗時間遅延が使用されてもよい。一旦、粗時間遅延が決定され、信号整合が近似されると、粗シフトされたブロック212が生成される。サンプルごとの整合のため、または信号202a、202bの細密整合のために、ブロック230を対応する粗シフトされたブロック212と細密整合させることにより、全ての第1の信号ブロック203aが処理されて、微細にシフトされたブロック220が生成される。
【0036】
図2Aでは媒体信号202a、202bの分割はサブサンプリング粗整合機能に関して記載されているが、ブロックへの分割は、図2〜4に示された任意の粗信号解析器のために行ってもよい点に留意されたい。図2Aのサブサンプリング粗整合機能は、いかなるアンチエイリアシングフィルタも必要としない点も留意されたい。というのも、折り返し成分がサブサンプルされた信号間の時間シフト検出を助ける場合があるからである。時間シフトを検出するために相関が使用される例では、折り返し成分は相関機能を助ける。図2Aを参照すると、第1の粗整合機能200は、媒体信号のサイズを減らすことにより計算負荷を低減させるために、媒体信号のサブサンプリングを使用する。図2Aの第1の粗整合機能200において、第1および第2の信号202a、202bは、対応するサブサンプラ204a、204bによりそれぞれサブサンプルされる。図2Aの第1の粗整合機能200は、第1および第2の信号202a、202bのそれぞれからの第1および第2の信号ブロック203a、203bを使用することにより、サブサンプリングに基づいて粗整合を行う。サブサンプラ204a、204bは、第1および第2の信号ブロック203a、203bを受け取り、あるサブサンプリング係数でサンプルを抽出するが、当該係数はその値ごとにそれぞれからサンプルが抽出されるべきことを示す整数でもよい。例えば、各サブサンプラ204a、204bは、対応する入力信号ブロック203a、203bから8番目ごとのサンプルを抽出してもよく、その場合は8というサブサンプリング係数により信号ブロック203a、203bのそれぞれのサイズを減らす。サブサンプラ204a、204bは、対応するサブサンプルされた第1および第2のブロック206a、206bを生成する。サブサンプルされた第1および第2のブロック206a、206bは、対応する第1および第2のブロックの整合のために使用され、その整合はその2ブロック間の遅延を決定する第1ステップと、その遅延に合わせて一方のブロックを他方のブロックに対してシフトさせる第2ステップとを含む。図2Aに示す例では、第1および第2のサブサンプルされた第1および第2のブロック206a、206bは、粗不整合推定器208への入力信号として提供される。実施例では、粗不整合推定器208は、第1および第2のサブサンプルされた第1および第2のブロック206a、206bの相互相関を行う。2つの信号の相互相関は、当業者によく知られた機能であり、更なる詳細な説明は何ら必要とされない。相互相関はヒストグラムを生成してもよく、そのヒストグラムは所定の範囲内の信号間の時間遅延またはシフトに対して相互相関値をプロットするものである。ヒストグラムと、相互相関結果の分析へのその使用もまた、当業者に周知である。2つの信号間の最も高い相関を有するヒストグラム上の時間遅延は、最高水準を有し、ヒストグラム中のピークとして現れる。ピークがヒストグラム中に現れる場合、そのピークに対応する時間遅延は、ブロック206a、206bを整合させるために、ブロック206a、206bの一方のブロックが他方に対してシフトされなければならない時間に選定される。
【0037】
粗不整合推定器208は、ここでは、相関結果中のピークにおけるシフトを同定することにより2つの信号ブロック206a、206b間の遅延を決定するための相互相関機能を含むものとして記載されるが、粗不整合推定器208は、相互相関機能への使用に限られるべきものではない点に留意されたい。使用できる他の遅延検出機能としては、時間遅延スペクトル分析法、位相アンラッピング法、および2つの信号の相関、コヒーレンスまたは相互情報量に基づく任意の適切な分析が挙げられるが、これに限定されるものではない。粗不整合推定器208は、相関を行うとともにピーク検出のためにヒストグラムを分析してもよい。ピーク検出は結果を微分することを含む場合もあり、それはヒルベルト変換のような公知のアルゴリズムの使用を含んでもよい。ピーク検出のために、相関結果の適切な重心算出が使用されてもよい。
【0038】
図2Aの粗不整合推定器208によって提供される整合は、相互相関において使用されるブロック206a、206bがサブサンプルされているので、粗整合である。もしピークが図2Aの粗不整合推定器208により行われる相互相関の結果として得られるヒストグラム中で検出されない場合は、整合粗信号整合が繰り返されてもよい。異なるパラメータを使用し、図2Aの第1の粗整合機能200を使用して整合粗信号整合が繰り返されてもよい。例えば、サブサンプラ204a、204bにより行われるサブサンプリングは、8ごとから6ごとまでのように、以前のサブサンプリング係数未満のサブサンプリング係数によりブロックをサブサンプルするものでもよい。より小さなサブサンプリング係数は、ブロックのサイズを更に減らす効果を有するであろう。あるいはまた、粗整合機能の他の一つを使用して、整合粗信号整合の他の試みが行われてもよい。
【0039】
粗不整合推定器208が、ヒストグラム内の検出されたピークから粗時間シフトを決定する際、粗信号シフタ210は、媒体信号の1つに対応する相互相関に使用されるブロック206a、206b上で粗信号シフトを実行するために、粗時間シフト(図2AにおけるΔTcoarse)を使用する。粗信号シフタ210は、第1のサブサンプルされたブロック206aおよび第2のサブサンプルされたブロック206bを生成するために使用されるサブサンプリング係数により、粗時間シフト、ΔTcoarseを訂正することにより、信号シフトを実行することができる。次いで訂正された粗時間シフトを使用して、入力として使用される第2の信号ブロックを、第2のサブサンプラ204bにシフトできる。第2の信号は、図2Aに示された例ではシフトされるが、第1の信号は、特定の実施に従ってシフトされた信号であり得ることに留意されたい。信号をシフトさせる間、粗信号シフタ210は、例えば片方のゼロ値で1つの信号を埋め込むか、または反対側の他方の信号を切り捨てるものであり得る。
【0040】
粗信号シフタ210は、対応する組の粗シフトされたブロック212を生成するために、第2の信号ブロック203bのすべてを処理する。次いで、粗シフトされたブロック212および第1の信号ブロック203aは、細密シフトされたブロック220を生成するために、ブロック230上の細密整合によって処理され得る。
【0041】
図3Aは、図1Bに示されたシステムに使用され得る、第2の粗整合機能300の例のブロック図である。図3Aにおける第2の粗整合機能300は、第1の音声伝送復調器304a、第2の音声伝送復調器304b、第1のダウンサンプラ306a、第2のダウンサンプラ306b、粗不整合推定器310、および粗信号シフタ312を含む。図3における第2の粗整合機能300は、音声信号の包絡線を検出すること、および包絡線の相互相関を実行することによって作動する。各媒体信号202a、202bの包絡線検出は、音声伝送を復調することによって実行される。音声伝送復調器304a、304bは、例えば、y(n)=(1〜α)y(n〜1)+abs(αx(n))に従って、各信号を修正し、ローパスフィルタリングすることによって、包絡線を検出できる。
【0042】
ダウンサンプラ306a、306bは、第1の媒体信号202aおよび第2の媒体信号202bに対応する検出された包絡線を受け取り、各包絡線をダウンサンプルする。包絡線は、CPU負荷およびメモリ要求を軽減するために、1000までの係数をできるだけダウンサンプルされ得る。一部の信号に対して、重いダウンサンプリングは、全情報またはピッチ情報を除去することができる。この情報は、非常に律動的な通路内の有効な遅延の多数の誤評価をもたらし、整合をより困難にすることがある。ピッチ情報は、個々の遅延評価をより信頼できるものにするために、多数の(バンク当たり)包絡線検出器でカスケードされたフィルタバンクを使用して取り戻すことができる。図3Bは、包絡線検出およびフィルタバンクを使用する、粗整合機能350の例を示す。
【0043】
図3Bにおける粗整合機能350は、整合される入力媒体信号としての、音声ファイル352aおよび音声付動画ファイル352bを示す。音声ファイル352aは、ローパスフィルタ354a、第1のバンドパスフィルタ356a、第2のバンドパスフィルタ358a、およびハイパスフィルタ360aを有するフィルタバンクに入力される。図3Bに示されたように、2つのバンドパスフィルタ356a、358aより多くのバンドパスフィルタが使用されてもよい。音声付動画ファイル352bは、ローパスフィルタ354b、第1のバンドパスフィルタ356b、第2のバンドパスフィルタ358b、およびハイパスフィルタ360bを有する、第2のフィルタバンクに入力される。第1のフィルタバンク内のフィルタ354a、356a、358a、360aは、第2のフィルタバンク内のフィルタ354b、356b、358b、360bに対応する。第1のフィルタバンク内の各フィルタ354a、356a、358a、360aは、対応する包絡線検出器機能362a、364a、366a、368aに入力される。第1のフィルタバンク内の各フィルタ354b、356b、358b、360bは、対応する包絡線検出器機能362b、364b、366b、368bに入力される。
【0044】
第1の相関器機能370は、包絡線検出器362aでローパスフィルタされた音声信号から生成された包絡線と、包絡線検出器362bでローパスフィルタされた音声付動画ファイル信号から生成された包絡線の相関を実行する。第2の相関器機能372は、包絡線検出器364aでバンドパスフィルタされた音声信号から生成された包絡線と、包絡線検出器364bでバンドパスフィルタされた音声付動画ファイル信号から生成された包絡線の相関を実行する。第3の相関器機能374は、包絡線検出器366aでバンドパスフィルタされた音声信号から生成された包絡線と、包絡線検出器366bでバンドパスフィルタされた音声付動画ファイル信号から生成された包絡線の相関を実行する。第4の相関器機能376は、包絡線検出器368aでハイパスフィルタされた音声信号から生成された包絡線と、包絡線検出器368bでハイパスフィルタされた音声付動画ファイル信号から生成された包絡線の相関を実行する。次に、第1の相関器370、第2の相関器372、第3の相関器374、および第4の相関器376で実行された相関の結果が、検出され得る信号の帯域幅を構成するピークから結果を提供するために、機能380を加えるヒストグラムで追加される。
【0045】
図3Aに戻って参照すると、ダウンサンプラ306aは、ダウンサンプルされた第1の包絡線308aを生成し、ダウンサンプラ306bは、ダウンサンプルされた第2の包絡線308bを生成する。第1のダウンサンプルされた包絡線308aおよび第2のダウンサンプルされた包絡線308bは、相互相関機能310を使用して相互相関される。相互相関機能310は、粗時間シフト(図3AにおけるΔτcoarse)を生成し、粗時間シフトは、図2Aを参照に上に説明されたように、相互相関のヒストグラムにおいて検出されたピークに基づくことができる。次いで、粗時間シフト、Δτcoarseは、第1の信号202aおよび第2の信号202bを整合するために、粗信号シフタ312によって使用され得る。粗信号シフタ312は、粗シフトされた第2の信号320を得るために、修正された粗時間シフト、Δτcoarseにより、第2の信号202bを粗シフトさせることにより、信号の整合を実行できる。次に粗シフトされた第2の信号320は、より正確な整合を達成するために、別の粗整合機能、またはサンプル毎にシフトさせることにより細密整合に使用されることができる。
【0046】
図4は、図1Bに示されたシステムに使用され得る、第3の粗整合機能ブロック400の例のブロック図である。図4における第3の粗整合機能400は、元の音声録音と同時に録音される必要がなかった、音声の第2のクリップとともに録音する音声内に、音声のクリップの置換が可能な適用に使用することができる。また、第2のクリップは、別のソースの録音であることができる。音声クリップのこのような置換である適用の例には、映画またはテレビの録音帯内の吹き替え、または自動対話置換(ADR)が含まれる。別の例は、楽曲における楽器の代替の録音を使用するものである。
【0047】
作動中、第3の粗整合機能400は、第1の信号402として録音する元の音声、および第2の信号403として元の録音に挿入される第2のクリップを使用できる。第3の粗整合機能400は、第2の信号403内の特徴またはパターンに比較され得る、第1の信号402内の特徴またはパターンを識別するための、第1の特徴抽出機能404を含む。第2の特徴抽出機能406を使用して、第1の特徴抽出機能404によって識別される特徴またはパターンに比較される、試験特徴またはパターンを識別できる。第1の特徴抽出機能404および第2の特徴抽出機能406は、入力として使用される信号402、403の型に基づいた特徴またはパターンを識別できる。特徴またはパターンは、対話を含む音声信号402、403に対する音声認識のために抽出できる。特徴またはパターンはまた、音楽を含む音声信号に対するパターン認識のためにも抽出できる。特徴抽出機能404、406のそれぞれは、特徴比較器412により、比較のために第1の信号を抽出された特徴408および第2の信号試験特徴410を生成する。
【0048】
特徴比較器412は、比較される信号のタイプによる、公知の音声またはパターン認識機能を使用する、抽出された特徴と一致することがある。特徴抽出機能404、406、および特徴比較器412は、特定の用途に従って様々な方式に配置され得ることを理解されたい。特徴比較器412は、特徴の中の一致を識別する。2つの特徴が一致すると判定された場合は、特徴遅延推定器414は、一致のための時間遅延(図4におけるΔTMatch)を判定する。時間遅延は、一致した特徴の開始点に対して、元の音声録音を表す第1の信号402内で経過した時間であることができる。第1の信号402および第2の信号403は、異なる音源の録音から生じることができることに留意されたい。特徴遅延推定器414によって決定された、時間遅延に対応する2つの信号402、403の整合の解明は、2つの録音の類似に依存することがある。時間遅延、ΔTMatchは、粗シフトされた第2の信号420を生成するために、粗信号シフタ416によって使用され得る。一例では、粗シフトされた第2の信号420は、第1の信号402の中に挿入され得る点を示す、時間情報を有する第2の信号403の複写でもよい。
【0049】
図2、3、および4に示されたそれぞれの粗整合機能200、300、400を使用して、第1および第2の媒体信号に存在し得る、実質的な不整合を削減することができる。粗整合は、2つの信号がどの程度不整合であるかに依存する、同じまたは異なる粗整合機能を毎回使用して、反復または繰り返し実行できる。2つの信号の不整合の程度は、相互相関が実行される度に決定される、時間遅延における減少を追跡することによる、例の実施内で追跡できる。信号がほぼ整合しているとき、信号は、信号を実質的に整合にもたらす細密整合機能によって処理できる。
【0050】
図5は、図1Bに示されたシステムに使用され得る、細密整合機能500の例のブロック図である。細密整合機能500は、第1の信号502と第2の信号504との間の遅延を決定するために、細密不整合推定器506を含む。細密不整合推定器506は、細密整合時間遅延(図5におけるΔTFine)を生成し、これは、細密整合時間遅延、ΔTFineにより2つの信号のうちの1つをシフトさせるために、細密信号シフタ508によって使用され得る。図5に示された例では、第2の信号504は、細密シフトされた第2の信号520を得るために、細密整合時間遅延、ΔTFineによってシフトされ得る。信号結合器530は、時間整合システムを使用する特定の適用に従って、結合された信号550を生成するために、細密シフトされた第2の信号520を第1の信号502と結合してもよい。
【0051】
図5における細密不整合推定器506は、2つの信号の相互相関を実行し、2つの信号の間の遅延を示唆するピークを有するヒストグラムとしての成果を生成するように、構成された相互相関機能を含んでもよい。また、細密不整合推定器506は、限定せずに、時間遅延スペクトル分析法、位相接続法、および2つの信号の相関関係、干渉性、または相互情報に基づくあらゆる適切な分析などの、遅延検出機能も含んでもよい。また、細密不整合推定器506は、相関関係を実行し、ピーク検出のためにヒストグラムを分析してもよい。ピーク検出はまた、微分、ヒルベルト変換、または相関関係の結果の適切な質量中心計算の使用を含んでもよい。
【0052】
図6は、媒体ファイルを整合するための例示的方法を示すフローチャート600である。フローチャート600に示された例示的方法は、図1Aを参照して上で説明された媒体ファイル100を整合するためのシステムにおいて実行できる。該方法は、ブロック内でファイルを受け取る、またはファイルを初めに崩すことにより、媒体ファイルを処理する。各ファイルを作り上げるすべてのブロックが処理されるまで、ブロックを連続して入力することができる。
【0053】
ステップ602では、信号のブロックの第1の対が処理のために入力される。該工程が続くにつれて、ステップ602は、処理のために信号のブロックの次の対を取得するステップを実行する。該対のブロック内の各ブロックは、整合される第1および第2の信号内で処理される次のブロックである。ステップ604では、相互相関がブロックの入力の対で実行され得る。最初の相互相関は、著しく不整合ではないブロックの整合に対して、時間遅延を提供できるサンプル毎の相互相関である。
【0054】
決定ブロック606では、相互相関結果を分析することができる。一例では、ヒストグラムを時間遅延の範囲にわたって生成することにより、結果が分析される。ヒストグラムは、ピークをチェックされる。ピークが検出された場合は、ブロック間の不整合は、ピークで示された時間遅延によって修正され得る。ステップ608では、ブロックに対する時間遅延を使用して、例えば図1Aにおいて、近接マイクロホンで録音された信号をシフトさせる。時間遅延は、決定ブロック606でピークによって決定された時間遅延内で、サンプルの数を決定するために使用される。サンプルの数を使用して、ステップ608に示されたように、信号全体をシフトさせることができる。
【0055】
決定ブロック606でピークが検出されなかった場合は、ブロックの対を処理するために、別の粗整合機能を選択することができる。ステップ607では、次の粗整合機能のために、信号のより大きいブロックを取得できる。ステップ610では、サブサンプリング粗整合機能が、ブロックの対で実行される。サブサンプリング粗整合は、図2Aを参照に上に説明されたように実行され得る。サブサンプリング係数は、推定された不整合に基づいて決定され得るか、または初期値が使用され得る。サンプルのサブサンプリング係数の数によって分離された各サンプルは、相互相関がブロックで実行される前に、並行してブロックの対から抽出される。決定ブロック612では、ピークを検出するために、相互相関の結果を分析する。ピークが検出された場合は、例えば、図1Aに示された近接マイクロホンから録音されたものに対応するブロックが、検出されたピークによって示された時間遅延に対応するサンプルの数により、ステップ614でシフトされる。時間遅延(およびサンプルの数)は、サブサンプリング係数によって修正され得る。シフトされたブロック、および図1Aにおいて、マルチメディアレコーダによって捕捉された、動画および音声信号の音声部分に対応するブロックは、サンプル毎の相互相関が図6のステップ604に示されたように実行される、細密整合機能に提供される。
【0056】
決定ブロック612でピークが検出されない場合は、ブロックの対を処理するために、別の粗整合機能を選択することができる。ステップ615では、次の粗整合機能のために、信号のより大きいブロックを取得できる。ステップ616では、包絡線検出粗整合機能616が、ブロックの対で実行され得る。包絡線検出粗整合機能はステップ616で、図3を参照に上に説明されたように進めることができる。ステップ618では、相互相関が各ブロックの包絡線で実行される。決定ブロック620では、相互相関結果はピークを分析される。ピークが検出された場合は、例えば、図1Aに示された近接マイクロホンから録音されたものに対応するブロックが、検出されたピークによって示された、時間遅延に対応するサンプルの数により、ステップ624でシフトされる。次いで、シフトされたブロック、および図1Aにおいてマルチメディアレコーダによって捕捉された動画および音声信号の音声部分に対応するブロックは、細密整合を実行する前に、整合をさらに見積もるために、ステップ610でサブサンプリング粗整合機能に提供され得る。
【0057】
決定ブロック620でピークが検出されない場合は、ブロックの対を処理するために、別の粗整合機能を選択することができる。ステップ621では、次の粗整合機能のために、信号のより大きいブロックを取得できる。ステップ622では、意味またはパターン特徴抽出粗整合機能をブロックの対で実行できる。特徴抽出粗整合機能を図4を参照に上に説明されたように実行できる。パターンまたは音声認識機能を選択された特徴で実行できる。こうした機能は、通常選択された特徴、または選択された特徴の処理された型で相互相関を実行するものである。決定ブロック626では、パターンまたは音声認識の結果が、ピークを検出するために試験される。ピークが検出された場合は、例えば、図1Aに示された近接マイクロホンから録音されたものに対応するブロックが、検出されたピークによって示された時間遅延に対応するサンプルの数により、ステップ628でシフトされる。次いで、シフトされたブロック、および図1Aにおいてマルチメディアレコーダによって捕捉された動画および音声信号の音声部分に対応するブロックを、細密整合を実行する前に、整合をさらに見積もるために、ステップ616で包絡線検出粗整合機能に提供することができる。
【0058】
決定ブロック626でピークが検出されない場合は、ブロックの不整合またはブロックの他の特徴は、適切な整合をできないことがある。例えば、その録音は類似が不十分であることがある。録音は、信号の再整合を試みる前に、さらなる処理に掛けられることがある。
【0059】
すべての粗整合機能は、信号を整合するための例示的方法に必要とされることに、留意されたい。加えて、整合機能の1つを使用してピークが検出されない場合は、異なるパラメータを使用して整合機能を反復できる。
【0060】
図1〜6に関連して記載された1つまたは複数のプロセス、サブプロセス、またはプロセスステップは、ハードウェアおよび/またはソフトウェアによって実行され得ることは、当業者には理解され、認識されよう。プロセスがソフトウェアによって実行される場合は、ソフトウェアは、図1〜6に概略的に示された1つまたは複数の機能部品またはモジュールなどの、適切な電子処理部品またはシステム内のソフトウェアメモリ(図示せず)内に存在することがある。ソフトウェアメモリ内のソフトウェアは、論理機能(すなわち、「論理」は、デジタル回路またはソースコードなどのデジタル形式、あるいはアナログ回路またはアナログ電子、音声もしくは動画信号などのアナログソースなどのアナログ形式のいずれかで実施され得る)を実施するための実行可能な命令を順序付けた一覧を含むことができ、コンピュータベースのシステム、プロセッサを含むシステム、または命令実行システム、装置、もしくはデバイスから命令を選択的にフェッチし、命令を実行することができる他のシステムなどの、命令実行システム、装置、またはデバイスにより、あるいは命令実行システム、装置、もしくはデバイスに接続して使用するための、あらゆるコンピュータ可読媒体で選択的に具体化されることができる。本開示の背景で、「コンピュータ可読媒体」は、命令実行システム、装置、もしくはデバイスにより、または命令実行システム、装置、もしくはデバイスに関連して使用するためのプログラムを含む、記憶するまたは連通できるあらゆる手段である。コンピュータ可読媒体は、これに限定されないが、例えば選択的に、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、装置またはデバイスであってもよい。コンピュータ可読媒体のより具体的な例は、一覧に網羅されないが、以下のもの、すなわち、携帯用コンピュータディスケット(磁気)、RAM(電子)、読取専用メモリ「ROM」(電子)、消去可能読取専用メモリ(EPROMまたはフラッシュメモリ)(電子)および携帯用コンパクトディスク読取専用メモリ「CDROM」(光学)を含むはずである。さらにコンピュータ可読媒体は、プログラムが、例えば紙または他の媒体の光学走査を介して、電子的に捕捉できるように印刷され、次いで蓄積され、解釈され、または必要な場合は別法により適切な方法で処理され、次にコンピュータメモリ内に記憶される紙または別の適切な媒体であってよいことに留意されたい。
【0061】
実施の上の記載は、例示および説明の目的のために提示されている。上の記載は、網羅的ではなく、かつ開示されたそのままの形式に主張された発明を限定しない。修正形態および変形形態は、上記の見地から可能であり、本発明の実施から得られる。特許請求の範囲およびそれらの等価物が、本発明の範囲を定義する。

【特許請求の範囲】
【請求項1】
第1の媒体信号および第2の媒体信号を時間整合させるための方法であって、
前記第1および第2の媒体信号を、サンプリングレートを使用して生成されたデジタルサンプルの流れとして受け取ることと、
前記第1の媒体信号と前記第2の媒体信号との間の近似不整合を決定することと、
前記近似不整合に基づいた粗時間シフトを決定することと、
粗シフトされた第2の信号を生成するために、前記粗時間シフトにより前記第2の媒体信号をシフトさせることと、
前記第1の媒体信号と前記粗シフトされた第2の信号との間の整合時間シフトを決定することと、
前記第1の媒体信号と整合された、シフトされた第2の信号を生成するために、前記粗シフトされた第2の信号を前記整合時間シフトによりシフトさせることと、を含む方法。
【請求項2】
前記整合時間シフトを決定するステップは、
前記第1の媒体信号と前記粗シフトされた第2の信号の相互相関を実行し、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のために前記結果を微分することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
前記第1の媒体信号と前記第2の媒体信号の相互情報に基づく分析を実行することと、を使用することのいずれかの方法を含む、請求項1に記載の方法。
【請求項3】
前記粗整合機能を使用する前記ステップは、前記粗整合機能を複数の粗整合機能から選択することを含む、請求項1に記載の方法。
【請求項4】
粗時間シフトを決定する前記ステップは、前記粗時間シフトが前記第1の選択された粗整合機能を使用することを決定できなかった際は、前記複数の粗整合機能の異なる粗整合機能を使用することを含む、請求項3に記載の方法。
【請求項5】
前記第2の媒体信号をシフトさせる前記ステップの後に、前記粗整合機能を使用する前記ステップを実行することと、前記粗時間シフトを決定することと、第2の粗シフトされた第2の信号を生成するために、前記第2の媒体信号をシフトさせることと、をさらに含み、整合される前記信号は、前記第1の媒体信号および前記粗シフトされた第2の信号であり、前記粗整合機能を使用する前記ステップは、前記複数の粗整合機能の1つを選択する前記ステップを含む、請求項3に記載の方法。
【請求項6】
前記粗整合機能を使用する前記ステップを反復することと、前記粗時間シフトを決定することと、粗シフトされた第2の信号をさらに生成するために、前記第2の媒体信号をシフトさせることと、をさらに含み、整合される前記信号は、前記第1の媒体信号および前記事前に粗シフトされた第2の信号であり、前記粗整合機能を使用する前記ステップは、前記複数の粗整合機能の1つを選択する前記ステップを含む、請求項5に記載の方法。
【請求項7】
前記粗整合機能を使用する前記ステップは、
前記第1および第2の信号のそれぞれをサブサンプリング係数によってサブサンプリングすることと、
前記第1のサブサンプルされた信号と前記第2のサブサンプルされた信号との間の遅延を検出することと、を含み、
前記粗時間シフトを決定する前記ステップは、前記検出された遅延を使用することを含む、請求項1に記載の方法。
【請求項8】
前記遅延を決定する前記ステップは、
前記第1および第2のサブサンプルされた信号の相互相関を実行することであって、前記粗時間シフトを決定する前記ステップは、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することを含む、実行することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のために前記結果を微分することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
前記第1および第2の媒体信号の相互情報に基づく分析を実行することと、のいずれかの方法を使用することを含む、請求項7に記載の方法。
【請求項9】
前記粗整合機能を使用する前記ステップは、
第1および第2の信号包絡線を検出するために、前記第1および第2の信号のそれぞれを復調することと、
第1および第2のダウンサンプルされた包絡線を生成するために、前記第1および第2の信号包絡線を、ダウンサンプリング係数によってダウンサンプリングすることと、
前記第1のダウンサンプルされた包絡線と前記第2のダウンサンプルされた包絡線との間の遅延を検出することと、を含み、
前記粗時間シフトを決定する前記ステップは、前記検出された遅延を使用することを含む、請求項1に記載の方法。
【請求項10】
前記遅延を決定する前記ステップは、
前記第1および第2のダウンサンプルされた包絡線の相互相関を実行することであって、前記粗時間シフトを決定する前記ステップは、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することを含む、実行することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のために前記結果を微分することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
前記第1および第2の媒体信号の相互情報に基づく分析を実行することと、のいずれかの方法を使用することを含む、請求項9に記載の方法。
【請求項11】
前記粗整合機能を使用する前記ステップは、
前記第2の信号から信号特徴を抽出することと、
前記第1の信号から信号部分を抽出することと、
前記信号特徴を前記信号部分と比較することと、
前記信号部分が前記信号特徴と一致する場合は、前記第1の信号内の前記信号部分の開始時間への時間遅延を識別することと、
前記信号部分を第1の信号から抽出する前記ステップを反復し、前記信号部分が前記信号特徴と一致するまで、前記信号特徴を前記信号部分と比較することと、を含む、請求項1に記載の方法。
【請求項12】
信号特徴および信号部分を抽出する前記ステップは、前記第1および第2の信号内の音声要素を抽出することを含み、
前記信号特徴と前記信号部分を比較する前記ステップは、音声認識機能を実行することを含む、請求項11に記載の方法。
【請求項13】
信号特徴および信号部分を抽出する前記ステップは、前記第1および第2の信号内の信号パターンまたは意味特徴を抽出することを含み、
前記信号特徴と前記信号部分を比較する前記ステップは、パターン認識機能を実行することを含む、請求項11に記載の方法。
【請求項14】
前記第1および第2の媒体信号を受け取る前記ステップは、
媒体信号サイズより小さいブロックサイズを決定することと、
第1および第2の媒体信号のそれぞれを複数のブロックに分割することと、
前記粗整合機能を使用し、粗時間シフトを決定する前記ステップにおいて、前記第1および第2の媒体信号の対応するブロックを処理することと、をさらに含む、請求項1に記載の方法。
【請求項15】
第1および第2の媒体信号を時間整合させるためのシステムであって、
前記第1の信号と前記第2の信号との間の初期不整合を低減させるための少なくとも1つの粗整合機能であって、前記粗整合機能は、粗シフトされた第2の信号を生成するように構成された、少なくとも1つの粗整合機能と、
前記粗シフトされた第2の信号と、前記第1の信号と前記粗シフトされた第2の信号との間の前記第1の信号との間の整合時間シフトを決定するように構成された、細密整合機能と、を含むシステム。
【請求項16】
前記細密整合機能は、
前記第1の媒体信号と前記粗シフトされた第2の信号の相互相関を実行し、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のために前記結果を微分することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
前記第1および第2の媒体信号の相互情報に基づく分析を実行することと、のいずれかを使用することにより、遅延を検出するように構成された不整合推定器を含む、請求項15に記載のシステム。
【請求項17】
前記少なくとも1つの粗整合機能は、
第1および第2のサブサンプルされた信号を生成するために、サブサンプリング係数により前記第1および第2の信号をサブサンプルするように構成された、第1および第2のサブサンプリング機能であって、前記第1および第2のサブサンプルされた信号を使用して、前記第1のサブサンプルされた信号と前記第2のサブサンプルされた信号との間の粗時間遅延を決定する、第1のサブサンプリング機能および第2のサブサンプリング機能と、
前記第2の信号を、前記粗時間遅延に対応するサンプルの時間シフト数シフトさせることにより、前記粗シフトされた第2の信号を生成するように構成された、粗信号シフタと、を含む、請求項15に記載のシステム。
【請求項18】
前記第1および第2のサブサンプルされた信号の相互相関を実行し、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
前記第1および第2のサブサンプルされた信号を加え、前記合計内のノッチを検出することと、
位相接続法を実行することと、のいずれかを使用して、前記粗時間遅延を決定するように構成された不整合推定器をさらに含む、請求項17に記載のシステム。
【請求項19】
前記少なくとも1つの粗整合機能は、
対応する包絡線を検出するために、前記第1および第2の信号を復調するように構成された、第1および第2の包絡線復調器と、
第1および第2のダウンサンプルされた包絡線を生成するために、ダウンサンプリング係数により、前記第1および第2の包絡線をダウンサンプルするように構成された、第1および第2のダウンサンプラと、この場合、前記第1および第2のダウンサンプされた包絡線を使って、前記第1および第2のダウンサンプされた信号の間の粗時間遅延を決定し、
前記第2の信号を、前記粗時間遅延に対応するサンプルの時間シフト数シフトさせることにより、前記粗シフトされた第2の信号を生成するように構成された、粗信号シフタと、を含む、請求項15に記載のシステム。
【請求項20】
前記第1および第2のサブサンプルされた信号の相互相関を実行し、時間遅延の選択された範囲内の1組の相互相関結果におけるピークを識別することと、
時間遅延スペクトル分析法を実行することと、
相関関係を実行し、ピーク検出のためにヒルベルト変換を使用することと、
相関関係を実行し、ピーク検出のために重心計算を使用することと、
位相接続法を実行することと、
前記第1および第2の媒体信号の相互情報に基づく分析を実行することと、のいずれかを使用する前記粗時間遅延を決定するように構成された、不整合推定器をさらに含む、請求項19に記載のシステム。
【請求項21】
前記少なくとも1つの粗整合機能は、
前記第2の信号内で比較するべき特徴を抽出するように構成された特徴抽出機能と、
前記第1の信号から前記特徴に一致するパターンまたは意味特徴を抽出するように構成された一致パターン抽出機能と、
前記一致を比較するべき前記特徴と一致させるための特徴比較器と、
前記第1の信号内のパターンに一致するために時間シフトを決定するように構成された特徴遅延比較器と、
前記第2の信号を前記時間シフトに基づく前記第1の信号と整合するように構成された、粗信号シフタと、を含む、請求項15に記載のシステム。

【図1A】
image rotate

【図1B】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図2C】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−84334(P2013−84334A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−207823(P2012−207823)
【出願日】平成24年9月21日(2012.9.21)
【出願人】(592051453)ハーマン インターナショナル インダストリーズ インコーポレイテッド (91)
【Fターム(参考)】