説明

情報信号を分析する装置および方法

情報単位のブロックのシーケンスを有する情報信号を分析するために、ブロックのシーケンスの複数の連続ブロックが情報エンティティを表し、ブロックのシーケンスに対するフィンガープリントのシーケンスを用いて、識別結果を連続するフィンガープリントに提供する(12)。識別結果は、情報単位のブロックと所定の情報エンティティとの関連付けを表す。次に、連続するフィンガープリントに対し、少なくとも2つの仮定を識別結果から立てる(14)。第1の仮定がブロックのシーケンスと第1の情報エンティティとの関連付けに対する想定で、第2の仮定がブロックのシーケンスと第2の情報エンティティとの関連付けに対する想定である。次に様々な仮定を検証して(16)、検証結果を得て、次に、これに基づいて、情報信号に関するステートメントを生成する(20)。これにより、有意義で、信頼できる、情報信号を時間的に連続して分析行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号分析に関し、特に、信号の内容を識別するための信号分析に関する。
【背景技術】
【0002】
ますます増大するオーディオ・映像素材をアーカイブしたり、容易に検索できるデータベースを構築したり、様々な配信方法を介して素材を配信したりするために、オーディオ・映像素材を特定したり、より一般には、コンテンツに基づいて明確に情報素材を特定したりすることを支援する自動情報認識システムが必要である。
【0003】
このことに対する適用例の1つは、いわゆる“ブロードキャスト・モニタリング”である。このようなオーディオ映像監視システムの力を借りて、例えば、法的コンテンツを配信したり、オーディオ・映像素材の権利所有者に対して著作権使用料を個別に正確に支払ったりすることを確実に行うようにすることができる。
【0004】
別の適用例の1つは、例えば、ピアツーピアネットワークを介して相手方と交換するオーディオ素材を認識することである。
【0005】
別の適用例の1つは、予定した広告時間が実際に放送されたのか、予定した広告シェア部分だけが放送されたのか、コマーシャル部分が伝送中に配信されたのか、広告業界がテレビ局またはラジオ局を監視するために、可能性を監視することである。このことは、例えば、テレビ局またはラジオ局の責任であるともいえる。この点で、特に、放送時間で人気のある番組でのテレビコマーシャルコストは非常に高いので、広告業界は、特に高いコストの視点から、可能性の監視に重大利益があり、よって、放送局の言質を単純に信用したりしないことに留意されたい。現在、可能性を監視することは、“テスト聴取者”または“テスト視聴者”への支払いに基づいている。彼らは、連続してあるテレビ番組を試聴して、例えば、コマーシャルを送信した正確な時間を記録して、さらに、伝送中に外乱がなかったかどうか、全コマーシャルが正確に送信されたかどうか、すなわち、画像歪み等がなかったかどうか、監視する。
【0006】
この概念の欠点は明白である。一方では、コストが膨大であることと、他方では、特に、立証能力についてはテスト聴取者にもっぱら依存する、かなりの支払いが要求された場合には、テスト聴取者および/またはテスト視聴者のコメントの信頼性または証拠能力が問題となることとである。
【0007】
様々な周知のシステムを、自動化ブロードキャスト・モニタリングに用いることもできる。例えば、国際公開第02/11123号または専門誌:“インバイテッド・トーク:きわめて強力なオーディオ検索アルゴリズム(Invited Talk: An Industrial− Strength Audio Search Algorithm)”、エーブリー・ワング(Avery Wang)(ISMIR2003年、2003年10月ボルチモア)に、ノイズが強く歪みが大きい環境でオーディオ信号および音楽信号を認識するシステムおよび方法が開示されている。第1のステップは、参照オーディオオブジェクトのハッシュ値と、まだ特定していないオーディオオブジェクトの現在求めたハッシュ値との間に一致があるかどうか検証することである。この場合、対応付けられた時間オフセット、すなわち、オーディオオブジェクトの開始から、まだ特定していないオーディオオブジェクトにおけるハッシュ値の開始からと、参照オーディオオブジェクト内のハッシュ値の時間オフセットとの間の相対距離が、参照オーディオオブジェクトの個別に識別して格納される。全入力ハッシュ値が処理された場合は、いわゆる走査位相を開始する。この位相の間は、参照オーディオオブジェクト時間毎にいくつの時間オフセット対が連続して一致しているか検証する。いくつかの数を検出した場合は、対応する参照オーディオオブジェクトIDが想定される。時間オフセット対は、時間的に連続すると考えられている。すなわち、一方の時間オフセットをX座標として、もう一方をY座標とする2次元散布で直線を形成する場合は、時間的に互いに対応付けられていると考えられる。
【0008】
専門誌“コンテンツ識別を行うための確実なオーディオハッシング法(Robust Audio Hashing for Content Identification)”J.ハイツマ(Haitsma)、T.カルカー(Kalker)、J.オーストフェーン(Oostveen)、(コンテンツベースマルチメディア指数予稿集2001年、url:citeseer.ist.psu.edu/haitsma01robust.html)には、コンテンツ識別を行う確実なオーディオハッシングシステムが記載されている。コンテンツベースの音楽認識を行うために、ビットシーケンスをオーディオ信号からの部分に対応付ける、ハッシュ関数が用いられる。すなわち、人間のオーディオ認知と音響的に同じオーディオ信号が、同じビットシーケンスについても生成するようになっている。ハッシュ値を計算するには、はじめにオーディオ信号をウインドウ化して変換して、最終的に、変換結果を、対数帯域幅を有する周波数帯域に分割する。これらの周波数帯域には、時間差および周波数方向の異なる符号が求められる。符号から得られるビットシーケンスは、ハッシュ値を構成する。3秒間のオーディオ信号に対し、1つのハッシュ値が必ず計算される。このような部分に対して検証する参照ハッシュ値とテストハッシュ値との間のハミング距離が閾値sを下回る場合は、一致を想定して、テスト部分が参照成分に対応付けられる。
【0009】
オーディオ素材の認識を行うには、通常、オーディオ信号を小さな長さ単位Δtに分割する。これらの個別の単位は、少なくとも特定の時間分解能を有するために、それぞれ別々に分析される。
【0010】
これにより、問題がいくつか生じる。
【0011】
認識したオーディオ信号の明白な正確なステートメントをより長い時間区分にすることができるように、オーディオ信号の小さな分析時間区分の認識結果をまとめる必要がある。
【0012】
連続オーディオデータストリームを分析するには、あるオーディオ成分から別のオーディオ成分への遷移、すなわち、楽曲Aから楽曲Bへの遷移を、正確に検出する必要がある。
【0013】
楽曲にいくつかのバージョンがあるというような、別の状況がある。例えば、始まりが同じだが、ある時間が経つと違ってくるというものである。例えば、歌の短いバージョンまたは長いバージョンについて考えられる。あるいは、このような状況もある。例えば、同じ歌に基づく楽曲がはじめは異なっているが、中程では全く同じになり、2つの楽曲のうちの少なくとも1つの終わりに向かって、それぞれ違っていくというものである。権利所有者への著作権使用料の支払いについては、例えば、歌の長いバージョンには高く課金するかどうか、通常のバージョンには中くらいの課金を行うかどうか、すでに歌の短いバージョンが再生されている場合は、少なく課金するかどうかが重要である場合もある。この場合は、いくつかの歌のバージョンを確実に区別するために考える必要がある。
【0014】
上記の従来技術が不十分であるのは、個別の認識結果を単純にまとめた場合に、検出エラーとなる点である。特に、いくつかの異なるオーディオオブジェクトから連続オーディオデータストリームを分析するのかどうか、どのように分析するのか、様々なオーディオオブジェクト間の対応する遷移をどのように検出するのかについて、情報が全く与えられていない場合である。また、特に、参照ハッシュ値に関して後者の従来技術の曖昧さが述べられているが、明白な候補を決定する問題に対して、明確な答えが与えられていない。オーディオオブジェクトがハッシュ値に対して特定したと考えられる場合、特定したオーディオオブジェクトに適応するかどうか、直接に次のハッシュ値に対して検証しているだけである。特定しなかった場合は、全参照オーディオオブジェクトを含む新規の検索がある。
【0015】
特に、ある歌と同じ歌との間の異なるバージョンを区別するために、周知の従来技術では答えが与えられていない。
【0016】
【特許文献1】国際公開第02/11123号
【非特許文献1】“インバイテッド・トーク:きわめて強力なオーディオ検索アルゴリズム(Invited Talk: An Industrial− Strength Audio Search Algorithm)”、エーブリー・ワング(Avery Wang)(ISMIR2003年、2003年10月ボルチモア)
【非特許文献2】“コンテンツ識別を行うための確実なオーディオハッシング法(Robust Audio Hashing for Content Identification)”J.ハイツマ(Haitsma)、T.カルカー(Kalker)、J.オーストフェーン(Oostveen)、(コンテンツベースマルチメディア指数予稿集2001年、url:citeseer.ist.psu.edu/haitsma01robust.html)
【発明の開示】
【発明が解決しようとする課題】
【0017】
本発明の目的は、確実に情報信号を分析する概念を提供することである。
【課題を解決するための手段】
【0018】
この目的は、請求項1に記載の情報信号を分析する装置、請求項20に記載の情報信号を分析する方法、または請求項21に記載のコンピュータプログラムにより、達成される。
【0019】
本発明は、個別の認識結果自体について考えるばかりでなく、時間の特定の期間について考えることにより、信頼できるコンテンツ識別を達成できるという知見に基づいている。例えば、フィンガープリントのシーケンスに対して、個別の認識結果シーケンスにおいて認識するために用いることができる、多量の情報がある。本発明によれば、情報信号のブロックのシーケンスを表すフィンガープリントのシーケンスに基づいて、少なくとも2つの異なる仮定(hypothesis)を行う。第1の仮定がブロックのシーケンスと第1の情報エンティティとの関連付けに対する想定で、第2の仮定がブロックのシーケンスと第2の情報エンティティとの関連付けに対する想定である。検証結果に基づいて、情報信号に関するステートメントを生成するように、少なくとも2つの仮定は検証され評価される。例えば、ステートメントは、ブロックのシーケンスが、最も見込みのある仮定を有する情報エンティティを表すことを判定することにより表すこともできる。あるいはまたさらに、情報単位が、フィンガープリントのシーケンスの時間的に最後のフィンガープリントとして、最も見込みのある仮定を与えるフィンガープリントで終わるというステートメントにすることもできる。
【0020】
好ましくは、フィンガープリントに対して少なくとも2つの異なる識別結果が存在するように、そして、2つの異なる識別結果それぞれに対して信頼性測定値が存在するように、仮定が検証される。この信頼性測定値は、名数により表すこともできる。しかしながら、例えば、2つの識別結果を提供する事実により、信頼性の1/2が通知され、この数字を明示的に与えないというように、この信頼性測定値を、自動的に与えることもできる。
【0021】
ある仮定が他の仮定よりも可能性があるかどうか評価するために、個別の数の時間的に連続するブロックに対して個別の認識信頼性測定値が合成されることは都合がよい。好ましくはこの合成は、加算からなる。次に、最も高い合成信頼性測定値を提供する仮定が、最も見込みのある仮定として評価される。
【0022】
本発明の好適な実施の形態では、多くの参照フィンガープリントが識別結果と関連付けて個別にファイルされるフィンガープリントデータベースは、連続識別結果を提供する手段として用いられる。次に、情報信号ブロックから生成したフィンガープリントを用いて、データベース検索を行って分析して、データベース内のテストフィンガープリントと一致する参照フィンガープリントを探す。データベース設計によるが、一番良いヒットだけが、すなわち、最小距離測定値のヒットだけが、データベース検索結果としての識別結果として出力される。また、好適には、データベースは、定性的なヒット結果ばかりでなく、定量的なヒット結果についても提供するので、関連付けられた信頼性測定値を有する、多数の考えられるヒットが出力される。例えば、20%等の、ある閾値以上の信頼性測定値を有する全ヒットが、データベースから出力される。
【0023】
本発明の好適な実施の形態では、まだ仮定が立てられていない新規の識別結果が存在する場合は、新規の仮定が開始される。この手順は、次に、信頼できるとわかったある仮定がすでに終了しているかどうか、過去に向けて検証し、次に、この仮定を最も見込みのある仮定として特定するために、ある数のブロックに対して行われる。
【0024】
本発明の利点は、確実に動作して、特に伝送エラーに関してエラーが発生しない概念である点である。例えば、1つのブロックに基づいて決定を行うことはないが、仮定を立てることにより、連続ブロックのシーケンスをそのまま検討され評価されるので、短い時間の伝送外乱および/または通常発生するノイズにより、全認識プロセスが無駄になることがない。
【0025】
また、本発明の概念は、始めから終わりまで、例えばコマーシャル等の、伝送品質の記録を自動的に生成する。ある仮定を最も見込みのある仮定として特定した場合でも、すなわち、あるコマーシャルについて判定した場合でも、信頼性測定値に基づいて、コマーシャル内の品質むらを追跡することができる。さらに、特に、情報エンティティの例としてのコマーシャルの全時間の連続性を追跡できて、記録できるようなやり方である。特に、コマーシャルの一部を連続して繰り返さなかったけれども、全コマーシャルを、コマーシャルの開始からコマーシャルの終了まで、連続して送信したという点についてである。
【0026】
本発明の別の利点は、仮定を立てることにより、情報エンティティの終了と、情報エンティティの開始とを、自動的に検出することである。これは、一般に、情報エンティティとの関連付けが明白であるという事実に基づいている。このことは、ある時点でいくつかの情報エンティティを一緒に再生することは考えられないが、少なくとも膨大な数のプログラムコンテンツに対して、ある時点では、情報エンティティが1つだけ情報信号に含まれていることを意味している。前の情報エンティティが終了して、新規の情報エンティティが開始するある時点で、仮定検証と、仮定検証に基づく仮定の評価とが自動的に生成される。これは、仮定で保たれているブロック関連付けに基づいている。従って、フィンガープリントのシーケンスはやはりブロックのシーケンスと対応しており、識別結果のシーケンスはフィンガープリントのシーケンスと対応しているので、時間に対して、仮定は、元の情報信号と明白に関連付けられている。
【0027】
本発明の概念の別の利点は、情報エンティティが、同じ歌の短いバージョンまたは長いバージョンといった、部分的に全く同じオーディオ素材を有している場合でも、2つの仮定が“ドロー”となる状況が発生しないことである。
【0028】
以下に、添付の図面を参照にして、本発明の好適な実施の形態について詳細に説明する。
図1は、本発明の装置のブロック回路図である。
図2は、図1に示す実施の形態に使用可能なデータベースのブロック回路図である。
図3は、時間間隔のシーケンスと、関連付けられた仮定とに対するフィンガープリントシーケンスの出力結果を概略表現で示す。
図4aないし図4cは、次の適用例の一例のシナリオを示す。
図5aないし図5dは、様々な間違った評価を概略で示す。
図6は、本発明の好適な実施の形態のブロック回路図である。
図7aないし図7cは、図4aないし図4cに示す出力シナリオに対する本発明の概念の機能を示す。
図8は、複数のブロックの情報単位、情報単位ブロックおよび情報エンティティを有する情報信号を概略で示す。
図9は、フィンガープリントデータベースを蓄積する周知のシナリオである。
図10は、図9に基づいてロードしたフィンガープリントデータベースにより、オーディオ識別を行う周知のシナリオである。
【0029】
図1は、本発明の好適な実施の形態に基づく、情報信号を分析する装置のブロック回路図を示す。典型的な情報信号を、図8に800で示す。情報信号800は、時間的に連続する情報単位のブロックのシーケンス802からなる。個別の情報単位804は、例えば、オーディオサンプル、映像画素または映像変換係数等である。
【0030】
複数のブロックのシーケンス802は常に、まとまって情報エンティティ806を生成する。図8に示す実施の形態では、第1の6つのブロックは第1の情報エンティティを形成し、ブロック7、8、9、10は第2の情報エンティティを形成している。例えば、ブロック11からnの第3の情報エンティティは、図8に示す。情報エンティティは、例えば、楽曲、会話、映像画像、または例えば、映像画像の一部とすることができる。しかしながら、情報信号がテキストデータも含む場合は、情報エンティティは、テキスト、または例えば、テキストのページであってもよい。
【0031】
図1に示す装置は、フィンガープリントのシーケンスFA1、FA2、FA3、...、FAiを用いて動作するように設計される。実施例によるが分析の前にフィンガープリントを生成していたり、情報信号で供給されている場合は、フィンガープリントは、連続するブロック802のシーケンスから生成したり、または、例えばメモリから検索したりする。例えば、周知のオーディオ符号化から、ブロック生成のためのブロック重複技術についても用いることもできることに留意されたい。
【0032】
いずれの場合でも、情報信号を分析するための装置は、ブロックのシーケンスに対するフィンガープリントのシーケンスを用いて動作するので、ブロックのシーケンス802は、フィンガープリントのシーケンスFA1、FA2、FA3、FA4、...、FAiにより表される。フィンガープリントのシーケンスは、連続するフィンガープリントに識別結果を提供する手段12におけるフィンガープリント入力に供給される。連続識別結果を提供する手段12は、連続識別結果を連続するフィンガープリントに供給する。識別結果は、情報単位のブロックを所定の情報エンティティと関連付けを表す。例えば、歌が約6つのブロックに対応する時間長を有すると仮定すると、6つのブロックは、異なるフィンガープリントを提供するが、全これらの6つのブロックは、提供する手段12において、所定の情報エンティティの一部、すなわち上述の歌を通知される。
【0033】
実施例によるが、供給手段12は、1つのフィンガープリントに対し、1つ以上の識別結果を供給する。1つ以上の識別結果を、識別結果から連続するフィンガープリントに対し、少なくとも2つの仮定を立てる手段14に供給する。特に、第1の仮定はブロックのシーケンスと第1の情報エンティティとの関連付けに対する想定を表し、第2の仮定は、ブロックのシーケンスと第2の情報エンティティとの関連付けに対する想定である。様々な仮定H1、H2、...は、仮定を検証する手段16に供給される。手段16を、調整可能な検証アルゴリズムにより動作して、検証結果出力18で最終的に検証結果を提供するために設計される。
【0034】
次に、ライン18のこの検証結果は、情報信号に関するステートメントを生成する手段20に供給される。情報信号に関するステートメントを生成する手段20は、検証結果に基づいて情報信号に関する情報を出力するために設計され、そして、様々な設定を有している。
【0035】
検証結果18に基づいて、情報信号に関するステートメントを生成することは、全設定で共通である。情報信号に関する様々なステートメントの例は、最も見込みのある仮定を有する情報エンティティを表すブロックのシーケンスを確定することにより表される。別のステートメントは、時間的に最後のフィンガープリントとして、最も見込みのある仮定を与えるフィンガープリントで終わっている情報エンティティである。手段20が生成する別のステートメントは、情報エンティティそれ自体が、情報信号内にあるかどうかを判定することにより表される。
【0036】
特に、手段14、16および20により行う本発明の後処理、すなわち少なくとも2つの仮定を立てて、仮定を検証して、検証結果に基づいてステートメントを生成することにより、従って、未知の、すなわち分析される、情報信号における楽曲を特定できるばかりでなく、楽曲自体の特定とは別に、第1の楽曲の終わりの検出、すなわち第1の情報エンティティの終わりを検出して、第1の情報エンティティに続く、第2の情報エンティティの開始を検出することも可能になる。
【0037】
しかしながら、コマーシャル監視について、本発明の後処理概念は、ある情報が情報信号内にあるかどうか、検出する可能性を提供することもできる。ここで、情報信号から取得したフィンガープリントが、1つのフィンガープリントセットだけと比較される。すなわち、所定の情報エンティティを表すフィンガープリントセット、すなわち特定のコマーシャルを表すフィンガープリントセットである。従って、情報エンティティの特定、または情報エンティティの終わりの検出および続く情報エンティティの開始の検出という意味では、このステートメントを第1に考えないが、特定の情報エンティティが、分析する未知の情報信号内にあるかどうか検出することにより表される。
【0038】
図2は、連続するフィンガープリントに対する識別結果を提供する手段12の特別な好適な実施例を示す。好適な実施の形態では、手段12は、データベースを含む。図2に示すように、様々な参照フィンガープリントFArjを、識別結果、すなわちIDkに関連付けて全て格納している。好適な実施の形態では、フィンガープリントFAiが次々に処理される。すなわち、時間に連続して処理される。従ってフィンガープリントFAiは、入力ライン24を介してデータベースに格納される。次に、データベースでは、格納したフィンガープリントFAiが全参照フィンガープリントFArjと比較される。好適な実施の形態では、データベースは、入力フィンガープリントが格納した参照フィンガープリントかどうかを判定する定性的なデータベースではないが、データベースは、出力結果の距離測定値および/または信頼性測定値を生成することができる定量データベースである。図2に示す好適な実施の形態では、従って、データベース22は、例えば、結果表28に示す結果をその出力26で供給する。従って、データベースは、例えば、フィンガープリントFAiが識別結果IDxを示すこと、すなわち例えば、60%の信頼性ZV1を有する楽曲xを示すことを表す。しかしながら、同時に、データベースは、フィンガープリントFAiが、50%の信頼性を有する識別結果IDyを有する楽曲を示していることを表す。最終的に、データベースは、フィンガープリントFAiが、例えば、40%の信頼性測定値ZV3を有する識別IDzのさらに別の楽曲を示していることを出力こともできる。
【0039】
実施例によるが、全結果表28を、図1の少なくとも2つの仮定を立てる手段14に供給することもできる。あるいは、しかしながら、データベース22自体がすでに決定を行い、最も見込みのある値だけを必ず供給することもできる。すなわちこの場合では、結果IDxを、少なくとも2つの仮定を立てる手段14に供給する。この場合は、信頼性測定値ZV1は、必ずしも、少なくとも2つの仮定を立てる手段14に供給しなくても良い。その代わりに、さらに、信頼性測定値ZV1の通信が省かれても良い。あるいは、しかしながら、信頼性測定値も同時に提供する、識別結果を供給手段12が、信頼性測定値ZV1を対応する順序でブロックと関連付けて、少なくとも2つの仮定を立てる手段14ばかりでなく、仮定を検証する手段16にも供給するように設計される。それは、この手段16は、信頼性測定値だけを、例えば、最も見込みのある仮定を求める必要があるからである。
【0040】
ID1等の識別結果は、いくつかの関連付けられたフィンガープリントFAr11、FAr12、FAr13を有し、ID1により特定した楽曲がいくつかのブロックを有していることを示していることが、図2のデータベース22から解る。しかしながら、実施例によるが、識別ID1を有する楽曲の1つの長いフィンガープリントも格納しているけれども、これは、個別のフィンガープリントFAr11、FAr12、FAr13等から構成される。次にデータベースは、長い格納した参照フィンガープリントの一部が、ライン24で供給された参照フィンガープリントFAiと一致するかどうか判定するために、ブロック長に依存し、通常長いフィンガープリントよりもずっと短い、供給されたフィンガープリントFAiにデータベースの各行の長いフィンガープリントと相関をとる。ここで、いわゆる、すなわち単純な相関結果の定量評価値により、自動的に信頼性測定値となる。
【0041】
さらに、図2に基づいて、最後の2つの列についてすでに参照が行われている。識別結果ID108およびID109を示している。図4aで説明するように、ID108は楽曲の長いバージョンを示し、図4bで説明するように、ID109は同じ楽曲の短いバージョンを特定する。
【0042】
すでに述べたように、データベース22、すなわち、連続するフィンガープリントに識別結果を提供する手段12のこの実施例が、最も見込みのある識別結果を常に供給するように設計される。あるいは、しかしながら、データベース22を、例えば、5%の閾値等の最小閾値よりも高い可能性を有する識別結果だけを必ず供給するように構成することもできる。これにより、表の列数は、フィンガープリントとフィンガープリントとの間で異なるようになる。しかしながら、またあるいは、データベース22を、各入力フィンガープリントFAiに対して、“トップテン”等の、特定の数の最も見込みのある候補、すなわち最も見込みのある候補の10個を、少なくとも2つの仮定を立てる手段14に供給するために実施することもできる。
【0043】
次に、図3に基づいて、データベース22の実施例について説明する。データベースは、3つの最も見込みのある識別結果を関連付けられた信頼性値とともに必ず手段14に供給して、仮定を立てる。すなわち、いわゆる、“トップスリー”の実施例を含んでいる。図3は、フィンガープリントFA1に対して、実際には、40%、60%または30%の個別の信頼性測定値の識別結果ID1、ID2、ID3が提供される。時間間隔Δt2に対して、すなわち、フィンガープリントFA2に対して、今度は異なる個別の可能性、すなわち、異なる個別の信頼性測定値を有する識別結果ID1、ID2、ID3を供給する。これは、図3に一例として示されている。この手順は、全入力フィンガープリントFA1〜FA8に対して行われる。図1に示す、少なくとも2つの仮定を立てる手段14が、これらの識別結果に供給される。少なくとも2つの仮定を立てる手段14が、識別結果供給手段12から新規の識別結果に供給された場合はいつも、新規の仮定から開始するために設計される。図3からわかるように、仮定H1、H2、H3は、時間Δt1で、ID1、ID2およびID3からそれぞれ開始され、時間間隔Δt7で、新規の仮定はID108、ID109、ID4から開始され、さらに、仮定H4は、時間間隔Δt8でID8から開始される。それは、ID8はこの例では初めて現れたものであるという事実による。
【0044】
従って、少なくとも2つの仮定を立てる手段14は、各新規のフィンガープリントそれぞれに対して新規の識別結果があるかどうか確認し、新規の仮定を開始して、時間区分Δtiに、その前に開始した仮定に対して“トップスリー”または“トップx”に成分が含まれている場合は、可能性は少ないが、開始したばかりの仮定に識別結果を供給しているが、その前に開始した仮定を継続するようにする。この手順は、特定の時間継続される。次に、例えば、所定の時間で、またはユーザによるトリガなどで、図3に示す場合は、仮定を検証する手段16は、今まで作成した仮定を検証して、例えば、仮定H1、H2、H3の信頼性測定値時間区分Δt1〜Δt6の間に加える。少なくとも2つの仮定を検証する手段16は次に、楽曲が最も見込みのあるID1であると判定する。すなわち、仮定時間区分Δt1〜Δt6の間では、仮定H1が最も見込みがある仮定と判定する。なぜなら信頼性測定値は420の値に達し、第2の仮定は230の信頼性測定値で、第3の仮定は、135の信頼性測定値にしかなっていないからである。
【0045】
図3に図示する場合、3つの仮定はすべて同時に開始して、3つの仮定はすべて同時に終了する。しかしながら、必ずしもこのようにする必要はない。例えば、すなわち、仮定H1を、例えば時間Δt5で早めに終了することもできる。この場合は、ID1の信頼性測定値が90低減されるので、330の値になる。この場合は、それにもかかわらず、仮定H1が最も見込みのある仮定となる。仮定H2はより長い時間区分の間存在するが、全体としては可能性が低い。さらに、図3に示す例では、仮定H2よりもΔt1だけ可能性が低いという事実にもかかわらず、最終的には仮定H1が“獲得”する。
【0046】
さらに、図3は、例えば、伝送チャネルの外乱等の何らかの理由で、ID1ではなく、ID2およびID3だけが、時間間隔Δt4で妥当な可能性のあることにより供給されるというように、仮定に“穴”があることも示している。その場合は、ID1の信頼性が値を60低減される必要がある。これにより、その代わり、420に代わって全信頼性が360になるので、この場合もはやはり、仮定H1が最も見込みのある仮定となる。
【0047】
従って、後処理に基づく仮定を処理し、一方ではシーケンスを考え、他方では個別のフィンガープリント識別の信頼性測定値を処理する本発明の概念は、伝送エラーについて、データベースの問題が多い機能に対しても、または、楽曲、映像画像、テキスト等の、ある情報エンティティにとってはあまり差がないフィンガープリントに対しても、格段に確実に動作することが、上記のシナリオからわかる。
【0048】
好適な実施の形態では、仮定は格納したプロトコル(図3のH1、H2、H3、...)で、好ましくは格納したリスト形式である。一方では仮定を立てる情報エンティティ表示を含み、他方ではフィンガープリントの表示および/または仮定を立てた情報単位のブロックを含む。好ましくは、プロトコルはまた、ブロックおよび/またはフィンガープリントの信頼性測定値を含む。
【0049】
さらに、図3は、第1の情報エンティティが時間区分Δt1〜Δt6に渡っていて、新規のエンティティがΔt7から開始することを示している。これは特に、3つの仮定はすべて同時に終了すること、および/または、仮定H3が、例えば、Δt7を含んでいて、可能性が非常に高い全く異なる識別値を有している場合は、すなわち、ID108およびID109が90および85の可能性を有するので、前の時間区分から、“明らかに可能性があるもの”と“置換”するという事実から解る。
【0050】
図3の終わりには、一例としての様々なステートメントが示されている。すなわち、時間区分Δt1〜Δt6の情報エンティティがID1で特定した楽曲である。あるいは、Δt6とΔt7との間で情報エンティティ変更があったというステートメントとすることもできる。あるいは、しかしながら、ID1で特定した楽曲が情報信号に含まれているというステートメントとすることもできる。
【0051】
次に、はじめに、本発明との関連で、どのように有利に利用できるか、図9および10に基づいて、データベースシステムの概要についてさらに説明する。従って、本発明は、音楽等のオーディオ素材を識別するシステムに基づいている。システムは、2つの動作段階について解っている。図9に基づいて説明するトレーニング段階では、認識システムは、後ほど特定する楽曲を学習する。図10で説明する識別段階では、前に学習したオーディオ楽曲が認識される。
【0052】
楽曲、または任意の他のオーディオ信号についても特定するために、フィンガープリントまたは署名とも呼ぶ、コンパクトで一意のデータセットが抽出される。この抽出は、ブロック特徴抽出900で行われる。トレーニングまたは学習段階では、このようなフィンガープリントが、フィンガープリントデータベース902に格納した周知のオーディオオブジェクトのセットから等生成される。好ましくは、特徴抽出手段900が、SFMの特徴を特徴として用いるように設計する。SFMは、“スペクトル平坦性測定(Spectral Flatness Measure)”を意味する。もちろん、他のフィンガープリント生成システムおよび/または特徴抽出結果を用いることもできる。しかしながら、純音性に関連する特徴と、特にSFMの特徴とは、特に一方では区別性が特に良好で、特に他方では非常にコンパクトであることが解っている。このために、各ブロックははじめに時間/周波数変換に支配され、次に、次の式に基づいて、時間/周波数変換から生成した値を用いて、ブロックごとにSFMを計算する。

【0053】
この式では、X(n)は、インデックスnのスペクトル成分の絶対値の2乗を表している。Nは、スペクトルのスペクトル係数の総数である。式からわかるように、SFM測定値は、スペクトル成分の幾何平均とスペクトル成分の算術平均との商に等しい。幾何平均は常に、算術平均より少ないか、最大でも等しいことが周知であるので、SFMは0から1の範囲の値である。この意味で、0に近い値は、音色信号を示し、1に近い値は、平坦なスペクトル曲線を有するノイズ状信号を示している。X(n)がすべて全く同じで、完全な無調、すなわちノイズ状またはパルス状信号に対応する場合は、算術平均および幾何平均が等しいことに留意されたい。しかしながら、極端な場合において、1つのスペクトル成分だけが非常に高い値を有するが、他のスペクトル成分X(n)は非常に小さな値で、SFM測定値は0に近い値で、まさに音色の信号を示している。
【0054】
SFMの概念とともにフィンガープリントを生成する他の特徴抽出概念については、例えば、国際公開第03/007185号に開示されている。
【0055】
図10に示す識別段階において、通常はトレーニング段階にあるような同じ特徴抽出900がある。特に、時間区分Δtの間にオーディオ入力でオーディオオブジェクトから抽出したフィンガープリントが、比較器904により、フィンガープリントデータベース902の参照フィンガープリントと比較される。図1で説明したように、比較器は通常、識別結果供給手段12に含まれている。次に、特定の基準に基づいて一致を検出した場合において、時間区分Δtの認識結果が得られる。従って、特定の基準に基づいて一致が検出された場合は、未知のオーディオオブジェクトからの未知のフィンガープリントと部分とが、データベースの参照素材、すなわち、様々な信頼性値を有する識別結果IDi、IDi+1、...、のリストと関連付けられていることになる。
【0056】
本発明によれば、これで、入力での未知のオーディオオブジェクトが、参照データベースの参照オーディオオブジェクトの1つ、すなわち、時間Δtだけに正確に関連付けられているばかりでなく、入力でデータストリームの割り込みが発生せずに、連続動作が行える。本発明によれば、参照データベースからの正確なオーディオオブジェクトを伴ったオーディオオブジェクトからの様々な部分は、実行される。従って、切れ目のないシーケンス、すなわち、特定したオーディオオブジェクトプロトコルが入力で得られる。
【0057】
次に、図4aないし図5dに基づいて、連続オーディオデータストリームの連続分析に関する特定の問題が説明される。オーディオオブジェクトを、長さ部分Δtx、すなわち、個別のブロックに分割して、オーディオデータストリーム部分に対して、データベースの参照成分を関連付けできるようにする。オーディオデータストリームの個別の部分のこの関連付けが、前後の関連付けに対して必ずしも明白になるとは限らないし、前後の関連付けに対してだけ明白になるということもあることが考えられる。個別の関連付けを行って、次の段階でこれらを合成する場合は、障害のある認識プロトコルとなる。
【0058】
図4aは、図4aに示す長いフィンガープリントにより示されている、楽曲XYの長いバージョンを示す。識別結果ID108は、このフィンガープリントと関連付けられる。図4bは、同じ楽曲XYの短いバージョンに対するものを示す。従って、ID109は、楽曲XYの短いバージョンを示し、ID108は、この楽曲の長いバージョンを示す。短いバージョンは長いバージョンよりも短いので、図4bのフィンガープリントも、図4aのフィンガープリントよりも短い。2つのブロックを上下に示しているので、楽曲、つまりフィンガープリントID108およびID109は、全く同じオーディオ素材および/または全く同じフィンガープリントデータを含んでいる。従って、ID109は、ID108のサブセットである。従って、図4cは、時間区分Δt0に開始部分がある長いバージョンを示している。これは、短いバージョンには存在しない。t1からt5の間の中央の部分では、長いバージョンと短いバージョンとは全く同じであるが、長いバージョンは、時間5tからt7の間のID109によって特定した短いバージョンにはない音楽部分をやはり有している。
【0059】
次に、図5aないし図5dに基づいて、単純な組み合わせの場合、すなわち仮定を立てることがない場合に、個別のIDを用いて障害のある認識プロトコルがどのように発生するか説明する。楽曲ID108が、時間t0にシステムの入力で受信されると仮定する。さらに、時間区分Δtxに対して図5aの成分を特定するためにデータベースを動作させる。2つのID108およびID109を時間区分Δt1〜Δt4で出力することができるが、図5aにおける識別は基本的に正確であることに留意されたい。最終的に、これらの領域における識別結果の判定が曖昧であるのは、データベースが、外乱のない状態で、2つのID109およびID108を出力して、計算差に基づいて、例えば、最も見込みのある値を必ず選択するので、特定のノイズのために、2つの識別結果ID108またはID109の一方が、いつも若干高い信頼性測定値を有する。従って、図5bの認識プロトコルでは、ID109で特定した楽曲が全く再生されず、ID108で特定した楽曲だけが再生されるという点で、間違った特定が行われる。
【0060】
次に、図5cおよび図5dは、さらに別の例を示す。データベースが、図5cに示す状況を出力すると仮定する。認識プロトコルにおいては、やはり間違った組み合わせが与えられている。すなわち、ID109は、T1およびT5の間に存在したが、もちろん、これが真実ではない。その代わりに、楽曲の長いバージョン、すなわちID108が、t0〜t7に再生された場合である。
【0061】
また、別の間違った認識プロトコルが考えられる。時間区分Δtxのオーディオデータストリーム部分に対する個別の認識の曖昧さにより、これが生成される。
【0062】
本発明によれば、図6に示す全体的な概念を説明する。実施例によるが、手段900、904、902をまとめて、時間区分Δtxに対して得た認識結果、すなわち、図1の手段12の出力信号に対して得た認識結果に対して、図1の少なくとも2つの仮定を立てる手段と、仮定を検証する手段とに基本的に対応する後処理を行う。次に、後処理を用いて、すなわち、後処理で得た検証結果を用いて、認識シーケンスおよび/または認識プロトコルの形式において、情報信号に関するステートメントが生成される。
【0063】
後処理段では、時間区分Δtxに対して特定した参照オーディオオブジェクトから、時間区分Δtx+iに対する任意の他の参照オーディオオブジェクトへの遷移の可能性が等しいと仮定する。この仮定から、はじめは並行であると考えられる様々な仮定が、個別の認識から隣接するオーディオ部分に対して立てられる。個別の認識があるものと同じ参照オーディオ信号に関連していて、時間的に連続して接続している場合には、仮定を立てるために個別の認識を合成されることに留意されたい。認識プロトコルは、時間的な進行を考慮する、個別の最も見込みのある仮定の組み合わせから生じる。次に、好適なアルゴリズムについて詳細に説明する。
【0064】
はじめに、認識した参照オーディオオブジェクトそれぞれに対して、時間区分Δtxに対する個別の認識から(x=N、N+1、N+2、...、tNは、個別の仮定に対する開始時間である)、隣接するオーディオ部分に対する様々な仮定が立てられる。
【0065】
個別の認識が時間的に連続する場合は、仮定を立てるために、個別の認識が合成される。
【0066】
時間連続性は、既存の仮定を継続するのかどうか、または新規の仮定を開始するのかどうかを判定する別の要素である。例えば、楽曲のあるギターのソロ演奏が、例えば、楽曲の短いバージョンのはじめの方に位置し、楽曲の長いバージョンでは中程に位置するというシナリオについて考える。
【0067】
好適な実施の形態では、データベース、すなわち、識別結果を提供する手段が、フィンガープリント識別ばかりでなく、長さと、データベースの(長い)フィンガープリントの一部と一致する入力(短い)フィンガープリントとを有するデータベースの識別フィンガープリントから得た時間値も出力する。
【0068】
上記のシナリオでは、データベースが、ギターのソロ演奏(短いバージョンおよび長いバージョン)に対して、2つの異なる時間インデックスを有する2つのID結果を提供することになる。短いバージョンのID結果の時間インデックスは、長いバージョンの時間インデックスよりも短い。時間インデックスに基づいて、仮定を立てる手段は、(仮定において、時間インデックスと最後の時間インデックスとの間に時間連続性がある場合は、)、仮定を継続することができ、あるいは現在得た時間指数と仮定の最後の時間インデックスとに連続性がない場合は、新規の仮定を開始することができる。
【0069】
次の成分が、設定する時間距離Taよりも時間的に長い距離を有する場合は、または次の成分が時間的に前のものである場合は、参照オーディオオブジェクトに対する各時間の非連続性により、新規の仮定を立てる。
【0070】
仮定を検証するために、確信測定値の加算、すなわち、個別の認識の信頼性値および/または妥当性の測定値を、各仮定に対して立てる。
【0071】
次に、時間区分Δt0で開始する、最も高い確信測定値を有する仮定が正しいかどうか評価され、認識プロトコルに採用される。第1の仮定に続く次の時間区分に対して、最も高い確信測定値を有する仮定が正しいかどうかもう一度評価され、認識プロトコル等に採用される。
【0072】
従って、上記の例に対し、結果は、図7aないし図7cに基づいて示す処理となる。時間区分Δt0に対して、例えば、図2に示すデータベースでは、1つの識別結果、すなわち、閾値を超える可能性および/または信頼性測定値を有するID108だけを提供する。時間間隔Δt1においては、すなわち、時間間隔Δt1に渡る情報単位のブロックに対して、データベースは、閾値を超える信頼性測定値を有する2つの結果を提供する。時間t2から時間t5の間のブロックに対しては、2つの結果が得られる。時間区分t5からt7に対しては、データベースは次に、やはり閾値を超える信頼性測定値有する1つの識別結果だけを提供する。
【0073】
少なくとも2つの仮定を立てる手段14(図1)を、識別結果ID108に基づいて、時間t0で第1の仮定を開始して、新規の識別結果ID109に基づいて、時間t1で新規の仮定、すなわち仮定H2を開始するように設計する。
【0074】
次に、時間t7の後の時間では、個別の認識の確信測定値に対して関数を計算するために、次に、仮定H1およびH2を有する図7aに示す仮定状況が考えられる。すなわち、各仮定について、xH1およびxH2に対して計算する。仮定の検証に基づいて、図7bに示すように行う。
【0075】
t1からt5の間で、識別結果ID108およびID109が同じ可能性で発生すると仮定すると、図7aに示す実施の形態では、第1の仮定H1だけが得られる。なぜなら、これは、仮定は、t1とt5との間の仮定H2と同じ可能性があるが、仮定H1は、時間区分Δt0と、時間区分Δt5と時間区分Δt6に適用するからである。すなわち、仮定H2には与えられない個別の認識に対する信頼性測定値を提供することになるからである。認識プロトコルには、このことは、図7cに示す正確な場合、すなわち、ID108で指定される楽曲が、時間t0から時間t7まで再生されたことを意味する。
【0076】
従って、t0から開始し、仮定H1が選択される。なぜなら、t7まで、確信測定値を超える仮定がないからである。仮定H2は捨てられる。原則として、最も見込みのあるものとして選択した別の仮定と並行して存在する仮定を全て捨てることができる。
【0077】
従って、本発明によれば、オーディオ入力で実際に再生したシーケンス、この例での成分、すなわち、ID108を、正確に記録する。
【0078】
仮定の終了を判定するための様々な可能性があることに留意されたい。例えば、仮定状況とは無関係に、例えば、ある最小の長さの一時停止がある場合は、例えば、オーディオ信号自体から、情報エンティティの終わりを判定することもできる。しかしながら、2つの情報エンティティの間にフェーディングがあったり、2つの楽曲が短時間で続いているので認識可能な一時停止を見つけられなかったりする場合は、この基準はうまく働かない。これは、以前に立てた仮定に基づいて、情報エンティティの終わりを判定する好適な例である。例えば、ある最小閾値を超える信頼性値をまったく持たない2つ以上のブロックを手段14に供給して、仮定を立てる場合に、仮定は終了すると考えるように、このことを行うこともできる。あるいは、例えば、図3に示す場合では、あるブロックの終わりで、最も高い値を有する仮定があるかどうか確認するために、すなわち、ある数、例えば、20ブロック過ぎて、仮定が残っていて、他の仮定より“引けをとっている”かどうか、確認するために、過去に向かうある時間で、仮定の値を所定の数のブロックに加算するために単に開始される。図3に示す例では、このことは、情報エンティティがID1またはID2またはID3である仮定を、時間区分Δt7およびΔt8で連続することを意味している。しかしながら、これが、ID1の認識を何ら変更するものではないのは、新規の仮定、すなわち、ID108、ID109、ID4およびID8の仮定が、基本的に後から開始するからで、すなわち、Δt7およびΔt8それ以降のブロックに対して開始するので、もっと後でこのような高い合成信頼性値をとるか、あるいはとらないことになる。
【0079】
上述の説明から、仮定の終了は、必ずしも能動的に判定する必要がないことが解る。しかし、この終了を過去の分析から、すなわち開始した仮定から、自動的に得ても良い。好ましくは、有意の閾値を超える信頼性測定値を有する新規の識別結果が得られた場合はいつも、新規の仮定が開始される。次に、ある時間区分の間に仮定が残っているかどうか確認するために、ある時間からさかのぼって検証が行われる。このために、仮定の終了を明示的に判定する必要がないのは、自動に結果が出るからである。
【0080】
条件によるが、本発明の方法を、ハードウェアまたはソフトウェアで実施することができる。本発明の方法を実行するプログラム可能コンピュータシステムと協働する、デジタル記憶媒体、特に、電気的に読み取り可能な制御信号を格納したフロッピー(登録商標)ディスクまたはCDを用いることにより、実施することができる。一般に、本発明は、機械読み取り可能キャリアに格納したプログラムコードを有するコンピュータプログラム製品である。コンピュータプログラム製品をコンピュータ上で実行する場合は、プログラムコードにより本発明の方法を実行する。換言すれば、従って、本発明の方法は、コンピュータプログラムをコンピュータ上で実行する場合は、少なくとも1つの本発明の方法を実行するプログラムコードを有するコンピュータプログラムである。
【図面の簡単な説明】
【0081】
【図1】本発明の装置のブロック回路図である。
【図2】図1に示す実施の形態に使用可能なデータベースのブロック回路図である。
【図3】連続する時間間隔と、関連付けられた仮定とに対するフィンガープリントシーケンスの出力結果を概略表現で示す。
【図4】図4aないし図4cは、次の適用例の一例のシナリオを示す。
【図5】図5aないし図5dは、様々な間違った評価を概略で示す。
【図6】本発明の好適な実施の形態のブロック回路図である。
【図7】図7aないし図7cは、図4aないし図4cに示す出力シナリオに対する本発明の概念の機能を示す。
【図8】複数のブロックの情報単位、情報単位ブロックおよび情報エンティティを有する情報信号を概略で示す。
【図9】フィンガープリントデータベースを蓄積する周知のシナリオである。
【図10】図9に基づいてロードしたフィンガープリントデータベースにより、オーディオ識別を行う周知のシナリオである。

【特許請求の範囲】
【請求項1】
情報単位のブロック(804)のシーケンス(802)を有する情報信号を分析する装置であって、前記ブロックのシーケンスの複数の連続ブロックが情報エンティティ(806)を表し、前記ブロックのシーケンスにフィンガープリントシーケンス(FAi)を用いて、前記ブロックのシーケンスが前記フィンガープリントシーケンスにより表されるようにする装置で、
識別結果は、情報単位のブロックと所定の情報エンティティとの関連付けを表し、各識別結果に対する信頼性測定値があり、第1のフィンガープリントに対して第1の識別結果を生成して、次のブロックに対して、前記第1の識別結果と異なる第2の識別結果を生成するように設計された、識別結果(IDi)を連続するフィンガープリントに供給する手段(12)と、
第1の仮定は、前記ブロックのシーケンスを第1の情報エンティティに関連付けた想定で、第2の仮定は、前記ブロックのシーケンスを第2の情報エンティティに関連付けた想定で、前記第1の仮定を開始し、または前記第1の識別結果に応答して前記既存の第1の仮定を続け、前記第2の仮定を開始し、または前記第2の識別結果に応答して、前記既存の第2の仮定を継続するように設計された、前記連続するフィンガープリントに対して、前記識別結果から少なくとも2つの仮定を立てる手段(14)と、
前記仮定の前記信頼性測定値を合成することにより、検証結果(18)を得るために、前記少なくとも2つの仮定を検証する手段(16)と、
前記検証結果に基づいて、前記情報信号に関するステートメントを生成する手段(20)とを備える装置。
【請求項2】
前記検証手段(16)を、前記仮定に当てはめる可能性情報に対して、前記仮定を検証するように設計する、請求項1に記載の装置。
【請求項3】
ステートメント生成する前記手段(20)が、前記ブロックのシーケンスが最も見込みのある仮定を有する情報エンティティを表しているか、または、情報エンティティが、時間的に最後のものとしての前記最も見込みのある仮定を与える前記フィンガープリントで終わっているか、または、前記情報信号に情報エンティティが存在するかしないか、を判定するように設計される、請求項1または請求項2に記載の装置。
【請求項4】
前記提供手段(12)は、1つのフィンガープリントに対して2つの異なる識別結果を生成するように設計される、請求項1ないし請求項3のいずれかに記載の装置。
【請求項5】
前記提供手段(12)は、前記2つの異なる識別結果のそれぞれに対して信頼性測定値を生成するように設計される、請求項4に記載の装置。
【請求項6】
前記仮定を立てる手段(14)は、前記2つの識別結果のうちの第1の識別結果を前記第1の仮定と関連付けて、前記2つの識別結果のうちの第2の識別結果を前記第2の仮定と関連付けるように設計される、請求項4または請求項5に記載の装置。
【請求項7】
前記検証手段(16)は、より高い合成信頼性測定値を有する前記仮定を求めるように設計される、請求項3ないし請求項6のいずれかに記載の装置。
【請求項8】
前記仮定を立てる手段(14)は、所定の数のブロックが、前記第1の情報エンティティを示す識別結果、前記第2の情報エンティティを示す識別結果のいずれも得られない場合には、前記第1の仮定または第2の仮定を終了するように設計される、請求項1ないし請求項7のいずれかに記載の装置。
【請求項9】
前記仮定を立てる手段(14)は、前記情報信号において検出したイベントが発生した場合は、前記第1の仮定または第2の仮定を終了するように設計される、請求項1ないし請求項8のいずれかに記載の装置。
【請求項10】
イベント検出器が備えられ、前記イベントとして閾値レベルを下回る情報単位のブロック内のエネルギレベルを検出する、請求項9に記載の装置。
【請求項11】
前記提供手段(12)は、各フィンガープリントに対して、信頼性測定値を有する前記最も信頼できる識別結果、または信頼性測定値を持たない前記最も信頼できる識別結果だけを出力し、それぞれ信頼性測定値を有するフィンガープリント、または信頼性測定値を持たないフィンガープリントである、所定の数の最も信頼できるフィンガープリントを出力し、あるいは、フィンガープリントに対して、信頼性測定値を有する前記識別結果、または信頼性測定値を持たない前記識別結果である、閾値を超える信頼性測定値を有する前記識別結果だけを出力するように設計される、請求項1ないし請求項10のいずれかに記載の装置。
【請求項12】
前記検証手段(16)は、合成信頼性測定値を得るために仮定に属する明確なまたは潜在する信頼性測定値を加算するように設計される、請求項1ないし請求項11のいずれかに記載の装置。
【請求項13】
前記提供手段(12)は、
データベースの検索を行って、参照情報エンティティのフィンガープリントが格納され、
各識別結果に対する信頼性測定値の表示として、各識別結果に対する多数の識別結果および距離測定値を供給するように設計される、請求項1ないし請求項12のいずれかに記載の装置。
【請求項14】
前記識別結果に対する距離測定値が閾値距離よりも短い距離を示す閾値と関係を有する場合は、前記提供手段(12)は、仮定がまだ立てられていない各識別結果に対して新規の仮定を開始するように設計される、請求項13に記載の装置。
【請求項15】
前記検証手段(16)は、判定に応答して、前記最も見込みのある仮定を立てられる前記フィンガープリントに対して立てた、前記連続するフィンガープリントに対する全仮定を終了するように設計される、請求項1ないし請求項14のいずれかに記載の装置。
【請求項16】
前記情報信号がオーディオ信号を含み、前記情報単位が前記時間または周波数領域内のオーディオサンプルで、情報エンティティが楽曲、オーディオシーケンスまたはノイズ部分を含む、請求項1ないし請求項15のいずれかに記載の装置。
【請求項17】
ブロックに対するフィンガープリントは、時間/周波数変換により、および/または前記時間/周波数変換の結果に対するスペクトル平坦性測定値の計算により求められる、請求項1ないし請求項16のいずれかに記載の装置。
【請求項18】
フィンガープリントが、前記ブロックのデータ量よりも小さいデータ量を有するように、ブロックに対する前記フィンガープリントが生成される、請求項1ないし請求項17のいずれかに記載の装置。
【請求項19】
前記提供手段(12)は、識別結果の他に、前記識別結果に対する新規の時間インデックスも提供するように識別結果が設計され、
前記仮定を立てる手段(14)を、前記仮定の最新の時間インデックスと前記新規の時間インデックスとの間に連続性がある場合は仮定を継続して、または、連続性がない場合は仮定を開始するように設計される、請求項1ないし請求項18のいずれかに記載の装置。
【請求項20】
情報単位のブロック(804)のシーケンス(802)を有する情報信号を分析する方法であって、前記ブロックのシーケンスの複数の連続ブロックが情報エンティティ(806)を表し、前記ブロックのシーケンスにフィンガープリントシーケンス(FAi)を用いて前記ブロックのシーケンスが前記フィンガープリントシーケンスにより表されるようにする方法で、
識別結果は、情報単位のブロックと所定の情報エンティティとの関連付けを表し、各識別結果に対する信頼性測定値があり、第1のフィンガープリントに対して第1の識別結果を生成して、次のブロックに対して、前記第1の識別結果と異なる第2の識別結果を生成する、識別結果(IDi)を連続するフィンガープリントに供給する(12)ステップと、
第1の仮定は、前記ブロックのシーケンスを第1の情報エンティティに関連付けた想定で、第2の仮定は、前記ブロックのシーケンスを第2の情報エンティティに関連付けた想定で、
前記第1の仮定を開始し、または前記第1の識別結果に応答して前記既存の第1の仮定を続け、前記第2の仮定を開始し、または前記第2の識別結果に応答して、前記既存の第2の仮定を継続するステップを含む、前記連続するフィンガープリントに対して、前記識別結果から少なくとも2つの仮定を立てるステップ(14)と、
前記仮定の前記信頼性測定値を合成することにより、前記少なくとも2つの仮定を検証して、検証結果(18)を得るステップ(16)と、
前記検証結果に基づいて、前記情報信号に関するステートメントを生成するステップ(20)とを含む方法。
【請求項21】
コンピュータ上で動作する場合は、請求項20に記載の方法を実施する機械読み取り可能命令を有するコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2007−536588(P2007−536588A)
【公表日】平成19年12月13日(2007.12.13)
【国際特許分類】
【出願番号】特願2007−512056(P2007−512056)
【出願日】平成17年5月9日(2005.5.9)
【国際出願番号】PCT/EP2005/005004
【国際公開番号】WO2005/111998
【国際公開日】平成17年11月24日(2005.11.24)
【出願人】(506377020)エムツーエニー ゲゼルシャフト ミット ベシュレンクター ハフトゥング (2)
【氏名又は名称原語表記】m2any GmbH
【Fターム(参考)】