説明

サーチ可能なマルチメディア・ストリーム

【課題】 アーカイブされたカンファレンス又はプレゼンテーション・データを、アーカイブサーバに記憶した後、サーチ可能にする方法とシステムを提供する。
【解決手段】 本発明によれば、H.323又はSIPに従って符号化されたメディア・ストリームを変換エンジンの送り、マルティメヂア・コンテンツを標準のストリーミング・フォーマットに変換する。これはファイルのクラスタで、それぞれ、ある媒体(オーディオ、ビデオ、データ)と/又は構造ファイル(様々なメディアを合成し関連づける)を表す。変換が行われると、構造ファイルは、コピーされ、後処理サーバに送られる。後処理サーバーは、音声認識エンジンを搭載し、オーディオ・ファイル内の認識された全てのワードを表す英数字のテキスト・ファイルを生成する。このテキストファイルは、その後、各認識されたワードを構造ファイル内のタイミング・タグに関連づけるファイルのクラスタに入れられる。この後処理の後、メディア・ストリーム内のキーワードと関連する時間ポイントは、従来のサーチエンジンで容易に見つけ出すことができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオ・カンファレンスとストリーミング/アーカイビング・システムに関する。
【背景技術】
【0002】
同じ場所にいない者が参加できるようなミーティングを持つために、いくつかの技術的システムが採用されている。これらのシステムは、ビデオ会議、ウェブ会議、またはオーディオ会議を含む。
【0003】
実際のミーティングの最も現実的な仮想ミーティングは、高級なビデオ・カンファレンス・システムである。従来のビデオ・カンファレンス・システムは、複数のエンド・ポイントを通信する実時間ビデオと、WAN、LANを介したオーディオと/またはデータ・ストリームと/または回路切り換えネットワークとを含む。エンド・ポイントは、モニタと、カメラと、マイクロフォンと、データ取得装置と、コーデックとを含む。このコーデックは、送受信されるデータ・ストリームを符号化/復号化する。さらに、中央化ソース(マルチポイント制御ユニット(Multipoint Control Unit (MCU))とも称する)が、複数のエンド・ポイントをリンクするのに必要である。このMCUは、このようなリンク付けを、エンド・ポイント端末からポイント・トゥ・ポイント接続を介して、マルチメディア信号(オーディオ、ビデオと/またはデータ)を受信し、この受信した信号を処理し、この処理された信号を会議内の所定のエンド・ポイント端末に送信することにより、行う。
【0004】
ビデオ・カンファレンス・システムを用いることにより、パワー・ポイント・プレゼンテーションあるいは他のPCプレゼンテーションが行われ、他の参加者の全てがそれを見たり聞いたりすることができる。
【0005】
マルチメディア・コンテンツをプレゼンテーションする別の一般的な方法は、データをウェブ・インターフェースを介して、コンピュータにストリーミングすることである。このデータ・ストリームは、リアルタイムで送信されるか、あるいはアーカイブされたコンテンツを分配装置を介して再生する。従来のデータをストリーミングすることは、データの貯蔵と分配に適したものであり、それ故に、マルチメディア・コンテンツは、ビデオ・カンファレンス以外の他のフォーマットで表示される。そして、従来のビデオ・カンファレンスを、ストリーミングしアーカイビングするために、マルチメディア・データを変換するシステムが必要である。このようなシステムの一例を以下説明する。
【0006】
データ分配装置は、(1)コンピュータ・ネットワークにデータ分配装置を接続するネットワーク・インターフェースと、(2)カンファレンス・コンテンツを受信するためのオーディオ/ビデオと、プレゼンテーション・データ・インターフェースと、(3)このプレゼンテーション・コンテンツを分配用の標準イメージ・フォーマットに変換するファイル変換エンジンと、(4)カンファレンス・コンテンツを分配用にストリーミング・フォーマットに符号化するストリーム・エンコーダとを有する。さらにデータ分配装置は、更に(5)符号化されたオーディオ/ビデオ・コンテンツを送信するストリーム・サーバと、(6)ウェブ・ページと変換されたプレゼンテーション・コンテンツをネットワークのノードにある端末に送信するウェブ・サーバとを有する。このデータ分配装置は、アーカイブ・ファイルを創設する。このアーカイブ・ファイルは、ローカルな記憶媒体にある、あるいはサーバ/データベースにある符号化されたデータ・ストリームからなり、これにより、符号化されたストリーム・データを、オン・ディマンドで、遠隔の端末にいる要求者に、コンピュータ・ネットワークを介して分配する。
【0007】
一般的な操作モードによれば、ビデオ・カンファレンスは、データ分配装置をビデオ・カンファレンスの参加者として含めることにより開始される。遠隔端末にいる目視(参加)者は、ビデオ・カンファレンスにアクセスすることができるが、これは従来のウェブ・ブラウザをこのビデオ・カンファレンスに関連したURL(Uniform Resource Locator)に向けることにより行われる。目視(参加)者とデータ分配装置との間のデータ交換の有効化が完了すると、目視参加者は、個人的なやりとり(即ち、ビデオ・カンファレンスのプレゼンター・サイトにおり参加者同士の間で行われる会話あるいはそれに関連する動作)を見ることができ、またビデオ・カンファレンス・サイトでプレゼンテーションされているプレゼンテーション・コンテンツも見ることができる。マルチメディア・コンテンツは、目視参加者のウェブ・ブラウザを通したマルチプル・ウインドウ・ユーザ・インターフェースで見ることができる。オーディオ/ビデオ・コンテンツは、ストリーミング・メディア・プレイヤーで表示され、プレゼンテーション・コンテンツは、別個のウインドウで表示される。ビデオ・カンファレンスのヘッドあるいはビデオ・カンファレンスのマネージメント・システムにより要求された時には、符号化されたストリーム・データが、識別可能なファイルとしてサーバ内に記憶される。
ストリーミング技術とカンファレンス技術を組み合わせることにより、ミーティングやプレゼンテーションやレクチャーや会話や情報分配の他の形態を、記憶し文書化する新たな可能性が生まれた。しかし、この可能性も、アーカイブされたストリーム・データのコンテンツ内をサーチできない場合には、その価値も限られたものである。アーカイブされたストリーム・データ内のサーチを可能にする唯一公知の方法は、登録されたファイルにメタデータ(データについての情報を記述したデータ)を手動で関連付けることである。しかし、これには大量の手作業が必要であり、メタデータがデータ・ストリームに正確に対応していることを保証できない。
【発明の開示】
【発明が解決しようとする課題】
【0008】
本発明の目的は、上記の従来技術の問題点を解決するシステムと方法を提供することである。
【課題を解決するための手段】
【0009】
本発明の方法は、ストリーミングしアーカイビングするシステムで使用され、マルチメディア・ストリームをサーチ可能にするために、従来のカンファレンス・フォーマットで符号化されたデータ・ストリームから変換されたマルチメディア・ストリームを後処理する方法であって、
(A) H.323/SIPに適合する変換エンジン内で、H.323又はSIPで符号化されたデータ・ストリームを受信したか否かを監視するステップと、
受信した場合には、
(B) 従来のカンファレンス・フォーマットで符号化されたデータ・ストリームを、所定のマルチメディア・ストリーミング・フォーマットのマルチメディア・ストリームに変換するステップと、
前記マルチメディア・ストリームは、マルチメディア・ストリームのそれぞれのフラグメントに関連したタイミング情報を有し、
(C) 前記マルチメディア・ストリームのオーディオ部分からのサウンドのフラグメントを音声認識エンジンで解析するステップと、
前記ステップ(C)は、次の(C1)と(C2)のサブステップで行われ、
(C1) サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルを生成するステップと、
(C2) 前記サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルと、データベース内に登録された既知のワードの発音の参照モデルまたは音素の参照モデルと比較するステップと、
(D) タイミング情報を、前記音声認識エンジンが、前記データベース内の既知のワードの発音の参照モデルと一致すると見出されたモデルのフラグメントまたはフラグメントのシーケンスを参照して割り当て、前記タイミング情報とテキストファイル内のワードとを関連付けて記憶するステップと
を有する。
【実施例】
【0010】
ビデオ・カンファレンスが目に見える場合でさえも、ビデオ・カンファレンスにおける明確な情報は、参加者間で交わされる言語表現で与えられる。ビデオ・カンファレンスの聴覚部分は、それ故にサーチする最も十分な媒体である。
【0011】
本発明は、アーカイブ・サーバ内に登録した後、アーカイブされたカンファレンスあるいはプレゼンテーションをサーチ可能な状態にするシステムと方法を提供する。本発明によれば、H.232即ちSIPにより符号化されたメディア・ストリームが変換エンジンに伝送される。この変換エンジンは、マルチメディア・コンテンツを標準のストリーミング・フォーマットに変換する。この標準のストリーミングのフォーマットは、ファイルのクラスター(群)である。各ファイルは、ある種の媒体(オーディオ、ビデオ、データ)と/または異なる媒体を合成するあるいは関連付けるような構造ファイルを表す。変換が行われると、構造ファイルはコピーされ、後処理用サーバに転送される。この後処理用サーバは、例えば音声認識エンジンを有する。この音声認識エンジンが、オーディオ・ファイル内で認識された全てのワードを表す英数字のテキスト・ファイルを作成する。その後、このテキスト・ファイルをファイルのクラスターに入れる。各ファイルは、各特定されたワードを構造ファイル内のタイミング・タグに関連付けられる。この後処理の後、メディア・ストリーム内のキーワードとの時間の関連ポイントを見つけ出すことが、従来のサーチエンジンにより容易に実行できる。
【0012】
上記の構造フィアイルの一例が特許文献1に開示されている。この特許文献1は、複数のメディア・ストリームの蓄積と伝送を行うアクティブ・ストリーム・フォーマット(Active Stream Format (ASF))を規定する。このASFフォーマットの全体を図2に示す。
【特許文献1】米国特許第6041345号明細書
【0013】
本発明を実施するためには、音声認識エンジン内で使用される頑強且つ効果的な音声認識方法が、必要である。音声認識とは、最も単純な定義では、話し言葉すなわち音声を認識し、この音声をテキストに変換し、このテキストをその後ワード・プロセッサあるいは他のアプリケーションで使用する、あるいはオペレーティング・システムのコマンド・インタープリターに転送するプロセスである。この認識プロセスは、デジタル化されたオーディオ・データを意味のあるセグメントに解剖することからなる。その後、このセグメントを、公知の音素のデータベースにマッピングし、この音素シーケンスをワードの既知のボキャブラリあるいは辞書に対してマッピングする。
【0014】
音声認識においては、隠れマルコフ・モデル(HMM)がしばしば用いられる。HMM音声認識システムが構築されると、認識可能なボキャブラリの中の各ワードは、そのワードの発音に類似する一連のサウンドとしてあるいはスピーチのフラグメントとして規定される。スピーチの各フラグメントに対するマルコフ・モデルが創設される。各サウンドに対するマルコフ・モデルは、その後連結されて(concatenated)、ボキャブラリ内のワードの音響的定義を表す一連のマルコフ・モデルを形成する。
例えば図1に示すように、ワード「TEN」に対する音素ワード100は、3個の音素マルコフ・モデル101−103のシーケンスとして示される。音素マルコフ・モデルの1つは、2個の遷移アーク101A、101Bを有する音素「T」(101)を表す。2番目の音素マルコフ・モデルは、音素「EH」を表す。これは、遷移アーク102A、102Bを有するモデル102として示される。3番目の音素マルコフ・モデル103は、遷移アーク103A、103Bを有する音素「N」を表す。
【0015】
図1に示す3個のマルコフ・モデルは、それぞれ開始状態と終了状態とを有する。「T」モデル101は、状態104で始まり、状態105で終了する。「EH」モデル102は、状態105で始まり、状態106で終わる。「N」モデル103は、状態106で始まり、状態107で終了する。図示していないが、各モデルは、実際にはそれぞれの開始状態と終了状態の間の状態を、状態104と105を結合するアーク101Aのように、有する。複数のアークが伸びて、複数の状態を結合する。認識プロセスの間、発音(utterance)は、一連の音素マルコフ・モデルと比較される。これは、最左の状態(例えば、状態104)からスタートして、矢印に従って中間状態を通り、最右の状態(状態107)に進む。そこで、モデル100は、公知の方法で終了する。最左の状態104から最右の状態107への移行時間は、ワードの長さを反映する。それ故に、最左の状態104から最右の状態107へ移るために、時間は、「T」状態と「EH」状態と「N」状態で消費されて、その結果、発音がワード「TEN」となる。かくして、ワードに対する隠れマルコフ・モデルは、ワードの発音の間形成された様々なサウンドに対応する一連のモデルに含まれる。
【0016】
図1に記載したように、マルコフ・モデルを構築するために、発音辞書を用いて、要素素音(component sound)を示す。様々な発音辞書がありそれらが使用される。これらの発音辞書の情報源は音声学者である。辞書内に示されたワードに帰属する要素音は、音声学者の経験とセンスに依存する。
【0017】
音声認識を実行する他の方法がある。例えば、自然ネットワークのみを使用するあるいはマルコフ・モデル・モデルと自然ネットワークとの組み合わせを使用する。これが本発明で使用される。
【0018】
本発明によれば、各認識されたワードは、タイミング・タグと連続的に関連付けられる。このタイミング・タグは、オーディオ・ファイル内のある場所を参照させる。例えば、図2に示される上記のASFフォーマットは、Data Section211内にメディア・サンプルを記憶する。このデータ・セクション211に関連して、複数の時間表示と同期化データが存在する。ASFストリームは、例えばmarker_object206を有する。このmarker_object206は、Data Section211内の特定の時間に対するポインタを保持する。marker_object206により、ユーザは、marker_object206内で保持されたマーカにより示される特定のデータ・ポインタ(例、オーディオ・トラック)に、前後に素早くジャンプできる。
【0019】
図3Aは、marker_object206の詳細を示す。marker_object206は、object_id フィールド301を有する。このobject_id フィールド301は、ユニバーサル・ユニーク・アイデンディファイア(Universal Unique Identifier (UUID))を保持する。size フィールド302は、marker_object206のサイズをバイト形式で指定する。marker_id フィールド303は、マーカ・データ・ストラテジーを同定するUUIDを含む。num_entries フィールド304は、marker_object206内のマーカー・エントリーの数を指定する。entry_alignment フィールド305は、マーカー・データのバイト整合を同定する。name_len フィールド306は、name フィールド307内に保持されるユニコード(Unicode)キャラクタの数を指定する。このユニコード・キャラクタは、marker_object206の名前を保持する。marker_data フィールド308は、テーブル内にマーカーを保持する。各マーカーは、テーブル内で関連するエントリーを有する。
【0020】
図3Bは、marker_entry309のフォーマットを示す。例えば、これらはmarker_data フィールド308に見られる。offset_フィールド310は、data_object212内のパケットのスタートからバイト表示のオフセット量を保持する。このdata_object212は、marker_entry309の位置を示す。timeフィールド311は、marker_entry309に対するタイム・スタンプを指定する。entry_len フィールド312は、entry_data フィールド313のサイズを指定する。このentry_data フィールド313は、マーカー・エントリー用のデータを保持するアレイである。
【0021】
本発明の一実施例においては、マルコフ・モデルにより解析されるべきサウンドのフラグメントのスタートに関連付けられたtimeフィールド311と/またはoffsetフィールド310は、一時記憶装置内に記憶される。ワードがサウンドのフラグメント内で、音声認識エンジンにより認識された場合には、timeフィールド311と/またはoffsetフィールド310は、認識されたワードのタイミング・タグとして規定され、認識されたワードのテキスト・ファイル内のワードに関連付けられて一緒に記憶される。別の構成として、タイミング・タグは、ASF構造内の他のフィールドの一部を含む。このタイミング・タグは、データのタイミング情報を表す。本発明の他の実施例においては、認識されたワードのサウンド・フラグメントの終了点を表すタイミング情報は、ワードに関連付けられ、その後、一時記憶の必要性を制限することもできる。
【0022】
図4のフローチャートに基づいて本発明の実施例を説明する。変換エンジン(従来のH.323/SIPエンド・ポイントと同様にH.323/SIPコールを受信できる)がH.323/SIPコール(呼び)を受信したか否かを監視する。受信した場合には、変換エンジンは、受信した符号化H.323/SIPデータを上記のASFフォーマットに、従来公知のトランスコーディング技術を用いて、変換を開始する。このコールが終了する時、あるいは記録の中止のリクエストを受領した時に、ASFストリームは、アーカイブ・サーバ内に記憶される。実際に、このASFストリームは、マルチメディア・データが変換されながら、連続的に記憶される。
【0023】
その後、音声認識が要求されると、ASFストリームが、後処理サーバにコピーされる。この後処理サーバは、データを解剖して、上記のマルコフ・モデルに従って、音声のフラグメントを解析する。音声フラグメントのマルコフ・モデルと発音辞書の特定のワードまたはキャラクタのマルコフ・モデルとの間に一致が見出されると、特定のワードまたはキャラクタが、タイミング・タグと共にテキスト・ファイル内に記憶される。このタイミング・タグは、例えばmarker_object206から得られる。このmarker_object206は、ASDストリーム内のサウンド・フラグメントに関連付けられたデータの時間位置を表す。このASFストリームからワードまたはキャラクタが認識される。ASFフォーマットのマルチメディア同期特徴は、オーディオ・コンテンツのタイミング・タグは、ASFストリーム内のビデオ・コンテンツの対応する時間位置に対するタイミング・タグを表す。
【0024】
全てのオーディオ・コンテンツが認識可能なワードを得るために、解剖されると、テキスト・ファイルは、タイミング・タグにそれぞれ関連付けられた複数のワードとキャラクタを含む。このファイルは、アーカイブ・サーバ内に、対応する記憶されたASFストリームと関連付けられて、記憶される。
【0025】
変換されたマルチメディア・ビデオ・カンファレンスで認識されたワードのテキスト・ファイル、あるいは関連したタイミング・タグを有する呼びが記憶されると、呼び/ビデオ・カンファレンスは、その後キーワードによりサーチ可能となり、ヒットが、マルチメディア・ストリーム内のある時間に接続される。
【0026】
この使用例の一実施例では、ユーザに、プレーン・テキストをサーチする従来のサーチエンジンとは異なるサーチエンジンが具備される。ユーザには、記憶され変換された呼び/ビデオ・カンファレンス内で、サーチの選択権が与えられる。このサーチの結果は、会議名、会議時間のような情報とのヒットのリストとして現れる。更に、ユーザは、ビデオ・カンファレンス内の時間からメディア・ストリームを再生する可能性を有する。ここで、キーワードが、ヒットの後の例えばプレイボタンにより見出される。ユーザがプレイボタンを押すと、メディア・ストリームを再生できるメディア・プレーヤがスタートし、このヒットに関連するタイミング・タグを用いて、メディア・ストリーム内でメディア・プレーヤが再生をすべき開始場所を指示する。説明を簡略化するために、メディア・プレーヤは、実際のヒットの時間よりも1ビット前に再生を開始する。それ故に、所定のオフセットがタイミング・タグから減算される。
【0027】
一例として、変換されたビデオ・カンファレンスにおいて、ワード「アグリーメント(agreement)」は、オーディオ・コンテンツ内の話されたワードのマルコフ・モデルと発音辞書内の「アグリーメント(agreement)」のマルコフ・モデルの間のマッチ(一致)したことによる、音声認識方法により認識される。カンファレンスの後に、ユーザは、カンファレンス中に参加者がアグリーメントに入ったか否かを調査することに、興味を有する場合、ユーザは、自分のマルチメディア・サーチエンジン内の興味のあるビデオ・カンファレンスを選択し、ワード「アグリーメント(agreement)」とキーボードを打つ。その結果、時間的に近い場所の2つのヒットが現れる。ユーザは第1のヒットのプレイボタンを押し、アグリーメントが議論されるビデオ・カンファレンスの一部を見て、ディスカッションがビデオ・カンファレンスのみの同定された一部に限られることを、確認する。
【0028】
マルチメディア・ストリーミング用のASFフォーマットのみを本明細書で開示したが、本発明は、クイックタイム(QuickTime)、リアルプレーヤ(RealPlayer)等の様々なプレーヤに対する、他の現在および将来の対応するマルチメディア・フォーマットと共に使用できる。
【0029】
本発明の他の実施例において、認識された音素が、記憶され、グループ化されるが、それらの言葉を特定の言語のワードに変換することは、行われない。インデックスを付すことが、その後これらのグループの選択に基づいて、例えば分類学が用いて、あるいは複数の言語からの辞書の組を用いて、あるいは頻度あるいは強調により、行われる。その後、音量、音素のアクセントあるいはイントネーションも、登録され、インデックスを付すべきグループの選択用に用いられる。
【0030】
本発明の他の実施例において、参加者あるいは秘書は、インデックスのベースを構成するワード群または音素群をマークする、あるいは、基準の組をスピーチを用いて入力する。
【0031】
本発明の他の実施例において、インデックスを付すことは、複数の言語で利用可能な会社の分類法に基づいて行うこおともできる。
【0032】
以上の説明は、本発明の一実施例に関するもので、この技術分野の当業者であれば、本発明の種々の変形例を考え得るが、それらはいずれも本発明の技術的範囲に包含される。特許請求の範囲の構成要素の後に記載した括弧内の番号は、図面の部品番号に対応し、発明の容易なる理解の為に付したものであり、発明を限定的に解釈するために用いてはならない。また、同一番号でも明細書と特許請求の範囲の部品名は必ずしも同一ではない。これは上記した理由による。
【図面の簡単な説明】
【0033】
【図1】マルコフ・モデル化を行うための状態図。
【図2】ASFストリーミング・フォーマットのデータ構造を表す図。
【図3A】ASFストリーミング・フォーマットのデータ構造のmarker_object206の詳細図。
【図3B】ASFストリーミング・フォーマットのデータ構造のmarker_entry309のフォーマットを表す図。
【図4】本発明の一実施例の全体ステップを表すフローチャート図。
【符号の説明】
【0034】
1: 変換エンジンがH.323/SIPコールを受信したか?
2: 符号化H.323/SIPストリームをASFフォーマットに変換する。
3: H.323/SIPコールは終了か?
4: ASFストリームをアーカイブ・サーバ内に記憶する
5: 音声認識が要求されたか?
6: ASFファイルを後処理サーバにコピーする
7: ASFストリームの開始点からスタートして現在のフラグメントを解析する為に、 データを解剖する
8: 現在のフラグメントのマルコフ・モデルと発音辞書のワードマルコフ・モデルとの 間に一致があるか?
9: 同定されたワードを、テキストファイル内のASFストリームから抽出された現在 のフラグメントに関連するタイミング情報と共に関連づけて記憶する
10:ASFストリームの終了か?
11:アーカイブ・サーバー内のテキストファイルとASFストリームを関連づけて記憶 する
12:次のフラグメントを解析する
13:終了



【特許請求の範囲】
【請求項1】
ストリーミングしアーカイビングするシステムで使用され、マルチメディア・ストリームをサーチ可能にするために、従来のカンファレンス・フォーマットで符号化されたデータ・ストリームから変換されたマルチメディア・ストリームを後処理する方法において、
(A) H.323/SIPに適合する変換エンジン内で、H.323又はSIPで符号化されたデータ・ストリームを受信したか否かを監視するステップと、
受信した場合には、
(B) 従来のカンファレンス・フォーマットで符号化されたデータ・ストリームを、所定のマルチメディア・ストリーミング・フォーマットのマルチメディア・ストリームに変換するステップと、
前記マルチメディア・ストリームは、マルチメディア・ストリームのそれぞれのフラグメントに関連したタイミング情報を有し、
(C) 前記マルチメディア・ストリームのオーディオ部分からのサウンドのフラグメントを音声認識エンジンで解析するステップと、
前記ステップ(C)は、次の(C1)と(C2)のサブステップで行われ、
(C1) サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルを生成するステップと、
(C2) 前記サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルと、データベース内に登録された既知のワードの発音の参照モデルまたは音素の参照モデルと比較するステップと、
(D) タイミング情報を、前記音声認識エンジンが、前記データベース内の既知のワードの発音の参照モデルと一致すると見出されたモデルのフラグメントまたはフラグメントのシーケンスを参照して割り当て、前記タイミング情報とテキストファイル内のワードとを関連付けて記憶するステップと
を有する
ことを特徴とするマルチメディア・ストリームを後処理する方法。
【請求項2】
前記(C)ステップは、
(C3) 前記サウンドの現在のフラグメントのマルチメディア・ストリーム内で時間位置を示す情報を抽出し一時的に記憶するステップと、
(C4) サウンドの現在のフラグメントまたは含まれている前記現在のサウンドを有するサウンドのフラグメントのシーケンスのモデルと、前記データベースの既知のワードまたは音素の発音の参照モデルとの間で一致が見出された時には、前記時間位置を、前記タイミング情報として、用いるステップと
前記タイミング情報は、前記テキストファイル内の前記ワードまたは入力ワードまたはタグ一緒に関連付けて記憶されている
を有する
ことを特徴とする請求項1記載の方法。
【請求項3】
(E) 前記ストリーミングしアーカイビングするシステム内で、前記マルチメディア・ストリームのオーディオ部分からの音声の全てのフラグメントが解析さた時に、前記テキストファイルを記憶し、前記テキストファイルをアクセス可能にするステップ
をさらに有し、
前記マルチメディア・ストリーム内で後でサーチできるようする
ことを特徴とする請求項1記載の方法。
【請求項4】
前記モデルと参照モデルは、マルコフ・モデルを含む
ことを特徴とする請求項1記載の方法。
【請求項5】
前記所定のマルチメディア・ストリーミング・フォーマットは、アクティブ・ストリーム・フォーマット(Active Stream Format (ASF))である
ことを特徴とする請求項1記載の方法。
【請求項6】
前記タイミング情報は、マッチしたフラグメント又はフラグメントのシーケンスの開始又は終了に関連したASFのタイム・フィールドと/またはオフセット・フィールドである
ことを特徴とする請求項1記載の方法。
【請求項7】
前記従来のカンファレンス・フォーマットで符号化されたデータ・ストリームは、H.323、H.320またはSIPで符号化されたデータ・ストリームである
ことを特徴とする請求項1記載の方法。
【請求項8】
マルチメディア・ストリームをサーチ可能にするために、従来のカンファレンス・フォーマットで符号化されたデータ・ストリームから変換されたマルチメディア・ストリームを後処理するシステムにおいて、
(A) 変換エンジンと、
前記変換エンジンは、H.323又はSIPで符号化されたデータ・ストリームを受信し、従来のカンファレンス・フォーマットで符号化されたデータ・ストリームを、所定のマルチメディア・ストリーミング・フォーマットのマルチメディア・ストリームに変換し、前記マルチメディア・ストリームは、マルチメディア・ストリームのそれぞれのフラグメントに関連したタイミング情報を有し、
(B) 後処理サーバーと、
後処理サーバーは、前記マルチメディア・ストリーム又は前記マルチメディア・ストリームのコピーを受領し、
(C) 音声認識エンジンと、
前記音声認識エンジンは、前記後処理サーバーに含まれるかあるいは接続され、前記マルチメディア・ストリームのオーディオ部分からのサウンドのフラグメントをで解析し、前記サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルと、データベース内に登録された既知のワードの発音の参照モデルまたは音素の参照モデルと比較し、
(D) 時間割り当て手段と、
前記時間割り当て手段は、タイミング情報を、前記音声認識エンジンが前記データベース内の既知のワードの発音の参照モデルと一致すると見出されたモデルのフラグメントまたはフラグメントのシーケンスを参照して関連づけ、前記タイミング情報とテキストファイル内のワードとを関連づけて記憶する
ことを特徴とするマルチメディア・ストリームを後処理するシステム。


【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate


【公表番号】特表2009−522845(P2009−522845A)
【公表日】平成21年6月11日(2009.6.11)
【国際特許分類】
【出願番号】特願2008−548450(P2008−548450)
【出願日】平成18年11月22日(2006.11.22)
【国際出願番号】PCT/NO2006/000423
【国際公開番号】WO2007/078200
【国際公開日】平成19年7月12日(2007.7.12)
【出願人】(506009811)
【Fターム(参考)】