サーチ可能なマルチメディア・ストリーム

【課題】アーカイブされたカンファレンス又はプレゼンテーション・データを、アーカイブサーバに記憶した後、サーチ可能にする方法とシステムを提供する。
【解決手段】本発明によれば、Ｈ．３２３又はＳＩＰに従って符号化されたメディア・ストリームを変換エンジンの送り、マルティメヂア・コンテンツを標準のストリーミング・フォーマットに変換する。これはファイルのクラスタで、それぞれ、ある媒体（オーディオ、ビデオ、データ）と／又は構造ファイル（様々なメディアを合成し関連づける）を表す。変換が行われると、構造ファイルは、コピーされ、後処理サーバに送られる。後処理サーバーは、音声認識エンジンを搭載し、オーディオ・ファイル内の認識された全てのワードを表す英数字のテキスト・ファイルを生成する。このテキストファイルは、その後、各認識されたワードを構造ファイル内のタイミング・タグに関連づけるファイルのクラスタに入れられる。この後処理の後、メディア・ストリーム内のキーワードと関連する時間ポイントは、従来のサーチエンジンで容易に見つけ出すことができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ビデオ・カンファレンスとストリーミング／アーカイビング・システムに関する。
【背景技術】
【０００２】
同じ場所にいない者が参加できるようなミーティングを持つために、いくつかの技術的システムが採用されている。これらのシステムは、ビデオ会議、ウェブ会議、またはオーディオ会議を含む。
【０００３】
実際のミーティングの最も現実的な仮想ミーティングは、高級なビデオ・カンファレンス・システムである。従来のビデオ・カンファレンス・システムは、複数のエンド・ポイントを通信する実時間ビデオと、ＷＡＮ、ＬＡＮを介したオーディオと／またはデータ・ストリームと／または回路切り換えネットワークとを含む。エンド・ポイントは、モニタと、カメラと、マイクロフォンと、データ取得装置と、コーデックとを含む。このコーデックは、送受信されるデータ・ストリームを符号化／復号化する。さらに、中央化ソース（マルチポイント制御ユニット（Multipoint Control Unit (MCU)）とも称する）が、複数のエンド・ポイントをリンクするのに必要である。このＭＣＵは、このようなリンク付けを、エンド・ポイント端末からポイント・トゥ・ポイント接続を介して、マルチメディア信号（オーディオ、ビデオと／またはデータ）を受信し、この受信した信号を処理し、この処理された信号を会議内の所定のエンド・ポイント端末に送信することにより、行う。
【０００４】
ビデオ・カンファレンス・システムを用いることにより、パワー・ポイント・プレゼンテーションあるいは他のＰＣプレゼンテーションが行われ、他の参加者の全てがそれを見たり聞いたりすることができる。
【０００５】
マルチメディア・コンテンツをプレゼンテーションする別の一般的な方法は、データをウェブ・インターフェースを介して、コンピュータにストリーミングすることである。このデータ・ストリームは、リアルタイムで送信されるか、あるいはアーカイブされたコンテンツを分配装置を介して再生する。従来のデータをストリーミングすることは、データの貯蔵と分配に適したものであり、それ故に、マルチメディア・コンテンツは、ビデオ・カンファレンス以外の他のフォーマットで表示される。そして、従来のビデオ・カンファレンスを、ストリーミングしアーカイビングするために、マルチメディア・データを変換するシステムが必要である。このようなシステムの一例を以下説明する。
【０００６】
データ分配装置は、（１）コンピュータ・ネットワークにデータ分配装置を接続するネットワーク・インターフェースと、（２）カンファレンス・コンテンツを受信するためのオーディオ／ビデオと、プレゼンテーション・データ・インターフェースと、（３）このプレゼンテーション・コンテンツを分配用の標準イメージ・フォーマットに変換するファイル変換エンジンと、（４）カンファレンス・コンテンツを分配用にストリーミング・フォーマットに符号化するストリーム・エンコーダとを有する。さらにデータ分配装置は、更に（５）符号化されたオーディオ／ビデオ・コンテンツを送信するストリーム・サーバと、（６）ウェブ・ページと変換されたプレゼンテーション・コンテンツをネットワークのノードにある端末に送信するウェブ・サーバとを有する。このデータ分配装置は、アーカイブ・ファイルを創設する。このアーカイブ・ファイルは、ローカルな記憶媒体にある、あるいはサーバ／データベースにある符号化されたデータ・ストリームからなり、これにより、符号化されたストリーム・データを、オン・ディマンドで、遠隔の端末にいる要求者に、コンピュータ・ネットワークを介して分配する。
【０００７】
一般的な操作モードによれば、ビデオ・カンファレンスは、データ分配装置をビデオ・カンファレンスの参加者として含めることにより開始される。遠隔端末にいる目視（参加）者は、ビデオ・カンファレンスにアクセスすることができるが、これは従来のウェブ・ブラウザをこのビデオ・カンファレンスに関連したＵＲＬ（Uniform Resource Locator）に向けることにより行われる。目視（参加）者とデータ分配装置との間のデータ交換の有効化が完了すると、目視参加者は、個人的なやりとり（即ち、ビデオ・カンファレンスのプレゼンター・サイトにおり参加者同士の間で行われる会話あるいはそれに関連する動作）を見ることができ、またビデオ・カンファレンス・サイトでプレゼンテーションされているプレゼンテーション・コンテンツも見ることができる。マルチメディア・コンテンツは、目視参加者のウェブ・ブラウザを通したマルチプル・ウインドウ・ユーザ・インターフェースで見ることができる。オーディオ／ビデオ・コンテンツは、ストリーミング・メディア・プレイヤーで表示され、プレゼンテーション・コンテンツは、別個のウインドウで表示される。ビデオ・カンファレンスのヘッドあるいはビデオ・カンファレンスのマネージメント・システムにより要求された時には、符号化されたストリーム・データが、識別可能なファイルとしてサーバ内に記憶される。
ストリーミング技術とカンファレンス技術を組み合わせることにより、ミーティングやプレゼンテーションやレクチャーや会話や情報分配の他の形態を、記憶し文書化する新たな可能性が生まれた。しかし、この可能性も、アーカイブされたストリーム・データのコンテンツ内をサーチできない場合には、その価値も限られたものである。アーカイブされたストリーム・データ内のサーチを可能にする唯一公知の方法は、登録されたファイルにメタデータ（データについての情報を記述したデータ）を手動で関連付けることである。しかし、これには大量の手作業が必要であり、メタデータがデータ・ストリームに正確に対応していることを保証できない。
【発明の開示】
【発明が解決しようとする課題】
【０００８】
本発明の目的は、上記の従来技術の問題点を解決するシステムと方法を提供することである。
【課題を解決するための手段】
【０００９】
本発明の方法は、ストリーミングしアーカイビングするシステムで使用され、マルチメディア・ストリームをサーチ可能にするために、従来のカンファレンス・フォーマットで符号化されたデータ・ストリームから変換されたマルチメディア・ストリームを後処理する方法であって、
（Ａ）Ｈ．３２３／ＳＩＰに適合する変換エンジン内で、Ｈ．３２３又はＳＩＰで符号化されたデータ・ストリームを受信したか否かを監視するステップと、
受信した場合には、
（Ｂ）従来のカンファレンス・フォーマットで符号化されたデータ・ストリームを、所定のマルチメディア・ストリーミング・フォーマットのマルチメディア・ストリームに変換するステップと、
前記マルチメディア・ストリームは、マルチメディア・ストリームのそれぞれのフラグメントに関連したタイミング情報を有し、
（Ｃ）前記マルチメディア・ストリームのオーディオ部分からのサウンドのフラグメントを音声認識エンジンで解析するステップと、
前記ステップ（Ｃ）は、次の（Ｃ１）と（Ｃ２）のサブステップで行われ、
（Ｃ１）サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルを生成するステップと、
（Ｃ２）前記サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルと、データベース内に登録された既知のワードの発音の参照モデルまたは音素の参照モデルと比較するステップと、
（Ｄ）タイミング情報を、前記音声認識エンジンが、前記データベース内の既知のワードの発音の参照モデルと一致すると見出されたモデルのフラグメントまたはフラグメントのシーケンスを参照して割り当て、前記タイミング情報とテキストファイル内のワードとを関連付けて記憶するステップと
を有する。
【実施例】
【００１０】
ビデオ・カンファレンスが目に見える場合でさえも、ビデオ・カンファレンスにおける明確な情報は、参加者間で交わされる言語表現で与えられる。ビデオ・カンファレンスの聴覚部分は、それ故にサーチする最も十分な媒体である。
【００１１】
本発明は、アーカイブ・サーバ内に登録した後、アーカイブされたカンファレンスあるいはプレゼンテーションをサーチ可能な状態にするシステムと方法を提供する。本発明によれば、Ｈ．２３２即ちＳＩＰにより符号化されたメディア・ストリームが変換エンジンに伝送される。この変換エンジンは、マルチメディア・コンテンツを標準のストリーミング・フォーマットに変換する。この標準のストリーミングのフォーマットは、ファイルのクラスター（群）である。各ファイルは、ある種の媒体（オーディオ、ビデオ、データ）と／または異なる媒体を合成するあるいは関連付けるような構造ファイルを表す。変換が行われると、構造ファイルはコピーされ、後処理用サーバに転送される。この後処理用サーバは、例えば音声認識エンジンを有する。この音声認識エンジンが、オーディオ・ファイル内で認識された全てのワードを表す英数字のテキスト・ファイルを作成する。その後、このテキスト・ファイルをファイルのクラスターに入れる。各ファイルは、各特定されたワードを構造ファイル内のタイミング・タグに関連付けられる。この後処理の後、メディア・ストリーム内のキーワードとの時間の関連ポイントを見つけ出すことが、従来のサーチエンジンにより容易に実行できる。
【００１２】
上記の構造フィアイルの一例が特許文献１に開示されている。この特許文献１は、複数のメディア・ストリームの蓄積と伝送を行うアクティブ・ストリーム・フォーマット（Active Stream Format (ASF)）を規定する。このＡＳＦフォーマットの全体を図２に示す。
【特許文献１】米国特許第６０４１３４５号明細書
【００１３】
本発明を実施するためには、音声認識エンジン内で使用される頑強且つ効果的な音声認識方法が、必要である。音声認識とは、最も単純な定義では、話し言葉すなわち音声を認識し、この音声をテキストに変換し、このテキストをその後ワード・プロセッサあるいは他のアプリケーションで使用する、あるいはオペレーティング・システムのコマンド・インタープリターに転送するプロセスである。この認識プロセスは、デジタル化されたオーディオ・データを意味のあるセグメントに解剖することからなる。その後、このセグメントを、公知の音素のデータベースにマッピングし、この音素シーケンスをワードの既知のボキャブラリあるいは辞書に対してマッピングする。
【００１４】
音声認識においては、隠れマルコフ・モデル（ＨＭＭ）がしばしば用いられる。ＨＭＭ音声認識システムが構築されると、認識可能なボキャブラリの中の各ワードは、そのワードの発音に類似する一連のサウンドとしてあるいはスピーチのフラグメントとして規定される。スピーチの各フラグメントに対するマルコフ・モデルが創設される。各サウンドに対するマルコフ・モデルは、その後連結されて（concatenated）、ボキャブラリ内のワードの音響的定義を表す一連のマルコフ・モデルを形成する。
例えば図１に示すように、ワード「ＴＥＮ」に対する音素ワード１００は、３個の音素マルコフ・モデル１０１−１０３のシーケンスとして示される。音素マルコフ・モデルの１つは、２個の遷移アーク１０１Ａ、１０１Ｂを有する音素「Ｔ」（１０１）を表す。２番目の音素マルコフ・モデルは、音素「ＥＨ」を表す。これは、遷移アーク１０２Ａ、１０２Ｂを有するモデル１０２として示される。３番目の音素マルコフ・モデル１０３は、遷移アーク１０３Ａ、１０３Ｂを有する音素「Ｎ」を表す。
【００１５】
図１に示す３個のマルコフ・モデルは、それぞれ開始状態と終了状態とを有する。「Ｔ」モデル１０１は、状態１０４で始まり、状態１０５で終了する。「ＥＨ」モデル１０２は、状態１０５で始まり、状態１０６で終わる。「Ｎ」モデル１０３は、状態１０６で始まり、状態１０７で終了する。図示していないが、各モデルは、実際にはそれぞれの開始状態と終了状態の間の状態を、状態１０４と１０５を結合するアーク１０１Ａのように、有する。複数のアークが伸びて、複数の状態を結合する。認識プロセスの間、発音（utterance）は、一連の音素マルコフ・モデルと比較される。これは、最左の状態（例えば、状態１０４）からスタートして、矢印に従って中間状態を通り、最右の状態（状態１０７）に進む。そこで、モデル１００は、公知の方法で終了する。最左の状態１０４から最右の状態１０７への移行時間は、ワードの長さを反映する。それ故に、最左の状態１０４から最右の状態１０７へ移るために、時間は、「Ｔ」状態と「ＥＨ」状態と「Ｎ」状態で消費されて、その結果、発音がワード「ＴＥＮ」となる。かくして、ワードに対する隠れマルコフ・モデルは、ワードの発音の間形成された様々なサウンドに対応する一連のモデルに含まれる。
【００１６】
図１に記載したように、マルコフ・モデルを構築するために、発音辞書を用いて、要素素音（component sound）を示す。様々な発音辞書がありそれらが使用される。これらの発音辞書の情報源は音声学者である。辞書内に示されたワードに帰属する要素音は、音声学者の経験とセンスに依存する。
【００１７】
音声認識を実行する他の方法がある。例えば、自然ネットワークのみを使用するあるいはマルコフ・モデル・モデルと自然ネットワークとの組み合わせを使用する。これが本発明で使用される。
【００１８】
本発明によれば、各認識されたワードは、タイミング・タグと連続的に関連付けられる。このタイミング・タグは、オーディオ・ファイル内のある場所を参照させる。例えば、図２に示される上記のＡＳＦフォーマットは、Data Section２１１内にメディア・サンプルを記憶する。このデータ・セクション２１１に関連して、複数の時間表示と同期化データが存在する。ＡＳＦストリームは、例えばmarker_object２０６を有する。このmarker_object２０６は、Data Section２１１内の特定の時間に対するポインタを保持する。marker_object２０６により、ユーザは、marker_object２０６内で保持されたマーカにより示される特定のデータ・ポインタ（例、オーディオ・トラック）に、前後に素早くジャンプできる。
【００１９】
図３Ａは、marker_object２０６の詳細を示す。marker_object２０６は、object_id フィールド３０１を有する。このobject_id フィールド３０１は、ユニバーサル・ユニーク・アイデンディファイア（Universal Unique Identifier (UUID)）を保持する。size フィールド３０２は、marker_object２０６のサイズをバイト形式で指定する。marker_id フィールド３０３は、マーカ・データ・ストラテジーを同定するＵＵＩＤを含む。num_entries フィールド３０４は、marker_object２０６内のマーカー・エントリーの数を指定する。entry_alignment フィールド３０５は、マーカー・データのバイト整合を同定する。name_len フィールド３０６は、name フィールド３０７内に保持されるユニコード（Unicode）キャラクタの数を指定する。このユニコード・キャラクタは、marker_object２０６の名前を保持する。marker_data フィールド３０８は、テーブル内にマーカーを保持する。各マーカーは、テーブル内で関連するエントリーを有する。
【００２０】
図３Ｂは、marker_entry３０９のフォーマットを示す。例えば、これらはmarker_data フィールド３０８に見られる。offset_フィールド３１０は、data_object２１２内のパケットのスタートからバイト表示のオフセット量を保持する。このdata_object２１２は、marker_entry３０９の位置を示す。timeフィールド３１１は、marker_entry３０９に対するタイム・スタンプを指定する。entry_len フィールド３１２は、entry_data フィールド３１３のサイズを指定する。このentry_data フィールド３１３は、マーカー・エントリー用のデータを保持するアレイである。
【００２１】
本発明の一実施例においては、マルコフ・モデルにより解析されるべきサウンドのフラグメントのスタートに関連付けられたtimeフィールド３１１と／またはoffsetフィールド３１０は、一時記憶装置内に記憶される。ワードがサウンドのフラグメント内で、音声認識エンジンにより認識された場合には、timeフィールド３１１と／またはoffsetフィールド３１０は、認識されたワードのタイミング・タグとして規定され、認識されたワードのテキスト・ファイル内のワードに関連付けられて一緒に記憶される。別の構成として、タイミング・タグは、ＡＳＦ構造内の他のフィールドの一部を含む。このタイミング・タグは、データのタイミング情報を表す。本発明の他の実施例においては、認識されたワードのサウンド・フラグメントの終了点を表すタイミング情報は、ワードに関連付けられ、その後、一時記憶の必要性を制限することもできる。
【００２２】
図４のフローチャートに基づいて本発明の実施例を説明する。変換エンジン（従来のＨ．３２３／ＳＩＰエンド・ポイントと同様にＨ．３２３／ＳＩＰコールを受信できる）がＨ．３２３／ＳＩＰコール（呼び）を受信したか否かを監視する。受信した場合には、変換エンジンは、受信した符号化Ｈ．３２３／ＳＩＰデータを上記のＡＳＦフォーマットに、従来公知のトランスコーディング技術を用いて、変換を開始する。このコールが終了する時、あるいは記録の中止のリクエストを受領した時に、ＡＳＦストリームは、アーカイブ・サーバ内に記憶される。実際に、このＡＳＦストリームは、マルチメディア・データが変換されながら、連続的に記憶される。
【００２３】
その後、音声認識が要求されると、ＡＳＦストリームが、後処理サーバにコピーされる。この後処理サーバは、データを解剖して、上記のマルコフ・モデルに従って、音声のフラグメントを解析する。音声フラグメントのマルコフ・モデルと発音辞書の特定のワードまたはキャラクタのマルコフ・モデルとの間に一致が見出されると、特定のワードまたはキャラクタが、タイミング・タグと共にテキスト・ファイル内に記憶される。このタイミング・タグは、例えばmarker_object２０６から得られる。このmarker_object２０６は、ＡＳＤストリーム内のサウンド・フラグメントに関連付けられたデータの時間位置を表す。このＡＳＦストリームからワードまたはキャラクタが認識される。ＡＳＦフォーマットのマルチメディア同期特徴は、オーディオ・コンテンツのタイミング・タグは、ＡＳＦストリーム内のビデオ・コンテンツの対応する時間位置に対するタイミング・タグを表す。
【００２４】
全てのオーディオ・コンテンツが認識可能なワードを得るために、解剖されると、テキスト・ファイルは、タイミング・タグにそれぞれ関連付けられた複数のワードとキャラクタを含む。このファイルは、アーカイブ・サーバ内に、対応する記憶されたＡＳＦストリームと関連付けられて、記憶される。
【００２５】
変換されたマルチメディア・ビデオ・カンファレンスで認識されたワードのテキスト・ファイル、あるいは関連したタイミング・タグを有する呼びが記憶されると、呼び／ビデオ・カンファレンスは、その後キーワードによりサーチ可能となり、ヒットが、マルチメディア・ストリーム内のある時間に接続される。
【００２６】
この使用例の一実施例では、ユーザに、プレーン・テキストをサーチする従来のサーチエンジンとは異なるサーチエンジンが具備される。ユーザには、記憶され変換された呼び／ビデオ・カンファレンス内で、サーチの選択権が与えられる。このサーチの結果は、会議名、会議時間のような情報とのヒットのリストとして現れる。更に、ユーザは、ビデオ・カンファレンス内の時間からメディア・ストリームを再生する可能性を有する。ここで、キーワードが、ヒットの後の例えばプレイボタンにより見出される。ユーザがプレイボタンを押すと、メディア・ストリームを再生できるメディア・プレーヤがスタートし、このヒットに関連するタイミング・タグを用いて、メディア・ストリーム内でメディア・プレーヤが再生をすべき開始場所を指示する。説明を簡略化するために、メディア・プレーヤは、実際のヒットの時間よりも１ビット前に再生を開始する。それ故に、所定のオフセットがタイミング・タグから減算される。
【００２７】
一例として、変換されたビデオ・カンファレンスにおいて、ワード「アグリーメント（agreement）」は、オーディオ・コンテンツ内の話されたワードのマルコフ・モデルと発音辞書内の「アグリーメント（agreement）」のマルコフ・モデルの間のマッチ（一致）したことによる、音声認識方法により認識される。カンファレンスの後に、ユーザは、カンファレンス中に参加者がアグリーメントに入ったか否かを調査することに、興味を有する場合、ユーザは、自分のマルチメディア・サーチエンジン内の興味のあるビデオ・カンファレンスを選択し、ワード「アグリーメント（agreement）」とキーボードを打つ。その結果、時間的に近い場所の２つのヒットが現れる。ユーザは第１のヒットのプレイボタンを押し、アグリーメントが議論されるビデオ・カンファレンスの一部を見て、ディスカッションがビデオ・カンファレンスのみの同定された一部に限られることを、確認する。
【００２８】
マルチメディア・ストリーミング用のＡＳＦフォーマットのみを本明細書で開示したが、本発明は、クイックタイム（QuickTime）、リアルプレーヤ（RealPlayer）等の様々なプレーヤに対する、他の現在および将来の対応するマルチメディア・フォーマットと共に使用できる。
【００２９】
本発明の他の実施例において、認識された音素が、記憶され、グループ化されるが、それらの言葉を特定の言語のワードに変換することは、行われない。インデックスを付すことが、その後これらのグループの選択に基づいて、例えば分類学が用いて、あるいは複数の言語からの辞書の組を用いて、あるいは頻度あるいは強調により、行われる。その後、音量、音素のアクセントあるいはイントネーションも、登録され、インデックスを付すべきグループの選択用に用いられる。
【００３０】
本発明の他の実施例において、参加者あるいは秘書は、インデックスのベースを構成するワード群または音素群をマークする、あるいは、基準の組をスピーチを用いて入力する。
【００３１】
本発明の他の実施例において、インデックスを付すことは、複数の言語で利用可能な会社の分類法に基づいて行うこおともできる。
【００３２】
以上の説明は、本発明の一実施例に関するもので、この技術分野の当業者であれば、本発明の種々の変形例を考え得るが、それらはいずれも本発明の技術的範囲に包含される。特許請求の範囲の構成要素の後に記載した括弧内の番号は、図面の部品番号に対応し、発明の容易なる理解の為に付したものであり、発明を限定的に解釈するために用いてはならない。また、同一番号でも明細書と特許請求の範囲の部品名は必ずしも同一ではない。これは上記した理由による。
【図面の簡単な説明】
【００３３】
【図１】マルコフ・モデル化を行うための状態図。
【図２】ＡＳＦストリーミング・フォーマットのデータ構造を表す図。
【図３Ａ】ＡＳＦストリーミング・フォーマットのデータ構造のmarker_object206の詳細図。
【図３Ｂ】ＡＳＦストリーミング・フォーマットのデータ構造のmarker_entry309のフォーマットを表す図。
【図４】本発明の一実施例の全体ステップを表すフローチャート図。
【符号の説明】
【００３４】
１：変換エンジンがＨ．３２３／ＳＩＰコールを受信したか？
２：符号化Ｈ．３２３／ＳＩＰストリームをＡＳＦフォーマットに変換する。
３：Ｈ．３２３／ＳＩＰコールは終了か？
４：ＡＳＦストリームをアーカイブ・サーバ内に記憶する
５：音声認識が要求されたか？
６：ＡＳＦファイルを後処理サーバにコピーする
７：ＡＳＦストリームの開始点からスタートして現在のフラグメントを解析する為に、データを解剖する
８：現在のフラグメントのマルコフ・モデルと発音辞書のワードマルコフ・モデルとの間に一致があるか？
９：同定されたワードを、テキストファイル内のＡＳＦストリームから抽出された現在のフラグメントに関連するタイミング情報と共に関連づけて記憶する
１０：ＡＳＦストリームの終了か？
１１：アーカイブ・サーバー内のテキストファイルとＡＳＦストリームを関連づけて記憶する
１２：次のフラグメントを解析する
１３：終了

【特許請求の範囲】
【請求項１】
ストリーミングしアーカイビングするシステムで使用され、マルチメディア・ストリームをサーチ可能にするために、従来のカンファレンス・フォーマットで符号化されたデータ・ストリームから変換されたマルチメディア・ストリームを後処理する方法において、
（Ａ）Ｈ．３２３／ＳＩＰに適合する変換エンジン内で、Ｈ．３２３又はＳＩＰで符号化されたデータ・ストリームを受信したか否かを監視するステップと、
受信した場合には、
（Ｂ）従来のカンファレンス・フォーマットで符号化されたデータ・ストリームを、所定のマルチメディア・ストリーミング・フォーマットのマルチメディア・ストリームに変換するステップと、
前記マルチメディア・ストリームは、マルチメディア・ストリームのそれぞれのフラグメントに関連したタイミング情報を有し、
（Ｃ）前記マルチメディア・ストリームのオーディオ部分からのサウンドのフラグメントを音声認識エンジンで解析するステップと、
前記ステップ（Ｃ）は、次の（Ｃ１）と（Ｃ２）のサブステップで行われ、
（Ｃ１）サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルを生成するステップと、
（Ｃ２）前記サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルと、データベース内に登録された既知のワードの発音の参照モデルまたは音素の参照モデルと比較するステップと、
（Ｄ）タイミング情報を、前記音声認識エンジンが、前記データベース内の既知のワードの発音の参照モデルと一致すると見出されたモデルのフラグメントまたはフラグメントのシーケンスを参照して割り当て、前記タイミング情報とテキストファイル内のワードとを関連付けて記憶するステップと
を有する
ことを特徴とするマルチメディア・ストリームを後処理する方法。
【請求項２】
前記（Ｃ）ステップは、
（Ｃ３）前記サウンドの現在のフラグメントのマルチメディア・ストリーム内で時間位置を示す情報を抽出し一時的に記憶するステップと、
（Ｃ４）サウンドの現在のフラグメントまたは含まれている前記現在のサウンドを有するサウンドのフラグメントのシーケンスのモデルと、前記データベースの既知のワードまたは音素の発音の参照モデルとの間で一致が見出された時には、前記時間位置を、前記タイミング情報として、用いるステップと
前記タイミング情報は、前記テキストファイル内の前記ワードまたは入力ワードまたはタグ一緒に関連付けて記憶されている
を有する
ことを特徴とする請求項１記載の方法。
【請求項３】
（Ｅ）前記ストリーミングしアーカイビングするシステム内で、前記マルチメディア・ストリームのオーディオ部分からの音声の全てのフラグメントが解析さた時に、前記テキストファイルを記憶し、前記テキストファイルをアクセス可能にするステップ
をさらに有し、
前記マルチメディア・ストリーム内で後でサーチできるようする
ことを特徴とする請求項１記載の方法。
【請求項４】
前記モデルと参照モデルは、マルコフ・モデルを含む
ことを特徴とする請求項１記載の方法。
【請求項５】
前記所定のマルチメディア・ストリーミング・フォーマットは、アクティブ・ストリーム・フォーマット（Active Stream Format (ASF)）である
ことを特徴とする請求項１記載の方法。
【請求項６】
前記タイミング情報は、マッチしたフラグメント又はフラグメントのシーケンスの開始又は終了に関連したＡＳＦのタイム・フィールドと／またはオフセット・フィールドである
ことを特徴とする請求項１記載の方法。
【請求項７】
前記従来のカンファレンス・フォーマットで符号化されたデータ・ストリームは、Ｈ．３２３、Ｈ．３２０またはＳＩＰで符号化されたデータ・ストリームである
ことを特徴とする請求項１記載の方法。
【請求項８】
マルチメディア・ストリームをサーチ可能にするために、従来のカンファレンス・フォーマットで符号化されたデータ・ストリームから変換されたマルチメディア・ストリームを後処理するシステムにおいて、
（Ａ）変換エンジンと、
前記変換エンジンは、Ｈ．３２３又はＳＩＰで符号化されたデータ・ストリームを受信し、従来のカンファレンス・フォーマットで符号化されたデータ・ストリームを、所定のマルチメディア・ストリーミング・フォーマットのマルチメディア・ストリームに変換し、前記マルチメディア・ストリームは、マルチメディア・ストリームのそれぞれのフラグメントに関連したタイミング情報を有し、
（Ｂ）後処理サーバーと、
後処理サーバーは、前記マルチメディア・ストリーム又は前記マルチメディア・ストリームのコピーを受領し、
（Ｃ）音声認識エンジンと、
前記音声認識エンジンは、前記後処理サーバーに含まれるかあるいは接続され、前記マルチメディア・ストリームのオーディオ部分からのサウンドのフラグメントをで解析し、前記サウンドの各フラグメントまたはサウンドのフラグメントのシーケンスのモデルと、データベース内に登録された既知のワードの発音の参照モデルまたは音素の参照モデルと比較し、
（Ｄ）時間割り当て手段と、
前記時間割り当て手段は、タイミング情報を、前記音声認識エンジンが前記データベース内の既知のワードの発音の参照モデルと一致すると見出されたモデルのフラグメントまたはフラグメントのシーケンスを参照して関連づけ、前記タイミング情報とテキストファイル内のワードとを関連づけて記憶する
ことを特徴とするマルチメディア・ストリームを後処理するシステム。

【図１】

【図２】

【図３Ａ】

【図３Ｂ】

【図４】

【公表番号】特表２００９−５２２８４５（Ｐ２００９−５２２８４５Ａ）
【公表日】平成２１年６月１１日（２００９．６．１１）
【国際特許分類】

電気 (1,674,590)
- 電気通信技術 (544,871)
  - 画像通信，例．テレビジョン (280,882)
    - テレビジョン方式［４，２０１１．０１］ (43,981)
      - 双方向動作方式 (1,933)
        
        会議方式 (1,304)

【出願番号】特願２００８−５４８４５０（Ｐ２００８−５４８４５０）
【出願日】平成１８年１１月２２日（２００６．１１．２２）
【国際出願番号】ＰＣＴ／ＮＯ２００６／０００４２３
【国際公開番号】ＷＯ２００７／０７８２００
【国際公開日】平成１９年７月１２日（２００７．７．１２）
【出願人】（５０６００９８１１）

【Ｆターム（参考）】

双方向ＴＶ、動画像配信等 (137,112)

[ Back to top ]

サーチ可能なマルチメディア・ストリーム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

サーチ可能なマルチメディア・ストリーム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク