受信オーディオデータをビデオデータと同期させるための装置及び方法

通信装置により受信された、複数のビデオデータセグメントを含むビデオデータと、通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させるための、通信装置（１２）、コンピュータ可読媒体及び方法。方法は、オーディオデータの第１セグメントを通信装置（１２）で受信するステップと、オーディオデータの第１セグメントと同時又はそれより遅い時点で、オーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを通信装置で受信するステップと、所定の指標に基づいて、オーディオデータの第１セグメントとビデオデータの第１セグメントとの間に同期処理を適用するステップとを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、オーディオデータ及びビデオデータを処理可能な方法、装置及びシステムに関し、特に、オーディオデータと共に送信されるビデオデータの再生と関連する時間遅延を補償する技術及び方法に関する。
【背景技術】
【０００２】
ビデオデータ及びそれに関連するオーディオデータの双方を含み、マルチメディアを使用する通信は、通信技術の分野において固定アクセス及び移動アクセスの双方で重要性を増している。従来の音声のみによる通話に加えて映像成分（すなわちビデオデータ）を含むように改良が進んでいるため、いわゆる「テレビ電話（video telephony）」を使用してユーザが通信する機会が多くなっている。
【０００３】
テレビ電話による通話に関連するビデオデータは、通常、送信側装置のビデオカメラにより作成される。送信側装置は移動電話のようなポータブル装置であってもよい。場合によっては、話者の顔を示すようにカメラを位置決めするために、ユーザは送信側装置の向きを調整する。しかしカメラは、ユーザが会話に関連すると考える他の物、例えばユーザが会話中の相手に見せたいと思う景色などを示すために使用されることもある。従って、通信セッション中に示される物は変化しうる。この点に関して、ビデオデータとオーディオデータは通常、論理的関連性を伴って生成される。例えば、ユーザの音声は、その音声を発しているユーザに対応するユーザの顔の映像と関連している。
【０００４】
視聴者であるユーザの画面に話者であるユーザも表示される場合、ユーザがオーディオとビデオとの適切な組み合わせを体験するようにオーディオデータとビデオデータとが同期されることが望ましい。適切な組み合わせを実現するために、通常、ユーザの唇の動きは装置のスピーカホンからの音声と同期しているべきである。そうすれば、唇の動きと聞き取られる言葉との間に、互いに近い距離にいる二人が通常会話している場合と同じような関連性が得られる。本明細書において、これを唇同期又はオーディオデータとビデオデータとの論理的関連性と呼ぶ。
【０００５】
従って、３Ｇ回線交換テレビ電話（例えば、３ＧＰＰＴＳ２６．１１１（フランス、ｒｏｕｔｅｄｅｓＬｕｃｉｏｌｅｓ０６９２１Ｓｏｐｈｉａ‐ＡｎｔｉｐｏｌｉｓＣｏｄｅｘ、ＥＴＳＩＭｏｂｉｌｅＣｏｍｐｅｔｅｎｃｅＣｅｎｔｒｅ６５０の３ＧＰＰ標準規格グループによる）を参照。同文献はこの引用により本明細書に組み込まれる。）のような既存の装置、及び、新技術であるＩＭＳＭｕｌｔｉｍｅｄｉａＴｅｌｅｐｈｏｎｙ（例えばＥＴＳＩによる３ＧＰＰＴＳ２２．１７３及びＥＴＳＩＴＳ１８１００２を参照。）のようなＩＰマルチメディアサービスにおいては、メディア間同期のサポートが望まれている。以下、オーディオとビデオを同期させるための従来の方法を説明する。ＣｉｒｃｕｉｔＳｗｉｔｃｈｅｄＭｕｌｔｉｍｅｄｉａの場合、オーディオをビデオと同期させるために、オーディオがどのくらい遅延しているかを指示できる（ＩＴＵ‐ＴＨ．３２４を参照）。リアルタイム転送プロトコル（ＲＴＰ、ＩＥＴＦＲＦＣ３５５０を参照）を介して搬送されるサービスの場合、同期を実現するための入力としてＲＴＰタイムスタンプをＲＴＰ制御プロトコル（ＲＴＣＰ）送信機レポートと共に使用可能である（ＩＥＴＦＲＦＣ３５５０を参照）。しかし、既存のいくつかのマルチメディア通信サービスはメディア同期を行わないので、唇同期が必要とされる場合にユーザは不十分な通話しかできない。
【０００６】
オーディオをビデオと同期させているシステムは、所望の唇同期を実現するために、通常、ビデオデータが復号化されるまである特定の長さの時間だけオーディオデータを遅延させ、その後、２つのデータが同時に再生される。しかし、この同期方法では遅延が増加し、その結果、応答時間が長くなって会話に問題が生じるため、ユーザにとってこの方法は好ましくない。例えば、通常、ビデオデータは、音声がマイクからスピーカホンに到達するまでの遅延時間よりも、カメラから画面に到達するまでの長い遅延時間を持つ。ビデオデータの遅延が長くなる原因は、（オーディオデータと比較して）符号化及び復号化に関連するアルゴリズム遅延が長いこと、フレームレートが遅いこと、場合によってはビットレートが高いために転送遅延が長くなることである。受信側装置がオーディオとビデオとを同期させると仮定すると、装置は、オーディオデータを再生する前にオーディオデータフローを遅延させなければならない。これにより、当然のことながらユーザは会話に不満を覚え、その結果、会話品質は低下する。例えば、オーディオデータの遅延がある特定の限界（約２００ｍｓ）を超えると、会話品質に影響が出始める。第１に、相手側の話者の反応が遅く感じられ、場合によっては、双方の話者が同時に話し始めてしまう（これは二人の話者がある時間遅延をおいて初めてこの問題に気づくからである）こともあるので、ユーザは幾分苛立ちを感じるであろう。遅延が長い（例えば５００ｍｓを超える）場合、正常な会話を続けるのが難しくなり始める。従って、テレビ電話を使用する話者が不満を感じる原因の１つは、顔を合わせて行う通常の会話又は音声のみの電話による会話とは異なり、相手側の話者の応答時間が長すぎることである。
【０００７】
従って、上述の問題点及び欠点を回避するオーディオ及びビデオ通信のための装置、システム及び方法を提供することが望まれる。
【発明の概要】
【０００８】
例示的な一実施形態によれば、通信装置により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法が提供される。前記方法は、オーディオデータの第１セグメントを前記通信装置で受信するステップと、オーディオデータの第１セグメントと同時又はそれより遅い時点で、該オーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを通信装置で受信するステップと、所定の指標に基づいて、前記オーディオデータの第１セグメントと前記ビデオデータの第１セグメントとの間に同期処理を適用するステップとを有する。
【０００９】
別の例示的な実施形態によれば、複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置が提供される。前記通信装置は、オーディオデータの第１セグメントを受信し、該オーディオデータの第１セグメントと同時又はそれより遅い時点で、該オーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを受信する入出力ユニットと、所定の指標に基づいて、前記オーディオデータの第１セグメントと前記ビデオデータの第１セグメントとの間に同期処理を適用するプロセッサとを有する。
【図面の簡単な説明】
【００１０】
【図１】例示的な一実施形態に係る送信側装置、受信側装置及び通信ネットワークを含む通信システムを示す図である。
【図２】例示的な一実施形態に係る送信側装置又は受信側装置を示す図である。
【図３】送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図４】例示的な一実施形態に係る事前通知を使用して送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図５】例示的な一実施形態に係る事前通知を送信するために実行されるステップを示すフローチャートである。
【図６】例示的な一実施形態に係る顔検出処理に基づいて同期機能をオン及びオフする処理を示す図である。
【図７】例示的な一実施形態に係る顔検出処理に基づいて同期機能をオン及びオフするためのステップを示すフローチャートである。
【図８】例示的な一実施形態に係るユーザ入力に基づいて同期機能をオン及びオフする処理を示す図である。
【図９】例示的な一実施形態に係るユーザ入力に基づいて同期機能をオン及びオフするためのステップを示すフローチャートである。
【図１０】時間スケーリングを伴って送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図１１】例示的な一実施形態に係るオーディオデータの第１セグメントに時間スケーリングを適用するためのステップを示すフローチャートである。
【図１２】例示的な一実施形態に係るオーディオデータの最終セグメントに時間スケーリングを適用するためのステップを示すフローチャートである。
【図１３】図１３は、ビデオデータをオーディオデータと同期させる方法のステップを示すフローチャートである。
【発明を実施するための形態】
【００１１】
（略語）
RTP：Real-Time Transport Protocol：リアルタイム転送プロトコル
RTCP：Real-Time Control Protocol：リアルタイム制御プロトコル
AVS：Audio-video signal：オーディオビデオ信号
LED：Light Emitting Diode：発光ダイオード
UDP：User Datagram Protocol：ユーザデータグラムプロトコル
IP：Internet Protocol：インターネットプロトコル
AMR：Adaptive Multi-Rate：適応マルチレート
DVD：Digital Versatile Disc：デジタル・バーサタイル・ディスク
ASIC：Application Specific Integrated Circuit：特定用途向け集積回路
DSP：Digital Signal Processor：デジタル信号プロセッサ
FPGA：Field Programmable Gate Array：フィールドプログラマブルゲートアレイ
IC：Integrated Circuit：集積回路
FM：Frequency Modulated：周波数変調
LCD：Liquid Crystal Display：液晶ディスプレイ
OLED：Organic Light-Emitting Diode：有機発光ダイオード
WLAN：Wireless Local Area Network：無線ローカルエリアネットワーク
【００１２】
（詳細な説明）
以下の例示的な実施形態の説明では添付の図面を参照する。図面中、同一の参照符号は同一の要素又は類似する要素を示す。以下の詳細な説明は本発明を限定するものではない。本発明の範囲は添付の請求の範囲によって定義されるものである。簡潔にするため、以下の実施形態では、移動電話を使用する別のユーザと通信するために同様に移動電話を使用するユーザに関して説明する。しかし、以下に説明される実施形態はこのシステムに限定されず、他の既存のオーディオ及びビデオ送信システムに適用されうる。
【００１３】
本明細書を通して、「一実施形態」という用語は、１つの実施形態と関連して説明される特定の１つの特徴、構造又は特性が本発明の少なくとも１つの実施形態に含まれることを意味する。従って、本明細書中の種々の箇所に見られる「一実施形態において」という表現は常に同一の実施形態を示すとは限らない。更に、特定の特徴、構造又は特性を、１つ以上の実施形態において任意の適切な態様で組み合わせることが可能である。
【００１４】
図１に示されるように、例示的な一実施形態によれば、システム１０は、通信ネットワーク１６を介して互いに接続された第１の通信装置１２及び第２の通信装置１４を含む。装置１２及び１４は、デスクトップ、ラップトップ、移動電話、従来の電話、ＰＤＡ、デジタルカメラ、ビデオカメラなどであってもよい。２つの装置は有線又は無線インタフェースを介して互いに接続されうる。２つの装置は互いに直接接続されてもよいが、通信ネットワークの一部である１つ以上の基地局（図示せず）を介して接続されてもよい。本明細書において、「基地局」という用語は、例えばモデム、電気通信システムにおける局、ネットワーク全体のように接続する装置の間のデータのやり取りを容易にする任意の装置を表す一般的な用語として使用される。
【００１５】
図２に示されるように、装置１２又は１４の構造は、オーディオビデオ信号ＡＶＳを送受信するように構成された入出力ポート１８を含む。オーディオビデオ信号ＡＶＳはオーディオデータ及びビデオデータを含みうる。オーディオデータ又はビデオデータの各々は複数のセグメントを含みうる。１つのセグメントは、ある特定の時間に対応する複数のフレームを含みうる。しかし、このセグメントの定義は特定の環境条件に応じて更に限定されてもよい。特定の実施形態に関してその実施例を後に挙げる。複数のオーディオデータセグメント及び／又はビデオデータセグメントは、第１セグメント及び最終セグメントを含んでもよく、第１セグメントと最終セグメントとの間に他の複数のセグメントを更に含んでもよい。例えば顔をビデオ録画しつつオーディオメッセージを録音するユーザの場合のように、１つのオーディオデータセグメントはビデオデータの１つのセグメントに対応してもよい。
【００１６】
ビデオ信号ＡＶＳを受信するために、入出力ポート１８はバス２０を介してアンテナ２２又はワイヤライン（図示せず）に接続されてもよい。アンテナ２２は単一のアンテナ又は多重アンテナであってもよくかつ赤外線、無線周波数又は他の周知の無線インタフェースを介してオーディオビデオ信号ＡＶＳを受信するように構成されてもよい。入出力ポート１８は、オーディオビデオ信号ＡＶＳを受信して処理するプロセッサ２４に更に接続される。プロセッサ２４はバス２０を介してメモリ２６に接続されてもよい。メモリ２６はオーディオビデオ信号ＡＶＳ及びプロセッサ２４に必要な他のデータを格納してもよい。
【００１７】
例示的な一実施形態において、装置１２は、受信されたオーディオビデオ信号ＡＶＳに対応する画像を表示するように構成されたディスプレイ２８を有してもよい。ディスプレイ２８は画面であってもよくかつ１つ以上のＬＥＤ又は他の任意の周知の光源発光デバイスを更に含んでもよい。ディスプレイ２８は画面及びＬＥＤの組み合わせであってもよい。別の例示的な実施形態において、装置１２は、ユーザからの指示及び／又はデータを入力可能な入出力インタフェース３０、例えばキーボード、マウス、マイク、ビデオカメラなどを有してもよい。
【００１８】
装置１２は、バス２０に接続されかつ受信されたオーディオビデオ信号ＡＶＳの種々の指標を測定可能であるか又はユーザの顔を抽出するためにＡＶＳのビデオデータを分析可能であるか、あるいは異なる速度（録画速度より速い速度又は遅い速度）でＡＶＳのオーディオデータを再生可能である処理ユニット３２を有してもよい。装置１２は、装置により受信されるオーディオデータに基づいて音声を発生するように構成された音声ユニット３４を有してもよい。更に、音声ユニット３４は、プロセッサ２４の命令に従って音声を放射するか又は音声を記録してもよい。例示的な一実施形態において、音声ユニットはスピーカホン及びマイクを含んでもよい。図１に示される装置１４は、図２に示される装置１２と同一の構造を有してもよい。
【００１９】
以下の説明中、簡潔にするため、装置１２（図１を参照）は送信機であると考えかつ装置１４（同様に図１を参照）は受信機であると考える。しかし、装置１２及び１４は共に送信機として及び／又は受信機として動作してもよい。装置１２のユーザ１が装置１４のユーザ２に向けてビデオデータ及びオーディオデータを送信した場合、まず装置１２において図３に示されるような動作が起こり、次に装置１４において図３に示されるような動作が起こる。更に詳細には、時刻ｔ１で、装置１２はユーザ１又は別の情報源からオーディオデータＳ１を受信しかつユーザ１又は別の情報源からビデオデータＶ１を受信する。オーディオデータＳ及びビデオデータＶ１は共に装置１２により符号化され、次に入出力ユニット１８又はアンテナ２２を介してユーザ２へ送出される。符号化オーディオデータＳ２は、ｔ１よりは遅いが符号化ビデオデータＶ２が送出される時刻ｔ３より早い時刻ｔ２において送出される。図３は、ビデオデータがオーディオデータよりｔ３−ｔ２だけ既に遅延していることを示す。符号化ビデオデータＶ２の送出がこのように遅れるのは、ビデオデータの符号化処理にオーディオデータの処理より長い時間が必要なためである。
【００２０】
符号化オーディオデータＳ２は時刻ｔ４においてユーザ２の装置１４により受信され、符号化ビデオデータＶ２はそれより遅い時刻ｔ６において装置１４により受信される。符号化ビデオデータＶ２の遅延によって、時刻ｔ４よりは遅いが符号化ビデオデータＶ２が装置１４により受信される時刻ｔ６より早い時刻ｔ５において受信側装置１４が符号化オーディオデータＳ２の復号化を開始することも起こりうる。しかし、例示的な一実施形態において、時刻ｔ５は時刻ｔ６より遅くてもよい。装置１４は、時刻ｔ６より遅い時刻ｔ７において符号化ビデオデータＶ２を復号化する。
【００２１】
装置１４が復号化ビデオデータＶ３及び復号化オーディオデータＳ３の双方を同期させて再生できる最も早い時点は時刻ｔ８である。従って、従来の装置では、装置１４は時刻ｔ５から時刻ｔ８までオーディオデータを遅延させ、時刻ｔ８において復号化オーディオデータＳ３及び復号化ビデオデータＶ３の双方の再生を開始する。このｔ５からｔ８までの遅延は、従来の装置に関して「背景技術」の欄で説明した問題を引き起こす。図３は、ユーザ２がユーザ１に応答する場合のタイミング及び符号化／復号化データ並びにユーザ１がユーザ２の反応時間Ｔ１を体験反応時間Ｔとして体験することを更に示す。
【００２２】
例示的な一実施形態によれば、受信側ユーザの受信装置は、送信側ユーザが発話を停止したことを受信側ユーザに報知してもよい。この情報を得ることにより、受信側ユーザは、受信側装置がまだ受信データを処理している間に話し始めるのを回避することができる。なお、この点に関して、従来の装置では、受信側装置の内部処理の関係上、（i）受信側装置が送信側ユーザからのオーディオデータの最終部分を受信した時間と（ii）受信側ユーザが受信の事実に気づく時間との間に遅れが発生している。しかし、本実施形態によれば、この遅延は短縮又は排除される。別の例示的な実施形態によれば、受信側装置は、ユーザ１の話がまもなく終了するという指示をユーザ２に提供してもよい。これにより、そのような指示が与えられない場合と比較してユーザ２は早く話し始めることができるので、反応時間Ｔ１は短縮される。この指示は、話が続いている間は持続する視覚信号（例えばＬＥＤの点灯又は装置の画面上の記号）であってもよい。信号は、他の視覚信号又は可聴信号であってもよい。
【００２３】
図４に示される例示的な一実施形態によれば、ビデオデータ及びオーディオデータフローはユーザ２に対する音声事前通知「ａ」を含むことができる。更に詳細には、ユーザ２は、ユーザ１がオーディオデータの送出を停止したという事前通知「ａ」を受信（発生）することができる。事前通知「ａ」は、ｔ４又はそのすぐ後の時刻において発生することができ、受信側ユーザは、オーディオデータが再生されるｔ７ではなく、ｔ４においてオーディオデータの受信に気づくことになる。この事前通知は、ユーザ２の反応時間Ｔ１を短縮することになる。効果（すなわちオーディオデータの時間遅延の短縮）が図４に「Ａ」として示される。この点に関して、図４で使用されるタイミング及び記号は図３で使用されていたタイミング及び記号に類似しているので、ここでは繰り返し説明しない。
【００２４】
別の例示的な実施形態によれば、受信側装置は、ユーザ１からのオーディオデータが検出されないことをユーザ２に報知する事前通知を発生してもよい。ユーザ１からの音声が受信されていないことをユーザ２が従来判定していた時刻ｔ９より早いｔ８で、この事前通知を発生し表示してもよい。従って、この時間差ｔ９−ｔ８がユーザ２の別の効果となりうる。例示的な本実施形態において、オーディオデータの最終セグメントの終わりが判定されかつ最終セグメントの終わりに基づいて事前通知が発生される。
【００２５】
別の例示的な実施形態において、ユーザ２からのオーディオデータの始まりが受信された時点で、ユーザ２がオーディオデータの送出を開始したという指示「ｂ」がユーザ１の装置でユーザ１に対して発生される。この音声事前通知「ｂ」から、ユーザ１は、ユーザ２からの情報が他のメディアと同期された状態で提示されるまで話を再開しないことを判定する。音声事前通知「ｂ」は事前通知「ａ」と同様に実現できる。このように音声事前通知を使用することにより、会話する両者が同時に話し出す危険性は相当に低減されかつ両者の反応時間も短縮される。
【００２６】
例示的な一実施形態において、事前通知「ａ」及び「ｂ」は共に通信装置１２又は１４でそれぞれ実現されてもよい。本実施形態において、ユーザは、別のユーザからのオーディオデータが開始されたことを自身の装置により警告されかつオーディオデータが停止したこともそのオーディオデータが再生される前に停止の時点で警告される。
【００２７】
例示的な本実施形態において２つの事前通知「ａ」及び「ｂ」を使用することにより得られる総効果（すなわちオーディオデータの時間遅延の短縮）は、ユーザ２が会話区間を通知されることによってラウンドトリップ遅延が実際に短縮され、その結果、ユーザ２の反応時間が短縮され、この利点は、ユーザ２からのオーディオデータ受信をユーザ１が通知されることによるクロストークの危険性の低減と更に組み合わされる。この総効果は図４に「Ｂ」として示される。従って、ここで説明した例示的な実施形態によれば、音声事前通知を発生するように構成された装置はクロストーク（ユーザ１及びユーザ２の同時発話）の危険性を低減しかつ／又は（ユーザが話し始めるべき時間であるとより正確に決定できるので）ユーザの応答時間を短縮する。以上説明した例示的な実施形態のうち１つ又はすべての実施形態のもう１つの利点は、装置が端末で既に利用可能な情報を使用するために、すなわち端末外シグナリングが不要であるために実現が簡単なことである。
【００２８】
以上説明した例示的な実施形態を実現する例示的な方法により、図５は、通信装置により受信されるビデオデータと通信装置により受信されるオーディオデータとを同期させる方法を示す。ビデオデータは複数のビデオデータセグメントを含みかつオーディオデータは複数のオーディオデータセグメントを含む。方法は、オーディオデータの第１セグメントを通信装置で受信するステップ５０と、オーディオデータの第１セグメントと同時又はそれより遅い時点でオーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを通信装置で受信するステップ５２と、オーディオデータの第１セグメントに関連する事前通知を通信装置で発生するステップ５４と、事前通知を示す視覚情報又はオーディオ情報を生成するために事前通知を処理するステップ５６とを含む。
【００２９】
更に詳細には、ステップ５４は、オーディオデータの第１セグメントの始まりに関連する事前通知を通信装置で発生するステップ５４‐１と、オーディオデータの第１セグメントの始まりを再生する前に事前通知を示す視覚情報を表示するか又は事前通知を示すオーディオ情報を再生するステップ５４‐２とを含んでもよい。あるいは、ステップ５４は、オーディオデータの第１セグメントの終わりに関連する事前通知を通信装置で発生するステップ５４‐３と、オーディオデータの第１セグメントの終わりを再生する前に事前通知を示す視覚情報を表示するか又は事前通知を示すオーディオ情報を再生するステップ５４‐４とを含んでもよい。更に別の実施形態において、ステップ５４はステップ５４‐１〜５４‐４のすべてを含んでもよい。
【００３０】
更なる例示的な実施形態において、受信側装置は、前述の事前通知を発生又は受信するのではなく、受信されたビデオデータの中に顔が存在するか否かを検出する画像解析機能（例えば顔検出機能）を含んでもよい。受信側装置が顔を検出した場合、受信側装置により同期機能を起動してもよい。受信側装置により顔が検出されなかった場合、受信側装置は同期機能を起動しない。これにより、オーディオ及びビデオの双方を含む会話の品質が最適化される。この例示的な技術については以下に更に詳細に説明する。
【００３１】
装置１２と装置１４との間の通信は従来のセッションセットアッププロトコルを使用してセットアップされてもよい。簡潔にするため、顔解析を含む技術に関連する例示的な実施形態は、有効化同期プロトコルとしてＲＴＣＰを使用するＲＴＰ／ユーザデータグラムプロトコル（ＵＤＰ）／インターネットプロトコル（ＩＰ）通信システムに基づいて説明される。しかし、例示的な実施形態は他のシステム及びプロトコルに適用されてもよい。
【００３２】
受信側装置は必要に応じて同期機能を適用するように構成される。同期機能は、ビデオデータに関するオーディオデータの時間遅延、本明細書において説明される新規な技術又はそれらの組み合わせを含んでもよい。同期機能は、図２に示されるプロセッサ２４又は処理ユニット３２で実現されてもよい。通信装置１２及び１４のうち少なくとも一方は例示的な本実施形態に係る同期機能を含む。別の例示的な実施形態において、通信装置１２及び１４は共に同期機能を含む。
【００３３】
通信装置は、当初は同期機能がオン又はオフされている状態であるように構成されてもよい。通信中、同期を有効にするために、送信側装置は標準プロトコルツールと共にオーディオデータ及びビデオデータを送信し続ける。例示的な一実施形態において、受信側装置は受信されたビデオデータを解析し続け、顔検出機能を使用することにより、受信されたビデオデータの中に顔が存在するか否かを検出する。別の例示的な実施形態において、顔を検出するために、受信側装置は受信されたビデオデータを所定の間隔で解析する。顔検出機能は出力として「顔あり」値又は「顔なし」値を発生する。顔検出機能の一例はＰｏｌａｒＲｏｓｅ、ＭＩＮＣ（スウェーデン、Ａｎｃｋａｒｇｒｉｐｓｇａｔａｎ３２１１１９Ｍａｌｍｏ）より入手可能である。当業者には認識されるように、他の顔検出用製品を通信装置で使用してよい。別の例示的な実施形態において、顔検出機能は、顔あり／顔なしのバイナリ出力を提供するのに加えて、例えば顔が存在するか否かの確率を示すパーセンテージなどの確信度のようなソフト出力を更に発生してもよい。このソフト出力は、以下に説明されるように情報をフィルタリングする場合に使用されてもよい。
【００３４】
顔あり／顔なし出力が高速に切り替わってしまう場合には、後のステップにおいて例えばユーザの顔に対してカメラを移動させる場合などに同期機能を頻繁にオン／オフしすぎてしまうという結果をもたらすため、これを回避するために顔検出情報のローパスフィルタを適用してもよい。そのように頻繁な切り換えは音声品質に悪影響を及ぼすであろう。フィルタ機能は、「顔あり」又は「顔なし」の値と共に、頻繁な切り換えを回避するフィルタリングされた検出出力を発生する。高度な顔検出機能は、解析されるビデオデータが顔を含むか否かを検出アルゴリズムが結論付ける場合の確信度を表す０〜１００％の確信度値を出力に含む「ソフト」確信度情報を発生してもよい。説明したようなソフト確信度情報を顔検出機能が発生する場合、フィルタリング機能においてこの情報を使用可能である。例えば、検出確信度が低い場合、「顔あり」と「顔なし」との間の検出状態変化の決定の基礎をより確かなものにするために長時間のフィルタリングが適用される。
【００３５】
フィルタリング後の検出の出力値が「顔あり」である場合、オーディオデータとビデオデータを同期させるために同期機能が適用される。同期機能が以前に使用されていなかった（すなわちオフであった）場合、「顔あり」出力に基づいて同期機能がオンされる。このオンは「顔あり」出力の直後に実行してもよいが、その場合には音声に隙間が発生する。あるいは、例えば（以下に説明する）時間スケーリングを使用するか又は同期機能を実現するために会話中の中断時間だけ待機するなどの音声の隙間を排除する更に高度な方法でオンが実行されてもよい。
【００３６】
フィルタリング後の検出の出力値が「顔なし」である場合、音声に唇の動きが伴っていないため、オーディオデータとビデオデータとの同期は適用されない。従って、例示的な本実施形態によれば、オーディオデータは復号化の時点で再生されるので音声品質は向上する。この場合、同期機能がオン状態でありかつ出力値が「顔なし」であれば、同期機能はオフされる。オフは直ちに実行されてもよいが、その場合、オーディオセグメントのクリッピングが起こる。あるいは、例えば時間スケーリングを使用するか又はオーディオデータ中の中断時間だけ待機するなどのオーディオセグメントのクリッピングを排除する更に高度な方法でオフが実現されてもよい。
【００３７】
従って、受信側装置は必要に応じて同期機能をオン／オフ可能な態勢にある。有効化プロトコルとしてＲＴＣＰを使用するＲＴＰ／ＵＤＰ／ＩＰシステムにおいて、例示的な一実施形態によれば、通信装置は、ＲＴＣＰ送信機レポートを監視しかつ追跡し続けることによりいつでも同期機能をオン／オフ可能である。
【００３８】
同期機能をオン／オフする処理が図６に示される。送信側装置から受信側装置へデータが送信される。そこで、ステップ６０において受信側装置でデータが受信される。ステップ６２において、受信側装置は、送信されたデータのビデオデータの中に顔が存在するか否かを判定する。このステップで顔が存在すると判定された場合、ステップ６４で同期機能がオンされ、処理はステップ６６へ進む。ステップ６６において、データの終わりが存在するか否かが判定される。送信されたデータの終わりが判定された場合、受信側装置はスイッチング処理を停止する。しかし、ステップ６２において受信されたデータの中に顔が存在しないと判定された場合、処理はステップ６８へ進む。ステップ６８において、同期機能がオフされる。次に処理はステップ６６へ進むが、ステップ６６は先に説明した通りである。データの終わりが判定されなかった場合、処理はステップ６２に戻る。
【００３９】
以上説明した処理に続く方法の一実施例が図７に示される。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと受信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第１セグメントを通信装置で受信するステップ７０と、オーディオデータの第１セグメントと同時又はそれより遅い時点でオーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを通信装置で受信するステップ７２と、顔を検出するために受信されたビデオデータの第１セグメントを解析するステップ７４と、顔が検出された場合に同期機能をオンするステップ７６とを含む。
【００４０】
別の例示的な実施形態によれば、受信側装置は、同期処理をオン／オフするために顔認識機能を使用しない。例示的な本実施形態において、ユーザは同期処理をオン／オフすべき時点を決定する。言い換えれば、送信側装置と受信側装置との間の通信の開始時には、受信側装置で同期は適用されていない。例示的な本実施形態において、簡潔にするため、同期機能は受信側装置にあり、送信側装置にはないと考える。しかし、同期機能はいずれか一方の装置又は双方の装置に適用されてもよい。同期を必要とするメディアを受信側装置のユーザが受信した場合、ユーザは受信側装置のソフトウェアキーを押してもよい。その結果、受信側装置は同期、すなわちオーディオデータ遅延、時間スケーリング又は他の方法を適用し始める。従って、ユーザは好み及び現在の通信状況に応じて同期を適用するか否かを選択してもよい。同期機能は例示的な実施形態について先に説明された機能又は当業者に周知の機能であってもよい。ユーザは、受信側装置のオプションメニューの設定を通して、同期に関する受信側装置の通話処理のデフォルト選択肢を更に構成してもよい。例えば、同期機能はデフォルトによりオンされてもよく、ビデオデータが大きく遅れている場合に同期機能はオフされてもよい。
【００４１】
以上説明したように同期を適用するための処理が図８に示される。例示的な本実施形態において、ユーザの通信装置は、同期機能がオフされると共に始動するように構成される。別の例示的な実施形態において、通信装置は同期機能がオンされた時点で始動してもよい。送信側装置と受信側装置との通信中、同期機能を有効にするために、送信側装置は標準プロトコルツールに基づいてオーディオデータ及びビデオデータを受信側装置へ送信する。ステップ８０において、受信側装置はデータを受信する。ユーザは、同期機能をオン／オフするためのメニューオプション、例えば、同期機能が現在オフ状態である場合は「オーディオ及びビデオ同期」を示しかつ同期機能が現在オン状態である場合は「音声遅延最小化」を示すソフトウェアキーを有してもよい。別の例示的な実施形態において、ユーザは、上記の選択を実行するための非ソフトウェアキー（すなわち専用ハードウェアボタン）を通信装置に有してもよい。ステップ８２においてユーザが「オーディオ及びビデオ同期」を選択した場合、ステップ８４で同期機能はオンされる。次に、処理はステップ８６へ進み、通信装置はデータの終わりが受信されたか否かを判定する。データの終わりが受信されていた場合、処理は停止される。データの終わりが受信されていなかった場合、処理はステップ８２に戻る。ステップ８２においてユーザが「音声遅延最小化」を選択した場合、ステップ８８でオーディオデータとビデオデータとの同期はオフされかつ処理は先に説明したステップ８６へ進む。
【００４２】
以上説明した処理に続く方法の一実施例が図９に示される。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第１セグメントを通信装置で受信するステップ９０と、オーディオデータの第１セグメントと同時又はそれより遅い時点でオーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを通信装置で受信するステップ９２と、オーディオデータ及びビデオデータの同期機能をオン又はオフするためのユーザ入力指示を受信するステップ９４とを含む。
【００４３】
従って、これらの例示的な実施形態によれば、ユーザはオーディオデータとビデオデータとを同期させるべき時点を決定する。話者の唇が画像の中に存在しかつユーザが同期実行を望む場合に唇同期が使用される。そうでない場合には同期は使用されないので、オーディオデータ遅延を最小限に抑えることにより音声による会話の品質は最適化される。例示的な本実施形態は受信機のみで実現されてもよく、その場合、ネットワークからのシグナリング又は送信側装置との信号交換は不要である。
【００４４】
以下に示される例示的な実施形態によれば、後に説明される新規な方法に基づいてオーディオデータはビデオデータと同期されてもよい。以下の例示的な実施形態では事前通知、顔検出又はユーザ入力は不要である。会話の開始時における同期処理は図３を参照して説明した通りである。オーディオデータに大きな時間遅延が発生するため、その同期処理は望ましくない。しかし、本発明の新規な方法によれば、オーディオデータの時間遅延が通信システムのユーザを煩わすことのないように遅延は短縮される。例示的な一実施形態によれば、時間遅延の短縮はオーディオデータを時間スケーリングすることにより実現されてもよい。
【００４５】
更に詳細には、会話の第１の部分の間に、オーディオデータの１つ以上のセグメントは、第１の部分より時間的に遅い会話の第２の部分の間の速度とは異なる速度で再生される。会話の第１の部分は第１セグメント及び１つ以上の後続セグメントを含んでもよい。この点に関して、例示的な本実施形態では、一般的な意味で時間的に早いと定義された第１セグメントは、より大きく遅延しているビデオデータより先に遅延の少ないオーディオデータが正規の速度より遅い速度で再生されてもよい会話区間の始まりを示す時間から、オーディオデータがビデオデータに追いつく時間、すなわちオーディオとビデオとが同期される時間まで持続すると更に定義されてもよい。オーディオデータとビデオデータとが同期される時点を監視及び決定する１つの方法は、オーディオデータ及びビデオデータのフレームのタイムスタンプを監視することである。会話の第１の部分の最終セグメントは会話区間の終わりに関連し、会話区間の再生時間から無音期間の始まりが検出される現在の時間まで持続してもよい。例示的な一実施形態によれば、会話の各部分は１つの会話区間に対応してもよい。
【００４６】
従って、オーディオデータは時間遅延を短縮されて始まってもよく、その後、会話の第１の部分の間に、オーディオデータをビデオデータと同期させるためにオーディオデータのセグメントを時間スケーリングすること（「スローモーション」でオーディオを再生すること）により更に遅延が追加される。オーディオデータの認知品質がさほど劣化しないようにオーディオデータを時間スケーリングする種々の方法がある。例えば、ＩＴＵ‐Ｔ’ｓＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７１１のＡｐｐｅｎｄｉｘ１（この引用により本明細書に全内容が組み込まれる。）は、この種の方法であるＷａｖｅｆｏｒｍＳｈｉｆｔＯｖｅｒｌａｐＡｄｄ（ＷＳＯＬＡ）についての記載を含む。同期が実行された場合、オーディオデータ及びビデオデータは終了寸前まで通常速度で再生される。言い換えれば、オーディオデータはビデオデータより早く再生されることになり、それら２種類のデータは当初は同一の長さを有するので、オーディオデータの第１セグメントを通常速度より遅い速度で再生することにより、オーディオデータの少なくとも第１セグメントは「拡張」されることになる。例示的な一実施形態によれば、オーディオデータとビデオデータとの同期を実現するために、更に多くのセグメント（オーディオデータの第１セグメント及び複数の後続セグメント）を遅い速度で再生してもよい。
【００４７】
ユーザから受信されるオーディオデータの終了時に、受信されたオーディオデータの時間スケーリングを再度使用することにより（オーディオデータの少なくとも最終セグメントの速度を上げること、すなわちオーディオデータを「ファストモーション」で再生することにより）相手側ユーザの反応遅延を短縮することができる。オーディオデータはビデオデータとは同期しなくなるが、ユーザは反応時間を短縮し、短い遅延時間で相手側ユーザに返答できる。会話終了時のスケーリングについては以下に更に詳細に説明する。スケーリングは、会話の開始時のスケーリングを実現することのない装置で実現されてもよい。しかし、例示的な一実施形態において、少なくとも一方のユーザで双方のスケーリング方法が実現される。これらの新規な処理により、会話持続時間の大半の部分でビデオデータとオーディオデータとの同期を維持しつつユーザ間の対話を更に円滑に進めることができる。
【００４８】
例示的な一実施形態によれば、図１０は、ユーザ１がユーザ２に対してオーディオデータ及びビデオデータを送出しかつユーザ２も受信されたオーディオデータ及びビデオデータに応答してユーザ１に対してオーディオデータ及びビデオデータを送出していることを示す。オーディオデータＡ１及びビデオデータＶ１の入力、オーディオデータＡ２及びビデオデータＶ２の符号化及び受信、並びにオーディオデータＡ３及びビデオデータＶ３の復号化は先に図３を参照して説明した通りである。復号化オーディオデータＡ３及び復号化ビデオデータＶ３の再生は、図３で説明した再生とは異なる新規な形式である。これについては、次に図１０に関連して詳細に説明する。
【００４９】
例示的な一実施形態によれば、復号化ビデオデータＶ３が利用可能な状態になるまで復号化オーディオデータＡ３を遅らせるのではなく、復号化オーディオデータＡ３は復号化された後に再生される。従って、図１０に示されるように、復号化オーディオデータＡ３の開始時刻ｔ_Astartは復号化ビデオデータＶ３の開始時刻ｔ_Vstartより早い。従って、会話の時間遅延は従来の遅延方法と比較して短縮される。しかし、復号化オーディオデータＡ３と復号化ビデオデータＶ３との同期を実現するために、復号化ビデオデータＶ３が利用可能な状態になるまで、オーディオデータの少なくとも第１の部分「Ａ」は通常速度（所定の速度）より遅い速度で再生される。復号化ビデオデータＶ３が利用可能な状態になった時点でも、ビデオデータをオーディオデータに「追いつかせる」ためにオーディオデータは遅い速度で再生されてもよい。オーディオデータとビデオデータとを同期させるために、ビデオデータが時刻ｔ_Vstartにおいて遅い速度で再生され始めた後、期間「ａ」をおいてオーディオデータは再生されてもよい。例示的な一実施形態において、期間「ａ」は所定の値、例えば２秒である。別の例示的な実施形態によれば、オーディオデータ及びビデオデータはある特定の時間ｔ_catch-up（例えば１ｓ）の後に同期されてもよくかつ「ａ」はｔ_catch-up−"Ａ"となるように定義される。期間「ａ」の終了時、時刻ｔ_sにおいてオーディオデータとビデオデータとの同期が実現されるようにオーディオ速度が通常速度まで増加される。例示的な一実施形態において、時間「ａ」の間、オーディオデータ速度は通常速度までゆっくり（連続してかつ／又は単調に）増加される。別の実施形態において、オーディオデータ速度は低速から通常速度まで急激に（段階的に）増加される。
【００５０】
いくつかの方法において、会話区間の終了時に速度を増すために、無音期間が始まろうとしていることを予め検出することが必要である。その１つの方法は、スピードアップを有効化するために有音バッファの終わりに可能な限り早くパケットを発見するという方法であってもよい。無音期間中、ある特定のオーディオコーデック（例えばＡＭＲ）によってフレームの大きさ及び速度の相違から無音を見つけることができる。オーディオデータの終了時、オーディオデータの少なくとも最終セグメントに時間スケーリングを適用すること（オーディオデータの速度を上げること、すなわちオーディオデータの「ファーストモーション」）により相手側ユーザの反応遅延が短縮されてもよい。図１０に示されるように、復号化ビデオデータＶ３の終了直前に、復号化ビデオデータＶ３より早くオーディオデータＡ３をユーザに対して提示させるために、オーディオデータの再生速度は通常速度を超える速さに増加される。例示的な一実施形態において、オーディオデータは復号化ビデオデータＶ３より時間間隔Ｂだけ早く終了する。オーディオはビデオと同期しなくなるが、ユーザは反応時間を短縮しかつ短い遅延Ｔ１（Ｂだけ短い）で相手側ユーザに返答することが可能になる。音声の終了時（Ｂ又はＤ）のスケーリングは、音声の開始時（Ａ又はＣ）のスケーリングを実現することのない装置で実現されてもよい。
【００５１】
同様に、ユーザ１は時間スケーリングを伴わない場合より早くオーディオを開始してもよい。これは、ユーザ２がそれより早く情報を送出し始めているからでありかつ通信装置においてオーディオデータがそれより早く開始されているからである。開始時点でオーディオデータは低速で再生されるので、オーディオデータとビデオデータとの同期は同様にある時間をおいて（部分Ｃが再生された後に）実現される。この方法は、ユーザ２から情報が受信されている間にユーザ１が情報を送出し始めること、例えばユーザ１が話し始めてしまうことを防止する。更に、この方法により従来の処理と比べて体験反応時間が短くなるので、妨害レベルは低下する。
【００５２】
既に受信された音声フレームから、例えば無音部が検出された時点で会話区間の終わりを判定できる。この検出に基づいて、相手側ユーザの応答時間を短縮させるために、時間間隔Ｄだけビデオデータがオーディオデータなしで再生されるように（オーディオデータは既に再生済みであるため）オーディオデータの終わりは高速で再生されてもよい。従って、以上説明した例示的な実施形態によれば、音声の遅延を短縮することにより会話の品質に与える影響を最小限に抑えた上で、大半の時間で（例えば期間Ａ、Ｂ、Ｃ及びＤを除く）オーディオはビデオと同期される。
【００５３】
第１セグメントをスケーリングする方法の一実施例を図１１に示す。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第１セグメントを通信装置で受信するステップ１１０と、オーディオデータの第１セグメントと同時又はそれより遅い時点でオーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを通信装置で受信するステップ１１２と、オーディオデータの第１セグメントをスケーリングするステップ１１４と、ビデオデータの第１セグメントを受信又は復号化する前にスケーリング済みのオーディオデータの第１セグメントを再生するステップ１１６とを含む。
【００５４】
図１２を参照して、オーディオデータの最終セグメントをスケーリングする別の方法の実施例を説明する。方法は、オーディオデータの最終セグメントを通信装置で受信するステップ１２０と、オーディオデータの最終セグメントと同時又はそれより遅い時点でビデオデータの最終セグメントを通信装置で受信するステップ１２２と、オーディオデータの最終セグメントをスケーリングするステップ１２４と、ビデオデータの最終セグメントを受信又は復号化する前に、スケーリングしたオーディオデータの最終セグメントを再生するステップ１２６とを含む。図１２に示されるステップは図１１に示されるステップと関連して実行されてもよいが、図１１に示されるステップから独立して実行されてもよい。
【００５５】
図１３は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法のステップを示すフローチャートである。方法は、オーディオデータの第１セグメントを通信装置で受信するステップ１３０と、オーディオデータの第１セグメントと同時又はそれより遅い時点でオーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを通信装置で受信するステップ１３２と、所定の指標に基づいてオーディオデータの第１セグメントとビデオデータの第１セグメントとの間に同期処理を適用するステップ１３４とを含む。同期処理は、先に説明した新規な同期処理のうちの１つであってもよい。
【００５６】
以上、種々の例示的な実施形態を個別に説明した。ただし、それらの例示的な実施形態の任意の組み合わせを使用可能であることは当業者には理解されよう。
【００５７】
開示された例示的な実施形態は、送信側装置から受信側装置へオーディオデータ及びビデオデータを送出しかつ受信側装置でオーディオデータとビデオデータとを同期させる通信装置、システム、方法及びコンピュータプログラムを提供する。以上の説明は本発明を限定することを意図するものではないことが理解されるべきである。上述の例示的な実施形態は、添付の請求の範囲により定義される本発明の主旨及び範囲に含まれる代替構成、変形及び均等の構造を含むことを意図している。更に、例示的な実施形態の詳細な説明の中には、特許請求の範囲に記載される発明を包括的に理解させるために特定の詳細な事項が多数記載されている。しかし、そのような特定の詳細な事項を含まずに種々の実施形態が実施されうることは当業者には理解されよう。
【００５８】
同様に、例示的な実施形態は無線通信装置、有線通信装置又は電気通信ネットワークにおいて、あるいは方法として又はコンピュータプログラムとして実現されてもよいことが当業者には理解されよう。従って、例示的な実施形態は完全にハードウェアの実施形態の形をとってもよいが、ハードウェアの面とソフトウェアの面とを組み合わせた実施形態の形であってもよい。更に、例示的な実施形態は、コンピュータ可読命令が実現されているコンピュータ可読記憶媒体に格納されたコンピュータプログラムの形をとってもよい。ハードディスク、ＣＤ‐ＲＯＭ、デジタル・バーサタイル・ディスク（ＤＶＤ）、光記憶装置、あるいはフロッピディスク又は磁気テープなどの磁気記憶装置を含む任意の適切なコンピュータ可読媒体が利用されてもよい。他のコンピュータ可読媒体の例はフラッシュ型メモリ又は他の周知のメモリなどであるが、それらに限定されない。
【００５９】
本発明の例示的な実施形態の特徴及び要素を実施形態において特定の組み合わせで説明したが、各々の特徴又は要素は実施形態の他の特徴及び要素を含まずに単独で使用可能であるか、あるいは開示される他の特徴及び要素と共に又はそれらの特徴及び要素を含まずに種々の組み合わせで使用可能である。本出願において提示される方法又はフローチャートは、汎用コンピュータ又は汎用プロセッサにより実行するためにコンピュータ可読記憶媒体において実体のある形で実現されるコンピュータプログラム、ソフトウェア又はファームウェアとして実現されてもよい。
【００６０】
例示的な実施形態は特定用途向け集積回路（ＡＳＩＣ）又はデジタルシグナルプロセッサにおいて実現されてもよい。適切なプロセッサは、例えば汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアと関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、他の任意の種類の集積回路（ＩＣ）及び／又は状態遷移機械を含む。ユーザ端末、基地局又は任意のホストコンピュータで使用するための無線周波数トランシーバを実現するために、ソフトウェアと関連するプロセッサが使用されてもよい。ユーザ端末は、カメラ、ビデオカメラモジュール、ビデオホン、スピーカホン、振動装置、スピーカ、マイク、テレビジョントランシーバ、ハンズフリーヘッドホン、キーボード、Ｂｌｕｅｔｏｏｔｈモジュール、周波数変調（ＦＭ）無線ユニット、液晶ディスプレイ（ＬＣＤ）表示ユニット、有機発光ダイオード（ＯＬＥＤ）表示ユニット、デジタル音楽プレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ及び／又は任意の無線ローカルエリアネットワーク（ＷＬＡＮ）などのハードウェア及び／又はソフトウェアで実現されたモジュールと関連して使用されてもよい。

【特許請求の範囲】
【請求項１】
通信装置（１２）により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法であって、
オーディオデータの第１セグメントを前記通信装置（１２）で受信するステップと、
前記オーディオデータの第１セグメントと同時又はそれより遅い時点で、該第１のオーディオデータに論理的に関連するビデオデータの第１セグメントを前記通信装置（１２）で受信するステップと、
所定の指標に基づいて、前記オーディオデータの第１セグメントと前記ビデオデータの第１セグメントとの間に同期処理を適用するステップと、
を有することを特徴とする方法。
【請求項２】
前記オーディオデータの第１セグメントの始まりに関連する事前通知を前記通信装置で発生するステップと、
前記オーディオデータの第１セグメントの始まりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項３】
前記オーディオデータの最終セグメントの終わりに関連する事前通知を前記通信装置で発生するステップと、
前記オーディオデータの最終セグメントの終わりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項４】
前記視覚情報を画像又は文字として前記通信装置の画面に表示し、又は、光源により発生される光として表示し、又は、音声を放射するために前記オーディオデータを処理するステップを更に有することを特徴とする請求項２に記載の方法。
【請求項５】
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第１セグメントを分析するステップを更に有することを特徴とする請求項１に記載の方法。
【請求項６】
前記ビデオデータの第１セグメント中に前記顔が存在する確率を判定するために前記受信されたビデオデータの第１セグメントをフィルタリングするステップを更に有することを特徴とする請求項５に記載の方法。
【請求項７】
前記判定された確率が所定の閾値確率より高い場合に前記同期処理をオンするステップを更に有することを特徴とする請求項６に記載の方法。
【請求項８】
対応する後続ビデオデータセグメントにおいて次に判定された顔が存在する確率が前記所定の閾値確率より低い場合は前記同期処理をオフするステップを更に有することを特徴とする請求項７に記載の方法。
【請求項９】
前記所定の指標としてのユーザ入力指示を受信するステップを更に有することを特徴とする請求項１に記載の方法。
【請求項１０】
前記ユーザ入力指示を前記通信装置に入力するためのソフトウェアキーを生成するステップを更に有することを特徴とする請求項９に記載の方法。
【請求項１１】
前記同期処理を適用するステップは、
前記ビデオデータの第１セグメントを受信又は復号化する前に、前記オーディオデータの第１セグメントの始まりを再生するステップを含むことを特徴とする請求項１に記載の方法。
【請求項１２】
前記再生するステップは、
所定の速度より遅い低再生速度で少なくとも前記オーディオデータの第１セグメントを再生するステップを更に有することを特徴とする請求項１１に記載の方法。
【請求項１３】
前記ビデオデータの第１セグメントを再生のために利用可能である場合、前記オーディオデータの第１セグメント又はそれに続くセグメントの前記低再生速度を前記所定の速度まで上げるステップを更に有することを特徴とする請求項１２に記載の方法。
【請求項１４】
前記オーディオデータの最終セグメントを前記通信装置で受信するステップと、
前記オーディオデータの最終セグメントと同時又はそれより遅い時点で、前記オーディオデータの最終セグメントに論理的に関連する前記ビデオデータの最終セグメントを前記通信装置で受信するステップと、
前記オーディオデータの最終セグメントと前記ビデオデータの最終セグメントとが同期しないように、所定の速度より速い高再生速度で前記オーディオデータの最終セグメントを再生するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項１５】
前記ビデオデータの最終セグメントの再生を終了する前に、前記オーディオデータの最終セグメントの再生を終了するステップを更に有することを特徴とする請求項１４に記載の方法。
【請求項１６】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置（１２）であって、
オーディオデータの第１セグメントを受信し、該オーディオデータの第１セグメントと同時又はそれより遅い時点で、該オーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを受信する入出力ユニット（１８）と、
所定の指標に基づいて、前記オーディオデータの第１セグメントと前記ビデオデータの第１セグメントとの間に同期処理を適用するプロセッサ（２４）と、
を有することを特徴とする通信装置。
【請求項１７】
前記プロセッサは、更に、
前記オーディオデータの第１セグメントの始まりに関連する事前通知を発生し、
前記オーディオデータの第１セグメントの始まりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生する
ことを特徴とする請求項１６に記載の通信装置。
【請求項１８】
前記プロセッサは、更に、
前記オーディオデータの最終セグメントの終わりに関連する事前通知を発生し、
前記オーディオデータの最終セグメントの終わりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生する
ことを特徴とする請求項１６に記載の通信装置。
【請求項１９】
前記視覚情報を前記通信装置の画面に画像又は文字として表示し、又は、光源により発生される光として表示する表示ユニット、又は、
前記オーディオデータを音声として再生する音声再生ユニット、
を更に有することを特徴とする請求項１７に記載の通信装置。
【請求項２０】
前記プロセッサは、更に、
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第１セグメントを分析することを特徴とする請求項１６に記載の通信装置。
【請求項２１】
前記プロセッサは、更に、
前記ビデオデータの第１セグメント中に前記顔が存在する確率を判定するために前記受信されたビデオデータの第１セグメントをフィルタリングすることを特徴とする請求項２０に記載の通信装置。
【請求項２２】
前記プロセッサは、更に、
前記判定された確率が所定の閾値確率より高い場合に前記同期処理をオンすることを特徴とする請求項２１に記載の通信装置。
【請求項２３】
前記プロセッサは、更に、
対応する後続ビデオデータセグメントにおいて次に判定された顔が存在する確率が前記所定の閾値確率より低い場合は前記同期処理をオフすることを特徴とする請求項２１に記載の通信装置。
【請求項２４】
前記所定の指標を提供するためにユーザ入力指示を受信する入出力インタフェースを更に有することを特徴とする請求項１６に記載の通信装置。
【請求項２５】
表示ユニットを更に有し、
前記プロセッサは、更に、前記ユーザ入力指示を入力するためのソフトウェアキーを前記表示ユニット上に生成することを特徴とする請求項２４に記載の通信装置。
【請求項２６】
前記プロセッサは、更に、
前記ビデオデータの第１セグメントを受信又は復号化する前に、少なくとも前記オーディオデータの第１セグメントを再生することを特徴とする請求項１６に記載の通信装置。
【請求項２７】
前記プロセッサは、更に、
所定の速度より遅い低再生速度で前記オーディオデータの第１セグメントを再生することを特徴とする請求項２６に記載の通信装置。
【請求項２８】
前記プロセッサは、更に、
前記ビデオデータの第１セグメントを再生のために利用可能である場合、前記オーディオデータの第１セグメント又はそれに続くオーディオデータセグメントの前記低再生速度を前記所定の速度まで上げることを特徴とする請求項２７に記載の通信装置。
【請求項２９】
前記入出力ユニットは、更に、前記オーディオデータの最終セグメントを受信し、該オーディオデータの最終セグメントと同時又はそれより遅い時点で、前記オーディオデータの最終セグメントに論理的に関連する前記ビデオデータの最終セグメントを受信し、
前記プロセッサは、更に、前記オーディオデータの最終セグメントと前記ビデオデータの最終セグメントとが同期しないように、所定の速度より速い高再生速度で前記オーディオデータの最終セグメントを再生する
ことを特徴とする請求項１６に記載の通信装置。
【請求項３０】
前記プロセッサは、更に、
前記ビデオデータの再生の終了前に、前記オーディオデータの再生を終了することを特徴とする請求項２９に記載の通信装置。
【請求項３１】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置（１２）であって、
オーディオデータの第１セグメントを受信し、該オーディオデータの第１セグメントと同時又はそれより遅い時点で、該オーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを受信する手段（１８）と、
所定の指標に基づいて、前記オーディオデータの第１セグメントと前記ビデオデータの第１セグメントとの間に同期処理を適用する手段（２４）と、
を有することを特徴とする通信装置。
【請求項３２】
通信装置（１２）により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法であって、
オーディオデータの第１セグメントを前記通信装置で受信するステップと、
前記オーディオデータの第１セグメントと同時又はそれより遅い時点で、該オーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを前記通信装置（１２）で受信するステップと、
前記オーディオデータの第１セグメントに関連する事前通知を前記通信装置（１２）で発生するステップと、
前記事前通知を示す視覚情報又はオーディオ情報を生成するために前記事前通知を処理するステップと、
を有することを特徴とする方法。
【請求項３３】
前記事前通知を受信するステップは、前記オーディオデータの第１セグメントの終わりを示す終了事前通知を受信するステップを含むことを特徴とする請求項３２に記載の方法。
【請求項３４】
前記視覚情報を画像又は文字として前記通信装置の画面に表示し、又は、光源により発生される光として表示し、又は、音声を放射するために前記オーディオデータを処理するステップを更に有することを特徴とする請求項３２に記載の方法。
【請求項３５】
所定の指標に基づいて前記オーディオデータセグメントと前記ビデオデータセグメントとの間に同期処理を適用するステップを更に有することを特徴とする請求項３２に記載の方法。
【請求項３６】
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第１セグメントを分析するステップ、又は、
前記所定の指標としてのユーザ入力指示を受信するステップ、
を更に有することを特徴とする請求項３５に記載の方法。
【請求項３７】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置（１２）であって、
オーディオデータの第１セグメントを受信し、該オーディオデータの第１セグメントと同時又はそれより遅い時点で、該オーディオデータの第１セグメントに論理的に関連するビデオデータの第１セグメントを受信するとともに、前記オーディオデータの第１セグメントに関連する事前通知を受信し、該事前通知を示す視覚情報又はオーディオ情報を生成するために前記事前通知を処理するプロセッサ（２４）と、
前記プロセッサに接続され、前記視覚情報を表示する表示ユニット（２８）、又は、前記プロセッサに接続され、前記オーディオ情報に基づいて音声を放射する音声ユニット（３４）、のうちの少なくとも一方と、
を有することを特徴とする通信装置。
【請求項３８】
前記表示ユニットが、前記視覚情報を画像又は文字として画面に表示し、又は、光源により発生される光として表示し、又は、前記音声ユニットが、前記オーディオ情報に対応する音源を放射する、ことを特徴とする請求項３７に記載の通信装置。
【請求項３９】
前記プロセッサは、更に、
所定の指標に基づいて前記オーディオデータの第１セグメントと前記ビデオデータの第１セグメントとの間に同期処理を適用することを特徴とする請求項３７に記載の通信装置。
【請求項４０】
前記プロセッサは、更に、
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第１セグメントを分析し、又は、
前記所定の指標を提供するユーザ入力指示を受信する
ことを特徴とする請求項３９に記載の通信装置。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【公表番号】特表２０１２−５１１２７９（Ｐ２０１２−５１１２７９Ａ）
【公表日】平成２４年５月１７日（２０１２．５．１７）
【国際特許分類】

電気 (1,674,590)
- 電気通信技術 (544,871)
  - 画像通信，例．テレビジョン (280,882)
    - テレビジョン方式［４，２０１１．０１］ (43,981)
      - 双方向動作方式 (1,933)
      - パルス符号変調を用いるテレビジョン信号の伝送方式［６，２０１１... (10,979)
        
        ビットレートの低減をするもの (10,935)

【出願番号】特願２０１１−５３９４７３（Ｐ２０１１−５３９４７３）
【出願日】平成２０年１２月８日（２００８．１２．８）
【国際出願番号】ＰＣＴ／ＳＥ２００８／０５１４２０
【国際公開番号】ＷＯ２０１０／０６８１５１
【国際公開日】平成２２年６月１７日（２０１０．６．１７）
【公序良俗違反の表示】
（特許庁注：以下のものは登録商標）
１．Ｂｌｕｅｔｏｏｔｈ
【出願人】（５９８０３６３００）テレフオンアクチーボラゲット　エル　エム　エリクソン（パブル） (2,266)
【Ｆターム（参考）】

双方向ＴＶ、動画像配信等 (137,112)

[ Back to top ]

受信オーディオデータをビデオデータと同期させるための装置及び方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

受信オーディオデータをビデオデータと同期させるための装置及び方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク