受信オーディオデータをビデオデータと同期させるための装置及び方法
通信装置により受信された、複数のビデオデータセグメントを含むビデオデータと、通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させるための、通信装置(12)、コンピュータ可読媒体及び方法。方法は、オーディオデータの第1セグメントを通信装置(12)で受信するステップと、オーディオデータの第1セグメントと同時又はそれより遅い時点で、オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップと、所定の指標に基づいて、オーディオデータの第1セグメントとビデオデータの第1セグメントとの間に同期処理を適用するステップとを含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオデータ及びビデオデータを処理可能な方法、装置及びシステムに関し、特に、オーディオデータと共に送信されるビデオデータの再生と関連する時間遅延を補償する技術及び方法に関する。
【背景技術】
【0002】
ビデオデータ及びそれに関連するオーディオデータの双方を含み、マルチメディアを使用する通信は、通信技術の分野において固定アクセス及び移動アクセスの双方で重要性を増している。従来の音声のみによる通話に加えて映像成分(すなわちビデオデータ)を含むように改良が進んでいるため、いわゆる「テレビ電話(video telephony)」を使用してユーザが通信する機会が多くなっている。
【0003】
テレビ電話による通話に関連するビデオデータは、通常、送信側装置のビデオカメラにより作成される。送信側装置は移動電話のようなポータブル装置であってもよい。場合によっては、話者の顔を示すようにカメラを位置決めするために、ユーザは送信側装置の向きを調整する。しかしカメラは、ユーザが会話に関連すると考える他の物、例えばユーザが会話中の相手に見せたいと思う景色などを示すために使用されることもある。従って、通信セッション中に示される物は変化しうる。この点に関して、ビデオデータとオーディオデータは通常、論理的関連性を伴って生成される。例えば、ユーザの音声は、その音声を発しているユーザに対応するユーザの顔の映像と関連している。
【0004】
視聴者であるユーザの画面に話者であるユーザも表示される場合、ユーザがオーディオとビデオとの適切な組み合わせを体験するようにオーディオデータとビデオデータとが同期されることが望ましい。適切な組み合わせを実現するために、通常、ユーザの唇の動きは装置のスピーカホンからの音声と同期しているべきである。そうすれば、唇の動きと聞き取られる言葉との間に、互いに近い距離にいる二人が通常会話している場合と同じような関連性が得られる。本明細書において、これを唇同期又はオーディオデータとビデオデータとの論理的関連性と呼ぶ。
【0005】
従って、3G回線交換テレビ電話(例えば、3GPPTS26.111(フランス、route des Lucioles 06921 Sophia‐Antipolis Codex、ETSI Mobile Competence Centre 650の3GPP標準規格グループによる)を参照。同文献はこの引用により本明細書に組み込まれる。)のような既存の装置、及び、新技術であるIMS Multimedia Telephony(例えばETSIによる3GPP TS 22.173及びETSI TS181002を参照。)のようなIPマルチメディアサービスにおいては、メディア間同期のサポートが望まれている。以下、オーディオとビデオを同期させるための従来の方法を説明する。Circuit Switched Multimediaの場合、オーディオをビデオと同期させるために、オーディオがどのくらい遅延しているかを指示できる(ITU‐T H.324を参照)。リアルタイム転送プロトコル(RTP、IETF RFC3550を参照)を介して搬送されるサービスの場合、同期を実現するための入力としてRTPタイムスタンプをRTP制御プロトコル(RTCP)送信機レポートと共に使用可能である(IETF RFC3550を参照)。しかし、既存のいくつかのマルチメディア通信サービスはメディア同期を行わないので、唇同期が必要とされる場合にユーザは不十分な通話しかできない。
【0006】
オーディオをビデオと同期させているシステムは、所望の唇同期を実現するために、通常、ビデオデータが復号化されるまである特定の長さの時間だけオーディオデータを遅延させ、その後、2つのデータが同時に再生される。しかし、この同期方法では遅延が増加し、その結果、応答時間が長くなって会話に問題が生じるため、ユーザにとってこの方法は好ましくない。例えば、通常、ビデオデータは、音声がマイクからスピーカホンに到達するまでの遅延時間よりも、カメラから画面に到達するまでの長い遅延時間を持つ。ビデオデータの遅延が長くなる原因は、(オーディオデータと比較して)符号化及び復号化に関連するアルゴリズム遅延が長いこと、フレームレートが遅いこと、場合によってはビットレートが高いために転送遅延が長くなることである。受信側装置がオーディオとビデオとを同期させると仮定すると、装置は、オーディオデータを再生する前にオーディオデータフローを遅延させなければならない。これにより、当然のことながらユーザは会話に不満を覚え、その結果、会話品質は低下する。例えば、オーディオデータの遅延がある特定の限界(約200ms)を超えると、会話品質に影響が出始める。第1に、相手側の話者の反応が遅く感じられ、場合によっては、双方の話者が同時に話し始めてしまう(これは二人の話者がある時間遅延をおいて初めてこの問題に気づくからである)こともあるので、ユーザは幾分苛立ちを感じるであろう。遅延が長い(例えば500msを超える)場合、正常な会話を続けるのが難しくなり始める。従って、テレビ電話を使用する話者が不満を感じる原因の1つは、顔を合わせて行う通常の会話又は音声のみの電話による会話とは異なり、相手側の話者の応答時間が長すぎることである。
【0007】
従って、上述の問題点及び欠点を回避するオーディオ及びビデオ通信のための装置、システム及び方法を提供することが望まれる。
【発明の概要】
【0008】
例示的な一実施形態によれば、通信装置により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法が提供される。前記方法は、オーディオデータの第1セグメントを前記通信装置で受信するステップと、オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップと、所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用するステップとを有する。
【0009】
別の例示的な実施形態によれば、複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置が提供される。前記通信装置は、オーディオデータの第1セグメントを受信し、該オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを受信する入出力ユニットと、所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用するプロセッサとを有する。
【図面の簡単な説明】
【0010】
【図1】例示的な一実施形態に係る送信側装置、受信側装置及び通信ネットワークを含む通信システムを示す図である。
【図2】例示的な一実施形態に係る送信側装置又は受信側装置を示す図である。
【図3】送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図4】例示的な一実施形態に係る事前通知を使用して送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図5】例示的な一実施形態に係る事前通知を送信するために実行されるステップを示すフローチャートである。
【図6】例示的な一実施形態に係る顔検出処理に基づいて同期機能をオン及びオフする処理を示す図である。
【図7】例示的な一実施形態に係る顔検出処理に基づいて同期機能をオン及びオフするためのステップを示すフローチャートである。
【図8】例示的な一実施形態に係るユーザ入力に基づいて同期機能をオン及びオフする処理を示す図である。
【図9】例示的な一実施形態に係るユーザ入力に基づいて同期機能をオン及びオフするためのステップを示すフローチャートである。
【図10】時間スケーリングを伴って送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図11】例示的な一実施形態に係るオーディオデータの第1セグメントに時間スケーリングを適用するためのステップを示すフローチャートである。
【図12】例示的な一実施形態に係るオーディオデータの最終セグメントに時間スケーリングを適用するためのステップを示すフローチャートである。
【図13】図13は、ビデオデータをオーディオデータと同期させる方法のステップを示すフローチャートである。
【発明を実施するための形態】
【0011】
(略語)
RTP:Real-Time Transport Protocol:リアルタイム転送プロトコル
RTCP:Real-Time Control Protocol:リアルタイム制御プロトコル
AVS:Audio-video signal:オーディオビデオ信号
LED:Light Emitting Diode:発光ダイオード
UDP:User Datagram Protocol:ユーザデータグラムプロトコル
IP:Internet Protocol:インターネットプロトコル
AMR:Adaptive Multi-Rate:適応マルチレート
DVD:Digital Versatile Disc:デジタル・バーサタイル・ディスク
ASIC:Application Specific Integrated Circuit:特定用途向け集積回路
DSP:Digital Signal Processor:デジタル信号プロセッサ
FPGA:Field Programmable Gate Array:フィールドプログラマブルゲートアレイ
IC:Integrated Circuit:集積回路
FM:Frequency Modulated:周波数変調
LCD:Liquid Crystal Display:液晶ディスプレイ
OLED:Organic Light-Emitting Diode:有機発光ダイオード
WLAN:Wireless Local Area Network:無線ローカルエリアネットワーク
【0012】
(詳細な説明)
以下の例示的な実施形態の説明では添付の図面を参照する。図面中、同一の参照符号は同一の要素又は類似する要素を示す。以下の詳細な説明は本発明を限定するものではない。本発明の範囲は添付の請求の範囲によって定義されるものである。簡潔にするため、以下の実施形態では、移動電話を使用する別のユーザと通信するために同様に移動電話を使用するユーザに関して説明する。しかし、以下に説明される実施形態はこのシステムに限定されず、他の既存のオーディオ及びビデオ送信システムに適用されうる。
【0013】
本明細書を通して、「一実施形態」という用語は、1つの実施形態と関連して説明される特定の1つの特徴、構造又は特性が本発明の少なくとも1つの実施形態に含まれることを意味する。従って、本明細書中の種々の箇所に見られる「一実施形態において」という表現は常に同一の実施形態を示すとは限らない。更に、特定の特徴、構造又は特性を、1つ以上の実施形態において任意の適切な態様で組み合わせることが可能である。
【0014】
図1に示されるように、例示的な一実施形態によれば、システム10は、通信ネットワーク16を介して互いに接続された第1の通信装置12及び第2の通信装置14を含む。装置12及び14は、デスクトップ、ラップトップ、移動電話、従来の電話、PDA、デジタルカメラ、ビデオカメラなどであってもよい。2つの装置は有線又は無線インタフェースを介して互いに接続されうる。2つの装置は互いに直接接続されてもよいが、通信ネットワークの一部である1つ以上の基地局(図示せず)を介して接続されてもよい。本明細書において、「基地局」という用語は、例えばモデム、電気通信システムにおける局、ネットワーク全体のように接続する装置の間のデータのやり取りを容易にする任意の装置を表す一般的な用語として使用される。
【0015】
図2に示されるように、装置12又は14の構造は、オーディオビデオ信号AVSを送受信するように構成された入出力ポート18を含む。オーディオビデオ信号AVSはオーディオデータ及びビデオデータを含みうる。オーディオデータ又はビデオデータの各々は複数のセグメントを含みうる。1つのセグメントは、ある特定の時間に対応する複数のフレームを含みうる。しかし、このセグメントの定義は特定の環境条件に応じて更に限定されてもよい。特定の実施形態に関してその実施例を後に挙げる。複数のオーディオデータセグメント及び/又はビデオデータセグメントは、第1セグメント及び最終セグメントを含んでもよく、第1セグメントと最終セグメントとの間に他の複数のセグメントを更に含んでもよい。例えば顔をビデオ録画しつつオーディオメッセージを録音するユーザの場合のように、1つのオーディオデータセグメントはビデオデータの1つのセグメントに対応してもよい。
【0016】
ビデオ信号AVSを受信するために、入出力ポート18はバス20を介してアンテナ22又はワイヤライン(図示せず)に接続されてもよい。アンテナ22は単一のアンテナ又は多重アンテナであってもよくかつ赤外線、無線周波数又は他の周知の無線インタフェースを介してオーディオビデオ信号AVSを受信するように構成されてもよい。入出力ポート18は、オーディオビデオ信号AVSを受信して処理するプロセッサ24に更に接続される。プロセッサ24はバス20を介してメモリ26に接続されてもよい。メモリ26はオーディオビデオ信号AVS及びプロセッサ24に必要な他のデータを格納してもよい。
【0017】
例示的な一実施形態において、装置12は、受信されたオーディオビデオ信号AVSに対応する画像を表示するように構成されたディスプレイ28を有してもよい。ディスプレイ28は画面であってもよくかつ1つ以上のLED又は他の任意の周知の光源発光デバイスを更に含んでもよい。ディスプレイ28は画面及びLEDの組み合わせであってもよい。別の例示的な実施形態において、装置12は、ユーザからの指示及び/又はデータを入力可能な入出力インタフェース30、例えばキーボード、マウス、マイク、ビデオカメラなどを有してもよい。
【0018】
装置12は、バス20に接続されかつ受信されたオーディオビデオ信号AVSの種々の指標を測定可能であるか又はユーザの顔を抽出するためにAVSのビデオデータを分析可能であるか、あるいは異なる速度(録画速度より速い速度又は遅い速度)でAVSのオーディオデータを再生可能である処理ユニット32を有してもよい。装置12は、装置により受信されるオーディオデータに基づいて音声を発生するように構成された音声ユニット34を有してもよい。更に、音声ユニット34は、プロセッサ24の命令に従って音声を放射するか又は音声を記録してもよい。例示的な一実施形態において、音声ユニットはスピーカホン及びマイクを含んでもよい。図1に示される装置14は、図2に示される装置12と同一の構造を有してもよい。
【0019】
以下の説明中、簡潔にするため、装置12(図1を参照)は送信機であると考えかつ装置14(同様に図1を参照)は受信機であると考える。しかし、装置12及び14は共に送信機として及び/又は受信機として動作してもよい。装置12のユーザ1が装置14のユーザ2に向けてビデオデータ及びオーディオデータを送信した場合、まず装置12において図3に示されるような動作が起こり、次に装置14において図3に示されるような動作が起こる。更に詳細には、時刻t1で、装置12はユーザ1又は別の情報源からオーディオデータS1を受信しかつユーザ1又は別の情報源からビデオデータV1を受信する。オーディオデータS及びビデオデータV1は共に装置12により符号化され、次に入出力ユニット18又はアンテナ22を介してユーザ2へ送出される。符号化オーディオデータS2は、t1よりは遅いが符号化ビデオデータV2が送出される時刻t3より早い時刻t2において送出される。図3は、ビデオデータがオーディオデータよりt3−t2だけ既に遅延していることを示す。符号化ビデオデータV2の送出がこのように遅れるのは、ビデオデータの符号化処理にオーディオデータの処理より長い時間が必要なためである。
【0020】
符号化オーディオデータS2は時刻t4においてユーザ2の装置14により受信され、符号化ビデオデータV2はそれより遅い時刻t6において装置14により受信される。符号化ビデオデータV2の遅延によって、時刻t4よりは遅いが符号化ビデオデータV2が装置14により受信される時刻t6より早い時刻t5において受信側装置14が符号化オーディオデータS2の復号化を開始することも起こりうる。しかし、例示的な一実施形態において、時刻t5は時刻t6より遅くてもよい。装置14は、時刻t6より遅い時刻t7において符号化ビデオデータV2を復号化する。
【0021】
装置14が復号化ビデオデータV3及び復号化オーディオデータS3の双方を同期させて再生できる最も早い時点は時刻t8である。従って、従来の装置では、装置14は時刻t5から時刻t8までオーディオデータを遅延させ、時刻t8において復号化オーディオデータS3及び復号化ビデオデータV3の双方の再生を開始する。このt5からt8までの遅延は、従来の装置に関して「背景技術」の欄で説明した問題を引き起こす。図3は、ユーザ2がユーザ1に応答する場合のタイミング及び符号化/復号化データ並びにユーザ1がユーザ2の反応時間T1を体験反応時間Tとして体験することを更に示す。
【0022】
例示的な一実施形態によれば、受信側ユーザの受信装置は、送信側ユーザが発話を停止したことを受信側ユーザに報知してもよい。この情報を得ることにより、受信側ユーザは、受信側装置がまだ受信データを処理している間に話し始めるのを回避することができる。なお、この点に関して、従来の装置では、受信側装置の内部処理の関係上、(i)受信側装置が送信側ユーザからのオーディオデータの最終部分を受信した時間と(ii)受信側ユーザが受信の事実に気づく時間との間に遅れが発生している。しかし、本実施形態によれば、この遅延は短縮又は排除される。別の例示的な実施形態によれば、受信側装置は、ユーザ1の話がまもなく終了するという指示をユーザ2に提供してもよい。これにより、そのような指示が与えられない場合と比較してユーザ2は早く話し始めることができるので、反応時間T1は短縮される。この指示は、話が続いている間は持続する視覚信号(例えばLEDの点灯又は装置の画面上の記号)であってもよい。信号は、他の視覚信号又は可聴信号であってもよい。
【0023】
図4に示される例示的な一実施形態によれば、ビデオデータ及びオーディオデータフローはユーザ2に対する音声事前通知「a」を含むことができる。更に詳細には、ユーザ2は、ユーザ1がオーディオデータの送出を停止したという事前通知「a」を受信(発生)することができる。事前通知「a」は、t4又はそのすぐ後の時刻において発生することができ、受信側ユーザは、オーディオデータが再生されるt7ではなく、t4においてオーディオデータの受信に気づくことになる。この事前通知は、ユーザ2の反応時間T1を短縮することになる。効果(すなわちオーディオデータの時間遅延の短縮)が図4に「A」として示される。この点に関して、図4で使用されるタイミング及び記号は図3で使用されていたタイミング及び記号に類似しているので、ここでは繰り返し説明しない。
【0024】
別の例示的な実施形態によれば、受信側装置は、ユーザ1からのオーディオデータが検出されないことをユーザ2に報知する事前通知を発生してもよい。ユーザ1からの音声が受信されていないことをユーザ2が従来判定していた時刻t9より早いt8で、この事前通知を発生し表示してもよい。従って、この時間差t9−t8がユーザ2の別の効果となりうる。例示的な本実施形態において、オーディオデータの最終セグメントの終わりが判定されかつ最終セグメントの終わりに基づいて事前通知が発生される。
【0025】
別の例示的な実施形態において、ユーザ2からのオーディオデータの始まりが受信された時点で、ユーザ2がオーディオデータの送出を開始したという指示「b」がユーザ1の装置でユーザ1に対して発生される。この音声事前通知「b」から、ユーザ1は、ユーザ2からの情報が他のメディアと同期された状態で提示されるまで話を再開しないことを判定する。音声事前通知「b」は事前通知「a」と同様に実現できる。このように音声事前通知を使用することにより、会話する両者が同時に話し出す危険性は相当に低減されかつ両者の反応時間も短縮される。
【0026】
例示的な一実施形態において、事前通知「a」及び「b」は共に通信装置12又は14でそれぞれ実現されてもよい。本実施形態において、ユーザは、別のユーザからのオーディオデータが開始されたことを自身の装置により警告されかつオーディオデータが停止したこともそのオーディオデータが再生される前に停止の時点で警告される。
【0027】
例示的な本実施形態において2つの事前通知「a」及び「b」を使用することにより得られる総効果(すなわちオーディオデータの時間遅延の短縮)は、ユーザ2が会話区間を通知されることによってラウンドトリップ遅延が実際に短縮され、その結果、ユーザ2の反応時間が短縮され、この利点は、ユーザ2からのオーディオデータ受信をユーザ1が通知されることによるクロストークの危険性の低減と更に組み合わされる。この総効果は図4に「B」として示される。従って、ここで説明した例示的な実施形態によれば、音声事前通知を発生するように構成された装置はクロストーク(ユーザ1及びユーザ2の同時発話)の危険性を低減しかつ/又は(ユーザが話し始めるべき時間であるとより正確に決定できるので)ユーザの応答時間を短縮する。以上説明した例示的な実施形態のうち1つ又はすべての実施形態のもう1つの利点は、装置が端末で既に利用可能な情報を使用するために、すなわち端末外シグナリングが不要であるために実現が簡単なことである。
【0028】
以上説明した例示的な実施形態を実現する例示的な方法により、図5は、通信装置により受信されるビデオデータと通信装置により受信されるオーディオデータとを同期させる方法を示す。ビデオデータは複数のビデオデータセグメントを含みかつオーディオデータは複数のオーディオデータセグメントを含む。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ50と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ52と、オーディオデータの第1セグメントに関連する事前通知を通信装置で発生するステップ54と、事前通知を示す視覚情報又はオーディオ情報を生成するために事前通知を処理するステップ56とを含む。
【0029】
更に詳細には、ステップ54は、オーディオデータの第1セグメントの始まりに関連する事前通知を通信装置で発生するステップ54‐1と、オーディオデータの第1セグメントの始まりを再生する前に事前通知を示す視覚情報を表示するか又は事前通知を示すオーディオ情報を再生するステップ54‐2とを含んでもよい。あるいは、ステップ54は、オーディオデータの第1セグメントの終わりに関連する事前通知を通信装置で発生するステップ54‐3と、オーディオデータの第1セグメントの終わりを再生する前に事前通知を示す視覚情報を表示するか又は事前通知を示すオーディオ情報を再生するステップ54‐4とを含んでもよい。更に別の実施形態において、ステップ54はステップ54‐1〜54‐4のすべてを含んでもよい。
【0030】
更なる例示的な実施形態において、受信側装置は、前述の事前通知を発生又は受信するのではなく、受信されたビデオデータの中に顔が存在するか否かを検出する画像解析機能(例えば顔検出機能)を含んでもよい。受信側装置が顔を検出した場合、受信側装置により同期機能を起動してもよい。受信側装置により顔が検出されなかった場合、受信側装置は同期機能を起動しない。これにより、オーディオ及びビデオの双方を含む会話の品質が最適化される。この例示的な技術については以下に更に詳細に説明する。
【0031】
装置12と装置14との間の通信は従来のセッションセットアッププロトコルを使用してセットアップされてもよい。簡潔にするため、顔解析を含む技術に関連する例示的な実施形態は、有効化同期プロトコルとしてRTCPを使用するRTP/ユーザデータグラムプロトコル(UDP)/インターネットプロトコル(IP)通信システムに基づいて説明される。しかし、例示的な実施形態は他のシステム及びプロトコルに適用されてもよい。
【0032】
受信側装置は必要に応じて同期機能を適用するように構成される。同期機能は、ビデオデータに関するオーディオデータの時間遅延、本明細書において説明される新規な技術又はそれらの組み合わせを含んでもよい。同期機能は、図2に示されるプロセッサ24又は処理ユニット32で実現されてもよい。通信装置12及び14のうち少なくとも一方は例示的な本実施形態に係る同期機能を含む。別の例示的な実施形態において、通信装置12及び14は共に同期機能を含む。
【0033】
通信装置は、当初は同期機能がオン又はオフされている状態であるように構成されてもよい。通信中、同期を有効にするために、送信側装置は標準プロトコルツールと共にオーディオデータ及びビデオデータを送信し続ける。例示的な一実施形態において、受信側装置は受信されたビデオデータを解析し続け、顔検出機能を使用することにより、受信されたビデオデータの中に顔が存在するか否かを検出する。別の例示的な実施形態において、顔を検出するために、受信側装置は受信されたビデオデータを所定の間隔で解析する。顔検出機能は出力として「顔あり」値又は「顔なし」値を発生する。顔検出機能の一例はPolar Rose、MINC(スウェーデン、Anckargripsgatan 321119 Malmo)より入手可能である。当業者には認識されるように、他の顔検出用製品を通信装置で使用してよい。別の例示的な実施形態において、顔検出機能は、顔あり/顔なしのバイナリ出力を提供するのに加えて、例えば顔が存在するか否かの確率を示すパーセンテージなどの確信度のようなソフト出力を更に発生してもよい。このソフト出力は、以下に説明されるように情報をフィルタリングする場合に使用されてもよい。
【0034】
顔あり/顔なし出力が高速に切り替わってしまう場合には、後のステップにおいて例えばユーザの顔に対してカメラを移動させる場合などに同期機能を頻繁にオン/オフしすぎてしまうという結果をもたらすため、これを回避するために顔検出情報のローパスフィルタを適用してもよい。そのように頻繁な切り換えは音声品質に悪影響を及ぼすであろう。フィルタ機能は、「顔あり」又は「顔なし」の値と共に、頻繁な切り換えを回避するフィルタリングされた検出出力を発生する。高度な顔検出機能は、解析されるビデオデータが顔を含むか否かを検出アルゴリズムが結論付ける場合の確信度を表す0〜100%の確信度値を出力に含む「ソフト」確信度情報を発生してもよい。説明したようなソフト確信度情報を顔検出機能が発生する場合、フィルタリング機能においてこの情報を使用可能である。例えば、検出確信度が低い場合、「顔あり」と「顔なし」との間の検出状態変化の決定の基礎をより確かなものにするために長時間のフィルタリングが適用される。
【0035】
フィルタリング後の検出の出力値が「顔あり」である場合、オーディオデータとビデオデータを同期させるために同期機能が適用される。同期機能が以前に使用されていなかった(すなわちオフであった)場合、「顔あり」出力に基づいて同期機能がオンされる。このオンは「顔あり」出力の直後に実行してもよいが、その場合には音声に隙間が発生する。あるいは、例えば(以下に説明する)時間スケーリングを使用するか又は同期機能を実現するために会話中の中断時間だけ待機するなどの音声の隙間を排除する更に高度な方法でオンが実行されてもよい。
【0036】
フィルタリング後の検出の出力値が「顔なし」である場合、音声に唇の動きが伴っていないため、オーディオデータとビデオデータとの同期は適用されない。従って、例示的な本実施形態によれば、オーディオデータは復号化の時点で再生されるので音声品質は向上する。この場合、同期機能がオン状態でありかつ出力値が「顔なし」であれば、同期機能はオフされる。オフは直ちに実行されてもよいが、その場合、オーディオセグメントのクリッピングが起こる。あるいは、例えば時間スケーリングを使用するか又はオーディオデータ中の中断時間だけ待機するなどのオーディオセグメントのクリッピングを排除する更に高度な方法でオフが実現されてもよい。
【0037】
従って、受信側装置は必要に応じて同期機能をオン/オフ可能な態勢にある。有効化プロトコルとしてRTCPを使用するRTP/UDP/IPシステムにおいて、例示的な一実施形態によれば、通信装置は、RTCP送信機レポートを監視しかつ追跡し続けることによりいつでも同期機能をオン/オフ可能である。
【0038】
同期機能をオン/オフする処理が図6に示される。送信側装置から受信側装置へデータが送信される。そこで、ステップ60において受信側装置でデータが受信される。ステップ62において、受信側装置は、送信されたデータのビデオデータの中に顔が存在するか否かを判定する。このステップで顔が存在すると判定された場合、ステップ64で同期機能がオンされ、処理はステップ66へ進む。ステップ66において、データの終わりが存在するか否かが判定される。送信されたデータの終わりが判定された場合、受信側装置はスイッチング処理を停止する。しかし、ステップ62において受信されたデータの中に顔が存在しないと判定された場合、処理はステップ68へ進む。ステップ68において、同期機能がオフされる。次に処理はステップ66へ進むが、ステップ66は先に説明した通りである。データの終わりが判定されなかった場合、処理はステップ62に戻る。
【0039】
以上説明した処理に続く方法の一実施例が図7に示される。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと受信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ70と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ72と、顔を検出するために受信されたビデオデータの第1セグメントを解析するステップ74と、顔が検出された場合に同期機能をオンするステップ76とを含む。
【0040】
別の例示的な実施形態によれば、受信側装置は、同期処理をオン/オフするために顔認識機能を使用しない。例示的な本実施形態において、ユーザは同期処理をオン/オフすべき時点を決定する。言い換えれば、送信側装置と受信側装置との間の通信の開始時には、受信側装置で同期は適用されていない。例示的な本実施形態において、簡潔にするため、同期機能は受信側装置にあり、送信側装置にはないと考える。しかし、同期機能はいずれか一方の装置又は双方の装置に適用されてもよい。同期を必要とするメディアを受信側装置のユーザが受信した場合、ユーザは受信側装置のソフトウェアキーを押してもよい。その結果、受信側装置は同期、すなわちオーディオデータ遅延、時間スケーリング又は他の方法を適用し始める。従って、ユーザは好み及び現在の通信状況に応じて同期を適用するか否かを選択してもよい。同期機能は例示的な実施形態について先に説明された機能又は当業者に周知の機能であってもよい。ユーザは、受信側装置のオプションメニューの設定を通して、同期に関する受信側装置の通話処理のデフォルト選択肢を更に構成してもよい。例えば、同期機能はデフォルトによりオンされてもよく、ビデオデータが大きく遅れている場合に同期機能はオフされてもよい。
【0041】
以上説明したように同期を適用するための処理が図8に示される。例示的な本実施形態において、ユーザの通信装置は、同期機能がオフされると共に始動するように構成される。別の例示的な実施形態において、通信装置は同期機能がオンされた時点で始動してもよい。送信側装置と受信側装置との通信中、同期機能を有効にするために、送信側装置は標準プロトコルツールに基づいてオーディオデータ及びビデオデータを受信側装置へ送信する。ステップ80において、受信側装置はデータを受信する。ユーザは、同期機能をオン/オフするためのメニューオプション、例えば、同期機能が現在オフ状態である場合は「オーディオ及びビデオ同期」を示しかつ同期機能が現在オン状態である場合は「音声遅延最小化」を示すソフトウェアキーを有してもよい。別の例示的な実施形態において、ユーザは、上記の選択を実行するための非ソフトウェアキー(すなわち専用ハードウェアボタン)を通信装置に有してもよい。ステップ82においてユーザが「オーディオ及びビデオ同期」を選択した場合、ステップ84で同期機能はオンされる。次に、処理はステップ86へ進み、通信装置はデータの終わりが受信されたか否かを判定する。データの終わりが受信されていた場合、処理は停止される。データの終わりが受信されていなかった場合、処理はステップ82に戻る。ステップ82においてユーザが「音声遅延最小化」を選択した場合、ステップ88でオーディオデータとビデオデータとの同期はオフされかつ処理は先に説明したステップ86へ進む。
【0042】
以上説明した処理に続く方法の一実施例が図9に示される。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ90と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ92と、オーディオデータ及びビデオデータの同期機能をオン又はオフするためのユーザ入力指示を受信するステップ94とを含む。
【0043】
従って、これらの例示的な実施形態によれば、ユーザはオーディオデータとビデオデータとを同期させるべき時点を決定する。話者の唇が画像の中に存在しかつユーザが同期実行を望む場合に唇同期が使用される。そうでない場合には同期は使用されないので、オーディオデータ遅延を最小限に抑えることにより音声による会話の品質は最適化される。例示的な本実施形態は受信機のみで実現されてもよく、その場合、ネットワークからのシグナリング又は送信側装置との信号交換は不要である。
【0044】
以下に示される例示的な実施形態によれば、後に説明される新規な方法に基づいてオーディオデータはビデオデータと同期されてもよい。以下の例示的な実施形態では事前通知、顔検出又はユーザ入力は不要である。会話の開始時における同期処理は図3を参照して説明した通りである。オーディオデータに大きな時間遅延が発生するため、その同期処理は望ましくない。しかし、本発明の新規な方法によれば、オーディオデータの時間遅延が通信システムのユーザを煩わすことのないように遅延は短縮される。例示的な一実施形態によれば、時間遅延の短縮はオーディオデータを時間スケーリングすることにより実現されてもよい。
【0045】
更に詳細には、会話の第1の部分の間に、オーディオデータの1つ以上のセグメントは、第1の部分より時間的に遅い会話の第2の部分の間の速度とは異なる速度で再生される。会話の第1の部分は第1セグメント及び1つ以上の後続セグメントを含んでもよい。この点に関して、例示的な本実施形態では、一般的な意味で時間的に早いと定義された第1セグメントは、より大きく遅延しているビデオデータより先に遅延の少ないオーディオデータが正規の速度より遅い速度で再生されてもよい会話区間の始まりを示す時間から、オーディオデータがビデオデータに追いつく時間、すなわちオーディオとビデオとが同期される時間まで持続すると更に定義されてもよい。オーディオデータとビデオデータとが同期される時点を監視及び決定する1つの方法は、オーディオデータ及びビデオデータのフレームのタイムスタンプを監視することである。会話の第1の部分の最終セグメントは会話区間の終わりに関連し、会話区間の再生時間から無音期間の始まりが検出される現在の時間まで持続してもよい。例示的な一実施形態によれば、会話の各部分は1つの会話区間に対応してもよい。
【0046】
従って、オーディオデータは時間遅延を短縮されて始まってもよく、その後、会話の第1の部分の間に、オーディオデータをビデオデータと同期させるためにオーディオデータのセグメントを時間スケーリングすること(「スローモーション」でオーディオを再生すること)により更に遅延が追加される。オーディオデータの認知品質がさほど劣化しないようにオーディオデータを時間スケーリングする種々の方法がある。例えば、ITU‐T’s Recommendation G.711のAppendix 1(この引用により本明細書に全内容が組み込まれる。)は、この種の方法であるWaveform Shift Overlap Add(WSOLA)についての記載を含む。同期が実行された場合、オーディオデータ及びビデオデータは終了寸前まで通常速度で再生される。言い換えれば、オーディオデータはビデオデータより早く再生されることになり、それら2種類のデータは当初は同一の長さを有するので、オーディオデータの第1セグメントを通常速度より遅い速度で再生することにより、オーディオデータの少なくとも第1セグメントは「拡張」されることになる。例示的な一実施形態によれば、オーディオデータとビデオデータとの同期を実現するために、更に多くのセグメント(オーディオデータの第1セグメント及び複数の後続セグメント)を遅い速度で再生してもよい。
【0047】
ユーザから受信されるオーディオデータの終了時に、受信されたオーディオデータの時間スケーリングを再度使用することにより(オーディオデータの少なくとも最終セグメントの速度を上げること、すなわちオーディオデータを「ファストモーション」で再生することにより)相手側ユーザの反応遅延を短縮することができる。オーディオデータはビデオデータとは同期しなくなるが、ユーザは反応時間を短縮し、短い遅延時間で相手側ユーザに返答できる。会話終了時のスケーリングについては以下に更に詳細に説明する。スケーリングは、会話の開始時のスケーリングを実現することのない装置で実現されてもよい。しかし、例示的な一実施形態において、少なくとも一方のユーザで双方のスケーリング方法が実現される。これらの新規な処理により、会話持続時間の大半の部分でビデオデータとオーディオデータとの同期を維持しつつユーザ間の対話を更に円滑に進めることができる。
【0048】
例示的な一実施形態によれば、図10は、ユーザ1がユーザ2に対してオーディオデータ及びビデオデータを送出しかつユーザ2も受信されたオーディオデータ及びビデオデータに応答してユーザ1に対してオーディオデータ及びビデオデータを送出していることを示す。オーディオデータA1及びビデオデータV1の入力、オーディオデータA2及びビデオデータV2の符号化及び受信、並びにオーディオデータA3及びビデオデータV3の復号化は先に図3を参照して説明した通りである。復号化オーディオデータA3及び復号化ビデオデータV3の再生は、図3で説明した再生とは異なる新規な形式である。これについては、次に図10に関連して詳細に説明する。
【0049】
例示的な一実施形態によれば、復号化ビデオデータV3が利用可能な状態になるまで復号化オーディオデータA3を遅らせるのではなく、復号化オーディオデータA3は復号化された後に再生される。従って、図10に示されるように、復号化オーディオデータA3の開始時刻tAstartは復号化ビデオデータV3の開始時刻tVstartより早い。従って、会話の時間遅延は従来の遅延方法と比較して短縮される。しかし、復号化オーディオデータA3と復号化ビデオデータV3との同期を実現するために、復号化ビデオデータV3が利用可能な状態になるまで、オーディオデータの少なくとも第1の部分「A」は通常速度(所定の速度)より遅い速度で再生される。復号化ビデオデータV3が利用可能な状態になった時点でも、ビデオデータをオーディオデータに「追いつかせる」ためにオーディオデータは遅い速度で再生されてもよい。オーディオデータとビデオデータとを同期させるために、ビデオデータが時刻tVstartにおいて遅い速度で再生され始めた後、期間「a」をおいてオーディオデータは再生されてもよい。例示的な一実施形態において、期間「a」は所定の値、例えば2秒である。別の例示的な実施形態によれば、オーディオデータ及びビデオデータはある特定の時間tcatch-up(例えば1s)の後に同期されてもよくかつ「a」はtcatch-up−"A"となるように定義される。期間「a」の終了時、時刻tsにおいてオーディオデータとビデオデータとの同期が実現されるようにオーディオ速度が通常速度まで増加される。例示的な一実施形態において、時間「a」の間、オーディオデータ速度は通常速度までゆっくり(連続してかつ/又は単調に)増加される。別の実施形態において、オーディオデータ速度は低速から通常速度まで急激に(段階的に)増加される。
【0050】
いくつかの方法において、会話区間の終了時に速度を増すために、無音期間が始まろうとしていることを予め検出することが必要である。その1つの方法は、スピードアップを有効化するために有音バッファの終わりに可能な限り早くパケットを発見するという方法であってもよい。無音期間中、ある特定のオーディオコーデック(例えばAMR)によってフレームの大きさ及び速度の相違から無音を見つけることができる。オーディオデータの終了時、オーディオデータの少なくとも最終セグメントに時間スケーリングを適用すること(オーディオデータの速度を上げること、すなわちオーディオデータの「ファーストモーション」)により相手側ユーザの反応遅延が短縮されてもよい。図10に示されるように、復号化ビデオデータV3の終了直前に、復号化ビデオデータV3より早くオーディオデータA3をユーザに対して提示させるために、オーディオデータの再生速度は通常速度を超える速さに増加される。例示的な一実施形態において、オーディオデータは復号化ビデオデータV3より時間間隔Bだけ早く終了する。オーディオはビデオと同期しなくなるが、ユーザは反応時間を短縮しかつ短い遅延T1(Bだけ短い)で相手側ユーザに返答することが可能になる。音声の終了時(B又はD)のスケーリングは、音声の開始時(A又はC)のスケーリングを実現することのない装置で実現されてもよい。
【0051】
同様に、ユーザ1は時間スケーリングを伴わない場合より早くオーディオを開始してもよい。これは、ユーザ2がそれより早く情報を送出し始めているからでありかつ通信装置においてオーディオデータがそれより早く開始されているからである。開始時点でオーディオデータは低速で再生されるので、オーディオデータとビデオデータとの同期は同様にある時間をおいて(部分Cが再生された後に)実現される。この方法は、ユーザ2から情報が受信されている間にユーザ1が情報を送出し始めること、例えばユーザ1が話し始めてしまうことを防止する。更に、この方法により従来の処理と比べて体験反応時間が短くなるので、妨害レベルは低下する。
【0052】
既に受信された音声フレームから、例えば無音部が検出された時点で会話区間の終わりを判定できる。この検出に基づいて、相手側ユーザの応答時間を短縮させるために、時間間隔Dだけビデオデータがオーディオデータなしで再生されるように(オーディオデータは既に再生済みであるため)オーディオデータの終わりは高速で再生されてもよい。従って、以上説明した例示的な実施形態によれば、音声の遅延を短縮することにより会話の品質に与える影響を最小限に抑えた上で、大半の時間で(例えば期間A、B、C及びDを除く)オーディオはビデオと同期される。
【0053】
第1セグメントをスケーリングする方法の一実施例を図11に示す。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ110と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ112と、オーディオデータの第1セグメントをスケーリングするステップ114と、ビデオデータの第1セグメントを受信又は復号化する前にスケーリング済みのオーディオデータの第1セグメントを再生するステップ116とを含む。
【0054】
図12を参照して、オーディオデータの最終セグメントをスケーリングする別の方法の実施例を説明する。方法は、オーディオデータの最終セグメントを通信装置で受信するステップ120と、オーディオデータの最終セグメントと同時又はそれより遅い時点でビデオデータの最終セグメントを通信装置で受信するステップ122と、オーディオデータの最終セグメントをスケーリングするステップ124と、ビデオデータの最終セグメントを受信又は復号化する前に、スケーリングしたオーディオデータの最終セグメントを再生するステップ126とを含む。図12に示されるステップは図11に示されるステップと関連して実行されてもよいが、図11に示されるステップから独立して実行されてもよい。
【0055】
図13は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法のステップを示すフローチャートである。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ130と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ132と、所定の指標に基づいてオーディオデータの第1セグメントとビデオデータの第1セグメントとの間に同期処理を適用するステップ134とを含む。同期処理は、先に説明した新規な同期処理のうちの1つであってもよい。
【0056】
以上、種々の例示的な実施形態を個別に説明した。ただし、それらの例示的な実施形態の任意の組み合わせを使用可能であることは当業者には理解されよう。
【0057】
開示された例示的な実施形態は、送信側装置から受信側装置へオーディオデータ及びビデオデータを送出しかつ受信側装置でオーディオデータとビデオデータとを同期させる通信装置、システム、方法及びコンピュータプログラムを提供する。以上の説明は本発明を限定することを意図するものではないことが理解されるべきである。上述の例示的な実施形態は、添付の請求の範囲により定義される本発明の主旨及び範囲に含まれる代替構成、変形及び均等の構造を含むことを意図している。更に、例示的な実施形態の詳細な説明の中には、特許請求の範囲に記載される発明を包括的に理解させるために特定の詳細な事項が多数記載されている。しかし、そのような特定の詳細な事項を含まずに種々の実施形態が実施されうることは当業者には理解されよう。
【0058】
同様に、例示的な実施形態は無線通信装置、有線通信装置又は電気通信ネットワークにおいて、あるいは方法として又はコンピュータプログラムとして実現されてもよいことが当業者には理解されよう。従って、例示的な実施形態は完全にハードウェアの実施形態の形をとってもよいが、ハードウェアの面とソフトウェアの面とを組み合わせた実施形態の形であってもよい。更に、例示的な実施形態は、コンピュータ可読命令が実現されているコンピュータ可読記憶媒体に格納されたコンピュータプログラムの形をとってもよい。ハードディスク、CD‐ROM、デジタル・バーサタイル・ディスク(DVD)、光記憶装置、あるいはフロッピディスク又は磁気テープなどの磁気記憶装置を含む任意の適切なコンピュータ可読媒体が利用されてもよい。他のコンピュータ可読媒体の例はフラッシュ型メモリ又は他の周知のメモリなどであるが、それらに限定されない。
【0059】
本発明の例示的な実施形態の特徴及び要素を実施形態において特定の組み合わせで説明したが、各々の特徴又は要素は実施形態の他の特徴及び要素を含まずに単独で使用可能であるか、あるいは開示される他の特徴及び要素と共に又はそれらの特徴及び要素を含まずに種々の組み合わせで使用可能である。本出願において提示される方法又はフローチャートは、汎用コンピュータ又は汎用プロセッサにより実行するためにコンピュータ可読記憶媒体において実体のある形で実現されるコンピュータプログラム、ソフトウェア又はファームウェアとして実現されてもよい。
【0060】
例示的な実施形態は特定用途向け集積回路(ASIC)又はデジタルシグナルプロセッサにおいて実現されてもよい。適切なプロセッサは、例えば汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアと関連する1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)回路、他の任意の種類の集積回路(IC)及び/又は状態遷移機械を含む。ユーザ端末、基地局又は任意のホストコンピュータで使用するための無線周波数トランシーバを実現するために、ソフトウェアと関連するプロセッサが使用されてもよい。ユーザ端末は、カメラ、ビデオカメラモジュール、ビデオホン、スピーカホン、振動装置、スピーカ、マイク、テレビジョントランシーバ、ハンズフリーヘッドホン、キーボード、Bluetoothモジュール、周波数変調(FM)無線ユニット、液晶ディスプレイ(LCD)表示ユニット、有機発光ダイオード(OLED)表示ユニット、デジタル音楽プレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ及び/又は任意の無線ローカルエリアネットワーク(WLAN)などのハードウェア及び/又はソフトウェアで実現されたモジュールと関連して使用されてもよい。
【技術分野】
【0001】
本発明は、オーディオデータ及びビデオデータを処理可能な方法、装置及びシステムに関し、特に、オーディオデータと共に送信されるビデオデータの再生と関連する時間遅延を補償する技術及び方法に関する。
【背景技術】
【0002】
ビデオデータ及びそれに関連するオーディオデータの双方を含み、マルチメディアを使用する通信は、通信技術の分野において固定アクセス及び移動アクセスの双方で重要性を増している。従来の音声のみによる通話に加えて映像成分(すなわちビデオデータ)を含むように改良が進んでいるため、いわゆる「テレビ電話(video telephony)」を使用してユーザが通信する機会が多くなっている。
【0003】
テレビ電話による通話に関連するビデオデータは、通常、送信側装置のビデオカメラにより作成される。送信側装置は移動電話のようなポータブル装置であってもよい。場合によっては、話者の顔を示すようにカメラを位置決めするために、ユーザは送信側装置の向きを調整する。しかしカメラは、ユーザが会話に関連すると考える他の物、例えばユーザが会話中の相手に見せたいと思う景色などを示すために使用されることもある。従って、通信セッション中に示される物は変化しうる。この点に関して、ビデオデータとオーディオデータは通常、論理的関連性を伴って生成される。例えば、ユーザの音声は、その音声を発しているユーザに対応するユーザの顔の映像と関連している。
【0004】
視聴者であるユーザの画面に話者であるユーザも表示される場合、ユーザがオーディオとビデオとの適切な組み合わせを体験するようにオーディオデータとビデオデータとが同期されることが望ましい。適切な組み合わせを実現するために、通常、ユーザの唇の動きは装置のスピーカホンからの音声と同期しているべきである。そうすれば、唇の動きと聞き取られる言葉との間に、互いに近い距離にいる二人が通常会話している場合と同じような関連性が得られる。本明細書において、これを唇同期又はオーディオデータとビデオデータとの論理的関連性と呼ぶ。
【0005】
従って、3G回線交換テレビ電話(例えば、3GPPTS26.111(フランス、route des Lucioles 06921 Sophia‐Antipolis Codex、ETSI Mobile Competence Centre 650の3GPP標準規格グループによる)を参照。同文献はこの引用により本明細書に組み込まれる。)のような既存の装置、及び、新技術であるIMS Multimedia Telephony(例えばETSIによる3GPP TS 22.173及びETSI TS181002を参照。)のようなIPマルチメディアサービスにおいては、メディア間同期のサポートが望まれている。以下、オーディオとビデオを同期させるための従来の方法を説明する。Circuit Switched Multimediaの場合、オーディオをビデオと同期させるために、オーディオがどのくらい遅延しているかを指示できる(ITU‐T H.324を参照)。リアルタイム転送プロトコル(RTP、IETF RFC3550を参照)を介して搬送されるサービスの場合、同期を実現するための入力としてRTPタイムスタンプをRTP制御プロトコル(RTCP)送信機レポートと共に使用可能である(IETF RFC3550を参照)。しかし、既存のいくつかのマルチメディア通信サービスはメディア同期を行わないので、唇同期が必要とされる場合にユーザは不十分な通話しかできない。
【0006】
オーディオをビデオと同期させているシステムは、所望の唇同期を実現するために、通常、ビデオデータが復号化されるまである特定の長さの時間だけオーディオデータを遅延させ、その後、2つのデータが同時に再生される。しかし、この同期方法では遅延が増加し、その結果、応答時間が長くなって会話に問題が生じるため、ユーザにとってこの方法は好ましくない。例えば、通常、ビデオデータは、音声がマイクからスピーカホンに到達するまでの遅延時間よりも、カメラから画面に到達するまでの長い遅延時間を持つ。ビデオデータの遅延が長くなる原因は、(オーディオデータと比較して)符号化及び復号化に関連するアルゴリズム遅延が長いこと、フレームレートが遅いこと、場合によってはビットレートが高いために転送遅延が長くなることである。受信側装置がオーディオとビデオとを同期させると仮定すると、装置は、オーディオデータを再生する前にオーディオデータフローを遅延させなければならない。これにより、当然のことながらユーザは会話に不満を覚え、その結果、会話品質は低下する。例えば、オーディオデータの遅延がある特定の限界(約200ms)を超えると、会話品質に影響が出始める。第1に、相手側の話者の反応が遅く感じられ、場合によっては、双方の話者が同時に話し始めてしまう(これは二人の話者がある時間遅延をおいて初めてこの問題に気づくからである)こともあるので、ユーザは幾分苛立ちを感じるであろう。遅延が長い(例えば500msを超える)場合、正常な会話を続けるのが難しくなり始める。従って、テレビ電話を使用する話者が不満を感じる原因の1つは、顔を合わせて行う通常の会話又は音声のみの電話による会話とは異なり、相手側の話者の応答時間が長すぎることである。
【0007】
従って、上述の問題点及び欠点を回避するオーディオ及びビデオ通信のための装置、システム及び方法を提供することが望まれる。
【発明の概要】
【0008】
例示的な一実施形態によれば、通信装置により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法が提供される。前記方法は、オーディオデータの第1セグメントを前記通信装置で受信するステップと、オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップと、所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用するステップとを有する。
【0009】
別の例示的な実施形態によれば、複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置が提供される。前記通信装置は、オーディオデータの第1セグメントを受信し、該オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを受信する入出力ユニットと、所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用するプロセッサとを有する。
【図面の簡単な説明】
【0010】
【図1】例示的な一実施形態に係る送信側装置、受信側装置及び通信ネットワークを含む通信システムを示す図である。
【図2】例示的な一実施形態に係る送信側装置又は受信側装置を示す図である。
【図3】送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図4】例示的な一実施形態に係る事前通知を使用して送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図5】例示的な一実施形態に係る事前通知を送信するために実行されるステップを示すフローチャートである。
【図6】例示的な一実施形態に係る顔検出処理に基づいて同期機能をオン及びオフする処理を示す図である。
【図7】例示的な一実施形態に係る顔検出処理に基づいて同期機能をオン及びオフするためのステップを示すフローチャートである。
【図8】例示的な一実施形態に係るユーザ入力に基づいて同期機能をオン及びオフする処理を示す図である。
【図9】例示的な一実施形態に係るユーザ入力に基づいて同期機能をオン及びオフするためのステップを示すフローチャートである。
【図10】時間スケーリングを伴って送信側装置と受信側装置との間でやり取りされるオーディオデータ及びビデオデータのタイミングを示す図である。
【図11】例示的な一実施形態に係るオーディオデータの第1セグメントに時間スケーリングを適用するためのステップを示すフローチャートである。
【図12】例示的な一実施形態に係るオーディオデータの最終セグメントに時間スケーリングを適用するためのステップを示すフローチャートである。
【図13】図13は、ビデオデータをオーディオデータと同期させる方法のステップを示すフローチャートである。
【発明を実施するための形態】
【0011】
(略語)
RTP:Real-Time Transport Protocol:リアルタイム転送プロトコル
RTCP:Real-Time Control Protocol:リアルタイム制御プロトコル
AVS:Audio-video signal:オーディオビデオ信号
LED:Light Emitting Diode:発光ダイオード
UDP:User Datagram Protocol:ユーザデータグラムプロトコル
IP:Internet Protocol:インターネットプロトコル
AMR:Adaptive Multi-Rate:適応マルチレート
DVD:Digital Versatile Disc:デジタル・バーサタイル・ディスク
ASIC:Application Specific Integrated Circuit:特定用途向け集積回路
DSP:Digital Signal Processor:デジタル信号プロセッサ
FPGA:Field Programmable Gate Array:フィールドプログラマブルゲートアレイ
IC:Integrated Circuit:集積回路
FM:Frequency Modulated:周波数変調
LCD:Liquid Crystal Display:液晶ディスプレイ
OLED:Organic Light-Emitting Diode:有機発光ダイオード
WLAN:Wireless Local Area Network:無線ローカルエリアネットワーク
【0012】
(詳細な説明)
以下の例示的な実施形態の説明では添付の図面を参照する。図面中、同一の参照符号は同一の要素又は類似する要素を示す。以下の詳細な説明は本発明を限定するものではない。本発明の範囲は添付の請求の範囲によって定義されるものである。簡潔にするため、以下の実施形態では、移動電話を使用する別のユーザと通信するために同様に移動電話を使用するユーザに関して説明する。しかし、以下に説明される実施形態はこのシステムに限定されず、他の既存のオーディオ及びビデオ送信システムに適用されうる。
【0013】
本明細書を通して、「一実施形態」という用語は、1つの実施形態と関連して説明される特定の1つの特徴、構造又は特性が本発明の少なくとも1つの実施形態に含まれることを意味する。従って、本明細書中の種々の箇所に見られる「一実施形態において」という表現は常に同一の実施形態を示すとは限らない。更に、特定の特徴、構造又は特性を、1つ以上の実施形態において任意の適切な態様で組み合わせることが可能である。
【0014】
図1に示されるように、例示的な一実施形態によれば、システム10は、通信ネットワーク16を介して互いに接続された第1の通信装置12及び第2の通信装置14を含む。装置12及び14は、デスクトップ、ラップトップ、移動電話、従来の電話、PDA、デジタルカメラ、ビデオカメラなどであってもよい。2つの装置は有線又は無線インタフェースを介して互いに接続されうる。2つの装置は互いに直接接続されてもよいが、通信ネットワークの一部である1つ以上の基地局(図示せず)を介して接続されてもよい。本明細書において、「基地局」という用語は、例えばモデム、電気通信システムにおける局、ネットワーク全体のように接続する装置の間のデータのやり取りを容易にする任意の装置を表す一般的な用語として使用される。
【0015】
図2に示されるように、装置12又は14の構造は、オーディオビデオ信号AVSを送受信するように構成された入出力ポート18を含む。オーディオビデオ信号AVSはオーディオデータ及びビデオデータを含みうる。オーディオデータ又はビデオデータの各々は複数のセグメントを含みうる。1つのセグメントは、ある特定の時間に対応する複数のフレームを含みうる。しかし、このセグメントの定義は特定の環境条件に応じて更に限定されてもよい。特定の実施形態に関してその実施例を後に挙げる。複数のオーディオデータセグメント及び/又はビデオデータセグメントは、第1セグメント及び最終セグメントを含んでもよく、第1セグメントと最終セグメントとの間に他の複数のセグメントを更に含んでもよい。例えば顔をビデオ録画しつつオーディオメッセージを録音するユーザの場合のように、1つのオーディオデータセグメントはビデオデータの1つのセグメントに対応してもよい。
【0016】
ビデオ信号AVSを受信するために、入出力ポート18はバス20を介してアンテナ22又はワイヤライン(図示せず)に接続されてもよい。アンテナ22は単一のアンテナ又は多重アンテナであってもよくかつ赤外線、無線周波数又は他の周知の無線インタフェースを介してオーディオビデオ信号AVSを受信するように構成されてもよい。入出力ポート18は、オーディオビデオ信号AVSを受信して処理するプロセッサ24に更に接続される。プロセッサ24はバス20を介してメモリ26に接続されてもよい。メモリ26はオーディオビデオ信号AVS及びプロセッサ24に必要な他のデータを格納してもよい。
【0017】
例示的な一実施形態において、装置12は、受信されたオーディオビデオ信号AVSに対応する画像を表示するように構成されたディスプレイ28を有してもよい。ディスプレイ28は画面であってもよくかつ1つ以上のLED又は他の任意の周知の光源発光デバイスを更に含んでもよい。ディスプレイ28は画面及びLEDの組み合わせであってもよい。別の例示的な実施形態において、装置12は、ユーザからの指示及び/又はデータを入力可能な入出力インタフェース30、例えばキーボード、マウス、マイク、ビデオカメラなどを有してもよい。
【0018】
装置12は、バス20に接続されかつ受信されたオーディオビデオ信号AVSの種々の指標を測定可能であるか又はユーザの顔を抽出するためにAVSのビデオデータを分析可能であるか、あるいは異なる速度(録画速度より速い速度又は遅い速度)でAVSのオーディオデータを再生可能である処理ユニット32を有してもよい。装置12は、装置により受信されるオーディオデータに基づいて音声を発生するように構成された音声ユニット34を有してもよい。更に、音声ユニット34は、プロセッサ24の命令に従って音声を放射するか又は音声を記録してもよい。例示的な一実施形態において、音声ユニットはスピーカホン及びマイクを含んでもよい。図1に示される装置14は、図2に示される装置12と同一の構造を有してもよい。
【0019】
以下の説明中、簡潔にするため、装置12(図1を参照)は送信機であると考えかつ装置14(同様に図1を参照)は受信機であると考える。しかし、装置12及び14は共に送信機として及び/又は受信機として動作してもよい。装置12のユーザ1が装置14のユーザ2に向けてビデオデータ及びオーディオデータを送信した場合、まず装置12において図3に示されるような動作が起こり、次に装置14において図3に示されるような動作が起こる。更に詳細には、時刻t1で、装置12はユーザ1又は別の情報源からオーディオデータS1を受信しかつユーザ1又は別の情報源からビデオデータV1を受信する。オーディオデータS及びビデオデータV1は共に装置12により符号化され、次に入出力ユニット18又はアンテナ22を介してユーザ2へ送出される。符号化オーディオデータS2は、t1よりは遅いが符号化ビデオデータV2が送出される時刻t3より早い時刻t2において送出される。図3は、ビデオデータがオーディオデータよりt3−t2だけ既に遅延していることを示す。符号化ビデオデータV2の送出がこのように遅れるのは、ビデオデータの符号化処理にオーディオデータの処理より長い時間が必要なためである。
【0020】
符号化オーディオデータS2は時刻t4においてユーザ2の装置14により受信され、符号化ビデオデータV2はそれより遅い時刻t6において装置14により受信される。符号化ビデオデータV2の遅延によって、時刻t4よりは遅いが符号化ビデオデータV2が装置14により受信される時刻t6より早い時刻t5において受信側装置14が符号化オーディオデータS2の復号化を開始することも起こりうる。しかし、例示的な一実施形態において、時刻t5は時刻t6より遅くてもよい。装置14は、時刻t6より遅い時刻t7において符号化ビデオデータV2を復号化する。
【0021】
装置14が復号化ビデオデータV3及び復号化オーディオデータS3の双方を同期させて再生できる最も早い時点は時刻t8である。従って、従来の装置では、装置14は時刻t5から時刻t8までオーディオデータを遅延させ、時刻t8において復号化オーディオデータS3及び復号化ビデオデータV3の双方の再生を開始する。このt5からt8までの遅延は、従来の装置に関して「背景技術」の欄で説明した問題を引き起こす。図3は、ユーザ2がユーザ1に応答する場合のタイミング及び符号化/復号化データ並びにユーザ1がユーザ2の反応時間T1を体験反応時間Tとして体験することを更に示す。
【0022】
例示的な一実施形態によれば、受信側ユーザの受信装置は、送信側ユーザが発話を停止したことを受信側ユーザに報知してもよい。この情報を得ることにより、受信側ユーザは、受信側装置がまだ受信データを処理している間に話し始めるのを回避することができる。なお、この点に関して、従来の装置では、受信側装置の内部処理の関係上、(i)受信側装置が送信側ユーザからのオーディオデータの最終部分を受信した時間と(ii)受信側ユーザが受信の事実に気づく時間との間に遅れが発生している。しかし、本実施形態によれば、この遅延は短縮又は排除される。別の例示的な実施形態によれば、受信側装置は、ユーザ1の話がまもなく終了するという指示をユーザ2に提供してもよい。これにより、そのような指示が与えられない場合と比較してユーザ2は早く話し始めることができるので、反応時間T1は短縮される。この指示は、話が続いている間は持続する視覚信号(例えばLEDの点灯又は装置の画面上の記号)であってもよい。信号は、他の視覚信号又は可聴信号であってもよい。
【0023】
図4に示される例示的な一実施形態によれば、ビデオデータ及びオーディオデータフローはユーザ2に対する音声事前通知「a」を含むことができる。更に詳細には、ユーザ2は、ユーザ1がオーディオデータの送出を停止したという事前通知「a」を受信(発生)することができる。事前通知「a」は、t4又はそのすぐ後の時刻において発生することができ、受信側ユーザは、オーディオデータが再生されるt7ではなく、t4においてオーディオデータの受信に気づくことになる。この事前通知は、ユーザ2の反応時間T1を短縮することになる。効果(すなわちオーディオデータの時間遅延の短縮)が図4に「A」として示される。この点に関して、図4で使用されるタイミング及び記号は図3で使用されていたタイミング及び記号に類似しているので、ここでは繰り返し説明しない。
【0024】
別の例示的な実施形態によれば、受信側装置は、ユーザ1からのオーディオデータが検出されないことをユーザ2に報知する事前通知を発生してもよい。ユーザ1からの音声が受信されていないことをユーザ2が従来判定していた時刻t9より早いt8で、この事前通知を発生し表示してもよい。従って、この時間差t9−t8がユーザ2の別の効果となりうる。例示的な本実施形態において、オーディオデータの最終セグメントの終わりが判定されかつ最終セグメントの終わりに基づいて事前通知が発生される。
【0025】
別の例示的な実施形態において、ユーザ2からのオーディオデータの始まりが受信された時点で、ユーザ2がオーディオデータの送出を開始したという指示「b」がユーザ1の装置でユーザ1に対して発生される。この音声事前通知「b」から、ユーザ1は、ユーザ2からの情報が他のメディアと同期された状態で提示されるまで話を再開しないことを判定する。音声事前通知「b」は事前通知「a」と同様に実現できる。このように音声事前通知を使用することにより、会話する両者が同時に話し出す危険性は相当に低減されかつ両者の反応時間も短縮される。
【0026】
例示的な一実施形態において、事前通知「a」及び「b」は共に通信装置12又は14でそれぞれ実現されてもよい。本実施形態において、ユーザは、別のユーザからのオーディオデータが開始されたことを自身の装置により警告されかつオーディオデータが停止したこともそのオーディオデータが再生される前に停止の時点で警告される。
【0027】
例示的な本実施形態において2つの事前通知「a」及び「b」を使用することにより得られる総効果(すなわちオーディオデータの時間遅延の短縮)は、ユーザ2が会話区間を通知されることによってラウンドトリップ遅延が実際に短縮され、その結果、ユーザ2の反応時間が短縮され、この利点は、ユーザ2からのオーディオデータ受信をユーザ1が通知されることによるクロストークの危険性の低減と更に組み合わされる。この総効果は図4に「B」として示される。従って、ここで説明した例示的な実施形態によれば、音声事前通知を発生するように構成された装置はクロストーク(ユーザ1及びユーザ2の同時発話)の危険性を低減しかつ/又は(ユーザが話し始めるべき時間であるとより正確に決定できるので)ユーザの応答時間を短縮する。以上説明した例示的な実施形態のうち1つ又はすべての実施形態のもう1つの利点は、装置が端末で既に利用可能な情報を使用するために、すなわち端末外シグナリングが不要であるために実現が簡単なことである。
【0028】
以上説明した例示的な実施形態を実現する例示的な方法により、図5は、通信装置により受信されるビデオデータと通信装置により受信されるオーディオデータとを同期させる方法を示す。ビデオデータは複数のビデオデータセグメントを含みかつオーディオデータは複数のオーディオデータセグメントを含む。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ50と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ52と、オーディオデータの第1セグメントに関連する事前通知を通信装置で発生するステップ54と、事前通知を示す視覚情報又はオーディオ情報を生成するために事前通知を処理するステップ56とを含む。
【0029】
更に詳細には、ステップ54は、オーディオデータの第1セグメントの始まりに関連する事前通知を通信装置で発生するステップ54‐1と、オーディオデータの第1セグメントの始まりを再生する前に事前通知を示す視覚情報を表示するか又は事前通知を示すオーディオ情報を再生するステップ54‐2とを含んでもよい。あるいは、ステップ54は、オーディオデータの第1セグメントの終わりに関連する事前通知を通信装置で発生するステップ54‐3と、オーディオデータの第1セグメントの終わりを再生する前に事前通知を示す視覚情報を表示するか又は事前通知を示すオーディオ情報を再生するステップ54‐4とを含んでもよい。更に別の実施形態において、ステップ54はステップ54‐1〜54‐4のすべてを含んでもよい。
【0030】
更なる例示的な実施形態において、受信側装置は、前述の事前通知を発生又は受信するのではなく、受信されたビデオデータの中に顔が存在するか否かを検出する画像解析機能(例えば顔検出機能)を含んでもよい。受信側装置が顔を検出した場合、受信側装置により同期機能を起動してもよい。受信側装置により顔が検出されなかった場合、受信側装置は同期機能を起動しない。これにより、オーディオ及びビデオの双方を含む会話の品質が最適化される。この例示的な技術については以下に更に詳細に説明する。
【0031】
装置12と装置14との間の通信は従来のセッションセットアッププロトコルを使用してセットアップされてもよい。簡潔にするため、顔解析を含む技術に関連する例示的な実施形態は、有効化同期プロトコルとしてRTCPを使用するRTP/ユーザデータグラムプロトコル(UDP)/インターネットプロトコル(IP)通信システムに基づいて説明される。しかし、例示的な実施形態は他のシステム及びプロトコルに適用されてもよい。
【0032】
受信側装置は必要に応じて同期機能を適用するように構成される。同期機能は、ビデオデータに関するオーディオデータの時間遅延、本明細書において説明される新規な技術又はそれらの組み合わせを含んでもよい。同期機能は、図2に示されるプロセッサ24又は処理ユニット32で実現されてもよい。通信装置12及び14のうち少なくとも一方は例示的な本実施形態に係る同期機能を含む。別の例示的な実施形態において、通信装置12及び14は共に同期機能を含む。
【0033】
通信装置は、当初は同期機能がオン又はオフされている状態であるように構成されてもよい。通信中、同期を有効にするために、送信側装置は標準プロトコルツールと共にオーディオデータ及びビデオデータを送信し続ける。例示的な一実施形態において、受信側装置は受信されたビデオデータを解析し続け、顔検出機能を使用することにより、受信されたビデオデータの中に顔が存在するか否かを検出する。別の例示的な実施形態において、顔を検出するために、受信側装置は受信されたビデオデータを所定の間隔で解析する。顔検出機能は出力として「顔あり」値又は「顔なし」値を発生する。顔検出機能の一例はPolar Rose、MINC(スウェーデン、Anckargripsgatan 321119 Malmo)より入手可能である。当業者には認識されるように、他の顔検出用製品を通信装置で使用してよい。別の例示的な実施形態において、顔検出機能は、顔あり/顔なしのバイナリ出力を提供するのに加えて、例えば顔が存在するか否かの確率を示すパーセンテージなどの確信度のようなソフト出力を更に発生してもよい。このソフト出力は、以下に説明されるように情報をフィルタリングする場合に使用されてもよい。
【0034】
顔あり/顔なし出力が高速に切り替わってしまう場合には、後のステップにおいて例えばユーザの顔に対してカメラを移動させる場合などに同期機能を頻繁にオン/オフしすぎてしまうという結果をもたらすため、これを回避するために顔検出情報のローパスフィルタを適用してもよい。そのように頻繁な切り換えは音声品質に悪影響を及ぼすであろう。フィルタ機能は、「顔あり」又は「顔なし」の値と共に、頻繁な切り換えを回避するフィルタリングされた検出出力を発生する。高度な顔検出機能は、解析されるビデオデータが顔を含むか否かを検出アルゴリズムが結論付ける場合の確信度を表す0〜100%の確信度値を出力に含む「ソフト」確信度情報を発生してもよい。説明したようなソフト確信度情報を顔検出機能が発生する場合、フィルタリング機能においてこの情報を使用可能である。例えば、検出確信度が低い場合、「顔あり」と「顔なし」との間の検出状態変化の決定の基礎をより確かなものにするために長時間のフィルタリングが適用される。
【0035】
フィルタリング後の検出の出力値が「顔あり」である場合、オーディオデータとビデオデータを同期させるために同期機能が適用される。同期機能が以前に使用されていなかった(すなわちオフであった)場合、「顔あり」出力に基づいて同期機能がオンされる。このオンは「顔あり」出力の直後に実行してもよいが、その場合には音声に隙間が発生する。あるいは、例えば(以下に説明する)時間スケーリングを使用するか又は同期機能を実現するために会話中の中断時間だけ待機するなどの音声の隙間を排除する更に高度な方法でオンが実行されてもよい。
【0036】
フィルタリング後の検出の出力値が「顔なし」である場合、音声に唇の動きが伴っていないため、オーディオデータとビデオデータとの同期は適用されない。従って、例示的な本実施形態によれば、オーディオデータは復号化の時点で再生されるので音声品質は向上する。この場合、同期機能がオン状態でありかつ出力値が「顔なし」であれば、同期機能はオフされる。オフは直ちに実行されてもよいが、その場合、オーディオセグメントのクリッピングが起こる。あるいは、例えば時間スケーリングを使用するか又はオーディオデータ中の中断時間だけ待機するなどのオーディオセグメントのクリッピングを排除する更に高度な方法でオフが実現されてもよい。
【0037】
従って、受信側装置は必要に応じて同期機能をオン/オフ可能な態勢にある。有効化プロトコルとしてRTCPを使用するRTP/UDP/IPシステムにおいて、例示的な一実施形態によれば、通信装置は、RTCP送信機レポートを監視しかつ追跡し続けることによりいつでも同期機能をオン/オフ可能である。
【0038】
同期機能をオン/オフする処理が図6に示される。送信側装置から受信側装置へデータが送信される。そこで、ステップ60において受信側装置でデータが受信される。ステップ62において、受信側装置は、送信されたデータのビデオデータの中に顔が存在するか否かを判定する。このステップで顔が存在すると判定された場合、ステップ64で同期機能がオンされ、処理はステップ66へ進む。ステップ66において、データの終わりが存在するか否かが判定される。送信されたデータの終わりが判定された場合、受信側装置はスイッチング処理を停止する。しかし、ステップ62において受信されたデータの中に顔が存在しないと判定された場合、処理はステップ68へ進む。ステップ68において、同期機能がオフされる。次に処理はステップ66へ進むが、ステップ66は先に説明した通りである。データの終わりが判定されなかった場合、処理はステップ62に戻る。
【0039】
以上説明した処理に続く方法の一実施例が図7に示される。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと受信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ70と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ72と、顔を検出するために受信されたビデオデータの第1セグメントを解析するステップ74と、顔が検出された場合に同期機能をオンするステップ76とを含む。
【0040】
別の例示的な実施形態によれば、受信側装置は、同期処理をオン/オフするために顔認識機能を使用しない。例示的な本実施形態において、ユーザは同期処理をオン/オフすべき時点を決定する。言い換えれば、送信側装置と受信側装置との間の通信の開始時には、受信側装置で同期は適用されていない。例示的な本実施形態において、簡潔にするため、同期機能は受信側装置にあり、送信側装置にはないと考える。しかし、同期機能はいずれか一方の装置又は双方の装置に適用されてもよい。同期を必要とするメディアを受信側装置のユーザが受信した場合、ユーザは受信側装置のソフトウェアキーを押してもよい。その結果、受信側装置は同期、すなわちオーディオデータ遅延、時間スケーリング又は他の方法を適用し始める。従って、ユーザは好み及び現在の通信状況に応じて同期を適用するか否かを選択してもよい。同期機能は例示的な実施形態について先に説明された機能又は当業者に周知の機能であってもよい。ユーザは、受信側装置のオプションメニューの設定を通して、同期に関する受信側装置の通話処理のデフォルト選択肢を更に構成してもよい。例えば、同期機能はデフォルトによりオンされてもよく、ビデオデータが大きく遅れている場合に同期機能はオフされてもよい。
【0041】
以上説明したように同期を適用するための処理が図8に示される。例示的な本実施形態において、ユーザの通信装置は、同期機能がオフされると共に始動するように構成される。別の例示的な実施形態において、通信装置は同期機能がオンされた時点で始動してもよい。送信側装置と受信側装置との通信中、同期機能を有効にするために、送信側装置は標準プロトコルツールに基づいてオーディオデータ及びビデオデータを受信側装置へ送信する。ステップ80において、受信側装置はデータを受信する。ユーザは、同期機能をオン/オフするためのメニューオプション、例えば、同期機能が現在オフ状態である場合は「オーディオ及びビデオ同期」を示しかつ同期機能が現在オン状態である場合は「音声遅延最小化」を示すソフトウェアキーを有してもよい。別の例示的な実施形態において、ユーザは、上記の選択を実行するための非ソフトウェアキー(すなわち専用ハードウェアボタン)を通信装置に有してもよい。ステップ82においてユーザが「オーディオ及びビデオ同期」を選択した場合、ステップ84で同期機能はオンされる。次に、処理はステップ86へ進み、通信装置はデータの終わりが受信されたか否かを判定する。データの終わりが受信されていた場合、処理は停止される。データの終わりが受信されていなかった場合、処理はステップ82に戻る。ステップ82においてユーザが「音声遅延最小化」を選択した場合、ステップ88でオーディオデータとビデオデータとの同期はオフされかつ処理は先に説明したステップ86へ進む。
【0042】
以上説明した処理に続く方法の一実施例が図9に示される。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ90と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ92と、オーディオデータ及びビデオデータの同期機能をオン又はオフするためのユーザ入力指示を受信するステップ94とを含む。
【0043】
従って、これらの例示的な実施形態によれば、ユーザはオーディオデータとビデオデータとを同期させるべき時点を決定する。話者の唇が画像の中に存在しかつユーザが同期実行を望む場合に唇同期が使用される。そうでない場合には同期は使用されないので、オーディオデータ遅延を最小限に抑えることにより音声による会話の品質は最適化される。例示的な本実施形態は受信機のみで実現されてもよく、その場合、ネットワークからのシグナリング又は送信側装置との信号交換は不要である。
【0044】
以下に示される例示的な実施形態によれば、後に説明される新規な方法に基づいてオーディオデータはビデオデータと同期されてもよい。以下の例示的な実施形態では事前通知、顔検出又はユーザ入力は不要である。会話の開始時における同期処理は図3を参照して説明した通りである。オーディオデータに大きな時間遅延が発生するため、その同期処理は望ましくない。しかし、本発明の新規な方法によれば、オーディオデータの時間遅延が通信システムのユーザを煩わすことのないように遅延は短縮される。例示的な一実施形態によれば、時間遅延の短縮はオーディオデータを時間スケーリングすることにより実現されてもよい。
【0045】
更に詳細には、会話の第1の部分の間に、オーディオデータの1つ以上のセグメントは、第1の部分より時間的に遅い会話の第2の部分の間の速度とは異なる速度で再生される。会話の第1の部分は第1セグメント及び1つ以上の後続セグメントを含んでもよい。この点に関して、例示的な本実施形態では、一般的な意味で時間的に早いと定義された第1セグメントは、より大きく遅延しているビデオデータより先に遅延の少ないオーディオデータが正規の速度より遅い速度で再生されてもよい会話区間の始まりを示す時間から、オーディオデータがビデオデータに追いつく時間、すなわちオーディオとビデオとが同期される時間まで持続すると更に定義されてもよい。オーディオデータとビデオデータとが同期される時点を監視及び決定する1つの方法は、オーディオデータ及びビデオデータのフレームのタイムスタンプを監視することである。会話の第1の部分の最終セグメントは会話区間の終わりに関連し、会話区間の再生時間から無音期間の始まりが検出される現在の時間まで持続してもよい。例示的な一実施形態によれば、会話の各部分は1つの会話区間に対応してもよい。
【0046】
従って、オーディオデータは時間遅延を短縮されて始まってもよく、その後、会話の第1の部分の間に、オーディオデータをビデオデータと同期させるためにオーディオデータのセグメントを時間スケーリングすること(「スローモーション」でオーディオを再生すること)により更に遅延が追加される。オーディオデータの認知品質がさほど劣化しないようにオーディオデータを時間スケーリングする種々の方法がある。例えば、ITU‐T’s Recommendation G.711のAppendix 1(この引用により本明細書に全内容が組み込まれる。)は、この種の方法であるWaveform Shift Overlap Add(WSOLA)についての記載を含む。同期が実行された場合、オーディオデータ及びビデオデータは終了寸前まで通常速度で再生される。言い換えれば、オーディオデータはビデオデータより早く再生されることになり、それら2種類のデータは当初は同一の長さを有するので、オーディオデータの第1セグメントを通常速度より遅い速度で再生することにより、オーディオデータの少なくとも第1セグメントは「拡張」されることになる。例示的な一実施形態によれば、オーディオデータとビデオデータとの同期を実現するために、更に多くのセグメント(オーディオデータの第1セグメント及び複数の後続セグメント)を遅い速度で再生してもよい。
【0047】
ユーザから受信されるオーディオデータの終了時に、受信されたオーディオデータの時間スケーリングを再度使用することにより(オーディオデータの少なくとも最終セグメントの速度を上げること、すなわちオーディオデータを「ファストモーション」で再生することにより)相手側ユーザの反応遅延を短縮することができる。オーディオデータはビデオデータとは同期しなくなるが、ユーザは反応時間を短縮し、短い遅延時間で相手側ユーザに返答できる。会話終了時のスケーリングについては以下に更に詳細に説明する。スケーリングは、会話の開始時のスケーリングを実現することのない装置で実現されてもよい。しかし、例示的な一実施形態において、少なくとも一方のユーザで双方のスケーリング方法が実現される。これらの新規な処理により、会話持続時間の大半の部分でビデオデータとオーディオデータとの同期を維持しつつユーザ間の対話を更に円滑に進めることができる。
【0048】
例示的な一実施形態によれば、図10は、ユーザ1がユーザ2に対してオーディオデータ及びビデオデータを送出しかつユーザ2も受信されたオーディオデータ及びビデオデータに応答してユーザ1に対してオーディオデータ及びビデオデータを送出していることを示す。オーディオデータA1及びビデオデータV1の入力、オーディオデータA2及びビデオデータV2の符号化及び受信、並びにオーディオデータA3及びビデオデータV3の復号化は先に図3を参照して説明した通りである。復号化オーディオデータA3及び復号化ビデオデータV3の再生は、図3で説明した再生とは異なる新規な形式である。これについては、次に図10に関連して詳細に説明する。
【0049】
例示的な一実施形態によれば、復号化ビデオデータV3が利用可能な状態になるまで復号化オーディオデータA3を遅らせるのではなく、復号化オーディオデータA3は復号化された後に再生される。従って、図10に示されるように、復号化オーディオデータA3の開始時刻tAstartは復号化ビデオデータV3の開始時刻tVstartより早い。従って、会話の時間遅延は従来の遅延方法と比較して短縮される。しかし、復号化オーディオデータA3と復号化ビデオデータV3との同期を実現するために、復号化ビデオデータV3が利用可能な状態になるまで、オーディオデータの少なくとも第1の部分「A」は通常速度(所定の速度)より遅い速度で再生される。復号化ビデオデータV3が利用可能な状態になった時点でも、ビデオデータをオーディオデータに「追いつかせる」ためにオーディオデータは遅い速度で再生されてもよい。オーディオデータとビデオデータとを同期させるために、ビデオデータが時刻tVstartにおいて遅い速度で再生され始めた後、期間「a」をおいてオーディオデータは再生されてもよい。例示的な一実施形態において、期間「a」は所定の値、例えば2秒である。別の例示的な実施形態によれば、オーディオデータ及びビデオデータはある特定の時間tcatch-up(例えば1s)の後に同期されてもよくかつ「a」はtcatch-up−"A"となるように定義される。期間「a」の終了時、時刻tsにおいてオーディオデータとビデオデータとの同期が実現されるようにオーディオ速度が通常速度まで増加される。例示的な一実施形態において、時間「a」の間、オーディオデータ速度は通常速度までゆっくり(連続してかつ/又は単調に)増加される。別の実施形態において、オーディオデータ速度は低速から通常速度まで急激に(段階的に)増加される。
【0050】
いくつかの方法において、会話区間の終了時に速度を増すために、無音期間が始まろうとしていることを予め検出することが必要である。その1つの方法は、スピードアップを有効化するために有音バッファの終わりに可能な限り早くパケットを発見するという方法であってもよい。無音期間中、ある特定のオーディオコーデック(例えばAMR)によってフレームの大きさ及び速度の相違から無音を見つけることができる。オーディオデータの終了時、オーディオデータの少なくとも最終セグメントに時間スケーリングを適用すること(オーディオデータの速度を上げること、すなわちオーディオデータの「ファーストモーション」)により相手側ユーザの反応遅延が短縮されてもよい。図10に示されるように、復号化ビデオデータV3の終了直前に、復号化ビデオデータV3より早くオーディオデータA3をユーザに対して提示させるために、オーディオデータの再生速度は通常速度を超える速さに増加される。例示的な一実施形態において、オーディオデータは復号化ビデオデータV3より時間間隔Bだけ早く終了する。オーディオはビデオと同期しなくなるが、ユーザは反応時間を短縮しかつ短い遅延T1(Bだけ短い)で相手側ユーザに返答することが可能になる。音声の終了時(B又はD)のスケーリングは、音声の開始時(A又はC)のスケーリングを実現することのない装置で実現されてもよい。
【0051】
同様に、ユーザ1は時間スケーリングを伴わない場合より早くオーディオを開始してもよい。これは、ユーザ2がそれより早く情報を送出し始めているからでありかつ通信装置においてオーディオデータがそれより早く開始されているからである。開始時点でオーディオデータは低速で再生されるので、オーディオデータとビデオデータとの同期は同様にある時間をおいて(部分Cが再生された後に)実現される。この方法は、ユーザ2から情報が受信されている間にユーザ1が情報を送出し始めること、例えばユーザ1が話し始めてしまうことを防止する。更に、この方法により従来の処理と比べて体験反応時間が短くなるので、妨害レベルは低下する。
【0052】
既に受信された音声フレームから、例えば無音部が検出された時点で会話区間の終わりを判定できる。この検出に基づいて、相手側ユーザの応答時間を短縮させるために、時間間隔Dだけビデオデータがオーディオデータなしで再生されるように(オーディオデータは既に再生済みであるため)オーディオデータの終わりは高速で再生されてもよい。従って、以上説明した例示的な実施形態によれば、音声の遅延を短縮することにより会話の品質に与える影響を最小限に抑えた上で、大半の時間で(例えば期間A、B、C及びDを除く)オーディオはビデオと同期される。
【0053】
第1セグメントをスケーリングする方法の一実施例を図11に示す。本実施例の方法は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法である。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ110と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ112と、オーディオデータの第1セグメントをスケーリングするステップ114と、ビデオデータの第1セグメントを受信又は復号化する前にスケーリング済みのオーディオデータの第1セグメントを再生するステップ116とを含む。
【0054】
図12を参照して、オーディオデータの最終セグメントをスケーリングする別の方法の実施例を説明する。方法は、オーディオデータの最終セグメントを通信装置で受信するステップ120と、オーディオデータの最終セグメントと同時又はそれより遅い時点でビデオデータの最終セグメントを通信装置で受信するステップ122と、オーディオデータの最終セグメントをスケーリングするステップ124と、ビデオデータの最終セグメントを受信又は復号化する前に、スケーリングしたオーディオデータの最終セグメントを再生するステップ126とを含む。図12に示されるステップは図11に示されるステップと関連して実行されてもよいが、図11に示されるステップから独立して実行されてもよい。
【0055】
図13は、通信装置により受信されかつ複数のビデオデータセグメントを含むビデオデータと通信装置により受信されかつ複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法のステップを示すフローチャートである。方法は、オーディオデータの第1セグメントを通信装置で受信するステップ130と、オーディオデータの第1セグメントと同時又はそれより遅い時点でオーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを通信装置で受信するステップ132と、所定の指標に基づいてオーディオデータの第1セグメントとビデオデータの第1セグメントとの間に同期処理を適用するステップ134とを含む。同期処理は、先に説明した新規な同期処理のうちの1つであってもよい。
【0056】
以上、種々の例示的な実施形態を個別に説明した。ただし、それらの例示的な実施形態の任意の組み合わせを使用可能であることは当業者には理解されよう。
【0057】
開示された例示的な実施形態は、送信側装置から受信側装置へオーディオデータ及びビデオデータを送出しかつ受信側装置でオーディオデータとビデオデータとを同期させる通信装置、システム、方法及びコンピュータプログラムを提供する。以上の説明は本発明を限定することを意図するものではないことが理解されるべきである。上述の例示的な実施形態は、添付の請求の範囲により定義される本発明の主旨及び範囲に含まれる代替構成、変形及び均等の構造を含むことを意図している。更に、例示的な実施形態の詳細な説明の中には、特許請求の範囲に記載される発明を包括的に理解させるために特定の詳細な事項が多数記載されている。しかし、そのような特定の詳細な事項を含まずに種々の実施形態が実施されうることは当業者には理解されよう。
【0058】
同様に、例示的な実施形態は無線通信装置、有線通信装置又は電気通信ネットワークにおいて、あるいは方法として又はコンピュータプログラムとして実現されてもよいことが当業者には理解されよう。従って、例示的な実施形態は完全にハードウェアの実施形態の形をとってもよいが、ハードウェアの面とソフトウェアの面とを組み合わせた実施形態の形であってもよい。更に、例示的な実施形態は、コンピュータ可読命令が実現されているコンピュータ可読記憶媒体に格納されたコンピュータプログラムの形をとってもよい。ハードディスク、CD‐ROM、デジタル・バーサタイル・ディスク(DVD)、光記憶装置、あるいはフロッピディスク又は磁気テープなどの磁気記憶装置を含む任意の適切なコンピュータ可読媒体が利用されてもよい。他のコンピュータ可読媒体の例はフラッシュ型メモリ又は他の周知のメモリなどであるが、それらに限定されない。
【0059】
本発明の例示的な実施形態の特徴及び要素を実施形態において特定の組み合わせで説明したが、各々の特徴又は要素は実施形態の他の特徴及び要素を含まずに単独で使用可能であるか、あるいは開示される他の特徴及び要素と共に又はそれらの特徴及び要素を含まずに種々の組み合わせで使用可能である。本出願において提示される方法又はフローチャートは、汎用コンピュータ又は汎用プロセッサにより実行するためにコンピュータ可読記憶媒体において実体のある形で実現されるコンピュータプログラム、ソフトウェア又はファームウェアとして実現されてもよい。
【0060】
例示的な実施形態は特定用途向け集積回路(ASIC)又はデジタルシグナルプロセッサにおいて実現されてもよい。適切なプロセッサは、例えば汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアと関連する1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)回路、他の任意の種類の集積回路(IC)及び/又は状態遷移機械を含む。ユーザ端末、基地局又は任意のホストコンピュータで使用するための無線周波数トランシーバを実現するために、ソフトウェアと関連するプロセッサが使用されてもよい。ユーザ端末は、カメラ、ビデオカメラモジュール、ビデオホン、スピーカホン、振動装置、スピーカ、マイク、テレビジョントランシーバ、ハンズフリーヘッドホン、キーボード、Bluetoothモジュール、周波数変調(FM)無線ユニット、液晶ディスプレイ(LCD)表示ユニット、有機発光ダイオード(OLED)表示ユニット、デジタル音楽プレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ及び/又は任意の無線ローカルエリアネットワーク(WLAN)などのハードウェア及び/又はソフトウェアで実現されたモジュールと関連して使用されてもよい。
【特許請求の範囲】
【請求項1】
通信装置(12)により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法であって、
オーディオデータの第1セグメントを前記通信装置(12)で受信するステップと、
前記オーディオデータの第1セグメントと同時又はそれより遅い時点で、該第1のオーディオデータに論理的に関連するビデオデータの第1セグメントを前記通信装置(12)で受信するステップと、
所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用するステップと、
を有することを特徴とする方法。
【請求項2】
前記オーディオデータの第1セグメントの始まりに関連する事前通知を前記通信装置で発生するステップと、
前記オーディオデータの第1セグメントの始まりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項3】
前記オーディオデータの最終セグメントの終わりに関連する事前通知を前記通信装置で発生するステップと、
前記オーディオデータの最終セグメントの終わりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項4】
前記視覚情報を画像又は文字として前記通信装置の画面に表示し、又は、光源により発生される光として表示し、又は、音声を放射するために前記オーディオデータを処理するステップを更に有することを特徴とする請求項2に記載の方法。
【請求項5】
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第1セグメントを分析するステップを更に有することを特徴とする請求項1に記載の方法。
【請求項6】
前記ビデオデータの第1セグメント中に前記顔が存在する確率を判定するために前記受信されたビデオデータの第1セグメントをフィルタリングするステップを更に有することを特徴とする請求項5に記載の方法。
【請求項7】
前記判定された確率が所定の閾値確率より高い場合に前記同期処理をオンするステップを更に有することを特徴とする請求項6に記載の方法。
【請求項8】
対応する後続ビデオデータセグメントにおいて次に判定された顔が存在する確率が前記所定の閾値確率より低い場合は前記同期処理をオフするステップを更に有することを特徴とする請求項7に記載の方法。
【請求項9】
前記所定の指標としてのユーザ入力指示を受信するステップを更に有することを特徴とする請求項1に記載の方法。
【請求項10】
前記ユーザ入力指示を前記通信装置に入力するためのソフトウェアキーを生成するステップを更に有することを特徴とする請求項9に記載の方法。
【請求項11】
前記同期処理を適用するステップは、
前記ビデオデータの第1セグメントを受信又は復号化する前に、前記オーディオデータの第1セグメントの始まりを再生するステップを含むことを特徴とする請求項1に記載の方法。
【請求項12】
前記再生するステップは、
所定の速度より遅い低再生速度で少なくとも前記オーディオデータの第1セグメントを再生するステップを更に有することを特徴とする請求項11に記載の方法。
【請求項13】
前記ビデオデータの第1セグメントを再生のために利用可能である場合、前記オーディオデータの第1セグメント又はそれに続くセグメントの前記低再生速度を前記所定の速度まで上げるステップを更に有することを特徴とする請求項12に記載の方法。
【請求項14】
前記オーディオデータの最終セグメントを前記通信装置で受信するステップと、
前記オーディオデータの最終セグメントと同時又はそれより遅い時点で、前記オーディオデータの最終セグメントに論理的に関連する前記ビデオデータの最終セグメントを前記通信装置で受信するステップと、
前記オーディオデータの最終セグメントと前記ビデオデータの最終セグメントとが同期しないように、所定の速度より速い高再生速度で前記オーディオデータの最終セグメントを再生するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項15】
前記ビデオデータの最終セグメントの再生を終了する前に、前記オーディオデータの最終セグメントの再生を終了するステップを更に有することを特徴とする請求項14に記載の方法。
【請求項16】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置(12)であって、
オーディオデータの第1セグメントを受信し、該オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを受信する入出力ユニット(18)と、
所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用するプロセッサ(24)と、
を有することを特徴とする通信装置。
【請求項17】
前記プロセッサは、更に、
前記オーディオデータの第1セグメントの始まりに関連する事前通知を発生し、
前記オーディオデータの第1セグメントの始まりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生する
ことを特徴とする請求項16に記載の通信装置。
【請求項18】
前記プロセッサは、更に、
前記オーディオデータの最終セグメントの終わりに関連する事前通知を発生し、
前記オーディオデータの最終セグメントの終わりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生する
ことを特徴とする請求項16に記載の通信装置。
【請求項19】
前記視覚情報を前記通信装置の画面に画像又は文字として表示し、又は、光源により発生される光として表示する表示ユニット、又は、
前記オーディオデータを音声として再生する音声再生ユニット、
を更に有することを特徴とする請求項17に記載の通信装置。
【請求項20】
前記プロセッサは、更に、
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第1セグメントを分析することを特徴とする請求項16に記載の通信装置。
【請求項21】
前記プロセッサは、更に、
前記ビデオデータの第1セグメント中に前記顔が存在する確率を判定するために前記受信されたビデオデータの第1セグメントをフィルタリングすることを特徴とする請求項20に記載の通信装置。
【請求項22】
前記プロセッサは、更に、
前記判定された確率が所定の閾値確率より高い場合に前記同期処理をオンすることを特徴とする請求項21に記載の通信装置。
【請求項23】
前記プロセッサは、更に、
対応する後続ビデオデータセグメントにおいて次に判定された顔が存在する確率が前記所定の閾値確率より低い場合は前記同期処理をオフすることを特徴とする請求項21に記載の通信装置。
【請求項24】
前記所定の指標を提供するためにユーザ入力指示を受信する入出力インタフェースを更に有することを特徴とする請求項16に記載の通信装置。
【請求項25】
表示ユニットを更に有し、
前記プロセッサは、更に、前記ユーザ入力指示を入力するためのソフトウェアキーを前記表示ユニット上に生成することを特徴とする請求項24に記載の通信装置。
【請求項26】
前記プロセッサは、更に、
前記ビデオデータの第1セグメントを受信又は復号化する前に、少なくとも前記オーディオデータの第1セグメントを再生することを特徴とする請求項16に記載の通信装置。
【請求項27】
前記プロセッサは、更に、
所定の速度より遅い低再生速度で前記オーディオデータの第1セグメントを再生することを特徴とする請求項26に記載の通信装置。
【請求項28】
前記プロセッサは、更に、
前記ビデオデータの第1セグメントを再生のために利用可能である場合、前記オーディオデータの第1セグメント又はそれに続くオーディオデータセグメントの前記低再生速度を前記所定の速度まで上げることを特徴とする請求項27に記載の通信装置。
【請求項29】
前記入出力ユニットは、更に、前記オーディオデータの最終セグメントを受信し、該オーディオデータの最終セグメントと同時又はそれより遅い時点で、前記オーディオデータの最終セグメントに論理的に関連する前記ビデオデータの最終セグメントを受信し、
前記プロセッサは、更に、前記オーディオデータの最終セグメントと前記ビデオデータの最終セグメントとが同期しないように、所定の速度より速い高再生速度で前記オーディオデータの最終セグメントを再生する
ことを特徴とする請求項16に記載の通信装置。
【請求項30】
前記プロセッサは、更に、
前記ビデオデータの再生の終了前に、前記オーディオデータの再生を終了することを特徴とする請求項29に記載の通信装置。
【請求項31】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置(12)であって、
オーディオデータの第1セグメントを受信し、該オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを受信する手段(18)と、
所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用する手段(24)と、
を有することを特徴とする通信装置。
【請求項32】
通信装置(12)により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法であって、
オーディオデータの第1セグメントを前記通信装置で受信するステップと、
前記オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを前記通信装置(12)で受信するステップと、
前記オーディオデータの第1セグメントに関連する事前通知を前記通信装置(12)で発生するステップと、
前記事前通知を示す視覚情報又はオーディオ情報を生成するために前記事前通知を処理するステップと、
を有することを特徴とする方法。
【請求項33】
前記事前通知を受信するステップは、前記オーディオデータの第1セグメントの終わりを示す終了事前通知を受信するステップを含むことを特徴とする請求項32に記載の方法。
【請求項34】
前記視覚情報を画像又は文字として前記通信装置の画面に表示し、又は、光源により発生される光として表示し、又は、音声を放射するために前記オーディオデータを処理するステップを更に有することを特徴とする請求項32に記載の方法。
【請求項35】
所定の指標に基づいて前記オーディオデータセグメントと前記ビデオデータセグメントとの間に同期処理を適用するステップを更に有することを特徴とする請求項32に記載の方法。
【請求項36】
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第1セグメントを分析するステップ、又は、
前記所定の指標としてのユーザ入力指示を受信するステップ、
を更に有することを特徴とする請求項35に記載の方法。
【請求項37】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置(12)であって、
オーディオデータの第1セグメントを受信し、該オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを受信するとともに、前記オーディオデータの第1セグメントに関連する事前通知を受信し、該事前通知を示す視覚情報又はオーディオ情報を生成するために前記事前通知を処理するプロセッサ(24)と、
前記プロセッサに接続され、前記視覚情報を表示する表示ユニット(28)、又は、前記プロセッサに接続され、前記オーディオ情報に基づいて音声を放射する音声ユニット(34)、のうちの少なくとも一方と、
を有することを特徴とする通信装置。
【請求項38】
前記表示ユニットが、前記視覚情報を画像又は文字として画面に表示し、又は、光源により発生される光として表示し、又は、前記音声ユニットが、前記オーディオ情報に対応する音源を放射する、ことを特徴とする請求項37に記載の通信装置。
【請求項39】
前記プロセッサは、更に、
所定の指標に基づいて前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用することを特徴とする請求項37に記載の通信装置。
【請求項40】
前記プロセッサは、更に、
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第1セグメントを分析し、又は、
前記所定の指標を提供するユーザ入力指示を受信する
ことを特徴とする請求項39に記載の通信装置。
【請求項1】
通信装置(12)により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法であって、
オーディオデータの第1セグメントを前記通信装置(12)で受信するステップと、
前記オーディオデータの第1セグメントと同時又はそれより遅い時点で、該第1のオーディオデータに論理的に関連するビデオデータの第1セグメントを前記通信装置(12)で受信するステップと、
所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用するステップと、
を有することを特徴とする方法。
【請求項2】
前記オーディオデータの第1セグメントの始まりに関連する事前通知を前記通信装置で発生するステップと、
前記オーディオデータの第1セグメントの始まりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項3】
前記オーディオデータの最終セグメントの終わりに関連する事前通知を前記通信装置で発生するステップと、
前記オーディオデータの最終セグメントの終わりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項4】
前記視覚情報を画像又は文字として前記通信装置の画面に表示し、又は、光源により発生される光として表示し、又は、音声を放射するために前記オーディオデータを処理するステップを更に有することを特徴とする請求項2に記載の方法。
【請求項5】
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第1セグメントを分析するステップを更に有することを特徴とする請求項1に記載の方法。
【請求項6】
前記ビデオデータの第1セグメント中に前記顔が存在する確率を判定するために前記受信されたビデオデータの第1セグメントをフィルタリングするステップを更に有することを特徴とする請求項5に記載の方法。
【請求項7】
前記判定された確率が所定の閾値確率より高い場合に前記同期処理をオンするステップを更に有することを特徴とする請求項6に記載の方法。
【請求項8】
対応する後続ビデオデータセグメントにおいて次に判定された顔が存在する確率が前記所定の閾値確率より低い場合は前記同期処理をオフするステップを更に有することを特徴とする請求項7に記載の方法。
【請求項9】
前記所定の指標としてのユーザ入力指示を受信するステップを更に有することを特徴とする請求項1に記載の方法。
【請求項10】
前記ユーザ入力指示を前記通信装置に入力するためのソフトウェアキーを生成するステップを更に有することを特徴とする請求項9に記載の方法。
【請求項11】
前記同期処理を適用するステップは、
前記ビデオデータの第1セグメントを受信又は復号化する前に、前記オーディオデータの第1セグメントの始まりを再生するステップを含むことを特徴とする請求項1に記載の方法。
【請求項12】
前記再生するステップは、
所定の速度より遅い低再生速度で少なくとも前記オーディオデータの第1セグメントを再生するステップを更に有することを特徴とする請求項11に記載の方法。
【請求項13】
前記ビデオデータの第1セグメントを再生のために利用可能である場合、前記オーディオデータの第1セグメント又はそれに続くセグメントの前記低再生速度を前記所定の速度まで上げるステップを更に有することを特徴とする請求項12に記載の方法。
【請求項14】
前記オーディオデータの最終セグメントを前記通信装置で受信するステップと、
前記オーディオデータの最終セグメントと同時又はそれより遅い時点で、前記オーディオデータの最終セグメントに論理的に関連する前記ビデオデータの最終セグメントを前記通信装置で受信するステップと、
前記オーディオデータの最終セグメントと前記ビデオデータの最終セグメントとが同期しないように、所定の速度より速い高再生速度で前記オーディオデータの最終セグメントを再生するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項15】
前記ビデオデータの最終セグメントの再生を終了する前に、前記オーディオデータの最終セグメントの再生を終了するステップを更に有することを特徴とする請求項14に記載の方法。
【請求項16】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置(12)であって、
オーディオデータの第1セグメントを受信し、該オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを受信する入出力ユニット(18)と、
所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用するプロセッサ(24)と、
を有することを特徴とする通信装置。
【請求項17】
前記プロセッサは、更に、
前記オーディオデータの第1セグメントの始まりに関連する事前通知を発生し、
前記オーディオデータの第1セグメントの始まりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生する
ことを特徴とする請求項16に記載の通信装置。
【請求項18】
前記プロセッサは、更に、
前記オーディオデータの最終セグメントの終わりに関連する事前通知を発生し、
前記オーディオデータの最終セグメントの終わりを再生する前に、前記事前通知を示す視覚情報を表示し、又は、前記事前通知を示すオーディオ情報を再生する
ことを特徴とする請求項16に記載の通信装置。
【請求項19】
前記視覚情報を前記通信装置の画面に画像又は文字として表示し、又は、光源により発生される光として表示する表示ユニット、又は、
前記オーディオデータを音声として再生する音声再生ユニット、
を更に有することを特徴とする請求項17に記載の通信装置。
【請求項20】
前記プロセッサは、更に、
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第1セグメントを分析することを特徴とする請求項16に記載の通信装置。
【請求項21】
前記プロセッサは、更に、
前記ビデオデータの第1セグメント中に前記顔が存在する確率を判定するために前記受信されたビデオデータの第1セグメントをフィルタリングすることを特徴とする請求項20に記載の通信装置。
【請求項22】
前記プロセッサは、更に、
前記判定された確率が所定の閾値確率より高い場合に前記同期処理をオンすることを特徴とする請求項21に記載の通信装置。
【請求項23】
前記プロセッサは、更に、
対応する後続ビデオデータセグメントにおいて次に判定された顔が存在する確率が前記所定の閾値確率より低い場合は前記同期処理をオフすることを特徴とする請求項21に記載の通信装置。
【請求項24】
前記所定の指標を提供するためにユーザ入力指示を受信する入出力インタフェースを更に有することを特徴とする請求項16に記載の通信装置。
【請求項25】
表示ユニットを更に有し、
前記プロセッサは、更に、前記ユーザ入力指示を入力するためのソフトウェアキーを前記表示ユニット上に生成することを特徴とする請求項24に記載の通信装置。
【請求項26】
前記プロセッサは、更に、
前記ビデオデータの第1セグメントを受信又は復号化する前に、少なくとも前記オーディオデータの第1セグメントを再生することを特徴とする請求項16に記載の通信装置。
【請求項27】
前記プロセッサは、更に、
所定の速度より遅い低再生速度で前記オーディオデータの第1セグメントを再生することを特徴とする請求項26に記載の通信装置。
【請求項28】
前記プロセッサは、更に、
前記ビデオデータの第1セグメントを再生のために利用可能である場合、前記オーディオデータの第1セグメント又はそれに続くオーディオデータセグメントの前記低再生速度を前記所定の速度まで上げることを特徴とする請求項27に記載の通信装置。
【請求項29】
前記入出力ユニットは、更に、前記オーディオデータの最終セグメントを受信し、該オーディオデータの最終セグメントと同時又はそれより遅い時点で、前記オーディオデータの最終セグメントに論理的に関連する前記ビデオデータの最終セグメントを受信し、
前記プロセッサは、更に、前記オーディオデータの最終セグメントと前記ビデオデータの最終セグメントとが同期しないように、所定の速度より速い高再生速度で前記オーディオデータの最終セグメントを再生する
ことを特徴とする請求項16に記載の通信装置。
【請求項30】
前記プロセッサは、更に、
前記ビデオデータの再生の終了前に、前記オーディオデータの再生を終了することを特徴とする請求項29に記載の通信装置。
【請求項31】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置(12)であって、
オーディオデータの第1セグメントを受信し、該オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを受信する手段(18)と、
所定の指標に基づいて、前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用する手段(24)と、
を有することを特徴とする通信装置。
【請求項32】
通信装置(12)により受信された、複数のビデオデータセグメントを含むビデオデータと、前記通信装置により受信された、複数のオーディオデータセグメントを含むオーディオデータとを同期させる方法であって、
オーディオデータの第1セグメントを前記通信装置で受信するステップと、
前記オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを前記通信装置(12)で受信するステップと、
前記オーディオデータの第1セグメントに関連する事前通知を前記通信装置(12)で発生するステップと、
前記事前通知を示す視覚情報又はオーディオ情報を生成するために前記事前通知を処理するステップと、
を有することを特徴とする方法。
【請求項33】
前記事前通知を受信するステップは、前記オーディオデータの第1セグメントの終わりを示す終了事前通知を受信するステップを含むことを特徴とする請求項32に記載の方法。
【請求項34】
前記視覚情報を画像又は文字として前記通信装置の画面に表示し、又は、光源により発生される光として表示し、又は、音声を放射するために前記オーディオデータを処理するステップを更に有することを特徴とする請求項32に記載の方法。
【請求項35】
所定の指標に基づいて前記オーディオデータセグメントと前記ビデオデータセグメントとの間に同期処理を適用するステップを更に有することを特徴とする請求項32に記載の方法。
【請求項36】
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第1セグメントを分析するステップ、又は、
前記所定の指標としてのユーザ入力指示を受信するステップ、
を更に有することを特徴とする請求項35に記載の方法。
【請求項37】
複数のビデオデータセグメントを含む受信したビデオデータと、複数のオーディオデータセグメントを含む受信したオーディオデータとを同期させる通信装置(12)であって、
オーディオデータの第1セグメントを受信し、該オーディオデータの第1セグメントと同時又はそれより遅い時点で、該オーディオデータの第1セグメントに論理的に関連するビデオデータの第1セグメントを受信するとともに、前記オーディオデータの第1セグメントに関連する事前通知を受信し、該事前通知を示す視覚情報又はオーディオ情報を生成するために前記事前通知を処理するプロセッサ(24)と、
前記プロセッサに接続され、前記視覚情報を表示する表示ユニット(28)、又は、前記プロセッサに接続され、前記オーディオ情報に基づいて音声を放射する音声ユニット(34)、のうちの少なくとも一方と、
を有することを特徴とする通信装置。
【請求項38】
前記表示ユニットが、前記視覚情報を画像又は文字として画面に表示し、又は、光源により発生される光として表示し、又は、前記音声ユニットが、前記オーディオ情報に対応する音源を放射する、ことを特徴とする請求項37に記載の通信装置。
【請求項39】
前記プロセッサは、更に、
所定の指標に基づいて前記オーディオデータの第1セグメントと前記ビデオデータの第1セグメントとの間に同期処理を適用することを特徴とする請求項37に記載の通信装置。
【請求項40】
前記プロセッサは、更に、
前記所定の指標としての顔の有無を検出するために前記受信されたビデオデータの第1セグメントを分析し、又は、
前記所定の指標を提供するユーザ入力指示を受信する
ことを特徴とする請求項39に記載の通信装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公表番号】特表2012−511279(P2012−511279A)
【公表日】平成24年5月17日(2012.5.17)
【国際特許分類】
【出願番号】特願2011−539473(P2011−539473)
【出願日】平成20年12月8日(2008.12.8)
【国際出願番号】PCT/SE2008/051420
【国際公開番号】WO2010/068151
【国際公開日】平成22年6月17日(2010.6.17)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
【出願人】(598036300)テレフオンアクチーボラゲット エル エム エリクソン(パブル) (2,266)
【Fターム(参考)】
【公表日】平成24年5月17日(2012.5.17)
【国際特許分類】
【出願日】平成20年12月8日(2008.12.8)
【国際出願番号】PCT/SE2008/051420
【国際公開番号】WO2010/068151
【国際公開日】平成22年6月17日(2010.6.17)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
【出願人】(598036300)テレフオンアクチーボラゲット エル エム エリクソン(パブル) (2,266)
【Fターム(参考)】
[ Back to top ]