説明

改善された音声/映像の方法及びシステム

音声データ及び又は映像データが、修正されたMPEGファイル又はデータストリームなどの単一のデータオブジェクトを使用することによって、補助センサデータ(例えば、加速度、方位又は傾きに関連する)と構造的かつ永続的に関連付けられる。この形で、様々な提示デバイスが、共伝達されたセンサデータを使用して音声コンテンツ又は映像コンテンツを改変することができる。例えば、加速度計データを映像データと関連付けることによって、一部のユーザは振動安定化バージョンの映像を見ることができ、他のユーザは、そのような動きアーティファクトがそのままにされた映像を見ることができるようになる。同様に、焦点面距離などのカメラパラメータを音声/映像コンテンツと併せて共伝達することによって、カメラが遠くの被写体から音声/映像を取り込むときには音量を減少させることができるようになる。

【発明の詳細な説明】
【関連出願データ】
【0001】
米国において、本願は、2009年7月24日に出願された米国特許仮出願第61/228336号の正規の出願であり、同特許仮出願の優先権の利益を主張する。
【序説】
【0002】
映像/画像センサ(例えば、カメラ)を備えた携帯電話及び他のデバイスに関し、単一で既存の構成の画像/音声(例えば、MPEG)以外に追加データストリームを含む符号化形式があれば望ましい。このような構成で伝達できる上乗せデータストリームの中には、2次元/3次元加速度計/傾斜、2次元/3次元コンパス(磁力計)、レンズズーム、口径、焦点距離、及び被写界深度などが含まれる。
【0003】
これらのデータを画像情報と共に伝達することによって、画像は、この補助情報に従って都合よく処理することができる。さらに、補助情報が画像情報と永続的に関連付けられている場合には、別のデバイスがその補助情報を用いて、映像(及び/又は音声)を別の方法で、別の時間に処理することもできる。
【0004】
このような補助情報を使用することは、その画像を取り込んだデバイスによって、及び/又は他のデバイス/システム/アプリケーション(例えば、ビデオプレーヤアプリケーション、又はユーチューブなどのソーシャルメディアウェブサイト)によって可能である。このような処理は、画像取込み時に(例えば、手動又は自動ライブ制作で)、又は映像コンテンツから娯楽作品が制作されるときに、又はポストプロダクション中に(例えば、異なる形式に変換すること、又は異なる環境で消費するために)、又はコンテンツが最終的に視聴者に提示されるときなどに、行うことができる。
【0005】
説明すると、本技術の一実施形態は、音声データとカメラデータ(例えば、焦点面距離)の両方が単一のデータオブジェクト(例えば、MPEGファイル又はストリーム)から回復される方法である。音声データは、焦点面データに従って処理されて、ユーザに提示するための改変音声データが得られる。この処理は、離れた被写体に焦点面が一致しているときに取り込まれた音が、近くの被写体に焦点面が一致しているときと比べて減衰されるように音量を制御する(すなわち、近い方の被写体では音が大きくなる)ことを含むことができる。この効果は、選択に応じてユーザによって使用可能又は不能にすることができる。
【0006】
別の実施形態は、映像データとセンサデータ(例えば、加速度計データ)の両方が単一のデータオブジェクトから回復される方法である。映像データは、加速度計データに従って処理されて、この場合もやはりユーザによって指定された選択のデータに基づいて、カメラの動き(例えば、振動)が補償される、又は補償されない。
【0007】
より一般的には、本技術のいくつかの態様には、(1)音声及び/又は映像情報、並びに(2)カメラ及び/又はセンサデータ、の両方を含む単一のデータオブジェクトが伴う。特定の実施形態は、別々のデータソースからこのような単一のオブジェクトを作り出す、及び/又はこのような単一のオブジェクトから個別のデータを回復する方法及び装置に関する。他の方法及び構成では、センサ及び/又はカメラデータを使用して、音声及び/又は映像情報を改変する。
【0008】
本技術の上記及び他の特徴及び利点は、添付の図面を参照して改めて行う以下の詳細な説明から、より容易に明らかになろう。
【図面の簡単な説明】
【0009】
【図1】音声及び映像データがシステム間でMPEG符号化を用いて伝達される、従来技術の構成を示す図である。
【図2】本技術の一態様による構成を示す図である。
【図3】携帯電話から来る共通データストリームを別々の受信ユニットがどのようにして使用できるかを示す図である。
【図4】携帯電話の態様を示すブロック図である。
【詳細な説明】
【0010】
図1は、従来技術の構成を示す。ビデオカメラなどの発信デバイスは、画像を取り込むカメラシステム(2次元画像センサを含む)、及び音声を取り込むマイクロフォンを含む。取り込まれたデータは、MPEGなどの標準規格に準拠して記述される(すなわち、符号化される)。結果として得られる映像と音声のデータストリームは、他の処理及び記録デバイスの全ての方法と互換性がある、よく知られている方法(例えば、MPEGデータストリーム)で一体化される。受信ユニットは、伝送された映像を復号してディスプレイ画面に供給する。同様に、受信ユニットは伝送された音声を復号してスピーカに供給する。
【0011】
より新規のデバイスは、従来技術の画像センサ/マイクロフォン以外に多数のセンサを含む。例えば、廉価なスマートフォンでも、加速度計(手ぶり、傾きなどを感知する)、及び磁力計(例えば、コンパス方向を感知する)などの構成要素を含む。加えて、レンズズーム及び開口サイズなどの光学取込みパラメータをデータとして取得し、後で画像(及び/又は音声)データの処理の際に使用することもできる。
【0012】
図2は、本技術の諸態様を用いる例示的な実施を示す。発信ユニット(例えば、携帯電話)は、3次元の加速度情報、(通常は、直交する配置の3つのMEMS加速度計)、3次元位置座標(例えば、GPSによって、又は他の方法で)、タイムスタンプデータ、3次元の方位情報(通常は、磁力計又はホール効果コンパスから得られる)、及び傾きセンサ(内蔵の加速度計データ、又はジャイロスコープデバイスを備えることができる)を含むデータを供給する。カメラデータには、焦点、ズーム、開口サイズ、被写界深度、露出時間、ISO設定、レンズ焦点距離、焦点深度などに関する情報が含まれうる。このようなパラメータにより、画像がその空間領域とどのように関連しているかについての再計算が可能になる。変換器とカメラ/映像フレームそれぞれの間の相対的遅延など、他のシステム固有のタイミング情報が含まれうる。補助データには、例えば、関連する映像フレームのフレーム識別番号、又はMPEG I−フレームと結び付いた他の同期方法が含まれうる。
【0013】
この詳述したばかりの情報は、例えばMPEGなどの単一のデータストリームとして発信ユニットで取り込まれた、若しくはMPEGデータファイルなどの単一のファイルに記憶された音声及び/又は映像情報と併せて共伝達される。(このような単一の構成物は、一括して単一のデータオブジェクトと呼ばれ、これらの異なる種類のデータを一緒に構成されるようにして永続的に関連付けるという利点を有する。)
【0014】
図2にはまた、受信ユニットが示されている。この受信ユニットは、詳述したばかりのデータの一部又は全部を取得し、ユーザに提示される出力を作る際にそのデータを用いる。
【0015】
このような出力が、共伝達される補助データとどのように関連しうるかについての例をいくつか考える。1つは振動補償(動き安定化)である。多くのカメラでは、カメラの振動を感知し(例えば、1つ又は複数の加速度計によって)、この影響がカメラから出力される前にその影響を取り除くように画像データを処理する。本技術を用いる一構成では、以前通りに振動を感知する。しかし、この影響をカメラ内で取り除くのではなく、関連する振動データが、取り込まれた画像データと共に伝達される。このデータを受け取るデバイス及びアプリケーションは、振動対策アルゴリズム(従来技術のカメラに使用されている種類のもの)を適用することを選択することができ、若しくは画像を、振動を含むその未処理の、元のままの形で提供することもできる。補助データを適用して振動するアーティファクトを取り除くかどうかは、自動的に(例えば、特定のビデオプレーヤでは、振動安定化されるようにして常に映像を見せることができる)、若しくはユーザの選択によって(例えば、ユーザインタフェース制御部の操作によって表示されるように、又は記憶された選択データを参照することによって)、個々別々に決めることができる。
【0016】
別の例は音声処理である。ほとんどの音声取込みデバイスは、比較的一定の音声レベルを維持しようとする何らかの形の自動利得制御(AGC)を含む。マイクロフォンによって感知された音声は、それが微弱な場合は増幅され、強い場合は減衰される。これは、例えば聴く人の快適さのために、一般に望ましい。本技術の態様によれば、AGCが以前通りに取込みの時点で適用される。しかし、提示の時点で、あるアプリケーションにより、カメラからの被写体の距離に従って音量を制御することができる。つまり、音声出力は、カメラの焦点面の位置を示す補助データに従って制御することができる。カメラの焦点がカメラに近い被写体に合っている場合(例えば、数フィート離れた人とのインタビュー)、提示システムは、第1の値の音声レベルを出力することができる。対照的に、カメラの焦点が離れた被写体に合っている場合、提示デバイスは、低い方の第2の値に音声レベルを低減して、離れている視覚効果が強まる音響効果を聴衆に与えることができる。本明細書ではこれを「次元」音声と呼ぶ。(この場合もやはり、このような処理を用いるかどうかは、自動又は手動で選択的に制御することができる。)
【0017】
同様に、音響効果を追加すること、若しくは、共伝達された加速度計又は磁力計のデータによって示されるカメラの動きに基づいて音響効果を調整することが可能である。カメラの振動又はジッタが感知された場合、低周波数の連続音を既存の音声データの上に重ねることができる。データが、カメラが上又は下にパンしていることを示す場合は、(それぞれ)高くなる又は低くなる周波数の笛の音を加えることができる。等々。
【0018】
図3は、本構成の多様性を示す。単一の供給データは、発信ユニットからの出力である。この供給データは、「ライブ」で、又は中間の記憶装置及び/又は制作物を介して、様々な受信ユニットに分配される。異なる受信ユニットは、データを様々に提示し、例えば、あるものは動き安定化ディスプレイを用いて、あるものは用いないで、あるものは次元音声を用いて、あるものは従来の(AGC)音声を用いて、提示する。(受信ユニットはまた、携帯電話とすることもできる。受信ユニットの1つは、発信ユニットとすることができる。例示的な携帯電話のブロック図が図4に示されている。)
【0019】
図2の受信ユニットは、出力デバイスとしてディスプレイ及びスピーカだけを含むように示されているが、もちろん、もっと多い又は少ないデバイスを使用することができる。一構成では、例えば、発信ユニットで感知された動き情報を受信ユニットで動き(振動)として提示できるように、1つ又は複数の触覚に基づく出力デバイスが含まれる。触覚に関する技術及び出力デバイスについては、特許第7,425,675号、第7,561,142号、及び特許出願公開第2009/0096632号などのImmersion Corp.の特許から分かる。
【0020】
異種のデータストリームの符号化では、MPEG−2/H.262及びH.264/MPG−4などの知られているプロトコルの基本的手法を用いることができる。これらのプロトコルは、他の拡張機能を付加するために修正することができ、(音声)MPGマルチチャネル(ISO14496−3)と同様である。別の手法は、MPEG−2の6つのLCPM音声チャネルの中で、1つ又は複数の使用可能なチャネルを使用することである(これらは可逆的に符号化され、低いサンプル及びビットレートで行うことができる)。
【0021】
説明すると、空間変換器、変換器軸、カメラ設定、光学パラメータなどのそれぞれのデータがデジタルストリームに符号化され、その符号化の時点でMPEG−2ストリームの音声チャネルの1つに挿入される。(現在の符号化では、チャネルの数及びビットレートの選択が可能であり、したがって、1つ又は複数のチャネルを使用可能にすることができる。)カメラ及びマイクロフォン(複数可)からの元の音声に必要とされる数以上の、十分な数の追加チャネルが実施される音声符号化法が選択される。変換器などのデータは、これらの追加音声チャネル(複数可)のデータストリームを含む。これにより、変換器データは音声/映像ストリームとの同期が保たれ、これは、その後の音声/映像データの処理にとって望ましい。(別の構成では、同期がプロトコル中で維持されないが、補助データストリームの1つ以上にデジタル透かしが入れられた同期信号を音声及び/又は映像データと共に参照することによって、後で確立される。例えば、特許第6,836,295号及び第6,785,401号を参照されたい。)
【0022】
空間データ及び加速度計データが非常に高いビットレートを必要としないので(以下でさらに論じるように)、これらのデータストリームは、より少数の音声チャネルの中に(単一音声チャネルでも)直列に結合することができる。大まかな例として、4つの変換器のそれぞれ3つの軸(全部で12)にサンプル当たり32ビットを与えると、それぞれが32ビットの32のカメラ設定を加えて、1つの画像フレーム当たりの合計が176バイトになる。画像フレームレートが60フレーム/秒である場合、補助データレートは10,560バイト/秒になり、このデータレートは、最も低い音声チャネル(8ビットで44.1kHz)でも十分に内側にある。一部の補助データは全てのフレームと共に送信する必要がないので、チャネル使用率はさらに低減することができる。
【0023】
データレートが低いので、補助データは、従来の音声よりも低いビットレートで符号化することができる。カメラの空間座標は、最も低いレートを有しうる。光学取込み系(レンズ、光学部品、露出など)を記述する補助データは、定期的に送信することができるが、変化したときに送信されるだけでよい(通常、変化が最初に現れるフレームと関連付けられている)。特定の一実施では、このようなデータは、編集されたストリームにおける画像後処理のためにMPEG映像のI−フレームと整合されて送られる。ズーム、開口、方位、被写界深度、焦点距離、方位角、3次元GPS、時間、その他は、フレームごとに一回だけ必要とされる。加速度情報は通常、カメラ空間運動を保持するためにより速いレートで収集される(又は、速度及び関連する空間位置を得るために積分される)。加速度情報は、フレームごとに一回よりも頻繁に収集できるが、フレーム間隔でしか送信されないことがあり、若しくはもっと多い又は少ない頻度で送信されることもある。(つまり、加速度計データ及び位置データは、映像フレームレートに限定する必要がない。)
【0024】
データレートが比較的低いことを考えると、データ圧縮は不要である(しかし、もちろん使用することもできる)。変化が遅いデータについては、いくつかの実施では通常、差分アップデートを送信し、再同期のための完全な座標を少ない頻度で(MPEGにおけるBフレーム及びPフレームに対するIフレームに類似して)送信することができる。様々なデータ型(例えば、差分又は全部)は、関連するデータパケット又はフィールド内でタグ(例えば、XML形式)によって表示することができる。
【0025】
加速度データは、発信ユニットにおいて局所的に積分することができる(一次及び二次積分)。これらのパラメータは、各フレームの位置を特定するのに必要な精度よりも高い精度が得られるので、補助データストリームに含まれる。同様に、加速度、方位、コンパス、及び位置を追跡し組み合わせることによって、空間位置付けをカメラにおいて高い精度でより適切に計算することができる。加速度データの積分により、データの帯域幅が効果的に削減される。
【0026】
いくつかの実施形態では、補助データは、同期フィールド/タグ及び識別フィールド/タグと共にストリームに寄せ集められて、映像の解析及び修正が可能になる。様々なデータの精度もまた、ストリーム中で明示する(タグを付ける)ことができる。
【0027】
別の構成では、空間情報の各サンプル群は、そのデータに対応するタイムスタンプと共に、範囲を定められ、又はパケットの形にされる。
【0028】
特定の一構成において、補助データは、符号化され、例えば5.1音声実装の既存の音声チャネルの間で多重化され、及び/又は既存の音声チャネルに混合される。携帯電話及び多くの他のカメラなどからのモノラル音声では、余分のチャネル容量は本質的に自由に利用できる。別の実施では、補助データは、人の可聴範囲の最低部又は最高部近くの、例えば300Hz未満又は15kHzを超える1つ又は複数の搬送波に符号化される。(MP3又は他の符号化は、このようなデータ帯域を保持するように適応させることができる。)これらのデータ帯域は、再生の時点で、人が購入するために提示される音声中で適宜にフィルタリングすること、又は除去することができる。
【0029】
さらに別の構成では、補助データは、音声(映像)の範囲の一部又は全部にわたる音声(又は映像)の微細な変化として、ステガノグラフィで伝達される。このようなデジタル透かし技術は、例えば特許第6,061,793号及び第6,590,996号に詳述されている。
【0030】
当業者には明らかなように、符号化構成と相補的な復号器構成が、補助データを抽出するために、例えば受信ユニット(複数可)に設けられる。
【0031】
さらに別の構成では、変換器データ及びカメラデータが専用のチャネル内で符号化される新規の標準符号化形式を採用し、この符号化は、映像フレーム符号化と同期される(この場合もやはり、フレームレートに限定される必要はないが)。
【0032】
ストリーム中のデータフィールドタグ及び/又はパケットヘッダフィールドは、将来に追加データ型を含むことができるように拡張可能にすることができる。特定の一構成において、パケットヘッダは、短く保たれて、変換器データのいくつかの標準の群/パケットを、その群が相対座標群又は絶対座標群であるかどうか、及び/又はその群がカメラ情報を含むかどうか、簡単に識別する働きをする。いくつかの追加ヘッダビット組合せが、拡張可能なコンテンツを使用するパケットのために、任意選択で残しておかれる。その場合、(拡張可能な)パケット内の各データ要素又はデータ群は、順次に、又は(XMLのように)階層的に範囲が定められる。拡張性は、全てのデータ群で有用でありうるが、望ましくは帯域幅要件の主要部を形成しない。
【0033】
符号化されたストリーム(又は対応するファイル構造)は、開始近くでタグ付けされて、プロトコルを知っているプレーヤが正しい解析オプションを使用可能にすることができ、音声(音声チャネルに符号化されていれば)などとして補助データを再生しようとすることがないように、そのストリームを無視する選択ができるようにする。
【0034】
レガシーデバイス(例えば、レガシービデオ/オーディオプレーヤ)での再生のために、補助データはあらかじめ取り除くことができ、又は、プレーヤが符号化プロトコルを知っている場合は、プレーヤがそのデータを無視する選択をすることができる。
【0035】
共伝達補助データの使用法を示すいくつかの例を上に提供した。このような応用例の数は限りがない。いくつか他の例を以下に簡潔に記す。
・マッピングからの空間情報と組み合わせる(例えば、拡張リアリティシステムLayar.euに類似するが、ライブ映像ではなく記録映像により動作する)。
・3次元画像を構築する(カメラの動き及び振動さえも、立体視情報を与えるための光路設定と組み合わせて用い、その後に画像を補間する)。
・マッピングのためにカメラ空間位置を追跡する。
・位置検索又はソーシャルアプリケーションのための画像コンテンツのユーザタグ付け。
・視野内の被写体のポストプロダクション又はライブ再生のタグ付けを可能にする(例えば、以前に録画した休暇のビデオクリップが、同じ場所を訪れている間に、携帯電話からの友人のリアルタイム座標供給により、友人がどこにいるかをリアルタイムで現在、表示することができる)。
・事件のありうる視像の映像探索を可能にする(犯罪に関する法廷での応用例など − 手動で見直し、各フレームの視像が何であるかを識別するのではなく、高速サーチで、誰かが偶然に事件Xの視像を背景に捕らえていないか)。
【0036】
組み合わされた音声/映像データと補助データのストリームは、実況放送で使用する、又は記録することができる。実況の場合、そうすることで発信ユニットがイベント(例えばスポーツイベント)を取り込むことが、視聴者によって(自宅のパーソナルコンピュータ/テレビで)、又は中間サービス(放送スタジオ又はクラウド処理)によって行われる補助データの処理(例えば、補助データと一緒の音声/映像の処理)により可能になる。
【0037】
複数のカメラ視像を組み合わせてより複雑な空間視像を構築することができる。その場合、視聴者は、様々な角度から見ることを可能にした後処理効果付きでイベントを観察することができる。付けられた空間タグデータにより、又は物体認識を用いることにより、観測者/視聴者は、個々の演技者、競技者、自動車、馬を追跡することができ、ストリームに含まれた空間データを伴う複数の画像ソースが、印を付けた物体/人を追うために選択/補間/混合される。追加のマーカ及びタグを、特定の空間位置のシーンに挿入することができる。
【0038】
位置(GPS)/加速度監視タグを、自動車、馬、フットボールを含む様々なスポーツイベント用に作ることができる(例えば、競技者のユニフォームに装着される)。補助データ中継器(位置、加速度など)を競技ボール、パック、又は他の移動備品若しくは静止備品にも組み込むことができ、このような補助データは、競技の音声/映像(例えばサイドラインから撮影)と併せて共伝達される。こうすることにより、見られている被写体に、カメラを基準とした既知の位置が与えられる。
【他の補足説明】
【0039】
読者は、上記の議論に関連する様々なプロトコル及びデータ伝送標準規格/仕様に精通しているとみなされる。このような仕様を詳述する様々な標準規格文献(例えば、ISO/IEC14496−3、ISO/IEC13818−1、ISO/IEC14496、ITU H.262、ITU H.222、RFC 3640など)は、参照により本明細書に組み込まれる。
【0040】
本発明の効果の原理を説明的な例を参照して記述し説明したが、本技術がそれだけに限定されないことが認められよう。
【0041】
例えば、例示的なプロトコル及び標準規格(例えば、MPEG−2)に特に言及したが、もちろん他も、詳述した目的のために適合させることができる。これらには、MPEG−4、MPEG−7、MPEG−21などが含まれる。
【0042】
音声が取込みの時点でAGC処理され、その後音声レベルが補助データに従って制御可能に変えられる一実施形態に言及した。別の構成では、音声は、取込みの時点でAGC処理されない。そうしないで、音声は、その最初に取り込まれた形で符号化される。音声レベル、又は他の効果はなお、補助データに従って制御することができる。
【0043】
詳述した実施形態では、補助データを、共伝達された音声及び/又は映像データを処理する際に使用するが、こうすることは必須ではない。他の実施では、補助データは、音声/映像と無関係の目的に対し、受信ユニットによって用いられることがある(例えば、表示された地図上で取込み位置を特定するなど)。
【0044】
センサデータ(又はカメラデータ)自体を符号化する代わりに、このようなデータに基づく他の情報を符号化できることを理解されたい。例えば、瞬間位置情報を表すデータを携帯電話で処理して、動きベクトルデータを得ることができる。この動きベクトルデータ(及び他のこのような後処理データ)は、関連する音声及び/又は映像と一緒に単一のデータオブジェクト内で符号化することができる。動きは、微分処理によって位置と関連付けられるが、無数の他の種類の処理、例えば積分、フィルタリング等々もまた適用することができる。同様に、様々な種類の補助データを組み合わせる、又は別に一緒に処理することができる(例えば、位置データの導関数で動きの1つの推定値を生成でき、加速度計データの積分で動きの第2の推定値を生成でき、その後にこれら2つの推定値を平均することができる)。いくつかの構成では、元のセンサデータが記憶され、この元データのタグが、後の再解析のために必要に応じて、符号化されたデータストリーム内に含まれる。
【0045】
同様に、詳述した種類の補助データは説明的なものであり、限定的なものではないことを理解されたい。例えば、別の構成では、競技者のスマートフォンが酸素センサ、又は心拍モニタを備えることができ、この情報は、関連する音声情報又は映像情報をやはり含むデータ構造中に格納することができる。(いくつかの実施形態では、このようなセンサは、ブルートゥース又は他の短距離接続技術によってスマートフォンと接続することができる。)このような構成によって、自転車レース映像を、各競争者の変化する心拍数及び血液酸素濃度を示す図による注釈付きで提示することができる。
【0046】
詳述した構成では、補助データ(例えば、センサデータ)が画像(映像)データの処理に有効に寄与できることが特に考慮されたが、他の処理構成もまた有効である。例えば、画像データを使用して、センサデータを処理する助けにすること、又は画像とセンサデータの組との間の同期をとることができる。映像ストリームは、データチャネル内に挿入されたデータ同期タグを含むことができ、このデータ同期タグに、ずっと大きいデータ又は代替データを同期させることができる。(データ同期タグは、フレーム番号又は時間からセンサ測定値のイベント識別子を計算することが不可能なことがあるので、映像フレーム/時間スタンプとは異なっていることが必要なことがある。また、映像後処理では、元のフレーム情報が失われることもある。)同様に、取り込まれた補助データが、単一のデータオブジェクト内(例えば、音声チャネル又はメタデータチャネル中)に都合よく含まれるにはあまりに大きい場合には、代わりに、このデータと関連付けられた識別番号を単一のデータオブジェクトの中に挿入することができる。
【0047】
例えば動画映像の取込み中のある時点に、静止写真及び変換器データを取り込むことを考える。画像のタグを映像ストリーム補助チャネルの中に挿入して、その写真と結び付けることができる。(写真は、元の映像フレーム/時間と結び付けるためのタグを有することができる。)写真取込み時間は、フレームレートよりも細かい分解能で記録することができる。
【0048】
また、スマートフォンで位置データ(例えば、位置、方位、傾き)の高速サンプル列を、スマートフォンが映像を取り込んでいるときに映像フレームレートより大きいフレームレートで収集することを考える。結果として得られる補助データは、映像と共にデータオブジェクト内に含まれるには大きくなりすぎることがある。(又は、位置データが別の処理で取り込まれることがある。)この位置データの識別子がタグに付与され、このタグは(おそらく、このデータ取込みの開始点及び終止点で)映像ストリームの中に挿入される。このデータは、例えば、画像化された対象物の3次元モデルを合成する、スマートフォンを把持/使用することに関連するユーザの動きを定量化するなど、様々な目的のために処理することができる。
【0049】
詳述した構成では、単一の画像センサ、又は単一の音声センサが特に考慮されたが、本技術はまた、複数のセンサと共に使用するのにもよく適している。
【0050】
このような一構成では、複数のセンサが音声又は映像、及び/又は補助データを取り込む。取り込まれた情報は、クラウド資源又は他の処理システムに供給することができ、そこでは、これら複数のストリームを提示のために解析し、組み合わせ、又はその間で選択することができる。例えば、複数のカメラの相対位置を、関連する位置データ(例えば、映像と共に符号化されている)から計算することができる。1つのカメラが別のカメラの視野内にある場合、その存在又は位置をユーザインタフェースで示し(例えば、見ているフレーム内で長方形を強調表示することによって)、それによって、見ている人に別の視点が使用可能であることを示すことができる。映像記者がイベント又はインタビューを取り込む場合、空間位置情報は、見られているものとは異なる映像ストリーム中の、よりよい音声又は映像が入手可能でありうるところを示すことができる。
【0051】
あるイベントの複数の視点を解析し組み合わせて、イベントの3次元モデルを提示することができる。取り込まれた位置(動き)データにより、カメラの動きを補償すること、及び画像ごとに、カメラの向き、焦点距離、視野などに基づいて変換/再マッピングすることが可能である。
【0052】
複数の音声センサが1つの空間に配置され、それぞれがまた補助情報(例えば、それぞれの瞬間位置)を収集する場合、様々な効果を生成できる豊富なデータセットが得られる。それぞれの演技者がこのようなマイクロフォンを有する動画を映画化することを考える。結果として得られる音声/補助データストリームは、別々の需要者に別々に提示することができる。一需要者は、その演技の中心にいるかのように音声を聞きたいであろう。(例えば、マイクロフォンの位置の平均を計算することができ、その位置での、それぞれのマイクロフォンによる音場寄与を、適宜に人の両耳聴の既知のモデルに基づいてモデル化されたステレオ指向性と共に、計算し提示することができる。)別の需要者は、特定の女優を追い、その女優が聞いたように音声を聞きたいであろう。この場合もやはり、このようなシステムは、女優が動きまわるときに、その女優の位置での正味の音場を決定することができる。(女優の声が常に主であり、他は、女優からの距離に応じて聞こえる。)環境を提示することが、例えば右前、左前、後方中央の、多くの話し手を含む場合(例えば、マルチチャネルサラウンドサウンド)、データは、需要者に提示されるときに、音量だけでなく360度の指向性も考慮に入れて処理することができる。需要者は、静止又は動きのある元の演技の中で、本質的にどの仮想聴取点も選ぶことができる。
【0053】
さらに別の実施形態では、需要者の位置を感知することができ(例えば、所持されたスマートフォンを使用して)、音声ソースは、需要者の位置及び移動に応じてプロセッサ(例えば、需要者のスマートフォン)によって提示することができる。例えば、カクテルパーティの音声提示では(前の段落の構成を用いて録音されたもの)、需要者は物理的な空間内を移動して、特に興味のある会話を立ち聞きすることができる。これは、マルチチャネルサラウンドサウンドを用いずに、(例えば、需要者のスマートフォンに差し込まれた簡単なイヤホンを用いて)行うことができ、又は、マルチチャネルスピーカ構成を使用することができる。
【0054】
示したばかりの構成は、プレーヤがシステムと対話できる、又は他の、時間及び場所に関して現実/仮想のプレーヤと対話できるコンピュータベースのゲームにおいて、特定の適応可能性を有する。
【0055】
譲受人の特許第7,197,160号では、位置情報(例えば、緯度/経度)をどのように画像及び音声の中にステガノグラフィで符号化できるかを詳述している。
【0056】
携帯電話に言及してきたが、本技術には、電話及びそれ以外の携帯型と固定型の両方の、あらゆる種類のデバイスで有用性が見出されることを理解されたい。
【0057】
(特に企図された携帯電話の中にはApple iPhone 4、及びGoogleのアンドロイド仕様に準拠する携帯電話、例えばHTC Evo 4G及びMotorola Droid Xがある。タッチインタフェースを含むiPhoneの詳細は、Appleの特許出願公開第2008/0174570号に提示されている。)
【0058】
発信ユニット及び受信ユニットとしての機能を果たすことができる携帯電話及び他のデバイスの基本設計は、当業者によく知られている。一般的に言えば、それぞれが1つ又は複数のプロセッサ、1つ又は複数のメモリ(例えば、RAM)、記憶装置(例えば、ディスク又はフラッシュメモリ)、ユーザインタフェース(例えば、キーボード、TFT液晶ディスプレイ又は有機LEDディスプレイ画面、タッチ又は他の手ぶりセンサ、及びグラフィックユーザインタフェースを実装するソフトウェア命令を含みうる)、これらの要素の間の相互接続部(例えば、バス)、及び他のデバイスと通信するためのインタフェース(GSM、CDMA、W−CDMA、CDMA2000、TDMA、EV−DO、HSDPA、WiFi、WiMax、又はBluetoothなどの無線、及び/又はイーサネットローカルエリアネットワーク、T−Iインターネット接続などの有線とすることができる)を含む。発信デバイスは通常、カメラ及び/又はマイクロフォンを、上記の補助データを得るための1つ又は複数の他の構成要素/システムと共に含む。
【0059】
詳述した機能を実施するためのソフトウェア命令は、当業者であれば、本明細書に提示された説明から容易に書くことができ、例えば、C、C++、Visual Basic、Java、Python、TcI、Perl、Scheme、Rubyなどで書かれる。本技術による携帯電話及び他のデバイスは、様々な機能及びステップを行うためのソフトウェアモジュールを含むことができる。
【0060】
通常、各デバイスは、ハードウェア資源及び汎用機能とのインタフェースを提供するオペレーティングシステムソフトウェアを含むと共に、ユーザが所望する特定のタスクを実行するように選択的に呼び出すことができるアプリケーションソフトウェアも含む。知られている音声コーデック及び映像コーデック、ブラウザソフトウェア、通信ソフトウェア、及び媒体処理ソフトウェアは、本明細書に詳述した多くの用途に適合させることができる。ソフトウェア及びハードウェアのコンフィグレーションデータ/命令は通常、1つ又は複数のデータ構造体に命令として記憶され、このデータ構造体は、ネットワーク全体にわたってアクセスできる磁気ディスク又は光ディスク、メモリカード、ROMなどの実体のある媒体によって伝達される。いくつかの実施形態は、埋め込みシステム、すなわち特定目的コンピュータシステムとして実施することができ、このシステムでは、そのオペレーティングシステムソフトウェアとアプリケーションソフトウェアは、ユーザには見分けが付かない(例えば、基本的な携帯電話の場合に一般的であるように)。本明細書に詳述した機能は、オペレーティングシステムソフトウェア、アプリケーションソフトウェアの形で実施でき、及び/又は埋め込みシステムソフトウェアとして実施することができる。
【0061】
様々な機能を様々なデバイスで実施することができる。ある動作がある特定のデバイスによって実施されるという説明(例えば、発信携帯電話がレンズデータをMPEGストリームの音声チャネルの中に符号化する)は限定的ではなく例示的なものである。別のデバイスによる動作の実施(例えば、後続デバイスがMPEGストリームとは別にレンズデータを受け取る、又はレンズデータを知っている)もまた、明白に企図されている。
【0062】
(同様に、データがある特定のデバイスに記憶されるという説明もまた例示的なものであり、データは、局在デバイス、遠隔のデバイス、クラウド内、分散されるなど、どこにでも記憶することができる。)
【0063】
諸動作は、明確に特定されたハードウェアによって限定的に実施される必要はない。むしろ、一部の動作では、他のサービス(例えば、クラウドコンピューティング)を外部参照することができ、これらのサービスでは、さらに別の、一般に匿名のシステムによってサービスの実行をする。このような分散システムは、大規模であることもあり(例えば、世界中のコンピューティング資源を伴う)、局所的であることもある(例えば、ある携帯デバイスがブルートゥース通信を介して近くのデバイスを識別した場合に、これら近くのデバイスの1つ以上を、局所地形のデータを提供するなどのタスクに関与させる。)
【0064】
本開示では、説明的な諸実施形態における諸ステップの特定の順序付け、及び要素の特定の組合せを詳述したが、他の企図された方法では、諸ステップを順序付けし直すことができ(場合により一部を省き、また他のものを追加して)、他の企図された組合せでは、一部の要素を省き、また他のものを追加することなどができることを理解されたい。
【0065】
完全なシステムとして開示したが、詳述した構成の下位の組合せもまた、別に企図されている。
【0066】
コンテンツ信号(例えば、画像信号、音声信号、変換器信号など)の詳細な処理には、これらの信号を様々な物理的形状に変換することが含まれることを理解されたい。画像及び映像(物理的空間を通って伝わり、物理的対象を描写する電磁波の形)は、カメラ又は他の取込み機器を使用して物理的対象から取り込むことができ、コンピューティングデバイスによって生成することもできる。同様に、物理的媒体を通って伝わる音圧波は、音声変換器(例えば、マイクロフォン)を使用して取り込み、電子信号(デジタル又はアナログの形式)に変換することができる。これらの信号は通常、上述の構成要素又は処理を実施するために、電子的でデジタル的な形式に処理されるが、さらに電子波、光波、磁気波及び電磁波の形を含む他の物理的な形で取り込み、処理、変換及び記憶することもできる。コンテンツ信号は、様々な方法で、様々な目的のために処理時に変換され、それによって、信号及び関連情報の様々なデータ構造表現が生成される。次いで、メモリ内のデータ構造信号は、探索、整列、読出し、書込み及び検索時の操作のために変換される。信号はまた、取込み、転送、記憶、及びディスプレイ又は音声変換器(例えば、スピーカ)による出力のためにも変換される。
【0067】
本明細書に詳述されている特徴及び構成は、2009年6月12日に出願された同時係属の出願第12/484,115号(米国特許出願公開第2010/0048242号として公開)に詳述されている特徴及び構成と組み合わせて用いることができる。例えば、出願第12/484,115号に詳述されている物体認識アーキテクチャ及び技術は、本技術の実施の際に使用することができる。本出願で開示された方法、要素及び概念は、第12/484,115号出願に詳述された方法、要素及び概念と組み合わされることが意図されている(逆も同様である)ことを理解されたい。このような組合せ全ての実施が、提示された教示により当業者には簡単明瞭なことである。
【0068】
いくつかの実施形態では、発信デバイスは、1人又は複数の人からの生体計測情報(例えば、指紋、心拍、網膜パターン、呼吸数など)を取り込む。このデータは、この場合もやはり、例えば、音声/映像データをどのように提示すべきか(提示すべきかどうか)を決定する際に、受信ユニットで用いることができる。
【0069】
詳述した技術は特に、ユーチューブなどのユーザ生成コンテンツ(UGC)サイトで有用である。本明細書に詳述した補助データは、UGCサイトで受信及び記憶し、説明した方法で他のユーザが使用するために、後でそのユーザに提供することができる。別法として、UGCサイトでは、補助データを使用して音声/映像データを処理し、その後に、処理された音声/映像データだけをユーザに提供することもできる。(つまり、図2に示された「受信ユニット」は、実際は、音声及び/又は映像をさらに別のユニットに提供する中間処理ユニットになりうる。)
【0070】
GPSデータに繰返し言及した。このデータは、任意の位置関連情報を簡潔に表現するものとして理解されたい。この情報は、人工衛星の全地球測位システム座標から得られなくてもよい。例えば、位置データを生成するのに適している別の技術は、デバイス(例えば、WiFi、携帯電話など)の間で通常に交換される無線信号に依拠する。いくつかの通信デバイスを考えると、信号自体、及びその信号を制御する不完全なデジタルクロック信号は、参照システムを形成し、このシステムから高精度の時間と位置の両方を抽出することができる。このような技術は、国際公開第08/073347号パンフレットに詳述されている。当業者であれば、他のいくつかの位置推定技術について、到着時間技法に基づくもの、並びにラジオ及びテレビジョンの放送塔の位置に基づくもの(Rosumによって提案されている)、及びWiFiノードに基づくもの(Skyhook Wirelessによって提案され、iPhoneで使用されている)などを含み、精通しているであろう。
【0071】
位置情報は通常、緯度データ及び経度データを含むが、別法として、より多くのデータ、より少ないデータ、又は別のデータを含むこともできる。例えば、位置情報は、磁力計から得られるコンパス方向などの方位情報、又はジャイロスコープセンサ若しくは他のセンサから得られる傾き情報を含むことができる。位置情報はまた、デジタル高度計システムから得られるものなど、高度情報を含むこともできる。
【0072】
Digimarcは、本対象に関連する他の様々な特許文献を有する。例えば、2010年7月13日出願の出願第12/835,527号、国際公開第2010022185号パンフレット、及び特許第6,947,571号を参照されたい。
【0073】
本明細書で説明した技術の無数の変換物及び組合せを明確に分類整理することは不可能である。出願者は、本明細書の諸概念が、これら概念の中と間の両方での組み合わせ、置き換え、交換、並びに引用された従来技術から分かる諸概念との組み合わせ、置き換え、交換が可能であることを認識し、意図している。さらに、詳述した技術は、有利な効果のために、現在の技術、及びこれから出てくる他の技術と一緒にできることを理解されたい。
【0074】
本明細書を過度に長くすることなく広範な開示を行うために、出願者は、上記で言及した文献及び特許開示を参照により組み込む。(このような文献は、その教示の特定のものに関連して上記で引用されていても、その全体が組み込まれる。)これらの参照文献は、本明細書に詳述した構成に組み込むことができる技術及び技法、並びに本明細書に詳述した技術及び技法を組み込むことができる技術及び技法を開示している。

【特許請求の範囲】
【請求項1】
映像情報を受け取り、前記映像情報を単一のデータオブジェクトの映像部内での表現のために変換するステップと、
音声情報を受け取り、前記音声情報を単一のデータオブジェクトの音声部内での表現のために変換するステップと、
加速度、方位又は傾きに関する少なくとも1つのパラメータを含むセンサ情報を受け取り、前記センサ情報を前記単一のデータオブジェクト内での表現のために変換するステップと、
前記単一のデータオブジェクトをデータ受信器まで伝送し、又は前記単一のデータオブジェクトをコンピュータ可読媒体に記憶して、前記センサ情報が、前記単一のデータオブジェクトによって前記音声情報及び映像情報と構造的に関連付けられ、それによって、前記音声情報又は映像情報を改変する際のプロセッサによる使用に適合するステップとを含む、方法。
【請求項2】
プロセッサを使用して前記音声情報又は映像情報を、前記センサ情報の少なくとも一部に従って改変するステップを含む、請求項1に記載の方法。
【請求項3】
前記センサ情報を、前記単一のデータオブジェクトの映像部内での表現のために変換するステップを含む、請求項1に記載の方法。
【請求項4】
前記単一のデータオブジェクトがMPEGデータストリーム又はMPEGデータファイルを含む、請求項1に記載の方法。
【請求項5】
前記センサ情報を、人が聞こえる範囲の最低部又は最上部近くの周波数範囲に変換するステップを含む、請求項1に記載の方法。
【請求項6】
前記センサ情報を、前記音声情報又は映像情報の中にステガノグラフィで隠される信号として表現するステップを含む、請求項1に記載の方法。
【請求項7】
前記センサデータが加速度データを含む、請求項1に記載の方法。
【請求項8】
前記センサデータが方位データを含む、請求項1に記載の方法。
【請求項9】
前記センサデータが傾きデータを含む、請求項1に記載の方法。
【請求項10】
カメラデータを受け取り、前記単一のデータオブジェクトの前記音声部内での表現のために変換するステップであって、前記カメラデータが、焦点、ズーム、開口サイズ、被写界深度、露光時間、ISO設定値、及び/又は焦点深度に関連する少なくとも1つのパラメータを含む、ステップをさらに含む、請求項1に記載の方法。
【請求項11】
単一のデータオブジェクトを受け取るステップと、
前記単一のデータオブジェクトの音声部から音声データを回復するステップと、
前記単一のデータオブジェクトの前記音声部からセンサデータを回復するステップあって、前記センサデータが、加速度、方位又は傾きに関連する少なくとも1つのパラメータを含む、ステップと、
を含み、
前記回復するステップのうちの少なくとも1つがハードウェアプロセッサによって実施される、方法。
【請求項12】
センサデータを回復する前記ステップが、音声データにステガノグラフィ復号化処理を施して前記音声データから前記センサデータを抽出する工程を含む、請求項11に記載の方法。
【請求項13】
前記回復された音声データを、前記センサデータの少なくとも一部に従って改変するステップを含む、請求項11に記載の方法。
【請求項14】
前記単一のデータオブジェクトの映像部から映像データを回復し、前記回復された映像を、前記センサデータの少なくとも一部に従って改変するステップをさらに含む、請求項11に記載の方法。
【請求項15】
単一のデータオブジェクトを受け取るステップと、
前記単一のデータオブジェクトの音声部から音声データを回復するステップと、
前記単一のデータオブジェクトの前記音声部からカメラデータを回復するステップであって、前記カメラデータが、焦点、ズーム、開口サイズ、被写界深度、露光時間、ISO設定値、及び/又は焦点深度に関連する少なくとも1つのパラメータを含む、ステップと、
を含み、
前記回復するステップのうちの少なくとも1つがハードウェアプロセッサによって実施される、方法。
【請求項16】
前記回復された音声データを、前記センサデータの少なくとも一部に従って改変するステップを含む、請求項15に記載の方法。
【請求項17】
前記単一のデータオブジェクトの映像部から映像データを回復し、前記回復された映像を、前記センサデータの少なくとも一部に従って改変するステップをさらに含む、請求項15に記載の方法。
【請求項18】
単一のデータオブジェクトを受け取るステップと、
前記単一のデータオブジェクトから映像データ及びセンサデータの両方を回復するステップであり、前記センサデータが、加速度、方位又は傾きに関連する少なくとも1つのパラメータを含むステップと、
前記映像データを前記センサデータの少なくとも一部に従って処理して、ユーザに提示するための改変された映像データを得るステップと、
を含み、
前記ステップのうちの少なくとも1つがハードウェアプロセッサによって実施される、方法。
【請求項19】
ユーザ選択データを得るステップと、
前記映像データを、前記ユーザ選択データに従い前記センサデータの少なくとも一部を用いて処理するステップと、
前記処理された映像をユーザに提示するステップと、
を含む、請求項18に記載の方法。
【請求項20】
前記センサデータを使用することによって前記映像を振動補償するステップを含む、請求項19に記載の方法。
【請求項21】
前記ユーザからユーザインタフェースを介して前記ユーザ選択データを得るステップを含む、請求項19に記載の方法。
【請求項22】
非一時的なソフトウェア命令を収容するコンピュータ可読記憶媒体であって、前記命令が、前記命令によってプログラムされたプロセッサに、
映像データ及びセンサデータの両方を、受け取られた単一のデータオブジェクトから回復させるステップであって、前記センサデータが、加速度、方位又は傾きに関連する少なくとも1つのパラメータを含む、ステップと、
前記映像データを前記センサデータの少なくとも一部に従って処理させて、ユーザに提示するための改変された映像データを生じさせるステップと、
を実行させる、コンピュータ可読記憶媒体。
【請求項23】
単一のデータオブジェクトを受け取るステップと、
前記単一のデータオブジェクトから映像データ及びカメラデータの両方を回復するステップであり、前記カメラデータが、焦点、ズーム、開口サイズ、被写界深度、露光時間、ISO設定値、及び/又はレンズ焦点距離に関連する少なくとも1つのパラメータを含むステップと、
前記映像データを前記カメラデータの少なくとも一部に従って処理して、ユーザに提示するための改変された映像データを得るステップと、
を含み、
前記ステップのうちの少なくとも1つがハードウェアプロセッサによって実施される、方法。
【請求項24】
単一のデータオブジェクトを受け取るステップと、
前記単一のデータオブジェクトから音声データ及びセンサデータの両方を回復するステップであり、前記センサデータが、加速度、方位又は傾きに関連する少なくとも1つのパラメータを含むステップと、
前記音声データを前記センサデータの少なくとも一部に従って処理して、ユーザに提示するための改変された音声データを得るステップと、
を含み、
前記ステップのうちの少なくとも1つがハードウェアプロセッサによって実施される、方法。
【請求項25】
単一のデータオブジェクトを受け取るステップと、
前記単一のデータオブジェクトから音声データ及びカメラデータの両方を回復するステップであり、前記カメラデータが、焦点、ズーム、開口サイズ、被写界深度、露光時間、ISO設定値、及び/又はレンズ焦点距離に関連する少なくとも1つのパラメータを含むステップと、
前記音声データを前記カメラデータの少なくとも一部に従って処理して、ユーザに提示するための改変された音声データを得るステップと、
を含み、
前記ステップのうちの少なくとも1つがハードウェアプロセッサによって実施される、方法。
【請求項26】
前記処理するステップが、カメラ焦点データに従って音声の振幅を改変して次元音声を得るサブステップを含む、請求項25に記載の方法。
【請求項27】
スポーツイベントにおいて可動物体によって運ばれるセンサからのセンサ情報を収集するステップと、
前記スポーツイベントからの映像情報を、前記可動物体から遠く離れた位置にあるカメラを使用して収集するステップと、
前記収集されたセンサ情報に対応するデータ、及び前記収集された映像情報に対応するデータの両方を含む単一のデータオブジェクトを作り出すステップと、
前記単一のデータオブジェクトをコンピュータ可読記憶媒体内に記憶する、又は前記単一のデータオブジェクトをデータ受信器に伝送するステップと、
を含む、方法。
【請求項28】
前記センサ情報を、パック、ボール、馬、競技者、又は自動車によって運ばれるセンサから収集するステップを含む、請求項27に記載の方法。
【請求項29】
前記センサデータが、加速度データ、方位データ、位置データ及び/又は傾きデータのうちの少なくとも1つを含む、請求項27に記載の方法。
【請求項30】
プロセッサと、少なくとも第1のセンサ及び第2のセンサとを具備する携帯電話であって、前記プロセッサが、前記第1のセンサによって感知された情報と前記第2のセンサによって感知された情報とを含む単一のデータオブジェクトを作り出すように構成され、前記第1のセンサが画像センサ又は音声センサを備え、前記第2のセンサが加速度センサ、方位センサ、又は傾きセンサを備える、携帯電話。
【請求項31】
他のセンサが加速度センサを備える、請求項30に記載の携帯電話。
【請求項32】
他のセンサが方位センサを備える、請求項30に記載の携帯電話。
【請求項33】
他のセンサが傾きセンサを備える、請求項30に記載の携帯電話。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公表番号】特表2013−500544(P2013−500544A)
【公表日】平成25年1月7日(2013.1.7)
【国際特許分類】
【出願番号】特願2012−521853(P2012−521853)
【出願日】平成22年7月23日(2010.7.23)
【国際出願番号】PCT/US2010/043129
【国際公開番号】WO2011/011737
【国際公開日】平成23年1月27日(2011.1.27)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.GSM
2.BLUETOOTH
3.イーサネット
4.JAVA
5.WCDMA
6.Visual Basic
【出願人】(310021973)ディジマーク コーポレイション (13)
【Fターム(参考)】