説明

データ処理の制御

【課題】
【解決手段】 ビデオカメラから連続する画像を受信しマイクからオーディオデータを受信するように構成されたデータ処理装置であり、ビデオ画像において画像間モーションを検出するための手段と、1つ以上の所定のオーディオ判定基準を満たしている関係するオーディオデータにおけるオーディオ信号を検出するための手段と、1つ以上の所定のモーション判定基準を満たしている画像間モーションの検出および、所定のオーディオ判定基準を満たす関係するオーディオデータにおけるオーディオ信号の検出の、所定のシーケンスに応答してデータ処理装置の制御機能を起動させるための起動手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理オペレーションの制御に関する。特定の事例にはテレビゲーム処理オペレーションの制御を含むが、本発明は他の形式のデータ処理へのより一般的な用途を有する。
【背景技術】
【0002】
従来のテレビゲーム機において、使用者はビデオモニタまたはテレビ画面でゲームを見て、ハンドヘルド型のキーパッドまたはジョイスティックを用いてゲームの動作を制御する。ソニー(登録商標)のプレイステーション(登録商標)2といった一部のゲーム機では、ハンドヘルド型コントローラは、ゲーム内で生じているイベントの触覚的フィードバックを使用者に付与する振動要素とともに、2本のジョイスティックおよびいくつかのユーザ操作キーを設けている。
【0003】
ゲーム機がビデオカメラを利用できることが提案されている。これは、使用者の画像をゲームシナリオ内に現れさせたり、または例えば空中で「ワンド(wand)」を振るといった使用者による行動がゲーム内でのキャラクタの対応する行動に変換させたりすることを可能にする。
【発明の開示】
【発明が解決しようとする課題】
【0004】
この装置の短所は、使用者が、ゲームの機能を切り換えるために、そして一般にゲーム機の動作を制御するために、ハンドヘルド型コントローラを操作しなければならないということである。
【課題を解決するための手段】
【0005】
本発明は、連続するビデオ画像および関係するオーディオ信号を処理するために構成されたデータ処理装置であって、
連続するビデオ画像において画像間モーションを検出するための手段と、
画像間モーションが1つ以上の所定のモーション判定基準を満たすどうかを検出するための手段と、
1つ以上の所定のオーディオ判定基準を満たしている関係するオーディオ信号におけるオーディオ信号パターンを検出するための手段と、
(a)1つ以上の所定のモーション判定基準を満たしている画像間モーションの検出、および、
(b)1つ以上の所定のオーディオ判定基準を満たす関係するオーディオ信号におけるオーディオ信号パターンの検出、の組に応答して、データ処理装置の制御機能を起動させるための起動手段と、を備えるデータ処理装置を提供する。
【0006】
本発明は、画像内部の検出されたモーションおよび検出されたサウンドの所定のシーケンスに基づきデータ処理装置の制御機能を起動させるための技法を提供する。本発明は、モーションの単純な検出が、所要のモーションだけに応答して機能を確実に起動させるために十分ではないかもしれないことを認識する。誤った検出および、従って不要な起動が機能の起動をトリガするために設計されていない画像におけるモーションから生じるかもしれないことがあり得る。同様に、本発明は、サウンドの単純な検出が、所定のサウンドの検出だけに応答して機能を確実に起動させるために十分ではないかもしれないことを認識する。信号処理ノイズと同様に、マイクによって取得されデータ処理装置によって受信された他の可聴イベントも、誤った検出および、従って不要な起動をトリガするかもしれない。本発明は、機能の起動が生起するために所定のモーションおよび所定のサウンドの両方が所定のシーケンスで検出されることを要求することによって、誤った検出および誤った起動の生起の可能性を低減しようとするものである。
【0007】
好ましくは、モーションおよびサウンドの両方は、例えば拍手などの同じ行動に由来する。この場合、検出される画像間モーションは、もう一方の手と相接するために画像を通じて移動する手のそれ、または互いに相接するために画像を通じて互いに向けて移動する両手のそれである。対応する検出されるサウンドは、両手の衝突から生じるその音であろう。従って、ビデオカメラの視野外側での拍手またはカメラの視野内側での単純な手振りといった他のイベントが機能の起動をもたらす可能性を低減させて、データ処理装置の使用者が拍手という行動によって例えば「休止」機能といった装置の機能を起動させることができるであろうことが十分にわかるであろう。
【0008】
データ処理装置が他の機能を起動させるために種々の視覚的および音声的刺激または刺激の組合せに応答し得ることが理解できる。例えば、起動される機能は、ビデオカメラの視野内での拍手の瞬間における手の位置に依存するかもしれない。さらに、装置は拍手の特定のパターンに応答して異なる機能を起動させることができ、パターンは時間的(すなわち、各拍手間の所定の時間間隔)または空間的(ウェブカメラの視野における所定の領域に対応する手の位置)のどちらか一方であるか、または両方である。
【0009】
好ましくは、装置は、一連の連続する画像の各々について、画像間モーションが検出された1つ以上のアクティブな画像領域を決定し、その後、連続する画像間のアクティブな画像領域のうちの少なくとも1つの場所における変位が所定のしきい値より大きいかどうかを決定する。この場合、関連するモーション判定基準は、少なくとも1つのアクティブな画像領域の場所における変位がN個の連続する画像について所定のしきい値を上回ったままであり、その後、所定のしきい値未満に低下することである(Nは所定の整数である)。これは、データ処理装置が、使用者の手の動きが所定のモーション判定基準を満たすかどうかを判断するために、例えばフレームごとの使用者の手の位置を追跡することを可能にする。
【0010】
好ましくは、装置は、連続する画像を供給するためのビデオカメラおよび、オーディオデータを供給するためのマイクを備える。
【0011】
本発明はまた、
一連の連続するビデオ画像において画像間モーションを検出するステップと、
画像間モーションが1つ以上の所定のモーション判定基準を満たすかどうかを検出するステップと、
1つ以上の所定のオーディオ判定基準を満たしている関係するオーディオ信号におけるオーディオ信号パターンを検出するステップと、
(a)1つ以上の所定のモーション判定基準を満たしている画像間モーションの検出、および、
(b)1つ以上の所定のオーディオ判定基準を満たす関係するオーディオ信号におけるオーディオ信号パターンの検出の、
所定のグループ化に応答してデータ処理装置の制御機能を起動させるステップと、を含むデータ処理方法を提供する。
【0012】
本発明はまた、上記の通り方法を実行するためのプログラムコードを有するコンピュータソフトウェアを提供する。コンピュータソフトウェアは好ましくは、伝送媒体または記憶媒体といった供給媒体によって提供される。
【0013】
本発明のさらなるそれぞれの態様および特徴は添付の請求項において規定される。
【発明を実施するための最良の形態】
【0014】
ここで、本発明の実施形態を添付図面に関して例証としてのみ説明する。
【0015】
図1は、プレイステーション2の全体的なシステムアーキテクチャを図式的に例示している。システムユニット10には、システムユニットと接続可能な種々の周辺装置が設けられている。
【0016】
システムユニット10は、エモーションエンジン(Emotion Engine)100、グラフィックスシンセサイザ(Graphics Synthesiser)200、ダイナミックランダムアクセスメモリ(DRAM)を有するサウンドプロセッサユニット300、読出し専用メモリ(ROM)400、コンパクトディスク(CD)およびディジタル多用途ディスク(DVD)読取り装置450、ラムバスダイナミックランダムアクセスメモリ(RDRAM;Rambus Dynamic Random Access Memory)ユニット500、専用RAM750を備える入出力プロセッサ(IOP)700を含む。(オプションの)外部ハードディスクドライブ(HDD)800が接続され得る。
【0017】
入出力プロセッサ700は2つのユニバーサルシリアルバス(USB)ポート715Aおよび715B、ならびにiLinkまたはIEEE1394ポート(iLinkはIEEE1394規格のソニー・コーポレーションによる具体化である)を有する。IOP700は、全部のUSB、iLinkおよびゲームコントローラデータトラフィックを取り扱う。例えば、使用者がゲームをしている時、IOP700はゲームコントローラからデータを受け取り、それをエモーションエンジン100に向けて送り、エモーションエンジンは相応にゲームの現在状態を更新する。IOP700は、迅速なデータ転送速度を助成する直接メモリアクセス(DMA)アーキテクチャを有する。DMAは、CPUにデータを通過させることを要さずにメインメモリから装置へのデータの転送を伴う。USBインタフェースは、オープンホストコントローラインタフェース(OHCI)と互換性を有し、1.5Mbpsないし12Mbpsのデータ転送速度を取り扱うことができる。これらのインタフェースの装備により、プレイステーション2はビデオカセットレコーダ(VCR)、ディジタルカメラ、セットトップボックス、プリンタ、キーボード、マウスおよびジョイスティックといった周辺装置と潜在的に互換性を有することになる。
【0018】
一般に、首尾よいデータ通信がUSBポート715Aまたは715Bに接続された周辺装置と生じるためには、デバイスドライバといった適切なソフトウェア部分が設けられなければならない。デバイスドライバ技術は極めて周知であり、当業者はデバイスドライバまたは類似のソフトウェアインタフェースがここに記載された実施形態において要求され得ることを承知しているはずであると言うだけで、ここでは詳述しない。
【0019】
現在の実施形態では、関係するマイク735およびLEDインジケータ740を備えるビデオカメラ730がUSBポート715Aに接続されている。種々の形式のビデオカメラが使用され得るが、特に適格な形式のビデオカメラ735がいわゆる「ウェブカメラ」であり、すなわち、単一の電荷結合素子(CCD)要素に基づいており、基本的なハードウエアベースのリアルタイムデータ圧縮・符号化構成を備える中解像度カメラであり、それにより圧縮されたビデオ/オーディオデータがカメラ730によって、プレイステーション2システムユニット10での復号化のために、画像内(intra-image)ベースのMPEG(モーション・ピクチャ・エキスパート・グループ)規格といった適切なフォーマットでUSBポート715Aに送られる。
【0020】
カメラのLEDインジケータ740は、システムユニット10とのUSBデータ接続を通じて制御データを受け取るために構成されている。CPU102は、この経路を通じて制御信号を送り、LEDを“オフ”モード、“点灯”モードおよび、LEDが例えば毎秒1ないし3回の点滅速度で点滅する“点滅”モードに設定することができる。LEDを点滅させるために要求されるロジックはカメラ回路に設けられているので、システムユニット10がLEDの各個別の点滅を命令することは必要ない。
【0021】
本発明の代替実施形態では、ウェブカメラに内蔵されたマイクを使用するのではなく、独立型マイク745が設けられる。独立型マイクは、ウェブカメラ内蔵マイクよりも使用者により近づけることができるので、それゆえ改善された品質のサウンド入力をシステムに供給する。独立型マイクが設けられる場合、それは第2のUSBポート715Bを通じてシステムに結合され得る。
【0022】
USBポートのほかに、2つの他のポート705、710が知的所有権下にあるソケットであり、ゲーム関連情報を記憶するための知的所有権下にある不揮発性RAMメモリカード720、ハンドヘルド型ゲームコントローラ725または、ダンスマットといったハンドヘルド型コントローラを模した装置(図示せず)の接続を可能にする。
【0023】
エモーションエンジン100は、ゲームアプリケーション用の3次元(3D)グラフィックスの効率的なシミュレーション向けに特殊に設計された128ビット中央処理装置(CPU)である。エモーションエンジンの構成要素は、データバス、キャッシュメモリおよびレジスタを含み、それらの全部が128ビットである。これは大量のマルチメディアデータの高速処理を助成する。比較すれば、従来のPCは基本的な64ビットデータアーキテクチャを有する。プレイステーション2の浮動小数点計算性能は6.2GFLOPである。エモーションエンジンはまた、3DグラフィックスデータおよびDVDデータの同時処理を可能にするMPEG2デコーダ回路を備える。エモーションエンジンは、数学的変換および変形を含む幾何学計算を実行し、さらに例えば2物体間の摩擦の計算などのシミュレーションオブジェクトの物理学に関係する計算も実行する。それは、後にグラフィックスシンセサイザ200によって利用される画像レンダリングコマンドのシーケンスを生成する。画像レンダリングコマンドは、表示リストの形態で出力される。表示リストは、グラフィックスシンセサイザに対し、いずれの基本図形オブジェクト(例えば点、直線、三角形、スプライト)を画面上のいずれの座標に描くべきかを指定する一連の描画コマンドである。それゆえ、典型的な表示リストは、頂点を描くコマンド、多角形の面を陰影づけるコマンド、ビットマップをレンダリングするコマンドなどを含むであろう。エモーションエンジン100は複数の表示リストを非同期で生成することができる。
【0024】
グラフィックスシンセサイザ200は、エモーションエンジン100によって生成された表示リストのレンダリングを実行するビデオアクセラレータである。グラフィックスシンセサイザ200は、複数の表示リストを取り扱い追跡し管理するグラフィックスインタフェースユニット(GIF)を含む。グラフィックスシンセサイザ200のレンダリング機能は、いくつかの代替的標準出力画像フォーマット、すなわちNTSC/PAL、高精細度ディジタルTVおよびVESAをサポートする画像データを生成することができる。一般に、グラフィックスシステムのレンダリング能力は、そのそれぞれがグラフィックスプロセッサ内部に位置するピクセルエンジンとビデオメモリとの間のメモリ帯域幅によって規定される。従来のグラフィックスシステムは、使用可能な帯域幅を制限しがちであるオフチップバスによってピクセルロジックに接続された外部ビデオランダムアクセスメモリ(VRAM)を使用する。しかし、プレイステーション2のグラフィックスシンセサイザ200は、比較的大きい38.4ギガバイト/秒のメモリアクセス帯域幅を可能にする単一の高性能チップ上にピクセルロジックおよびビデオメモリを備えている。グラフィックスシンセサイザは理論的に、毎秒7500万ポリゴンのピークドローイング能力を達成することができる。テクスチャ、照明および透明度といった全範囲の効果を伴っても、毎秒2000万ポリゴンの持続した速度が連続的に描かれ得る。従って、グラフィックスシンセサイザ200は映画品質画像をレンダリングすることができる。
【0025】
サウンドプロセッサユニット(SPU)300は事実上、ディジタル・シアター・サラウンド(DTS(登録商標))サウンドおよび、ディジタル多用途ディスク(DVD)に使用されるサウンドフォーマットであるAC−3(ドルビー・ディジタルとしても知られる)といった3Dディジタルサウンドを認識することができるシステムのサウンドカードである。
【0026】
関係するスピーカ装置310を備えるビデオモニタまたはテレビといった表示・サウンド出力装置305が、グラフィックスシンセサイザ200およびサウンド処理装置300からビデオ/オーディオ信号を受け取るために接続されている。
【0027】
エモーションエンジン100をサポートするメインメモリは、ラムバス・インコーポレーテッド社が生産するRDRAM(ラムバスダイナミックランダムアクセスメモリ)モジュール500である。このRDRAMメモリサブシステムは、RAM、RAMコントローラおよび、RAMをエモーションエンジン100と接続するバスを含む。
【0028】
図2は、図1のエモーションエンジン100のアーキテクチャを図式的に例示している。エモーションエンジン100は、浮動小数点ユニット(FPU)104、中央処理装置(CPU)コア102、ベクトルユニット0(VU0)106、ベクトルユニット1(VU1)108、グラフィックスインタフェースユニット(GIF)110、割込みコントローラ(INTC)112、タイマユニット114、直接メモリアクセスコントローラ116、画像データプロセッサユニット(IPU)116、ダイナミックランダムアクセスメモリコントローラ(DRAMC)120、サブバスインタフェース(SIF)122を含み、これらの構成要素の全部は128ビットのメインバス124によって接続されている。
【0029】
CPUコア102は、300MHzでクロックされる128ビットプロセッサである。CPUコアはDRAMC120を通じて32MBのメインメモリにアクセスできる。CPUコア102の命令セットは、付加的なマルチメディア命令とともに一部MIPS IV RISC命令を備えるMIPS III RISCに基づく。MIPS IIIおよびIVは、MIPSテクノロジーズ(MIPS Technologies)社の知的所有権下にある縮小命令セットコンピュータ(RISC)命令セットアーキテクチャである。標準命令は64ビット双方向スーパースカラーであり、それは2つの命令が同時に実行され得ることを意味する。他方、マルチメディア命令は、2つのパイプラインによって128ビット命令を使用する。CPUコア102は、16KBの命令キャッシュ、8KBのデータキャッシュおよび、CPUによる直接の専用使用のために確保されたキャッシュの一部である16KBのスクラッチパッドRAMを含む。
【0030】
FPU104は、CPUコア102のための第1のコプロセッサとして働く。ベクトルユニット106が第2のコプロセッサの働きをする。FPU104は、浮動小数点積和論理演算装置(FMAC)および浮動小数点除算計算器(FDIV)を含む。FMACおよびFDIVの両方とも32ビット値で演算するので、演算が(4つの32ビット値から構成された)128ビット値で行われた場合、演算は全部の4つの部分で並行して行われ得る。例えば、2つのベクトルの加算は同時に行われ得る。
【0031】
ベクトルユニット106および108は、数学演算を実行し、ベクトル方程式の乗算および加算を評価する際に極めて高速である本質的に専用のFPUである。それらは、加算および乗算演算に浮動小数点乗算加算計算器(FMAC)を、そして除算および平方根演算に浮動小数点除算器(FDIV)を使用する。それらは、マイクロプログラムを記憶するための内蔵メモリを有し、ベクトルインタフェースユニット(VIF)を通じてシステムの残りの部分とインタフェースを取る。ベクトルユニット0 106は、それが本質的に第2の専用FPUであるように、専用の128ビットバス124を通じてCPUコア102のコプロセッサとして働くことができる。他方、ベクトルユニット1 108は、グラフィックスシンセサイザ200との専用バスを有するので、それゆえ完全に別個のプロセッサとみなすことができる。2つのベクトルユニットの包含は、ソフトウェア開発者がその仕事をCPUの異なる部分間で分割することを可能にし、ベクトルユニットは直列または並列接続のどちらかで使用され得る。
【0032】
ベクトルユニット0 106は、4個のFMACおよび1個のFDIVを含む。それはコプロセッサ接続を通じてCPUコア102に接続されている。それは、データ用に4Kbのベクトルユニットメモリおよび命令用に4Kbのマイクロメモリを有する。ベクトルユニット0 106は、表示用の画像に関係する物理計算を実行するために役立つ。それは主にCPUコア102とともに非パターン化された幾何学処理を実行する。
【0033】
ベクトルユニット1 108は、5個のFMACおよび2個のFDIVを含む。それはCPUコア102へのいかなる直接的経路も持たないが、GIFユニット110への直接的経路を有する。それは、データ用に16Kbのベクトルユニットメモリおよび命令用に16Kbのマイクロメモリを有する。ベクトルユニット1 108は変換を実行するために役立つ。それは、パターン化された幾何学処理を主に実行し、生成された表示リストをGIF110に直接出力する。
【0034】
GIF110はグラフィックスシンセサイザ200とのインタフェースユニットである。それは、表示リストパケットの最初のタグ指定に従ってデータを変換し、複数の転送を互いに裁定しながら、ドローイング命令をグラフィックスシンセサイザ200に転送する。割込みコントローラ(INTC)112は、DMAC116を除く周辺装置からの割込みを裁定する働きをする。
【0035】
タイマユニット114は、16ビットカウンタを備える4個の独立したタイマを含む。タイマは、バスクロックによってか(1/16または1/256間隔で)、または外部クロックのどちらかによって駆動される。DMAC116は、メインメモリと周辺プロセッサとの間またはメインメモリとスクラッチパッドメモリとの間のデータ転送を取り扱う。それは同時にメインバス124を裁定する。DMAC116の性能最適化は、エモーションエンジン性能を改善するための重要な方途である。画像処理ユニット(IPU)118は、圧縮された動画およびテクスチャ画像を伸張するために使用される画像データプロセッサである。それは、I−PICTUREマクロブロック復号化、色空間変換およびベクトル量子化を実行する。最後に、サブバスインタフェース(SIF)122は、IOP700とのインタフェースユニットである。それは、サウンドチップおよび記憶装置といった入出力装置を制御するためのそれ自身のメモリおよびバスを有する。
【0036】
図3は、グラフィックスシンセサイザ200の機器構成を図式的に例示している。グラフィックスシンセサイザは、ホストインタフェース202、セットアップ/ラスター化ユニット204、ピクセルパイプライン206、メモリインタフェース208、フレームページバッファ214およびテクスチャページバッファ216を含むローカルメモリ212、およびビデオコンバータ210を含む。
【0037】
ホストインタフェース202は、ホスト(この場合、エモーションエンジン100のCPUコア102)とデータを転送する。ホストからのドローイングデータおよびバッファデータは、このインタフェースを通過する。ホストインタフェース202からの出力はグラフィックスシンセサイザ200に供給され、グラフィックスシンセサイザは、エモーションエンジン100から受信された頂点情報に基づきピクセルを描くためにグラフィックスを開発し、各ピクセルについてRGBA値、デプス値(すなわちZ値)、テクスチャ値およびフォッグ値といった情報を計算する。RGBA値は赤、緑、青(RGB)の色成分を指定し、A(アルファ)成分は画像オブジェクトの不透明さを表現する。アルファ値は完全に透明から完全に不透明までの範囲を取ることができる。ピクセルデータはピクセルパイプライン206に供給され、ピクセルパイプラインはテクスチャマッピング、フォギングおよびアルファブレンディング(後述の通り)といったプロセスを実行し、計算されたピクセル情報に基づき最終的なドローイング色を決定する。
【0038】
ピクセルパイプライン206は、16個のピクセルエンジンPE1、PE2、・・・、PE16を含み、それにより最大16ピクセルを並行して処理することができる。ピクセルパイプライン206は、32ビット色および32ビットZバッファを伴い150MHzで動作する。メモリインタフェース208は、ローカルグラフィックスシンセサイザメモリ212からデータを読出しデータを書込む。それは、ドローイングピクセル値(RGBAおよびZ)をピクセル演算の終わりにメモリに書込み、フレームバッファ214のピクセル値をメモリから読出す。フレームバッファ214から読出されたこれらのピクセル値は、ピクセルテストまたはアルファブレンディングに使用される。メモリインタフェース208はまた、フレームバッファの現在の内容についてのRGBA値をローカルメモリ212から読出す。ローカルメモリ212は、グラフィックスシンセサイザ200に組み込まれている32メガビット(4MB)メモリである。それは、フレームバッファ214、テクスチャバッファ216および32ビットZバッファ215として編成することができる。フレームバッファ214は、カラー情報といったピクセルデータが格納されるビデオメモリの部分である。
【0039】
グラフィックスシンセサイザは、視覚的詳細を3Dジオメトリに付加するために2D−3Dテクスチャマッピングプロセスを使用する。各テクスチャが、3D画像オブジェクトにラップアラウンドされることができ、3Dグラフィック効果を与えるために伸縮およびスキューされる。テクスチャバッファは、画像オブジェクトについてのテクスチャ情報を格納するために使用される。Zバッファ215(デプスバッファとしても知られる)は、ピクセルについてのデプス情報を格納するために使用可能なメモリである。画像は、グラフィックスプリミティブまたはポリゴンとして知られる基本的構成単位から構築される。ポリゴンがZバッファリングによりレンダリングされる場合、そのピクセルの各々のデプス値は、Zバッファに格納された対応する値と比較される。Zバッファに格納された値が新しいピクセル値のデプス以上であれば、このピクセルは可視であると決定され、それによりそれはレンダリングされなければならず、Zバッファはその新しいピクセルデプスで更新されることになる。しかし、Zバッファデプス値が新しいピクセルデプス値未満であれば、新しいピクセル値はすでに描かれたものの背後にあり、レンダリングされないであろう。
【0040】
ローカルメモリ212は、フレームバッファおよびZバッファにアクセスするための1024ビット読出しポートおよび1024ビット書込みポート、ならびにテクスチャ読出しのための512ビットポートを有する。ビデオコンバータ210は、指定された出力フォーマットでフレームメモリの内容を表示するために動作可能である。
【0041】
図4は、プレイステーション2の機能が所与の時間に起動されるかどうかを判断するために使用され得る画像およびオーディオ処理ステップを図式的に例示している。この手順の目的は、受信されたオーディオ/ビデオデータを調べ、プレイステーション2の機能の起動をもたらすように意図された例えば拍手といった行動を使用者が行っているか否かをそこから判断することである。
【0042】
画像データ処理はステップI1に始まり、そこでビデオカメラ(例えばウェブカメラ730)またはデータ記憶媒体(例えばビデオカセットレコーダまたはハードディスクドライブ800)といった映像ソースから画像データがプレイステーション2に受信される。ステップI2で、プレイステーション2のエモーションエンジンは、受信された画像データに対し所定の画像処理オペレーションを実行して、所定のモーション判定基準が受信されたデータに関して満たされているかどうかに関する判断を行うことができるために必要な情報を抽出する。使用される画像処理ステップは、必要な情報に依存し、転じてそれは選択されたモーション判定基準に依存するであろう。
【0043】
ステップI3において、プレイステーション2のエモーションエンジンは、処理された画像データが(以前に処理された画像データと組み合わせて)所定の判定基準を満たすか否かを判断する。画像間(inter-image)モーションは複数の画像に基づいて確定するので、所定のモーション判定基準は単一の受信画像に基づいては満たされ得ないことを理解しなければならない。代わりに、判断は、各画像および、先行画像についての類似の判断の結果に基づいて行われる。処理された画像データが所定の判定基準を満たさなければ、たとえ所定のオーディオ判定基準が満たされたとしても、この時点で機能は起動しないであろう。この場合、オペレーションはステップI1に戻り、そこで後続の画像が受信されることになる。あるいは、処理された画像データが所定の判定基準を満たしていれば、ステップI4において、「肯定」結果が所定の時限にわたり保持(ラッチ)される。この所定の時限内に所定のオーディオ判定基準が受信されたオーディオデータに関して満たされていれば、ステップS5において、論理的ANDオペレーションが2つの「肯定」入力を受け取り、ステップS6で制御機能を起動するために制御信号を出力するであろう。
【0044】
オーディオデータの処理はステップA1に始まり、そこでオーディオデータがマイク745といったオーディオソースから受信される。マイクは、独立型マイク745であるか、またはウェブカメラ730に組み込まれているかのどちらかとしてよい。ステップA2で、オーディオ処理が受信されたオーディオデータに関して行われる。受信画像データの処理と同様に、必要な特定のオーディオ処理オペレーションは、プレイステーション2ソフトウェアアプリケーションの要求条件に依存するであろう。ステップA3で、処理されたオーディオデータが所定の判定基準を満たすかどうかが判断される。処理されたオーディオデータが所定の判定基準を満たさなければ、この時点で機能は起動せず、オーディオ処理はステップA1に戻ることになる。他方、処理されたオーディオデータが所定の判定基準を満たしていれば、「肯定」結果が生成されステップS5で論理的ANDに渡される。従って、オーディオデータが画像処理オペレーションのステップI4で生成された時間窓の間に所定の判定基準を満たした時に、論理的ANDゲートの入力における2つの「肯定」信号の同時受信により、プレイステーション2の所与の機能を起動させるために渡される制御信号をもたらすことがわかる。当業者は、用語「同時」がANDゲートの文脈において使用されているが、他の実施形態では「肯定」信号(またはそれらの等価物)が、異なる時刻ではあるが、オーディオ/ビデオデータの同じ時間的部分、または重なり合う時間的部分、または極めて近い時間的部分(例えばしきい値分離の範囲内)に関して生成され得ることを了解するであろう。これらはやはり「同時」検出であるとみなされ得るであろうし、この構成におけるオーディオ/ビデオデータに関する肯定的検出は制御された機能の起動につながるであろう。
【0045】
図5は、モーションビットマップの生成を含む、カメラからの画像データの取扱いを例示している概略フローチャートである。モーションビットマップは後述する技法において使用され、それはカメラ730の前の使用者の動きを通じたプレイステーション2システムユニット10の種々のデータ処理機能の制御を可能にする。
【0046】
図5に例示されたステップは、システムの種々の異なる部分によって実行される。一般にそれらは、IOP700、エモーションエンジン(IPU)118、エモーションエンジン(CPU)102およびグラフィックスシンセサイザ200である。図5は、4つの縦列として配列されており、各縦列はこれらの部分のうちの1つによって実行されるオペレーションに対応している。
【0047】
図4、5、8および10に図示されたステップは、DVDディスクに記憶され読取り装置450によって読込まれたソフトウェアの制御下で実行されるが、代わりにインターネット接続(図示せず)といったネットワーク接続によって受信されたソフトウェアを使用してもよい。それらは、カメラ730から受信される各画像(例えばプログレッシブ走査フレーム)について繰り返される。画像レートは、プレイステーション2システムユニット10のオペレーティングソフトウェア内部で設定されているかもしれない。適格としてよい例示的画像レートは、毎秒50フレームのレートである。
【0048】
ステップ900で、IOP700は1フレームに対応するデータをカメラ730から受け取る。上述の通り、このデータは、画像内MPEGフォーマットといった圧縮形式になっている。ステップ905で、エモーションエンジン100は、そのフレームの分の画像データをIOPから読取り、それをIPU118に経路指定する。
【0049】
ステップ910で、IPU118はMPEG符号化された画像データを輝度−クロミナンス(Y,Cb,Cr)フォーマットに復号化する。画像のY,Cb,Cr表現はその後、エモーションエンジンのCPU102によって取り扱われる。
【0050】
ステップ915で、CPU102はY,Cb,Crフォーマットデータを成分(赤、緑、青すなわちRGB)データに変換する。RGBデータはGS200に渡され、後者は表示のためにフレームをフレームバッファ124に格納する(ステップ920)。現在のゲームソフトウェアのオペレーションの間に、ビデオカメラからのデータのフレームが何らかの形で操作されるかまたは、合成された画像データによって上書きまたは適所にオーバレイされることは、極めて起こりがちである。
【0051】
ステップ910で復号化されたY,Cb,Crデータの第2の使用は、ステップ925において、輝度(Y)成分がカメラ730から受信された次のフレームと関連した使用のためにRAM500にバッファされるということである。このバッファされた輝度データの使用は、以下の説明から明らかになるであろう。
【0052】
ステップ910で復号化されたY,Cb,Crデータの第3の使用は、ステップ930で行われ、現在フレームの輝度(Y)データが、先行フレームに関してバッファされた輝度データから、ピクセルごとに減算される。「絶対値」関数が適用され、その結果、現在および先行フレームの対応するピクセル間の輝度差が1組の正の数として確定される。
【0053】
ステップ935において、輝度差はしきい値とやはりピクセルごとに比較される。特定のピクセル位置についての輝度差がしきい値を超えた場合、そのピクセル位置でモーションが生じたと判断される。輝度差がしきい値を超えていなければ、そのピクセル位置でモーションが生じなかったと判断される。このようにして、ステップ940で、「モーションビットマップ」が生成され、その結果、各ピクセル位置はそのピクセル位置においてモーションが検出されたかどうかを指示する関係するフラグを有する。
【0054】
モーションビットマップはRAM500に記憶される。モーションビットマップが1ビット/ピクセルフォーマットで記憶され得ることは明白であろう。しかし、アドレス指定の容易さのために、現在の実施形態は実際上16ビット/ピクセルフォーマットとしてモーションビットマップを記憶するが、このようにして記憶された基本的情報は単に、「モーションがある」かまたは「モーションがない」かのどちらか一方を指示する各ピクセルについてのフラグである。
【0055】
モーションビットマップで行い得る1つの利用は、使用者が、画像の特定部分でモーションを開始することによってデータ処理オペレーションを制御するのを可能にすることである。使用者がこれを行うためには、ウェブカメラからの画像がディスプレイ305に表示されることが好ましい。これは、全画面表示としてか、または恐らくスケーリングといった何かの操作を伴う画面の一部としてのどちらであってもよい。しかし主要なことは、使用者が少なくともカメラ730の視野の一部を見ることを可能にし、それにより使用者が、その画像の正しい部分で画像モーションを開始している時がわかることである。
【0056】
ステップ945で、モーションビットマップは、検出されたモーションが特定の所定の判定基準を満たすかどうかを判断するために1つ以上のデータ処理オペレーションを受ける。
【0057】
図6は、モーションビットマップを図式的に例示している。ビットマップはピクセルフラグの矩形配列1000として図示されており、ピクセルフラグは図解のために画像におけるそのピクセルの空間位置に対応する配列における位置に配置されている。しかし、これが単にモーションビットマップの概略図にすぎないことはわかるであろう。実際には、画像におけるピクセルの数と同じ数のメモリ項目(例えばアドレス指定可能なデータワードまたはアドレス指定可能なデータワードの下位区分)を有する適格な記憶域が要求される。
【0058】
図6において、モーションが検出されたピクセルの位置は、暗色点として図式的に示される。1実施形態では、ここで点線によって例示されたように、テストウインドウ1010もまた付与される。
【0059】
テストウインドウは、機能が起動されるために、単にカメラの視野におけるどこかではなく、特定の画面領域に対応してモーションが検出される必要がある場合に要求される。その場合、所定のモーション判定基準はテストウインドウ内部で検出されたモーションだけに関連する。例えば、プレイステーション2の機能の起動は、使用者が特定の画面領域に対応する位置で拍手することになっている場合に要求されるだけかもしれない。
【0060】
図7A〜7Cは、プレイステーション2に付属のウェブカメラ730の視野内での使用者の行動がどのようにしてモーションとして検出され得るかを例示している。
【0061】
図7Aは、拍手の動きが始まる時の使用者1100を図式的に例示している。この時点で、使用者の手1110aおよび1120aの間の距離は最大である。これは図7Cにおける画像空間において例示されており、ここで使用者の手の位置は点線の円1110cおよび1120cによって表現されている。
【0062】
図7Bは、拍手の動きが終わった時の使用者1100を図式的に例示している。この時点で、使用者の手1110aおよび1120aは互いに接触している。この状況は図7Cにおける画像空間において例示されており、ここで使用者の手1110dおよび1120dの表現は相接していると見ることができる。図7Cにおける矢印1130は、使用者の手1110aおよび1120aの動きの経路を例示している。図7Cに図示された検出されたモーションの形態は、プレイステーション2の所望の機能が開始されるために検出され得るモーションの一例である。当然、それは直接測定されている使用者の手の位置ではなく、モーションが検出される位置であることを理解しなければならない。
【0063】
図8は、検出された画像間モーションが所定のモーション判定基準を満たすかどうかを検出する方法を図式的に例示している。手順はステップC1に始まる。ステップC2において、2つのカウンタAおよびBが例えば0といった所定の値に初期化される。その後、ステップC3で、処理の準備ができているプレイステーション2でモーションビットマップが受信される。ステップC4で、受信されたモーションビットマップにおけるモーションのレベルが特定のしきい値を超えているかどうかが決定される。このステップは図9A〜9Dに関して後にさらに詳細に説明する。しきい値を超えていなければ、プロセスはステップC1に戻り手順が新たに始まる。
【0064】
一方、モーションのレベルがしきい値を上回っていれば、プロセスはステップC5に続き、しきい値を超えた連続するモーションビットマップの数を指示するカウンタAが増分される。ステップC6で、別のモーションビットマップがプレイステーション2に受信される。ステップC7で、新しいモーションビットマップのモーションのレベルがしきい値を上回っているかどうかが判断され、そうであれば、処理はステップC5に戻り、そこでカウンタAが増分される。
【0065】
一方、ステップC7でモーションビットマップのモーションのレベルが特定のしきい値を上回っていないと判断された場合、処理はステップC8に続き、カウンタAが所定の値xを超えているかどうかが判断される。カウンタAが値xを超えていなければ、これはしきい値を超える不十分な数のモーションビットマップが満たされるべきモーション判定基準について受信されたことを指示し(例えば、モーションしきい値は十分な継続期間にわたり超えなかった)、処理はステップC9に移動し、しきい値を下回るモーションのレベルを有する受信したモーションビットマップの数を追跡する第2のカウンタであるカウンタBが増分される。
【0066】
処理はその後ステップC10に続き、カウンタBの値が所定の値yより大きいかどうかが判断される。そうであれば、しきい値を超えなかった十分な数のモーションビットマップが受信されており、モーション判定基準を満たすかもしれないいかなるモーションも生じていないという確信を付与する。処理はその後ステップC1に戻り、プロセスが新たに始まる。カウンタBの値が所定の値yより小さければ、これはしきい値を超えたモーションビットマップの不十分な数が受信され、モーション判定基準を満たすかもしれないいかなるモーションも生じていないという確信を付与することになる。この場合、手順をリセットすることは望ましくないので、処理はステップC6に戻り、別のモーションビットマップが受信される。
【0067】
ステップC8においてカウンタAが所定の値xを超えていると判断された場合、制御はステップC11に移り、それは全部のモーション判定基準が満たされたという結果を渡す。
【0068】
従って、図8から、ステップC1〜C4がモーションのレベルがしきい値を超えている第1のモーションビットマップを識別しようとしているのに対し、ステップC5〜C7はモーションのレベルがしきい値を超えている以降のモーションビットマップを追跡しようとしていることが理解できる。さらに、ステップC8〜C10は、モーションのレベルがしきい値を超えていない以降のモーションビットマップを取り扱う。
【0069】
図9A〜9Dは、連続するモーションビットマップの系列へのフレーム間モーションしきい値の適用を図式的に例示している。
【0070】
図9Aにおいて、モーションビットマップが図示されているが、検出された唯一のモーションは、データ処理アーチファクトおよび/またはウェブカメラ730の視野内での通常の(非トリガ)移動から生じるノイズである。ここで、低密度のモーションフラグ付きピクセル(暗色点によって指示された)だけがモーションビットマップに存在する。
【0071】
図9Bは、モーションしきい値と比較された図9Aのモーションビットマップによって呈示されたモーションのレベルを図式的に示している。存在するモーションのレベルがモーションしきい値より小さいことがここに見ることができる。
【0072】
図9Cは、背景モーションに加えて、増大したモーションが存在する2つの領域があるモーションビットマップを示している。増大したモーションのこれらの領域は、両手のモーションを表現することができよう。現在の手順を用いて単一のモーションビットマップに基づきモーションの方向を確定することは不可能である。方向情報を抽出することは複数のモーションビットマップの比較を必要とする。
【0073】
図9Dは、同じモーションしきい値が図9Cのビットマップに適用された時に、しきい値を超えることを示している。
【0074】
図10は、検出された画像間モーションが所定のモーション判定基準を満たすかどうかを検出する代替方法を例示している概略フローチャートである。この実施形態は、モーションが生じている受信画像の複数の領域を識別し、1つの受信画像と連続する受信画像との間のそれらの領域の位置の変化を識別する。
【0075】
このプロセスは、モーションビットマップが受信されるステップE1から始まる。受信されたモーションビットマップのフラグ付きピクセルはk群にクラスタ化され、ここでkは所定の整数である。当業者は、ピクセルを群にクラスタ化する多種多様な方法が存在することを了解しているであろう。クラスタ化アルゴリズムのいくつかの例は、階層クラスタリング(凝集型(agglomerative)および分裂型(divisive)方法)および周知のK平均アルゴリズムを含む。この例示的実施形態では、K平均クラスタリングの形態が後述の通り使用される。
【0076】
各モーションビットマップは、モーションが検出された画像の場所を表現するある数nのフラグ付きピクセルを含む。モーションビットマップにおける各フラグ付きピクセルは、位置ベクトルx,x,・・・,xによって表現される。アルゴリズムは、これらのnピクセルの各々をクラスタに割り当てなければならない。現在の実施形態では、拍手の動きが検出される必要がある。図7A〜7Cから、典型的な拍手の開始時に、検出される必要がある2つの空間的に分離した領域(使用者の手)が存在することがわかる。あるいは、拍手は、(他方の手が静止したままで)片方の手の動きを伴うだけかもしれない。現在の実施形態において、モーション検出は「両方の手による」拍手に基づいて動作するはずであるので、クラスタリングアルゴリズムは、2つのクラスタ(K=2)が存在するという前提で実行され得る。「片方の手による」拍手が適合されることが望ましい場合、同じ手順がK=1について(より単順に)繰り返され得る。
【0077】
クラスタリングアルゴリズムにおける第1のステップは、2つのクラスタの各々について推定クラスタ平均を定義することである。これらは、(クラスタ平均が極めて近いものとして定義されないという制約を前提として)無作為か、またはより知的に定義され得る。この場合、賢明な推定は、一方のクラスタのクラスタ平均をモーションビットマップの左手部分の中心として、そして他方のクラスタのクラスタ平均をモーションビットマップの右手部分の中心として定義することである。
【0078】
nピクセルの各々はその後、2つのクラスタのどちらか一方に帰属される必要がある。これは、最小距離分類子といった手順によって実行され得る。すなわち、各ピクセルxについて、各クラスタ平均m(ここにa=1または2)までの距離Dが以下の式によって計算される必要がある。
D=|x−m
【0079】
ピクセルは、Dが最小であるクラスタに帰属されることになる。
【0080】
全部のピクセルがこれに基づきクラスタに帰属されると、クラスタに帰属したピクセルから新しいクラスタ平均が計算される。この後、モーションビットマップにおける各ピクセルは、新しく生成されたクラスタ平均のどちらか一方に帰属される。この手順は、両方のクラスタ平均が安定化する(すなわち、1つの反復と次の反復で変化しない)まで、反復的に継続する。このアルゴリズムは、必要であれば背景モーションを除去するために増強できるであろう。これは、安定化したクラスタ平均から特定の距離を越えたフラグ付きピクセルを無視することによって具体化され得る。
【0081】
モーションビットマップのピクセルがステップE2で群にクラスタ化されると、プロセスはステップE3に移り、そこでピクセルの各クラスタの中心点が決定され記憶される。これらの中心点は、ステップE2の安定化したクラスタ平均である。記憶された中心点は、現在のモーションビットマップおよび連続するモーションビットマップの処理の間にメモリに保持されるであろう。ステップE4では、現在のモーションビットマップにおけるピクセルの各クラスタと先行モーションビットマップにおけるピクセルのクラスタとの間の対応が計算されることになる。現在クラスタおよび先行クラスタ間の対応は、多様な方法で決定され得るが、最も単純な方法は単に、現在のモーションビットマップにおける各クラスタ平均について、先行モーションビットマップから最も近いクラスタ平均を決定することである。
【0082】
ピクセルのクラスタ間の対応が求まると、その後ステップE5において、クラスタのフレーム間変位を表現するモーションベクトルを決定することが可能である。言い換えると、現在のモーションビットマップ内部の所与のクラスタの位置は、先行ビットマップからの対応するクラスタの位置と比較される。2つの場所の変位はその後、モーションベクトルを定義するために計算され使用され得る。ステップE6において、決定されたモーションベクトルは、それらが所定のモーション判定基準を満たすかどうかを判断するために分析される。1つの可能な判定基準は、モーションベクトルの大きさが所定の数のフレームについて所定の値を超えるということである。
【0083】
2つのモーションベクトルが生成された場合に使用され得る可能な別の判定基準は、そのモーションベクトルが、1つの角で一方1つのクラスタにより、そして対角線上で対向する角で他方のクラスタにより定義される長方形に閉じ込められているということである。この判定基準は、一般に互いに向かって移動する2つのクラスタから生じるモーションだけがプレイステーション2機能の起動につながり得ることを意味する。付加的な判定基準は、図11Aおよび11Bに関して以下で識別される。
【0084】
図11Aおよび11Bは、図10に関して概説したプロセスを使用した2つのモーションビットマップからのモーションベクトルの生成を図式的に例示している。
【0085】
図11Aにおいて、第1のモーションビットマップ1210および第2のモーションビットマップ1220(第2のモーションビットマップ1220は第1のモーションビットマップ1210に引き続き装置によって受信される)は両方とも、モーションが生じた単一の画像領域を包含している。モーションが生じた画像領域の場所がモーションビットマップ1210とモーションビットマップ1220との間で移動したことがわかる。これらの2つの受信フレーム間の画像領域の移動は、モーションベクトル1230を生成するために決定され使用される。このモーションベクトルこそ、所定のモーション判定基準が満たされたかどうかを判断するために使用されるものである。この場合、モーションベクトルは「単一の手による」拍手のケースを表現しているかもしれない。
【0086】
図11Bにおいて、2つの連続して受信されたモーションビットマップ1250および1260の各々は、モーションが生じた2つの画像領域を包含している。1250の画像領域の各々と1260の画像領域の各々との間で対応が決定される。この決定がなされると、その後それぞれの画像領域の各々についてモーションビットマップ1250および1260の間の変位を表現するモーションベクトルを計算することが可能である。第1のモーションビットマップ1250と第2のモーションビットマップ1260との比較から、モーションを包含している画像領域が互いに向けて移動していることがわかる。これは、互いに向けて方向づけられているモーションベクトル1270および1280によって表現される。この場合、モーションベクトルは、「両手による」拍手のケースを表現しているかもしれない。所定のモーション判定基準の1つとして使用され得る1つの判定基準は、複数の群のピクセルのモーションベクトルが収束し、2つの画像領域の合併を表現しているということである。
【0087】
図12は、受信されたオーディオデータが所定のオーディオ判定基準を満たすオーディオ信号から構成されるかどうかを検出する方法を例示している概略フローチャートである。このプロセスはステップG1に始まり、オーディオデータがマイクからプレイステーション2に受信される。受信されたオーディオデータがすでに時間振幅ドメインでの分析が実行できるフォーマットになっている場合、いかなるフォーマット変換も必要ない。そうでなければ、フォーマット変換が行われる必要があるかもしれない。
【0088】
ステップG2において、所定のしきい値を超える振幅を有するいずれかの信号が検出される。しきい値を超えるあらゆるオーディオ信号はステップG3に渡され、しきい値を超えていた継続期間tが決定される。ステップG4において、ステップG3で測定された継続期間tがaとbとの間の値かどうかが判断される(aおよびbは所定の値である)。a≦t≦bであれば、所定のオーディオ判定基準は満たされている。所定の値aは、ノイズスパイクを除去するために十分に大きいが、有効なサウンドトリガを無視するほど大きくないように規定されなければならない。所定の値bは、有効なトリガのために適格な値に設定されなければならない。
【0089】
図13は、しきい値振幅AThrを超える振幅エンベロープを有する信号を図式的に例示している。しきい値振幅AThrが時間tと時間tとの間の時限にわたり上回られていることがわかる。この信号を図12に記載されたプロセスに適用して、tとtとの間の継続期間が値aおよびbの間に該当していれば、所定のオーディオ判定基準は満たされているであろう。他方、tとtとの間の時限がaよりも小さいかまたはbよりも大きいかのどちらかである場合、たとえしきい値振幅を超えたとしても、オーディオ判定基準は満たされないであろう。
【0090】
所定のオーディオ判定基準は所定の継続期間にわたり所定のしきい値を超える信号振幅に関して以外にも規定されることができ、例えば代わりに所要のスペクトルシグネチャに関して規定され得ることを理解しなければならない。この場合、装置は、オーディオ信号のスペクトル特性が所定のパラメータを満たすかどうかを決定するような方式でオーディオデータを処理する必要があるであろう。
【0091】
図14Aおよび14Bは、本発明の例示的応用を例示している。例示的応用は、画面上に現れている泡1310が使用者の行動に応答して破裂するテレビゲームのものである。この場合、画面上の泡の破裂をもたらす使用者の行動は、ウェブカメラ730の視野内における拍手というものである。検出されたモーションは、使用者の手を表現する図形的要素1320の画面上表示を生じる。この場合、拍手が生じたことを単に検出するだけでは十分でなく、さらに拍手のモーションがゲーム内の泡の場所に対応する画像領域で生じたかどうかを決定する必要があることを理解しなければならない。使用者の手1320の図形的表現の存在により使用者は、自己の手が正しい場所にあるかどうかを知ることができる。別の実施形態では、使用者の手の図形的表現を表示する代わりに、ウェブカメラ730から受信された使用者の画像をテレビゲーム画面のゲーム領域上にオーバレイすることが可能である。いずれにせよ、所定のモーション判定基準は、図14Bに図示の通り、使用者の両手がターゲットの泡に対応する画像領域で一緒になり相接するということになるであろう。対応する所定のオーディオ判定基準は、満たされた所定のモーション判定基準から所定の時限内に満たされなければならない。その場合、泡の破裂の機能は、図14Bに見られるように起動されるであろう。
【図面の簡単な説明】
【0092】
【図1】プレイステーション2の全体的なシステムアーキテクチャを図式的に例示している。
【図2】エモーションエンジンのアーキテクチャを図式的に例示している。
【図3】グラフィックスシンセサイザの機器構成を図式的に例示している。
【図4】受信されたビデオ/オーディオデータに基づく機能の起動を例示する概略フローチャートである。
【図5】モーションビットマップの生成を例示する概略フローチャートである。
【図6】モーションビットマップを図式的に例示している。
【図7】画像空間における使用者のモーションの表現を図式的に例示している。
【図8】検出された画像間モーションが所定のモーション判定基準を満たすかどうかを検出する第1の方法を例示する概略フローチャートである。
【図9】モーションビットマップへのフレーム間モーションしきい値の適用を図式的に例示している。
【図10】検出された画像間モーションが所定のモーション判定基準を満たすかどうかを検出する第2の方法を例示する概略フローチャートである。
【図11】フレーム間モーションが検出された画像領域におけるフレーム間変化を表現するために生成される変位ベクトルを図式的に例示している。
【図12】受信されたオーディオデータが所定のオーディオ判定基準を満たすオーディオ信号から構成されるかどうかを検出する方法を例示する概略フローチャートである。
【図13】振幅しきい値を超えるオーディオ信号の略図である。
【図14】本発明を利用した例示的用途を図式的に例示しており、使用者は、ウェブカメラまたはビデオカメラの視野において拍手を用いて画面上の泡を破裂させる。
【符号の説明】
【0093】
10 システムユニット
100 エモーションエンジン
200 グラフィックスシンセサイザ
300 サウンドプロセッサユニット
305 表示・サウンド出力装置
310 スピーカ装置
400 読出し専用メモリ(ROM)
450 コンパクトディスク(CD)/ディジタル多用途ディスク(DVD)読取り装置
500 ラムバスダイナミックランダムアクセスメモリ(RDRAM)ユニット
700 入出力プロセッサ(IOP)
705、710 ポート
715A、715B USBポート
720 不揮発性RAMメモリカード
725 ハンドヘルド型ゲームコントローラ
730 ビデオカメラ
735 マイク
740 LEDインジケータ
745 独立型マイク
750 専用RAM
800 外部ハードディスクドライブ(HDD)

【特許請求の範囲】
【請求項1】
連続するビデオ画像および関係するオーディオ信号を処理するために構成されたデータ処理装置であって、
連続するビデオ画像において画像間モーションを検出するための手段と、
画像間モーションが1つ以上の所定のモーション判定基準を満たすどうかを検出するための手段と、
1つ以上の所定のオーディオ判定基準を満たしている関係するオーディオ信号におけるオーディオ信号パターンを検出するための手段と、
(a)1つ以上の所定のモーション判定基準を満たしている画像間モーションの検出、および、
(b)1つ以上の所定のオーディオ判定基準を満たす関係するオーディオ信号におけるオーディオ信号パターンの検出、の組に応答して、データ処理装置の制御機能を起動させるための起動手段と、
を備えるデータ処理装置。
【請求項2】
請求項1に記載のデータ処理装置であって、
一連の連続する画像の各々について、画像間モーションが検出された各画像において1つ以上のアクティブな画像領域を検出するための手段を備えており、
1つ以上のアクティブな画像領域のうちの少なくとも1つが、連続する画像間で所定の変位を受けている場合、所定のモーション判定基準は満たされていると検出するデータ処理装置。
【請求項3】
請求項2に記載のデータ処理装置であって、
連続する画像間のアクティブな画像領域の少なくとも1つの位置における変位が所定のしきい値より大きいかどうかを検出するための手段を備えており、
少なくとも1つのアクティブな画像領域の位置における変位がN個(Nは予め定められた整数)の連続する画像について所定のしきい値を上回ったままであり、その後、所定のしきい値未満に低下した場合、所定のモーション判定基準は満たされていると検出するデータ処理装置。
【請求項4】
請求項1に記載のデータ処理装置であって、
ビデオ画像に関して定義されたテスト領域の所定の部分において連続する画像間で画像間モーションが生じるかどうかを検出するための手段を備えており、
画像間モーションがN個(Nは予め定められた整数)の連続する画像についてテスト領域の所定の部分において連続する画像間で生じ、その後、所定のしきい値未満に低下した場合、所定のモーション判定基準は満たされていると検出するデータ処理装置。
【請求項5】
請求項1に記載のデータ処理装置であって、
一連のビデオ画像の各々について、画像間モーションが検出された複数のアクティブな画像領域を検出するための手段を備えており、
アクティブな画像領域のうち、相互に関連する少なくとも2つのアクティブな画像領域の変位が、所定の値未満に低下した場合、所定のモーション判定基準は満たされていると検出するデータ処理装置。
【請求項6】
請求項1乃至5の何れか一項に記載のデータ処理装置であって、
所定のモーション判定基準は、画像間モーションが所定の画像領域内部で生じるものであるデータ処理装置。
【請求項7】
請求項1乃至6の何れか一項に記載のデータ処理装置であって、
オーディオ信号パターンが検出され、モーション判定基準が満たされたオーディオ信号およびビデオ画像のシーケンスにおける時間相関位置の間に、しきい値量未満の時間変位が存在する場合には、検出の組がは満たされているとするデータ処理装置。
【請求項8】
請求項1乃至7の何れか一項に記載のデータ処理装置であって、
関係するオーディオ信号の振幅が所定のしきい値を超えているかどうかを検出するための手段を備えており、
関係するオーディオ信号の振幅が少なくとも所定の継続期間にわたり所定のしきい値を実質的に上回っている場合、所定のオーディオ判定基準は満たされているとするデータ処理装置。
【請求項9】
請求項1乃至7の何れか一項に記載のデータ処理装置であって、
関係するオーディオ信号のスペクトル特性を検出するための手段を備えており、
検出されたスペクトル特定が所定のパラメータに実質的に合致する場合、所定のオーディオ判定基準は満たされているとするデータ処理装置。
【請求項10】
請求項1乃至9の何れか一項に記載のデータ処理装置であって、
連続するビデオ画像はビデオカメラから実質的にリアルタイムに受信され、関係するオーディオ信号はマイクから実質的にリアルタイムに受信されるデータ処理装置。
【請求項11】
請求項10に記載のデータ処理装置であって、
連続する画像を供給するためのビデオカメラを備えるデータ処理装置。
【請求項12】
請求項11に記載のデータ処理装置であって、
ビデオカメラと一体のマイクを備えるデータ処理装置。
【請求項13】
請求項10に記載のデータ処理装置であって、
オーディオデータを供給するためのマイクを備えるデータ処理装置。
【請求項14】
請求項1乃至13の何れか一項に記載のデータ処理装置であって、
表示装置を備えるデータ処理装置。
【請求項15】
請求項14に記載のデータ処理装置であって、
連続するビデオ画像の表現を表示装置に表示するための手段を備えるデータ処理装置。
【請求項16】
請求項14又は15に記載のデータ処理装置であって、
画像間モーションの表現を表示装置に表示するための手段を備えるデータ処理装置。
【請求項17】
請求項1乃至16の何れか一項に記載のデータ処理装置であって、
前記データ処理装置はゲーム機であり、前記制御機能はゲーム制御機能であるデータ処理装置。
【請求項18】
データ処理方法であって、
一連の連続するビデオ画像において画像間モーションを検出するステップと、
画像間モーションが1つ以上の所定のモーション判定基準を満たすかどうかを検出するステップと、
1つ以上の所定のオーディオ判定基準を満たしている関係するオーディオ信号におけるオーディオ信号パターンを検出するステップと、
(a)1つ以上の所定のモーション判定基準を満たしている画像間モーションの検出、および、
(b)1つ以上の所定のオーディオ判定基準を満たす関係するオーディオ信号におけるオーディオ信号パターンの検出、の組に応答して、データ処理装置の制御機能を起動させるステップと、
を含む、データ処理方法。
【請求項19】
請求項18に記載のデータ処理方法であって、
ビデオカメラから連続する画像を受け取るステップと、
マイクからオーディオデータを受け取るステップと、
を含む、データ処理方法。
【請求項20】
請求項18または請求項19に記載の方法を実行するためのプログラムコードを有するコンピュータソフトウェア。
【請求項21】
請求項20に記載のソフトウェアを供給するための供給媒体。
【請求項22】
媒体は伝送媒体である、請求項21に記載の供給媒体。
【請求項23】
媒体は記憶媒体である、請求項21に記載の供給媒体。
【請求項24】
連続するビデオ画像および関係するオーディオ信号を処理するために構成されたデータ処理装置であって、
前記連続するビデオ画像において画像間モーションを検出する第1の検出器と、
前記画像間モーションが1つ以上の所定のモーション判定基準を満たすかどうかを検出する第2の検出器と、
1つ以上の所定のオーディオ判定基準を満たしている前記関係するオーディオ信号におけるオーディオ信号パターンを検出する第3の検出器と、
(a)前記1つ以上の所定のモーション判定基準を満たしている画像間モーションの検出、および、
(b)1つ以上の所定のオーディオ判定基準を満たす前記関係するオーディオ信号におけるオーディオ信号パターンの検出、の組に応答して、前記データ処理装置の制御機能を起動させるロジックと、
一連の前記ビデオ画像の各々について、画像間モーションが検出された複数のアクティブな画像領域を検出する第4の検出器と、を備えており、
前記アクティブな画像領域のうちの少なくとも2つの互いに関する変位が所定の値未満に低下した場合、所定のモーション判定基準は満たされているとするデータ処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公表番号】特表2008−504621(P2008−504621A)
【公表日】平成20年2月14日(2008.2.14)
【国際特許分類】
【出願番号】特願2007−518688(P2007−518688)
【出願日】平成17年6月29日(2005.6.29)
【国際出願番号】PCT/GB2005/002547
【国際公開番号】WO2006/000824
【国際公開日】平成18年1月5日(2006.1.5)
【出願人】(502070679)ソニー コンピュータ エンタテインメント ヨーロッパ リミテッド (40)
【Fターム(参考)】