説明

テレビジョン受像機および方法

受信したビデオ画像内のテキストを識別する光学式文字認識部と、識別されたテキスト各々に応じて、ハイパーテキストリンクを生成するハイパーテキストリンク生成部とを備えたテレビジョン受像機であって、該テレビジョン受像機は、該ハイパーテキストリンクに従って、ネットワークに対して接続を形成するよう動作可能であり、該ハイパーテキストリンクは、識別されたテキスト各々の内容の少なくとも一部を、引数として備えるデフォルトターゲットを有し、該デフォルトターゲットは、受信したビデオ画像のコンテキストに従って選択される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テレビジョン受像機および方法に関する。
【背景技術】
【0002】
所定種類の情報を抽出するためにビデオ画像解析を行う応用例には、さまざまなものがある。第一の例は、車両ナンバープレート自動認識である。これは、長期駐車場で使用されることが多く、ビデオカメラを使って車のナンバープレートの画像を取り込むことにより予約確認をするものである(参考文献iを参照)。第二の例は、テレビ放送においてブランドロゴを識別するシステムであって、例えば、フットボールの試合の放送中に掲示板広告が確保した放送時間量を測定することができる(参考文献iiを参照)。さらに別の例としては、テレビスタジオでのアーカイビングサービスに役立つものがある。これは、光学式文字認識を使って、ビデオテープの開始時点でテキスト画像として記録されたメタデータを読み取ることにより、このメタデータをアーカイブデータベース内に組み込むことができる(参考文献iii参照)。このような光学式文字認識(OCR)はまた、スキャンした文書からテキストの電子コピーを生成する目的で従来から使用されている。
【発明の概要】
【0003】
ビデオ画像の解析が恩恵をもたらす応用例は他にもあることは言うまでもない。本発明は、このような応用例を活かすことができる手段および方法を提供する。
【0004】
本発明の第一の態様におけるテレビジョン受像機は、受信したビデオ画像内のテキストを識別するための光学式文字認識部と、識別されたテキスト各々に応じてハイパーテキストリンクを生成するハイパーテキストリンク生成部と、を備え、該テレビジョン受像機は、該ハイパーテキストリンクに従ってネットワークへの接続を形成するよう動作可能であり、ハイパーテキストリンクは、各々の識別されたテキスト内容の少なくとも一部を引数として含むデフォルトターゲットを備え、受信したビデオ画像のコンテキストに従って、該デフォルトターゲットが選択されることを特徴とする。
【0005】
本発明の別の態様におけるテレビジョン受像機の動作方法は、ビデオ画像を受信するステップと、該ビデオ画像の一部またはすべてに対し光学式文字認識を施して該ビデオ画像内のテキストを識別するステップと、各々の識別されたテキストに応じてハイパーテキストリンクを生成するステップと、受信したビデオ画像のコンテキストに従って、デフォルトのハイパーテキストリンクターゲットを選択するステップと、該デフォルトのハイパーテキストリンクターゲットに従ってネットワークに対して接続を形成するステップを備え、該デフォルトのハイパーテキストリンクターゲットは、さらに、各々の識別されたテキスト内容の少なくとも一部を、引数として備えることを特徴とする。
【0006】
よって有益なことに、ユーザーは、視聴したテレビ番組内で興味のあるテキストを選択し、インターネットや他のなんらかのリモートソースから、このテキストに関連する追加的なコンテンツを受信することができる。
【0007】
本発明のさらなる態様および特徴の各々は、添付の請求項において定義される。
【0008】
ここで、添付の図面を参照しながら、例示として本発明の実施例を以下に説明する。
【図面の簡単な説明】
【0009】
【図1】図1は、エンタテインメント装置の概略図である。
【図2】図2は、セルプロセッサの概略図である。
【図3】図3は、ビデオブラフィックスプロセッサの概略図である。
【図4】図4は、本発明の実施例によるテレビ受信回路を示すテレビ画像の概略図である。
【図5】図5Aは、ある広告を示すテレビ画像の概略図である。図5Bは、本発明の実施例による画像処理を伴った、ある広告を示すテレビ画像の概略図である。
【図6】図6は、テレビ画像の領域の概略図である。
【図7】図7は、テレビのクレジットタイトルを示すテレビ画像の概略図である。
【図8】図8は、本発明の実施例による色相ヒストグラムの概略図である。
【図9】図9は、本発明の実施例によるテレビ・インタラクションの方法を示すフロー図である。
【発明を実施するための形態】
【0010】
テレビジョン受像機と方法を開示する。以下の記載において、いくつかの具体的な詳細事項は、本発明の実施例について十分な理解を図るために示すものである。しかしながら、本発明を実施するためにこれらの具体的な詳細事項を採用する必要がないことは当業者にとって明らかである。逆にいえば、当業者にとって周知の具体的詳細事項は、明瞭化のために必要に応じて省略される。
【0011】
本発明の実施例において、ユーザーは、テレビ信号受信回路と結合しているソニー(Sony、登録商標)プレイステーション3(Playstation3、登録商標)(PS3、登録商標)から成る受信機上で、テレビ放送を視聴している。該受信機は、テレビ番組について現在表示されているフレームを解析してビデオ画像内の任意のテキストを識別し、そのテキストが検出された場合に、このテキストが、遠隔にある情報ソースにユーザーを接続する手段、例えば、画面に表示されるウェブページまたは電話番号、と一致するかどうかを判定する。その結果、ユーザーがPS3のコントローラを操作してポインタを関連するテキストへと動かすと、PS3は、テレビ画像の中で参照されたウェブページを表示することができる(例えば、任意に、部分的に透明にして、画面の三分の一を占めるサイドバーとしてその中に)、あるいは、ボイスオーバーインターネット・プロトコル・アプリケーションを介して直接に、または、ブルートゥース(登録商標)リンクを介してユーザーの携帯電話に対し、電話番号を呼び出す。
【0012】
同様に、他のテキストは、インターネットの検索エンジンにサブミットされる可能性のある検索タームとして識別可能である。例えば、黒い背景上にある二列の白いテキストという特徴的な構成を有する映画のクレジットタイトルは、そのように識別されて、インターネットの映画データベース(例えばimdb.com)用の検索引数として構文分析が行われたテキストとして識別することができる。よって、ユーザーは俳優またはキャラクタの名前をクリックして、それに関する追加的な情報を受け取れるようになる。
【0013】
このようにして、この受信機により、一般的なテレビ放送をウェブスタイルのハイパーテキストとして解釈することができ、視聴者に対して豊富な二次的情報へのアクセスを提供し、視聴体験を豊かなものにする。
【0014】
ここでテレビジョン受像機とは、テレビ信号を受信し、テレビ画面またはその同等物上で、その後の表示に適する画像信号を生成することが可能な装置と考えられる。本発明の実施例において、受信したテレビ信号は、アンテナまたはパラボラアンテナを介して受信されたテレビ放送であって、直接に受信されるもの、もしくは最初の受信時にある場所に記録された後に、受信されるものである。または、この信号は、DVDのような事前記録媒体からデコードすることも可能である。ディスプレイ、ビデオレコーダー、またはメディアプレイヤーのいずれかまたはすべてはこのテレビジョン受像機に統合してもよいし、あるいは別個のアイテムでもよい。
【0015】
ここで、図1から図4を参照すると、本発明の実施例において、テレビジョン受像機は、デュアルデジタルテレビチューナーに結合されているソニー(Sony、登録商標)プレイステーション3(Playstation3、登録商標)エンタテイメント装置から成る。
【0016】
図1は、ソニー(Sony、登録商標)プレイステーション3(Playstation3、登録商標)エンタテイメント装置の全体システム構造を概略的に示したものである。システムユニット10は、このシステムユニットに接続可能なさまざまな周辺機器を備える。
【0017】
システムユニット10は、セルプロセッサ100と、ランバス(Rambus、登録商標)ダイナミック・ランダムアクセスメモリ(XDRAM)ユニット500と、専用のビデオ・ランダムアクセスメモリ(VRAM)ユニット250を有するリアリティ・シンセサイザー・グラフィクス・ユニット(Reality Synthesizer graphics unit)200と、I/Oブリッジ700と、を備える。
【0018】
システムユニット10はまた、ディスク440から読み出しを行うブルーレイ(Blu Ray、登録商標)ディスクBD-ROM(登録商標)光学ディスクリーダー430、および取外し可能スロットインハードディスクドライブ(HDD)400を備え、I/Oブリッジ700を介してアクセス可能である。任意に、システムユニットはさらに、コンパクトフラッシュ(登録商標)メモリーカード、メモリースティック(Memory Stick、登録商標)メモリーカード等から読み出しを行う、メモリー・カードリーダー450を備え、同様にI/Oブリッジ700を介してアクセス可能である。
【0019】
このI/Oブリッジ700もまた、4本のユニバーサル・シリアル・バス(USB)2.0ポート710、ギガビットイーサネット(登録商標)ポート(gigabit Ethernet(登録商標) port)720、IEEE802.11b/g無線ネットワーク(Wi-Fi)ポート730、および最大7本までブルートゥース接続をサポートすることが可能なブルートゥース(Bluetooth、登録商標)無線リンクポート740に接続される。
【0020】
動作中、I/Oブリッジ700は、一台または複数台のゲーム・コントローラ751からのデータを含む、すべての無線、USB、およびイーサネット(登録商標)データを処理する。例えば、ユーザーがゲームをする際、I/Oブリッジ700は、ブルートゥース・リンクを介してゲーム・コントローラ751からのデータを受信し、そのデータをセルプロセッサ100へと導く。それに従い、セルプロセッサは、ゲームの現在の状態を更新する。
【0021】
ゲーム・コントローラ751に加え、無線、USBおよびイーサネット(登録商標)ポートはまた、他の周辺機器に対する接続を提供する。この周辺機器は例えば、遠隔制御装置752、キーボード753、マウス754、ソニープレイステーションポータブル(Sony Playstation Portable、登録商標)エンタテインメント装置のような携帯エンタテインメント装置755、アイトイ(EyeToy、登録商標)ビデオカメラ756のようなビデオカメラ、およびマイクロホン・ヘッドセット757等である。従って、このような周辺デバイスは、原則としてはワイヤレスでシステムユニット10に接続される。例えば、マイクロホン・ヘッドセット757がブルートゥース・リンクを介して通信中に、携帯エンタテインメント装置755はWi−Fiアドホック接続を介して通信を行うことができる。
【0022】
これらのインターフェース手段が提供されるということは、プレイステーション3装置はまた、デジタル・ビデオレコーダ(DVRs)、セットトップボックス、デジタル・カメラ、携帯メディアプレイヤー、ボイス・オーバー・アイピー(Voice over IP)電話、携帯電話、プリンタ、およびスキャナ等の、他の周辺デバイスに対応できる可能性が潜在的にあることを意味する。
【0023】
さらに、レガシーメモリーカードリーダー410を、USBポート710を介してシステムユニットに接続することにより、プレイステーション(Playstation、登録商標)やプレイステーション2(Playstation2、登録商標)により使用される種類のメモリーカード420からの読み出しを可能にする。
【0024】
本実施例において、ゲーム・コントローラ751は、ブルートゥース・リンクを介して無線でシステムユニット10と通信するように動作可能である。しかし、ゲーム・コントローラ751は、その代わりにUSBポートに接続することが可能であり、これにより、ゲーム・コントローラ751のバッテリを充電する電力を供給できる。一つまたは複数のアナログ・ジョイスティックおよび従来の制御ボタンに加え、このゲーム・コントローラは各軸の並進および回転に対応して6自由度の動きに対して感度が高い。結果的に、ゲーム・コントローラのユーザーによるジェスチャおよび動きは、従来のボタンまたはジョイスティック・コマンドに加えて、またはその代わりに、ゲームに対する入力として変換できる。任意に、プレイステーション・ポータブル装置等の、無線で使用可能な他の周辺デバイスを制御装置として使用できる。プレイステーション・ポータブル装置の場合、増設ゲームまたは制御情報(例えば、制御命令またはライフ数)を、装置のスクリーン上に提供できる。他の代替となる、または補助的な制御装置も使用可能である。例えば、ダンス・マット(図示せず)、ライトガン(図示せず)、ハンドルおよびペダル(図示せず)、または、例えば早押しクイズゲーム(これも図示せず)用の単一のまたは数個の大きいボタン、といったような特注の制御装置などが使用可能である。
【0025】
遠隔制御装置752もまた、ブルートゥース・リンクを介して無線でシステムユニット10と通信するよう動作可能である。遠隔制御装置752は、ブルーレイディスクBD−ROMリーダ430の動作と、ディスクコンテンツのナビゲーションに適する制御を備えている。
【0026】
ブルーレイディスクBD−ROMリーダ430は、従来の記録済み追記型CD、および、いわゆるスーパーオーディオCDに加えて、プレイステーションおよびプレイステーション2装置と互換性があるCD−ROMを読みとるように動作可能である。リーダ430は、また、従来の記録済み追記型DVDに加えて、プレイステーション2およびプレイステーション3装置と互換性があるDVD−ROMを読みとるように動作可能である。リーダ430は、さらに、従来の記録済み追記型ブルーレイディスクだけでなく、プレイステーション3装置と互換性があるBD−ROMを読みとるように動作可能である。
【0027】
システムユニット10は、ディスプレイ305と一つまたは複数のラウドスピーカー310を有するモニターまたはテレビセットなどの表示音響出力装置300に対して、リアリティ・シンセサイザ・グラフィックス・ユニット200を介してプレイステーション3装置によって作成またはデコードされたオーディオおよびビデオを、オーディオ・ビデオコネクタを通じて供給するよう動作可能である。ビデオ・コネクタ220が、コンポーネント・ビデオ、S-ビデオ、コンポジット・ビデオ、および一つまたは複数の高解像度マルチメディアインターフェース(HDMI)出力などさまざまなものを含む一方、オーディオ・コネクタ210は、従来のアナログおよびデジタル出力を含む。よって、ビデオ出力は、PALまたはNTSC等の形式であるか,または720P,1080i、または1080p高解像度である。
【0028】
オーディオ処理(作成、デコーディング等)は、セルプロセッサ100により実行される。プレイステーション3装置のオペレーティングシステムは、ドルビー(Dolby、登録商標)5.1サラウンドサウンド、ドルビー(Dolby、登録商標)シアター・サラウンド(DTS)、およびブルーレイ(Blu-Ray、登録商標)ディスクからの7.1サラウンドサウンドのデコーディングをサポートする。
【0029】
本実施例において、ビデオカメラ756は、単一の電荷結合素子(CCD)、LEDインジケータ、およびハードウェアベースのリアルタイムデータ圧縮エンコーディング装置を備える。これにより、圧縮されたビデオデータを、MPEG(モーション・ピクチャ・エキスパート・グループ)標準をベースとする内部画像等の適切なフォーマットで送信し、システムユニット10がデコードすることができる。カメラLEDインジケータは、システムユニット10からの適切なコントロールデータに応答して、例えば、照明状況が悪いなどを示すために点灯するよう配置される。ビデオカメラ756の具体例は、USB、ブルートゥース、またはWi−Fi通信ポートを介して、システムユニット10にさまざまな形で接続可能である。ビデオカメラの具体例は、一つまたは複数の対応するマイクを有することができ、更にオーディオデータを送信することが可能である。ビデオカメラの具体例において、CCDは、高解像度ビデオ・キャプチャに適する解像度を備えることができる。使用の際、ビデオカメラによって取り込まれる画像は、例えば、ゲーム内に組み込まれるか、または、ゲームコントロール入力として解釈される。
【0030】
一般に、システムユニット10の通信ポートの一つを介して、ビデオカメラや遠隔制御装置等の周辺デバイスとの間で生じるデータ通信を正常に行うために、デバイスドライバのような適切なソフトウェアを備えなければならない。デバイスドライバ技術は周知であるので、ここでは詳細を記載しないが、当業者であれば、デバイスドライバまたは同様のソフトウェア・インターフェースが、ここに記載される本実施例において必要であることを認識するはずである。
【0031】
ここで図2を参照すると、セルプロセッサ100は、四つの基本コンポーネントを備えたアーキテクチャを有する。すなわち、メモリ・コントローラ160とデュアルバス・インターフェース・コントローラ170A,Bを備えた外部入出力構造と、パワー・プロセッシング・エレメント(Power Processing Element)150と呼ばれるメインプロセッサと、シナジスティック・プロセッシング・エレメント(Synergistic Processing Elements、SPEs)110A〜Hと呼ばれる8つのコプロセッサと、エレメント・インターコネクト・バス(Element Interconnect Bus)180と呼ばれる、上記のコンポーネントを接続する環状データバスである。プレイステーション2装置のエモーション・エンジンの6.2GFLOPSと比べて、セルプロセッサの全体の浮動小数点演算性能は、218GFLOPSである。
【0032】
パワー・プロセッシング・エレメント(PPE、 Power Processing Element)150は、両方向同時マルチスレッドパワー(two-way simultaneous multithreading Power)970に適合し、3.2GHz内部クロックで稼働するパワーPCコア(PPU、 PowerPC core)155を基礎とする。また、PPEは、512kBレベル2(L2)キャッシュと32kBレベル1(L1)キャッシュを備える。PPE150は、1クロックサイクルにつき8回の単一位置演算(single position operations)が可能であり、3.2GHzで25.6GFLOPSに変換する。PPE150の主要な役割は、大部分の計算作業負荷を取り扱うシナジスティック・プロセッシング・エレメント110A〜Hのコントローラとしての機能を果たすことである。動作中、PPE150は、ジョブキューを維持し、シナジスティック・プロセッシング・エレメント110A〜Hのためにジョブをスケジュールし、その進行をモニターする。これによって、シナジスティック・プロセッシング・エレメント110A〜Hはそれぞれ、ジョブをフェッチして実行し、PPE150と同期するという役割のカーネルを実行する。
【0033】
シナジスティック・プロセッシング・エレメント(SPE)110A〜Hはそれぞれ、シナジスティック・プロセッシング・ユニット(SPU)120A〜Hと、それぞれ順にダイナミックメモリアクセスコントローラ(DMAC)142A〜Hとメモリマネジメントユニット(MMU)144A〜Hとバス・インターフェース(図示せず)を有するメモリーフローコントローラー(MFC)140A〜Hと、を備える。SPU120A〜Hの各々は3.2GHzでクロック制御されるRISCプロセッサであり、それぞれ256kBローカルRAM130A〜Hを備え、原則として4GBに拡張可能である。各SPEは、理論上、25.6GFLOPSの単精度パフォーマンス(single precision performance)を提供する。SPUは、1クロックサイクルにつき、4つの単精度浮動小数点メンバー、4つの32ビット数、8つの16ビット整数、または16個の8ビット整数で動作可能である。同じクロックサイクルにおいて、SPUはさらにメモリ操作を実行できる。このSPU120A〜Hは、システムメモリXDRAM500に直接アクセスしない。SPU120A〜Hにより形成される64ビットアドレスは、MFC140A〜Hに渡され、MFCは、そのDMAコントローラ142A〜Hに対して、エレメント・インターコネクト・バス180とメモリ・コントローラ160を介してメモリにアクセスするよう指示する。
【0034】
エレメント・インターコネクト・バス(EIB)180は、セルプロセッサ100内部の論理的に環状の通信バスであり、上記のプロセッサ・エレメント、すなわち、PPE150、メモリ・コントローラ160、デュアル・バス・インターフェース170A、B、および8つのSPE110A〜Hの、計12のパーティシパントを接続する。パーティシパントは、1クロックサイクルにつき8バイトのレートで、バスに同時にリードライトすることができる。前述のように、SPE110A〜Hはそれぞれ、より長いリードまたはライトのシーケンスをスケジューリングするためのDMAC142A〜Hを備える。EIBは、時計回りの方向に2つ、反時計回りの方向に2つの、4つのチャンネルを備える。結果として、12のパーティシパントについて、どの2つのパーティシパント間においても、最長のステップ・データフローは、しかるべき方向において、6ステップである。従って、12スロットに対する理論上のピーク瞬時EIB帯域幅は、パーティシパント間のアービトレーションによって完全利用を行った場合、1クロックにつき96Bである。これは、3.2GHzのクロック速度で、理論ピークバンド幅307.2GB/s(1秒あたりのギガバイト数)に等しい。
【0035】
メモリ・コントローラ160は、ランバス(Rambus)社により開発されたXDRAMインターフェース162を備える。メモリ・コントローラは、25.6GB/sの理論ピーク帯域幅で、Rambus XDRAM500とインターフェースで接続される。
【0036】
デュアル・バス・インターフェース170A、Bは、Rambus FlexIO(登録商標)システムインターフェース172A、Bを備える。このインターフェースは、12チャネルに体系化され、各チャネルはそれぞれ8ビット幅であり、5つのパスはインバウンドであり、7つはアウトバウンドである。これは、コントローラ170Aを介してセルプロセッサとI/Oブリッジ700の間、コントローラ170Bを介してセルプロセッサとリアリティ・シミュレータ・グラフィックス・ユニット200の間で、62.4GB/s(36.4GB/sアウトバンド、26GB/sインバウンド)の理論ピーク帯域幅を提供する。
【0037】
リアリティ・シミュレータ・グラフィックス・ユニット200に対し、セルプロセッサ100により送信されるデータは、一般的に、頂点を描画するためのコマンドシーケンスであるリストの表示、ポリゴンに対するテクスチャの適用、ライティング条件の特定等を含むものである。
【0038】
ここで図3を参照すると、リアリティ・シミュレータ・グラフィックス(RSX)ユニット200は、NVidia(登録商標)G70/71アーキテクチャを基礎とするビデオ・アクセルレータであり、セルプロセッサ100により作成されたコマンドリストを処理しレンダリングする。RSXユニット200は、セルプロセッサ100のバス・インターフェース・コントローラ170Bと通信するように動作可能なホスト・インターフェース202と、8つの頂点シェイダー205を有する頂点パイプライン204(VP)と、24のピクセル・シェイダー207を有するピクセル・パイプライン206(PP)と、8つの、レンダー・アウトプット・ユニット(ROPs)209を有するレンダー・パイプライン208(RP)と、メモリ・インターフェース210と、ビデオ出力を作成するためのビデオ・コンバータ212を備える。RSX200は、256MBのダブルデータレート(DDR)ビデオRAM(VRAM)250により補完される。これは、600MHzでクロック制御され、理論ピーク帯域幅25.6GB/sでRSX200とインターフェース接続するよう動作可能である。動作中、VRAM250は、フレーム・バッファ214およびテクスチャ・バッファ216を維持する。フレーム・バッファ214が処理中のパイプラインの結果を保存する間、テクスチャ・バッファ216はピクセル・シェイダー207にテクスチャを提供する。RSXはさらに、例えば、テクスチャをVRAM250にロードするために、EIB180を介してメインメモリ500にアクセスすることも可能である。
【0039】
頂点パイプライン204は、主に、描くべき画像内のポリゴンを定義する頂点の変形処理および変換処理をする。
【0040】
ピクセル・パイプライン206は、主に、これらのポリゴンに、色、テクスチャ、およびライティングを加える処理を行う。ここにはどのようなピクセル透明度も含まれ、赤、緑、青およびアルファ(透明度)値を、処理済ピクセル各々に対して作成する。テクスチャ・マッピングは、単に表面にグラフィックイメージを適用する。あるいは、バンプ・マッピング(テクスチャ値に従って表面の概念上の方向に摂動を加え、ライティングモデルにおいて、最も明るい部分と暗い部分を作り出す)、または、変位マッピング(加えられたテクスチャがさらに頂点位置を摂動させ、テクスチャと一致する変形した表面を作成する)を含むことも可能である。
【0041】
レンダー・パイプライン208は、ピクセル間の深度比較を行い、どのピクセルを最終イメージで描くかを判断する。また任意に、介在ピクセル処理が深さ値に影響を及ぼさない場合(例えば、透明度マッピングまたは変位マッピングがない場合)、レンダー・パイプラインおよび頂点パイプライン204は、その間で深さ情報を伝達することができ、それによりピクセル処理の前に閉塞要素の除去を可能にして全体のレンダリング効率を改善する。さらに、レンダー・パイプライン208はまた、結果として生じる画像に対して、フルスクリーン・アンチエイリアス処理といったような事後効果を加える。
【0042】
頂点シェイダー205およびピクセル・シェイダー207は双方とも、シェイダーモデル3.0標準に基づくものである。複合パイプラインを使って、クロックサイクル毎に最高136回までシェイダー・オペレーションを実行することが可能であるので、1秒間に748億回のシェイダー・オペレーションが可能となり、1秒につき最高8億4000万の頂点および100億ピクセルを出力する。RSX200の全体の浮動小数点性能は、1.8TFLOPSである。
【0043】
一般的に、RSX200は、セルプロセッサ100と密接に協働して動作する。例えば、爆発の表示をするとき、あるいは雨や雪などの天気効果を表示するときに、シーン内で多数の粒子を探知し、更新し、描画しなければならない。このような場合、セルプロセッサのPPU155は、一つまたは複数のSPE110A〜Hをスケジュールして、粒子の各々のバッチの軌道を演算する。一方、RSX200は、エレメント・インターコネクト・バス180、メモリ・コントローラ160、およびバス・インターフェース・コントローラ170Bを介して、メインシステムメモリ500から、RAM250内に現在保持されていないテクスチャデータ(例えば、雪片)にアクセスできる。SPE110A〜H、またはその各々は、演算された粒子特性(一般的に、位置とアティテュードを示す座標と法線)を、直接ビデオRAM250に対して出力する。SPE110A〜HそれぞれのDMAコントローラ142A〜Hは、バス・インターフェース・コントローラ170Bを介して、ビデオRAM 250に対処する。このように、実際には、割り当てられたSPEが、タスクの持続のためにビデオ・プロセッシング・パイプラインの一部となる。
【0044】
一般的に、PPU155は、このような方法で利用可能な8つのSPEのうち6つに対してタスクをアサインする。1つのSPEをオペレーティングシステムのために確保し、一方で1つのSPEを効率的に使用不能とする。1つのSPEを使用不能にすることによって、セルプロセッサ製造過程に対し、かなり高いレベルの許容度を実現する。というのはこれによって、1つのSPEの製造プロセスに障害があってもよいからである。あるいは、8つのすべてのSPEが機能する場合、セルプロセッサの寿命中に、他のSPEのうちの1つにより後で障害が起こった場合に備えて、第8番目のSPEが余剰範囲を提供する。
【0045】
PPU155は、SPEに対し、何通りかの方法によりタスクをアサインできる。例えば、DVDへのアクセス、ビデオ・オーディオ・デコーディング、およびエラーマスキングのような複合動作の各ステップを処理するために、各ステップを別々のSPEにアサインしつつSPEをつなげることができる。その代わりに、またはそれに加えて、上記の粒子アニメーション例のように、入力データに対して同時に作用するように、2つまたはそれ以上のSPEを割り当てることが可能である。
【0046】
セルプロセッサ100およびまたはRSX200により実現されるソフトウェアの命令は、製造時点で供給されてHDD400に保存される場合、およびまたは、光ディスクや固体メモリのようなデータキャリアまたは記憶媒体に対して供給される場合、あるいは、有線または無線ネットワークもしくはインターネット接続、あるいはこれらの組み合わせ等の伝送媒体を介して供給される場合がある。
【0047】
製造時に供給されるソフトウェアは、システム・ファームウェアと、プレイステーション3装置のオペレーティングシステム(OS)とを備える。動作中、OSは、ユーザーが様々な機能から選択できるように、ユーザーインターフェースを提供する。これらの機能は、ゲームをすること、音楽を聴くこと、写真を見ること、または動画を見ることなどを含む。このインターフェースは、水平にアレンジされた機能カテゴリを有する、いわゆるクロスメディアバー(XMB)の形態をとる。ユーザーは、ゲーム・コントローラ751、遠隔制御装置752、または他の適切なコントロールデバイスを用いて、水平に並ぶ機能アイコン(機能を表す)の上を移動し、所望の機能アイコンを反転表示することにより指図を行う。このアイコンの地点で、この機能に関連するオプションが、この機能アイコンの中央位置において、垂直方向にスクロール可能なオプションアイコンのリストとして現れ、同じような方法で指図が行われる。しかし、ゲーム、オーディオまたはムービーディスク440が、BD−ROM光ディスクリーダー430に挿入されている場合は、プレイステーション3装置は、自動的に適切なオプションを選択し(例えば、ゲームを開始する)、または、関連するオプションを提供する(例えば、オーディオディスクを演奏する、またはそのコンテンツをHDD400に圧縮する等の選択を行う)。
【0048】
さらに、OSは、オンライン性能を提供する。オンライン性能とは、ウェブ・ブラウザ、追加的なゲームコンテンツ、デモンストレーション・ゲーム(デモ)、および他のメディアをダウンロードすることができるオンラインストアとのインターフェース、現在の装置のユーザーにより指名された他のプレイステーション3を有するユーザーとの間で、例えば、利用可能な周辺デバイスに応じたテキスト、オーディオ、またはビデオ等によるオンライン通信を提供するフレンズマネジメント性能等を含む。このオンライン性能は、適切に構成されたゲームを実行中に、オンライン通信、コンテンツダウンロードおよびコンテンツ購入を提供し、またプレイステーション3自体のファームウェアおよびOSの更新を提供する。尚、「オンライン」という用語は、さまざまな種類の無線接続に適用できるので、ワイヤが物理的に存在することを意味するのではないことはいうまでもない。
【0049】
ここで図4を参照すると、デュアルデジタルテレビチューナー900は、各々がアンテナ、ケーブルまたは衛星入力と動作可能に結合した第一のチューナー910と第二のチューナー920を備える。チューナーはそれぞれ独立して、入力信号を介して利用可能なデジタルテレビとラジオチャンネルに周波数を合わせることが可能であり、それぞれがオーディオビデオデータのストリームを出力する。PS3 10のUSBポート710へのUSBリンクは、これらのチューナーの制御を提供し、チューナーからの出力をPS3 10へと転送する。PS3は、要求された任意の非AVデータ(電子番組ガイド、テレテキスト、またはペアレンタルコントロールデータ等)を処理し、また、ディスプレイへと出力するために、リアリティ・シミュレータ・グラフィックス部200に対してAVデータを転送する。
【0050】
本発明の実施例において、PS3 10が受信したAVデータのビデオ部分は、実質的に伝送信号からデコードされる(ただし任意に、このようなデコーディングは、PS3によってソフトウェアで実行される場合もある)。現在受信されている、このようにデコードされたビデオ画像は、N×Mピクセルから成るピクチャの連続のうちの一つと考えることができる(NとMは、放送フォーマットにより変化する)。
【0051】
従って、ペーパースキャナーから生成された、手書きまたはタイプされたテキストの画像を読み取る周知のOCRの応用例と同様の方法で、このテレビベースのピクチャに対して、光学式文字認識(OCR)を適用することが可能である。このようなOCR技術は、当業において通常の知識を有する者には周知である。「光学式文字認識」における「光学式」という用語は、画像解析を指すものであって、すでにデジタル形式で利用可能になっている画像を解析するために光学が必要であるということを意味するのではない。
【0052】
本発明の実施例において、テレビ・ピクチャに対するOCRサーチは、画像内であるサイズ範囲にあるテキストを検出するために行われる。テキストサイズの範囲は予め定めたものであり、およびまたは画像放送解像度に応じるものであってもよい。
【0053】
本発明の実施例において、OCRサーチは、いわゆる「ブルート・フォース」検索(力任せの検索)であって、想定されるあらゆるサイズのテキストが、その画像内で想定されるあらゆる位置において検索される。
【0054】
このような検索を行うために、ピクチャ内の異なるテキストサイズについてOCRサーチが行われる。あるいは、逆に、そのピクチャの、解像度が異なっていて連続的に低くなっているコピーを、比較的小さい、固定サイズのテキストのOCRサーチに適用することも可能である。後者のオプションは、画像内の異なるサイズの仮想的テキストに対して、テキストサイズを標準化することと等しく、より計算効率がよいというさらなる利点がある。というのは、全体的に解析すべきピクセルの数が少なくなり、OCR認識部で使用する必要がある認識モデルが、より簡単かつ数が少なくなる可能性を秘めているからである。
【0055】
本発明の実施例において、OCR認識部とは、しかるべき命令により動作するPS3のセルプロセッサである。
【0056】
一般的に、OCR認識部が検索し認識すべきテキストは、ある特定の取り決めに従ってテレビ画像内に現れると仮定する。
i.広告(例えば、図5Aの例示を参照)や、映画・テレビのクレジットタイトルに見られるような、無地の背景上にある単一のテキストとして。
ii.映画やテレビのクレジットタイトルで見られるような、無地の背景上で垂直にスクロールするテキストとして。
iii.ニュースレポートに見られるような、通常は画面の下、四分の一のところで、無地の背景上で水平にスクロールするテキストとして。
iv.画像のすみで静止したロゴ(半透明の可能性あり)の一部として。
v.通常の番組コンテンツを覆って、一瞬見える静止テキスト;一般的にはイントロ・クレジット用。
vi.実際の番組画像内での偶発的なテキスト;例えば店舗の看板や本のカバーなど。
【0057】
iからivの例は、比較的処理が分かりやすいので、後半の例を見る前に、まず、それらの例について以下に説明する。
【0058】
例iに関し、典型的な広告を例示として図5Aに示す。このような広告は通常、無地の背景上に、製品またはロゴの描写と、ウェブサイト、電話番号またはキャッチフレーズを提供する独立したハイコントラストのテキストが表示されて終了する。
【0059】
上記のように、画像のブルート・フォース検索を使用して、このテキストを検出できる。しかし、本発明の実施例においては、画像のサブ領域を解析用に直ちに識別し、残りを廃棄する。
【0060】
典型的なデジタルテレビ放送において、テレビ画像は、通常8×8画素単位のマクロブロックから成る。画像圧縮技術において使用される共通の測定基準(尺度)は、一つのブロック内の隣合わせるピクセル間の絶対差異の合計に基づく、そのブロックに対するアクティビティ測定基準(activity measure)である。
【0061】
赤・緑・青、色相・彩度・輝度、あるいは、他の色空間において、隣り合うピクセル間にある、先頭N個のピクセル差異値の平均から成るアクティビティ測定基準を生成することにより、ハイコントラストなテキストにとって都合がよいように上記のアクティビティ測定基準を変形できる。例えば、Nは8でよい。このような変種のアクティビティ測定基準は、重畳されたテキストに特有の、ストロングエッジと画像不連続から成るブロックを識別できる傾向にある。
【0062】
本発明の実施例において、このようなアクティビティ測定基準は、−例えば、無地の背景のマクロブロックのレベルよりもほんの少し上である、あるいは、任意に、画像の平均アクティビティレベルよりもほんの少し上である、など−、このアクティビティ測定基準と、閾値のアクティビティレベルを比較することによって、画像の背景部分を除去するために使用される。これによって、図5Bに示されたロゴ1112およびテキスト1114のような相対アクティビティ領域を識別する。
【0063】
任意に、識別されたアクティビティ領域の垂直範囲は、アクティビティ領域内で検索する対象のテキストサイズの上限を提供するために使用することができ、さらに計算負荷を軽減する。
【0064】
識別されたアクティビティ領域内におけるテキストの検索は、上記のように行われる。これを実行するために画像の拡大縮小を使う場合、この拡大縮小は、識別されたアクティビティ領域(あるいは、これらの領域を網羅する適切な領域)に限定することも可能である。
【0065】
任意の適切なサイズ、あるいは、異なるテキスト解析のためにサイズが異なる画像ブロックは、マクロブロックが利用可能かどうかとは無関係に、テレビ画像上に組付けられることはいうまでもない。
【0066】
解析領域内で連続するフレーム間の画像において著しい差異がない場合は(これは例えば、解析領域内のブロックに対するアクティビティスコアが類似する場合、あるいは、いわゆる「Pフレーム」というような画像エンコーディングデータの解析によって、あるいは、連続する画像間の差異スコアを生成し評価することによって示すことができる)、任意に、各受信テレビ画像に対してOCR解析を行う必要はない。つまり、一つの画像に対して得られる結果は、それに続くいくつかの(一つまたは複数の)画像に繰り越すことができる。しかしながら、本発明の実施例において、連続する類似フレームに対して何度かOCR解析を行うと、任意の文字分類エラーを識別するための比較がなされ、その結果、OCR識別率を改善する。
【0067】
例iiに関し、映画のクレジットタイトルは、通常、黒い背景上の白いテキスト、あるいは、より一般的には、無地の背景に対してハイコントラストなテキストである。さらに、スクロールしているクレジットは、ある一つのテレビ画像に対しては事実上静止していてもよい。従って、本発明の実施例において、このテキストもまた、例iに対して説明したようなブルート・フォース検索または他の適切な周知のOCR技術を介して検出されるものである。また任意に、その画像の関連サーチ領域は、ブロックアクティビティ測定基準を利用して識別可能である。
【0068】
尚、テキストが上に向かってスクロールしているという事実は、現在の画像についての垂直に移動したバージョンと、先行する一つ以上の画像とを比較し、実質的に一致があるかどうかを判断することによって検出可能である。スクロール率は、このような検出(あるいは、実効的なスクロール率が画像フレームごとに整数個のピクセルではない場合は、いくつかの画像フレームに亘る平均数)に基づいて決定できる。
【0069】
従って、スクロールしているクレジットの存在が検索されると、解析する必要があるのは、画面の下部に近いテレビ画像の領域のみであり、算出したスクロール率を使って予測されたテキストの、従前に解析済みの位置を使って、新たに表示されたクレジットのテキストが判定される。これにより、さらに計算負荷が軽減される。また任意に、テキストのいくつかの予測位置をその実測値と比較することによって、数個のフレームが通過した後にこの予測をテストすることができる。それによって、必要であればスクロール率の推定値を精密化し、その正確性を改善することができる。
【0070】
例iiiに関して、典型的ないわゆるニュースバナーあるいはティッカーを、図6に図示する。このようなニュースバナーあるいはティッカーは、水平にスクロールするテキストを一ライン以上提供するのが通常であり、一般的にテキストは各々、無地の静止した背景ストリップ上に置かれる(1126、1128)。2ライン以上のテキストが提供されると、スクロール率はそのライン毎に異なる場合がある。時に、さらに別のライン1124が静止テキスト用に提供され、これは断続的に更新され、通常は、上記のニュースバナーに示された現在のニュース取材に関連するものである。大抵、バナーの部分1122は静止しており、ネットワークまたは番組ロゴおよびまたは時計を表示する。
【0071】
通常、このバナーは、画面の25%以下から成る領域1120を占める。本発明の実施例において、標準の構成(すなわちニュースバナー)が画面のこの部分に存在するか否かを判定するために、画像領域1120のローリング平均を求め、以下のような等式に従って領域1120の平均化画像を更新する。
【0072】
Pt+1 = αPt + βPimage
【0073】
ここで、Ptは、現在の平均ピクセル値、Pimageは、時間t+1の新しい画像ピクセル値であり、通常、α >> βであり、α + β = 1である。このαとβの間の比率により、平均処理の応答性が決定される。この比率は、時間とともに変化させることができるので、平均値をすばやく求めることを可能にし(例えばユーザーがチャンネルを変更した後)、その後、効果的な平均化期間を長くすることができる。任意に、この平均画像はフレーム毎に更新する必要はなく、その代わり定期的に更新する。また任意に、この計算に使用される平均化画像および現行の画像は、受信した画像よりも低い解像度のものにして(すなわち縮小して)、計算負荷を軽減してもよい。
【0074】
平均化処理の結果として、上記のバナーセクションに対応し、通常はっきりと識別できるカラーのレギュラーブロックができる。そして、このようなブロックは周知の技術を使って、別個の解析領域としてすぐに識別できる(この技術は、例えば、いわゆる「フラッドフィル(flood-fill)関数」であり、最初のサンプルピクセルと連続している画像領域を識別するものであって、この領域は、サンプルピクセルの色の許容範囲内のピクセルから成る。そのようにして、この領域の水平および垂直境界線が決定される)。
【0075】
入力画像のそれぞれ対応する領域内で(必要に応じて元の画像の解像度を参照しなおして)、テキストとテキストスクローリング速度について、別の解析があれば、映画のクレジットタイトルについての説明と同様にそれを行うが、各々の解析領域に対し、垂直ではなく水平画像シフトを使用する。
【0076】
テキストの水平スクロールに対しては、垂直スクロールテキストと同様に、ある文字や単語について、いったんOCRが行われると画像内の対応するテキストの位置が、任意にスクロール速度推定から予測され、また任意に、繰り返してOCRを行う必要を回避する。結果的にまた、画像の端にあるバナーラインのほんの一部のみを解析するだけで、新しい文字が画像に入ったときに認識をすることができる。あるいは、もしOCRが読取処理の一部として単語認識を使用している場合は、一単語全体が画像に入るまで(スペースで指示される)、認識を遅らせてもよい。
【0077】
バナー領域のカラーブロックはまた、それらが含むテキストの近似サイズについての初期ガイダンスを提供することはいうまでもない。スクロールするテキストが検出された場所において、バナーライン内で見出されるスクロールしているピクセルの垂直範囲から、より正確なテキストサイズの予測値を推定することができる。この情報を利用して、適切なテキストサイズのOCR認識を使用することができる、あるいは、固定サイズのOCR認識に対して適宜提示するために、各解析領域を基準化(正規化)することができる。
【0078】
バナー構成を決めるために使用する技術は、画像の下、四分の一の、長く、幅の狭い、矩形のエレメントに対するテンプレートマッチングなど、他にもあることはいうまでもない。このような技術は、上記に開示したような画像平均化と連係して使用してもよい。
【0079】
例ivに関して、プラズマテレビ上でのいわゆる「焼きつき」を避けるために、最近は半透明の網状のロゴが多い。結果として、これらは、画像内で比較的コントラストが低く、連続する画像に伴って色が変化し、下に横たわっていて透けて見える画像が原因で、内部が頻繁に変わりやすい。
【0080】
図6を再度参照すると、このようなロゴ1132は、通常、画像の一つのコーナー1130の中に現れ(国によって異なるが、普通は左上)、潜在的な解析領域を比較的小さくしている。
【0081】
任意に、OCR認識部を補助するために、上記の例iiiについて説明した平均化処理に類似するものを用いて、ロゴ1132の全体のカラー変化と内部のカラー変化を大幅に減らすことが可能であり、一つまたは複数のコーナー領域1130に適用させることができる。
【0082】
任意に、α:β比率は、バナーを識別するために使用する比率よりも大きくすることができる。
【0083】
平均化画像は、その後、周知の技術を用いて操作され、OCRの目的で、ロゴや関連するテキストのコントラストを改善させる。例えば、平均化画像の平均輝度に基づく閾値を用いて、平均レベルより上のピクセルの輝度を上昇させ、それより下のピクセルは下げることによりロゴを強調させることができる。これにより平均化画像内のコントラストを上昇させ、それによりOCRの助けとなる。極限状態では、その結果は黒白画像になる。ロゴは半透明なので、下にある画像よりも常に明るいか、あるいは、常に暗いかのいずれかでなければならない。結果として、全体の平均化画像の平均輝度は、平均化画像背景の平均輝度と、平均化ロゴの平均輝度の間のどこかにあると言える。従って、この全体の平均輝度についてコントラストを拡大することは、多くの場合、背景とロゴとを区別する。
【0084】
これまでに述べた例においては、テキストは、一般的に、大部分がブランクもしくは均一な画像内で検出されるか、あるいは、画像の識別可能な領域内で検出される。この画像は、均一な背景そのもの(例えば、バナーライン)を有する、あるいは、その画像に対して背景を(例えば、平均化を介して)比較的均一にすることができるものである。
【0085】
しかしながら、リストにおける最後の二つの例に対しては、背景は任意のものであり、複合画像を含む可能性がある。
【0086】
例vに関して、典型的な映画内クレジットを図7に示す。前述のように、ブルート・フォースのOCRサーチを実行することができる。しかし、本発明の実施例においては、OCRの性能を改善するために、画像前処理を使用してもよい。
【0087】
例vの映画内クレジットは、画像の全体のアクティビティ測定基準、連続画像間の全体差異基準、およびまたは、画像内のカラーパレット分布により、似たような例iの静止広告タグラインやエンドクレジットとは区別される。特に、例vでみられるようなタイプのテレビ画像の全体のアクティビティレベルおよびまたは差異基準は、例iにおけるものよりも高く、一方、色の分布は幅広い。逆に、例iで見られるタイプの連続画像の重要な部分は、例vの画像と比較すると、一定して非常に低いアクティビティレベルと差異基準を有し、色分布の幅がより狭い。これらの差異は、画像タイプを区別するために使用される。
【0088】
一般的に、図7に見られるような映画内クレジットは、それを読む視聴者を補助するために、下にある画像から明らかに区別できることを目的としている。通常これを実現するには、テキストを下の画像よりもかなり明るくするか暗くするかのいずれかにし、およびまたは、下にある画像と著しく異なるテキスト用のカラーパレットを使用する。区別をするための別の要因は、一般的に、テキストは静止しており、その下のコンテンツは連続画像に亘って動いているということである。
【0089】
従って、以下の一つまたは複数の項目が、画像の前処理のために用いられる。
【0090】
i.画像の輝度ヒストグラムを作る。一般に、テキスト内のピクセルは、同じ輝度であるが、テレビ画像は輝度値が広い範囲に及ぶ。結果として、画像の均一領域からのピクセルと、テキストからのピクセルは、ヒストグラムにおいては高い値と対応づけられるので、それによって識別される。残りのピクセルは、輝度ヒストグラムを使って識別されたピクセルの色以外の均一の色に設定することができる。
ii.同様に、画像の色相ヒストグラムを作成する(図8参照)。また、一般に、下にある画像内の色相は、均一カラーの領域によるピークがいくつか存在するが、広い幅を占めており、概してヒストグラムの広い範囲を形成する。テキストに対応するピクセルは一般的に、重畳テキスト用に選択された特色のある均一のカラーパレットにより、ヒストグラム内で隔絶されたピークを形成する。例えば、ヒストグラム内で、ある候補のピーク値の比率を隣接する値と比較することによってこのようなピークを検出することができる。比率が閾値を超える場合は、対応するピクセルがテキストの一部であることを示す。このヒストグラムそれ自体は、例えば、128ビンを含み、それによって画像内の色相を量子化する。
iii.全体画像に動きがあるかどうかを判定するために、フルスクリーンのモーション検出を使用する。動きがあれば、現在の画像を先行する画像と比較し、色およびまたは輝度における閾値差異を超えるピクセルはいずれも廃棄する。
【0091】
上記の技術は組み合わせて使用することも可能である。例えば、各画像ピクセルの色相に対するトータルの色相ヒストグラムスコアを、ピクセル輝度の平均値からの偏差と組み合わせたピクセルマップにより画像を生成し、その画像をOCR用に直接使用するか、あるいは、オリジナルの画像をフィルターするために使用する。また、動きを判定するために閾値が適用された場合はマスクとして運動値(motion values)を使用してもよく、あるいは、連続するフレーム間の変化の度合いに応じてピクセルマップをさらに修正することによって、あるいは画像をフィルタリングすることにより運動値を使用してもよい。
【0092】
例viに関し、実際の番組の映像場面での偶発的テキストの多くは、中程度のコントラストであり、任意に回転し、遠近感があり、部分的に不明瞭で任意の方法でフレーム間を移動する可能性がある。その結果、OCR検出および認識率は、受け入れ難いほど低い場合がある。しかし、本発明の実施例においては、利用可能な演算能力があれば、OCRリーダによる画像のブルート・フォース検索が行われる。
【0093】
テレビ画像の全体の動き、画像のアクティビティ、およびまたは色相もしくは輝度分布を使用して、例vとviを、例iとiiから区別することができることはいうまでもない。特に、例iおよびiiにおける色相または輝度分布は、通常のテレビ画像よりも、二つの顕著な色相・輝度グループの間により偏光する傾向にあり、所定の閾値を超えるアクティビティのブロック数はより少なく、動きがあるところでは、これは均一で、垂直または水平の両方向を任意に組み合わせるというよりはむしろ、大体は垂直あるいは水平のみである傾向にある。
【0094】
従って、任意に、一つまたは複数のアクティビティレベル、画像の水平および垂直の動き、およびまたは色相・輝度に基づく画像解析によって画像を分類することが可能であり、いずれのOCR前処理のアプローチを使用すべきかを示すことができる。同様に、画像を前処理するために、あるいは、OCR用に興味のある領域を識別するために使用する追加的な入力データを提供する。
【0095】
平均化によるバナー構成の検出(例iii)は、バナー形式のOCR処理のためにバナー領域を分離するために使用され、一方で画像領域の残りを自由に分類可能にする。このような平均化は、網状のロゴを区別する助けとなる(例iv)。
【0096】
そこで、ユーザーがあるスクリーン上のテキストに興味を示した場合、例えば、ポインティングデバイス(例えばマウス754、コントローラ751、またはアイトイ・インターフェース756)をその上に動かすことにより、あるいは、そのようなデバイスを使ってそれをクリックする、もしくは同様の選択アクションを行った場合、対応する認識されたテキストが(すでに構文分析されてなければ)構文分析され、その後、以下に説明するように、PS3がそのテキストに基づいて動作する。
【0097】
上記の継続中の、またはバックグラウンドで動くOCR処理により、ポインタによって当座に選択をしただけで、ユーザーに追加的な機能をいくつか提供することができる。第一に、例えば、ユーザーがコントローラ751の「Up」または「Down」ボタンを押した場合、認識されたテキストに対応する画像領域をユーザーのために、好ましくは循環シーケンスで、強調表示することができる。第二に、認識されたテキストは、例えば、ユーザーによる選択のために、ポップアップ・ウィンドウのように画面上の画像とは別にリストすることができる。任意に、そのようにリストされた利用可能なテキストは、現在(例えば、ポップアップ・ウィンドウが起動した瞬間)画面上で認識されているテキスト、所定の先行時間以内に画面上で認識されたテキスト、ユーザーがチャンネルを変えたために画面上で認識されたテキスト、およびまたは、現在のプログラムを受信中に画面上で認識されるテキスト、のいずれかである。テキストは、例えば、入力順またはアルファベット順に配列することができる。このように並べることにより、ユーザーは、都合がよいときに興味のあるテキストを選択することができる。
【0098】
任意に、上記の技術は、ユーザーがテキストを選択するつもりがあることを提示するようなやり方で、ポインティングデバイスの動作を開始するか、あるいはPS3の入力デバイスの操作を開始したときに起動される。この場合、ローリング平均および動きの評価のようなデータの収集は、ユーザーからは独立したバックグラウンドアクティビティとして持続させることができる。もし上記に開示されたようにリストが提供される場合、その中にリストされるテキストは、現行のOCRの実施例と比較して限定されたものになる。
【0099】
上記の継続中またはバックグラウンドのOCR処理の代わりとして、本発明の実施例では、テレビ視聴中にOCRサーチは必然的に行わないようにしてもよい。代わりに、PS3 10は、ユーザーがポインティングデバイスを選択インターフェースとして使って、興味のあるテキストを指示するのを待っている。これは、テレビ画像内のテキストを区別するためのユーザー自身の能力を利用するものであって、大量のバックグラウンドのOCRアクティビティを取り除くことにより、演算オーバーヘッドを大幅に節約することができる。
【0100】
この場合、通常は一旦ポインタが「クリック」されると(すなわち、ユーザーによりなんらかの選択形式が示されると)、水平ストリップなど、ポインタを中心とする解析領域上でOCR認識を行うことができる。
【0101】
任意に、ポインタ選択のすぐ近くにあるカラーパレットが、(例えばヒストグラムによって)サンプリングされる。通常、サンプル領域において主流なのは、一つのカラー(そのテキストのカラー)または二つのカラー(テキストのカラーと局所的に均一な背景のカラー)である。OCR処理をするために、画像または解析領域は任意にフィルタリングされ、サンプル領域で主流のカラーに実質的に似ていないピクセルを廃棄する。
【0102】
解析領域そのものは、任意に動的であり、局所的なカラー構成とサンプルカラー構成との間で比較することにより、その領域自体を垂直方向で限定する。このようにして決定される垂直範囲は、テキストサイズについてのガイダンスを提供する。さらに、任意に、水平方向の拡大を同様の方法で制御し、それによって主流のカラーの一つまたは両方がないという間隙が許容範囲となり、一行に複数のワードを入れることを可能にしてもよい。
【0103】
それに代えて、またはそれに加えて、ユーザーは画面上に、境界ボックスを定義することにより解析領域をはっきりと定義してもよい。例えば、パーソナルコンピュータのインターフェースでの選択ツールとしてよく使われる方法に似ているやり方で、ポインティングデバイスを使ってボックスの左上のコーナーを定義し、これを箱の右下のコーナーを定義するようにドラッグする。
【0104】
例iからivに関連してこれまでに記載した解析や処理のいずれも、このようなユーザー起動の解析領域内で規定どおりに使用することができる。
【0105】
上記の解析や処理はいずれについても、任意に、当業において周知のカラーパレット低減処理をテレビ画像に適用することができる。このような処理の典型的な例は、フルビット深度画像の、Compuserve graphics interchange format(GIF)フォーマット画像への変換において見られる。GIF画像は、画像の所望のビット深度に応じて、オリジナルの画像で検出される256、64、32、または16の最も一般的な色に制限されたパレットから成る。
【0106】
このような処理は、前面と背面の色を均一化するための手助けとなり、以下に説明するテキスト差別化処理の多くを簡素化する。
【0107】
同様に、上記の解析あるいは処理のいずれに対しても、最終画像またはOCR認識部に適用される画像領域は、任意に、さらに低減したカラーセットまたはグレイスケールに、例えば4ビットのビット深度で、変換することも可能である。これによって入力可変性をさらに低減することができ、OCRの正確性を改善する。
【0108】
上記の技術のひとつによって、認識されたテキストのあるセクションが一旦選択されると、テレビジョン受像機がどのようなやり方でそのテキストに対して作用するかを決定するために構文分析を行うことができる。
【0109】
上記に説明したように、選択されたテキストは以下のように解釈される。
i.ウェブ(インターネット)アドレス;
ii.VoIPリンクを介して使用する、あるいは、ブルートゥース(または別の適切な無線接続)と携帯電話を介して使用する電話番号;
iii.検索エンジンで使用する検索ターム。
【0110】
従って、テキストは、ハイパーテキストのターゲットアドレス(例えば、ウェブアドレス、VolP番号、または電話番号)、または、ハイパーテキストリンクの一部としてウェブサイトにサブミットされる引数(例えば、ブラウザ規定www.searchengine.comの引数を使用する)のいずれかの可能性がある。
【0111】
ウェブアドレスは、キーとなる用語、'www.'、'.com'、あるいは、他の共通の拡張子(例えば、.org、.net.、.co.uk、.us、.tv、.biz、.name)が、一つまたは複数存在することによって識別できる。また、より一般的には、ピリオド('.')のすぐ前、または、それに引き続いてすぐ後にテキスト文字が存在することによって識別できる。電子メールアドレスは(実際にはインターネットアドレスもまた)、'@'マークが存在することによって識別できる。
【0112】
受像機は、ハイパーテキストリンクに基づいて、PS3のオペレーティングシステム内にあるブラウザを使って作動し、対応するウェブサイトにアクセスできる。このウェブサイトは、テレビ番組の上にポップアップ・ウィンドウとして表示されるか、画面の三分の一を占めるか、あるいは、選択可能な画面のページとなる(すなわち、テレビ番組とウェブ・ブラウザの間で入れ替えを行うか、スライドを行う)。画面上でウェブアドレス全体のうち一部のみが表示されている場合(例えば、'sony.com')、必要なプレフィックスと連結させることでブラウザにより使用できる(例えば、http://www.sony.com)。
【0113】
このようにして、PS3プロセッサは、認識されたテキストに基づいて、有効なハイパーテキストリンクを生成するように動作する。
【0114】
「Tel」という単語(または現地の同等語)が存在すること、およびまたは最小有効長であること、およびまたは通貨記号(例えば、£、$、?、\)が先行して存在しないこと、もしくは、該当する単語(例えば「ドル」)が後にないこと、およびまたは、数字の列のなかにカンマが存在しないこと、により、数字を電話番号として解釈する。また、1000000などの特定の数字は、電話番号としては除外する。
【0115】
Skype(スカイプ、登録商標)などのVolPアプリケーションがPS3に装備されている場合、テレビジョン受像機は、VolPプロトコルに従って適切に構成されたインターネット接続を介して番号をコールすることにより、ハイパーテキストリンクに基づいて動作することができる。
【0116】
また、ユーザーの携帯電話がPS3と対になっている場合(すなわち、デバイス同士がお互いを認識し、ブルートゥースや同様の無線接続が可能な場合)、PS3は、電話ネットワークを通じてコールを開始するよう携帯電話に指示することができる。
【0117】
ウェブアドレスまたは電話番号のいずれかに分類されるわけではないテキストは、Google(グーグル、登録商標)のようなオンライン検索エンジン、あるいはWikipedia(ウィキペディア、登録商標)のような一般の情報データベースに対する引数と考えられる。そこで、PS3のオペレーティングシステムにおいてブラウザを使用することにより、ハイパーテキストリンクに基づいて、テキストが入力引数として与えられたデフォルトのウェブサイトにアクセスするように受像機が動作できる。
【0118】
このような場合、対象とする検索語は複数の単語を含むことが多い。従って、本発明の実施例において、検索語には、共通の連結語および記号によってつなげられた単語のシーケンスが含まれる。例えば、「ウィル・スミスおよびビル・プルマン主演」というテキストからは、「ウィル・スミス」と「ビル・プルマン」という二つの別々の検索引数が作られる。候補となる検索語を分離する単語と記号の例としては、'starring'、'and'、'with'、'by'、'in'、'on'、'at'、記号の、'.'、','、':'、'−'、および、二つ以上のスペースが並んでいる場合などを含むが、これに限られない。従って、PS3プロセッサは、関連する検索エンジン、または他の引数入力ウェブサイトに対してクエリをサブミットするために、有効にフォーマットされたハイパーテキストリンクを生成する。
【0119】
その代わりに、または上記に加えて、PS3のブラウザは、未分類の単語に対応するウェブサイトが存在するかどうかを判定し、存在する場合は、デフォルトの検索ウェブサイトからの結果に加えて、またはその代わりに、このウェブサイトを表示する。例えば、もし図5Aのテレビ画像が単に、「playstation」と示している場合、ブラウザは、「http://www.playstation.com」に接続しようと試みる。接続がうまくいけば、その単語が選択された場合は上記のような表示が行われる。任意に、ウェブサイトは、例えば、.com、.co.uk (国ごとに同等のもの)、 .net および .orgなど、望ましい順にテストしていくことが可能であり、第一番目の有効なウェブサイトが見つかればそれを選択する、または、信頼できる検索エンジンにより提供される最も高いページランクを有する、もしくは他の認可スコアを有するウェブサイトを選択する。単語間のスペースを除くことにより、これと同じ原理を、マルチワード検索にも当てはめることができる(例えば、www.willsmith.com)。
【0120】
水平および垂直スクローリングテキストに対して上記で開示した解析技術もまた、このセルプロセッサによって使用され、認識されたテキストに対するコンテキストを決定し、続いてその選択を行う。具体的には、垂直にスクロールするテキストは、映画またはテレビ番組のクレジットタイトルであると仮定する。その結果、Googleのような一般的な検索エンジンに対して未分類のテキストをサブミットするというよりはむしろ、このコンテキストにおいては、デフォルトで、インターネット・ムービーデータベース(IMDB)のようなメディア指向の検索エンジンに対してテキストをサブミットする。というのは、これによって関連する結果をすばやく提供できる可能性が高いからである。
【0121】
同様に、水平にスクロールするテキストは、ニュースに関連するものであると仮定することが可能であり、Google NewsやReuters(登録商標)などのニュース関連検索エンジンに対して未分類のテキストをサブミットすることができる。
【0122】
大部分が黒い画像内で検出された未分類の静止テキスト、および任意に、局所的に動いている画像における未分類の静止テキストは、テレビまたは映画のクレジットタイトルであると仮定できるので、デフォルトでメディア指向の検索エンジンにサブミットされる。他の静止テキスト(例えば、所定の閾値より上の画像アクティビティスコアを有する静止画像におけるテキスト、または画像の閾値以下の比率が、所定の閾値より低いアクティビティ閾値を有する静止画像におけるテキスト)は、そのまま一般的なテキストと考えられるので、一般の検索エンジンにサブミットされ、およびまたは、上記のように対応するウェブサイトに対してテストされる。
【0123】
それに代えてまたはそれに加えて、画像のコンテキストとそれゆえに認識されるテキストは、対応する電子番組ガイド(EPG)の入力を解析することにより決定してもよい。これは例えば、テキストがメディア関連である可能性を示す「映画」、「コメディ」、もしくは「ドラマ」などの用語、または、テキストがニュース関連である可能性を示す「ニュース」もしくは「レポート」を含む。
【0124】
継続中のまたはバックグラウンドのOCRが実行されている場合には、上記のテキストの構文分析および分類は、たとえ演算オーバーヘッドを増加させることになっても、ユーザーによる選択の前に行うことが可能である。
【0125】
そこで、このような継続中もしくはバックグラウンドのOCRが実行中の場合、当然のことながら、受信した番組情報を増強するために、追加的なコンテキスト情報を使用することもできる。例えば、IMDBにリストされた俳優の写真を自動的に抽出して、判定されたスクロール速度に合わせてクレジットタイトル上に重ねることもできる。
【0126】
同様に、原則として、このテキストから生じるウェブページと検索結果は、バックグラウンドアクティビティとしてロードしバッファすることが可能であり、それによってユーザーが関連するテキストを選択した場合に、ユーザーが迅速に(あるいはより速く)利用することができる。対応するテキストが見えなくなると、バッファされたサイトを終了させることができる。
【0127】
しかしながら、多くのテレビジョン受像機が同時に放送画像を受信したとき、これらのオプションは、ウェブサイトに対して、突然に重たい並列のデマンドを生じさせることになり、インターネットサービスのプロバイダからのユーザーに対するコストがかさむ可能性がある。従って、このような場合、ユーザーがこれらの機能を動作可能にしたり動作不能にしたりすることができる。
【0128】
本発明の一実施例において、PS3 10はその内蔵HDD400を使って番組を録画する。任意に、PS3 10は、自動的に現在表示されている出力を循環バッファに記録する。それによって、もしユーザーが半分まで見終わった番組を録画したいと思った場合、前半はすでにキャッシュされているので、その番組の録画を完成させて従来の方法で格納することにより、番組の完全なコピーを格納することができる。この循環バッファは、ハードディスク・スペースの継続的または非連続なブロックを利用可能に含んでおり、バッファのサイズは、利用可能なHDDスペースに従って、ギガバイトもしくは記録時間という観点でユーザーが定義できる。例えば、USBを介して接続されている外付けハードディスクもまた録画した番組を格納するために使用できる。ハイビジョン放送用には、比較的大きい循環バッファが好ましい。
【0129】
組み合わせて使用する場合、チューナー900とPS3 10は、通常いわゆるパーソナル・ビデオレコーダ(PVR)として動作し、これは、デジタル・ビデオレコーダとして知られている。しかしながら、本発明の他の実施例においては、単一の注文ユニットとして構築されるものであってもよいことはいうまでもなく、この場合、このようなデバイスは、いわゆる「フリービュー」セットトップボックス、あるいは、ケーブルもしくはサテライト・セットトップボックスに表面的に類似するものである。
【0130】
このようなPVR機能が存在するところでは、上記のOCR処理や、結果として生じる認識されたテキストの構文分析、およびハイパーテキストリンクの生成は、放送メディアと同様に、録画されたメディア上でも行うことができる。
【0131】
同様に、PS3のBD−Romドライブ(例えば、DVDやブルーレイ(登録商標)ディスク)上で再生される映画や番組もまた、ここで説明するように処理することができる。
【0132】
従って、これまでに説明したように、本発明の実施例においてテレビジョン受像機は、現在のテレビ放送信号の受信に限られない。
【0133】
ここで図9を参照すると、テレビジョン受像機を動作させる方法は以下のステップを備える。
【0134】
第一のステップs10において、ビデオ画像を受信し(放送、録画、あるいは事前録画)、
第二のステップs20において、光学式文字認識をビデオ画像の一部またはすべてに適用してビデオ画像内のテキストを識別し、
第三のステップs30において、識別されたテキストそれぞれに応じたハイパーテキストリンクを生成し、
任意に、第四のステップs40において、ユーザーインターフェースからの入力を構文解析して、ユーザーがビデオ画像内でテキストを指示できるようにし、
第五のステップs50において、指示されたテキストに対応するハイパーテキストリンクに従い、ネットワークに対する接続を形成する。
【0135】
ここで開示される本発明の実施例において、上記の方法の第四ステップは、第二ステップより先行させることが可能であり、よって順番を厳格に解釈することは推定されていない。
【0136】
上記の装置のさまざまな実施例の動作に該当する上記の方法について変形したものは、本発明の範囲内であると考えられることは当業者にとって明らかであり、これは以下を含むがそれに限られない。
i.インターネットリンクであるハイパーテキストリンク(ハイパーリンク);
ii.ウェブアドレスのすべてあるいは一部であり、よってハイパーテキストリンクのターゲットを決めるために使用される識別されたテキスト;
iii.デフォルトのハイパーテキストのリンクアドレスにサブミットされる引数として使用される識別されたテキスト;
iv.テキストが検出された画像のコンテキストに依存する、デフォルトのハイパーテキスト・リンクアドレス;
v.テキストのスクロール方向に依存するデフォルトのハイパーテキストリンク;
vi.電話番号であるハイパーテキストリンク;
vii.VolPまたは携帯電話との無線リンクのいずれかによりアクセスされる番号;
viii.ユーザーがポインタを使って選択することにより示されるテキスト、あるいは、バックグラウンドOCRが任意に実行されているところでは、識別されたテキストを循環させて示す;
ix.このようなテキストは、ユーザーによる選択のために分離してリストされる;
x.テキストは、放送されたテレビ画像、受像機により録画されたテレビ画像、事前録画メディアから再生されるテレビ画像から取得する。
【0137】
最後に、通常は、信号受信回路と連結したPS3から成るテレビジョン受像機の動作は、主としてセルプロセッサのソフトウェア制御により決定される。
【0138】
従って、従来からある同等の装置内の既存の部品に対する必要な適合化は、プロセッサが実行可能な指示を備えたコンピュータプログラム製品または類似の製造物の形で実施される。このような指示は、フロッピー(登録商標)ディスク、光学ディスク、ハードディスク、PROM、RAM、フラッシュメモリ、これらのものの任意の組み合わせ、あるいは他の記憶媒体等のデータキャリアに格納してもよいし、または、イーサネット(登録商標)(Ethernet(登録商標))、無線ネットワーク、インターネット、あるいは、これらと他のネットワークの組み合わせ等の、ネットワーク上のデータ信号を介して送信してもよいし、または、ASIC(特定用途向けIC)、FPGA(書替え可能ゲートアレイ)、従来の均等装置を採用する場合の使用に適する他の設定可能な回路等のハードウェア上に実現してもよい。
【0139】
参考資料:
i. http://en.wikipedia.Org/w/index.php?title=Automatic_number_plate_recognition &oldid=l 75560491
ii. http://www.omniperception.com/products/magellan
iii. http://www.abbyy.com/company/success_stories.asp?param=35108

【特許請求の範囲】
【請求項1】
テレビジョン受像機であって、
受信したビデオ画像内のテキストを識別する光学式文字認識部と、
識別されたテキスト各々に応じたハイパーテキストリンクを生成するハイパーテキストリンク生成部と、を備え、
該テレビジョン受像機は、該ハイパーテキストリンクに従って、ネットワークに対して接続を形成するよう動作可能であり、
該ハイパーテキストリンクは、識別されたテキスト各々の内容の少なくとも一部を、引数として備えるデフォルトターゲットを有し、
該デフォルトターゲットは、受信したビデオ画像のコンテキストに従って選択される、
ことを特徴とするテレビジョン受像機。
【請求項2】
請求項1に記載のテレビジョン受像機であって、
インターネット通信ポートを備え、
前記ネットワークは、インターネットの一部であり、
前記ハイパーテキストリンクは、インターネットリンクである、
ことを特徴とするテレビジョン受像機。
【請求項3】
請求項1〜2いずれか一つに記載のテレビジョン受像機であって、
前記デフォルトターゲットとコンテキストは、以下から成るリストから、一つまたは複数、選択されるものである、ことを特徴とするテレビジョン受像機:
i.垂直にスクロールするテキストのコンテキストにおいては、映画関連のデフォルトターゲットの選択;
ii.水平にスクロールするテキストのコンテキストにおいては、ニュース関連のデフォルトターゲットの選択;
iii.静止テキストのコンテキストにおいては、一般的な検索のデフォルトターゲットの選択。
【請求項4】
請求項1〜3いずれか一つに記載のテレビジョン受像機であって、
受信したビデオ画像のコンテキストは、対応する電子番組ガイドの入力の中で検出されるキーワードに応じて選択される、
ことを特徴とするテレビジョン受像機。
【請求項5】
請求項1〜4いずれか一つに記載のテレビジョン受像機であって、
ユーザーが、受信したビデオ画像の中でテキストを指示できるような選択インターフェースを備える、
ことを特徴とするテレビジョン受像機。
【請求項6】
請求項5に記載のテレビジョン受像機であって、
前記選択インターフェースは、表示されたテキスト各々と実質的に一致するビデオ画像の対応領域が、ユーザーにより選択された場合に、ハイパーテキストリンクを選択するよう動作可能である、
ことを特徴とするテレビジョン受像機。
【請求項7】
請求項5に記載のテレビジョン受像機であって、
前記選択インターフェースは、受信したビデオ画像と同じディスプレイ上に表示されたウィンドウ内に、ハイパーテキストリンクをリストするよう動作可能である、
ことを特徴とするテレビジョン受像機。
【請求項8】
請求項7に記載のテレビジョン受像機であって、
リストされたハイパーテキストリンクは、受信したビデオ画像内で現在表示されているテキストに応じて、あるいは、ハイパーテキストリンクのリスティングよりも先行した所定の時間内に受信したビデオ画像内で表示されたテキストに応じて、生成されたハイパーテキストリンクである、
ことを特徴とするテレビジョン受像機。
【請求項9】
請求項1〜8いずれか一つに記載のテレビジョン受像機であって、
ビデオレコーダーを備える、
ことを特徴とするテレビジョン受像機。
【請求項10】
請求項1〜9いずれか一つに記載のテレビジョン受像機であって、
受信したビデオ画像は、以下から成るリストから、一つまたは複数、選択されるものである、ことを特徴とするテレビジョン受像機:
i.テレビ放送画像;
ii.テレビジョン受像機のビデオレコーダーにより録画され、その後テレビジョン受像機のメディアプレイヤーにより再生されたビデオ画像;
iii.テレビジョン受像機のメディアプレイヤーにより、読み取り専用媒体から再生されたビデオ画像。
【請求項11】
テレビジョン受像機の動作方法であって、
ビデオ画像を受信するステップと、
該ビデオ画像の一部またはすべてに光学式文字認識を適用し、該ビデオ画像内のテキストを識別するステップと、
識別されたテキスト各々に応じて、ハイパーテキストリンクを生成するステップと、
受信したビデオ画像のコンテキストに従って、デフォルトのハイパーテキストリンクターゲットを選択するステップと、
該デフォルトのハイパーテキストリンクターゲットに従って、ネットワークに対して接続を形成するステップを備え、該デフォルトのハイパーテキストリンクターゲットは、さらに、識別されたテキスト各々の内容の少なくとも一部を引数として備える、
ことを特徴とするテレビジョン受像機の動作方法。
【請求項12】
請求項11に記載の方法であって、
前記ネットワークは、インターネットの一部であり、
前記ハイパーテキストリンクは、インターネットリンクである、
ことを特徴とする方法。
【請求項13】
請求項11に記載の方法であって、
前記デフォルトターゲットとコンテキストは、以下から成るリストから、一つまたは複数、選択されるものである、ことを特徴とする方法:
i.垂直にスクロールするテキストのコンテキストにおいては、映画関連のデフォルトターゲットの選択;
ii.水平にスクロールするテキストのコンテキストにおいては、ニュース関連のデフォルトターゲットの選択;
iii.静止テキストのコンテキストにおいては、一般的な検索のデフォルトターゲットの選択。
【請求項14】
請求項11〜13いずれか一つに記載の方法であって、
受信したビデオ画像は、以下から成るリストから、一つまたは複数、選択されるものである、ことを特徴とする方法:
i.テレビ放送画像;
ii.テレビジョン受像機のビデオレコーダーにより録画されたビデオ画像;
iii.テレビジョン受像機のメディアプレイヤーにより、読み取り専用媒体から再生されたビデオ画像。
【請求項15】
請求項11〜14いずれか一つの方法の各ステップを実施するためのコンピュータプログラムを備えたコンピュータプログラム製品。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公表番号】特表2011−517223(P2011−517223A)
【公表日】平成23年5月26日(2011.5.26)
【国際特許分類】
【出願番号】特願2011−503489(P2011−503489)
【出願日】平成21年3月31日(2009.3.31)
【国際出願番号】PCT/GB2009/000867
【国際公開番号】WO2009/125166
【国際公開日】平成21年10月15日(2009.10.15)
【出願人】(502070679)ソニー コンピュータ エンタテインメント ヨーロッパ リミテッド (40)
【Fターム(参考)】