説明

字幕を組むための方法および装置

【課題】アニメーション性能を改善する拡張されたシンタックス及びセマンティクスの要素を含んだ字幕付けフォーマットによって、使用可能な字幕ビットレートを圧迫することなく字幕の性能を改善する。
【解決手段】放送することのできる又は例えばブルーレイディスクなどの大容量光学媒体に焼き付けることのできる事前記録フォーマットでハイエンドHDTV字幕のコンテンツを制作する場合に、字幕をアニメーション化するために、AV素材とは別個の字幕に関しては、1つ又は複数の重ね合わされた字幕レイヤーを使用し、転送される字幕の選択された部分のみを一度に表示する。さらに、表示される字幕の選択された部分の色を変更、例えば強調表示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば、いわゆるブルーレイディスクのような事前記録フォーマットにおけるHDTV字幕に対して使用しうるオーディオ/ビデオプレゼンテーションのための字幕を組むための方法及び装置に関する。
【背景技術】
【0002】
オーディオ・ビジュアル(AV)素材の字幕付け技術は、最初のセルロイド映画に始まってさらに最近現れたディジタルメディアにまで使用されている。字幕付けの主目的は障害者や少数民族言語集団をサポートすることである。したがって、字幕付けはしばしばピクセルマップのようなグラフィックデータとしてエンコードされている場合でさえテキスト情報の提示を目的としている。したがって、放送用に事前に制作されたAV素材(クローズド・キャプション、テレテキスト、DVB字幕など)及び映画ディスク(DVDサブピクチャ)は主に単純な静的テキスト情報を表す字幕に最適化されている。しかしながら、テキスト情報の提示とアニメーションのためのPCソフトウェア開発における進歩によって、事前記録及び放送に使用されるディジタル字幕付け技術における可能性と機能とに対する需要が相応して生じている。何ら特別な対策なしに直接的なアプローチを用いると、字幕付けに対するこの需要の増大によって、限られた帯域全体のあまりに大きな部分が消費されてしまう。カラオケから本物のアニメーションまでを含む「フル機能搭載」の字幕への相反する要求は、一方では符号化効率であり、他方では字幕著作者のための完全管理である。
【0003】
AV素材に別個の字幕付け情報をディジタル式に付与する今日の技術状況では、2つの主要な手法が存在している:字幕付けはピクセルデータ又は文字データのいずれかに基づいて行うことができる。双方のケースとも、字幕付けスキームは、例えばAV時間軸に沿った字幕付け要素の同期化を処理する全般的なフレームワークを含んでいる。
【0004】
文字データに基づいた字幕付け:
文字ベースの字幕付け手法では、例えば、ヨーロッパのアナログ又はディジタルTVのテレテキストシステムETS 300 706では、ストリングは本質的に非常に多様な効率的な符号化を可能にする文字コード、例えばASCII又はUNICODEのシーケンスで記述される。しかし、文字ストリングからだけでは、字幕ビデオにオーバーレイすべきグラフィック表示に字幕を変換することはできない。このためには、目的の文字セット、フォント、及び、いくつかのフォントパラメータ、とりわけフォントサイズを、字幕ビットストリーム内で明示的に符号化するか、又は適切に定義された字幕付けのコンテキストにおいてこれらに関する暗黙の仮定をしなければならない。また、この手法でのいずれの字幕付けも、使用中の特定のフォントの文字及びシンボルで表現しうるものに限定されている。「文字オブジェクト」モードにおけるDVB字幕付け規格ETS 300 743は、文字ベースの字幕付けの別の従来技術の一例である。
【0005】
ピクセルデータに基づいた字幕付け:
ピクセルベースの字幕付け手法では、字幕付けフレームは、直接AVスクリーン上のピクセル値の(一般には矩形の)領域として記述されたグラフィック表示の形式で搬送される。ビデオに重ね合わされる字幕付け面において何かを可視にする場合には、そのピクセル値を符号化し、適切な同期化情報とともに字幕付けビットストリームに供給しなければならない。したがって、フル機能搭載の字幕アニメーションの場合には、変化したすべてのピクセルをトランスポートしなければならない。明らかに、フル機能搭載のテレテキストアニメーションに固有のいずれかの制限を取り除く場合には、ピクセルベースの手法は字幕付けデータのための帯域が著しく増大するという不利益を有している。ピクセルベースの字幕付けスキームの例は、ETS 300 743において規格化されているDVB字幕付けの「ピクセルオブジェクト」構想と同様に、DVDのサブピクチャ構想「再生専用ディスク向けのDVD規格」、第3部:ビデオにも見られる。
【発明の概要】
【0006】
本発明の要点は、アニメーション性能を改善する拡張されたシンタックス及びセマンティクスの要素を含んだ字幕付けフォーマットである。開示される要素は使用可能な字幕ビットレートを圧迫することなく字幕の性能を改善する。これは、放送することのできる又は例えばブルーレイディスクなどの大容量光学媒体に焼き付けることのできる事前記録フォーマットでハイエンドHDTV字幕のコンテンツを制作する場合に不可欠となる。本発明は、字幕をアニメーション化するためにコンテンツ制作の開発可能性を改善する能力を含んでいる。
【0007】
表示するグラフィックスの一部に対する色変更を記述するシンタックス及びセマンティクスの要素が開示によって導入される。これは、例えばカラオケのような用途におけるハイライト効果に使用することができ、ピクセルデータの反復転送を回避する。
【0008】
シンタックス及びセマンティクスの他の開示要素は、字幕の一部を表示前にクロッピングする能力を向上させる。表示するオブジェクトに関するクロッピングパラメータを後で転送する技術を用いることによって、ビットを節約した字幕アニメーションが得られる。このようなクロッピングパラメータは、例えば、ワイピングボックス、ブラインド、スクロール、ワイプ、チェッカーボックスなどによってテキストの変更を生じさせるために使用することができる。
【0009】
さらに、開示要素はテキスト及びグラフィック情報に関する対話機能の提供に使用することができる。特に、字幕の位置決め及び/又は色設定をユーザのリクエストに基づいて操作することができる。
【図面の簡単な説明】
【0010】
本発明の実施例を添付した図面及び表を参照して説明する。
【図1】拡張PCS及びRCSのためのsegment_type値を示す。
【図2】拡張ページ構成セグメントを示す。
【図3】拡張領域構成セグメントを示す。
【図4】字幕領域とページ内でのその位置の定義の例を示す。
【図5】領域sub−CLUTの定義と領域クロッピングの例を示す。
【図6】結果として生じるディスプレイの例を示す。
【図7】字幕のインタラクティブな使用を示す。
【図8】ビデオ及びグラフィックス面を示す。
【図9】ビデオ及びグラフィックスのミキシング及びスイッチングを示す。
【発明を実施するための形態】
【0011】
実施例
本発明は好適にはDVB字幕規格(DVB−ST)のシンタックス及びセマンティクスに基づいて実施される。グラフィック字幕要素の操作性能を改善するため、DVB−STのページ構成セグメント(PCS)及び領域構成セグメント(RCS)のセマンティクスが拡張される。
【0012】
DVB−STはディスプレイスクリーン上の1つ又は複数の矩形領域の位置を記述するためにページ構成セグメント(PCS)を使用する。領域構成セグメント(RCS)はこのような矩形エリアのサイズを定め、中で使用されているカラールックアップテーブル(CLUT)を識別するために使用される。
【0013】
提案する発明は、DVB−STによるセグメントタイプ値と拡張PCS及び拡張RCSに対する付加的な値とを示す図1に列挙されているように、拡張PCS要素と拡張RCS要素とでは異なるsegment_typeを用いて後方互換性を維持する。代わりに、他の値を選択することも可能である。後方互換性を保つ別の手法は、既存のsegment_typeを維持し、例えばPES_data_field構造内のsubtitle_stream_idをインクリメントすることにより規格のversion_numberを上げることである。
【0014】
図2は、region_croppingセクションとregion_sub_CLUTセクションとを含んだ拡張ページ構成セグメント(PCS)のデータ構造を示している。図3は、サブカラールックアップテーブルの識別子sub_CLUT_idを含んだ拡張領域構成セグメント(RCS)のデータ構造を示している。オリジナルのDVB−STに関しては、すべての構成が拡張されている。テーブル内で、追加エントリは図2では行15−28であり、図3では行16である。
【0015】
図2に示されている拡張PCSは、列挙されたすべての領域について、領域クロッピングに関するオプショナルな情報とregion_sub_CLUTに関するオプショナルな情報とを持っている。region_croppingとregion_sub_CLUTの2つの値は、プロセス中の現在領域についてこのようなオプショナルな情報が利用できるか否かを示す。したがって、クロッピングとsub−CLUTはすべての領域の各々について別個に定義されうる。”if region_cropping==0x01”により示されているように、region_croppingがフラグとして使用される一方で、region_sub_CLUTは記述されているsub−CLUT位置がいくつあるかを表す値を示す。これはストリーム内で異なる選択肢を提供するために行われる。択一的なsub−CLUT位置は、ディスプレイスクリーンに対して異なるメニューボタン位置を定めるために使用することができる。それらのうちの1つだけ−第1のものはデフォルト−がアクティブであり、ユーザは、予め決められた種々の位置を巡回するために、例えばリモコンを押して位置を変更することができる。
【0016】
図3に示されている拡張RCSは、この領域に適用されるCLUTの族(family)を識別するsub_CLUT_idを持っている。これは異なる領域及び異なる領域のsub−CLUTに対してCLUTを再利用するために行われる。拡張PCS要素と拡張RCS要素は、符号化方法とは無関係に、すなわち、文字データとして符号化されるのか又はピクセルデータとして符号化されるのかとは無関係に字幕を操作することのできる能力を提供する。
【0017】
拡張PCS及びRCSは字幕に対して多くの異なるアニメーション効果を行うために使用することができる。これらはワイピングボックス、ブラインド、スクロール、ワイプ、チェッカーボックスなどである。以下の図はカラオケ用途の例を示している。図4はカラオケ用に表示された歌詞を含む領域Rの定義を示している。字幕の文字はピクセルデータとして又は文字データとして符号化しうる。region_vertical_address RVAとregion_horizontal_address RHAは、フレーム又はページPG内に表示する字幕の位置を定める。
【0018】
図5の上部は領域クロッピングを示しており、下部は領域sub−CLUTの位置を示している。領域クロッピングは領域のどの部分が有効に表示されるかを定める。これは開始座標と表示する断片のサイズとを示す4つのパラメータRHC,RVC,RCH,RCWにより行われる。region_horizontal_cropping RHCはこのクロッピングの左上ピクセルの水平アドレスを指定し、region_vertical_cropping RVCはこのクロッピングのトップラインの垂直アドレスを指定し、region_cropping_width RCWはこのクロッピングの水平方向の長さを指定し、region_cropping_height RCHはこのクロッピングの垂直方向の長さを指定する。ここで、クロッピングとは、ディスプレイ上で可視である字幕部分を意味する。
【0019】
図5の下部に示された領域sub−CLUTの位置は、領域CLUTとは異なるカラールックアップテーブル(CLUT)を用いて領域のどの部分が表示されるべきかを定める。これは、開始座標とsub−CLUTにより使用される部分領域の大きさとを示す4つのパラメータSCHA,SCVA,SCH,SCWにより行われる。すべての座標パラメータはsub−CLUTが属する領域に関するものとして理解されなければならない。sub−CLUT_horizontal_address SCHAはこのsub−CLUTの左上ピクセルの水平アドレスを指定し、sub−CLUT_vertical_address SCVAはこのsub−CLUTのトップラインの垂直アドレスを指定し、sub−CLUT_width SCWはこのsub−CLUTの水平方向の長さを指定し、sub−CLUT_height SCHはこのsub−CLUTの垂直方向の長さを指定する。
【0020】
今までの図で定義されたすべてのパラメータをまとめると、図6に示されているような字幕が表示される。字幕の全体がディスプレイに表示されるのではなく、字幕のクロッピングされた部分だけが表示される。さらに、ハイライトHTを提供するためにsub−CLUTが使用されており、それによりユーザは今何を歌えばいいのかを知ることができる。
【0021】
拡張PCSは、プレゼンテーション・タイム・スタンプ(PTS)によりラベル付けされたMPEGパケットエレメンタリストリーム(PES)パケット内で送られるので、いずれの効果もAVに同期させることができる。
【0022】
本発明の別のアイデアはユーザによる字幕アニメーションパラメータの取り替えである。これはインタラクティブな字幕を実現する1つの方法を提供する。拡張PCSパラメータはデフォルトとして転送され、ユーザは例えばリモコンを介してこれらを変更するものとする。したがって、ユーザは字幕を動かす、クロッピングする、又は強調表示することができる。
【0023】
これは字幕テキストのユーザ定義による位置替えにとって有利であり、その結果ユーザは動画ビデオのトップに字幕テキストが配置されることによる不快感を主体的に最小化することができる。また、字幕の色はユーザの好みに応じて設定してもよい。図7はインタラクティブな字幕の変更のためのブロック図を示している。ディスクDから読み取ったデフォルトパラメータDDは取り替えデータSDによって取り替えられる。この取り替えデータSDは、ユーザアクションUAに応じて生成され、プロセッサPにより処理されるものである。
【0024】
位置、クロッピング矩形、CLUT、及びsub−CLUTのような字幕アニメーションパラメータのオーバーライドの別用途は、非常に基本的な種類のインタラクティブゲームの実現である。字幕はアニメーション化された文字のピクセルデータを担うものとする。この文字はつづいてディスプレイスクリーン上でユーザインタラクション、プログラムコントロール、又はその両方によって動かされる。
【0025】
字幕アニメーションパラメータのオーバーライドは少なくとも2つのやり方で実施することができる。第1のオプションは、オーバーライドパラメータSDがビットストリームで送られるパラメータDDに取って代わるというものである。第2のオプションは、オーバーライドパラメータSDがビットストリームで送られる字幕アニメーションパラメータDDに加えられる又はこのパラメータDDから差し引かれるオフセットとして使用されるというものである。拡張PCS及びRCSはここでは説明しないさらに多くのアニメーション能力を提供する。以下はその例の非網羅的なリストである:各個には、ワイピングボックス、ブラインド、スクロール、ワイプ、チェッカーボックス。
【0026】
例示的なビデオ及びグラフィックス面が図8に例示的、概略的に示されている。背景はMPEG−2ビデオレイヤーMVL又は静止画レイヤーSPLのいずれかによって提供される。これらは相互に排他的である。このことは、これらの両方を一度にバッファに保持しなくてもよいということを意味している。次の2つのレイヤーは字幕レイヤーSLとAV syncタイプのグラフィックスレイヤーAVSGLとを備えている。これら2つのレイヤーはこの例では交換可能である。このことは、字幕レイヤーSL又はAV syncタイプのグラフィックスレイヤーAVSGLのいずれかが他方に対して優先権を有していることを意味している。フロントレイヤーは非AV syncグラフィックスレイヤーNAVSGLであり、例えばメニューや他のオンスクリーンディスプレイのようなAVコンテンツと同期させる必要のないグラフィックスを含んでいる。本発明の方法は好適には字幕レイヤーSL、AV syncグラフィックスレイヤーAVSGL及び/又は非AV syncグラフィックスレイヤーNAVSGLに対して使用することができる。
【0027】
図9は、ビデオ及びグラフィックスのミキシング及びスイッチングのための装置の該当するコンポーネントを示している。静止画データ又はMPEG−2ビデオデータのいずれかを含むデータ、字幕用の別のデータ、アニメーション用のデータ、及びメニューボタンのような非AV syncグラフィックス用のデータは、ディスクDから取り出される。付加的に又は択一的に、字幕、アニメーション、及び/又は非AV syncグラフィックス用のデータをネットワークNW、例えばインターネットから取り出すようにしてもよい。処理ユニットCPUは非AV syncグラフィックスデータを処理し、その結果のデータを非AV syncグラフィックス用のレンダリング装置RNAVGに送信する。
【0028】
装置は静止画デコーダSPDecとMPEG−2ビデオデコーダMVDecを有しているが、これらのうちの一方しか一度には使用できないため、どのデータをさらなる処理に使用するかをスイッチs1が選択するものとする。さらに、字幕及びアニメーションデータをデコードするために、同一の2つのデコーダAVSGDec1,AVSGDec2が使用される。これら2つのデコーダAVSGDec1,AVSGDec2の出力は、独立したスイッチs2,s3によってミキサMXへ切り替えられるか、又は事前処理のためにミキサ/スケーラMXSへ切り替えることができる。ミキサ/スケーラMXSは結果データを前記ミキサMXに出力する。これら2つのユニットMX、MXSはそれらの種々の入力データの重ね合わせを実行するために使用され、そのようにしてレイヤーの表示順序を制御する。ミキサMXはフロントレイヤーf2、ミドルフロントレイヤーmf、ミドルバックレイヤーmb、及び背景レイヤーb2のための入力を有している。フロントレイヤーf2は、対応するスイッチs3が第2のAV syncグラフィックスデコーダAVSGDec2をミキサ/スケーラMXSに接続する位置にある場合には、使用されないものとする。このユニットMXSはフロントレイヤーf1、ミドルレイヤーm、及び背景レイヤーbのための入力を有している。このユニットはこれらのデータを相応して重ね合わせ、その結果の画像データをミキサMXの背景入力b2に送信する。したがって、これらのデータは、例えば、画像の3つまでのレイヤーと字幕とを備えるフレームを表す。これらのレイヤーと字幕はスケーリングされ、最終的な画像の中でともに移動させることができる。ミキサ/スケーラMXSの背景入力b1は上記のスイッチs1に接続されているため、背景は静止画又はMPEG−2ビデオから生成することができる。
【0029】
第1のAV syncグラフィックスデコーダAVSGDec1の出力は第2のスイッチs2に接続されており、この第2のスイッチs2は第1のAV syncグラフィックスデコーダAVSGDec1の出力をミキサ/スケーラMXSのミドルレイヤー入力mへ又はミキサMXのミドルバックレイヤー入力mbへ切り替えるものとする。第2のAV syncグラフィックスデコーダAVSGDec2の出力は第3のスイッチs3に接続されており、この第3のスイッチs3は第2のAV syncグラフィックスデコーダAVSGDec2の出力をミキサ/スケーラMXSのフロントレイヤー入力f1へ又はミキサMXのフロントレイヤー入力f2へ切り替えるものとする。
【0030】
第2及び第3のスイッチs2,s3の位置に応じて、第1又は第2のAV syncグラフィックスデコーダAVSGDec1,AVSGDec2のいずれかの出力は、上で説明したように、他方に対して優先権を持つものとする。第1のデコーダAVSGDec1からのデータを前景にするためには、第2のスイッチs2が字幕データをミキサMXのミドルバック入力mbにルーティングし、その一方で、第3のスイッチs3がアニメーショングラフィックスデータをミキサ/スケーラMXSのフロント入力f1にルーティングすることにより、アニメーショングラフィックスデータがミキサMXの背景入力b2に終着するようにする。そうではなく、第2のデコーダAVSGDec2からのデータを前景にするためには、図9に示されているように、スイッチs2,s3がそれらの出力を同じユニット、すなわち、ミキサ/スケーラMXS又はミキサMXのいずれかにルーティングするようにする。

【特許請求の範囲】
【請求項1】
ビデオ及び字幕の情報を含んだデータストリームが記憶媒体から転送されるビデオプレゼンテーションのための字幕を組む方法であって、
前記記憶媒体から、グラフィックの字幕要素と第1のカラールックアップテーブルのためのデータを含む字幕レイヤーデータを取り出すステップと、
前記取り出した字幕レイヤーデータからクロッピングフラグと字幕レイヤーのピクセルのアドレスとを含むクロッピング情報を抽出するステップと、
前記クロッピングフラグの値により、表示される前記字幕要素の部分のクロッピングを可能とするステップであって、当該クロッピングされる部分は前記クロッピング情報により特定され、当該クロッピングされる字幕要素の部分だけが表示可能とされるステップと、を備え、
前記第1のカラールックアップテーブルは、前記字幕要素のクロッピングされる部分を表示するために使用される、前記方法。
【請求項2】
ビデオ及び字幕の情報を含んだデータストリームが記録された記憶媒体であって、
前記記録されたデータストリームは、
前記記憶媒体から、グラフィックの字幕要素と第1のカラールックアップテーブルを含む字幕レイヤーデータを取り出すステップと、
前記取り出した字幕レイヤーデータからクロッピングフラグと字幕レイヤーのピクセルのアドレスとを含むクロッピング情報を抽出するステップと、
前記クロッピングフラグの値により、表示される前記字幕要素の部分のクロッピングを可能とするステップであって、当該クロッピングされる部分は前記クロッピング情報により特定され、当該クロッピングされる字幕要素の部分だけが表示可能とされるステップと、を含み、前記第1のカラールックアップテーブルは、前記字幕要素のクロッピングされる部分を表示するために使用される、方法によって再生し得る、前記記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−172221(P2011−172221A)
【公開日】平成23年9月1日(2011.9.1)
【国際特許分類】
【出願番号】特願2011−27082(P2011−27082)
【出願日】平成23年2月10日(2011.2.10)
【分割の表示】特願2010−246003(P2010−246003)の分割
【原出願日】平成15年11月3日(2003.11.3)
【出願人】(501263810)トムソン ライセンシング (2,848)
【氏名又は名称原語表記】Thomson Licensing 
【住所又は居所原語表記】1−5, rue Jeanne d’Arc, 92130 ISSY LES MOULINEAUX, France
【Fターム(参考)】