説明

再生装置及びその制御方法及びプログラム

【課題】階層符号化映像データと、階層符号化映像データの特定の符号化階層に対応付けられた音声データとの再生において、音声データが対応付けられていない符号化階層の映像を再生する場合でもユーザに臨場感を与える音声再生を行う。
【解決手段】階層符号化映像データと、当該階層符号化映像データの所定の符号化階層に対応付けられた音声データとを受信し、当該階層符号化映像データの複数の符号化階層のうち、音声データが対応付けられている音声対応符号化階層を特定する。そして、音声対応符号化階層の復号映像の画角に対する、再生する符号化階層の復号映像の画角の比を算出し、予め記憶された音声補正量にさらに乗ずることにより、得られた新たな音声補正量を用いて音声データを補正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一つの映像ストリームデータ中に複数の解像度や画角の映像が階層符号化されている階層符号化映像データと、及び当該階層符号化映像データのある符号化階層に対応する音声データとの再生技術に関する。
【背景技術】
【0002】
近年、地上デジタル放送において、MPEG2−Video符号化方式にて符号化された解像度720×480ピクセルや1440×1080ピクセルの映像が放送されている。地上デジタル放送は、携帯電話などの携帯機器向けにもワンセグメント放送として、H.264/AVC(Audio Visual Coding)符号化方式にて符号化された320×240ピクセルの映像が別ストリームで放送されている。
【0003】
一方、H.264/AVCの拡張として、映像ストリームデータ中に複数の解像度の映像を符号化可能な、H.264/SVC(Scalable Video Coding)技術が規格化されている。H.264/SVC規格では、例えば320×240、720×480、1440×1080ピクセル等の解像度が異なる複数の映像を、異なる符号化階層(レイヤとも呼ぶ)として1つの映像ストリームデータの中に階層符号化している。このように異なる解像度の映像を1つのストリームデータの中に符号化することで、別々の映像ストリームを伝送する場合に比べて効率よく圧縮・伝送することができる。
【0004】
またH.264/SVC規格では、画角が異なる複数の映像を、1つの映像ストリームデータの中に符号化することも可能である。例えば、サッカーグラウンド全体を映した全景映像と、当該全景映像中のサッカー選手の領域だけを映した特定領域映像とが、それぞれ異なるレイヤに階層符号化される。そして再生時にレイヤを選択的に復号することで、視聴中の映像の画角変更や、表示装置の表示解像度及び表示アスペクト比に適した映像を再生することが可能となる。
【0005】
このように、H.264/SVC規格を用いることで、地上デジタル放送とワンセグメント放送のように異なるストリームで映像を伝送することなく、1つの映像ストリームデータの伝送で複数の種類の表示装置に対応可能となる。即ち、伝送帯域の効率化や、複数の映像サイズや画角がユーザによって選択可能とするサービス提供が図れるため、将来H.264/SVC規格のような階層符号化映像データがテレビ放送に利用されることが想定される。
【0006】
なお、テレビ放送に階層符号化映像データを利用する場合であっても、音声ストリームデータは現在の放送と同様に、1つの音声ストリームデータのみを有することが考えられる。上述したように、階層符号化映像データを用いることによりユーザはレイヤを選択して視聴する映像の画角を変更することが可能であるが、ある1つの符号化階層に対応付けられた音声ストリームデータのみが提供される場合は次のような問題が生じる。即ち、映像の画角が変更されても再生される音声ストリームデータは変化しないため、画角変更によってユーザに臨場感を与える効果が低いという問題である。
【0007】
特許文献1には、映像の一部を拡大することにより画角の変化が生じた場合に、映像の切り出しサイズや位置に応じて音声の音像定位を変更することにより、ユーザに臨場感を与える技術が開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開平2004−336430公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、特許文献1では、階層符号化映像データのような、複数の画角の映像が階層符号化された映像データの再生について考慮されていなかった。複数の画角の映像が階層符号化された映像ストリームデータに対し、1つのレイヤ(即ち、1つの画角)に対応した音声ストリームデータのみが与えられる場合、従来のように映像と音声が1対1に対応して与えられる場合とは異なる処理が必要となる。例えば、サッカー中継の映像コンテンツにおいて、グラウンド全体の映像と、グラウンドの一部注目領域映像が映像ストリームデータに階層符号化されており、1つの音声ストリームデータが一部注目領域の映像のレイヤに対応している場合を想定する。このような場合に従来技術のようにグランド全体の映像のレイヤに音声ストリームが対応しているものとして処理してしまうと、一部注目領域の映像が選択された際に、必要のない音声補正処理が適用されてしまう。
【0010】
また、階層符号化された映像ストリームデータには、解像度は同一で画角が異なる複数の映像が含まれる場合もあるが、特許文献1ではこのような場合について考慮されていない。
【0011】
本発明は、上述の問題点に鑑みてなされたものである。即ち、階層符号化映像データと、階層符号化映像データの特定の符号化階層に対応付けられた音声データとの再生において、音声データが対応付けられていない符号化階層の映像を再生する場合でもユーザに臨場感を与える音声再生を行うことを目的とする。
【課題を解決するための手段】
【0012】
前述の目的を達成するために、本発明の再生装置は、以下の構成を備える。
符号化階層を選択して復号することにより、符号化階層ごとの復号映像を得ることが可能な階層符号化映像データと、当該階層符号化映像データの所定の符号化階層に対応付けられた音声データとを再生する再生装置であって、階層符号化映像データ及び音声データを受信する受信手段と、受信手段により受信された階層符号化映像データが有する複数の符号化階層のうち、音声データが対応付けられている音声対応符号化階層を特定する特定手段と、複数の符号化階層のそれぞれを復号した場合に得られる復号映像の画角の情報を取得する取得手段と、複数の符号化階層のうち、選択された1つの符号化階層を復号する映像復号手段と、音声データを復号する音声復号手段と、選択された1つの符号化階層が音声対応符号化階層でない場合、音声対応符号化階層の復号映像の画角に対する、映像復号手段により復号された復号映像の画角の比を用いて、音声復号手段が復号した音声を補正する補正手段と、映像復号手段により復号された復号映像と、補正手段により補正された音声とを再生する再生手段と、を備えることを特徴とする。
【発明の効果】
【0013】
このような構成により本発明は次の効果を奏する。階層符号化映像データと、階層符号化映像データの特定の符号化階層に対応付けられた音声データとの再生において、音声データが対応付けられていない符号化階層の映像を再生する場合でもユーザに臨場感を与える音声再生を行うことを可能とする。
【図面の簡単な説明】
【0014】
【図1】実施形態に係るセットトップボックスの機能構成を示したブロック図。
【図2】セットトップボックスの音声補正制御部の機能構成を示すブロック図。
【図3】コンテンツデータの構成を説明するための図。
【図4】コンポーネント記述子を説明するための図。
【図5】付加情報データを説明するための図。
【図6】実施形態における音声補正制御処理のフローチャート。
【図7】音声補正量情報テーブルの構成例を示した図。
【図8】階層符号化映像データの各符号化階層が表現する復号映像を説明するための図。
【発明を実施するための形態】
【0015】
以下、本発明の好適かつ例示的な一実施形態について、図面を参照して詳細に説明する。なお、以下に説明する一実施形態は、再生装置の一例としての、階層符号化映像データと当該階層符号化映像データの1つの符号化階層に対応付けられた音声データとを再生可能なセットトップボックスに、本発明を適用した例を説明する。しかし、本発明は、階層符号化映像データと、当該階層符号化映像データの所定の符号化階層に対応付けられた音声データとを再生可能な任意の機器に適用可能である。
【0016】
本実施形態では、後述するように、再生装置で再生される際に初期状態で選択される階層符号化映像データの符号化階層(default_layer)が予め定められている。音声データは、階層符号化映像データの複数の符号化階層のうち、当該初期状態で選択される符号化階層に対応づけられているものとして説明する。上述の通り、符号化階層ごとに映像が符号化されており、ある符号化階層を復号することにより、対応する解像度と画角の復号映像が得られる。
【0017】
なお、以下の説明では階層符号化方法の一例としてH.264/SVC規格を想定している。当該規格では、ある符号化階層を復号する場合、それより下位の符号化階層のデータを利用する場合がある。以下の説明において、ある符号化階層を最上位階層として復号するとの記載はこのような場合を想定したものである。しかしながら、本明細書において「ある符号化階層を復号する」とは、最終的にその符号化階層の復号映像を得ることであり、復号の過程で他の符号化階層のデータを用いるかどうかは本発明とは無関係である。従って、本発明は特定の階層符号化方法に限定されないことに留意されたい。
【0018】
なお本実施形態において、音声データは、階層符号化映像データのある符号化階層に対応付けられている。そして音声データは、当該音声データが対応付けられている符号化階層を復号して得られる映像に対応した位置で収録されているものとする。つまり、被写体までの距離が50mの位置で撮影された等倍映像に対して音声データが対応付けられている場合は、その音声データは、映像の撮影時、人間がその撮影位置(被写体までの距離が50m)において実際に聞こえる音声に相当するものである。なお、ある位置で撮影した等倍映像とは、その位置における人間の視野に等しい映像である。例えば、カメラが望遠レンズなど、人間と異なる画角を有するレンズで撮影する場合、撮影された映像を人間の画角に等しい画角のレンズで撮影するためのカメラ位置(換算撮影位置)が、望ましい音声データ音声収録位置である。このように、本実施形態においては、被写体から100m離れた位置で収録された音声が、被写体までの距離が10mに相当するように撮影された復号映像に対応付けられることはないことを想定している。なお、撮影位置(換算撮影位置を含む)と音声収録位置は同一位置であることが望ましいが、本実施形態では音声収録位置が撮影位置と異なっていても、被写体までの距離が同一であれば、撮影位置で聞こえる音声とほぼ同じ音声の収録できるものとして説明を行う。
【0019】
なお、以下の説明では、音声データが対応付けられている符号化階層を音声対応符号化階層と称し、音声データが対応づけられていない符号化階層と区別する。また、以下の説明では、階層符号化映像データ、音声データ及び付加情報データを含んだデータストリームをコンテンツデータと呼ぶ。コンテンツデータからは、符号化階層それぞれについて得られる復号映像の画角や解像度の情報が取得できるものとする。
【0020】
図1は、本発明の実施形態に係るセットトップボックスの機能構成を示すブロック図である。セットトップボックス100は、再生制御部101、コンテンツ取得部102、コンテンツ解析部103、映像処理部104、音声処理部105、操作受信部106、音声補正制御部107、及び音声出力調整部108を備える。セットトップボックス100には、電波及びネットワークで伝送されるコンテンツデータが、アンテナ入力やネットワーク入力より入力される。
【0021】
コンテンツ取得部102は、再生制御部101からの指示により、電波及びネットワークで伝送された信号に復調処理及び誤り訂正処理を適用し、受信したコンテンツデータを、コンテンツ解析部103に出力する。
【0022】
コンテンツ解析部103は、再生制御部101からの指示により、コンテンツ取得部102から入力されたコンテンツデータを解析する。そして、コンテンツ解析部103はコンテンツデータ内に多重化されている階層符号化映像データ、音声データ、及び付加情報データを分離する。コンテンツ解析部103は、分離した階層符号化映像データを映像処理部104に、音声データを音声処理部105に、付加情報データを再生制御部101に出力する。
【0023】
映像処理部104は、再生制御部101からの再生指示により、再生指示された符号化階層を最上位階層として、階層符号化映像データの複数の符号化階層を選択的に復号し(映像復号)、得られた復号映像を外部接続された表示装置(ディスプレイ)に出力する。
【0024】
音声処理部105は、再生制御部101からの再生指示により、コンテンツ解析部103で分離され、音声処理部105に入力された音声データを復号し(音声復号)、得られた音声を音声出力調整部108に出力する。
【0025】
音声出力調整部108は、音声補正制御部107からの音声出力制御指示により、音声処理部105で出力された音声のサラウンドや低音高音などの音質調整や、LRなど各音声出力チャンネルの音像定位の補正処理を行う。そして音声出力調整部108は補正した音声を、外部接続された音声出力装置(スピーカ)に出力する。
【0026】
操作受信部106は、例えば赤外線受信ユニットであり、ユーザによって操作された不図示のリモートコントローラからのリモートコントローラ信号(キーコードデータ)等のユーザ操作信号を受信する。そして操作受信部106は、受信したユーザ操作信号を解析して操作された内容を再生制御部101に出力する。具体的には、操作受信部106は、ユーザ操作信号を、例えば再生開始、階層符号化映像データの各階層選択情報などの再生制御に関する信号に変換して、再生制御部101へ出力する。
【0027】
再生制御部101は、操作受信部106から入力された再生制御信号に応じて、コンテンツ取得部102へコンテンツデータ受信指示を行う。さらに再生制御部101は、コンテンツ解析部103へ、コンテンツ取得部102から入力されるコンテンツデータの解析指示を行い、コンテンツ解析部103が解析した付加情報データを取得する。また、再生制御部101は、コンテンツ解析部103から入力された付加情報データと操作受信部106から入力された再生制御信号に応じて、復号する階層符号化映像データの符号化階層、及び音声データを決定する。そして再生制御部101は、コンテンツ解析部103へ再生を行う復号映像及び音声をそれぞれ映像処理部104、音声処理部105に指示する。その後再生制御部101は、映像処理部104へ決定した復号する符号化階層の復号映像の再生指示を行う。
【0028】
また再生制御部101は、コンテンツ解析部103から入力される付加情報データと操作受信部106から出力された再生制御信号に応じて、音声処理部105へ音声データの復号及び再生指示を行う。再生制御部101は、コンテンツ解析部103から入力される付加情報データと操作受信部106から出力された再生制御信号に応じて、音声補正制御部107に付加情報データとあわせて音声補正指示を出力する。
【0029】
音声補正制御部107は、再生制御部101から入力された付加情報データと音声補正指示に応じて、音声再生に係るサラウンドや低音高音等の音質調整や、各音声出力チャンネルの音像定位の補正量を決定し、音声出力調整部108へ音声出力調整の指示を行う。
【0030】
ここで図2を用いて、セットトップボックス100における音声補正制御部107で行う処理をさらに詳細に説明する。音声補正制御部107は、映像音声対応判定部201、再生映像画角比判定部202、音声補正量決定部203、及び音声補正情報保持部204を備える。
【0031】
映像音声対応判定部201には、再生制御部101から再生状態、及び階層符号化映像データの各符号化階層の構造情報を含む付加情報データ等の、再生制御に関する情報が入力される。映像音声対応判定部201は、入力された各符号化階層の構造情報を元に、音声データがどの符号化階層に対応付けられているかの特定を行う。そして映像音声対応判定部201は、再生映像画角比判定部202へ特定した音声対応符号化階層、及び再生付加情報データ内の各符号化階層の情報を出力する。
【0032】
再生映像画角比判定部202は、音声対応符号化階層の復号映像と、再生を行う符号化階層の復号映像との画角の比を算出し、その算出結果を音声補正量決定部203へ出力する。
【0033】
音声補正量決定部203は、再生映像画角比判定部202で算出された画角の比を用いて、音声出力調整部108に指示する音声データの音声補正量を決定する。具体的には、音声補正量決定部203は、コンテンツデータのジャンルに応じた音声補正情報テーブルを保持している音声補正情報保持部204を参照し、受信しているコンテンツデータのジャンルに対応する音声補正量を取得する。そして音声補正量決定部203は、音声補正情報保持部204から取得した音声補正量に画角の比を乗じて得られた音声補正量を、音声出力調整部108に出力する。
【0034】
図3は、図1に示したコンテンツ取得部102から出力される、階層符号化映像データを含んだコンテンツデータの構成例を示す図である。ここでは、IEC(International Electro-technical Commission、国際電気標準会議)、IEEE(Institute of Electrical and Electronic Engineers、電気電子学会等により規定されているTS信号として構成される例を示している。
【0035】
図3に示すように、コンテンツ取得部102が受信する信号には、複数のTSパケットが時分割多重されてTS信号が構成されている。階層符号化映像データのvideo部、音声データのaudio部、及び付加情報データのdata部は、それぞれTSパケット単位で受信される。コンテンツ解析部103は、このようなTS信号データの解析を行い、それぞれvideo部、audio部、及びdata部に分離し、video部を映像処理部104に、audio部を音声処理部105に出力する。またコンテンツ解析部103は、video部、audio部、及びdata部の解析結果を再生制御部101に出力する。
【0036】
ここで、複数のdata部を収集して再構成される管理情報テーブルは、PAT(Program Association Table)、PMT(Program Map Table)、EIT(Event Information Table)、NIT(Network Information Table)等で構成される。EITは受信中の番組及びその後の番組編成を示すものであり、最初の部分に、テーブルID、サービスID、イベントID、番組の放送開始時刻、放送継続時間等が記述された後に、いくつかの記述子が配置される。
【0037】
コンテンツ解析部103では、このEITの情報を元にどのような番組を受信しているのかの解析を行う。ここで、このEIT情報を元に、受信しているコンテンツデータが表示領域変更可能番組であるかどうか、及びどのような表示領域選択が可能であるかの判定に関係がある、基本データ(フィールド)情報、及び各種記述子について説明する。
【0038】
まずテーブルIDは、情報がEITであることを識別する情報である。またテーブルIDに続いて記述されているイベントIDより、番組を識別することが可能である。また、その番組毎に開始時刻とその番組の放送継続時間が記述されており、その開始時間+継続時間から、いつ番組が終了するかを判定可能である。
【0039】
またEITに含まれる記述子について、以下に説明する。記述子としては、例えば映像の解像度及びアスペクトの情報等を示すコンポーネント記述子、番組名を示す単形式イベント記述子、番組の続きがどのサービスで放送されるかといったイベントリレー情報が記述されたイベントグループ記述子等がある。図3に示したコンテント記述子には、番組のジャンルとして、「報道」、「スポーツ」、「ドラマ」、「映画」、「バラエティ」、「教養」等が記述されている。
【0040】
図4は、上述したコンポーネント記述子を用いて階層符号化映像データの符号化階層情報を記述した付加情報データの例である。
コンポーネント記述子には階層符号化映像データの情報が記述されており、例えばcomponent_type識別子には、0x01の場合は480i、0xB1の場合は1080iといった解像度情報などが記述されている。またコンポーネント記述子内には、コンテンツデータの再生開始時に初期状態で、どの符号化階層を選択して復号するかを示した情報として、図4に下線で示したdefault_layer識別子が含まれる。default_layer識別子の値が1であれば最初の符号化階層、即ちベースレイヤが初期状態で選択される符号化階層となる。また、default_layer識別子の値が2であれば、2番目の符号化階層、即ち1番目のエンハンスレイヤが初期状態で選択される符号化階層となる。即ち、default_layer識別子において階層IDを指定することで、複数のレイヤ構造、及び複数の画角が階層符号化映像データ内にある場合に、初期表示する符号化階層を決定することが可能となる。
【0041】
ここで、階層符号化された映像の構成について、図5を用いて説明する。図5は、H.264/SVC規格の階層符号化映像データの符号化階層の情報の例を示している。符号化階層の情報は、全体の符号化に関する情報を持つSPS(SequenceParameterSet)、映像の符号化に関するPPS(PictureParameterSet)、実際の映像データであるAU(AccessUnit)で構成され、それぞれの情報はさらに階層毎の情報に分かれている。
【0042】
SPS内には、各符号化階層の映像解像度情報video_formatに加え、各符号化階層間のオフセット情報としてtop_offset、left_offset、right_offset、bottom_offsetというオフセット情報が記述されている。即ちこのオフセット情報より、各符号化階層間の画角の違いを判定することが可能であり、例えば各オフセット値が10であれば、基準となるレイヤに比べて上下左右に10ピクセル大きい画角を有する復号映像が得られると判定することができる。なお、オフセット情報とは各符号化階層の復号映像を同一の空間解像度にした場合に、1つの符号化階層の復号映像で表現されている被写体の領域が、他の符号化階層の復号映像において表示される位置を表した値である。即ちオフセット情報は、1つの符号化階層の復号映像で表現されている被写体の領域が、他の符号化階層の復号映像において表示される位置を、当該他の符号化階層の復号映像の4辺からのピクセル数で表した値である。
【0043】
(音声補正制御処理)
以下、上述のような構成をもつ本実施形態のセットトップボックス100の音声補正制御処理について、図6のフローチャートをさらに用いて、具体的な処理を説明する。当該フローチャートに対応する処理は、再生制御部101が、例えば不図示の不揮発性メモリに記憶されている対応する処理プログラムを読み出し、不図示のRAMに展開して実行することにより実現することができる。なお、本音声補正制御処理は、例えばユーザによって操作されたリモートコントローラからコンテンツデータの再生開始要求を、操作受信部106が受信した際に開始されればよく、コンテンツデータの再生中は繰り返し実行されるものとして説明する。具体的には、操作受信部106よりユーザからのコンテンツデータの再生要求が入力されると、再生制御部101はセットトップボックス100の各ブロックにコンテンツデータの再生指示を行って再生処理を開始するとともに、本音声補正制御処理を開始する。
【0044】
S601で、再生制御部101は音声補正制御部107に、受信しているコンテンツデータの付加情報データに含まれる番組情報を入力し、現在受信しているコンテンツデータが有する音声データが対応付けられている音声対応符号化階層を特定させる。具体的には、音声補正制御部107の映像音声対応判定部201は、コンポーネント記述子に記述されているdefault_layerの情報から、初期状態で表示される符号化階層に音声データが対応付けられていると特定する。
【0045】
S602で、再生制御部101は、音声補正制御部107が特定した、音声対応符号化階層を復号して得られる復号映像と、現在選択されている符号化階層を復号して得られる復号映像の画角が異なるか否かを判定する。具体的には再生制御部101は、コンテンツ解析部103から受信したコンテンツデータが有する付加情報データのうち、SPSの各階層間のオフセット情報を参照して判定する。例えば、音声対応符号化階層と、現在選択されている符号化階層の間のオフセット情報left_offset、right_offset、top_offset、及びbottom_offsetの少なくとも1つが0以外の値をとる場合、再生制御部101は画角が変化していると判定する。再生制御部101は、音声対応符号化階層の復号映像と、現在選択されている符号化階層の復号映像の画角が異なる場合は処理をS603に移し、同一である場合は処理をS605に移す。
【0046】
S603で、再生制御部101は音声補正制御部107に、階層符号化映像データの有する複数の符号化階層のうち、再生を行う符号化階層と、初期状態で表示される符号化階層との、それぞれの符号化階層を復号して得られる復号映像の画角の比を算出させる。具体的には、再生制御部101は音声対応符号化階層を復号して得られる復号映像と、再生を行う符号化階層を復号して得られる復号映像との画角の比を、音声補正制御部107に算出させる。
【0047】
まず音声補正制御部107の再生映像画角比判定部202は、音声対応符号化階層、及び再生を行う符号化階層の付加情報データから、それぞれの符号化階層を復号した際に得られる復号映像の画角を取得する。そして再生映像画角比判定部202は、音声対応符号化階層と、再生を行う符号化階層の画角の情報から、画角の比を算出する。なお、本実施形態では画角の比は、復号映像の解像度の比ではなく、それぞれの復号映像を同一の空間解像度に変換した場合の表示領域面積の比率の平方根で規定される。また音声の調整に用いるため、画角の比が1未満の数字となる場合は、画角の比の負の逆数を画角の比として規定する。例えば算出された画角の比が1/2倍である場合は、「−1/(1/2)=−2」を画角の比として、再生映像画角比判定部202は音声補正量決定部203に出力する。
【0048】
ここで図8を用いて、具体的な画角の比の算出方法について例示する。図8の例では、H.264/AVC規格と互換性をもつベースレイヤと、当該ベースレイヤの拡張である上位層のエンハンスレイヤを2つ有する階層符号化映像データの、各符号化階層を復号した場合の復号映像の位置関係を表している。なお、本実施形態では、各符号化階層を復号して得られる復号映像は、全て同一の空間解像度を有するものとする。
【0049】
まず、コンテンツデータが有する付加情報データのうち、SPSの各階層間のオフセット情報を参照する。コンポーネント記述子によりdefault_layerがエンハンスレイヤ1、現在再生を行うとして選択されている符号化階層がエンハンスレイヤ2である場合に、エンハンスレイヤ1を基準としたエンハンスレイヤ2のオフセット情報が以下であるとする。
left_offset :480
right_offset :480
top_offset :270
bottom_offset:270
【0050】
このとき、エンハンスレイヤ1の復号映像の表示解像度は960×540であるから、基準とするエンハンスレイヤ1に対するエンハンスレイヤ2の復号映像の縦横の解像度比は、
【0051】
【数1】

であり、表示領域面積の比は2×2=4倍となる。このため、エンハンスレイヤ1に対するエンハンスレイヤ2の画角の比は平方根をとり、2倍となる。
【0052】
S604で、再生制御部101は、受信しているコンテンツデータのジャンルと、現在選択されている符号化階層の復号映像とに適した音声補正量を音声補正制御部107に決定させる。具体的には、まず音声補正制御部107の音声補正量決定部203は音声補正情報保持部204が保持している音声補正量情報テーブルから、受信しているコンテンツデータのジャンルに対応した音声補正量を取得する。コンテンツデータのジャンルの情報は、受信したコンテンツデータが有する付加情報データに含まれるコンテント記述子から取得する。図7は音声補正量情報テーブルの例であり、音声補正情報保持部204は、音声補正情報テーブルとして、高音、低音、サラウンド(音の拡がり感)の音声補正量を、コンテンツデータのジャンル毎に保持している。そして、音声補正制御部107の音声補正量決定部203は、S603で算出した画角の比を、受信しているコンテンツデータに対応した音声補正量のそれぞれのパラメータに乗ずることにより、画角の違いを反映させた音声補正量を決定する。
【0053】
例えば図8に示すように、コンテンツデータがサッカー中継(ジャンルが「スポーツ」)であり、音声対応符号化階層がエンハンスレイヤ1、現在選択されている再生する符号化階層がエンハンスレイヤ2である場合について考える。
【0054】
エンハンスレイヤ2はエンハンスレイヤ1より広い画角であり、グラウンドを遠方から視聴することになるため、エンハンスレイヤ2の復号映像に対応する音声は、エンハンスレイヤ1のグラウンド中央の音声に比べ、臨場感の効果は小さくなる。具体的には、グラウンド内でボールが弾んだ音等の低音部は音量が小さくなり、観客やグラウンド全体に響く高音部の音量が大きくなるとともに、音の拡がり感が向上するように音声を補正する処理を行う。即ち、音声補正量情報テーブルから取得した、各調整パラメータの音声補正量に、S603で算出された画角の比(2倍)を乗じて、
高音部 : 20%×2倍= 40%
低音部 :−20%×2倍=−40%
サラウンド: 20%×2倍= 40%
が、最終的に決定された音声補正量となる。
【0055】
音声対応符号化階層の復号映像と、現在選択されている符号化階層の復号映像との間に画角の差がなかった場合も、S605で再生制御部101は、コンテンツデータのジャンルに適した音声補正用を音声補正制御部107に決定させる。なお、本ステップでは画角の違いを反映させた音声補正を行う必要がないため、音声補正制御部107の音声補正量決定部203は、音声補正情報保持部204より取得したコンテンツデータのジャンルに対応した音声補正量を、そのまま音声補正量とすればよい。
【0056】
そしてS606で、再生制御部101は、音声補正制御部107に決定させた音声補正量を用いて、音声処理部105で復号された音声について、音声出力調整部108に補正を適用させる。そして補正が適用された音声は、音声出力調整部108からセットトップボックス100に接続されている、スピーカ等の音声再生装置から出力される。
【0057】
なお、本実施形態ではコンテンツデータのジャンルに対応した音声補正量に対し、音声対応符号化階層の復号映像の画角に対する、選択されている符号化階層の復号映像の画角の比を乗じて得られた音声補正量を用いた、音声の補正方法について説明した。しかしながら、本発明はコンテンツデータのジャンルに対応した音声補正量を用いず、単に音声に対して画角の比を乗ずることにより、画角の違いによる音声の臨場感を作り出してもよい。
【0058】
また、上述した実施形態では、音声データは、その音声データが対応付けられている符号化階層を復号して得られる復号映像に対応した位置で収録されているものとして説明した。しかし、本発明において、音声データの収録位置から被写体までの距離と、当該音声データが対応付けられている符号化階層を復号して得られる映像に対応した撮影位置から被写体までの距離とが異なっている場合にも対応可能である。つまり、上述した実施形態の処理の前処理として、撮影位置と音声収録位置が異なる場合に、あたかも撮影位置で収録された音声であるかのように音の定位を補正する補正処理を実行すれば良い。この補正処理により、まずは、撮影位置で収録された音声であるように補正した上で、その後、補正した音声データに対して上述した実施形態に記載の制御を適用すれば良い。なお、音の定位や音像の補正技術は、ここに挙げるまでもなく古くから多数存在しているため、本発明を実施する上で好適な補正技術を適用すればよい。
【0059】
また、上述した実施形態では音声の高音、低音、サラウンドについて調整を行ったが、各映像階層のオフセット値を元に音像定位のずれを判定し、そのずれに応じて音像定位を補正することも可能である。
【0060】
また、上述した実施形態においては、理解及び説明を容易にするため、コンテンツデータが1つの符号化階層に対応付けられた1つの音声データを含む場合について説明した。しかし、本発明は音声データが1つである場合に限定されるものではなく、再生する符号化階層に対応付けられた音声データがコンテンツデータによって提供されない場合に適用可能である。例えば、音声データが2つ提供されている場合、再生する符号化階層の復号映像の画角に近い画角を有する符号化階層に対応付けられている音声データを用いることができる。
【0061】
また、上述した実施形態において、音声データが対応付けられた音声符号化階層は、コンテンツデータが有する付加情報データに記述されている、初期状態で再生される符号化階層であるものとして説明した。しかし、本発明の実施は付加情報データに初期状態で再生される符号化階層が記述されている場合に限定されるものではなく、例えば階層符号化映像データの各符号化階層の情報から決定してもよい。例えば、全景映像と、当該全景映像のうちの所定の領域を切り出した映像とが階層符号化されているようなコンテンツデータである場合、当該全景映像を符号化している符号化階層を、音声対応符号化階層として決定してもよい。即ち、階層符号化映像データの複数の符号化階層のうち、最も画角の広い復号映像が得られる符号化階層を、音声対応符号化階層としてもよい。つまり、1つの撮影位置で撮像された全景映像から階層符号化映像データが構成されているため、このようなコンテンツデータは当該1つの撮影位置に対応した収録位置で収録された音声データが含まれているものと判断し、音声符号化階層を決定してもよい。
【0062】
以上説明したように、本実施形態の再生装置は、階層符号化映像データの所定の符号化階層に対応付けられた音声データを、再生する符号化階層の復号映像の画角に合わせて補正することで、ユーザに臨場感を与える音声データの再生を可能とする。具体的には再生装置は、階層符号化映像データと、当該階層符号化映像データの所定の符号化階層に対応付けられた音声データとを受信する。再生装置はさらに階層符号化映像データの複数の符号化階層のうち、音声データが対応付けられている音声対応符号化階層を特定する。そして、音声対応符号化階層の復号映像の画角に対する、再生する符号化階層の復号映像の画角の比を算出し、予め記憶された音声補正量にさらに乗ずることにより、得られた新たな音声補正量を用いて音声データを補正する。
【0063】
このようにすることで、選択された符号化階層に対応した音声が存在しない場合であっても、当該選択された符号化階層に対応した臨場感のある音声をユーザに提示可能である。
【0064】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項1】
符号化階層を選択して復号することにより、前記符号化階層ごとの復号映像を得ることが可能な階層符号化映像データと、当該階層符号化映像データの所定の符号化階層に対応付けられた音声データとを再生する再生装置であって、
前記階層符号化映像データ及び前記音声データを受信する受信手段と、
前記受信手段により受信された前記階層符号化映像データが有する複数の前記符号化階層のうち、前記音声データが対応付けられている音声対応符号化階層を特定する特定手段と、
前記複数の符号化階層のそれぞれを復号した場合に得られる前記復号映像の画角の情報を取得する取得手段と、
前記複数の符号化階層のうち、選択された1つの符号化階層を復号する映像復号手段と、
前記音声データを復号する音声復号手段と、
前記選択された1つの符号化階層が前記音声対応符号化階層でない場合、
前記音声対応符号化階層の復号映像の画角に対する、前記映像復号手段により復号された復号映像の画角の比を用いて、前記音声復号手段が復号した音声を補正する補正手段と、
前記映像復号手段により復号された復号映像と、前記補正手段により補正された音声とを再生する再生手段と、を備えることを特徴とする再生装置。
【請求項2】
前記音声を補正するための音声補正量が記憶された記憶手段をさらに備え、
前記補正手段は、前記画角の比を前記音声補正量に乗じて得られた補正量で、前記音声を補正することを特徴とする請求項1に記載の再生装置。
【請求項3】
前記階層符号化映像データのコンテンツのジャンルを識別する識別手段をさらに備え、
前記記憶手段はジャンルに対応付けられた音声補正量を記憶し、
前記補正手段は、前記識別手段により識別されたジャンルに対応する前記音声補正量を用いて、前記音声を補正することを特徴とする請求項2に記載の再生装置。
【請求項4】
前記復号手段は、前記選択された1つの符号化階層の復号に、前記複数の符号化階層のうち前記選択された1つの符号化階層と異なる符号化階層の復号の結果を利用することを特徴とする請求項1乃至3のいずれか1項に記載の再生装置。
【請求項5】
符号化階層を選択して復号することにより、前記符号化階層ごとの復号映像を得ることが可能な階層符号化映像データと、及び当該階層符号化映像データの所定の符号化階層に対応付けられた音声データとを再生する再生装置の制御方法であって、
受信手段が、前記階層符号化映像データ及び前記音声データを受信する受信工程と、
特定手段が、前記受信工程において受信された前記階層符号化映像データが有する複数の前記符号化階層のうち、前記音声データが対応付けられている音声対応符号化階層を特定する特定工程と、
取得手段が、前記複数の符号化階層のそれぞれを復号した場合に得られる前記復号映像の画角の情報を取得する取得工程と、
映像復号手段が、前記複数の符号化階層のうち、選択された1つの符号化階層を復号する映像復号工程と、
音声復号手段が、前記音声データを復号する音声復号工程と、
前記選択された1つの符号化階層が、前記音声対応符号化階層でない場合、
補正手段が、前記音声対応符号化階層の復号映像の画角に対する、前記映像復号工程において復号された復号映像の画角の比を用いて、前記音声復号手段が復号した音声を補正する補正工程と、
再生手段が、前記復号工程において復号された復号映像と、前記補正工程において補正された音声とを再生する再生工程と、を備えることを特徴とする再生装置の制御方法。
【請求項6】
コンピュータを、請求項1乃至4のいずれか1項に記載の再生装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−4835(P2012−4835A)
【公開日】平成24年1月5日(2012.1.5)
【国際特許分類】
【出願番号】特願2010−137677(P2010−137677)
【出願日】平成22年6月16日(2010.6.16)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】