伝送装置

【課題】ＳＭＰＴＥ３０２Ｍ規格では、ＨＤ−ＳＤＩ信号に多重化されている映像に対する音声の遅延時間を示す情報を、映像データおよび音声データとともに伝送することについては規定されていない。つまり、通常、ＭＰＥＧ−２ＴＳデータを受信する受信装置等では、映像に対する音声の遅延時間を把握することはできない。
【解決手段】ＨＤ−ＳＤＩ信号に多重化されている映像データと音声データとをＭＰＥＧ−２ＴＳデータに多重化するために、音声データをＳＭＰＴＥ３０２Ｍ形式の音声パケットデータに変換する。この時、音声データの記映像データに対する遅延時間に関する遅延情報を音声パケットデータの未使用領域に格納して、ＳＭＰＴＥ３０２Ｍ形式の音声パケットデータに変換する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像データと音声データとを多重して伝送する伝送装置に関し、特に、映像に対する音声の遅延時間に関する情報を映像データおよび音声データとともに伝送する伝送装置に関する。
【背景技術】
【０００２】
従来、映像データと音声データとを多重化して送信するための規格として、ＭＰＥＧ（Moving Picture Experts Group）が存在する。また、ＨＤ（High Definition）映像を伝送するためのＨＤ−ＳＤＩ（Serial Digital Interface）信号にＡＥＳ（Audio Engineering Society）音声を多重化するための規格として、ＡＲＩＢ（社団法人電波産業会：Association of Radio Industries and Businesses）が定めたＡＲＩＢ−ＳＴＤＢＴＡＳ−００６Ｂ（非特許文献１）、およびＳＭＰＴＥ（米国映画テレビ技術者協会：Society of Motion Picture and Television Engineers）が定めたＳＭＰＴＥ２９９Ｍ規格が存在する。
【先行技術文献】
【非特許文献】
【０００３】
【非特許文献１】社団法人電波産業会、「１１２５／６０方式ＨＤＴＶビット直列インタフェースにおけるデジタル音声規格標準規格ＢＴＡＳ−００６Ｂ」、１１２５／６０方式スタジオシステム標準規格、平成１０年３月１７日、ｐ．１３３−１６０
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ところで、ＨＤ−ＳＤＩ信号に多重化されている非圧縮音声であるＡＥＳ音声をＭＰＥＧ−２ｐａｒｔ１Ｓｙｓｔｅｍ規格に準拠したＭＰＥＧ−２ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ形式（以下、「ＭＰＥＧ−２ＴＳ」と略す）で伝送する場合、通常はＳＭＰＴＥ３０２Ｍ規格に準拠したＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ（以降「ＰＥＳ」と略す）で伝送する。
【０００５】
しかしながら、この規格では、ＨＤ−ＳＤＩ信号に多重化されている映像に対する音声の遅延時間を示す情報を、映像データおよび音声データとともに伝送することについては規定されていない。つまり、通常、ＭＰＥＧ−２ＴＳデータを受信する受信装置等では、映像に対する音声の遅延時間を把握することはできない。よって、従来では、受信装置等において映像や音声を再生し、目視によって映像と音声のずれを補正する等の方法を採っていた。
【０００６】
また、例えば、音声の遅延時間を示す情報を、映像データおよび音声データとは異なるＰＩＤ（パケット識別子：Packet Identifier）のＭＰＥＧ−２ＴＳデータとして受信装置等に送信する方法も考えられる。しかし、この場合、映像データおよび音声データと、遅延情報との関連付けを別途行う必要があり、伝送データ量も多くなる。
【０００７】
そこで、本発明は上記課題を解決し、ＳＭＰＴＥ３０２Ｍ規格に準拠しつつ、伝送データを受信する装置において映像に対する音声の遅延時間が把握可能な伝送装置を提供することを目的とする。
【課題を解決するための手段】
【０００８】
上記課題を解決するために、本発明は、映像データと音声データとが多重化されたＨＤ−ＳＤＩ信号から前記映像データと前記音声データとを抽出する抽出手段と、前記映像データを、ＭＰＥＧ−２ＴＳ形式で多重化可能な形式の映像パケットデータに変換する映像データ変換手段と、前記音声データを、ＳＭＰＴＥ３０２Ｍ形式の音声パケットデータに変換する音声データ変換手段と、前記映像パケットデータと前記音声パケットデータとを多重化することでＭＰＥＧ−２ＴＳ形式に変換して送信する送信手段と、を有し、前記音声データ変換手段は、前記映像データに対する前記音声データの遅延時間に関する遅延情報を前記音声パケットデータの未使用領域に格納して、ＳＭＰＴＥ３０２Ｍ形式の音声パケットデータに変換することを特徴とする伝送装置を提案する。
【０００９】
この構成によれば、ＳＭＰＴＥ３０２Ｍ規格に準拠しつつ、映像に対する音声の遅延時間に関する情報を、伝送装置から外部の装置に送信することができる。これにより、受信側の装置では映像に対する音声の遅延時間を把握し、例えば音声と映像とのずれを補正して再生すること等が可能となる。また、映像に対する音声の遅延時間に関する情報を送信するために、映像データおよび音声データ以外の余分なデータを送信する必要もないため、伝送データ量が増加することもない。
【発明の効果】
【００１０】
以上のように、本発明によれば、ＳＭＰＴＥ３０２Ｍ規格に準拠しつつ、映像に対する音声の遅延時間に関する情報を、伝送装置から他の装置に送信することが可能である。これにより、受信側の装置において映像と音声との間の遅延量を把握し、映像と音声との再生タイミングの調整が可能となる。
【図面の簡単な説明】
【００１１】
【図１】映像システムの構成例を示す図である。
【図２】Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットの構造を示す図である。
【図３】音声制御パケットの各構成の詳細を示す図である。
【図４】音声遅延情報データの詳細を示す図である。
【図５】ＳＭＰＴＥ３０２Ｍ形式のＰＥＳデータの構成を示す図である。
【図６】ＳＭＰＴＥ３０２ＭＡＥＳ３ｄａｔａＨｅａｄｅｒの構成を示す図である。
【図７】ｄ１０〜ｄ１２およびｄ２５のビットの組み合わせにより表現可能な音声遅延量を示す図である。
【図８】伝送装置１００における処理の流れを示すフロー図である。
【図９】受信装置２００における処理の流れを示すフロー図である。
【発明を実施するための形態】
【００１２】
以下、本発明の実施形態について、図面を参照しながら説明する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示される。
【００１３】
（伝送システムの構成）
図１は、本実施形態に係る伝送システムの構成例を示す図である。本実施形態に係る伝送システムは、伝送装置１００と受信装置２００とを含んで構成される。伝送装置１００は、受信したＨＤ−ＳＤＩ信号から映像データおよび音声データを分離し、分離した映像データおよび音声データをＭＰＥＧ−２ＴＳ形式に変換して受信装置２００に送信する。また、受信装置２００は、伝送装置１００から受信するＭＰＥＧ−２ＴＳ形式のデータから映像データおよび音声データを分離し、分離した映像データおよび音声データをＨＤ−ＳＤＩ信号に多重可能なＥｍｂｅｄｄｅｄ−Ａｕｄｉｏデータに変換する。
【００１４】
なお、以下に説明する伝送装置１００および受信装置２００は、図示しないＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）等のメモリ、ハードディスク等の記憶装置、ネットワークインターフェイス等の一般的なコンピュータの構成と同様の構成により実現される。また、伝送装置１００および受信装置２００の各構成の機能は、例えば、各装置のＣＰＵがハードディスク等に記憶されているプログラムを読み出して実行することにより、もしくは、例えば、ＦＰＧＡ（Field Programmable Gate Array）においてシーケンサロジックをカスタム設計することに実現される機能である。また、映像データ、音声データ、音声制御パケット等の各データは、各装置のハードディスクやＲＡＭ等に記憶されるデータである。
【００１５】
（伝送装置１００の構成）
伝送装置１００は、抽出部１１０と、映像データ変換部１２０と、音声データ変換部１３０と、送信部１４０と、遅延情報取得部１５０と、を有する。
【００１６】
抽出部１１０は、映像データと音声データとが多重化されたＨＤ−ＳＤＩ信号から映像データと音声データとを抽出する。本実施形態においては、抽出部１１０で受信するＨＤ−ＳＤＩ信号は、外部の装置から受信される信号であり、音声データであるＥｍｂｅｄｄｅｄ−Ａｕｄｉｏデータが多重化されている信号である。つまり、抽出部１１０は、ＨＤ−ＳＤＩ信号から、映像データと、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏデータとを抽出する。
【００１７】
映像データ変換部１２０は、抽出部１１０で抽出された映像データを、ＭＰＥＧ−２ＴＳ形式で多重化可能な形式の映像パケットデータに変換する。映像データ変換部１２０は、具体的には、映像ＥＳ処理部１２１において、抽出部１１０で抽出された映像データを任意のＥＳ（Elementary Stream）形式に変換する。「任意のＥＳ形式に変換する」とは、具体的には、例えばＨ．２６４圧縮符号化を行い、ＥＳ形式のデータ（以下、適宜、「映像ＥＳデータ」という。）を生成することが該当する。そして、映像データ変換部１２０は、映像ＰＥＳ処理部１２２において、このＥＳデータをＭＰＥＧ−２ｐａｒｔ１Ｓｙｓｔｅｍ規格に準拠したＰＥＳデータ（以下、適宜、「映像ＰＥＳデータ」という。）に変換する。
【００１８】
音声データ変換部１３０は、抽出部１１０で抽出された音声データを、ＳＭＰＴＥ３０２Ｍ形式の音声パケットデータに変換する。音声データ変換部１３０は、具体的には、音声ＥＳ処理部１３１において、抽出部１１０で抽出されたＥｍｂｅｄｄｅｄ−ＡｕｄｉｏデータをＥＳデータ（以下、適宜、「音声ＥＳデータ」という。）に変換する。さらに、音声データ変換部１３０は、音声ＰＥＳ処理部１３２において、このＥＳデータをパケット化してＳＭＰＴＥ３０２Ｍ規格に準拠したＰＥＳデータ（以下、適宜、「音声ＰＥＳデータ」という。）に変換する。
【００１９】
また、音声データ変換部１３０は、抽出部１１０で抽出された映像データに対する音声データの遅延時間に関する遅延情報を、音声パケットデータの未使用領域に格納する。本実施形態においては、遅延情報は、ＨＤ−ＳＤＩ信号に多重化されているＥｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットに含まれている情報の少なくとも一部である。具体的には、本実施形態における遅延情報は、ＨＤ−ＳＤＩ信号に多重化されているＥｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットに含まれる音声遅延情報データであるＵＤＷ４の３〜５ビット目およびＵＤＷ５の９ビット目である。この点については、後に詳述する。
【００２０】
また、伝送装置１００は、さらに遅延情報を取得する遅延情報取得部１５０をさらに有していてもよい。そして、音声データ変換部１３０は、遅延情報取得部１５０において取得された遅延情報を音声パケットデータ（例えば、音声ＰＥＳデータ）の未使用領域に格納するようになっていてもよい。具体的には、例えば、外部の装置からの送信やユーザからの入力を受け付けること等によって、遅延情報取得部１５０において遅延情報を取得するようになっていてもよい。
【００２１】
送信部１４０は、映像データ変換部１２０において変換された映像データ（例えば、映像ＰＥＳデータ）と、音声データ変換部１３０において変換された音声データ（例えば、音声ＰＥＳデータ）と、を多重化することでＭＰＥＧ−２ＴＳ形式に変換して送信する。なお、映像ＰＥＳデータと音声ＰＥＳデータとを多重化してＭＰＥＧ−２ＴＳ形式に変換する処理は、具体的には、ＴＳ−Ｍｕｘ処理部１４１において実行される。
【００２２】
（受信装置２００の構成）
受信装置２００は、ＴＳ−Ｄｅｍｕｘ処理部２１１と、映像ＰＥＳ処理部２２１と、映像ＥＳ処理部２２２と、音声ＰＥＳ処理部２３１と、音声ＥＳ処理部２３２と、を有する。
【００２３】
ＴＳ−Ｄｅｍｕｘ処理部２１１は、伝送装置１００の送信部１４０から送信されるＭＰＥＧ−２ＴＳ形式のデータにおいて多重化されている映像データおよび音声データを抽出する。ＴＳ−Ｄｅｍｕｘ処理部２１１は、具体的には、受信したＭＰＥＧ−２ＴＳデータから映像ＰＥＳデータおよびＳＭＰＴＥ３０２Ｍ規格に準拠した音声ＰＥＳデータを抽出する。
【００２４】
映像ＰＥＳ処理部２２１は、ＴＳ−Ｄｅｍｕｘ処理部２１１で抽出された映像ＰＥＳデータを映像ＥＳデータに変換する。
【００２５】
映像ＥＳ処理部２２２は、映像ＥＳデータを、ＨＤ−ＳＤＩ信号に多重可能な映像データ形式に変換する。「ＨＤ−ＳＤＩ信号に多重可能な映像データ形式に変換する」とは、具体的には、例えば、Ｈ．２６４圧縮復号化を行うことが該当する。
【００２６】
音声ＰＥＳ処理部２３１は、ＴＳ−Ｄｅｍｕｘ処理部２１１で抽出された音声ＰＥＳデータを音声ＥＳデータに変換する。
【００２７】
音声ＥＳ処理部２３２は、音声ＥＳデータを、ＨＤ−ＳＤＩ信号に多重可能な音声データ形式に変換する。「ＨＤ−ＳＤＩ信号に多重可能な音声データ形式に変換する」とは、付帯的には、例えば、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏデータに変換することが該当する。
【００２８】
また、受信装置２００は、映像ＥＳ処理部２２２および音声ＥＳ処理部２３２においてそれぞれ変換された映像データおよび音声データをＨＤ−ＳＤＩ信号に多重化して他の装置に送信する。
【００２９】
（伝送装置１００の動作）
ここで、本発明の特徴である伝送装置１００の音声データ変換部１３０における動作について説明する。
【００３０】
本実施形態において、音声データ変換部１３０にて音声ＰＥＳデータの未使用領域に格納される遅延情報は、ＨＤ−ＳＤＩ信号に多重されたＥｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットに格納されている音声遅延情報データの一部である。
【００３１】
図２は、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットの構造を示す図である。なお、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットについては、ＡＲＩＢ−ＳＴＤＢＴＡＳ−００６Ｂ規格およびＳＭＰＴＥ２９９規格に規定されているので、ここでは簡単に説明する。
【００３２】
Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットは、「ＡＤＦ」、「ＤＩＤ」、「ＤＢＮ」、「ＤＣ」、「ＵＤＷ」、「ＣＳ」の各データで構成されている。図３は、音声制御パケットの各構成の詳細を示す図である。
【００３３】
「ＡＤＦ」は、補助データフラグと呼ばれ、音声制御パケットの開始を示すデータである。また、ＡＤＦは、“０００ｈ”、“３ＦＦｈ”、“３ＦＦｈ”の連続する３ワードで構成するユニーク・コードである。
【００３４】
「ＤＩＤ」は、データ識別ワードと呼ばれ、この値によって後述するＵＤＷの種類が示される。なお、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットでは、音声グループごとにユニーク・コードが割り当てられている。
【００３５】
「ＤＢＮ」は、データブロック番号ワードと呼ばれ、同一ＤＩＤを有する音声制御パケットの順番を示すが、未使用でもよい。なお、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットでは、
“２００ｈ”（未使用）にすることになっている。
【００３６】
「ＤＣ」は、データカウントワードと呼ばれ、後述する「ＵＤＷ」のワード数を示す。また、「ＣＳ」は、チェックサムワードと呼ばれる。ＣＳの値は、ＤＩＤからＵＤＷに含まれる最後のワードまでの下位９ビットの総和における下位９ビットである。
【００３７】
「ＵＤＷ」は、ユーザデータワードと呼ばれ、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏデータの制御情報が格納されている。音声制御パケットにおいては、ＵＤＷは１１ワードの固定長である。以下では、ＵＤＷの１１ワードを、パケットの先頭からＵＤＷ０、ＵＤＷ１、・・・ＵＤＷ９、ＵＤＷ１０と示す。また、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声遅延情報データは、「ＵＤＷ」のＵＤＷ３〜８に格納されている。
【００３８】
図４は、音声遅延情報データの詳細を示す図である。上述したように、音声遅延情報データは、「ＵＤＷ」のＵＤＷ３〜８に格納されている。ＵＤＷ３〜５は、ＤＥＬ１−２、つまり、チャンネル１と２の音声データについての遅延情報であり、ＵＤＷ６〜８は、ＤＥＬ３−４、つまり、チャンネル３と４の音声データについての遅延情報である。
【００３９】
図４に示されるｄ０〜ｄ２５（ＵＤＷ３の２〜１０ビット目、ＵＤＷ４の１０ビット、およびＵＤＷ５の０〜９ビット目）の２６ビットが音声遅延情報データである。また、ｄ０〜ｄ２５で表される音声遅延情報データは、映像に対する音声の相対遅延量を示すものであり、音声のサンプリング間隔の倍数として２６ビットの２の補数で表される。例えば、音声のサンプリング周波数が４８ＫＨｚの場合は、表現できる音声遅延時間は約±３５０秒となる。また、ｄ０〜ｄ２５で表される相対遅延量が正の値である場合は、映像が音声よりも進んでいることを意味し、負の値である場合は、音声のほうが映像よりも進んでいることを意味する。
【００４０】
ここで、本実施形態の伝送装置１００の音声データ変換部１３０は、この音声遅延情報データのうち、ｄ１０〜ｄ１２（ＵＤＷ４の３〜５ビット目）およびｄ２５（ＵＤＷ５の９ビット目（最上位ビット））を遅延情報として、音声パケットデータ（音声ＰＥＳデータ）の未使用領域に格納する。
【００４１】
図５を用いて音声パケットデータ（音声ＰＥＳデータ）の未使用領域について詳細に説明する。図５は、ＳＭＰＴＥ３０２Ｍ形式のＰＥＳデータの構成を示す図である。なお、このＳＭＰＴＥ３０２Ｍ形式については、ＩＳＯ／ＩＥＣ１３８１８−１にて規定されているので、ここでは簡単に説明する。
【００４２】
「ＭＰＥＧ−２ＰＥＳＨｅａｄｅｒ」は、ＭＰＥＧ−２ｐａｒｔ１Ｓｙｓｔｅｍ規格に準じた構成をとる。また、「ＳＭＰＴＥ３０２ＭＡＥＳ３ｄａｔａＰａｙｌｏａｄ」は、実際の音声データそのものが格納される領域である。
【００４３】
また、「ＳＭＰＴＥ３０２ＭＡＥＳ３ｄａｔａＨｅａｄｅｒ」は、図６に示すような構成をとる。「ａｕｄｉｏ＿ｐａｃｋｅｔ＿ｓｉｚｅ」は、図５の「ＳＭＰＴＥ３０２ＭＡＥＳ３Ｐａｙｌｏａｄ」のデータ数（バイト）を１６ビットで表したものである。「ｎｕｍｂｅｒ＿ｃｈａｎｎｅｌｓ」は、伝送する音声のチャンネル数を２ビットで表したものである。
【００４４】
「ｃｈａｎｎｅｌ＿ｉｄｅｎｔｉｆｉｃａｔｉｏｎ」は、伝送する音声の全チャネルに対し、音声ＰＥＳデータが先頭チャネルの何番目のチャネルで伝送される音声ＰＥＳデータであるかを８ビットで表すものである。「ｂｉｔｓ＿ｐｅｒ＿ｓａｍｐｌｅ」は、伝送する音声のサンプリングビット数を２ビットで表すものである。
【００４５】
「ａｌｉｇｎｍｅｎｔｂｉｔｓ」は、ＳＭＰＴＥ３０２ＭＡＥＳ３ｄａｔａＨｅａｄｅｒの長さを調整する（バイト・アライメント）のための未使用領域であり、長さは４ビットである。ＳＭＰＴＥ３０２Ｍ規格では“００００ｂ”を格納することになっているが、本実施形態では、この未使用領域であるａｌｉｇｎｍｅｎｔｂｉｔｓに、遅延情報が格納される。また、本実施形態では、ａｌｉｇｎｍｅｎｔｂｉｔｓに格納する遅延情報として、図４に示す音声遅延情報データのうちのＵＤＷ４のｄ１０〜ｄ１２およびＵＷＤ５のｄ２５の計４ビットである。このｄ１０〜ｄ１２およびｄ２５の４ビットを遅延情報として採用した理由は、以下の通りである。
【００４６】
例えば、音声のサンプリング周波数が４８ＫＨｚの場合は、ｄ１０〜ｄ１２およびｄ２５の各ビットで表現される遅延量は以下の通りである。

ｄ２５：符号（＋／−）
ｄ１２：約８５．３３ｍｓ
ｄ１１：約４２．６７ｍｓ
ｄ１０：約２１．３３ｍｓ

よって、ｄ１０〜ｄ１２およびｄ２５のビットの組み合わせにより表現可能な音声遅延量は、図７に示すように、約−１５０〜＋１５０ｍｓ（ミリ秒）となる。これは、映像数フレーム分の遅延量に当たる。近年の映像・音声の伝送装置では、映像と音声の遅延によるズレは、映像の数フレーム程度である。また、人間が認識できる映像と音声のズレ（遅延量）は、個人差はあるが、おおよそ１フレーム程度である。
【００４７】
つまり、ｄ１０〜ｄ１２およびｄ２５によって表現される映像の数フレーム分の遅延量によって受信装置２００において映像と音声とのズレが補正されるのであるが、この遅延量は、ユーザに映像と音声とのズレによる違和感を与えないように補正するには十分な遅延量であると考えられる。そこで、本実施形態では、実施の伝送システムの運用における遅延時間と人間の感覚とを考慮し、数フレーム分の遅延量を表現可能なｄ１０〜ｄ１２、および遅延量の正負を表すｄ２５を用いることとした。
【００４８】
なお、ｄ１３〜ｄ２４のいずれかの値が“０”でない場合（すなわち、“１”である場合）、映像と音声との間の遅延量は数フレーム以上であるということなので、その場合には、より上位のビット（例えば、ｄ１１〜ｄ１３等）の値を音声ＰＥＳデータの未使用領域に格納する遅延情報として採用してもよい。
【００４９】
（受信装置２００の動作）
伝送装置１００の送信部１４０では、音声データ変換部１３０で遅延情報が格納されて生成された音声ＰＥＳデータが、映像データ変換部１２０で生成された映像ＰＥＳデータとともに多重化されてＭＰＥＧ−２ＴＳ形式に変換された後、受信装置２００に送信される。そして、受信装置２００では、ＴＳ−Ｄｅｍｕｘ処理部２１１において音声ＰＥＳデータがＭＰＥＧ−２ＴＳデータから抽出された後、音声ＰＥＳ処理部２３１において、音声ＰＥＳデータが音声ＥＳデータ（ＳＭＰＴＥ３０２ＭＰＥＳパケット）に変換される。
【００５０】
さらに、受信装置２００の音声ＥＳ処理部２３２において音声ＥＳデータをＥｍｂｅｄｄｅｄ−Ａｕｄｉｏデータに変換する際、音声ＰＥＳデータの「ａｌｉｇｎｍｅｎｔｂｉｔｓ」に格納されている４ビットの遅延情報の値を、それぞれ、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏデータの音声遅延情報データ（ＵＤＷ３〜５）のｄ１０〜ｄ１２およびｄ２５の値とする。また、この時、音声遅延情報データ（ＵＤＷ３〜５）のｄ０〜ｄ９の下位ビットの値は“０”とする。ｄ９以下の下位ビットによって表現可能な遅延時間は−１０．６〜＋１０．６ｍｓであり、人間が認識できる音声遅延時間に対し非常に小さいため、無視しても運用上は問題ない。つまり、結果的に、伝送装置１００で受信されたＨＤ−ＳＤＩ信号に格納されていたｄ０〜ｄ９で示される遅延時間分は、映像と音声の再生時の遅延補正においては無視されることになるが、映像と音声を視聴するユーザは映像と音声のズレはほとんど感じないと考えられる。
【００５１】
（伝送装置１００の処理フロー）
図８は、伝送装置１００における処理の流れを示すフロー図である。
【００５２】
抽出部１１０において、ＨＤ−ＳＤＩ信号が受信される（ステップＳ１０１）。さらに、受信されたＨＤ−ＳＤＩ信号から映像データおよび音声データ（Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏデータ）が抽出される（ステップＳ１０２）。
【００５３】
ステップＳ１０２で抽出された映像データは、映像データ変換部１２０の映像ＥＳ処理部１２１において、Ｈ．２６４圧縮符号化が行われることで映像ＥＳデータに変換される（ステップＳ１０３）。さらに、映像データ変換部１２０の映像ＰＥＳ処理部１２２において、映像ＥＳデータがＭＰＥＧ−２ｐａｒｔ１Ｓｙｓｔｅｍ規格に準拠した映像ＰＥＳデータに変換される（ステップＳ１０４）。
【００５４】
一方で、ステップＳ１０２で抽出された音声データは、音声データ変換部１３０の音声ＥＳ処理部１３１において音声ＥＳデータに変換される（ステップＳ１０５）。さらに、この音声ＥＳデータは、音声データ変換部１３０の音声ＰＥＳ処理部１３２において音声ＰＥＳデータに変換される（ステップＳ１０６）。
【００５５】
そして、音声データ変換部１３０の音声ＰＥＳ処理部１３２において、ＨＤ−ＳＤＩ信号に多重化されている音声制御パケットの音声遅延情報データの一部（ＵＤＷ３〜５のｄ１０〜ｄ１２およびｄ２５）が抽出され、音声ＰＥＳデータの「ａｌｉｇｎｍｅｎｔｂｉｔｓ」に格納される（ステップＳ１０７）。
【００５６】
最後に、送信部１４０のＴＳ−Ｍｕｘ処理部１４１において、映像ＰＥＳデータと音声ＰＥＳデータとが多重化されてＭＰＥＧ−２ＴＳ形式に変換され、受信装置２００に送信される（ステップＳ１０８）。
【００５７】
（受信装置２００の処理フロー）
図９は、受信装置２００における処理の流れを示すフロー図である。
【００５８】
ＴＳ−Ｄｅｍｕｘ処理部２１１において、ＭＰＥＧ−２ＴＳデータが受信される（ステップＳ２０１）。そして、受信されたＭＰＥＧ−２ＴＳデータから映像ＰＥＳデータおよび音声ＰＥＳデータが抽出される（ステップＳ２０２）。
【００５９】
映像ＰＥＳ処理部２２１において、映像ＰＥＳデータが映像ＥＳデータに変換される（ステップＳ２０３）。そして、映像ＥＳ処理部２２２において、映像ＥＳデータについてＨ．２６４圧縮復号化が実行されることにより、映像ＥＳデータがＨＤ−ＳＤＩ信号に多重可能な形式に変換される（ステップＳ２０４）。
【００６０】
一方で、音声ＰＥＳ処理部２３１において、音声ＰＥＳデータの「ａｌｉｇｎｍｅｎｔｂｉｔｓ」から遅延情報が抽出される（ステップＳ２０５）。そして、音声ＰＥＳ処理部２３１において、音声ＰＥＳデータが音声ＥＳデータに変換される（ステップＳ２０６）。
【００６１】
さらに、音声ＥＳ処理部２３２において、この音声ＥＳデータがＨＤ−ＳＤＩ信号に多重可能な形式（Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏ形式）に変換される（ステップＳ２０７）。この際、Ｅｍｂｅｄｄｅｄ−Ａｕｄｉｏ音声制御パケットの音声遅延情報データのＵＤＷ３〜５のｄ１０〜ｄ１２およびｄ２５にはステップＳ２０５で抽出された遅延情報の値が格納され、音声遅延情報データの他のビットには“０”が格納される（ステップＳ２０８）。
【００６２】
そして、映像データ、音声データ、および音声制御パケットがＨＤ−ＳＤＩ信号に多重化されて外部の再生装置等に送信される（ステップＳ２０９）。
【００６３】
以上のように、伝送装置において、従来では音声ＰＥＳデータにおいて未定義となっている領域に遅延情報を格納して伝送することで、運用上、支障とならない精度の音声にかかる遅延情報を受信側の装置に認識させることが可能となる。また、本実施形態の遅延情報の伝送方法によれば、ＳＭＰＴＥ規格やＡＲＩＢ規格等に準じたＨＤ−ＳＤＩ信号への音声データ多重方式、および非圧縮音声のＰＥＳデータ化に則している。従って、従来のＭＰＥＧ−２ＴＳ方式に準じた伝送装置や受信装置での互換性が損なわれることがなく、従来の伝送装置や受信装置に適用可能である。
【００６４】
（付記）
以上に、本発明に係る実施形態について詳細に説明したことからも明らかなように、上述の実施形態の一部または全部は、以下の各付記のようにも記載することができる。しかしながら、以下の各付記は、あくまでも、本発明の単なる例示に過ぎず、本発明は、かかる場合のみに限るものではない。
【００６５】
（付記１）
映像データと音声データとが多重化されたＨＤ−ＳＤＩ（Serial Digital Interface）信号から前記映像データと前記音声データとを抽出する抽出手段と、
前記映像データを、ＭＰＥＧ（Moving Picture Experts Group）−２ＴＳ（Transport Stream）形式で多重化可能な形式の映像パケットデータに変換する映像データ変換手段と、
前記音声データを、ＳＭＰＴＥ（Society of Motion Picture and Television Engineers）３０２Ｍ形式の音声パケットデータに変換する音声データ変換手段と、
前記映像パケットデータと前記音声パケットデータとを多重化することでＭＰＥＧ−２ＴＳ形式に変換して送信する送信手段と、を有し、
前記音声データ変換手段は、前記映像データに対する前記音声データの遅延時間に関する遅延情報を前記音声パケットデータの未使用領域に格納して、ＳＭＰＴＥ３０２Ｍ形式の音声パケットデータに変換することを特徴とする伝送装置。
【００６６】
（付記２）
前記遅延情報は、前記ＨＤ−ＳＤＩ信号に多重化されているＥｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットに含まれている情報の少なくとも一部であることを特徴とする付記１に記載の伝送装置。
【００６７】
この構成によれば、例えば、ＨＤ−ＳＤＩ信号に多重化されている音声制御パケットに含まれている情報であって、映像に対する音声の遅延時間を示す情報を利用して、ＳＭＰＴＥ３０２Ｍ規格に準拠しつつ、映像に対する音声の遅延時間を示す情報を伝送装置から外部の装置に送信することができる。
【００６８】
（付記３）
前記遅延情報は、前記ＨＤ−ＳＤＩ信号に多重化されているＥｍｂｅｄｄｅｄ−Ａｕｄｉｏの音声制御パケットに含まれる音声遅延情報データであるＵＤＷ４の３〜５ビット目およびＵＤＷ５の９ビット目であることを特徴とする付記２に記載の伝送装置。
【００６９】
この構成によれば、伝送装置からのデータを受信する装置において、一般的に人間が認識可能範囲の映像と音声のずれを補正することが可能である。これにより、映像および音声を視聴するユーザに映像と音声のずれを感じさせないようにすることが可能である。
【００７０】
（付記４）
前記遅延情報を取得する遅延情報取得手段をさらに有し、
前記音声データ変換手段は、前記遅延情報取得手段において取得された遅延情報の少なくとも一部を前記音声パケットデータの未使用領域に格納することを特徴とする付記１に記載の伝送装置。
【００７１】
この構成によれば、伝送装置は、外部の装置や伝送装置のユーザの入力から遅延情報を取得し、その遅延情報の少なくとも一部を音声パケットの未使用領域に格納して他の装置に送信することが可能である。
【００７２】
（付記５）
映像データと音声データとが多重化されたＭＰＥＧ−２ＴＳ形式のデータであって前記映像データに対する前記音声データの遅延時間に関する遅延情報が前記音声データの一部に格納されているＭＰＥＧ２−ＴＳ形式のデータを受信する受信装置であって、
前記ＭＰＥＧ−２ＴＳ形式データから前記映像データと前記音声データとを抽出するＴＳ処理手段（例えば、図１のＴＳ−Ｄｅｍｕｘ処理部２１１）と、
前記映像データを、ＨＤ−ＳＤＩ（Serial Digital Interface）信号に多重化可能な形式の映像データに変換する映像データ処理手段（例えば、図１の映像ＰＥＳ処理部（受信側）２２１および映像ＥＳ処理部（受信側）２２２）と、
前記音声データを、ＨＤ−ＳＤＩ信号に多重化可能な形式の音声データに変換する音声データ処理手段（例えば、図１の音声ＰＥＳ処理部（受信側）２３１および音声ＥＳ処理部（受信側）２３２）と、を有し、
前記音声データ処理手段は、前記ＴＳ処理手段において抽出された前記音声データから前記遅延情報を抽出し、抽出した前記遅延情報をＨＤ−ＳＤＩ信号に多重可能なパケットである前記音声データについての制御パケット（例えば、図２に示される音声制御パケット）に格納することを特徴とする受信装置。
【００７３】
この構成によれば、例えば、ＭＰＥＧ２−ＴＳデータに多重化されている映像データと音声データとをＨＤ−ＳＤＩ信号によって受信装置から受信する他の装置において、映像と音声との時間的なずれを補正して再生すること等が可能となる。これにより、映像と音声を視聴するユーザに両者のずれによる違和感を与えないようにすることができる。
【００７４】
（付記６）
映像データと音声データとが多重化されたＨＤ−ＳＤＩ（Serial Digital Interface）信号から前記映像データと前記音声データとを抽出する抽出ステップ（例えば、図８のステップＳ１０１〜Ｓ１０２）と、
前記映像データを、ＭＰＥＧ（Moving Picture Experts Group）−２ＴＳ（Transport Stream）形式で多重化可能な形式の映像パケットデータに変換する映像データ変換ステップ（例えば、図８のステップＳ１０３〜Ｓ１０４）と、
前記音声データを、ＳＭＰＴＥ（Society of Motion Picture and Television Engineers）３０２Ｍ形式の音声パケットデータに変換する音声データ変換ステップ（例えば、図８のステップＳ１０５〜Ｓ１０６）と、
前記映像パケットデータと前記音声パケットデータとを多重化することでＭＰＥＧ−２ＴＳ形式に変換して送信する送信ステップ（例えば、図８のステップＳ１０７〜Ｓ１０８）と、を有し、
前記音声データ変換ステップにおいて、前記映像データに対する前記音声データの遅延時間に関する遅延情報を前記音声パケットデータの未使用領域に格納することを特徴とする伝送方法。
【００７５】
この構成によれば、ＳＭＰＴＥ３０２Ｍ規格に準拠しつつ、映像に対する音声の遅延時間を示す情報を伝送装置から外部の装置に送信することができる。これにより、受信側の装置では映像に対する音声の遅延時間を把握し、例えば音声と映像とのずれを補正して再生すること等が可能となる。また、映像に対する音声の遅延時間を示す情報を送信するために、映像データおよび音声データ以外の余分なデータを送信する必要もないため、伝送データ量を増加させることもない。
【符号の説明】
【００７６】
１００伝送装置
１１０抽出部
１２０映像データ変換部
１２１映像ＥＳ処理部（送信側）
１２２映像ＰＥＳ処理部（送信側）
１３０音声データ変換部
１３１音声ＥＳ処理部（送信側）
１３２音声ＰＥＳ処理部（送信側）
１４０送信部
１４１ＴＳ−Ｍｕｘ処理部
１５０遅延情報取得部
２００受信装置
２１１ＴＳ−Ｄｅｍｕｘ処理部
２２１映像ＰＥＳ処理部（受信側）
２２２映像ＥＳ処理部（受信側）
２３１音声ＰＥＳ処理部（受信側）
２３２音声ＥＳ処理部（受信部）

【特許請求の範囲】
【請求項１】
映像データと音声データとが多重化されたＨＤ−ＳＤＩ（Serial Digital Interface）信号から前記映像データと前記音声データとを抽出する抽出手段と、
前記映像データを、ＭＰＥＧ（Moving Picture Experts Group）−２ＴＳ（Transport Stream）形式で多重化可能な形式の映像パケットデータに変換する映像データ変換手段と、
前記音声データを、ＳＭＰＴＥ（Society of Motion Picture and Television Engineers）３０２Ｍ形式の音声パケットデータに変換する音声データ変換手段と、
前記映像パケットデータと前記音声パケットデータとを多重化することでＭＰＥＧ−２ＴＳ形式に変換して送信する送信手段と、を有し、
前記音声データ変換手段は、前記映像データに対する前記音声データの遅延時間に関する遅延情報を前記音声パケットデータの未使用領域に格納して、ＳＭＰＴＥ３０２Ｍ形式の音声パケットデータに変換することを特徴とする伝送装置。

【図１】