説明

MXF処理装置

【課題】この発明は、映像と音声の同期を取り、且つ、回路規模の拡大を抑制することが可能なMXF処理装置を提供することを目的とする。
【解決手段】入力されたMXFファイルを、圧縮された映像ストリームと非圧縮の音声データとに分離する。前記圧縮された映像ストリームをデコードして映像データにすると共に垂直同期信号を生成する。映像バッファは前記映像データを表示順に並べ替えて保持する。音声バッファは前記非圧縮の音声データを入力順に保持する。前記垂直同期信号に基づいて同期信号を生成し、前記映像バッファと前記音声バッファとに同時に出力する。前記映像バッファは、前記映像データが保持された後出力イネーブル信号を出力し、その後、前記同期信号の入力を契機に保持された映像データを出力する。前記音声バッファは、前記出力イネーブル信号が入力された後、前記同期信号の入力を契機に保持された音声データを出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、MXFファイルを入力し、映像データと音声データとを出力するMXF処理装置に関する。
【背景技術】
【0002】
映像ファイルフォーマットにメタデータを埋め込むために、MXF(Material eXchange Format)ファイルを用いた技術が標準化されている。図1は、MXFファイルの構成について説明するための図である。図1において、“File Header”には、ヘッダ(Header)を特定するためのデータや、ファイルの作成日などのメタデータが格納されている。“File Body”には、1フレーム分の映像と音声で構成される“Edit Unit”が複数個格納されている。“File Footer”には、フッタ(Footer)を特定するためのデータが格納されている。“Edit Unit”中、映像フレームのメタデータは“System Item”に格納され、1フレーム分の映像は“Picture Item”に格納され、“Picture Item”に格納された映像における1フレーム分の音声が複数チャンネル多重化されて“Sound Item”に格納される。必要なユーザデータは“Data Item”にオプションで格納される。
【0003】
MXFに格納する映像は圧縮方式に依存していないため、どのような圧縮方式でも格納することができる。これに対し、扱う音声が非圧縮音声(ASE3、BWF)の場合は、MXFに格納されるのは非圧縮音声となる。映像は、デコード時に並べ替えを行うため、出力時間を管理するためにタイムスタンプが付与されるが、音声は非圧縮で並べ替えの必要がないためタイムスタンプが付与されていない。そのため、映像と音声の出力タイミングが合わなくなり、映像と音声がずれてしまうおそれがあった。
【0004】
この課題に対し、例えば特許文献1には、非圧縮音声データに対しタイムスタンプを付加し、音声データを遅延させることによって、映像と音声の同期を管理する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2008−506282号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載の技術を使用した場合、非圧縮音声データにタイムスタンプを付加し、遅延させるための構成が必要となる。さらに、MXF規格では、現在7種類の転送方式(Operation Pattern:以下、OPと記す。)が規定されており、用いるOPの規格に応じたタイムスタンプを付加する必要がある。そのため、処理が複雑化し回路規模が拡大するという課題がある。
【0007】
この発明は、上述のような課題を解決するためになされたもので、MXFファイルを用いて伝送した映像と音声を出力する際に、映像と音声の同期を取り、且つ、回路規模の拡大を抑制することが可能なMXF処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
第1の発明は、上記の目的を達成するためのMXF処理装置であって、入力されたMXFファイルを、圧縮された映像ストリームと非圧縮の音声データとに分離する分離部と、前記圧縮された映像ストリームをデコードして映像データにすると共に垂直同期信号を生成するデコード部と、前記映像データを表示順に並べ替えて保持する映像バッファと、前記非圧縮の音声データを入力順に保持する音声バッファと、前記垂直同期信号に基づいて同期信号を生成し前記映像バッファと前記音声バッファとに同時に出力する同期信号生成部とを備える。また、前記映像バッファは、前記映像データが保持された後、出力イネーブル信号を出力する手段と、前記出力イネーブル信号が出力された後、前記同期信号生成部から入力される前記同期信号を契機に保持された映像データを出力する映像データ出力手段とを更に備える。加えて、前記音声バッファは、前記出力イネーブル信号が入力された後、前記同期信号生成部から入力される前記同期信号を契機に保持された音声データを出力する音声データ出力手段を更に備えることを特徴とする。
また、第2の発明は、第1の発明において、前記音声データ出力手段は、前記同期信号が入力された後、所定時間の経過を待って音声データを出力することを特徴とする。以下、第1及び第2の発明を単に本発明ともいう。
【0009】
本発明は、映像データと音声データの同期を取るために、各フレームに用意されている垂直同期信号を利用する。具体的には、まず、MXFファイルの構成に基づくMXFストリームは“Edit Unit”単位で、圧縮された映像ストリームと非圧縮の音声データとに分離される。映像ストリームはデコーダに、音声データは音声バッファに出力される。音声データは非圧縮データのためデコード不要であり、入力順に音声バッファに保持される。一方、映像ストリームはデコードされた後、映像データとして映像バッファに出力される。このとき、デコーダは垂直同期信号を生成し同期信号生成部に出力する。同期信号生成部は、垂直同期信号に基づいて同期信号を生成し、映像バッファと音声バッファとに同時に出力する。映像バッファは、映像データを表示順に並べ替え、出力可能となった時点で、音声バッファに出力イネーブル信号を出力する。そして、映像バッファは出力イネーブル信号を出力した後に、音声バッファは出力イネーブル信号を入力した後に、同期信号生成部からの同期信号が入力されると、保持している映像データ及び音声データを出力する。これによって、映像と音声の同期制御が可能になる。
【発明の効果】
【0010】
本発明を用いることにより、映像と音声の同期を取って出力する際に、非圧縮音声データにタイムスタンプを付加する構成や、遅延処理を行うための構成が必要なくなる。さらに、タイムスタンプが付加されないため、OPに応じてタイムスタンプを付加する処理も必要とならない。このため、本発明によれば、映像と音声の同期を取り、且つ、回路規模の拡大を抑制することができる。
【図面の簡単な説明】
【0011】
【図1】MXFファイルの構成について説明するための図である。
【図2】本発明の実施の形態1に係るMXF処理装置の構成を説明するためのブロック図である。
【図3】MXF処理装置10の処理フローを説明するためのフローチャートである。
【図4】プログレッシブ方式におけるMXF処理装置10のデータ管理の様子を説明するための図である。
【図5】インタレース方式におけるMXF処理装置10のデータ管理の様子を説明するための図である。
【図6】本発明の実施の形態3に係るMXF処理装置の構成を説明するためのブロック図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態について詳細に説明する。尚、各図において共通する要素には、同一の符号を付して重複する説明を省略する。
【0013】
実施の形態1.
[MXF処理装置の構成]
図2は、本発明の実施の形態1に係るMXF処理装置の構成を説明するためのブロック図である。図2に示すMXF処理装置10は、MXFファイルの構成に基づくMXFストリームが入力される入力部と、映像データ及び音声データを出力する出力部とを備えている。MXF処理装置10は、内部にDEMUX12、デコーダ14、同期信号生成部16、映像バッファ18及び音声バッファ20を備えている。なお、MXF処理装置10は、その処理を実現するための図示省略する演算処理部、メモリ部、電力供給部などを当然に具備する。
【0014】
DEMUX12の入力側は、MXF処理装置10の入力部に接続され、出力側はデコーダ14の入力側と音声バッファ20の入力側とに接続されている。デコーダ14の出力側は、同期信号生成部16の入力側と映像バッファ18の入力側とに接続されている。同期信号生成部16の出力側は、映像バッファ18の入力側と音声バッファ20の入力側とに接続されている。映像バッファ18の出力側は、音声バッファ20の入力側とMXF処理装置10の出力部とに接続されている。音声バッファ20の出力側は、MXF処理装置10の出力部に接続されている。
【0015】
各部における処理の概要について説明する。DEMUX12は、入力されたMXFストリームを“Edit Unit”単位で映像ストリームと音声データとに分離する。映像ストリームはデコーダ14に出力され、音声データは音声バッファ20に出力される。映像ストリームは圧縮データであり、デコーダ14は、入力された映像ストリームに対しデコード処理を行って映像データにすると共に、“Edit Unit”単位で垂直同期信号(Vsync)を生成して同期信号生成部16に出力する。同期信号生成部16は、デコーダから垂直同期信号が入力される度に、垂直同期信号を基に同期信号を生成し、映像バッファ18と音声バッファ20とに同時に出力する。
【0016】
デコーダ14においてデコード処理された後の映像データは、映像バッファ18に保持(記憶)される。映像バッファ18は、デコーダ14から出力された映像データを表示順に並べ替えて保持する。そして、1つの“Edit Unit”分の映像データが出力可能になると、音声バッファ20に対し出力イネーブル信号を出力する。
【0017】
一方、音声データは非圧縮データであり、デコード及び並べ替えが不要である。そのため、音声バッファ20は、DEMUX12によって分離された音声データを入力順に保持(記憶)する。そして、映像バッファ18からの出力イネーブル信号が入力されるのを待つ。
【0018】
映像バッファ18は、出力イネーブル信号を出力した後、同期信号生成部16から入力される同期信号を契機に、保持している映像データを出力する。音声バッファ20は、映像バッファ18からの出力イネーブル信号が入力された後、同期信号生成部16からの同期信号を契機に、保持している音声データを出力する。これにより、MXF処理装置10の出力部から、映像データと音声データとがタイミングを合わせて出力される。なお、映像バッファ18及び音声バッファ20は、このような処理を実現するために必要な演算機能及び記憶機能を有している。
【0019】
[処理フロー]
次に、図3、図4を用いて、本実施形態のMXF処理装置10において実行される同期制御の処理フローについて説明する。図3は、MXF処理装置10の処理フローを説明するためのフローチャートである。図4は、MXF処理装置10のデータ管理の様子を説明するための図である。
【0020】
図3に示す処理フローでは、まずステップS301において、MXF処理装置10の入力部にMXFファイル形式に基づくMXFストリームが入力される。具体的には、図4(a)に示すようなMXFストリームがMXF処理装置10に入力される。図4(a)に示す各ボックスは1フレームの情報を表している。
【0021】
入力されたMXFストリームは、DEMUX12において映像ストリームと音声データとに分離される(ステップS302)。具体的には、DEMUX12は、MXFストリームを図4(b)に示すように“Edit Unit”単位(フレーム単位)で映像ストリームと音声データとに分離する。DEMUX12は、分離した映像ストリームをデコーダ14に出力する。デコーダ14は、入力された映像ストリームを図4(c)に示すように復号順に並べ替えた後、デコードし映像データとする(ステップS303)。
【0022】
また、デコーダ14は、デコード時に映像データから垂直同期信号(Vsync)を生成する(ステップS304)。垂直同期信号は、映像データに多重化されている同期信号SAV(Start of Active Video)と、EAV(End of Active Video)とを用いて生成される。SAV及びEAVから垂直同期信号を生成する手法は、既存技術であるため詳細な説明は省略するが、プログレッシブ方式の場合は1フレームごと、インタレース方式の場合は1フィールドごとに垂直同期信号をデコーダ14で生成する。なお、図4はプログレッシブ方式のデータ管理の様子を表している。
【0023】
生成した垂直同期信号は、同期信号生成部16に出力される(ステップS305)。同期信号生成部16は、受信した垂直同期信号を基に同期信号を1フレームごとに生成する。生成された同期信号は、図4(g)に示すように1フレームごとに映像バッファ18と音声バッファ20とに同時に出力される(ステップS306)。
【0024】
また、デコーダ14は、ステップS303におけるデコード後の映像データを映像バッファ18に出力する(ステップS307)。映像バッファ18は、デコード後の映像データに対しタイムスタンプを付加し、図4(d)に示すように、出力順(表示順)に並べ替えを行い記憶する(ステップS308)。映像バッファ18は、1フレーム分の映像データが出力可能となったら、出力イネーブル信号を音声バッファ20に出力する(ステップS309)。
【0025】
また、ステップS302において映像ストリームと分離された音声データは、非圧縮データであり、映像のようにデコードや並べ替えの必要がない。そのため、音声データは、図4(e)に示すように入力順に音声バッファ20に記憶される(ステップS310)。なお、音声データは、デコードが不要であるため、図4(e)及び図4(d)に示すように映像データが映像バッファ18に記憶されるよりも先に音声バッファ20に記憶される。
【0026】
映像バッファ18は、出力イネーブル信号を出力した後、同期信号生成部16から同期信号が入力されるまで映像データを保持する。また、音声バッファ20は、映像バッファ18から出力イネーブル信号が入力された後、同期信号生成部16から同期信号が入力されるまで音声データを保持する。
【0027】
同期信号生成部16から同期信号が入力されると(ステップS311、ステップS312)、図4(f)に示すように、同期信号のタイミングで、映像バッファ18は1つの“Edit Unit”(1フレーム)分の映像データの出力を行う(ステップS313)。同時に、音声バッファ20も、1つの“Edit Unit”(1フレーム)分の音声データの出力を行う(ステップS313)。これによって、MXF処理装置10は、Edit Unit”単位で映像と音声の出力タイミングを合わせることができる。
【0028】
以上説明したように、本発明によれば、垂直同期信号を利用して“Edit Unit”単位(フレーム単位)で映像と音声との同期を合わせて出力することが可能となる。また、本発明によれば、非圧縮の音声ファイルにタイムスタンプを付す必要がなく、回路規模の拡大を抑制しつつ映像と音声の同期を取ることが可能となる。
【0029】
尚、上述した実施の形態1においては、DEMUX12が前記第1の発明における「分離部」に、デコーダ14が前記第1の発明における「デコード部」に、同期信号生成部16が前記第1の発明における「同期信号生成部」に、映像バッファ18が前記第1の発明における「映像バッファ」に、音声バッファ20が前記第1の発明における「音声バッファ」に、それぞれ相当している。また、ここでは、映像バッファ18が上記ステップS309の処理を実行することにより前記第1の発明における「出力イネーブル信号を出力する手段」が、映像バッファ18が上記ステップS311及びS313の処理を実行することにより前記第1の発明における「映像データ出力手段」が、音声バッファ20が上記ステップS312及びS313の処理を実行することにより前記第1の発明における「音声データ出力手段」が、それぞれ実現されている。なお、この点は以下の実施の形態でも同様である。
【0030】
実施の形態2.
次に、図5を参照して本発明の実施の形態2について説明する。上述した実施の形態1ではプログレッシブ方式(図4)に対応させた例について説明したが、本発明は垂直同期信号(Vsync)の発生をデータ処理単位としているため、プログレッシブ方式だけではなく、1フレーム内にトップフィールドとボトムフィールドの2個のフィールドが存在するインタレース方式にも対応させることができる。これは、垂直同期信号が1フレームもしくは1フィールドごとに生成されるためであり、垂直同期信号を検出することによって、フレーム数、フィールド数を把握することができるためである。垂直同期信号を用いることによって、“Edit Unit”単位での出力を行うことが可能になる。
【0031】
インタレース方式における同期制御について説明する。インタレース方式の場合は、映像が2個のフィールドに分かれている。そのため、デコード時の垂直同期信号の生成は、1フィールドに1個の垂直同期信号となり、1フレームに2個の垂直同期信号が生成される。同期信号生成部16では、垂直同期信号の入力ごとに、同期信号を生成し、映像バッファ18と音声バッファ20とに同時に出力する。同期信号を受信すると、映像バッファ18は1フィールド分の映像データを、音声バッファ20は1フィールド分の音声データを出力する。このように、インタレース方式にも対応することができる。
【0032】
より具体的な同期制御の処理内容について図5を用いて説明する。図5は、インタレース方式におけるMXF処理装置10のデータ管理の様子を説明するための図である。本実施形態における同期制御は、図2に示す構成において、図5に示すインタレース方式のデータに基づいて図3に示す処理フローを実施させることで実現することができる。図2、図3に示す構成及び処理は実施の形態1で述べたものと略同様であるため、共通する説明は省略又は簡略する。
【0033】
図3に示す処理フローでは、まずステップS301において、MXF処理装置10の入力部にMXFファイル形式に基づくMXFストリームが入力される。具体的には、図5(a)に示すようなMXFストリームがMXF処理装置10に入力される。インタレース方式におけるMXFファイルは、“Edit Unit”が1フィールドごとに構成されており、図5(a)に示す各ボックスは1フィールドの情報を表している。
【0034】
入力されたMXFストリームは、DEMUX12において映像ストリームと音声データとに分離される(ステップS302)。具体的には、DEMUX12は、MXFストリームを図5(b)に示すように“Edit Unit”単位(フィールド単位)で映像ストリームと音声データとに分離する。上述の通り、インタレース方式における“Edit Unit”は、フィールドごとに構成されているため、トップフィールドの映像とトップフィールドの音声が対になっており、例えば、トップフィールドの映像ストリームB0(Top)とトップフィールドの音声データ#0(Top)とに分離される。ボトムフィールドについても同様に、ボトムフィールドの映像ストリームB0(Bottom)とボトムフィールドの音声データ#0(Bottom)とに分離される。
【0035】
DEMUX12は、分離した映像ストリームをデコーダ14に出力する。デコーダ14は、入力された映像ストリームを図5(c)に示すように復号順に並べ替えた後、デコードし映像データとする(ステップS303)。
【0036】
また、デコーダ14は、デコード時に映像データから垂直同期信号(Vsync)を生成する(ステップS304)。例えば、デコーダ14は、入力された映像ストリームB0(Top)からデコード時に垂直同期信号Vsync(0T)を生成する。垂直同期信号は1フィールドごとに生成される。
【0037】
生成した垂直同期信号は、同期信号生成部16に出力される(ステップS305)。同期信号生成部16は、受信した垂直同期信号を基に同期信号を1フィールドごとに生成する。例えば、垂直同期信号Vsync(0T)を基に同期信号S(0T)が生成される。生成された同期信号は、図5(g)に示すように1フィールドごとに映像バッファ18と音声バッファ20とに同時に出力される(ステップS306)。
【0038】
また、ステップS307の処理後、映像バッファ18は、デコード後の映像データに対しタイムスタンプを付加し、図5(d)に示すように、出力順(表示順)(B0(Top)→B0(Bottom)→・・・)に並べ替えを行い記憶する(ステップS308)。映像バッファ18は、1フィールド分の映像データB0(Top)が出力可能となったら、出力イネーブル信号を音声バッファ20に出力する(ステップS309)。
【0039】
また、ステップS302において映像ストリームと分離された音声データは、非圧縮データであり、映像のようにデコードや並べ替えの必要がない。そのため、音声データは、図5(e)に示すように入力順(#0(Top)→#0(Bottom)→・・・)に音声バッファ20に記憶される(ステップS310)。なお、音声データは、デコードが不要であるため、図5(e)及び図5(d)に示すように映像データが映像バッファ18に記憶されるよりも先に音声バッファ20に記憶される。
【0040】
映像バッファ18は、出力イネーブル信号を出力した後、同期信号生成部16から同期信号S(0T)が入力されるまで映像データB0(Top)を保持する。また、音声バッファ20は、映像バッファ18から出力イネーブル信号が入力された後、同期信号生成部16から同期信号S(0T)が入力されるまで音声データ#0(Top)を保持する。
【0041】
同期信号生成部16から同期信号S(0T)が入力されると(ステップS311、ステップS312)、図5(f)に示すように、同期信号のタイミングで、映像バッファ18は1つの“Edit Unit”(1フィールド)分の映像データB0(Top)の出力を行う(ステップS313)。同時に、音声バッファ20も、1つの“Edit Unit”(1フィールド)分の音声データ#0(Top)の出力を行う(ステップS313)。これによって、MXF処理装置10は、Edit Unit”単位で映像と音声の出力タイミングを合わせることができる。
【0042】
以上説明したように、本発明によれば、垂直同期信号を利用して“Edit Unit”単位(フィールド単位)で映像と音声との同期を合わせて出力することが可能となる。また、本発明によれば、非圧縮の音声ファイルにタイムスタンプを付す必要がなく、回路規模の拡大を抑制しつつ映像と音声の同期を取ることが可能となる。
【0043】
実施の形態3.
次に、図6を参照して本発明の実施の形態3について説明する。上述した実施の形態1では、同期信号を契機にして映像バッファ18と音声バッファ20から映像データと音声データを出力することとしている。しかし、映像データが1フレーム分の表示準備が整ってから出力されるのに対し、音声データは入力順に出力されるため、その情報量の関係から、映像よりも音声が先に出力されてしまい、映像と音声の同期ずれが発生する可能性もある。これは、会話のシーンを例に挙げた場合、扱う情報量の関係から、時間的に音声がわずかに先に届き、その後、映像が遅れて到着することで、誤差レベルの影響であるが開いての話している声と唇の動きが一致しないといった現象に繋がる。
【0044】
これを防ぐため、本実施形態では、音声バッファ20から音声データを出力する際に、同期信号の入力を契機に即時に出力するのではなく、同期信号の入力から任意のタイミングを遅らせた後に出力することとした。
【0045】
図6は、本実施形態に係るMXF処理装置10の構成を説明するためのブロック図である。本実施形態における同期制御は、図6に示す構成において、図3に示す処理フローを実施させることで実現することができる。図6に示す構成のうち図1と共通する構成についてはその説明を省略又は簡略する。
【0046】
図6に示す通り、音声バッファ20は、音声管理部22内に含まれている。また、音声バッファ20の入力側には、クロックカウンタ24が接続されている。本実施形態では、図6に示す構成において、音声バッファ20は、映像バッファ18から出力イネーブル信号が入力され、同期信号生成部16から同期信号が入力された後、クロックカウンタ24で所定のカウント値が経過した後に音声データを出力する。例えば、同期信号を入力後、nクロックの経過後に音声データを出力する。なお、クロックカウンタ24で計測するカウント値(クロック数)は、実験値から求めた値を用いれば良い。
【0047】
本実施形態の処理フローは実施の形態1で説明した図3と同様であるため、その詳細な説明は省略するが、音声バッファ20は、ステップS312において、同期信号を入力後、クロックカウンタ24に設定されたカウント値の経過を待った後、1つの“Edit Unit”分の音声データの出力を行う(ステップS313)。これによって、リップシンク(映像、音声同期ずれ補正)を行うことが可能になる。なお、本実施形態の構成は、上述した実施の形態2についても同様に適用可能である。
【符号の説明】
【0048】
10 MXF処理装置
12 DEMUX
14 デコーダ
16 同期信号生成部
18 映像バッファ
20 音声バッファ
22 音声管理部
24 クロックカウンタ
Vsync 垂直同期信号

【特許請求の範囲】
【請求項1】
入力されたMXF(Material eXchange Format)ファイルを、圧縮された映像ストリームと非圧縮の音声データとに分離する分離部と、
前記圧縮された映像ストリームをデコードして映像データにすると共に、垂直同期信号を生成するデコード部と、
前記映像データを表示順に並べ替えて保持する映像バッファと、
前記非圧縮の音声データを入力順に保持する音声バッファと、
前記垂直同期信号に基づいて同期信号を生成し、前記映像バッファと前記音声バッファとに同時に出力する同期信号生成部と、を備え、
前記映像バッファは、
前記映像データが保持された後、出力イネーブル信号を出力する手段と、
前記出力イネーブル信号が出力された後、前記同期信号生成部から入力される前記同期信号を契機に保持された映像データを出力する映像データ出力手段と、を更に備え、
前記音声バッファは、
前記出力イネーブル信号が入力された後、前記同期信号生成部から入力される前記同期信号を契機に保持された音声データを出力する音声データ出力手段、を更に備えること、
を特徴とするMXF処理装置。
【請求項2】
前記音声データ出力手段は、前記同期信号が入力された後、所定時間の経過を待って音声データを出力すること、
を特徴とする請求項1記載のMXF処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−84972(P2012−84972A)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2010−227485(P2010−227485)
【出願日】平成22年10月7日(2010.10.7)
【出願人】(591230295)NTTエレクトロニクス株式会社 (565)
【Fターム(参考)】