説明

メディア符号化装置及びメディア符号化方法

【課題】メディア多重化の規格に準拠したプレーヤーで同期ずれ無しの再生が可能な形式で複数のメディアデータを多重化するメディア符号化装置及びメディア符号化方法を提供する。
【解決手段】入力される複数のメディアのそれぞれを符号化する複数の符号化手段と、該符号化されたメディアをこれらメディア相互の再生タイミングを合わせながら多重化する多重化手段とを備え、前記多重化手段は、前記符号化手段により符号化された複数のメディアのうち先頭タイミングが遅延している方のメディアに対し、前記遅延分の時間長のダミーデータを挿入して多重化することを特徴とするメディア符号化装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、MP4動画像復号装置等にかかり、複数種類のメディアデータが多重化された複合コンテンツファイルを作成する方法および装置に関する。
【背景技術】
【0002】
近年において、ビデオデータ、オーディオデータ、またはテキストデータなどの複数のメディアデータが多重化された複合コンテンツファイルが、携帯端末向けのコンテンツ配信サービスまたはストリーミング放送などに用いられている。そのような複合コンテンツファイルのファイルフォーマットの1つに、ISO/IEC 14496規格のPart14の項で規定されているMP4(ISO/IEC Part 12 ISO Base Media File Format)ファイルフォーマット(以下「MP4ファイルフォーマット」と記載する)がある。
【0003】
しかしこのMP4には、以下述べるようにタイムスタンプに起因する同期ずれの問題が基本的にある。即ちまずMP4は、ビデオやオーディオなど複数メディアを複数のトラックとして多重化する。この各トラックは、ビデオやオーディオのフレームに相当するサンプルという単位のデータをもつ。このサンプルは、タイムスタンプやデータ長などの情報があり、これらは所定の方式で符号化される。このうち、タイムスタンプはサンプルごとの値が符号化されるのではなく、連続したサンプルのタイムスタンプの差分の値を符号化する。そして先頭のサンプルのタイムスタンプを0として取り扱う。このため、先頭サンプルのタイムスタンプが異なるトラックをそのままMP4に多重化してしまうと、再生時に同期ずれが発生する。
【0004】
この同期ずれの問題に関連しては、MP4を用いストリーム編集で分割や抽出を行った場合に、編集後のストリームにおける各トラックの先頭サンプルのタイムスタンプを、独自データフォーマットで保持する工夫がある(特許文献1参照)。しかしながら特許文献1では独自データフォーマットを適用しているため、独自データフォーマットを解釈可能なプレーヤーでなければ、所望の再生はできない(即ち同期ずれが生じる)という問題があった。これに対し、MP4規格準拠の多重化方法により、規格準拠のプレーヤーであれば所望の再生が可能となるといった対策が待たれていた。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2008−153886号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、メディア多重化の規格に準拠したプレーヤーで同期ずれ無しの再生が可能な形式で複数のメディアデータを多重化するメディア符号化装置及びメディア符号化方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のメディア符号化装置は、入力される複数のメディアのそれぞれを符号化する複数の符号化手段と、該符号化されたメディアをこれらメディア相互の再生タイミングを合わせながら多重化する多重化手段とを備え、前記多重化手段は、前記符号化手段により符号化された複数のメディアのうち先頭タイミングが遅延している方のメディアに対し、前記遅延分の時間長のダミーデータを挿入して多重化することを特徴とする。
【発明の効果】
【0008】
本発明によれば、メディア多重化の規格に準拠したプレーヤーで多重化されている複数メディアの同期ずれ無しの再生が可能な形式で複数のメディアデータを多重化するメディア符号化装置及びメディア符号化方法が得られる。
【図面の簡単な説明】
【0009】
【図1】この発明を適用した場合のマルチメディアファイル処理システムの概略構成を示す図。
【図2】実施形態の装置を示す概略ブロック構成図。
【図3】同実施形態の再生開始時刻の異なるビデオとオーディオストリームを説明するために示す概念図。
【図4】同実施形態のマルチメディアの多重化方法を説明するために示す図。
【図5】同実施形態に用いられるMP4ファイルフォーマットの例を示す図。
【発明を実施するための形態】
【0010】
本発明による実施形態を図1乃至図5を参照して説明する。
図1は、本発明を適用した場合のマルチメディアファイル処理システムの概略構成を示す図である。
図1に示すように、このシステムでは、MP4ファイルフォーマットによる動画像データを送信する送信装置100と、有線或いは無線回線、交換局等から成る通信網200と、上記送信装置100から送信されてきた動画像データを受信し、表示部等に動画像を再生表示する受信装置300とを具えて構成される。
【0011】
ここで、送信装置100は、少なくともエンコーダ111を制御部110に具え、可視トラック(ビデオトラック、テキストトラック等で視覚表示可能なトラック)をプレゼンテーション中に複数持つような動画像をエンコード処理してMP4ファイルフォーマットに変換し、所定の通信パケット[例えば、UDP(User Datagram Protocol)プロトコルを用いたパケット]に挿入して通信網200に送出する。UDP等の上位プロトコルとしてRTP(Real-time Transport Protocol)を機能させてもよい。
【0012】
尚、この送信装置100は、例えば、サーバであり、エンコーダ111は例えばハード及びソフト等から構成されるものとする。送信装置100としては、内部または外部にチューナ(図示せず)を有し選局された放送信号から、エンコード処理の対象となる信号を分離する構成であってもよい。またこの分離までに更に信号の記録および再生を含む工程を持つものであってもよい。
【0013】
また、受信装置300は、少なくともデコーダ321を制御部320に具え、上記送信装置100及び通信網200を介して受信したパケットからMP4ファイルフォーマットのデータを抽出し、該抽出したMP4ファイルフォーマットのデータに基づき表示部310に動画像等のプレゼンテーションを表示する。
【0014】
尚、この受信装置300は、例えば、パーソナルコンピュータ(PC)や携帯端末であり、デコーダ321は例えばハード及びソフト等から構成される。
図2は、実施形態の装置を示す概略ブロック構成図である。図2は、上記エンコーダ111に相当する機能ブロック図であり、ビデオ符号化部1、オーディオ符号化部2、ストリーム多重部3を備えている。
【0015】
ビデオ符号化部1は、入力ビデオ信号を所定のビデオ符号化方式のビデオストリームに符号化し、ストリーム多重部3へ出力する。
オーディオ符号化部2は、入力オーディオ信号を所定のオーディオ符号化方式のオーディオストリームに符号化し、ストリーム多重部3へ出力する。
ストリーム多重部3は、入力されたオーディオストリームとビデオストリームをMP4ファイルフォーマットの多重ストリームに変換し、出力する。ストリーム多重部3は、後述のようにダミーサンプルを挿入して多重化処理を行なうよう構成されている。
【0016】
ところでMP4のシステムレイヤでは、複数種類のメディア(メディアデータ)が混在し、メディアの再生条件などの情報が格納されているヘッダ部と、メディアのストリームのみが格納されているメディアデータ部とが設けられる。この点において、MP4は、MPEG−2 PS、またはTSのようなシステムレイヤと異なっている。
【0017】
図5は従来からのMP4ファイルフォーマットFT1の例を示す図である。一般にMP4ベースメディアファイルフォーマットのボックス構造は木構造をとる。主なボックスについては次のようになっている。
【0018】
ftyp boxは、ファイルタイプの記述であり、ファイルの先頭にただ一つだけ含まれる。
ムーブボックスmoov boxは、全てのメタデータを含むコンテナであり、ファイル中にただ一つだけ含まれる。メタデータとして含まれる情報としては、各トラック(動画、音声など)のヘッダ情報やコンテンツの内容のメタ記述、時刻情報などが含まれる。
【0019】
メディアデータボックスmdat boxは、トラックのメディアデータ本体のコンテナであり、ファイル中のmdat boxの数は任意である。すなわち、動画と音声、動画だけ、音声だけ、あるいは複数の種類のトラックを同時に含む、などのように、任意のトラック構成を持てるようになっている。
【0020】
図5で、MP4ファイルフォーマットFT1のファイルタイプボックスBXAには、そのファイルの互換性を示す情報が保存されている。ヘッダ部であるムーブボックスBXBには、メディアデータボックスBXCに保存される各メディアデータの再生条件に関する情報として、メディアフレームの位置情報、上記のように時間情報、およびサイズ情報などが保存される。メディアデータボックスBXCには、ビデオデータ、オーディオデータ、またはテキストデータなどのメディアデータが保存される。
【0021】
推奨される方法として一般には、ビデオとオーディオの圧縮データはmdat boxの中に交互に格納される(インターリーブ)。例えばビデオとオーディオとが各1データの場合に、まずビデオデータを連続して並べ次にオーディオデータを連続してならべたりはしないが、本発明との関連は薄いので詳細は省略する。図5では、ヘッダ情報のmoov boxが、mdat boxより前に存在する。ただし規格では、ftyp boxはすでにファイルの先頭と述べたが、これら2種のboxはどの順番で格納してもよいことになっている。moov boxの内容は、mdat boxの内容が固まった後でしか作れないので、moov boxが後に存在することがあるのは不自然ではない。
【0022】
各BOX情報は、独立しているものの他に、絡み合っているものもある。例えば、mdat box中でどこがビデオとオーディオの切れ目になるかは、mdat boxのデータだけでは分からない。以下moov boxの内部構造の詳細は図示しないが、ビデオとオーディオの切れ目を知るためには、「stsc」、「stco」の内容を参照しなければならない。デコーダは、さらに「stsz」の内容を参照し、この3つのBOX情報からフレームごとのデータの位置とサイズを知る。
【0023】
再生時にビデオとオーディオの同期を取るには「stts」を参照してビデオの各フレーム、オーディオフレーム(格納単位)ごとの再生時間、さらに再生すべき時刻を取得する。「stts」を適切に利用すると、フレームごとに再生時間が異なるデータ、つまり可変フレームレートのデータ作成が可能になる。
【0024】
図5の一番上にあるftyp boxには、ファイルタイプの記述の中にこのファイルの互換性を示す情報が格納されている。MP4ファイルフォーマットは、かなり自由度が高く、また、格納されるビデオ・オーディオデータも様々である。複数の形式のデータが混在した際に、それぞれに最適なプレーヤー(デコーダ)や再生方法を割り当てるために、このファイルの互換性を示す情報を用いる。
【0025】
なお、MP4ファイルフォーマット自体は、ファイルへ格納するためのフォーマットなのでストリーミング配信には適さないとされている。MP4ファイルをストリーミングする場合は、一般にRTP(Real-time Transport Protocol)などのフォーマットに変換する。ストリーミング配信時にストリーミング用のフォーマットへの変換を容易にするためのオプション情報として、ヒントトラックがRTP等の規格の一部として規定されている。このRTP配信用のヒントトラックには、RTPヘッダなどの情報を格納する。
【0026】
MP4ファイルフォーマットでは、時間情報として、各メディアフレームについての再生時間ではなく再生時間長が保存されている。つまり、時間情報として、ビデオデータの1フレーム目を○○ミリ秒間再生する、2フレーム目を△△ミリ秒間再生する、といった情報が保存されている。したがって、ビデオはビデオデータの再生時間長によって再生され、オーディオはオーディオデータの再生時間長によって再生されるが、再生タイミングを別途とる必要がある。
【0027】
例えば携帯端末のユーザは、このようなMP4ファイルフォーマットの複合コンテンツファイルを、自分の携帯端末で配信を受けて再生することができる。
MP4多重処理は,ビデオやオーディオなど複数メディアをトラックとして多重する。このときMP4には、タイムスタンプに起因する同期ずれの問題が基本的にある。先頭データ即ち先頭サンプルのタイムスタンプが異なる複数のトラックを本実施形態のような工夫なしに単純にMP4に多重化してしまうと、再生時に同期ずれが発生する。
【0028】
図3は、実施形態の再生開始時刻の異なるビデオとオーディオストリームを説明するために示す図である。また図4は、実施形態のマルチメディアの多重化方法を説明するために示す図である。
【0029】
各トラックは、ビデオやオーディオのフレームに相当するサンプルという単位のデータをもつ。サンプルは、タイムスタンプやデータ長などの情報があり、これらは所定の方式で符号化される。このうち、タイムスタンプはサンプルごとの値が符号化されるのではなく、連続したサンプルのタイムスタンプの差分の値を符号化する。そして先頭のサンプルのタイムスタンプを0として取り扱う。このため、図3に示すような先頭サンプルのタイムスタンプが異なりギャップ(AS−VS)のあるトラックをそのままMP4に多重してしまうと、図4(a)に示す通り再生時に同期ずれが発生する。この図4(a)の例では時間順にビデオでV1,V2,V3の区間があり、オーディオでA2,A3の区間がある。ビデオでV2,V3の区間と、オーディオでA2,A3の区間とはそれぞれ再生時間が対応しているが、先頭サンプルのタイムスタンプは異なる。
【0030】
そこで、先頭サンプルのタイムスタンプが異なるトラックを多重する場合には、図4(b)に示す実施形態のように先頭サンプルのタイムスタンプが遅いトラックにダミーサンプルを挿入し、ビデオとオーディオとの先頭サンプルのタイムスタンプをそろえてから多重を行う。
【0031】
入力されたオーディオストリームとビデオストリームの先頭サンプル(フレーム)のタイムスタンプが異なる場合には、先頭サンプルのタイムスタンプが遅いトラックにダミーサンプルを挿入し、このダミーサンプルのタイムスタンプを、先頭サンプルのタイムスタンプが早いトラックの先頭サンプルのタイムスタンプと同じにし、先頭サンプルのタイムスタンプをそろえてから多重を行う。この例ではオーディオストリームが遅いトラックであり、ダミーサンプルADを挿入している。ADの時間長は図3に示したギャップに等しくなるようにする。一般には、遅いトラックが複数あれば各々適切な時間長でダミーサンプルを作成・挿入すればよい。
【0032】
ここで挿入するダミーサンプルは、オーディオ符号化部2やビデオ符号化部1がなくても生成可能なサンプルであることが望ましい。
ビデオの場合は、単一色フレームや先頭フレームへのフェードイン画像が考えられ、ビデオ符号化方式がH.264/AVCの場合、イントラDC予測のみで符号化されたフレームとすればグレーフレーム(黒一色フレームでも可)を生成・活用でき、先頭フレームを参照フレームとし重みづけ予測を使用することでフェードイン画像が生成できる。オーディオの場合は、無音フレームが好適である。
【0033】
これらの符号化データをあらかじめストリーム多重部3で持ち合わせておき、上記の場合に挿入すればよい。なお本実施例では、オーディオとビデオの多重のみ示したが、その他の字幕文、文字データなどのテキストデータや静止画の多重においても同様である。
【0034】
上記実施形態の効果として、複数トラックを含むMP4ストリームを再生する際に、ストリーム以外の情報なしに、複数トラックで同期のとれた再生が可能となる。以上をまとめると次のようになる。
【0035】
<背景・課題>
マルチメディアの記録フォーマットとしてMP4がある。
MP4は、ビデオやオーディオなど複数メディアをトラックとして多重する。各トラックは、ビデオやオーディオのフレームに相当するサンプルという単位のデータをもつ。
【0036】
サンプルは、タイムスタンプやデータ長などの情報があり、これらを所定の方式で符号化される。
このうち、タイムスタンプはサンプルごとの値が符号化されるのではなく、連続したサンプルのタイムスタンプの差分の値を符号化する。そして先頭のサンプルのタイムスタンプを0として取り扱う。
【0037】
このため、先頭サンプルのタイムスタンプが異なるトラックをそのままMP4に多重してしまうと、再生時に同期ずれが発生する。
<解決手段>
トラックの先頭にダミーサンプルを挿入する。
ダミーサンプルは再生障害の起因とならないもの、ビデオであれば黒フレーム、オーディオであれば無音、またはトラック先頭サンプルへのフェードインなどが好適である。
【0038】
<効果>
MP4ストリームのみで、同期のとれた複数トラックのコンテンツを再生できる。MP4規格準拠のプレーヤーで再生可能である。
実施形態の効果として、複数トラックを含むMP4ストリームを再生する際に、ストリーム以外の情報なしに、複数トラックで同期のとれた再生が可能となる。
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係わる構成要素を適宜組み合わせても良いものである。
【符号の説明】
【0039】
1 ビデオ符号化部
2 オーディオ符号化部
3 ストリーム多重部
100 送信装置
110 制御部
111 エンコーダ
200 通信網
300 受信装置
310 表示部
320 制御部
321 デコーダ
330 操作部

【特許請求の範囲】
【請求項1】
入力される複数のメディアのそれぞれを符号化する符号化手段と、
該符号化されたメディアをこれらメディア相互の再生タイミングを合わせながら多重化する多重化手段とを備え、
前記多重化手段は、前記符号化手段により符号化された複数のメディアのうち先頭タイミングが遅延している方のメディアに対し、前記遅延分の時間長のダミーデータを挿入して多重化することを特徴とするメディア符号化装置。
【請求項2】
前記多重化手段による多重化は、MP4(ISO/IEC Part 12 ISO Base Media File Format)ファイル形式によることを特徴とする請求項1記載のメディア符号化装置。
【請求項3】
前記符号化がビデオ符号化である場合このビデオ符号化で用いられる符号化処理は、H.264/AVC方式によることを特徴とする請求項1記載のメディア符号化装置。
【請求項4】
更に放送信号を受信し選局をおこなうチューナを備え、このチューナの出力を前記入力される複数のメディアとして用いることを特徴とする請求項1記載のメディア符号化装置。
【請求項5】
入力される複数のメディアのそれぞれを符号化し、
該符号化されたメディアをこれらメディア相互の再生タイミングを合わせながら多重化し、
前記符号化された複数のメディアのうち先頭タイミングが遅延している方のメディアに対し、前記遅延分の時間長のダミーデータを挿入して多重化することを特徴とするメディア符号化方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−155538(P2011−155538A)
【公開日】平成23年8月11日(2011.8.11)
【国際特許分類】
【出願番号】特願2010−16228(P2010−16228)
【出願日】平成22年1月28日(2010.1.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】