説明

オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法

【課題】オブジェクト基盤オーディオサービスの機能を増大させてオーディオコンテンツファイルの各オブジェクトへのアクセスの容易性を増加させるための、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法を提供する。
【解決手段】多重オブジェクトオーディオコンテンツファイル生成方法は、オーディオコンテンツを構成するそれぞれのオブジェクトに対して複数のフレームを生成するフレーム化ステップと、生成されたフレームを再生時刻を基準としてグループ化して格納することによって多重オブジェクトオーディオコンテンツファイルを生成するコンテンツファイル生成ステップとを含む。オブジェクト基盤オーディオサービスの機能を増大させ、オーディオコンテンツファイルの各オブジェクトへのアクセスの容易性を増加させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法に関し、より詳細には、オブジェクト基盤オーディオサービスの機能を増大させてオーディオコンテンツファイルの各オブジェクトへのアクセスの容易性を増加させるための、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法に関する。
【背景技術】
【0002】
TV放送、ラジオ放送、DMBなどのような放送サービスを介して提供されるオーディオ信号は、様々な音源から取得されたオーディオ信号が合成されて1つのオーディオ信号として格納/送信されるものである。
【0003】
このような環境では、視聴者が全体オーディオ信号の強度などを調節することは可能であるが、オーディオ信号内に含まれた各音源別にオーディオ信号の強度を調節するなどのような、音源別のオーディオ信号の特性制御は不可能である。
【0004】
しかしながら、オーディオコンテンツを著作するときに、各音源別にオーディオ信号を合成せずに独立的に格納するとすれば、コンテンツ再生端末では各音源別のオーディオ信号に対する強度などを制御しながら該当のコンテンツを視聴できるようになる。このように、格納/送信端で複数のオーディオ信号を独立的に格納/送信し、視聴者が受信機(コンテンツ再生端末)でそれぞれのオーディオ信号を適切に制御しながら聴取できるようにするオーディオサービスを「オブジェクト基盤オーディオサービス」と言う。
【0005】
このようなオブジェクト基盤オーディオコンテンツには、既存のMP3、AAC(Advanced Audio Coding)などの音楽ファイルとは異なり、複数のオーディオオブジェクトが含まれている。MPEG−4システム規格(ISO/IEC14496−1)では、複数のオブジェクトを含むコンテンツのファイル構造に対して定義しており、オブジェクト基盤オーディオコンテンツの格納に活用することができる。
【0006】
一般的なマルチメディアサービスの場合、1つのオーディオオブジェクトと1つのビデオオブジェクトでサービスがなされる場合が大部分であるが、MPEG−4システム規格では、複数のオブジェクトを含むマルチメディアサービスに対して定義している。オブジェクト基盤オーディオサービスの場合にも、MPEG−4システムの定義と類似するように、複数のオブジェクトを含むマルチメディアコンテンツサービスであると言える。
【0007】
しかしながら、MPEG−4システム規格では、オーディオ、ビデオ、静止画などの多様な形態のメディアをすべて含む形態のファイル構造を定義していることに比べ、オブジェクト基盤オーディオコンテンツの場合には、同種類の多数のオブジェクトを含む特徴があり、既存のMPEG−4システムで定義しているファイル構造よりも効率的にコンテンツを格納して各オブジェクトに対するアクセスの容易性を高めることができる可能性がある。
【0008】
一方、MPEG−4システム規格(ISO/IEC14496−1)では、複数のオブジェクトを含むコンテンツのファイル構造に対して定義しているが、このようなMPEG−4システム規格によるファイルフォーマットには、オブジェクトの3次元場面情報である「BIFS」とオブジェクトに対する情報である「OD」、およびそれぞれのオブジェクトのストリームにアクセスすることができる「索引情報」が含まれ、BIFS、ODなどと各オブジェクトストリームデータが含まれる。ここで、各オブジェクトデータは、ファイル内部に存在することもできるし、他のファイルとして存在することもできる。このとき、それぞれのオブジェクトストリームに対する「索引情報」は、各オブジェクト別に区分されて生成されて格納され、それぞれのオブジェクトストリームもストリーム別に区分されて格納される。
【0009】
上述したような従来のMPEG−4システム規格によるオブジェクト基盤オーディオコンテンツサービスを「オブジェクトへのアクセスの容易性」側面において詳察すれば、多数のオブジェクトを格納する場合、オブジェクト別にフレームを格納したり全体オブジェクトデータを順に格納する方式を採用していたため、オブジェクトへのアクセス性が著しく低下するという問題点があった。
【0010】
また、上述したような従来のオブジェクト基盤オーディオコンテンツサービスでは、コンテンツファイルの各オブジェクトに対するアクセスの容易性のために(すなわち、ランダムアクセス(Random Access)を容易にするために)、各フレームの位置情報、大きさ情報などを「索引(index)情報」として用いる。しかしながら、このような従来の索引情報生成方法は、各メディアの最小再生単位(オーディオの場合はフレーム単位)を基盤として生成するため、すなわち、フレーム別に索引情報を生成しなければならないため、生成される索引情報量が大きく、索引情報を求める演算量も多く、これによってランダムアクセス速度が遅くなるという問題点があった。
【0011】
一方、MPEG−4システムでは、BIFSデータおよびBIFSコマンド(command)を用いてユーザインタラクションを介した3次元場面情報を変更することができるが、著作段階ではこのような変更された3次元場面情報を考慮してBIFSデータを適切に生成しなければならず、コンテンツ再生端末ではBIFSコマンドを解釈できなければならない。このように、MPEG−4システムでは、多様なユーザインタラクションのための機能を含んでいるが、このような機能のためには、著作段階やコンテンツ再生端末で多少複雑な動作の実行が求められる特徴がある。
【0012】
しかしながら、オブジェクト基盤オーディオサービスでは、ユーザが各オーディオオブジェクトの位置、音の大きさなどを制御すれば、新たな3次元オーディオ場面情報(プリセット)を容易に生成することができるであろう。
【0013】
このように、ユーザによってオーディオプリセットを自由に生成できるようにしたり、またはオブジェクト基盤オーディオコンテンツファイルのオブジェクトに対してオブジェクト追加/削除/変更が可能なようにすれば、ユーザインタラクションを機能を介してオブジェクト基盤オーディオサービスの機能を増大させることができるであろう。
【0014】
すなわち、オブジェクト基盤オーディオコンテンツサービスの提供において、オブジェクト基盤オーディオサービスの機能を増大させ、各オブジェクトに対するアクセスの容易性を高めることができる効率的なコンテンツファイル構造が切に求められている。
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明は、上述したような要求に応じるために提案されたものであって、オブジェクト基盤オーディオサービスの機能を増大させてオーディオコンテンツファイルの各オブジェクトへのアクセスの容易性を増加させるための、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの生成、編集、および再生方法と、オーディオプリセット生成方法を提供することを目的とする。
【0016】
本発明の他の目的および長所は、下記の説明によって理解することができ、本発明の実施形態によってより明確に理解できるであろう。また、本発明の目的および長所は、特許請求の範囲に示した手段およびその組み合わせによって実現できることを容易に理解できるであろう。
【課題を解決するための手段】
【0017】
上述した目的を達成するために、本発明は、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法において、オーディオコンテンツを構成するそれぞれのオブジェクトに対して複数のフレームを生成するフレーム化ステップと、前記生成されたフレームを再生時刻を基準としてグループ化して格納することによって多重オブジェクトオーディオコンテンツファイルを生成するコンテンツファイル生成ステップとを含む。また、前記本発明は、フレームグループ別に索引情報を生成して前記多重オブジェクトオーディオコンテンツファイルのヘッダに格納する索引情報生成ステップと、前記オーディオコンテンツのオブジェクトを用いてオーディオプリセットを生成するプリセット生成ステップと、前記生成されたオーディオプリセットに対する個数およびプリセット名を含むプリセット関連情報を生成するステップとをさらに含む。
【0018】
また、本発明は、オブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法において、オーディオコンテンツを構成するそれぞれのオブジェクトに対して複数のフレームを生成するフレーム化ステップと、前記生成されたフレームをオブジェクト別に格納して多重オブジェクトオーディオコンテンツファイルを生成するが、同じ再生時刻を有するフレームに対する位置情報を索引情報として前記多重オブジェクトオーディオコンテンツファイルのヘッダに格納するコンテンツファイル生成ステップとを含む。また、前記本発明は、前記オーディオコンテンツのオブジェクトを用いてオーディオプリセットを生成するプリセット生成ステップと、前記生成されたオーディオプリセットに対する個数およびプリセット名を含むプリセット関連情報を生成するステップをさらに含む。
【0019】
また、本発明は、多重オブジェクトオーディオコンテンツファイルに対するオーディオプリセット生成方法において、編集者またはユーザから前記多重オブジェクトオーディオコンテンツファイルに対するオーディオオブジェクトのうちでオーディオプリセットの生成に必要なオーディオオブジェクトが選択されるオブジェクト選択ステップと、前記編集者または前記ユーザから前記選択されたそれぞれのオーディオオブジェクトに対するプリセット設定情報が入力される設定情報入力ステップと、前記プリセット設定情報によって該当のオーディオオブジェクトを設定してオーディオプリセットを生成するプリセット生成ステップとを含む。前記本発明は、前記生成されたオーディオプリセットに対する全体個数およびプリセット名を含むプリセット関連情報を生成するステップをさらに含む。
【0020】
また、本発明は、多重オブジェクトオーディオコンテンツファイルの編集方法において、多重オブジェクトオーディオコンテンツファイルに対するオブジェクト情報およびプリセット情報をユーザに提供するステップと、前記ユーザの要求に応じて前記多重オブジェクトオーディオコンテンツファイルに対するオブジェクトまたはプリセットを変更するステップとを含む。
【0021】
また、本発明は、多重オブジェクトオーディオコンテンツファイルの再生方法において、多重オブジェクトオーディオコンテンツファイルを分析するステップと、分析結果から前記多重オブジェクトオーディオコンテンツファイルのオブジェクトフレームの位置に対する索引情報を取得するステップと、前記索引情報を用いて再生時刻が同じであるオブジェクトフレームを検索して前記多重オブジェクトオーディオコンテンツファイルを再生するステップとを含む。また、前記本発明は、前記多重オブジェクトオーディオコンテンツに対するオーディオプリセットの種類を出力するステップと、ユーザから選択されたオーディオプリセットの設定情報を用いて該当のオーディオ場面を構成するステップとをさらに含む。
【0022】
まず、本発明について簡略に説明すれば次のとおりとなる。本発明では、複数のプリセットオーディオ場面情報をオーディオコンテンツファイルの内部に格納することにより、オブジェクト基盤オーディオサービスのユーザ選択機能を可能とし、さらにユーザが定義したプリセットオーディオ場面情報をオブジェクト基盤オーディオコンテンツファイル内部に格納できるようにして、ユーザが新たなオーディオ場面を生成することを可能にする。このとき、ユーザが新たなオーディオ場面を生成し、独立的なファイルで格納することも可能である。
【0023】
また、本発明は、オブジェクト基盤オーディオコンテンツのオブジェクトアクセスの容易性のために、オブジェクト別にフレームを格納するのではなく、同じ再生時刻またはデコーディング時刻を有するオブジェクトのフレームをグループで束ねてファイルに格納する。すなわち、複数のオブジェクトをファイルで格納するとき、全体のオブジェクトデータを順に格納するのではなく、同じ再生時刻を有するフレームを束ねて格納する方式を用いる。
【0024】
また、本発明は、ファイルにおける各オブジェクトに対するアクセスの容易性のために、索引情報をフレーム別に格納せずに、任意のフレーム単位または時間単位で格納して用いる。
【0025】
さらに、本発明は、多数のプリセット情報(プリセットおよびプリセット関連情報)を生成してオーディオコンテンツファイル内部に格納したり、または別途の独立したファイルに格納する。このように独立したファイルで格納されたプリセット情報は、以後、ユーザ側の処理を介して該当のオーディオコンテンツファイル内部に格納されることができる。
【発明の効果】
【0026】
上述したような本発明は、オブジェクト基盤オーディオコンテンツを効率的に格納して送信することにより、オブジェクト基盤オーディオサービスの提供時に帯域幅を節減させる効果がある。
【0027】
また、本発明は、オブジェクト別にフレームを格納せずに、同じ再生時刻を有するオブジェクトのフレームをグループで束ねて該当のオーディオコンテンツファイルに格納し、また索引情報もフレーム別に格納せずに任意のフレーム単位または時間単位で索引情報を格納することにより、オブジェクト基盤オーディオコンテンツのオブジェクトへのアクセスを容易にする効果がある。
【0028】
また、本発明は、オブジェクト基盤オーディオコンテンツを格納するとき、オブジェクト基盤オーディオサービスの機能を増大させ、各オブジェクトに対するアクセスの容易性を高めることができる効率的なオーディオコンテンツファイルの構造を提供することにより、一般的なファイル構造よりも効率的にオブジェクト基盤オーディオサービスを再生できるようにする効果がある。
【0029】
また、本発明は、各オブジェクトの位置、音の強度などのような特徴に基づいて設定されたプリセット(Preset)を多重オブジェクトオーディオコンテンツファイル内部に格納したり、または別途の独立したファイルで格納してユーザに提供することにより、オブジェクト基盤オーディオサービスをより効率的に再生できるようにする効果がある。
【0030】
さらに、本発明は、デジタル放送、ラジオ放送、DMB、インターネット放送、デジタル映画、DVD、動画コンテンツ、レコードなどのようにオブジェクト基盤オーディオサービスが提供されるすべての放送サービスおよびマルチメディアサービスに適用され、効率的にオブジェクト基盤オーディオコンテンツを送信、格納、および再生できるようにする効果がある。
【図面の簡単な説明】
【0031】
【図1】従来のMPEG−4システム規格による複数のオブジェクトを含むオーディオコンテンツファイルを示す構成図である。
【図2】本発明に係るオブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。
【図3】本発明に係る編集者プリセット情報を含む多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。
【図4】本発明に係るユーザプリセット情報を含む多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。
【図5】本発明に係るオブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法に対する一実施形態を示すフローチャートである。
【図6】本発明に係るオブジェクト基盤オーディオサービスのためのオーディオプリセット生成方法に対する一実施形態を示すフローチャートである。
【図7】本発明に係る編集者側のオーディオエンコーディング装置の画面構成図である。
【図8】本発明に係るユーザのコンテンツ再生端末の画面構成図である。
【図9】本発明に係る多重オブジェクトオーディオコンテンツファイルの編集方法に対する一実施形態を示すフローチャートである。
【図10】本発明に係る多重オブジェクトオーディオコンテンツファイルの再生方法に対する一実施形態を示すフローチャートである。
【発明を実施するための形態】
【0032】
上述した目的、特徴、および長所は、添付の図面と関連した後述する詳細な説明を介してより明確になるはずであり、これによって本発明が属する技術分野において通常の知識を有する者によって、本発明の技術的思想を容易に実施することができるであろう。さらに、本発明の説明において、本発明と関連した公知技術に対する具体的な説明が本発明の要旨を不必要に不明確にし得ると判断される場合には、その詳細な説明は省略する。以下、添付の図面を参照しながら、本発明に係る好ましい一実施形態について詳しく説明する。
【0033】
図1は、MPEG−4システム規格による複数のオブジェクトを含むオーディオコンテンツファイルを示す構成図であり、図2は、本発明に係るオブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。
【0034】
本発明と関連するオブジェクト基盤オーディオサービスの場合も、複数のオブジェクトを含むコンテンツに関するものであるため、基本的にはMPEG−4システムで定義しているコンテンツファイル構造に従うことが可能である。
【0035】
しかしながら、オブジェクト基盤オーディオサービスの場合は、必要に応じては1つ程度のビデオオブジェクトを含むこともあるが、大部分はオーディオオブジェクトのみを含み、各オーディオオブジェクトは同じ符号化方式を用い、同じフレーム大きさ(1フレームがデコーディングされて再生される時間)と同じフレーム率を有し、同じ再生時刻情報を有することが一般的である。このようなオブジェクト基盤オーディオコンテンツの特徴は、MPEG−4システム規格で定義しているファイル構造よりも一層効率的なファイル構造を有することを可能にする。
【0036】
MPEG−4システム規格による多重オブジェクトオーディオコンテンツファイル10は、「ヘッダ」11と「オブジェクトデータ」12〜14で構成されることができ、このうち「オブジェクトデータ」が、図1に示すように各オブジェクト別12〜14に複数のフレームで格納されている場合には、同じ時間に再生されなければならないフレームを取得するために各オブジェクト別に該当のフレームを探さなければならないが、もしオブジェクトの数が多ければ、それだけファイル内部でオブジェクト別の該当のフレームを探さなければならない回数も多くなるという問題が生じるようになる。
【0037】
しかしながら、本発明によって、図2に示すようなファイル(多重オブジェクトオーディオコンテンツファイル)20〜22の構造を有すれば、同じ再生時刻を有するフレームが一緒に集まっているため、たとえオブジェクトの数が多くても、1度の検索で同じ再生時刻を有するフレームを1度に探すことができるようになる。
【0038】
したがって、本発明では、オブジェクト基盤オーディオサービスを提供するために多数のオブジェクトをファイルで格納するとき、図1に示すように全体オブジェクトデータを順に格納する方式を採用せずに、図2に示すように同じ「再生時刻」を有するフレームを束ねて格納する方式を用いる(すなわち、オーディオコンテンツを構成するそれぞれのオブジェクトに対する複数のフレームを、「再生時刻」を基準としてグループ化して格納することによってオーディオコンテンツファイルを生成する)22。
【0039】
図3は、本発明に係る編集者プリセット情報を含む多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図であり、図4は、本発明に係るユーザプリセット情報を含む多重オブジェクトオーディオコンテンツファイルの一実施形態を示す構成図である。
【0040】
MPEG−4システムでは、BIFSデータおよびBIFSコマンドを用いてユーザインタラクションを介した3次元場面情報を変更することができるが、このためには、著作段階で3次元場面情報変更を考慮してBIFSデータを適切に生成しなければならず、また、ユーザ端末(オーディオコンテンツ再生端末)でもBIFSコマンドを解釈できなければならない。このように、MPEG−4システムでは、多様なユーザインタラクションのための機能を含んでいるが、このような機能のためには、著作段階やコンテンツ再生端末で多少複雑な動作が求められる。
【0041】
しかしながら、オブジェクト基盤オーディオサービスの場合には、サービス提供者側では各オブジェクトの位置、音の強度などのような特徴を定義した3次元オーディオ場面情報をプリセットとして定義して提供し、コンテンツ再生端末では、プリセットを制御する機能などのような比較的簡単な制御機能を含まなければならないが、このような機能は端末で容易に制御することができる機能であるため、MPEG−4システムのような多少複雑な構造を有さなくても端末で容易に実現することができる。
【0042】
したがって、オブジェクト基盤オーディオコンテンツ提供者側では、複数のオーディオオブジェクトで構成された3次元オーディオ場面情報のみを提供し、これを制御することは純然に端末で実現するようにすることが効率的である。
【0043】
このために、本発明では、オブジェクト基盤オーディオコンテンツに単純に複数の既に設定された3次元オーディオ場面情報を含む方法を用いる。このとき、既に著作された3次元オーディオ場面情報は、1次的にはコンテンツ著作者が生成するものである。
【0044】
すなわち、本発明では、図3に示すように、ファイル(オブジェクト基盤オーディオコンテンツファイル)内部30(より正確には、ファイルヘッダ31)に、全体プリセットの個数、プリセット名などのようなプリセットと関連する情報(「プリセット関連情報」)311と、各オーディオオブジェクトの3次元空間上の位置、音の大きさ(信号レベル)、反響(Echo)情報などのようなオーディオオブジェクトの特性を含む「プリセット」312〜315を格納する。このようなプリセット情報(編集者プリセット情報)をオブジェクト基盤オーディオコンテンツファイルに格納して提供せずに、別途の独立したファイルで格納してユーザに提供することもできる。
【0045】
図3に示すような構造を有するオーディオコンテンツファイルを受信して再生する端末(例えば、視聴者の受信機など)では、プリセット関連情報311と各プリセット312〜315から各オブジェクトのオーディオ特性を取得して適切にオブジェクトを制御して、3次元オーディオを再生できるようになる。
【0046】
一方、オブジェクト基盤オーディオサービスでは、コンテンツ再生端末のユーザが各オーディオオブジェクトの位置、音の大きさ(信号レベル)などを制御することにより、新たな3次元オーディオ場面情報を生成することもできるが、これを格納すれば、図4に示すような「ユーザプリセット」(すなわち、オブジェクト基盤オーディオサービス提供者側の編集者の生成したプリセットではなく、ユーザが生成したプリセット)となる。
【0047】
本発明では、オブジェクト基盤オーディオコンテンツファイル40内にユーザが著作したプリセット情報41を格納できるようにする構造を有する。したがって、オブジェクト基盤オーディオサービスが提供されたユーザは、提供されたオーディオコンテンツファイル40内に自身が著作した「ユーザプリセット情報」41を含む(格納する)ことができる。これとは異なり、ユーザ(ユーザ1)は、ユーザプリセット情報を該当のオーディオコンテンツファイルとは別途の独立的なファイルで格納して他のユーザ(ユーザ2)に提供することもできる。このように独立的なファイルで提供される「ユーザプリセット情報」41は、ユーザ2の後処理過程を介して事後的に該当のオブジェクト基盤オーディオコンテンツファイルに含まれることができる。
【0048】
すなわち、本発明は、図4に示すように、多重オブジェクトオーディオコンテンツファイル40にユーザプリセット情報41を格納できるようにすることにより、ユーザがそれぞれのオーディオオブジェクトを制御して生成した3次元オーディオ場面を新たな1つのプリセットとして設定できるようにする。このとき、ユーザが定義したプリセット情報は、図4に示すようにファイル内部に格納されることもできるし、図に示してはいないが、独立したファイルで格納されることもできる。独立したファイルで格納されたユーザプリセット情報は、後処理過程を介して事後的に該当のファイルに含まれることもできるが、このような点は、図3の「編集者プリセット情報」の場合と同じである。
【0049】
図5は、本発明に係るオブジェクト基盤オーディオサービスのための多重オブジェクトオーディオコンテンツファイル生成方法に対する一実施形態を示すフローチャートであり、オブジェクト基盤オーディオサービスを提供するオーディオエンコーディング装置で実行される。
【0050】
一般的なオーディオ圧縮アルゴリズムは、フレーム別に圧縮するため、データを格納するときはフレーム単位で格納されている。フレーム別に格納されている複数のオブジェクトオーディオ信号を有して多重オブジェクトオーディオコンテンツを生成するとき、各オブジェクトを順次に格納せずに、同じ再生時刻を有するオブジェクトのフレームはグループ化して格納することにより、インターネットを介した送信時に効率的な送信が可能となる。また、多重オブジェクトコンテンツファイル内で特定の再生時刻を有するフレームに対する情報を探して索引情報として格納しておけば、以後にコンテンツ再生端末における効率的な任意位置再生をなすことができるようになる。
【0051】
オーディオエンコーディング装置は、オーディオコンテンツを構成する複数のオーディオオブジェクトの入力を受け(500)、それぞれのオブジェクトをフレーム化することによってそれぞれのオブジェクトに対して複数のフレームを生成する(502)。
【0052】
その後、オーディオエンコーディング装置は、生成された多数のフレームを再生時刻を基準としてグループ化し(504)、フレームグループ別に該当の索引情報を生成する(506)。
【0053】
次に、オーディオエンコーディング装置は、グループ化されたフレームはオブジェクトデータ(図2の22)として格納し、該当の索引情報はヘッダ21に格納されることにより、多重オブジェクトオーディオコンテンツファイル(図2参照)を生成する(508)。
【0054】
以下、段階506の索引情報生成過程について詳しく説明すれば、次のとおりとなる。
【0055】
一般的なメディアファイルでは、ファイルにおけるランダムアクセスを容易にするために、各フレームの位置情報、大きさ情報などを索引(index)情報として提供する方法を用いる。このとき、索引情報は、各メディアの最小再生単位(オーディオの場合はフレーム単位)を基盤として生成することが一般的である。
【0056】
しかしながら、本発明では、このような索引情報をメディアの最小再生単位ではない複数の最小再生単位をグループ化した任意の単位で生成する方法を用いる。本発明に係る方法で索引情報を生成する場合、索引情報の大きさが一般的な場合よりも小さくなり、索引情報の大きさの調節も可能となり、さらにランダムアクセス速度を向上させることができ、ランダムアクセスのための演算量を減らすことができるようになる。
【0057】
本発明に係る場合、直接的なメディアデータのアクセスは、グループ化した単位でのみなされることにより、直接的なアクセスに対する分解能(Resolution)は低下することがあるが、直接アクセスした後に再びメディアデータを追跡してフレーム単位でアクセスすることが可能であるため、実際の分解能は一般的なフレーム単位インデキシングと差がなくなる。特に、一般的に秒(second)単位程度のインデキシングが可能となるときにマルチメディアをランダムアクセスすれば、視聴には大きい問題点がないという点を勘案すれば、本発明の効果は極めて大きいと言える。
【0058】
例えば、秒あたり約43個のフレームを有する1分の長さのオーディオオブジェクトがあるとし、1つの索引情報は8バイトであるとする。これを既存の一般的な索引方法によって索引をするようになれば、フレーム別に索引情報を生成しなければならないため、下記の数式1のように20,640バイトが所要される。
【数1】

【0059】
一方、本発明の実施形態によって、フレームグループ別に索引情報を生成すれば、例えば、20個のフレームあたり1つの索引情報を生成するとすれば、下記の数式2のように約1,320バイトが所要される。1フレームごとに生成した索引情報を20個のフレームごとに生成するため、1/20程度のバイトの節約が可能となる。ここで、フレームグループ別に生成される索引情報には、該当のグループに属する1番目のフレームの位置情報が含まれる。また、このように生成された索引情報は、多重オブジェクトオーディオコンテンツファイルのヘッダに格納される。
【数2】

【0060】
本発明によれば、直接的なアクセスに対する分解能は20倍に増えたが、これは約0.5秒に該当するものであるため、実際にメディアを任意でアクセスして再生するときにも視聴に影響を及ぼさない水準であると言える。
【0061】
上述した例では、20個のフレームを1つにグループ化したが、コンテンツに応じてグループ化するフレームの個数を自由に調整することが可能である。したがって、コンテンツに応じて分解能を適切に制御すれば、直接的なアクセスによる分解能の問題も解決することができる。
【0062】
一方、他の実施形態として、オーディオコンテンツを構成するそれぞれのオブジェクトに対して生成されたフレームを「オブジェクト別」に整列して格納することにより、多重オブジェクトオーディオコンテンツファイルを生成する場合には、「同じ再生時刻を有するフレームに対する個別的な位置情報」を索引情報として該当の多重オブジェクトオーディオコンテンツファイルのヘッダに格納することもできる。
【0063】
図6は、本発明に係るオブジェクト基盤オーディオサービスのためのオーディオプリセット生成方法に対する一実施形態を示すフローチャートである。
【0064】
オーディオエンコーディング装置は、多重オブジェクトオーディオコンテンツの構成に用いられる複数のオーディオオブジェクト(オブジェクト信号)の入力を受け(600)、編集者に提供する。
【0065】
この後、編集者は、多重オブジェクトオーディオコンテンツの構成に用いられるオブジェクトを選択するようになる。すなわち、オーディオエンコーディング装置は、編集者からオーディオプリセットの生成に必要なオーディオオブジェクトの選択を受けるようになる(602)。
【0066】
次に、オーディオエンコーディング装置は、編集者から選択されたそれぞれのオーディオオブジェクトに対するプリセット設定情報(例えば、3次元プリセットを生成する場合には、それぞれのオブジェクト信号のレベルおよび3次元空想における位置情報が該当し、2次元プリセットを生成する場合には、それぞれのオブジェクト信号のレベル情報が該当する)の入力を受ける(604)。
【0067】
この後、オーディオエンコーディング装置は、編集者から入力された設定情報によって該当のオーディオオブジェクトの信号レベルまたは3次元空間上の位置を設定してオーディオプリセットを生成する(606)。
【0068】
このような過程を介して生成されたオーディオプリセットに対する全体個数およびプリセット名(Preset name)を含む「プリセット関連情報」を生成する(608)。
【0069】
すなわち、編集者は、それぞれのオブジェクト信号の大きさと位置情報などを相違させながら複数のプリセット情報を生成した後、これに対する情報を多重オブジェクトオーディオコンテンツファイルのビットストリームに格納してユーザに提供することにより、ユーザがこのうちのいずれか1つを自身の趣向によって選択できるようにする。
【0070】
図6によるプリセット生成過程を具体的に説明すれば、次のとおりとなる。すなわち、歌手の声(ボーカル)、その他、ピアノ、ドラム、キーボードなどのオーディオオブジェクトを用いて複数のプリセットを生成する場合について説明する。
【0071】
□プリセット1(ボーカルモード):ボーカル(レベル9)、その他(レベル0)、ピアノ(レベル0)、ドラム(レベル0)、キーボード(レベル0)
□プリセット2(MRモード):ボーカル(レベル8)、その他(レベル8)、ピアノ(レベル8)、ドラム(レベル8)、キーボード(レベル8)
□プリセット3(カラオケモード):ボーカル(レベル0)、その他(レベル9)、ピアノ(レベル9)、ドラム(レベル9)、キーボード(レベル9)
【0072】
上述したように3つのプリセットを設定した後、設定されたプリセット、プリセットの数、プリセット名などは、該当の多重オブジェクトオーディオコンテンツファイルのビットストリームに格納される。
【0073】
以後、ユーザは、1つの音楽コンテンツからボーカル(Vocal)モード、MRモード、カラオケ(Karaoke)モードのうちのいずれか1つを選択して聴取できるようになる。
【0074】
以上、編集者側のオーディオエンコーディング装置に適用されるオーディオプリセット(編集者定義プリセット)生成方法について説明したが、これはユーザのコンテンツ再生端末に適用されるオーディオプリセット(ユーザ定義プリセット)生成方法にも同じように適用される。
【0075】
図7は、本発明に係る編集者側オーディオエンコーディング装置の画面構成図であり、入力されたオーディオオブジェクトを介して多様なオーディオプリセットを生成する場合を示す。図7において、プリセット1(フル(Full))と関連した1(−1 0 0)(0.9)において、「1」はオブジェクト、「(−1 0 0)」は3次元空間上の位置、「(0.9)」はオブジェクト信号のレベルを示す。
【0076】
図8は、本発明に係るユーザのコンテンツ再生端末の画面構成図である。
【0077】
ユーザのコンテンツ再生端末では、プリセット名をユーザに示し、ユーザが特定のプリセットを選択すれば、該当のプリセット情報による該当のオブジェクトのレベル、位置情報を用いてオーディオ場面を構成する。
【0078】
ユーザがプリセットを設定する場合、オーディオオブジェクト名(TAG Name)をユーザに示し、該当のオブジェクトのレベルおよび位置をユーザが設定できるようにした後、ユーザが設定した情報を格納してユーザプリセット(ユーザが定義したプリセット)を生成する。
【0079】
図9は、本発明に係る多重オブジェクトオーディオコンテンツファイルの編集方法に対する一実施形態を示すフローチャートであり、ユーザのコンテンツ再生端末における多重オブジェクトオーディオコンテンツファイルの編集過程を示す。
【0080】
ユーザのコンテンツ再生端末は、多重オブジェクトオーディオコンテンツファイルに対するオブジェクト情報およびオーディオプリセット情報を出力する(900)。このとき、ユーザは、オブジェクトまたは/およびプリセットを変更しようとする場合には、所望する変更要求事項を入力する。そして、オーディオプリセット情報には、オーディオプリセット、プリセット関連情報などが含まれるが、これは多重オブジェクトオーディオコンテンツファイル内に格納されていたり、または多重オブジェクトオーディオコンテンツファイルとは別途の独立ファイルに格納されている。
【0081】
この後、コンテンツ再生端末は、ユーザの要求に応じて多重オブジェクトオーディオコンテンツファイルに対するオブジェクトまたは/およびプリセットを変更する(902)。
【0082】
図には示していないが、オーディオプリセット情報が別途の独立ファイルに格納されている場合には、ユーザの要求に応じて事後的に該当の多重オブジェクトオーディオコンテンツファイルに格納することができる。
【0083】
このような編集方法を介して、ユーザは、既存のオブジェクト基盤オーディオコンテンツファイルにおいて特定のオーディオオブジェクトを除去、変更(新たなオーディオオブジェクトに交換)したり、新なたオーディオオブジェクトを追加して新たなコンテンツファイルを生成することができる。例えば、音楽コンテンツに自身が直接歌った歌を1つのオブジェクトとして追加して他人に配布することができる。また、ユーザは、それぞれのオブジェクトのレベルおよび位置などの情報を自身の趣向によって新たに定義した後、この情報を該当のコンテンツファイル内部や外部の別途のファイルに格納することができる。
【0084】
図10は、本発明に係る多重オブジェクトオーディオコンテンツファイルの再生方法に対する一実施形態を示すフローチャートであり、ユーザのコンテンツ再生端末で実行される多重オブジェクトオーディオコンテンツファイルの再生過程を示す。
【0085】
ます、ユーザの要請に応じて、コンテンツ再生端末は、多重オブジェクトオーディオコンテンツファイルを分析した後(1000)、この分析結果から多重オブジェクトオーディオコンテンツファイルのオブジェクトフレームの位置に対する索引情報を取得する(1002)。ここで、多重オブジェクトオーディオコンテンツファイルは、再生時刻が同じフレームが同じフレームグループに格納されているファイルとすることができ、この場合には、該当のフレームグループに属する1番目のフレームの位置情報が該当の索引情報となるであろう。これとは異なり、多重オブジェクトオーディオコンテンツファイルがオブジェクトフレームがオブジェクト別に格納されているファイルである場合には、再生時刻が同じフレームに対する個別位置情報が該当の索引情報となる。
【0086】
この後、コンテンツ再生端末は、取得した索引情報を用いて再生時刻が同じオブジェクトフレームを検索して多重オブジェクトオーディオコンテンツファイルを再生する(1004)。
【0087】
図10には示していないが、コンテンツ再生端末は、ユーザの要請に応じて多重オブジェクトオーディオコンテンツに対するオーディオプリセットの種類を出力し、これによってユーザから選択されたオーディオプリセットの設定情報を用いて該当のオーディオ場面を構成する機能をさらに実行する。ここで、オーディオプリセット情報は、多重オブジェクトオーディオコンテンツファイル内に格納されていたり、または多重オブジェクトオーディオコンテンツファイルとは別途の独立ファイルに格納されている。
【0088】
上述したような本発明の方法は、プログラムで実現されてコンピュータで読み取ることができる形態であり、記録媒体(CD−ROM、RAM、ROM、フロッピーディスク、ハードディスク、光磁気ディスクなど)に格納されることができる。このような過程は、本発明が属する技術分野において通常の知識を有する者が容易に実施することができるため、これ以上の詳しい説明は省略することにする。
【0089】
以上で説明した本発明は、本発明が属する技術分野において通常の当業者によって、本発明の技術的思想を逸脱しない範囲内で多様な置換、変形、および変更が可能であるため、上述した実施形態および添付の図面によって制限されるものではない。

【特許請求の範囲】
【請求項1】
多重オブジェクトオーディオコンテンツファイルの再生方法であって、
複数のオーディオオブジェクトを含む多重オブジェクトオーディオコンテンツファイルおよび前記オーディオオブジェクトに関連する少なくとも1つのオープィオプリセット情報を受信するステップと、
前記少なくとも1つのオーディオプリセット情報を用いて多重オブジェクトオーディオコンテンツファイルを再生するステップと、
を含む多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項2】
前記多重オブジェクトオーディオコンテンツファイルを再生するステップは、前記オーディオプリセット情報に基づいて前記多重オブジェクトオーディオコンテンツファイルに含まれたオーディオオブジェクトの信号レベルを制御することを特徴とする請求項1に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項3】
前記オーディオプリセット情報は、前記複数のオーディオオブジェクトのうち、ユーザまたは編集者から選択されたオーディオオブジェクトに関連する情報であることを特徴とする請求項1に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項4】
前記オーディオプリセット情報は、複数のオーディオプリセット情報に対する全体個数およびプリセッ名を含むことを特徴とする請求項1に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項5】
前記オーディオプリセット情報は、前記多重オブジェクトオーディオコンテンツファイルの内部に格納されたり、または前記多重オブジェクトオーディオコンテンツファイルと別のファイルに格納されることを特徴とする請求項1に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項6】
前記多重オブジェクトオーディオコンテンツファイルを再生するステップは、ユーザの要請に応じて前記多重オブジェクトオーディオコンテンツファイルに含まれたオーディオオブジェクトのうち少なくとも1つのオーディオオブジェクトを削除/変更したり、または他のオブジェクトを追加することによって再生することを特徴とする請求項1に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項7】
多重オブジェクトオーディオコンテンツファイルの再生方法であって、
複数のオーディオオブジェクトを含む多重オブジェクトオーディオコンテンツファイルおよび前記オーディオオブジェクトに関連する少なくとも1つのオープィオプリセット情報を受信するステップと、
前記ユーザの要請に応じてオーディオオブジェクトまたはオーディオプリセット情報の変更要請を受信するステップと、
前記変更要請が反映されたオーディオオブジェクトまたはオーディオプリセット情報に基づいて多重オブジェクトオーディオコンテンツファイルを再生するステップと、
を含む多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項8】
前記変更要請を受信するステップは、ユーザの要請に応じて前記多重オブジェクトオーディオコンテンツファイルに含まれたオーディオオブジェクトのうち少なくとも1つのオーディオオブジェクトを削除/変更したり、または他のオブジェクトを追加する変更要請を受信することを特徴とする請求項7に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項9】
前記変更要請を受信するステップは、前記オーディオプリセット情報に含まれたオーディオオブジェクトの信号レベルを調整する変更要請を受信することを特徴とする請求項7に記載の多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項10】
多重オブジェクトオーディオコンテンツファイルの再生方法であって、
複数のオーディオオブジェクトを含む多重オブジェクトオーディオコンテンツファイルおよび前記オーディオオブジェクトに関連するオーディオプリセット情報を受信するステップと、
前記オーディオプリセット情報によって複数のオーディオオブジェクトの信号レベルを調整し、多重オブジェクトオーディオコンテンツファイルを再生するステップと、
を含む多重オブジェクトオーディオコンテンツファイルの再生方法。
【請求項11】
多重オブジェクトオーディオコンテンツファイルの再生方法であって、
複数のオーディオオブジェクトを含む多重オブジェクトオーディオコンテンツファイルおよび前記オーディオオブジェクトに関連する複数のオーディオプリセット情報を受信するステップと、
ユーザの入力によって選択されたオーディオプリセット情報に基づいて前記複数のオーディオオブジェクトが調整された多重オブジェクトオーディオコンテンツファイルを再生するステップと、
を含む多重オブジェクトオーディオコンテンツファイルの再生方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−168552(P2012−168552A)
【公開日】平成24年9月6日(2012.9.6)
【国際特許分類】
【出願番号】特願2012−97550(P2012−97550)
【出願日】平成24年4月23日(2012.4.23)
【分割の表示】特願2009−549534(P2009−549534)の分割
【原出願日】平成20年2月18日(2008.2.18)
【公序良俗違反の表示】
特許法第64条第2項第4号の規定により図面の一部または全部を不掲載とする。
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(596099882)エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート (179)
【氏名又は名称原語表記】ELECTRONICS AND TELECOMMUNICATIONS RESEARCH INSTITUTE