説明

動画再生システム及び動画再生方法

【課題】音源の位置を指定し、オブジェクトの発音が、視聴者に対し空間的に明らかに識別できるようにする。
【解決手段】動画再生システムは、平面表示装置50と、その前面に設けられた平面スピーカ群60と、低音用スピーカ71,72とを有している。動画ファイル11から、映像再生装置30により映像を再生して平面表示装置50に表示すると共に、音響再生装置20により音響を再生して平面スピーカ群60及び低音用スピーカ71,72から出力させる。この際、動画ファイル11から音響再生装置20により再生する音響データを合成した場合に、これを高音域と低音域とにフィルタ23で分離し、当該高音域音響を平面スピーカ群60で再生し、当該低音域音響を低音用スピーカ71,72で再生する。音源位置再生装置40では、スピーカ変更に伴い再生すべきスピーカ61を指定するために時間的、空間的なスレッショルドを設定して、違和感のない再生を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクト(objective、目的物)対応のムービング・ピクチャ・エクスパート・グループ4(Moving Picture Experts Group phase 4、動画と音声の高能率符号化方式、以下「MPEG4」という。)ファイル等を再生するに当たり、オブジェクトの音源位置情報を取り込んで、臨場感ある動画再生を行わせるための動画再生システム及び動画再生方法に関するものである。
【背景技術】
【0002】
近年の劇場映画は、臨場感を出すために大音響装置や振動装置を取り入れ、その音響効果や衝撃により観客の五感に訴える技術が登場している。これに対し、コンピュータにより動画を再生する場合、映画の映像データと音響データをMPEGにより記録し、再生する技術に止まっており、平面的であって、臨場感を取得するまでは至っていない。
【0003】
臨場感を演出する技術の1つに音源の位置や方向を何らかの手段で特定することが考えられる。例えば、2つのスピーカで3次元的音の広がりを演出する技術(例えば、3Dポジショナルサウンドテクノロジー)が実現している。しかし、スピーカが一対以上有る場合であっても、「音の広がり」ではなく、特定の位置に音源が存在するように見せかけることは難しい。例えば、スピーカが一対しかない場合でも、音響波形の位相を合成して、特定の位置に音源が存在するように見せかける技術がある。そこでは、平面スピーカを用いた波面合成により立体音響再生を実現しようとする。しかし、人間の耳は一対存在し、その構造が複雑であって、理論通りに行かない現状がある。一般的に、2つのスピーカで位相合成を行っても、人間の耳はその音源の中間であって、それらのスピーカの背後に単一の音源が存在するように聞こえる傾向を持つようである。この結果は、2つ以上のスピーカを使用する場合も同様である。
【0004】
これに関連して、従来、立体映像中にある個々の物体の音声を聴取者に対して立体的に発生させる立体音像制御装置の技術が、例えば、次のような文献に記載されている。
【0005】
【特許文献1】特開平6−301390号公報
【0006】
この立体音像制御装置では、静止画或いは動画の3次元映像信号と併せて聴取者LNの位置LNpを基準とした正面から画像中の各物体OJまでの角度θn、距離rn、及び各物体OJの発生する音響信号Snからなる3次元音声信号を含む3次元映像データと、聴取者LNの周囲に配置された複数個のスピーカSPと、3次元音声信号(θn,rn,Sn)を入力して個々の画像中の物体OJの位置に対応して複数個のスピーカSPに音響信号Snを分配する信号処理部SIとを備えている。そして、複数個のスピーカSPを複数個の領域に分割し、信号処理部SIは角度θnによって物体OJに対応する音源が位置する領域を特定して使用するスピーカSPを選択すると共に、距離rnによって音響信号Snの距離減衰を計算する。これにより、映像信号再生と同時に3次元音声信号を信号処理部SIに取り込み、ここで音響信号Snの距離減衰や音像領域特定、出力スピーカ選択等の処理を施して、選択されたスピーカSPより、処理された3次元音声信号が出力され、立体音像が得られるようになっている。
【0007】
しかし、この特許文献1の立体音像制御装置では、予め決められた聴取者LNの位置LNpを基準にして画像中の各物体OJまでの角度θn、距離rn、及び音響信号Snからなる3次元音声信号(θn,rn,Sn)を含む3次元映像データを作成しておき、この3次元映像データを再生して、位置LNpにいる視聴者LNに対して立体映像及び立体音響を視聴させるようになっているので、3次元映像データの作成に手数を要するばかりか、テレビジョン鑑賞等のように複数の視聴者が同時に視聴することが出来ないので、使い勝手が悪く、汎用性に欠けるという欠点がある。
【0008】
一方、動画像再生に利用できるMPEG4では、多種多様なAV(Audio Visual)オブジェクトを統一的に扱えるように「シーン記述」(Scene Description)と言う考え方を採用し、シーン記述において各AVオブジェクトの時間的、空間的な相互関係や属性を記述できるようにし、その詳細については既存の規格に委ね、インタフェース仕様のみを規定する。例えば、人物のオブジェクトはその画像(sprite)と音響(sound)を有する複合オブジェクトとして扱い、各オブジェクトにつきオブジェクト・ディスクリプタ(Object Descriptor)で記述するが、その画像等の形式については決めず、その画像等の情報を時間の流れで変化するエレメンタリ・ストリーム(Elementary Stream、以下「ES」という。)として取り扱う。
【0009】
臨場感を演出する技術の1つとして音源の位置を指定することを考えた場合、音源の位置は時間と共に変化し、ESとして取り扱うことができる。音源の位置は、画像や音響のオブジェクトに密接に関連するが、この画像や音響等とは本来別個の情報であって、特許文献1のような立体映像といった特殊な用途を除き、平面表示装置やスクリーン等を用いた平面映像において、従来積極的に活用されてこなかった。
【発明の開示】
【発明が解決しようとする課題】
【0010】
上記の如く、従来、音源の位置を位相合成等で特定させるのは難しかった。その原因として、人間の複雑な耳の構造、及び経験に基づく大脳による情報処理等が考えられるが、簡単に解決できる課題ではないと考えられる。この課題を解決するために、従来の特許文献1に記載された立体音像制御装置の技術等を利用することも考えられる。しかし、特許文献1の技術は、3次元の立体映像・音響技術であり、これと異なる技術の従来の課題解決に適用することは難しく、未だ技術的に十分満足の得られる平面表示装置やスクリーン等への動画再生装置や動画再生方法を提供することができなかった。
【0011】
このような従来の課題を解決するために、本発明では、臨場感を演出する技術の1つとして音源の位置を指定し、オブジェクトの発音が、視聴者に対し空間的に明らかに識別できるようにした動画再生システム及び動画再生方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するために、本発明では、直接的にオブジェクト位置からこの位置に置かれたスピーカにより発音させる構成を採用する。そうすれば、人間の聴覚が空間的な識別を可能とすることは確実である。しかし、この方法には、次のような第1及び第2の問題点もある。
【0013】
第1の問題点は、当該位置に置かれたスピーカの構造に制限があり、少なくとも大きな構造のスピーカを多数配置することはできない。従って、小さなスピーカを多数配置することになるが、この場合にはスピーカの周波数特性が問題になる。一般に小さなスピーカの低音特性は悪く、その再生は難しい。しかし、小さなスピーカは、高音領域ならでの利点(メリット)と高い指向性を有する。他方、低音領域専用に作られた大きなスピーカは高音の再生が難しく、且つ、指向性が減じた特性を有する。そこで、一般のステレオ再生装置でも、高音用と低音用のスピーカを併せて使用する。
【0014】
第2の問題点は、小さなスピーカを多数配置し、使用するスピーカを指定したとしても、動画再生であるので音源の位置が絶えず変動する、ことである。仮にキャラクタの音源位置がスピーカの境界領域にある場合、何れのスピーカを選択すべきだろうか。何れかのスピーカを選択する方法を採用した場合には、今度はキャラクタの音源位置のわずかな変動にも関わらず、音源位置は不安定な変動を行い、視聴者に違和感を与えるだろう。スピーカが離散的に存在するために生じる音響再生位置の不安定さで、この種のシステムに不可避の欠点と考えられる。
【0015】
そこで、このような第1及び第2の問題点を解消するために、本発明では、MPEG4のような動画ファイルを再生する場合に、音源の位置を指定し、当該オブジェクトの発音が、視聴者に対し空間的に明らかに識別できるようにするために、以下のような第1及び第2の構成を採用している。
【0016】
第1の構成は、プラズマ表示装置や液晶表示装置等のような平面表示装置と、その前面若しくは背面に設けられた平面スピーカ群と、低音用スピーカとを有する動画再生システムにおいて、動画ファイルから再生する音響データを合成した場合に、これを更に高音域と低音域とにフィルタで分離し、当該高音域音響を平面スピーカ群で再生し、当該低音域音響を低音用スピーカで再生することを特徴とする。
【0017】
第2の構成は、スピーカ変更に伴い再生すべきスピーカを指定するために時間的、空間的なスレッショルドを設定して、違和感のない再生を行うことにある。音源の再生位置(Xm,Yn)のわずかな変動により再生を担当するスピーカが変更されると、スピーカは有限個で離散的にしか存在しないことから、再生音響が不安定になり、視聴者に違和感を与える畏れがある。そこで、空間的スレッショルド領域を設定し、その領域での再生につき現在指定しているスピーカ若しくは隣接するスピーカの何れかで再生する方法を採用している。
【0018】
音源の位置が未だスレッショルド領域にある場合は、現在選択されているスピーカを変更せず、該スレッショルド領域を越えて隣の確定領域に入った場合に、始めて隣のスピーカを選択する方式を採用する。時間的なスレッショルドは、短い時間内に選択されるスピーカが変更されると、同様に、再生音響が不安定になり、視聴者に違和感を与える畏れがあることから、安定した音響再生のために設けられている。
【0019】
又、当該音源の無音期間を計測し、時間的なスレッショルド領域を設定する。一定の無音期間を経過していれば、空間的なスレッショルド領域内にあっても、直ちに隣のスピーカを選択することができる。この場合は、前記再生音響不安定の問題は生じないからである。この意味で時間的スレッショルドは空間的スレッショルドに優先する。
【発明の効果】
【0020】
本発明の第1の構成によれば、指定の位置にある平面スピーカによる高音域の指向性有る音響により当該キャラクタが、表示装置上であたかもその位置に何者かが存在するかのように発音する効果を享受できる。しかも、低音域音響を低音用スピーカで再生するので、両者相まって、自然な音響再生を享受することができる。
【0021】
本発明の第2の構成によれば、多数の平面スピーカ群を使用するための問題点を解決し、自然な音響再生を享受することができる。即ち、何れかのスピーカを選択した場合には、前記スレッショルド領域の作用により、音源位置の変動に基づく再生音響の不安定さを解消することができる。又、前記スレッショルド領域で双方のスピーカを使用して再生する方式を採用した場合には、音量の不安定さを解消することができる。
【0022】
特に、請求項1、2記載の発明によれば、広域音響の音響指向性に基づき、動画の映像上のキャラクタ(人物やロボットなど)が恰も平面上に存在し、生物のように発声若しくは発音する効果を享受でき、動画の臨場感が著しく増加する。
【0023】
請求項3記載の発明によれば、空間的スレッショルド領域の作用により、音源位置の空間的変動に基づく再生音響の不安定さを解消することができる。
【0024】
請求項4記載の発明によれば、請求項3における音源位置の空間的変動があった場合においても、時間的な第1のスレッショルドを超えていない場合には何ら違和感が生じないことから、音響の自然な再生を維持できる。
【0025】
請求項5記載の発明によれば、請求項3における音源位置の空間的変動があった場合においても、時間的な第2のスレッショルドを超えている場合には何ら違和感が生じないことから、音響の自然な再生を維持できる。
【0026】
請求項6記載の発明によれば、音源位置情報に基づき音響情報に係る音響信号を選択したスピーカで再生することができるので、動画の映像上のキャラクタとその発声等の音源位置を空間的に一致させることができる。
【0027】
請求項7記載の発明によれば、映像上のキャラクタ等が近接して存在する場合で、同一のスピーカで再生しなければならない場合にあっても、複数の独立した音響信号を合成し、当該スピーカに導くことにより、その目的を達成することができる。
【0028】
請求項8記載の発明によれば、アナログ合成の結果、合成音響信号の振幅が過大になった場合において、スピーカの音量を抑え、ひいては音響歪を抑えることができる。
【0029】
請求項9記載の発明によれば、従来積極的に活用されていなかった音源位置情報を独立した情報として、簡易に動画より取得することができる。
【0030】
請求項10記載の発明によれば、請求項9の取得方法で取得された音源位置情報を音源位置再生に必要なデータをまとめることができるので、取り扱いに便利である。特に、音響位置情報ESに変換するのに便宜である。
【0031】
請求項11記載の発明によれば、高域音響の音響指向性に基づき、動画の映像上のキャラクタ(人物やロボット等)が恰もスクリーン上に存在し、生物のように発声若しくは発音する効果を享受でき、動画の観客に対する臨場感が著しく増加する。
【0032】
請求項12記載の発明によれば、パーソナルコンピュータ(以下「PC」という。)等のコンピュータのアプリケーションで再生した動画をプロジェクタによりスクリーン上に表示できるので、簡易に本発明にかかるシステムを構築することができる。
【0033】
請求項13記載の発明によれば、音源位置情報を積極的に活用し、臨場感有るMPEG4動画再生を行わせることができる。
【0034】
請求項14記載の発明によれば、簡易に音源位置情報を取得でき、アプリケーション・プログラム等の開発が容易になる。
【0035】
請求項15記載の発明によれば、高価なハードウェアを使用しないで、安価な音源位置再生を行わせることができると共に、音源位置変換の方法変更を容易に達成できる。
【0036】
請求項16記載の発明によれば、音響システムに合わせた音源位置再生を行うアプリケーション・プログラムを提供できる。
【発明を実施するための最良の形態】
【0037】
本発明では、所定の方法により取得したキャラクタ音源位置データを、当該キャラクタをオブジェクトとし、当該キャラクタ音源位置データをオブジェクト・ディスクリプタIDとして有するMPEG4ファイルの再生において、平面表示装置と、その前面に設けられた平面スピーカ群と、一対の低音用スピーカとを有する動画再生装置により、前記MPEG4ファイルから再生する音響データを合成する場合に、これを更に高音域と低音域とにフィルタで分離し、当該高音域音響を前記平面スピーカ群で再生し、当該低音域音響を前記低音用スピーカで再生することを特徴とする動画再生システムであって、再生すべきスピーカを指定するために音源の位置空間(Xs,Ys)につき時間的及び空間的スレッショルド領域を設定する方式である。
【0038】
この場合に、空間的スレッショルド領域を設定して何れかのスピーカを選択する場合には、前記スレッショルド領域では現在選択されているスピーカを変更せず、前記スレッショルド領域を越えて隣の領域に入った場合に始めて隣のスピーカを選択する方式を採用する。時間的なスレッショルドのうち短い方(Ts)は、安定した音響再生のために設けられている。時間的なスレッショルドのうち長い方(Tl)は、無音期間の計測のために設けられている。一定の無音期間を経過していれば、空間的なスレッショルド領域内にあっても、直ちに隣のスピーカを選択する方式を採用する。
【実施例1】
【0039】
本発明に係る実施例1では、音源の位置情報を有する動画ファイルを扱う。本実施例1で特に関心のあるのは、そのキャラクタの中心位置ではなく、そのキャラクタの発生する音響(音声を含む。)の音源の位置であり、音源は通常複数であって音源位置も複数有する。
【0040】
音源位置の最も簡単な取得方法は、オブジェクト、特にビジュアル・オブジェクト(visual objective)の空間的な位置情報をそのまま音源の位置情報とする方法である。この場合には、1つのオブジェクトが複数の音源を有する場合においても、その位置情報は1つに限られる。オーディオ・オブジェクトでは音源の位置が定かではない場合がある。デフォルト(default、初期設定)では、原点に置かれるだろう。MPEG4ではシーン記述言語としてシーン用バイナリ・フォーマット(Binary Format for Scene、以下「BIFS」という。)を採用し、この言語はVirtual Reality Modeling Language(以下「VRML」という。)にその基礎を置く。オブジェクトの空間的な位置は、ユーザによる操作、送信者によるシーンの更新、アニメーション(animation、動画)等の原因により変化する。
【0041】
例えば、VRMLではオブジェクトの空間的な位置を移動させるとき、「変化(Transform)ノード」の中の「翻訳(translation)フィールド」で記述する。アニメーションの場合は、「時間検出器(TimeSensor)ノード」に従って「設定翻訳(set_translation)フィールド」で受け取った値を「translationフィールド」に渡す。ユーザがコンピュータ入力装置の一種であるマウス(mouse)のカーソル操作によりビジュアル・オブジェクトを移動した場合、「接触検出器(TouchSensor)ノード」に従って「translationフィールド」の値が変更される。従って、このようなシーン記述をBIFSシステムデコーダで解読したときは、同時に音源位置情報として本実施例1に係る音源位置再生装置に供給することができる。
【0042】
又、送信者が「BIFS Animation Frame」と呼ぶストリーミングデータ(streaming data)として、外部からDMIF(Delivery Multimedia Integration Framework、配信マルチメディア統合フレームネットワーク)インタフェースを介して送りつける場合がある。これは本発明に係る実施例2で取り扱う音源位置情報ESと類似する。
【0043】
(実施例1の動画再生システムの構成)
図1は、本発明の実施例1を示す動画再生システムの概略の構成図である。
【0044】
本実施例1の動画再生システムは、システム全体を制御する中央処理装置(CentralProcessing Unit、以下「CPU」という。)1によりアクセス(読み書き)されるメモリ10上の動画アプリケーション・プログラム11が実行される場合に、その動画アプリケーション・プログラム11がMPEG4シーン記述に基づく動画であって、その再生を行う装置である。
【0045】
この動画再生システムでは、CPU1と、このCPU1にバス2を介して接続されたメモリ10とを有している。更に、バス2に接続された音響再生装置20、映像再生装置30、及び音源位置再生装置40と、その映像再生装置30に接続された平面表示装置(例えば、液晶表示装置)50と、この液晶表示パネル51の前面に装着されて音源位置再生装置40に接続された複数の高音用透明平面スピーカ61からなる透明平面スピーカ群60と、音響再生装置20に接続された左右の低音用スピーカ71,72とが設けられている。
【0046】
メモリ10に格納された動画アプリケーション・プログラム11は、MPEG4シーン記述部12、システムデコーダ13、及びコンポジション(composition、合成)部14を有している。音響再生装置20は、音響オブジェクト等を音響用システムデコーダ13によりデコードし、コンポジション部14による合成後の音響データを受けて、その再生を行う装置であり、記憶手段であるテーブル等に記憶された音源21に基づき、音響合成部22において音響データによる音響合成をした後、音響フィルタ23で低域音響信号S23aと高域音響信号S23bに分けて出力する。低域音響信号S23aは低音用スピーカ71,72で再生するが、このスピーカ71,72の特性が高音側でも良い場合には、必ずしも低音のみの再生にこだわる必要はない。ただ、高音の再生を含ませると、本実施例1の特徴である音源位置の特定が定かでなくなるので、その限度で高音の再生を行わせるべきである。
【0047】
映像再生装置30は、映像オブジェクト等を映像用システムデコーダ13によりデコードし、コンポジション部14による合成後の映像データを再生する装置であり、この生成した映像を液晶表示パネル51に表示させる。液晶表示パネル51の前面には、複数の高音用透明平面スピーカ61からなる透明平面スピーカ群60が配設されている。複数の透明平面スピーカ61は、例えば、高分子圧電フィルムと導電性高分子とを組み合わせた透明シート状スピーカにより構成され、液晶表示パネル51で表示されるオブジェクトの音源として機能する。複数の透明平面スピーカ61を配置した場合、これを駆動する配線は、空間的スレッショルド領域と重なる領域に形成できる。液晶表示パネル51の大きさに制限されて透明平面スピーカ群60の面積を大きく取ることはできないので、各透明平面スピーカ61の音響特性は低音側(100Hz以下)で十分な再生特性を得ることができない。
【0048】
音源位置再生装置40は、音源位置データ等をBIFSシステムデコーダ等によりデコードし、このデコード結果を受けてその再生を行う。この音源位置の再生は、音源位置再生装置40の指定する位置(Xm,Yn)のスピーカ61(Xm,Yn)の指定により行われ、間接的に音響再生位置として感知されるだけである。この意味で、音源位置再生は音響再生に従属する。音源位置情報は、従来積極的に活用されてこなかったが、本実施例1ではこれを音響、映像に続く動画再生の第3の要素として認知し、始めて積極的に利用する。
【0049】
液晶表示パネル51でオブジェクトAが映像として表示され、その音声が再生される場合に、音源位置再生に基づき指定されたスピーカ61が音声を再生するが、オブジェクトAが移動した場合には、当然、音源位置再生に基づき指定されるスピーカ61も更新されることになる。従って、あたかもオブジェクトAが音声を自ら、何かしらの生物のように発声する効果を享受することができる。
【0050】
(動画再生システム中の音源位置再生装置の構成)
図2は、図1中の音源位置再生装置40を示す概略の構成図である。
【0051】
図示しない音響デコーダにより取得された音響15、及び図示しない音源位置情報デコーダにより取得された音源位置データ16は、音源位置再生装置40に入力されて音響バッファ41−1、及び音源位置情報データバッファ41−2に蓄えられる。BIFSシステムデコーダ13が、対応音響ES−IDと同一のES−IDを有する音響データを音源位置データ16と一緒に取り扱った場合には、それらのデータを分別して取り扱う不便を避けることができる。
【0052】
データバッファ41−2に蓄えられた音源位置データ16は内包するに従い、チャンネル分配器42により、チャンネル群43を構成する複数のチャンネル43−1,・・・中の所定のチャンネル内の、予め定められたチャンネルバッファ(43a,43b,43c中の1つ)に送付される。ここでチャンネル43−1,・・・とは、独立した音源にそれぞれ付与される音源位置再生手段である。チャンネル群43の総数(43−1,・・・)は、動画アプリケーション・プログラム11で取り扱える独立した音響位置再生数の上限を意味する。音源位置再生手段はハードウェアの増加を意味するので、実装できるチャンネル数(43−1,・・・)には限界がある。勿論、チャンネル数(43−1,・・・)が多いほど多様な音響環境を構築することができ、シーンの臨場感は向上する。
【0053】
次に、或るチャンネル43−kに着目して、本実施例1に係る音源位置再生手段の構成を説明する。
【0054】
チャンネル43−k内には、チャンネルバッファ43a−k,43b−k,43c−kが設けられ、このチャンネル43−kに割り当てられた対応音響ES−1D(k)、音源位置座標情報(k)、及び音響信号(k)が、各バッファ43a−k,43b−k,43c−kにそれぞれ格納される。チャンネル43−kに割り当てられたバッファ43b−k中の音源位置座標情報(k)は、第1のレジスタである現位置座標レジスタ44−1に順次送付される。そのタイミングはバッファ43a−1中の対応音響ES−ID(k)のオブジェクト・タイム・ベース(Object Time Base、以下「OTB」という。))やオブジェクト・クロック・レファレンス(Object Clock Reference、以下「OCR」という。)に従属させることもできるし、後述する実施例2で取り扱う音響位置情報ESのように独立したOCR等を保持させることもできるが、図示しない内部制御回路により制御する場合は、そのOCR等を基準に一定の間隔でデータを更新して行く形が望ましい。当該更新のタイミングにおいて、現位置座標レジスタ44−1の内容は第2のレジスタである前位置座標レジスタ44−2に送られる。
【0055】
現位置座標レジスタ44−1及び前位置座標レジスタ44−2の出力側には、スレッショルド判定部44−3及び隣接判定部44−4が接続されている。スレッショルド判定部44−3は、レジスタ44−1中の現位置座標が、液晶表示パネル51のスレッショルド領域53にあるのか、それとも液晶表示パネル51の確定領域52にあるのかを判定する。例えば、現位置座標のX座標若しくはY座標が液晶表示パネル51の左下を原点とする8ビット数値で与えられた場合、上位4ビットをそれぞれのスピーカ61に割り当て(従って、スピーカ61の個数は、液晶表示パネル51の全体で最大16個×16個指定できる。最も、最大個数を選択する必要はない。)、且つ、下位4ビットを相対位置指定に用いる場合を考えてみる。液晶表示パネル51のスレッショルド領域53を最小限に設定した場合は、下位4ビットの値が0、1、Fの何れかであればスレッショルド領域53にあると判定できる。又、下位4ビットの値がそれ以外の値であれば、液晶表示パネル51の確定領域52にあると判定できる。
【0056】
隣接判定部44−4は、スピーカ61に係るレジスタ44−1中の現位置座標をレジスタ44−2中の前位置座標と比べた場合に、隣り合うスピーカ61か否かを判定する。例えば、上位4ビットで16個のスピーカ61,・・・を指定した場合、X座標かY座標に何れかが一致して、他方の値が1しか違わない場合、隣接するスピーカ61と判定される。対角に位置するスピーカ61を隣接すると考えるか否かは、設計の問題である。なお、同一のスピーカ61を再度指定した場合には、音源位置の不安定の問題は生じないので、確定領域52にあると判定して差し支えない。
【0057】
音響信号(k)を格納するチャンネルバッファ43c−kの出力側には、第1、第2のタイマ44−5a,44−5bが接続され、このタイマ44−5a,44−5bの出力側が、ゲート回路44−6を介して、マルチプレクサ(MPX)44−7の選択切り替え端子に接続されている。マルチプレクサ44−7は、選択切り替え端子に与えられる信号により、レジスタ44−1,44−2中のいずれか一方の出力信号を選択して出力する回路である。
【0058】
第1、第2のタイマ44−5a,44−5bは、時間的スレッショルドの設定のために使われる。第1のタイマ44−5aは、時間的な第1、第2のスレッショルドのうち短い第1のスレッショルドの時間Tsを計時するものであり、短い時間Ts内に選択されるスピーカ61が変更されると、同様に、再生音響が不安定になり、視聴者に違和感を与える畏れがあることから、安定した音響再生のために設けられている。第2のタイマ44−5bは、時間的な第1、第2のスレッショルドのうち長い第2のスレッショルドの時間Tlを計時するものであり、無音期間の計測のために設けられている。一定の無音期間を経過していれば、空間的なスレッショルド領域53a内にあっても、直ちに隣のスピーカ61を選択したとしても、音源位置の不安定の問題は生じない。
【0059】
第1のタイマ44−5aは、一定時間(更新期間)毎にレジスタ44−1中の現位置座標の改定に同期してリセットを掛ける。位置座標更新のタイミングで、時間的なスレッショルド(Ts)の値と比較され、その値に至っていない場合には、ゲート回路44−6及びマルチプレクサ44−7を介して、レジスタ44−2中の前位置座標が選択される。最も、位置座標更新の時間間隔が時間的なスレッショルド以上の場合には、これを考慮する必要はない。第2のタイマ44−5bのリセットは、原則として、バッファ43c−k中の音響信号(k)の振幅が0の場合に解除されるが、リミッタを付け、その振幅が無視できるほど小さい場合に無音と判定して、このタイマ44−5bのカウントを開始させる方法が考えられる。即ち、第2のタイマ44−5bは、有意な振幅を検出した時に初期化され、レジスタ44−1中の現位置座標が継続して一定の無音時間である時間的なスレッショルド(Tl)が経過した場合には、キャリ(carry)が出力され、保持されることにより、ゲート回路44−6及びマルチプレクサ44−7を介して、レジスタ44−1中の現位置座標が選択される。
【0060】
マルチプレクサ44−7は、前述したように、レジスタ44−1中の現位置座標若しくはレジスタ44−2中の前位置座標の何れかを選択し、その選択にゲート回路44−6が使われる。選択されたスピーカ61に係る位置座標を供給するために、前記スレッショルド判定部44−3、隣接判定部44−4及びタイマ44−5a,44−5bのキャリがゲート回路44−6で使用される。ここでは所定の選択基準に従ってゲート回路44−6の開閉を行い、レジスタ44−1中の現位置座標若しくはレジスタ44−2中の前位置座標の何れかを選択する。ここでの選択基準は、以下の第1、第2、第3の通りである。
【0061】
第1に、レジスタ44−1中の現位置座標が液晶表示パネル51の確定領域52にある場合は、現位置座標を選択する。第2に、レジスタ44−1中の現位置座標が液晶表示パネル51の空間的スレッショルド領域53aにある場合は、レジスタ44−2中の前位置座標と隣接しないときに限り現位置座標を選択し、前位置座標と隣接する場合には、前位置座標を選択する。但し、時間的なスレッショルドのうち、タイマ44−5aの短い時間Tsに至っていない場合には、現位置座標の選択は行わない。第3に、レジスタ44−1中の現位置座標が液晶表示パネル51のスレッショルド領域53にある場合で、レジスタ44−2中の前位置座標と隣接したときでも、時間的なスレッショルド(Tl)を超えてタイマ44−5bのキャリが出力されていれば、現位置座標を選択する。
【0062】
マルチプレクサ44−7の出力側には、音響信号分配器45が接続され、更に、この音響信号分配器45の出力側に、複数のアナログ合成回路46−1,46−2,46−3,・・・が接続されている。
【0063】
音響信号分配器45は、マルチプレクサ44−7からの決定された音源位置座標を用いて、チャンネルバッファ43c−kからの音響信号(k)の分配を行うものであり、複数のチャンネル(k−1),(k),(k+1),・・・を有し、これらの各チャンネル(k−1),(k),(k+1),・・・内にデコーダ(DEC)45−1,45−2,・・・がそれぞれ設けられている。デコーダ45−1,45−2,・・・は、マルチプレクサ44−7から出力される音源位置座標によりその1つが選択され、この選択されたデコーダ(例えば、45−2)により、当該チャンネル(k)の音響信号(k)がデコードされてこのデコード結果が、当該音源位置座標に係るアナログ合成回路46−1,・・・で増幅された後にスピーカ61,・・・に供給される。音響信号(k)の分配に係る配線は複雑であるので、集積回路等によるスイッチを利用することが望ましい。
【0064】
各アナログ合成回路46−1,・・・は、分配された音声信号(k)を入力するアナログ合成端子である入力端子46aと、入力された音声信号の利得(ゲイン)を調整をする自動利得調整回路46bと、利得調整後の音声信号を増幅する増幅器(以下「アンプ」という。)46cとにより構成されている。各アンプ46cの出力側は、液晶表示パネル51を介して、配線62により、透明平面スピーカ群60の各スピーカ61にそれぞれ接続されている。
【0065】
図3(a)〜(c)は、図2の音源位置再生装置40におけるスレッショルドの作用の具体例を示す図である。
【0066】
このうち図3(a)は、音源位置の変動例を示す図であり、図中の折れ線(太字)が再生された音源位置Bである。比較のために離散的に配置されたスピーカ61(Xm−1,Yn),61(Xm,Yn),61(Xm+1,Yn)の位置を縦軸上に配置し、その境界線D1,D2を横実線で示した。当該横実線を囲む斜線部は空間的スレッショルド領域53aであり、空白部は空間的確定領域52aである。但し、X軸上のスピーカ配置しか考慮していない。
【0067】
図3(b)は、空間的スレッショルドの効果を説明する図である。再生時間の始めでは、スピーカ61(Xm,Yn)が指定されている。時間が経ち、境界線D1を越えていても、スレッショルド領域53a内にとどまる場合は、現在のスピーカ(Xm,Yn)の指定が維持されている(図中の#1)。従って、この間なんら指定スピーカ61の変更はなく、徒にスピーカ61が変更されることに起因する不都合は生じない。しかし、一旦スレッショルド領域53aを越えてしまうと隣のスピーカ61(Xm+1,Yn)が指定され、且つ、その逆も起こり得る(図中の#2)。
【0068】
図3(c)は、時間的スレッショルドの効果を説明する図である。時間的スレッショルド(Ts,Tl)が設定されていないと、図3(b)の指定変更が短い時間に頻繁に起こる不都合がある(図中の#2)。しかし、図中示した時間スレッショルド長THdを設定しておき、これ以下で指定変更が起きてもその変更を禁止するので、そのような不都合を防止できる。この効果は、音源位置再生を波形と考えた場合に、低域通過フィルタを使って、高周波部分を除去したことと等価である。
【0069】
図2のアナログ合成回路46−1,46−2,46−3,・・・の説明に戻る。
各スピーカ61に係る入力端子46aにおいては、複数のチャンネル(k−1,k,k+1,・・・)から供給された音響信号が届き、抵抗網による合成や演算増幅器(以下「オペアンプ」という。)のアナログ加算によるアナログ合成が行われる。その結果、異なるチャンネル(k−1,k,k+1,・・・)が同一のスピーカ61を指定することが可能である。1つのオブジェクトAが複数の音源を有しそれらが近接する場合、複数のオブジェクトA,・・・が重ねて表示された場合には同一のスピーカ61を指定することがある。なお、複数のチャンネル(k−1,k,k+1,・・・)から供給された音響信号の合成により入力振幅が過大になると音質の劣化にもつながるので、自動利得調整回路46bにより自動利得調整を行っている。アンプ46cは、供給される音響信号が高域音響信号であることからして、高域で十分な利得を有していなければならない。
【0070】
スピーカ61(Xm−1,Yn),61(Xm,Yn),61(Xm+1,Yn),・・・の配置は、液晶表示パネル51との関係で縦横に整列して、且つ、液晶表示パネル51の全面に均等に配置することが望ましい。望ましくは、各スピーカ61は確定領域52の中央(中心線52oで示した。)に配置すべきである。スピーカ61を縦横に均等に配置した場合には、座標とスピーカ61の位置とで対応関係を持たせることができる。図2では、便宜上、液晶表示パネル51上に確定領域52とスレッショルド領域53とを記載したが、これらは本来スピーカ61の位置との関係で仮想的に構築すべきものである。その場合、スピーカ61に対する透明電極の配線62はスレッショルド領域53に対応する位置に構成するのが便宜である。
【0071】
オブジェクトAの配置情報は液晶表示パネル51上でのものであり、スピーカ61の位置との直接の関係はない。従って、音源位置座標情報をスピーカ61の位置と対応させる作業が必要である。なお、透明平面スピーカ群60は液晶表示パネル51の前面に置かれている。液晶表示パネル51の複雑な構成と、スピーカ61の音響特性からして、液晶表示パネル51の背面にスピーカ群60を配置することは現実的ではない。又、透明平面スピーカ61は高分子圧電フィルム等により構成されるのであって、図2中のスピーカ61のマークは象徴的なイメージを表したに過ぎない。
【0072】
(指定スピーカの選択方法)
図4(a),(b)は、図2の音源位置生成装置40による指定スピーカの選択方法を詳細に説明する図である。
【0073】
このうち図4(a)は、液晶表示パネル51上に設定された空間的スレッショルド領域53aを示す図である。
【0074】
例えば、8個×8個の透明平面スピーカ群60に対応してスレッショルド領域53(破線部)と確定領域52(空白部)を定めている。上記のごとく、表示されたオブジェクトAの音源位置Bと平面スピーカ61の配置とは必ずしも一致しないが、ここでは説明の便宜上一致するものとしておく。図4(a)では、キャラクタAcが映像オブジェクトとして表示され、キャラクタAcに伴う音声オブジェクトは通常、シーンの原点に置かれる。従って、従来、キャラクタAcの音源位置B(Xs,Ys)は必ずしもキャラクタAcの表示中心位置ではなかったし、まして実際に音源となる器官等の位置でもなかった。本実施例1では、キャラクタAcの口腔に近接する位置に置かれた透明平面スピーカ61(Xm,Yn)が選択されている。
【0075】
図4(b)は、液晶表示パネル51上に設定された空間的スレッショルド領域53aの作用について説明する図である。
【0076】
図4(b)の平面で、X軸はキャラクタAcの位置(Xs,Ys)のうちX座標Xsだけを示し、Y座標Ysのほうは固定している場合である。キャラクタ位置は、同時に液晶表示パネル51上の位置に対応し、スレッショルド領域53(破線部)と確定領域52(空白部)を定める。Y軸は、使用するスピーカ61(Xm,Yn)を示し、座標Xm(m=0−7)につきの飛び飛びの値を取り、座標Yn(n=0−7)のほうは固定している場合である。図4(b)で、当初音源位置BがP点(Xp,Yp)にあり、その後音源位置Bが移動してQ点(Xq,Yq)に至る場合である。その移動が連続的若しくは不連続であって、キャラクタ位置Xsが同一確定領域52内に留まるときは選択されたスピーカ61は元のままである。その境界線D2を越えていても、左右のスレッショルド領域53に留まるときは、同様である。しかし、一旦スレッショルド領域53を越えて隣の確定領域52に入ると、隣のスピーカ61(Xm+1,Yn)が選択され、そのスレッショルド領域53に戻っても、最早元のスピーカ61は選択されない。その結果、キャラクタ位置が連続的若しくは不連続に移動しても、空間的スレッショルド領域53aの作用により、選択されるスピーカ61の無暗な不安定さを解消することができる。なお、時間的なスレッショルド(Ts,Tl)を設けた場合は、その例外となる。
【0077】
(指定スピーカの選択フロー)
図5は、図2の音源位置再生装置40における指定スピーカの選択フローを示す図である。この図5を参照して図2に示す音源位置再生装置40の作用を説明する。
【0078】
音源位置再生装置40の動作が開始すると、始めにMPEG4動画の再生を行う(ステップST1)。音響オブジェクトが存在し(ステップST2)、且つ、音響再生時刻に至った場合には(ステップST3)、音響再生を行うスピーカ61を選択するために、音源位置情報の取得を行い(ステップST4)、次にその音源位置Bが前回の音源位置Bと一致するか、若しくは異なるかを比較判定する(ステップST5)。一致する場合には(ステップST6)、前回選択したスピーカ61をそのまま選択する(ステップST11)。
【0079】
新たな音源位置Bが異なるスピーカ61に相当する確定領域52若しくはスレッショルド領域53であった場合には、次に当該新たな領域が前回の領域と隣接するか否かを比較判定する(ステップST7)。隣接する領域でない場合には、前回選択したスピーカ61をそのまま選択する。音源位置Bの大きな変動に対しては、選択されるスピーカ61も変更したほうが自然だからである。なお、対角に位置する領域を隣接すると判断するか否かは設計の問題である。
【0080】
新たな音源位置Bが隣接するスピーカ61のスレッショルド領域53であった場合には(ステップST8)、次に時間的スレッショルド(Ts,Tl)をチェックする(ステップST9)。タイマ44−5aにより前回の発音から一定の無音時間が経過していた場合には、選択するスピーカ61の変更は違和感を与えない。そこで、前記一定時間を経過していた場合には隣のスピーカ61を選択し(ステップST10)、そうでない場合には前回選択したスピーカを維持する(ステップST11)。
【0081】
選択されたスピーカ61が決定されると、MPEG4動画再生に伴う音響の再生が当該スピーカ61により行われる(ステップST12)。上述したように、音響再生と音源位置再生は別個の情報であるので、音響再生中にも刻々と音源位置再生は行われている。しかし、音源位置再生は必ずしも連続再生を行う必要はなく、飛び飛びの値が採用されても、音響再生と異なり、それほど違和感を与えることはない。そこで本実施例1では、音源位置再生を一定時間間隔で行うこととし、その再生時刻に至ったか否かが判断される(ステップST13)。
【0082】
当該再生時刻に至った場合には、次の音源位置情報が取得される(ステップST4)。又、音響再生が終了した場合には(ステップST14)、音源位置再生もそれに従属して再生を中止する。音響再生が終了し、未だ動画再生が終了していない場合には(ステップST15)、新たな音響オブジェクトの出現を待つことになる(ステップST1,ST2)。動画再生が終了すれば、音響再生及び音源位置再生も終了する。
【0083】
(実施例1の効果)
本実施例1によれば、次の(1)、(2)のような効果がある。
【0084】
(1) 本実施例1では、液晶表示装置50と、この前面に設けられた透明平面スピーカ群60と、低音用スピーカ71,72とを有する動画再生システムにおいて、動画アプリケーション・プログラム11から、音響再生装置20の音響合成部22により、再生する音響データを合成した場合に、これを更に高音域と低音域とにフィルタ23で分離し、該高音域音響を透明平面スピーカ群60で再生し、該低音域音響を低音用スピーカ71,72で再生する構成にしている。
【0085】
このような構成を採用したことにより、指定の位置にある平面スピーカ61による高音域の指向性有る音響により当該キャラクタAcが、液晶表示パネル51上であたかもその位置に何者かが存在するかのように発音する効果を享受できる。しかも、低音域音響を低音用スピーカ71,72で再生するので、両者相まって、自然な音響再生を享受することができる。
【0086】
(2) 本実施例1では、スピーカ変更に伴い再生すべきスピーカ61を指定するために時間的、空間的なスレッショルドを設定して、違和感のない再生を行う構成になっている。音源の再生位置(Xm,Yn)のわずかな変動により再生を担当するスピーカ61が変更されると、スピーカ61は有限個で離散的にしか存在しないことから、再生音響が不安定になり、視聴者に違和感を与える畏れがある。そこで、空間的スレッショルド領域53aを設定し、その領域53aでの再生につき現在指定しているスピーカ(例えば、61(Xm,Yn))若しくは隣接するスピーカ(例えば、61(Xm+1))の何れかで再生する方法を採用している。
【0087】
即ち、音源位置Bが未だスレッショルド領域53にある場合は、現在選択されているスピーカ61(Xm,Yn)を変更せず、該スレッショルド領域53を越えて隣の確定領域52に入った場合に、始めて隣のスピーカ61(Xm+1)を選択する方式を採用している。時間的なスレッショルド(Ts,Tl)は、短い時間内に、選択されるスピーカ61が変更されると、同様に、再生音響が不安定になり、視聴者に違和感を与える畏れがあることから、安定した音響再生のために設けられている。
【0088】
又、当該音源の無音期間を計測し、時間的なスレッショルド領域53を設定する。一定の無音期間を経過していれば、空間的なスレッショルド領域53a内にあっても、直ちに隣のスピーカ61(Xm+1)を選択することができる。この場合は、再生音響不安定の問題は生じないからである。この意味で時間的スレッショルド(Ts,Tl)は空間的スレッショルドに優先する。
【0089】
このように、本実施例1の構成によれば、透明平面スピーカ群60を使用するための問題点を解決し、自然な音響再生を享受することができる。即ち、何れかのスピーカ61を選択した場合には、スレッショルド領域53の作用により、音源位置Bの変動に基づく再生音響の不安定さを解消することができる。又、スレッショルド領域53で双方のスピーカ61(Xm,Yn),61(Xm+1)を使用して再生する方式を採用した場合には、音量の不安定さを解消することができる。
【実施例2】
【0090】
(実施例2の動画再生システムの構成)
図6は、本発明の実施例2における動画再生システムの要部を示す概略の構成図である。
【0091】
この動画再生システムは、実施例1を示す図1の動画アプリケーション・プログラム11に対応するアプリケーション・プログラム110と、このプログラム110により制御されるハードウェア120を有している。ハードウェア120は、図1の音響再生装置12、映像再生装置13、及び音源位置再生装置14に対応する音響再生装置120、映像再生装置130、及び音源位置再生装置140を有している。
【0092】
本実施例2の動画再生システムは、音源位置情報をESとして取り扱い、MPEG2ビデオと連帯した動画再生を行う方式である。MPEG2ビデオと連帯するので、キャラクタ・オブジェクトの位置変動を考慮しない方式である。アプリケーション・プログラム110は、実施例1を示す図1のMPEG4シーン記述部12、システムデコーダ13、及びコンポジション部14にそれぞれ対応するMPEG4ファイル112、MPEG2システムデコーダ113、及びコンポジション部114を有し、音源位置再生情報115、音響再生情報116、及び映像再生情報117をハードウェア120へ出力する機能を有している。
【0093】
MPEG4ファイル112は、映像(MPEG2ビデオ)ES112a−1、及び音響(MPEG2オーディオ)ES112a−2を有するMPEG2ファイル112aの他に、音源位置情報をES(112b)として有している。MPEG2ビデオ等でなく、MPEG4ビデオ及びMPEG4オーディオを選択することもできるが、本実施例2の方式は、従来の動画再生と一線を画する新しい動画再生方式であることを強調するのに便宜である。
【0094】
MPEG2システムデコーダ113は、MPEG2ファイル112aの提供する映像(MPEG2ビデオ)ES112aP−1、及び音響(MPEG2オーディオ)ES112a−2をデコードし、それぞれ映像再生情報117及び音響再生情報116を出力する。コンポジション部114は、MPEG2システムデコーダ113のデコード結果を合成するものであり、この合成結果は、MPEG4再生プレイヤ等のアプリケーションで有効に利用できる。
【0095】
映像再生情報117及び音響再生情報116は、ハードウェア120において、それぞれ液晶表示装置のような映像再生装置130及びアンプ付きスピーカのような音響再生装置120により、その再生が実現される。又、音源位置再生情報115は音源位置再生装置140によりその再生を行うが、音源位置再生は音響再生に従属するので、音源位置再生情報115は音響再生装置120に提供され、当該音響再生装置120の再生スピーカ等の選択制御に使用される。
【0096】
(MPEG4ファイルのデータ構成)
図7(a)、(b)は、図6におけるMPEG4ファイル112のデータ構成を説明する図である。
【0097】
このうち図7(a)は、従来のMPEG4ファイル112Aのデータ構成であり、映像ES_ID1と音響ES_ID2は、MPEG2ファイル112aからそれぞれMPEG2ビデオ(112a−1)及びMPEG2オーディオ(112a−2)として供給することができる。MPEG2オーディオ(112a−2)は、最近では5.1チャンネル(CH)スピーカ構成により3次元的音響効果を奏する技術が登場しているが、それらは少なくとも音源位置情報(112b)を活用する技術ではない。
【0098】
これに対し、図7(b)に示す本実施例2のMPEG4ファイル112のデータ構成では、映像ES_ID1と音響ES_ID2の他に、音源位置情報ES_ID3を伴う点が異なっている。かかる音源位置情報ES_ID3は、後述する追尾(トラッキング、tracking)作業により、MPEG2ビデオ(112a−1)から取得することができる。取得した音源位置情報ES_ID3は、MPEG4ファイル112をソースとして、音源位置情報ES112bの形でシステムデコーダ113に供給され、音源位置再生情報115として再生された後、音響再生装置120の再生スピーカ等の選択制御に使用される。
【0099】
(音源位置情報を取得するためのトラッキング作業)
図8は、図7の音源位置情報(112b)をMPEG2ビデオから取得するためのトラッキング作業を説明する図である。
【0100】
音源位置情報(112b)を取得するためのトラッキング作業では、例えば、PCを用いる。このPCでは、表示画面付き動画再生装置300と、全体を制御するCPU301とが、PC内部バス302に接続されている。内部バス302には位置読み取り装置303が接続され、この位置読み取り装置303に、複数のマウス(例えば、キャラクタAc1用のマウス304a、キャラクタAc2用のマウス304b1、及びキャラクタAc2用のマウス304b2)が接続されている。
【0101】
動画再生装置300の表示画面には、複数のキャラクタ(例えば、人間様キャラクタAc1、及び自動車様キャラクタAc2)が表示されている。人間様キャラクタAc1は、口腔を有し発声する。従って、その音源としては当該口腔であって、その位置を音源位置と定めることができる。動画再生が行われ、当該キャラクタAc1が移動したときは、当然その音源位置も移動する。本実施例2では、例えば、同一音源に対し1つのカーソルaを割り当て、操作する者がマウス304aを動かして当該音源をトラッキングする。マウス304aのカーソルaを常に口腔の位置に保つのである。すると、マウス304aが接続されている位置読み取り装置303がそのカーソルaの座標を、音源位置の座標として取り込むことができる。なお、他の構成例として、プロジェクタとレーザポインタとレーザ光読み取り装置の組み合わせによっても、音源位置の座標として取り込むシステムを構築できる。
【0102】
トラッキングが困難な場合もある。例えば、シーンの境目でいきなり或るキャラクタが登場した場合、発声に併せてカーソルを配置することが難しいかも知れない。この場合には、動画再生装置300の再生速度を落とし、スローモーションで追尾しなければなるまい。又、音源位置がシーンの外部に存在する場合、例えば、遠方にある航空機の排気音は、最も近いと思われる位置、例えば表示画面の一端を指定する他はない。背景雑音等のように広い音響領域を有する場合には、複数のスピーカによる同時の再生が望ましい。又、音源位置は必ずしも各キャラクタに1つとは限らず、キャラクタ以外の音源も多数存在するということに注意しなければならない。
【0103】
本実施例2で特に関心のあるのは、そのキャラクタの中心位置ではなく、そのキャラクタの発生する音響(音声を含む。)の音源の位置であり、音源は通常複数であって音源位置も複数有する。例えば、自動車様キャラクタAc2においては、警笛の発する警笛音、マフラ(消音器)の発する排気音、その他の路面とタイヤとの摩擦音等、複数の音源を有する。本実施例2では、マフラ音に対しカーソルb1、警笛音に対しカーソルb2を割り当て、それぞれマウス304b1及びマウス304b2でトラッキングする。
【0104】
コンピュータで作成したアニメーションでは、このようなトラッキング作業は容易であるに違いない。コンピュータは、そのアプリケーション・プログラムにおいて、キャラクタ全体を1つのオブジェクトとして扱うことができるからである。しかし、従来において、未だ音源位置情報を積極的に活用する事例が知られていないと思われる。従来の表示装置や音響装置ではそのような要求が出ていなかったからであろう。本実施例2では、トラッキング操作者による位置入力において必要な音源位置情報を取得する。
【0105】
このようなトラッキング作業で取得した音源位置データに対し、最適なデータ構造例について検討する。
【0106】
取得した音源位置データは、動画音響データと密接な関係を有する。例えば、動画音響が無音の時は、音源位置データは意味をなさない。動画音響がMPEG2でコード化されている場合は、全ての音響は合成された形で1つのファイルで記述できる。これに対し、MPEG4のようにオブジェクトA毎に動画音響が定義されているときは、個別に音源位置情報を取得する作業が必要になる。しかし、オブジェクトA毎に音源情報を取得する作業が困難と言うわけではない。映画でもアニメーションでも、「アフレコ」(After Recording)は普通である。ただ、レコーディングに際し、個別に音声や効果音を記録しておき、MPEG4ファイル112のオブジェクトAに割り当てなければならない、ということである。なお、音源位置がシーンの外部に存在する場合、対象とするオブジェクトAが存在しないので、仮想的なオブジェクト(以下、「仮想オブジェクト」という。)を構築する。仮想オブジェクトは複数構築しておくこともできるが、実体が表示されないので1つの仮想オブジェクトが多数の属性、ESを有するものとして構築することができる。背景雑音等のように広い音響領域を有する場合には、複数の音源位置Bを持ち、同一の音響ESを同時に再生する方式を採用することができる。
【0107】
MPEG4では、前述の如く、シーン記述において各AVオブジェクトの時間的、空間的な相互関係や属性を記述できるようにし、その詳細については既存の規格に委ね、インタフェース仕様のみを規定する。しかしながら、音源位置データを適切に記述する既存のデータ形式が未だ知られていないと思われる。そこで、本実施例2では、図7に示すデータ形式を採用することにした。
【0108】
(音源位置情報のデータ構造)
図9は、図7における音源位置情報の最適なデータ構造を説明する図である。
【0109】
この音源位置情報データ400の全体は、ヘッダ(header)410とデータ・ペイロード(payload)420から構成されている。ヘッダ410は、このデータ形式411を特定するための情報、この音源位置情報に与えたデータの名称412、この音源位置情報が帰属するオブジェクトID413、内包する位置情報の位置データ形式414、データの個数415、及び、その他の総バイト長等を含めた構成とすることができる。データ・ペイロード420を構成する複数のデータ420−1〜420−Nにおける各データ420−1,・・・は、データ開始マーク421、データ番号422、このデータに対応する音響ESのID(対応オーディオES_ID)423、再生基準時刻424、サンプリングレート425、位置座標の個数(M個)426、時刻(x0,yo)〜(xM−1,yM−1)でサンプリングした位置座標データ427、パリティ等のデータチェック428、及び、データ終了マーク429等を含めた構成とすることができる。
【0110】
内包する音源位置情報のデータ形式は、図7で具体的に示した形式に限られないので、その形式を特定しておく必要がある。この音源位置情報が帰属するオブジェクトAについては、仮想オブジェクトも含むものとする。1つのオブジェクトAに複数の音源が存在する場合があるので、各データがどの音響ESに帰属するかを指定しておかなければならない。再生基準時刻424は、原則として音響ESのOCR等に従うが、異なる場合にはここに記載する。
【0111】
サンプリングレート425は、トラッキング作業でのサンプリング周期が基準であり、この値は動画再生の速度に依存している。音源位置Bの移動は、オブジェクトAに関し人間の聴覚が追従できる範囲に限られるのが通常であるので、そのサンプリングレート425も50ms乃至1000msと言った単位になる。位置座標データ427の範囲は、相対的なもので、液晶表示パネル51等の大きさや透明平面スピーカ61等の大きさに依存している。従って、全画面表示の場合の相対的な位置で表すのが望ましい。透明平面スピーカ61等の大きさを小さくし、数多く並べることは難しいので、相対的な位置は1バイト程度の精度で十分である。
【0112】
(実施例2の効果)
本実施例2によれば、実施例1とほぼ同様の効果の他に、更に、次の(1)〜(4)のような効果がある。
【0113】
(1) 図8のPCにおける動画再生装置300で動画を再生して、その映像にかかるキャラクタAc1,Ac2の音源位置を1つ又は複数のマウス304a,304b1,304b2によるカーソルa,b1,b2で追尾して音源位置情報を取得し、且つ、キャラクタAc1,Ac2の生成する音響を当該音源位置情報と関連付けて取得するようにしたので、従来積極的に活用されていなかった音源位置情報を独立した情報として、簡易に動画より取得することができる。
【0114】
(2) 前記(1)で取得された音源位置情報を有する音源位置情報データ400として、図9に示すように、キャラクタに対応する音響データの指定、再生基準時刻、サンプリングレート、及び複数の位置座標を有するデータの構成方法を採用したので、前記取得された音源位置情報を音源位置再生に必要なデータをまとめることができるので、取り扱いに便利である。特に、音響位置情報ESに変換するのに便宜である。
【0115】
(3) 図9に示すように、対応する音響データの指定、再生基準時刻、サンプリングレート、及び複数の位置座標を有する音源位置情報データ400を、音響データに係る音響ESに従属するMPEG4ESとしてBIFSシステムデコーダ113に提供し、再生された音源位置をコンポジッション(114)の要素とする動画再生方法を採用したので、音源位置情報を積極的に活用し、臨場感有るMPEG4動画再生を行わせることができる。
【0116】
(4) 図6に示すように、コンポジッション(114)の要素であるオブジェクトの空間的位置を音源位置とする動画再生方法を採用したので、簡易に音源位置情報を取得でき、アプリケーション・プログラム110等の開発が容易になる。
【実施例3】
【0117】
(実施例3の劇場システム)
図10は、本発明の実施例3を示す劇場システムの概略の構成図である。
【0118】
この劇場システムは、実施例1、2の動画再生システムを応用したものであり、実現が大規模であるというだけで、基本的には実施例1、2と同様である。
【0119】
本実施例3の劇場システムでは、例えば、実施例1を示す図1の液晶表示装置50に代えて、映写機550、図1の液晶表示パネル51に代えて、大型の映写用スクリーン551、図1の透明平面スピーカ群60に代えて、スクリーン551の背面側に配置された複数の平面スピーカ561からなる平面スピーカ群560、図1の低音用スピーカ71,72に代えて、スクリーン551の左右に配置された左側の低音用パワースピーカ571及び右側の低音用パワースピーカ572、及び、映写機550とスクリーン551の間に新たに配置された観客席580が、それぞれ設けられている。
【0120】
即ち、平面スピーカ群560(Xm,Yn)に対して空間的スレッショルド領域等を形成し、音源の移動に伴う音響再生の不安定を解消している。ただ、劇場システムということで、敢えて平面スピーカ群560を映写用スクリーン560の前面に置く必要はない。スピーカ561も大きなものを採用できるので、広域音響と低域音響を区別する程でもない。しかし、迫力ある再生音を形成するには、低音用パワースピーカ571,572が有効である。そこで、中央に平面スピーカ群560を配置し、その左右に低音用パワースピーカ571,572を配置している。
【0121】
映写機550が観客席580越しにスクリーン551上にキャラクタAを投射したとき、その位置にあるスピーカ561を当該キャラクタAの発声に割り当てることができる。これにより、観客席580の観客は恰もスクリーン551上のキャラクタAが生物であるかのように発声若しくは発音する効果を享受でき、動画の観客に対する臨場感が著しく増加する。
【0122】
(プロジェクタ利用の動画再生システム)
最近プロジェクタによりスクリーン551にコンピュータ映像を映すプレゼンテーションシステムが普及してきた。この場合にも、スクリーン551の背面に配置した、若しくはスクリーン551と一体化した平面スピーカ群560を配置する動画再生が可能であり、その場合、PC等のコンピュータによる図6のようなアプリケーション・プログラム110を使った動画再生を利用することができる。高音域音響と低音域音響を区別せず音響再生を行えば、外部に設けた例えば図6の音源位置再生装置140を使って、簡易な音響位置再生を実現できる。
【実施例4】
【0123】
(動画再生システムの構成)
図11は、本発明の実施例4における動画再生システムの要部を示す概略の構成図である。
【0124】
空間的時間的スレッショルドをソフトウェアで実現する場合、複雑なハードウェアを使用しないので安価に実現できるが、ハードウェア情報を取り込んで、音源位置情報を最適に変換する等の工夫が必要になる。このような工夫をしたものが本実施例4の動画再生システムである。
【0125】
本実施例4の動画再生システムは、音源位置変換ソフトウェアである音源位置調整コンパイラを用いたシステムであり、MPEG4アプリケーション・プログラムであるプレイヤ(player)600と、これにより制御されるハードウェア700を有している。プレイヤ600は、MPEG4ファイル650を再生するに当たり、このファイル650に含まれる音源映像情報651のみならず、当該ファイル650に含まれる変換前の音源位置情報652をも再生する。
【0126】
プレイヤ600は、再生設定部610において、デフォルトで、若しくは操作者の設定により空間的スレッショルド値611若しくは時間的スレッショルド値612が設定されている場合に、当該設定に従い、音源位置変換ソフトウェアである音源位置調整コンパイラ620が、変換前の音源位置情報652を変換後音源位置情報に変換する。プレイヤ600は、音響映像情報651及び変換後音源位置情報に従い、それぞれ音響映像再生部630で音響映像再生を行うと共に、変換後の音源位置再生部640で音源位置再生を行う。これらは、ハードウェア700を構成する音響映像再生装置701及び音源位置再生装置702によりそれぞれ再生される。又、音源位置再生装置702は、当該音響を再生する例えば図1のような透明平面スピーカ61を指定する。
【0127】
音源位置調整コンパイラ620は、正しい変換を行うために、例えば図1の透明平面スピーカ群60における配置情報のようなハードウェア情報703を必要とする。変換の基準は、原則として、ハードウェア700で実現する空間的時間的スレッショルドと同様であり、例えば図2、図3において次の第1、第2、第3の選択基準に従う。
【0128】
第1に、現位置座標が確定領域52にある場合は現位置座標を選択し、第2に、現位置座標が空間的スレッショルド領域53aにある場合、前位置座標と隣接しない場合に限り現位置座標を選択し、前位置座標と隣接する場合には前位置座標を選択する。但し、時間的なスレッショルドのうち短い方(Ts)に至っていない場合には、現位置座標の選択は行わない。第3に、現位置座標がスレッショルド領域53にある場合で前位置座標と隣接した場合でも、時間的なスレッショルド(Tl)を越えてタイマ44−5aのキャリが出力されていれば、現位置座標を選択する。
【0129】
(実施例4の効果)
本実施例4によれば、実施例1、2とほぼ同様の効果の他に、更に、次の(1)、(2)のような効果がある。
【0130】
(1) 所定の選択基準に従い、音響を再生するスピーカ61等を指定する音源位置変換ソフトウェアである音源位置調整コンパイラ620を用いて動画を再生するようにしたので、高価なハードウェアを使用しないで、安価なハードウェア700を用いて音源位置再生を行わせることができると共に、音源位置変換の方法変更を容易に達成できる。又、安価なハードウェアを小型化すれば、ハンドヘルド・ゲーム機等に最適なシステムを提供できる。
【0131】
(2) 音源位置調整コンパイラ620を有し、空間的若しくは時間的スレッショルドの設定、音響映像情報651及び音源位置情報652に従い、それぞれ音響映像再生(630)及び音源位置再生(640)を行うMPEG4アプリケーション・プログラムを用いて動画を再生するようにしたので、音響システムに合わせた音源位置再生を行うアプリケーション・プログラムを提供できる。アプリケーションの具体例として、動画再生を行う単なるプレイヤばかりでなく、前記ハンドヘルド・ゲーム機等に最適なゲーム・プログラムも提供できる。
【実施例5】
【0132】
本発明は、上記実施例1〜4に限定されず、種々の変形が可能である。この変形例である実施例5としては、例えば、次の(A)、(B)のようなものがある。
【0133】
(A) 本発明に係る音源位置情報を活用した動画再生システムは、映像再生装置と複数のスピーカを空間的に重ね合わせることができるシステムであれば、その音響を生成する音源が移動する全ての映像音響システムにおいて採用できる。透明平面スピーカ61を有する液晶表示装置50や劇場システムにとどまらず、平面表示装置であれば、従来のブラウン管(CRT)にディスプレイ用反射防止膜に類似する透明平面スピーカを組み合わせても良いし、プラズマディスプレイやEL表示装置の様に液晶と全く異なる方式を採用した平面表示装置であってもよい。
【0134】
(B) プロジェクタと平面スピーカ群とスクリーンとPC等のコンピュータとを組み合わせたシステムについては、その組み合わせを自由に選ぶことができるし、PC等のコンピュータ上のアプリケーション・プログラムも動画再生プレイヤに限らず、映像と音声を伴う他のアプリケーション・プログラムでも採用することができる。又、平面スピーカ群とスクリーンを一体化したものを構成すれば、コンパクトなプロジェクタ・システムを提供できる。
【図面の簡単な説明】
【0135】
【図1】本発明の実施例1を示す動画再生システムの概略の構成図である。
【図2】図1中の音源位置再生装置を示す概略の構成図である。
【図3】図2の音源位置生成装置によるスレッショルドの作用の具体例を示す図である。
【図4】図2の音源位置生成装置による指定スピーカの選択方法を説明する図である。
【図5】図2の音源位置生成装置による指定スピーカの選択フローを示す図である。
【図6】本発明の実施例2における動画再生システムの要部を示す概略の構成図である。
【図7】図6の動画再生システムにおけるMPEG4ファイルのデータ構成を説明する図である。
【図8】図7の音源位置情報をMPEG2ビデオから取得するためのトラッキング作業を説明する図である。
【図9】図7における音源位置情報のデータ構造を説明する図である。
【図10】本発明の実施例3を示す劇場システムの概略の構成図である。
【図11】本発明の実施例4における動画再生システムの要部を示す概略の構成図である。
【符号の説明】
【0136】
1,301 CPU
11 動画アプリケーション・プログラム
10 メモリ
20 音響再生装置
30 映像再生装置
40 音源位置再生装置
50 液晶表示装置
60 透明平面スピーカ群
110 アプリケーション・プログラム
200,700 ハードウェア
300 動画再生装置
303 位置読み取り装置
304a,304b1,304b2 マウス
400 音源位置情報データ
550 映写機
551 スクリーン
560 平面スピーカ群
571,572 パワースピーカ
600 MPEG4アプリケーション・プログラム
650 MPEG4ファイル

【特許請求の範囲】
【請求項1】
映像情報、音響情報、及び音源位置情報を有する動画の前記映像情報を再生する平面表示装置と、
前記動画の前記音響情報を再生し、高域音響と低域音響に分別する音響再生装置と、
前記平面表示装置の前面又は背面に配置され、前記高域音響を再生する複数の高音用スピーカからなる高音用スピーカ群と、
前記低域音響を再生する低音用スピーカと、
前記動画の前記音源位置情報を再生するものであって、前記音源位置情報に基づき前記高域音響を再生するように前記高音用スピーカの指定を行う音源位置再生装置と、
を有することを特徴とする動画再生システム。
【請求項2】
前記高音用スピーカ群は、前記平面表示装置の前面に配置され、前記高域音響を再生する複数の透明平面スピーカからなる透明平面スピーカ群により構成され、
前記音源位置再生装置は、アプリケーション・プログラムが前記動画の再生を行い、前記映像情報、前記音響情報、及び前記音源位置情報を再生する場合に、前記音源位置情報に基づき前記高域音響を再生するように前記透明平面スピーカの指定を行うことを特徴とする請求項1記載の動画再生システム。
【請求項3】
前記高域音響を再生する前記高音用スピーカを指定することを特徴とする請求項1又は2記載の動画再生システム。
【請求項4】
前記音源位置再生装置では、
前記音響情報と前記音源位置情報を受け取り、
前記音源位置情報に係る現位置座標と前位置座標を比較し、
前記現位置座標が音源位置につき設定された空間的スレッショルド領域にあるか、若しくは隣接する確定領域にあるかを判定し、
前記判定の結果、前記現位置座標が前記空間的スレッショルド領域にあり、且つ、前記前位置座標と隣接しない場合に限り前記現位置座標を選択するが、時間的に短い第1のスレッショルド及び時間的に長い第2のスレッショルドのうち前記第1のスレッショルドに至っていない場合には前記前位置座標を選択する基準により、前記高域音響を再生する前記高音用スピーカを指定することを特徴とする請求項1又は2記載の動画再生システム。
【請求項5】
前記音源位置再生装置では、
前記音響情報と前記音源位置情報を受け取り、
前記音源位置情報に係る現位置座標と前位置座標を比較し、
前記現位置座標が音源位置につき設定された空間的スレッショルド領域にあるか、若しくは隣接する確定領域にあるかを判定し、
前記判定の結果、前記現位置座標が前記空間的スレッショルド領域にあり、且つ、前記前位置座標と隣接する場合には前記前位置座標を選択するが、時間的に短い第1のスレッショルド及び時間的に長い第2のスレッショルドのうち前記第2のスレッショルドを超えている場合には前記現位置座標を選択する基準により、前記高域音響を再生する前記高音用スピーカを指定することを特徴とする請求項1又は2記載の動画再生システム。
【請求項6】
前記音源位置再生装置は、
前記音響情報と前記音源位置情報を受け取るバッファと、
前記音源位置情報に係る現位置座標を格納する第1のレジスタと、
前記音源位置情報に係る前位置座標を格納する第2のレジスタと、
前記現位置座標から空間的スレッショルド領域にあるか否かを判定するスレッショルド判定部と、
前記現位置座標と前記前位置座標を比較して隣接する領域にあるか否かを判定する隣接判定部と、
前記現位置座標と前記前位置座標の何れかを選択するマルチプレクサと、
前記マルチプレクサを制御するゲート回路と、
前記マルチプレクサにより選択された位置座標に基づき音響信号を指定する前記高音用スピーカに導く音響信号分配器と、
を有することを特徴とする請求項1又は2記載の動画再生システム。
【請求項7】
前記音源位置再生装置は、
前記バッファ、前記第1、第2のレジスタ、前記スレッショルド判定部、前記隣接判定部、前記マルチプレクサ、前記ゲート回路、及び前記音響信号分配器によりそれぞれ構成される複数のチャンネルを有し、
チャンネル分配器により、前記複数のチャンネルの1つ又は複数の前記音響信号が前記指定された高音用スピーカに係る前記チャンネルのアナログ合成端子に接続され、且つ、アナログ合成されることを特徴とする請求項6記載の動画再生システム。
【請求項8】
前記音源位置再生装置は、
前記各高音用スピーカに係る前記アナログ合成された前記音響信号を増幅する増幅器をそれぞれ有し、前記各増幅器が入力信号に応じて自動利得調整を行うことを特徴とする請求項6又は7記載の動画再生システム。
【請求項9】
前記音源位置情報は、コンピュータ上で前記動画を再生して、前記動画の映像に係るキャラクタの音源位置を1つ又は複数のマウスによるカーソルで追尾し、前記キャラクタの生成する音響と関連付けて取得することを特徴とする請求項1〜8のいずれか1項に記載の動画再生システム。
【請求項10】
取得された請求項9の音源位置情報を有する音源位置データであって、前記キャラクタに対応する音響データの指定、再生基準時刻、サンプリングレート、及び複数の位置座標を有する前記音源位置データを構成し、
前記音源位置データに基づき前記音源位置再生装置により前記音源位置を再生させることを特徴とする請求項9記載の動画再生システム。
【請求項11】
映像情報、音響情報、及び音源位置情報を有する動画の前記映像情報をスクリーンに映写する映写機と、
前記動画の前記音響情報を再生し、高域音響と低域音響に分別する音響再生装置と、
前記スクリーンの背面側に配置され、前記高域音響を再生する複数の高音用スピーカからなる高音用スピーカ群と、
前記低域音響を再生する低音用スピーカと、
前記映写機が前記動画の再生を行い、前記動画の映像、音響及び音源位置を再生する場合に、前記音源位置に基づき前記高域音響を再生するように前記高音用スピーカの指定を行う音源位置再生装置と、
を有することを特徴とする動画再生システム。
【請求項12】
映像情報、音響情報、及び音源位置情報を有する動画の前記映像情報をスクリーンに映写するプロジェクタと、
前記動画の前記音響情報を再生する音響再生装置と、
前記スクリーンの背面側に配置された複数のスピーカからなるスピーカ群と、
前記プロジェクタに接続したコンピュータのソフトウェアにより動画の再生を行い、前記動画の映像と音響と音源位置を再生する場合に、前記音源位置に基づき前記音響を再生するように前記スピーカの指定を行う音源位置再生装置と、
を有することを特徴とする動画再生システム。
【請求項13】
対応する音響データの指定、再生基準時刻、サンプリングレート、及び複数の位置座標を有する音源位置データを、前記音響データに係る音響エレメンタリ・ストリームに従属するムービング・ピクチャ・エクスパート・グループ4・エレメンタリ・ストリームとしてシーン用バイナリ・フォーマット・システムデコーダに提供し、再生された音源位置をコンポジッションの要素とする動画再生方法。
【請求項14】
前記コンポジッションの要素であるオブジェクトの空間的位置を前記音源位置とすることを特徴とする請求項13記載の動画再生方法。
【請求項15】
ハードウェア情報に基づき音源位置情報を変換する音源位置変換ソフトウェアであって、
第1に、現位置座標が確定領域にある場合は現位置座標を選択し、
第2に、前記現位置座標が空間的スレッショルド領域にある場合、前位置座標と隣接しないときに限り前記現位置座標を選択し、前記前位置座標と隣接するときには前記前位置座標を選択するが、時間的に短い第1のスレッショルド及び時間的に長い第2のスレッショルドのうち前記第1のスレッショルドに至っていないときには、前記現位置座標の選択は行わず、
第3に、前記現位置座標が前記スレッショルド領域にある場合で前記前位置座標と隣接した場合でも、前記第2のスレッショルドを越えてタイマのキャリが出力されていれば、前記現位置座標を選択するという選択基準に従い、
音響を再生するスピーカを指定する前記音源位置変換ソフトウェアを用いて、
動画を再生することを特徴とする動画再生方法。
【請求項16】
請求項15に記載された音源位置変換ソフトウェアを有し、
前記空間的若しくは時間的スレッショルドの設定、音響映像情報及び音源位置情報に従い、それぞれ音響映像再生及び音源位置再生を行うアプリケーション・プログラムを用いて、
動画を再生することを特徴とする動画再生方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2007−27846(P2007−27846A)
【公開日】平成19年2月1日(2007.2.1)
【国際特許分類】
【出願番号】特願2005−203004(P2005−203004)
【出願日】平成17年7月12日(2005.7.12)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】