信号処理プログラム、及び記録媒体
【課題】 音響信号をバイノーラル録音、またはバイノーラルではない通常録音のいずれかの録音方式により映像信号と共に記録した記録媒体を再生処理する際、録音した音響信号に忠実な音場再生を可能にした映像信号処理方法、及び映像信号処理プログラムを提供する。
【解決手段】 記録媒体に記録された音声データを含む映像データがバイノーラル録音されたかどうかを示すバイノーラル情報を読み取るバイノーラルフラッグ検出器21,22,23と、この検出されたバイノーラル情報を用いて、バイノーラルで記録されていない音声データ部分にはクロストークキャンセル処理を行わず、バイノーラルで記録された音声データ部分にはクロストークキャンセル処理を行うようにする。
【解決手段】 記録媒体に記録された音声データを含む映像データがバイノーラル録音されたかどうかを示すバイノーラル情報を読み取るバイノーラルフラッグ検出器21,22,23と、この検出されたバイノーラル情報を用いて、バイノーラルで記録されていない音声データ部分にはクロストークキャンセル処理を行わず、バイノーラルで記録された音声データ部分にはクロストークキャンセル処理を行うようにする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、記録媒体に記録された音声信号を含む映像信号を処理する信号処理プログラム、及び記録媒体に関するもので、特に、バイノーラル記録された音声信号を好適に視聴者に提示するようにした信号処理プログラム、及び記録媒体に関する。
【背景技術】
【0002】
従来より、バイノーラル方式と呼ばれる録音再生方法がある。これは、視聴者の頭部を想定したダミーヘッドの左右両耳の穴にダミーヘッドマイクロホンと呼ばれるマイクロホンを設け、このダミーヘッドマイクロホンにより音源からの音響信号を録音する。このようにして録音された音響信号を、実際に視聴者がヘッドフォンを装着して再生すると、対象となる音源の再生音像の方向感、定位感が向上し、音源からの音声をそのまま聞いているような臨場感が得られるというものである。
【0003】
上述のダミーヘッドを用いてヘッドフォン受聴用として収録したバイノーラル音源を視聴者の前方に配置するスピーカで再生する場合、左右スピーカから再生されたバイノーラル音声がリスナの耳に伝達されるまでの音場で右スピーカからリスナの左耳、左スピーカからリスナの右耳に伝達されるクロストークが発生し、理想的な音場再現が不可能となる。そのため、左チャンネルの音声信号を左側のスピーカから発音させるとともに、左側のスピーカから発音されて右側の耳で受聴されるクロストーク成分を打ち消す信号を右側のスピーカから発音させる。それにより、左チャンネルの音声信号は左耳により、右チャンネルの音声信号は右耳により視聴できるようにする。こうして、スピーカから発音された音であるにも関わらず、あたかもヘッドフォン受聴していると同様の臨場感が再現されるようにしている(例えば、特許文献1参照。)。
【0004】
特許文献1には、手軽に用いることができ、かつ不特定多数の人に対して頭外前方方向の音像定位ができ、原音に忠実な音場再生を可能にしたバイノーラル再生装置が開示されている。そのバイノーラル再生装置は、ダミーヘッドマイクロホンにより原音場で収録された音響信号を音像定位フィルタリング部でクロストーク成分を打ち消すためのフィルタ係数を用いた畳み込み演算を行ってスピーカから発音させ、不特定多数の人に対して頭外前方への音像定位を実現させる。さらに、スピーカを受聴者に近接して配置するようにし、スピーカから発音される直接音に比して床面などで反射して受聴される反射音を小さくするようにし、収録された原音に忠実な再生を行うようにしている(例えば、特許文献1参照。)。
【0005】
【特許文献1】特開昭52−40101号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
近年、個人がデジタルビデオカメラ等で撮影した映像を第三者に視聴させる手段として、DVDビデオやビデオCDへの映像の収録や、低ビットレートのストリーミングビデオ形式への変換とWebアップロードなどが行われることが一般的になりつつある。例えば、デジタルビデオカメラとパーソナルコンピュータをIEEE1394に代表されるディジタルインターフェイスで接続し、デジタルビデオカメラの記録媒体の映像情報をパーソナルコンピュータのHDDなどの記録媒体に複写した後、パーソナルコンピュータ上で動作するソフトウェアによって、映像の編集と加工、圧縮方式の変換、ディスク書き込み処理などが行われている。
【0007】
ところで、上述のようにバイノーラル録音音声のスピーカでの再生においては、録音から再生までの処理経路のいずれかの時点でクロストークキャンセル処理が行われることが、適切な音場再現として必要である。ビデオカメラなどの録画装置で撮影した映像を配布する場合、ビデオディスクプレーヤなどの再生装置でクロストークキャンセル処理するのではなく、あらかじめクロストークキャンセル処理がされている音声の映像を配布することが、再生装置を限定しないため望ましいと考えられる。
【0008】
しかしながら、録画装置で記録する時点では、音声をヘッドフォンで再生するか、スピーカで再生するかを決められないことが予測されるため、録画時の記録媒体にはクロストークキャンセル処理を施さない音声を収録し、編集や圧縮方式の変換時に必要に応じてクロストークキャンセル処理を施すことが望ましい。
従って、録画装置の映像信号処理を行う際に、録画装置で記録する時点で原音に忠実な音場再生を可能にしたを判別し、編集や圧縮方式の変換時に必要に応じてクロストークキャンセル処理を行わないと、音声の再生において適切な音場再現ができないという問題があった。
【0009】
本発明は、以上の点に鑑みなされたもので、音響信号をバイノーラル録音、またはステレオ録音のいずれかの録音方式により映像信号と共に記録した記録媒体を再生処理する際、録音した音響信号に忠実な音場再生を可能にした信号処理プログラム、及び記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は、上記課題を解決するために、以下の1)〜2)に記載手段よりなる。
すなわち、
1)バイノーラル方式により収音した音声データと映像データとを多重化しストリームデータとして記録媒体に記録するビデオカメラから供給される前記ストリームデータの内の少なくとも前記音声データの処理を行う信号処理方法をコンピュータによって実行させるための信号処理プログラムであって、
前記ビデオカメラから供給されるストリームデータより音声データのみを抽出する第1のステップと、
前記第1のステップにより抽出した音声データに対してクロストークキャンセル処理を行う第2のステップと、
前記第1のステップで得られる音声データと前記第2のステップで得られる音声データとを選択出力する第3のステップと、
を有することを特徴とする信号処理方法をコンピュータによって実行させるための信号処理プログラム。
2)前記1)記載の信号処理プログラムを記録する領域を有しており、前記コンピュータに導入されて用いられることを特徴とする記録媒体。
【発明の効果】
【0011】
本発明の信号処理プログラム、及び記録媒体によれば、バイノーラル録音及び通常録音が混在した音声データを含む映像データを処理する際、バイノーラル録音情報を検出してバイノーラル録音されている部分には、クロストークキャンセル処理を施し、通常録音されている部分にはクロストークキャンセル処理を施さないという映像信号処理の切り替え制御を自動で行うことができるので、録音した音響信号に忠実な音場再生をすることができる。
また、編集者の意思によって、バイノーラル録音情報を含まない映像データ素材であっても、同一のソフトウェアで映像と音声の一括処理を行うことができる。
さらに、クロストークキャンセル処理によって処理された音声データとクロストークキャンセル処理を施していない音声データを映像と共に1つの多重化ストリームに構築することによって、視聴者が視聴環境によって選択ができる2系統音声の多重化ストリームを簡単な手順で作成することができる。
【発明を実施するための最良の形態】
【0012】
以下、本発明に係る信号処理プログラム、及び記録媒体の発明を実施するための最良の形態につき、好ましい実施例により説明する。
図11は、本実施例に適用される信号処理方法を説明するための図である。バイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録できるビデオカメラ110、信号処理プログラムを実行するための信号処理装置であるコンピュータ111、信号処理プログラムを記録する領域を有しており、コンピュータ111に導入されて用いられる記録媒体112から構成されている。
【0013】
図1、図2、図3を用いて、撮影環境の音場をバイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録し、バイノーラル収録されたオーディオ信号及びステレオ収録された信号を視聴者に提示させるようにした記録装置としてビデオカメラを例に説明する。
【0014】
図2に本実施例に適用されるビデオカメラの概略構成図を示す。同図に示すようにビデオカメラ110には、マイクユニット131がマイクコード133を介して接続されている。そのマイクユニット131をマイクロフォン載置部121に載置していわゆるステレオマイクロフォンとして収音するか、又は撮影者の耳部に載置してバイノーラルマイクロフォンとしての収音を行うようにしている。
【0015】
図3に、マイクユニット131をマイクロフォン載置部121に載置した状態を示している。マイクロフォン載置部121にはスイッチが連動される突起部が設けてあり、マイクユニット131を載置することによりスイッチが押される。スイッチの作動により音声モード検出部120により、マイクユニット131はいわゆるステレオ収音するマイク配置に設置されたとして検出される。マイクユニット131の載置場所の検出は、マイクロフォンに内蔵される永久磁石から生じる磁界をホール素子や磁気抵抗素子を用いて検出する構造にしてもよい。
【0016】
さらに、図1を参照してビデオカメラの動作について概説する。図1は、本実施例に適用されるビデオカメラの概略ブロック図を示したものである。
まず、撮像装置部31aによる撮影準備を行う撮影者は、ビデオカメラ110にセットされているノーマル/バイノーラルステレオマイクロフォン130を取り外し、耳部に装着する。ノーマル/バイノーラルステレオマイクロフォン130が取り外されたときに、音声モード検出部120はバイノーラル収音による録画が開始されると認識し、バイノーラル音声モード情報を出力する。多重化部210には、ビデオカメラ110で撮影されたビデオ信号と、ノーマル/バイノーラルステレオマイクロフォン130により収音されたバイノーラル音声信号が入力される。多重化部210では、それらの入力された信号は時分割多重された信号が生成される。記録部230に入力され、記録媒体に記録される。
【0017】
ノーマル/バイノーラルステレオマイクロフォン130は撮影者の耳に装着せず、ビデオカメラ110に収納したまま通常のステレオ音声マイクロフォンとして収音することもできる。その場合は、マイクロフォンの収音個所にマイクロフォンが載置されていることを音声モード検出部120に設けられた突起部に連結されるスイッチが用いられて検出される。
【0018】
図4を参照し、音声モード検出部120で検出された音声モード情報の記録と再生について述べる。図4は、本実施例に適用される音声モード情報の記録パケットの構成例を示した図である。
多重化部210に入力されるビデオ信号はビデオフレームレイヤの信号として、バイノーラル又は通常のステレオ音声信号はオーディオフレームレイヤの信号としてパケット化される。オーディオフレームレイヤの信号は音声モード情報に係るバイノーラルフラグと、圧縮符号化されたオーディオ信号であるオーディオフレームデータとして生成される。それらのパケット化された信号の頭部にはファイルヘッダが付される。ファイルヘッダ、ビデオフレームレイヤ、及びオーディオフレームレイヤの信号は、例えば通常のDVDなどの記録で用いられるパケット化信号と同様に構成される。
【0019】
図5を参照して音声モード情報の記録方法について説明する。図5は、本実施例に適用されるバイノーラル音声の記録パケット構成例を示した図である。
ビデオカメラ110のスタート、ストップボタンが操作される毎に1つのオーディオフレームレイヤに係る音声モード情報が作成される。それらの音声モード情報はバイノーラル情報パケットにより管理される。同様にしてオーディオデータはオーディオデータ情報パケットにより、オーディオデータの記録される領域はオーディオフレーム情報パケットにより管理される。それらのデータ管理手法も通常のDVDなどで用いられるパケットデータ管理手法と同様である。本パケットデータ管理手法により管理されるオーディオフレーム毎の音声モード情報を一瞥により知ることが出来るため、再生装置部33aではバイノーラル音声信号と通常のステレオ音声信号とが混在して記録された媒体を再生するに際しても、予め指定される再生モードに応じてスムーズなクロストークキャンセラ部39の切り替えを行うことが出来る。このように記録媒体に記録される映像データとそれに同期した音声データは、一定期間の映像データ、音声データをパケット化し、複数のパケットを時系列に連結した1つの多重化ストリーム(以下ストリームと記述)として通常扱われる。規格化されている形式としては、MPEGが代表的存在である。
【0020】
このようにして記録された記録媒体の映像を、PCを用いて編集加工する場合について説明する。ビデオカメラの記録媒体からパーソナルコンピュータ(以下、PCと記す)のHDD等の記憶媒体への映像情報の複写は、ビデオカメラとPCが共通で装備する、IEEE1394、USB、イーサネット(登録商標)などの情報インターフェイスと、前記情報インターフェイスにおいて規格化されたプロトコルを用いて伝送し、若しくはビデオカメラの記録媒体がディスクまたはフラッシュメモリ等の着脱可能な媒体である場合は、ビデオカメラとPCが共通で装備する前記記録媒体のインターフェイスによって読み取りを行う。
ビデオカメラの記録媒体の映像情報をPCのHDDなどの記録媒体に複写した後、PC上で動作するソフトウェアによって、映像の編集や加工を行い、再生装置に応じて圧縮方式の変換をした後、光ディスク等の記録媒体に書き込み処理が行われる。
【0021】
上述のPC上で動作する、「ビデオ編集ソフトウェア」と称されるソフトウェアの主な機能としては、
(1)ストリームの長さ(再生時間)を調整する、
(2)複数のストリームを結合する、
(3)画像に効果を加える、
(4)音声に効果を加える、
(5)画像サイズやビットレートを変換する、
(6)音声ビットレートを変換する、
(7)ストリーム形式を変換する、
といった機能に分類できる。また、DVDなどの「ビデオディスク作成ソフトウェア」と称されるソフトウェアの機能として、ビデオ編集ソフトウェアの機能を有していることが一般的である。
【0022】
本実施例に適用されるビデオ編集ソフトウェアの基本機能を、図6を用いて説明する。
編集結果のストリームは、通常複数個の素材ストリームから作られ、前期素材ストリームは個々に画素数やフレームレートが一致したものであるとは限らない。また、編集結果のストリームは素材ストリームと符号化形式が異なる場合がある。従って、効果等を加える以外でも、出力形式に合致させるための映像および音声の加工が必要となる。
【0023】
画像の加工は圧縮形式のまま行うことが技術的に困難なため、1フレーム毎にRGBまたはYUVの非圧縮データに復号する必要がある。同様に圧縮形式の音声はPCMに復号する必要がある。
そのためにまずストリームを情報分離器11で映像と音声に分離し、映像データは映像復号器12により非圧縮形式とする。復号の処理単位はMPEGなどのフレーム間圧縮の場合はそのブロック化されたフレーム数が最小単位であり、フレーム間圧縮の場合は1フレームである。
【0024】
次に1フレームの作業単位で画像処理13により画像加工が行われるが、効果や画像サイズの変更がない場合は、この処理は通過される。
次に映像符号器14により目的の形式に圧縮符号化される。音声データは音声復号器15により非圧縮形式にする。次に音声処理16により音声加工し、音声符号器17により圧縮符号化される。
【0025】
音声復号器15および音声符号器17の最小処理はそれぞれの圧縮形式の処理ブロック単位となる。また、音声加工の処理単位は、その加工の種類による。映像データと音声データを情報多重器18により多重化し、新しいストリームを作成する。
【0026】
ストリーム再生などのリアルタイム処理とは異なり、ここまでの映像データと音声データ処理ステップは、同期的に逐次処理をする必要はなく、一時的な保存領域を使用して順次処理することが可能である。
また、映像または音声に加工の必要がなく、かつ処理前の圧縮形式と処理後の圧縮形式が同一の場合は、経路1a(映像の場合)または経路1b(音声の場合)の処理ステップにより、再圧縮を抑止し、処理速度の向上と、品質劣化を防止することができる。
【0027】
情報分離器11、映像復号器12、映像符号器14、音声復号器15、音声符号器17、情報多重器18は米国マイクロソフト社のPC用OSWindows(登録商標)においては、DirectShowと呼ばれるOSが提供するシステムの共有ライブラリとして利用できる場合があり、この場合はアプリケーションソフトウェアが各機能のプログラムコードを持っている必要はなく、処理の設定部分のみのコードとなる。
【0028】
図7を用いてさらに詳細にビデオ編集ソフトウェアを説明する。
上述のビデオ編集ソフトの基本機能に、クロストークキャンセラ処理27、バイノーラルフラッグ検出器21・22・23および論理スイッチ25、ユーザーインターフェース26をさらに有している。
【0029】
バイノーラルフラッグ検出器21・22・23において、バイノーラルフラッグは1ビットで表現できる単純なものであるが、1つのストリーム中にバイノーラル録音された音声と通常のステレオ録音された音声が混在する場合がある。従って、タイムコードや音声データ累積サンプル数などの録音タイミング情報とバイノーラルフラッグを対照させることが必要になる。
【0030】
バイノーラルフラッグが多重化ストリームの付加情報領域に記載されている場合は検出器21によって、映像と音声分離の前ステップでバイノーラルフラッグを読み取る。
バイノーラルフラッグが映像データの付加情報領域に記載されている場合は検出器22によって、映像データの分離後の処理ステップでバイノーラルフラッグを読み取る。
バイノーラルフラッグが音声データの付加情報領域に記載されている場合は検出器23によって、音声データの分離後の処理ステップでバイノーラルフラッグを読み取る。
【0031】
バイノーラルフラッグの検出とそれに続く処理ステップが、逐次行われる場合はバイノーラルフラッグの値をステータスとして保持するだけで良いが、順次行われる場合は1つのストリーム全体の録音タイミング情報とバイノーラルフラッグの値をデータバッファ24に記録する。
【0032】
スイッチ25は概念上のもので、実際にはプログラムの処理分岐である。
スイッチ25により、クロストークキャンセル処理を実施する場合は2b側、クロストークキャンセル処理を実施しない場合は2c側に切り替える。
【0033】
ユーザインターフェース26はコンピュータの表示部に視覚的に表示され、編集作業者によって設定が可能なもので、実施例については、クロストークキャンセル処理について、(1)自動実行、(2)強制実行、(3)強制非実行の3種類の設定が可能なものとするが、いずれか2種類の設定という構成としてもよい。
(1)自動実行が選択されている場合は、録音タイミング情報とバイノーラルフラッグの値により、スイッチ25を切り替えるが、ユーザインターフェース26により(2)強制実行、(3)強制非実行が設定された場合は経路2dに関係なく、それぞれ2b側、2c側に動作を切り替える。
【0034】
図8を参照して、クロストークキャンセラ処理部27について説明する。同図に示すように、音声復号器15により復号化して得られるバイノーラル音声信号は、定数演算器271、定数演算器272、定数演算器273、定数演算器274、定数演算器277a、及び定数演算器277bにより左右のバイノーラル信号、及び左右のバイノーラル信号が受聴者の反対側の、右左の耳で受聴されるクロストーク信号成分を打ち消すための音声信号の特性が畳み込まれる。その後図示しない増幅器及びスピーカが接続され、スピーカから発音された信号は聴取者により聴取される。
【0035】
バイノーラル収録された左右チャンネルのバイノーラル信号PL(t)及びPR(t)のそれぞれは入力端子に入力される。左チャンネルのバイノーラル信号の一方はフィルタ271に、他方はフィルタ272に入力される。フィルタ271及び272のそれぞれでは後述のhRS(t)、−hLO(t)なる電気音響変換特性が与えられる。その電気音響変換特性は、人工頭が有する耳介での反射音や外耳道での共振を排除した特性である。
【0036】
この電気音響変換特性は、通常受聴者の受聴する耳の位置に相当するよう円柱部である人工頭を設け、かつ円柱部の側面に受聴者の左右の耳の間隔を有しかつ底面からの高さが同一位置に一対のダミー受聴部を設け、左又は右スピーカからテスト信号を出力して一対のダミー受聴部で受聴し、音響特性を求める。このようにして求めた左右の音響特性からそれぞれ左右耳用の打ち消し信号を作成したものである。
【0037】
同様にして右チャンネルの信号の一方はフィルタ273に、他方はフィルタ274に入力される。それぞれのフィルタ273、274により−hRO(t)、hLS(t)の電気音響変換特性が与えられる。
フィルタ271及びフィルタ273から出力される信号は加算器275aで加算された後、フィルタ277aによりd(t)なる電気音響変換特性が与えられる。
フィルタ272及びフィルタ274から出力される信号は加算器275bで加算された後、フィルタ277bによりd(t)なる電気音響変換特性が与えられる。
【0038】
左チャンネルのバイノーラル信号PL(t)が入力される場合について説明する。
まず、フィルタ277aから出力された信号は、図示しない左用スピーカから発音され聴取者の左耳で受聴されると共に、発音された信号の一部はクロストーク信号として聴取者の右耳で受聴される。そこで、受聴されるクロストーク信号を打ち消すための信号を生成して図示しない右用スピーカから発音する。クロストークを打ち消す信号により右耳でバイノーラル信号PL(t)は受聴されなくなる一方、クロストークをキャンセルする信号のクロストーク成分が左耳で受聴される。クロストーク成分が小さいときにはクロストークをキャンセルする信号のクロストーク成分が生じる。クロストーク成分のクロストークは同一(左)チャンネルの信号であるため受聴品質に与える劣化は少ないものの、高品質な再生音を得るための妨げとなる。即ち、レベルが高く、バイノーラル信号PL(t)によりマスキングされないクロストーク打消し信号は受聴の妨げとなり、好ましくない。
上記の動作は右チャンネルのバイノーラル信号PR(t)に対しても同様になされる。
【0039】
そこで、フィルタ271〜274に格納する頭部伝達関数は、人工頭における耳介や外耳道により受聴される音響信号の利得上昇、ないしは特定周波数で共振して生じる利得上昇をなくした円筒型マイクロフォンを用いて頭部伝達関数を計測するようにする。計測された頭部伝達関数を用いてフィルタ271〜274の特性hRS(t)、−hLO(t)−hRO(t)、及びhLS(t)を求める。それにより、左右チャンネルのバイノーラル信号PL(t)及びPR(t)に対して生成され、伝達関数hRS(t)及びhLO(t)が畳み込まれた信号がスピーカ41より発音される。伝達関数hRO(t)及びhLS(t)が畳み込まれた信号がスピーカ42から発音される。その結果、聴取者48の左耳にはPl(t)、右耳にはPr(t)の信号が受聴される。
【0040】
図7に示す経路2aは出力ストリーミング形式が2チャンネルステレオ音声を2系統以上含むことができる場合に、クロストークキャンセル処理を実施した音声と、クロストークキャンセル処理を実施しない音声を両方収録したストリームの多重化を行う例である。
この形式では、バイノーラル音声をヘッドフォンで再生するか、スピーカで再生するかを視聴者が映像再生時に選択することができる。
出力ストリーミング形式が2チャンネルステレオ音声を1系統のみを含む場合は、経路2aは存在しない。
【0041】
図9を参照して、本実施例に適用される音声データの処理手順について説明する。
判断ステップ41は図7のユーザーインターフェース26の設定が自動実行であるかどうかで、自動でない場合はバイノーラルフラッグの検出が無意味なため、その処理を回避する。
ユーザーインターフェース26の設定が自動であった場合は、ステップ42の処理でストリームのバイノーラルフラッグを検出し、フラッグの有無とタイムコードを対照するデータ4bを作成、保存する。
【0042】
上述のタイムコードはMPEG1/2プログラムストリームであれば、PESヘッダに含まれるPTSが利用できる。
フラッグの有無とタイムコードを対照するデータはデータブロック毎作成しても構わないが、フラッグの有/無が切り替わった時刻のデータだけにすることで、データ領域の圧縮が可能である。
【0043】
図10にバイノーラルフラッグの有無とタイムコードを対照するデータの具体的な例を示す。
同図(a)に示す素材5aは非バイノーラル録音、素材5bはバイノーラル録音、素材5cは非バイノーラル録音とバイノーラル録音が混在していると仮定する。
同図(b)に示すファイルID511は、記憶媒体上の素材ストリームのアドレスを示すもので、同図(c)のような別のデータとして管理する。
各素材について、開始点のフラッグのデータは必須であり、素材5a、素材5bについては、途中のフラッグの変化がないため、開始点のみのデータとなる。素材5cではフラッグの変化点のタイムコードを記録する。
【0044】
上述の処理ステップ42のバイノーラルフラッグの検出は処理ステップ47以降に先行して行われる必要があるが、(1)ストリーム全体のフラッグ検出を行ってから次の処理に進む順次処理、(2)データブロック単位でフラッグ検出して次の処理に進む逐次処理、(3)フラッグ検出とそれ以降の処理の並列処理、がいずれも可能である。
【0045】
処理ステップ43ではストリーム仕様で最適なブロック単位でストリームデータを読み込み、音声データを分離する。
処理ステップ44では音声加工が行われるが、この音声加工とは編集者の意向によって設定された、開始点/終了点の変更や、帯域フィルタ、エコーなどの効果などである。
【0046】
判断ステップ45は図7のユーザーインターフェース26の設定が自動実行であるかどうかで、自動でない場合は設定に従って、クロストーク処理ステップ49の実施を決定する。
ユーザーインターフェース26の設定が自動であった場合は、処理ステップ47でバイノーラルフラッグの有無とタイムコードを対照するデータを読み込み、処理中のデータブロックがバイノーラル録音かをステップ48で判断し、クロストーク処理の実施を決定する。
【0047】
処理4aによって符号化と別途処理された映像と音声の多重化を行う。この多重化において、処理ステップ44の加工が終了しクロストーク処理ステップ49を実施しない音声と、クロストーク処理ステップ49を実施した音声を個別のデータとして扱い、1つの映像と多重化することによって、再生時に視聴者が音声を選択できる2系統音声のストリームが作成できるようにしたものである。
【0048】
なお、上述の実施例では撮影環境の音場をバイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録し、バイノーラル収録されたオーディオ信号及びステレオ収録された信号を視聴者に提示させるようにした記録装置としてビデオカメラを例に説明したが、これに限定されるものではない。
【図面の簡単な説明】
【0049】
【図1】本実施例に適用されるビデオカメラの概略ブロック図を示したものである。
【図2】本実施例に適用されるビデオカメラの概略構成図を示す。
【図3】本実施例に適用されるビデオカメラの概略構成図を示す。
【図4】本実施例に適用される音声モード情報の記録パケットの構成例を示した図である。
【図5】本実施例に適用されるバイノーラル音声の記録パケット構成例を示した図である。
【図6】本実施例に適用されるビデオ編集ソフトウェアの基本的機能を示すブロック図である。
【図7】本実施例に適用されるビデオ編集ソフトウェアの機能を示すブロック図である。
【図8】本実施例に適用されるクロストークキャンセラ処理の機能を示すブロック図である。
【図9】本実施例に適用されるビデオ編集ソフトウェアの動作を示すフローチャートである。
【図10】本実施例に適用されるデータの説明図である。
【図11】本実施例に適用される信号処理方法を説明するための図である。
【符号の説明】
【0050】
11情報分離器
12映像復号器
13画像処理
14映像符号器
15音声復号器
16音声処理
17音声復号器
18情報多重器
21バイノーラルフラッグ検出器
22バイノーラルフラッグ検出器
23バイノーラルフラッグ検出器
24データバッファ
25スイッチ
26ユーザインターフェース
27クロストークキャンセル処理部
271,272,273,274,277a,277bフィルタ
275a,275b加算器
110ビデオカメラ
111信号処理装置(コンピュータ)
112記録媒体
【技術分野】
【0001】
本発明は、記録媒体に記録された音声信号を含む映像信号を処理する信号処理プログラム、及び記録媒体に関するもので、特に、バイノーラル記録された音声信号を好適に視聴者に提示するようにした信号処理プログラム、及び記録媒体に関する。
【背景技術】
【0002】
従来より、バイノーラル方式と呼ばれる録音再生方法がある。これは、視聴者の頭部を想定したダミーヘッドの左右両耳の穴にダミーヘッドマイクロホンと呼ばれるマイクロホンを設け、このダミーヘッドマイクロホンにより音源からの音響信号を録音する。このようにして録音された音響信号を、実際に視聴者がヘッドフォンを装着して再生すると、対象となる音源の再生音像の方向感、定位感が向上し、音源からの音声をそのまま聞いているような臨場感が得られるというものである。
【0003】
上述のダミーヘッドを用いてヘッドフォン受聴用として収録したバイノーラル音源を視聴者の前方に配置するスピーカで再生する場合、左右スピーカから再生されたバイノーラル音声がリスナの耳に伝達されるまでの音場で右スピーカからリスナの左耳、左スピーカからリスナの右耳に伝達されるクロストークが発生し、理想的な音場再現が不可能となる。そのため、左チャンネルの音声信号を左側のスピーカから発音させるとともに、左側のスピーカから発音されて右側の耳で受聴されるクロストーク成分を打ち消す信号を右側のスピーカから発音させる。それにより、左チャンネルの音声信号は左耳により、右チャンネルの音声信号は右耳により視聴できるようにする。こうして、スピーカから発音された音であるにも関わらず、あたかもヘッドフォン受聴していると同様の臨場感が再現されるようにしている(例えば、特許文献1参照。)。
【0004】
特許文献1には、手軽に用いることができ、かつ不特定多数の人に対して頭外前方方向の音像定位ができ、原音に忠実な音場再生を可能にしたバイノーラル再生装置が開示されている。そのバイノーラル再生装置は、ダミーヘッドマイクロホンにより原音場で収録された音響信号を音像定位フィルタリング部でクロストーク成分を打ち消すためのフィルタ係数を用いた畳み込み演算を行ってスピーカから発音させ、不特定多数の人に対して頭外前方への音像定位を実現させる。さらに、スピーカを受聴者に近接して配置するようにし、スピーカから発音される直接音に比して床面などで反射して受聴される反射音を小さくするようにし、収録された原音に忠実な再生を行うようにしている(例えば、特許文献1参照。)。
【0005】
【特許文献1】特開昭52−40101号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
近年、個人がデジタルビデオカメラ等で撮影した映像を第三者に視聴させる手段として、DVDビデオやビデオCDへの映像の収録や、低ビットレートのストリーミングビデオ形式への変換とWebアップロードなどが行われることが一般的になりつつある。例えば、デジタルビデオカメラとパーソナルコンピュータをIEEE1394に代表されるディジタルインターフェイスで接続し、デジタルビデオカメラの記録媒体の映像情報をパーソナルコンピュータのHDDなどの記録媒体に複写した後、パーソナルコンピュータ上で動作するソフトウェアによって、映像の編集と加工、圧縮方式の変換、ディスク書き込み処理などが行われている。
【0007】
ところで、上述のようにバイノーラル録音音声のスピーカでの再生においては、録音から再生までの処理経路のいずれかの時点でクロストークキャンセル処理が行われることが、適切な音場再現として必要である。ビデオカメラなどの録画装置で撮影した映像を配布する場合、ビデオディスクプレーヤなどの再生装置でクロストークキャンセル処理するのではなく、あらかじめクロストークキャンセル処理がされている音声の映像を配布することが、再生装置を限定しないため望ましいと考えられる。
【0008】
しかしながら、録画装置で記録する時点では、音声をヘッドフォンで再生するか、スピーカで再生するかを決められないことが予測されるため、録画時の記録媒体にはクロストークキャンセル処理を施さない音声を収録し、編集や圧縮方式の変換時に必要に応じてクロストークキャンセル処理を施すことが望ましい。
従って、録画装置の映像信号処理を行う際に、録画装置で記録する時点で原音に忠実な音場再生を可能にしたを判別し、編集や圧縮方式の変換時に必要に応じてクロストークキャンセル処理を行わないと、音声の再生において適切な音場再現ができないという問題があった。
【0009】
本発明は、以上の点に鑑みなされたもので、音響信号をバイノーラル録音、またはステレオ録音のいずれかの録音方式により映像信号と共に記録した記録媒体を再生処理する際、録音した音響信号に忠実な音場再生を可能にした信号処理プログラム、及び記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は、上記課題を解決するために、以下の1)〜2)に記載手段よりなる。
すなわち、
1)バイノーラル方式により収音した音声データと映像データとを多重化しストリームデータとして記録媒体に記録するビデオカメラから供給される前記ストリームデータの内の少なくとも前記音声データの処理を行う信号処理方法をコンピュータによって実行させるための信号処理プログラムであって、
前記ビデオカメラから供給されるストリームデータより音声データのみを抽出する第1のステップと、
前記第1のステップにより抽出した音声データに対してクロストークキャンセル処理を行う第2のステップと、
前記第1のステップで得られる音声データと前記第2のステップで得られる音声データとを選択出力する第3のステップと、
を有することを特徴とする信号処理方法をコンピュータによって実行させるための信号処理プログラム。
2)前記1)記載の信号処理プログラムを記録する領域を有しており、前記コンピュータに導入されて用いられることを特徴とする記録媒体。
【発明の効果】
【0011】
本発明の信号処理プログラム、及び記録媒体によれば、バイノーラル録音及び通常録音が混在した音声データを含む映像データを処理する際、バイノーラル録音情報を検出してバイノーラル録音されている部分には、クロストークキャンセル処理を施し、通常録音されている部分にはクロストークキャンセル処理を施さないという映像信号処理の切り替え制御を自動で行うことができるので、録音した音響信号に忠実な音場再生をすることができる。
また、編集者の意思によって、バイノーラル録音情報を含まない映像データ素材であっても、同一のソフトウェアで映像と音声の一括処理を行うことができる。
さらに、クロストークキャンセル処理によって処理された音声データとクロストークキャンセル処理を施していない音声データを映像と共に1つの多重化ストリームに構築することによって、視聴者が視聴環境によって選択ができる2系統音声の多重化ストリームを簡単な手順で作成することができる。
【発明を実施するための最良の形態】
【0012】
以下、本発明に係る信号処理プログラム、及び記録媒体の発明を実施するための最良の形態につき、好ましい実施例により説明する。
図11は、本実施例に適用される信号処理方法を説明するための図である。バイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録できるビデオカメラ110、信号処理プログラムを実行するための信号処理装置であるコンピュータ111、信号処理プログラムを記録する領域を有しており、コンピュータ111に導入されて用いられる記録媒体112から構成されている。
【0013】
図1、図2、図3を用いて、撮影環境の音場をバイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録し、バイノーラル収録されたオーディオ信号及びステレオ収録された信号を視聴者に提示させるようにした記録装置としてビデオカメラを例に説明する。
【0014】
図2に本実施例に適用されるビデオカメラの概略構成図を示す。同図に示すようにビデオカメラ110には、マイクユニット131がマイクコード133を介して接続されている。そのマイクユニット131をマイクロフォン載置部121に載置していわゆるステレオマイクロフォンとして収音するか、又は撮影者の耳部に載置してバイノーラルマイクロフォンとしての収音を行うようにしている。
【0015】
図3に、マイクユニット131をマイクロフォン載置部121に載置した状態を示している。マイクロフォン載置部121にはスイッチが連動される突起部が設けてあり、マイクユニット131を載置することによりスイッチが押される。スイッチの作動により音声モード検出部120により、マイクユニット131はいわゆるステレオ収音するマイク配置に設置されたとして検出される。マイクユニット131の載置場所の検出は、マイクロフォンに内蔵される永久磁石から生じる磁界をホール素子や磁気抵抗素子を用いて検出する構造にしてもよい。
【0016】
さらに、図1を参照してビデオカメラの動作について概説する。図1は、本実施例に適用されるビデオカメラの概略ブロック図を示したものである。
まず、撮像装置部31aによる撮影準備を行う撮影者は、ビデオカメラ110にセットされているノーマル/バイノーラルステレオマイクロフォン130を取り外し、耳部に装着する。ノーマル/バイノーラルステレオマイクロフォン130が取り外されたときに、音声モード検出部120はバイノーラル収音による録画が開始されると認識し、バイノーラル音声モード情報を出力する。多重化部210には、ビデオカメラ110で撮影されたビデオ信号と、ノーマル/バイノーラルステレオマイクロフォン130により収音されたバイノーラル音声信号が入力される。多重化部210では、それらの入力された信号は時分割多重された信号が生成される。記録部230に入力され、記録媒体に記録される。
【0017】
ノーマル/バイノーラルステレオマイクロフォン130は撮影者の耳に装着せず、ビデオカメラ110に収納したまま通常のステレオ音声マイクロフォンとして収音することもできる。その場合は、マイクロフォンの収音個所にマイクロフォンが載置されていることを音声モード検出部120に設けられた突起部に連結されるスイッチが用いられて検出される。
【0018】
図4を参照し、音声モード検出部120で検出された音声モード情報の記録と再生について述べる。図4は、本実施例に適用される音声モード情報の記録パケットの構成例を示した図である。
多重化部210に入力されるビデオ信号はビデオフレームレイヤの信号として、バイノーラル又は通常のステレオ音声信号はオーディオフレームレイヤの信号としてパケット化される。オーディオフレームレイヤの信号は音声モード情報に係るバイノーラルフラグと、圧縮符号化されたオーディオ信号であるオーディオフレームデータとして生成される。それらのパケット化された信号の頭部にはファイルヘッダが付される。ファイルヘッダ、ビデオフレームレイヤ、及びオーディオフレームレイヤの信号は、例えば通常のDVDなどの記録で用いられるパケット化信号と同様に構成される。
【0019】
図5を参照して音声モード情報の記録方法について説明する。図5は、本実施例に適用されるバイノーラル音声の記録パケット構成例を示した図である。
ビデオカメラ110のスタート、ストップボタンが操作される毎に1つのオーディオフレームレイヤに係る音声モード情報が作成される。それらの音声モード情報はバイノーラル情報パケットにより管理される。同様にしてオーディオデータはオーディオデータ情報パケットにより、オーディオデータの記録される領域はオーディオフレーム情報パケットにより管理される。それらのデータ管理手法も通常のDVDなどで用いられるパケットデータ管理手法と同様である。本パケットデータ管理手法により管理されるオーディオフレーム毎の音声モード情報を一瞥により知ることが出来るため、再生装置部33aではバイノーラル音声信号と通常のステレオ音声信号とが混在して記録された媒体を再生するに際しても、予め指定される再生モードに応じてスムーズなクロストークキャンセラ部39の切り替えを行うことが出来る。このように記録媒体に記録される映像データとそれに同期した音声データは、一定期間の映像データ、音声データをパケット化し、複数のパケットを時系列に連結した1つの多重化ストリーム(以下ストリームと記述)として通常扱われる。規格化されている形式としては、MPEGが代表的存在である。
【0020】
このようにして記録された記録媒体の映像を、PCを用いて編集加工する場合について説明する。ビデオカメラの記録媒体からパーソナルコンピュータ(以下、PCと記す)のHDD等の記憶媒体への映像情報の複写は、ビデオカメラとPCが共通で装備する、IEEE1394、USB、イーサネット(登録商標)などの情報インターフェイスと、前記情報インターフェイスにおいて規格化されたプロトコルを用いて伝送し、若しくはビデオカメラの記録媒体がディスクまたはフラッシュメモリ等の着脱可能な媒体である場合は、ビデオカメラとPCが共通で装備する前記記録媒体のインターフェイスによって読み取りを行う。
ビデオカメラの記録媒体の映像情報をPCのHDDなどの記録媒体に複写した後、PC上で動作するソフトウェアによって、映像の編集や加工を行い、再生装置に応じて圧縮方式の変換をした後、光ディスク等の記録媒体に書き込み処理が行われる。
【0021】
上述のPC上で動作する、「ビデオ編集ソフトウェア」と称されるソフトウェアの主な機能としては、
(1)ストリームの長さ(再生時間)を調整する、
(2)複数のストリームを結合する、
(3)画像に効果を加える、
(4)音声に効果を加える、
(5)画像サイズやビットレートを変換する、
(6)音声ビットレートを変換する、
(7)ストリーム形式を変換する、
といった機能に分類できる。また、DVDなどの「ビデオディスク作成ソフトウェア」と称されるソフトウェアの機能として、ビデオ編集ソフトウェアの機能を有していることが一般的である。
【0022】
本実施例に適用されるビデオ編集ソフトウェアの基本機能を、図6を用いて説明する。
編集結果のストリームは、通常複数個の素材ストリームから作られ、前期素材ストリームは個々に画素数やフレームレートが一致したものであるとは限らない。また、編集結果のストリームは素材ストリームと符号化形式が異なる場合がある。従って、効果等を加える以外でも、出力形式に合致させるための映像および音声の加工が必要となる。
【0023】
画像の加工は圧縮形式のまま行うことが技術的に困難なため、1フレーム毎にRGBまたはYUVの非圧縮データに復号する必要がある。同様に圧縮形式の音声はPCMに復号する必要がある。
そのためにまずストリームを情報分離器11で映像と音声に分離し、映像データは映像復号器12により非圧縮形式とする。復号の処理単位はMPEGなどのフレーム間圧縮の場合はそのブロック化されたフレーム数が最小単位であり、フレーム間圧縮の場合は1フレームである。
【0024】
次に1フレームの作業単位で画像処理13により画像加工が行われるが、効果や画像サイズの変更がない場合は、この処理は通過される。
次に映像符号器14により目的の形式に圧縮符号化される。音声データは音声復号器15により非圧縮形式にする。次に音声処理16により音声加工し、音声符号器17により圧縮符号化される。
【0025】
音声復号器15および音声符号器17の最小処理はそれぞれの圧縮形式の処理ブロック単位となる。また、音声加工の処理単位は、その加工の種類による。映像データと音声データを情報多重器18により多重化し、新しいストリームを作成する。
【0026】
ストリーム再生などのリアルタイム処理とは異なり、ここまでの映像データと音声データ処理ステップは、同期的に逐次処理をする必要はなく、一時的な保存領域を使用して順次処理することが可能である。
また、映像または音声に加工の必要がなく、かつ処理前の圧縮形式と処理後の圧縮形式が同一の場合は、経路1a(映像の場合)または経路1b(音声の場合)の処理ステップにより、再圧縮を抑止し、処理速度の向上と、品質劣化を防止することができる。
【0027】
情報分離器11、映像復号器12、映像符号器14、音声復号器15、音声符号器17、情報多重器18は米国マイクロソフト社のPC用OSWindows(登録商標)においては、DirectShowと呼ばれるOSが提供するシステムの共有ライブラリとして利用できる場合があり、この場合はアプリケーションソフトウェアが各機能のプログラムコードを持っている必要はなく、処理の設定部分のみのコードとなる。
【0028】
図7を用いてさらに詳細にビデオ編集ソフトウェアを説明する。
上述のビデオ編集ソフトの基本機能に、クロストークキャンセラ処理27、バイノーラルフラッグ検出器21・22・23および論理スイッチ25、ユーザーインターフェース26をさらに有している。
【0029】
バイノーラルフラッグ検出器21・22・23において、バイノーラルフラッグは1ビットで表現できる単純なものであるが、1つのストリーム中にバイノーラル録音された音声と通常のステレオ録音された音声が混在する場合がある。従って、タイムコードや音声データ累積サンプル数などの録音タイミング情報とバイノーラルフラッグを対照させることが必要になる。
【0030】
バイノーラルフラッグが多重化ストリームの付加情報領域に記載されている場合は検出器21によって、映像と音声分離の前ステップでバイノーラルフラッグを読み取る。
バイノーラルフラッグが映像データの付加情報領域に記載されている場合は検出器22によって、映像データの分離後の処理ステップでバイノーラルフラッグを読み取る。
バイノーラルフラッグが音声データの付加情報領域に記載されている場合は検出器23によって、音声データの分離後の処理ステップでバイノーラルフラッグを読み取る。
【0031】
バイノーラルフラッグの検出とそれに続く処理ステップが、逐次行われる場合はバイノーラルフラッグの値をステータスとして保持するだけで良いが、順次行われる場合は1つのストリーム全体の録音タイミング情報とバイノーラルフラッグの値をデータバッファ24に記録する。
【0032】
スイッチ25は概念上のもので、実際にはプログラムの処理分岐である。
スイッチ25により、クロストークキャンセル処理を実施する場合は2b側、クロストークキャンセル処理を実施しない場合は2c側に切り替える。
【0033】
ユーザインターフェース26はコンピュータの表示部に視覚的に表示され、編集作業者によって設定が可能なもので、実施例については、クロストークキャンセル処理について、(1)自動実行、(2)強制実行、(3)強制非実行の3種類の設定が可能なものとするが、いずれか2種類の設定という構成としてもよい。
(1)自動実行が選択されている場合は、録音タイミング情報とバイノーラルフラッグの値により、スイッチ25を切り替えるが、ユーザインターフェース26により(2)強制実行、(3)強制非実行が設定された場合は経路2dに関係なく、それぞれ2b側、2c側に動作を切り替える。
【0034】
図8を参照して、クロストークキャンセラ処理部27について説明する。同図に示すように、音声復号器15により復号化して得られるバイノーラル音声信号は、定数演算器271、定数演算器272、定数演算器273、定数演算器274、定数演算器277a、及び定数演算器277bにより左右のバイノーラル信号、及び左右のバイノーラル信号が受聴者の反対側の、右左の耳で受聴されるクロストーク信号成分を打ち消すための音声信号の特性が畳み込まれる。その後図示しない増幅器及びスピーカが接続され、スピーカから発音された信号は聴取者により聴取される。
【0035】
バイノーラル収録された左右チャンネルのバイノーラル信号PL(t)及びPR(t)のそれぞれは入力端子に入力される。左チャンネルのバイノーラル信号の一方はフィルタ271に、他方はフィルタ272に入力される。フィルタ271及び272のそれぞれでは後述のhRS(t)、−hLO(t)なる電気音響変換特性が与えられる。その電気音響変換特性は、人工頭が有する耳介での反射音や外耳道での共振を排除した特性である。
【0036】
この電気音響変換特性は、通常受聴者の受聴する耳の位置に相当するよう円柱部である人工頭を設け、かつ円柱部の側面に受聴者の左右の耳の間隔を有しかつ底面からの高さが同一位置に一対のダミー受聴部を設け、左又は右スピーカからテスト信号を出力して一対のダミー受聴部で受聴し、音響特性を求める。このようにして求めた左右の音響特性からそれぞれ左右耳用の打ち消し信号を作成したものである。
【0037】
同様にして右チャンネルの信号の一方はフィルタ273に、他方はフィルタ274に入力される。それぞれのフィルタ273、274により−hRO(t)、hLS(t)の電気音響変換特性が与えられる。
フィルタ271及びフィルタ273から出力される信号は加算器275aで加算された後、フィルタ277aによりd(t)なる電気音響変換特性が与えられる。
フィルタ272及びフィルタ274から出力される信号は加算器275bで加算された後、フィルタ277bによりd(t)なる電気音響変換特性が与えられる。
【0038】
左チャンネルのバイノーラル信号PL(t)が入力される場合について説明する。
まず、フィルタ277aから出力された信号は、図示しない左用スピーカから発音され聴取者の左耳で受聴されると共に、発音された信号の一部はクロストーク信号として聴取者の右耳で受聴される。そこで、受聴されるクロストーク信号を打ち消すための信号を生成して図示しない右用スピーカから発音する。クロストークを打ち消す信号により右耳でバイノーラル信号PL(t)は受聴されなくなる一方、クロストークをキャンセルする信号のクロストーク成分が左耳で受聴される。クロストーク成分が小さいときにはクロストークをキャンセルする信号のクロストーク成分が生じる。クロストーク成分のクロストークは同一(左)チャンネルの信号であるため受聴品質に与える劣化は少ないものの、高品質な再生音を得るための妨げとなる。即ち、レベルが高く、バイノーラル信号PL(t)によりマスキングされないクロストーク打消し信号は受聴の妨げとなり、好ましくない。
上記の動作は右チャンネルのバイノーラル信号PR(t)に対しても同様になされる。
【0039】
そこで、フィルタ271〜274に格納する頭部伝達関数は、人工頭における耳介や外耳道により受聴される音響信号の利得上昇、ないしは特定周波数で共振して生じる利得上昇をなくした円筒型マイクロフォンを用いて頭部伝達関数を計測するようにする。計測された頭部伝達関数を用いてフィルタ271〜274の特性hRS(t)、−hLO(t)−hRO(t)、及びhLS(t)を求める。それにより、左右チャンネルのバイノーラル信号PL(t)及びPR(t)に対して生成され、伝達関数hRS(t)及びhLO(t)が畳み込まれた信号がスピーカ41より発音される。伝達関数hRO(t)及びhLS(t)が畳み込まれた信号がスピーカ42から発音される。その結果、聴取者48の左耳にはPl(t)、右耳にはPr(t)の信号が受聴される。
【0040】
図7に示す経路2aは出力ストリーミング形式が2チャンネルステレオ音声を2系統以上含むことができる場合に、クロストークキャンセル処理を実施した音声と、クロストークキャンセル処理を実施しない音声を両方収録したストリームの多重化を行う例である。
この形式では、バイノーラル音声をヘッドフォンで再生するか、スピーカで再生するかを視聴者が映像再生時に選択することができる。
出力ストリーミング形式が2チャンネルステレオ音声を1系統のみを含む場合は、経路2aは存在しない。
【0041】
図9を参照して、本実施例に適用される音声データの処理手順について説明する。
判断ステップ41は図7のユーザーインターフェース26の設定が自動実行であるかどうかで、自動でない場合はバイノーラルフラッグの検出が無意味なため、その処理を回避する。
ユーザーインターフェース26の設定が自動であった場合は、ステップ42の処理でストリームのバイノーラルフラッグを検出し、フラッグの有無とタイムコードを対照するデータ4bを作成、保存する。
【0042】
上述のタイムコードはMPEG1/2プログラムストリームであれば、PESヘッダに含まれるPTSが利用できる。
フラッグの有無とタイムコードを対照するデータはデータブロック毎作成しても構わないが、フラッグの有/無が切り替わった時刻のデータだけにすることで、データ領域の圧縮が可能である。
【0043】
図10にバイノーラルフラッグの有無とタイムコードを対照するデータの具体的な例を示す。
同図(a)に示す素材5aは非バイノーラル録音、素材5bはバイノーラル録音、素材5cは非バイノーラル録音とバイノーラル録音が混在していると仮定する。
同図(b)に示すファイルID511は、記憶媒体上の素材ストリームのアドレスを示すもので、同図(c)のような別のデータとして管理する。
各素材について、開始点のフラッグのデータは必須であり、素材5a、素材5bについては、途中のフラッグの変化がないため、開始点のみのデータとなる。素材5cではフラッグの変化点のタイムコードを記録する。
【0044】
上述の処理ステップ42のバイノーラルフラッグの検出は処理ステップ47以降に先行して行われる必要があるが、(1)ストリーム全体のフラッグ検出を行ってから次の処理に進む順次処理、(2)データブロック単位でフラッグ検出して次の処理に進む逐次処理、(3)フラッグ検出とそれ以降の処理の並列処理、がいずれも可能である。
【0045】
処理ステップ43ではストリーム仕様で最適なブロック単位でストリームデータを読み込み、音声データを分離する。
処理ステップ44では音声加工が行われるが、この音声加工とは編集者の意向によって設定された、開始点/終了点の変更や、帯域フィルタ、エコーなどの効果などである。
【0046】
判断ステップ45は図7のユーザーインターフェース26の設定が自動実行であるかどうかで、自動でない場合は設定に従って、クロストーク処理ステップ49の実施を決定する。
ユーザーインターフェース26の設定が自動であった場合は、処理ステップ47でバイノーラルフラッグの有無とタイムコードを対照するデータを読み込み、処理中のデータブロックがバイノーラル録音かをステップ48で判断し、クロストーク処理の実施を決定する。
【0047】
処理4aによって符号化と別途処理された映像と音声の多重化を行う。この多重化において、処理ステップ44の加工が終了しクロストーク処理ステップ49を実施しない音声と、クロストーク処理ステップ49を実施した音声を個別のデータとして扱い、1つの映像と多重化することによって、再生時に視聴者が音声を選択できる2系統音声のストリームが作成できるようにしたものである。
【0048】
なお、上述の実施例では撮影環境の音場をバイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録し、バイノーラル収録されたオーディオ信号及びステレオ収録された信号を視聴者に提示させるようにした記録装置としてビデオカメラを例に説明したが、これに限定されるものではない。
【図面の簡単な説明】
【0049】
【図1】本実施例に適用されるビデオカメラの概略ブロック図を示したものである。
【図2】本実施例に適用されるビデオカメラの概略構成図を示す。
【図3】本実施例に適用されるビデオカメラの概略構成図を示す。
【図4】本実施例に適用される音声モード情報の記録パケットの構成例を示した図である。
【図5】本実施例に適用されるバイノーラル音声の記録パケット構成例を示した図である。
【図6】本実施例に適用されるビデオ編集ソフトウェアの基本的機能を示すブロック図である。
【図7】本実施例に適用されるビデオ編集ソフトウェアの機能を示すブロック図である。
【図8】本実施例に適用されるクロストークキャンセラ処理の機能を示すブロック図である。
【図9】本実施例に適用されるビデオ編集ソフトウェアの動作を示すフローチャートである。
【図10】本実施例に適用されるデータの説明図である。
【図11】本実施例に適用される信号処理方法を説明するための図である。
【符号の説明】
【0050】
11情報分離器
12映像復号器
13画像処理
14映像符号器
15音声復号器
16音声処理
17音声復号器
18情報多重器
21バイノーラルフラッグ検出器
22バイノーラルフラッグ検出器
23バイノーラルフラッグ検出器
24データバッファ
25スイッチ
26ユーザインターフェース
27クロストークキャンセル処理部
271,272,273,274,277a,277bフィルタ
275a,275b加算器
110ビデオカメラ
111信号処理装置(コンピュータ)
112記録媒体
【特許請求の範囲】
【請求項1】
バイノーラル方式により収音した音声データと映像データとを多重化しストリームデータとして記録媒体に記録するビデオカメラから供給される前記ストリームデータの内の少なくとも前記音声データの処理を行う信号処理方法をコンピュータによって実行させるための信号処理プログラムであって、
前記ビデオカメラから供給されるストリームデータより音声データのみを抽出する第1のステップと、
前記第1のステップにより抽出した音声データに対してクロストークキャンセル処理を行う第2のステップと、
前記第1のステップで得られる音声データと前記第2のステップで得られる音声データとを選択出力する第3のステップと、
を有することを特徴とする信号処理方法をコンピュータによって実行させるための信号処理プログラム。
【請求項2】
前記請求項1記載の信号処理プログラムを記録する領域を有しており、前記コンピュータに導入されて用いられることを特徴とする記録媒体。
【請求項1】
バイノーラル方式により収音した音声データと映像データとを多重化しストリームデータとして記録媒体に記録するビデオカメラから供給される前記ストリームデータの内の少なくとも前記音声データの処理を行う信号処理方法をコンピュータによって実行させるための信号処理プログラムであって、
前記ビデオカメラから供給されるストリームデータより音声データのみを抽出する第1のステップと、
前記第1のステップにより抽出した音声データに対してクロストークキャンセル処理を行う第2のステップと、
前記第1のステップで得られる音声データと前記第2のステップで得られる音声データとを選択出力する第3のステップと、
を有することを特徴とする信号処理方法をコンピュータによって実行させるための信号処理プログラム。
【請求項2】
前記請求項1記載の信号処理プログラムを記録する領域を有しており、前記コンピュータに導入されて用いられることを特徴とする記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2006−270720(P2006−270720A)
【公開日】平成18年10月5日(2006.10.5)
【国際特許分類】
【出願番号】特願2005−88062(P2005−88062)
【出願日】平成17年3月25日(2005.3.25)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【Fターム(参考)】
【公開日】平成18年10月5日(2006.10.5)
【国際特許分類】
【出願日】平成17年3月25日(2005.3.25)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【Fターム(参考)】
[ Back to top ]