信号処理プログラム、及び記録媒体

【課題】音響信号をバイノーラル録音、またはバイノーラルではない通常録音のいずれかの録音方式により映像信号と共に記録した記録媒体を再生処理する際、録音した音響信号に忠実な音場再生を可能にした映像信号処理方法、及び映像信号処理プログラムを提供する。
【解決手段】記録媒体に記録された音声データを含む映像データがバイノーラル録音されたかどうかを示すバイノーラル情報を読み取るバイノーラルフラッグ検出器２１，２２，２３と、この検出されたバイノーラル情報を用いて、バイノーラルで記録されていない音声データ部分にはクロストークキャンセル処理を行わず、バイノーラルで記録された音声データ部分にはクロストークキャンセル処理を行うようにする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、記録媒体に記録された音声信号を含む映像信号を処理する信号処理プログラム、及び記録媒体に関するもので、特に、バイノーラル記録された音声信号を好適に視聴者に提示するようにした信号処理プログラム、及び記録媒体に関する。
【背景技術】
【０００２】
従来より、バイノーラル方式と呼ばれる録音再生方法がある。これは、視聴者の頭部を想定したダミーヘッドの左右両耳の穴にダミーヘッドマイクロホンと呼ばれるマイクロホンを設け、このダミーヘッドマイクロホンにより音源からの音響信号を録音する。このようにして録音された音響信号を、実際に視聴者がヘッドフォンを装着して再生すると、対象となる音源の再生音像の方向感、定位感が向上し、音源からの音声をそのまま聞いているような臨場感が得られるというものである。
【０００３】
上述のダミーヘッドを用いてヘッドフォン受聴用として収録したバイノーラル音源を視聴者の前方に配置するスピーカで再生する場合、左右スピーカから再生されたバイノーラル音声がリスナの耳に伝達されるまでの音場で右スピーカからリスナの左耳、左スピーカからリスナの右耳に伝達されるクロストークが発生し、理想的な音場再現が不可能となる。そのため、左チャンネルの音声信号を左側のスピーカから発音させるとともに、左側のスピーカから発音されて右側の耳で受聴されるクロストーク成分を打ち消す信号を右側のスピーカから発音させる。それにより、左チャンネルの音声信号は左耳により、右チャンネルの音声信号は右耳により視聴できるようにする。こうして、スピーカから発音された音であるにも関わらず、あたかもヘッドフォン受聴していると同様の臨場感が再現されるようにしている（例えば、特許文献１参照。）。
【０００４】
特許文献１には、手軽に用いることができ、かつ不特定多数の人に対して頭外前方方向の音像定位ができ、原音に忠実な音場再生を可能にしたバイノーラル再生装置が開示されている。そのバイノーラル再生装置は、ダミーヘッドマイクロホンにより原音場で収録された音響信号を音像定位フィルタリング部でクロストーク成分を打ち消すためのフィルタ係数を用いた畳み込み演算を行ってスピーカから発音させ、不特定多数の人に対して頭外前方への音像定位を実現させる。さらに、スピーカを受聴者に近接して配置するようにし、スピーカから発音される直接音に比して床面などで反射して受聴される反射音を小さくするようにし、収録された原音に忠実な再生を行うようにしている（例えば、特許文献１参照。）。
【０００５】
【特許文献１】特開昭５２−４０１０１号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
近年、個人がデジタルビデオカメラ等で撮影した映像を第三者に視聴させる手段として、ＤＶＤビデオやビデオＣＤへの映像の収録や、低ビットレートのストリーミングビデオ形式への変換とＷｅｂアップロードなどが行われることが一般的になりつつある。例えば、デジタルビデオカメラとパーソナルコンピュータをＩＥＥＥ１３９４に代表されるディジタルインターフェイスで接続し、デジタルビデオカメラの記録媒体の映像情報をパーソナルコンピュータのＨＤＤなどの記録媒体に複写した後、パーソナルコンピュータ上で動作するソフトウェアによって、映像の編集と加工、圧縮方式の変換、ディスク書き込み処理などが行われている。
【０００７】
ところで、上述のようにバイノーラル録音音声のスピーカでの再生においては、録音から再生までの処理経路のいずれかの時点でクロストークキャンセル処理が行われることが、適切な音場再現として必要である。ビデオカメラなどの録画装置で撮影した映像を配布する場合、ビデオディスクプレーヤなどの再生装置でクロストークキャンセル処理するのではなく、あらかじめクロストークキャンセル処理がされている音声の映像を配布することが、再生装置を限定しないため望ましいと考えられる。
【０００８】
しかしながら、録画装置で記録する時点では、音声をヘッドフォンで再生するか、スピーカで再生するかを決められないことが予測されるため、録画時の記録媒体にはクロストークキャンセル処理を施さない音声を収録し、編集や圧縮方式の変換時に必要に応じてクロストークキャンセル処理を施すことが望ましい。
従って、録画装置の映像信号処理を行う際に、録画装置で記録する時点で原音に忠実な音場再生を可能にしたを判別し、編集や圧縮方式の変換時に必要に応じてクロストークキャンセル処理を行わないと、音声の再生において適切な音場再現ができないという問題があった。
【０００９】
本発明は、以上の点に鑑みなされたもので、音響信号をバイノーラル録音、またはステレオ録音のいずれかの録音方式により映像信号と共に記録した記録媒体を再生処理する際、録音した音響信号に忠実な音場再生を可能にした信号処理プログラム、及び記録媒体を提供することを目的とする。
【課題を解決するための手段】
【００１０】
本発明は、上記課題を解決するために、以下の１）〜２）に記載手段よりなる。
すなわち、
１）バイノーラル方式により収音した音声データと映像データとを多重化しストリームデータとして記録媒体に記録するビデオカメラから供給される前記ストリームデータの内の少なくとも前記音声データの処理を行う信号処理方法をコンピュータによって実行させるための信号処理プログラムであって、
前記ビデオカメラから供給されるストリームデータより音声データのみを抽出する第１のステップと、
前記第１のステップにより抽出した音声データに対してクロストークキャンセル処理を行う第２のステップと、
前記第１のステップで得られる音声データと前記第２のステップで得られる音声データとを選択出力する第３のステップと、
を有することを特徴とする信号処理方法をコンピュータによって実行させるための信号処理プログラム。
２）前記１）記載の信号処理プログラムを記録する領域を有しており、前記コンピュータに導入されて用いられることを特徴とする記録媒体。
【発明の効果】
【００１１】
本発明の信号処理プログラム、及び記録媒体によれば、バイノーラル録音及び通常録音が混在した音声データを含む映像データを処理する際、バイノーラル録音情報を検出してバイノーラル録音されている部分には、クロストークキャンセル処理を施し、通常録音されている部分にはクロストークキャンセル処理を施さないという映像信号処理の切り替え制御を自動で行うことができるので、録音した音響信号に忠実な音場再生をすることができる。
また、編集者の意思によって、バイノーラル録音情報を含まない映像データ素材であっても、同一のソフトウェアで映像と音声の一括処理を行うことができる。
さらに、クロストークキャンセル処理によって処理された音声データとクロストークキャンセル処理を施していない音声データを映像と共に１つの多重化ストリームに構築することによって、視聴者が視聴環境によって選択ができる２系統音声の多重化ストリームを簡単な手順で作成することができる。
【発明を実施するための最良の形態】
【００１２】
以下、本発明に係る信号処理プログラム、及び記録媒体の発明を実施するための最良の形態につき、好ましい実施例により説明する。
図１１は、本実施例に適用される信号処理方法を説明するための図である。バイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録できるビデオカメラ１１０、信号処理プログラムを実行するための信号処理装置であるコンピュータ１１１、信号処理プログラムを記録する領域を有しており、コンピュータ１１１に導入されて用いられる記録媒体１１２から構成されている。
【００１３】
図１、図２、図３を用いて、撮影環境の音場をバイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録し、バイノーラル収録されたオーディオ信号及びステレオ収録された信号を視聴者に提示させるようにした記録装置としてビデオカメラを例に説明する。
【００１４】
図２に本実施例に適用されるビデオカメラの概略構成図を示す。同図に示すようにビデオカメラ１１０には、マイクユニット１３１がマイクコード１３３を介して接続されている。そのマイクユニット１３１をマイクロフォン載置部１２１に載置していわゆるステレオマイクロフォンとして収音するか、又は撮影者の耳部に載置してバイノーラルマイクロフォンとしての収音を行うようにしている。
【００１５】
図３に、マイクユニット１３１をマイクロフォン載置部１２１に載置した状態を示している。マイクロフォン載置部１２１にはスイッチが連動される突起部が設けてあり、マイクユニット１３１を載置することによりスイッチが押される。スイッチの作動により音声モード検出部１２０により、マイクユニット１３１はいわゆるステレオ収音するマイク配置に設置されたとして検出される。マイクユニット１３１の載置場所の検出は、マイクロフォンに内蔵される永久磁石から生じる磁界をホール素子や磁気抵抗素子を用いて検出する構造にしてもよい。
【００１６】
さらに、図１を参照してビデオカメラの動作について概説する。図１は、本実施例に適用されるビデオカメラの概略ブロック図を示したものである。
まず、撮像装置部３１ａによる撮影準備を行う撮影者は、ビデオカメラ１１０にセットされているノーマル／バイノーラルステレオマイクロフォン１３０を取り外し、耳部に装着する。ノーマル／バイノーラルステレオマイクロフォン１３０が取り外されたときに、音声モード検出部１２０はバイノーラル収音による録画が開始されると認識し、バイノーラル音声モード情報を出力する。多重化部２１０には、ビデオカメラ１１０で撮影されたビデオ信号と、ノーマル／バイノーラルステレオマイクロフォン１３０により収音されたバイノーラル音声信号が入力される。多重化部２１０では、それらの入力された信号は時分割多重された信号が生成される。記録部２３０に入力され、記録媒体に記録される。
【００１７】
ノーマル／バイノーラルステレオマイクロフォン１３０は撮影者の耳に装着せず、ビデオカメラ１１０に収納したまま通常のステレオ音声マイクロフォンとして収音することもできる。その場合は、マイクロフォンの収音個所にマイクロフォンが載置されていることを音声モード検出部１２０に設けられた突起部に連結されるスイッチが用いられて検出される。
【００１８】
図４を参照し、音声モード検出部１２０で検出された音声モード情報の記録と再生について述べる。図４は、本実施例に適用される音声モード情報の記録パケットの構成例を示した図である。
多重化部２１０に入力されるビデオ信号はビデオフレームレイヤの信号として、バイノーラル又は通常のステレオ音声信号はオーディオフレームレイヤの信号としてパケット化される。オーディオフレームレイヤの信号は音声モード情報に係るバイノーラルフラグと、圧縮符号化されたオーディオ信号であるオーディオフレームデータとして生成される。それらのパケット化された信号の頭部にはファイルヘッダが付される。ファイルヘッダ、ビデオフレームレイヤ、及びオーディオフレームレイヤの信号は、例えば通常のＤＶＤなどの記録で用いられるパケット化信号と同様に構成される。
【００１９】
図５を参照して音声モード情報の記録方法について説明する。図５は、本実施例に適用されるバイノーラル音声の記録パケット構成例を示した図である。
ビデオカメラ１１０のスタート、ストップボタンが操作される毎に１つのオーディオフレームレイヤに係る音声モード情報が作成される。それらの音声モード情報はバイノーラル情報パケットにより管理される。同様にしてオーディオデータはオーディオデータ情報パケットにより、オーディオデータの記録される領域はオーディオフレーム情報パケットにより管理される。それらのデータ管理手法も通常のＤＶＤなどで用いられるパケットデータ管理手法と同様である。本パケットデータ管理手法により管理されるオーディオフレーム毎の音声モード情報を一瞥により知ることが出来るため、再生装置部３３ａではバイノーラル音声信号と通常のステレオ音声信号とが混在して記録された媒体を再生するに際しても、予め指定される再生モードに応じてスムーズなクロストークキャンセラ部３９の切り替えを行うことが出来る。このように記録媒体に記録される映像データとそれに同期した音声データは、一定期間の映像データ、音声データをパケット化し、複数のパケットを時系列に連結した１つの多重化ストリーム（以下ストリームと記述）として通常扱われる。規格化されている形式としては、ＭＰＥＧが代表的存在である。
【００２０】
このようにして記録された記録媒体の映像を、ＰＣを用いて編集加工する場合について説明する。ビデオカメラの記録媒体からパーソナルコンピュータ（以下、ＰＣと記す）のＨＤＤ等の記憶媒体への映像情報の複写は、ビデオカメラとＰＣが共通で装備する、ＩＥＥＥ１３９４、ＵＳＢ、イーサネット（登録商標）などの情報インターフェイスと、前記情報インターフェイスにおいて規格化されたプロトコルを用いて伝送し、若しくはビデオカメラの記録媒体がディスクまたはフラッシュメモリ等の着脱可能な媒体である場合は、ビデオカメラとPCが共通で装備する前記記録媒体のインターフェイスによって読み取りを行う。
ビデオカメラの記録媒体の映像情報をＰＣのＨＤＤなどの記録媒体に複写した後、ＰＣ上で動作するソフトウェアによって、映像の編集や加工を行い、再生装置に応じて圧縮方式の変換をした後、光ディスク等の記録媒体に書き込み処理が行われる。
【００２１】
上述のＰＣ上で動作する、「ビデオ編集ソフトウェア」と称されるソフトウェアの主な機能としては、
（１）ストリームの長さ（再生時間）を調整する、
（２）複数のストリームを結合する、
（３）画像に効果を加える、
（４）音声に効果を加える、
（５）画像サイズやビットレートを変換する、
（６）音声ビットレートを変換する、
（７）ストリーム形式を変換する、
といった機能に分類できる。また、ＤＶＤなどの「ビデオディスク作成ソフトウェア」と称されるソフトウェアの機能として、ビデオ編集ソフトウェアの機能を有していることが一般的である。
【００２２】
本実施例に適用されるビデオ編集ソフトウェアの基本機能を、図６を用いて説明する。
編集結果のストリームは、通常複数個の素材ストリームから作られ、前期素材ストリームは個々に画素数やフレームレートが一致したものであるとは限らない。また、編集結果のストリームは素材ストリームと符号化形式が異なる場合がある。従って、効果等を加える以外でも、出力形式に合致させるための映像および音声の加工が必要となる。
【００２３】
画像の加工は圧縮形式のまま行うことが技術的に困難なため、１フレーム毎にＲＧＢまたはＹＵＶの非圧縮データに復号する必要がある。同様に圧縮形式の音声はＰＣＭに復号する必要がある。
そのためにまずストリームを情報分離器１１で映像と音声に分離し、映像データは映像復号器１２により非圧縮形式とする。復号の処理単位はＭＰＥＧなどのフレーム間圧縮の場合はそのブロック化されたフレーム数が最小単位であり、フレーム間圧縮の場合は１フレームである。
【００２４】
次に１フレームの作業単位で画像処理１３により画像加工が行われるが、効果や画像サイズの変更がない場合は、この処理は通過される。
次に映像符号器１４により目的の形式に圧縮符号化される。音声データは音声復号器１５により非圧縮形式にする。次に音声処理１６により音声加工し、音声符号器１７により圧縮符号化される。
【００２５】
音声復号器１５および音声符号器１７の最小処理はそれぞれの圧縮形式の処理ブロック単位となる。また、音声加工の処理単位は、その加工の種類による。映像データと音声データを情報多重器１８により多重化し、新しいストリームを作成する。
【００２６】
ストリーム再生などのリアルタイム処理とは異なり、ここまでの映像データと音声データ処理ステップは、同期的に逐次処理をする必要はなく、一時的な保存領域を使用して順次処理することが可能である。
また、映像または音声に加工の必要がなく、かつ処理前の圧縮形式と処理後の圧縮形式が同一の場合は、経路１ａ（映像の場合）または経路１ｂ（音声の場合）の処理ステップにより、再圧縮を抑止し、処理速度の向上と、品質劣化を防止することができる。
【００２７】
情報分離器１１、映像復号器１２、映像符号器１４、音声復号器１５、音声符号器１７、情報多重器１８は米国マイクロソフト社のＰＣ用ＯＳWindows（登録商標）においては、DirectShowと呼ばれるＯＳが提供するシステムの共有ライブラリとして利用できる場合があり、この場合はアプリケーションソフトウェアが各機能のプログラムコードを持っている必要はなく、処理の設定部分のみのコードとなる。
【００２８】
図７を用いてさらに詳細にビデオ編集ソフトウェアを説明する。
上述のビデオ編集ソフトの基本機能に、クロストークキャンセラ処理２７、バイノーラルフラッグ検出器２１・２２・２３および論理スイッチ２５、ユーザーインターフェース２６をさらに有している。
【００２９】
バイノーラルフラッグ検出器２１・２２・２３において、バイノーラルフラッグは1ビットで表現できる単純なものであるが、１つのストリーム中にバイノーラル録音された音声と通常のステレオ録音された音声が混在する場合がある。従って、タイムコードや音声データ累積サンプル数などの録音タイミング情報とバイノーラルフラッグを対照させることが必要になる。
【００３０】
バイノーラルフラッグが多重化ストリームの付加情報領域に記載されている場合は検出器２１によって、映像と音声分離の前ステップでバイノーラルフラッグを読み取る。
バイノーラルフラッグが映像データの付加情報領域に記載されている場合は検出器２２によって、映像データの分離後の処理ステップでバイノーラルフラッグを読み取る。
バイノーラルフラッグが音声データの付加情報領域に記載されている場合は検出器２３によって、音声データの分離後の処理ステップでバイノーラルフラッグを読み取る。
【００３１】
バイノーラルフラッグの検出とそれに続く処理ステップが、逐次行われる場合はバイノーラルフラッグの値をステータスとして保持するだけで良いが、順次行われる場合は１つのストリーム全体の録音タイミング情報とバイノーラルフラッグの値をデータバッファ２４に記録する。
【００３２】
スイッチ２５は概念上のもので、実際にはプログラムの処理分岐である。
スイッチ２５により、クロストークキャンセル処理を実施する場合は２ｂ側、クロストークキャンセル処理を実施しない場合は２ｃ側に切り替える。
【００３３】
ユーザインターフェース２６はコンピュータの表示部に視覚的に表示され、編集作業者によって設定が可能なもので、実施例については、クロストークキャンセル処理について、（１）自動実行、（２）強制実行、（３）強制非実行の３種類の設定が可能なものとするが、いずれか２種類の設定という構成としてもよい。
（１）自動実行が選択されている場合は、録音タイミング情報とバイノーラルフラッグの値により、スイッチ２５を切り替えるが、ユーザインターフェース２６により（２）強制実行、（３）強制非実行が設定された場合は経路２ｄに関係なく、それぞれ２ｂ側、２ｃ側に動作を切り替える。
【００３４】
図８を参照して、クロストークキャンセラ処理部２７について説明する。同図に示すように、音声復号器１５により復号化して得られるバイノーラル音声信号は、定数演算器２７１、定数演算器２７２、定数演算器２７３、定数演算器２７４、定数演算器２７７ａ、及び定数演算器２７７ｂにより左右のバイノーラル信号、及び左右のバイノーラル信号が受聴者の反対側の、右左の耳で受聴されるクロストーク信号成分を打ち消すための音声信号の特性が畳み込まれる。その後図示しない増幅器及びスピーカが接続され、スピーカから発音された信号は聴取者により聴取される。
【００３５】
バイノーラル収録された左右チャンネルのバイノーラル信号Ｐ_L（ｔ）及びＰ_R（ｔ）のそれぞれは入力端子に入力される。左チャンネルのバイノーラル信号の一方はフィルタ２７１に、他方はフィルタ２７２に入力される。フィルタ２７１及び２７２のそれぞれでは後述のｈ_RS（ｔ）、−ｈ_LO（ｔ）なる電気音響変換特性が与えられる。その電気音響変換特性は、人工頭が有する耳介での反射音や外耳道での共振を排除した特性である。
【００３６】
この電気音響変換特性は、通常受聴者の受聴する耳の位置に相当するよう円柱部である人工頭を設け、かつ円柱部の側面に受聴者の左右の耳の間隔を有しかつ底面からの高さが同一位置に一対のダミー受聴部を設け、左又は右スピーカからテスト信号を出力して一対のダミー受聴部で受聴し、音響特性を求める。このようにして求めた左右の音響特性からそれぞれ左右耳用の打ち消し信号を作成したものである。
【００３７】
同様にして右チャンネルの信号の一方はフィルタ２７３に、他方はフィルタ２７４に入力される。それぞれのフィルタ２７３、２７４により−ｈ_RO（ｔ）、ｈ_LS（ｔ）の電気音響変換特性が与えられる。
フィルタ２７１及びフィルタ２７３から出力される信号は加算器２７５ａで加算された後、フィルタ２７７ａによりｄ（ｔ）なる電気音響変換特性が与えられる。
フィルタ２７２及びフィルタ２７４から出力される信号は加算器２７５ｂで加算された後、フィルタ２７７ｂによりｄ（ｔ）なる電気音響変換特性が与えられる。
【００３８】
左チャンネルのバイノーラル信号Ｐ_L（ｔ）が入力される場合について説明する。
まず、フィルタ２７７ａから出力された信号は、図示しない左用スピーカから発音され聴取者の左耳で受聴されると共に、発音された信号の一部はクロストーク信号として聴取者の右耳で受聴される。そこで、受聴されるクロストーク信号を打ち消すための信号を生成して図示しない右用スピーカから発音する。クロストークを打ち消す信号により右耳でバイノーラル信号Ｐ_L（ｔ）は受聴されなくなる一方、クロストークをキャンセルする信号のクロストーク成分が左耳で受聴される。クロストーク成分が小さいときにはクロストークをキャンセルする信号のクロストーク成分が生じる。クロストーク成分のクロストークは同一（左）チャンネルの信号であるため受聴品質に与える劣化は少ないものの、高品質な再生音を得るための妨げとなる。即ち、レベルが高く、バイノーラル信号Ｐ_L（ｔ）によりマスキングされないクロストーク打消し信号は受聴の妨げとなり、好ましくない。
上記の動作は右チャンネルのバイノーラル信号Ｐ_R（ｔ）に対しても同様になされる。
【００３９】
そこで、フィルタ２７１〜２７４に格納する頭部伝達関数は、人工頭における耳介や外耳道により受聴される音響信号の利得上昇、ないしは特定周波数で共振して生じる利得上昇をなくした円筒型マイクロフォンを用いて頭部伝達関数を計測するようにする。計測された頭部伝達関数を用いてフィルタ２７１〜２７４の特性ｈ_RS（ｔ）、−ｈ_LO（ｔ）−ｈ_RO（ｔ）、及びｈ_LS（ｔ）を求める。それにより、左右チャンネルのバイノーラル信号Ｐ_L（ｔ）及びＰ_R（ｔ）に対して生成され、伝達関数ｈ_RS（ｔ）及びｈ_LO（ｔ）が畳み込まれた信号がスピーカ４１より発音される。伝達関数ｈ_RO（ｔ）及びｈ_LS（ｔ）が畳み込まれた信号がスピーカ４２から発音される。その結果、聴取者４８の左耳にはＰ_l（ｔ）、右耳にはＰ_r（ｔ）の信号が受聴される。
【００４０】
図７に示す経路２ａは出力ストリーミング形式が２チャンネルステレオ音声を２系統以上含むことができる場合に、クロストークキャンセル処理を実施した音声と、クロストークキャンセル処理を実施しない音声を両方収録したストリームの多重化を行う例である。
この形式では、バイノーラル音声をヘッドフォンで再生するか、スピーカで再生するかを視聴者が映像再生時に選択することができる。
出力ストリーミング形式が２チャンネルステレオ音声を１系統のみを含む場合は、経路２ａは存在しない。
【００４１】
図９を参照して、本実施例に適用される音声データの処理手順について説明する。
判断ステップ４１は図７のユーザーインターフェース２６の設定が自動実行であるかどうかで、自動でない場合はバイノーラルフラッグの検出が無意味なため、その処理を回避する。
ユーザーインターフェース２６の設定が自動であった場合は、ステップ４２の処理でストリームのバイノーラルフラッグを検出し、フラッグの有無とタイムコードを対照するデータ４ｂを作成、保存する。
【００４２】
上述のタイムコードはＭＰＥＧ１／２プログラムストリームであれば、ＰＥＳヘッダに含まれるＰＴＳが利用できる。
フラッグの有無とタイムコードを対照するデータはデータブロック毎作成しても構わないが、フラッグの有／無が切り替わった時刻のデータだけにすることで、データ領域の圧縮が可能である。
【００４３】
図１０にバイノーラルフラッグの有無とタイムコードを対照するデータの具体的な例を示す。
同図（ａ）に示す素材５ａは非バイノーラル録音、素材５ｂはバイノーラル録音、素材５ｃは非バイノーラル録音とバイノーラル録音が混在していると仮定する。
同図（ｂ）に示すファイルＩＤ５１１は、記憶媒体上の素材ストリームのアドレスを示すもので、同図（ｃ）のような別のデータとして管理する。
各素材について、開始点のフラッグのデータは必須であり、素材５ａ、素材５ｂについては、途中のフラッグの変化がないため、開始点のみのデータとなる。素材５ｃではフラッグの変化点のタイムコードを記録する。
【００４４】
上述の処理ステップ４２のバイノーラルフラッグの検出は処理ステップ４７以降に先行して行われる必要があるが、（１）ストリーム全体のフラッグ検出を行ってから次の処理に進む順次処理、（２）データブロック単位でフラッグ検出して次の処理に進む逐次処理、（３）フラッグ検出とそれ以降の処理の並列処理、がいずれも可能である。
【００４５】
処理ステップ４３ではストリーム仕様で最適なブロック単位でストリームデータを読み込み、音声データを分離する。
処理ステップ４４では音声加工が行われるが、この音声加工とは編集者の意向によって設定された、開始点／終了点の変更や、帯域フィルタ、エコーなどの効果などである。
【００４６】
判断ステップ４５は図７のユーザーインターフェース２６の設定が自動実行であるかどうかで、自動でない場合は設定に従って、クロストーク処理ステップ４９の実施を決定する。
ユーザーインターフェース２６の設定が自動であった場合は、処理ステップ４７でバイノーラルフラッグの有無とタイムコードを対照するデータを読み込み、処理中のデータブロックがバイノーラル録音かをステップ４８で判断し、クロストーク処理の実施を決定する。
【００４７】
処理４ａによって符号化と別途処理された映像と音声の多重化を行う。この多重化において、処理ステップ４４の加工が終了しクロストーク処理ステップ４９を実施しない音声と、クロストーク処理ステップ４９を実施した音声を個別のデータとして扱い、１つの映像と多重化することによって、再生時に視聴者が音声を選択できる２系統音声のストリームが作成できるようにしたものである。
【００４８】
なお、上述の実施例では撮影環境の音場をバイノーラル収録またはいわゆるステレオ収録して映像信号と共に記録し、バイノーラル収録されたオーディオ信号及びステレオ収録された信号を視聴者に提示させるようにした記録装置としてビデオカメラを例に説明したが、これに限定されるものではない。
【図面の簡単な説明】
【００４９】
【図１】本実施例に適用されるビデオカメラの概略ブロック図を示したものである。
【図２】本実施例に適用されるビデオカメラの概略構成図を示す。
【図３】本実施例に適用されるビデオカメラの概略構成図を示す。
【図４】本実施例に適用される音声モード情報の記録パケットの構成例を示した図である。
【図５】本実施例に適用されるバイノーラル音声の記録パケット構成例を示した図である。
【図６】本実施例に適用されるビデオ編集ソフトウェアの基本的機能を示すブロック図である。
【図７】本実施例に適用されるビデオ編集ソフトウェアの機能を示すブロック図である。
【図８】本実施例に適用されるクロストークキャンセラ処理の機能を示すブロック図である。
【図９】本実施例に適用されるビデオ編集ソフトウェアの動作を示すフローチャートである。
【図１０】本実施例に適用されるデータの説明図である。
【図１１】本実施例に適用される信号処理方法を説明するための図である。
【符号の説明】
【００５０】
１１情報分離器
１２映像復号器
１３画像処理
１４映像符号器
１５音声復号器
１６音声処理
１７音声復号器
１８情報多重器
２１バイノーラルフラッグ検出器
２２バイノーラルフラッグ検出器
２３バイノーラルフラッグ検出器
２４データバッファ
２５スイッチ
２６ユーザインターフェース
２７クロストークキャンセル処理部
２７１，２７２，２７３，２７４，２７７ａ，２７７ｂフィルタ
２７５ａ，２７５ｂ加算器
１１０ビデオカメラ
１１１信号処理装置（コンピュータ）
１１２記録媒体

【特許請求の範囲】
【請求項１】
バイノーラル方式により収音した音声データと映像データとを多重化しストリームデータとして記録媒体に記録するビデオカメラから供給される前記ストリームデータの内の少なくとも前記音声データの処理を行う信号処理方法をコンピュータによって実行させるための信号処理プログラムであって、
前記ビデオカメラから供給されるストリームデータより音声データのみを抽出する第１のステップと、
前記第１のステップにより抽出した音声データに対してクロストークキャンセル処理を行う第２のステップと、
前記第１のステップで得られる音声データと前記第２のステップで得られる音声データとを選択出力する第３のステップと、
を有することを特徴とする信号処理方法をコンピュータによって実行させるための信号処理プログラム。
【請求項２】
前記請求項１記載の信号処理プログラムを記録する領域を有しており、前記コンピュータに導入されて用いられることを特徴とする記録媒体。

【図１】