説明

映像音声処理装置および映像音声処理方法

【課題】音声ストリームの符号化遅延を短縮する。
【解決手段】映像音声処理装置は、映像符号化部501、映像ストリームデータ・音声ストリームデータ多重化部502、音声処理部503、を備える。音声処理部503は、入力映像信号に基づいて映像パケットのヘッダーを生成する手段601と、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントする手段602と、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合のフレームの音声サンプルを予測する手段603と、入力音声信号のステータス情報と予測した音声サンプル数に基づいて、音声のデジタル化データのサイズ情報を計算し、計算したサイズ情報を含む音声パケットのヘッダーを生成する手段604と、入力音声信号を音声のデジタル化データに変換する手段605と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像符号化装置におけるリアルタイムエンコーダーに関し、特に、符号化遅延が1フレーム未満の低遅延符号化装置における非圧縮音声の符号化回路に関する。
【背景技術】
【0002】
映像信号と同期している音声信号では、映像のフレーム周波数が29.97Hzであり音声のサンプリング周波数が48kHzである場合、映像1フレームに対する音声サンプル数が整数倍にならない。
【0003】
SMPTE302M規格では、映像ストリームに多重化する非圧縮の音声ストリームを、映像フレーム単位でPES化するものと定められている。また、SMPTE302M規格では、AES3ヘッダーは、AES3ヘッダーに続けて配置されるAES3ペイロードデータのサイズ(以下、AES3ペイロードサイズと称する場合がある。)を示すものと規定されている。
【0004】
非圧縮の入力音声信号を処理する回路では、映像1フレーム期間に入力された音声のサンプル数をカウントして、AES3ペイロードサイズを求める。非圧縮音声処理回路は、非圧縮音声ストリームの構造上、AES3ペイロードデータをAES3ヘッダーの後に配置して出力する。このため、AES3ペイロードサイズを確定するためには、1フレーム以上の遅延が必要となる。
【0005】
一方で、映像符号化に関しては、H.264方式などに従って1フレーム未満での映像符号化遅延を実現する処理回路が使用されていることから、非圧縮の音声ストリームの遅延を1フレーム未満に抑える必要がある。
【0006】
なお、本発明に関連する技術としては、例えば、特許文献1乃至3に開示される技術がある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2003−134479号公報
【特許文献2】特開平11−219564号公報
【特許文献3】特開平11−252058号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
図6に、本発明に関連する映像音声処理装置の構成例を示す。図6に例示するように、映像音声処理装置は、入力映像信号を低遅延で符号化する映像符号化装置401と、映像ストリームデータと音声ストリームデータを多重化する映像ストリームデータ・音声ストリームデータ多重化部402と、PESヘッダーを生成するPESヘッダー生成部403入力音声信号からAES3ペイロードデータを3生成するAES3ペイロード生成部404と、入力音声信号のサンプル数をカウントするサンプル数カウンタ405と、カウントした音声サンプル数を反映してAES3ヘッダーを生成するAES3ヘッダー生成部406と、生成したPESヘッダーの遅延を調整するPESヘッダー遅延メモリ407と、生成したAES3ペイロードデータの遅延を調整するAES3ペイロード遅延メモリ408と、PESヘッダー、AES3ヘッダー、AES3ペイロードデータからなる音声ストリームデータを生成する音声ストリームデータ生成部409と、生成した音声ストリームデータの遅延を調整する遅延メモリ410と、を備えている。
【0009】
図6に例示した構成の映像音声処理装置では、低遅延符号化を1フレーム未満で行うことができるものの、SMPTE302M規格に準拠した非圧縮の音声ストリームの処理に関しては、PES化に使用した1フレーム内の音声サンプル数に基づいてAES3ペイロードサイズを求め、その求めたAES3ペイロードサイズを、AES3ヘッダーに含ませる必要がある。
【0010】
しかし、AES3ヘッダーは、ストリームのAES3ペイロードデータよりも前に配置されるため、入力音声信号の音声サンプル数をカウントした後にAES3ヘッダーを生成する回路では、1フレームの音声信号の入力が終わるまでの間はAES3ヘッダーを生成することができない。そのため、少なくとも1フレーム分の音声信号の遅延が必要になるという問題があった。
【0011】
そこで本発明の目的は、これらの課題を解決し、音声ストリームの符号化遅延を短縮することが可能な映像音声処理装置および映像音声処理方法を提供することである。
【課題を解決するための手段】
【0012】
本発明の第1の態様にかかる映像音声処理装置は、所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備え、前記音声処理部は、前記入力映像信号に基づいて前記映像パケットのヘッダーを生成する手段と、前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントする手段と、前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段と、前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成する手段と、前記入力音声信号を前記音声のデジタル化データに変換する手段と、を備える。
【0013】
本発明の第2の態様にかかる映像音声処理方法は、所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備える映像音声処理装置における映像音声処理方法である。映像音声処理方法は、前記入力映像信号に基づいて前記映像パケットのヘッダーを生成するステップと、前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントするステップと、前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測するステップと、前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成するステップと、前記入力音声信号を前記音声のデジタル化データに変換するステップと、を含む。
【発明の効果】
【0014】
本発明によれば、音声ストリームの符号化遅延を短縮することが可能な映像音声処理装置および映像音声処理方法を提供することができる。
【図面の簡単な説明】
【0015】
【図1】実施の形態1に係る映像音声処理装置の構成図である。
【図2】実施の形態1に係る映像音声処理装置の動作例を示す図である。
【図3】各フレームで発生しうる音声サンプル数のパターンと、予測サンプル数と、の関係を例示する表である。
【図4】実施の形態2に係る映像音声処理装置の構成図である。
【図5】本発明の原理を説明するための図である。
【図6】本発明に関連する技術を説明するための図である。
【発明を実施するための形態】
【0016】
まず、本発明の実施の形態について説明するのに先立ち、図5を参照して本発明の原理について説明する。図5に示すように、本発明にかかる映像音声処理装置は、映像符号化部501と、映像ストリームデータ・音声ストリームデータ多重化部502と、音声処理部503と、を備えている。
【0017】
映像符号化部501は、所定のフォーマット(H.264フォーマット)に従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する。映像ストリームデータ・音声ストリームデータ多重化部502は、所定のフォーマット(MPEG2−TSフォーマット)に従って、映像ストリームデータと音声ストリームデータを多重化して出力する。
【0018】
音声処理部503は、入力映像信号の符号化を開始する場合に、入力映像信号の先頭フレームのタイミングで、入力映像信号と入力音声信号に基づいて、パケットのヘッダー(PESヘッダー)と、音声パケットのヘッダー(AES3ヘッダー)と、音声のデジタル化データ(AES3ペイロードデータ)と、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、映像ストリームデータのタイミングに合うように遅延させて出力する。
【0019】
音声処理部503は、入力映像信号に基づいて映像パケットのヘッダーを生成する手段601と、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントする手段602と、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段603と、入力音声信号のステータス情報と、予測した音声サンプル数と、に基づいて、音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む音声パケットのヘッダーを生成する手段604と、入力音声信号を音声のデジタル化データに変換する手段605と、を備えている。
【0020】
本発明によれば、非圧縮の音声ストリームのPESパケット生成におけるAES3ペイロードサイズを、入力映像信号の符号化開始前の所定のフレーム単位での、入力音声信号の音声サンプル数をカウントして、カウントした音声サンプル数のパターンに基づいて、入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測し、この予測した音声サンプル数に基づいて、音声のデジタル化データのサイズ情報を計算して音声パケットのヘッダーを生成することで、音声ストリームの符号化遅延の短縮化を図ることができる。
【0021】
実施の形態1.
以下、図1乃至図3を参照して、本実施の形態について説明する。図1乃至図3では、本実施の形態に係る映像符号化装置において、映像ストリームデータと非圧縮の音声ストリームデータを1フレーム未満の符号化遅延で出力する例を示す。
【0022】
図1は、本実施の形態に係る映像音声処理装置の構成図である。図に示す様に、映像音声処理装置は、映像符号化部201と、映像ストリームデータ・音声ストリームデータ多重化部202と、PESヘッダー生成部203と、AES3ペイロード生成部204と、AES3ヘッダー生成部205と、非圧縮音声ストリームデータ生成部206と、遅延メモリ207と、プリカウンタ部208と、サンプル数予測部209と、を備えている。映像ストリームデータ・音声ストリームデータ多重化部202などを含む部分で、映像符号化部201を除いた部分が、音声処理部に相当する。
【0023】
映像符号化部201は、H.264フォーマットに従って、入力映像信号21を、映像ストリームデータ22に低遅延で圧縮符号化する。また、映像符号化部201は、入力映像信号21のフレーム周期に基づいて、映像フレームタイミング信号23を出力する。ここでは、入力映像信号21は、フレーム周波数29.97Hzの映像信号である。また、映像フレームタイミング信号23は、29.97Hzの映像フレームタイミング信号である。
【0024】
映像ストリームデータ・音声ストリームデータ多重化部202は、入力される映像ストリームデータ22と音声ストリームデータ31を、MPEG2−TSフォーマットに多重化する。映像ストリームデータ・音声ストリームデータ多重化部202は、映像ストリームデータ22と音声ストリームデータ31を、TSパケットサイズで多重化したMPEG−2TSストリームデータ32として出力する。
【0025】
PESヘッダー生成部203は、入力映像信号21のフレーム単位で、音声ストリームデータ30に含まれるSMPTE302M規格のPESヘッダー28を生成する。PESヘッダー生成部203は、入力される映像フレームタイミング信号23に基づいて、入力映像信号21のフレームの開始タイミングで、PESヘッダー28を生成する。
【0026】
AES3ペイロード生成部204は、入力音声信号24から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびZフラグを抽出してデジタル化し、SMPTE302M規格で定められるAES3ペイロードデータ27を生成する。AES3ペイロード生成部204は、入力される映像フレームタイミング信号23に基づいて、入力映像信号21のフレームの開始タイミングで、AES3ペイロードデータ27の生成を開始する。
【0027】
AES3ヘッダー生成部205は、入力音声信号24のステータス情報と、次の映像1フレーム中での予測される音声サンプル数26と、に基づいて、AES3ペイロードサイズを計算し、計算したペイロードサイズを含むAES3ヘッダー29を生成する。
【0028】
非圧縮音声ストリームデータ生成部206は、PESヘッダー生成部203で生成したPESヘッダー28と、AES3ペイロード生成部204で生成したAES3ヘッダー29と、AES3ヘッダー生成部205で生成したAES3ペイロードデータ27と、が入力されて、PESヘッダー28、AES3ヘッダー29、AES3ペイロードデータ27の順で選択し、非圧縮の音声ストリームデータ30として出力する。ここで、音声ストリームデータ30は、SMPTE302M規格に規定されるMPEG−2 PESパケットの形式である。
【0029】
遅延メモリ207は、入力される音声ストリームデータ30を一時的に保持し、映像ストリームデータ22の符号化遅延に合わせて遅延調整する。
【0030】
プリカウンタ部208は、入力映像信号21の1フレームに対応する入力音声信号24の1フレーム中のサンプル数を、所定のフレーム分連続でカウントする。プリカウンタ部208は、入力される映像フレームタイミング信号23に基づいて、映像信号のフレームのタイミングで、直前フレームで入力音声信号24のサンプル数をカウントし、カウントしたプリカウンタ値25を出力する。ここでは、プリカウンタ部208は、入力音声信号24について、1フレーム中のサンプル数を、映像5フレーム分連続でカウントする。
【0031】
サンプル数予測部209は、1フレーム中の音声サンプル数を所定のフレーム分取り込み、取り込んだ音声サンプル数のパターンに基づいて、次のフレームの音声サンプル数を予測する。サンプル数予測部209は、所定のフレーム単位で取り込んだプリカウンタ値25に基づいて次のフレームの音声サンプル数を予測し、予測音声サンプル数26を出力する。ここでは、サンプル数予測部209は、1フレーム中の音声サンプル数を、5回分(5フレーム分)取り込み、次のフレームの音声サンプル数を予測する。
【0032】
図2は、本実施の形態に係る映像音声処理装置の動作例を示す図である。
映像符号化部201は、フレーム周波数29.97Hzの入力映像信号21を受け、1フレーム未満(例えば10ms)の符号化遅延で符号化処理して、H.264フォーマットの映像ストリームデータ22を出力する。また、映像符号化部201は、入力映像信号21のフレーム周期を、映像フレームタイミング信号23として出力する。
【0033】
プリカウンタ部208は、映像フレームタイミング信号23に従って、映像フレーム中の入力音声信号24のサンプル数をカウントして、直前フレームにおける入力音声信号24のサンプル数をプリカウンタ値25として出力する。
【0034】
サンプル数予測部209は、直前の連続5フレームのプリカウンタ値25を収集し、入力映像信号21の符号化を開始する場合における、次の映像フレームのサンプル数を予測する(すなわち、現在これから処理すべき映像フレームに対応する、AES3ペイロードデータ27に含まれる音声サンプル数の予測サンプル数26を求める)。
【0035】
ここで、予測サンプル数26の算出方法をより具体的に説明する。
まず、映像信号と音声信号の同期に関して、フレーム周波数29.97Hzの映像信号と、サンプリング周波数48kHzの音声信号と、が同期している場合には、次に示すように、映像1フレーム中の音声サンプル数には端数が存在することになる。
映像1フレーム中の音声サンプル数
=(1/29.97Hz)÷(1/48kHz)=1601.6サンプル
【0036】
しかし、次に示すように、映像フレームを5フレーム単位とすることで、音声サンプル数が整数倍となるため、同期関係として扱うことができる。
映像5フレームの音声サンプル数=8008サンプル
【0037】
そして、映像フレームについて、連続5フレームのうちの各フレームのサンプル数を、整数で切り捨てると、例えば次に示すパターンでサンプル数が取得されることになり、任意の連続5フレームの合計サンプル数は、8008サンプルになる。
1602、1601、1602、1601、1602、・・・・(以下繰り返し)
【0038】
図3は、各フレームで発生しうる音声サンプル数のパターンと、予測サンプル数と、の関係を例示する表である。図3では、連続5フレームについて、第1フレームから第5フレームそれぞれの音声サンプル数と、次の映像フレームでの予測音声サンプル数26との関係を表形式で例示している。各パターンと予測サンプル数は映像信号のフレーム周波数と、音声信号のサンプリング周波数の関係から生成される値であり、図3は映像信号のフレーム周波数が29.97Hzと音声サンプリング周波数が48kHzの場合の関係を表すものである。サンプル数予測部209は、取り込んだ音声サンプル数のパターンに基づいて、次のフレームの音声サンプル数を予測する。
【0039】
図2に戻って説明を続ける。
AES3ヘッダー生成部205は、サンプル数予測部209が予測した音声サンプル数26と、入力音声信号24のステータス情報と、に基づいて、現在の映像フレームにおいて生成されるAES3ペイロードサイズを計算し、計算したAES3ペイロードサイズを含むSMPTE302M規格のAES3ヘッダー29を生成する。
【0040】
PESヘッダー生成部203は、入力映像信号21について符号化を開始する場合に、映像フレームの開始タイミングで、SMPTE302M規格のPESヘッダー28を生成する。
【0041】
AES3ペイロード生成部204は、入力音声信号24から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびZフラグを抽出して、SMPTE302M規格のAES3ペイロードデータ27を生成する。
【0042】
音声ストリームデータ生成部206は、PESヘッダー28、AES3ヘッダー29、AES3ペイロードデータ27を受け、PESヘッダー28、AES3ヘッダー29、AES3ペイロードデータ27の順に、MPEG−2 PESパケット形式の非圧縮の音声ストリームデータ30を出力する。
【0043】
遅延メモリ207は、映像ストリームデータ22の符号化遅延と同じ遅延になるように音声ストリームデータ30を調整して、音声ストリームデータ31として出力する。例えば、映像符号化遅延が10ms、音声ストリームデータ30の遅延が4msである場合、遅延メモリ207を用いて6msの遅延を付加して、10ms遅延の音声ストリームデータ31を出力する。
【0044】
映像ストリームデータ・音声ストリームデータ多重化部202は、映像ストリームデータ22と音声ストリームデータ31を、TSパケットサイズにそれぞれ分割して多重化を行い、MPEG−2 TSストリーム形式のMPEG−2TSストリームデータ32として出力する。
【0045】
以上説明したように、本実施の形態によれば、SMPTE302M規格に準拠した非圧縮の音声ストリームに関して、非圧縮の音声ストリームのPESパケット生成におけるAES3ペイロードサイズを、映像フレームの前方5フレーム期間の音声サンプル数と、サンプル数の出現パターンと、に基づいて推測して、この推測したAES3ペイロードサイズに基づいて、PES化フレームの開始時点においてAES3ヘッダーを生成することで、音声ストリームの符号化遅延の短縮化を図ることができる。
【0046】
映像符号化の圧縮方式としてH.264を使用する場合には、符号化遅延に関して、これまでのMPEG−2と同等に符号化遅延を数百ms(例えば300msから1秒)で行う方法の他に、符号化遅延を1フレーム未満(例えば10ms)の低遅延符号化とすることが可能である。しかし、音声の符号化遅延に1フレームを要した場合には、受信機側で音声の再生が映像の再生より遅れてしまうことになり、映像と音声のリップシンクにずれが生じる。そこで、本実施の形態では、低遅延での映像符号化部と、音声の符号化遅延を映像の符号化遅延よりも短くし、かつ、遅延メモリを用いて映像符号化の遅延に合わせた調整を可能とする音声符号化回路と、を組み合わせた装置として実現することで、映像と音声のリップシンクにずれが生じない、低遅延符号化装置を実現することができる。
【0047】
実施の形態2.
上述した実施の形態1と比較して、本実施の形態にかかる映像音声処理装置は、映像フレーム中の入力音声信号の異常を検出した場合に、異常に対する処置を可能とするものである。上述した実施の形態1と比較して、本実施の形態では、音声入力監視部およびMUTE回路を更に備えることを特徴する。なお、その他の基本的な構成は実施の形態1と同じであるため、以下では、相違点を中心に説明し、共通点についてはその詳細な説明を省略する。
【0048】
図4は、本実施の形態に係る映像音声処理装置の構成図である。図4に示す映像音声処理装置は、フレーム周波数29.97Hzの映像信号と、映像信号に同期したサンプリング周波数48kHzの音声信号と、が入力されて、H.264フォーマットで映像信号の低遅延符号化を行い、SMPTE302M形式のPESデータに音声信号の非圧縮符号化を行う回路の例である。
【0049】
図4に示す様に、映像音声処理装置は、映像符号化部301と、映像ストリームデータ・音声ストリームデータ多重化部302と、PESヘッダー生成部303と、AES3ペイロード生成部304と、AES3ヘッダー生成部305と、非圧縮音声ストリームデータ生成部306と、遅延メモリ307と、プリカウンタ部308と、サンプル数予測部309と、音声入力監視部310と、MUTE回路311と、を備えている。
【0050】
映像符号化部301は、入力映像信号41を、H.264フォーマットに従って、入力映像信号41を、映像ストリームデータ42に低遅延で圧縮符号化する。また、映像符号化部301は、入力映像信号41のフレーム周期に基づいて、映像フレームタイミング信号43を出力する。
【0051】
映像ストリームデータ・音声ストリームデータ多重化部302は、入力される映像ストリームデータ42と音声ストリームデータ51を、MPEG2−TSフォーマットに多重化する。
【0052】
PESヘッダー生成部303は、映像信号のフレーム単位で、音声ストリームデータのSMPTE302M規格のPESヘッダー48を生成する。
【0053】
AES3ペイロード生成部304は、入力音声信号44から、音声データワード、バリディティビット、ユーザービット、チャンネルステータスビット、およびZフラグを抽出して、SMPTE302M規格のAES3ペイロードデータ47を生成する。
【0054】
AES3ヘッダー生成部305は、入力音声信号44のステータス情報と、映像1フレーム中の音声サンプル数46と、に基づいてAES3ペイロードサイズを計算し、計算したペイロードサイズを含むAES3ヘッダー49を生成する。
【0055】
非圧縮音声ストリームデータ生成部306は、PESヘッダー生成部303で生成したPESヘッダー48と、AES3ペイロード生成部304で生成したAES3ヘッダー49と、AES3ヘッダー生成部305で生成したAES3ペイロードデータ47と、が入力されて、PESヘッダー48、AES3ヘッダー49、AES3ペイロードデータ47の順で選択し、非圧縮の音声ストリームデータ50として出力する。ここで、音声ストリームデータ50は、SMPTE302M規格で定められるMPEG−2 PESパケットの形式である。
【0056】
遅延メモリ307は、入力される音声ストリームデータ50を一時的に保持し、映像ストリームデータ42の符号化遅延に合わせて遅延調整する。
【0057】
プリカウンタ部308は、入力音声信号34について、1フレーム中のサンプル数を、所定のフレーム分連続でカウントする。プリカウンタ部308は、入力される映像フレームタイミング信号43に基づいて、映像信号のフレームのタイミングで、直前フレームで入力音声信号34のサンプル数をカウントし、カウントしたプリカウンタ値45を出力する。ここでは、プリカウンタ部308は、入力音声信号44について、1フレーム中のサンプル数を、映像5フレーム分連続でカウントする。
【0058】
サンプル数予測部309は、1フレーム中の音声サンプル数を所定のフレーム分取り込み、次のフレームの音声サンプル数を予測する。サンプル数予測部309は、プリカウンタ値45に基づいて次のフレームの音声サンプル数を予測し、予測音声サンプル数46を出力する。ここでは、サンプル数予測部309は、1フレーム中の音声サンプル数を、5回分(5フレーム分)取り込み、次のフレームの音声サンプル数を予測する。
【0059】
音声入力監視部310は、映像フレーム中の入力音声信号44の異常を検出し、異常を検出した場合には、次の映像フレームまでの間、アラーム信号53を出力し続ける。音声入力監視部310は、入力音声信号44を監視し、入力音声信号44が不連続であるとの異常を検出した場合には、次の映像フレームまでの間異常であるとの判定を継続し、アラーム信号53を出力し続ける。
【0060】
MUTE回路311は、アラーム信号53を受けている間、AES3ペイロードデータ47をダミーデータに置き換える。MUTE回路311は、AES3ペイロードデータ47に関して、アラーム信号53によりアラームが発生したタイミングから、そのタイミングのAES3ペイロードデータ47の最後のデータまでを、ダミーデータ(例えば'0'データ)に置き換え、異常パケットを出力しないように処置する。
【0061】
本実施の形態によれば、音声入力監視部310およびMUTE回路311を更に備えることで、入力音声信号44に異常を検出した場合には、異常パケットを出力しないように処置することが可能となる。
【0062】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0063】
201、301、501 映像符号化部、
202、302、502 映像ストリームデータ・音声ストリームデータ多重化部、
203、303 PESヘッダー生成部、
204、304 AES3ペイロード生成部、
205、305 AES3ヘッダー生成部、
206、306 非圧縮音声ストリームデータ生成部、
207、307 遅延メモリ、
208、308 プリカウンタ部、
209、309 サンプル数予測部、
310 音声入力監視部、
311 MUTE回路、
503 音声処理部、
601 映像パケットのヘッダーを生成する手段、
602 音声サンプル数をカウントする手段、
603 音声サンプルを予測する手段、
604 音声パケットのヘッダーを生成する手段、
605 音声のデジタルデータに変換する手段、

21、41 入力映像信号、
22、42 映像ストリームデータ、
23、43 映像フレームタイミング信号、
24、44 入力音声信号、
25、45 プリカウンタ値、
26、46 予測音声サンプル数、
27、47 AES3ペイロードデータ、
28、48 PESヘッダー、
29、49 AES3ヘッダー、
30、50 音声ストリームデータ、
31、51 音声ストリームデータ、
32、52 MPEG−2TSストリームデータ、
53 アラーム信号、

【特許請求の範囲】
【請求項1】
所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、
前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、
所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備え、
前記音声処理部は、
前記入力映像信号に基づいて前記映像パケットのヘッダーを生成する手段と、
前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントする手段と、
前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測する手段と、
前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成する手段と、
前記入力音声信号を前記音声のデジタル化データに変換する手段と、
を備える映像音声処理装置。
【請求項2】
前記音声処理部は、
前記入力音声信号の異常を検出した場合に、次の前記入力映像信号の次の映像フレームまでの間、アラーム信号を出力し続ける手段と、
前記アラーム信号を受けている間、前記音声のデジタル化データをダミーデータに置き換えて出力する手段と、を更に備える
ことを特徴とする請求項1に記載の映像音声処理装置。
【請求項3】
前記音声処理部は、
前記映像ストリームデータのタイミングに合うように前記音声ストリームデータを遅延させて出力する遅延メモリを更に備える
ことを特徴とする請求項1又は2に記載の映像音声処理装置。
【請求項4】
所定のフォーマットに従って、入力映像信号を低遅延で圧縮符号化して映像ストリームデータを出力する映像符号化部と、
前記入力映像信号の符号化を開始する場合に、前記入力映像信号の先頭フレームのタイミングで、前記入力映像信号と入力音声信号に基づいて、映像パケットのヘッダーと、音声パケットのヘッダーと、音声のデジタル化データと、を含む音声ストリームデータを生成し、当該生成した音声ストリームデータを、前記映像ストリームデータのタイミングに合うように遅延させて出力する音声処理部と、
所定のフォーマットに従って、前記映像ストリームデータと前記音声ストリームデータを多重化して出力する映像ストリームデータ・音声ストリームデータ多重化部と、を備える映像音声処理装置における映像音声処理方法であって、
前記入力映像信号に基づいて前記映像パケットのヘッダーを生成するステップと、
前記入力映像信号の符号化開始前の所定のフレーム単位での、前記入力音声信号の音声サンプル数をカウントするステップと、
前記カウントした音声サンプル数のパターンに基づいて、前記入力映像信号の符号化を開始する場合におけるフレームの音声サンプルを予測するステップと、
前記入力音声信号のステータス情報と、前記予測した音声サンプル数と、に基づいて、前記音声のデジタル化データのサイズ情報を計算し、当該計算したサイズ情報を含む前記音声パケットのヘッダーを生成するステップと、
前記入力音声信号を前記音声のデジタル化データに変換するステップと、
を含む映像音声処理方法。
【請求項5】
前記入力音声信号の異常を検出した場合に、次の前記入力映像信号の次の映像フレームまでの間、アラーム信号を出力し続けるステップと、
前記アラーム信号を受けている間、前記音声のデジタル化データをダミーデータに置き換えて出力するステップと、
を更に含むことを特徴とする請求項4に記載の映像音声処理方法。
【請求項6】
遅延メモリを用いて、前記映像ストリームデータのタイミングに合うように前記音声ストリームデータを遅延させて出力するステップ
を更に含むことを特徴とする請求項4又は5に記載の映像音声処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−182618(P2012−182618A)
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【出願番号】特願2011−43686(P2011−43686)
【出願日】平成23年3月1日(2011.3.1)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】