情報処理装置および方法、並びにプログラム

【課題】画像と音声との同期を維持したまま、より簡単に、より迅速に、画像データおよび音声データを削除する。
【解決手段】入力バッファ９２は、入力された画像データおよび音声データをそれぞれ先入れ先出しするように記憶する。削除部１２６は、入力バッファ９２に記憶されている画像データおよび音声データのうち、ＧＯＰ毎に画像データを削除するとともに、削除される画像データの表示タイムスタンプで示される、最も早い時刻である第１の時刻以前の時刻であって、最も近い時刻を示す音声出力タイムスタンプが付加されている音声データから、削除される画像データの次の画像データに付加された表示タイムスタンプで示される時刻以後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除する。本発明はトランスコーダに適用できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は情報処理装置および方法、並びにプログラムに関し、特に、ストリームとしての画像データおよび音声データを処理する情報処理装置および方法、並びにプログラムに関する。
【背景技術】
【０００２】
画像を表示するとともに、これに同期する音声を出力するための画像データおよび音声データがいわゆるストリームとして利用されることが多くなってきた。
【０００３】
従来、コンテンツ対応の属性情報であるメタ情報を構成するプロパティ情報にサーバの保有するオリジナルコンテンツのデータ態様情報、例えばファイルフォーマット情報、符号化データ態様としてのコーデック情報、解像度の各情報を格納し、クライアントからのコンテンツ情報取得要求の受領に基づいて、これらのオリジナルコンテンツのデータ態様情報を含むコンテンツ情報を生成し、クライアントに対して送信するようにしているものもある（例えば、特許文献１参照）。
【０００４】
さらに、単位時間あたりに伝送されるデータ量をより少なくするため、ストリームとして供給された画像データおよび音声データの符号化の方式を、他の方式に変換（トランスコード）する技術も利用されるようになってきた。
【０００５】
【特許文献１】特開２００４−２３４１１１号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
ストリームとして供給された画像データおよび音声データのトランスコードの処理が、何らかの理由で間に合わなくなってしまった場合、供給された画像データおよび音声データを受ける側でオーバーフローが生じてしまうことになる。また、トランスコードした結果であるストリームを伝送するネットワークに遅延または障害が発生するなど、トランスコードされた画像データおよび音声データを伝送する側の理由で、トランスコードされた画像データおよび音声データの出力ができなくなった場合、同様に、供給された画像データおよび音声データを受ける側でオーバーフローが生じてしまうことになる。
【０００７】
このような場合、供給されたストリームを、単に、記憶されている順序で削除したり、供給されてきた順序で削除した場合、削除した後の画像データおよび音声データを再生すると、画像と音声との同期がずれてしまうことがある。いわゆるリップシンクずれが生じてしまう。
【０００８】
これを防止するためには、符号化されている画像データおよび音声データそのものを解析して、その結果から、画像と音声との同期がずれないように、画像データおよび音声データを削除する必要があった。
【０００９】
しかしながら、画像データおよび音声データそのものの解析には、複雑な処理が必要とされ、処理に時間がかかる。処理に時間がかかると、これによってより多くの画像データおよび音声データを削除しなければならなくなるという問題があった。
【００１０】
本発明はこのような状況を鑑みてなされたものであり、画像と音声との同期を維持したまま、より簡単に、より迅速に、画像データおよび音声データを削除することができるようにするものである。
【課題を解決するための手段】
【００１１】
本発明の情報処理装置は、入力された画像データおよび音声データをそれぞれ先入れ先出しするように、画像データおよび音声データの一時的な記憶を制御する記憶制御手段と、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データを削除するとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除する削除手段とを含むことを特徴とする。
【００１２】
情報処理装置は、一時的に記憶されている画像データおよび音声データであって、削除された画像データの後の画像データに付加されている表示時刻情報で示される時刻、および削除された音声データの後の音声データに付加されている出力時刻情報で示される時刻から、削除された音声データによって出力されるべき音声の時間をそれぞれ引き算した時刻を示すように表示時刻情報および出力時刻情報を付け替える付け替え手段をさらに設けることができる。
【００１３】
情報処理装置は、付け替え手段によって、時間を遡る時刻を示す表示時刻情報に付け替えられた画像データの処理を抑制するように、画像データを処理する処理手段をさらに設けることができる。
【００１４】
削除手段は、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻であって、第２の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除するようにすることができる。
【００１５】
削除手段は、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データの最後の単位の２つ後の単位の先頭の画像データに付加された表示時刻情報で示される時刻である第３の時刻と同じ時刻または後の時刻であって、第３の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除するようにすることができる。
【００１６】
情報処理装置は、一時的に記憶されている音声データに付加されている出力時刻情報で示される時刻のうち、最も早い時刻である第３の時刻より後の時刻であって、第３の時刻に最も近い時刻である第１の時刻を示す表示時刻情報が付加されている、符号化の単位であるフレームのうちの最初のフレームを表示するための画像データを削除の始点として検索するとともに、検索された画像データに付加されている表示時刻情報で示される第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データを削除の始点として検索する第１の検索手段と、検索された音声データに付加されている出力時刻情報により示される時刻から予め定めた時間を経過した時刻である第４の時刻より後の時刻であって、第４の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データを削除の終点として検索するとともに、削除の終点として検索された音声データに付加されている出力時刻情報で示される時刻と同じ時刻または前の時刻を示す表示時刻情報が付加されている、符号化の単位であるフレームのうちの最初のフレームを表示するための画像データを削除の終点として検索する第２の検索手段とをさらに設け、削除手段は、検索された始点および終点を基に、画像データおよび音声データを削除するようにすることができる。
【００１７】
本発明の情報処理方法は、入力された画像データおよび音声データをそれぞれ先入れ先出しするように、画像データおよび音声データの一時的な記憶を制御する記憶制御ステップと、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データを削除するとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除する削除ステップとを含むことを特徴とする。
【００１８】
本発明のプログラムは、入力された画像データおよび音声データをそれぞれ先入れ先出しするように、画像データおよび音声データの一時的な記憶を制御する記憶制御ステップと、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データを削除するとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除する削除ステップとをコンピュータに実行させることを特徴とする。
【００１９】
本発明の情報処理装置および方法、並びにプログラムにおいては、入力された画像データおよび音声データをそれぞれ先入れ先出しするように、画像データおよび音声データの一時的な記憶が制御され、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データが削除されるとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでが削除される。
【発明の効果】
【００２０】
以上のように、本発明によれば、画像と音声との同期を維持することができることができる。
【００２１】
また、本発明によれば、画像と音声との同期を維持したまま、より簡単に、より迅速に、画像データおよび音声データを削除することができることができる。
【発明を実施するための最良の形態】
【００２２】
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
【００２３】
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。
【００２４】
請求項１に記載の情報処理装置は、所定の数のフレームを単位（例えば、GOP）として符号化されている、動画像を表示するための画像データであって、表示する時刻を示す表示時刻情報（例えば、表示タイムスタンプ）が付加されている画像データと、動画像に同期する音声を出力するための音声データであって、出力する時刻を示す出力時刻情報（例えば、音声出力タイムスタンプ）が付加されている音声データとからなるストリームを処理する情報処理装置であって、入力された画像データおよび音声データをそれぞれ先入れ先出しするように、画像データおよび音声データの一時的な記憶を制御する記憶制御手段（例えば、図４の入力バッファ９２）と、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データを削除するとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除する削除手段（例えば、図４の削除部１２６）とを含むことを特徴とする。
【００２５】
情報処理装置は、一時的に記憶されている画像データおよび音声データであって、削除された画像データの後の画像データに付加されている表示時刻情報で示される時刻、および削除された音声データの後の音声データに付加されている出力時刻情報で示される時刻から、削除された音声データによって出力されるべき音声の時間をそれぞれ引き算した時刻を示すように表示時刻情報および出力時刻情報を付け替える付け替え手段（例えば、図４の音声出力タイムスタンプ付け替え部１２７および表示タイムスタンプ付け替え部１２８）をさらに設けることができる。
【００２６】
情報処理装置は、付け替え手段によって、時間を遡る時刻を示す表示時刻情報に付け替えられた画像データの処理を抑制するように、画像データを処理する処理手段（例えば、図３のフレームコンバータ８４）をさらに設けることができる。
【００２７】
情報処理装置は、一時的に記憶されている音声データに付加されている出力時刻情報で示される時刻のうち、最も早い時刻である第３の時刻より後の時刻であって、第３の時刻に最も近い時刻である第１の時刻を示す表示時刻情報が付加されている、符号化の単位であるフレームのうちの最初のフレームを表示するための画像データを削除の始点として検索するとともに、検索された画像データに付加されている表示時刻情報で示される第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データを削除の始点として検索する第１の検索手段（例えば、図４の始点決定部）と、検索された音声データに付加されている出力時刻情報により示される時刻から予め定めた時間を経過した時刻である第４の時刻より後の時刻であって、第４の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データを削除の終点として検索するとともに、削除の終点として検索された音声データに付加されている出力時刻情報で示される時刻と同じ時刻または前の時刻を示す表示時刻情報が付加されている、符号化の単位であるフレームのうちの最初のフレームを表示するための画像データを削除の終点として検索する第２の検索手段（例えば、図４の終点決定部１２５）とをさらに設け、削除手段は、検索された始点および終点を基に、画像データおよび音声データを削除するようにすることができる。
【００２８】
請求項７に記載の情報処理方法は、所定の数のフレームを単位（例えば、GOP）として符号化されている、動画像を表示するための画像データであって、表示する時刻を示す表示時刻情報（例えば、表示タイムスタンプ）が付加されている画像データと、動画像に同期する音声を出力するための音声データであって、出力する時刻を示す出力時刻情報（例えば、音声出力タイムスタンプ）が付加されている音声データとからなるストリームを処理する情報処理方法であって、入力された画像データおよび音声データをそれぞれ先入れ先出しするように、画像データおよび音声データの一時的な記憶を制御する記憶制御ステップ（例えば、図５のステップＳ１３の処理）と、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データを削除するとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除する削除ステップ（例えば、図１２のステップＳ１７１乃至ステップＳ１７６の処理）とを含むことを特徴とする。
【００２９】
請求項８に記載のプログラムは、所定の数のフレームを単位（例えば、GOP）として符号化されている、動画像を表示するための画像データであって、表示する時刻を示す表示時刻情報（例えば、表示タイムスタンプ）が付加されている画像データと、動画像に同期する音声を出力するための音声データであって、出力する時刻を示す出力時刻情報（例えば、音声出力タイムスタンプ）が付加されている音声データとからなるストリームを処理する情報処理を、コンピュータに行わせるプログラムであって、出力する時刻を示す出力時刻情報（例えば、音声出力タイムスタンプ）が付加されている音声データとからなるストリームを処理する情報処理方法であって、入力された画像データおよび音声データをそれぞれ先入れ先出しするように、画像データおよび音声データの一時的な記憶を制御する記憶制御ステップ（例えば、図５のステップＳ１３の処理）と、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データを削除するとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除する削除ステップ（例えば、図１２のステップＳ１７１乃至ステップＳ１７６の処理）とを含むことを特徴とする。
【００３０】
図１は、本発明に係るトランスコードシステムの一実施の形態を示すブロック図である。サーバ１は、例えば、パーソナルコンピュータからなり、生成したストリームまたは外部から供給されたストリームであって、画像データおよび音声データからなるストリームを、例えば、LAN（Local Area Network）またはインターネットなどのネットワーク２を介して、クライアント３に送信する。
【００３１】
クライアント３は、ネットワーク２を介して、サーバ１から送信されてきたストリームを受信して、ストリームを構成する画像データおよび音声データによって、動画像または静止画像である画像を表示すると共に、これに同期した音声を出力する。
【００３２】
図２は、サーバ１の構成を示すブロック図である。CPU（Central Processing Unit）１１は、ROM（Read Only Memory）１２、または記録部１８に記憶または記録されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）１３には、CPU１１が実行するプログラムやデータなどが適宜記憶される。これらのCPU１１、ROM１２、およびRAM１３は、バス１４により相互に接続されている。
【００３３】
CPU１１にはまた、バス１４を介して入出力インターフェース１５が接続されている。入出力インターフェース１５には、キーボード、マウス、マイクロホンなどよりなる入力部１６、ディスプレイ、スピーカなどよりなる出力部１７が接続されている。CPU１１は、入力部１６から入力される指令に対応して各種の処理を実行する。そして、CPU１１は、処理の結果得られた画像や音声等を出力部１７に出力する。
【００３４】
入出力インターフェース１５に接続されている記録部１８は、例えばハードディスクなどで構成され、CPU１１が実行するプログラムや各種のデータを記録する。通信部１９は、インターネットまたはLANなどのネットワーク２を介して外部の装置と通信する。
【００３５】
また、通信部１９を介してプログラムを取得し、記録部１８に記録してもよい。
【００３６】
受信部２０は、放送を受信して、放送されている番組の画像を表示するための画像データ、および番組の音声を出力するための音声データを生成し、入出力インターフェース１５およびバス１４を介して、生成した画像データおよび音声データをＣＰＵ１１に供給する。受信部２０には、エンコーダ３１およびチューナ３２が設けられている。エンコーダ３１は、チューナ３２から供給される、放送されている番組の画像を表示するための画像信号を符号化すると共に、番組の音声を出力するための音声信号を符号化することにより、画像データおよび音声データを生成する。
【００３７】
より詳細には、例えば、エンコーダ３１は、チューナ３２から供給される、放送されている番組の画像を表示するための画像信号および番組の音声を出力するための音声信号を、MPEG（Moving Pictures Experts Group）２方式で符号化し、MPEG２システムストリームとして画像データおよび音声データを出力する。
【００３８】
チューナ３２は、放送を受信して、放送されている番組の画像を表示するための画像信号および番組の音声を出力するための音声信号をエンコーダ３１に供給する。
【００３９】
入出力インターフェース１５に接続されているドライブ２１は、磁気ディスク４１、光ディスク４２、光磁気ディスク４３、或いは半導体メモリ４４などが装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記録部１８に転送され、記録される。
【００４０】
図３は、プログラムを実行するＣＰＵ１１によって実現されるトランスコーダ６１の構成を示すブロック図である。
【００４１】
なお、トランスコーダ６１の各機能をハードウェアで実現するようにしてもよい。すなわち、トランスコーダ６１の各機能をハードウェアで実現するか、ソフトウェアで実現するかは問わない。つまり、本明細書の各ブロック図は、ハードウェアのブロック図と考えても、ソフトウェアによる機能ブロック図と考えても良い。
【００４２】
トランスコーダ６１は、システムデコーダ８１、ビデオデコーダ８２、オーディオデコーダ８３、フレームコンバータ８４、ビデオエンコーダ８５、オーディオエンコーダ８６、マルチプレクサ８７、および出力バッファ８８を含むように構成される。
【００４３】
システムデコーダ８１は、MPEG２システムストリームに含まれるシステムデータをデコードし、デコードの結果に基づいて、MPEG２システムストリームをビデオエレメンタリストリームとオーディオエレメンタリストリームとに分離する。すなわち、システムデコーダ８１は、エンコーダ３１から供給されたMPEG２システムストリームから、画像データが格納されているビデオＰＥＳ（Packetized Elementary Stream）パケットと、音声データが格納されているオーディオＰＥＳパケットとを抽出する。
【００４４】
システムデコーダ８１は、分離したビデオエレメンタリストリームを構成するビデオＰＥＳパケットをビデオデコーダ８２に供給すると共に、分離したオーディオエレメンタリストリームを構成するオーディオＰＥＳパケットをオーディオデコーダ８３に供給する。
【００４５】
ビデオデコーダ８２は、システムデコーダ８１から供給されたビデオＰＥＳパケットを復号する。例えば、ビデオデコーダ８２は、MPEG２方式で符号化されているビデオＰＥＳパケットを復号する。ビデオデコーダ８２は、復号の結果得られた、圧縮符号化されていない、いわゆるベースバンド画像である画像データをフレームコンバータ８４に供給する。
【００４６】
オーディオデコーダ８３は、システムデコーダ８１から供給されたオーディオＰＥＳパケットを復号する。例えば、オーディオデコーダ８３は、MPEGオーディオレイヤ２方式で符号化されているビデオＰＥＳパケットを復号する。オーディオデコーダ８３は、復号の結果得られた、圧縮符号化されていない、PCM（Pulse Code Modulation）方式の音声データをオーディオエンコーダ８６に供給する。
【００４７】
フレームコンバータ８４は、ビデオデコーダ８２から供給された画像データのフレームレートを変換して、フレームレートが変換された画像データをビデオエンコーダ８５に供給する。例えば、フレームコンバータ８４は、ビデオデコーダ８２から供給された、毎秒２５フレームからなる動画像を表示するための画像データを、毎秒２９．９７フレームからなる動画像を表示するための画像データに変換する。
【００４８】
ビデオエンコーダ８５は、フレームコンバータ８４から供給された画像データを、圧縮符号化し、圧縮符号化された画像データをマルチプレクサ８７に供給する。例えば、ビデオエンコーダ８５は、フレームコンバータ８４から供給された画像データを、MPEG４visual方式、またはトランスコーダ６１に入力されたMPEG２システムストリームに含まれる画像データの圧縮率に比較してより高い圧縮率の（よりデータ量が少なくなる）MPEG２方式で圧縮符号化する。
【００４９】
オーディオエンコーダ８６は、オーディオデコーダ８３から供給された音声データを、圧縮符号化し、圧縮符号化された音声データをマルチプレクサ８７に供給する。例えば、オーディオエンコーダ８６は、オーディオデコーダ８３から供給された音声データを、MPEG４AAC（Advanced Audio Coding）方式、またはトランスコーダ６１に入力されたMPEG２システムストリームに含まれる音声データの圧縮率に比較してより高い圧縮率のMPEGオーディオレイヤ２方式で圧縮符号化する。
【００５０】
マルチプレクサ８７は、ビデオエンコーダ８５から供給された符号化されている画像データおよびオーディオエンコーダ８６から供給された符号化されている音声データを多重化する。マルチプレクサ８７は、多重化した画像データおよび音声データを出力バッファ８８に供給する。出力バッファ８８は、マルチプレクサ８７から供給された、多重化されている画像データおよび音声データを一時的に記憶して、記憶している多重化されている画像データおよび音声データをストリームとして出力する。例えば、出力バッファ８８は、画像データおよび音声データをMPEG４システムストリームとして出力する。
【００５１】
出力バッファ８８から出力されたストリームは、通信部１９から、ネットワーク２を介して、クライアント３に送信される。
【００５２】
システムデコーダ８１は、MPEGアナライザ９１および入力バッファ９２を含むように構成される。MPEGアナライザ９１は、MPEG２システムストリームに含まれるシステムデータをデコードする。MPEGアナライザ９１は、デコードの結果に基づいて、MPEG２システムストリームをビデオエレメンタリストリームとオーディオエレメンタリストリームとに分離する。MPEGアナライザ９１は、分離したビデオエレメンタリストリームを構成するビデオＰＥＳパケットと、分離したオーディオエレメンタリストリームを構成するオーディオＰＥＳパケットとを入力バッファ９２に供給する。
【００５３】
入力バッファ９２は、いわゆる、FIFO（First-In First-Out）方式のバッファである。入力バッファ９２は、MPEGアナライザ９１から供給された分離したビデオエレメンタリストリームを構成するビデオＰＥＳパケットと、分離したオーディオエレメンタリストリームを構成するオーディオＰＥＳパケットとをそれぞれ一時的に記憶する。
【００５４】
より詳細には、入力バッファ９２は、ビデオバッファ１０１およびオーディオバッファ１０２からなる。ビデオバッファ１０１は、MPEGアナライザ９１から供給された分離したビデオエレメンタリストリームを構成するビデオＰＥＳパケットを一時的に記憶する。すなわち、ビデオバッファ１０１は、ビデオＰＥＳパケットを先入れ先出しするように一時的に記憶する。ビデオバッファ１０１は、MPEGアナライザ９１から供給されたビデオＰＥＳパケットを供給された順に記憶し、供給された順序で、ビデオデコーダ８２に供給する。
【００５５】
オーディオバッファ１０２は、MPEGアナライザ９１から供給された分離したオーディオエレメンタリストリームを構成するオーディオＰＥＳパケットを一時的に記憶する。すなわち、オーディオバッファ１０２は、オーディオＰＥＳパケットを先入れ先出しするように一時的に記憶する。オーディオバッファ１０２は、MPEGアナライザ９１から供給されたオーディオＰＥＳパケットを供給された順に記憶し、供給された順序で、オーディオデコーダ８３に供給する。
【００５６】
このように、トランスコーダ６１は、エンコーダ３１から供給されたMPEG２システムストリームを、より圧縮率の高いストリームに変換して出力する。
【００５７】
図４は、システムデコーダ８１のより詳細な構成を示すブロック図である。システムデコーダ８１は、MPEGアナライザ９１および入力バッファ９２に加えて、表示タイムスタンプ付加部１２１、音声出力タイムスタンプ付加部１２２、タイムスタンプオフセット量記憶部１２３、始点決定部１２４、終点決定部１２５、削除部１２６、音声出力タイムスタンプ付け替え部１２７、および表示タイムスタンプ付け替え部１２８を含む。
【００５８】
表示タイムスタンプ付加部１２１は、ビデオＰＥＳパケットに格納されている画像データによる画像を表示する時刻を示す表示タイムスタンプを生成し、生成した表示タイムスタンプをビデオＰＥＳパケットに付加する。例えば、表示タイムスタンプ付加部１２１は、ビデオＰＥＳパケットからＰＴＳ（Presentation Time Stamp）を読み出して、ＰＴＳで示される時刻を、時間、分、秒で示す表示タイムスタンプを生成する。
【００５９】
表示タイムスタンプ付加部１２１によって表示タイムスタンプが付加されたビデオＰＥＳパケットがビデオバッファ１０１に記憶される。
【００６０】
音声出力タイムスタンプ付加部１２２は、オーディオＰＥＳパケットに格納されている音声データによる音声を出力する時刻を示す音声出力タイムスタンプを生成し、生成した音声出力タイムスタンプをオーディオＰＥＳパケットに付加する。例えば、音声出力タイムスタンプ付加部１２２は、オーディオＰＥＳパケットからＰＴＳを読み出して、ＰＴＳで示される時刻を、時間、分、秒で示す音声出力タイムスタンプを生成する。
【００６１】
音声出力タイムスタンプ付加部１２２によって音声出力タイムスタンプが付加されたオーディオＰＥＳパケットがオーディオバッファ１０２に記憶される。
【００６２】
タイムスタンプオフセット量記憶部１２３は、削除部１２６がビデオバッファ１０１に記憶されているビデオＰＥＳパケットおよびオーディオバッファ１０２に記憶されている、オーディオＰＥＳパケットに格納されている音声データを削除した場合、削除された音声データによって出力されるはずであった音声の時間、すなわち、削除された音声データによって出力されるべき音声の時間を記憶する。削除部１２６が、ビデオＰＥＳパケットおよび音声データを複数回削除した場合、タイムスタンプオフセット量記憶部１２３は、それぞれ削除された音声データによって出力されるはずであった音声の時間の総和を記憶する。
【００６３】
始点決定部１２４は、ビデオバッファ１０１に記憶されているビデオＰＥＳパケットのうち、削除されるビデオＰＥＳパケットの始点を決定する。詳細は後述するが、削除部１２６は、１つのGOP（Group of Pictures）を構成するフレームを表示するための画像データを格納しているビデオＰＥＳパケットまたは複数のGOPであって連続しているGOPを構成するフレームを表示するための画像データを格納しているビデオＰＥＳパケットを削除するので、その削除される一連のビデオＰＥＳパケットの始点（先頭）を決定する。
【００６４】
また、始点決定部１２４は、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットのうち、削除されるオーディオＰＥＳパケットの始点を決定する。削除部１２６は、削除される画像データによって表示されるはずであった画像が表示される時刻とほぼ同じ時刻において、音声を出力するための、オーディオＰＥＳパケットに格納されている音声データを削除するので、始点決定部１２４は、その削除される音声データを格納しているオーディオＰＥＳパケットの始点（先頭）を決定する。
【００６５】
終点決定部１２５は、ビデオバッファ１０１に記憶されているビデオＰＥＳパケットのうち、削除されるビデオＰＥＳパケットの終点を決定する。また、終点決定部１２５は、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットのうち、削除されるオーディオＰＥＳパケットの終点を決定する。
【００６６】
削除部１２６は、始点決定部１２４によって決定された始点から、終点決定部１２５によって決定された終点の１つ前までのビデオＰＥＳパケットを、ビデオバッファ１０１から削除する。また、削除部１２６は、始点決定部１２４によって決定された始点から、終点決定部１２５によって決定された終点までのオーディオＰＥＳパケットに格納されている音声データを、オーディオバッファ１０２から削除する。
【００６７】
音声出力タイムスタンプ付け替え部１２７は、削除部１２６によって音声データが削除された場合、削除された音声データによって出力されるはずであった音声が出力される時刻より後に音声を出力するための音声データを格納しているオーディオＰＥＳパケットに付加されている音声出力タイムスタンプを、その音声出力タイムスタンプで示される時刻から削除された音声データによって出力される音声の時間（長さ）を引き算した結果である時刻を示す音声出力タイムスタンプに付け替える。
【００６８】
表示タイムスタンプ付け替え部１２８は、削除部１２６によってビデオＰＥＳパケットが削除された場合、削除されたオーディオＰＥＳパケットによって表示されるはずであった画像が表示される時刻より後に画像を表示するためのビデオＰＥＳパケットに付加されている表示タイムスタンプを、その表示タイムスタンプで示される時刻から削除された音声データによって出力される音声の時間（長さ）を引き算した結果である時刻を示す表示タイムスタンプに付け替える。
【００６９】
さらに、始点決定部１２４は、音声パケット検索部１４１、画像パケット検索部１４２、および判定部１４３を含む。音声パケット検索部１４１は、ビデオバッファ１０１に格納されているビデオＰＥＳパケットに付加されている表示タイムスタンプおよびオーディオバッファ１０２に格納されているオーディオＰＥＳパケットに付加されている音声出力タイムスタンプを基に、削除される音声データを格納しているオーディオＰＥＳパケットであって、始点としてのオーディオＰＥＳパケットを検索する。画像パケット検索部１４２は、ビデオバッファ１０１に格納されているビデオＰＥＳパケットに付加されている表示タイムスタンプおよびオーディオバッファ１０２に格納されているオーディオＰＥＳパケットに付加されている音声出力タイムスタンプを基に、削除されるビデオＰＥＳパケットであって、始点としてのビデオＰＥＳパケットを検索する。
【００７０】
判定部１４３は、始点として検索されたオーディオＰＥＳパケットに付加されている音声出力タイムスタンプで示される時刻と、始点として検索されたビデオＰＥＳパケットに付加されている表示タイムスタンプで示される時刻とが予め定めた条件を満たしているか否かを判定する。
【００７１】
この条件を満たしていないと判定された場合、画像パケット検索部１４２は、再度、始点としてのビデオＰＥＳパケットを検索する。
【００７２】
また、終点決定部１２５は、音声パケット検索部１４４および画像パケット検索部１４５を含む。音声パケット検索部１４４は、オーディオバッファ１０２に格納されているオーディオＰＥＳパケットに付加されている音声出力タイムスタンプを基に、削除される音声データを格納しているオーディオＰＥＳパケットであって、終点としてのオーディオＰＥＳパケットを検索する。画像パケット検索部１４５は、ビデオバッファ１０１に格納されているビデオＰＥＳパケットに付加されている表示タイムスタンプおよびオーディオバッファ１０２に格納されているオーディオＰＥＳパケットに付加されている音声出力タイムスタンプを基に、削除されるビデオＰＥＳパケットであって、終点としてのビデオＰＥＳパケットを検索する。
【００７３】
さらに、削除部１２６は、音声データ削除部１４６および画像データ削除部１４７を含む。音声データ削除部１４６は、始点としてのオーディオＰＥＳパケット乃至終点としてのオーディオＰＥＳバケットに格納されている音声データを削除する。画像データ削除部１４７は、始点としてのビデオＰＥＳパケットから、終点としてのビデオＰＥＳパケットの１つ前のビデオＰＥＳパケットまでを削除する。
【００７４】
次に、フローチャートを参照して、サーバ１により実行される処理の詳細を説明する。
【００７５】
図５は、トランスコードの処理を説明するフローチャートである。ステップＳ１１において、システムデコーダ８１は、タイムスタンプオフセット量記憶部１２３に記憶されているタイムスタンプオフセット量に０を設定する。
【００７６】
ステップＳ１２において、システムデコーダ８１のMPEGアナライザ９１は、MPEG２システムストリームに含まれるシステムデータをデコードし、デコードの結果に基づいて、MPEG２システムストリームを、ビデオＰＥＳパケットとオーディオＰＥＳパケットとに分離する。MPEGアナライザ９１は、分離したビデオＰＥＳパケットとオーディオＰＥＳパケットとを入力バッファ９２に供給する。
【００７７】
ステップＳ１３において、入力バッファ９２のビデオバッファ１０１は、MPEGアナライザ９１から供給されたビデオＰＥＳパケットを先入れ先出しするように一時的に記憶し、入力バッファ９２のオーディオバッファ１０２は、MPEGアナライザ９１から供給されたオーディオＰＥＳパケットを先入れ先出しするように一時的に記憶する。ビデオバッファ１０１は、記憶しているビデオＰＥＳパケットをビデオデコーダ８２に順に供給する。オーディオバッファ１０２は、記憶しているオーディオＰＥＳパケットをオーディオデコーダ８３に順に供給する。
【００７８】
ステップＳ１４において、オーディオデコーダ８３は、オーディオバッファ１０２から供給されたオーディオＰＥＳパケットを復号して、復号して得られた圧縮符号化されていない音声データをオーディオエンコーダ８６に供給する。
【００７９】
ステップＳ１５において、ビデオデコーダ８２は、ビデオバッファ１０１から供給されたビデオＰＥＳパケットを復号して、復号して得られた圧縮符号化されていない画像データをフレームコンバータ８４に供給する。
【００８０】
ステップＳ１６において、オーディオエンコーダ８６は、オーディオデコーダ８３から供給された音声データを所定の符号化方式で符号化する。オーディオエンコーダ８６は、符号化された音声データをマルチプレクサ８７に供給する。
【００８１】
ステップＳ１７において、ビデオエンコーダ８５は、フレームコンバータ８４において、フレームレートが変換された画像データを符号化する。ビデオエンコーダ８５は、符号化された画像データをマルチプレクサ８７に供給する。
【００８２】
ステップＳ１８において、マルチプレクサ８７は、符号化された音声データおよび画像データを多重化する。マルチプレクサ８７は、多重化された音声データおよび画像データを出力バッファ８８に供給する。ステップＳ１９において、出力バッファ８８は、マルチプレクサ８７から供給された多重化されている音声データおよび画像データを一時的に記憶し、記憶している多重化されている音声データおよび画像データを順に出力して、ステップＳ１２に戻り、上述した処理を繰り返す。
【００８３】
図５のフローチャートを参照して説明した処理は、MPEG２システムストリームが終了した場合、または使用者の操作に応じた入力部１６からの終了を指示する信号がトランスコーダ６１に供給された場合、終了する。
【００８４】
次に、トランスコードの処理において分離されたビデオＰＥＳパケット毎に実行されるビデオＰＥＳパケットへの表示タイムスタンプの付加の処理を図６のフローチャートを参照して説明する。ステップＳ４１において、表示タイムスタンプ付加部１２１は、MPEGアナライザ９１によって分離されたビデオＰＥＳパケットに、ＰＴＳおよびＤＴＳ（Decoding Time Stamp）が含まれているか否かを判定する。例えば、表示タイムスタンプ付加部１２１は、ビデオＰＥＳパケットがプライベート１パケットであるかを基に、ＰＴＳおよびＤＴＳが含まれているか否かを判定する。
【００８５】
ステップＳ４１において、ビデオＰＥＳパケットに、ＰＴＳおよびＤＴＳが含まれていると判定された場合、ステップＳ４２に進み、表示タイムスタンプ付加部１２１は、ビデオＰＥＳパケットからＰＴＳおよびＤＴＳを読み出す。例えば、表示タイムスタンプ付加部１２１は、ビデオＰＥＳパケットのＰＥＳヘッダ長の次に、コンディショナルコーディングとして格納されているＰＴＳおよびＤＴＳを読み出す。
【００８６】
ステップＳ４３において、表示タイムスタンプ付加部１２１は、ビデオＰＥＳパケットに格納されている画像データによって画像が表示される時刻である表示時刻を示す表示タイムスタンプを、ＰＴＳおよびタイムスタンプオフセット量記憶部１２３に記憶されているタイムスタンプオフセット量から生成する。
【００８７】
例えば、タイムスタンプオフセット量が０である場合、表示タイムスタンプ付加部１２１は、ＰＴＳで示される時刻と同じ時刻を、時間、分、秒で示す表示タイムスタンプを生成する。例えば、タイムスタンプオフセット量が２秒である場合、表示タイムスタンプ付加部１２１は、ＰＴＳで示される時刻から２秒を引き算した時刻を示す、時間、分、秒で示す表示タイムスタンプを生成する。すなわち、タイムスタンプオフセット量が２秒である場合、表示タイムスタンプ付加部１２１は、ＰＴＳで示される時刻から２秒遡った時刻を示す、時間、分、秒で示す表示タイムスタンプを生成する。
【００８８】
換言すれば、タイムスタンプオフセット量がｎ秒である場合、表示タイムスタンプ付加部１２１は、ＰＴＳで示される時刻からｎ秒を引き算した時刻（ＰＴＳで示される時刻よりｎ秒前の時刻）を示す表示タイムスタンプを生成する。
【００８９】
ステップＳ４４において、表示タイムスタンプ付加部１２１は、表示タイムスタンプおよびＤＴＳをビデオＰＥＳパケットに付加し、ステップＳ４５に進む。
【００９０】
ステップＳ４１において、ビデオＰＥＳパケットに、ＰＴＳおよびＤＴＳが含まれていないと判定された場合、ステップＳ４２乃至ステップＳ４４の処理はスキップされ、手続きは、ステップＳ４５に進む。
【００９１】
ステップＳ４５において、表示タイムスタンプ付加部１２１は、分離されたビデオＰＥＳパケットに、GOPの最初のフレームの画像データが含まれているか否かを判定する。例えば、ステップＳ４５において、表示タイムスタンプ付加部１２１は、分離されたビデオＰＥＳパケットに格納されているパケットデータである画像データにおけるGOP層の、GOPの開始を示すGroup Start Codeを基に、ビデオＰＥＳパケットに、GOPの最初のフレームの画像データが含まれているか否かを判定する。
【００９２】
ステップＳ４５において、ビデオＰＥＳパケットに、GOPの最初のフレームの画像データが含まれていると判定された場合、ステップＳ４６において、表示タイムスタンプ付加部１２１は、GOP先頭フラグに”１”を設定し、ステップＳ４８に進む。一方、ステップＳ４５において、ビデオＰＥＳパケットに、GOPの最初のフレームの画像データが含まれていないと判定された場合、ステップＳ４７において、表示タイムスタンプ付加部１２１は、GOP先頭フラグに”０”を設定し、ステップＳ４８に進む。
【００９３】
なお、この例において、”１”であるGOP先頭フラグは、ビデオＰＥＳパケットに、GOPの最初のフレームの画像データが含まれていることを示し、”０”であるGOP先頭フラグは、ビデオＰＥＳパケットに、GOPの最初のフレームの画像データが含まれていないことを示す。
【００９４】
ステップＳ４８において、表示タイムスタンプ付加部１２１は、ビデオＰＥＳパケットに、GOP先頭フラグを付加し、処理は終了する。
【００９５】
このように、表示タイムスタンプ、ＤＴＳ、およびGOP先頭フラグが付加されたビデオＰＥＳパケットがビデオバッファ１０１に順に格納される。
【００９６】
次に、トランスコードの処理において分離されたオーディオＰＥＳパケット毎に実行されるオーディオＰＥＳパケットへの音声出力タイムスタンプの付加の処理を図７のフローチャートを参照して説明する。ステップＳ６１において、音声出力タイムスタンプ付加部１２２は、MPEGアナライザ９１によって分離されたオーディオＰＥＳパケットに、ＰＴＳおよびＤＴＳが含まれているか否かを判定する。例えば、音声出力タイムスタンプ付加部１２２は、オーディオＰＥＳパケットがプライベート１パケットであるかを基に、ＰＴＳおよびＤＴＳが含まれているか否かを判定する。
【００９７】
ステップＳ６１において、オーディオＰＥＳパケットに、ＰＴＳおよびＤＴＳが含まれていると判定された場合、ステップＳ６２に進み、音声出力タイムスタンプ付加部１２２は、オーディオＰＥＳパケットからＰＴＳおよびＤＴＳを読み出す。例えば、音声出力タイムスタンプ付加部１２２は、オーディオＰＥＳパケットのＰＥＳヘッダ長の次に、コンディショナルコーディングとして格納されているＰＴＳおよびＤＴＳを読み出す。
【００９８】
ステップＳ６３において、音声出力タイムスタンプ付加部１２２は、オーディオＰＥＳパケットに格納されている音声データによって音声が出力される時刻である出力時刻を示す音声出力タイムスタンプを、ＰＴＳおよびタイムスタンプオフセット量記憶部１２３に記憶されているタイムスタンプオフセット量から生成する。
【００９９】
例えば、タイムスタンプオフセット量が０である場合、音声出力タイムスタンプ付加部１２２は、ＰＴＳで示される時刻と同じ時刻を、時間、分、秒で示す音声出力タイムスタンプを生成する。例えば、タイムスタンプオフセット量が２秒である場合、音声出力タイムスタンプ付加部１２２は、ＰＴＳで示される時刻から２秒を引き算した時刻を示す、時間、分、秒で示す音声出力タイムスタンプを生成する。すなわち、タイムスタンプオフセット量が２秒である場合、音声出力タイムスタンプ付加部１２２は、ＰＴＳで示される時刻から２秒遡った時刻を示す、時間、分、秒で示す音声出力タイムスタンプを生成する。
【０１００】
換言すれば、タイムスタンプオフセット量がｍ秒である場合、音声出力タイムスタンプ付加部１２２は、ＰＴＳで示される時刻からｍ秒を引き算した時刻（ＰＴＳで示される時刻よりｍ秒前の時刻）を示す音声出力タイムスタンプを生成する。
【０１０１】
ステップＳ６４において、音声出力タイムスタンプ付加部１２２は、音声出力タイムスタンプおよびＤＴＳをオーディオＰＥＳパケットに付加し、処理は終了する。
【０１０２】
ステップＳ６１において、オーディオＰＥＳパケットに、ＰＴＳおよびＤＴＳが含まれていないと判定された場合、処理は終了する。
【０１０３】
このように、音声出力タイムスタンプおよびＤＴＳが付加されたオーディオＰＥＳパケットがオーディオバッファ１０２に順に格納される。
【０１０４】
次に、ビデオバッファ１０１に記憶されているビデオＰＥＳパケットおよびオーディオバッファ１０２に記憶されているオーディオＰＥＳパケットに格納されている音声データの削除の処理を説明する。図８は、削除の処理を説明するフローチャートである。
【０１０５】
ステップＳ８１において、システムデコーダ８１は、入力バッファ９２に記憶されているビデオＰＥＳパケットおよびオーディオＰＥＳパケットのデータ量が予め定めた閾値を超えたか否かを判定し、入力バッファ９２に記憶されているビデオＰＥＳパケットおよびオーディオＰＥＳパケットのデータ量が閾値を超えたと判定された場合、ステップＳ８２に進み、ビデオデコーダ８２およびオーディオデコーダ８３による、入力バッファ９２からのビデオＰＥＳパケットおよびオーディオＰＥＳパケットの読み出しを禁止する。
【０１０６】
なお、ステップＳ８１における、判定の処理は、入力バッファ９２に記憶されているビデオＰＥＳパケットおよびオーディオＰＥＳパケットのデータ量の総量が予め定めた閾値を超えたか否かを判定するようにしても、入力バッファ９２に記憶されているビデオＰＥＳパケットまたはオーディオＰＥＳパケットの何れか一方のデータ量が予め定めた閾値を超えたか否かを判定するようにしてもよい。
【０１０７】
ステップＳ８３において、始点決定部１２４は、削除の始点の候補を決定する処理を実行する。削除の始点の候補を決定する処理の詳細は図９のフローチャートを参照して後述する。
【０１０８】
ステップＳ８４において、始点決定部１２４は、ステップＳ８３の処理によって決定された、削除の始点の候補を基に、削除の始点の調整の処理を実行する。削除の始点の調整の処理の詳細は、図１０のフローチャートを参照して後述する。
【０１０９】
ステップＳ８５において、終点決定部１２５は、ステップＳ８４の処理によって調整され決定された削除の始点を基に、削除の終点の決定の処理を実行する。削除の終点の決定の処理の詳細は、図１１のフローチャートを参照して後述する。
【０１１０】
ステップＳ８６において、削除部１２６は、入力バッファ９２に記憶されている画像データおよび音声データから、決定された削除の始点および終点で定まる画像データおよび音声データを削除する、画像データおよび音声データの削除の処理を実行する。画像データおよび音声データの削除の処理の詳細は、図１２のフローチャートを参照して後述する。
【０１１１】
ステップＳ８７において、音声出力タイムスタンプ付け替え部１２７および表示タイムスタンプ付け替え部１２８は、表示タイムスタンプおよび音声出力タイムスタンプの付け替えの処理を実行する。表示タイムスタンプおよび音声出力タイムスタンプの付け替えの処理の詳細は、図１３のフローチャートを参照して後述する。
【０１１２】
ステップＳ８８において、削除部１２６は、ステップＳ８６の処理で削除した音声データに応じて、タイムスタンプオフセット量記憶部１２３に記憶されているタイムスタンプオフセット量を更新する。
【０１１３】
ステップＳ８９において、システムデコーダ８１は、ビデオデコーダ８２およびオーディオデコーダ８３による、入力バッファ９２からのビデオＰＥＳパケットおよびオーディオＰＥＳパケットの読み出しの禁止を解除し、ステップＳ８１に戻り、上述した処理を繰り返す。
【０１１４】
ステップＳ８１において、入力バッファ９２のビデオＰＥＳパケットおよびオーディオＰＥＳパケットのデータ量が閾値を超えていないと判定された場合、入力バッファ９２に記憶されている画像データおよび音声データを削除する必要はないので、ステップＳ８１ら戻り、判定の処理を繰り返す。
【０１１５】
次に、図９のフローチャートを参照して、ステップＳ８３に対応する、削除の始点の候補の決定の処理を説明する。ステップＳ１０１において、始点決定部１２４の音声パケット検索部１４１は、オーディオバッファ１０２の先頭から順に、音声出力タイムスタンプが付加されている最初のオーディオＰＥＳパケットを検索する。すなわち、オーディオバッファ１０２には、先入れ先出しでオーディオＰＥＳパケットが記憶されているので、始点決定部１２４の音声パケット検索部１４１は、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットに付加されている音声出力タイムスタンプのうち、最も早い時刻を示す音声出力タイムスタンプが付加されているオーディオＰＥＳパケットを検索する。換言すれば、音声パケット検索部１４１は、音声出力タイムスタンプが付加されているオーディオＰＥＳパケットを、オーディオバッファ１０２の先頭から順に検索する。
【０１１６】
ステップＳ１０１において、音声パケット検索部１４１は、オーディオバッファ１０２の最初の、音声出力タイムスタンプが付加されているオーディオＰＥＳパケットを検索するとも言える。
【０１１７】
ステップＳ１０２において、音声パケット検索部１４１は、ステップＳ１０１において検索されたオーディオＰＥＳパケットを始点の候補とする。
【０１１８】
ステップＳ１０３において、始点決定部１２４の画像パケット検索部１４２は、ビデオバッファ１０１の先頭から順に、”１”であるGOP先頭フラグが付加され、表示タイムスタンプが付加されている最初のビデオＰＥＳパケットを検索する。すなわち、ビデオバッファ１０１には、先入れ先出しでビデオＰＥＳパケットが記憶されているので、始点決定部１２４の画像パケット検索部１４２は、ビデオバッファ１０１に記憶されている、”１”であるGOP先頭フラグが付加されているビデオＰＥＳパケットに付加されている表示タイムスタンプのうち、最も早い時刻を示す表示タイムスタンプが付加されているビデオＰＥＳパケットを検索する。換言すれば、画像パケット検索部１４２は、GOPの最初のフレームの画像データを格納するビデオＰＥＳパケットであって、最も早い時刻を示す表示タイムスタンプが付加されているビデオＰＥＳパケットを、ビデオバッファ１０１の先頭から順に検索する。
【０１１９】
ステップＳ１０３において、画像パケット検索部１４２は、ビデオバッファ１０１の最初の、GOPの最初のフレームの画像データを格納するビデオＰＥＳパケットであって、表示タイムスタンプが付加されているビデオＰＥＳパケットを検索するとも言える
【０１２０】
ステップＳ１０４において、画像パケット検索部１４２は、ステップＳ１０３において検索されたビデオＰＥＳパケットを始点の候補とし、処理は終了する。
【０１２１】
このように、ビデオバッファ１０１に記憶されているビデオＰＥＳパケットについて、削除の始点の候補が決定され、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットについて、削除の始点の候補が決定される。
【０１２２】
次に、図１０のフローチャートを参照して、ステップＳ８４の処理に対応する削除の始点の調整の処理の詳細を説明する。ステップＳ１３１において、始点決定部１２４の判定部１４３は、始点の候補であるビデオＰＥＳパケットに付加された表示タイムスタンプで示される時刻が、始点の候補であるオーディオＰＥＳパケットに付加された音声出力タイムスタンプで示される時刻より前であるか否かを判定する。
【０１２３】
ステップＳ１３１において、始点の候補の表示タイムスタンプで示される時刻が、始点の候補の音声出力タイムスタンプで示される時刻より前であると判定された場合、ステップＳ１３２において、画像パケット検索部１４２は、ビデオバッファ１０１から、”１”であるＧＯＰ先頭フラグが付加され、かつ、始点の候補の音声タイムスタンプで示される時刻より後の時刻を示す表示スタンプのうち、最も早い時刻を示す表示スタンプが付加されているビデオＰＥＳパケットを検索する。すなわち、画像パケット検索部１４２は、”１”であるＧＯＰ先頭フラグが付加されているビデオＰＥＳパケットに付加されている表示スタンプであって、始点の候補の音声タイムスタンプで示される時刻より後の時刻を示す表示スタンプのうち、最も早い時刻を示す表示スタンプが付加されているビデオＰＥＳパケットを検索する。
【０１２４】
換言すれば、画像パケット検索部１４２は、ビデオＰＥＳパケットについての始点を、始点の候補の音声出力タイムスタンプで示される時刻より後の時刻であって、始点の候補の音声出力タイムスタンプで示される時刻に最も近い時刻に表示される、GOPの最初のフレームを表示させるための画像データを格納する、表示スタンプが付加されているビデオＰＥＳパケットまでずらす。
【０１２５】
すなわち、画像パケット検索部１４２は、一時的に記憶されている音声データに付加されている音声出力タイムスタンプで示される時刻のうち、最も早い時刻より後の時刻であって、この最も早い時刻に最も近い時刻を示す表示タイムスタンプが付加されている、例えば、GOPである、符号化の単位であるフレームのうちの最初のフレームを表示するための画像データを削除の始点として検索する。
【０１２６】
ステップＳ１３３において、画像パケット検索部１４２は、ステップＳ１３２の処理で検索されたビデオＰＥＳパケットを始点の候補とし、ステップＳ１３４に進む。
【０１２７】
ステップＳ１３１において、始点の候補の表示タイムスタンプで示される時刻が、始点の候補の音声出力タイムスタンプで示される時刻より前でないと判定された場合、ステップＳ１３２およびステップＳ１３３の処理はスキップされ、手続きは、ステップＳ１３４に進む。
【０１２８】
ステップＳ１３４において、音声パケット検索部１４１は、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットから、始点の候補であるビデオＰＥＳパケットに付加されている表示タイムスタンプで示される時刻より後ではない時刻（表示タイムスタンプで示される時刻と同じ時刻または前の時刻）を示す音声出力タイムスタンプのうち、最も遅い時刻を示す音声出力タイムスタンプが付加されているオーディオＰＥＳパケットを検索する。換言すれば、音声パケット検索部１４１は、オーディオＰＥＳパケットについての始点を、始点の候補の表示タイムスタンプで示される時刻を超えない時刻であって、始点の候補の表示タイムスタンプで示される時刻に最も近い時刻に出力される音声を出力させるための音声データを格納する、音声出力タイムスタンプが付加されているオーディオＰＥＳパケットまでずらす。
【０１２９】
すなわち、音声パケット検索部１４１は、ステップＳ１３２の処理によって検索された画像データに付加されている表示タイムスタンプで示される時刻と同じ時刻または前の時刻であって、その表示タイムスタンプで示される時刻に最も近い時刻を示す音声出力タイムスタンプが付加されている音声データを削除の始点として検索する。
【０１３０】
ステップＳ１３５において、画像パケット検索部１４２は、始点の候補であるビデオＰＥＳパケットを始点とする。
【０１３１】
ステップＳ１３６において、音声パケット検索部１４１は、ステップＳ１３４の処理で検索されたオーディオＰＥＳパケットを始点とし、処理は終了する。
【０１３２】
このように、ビデオＰＥＳパケットについての始点は、オーディオＰＥＳパケットについての始点より後のＧＯＰの先頭とされる。その後、オーディオＰＥＳパケットについての始点は、ビデオＰＥＳパケットについての始点と同じか、またはより前であって、ビデオＰＥＳパケットについての始点に最も近くなるように調整されて、オーディオＰＥＳパケットについての始点とビデオＰＥＳパケットについての始点とが決定される。
【０１３３】
次に、図１１のフローチャートを参照して、ステップＳ８５の処理に対応する削除の終点の決定の処理について説明する。ステップＳ１５１において、終点決定部１２５の音声パケット検索部１４４は、音声出力タイムスタンプで示される時刻までの始点からの音声の出力の時間が、予め定めた閾値を超える音声出力タイムスタンプのうち、時間が最も短い音声出力タイムスタンプが付加されているオーディオＰＥＳパケットを検索する。
【０１３４】
すなわち、音声パケット検索部１４４は、始点である音声データに付加されている音声出力タイムスタンプにより示される時刻から予め定めた時間を経過した時刻より後の時刻であって、その音声出力タイムスタンプにより示される時刻から予め定めた時間を経過した時刻に最も近い時刻を示す音声出力タイムスタンプが付加されている音声データを削除の終点として検索する。
【０１３５】
なお、ステップＳ１５１の処理で用いる閾値は、オーディオバッファ１０２およびビデオバッファ１０１の記憶容量を考慮した任意の値とすることができる。閾値により、削除の終点が決まるので、削除の終点がオーディオバッファ１０２に記憶されているオーディオＰＥＳパケットおよびビデオバッファ１０１に記憶されているビデオＰＥＳパケットとなるように、閾値の値を定める必要がある。
【０１３６】
ステップＳ１５２において、音声パケット検索部１４４は、検索されたオーディオＰＥＳパケットを終点に決定する。
【０１３７】
すなわち、終点決定部１２５の音声パケット検索部１４４は、始点から終点までの音声データによって出力される音声の長さ（時間）が、予め決めた時間（閾値）の長さを超えて、なおかつ最も短くなるようにオーディオＰＥＳパケットについての終点を決める。
【０１３８】
ステップＳ１５３において、終点決定部１２５の画像パケット検索部１４５は、”１”であるGOP先頭フラグが付加され、かつ、終点のオーディオＰＥＳパケットに付加されている音声出力タイムスタンプで示される時刻より後ではない時刻（音声出力タイムスタンプで示される時刻と同じ時刻かまたは前の時刻）であって、最も遅い時刻（最も近い時刻）を示す表示タイムスタンプが付加されているビデオＰＥＳパケットを検索する。すなわち、画像パケット検索部１４５は、GOPの最初のフレームの画像データを格納するビデオＰＥＳパケットのうち、終点のオーディオＰＥＳパケットに付加されている音声出力タイムスタンプで示される時刻と同じ時刻かまたは前の時刻であって、音声出力タイムスタンプで示される時刻に最も近い時刻を示す表示タイムスタンプが付加されているビデオＰＥＳパケットを検索する。
【０１３９】
ステップＳ１５４において、画像パケット検索部１４５は、ステップＳ１５３の処理で検索されたビデオＰＥＳパケットに格納されている画像データにより表示されるフレームで構成されるGOPの１つの前のGOPを構成するフレームを表示するための画像データを格納するビデオＰＥＳパケットから、”１”であるGOP先頭フラグが付加されているビデオＰＥＳパケットを検索する。すなわち、画像パケット検索部１４５は、ステップＳ１５３の処理で検索されたビデオＰＥＳパケットのGOPの１つ前の（直前の）GOPの最初のフレームの画像データを格納するビデオＰＥＳパケットを検索する。
【０１４０】
すなわち、画像パケット検索部１４５は、削除の終点として検索された音声データに付加されている音声出力タイムスタンプで示される時刻と同じ時刻または前の時刻を示す表示タイムスタンプが付加されている、例えば、GOPなどの、符号化の単位であるフレームのうちの最初のフレームを表示するための画像データを削除の終点として検索する。
【０１４１】
ステップＳ１５５において、画像パケット検索部１４５は、ステップＳ１５４の処理で検索されたビデオＰＥＳパケットを終点に決定し、処理は終了する。
【０１４２】
なお、ステップＳ１５３の処理で検索した、GOPの最初のフレームの画像データを格納するビデオＰＥＳパケットについて、ステップＳ１５４の処理において、さらに、１つ前のGOPの最初のフレームの画像データを格納するビデオＰＥＳパケットを検索するようにしたのは、GOPが、復号において、１つ前のGOPの画像データを必要とする、いわゆるオープンGOPである場合、後段の復号の処理において、正常に画像データを復号できるようにするためである。後述するフレームレート変換の処理において、１つ前のGOPのフレームは出力されないので、正常な画像のみが出力されることになる。
【０１４３】
GOPが、復号において、他のGOPの画像データを必要としない、いわゆるクローズドGOPである場合、ステップＳ１５４の処理を省略し、ステップＳ１５５の処理で検索されたビデオＰＥＳパケットを終点とすることができる。
【０１４４】
なお、ステップＳ１５４の処理において、ステップＳ１５３の処理で検索されたビデオＰＥＳパケットのGOPのｊ個前（ｊは、任意の整数）のGOPの最初のフレームの画像データを格納するビデオＰＥＳパケットを検索するようにしてもよい。
【０１４５】
このように、始点から終点までの音声データによって出力される音声の長さが、予め定めた時間を超えて、なおかつ、予め定めた時間に最も近い長さとなるように、音声パケット検索部１４４は、オーディオＰＥＳパケットについて終点を決める。画像パケット検索部１４５は、ビデオＰＥＳパケットについての終点を、オーディオＰＥＳパケットについての終点と同じか、またはより前になるように決める。
【０１４６】
次に、図１２のフローチャートを参照して、ステップＳ８６の処理に対応する画像データおよび音声データの削除の処理を説明する。ステップＳ１７１において、削除部１２６の画像データ削除部１４７は、ビデオバッファ１０１に記憶されているビデオＰＥＳパケットのうち、ビデオＰＥＳパケットについての始点から、終点の１つ前までのビデオＰＥＳパケットを削除する。
【０１４７】
すなわち、画像データ削除部１４７は、一時的に記憶されている画像データのうち、例えば、GOPである、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データを削除する。
【０１４８】
ステップＳ１７２において、削除部１２６の音声データ削除部１４６は、オーディオバッファ１０２から、始点であるオーディオＰＥＳパケットに付加されている音声出力タイムスタンプ、および終点であるオーディオＰＥＳパケットに付加されている音声出力タイムスタンプを読み出す。ステップＳ１７３において、音声データ削除部１４６は、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットのうち、始点であるオーディオＰＥＳパケットと終点であるオーディオＰＥＳパケットとの間のオーディオＰＥＳパケットを削除する。
【０１４９】
ステップＳ１７４において、音声データ削除部１４６は、始点であるオーディオＰＥＳパケットにAAU（Audio Access Unit）の全体が格納されているAAUのうち、最初のAAUの先頭からオーディオＰＥＳパケットの最後までの音声データを始点であるオーディオＰＥＳパケットから削除する。
【０１５０】
ステップＳ１７５において、音声データ削除部１４６は、終点であるオーディオＰＥＳパケットの先頭から、終点であるオーディオＰＥＳパケットにAAUの全体が格納されているAAUのうち、最初のAAUの先頭の前までの音声データを削除する。
【０１５１】
すなわち、音声データ削除部１４６は、一時的に記憶されている音声データのうち、削除される画像データに付加された表示タイムスタンプで示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す音声出力タイムスタンプが付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示タイムスタンプで示される時刻である第２の時刻と同じ時刻または後の時刻を示す音声出力タイムスタンプが付加されている音声データの前の音声データまでを削除する。
【０１５２】
ステップＳ１７６において、音声データ削除部１４６は、始点であるオーディオＰＥＳパケットの残りの音声データと、終点であるオーディオＰＥＳパケットの残りの音声データとから１つのオーディオＰＥＳパケットを生成して、処理は終了する。
【０１５３】
このように、表示タイムスタンプおよび音声出力タイムスタンプを基に、画像データと、この画像データにより表示される画像と同期する音声を出力するための音声データとが削除される。この場合、削除される音声データに対して、画像データが少なめに削除される。
【０１５４】
すなわち、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データが削除されるとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでが削除される。
【０１５５】
次に、ステップＳ８７の処理に対応する表示タイムスタンプおよび音声出力タイムスタンプの付け替えの処理の詳細を図１３のフローチャートを参照して説明する。ステップＳ２０１において、音声出力タイムスタンプ付け替え部１２７は、始点であるオーディオＰＥＳパケットに付加されている音声出力タイムスタンプで示される時刻から、終点であるオーディオＰＥＳパケットに付加されている音声出力タイムスタンプで示される時刻までの時間を計算する。
【０１５６】
なお、図８のステップＳ８８において、タイムスタンプオフセット量に、ステップＳ２０１の処理で計算された時間を加算することによって、タイムスタンプオフセット量記憶部１２３に記憶されているタイムスタンプオフセット量が更新される。すなわち、タイムスタンプオフセット量は、画像データおよび音声データが１回または複数回削除された場合の、削除された音声データにより出力されるはずであった音声の時間（長さ）の総和を示す。
【０１５７】
ステップＳ２０２において、表示タイムスタンプ付け替え部１２８は、ビデオバッファ１０１に残っている、削除されたビデオＰＥＳパケットから後のビデオＰＥＳパケットに付加されている表示タイムスタンプで示される時刻から、ステップＳ２０１の処理で計算した時間を引き算する。すなわち、ステップＳ２０２において、表示タイムスタンプ付け替え部１２８は、ビデオバッファ１０１に残っている、削除されたビデオＰＥＳパケットから後のビデオＰＥＳパケットに付加されている表示タイムスタンプのそれぞれで示される時刻のそれぞれから、ステップＳ２０１の処理で計算した時間を引き算する。
【０１５８】
ステップＳ２０３において、表示タイムスタンプ付け替え部１２８は、引き算の結果から、表示タイムスタンプを生成する。すなわち、ステップＳ２０３において、表示タイムスタンプ付け替え部１２８は、表示タイムスタンプのそれぞれで示される時刻のそれぞれから、ステップＳ２０１の処理で計算した時間を引き算し、引き算の結果のそれぞれを示す表示タイムスタンプを生成する。例えば、削除されたビデオＰＥＳパケットから後のビデオＰＥＳパケットに付加されている表示タイムスタンプが３つあり、それぞれ、ａ、ｂ、ｃである時刻を示す場合、ステップＳ２０１の処理で計算された時間がαであるとき、ステップＳ２０３において、表示タイムスタンプ付け替え部１２８は、ａ−α、ｂ−α、ｃ−αのそれぞれを示す３つの表示タイムスタンプを生成する。
【０１５９】
ステップＳ２０４において、表示タイムスタンプ付け替え部１２８は、削除されたビデオＰＥＳパケットから後のビデオＰＥＳパケットに付加されている表示タイムスタンプに代えて、ステップＳ２０３の処理で生成した表示タイムスタンプを付加する。
【０１６０】
ステップＳ２０５において、音声出力タイムスタンプ付け替え部１２７は、オーディオバッファ１０２に残っている、音声データを削除したオーディオＰＥＳパケットの後のオーディオＰＥＳパケットに付加されている音声出力タイムスタンプで示される時刻から、ステップＳ２０１の処理で計算した時間を引き算する。すなわち、ステップＳ２０５において、音声出力タイムスタンプ付け替え部１２７はは、オーディオバッファ１０２に残っている、音声データが削除されたオーディオＰＥＳパケットから後のオーディオＰＥＳパケットに付加されている音声出力タイムスタンプのそれぞれで示される時刻のそれぞれから、ステップＳ２０１の処理で計算した時間を引き算する。
【０１６１】
ステップＳ２０６において、音声出力タイムスタンプ付け替え部１２７は、引き算の結果から、音声出力タイムスタンプを生成する。すなわち、ステップＳ２０６において、音声出力タイムスタンプ付け替え部１２７は、音声出力タイムスタンプのそれぞれで示される時刻のそれぞれから、ステップＳ２０１の処理で計算した時間を引き算し、引き算の結果のそれぞれを示す音声出力タイムスタンプを生成する。例えば、音声データが削除されたオーディオＰＥＳパケットから後のオーディオＰＥＳパケットに付加されている表示タイムスタンプが３つあり、それぞれ、ｘ、ｙ、ｚである時刻を示す場合、ステップＳ２０１の処理で計算された時間がαであるとき、ステップＳ２０６において、音声出力タイムスタンプ付け替え部１２７は、ｘ−α、ｙ−α、ｚ−αのそれぞれを示す３つの音声出力タイムスタンプを生成する。
【０１６２】
ステップＳ２０７において、音声出力タイムスタンプ付け替え部１２７は、音声データを削除したオーディオＰＥＳパケットの後のオーディオＰＥＳパケットに付加されている音声出力タイムスタンプに代えて、ステップＳ２０６の処理で生成した音声出力タイムスタンプを付加して、処理は終了する。
【０１６３】
以上のように、一時的に記憶されている画像データおよび音声データであって、削除された画像データの後の画像データに付加されている表示タイムスタンプで示される時刻、および削除された音声データの後の音声データに付加されている音声出力タイムスタンプで示される時刻から、削除された音声データによって出力されるべき音声の時間をそれぞれ引き算した時刻を示すように表示タイムスタンプおよび音声出力タイムスタンプが付け替えられる。
【０１６４】
このように、削除された音声データの後のオーディオＰＥＳパケットには、元の音声出力タイムスタンプの時刻から、削除した音声データによって出力される音声の長さ（時間）を引き算した値を示す音声出力タイムスタンプが付け替えられるので、付け替えられた後の音声出力タイムスタンプで示される時刻は、遡ったり、必要以上に空いてしまうことなく、連続的な出力の時刻を示すことになる。これにより、音声データを削除した後でも、音声が途切れてしまうことがない。
【０１６５】
また、削除されたビデオＰＥＳパケットの後のビデオＰＥＳパケットには、元の音声出力タイムスタンプの時刻から、削除した音声データによって出力される音声の長さ（時間）を引き算した値を示す音声出力タイムスタンプが付け替えられる。従って、削除された音声データによる音声と同期する画像を表示するためのビデオＰＥＳパケットには、遡った時刻を示す表示タイムスタンプが付加され、削除されていない音声データによる音声と同期する画像を表示するためのビデオＰＥＳパケットには、音声データに付加された音声出力タイムスタンプで示される時刻と同期した時刻を示す表示タイムスタンプが付加される。
【０１６６】
詳細は後述するが、遡った時刻を示す表示タイムスタンプが付加されたビデオＰＥＳパケットは、後段のフレームコンバータ８４におけるフレームレート変換の処理において、無視される。すなわち、遡った時刻を示す表示タイムスタンプが付加されたビデオＰＥＳパケットは、後段のフレームコンバータ８４において削除される。
【０１６７】
従って、フレームレート変換の処理において、音声データにより出力される音声と、画像データにより表示される画像との同期が維持されることになる。
【０１６８】
フローチャートを参照して説明した処理の例を図１４乃至図１６を参照して説明する。
【０１６９】
図１４は、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットの例を示す図である。図１４において、それぞれの四角は、オーディオＰＥＳパケットを示す。図１４中のオーディオＰＥＳパケットＫ乃至オーディオＰＥＳパケット（Ｋ＋８）は、一連のオーディオＰＥＳパケットである。図１４において、オーディオＰＥＳパケットＫは、始点とされ、オーディオＰＥＳパケット（Ｋ＋８）は、終点とされている。
【０１７０】
ステップＳ１７３において、削除部１２６の音声データ削除部１４６は、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットのうち、始点であるオーディオＰＥＳパケットＫと終点であるオーディオＰＥＳパケット（Ｋ＋８）との間のオーディオＰＥＳパケット、すなわち、オーディオＰＥＳパケット（Ｋ＋１）乃至オーディオＰＥＳパケット（Ｋ＋７）を削除する。
【０１７１】
ステップＳ１７４において、音声データ削除部１４６は、始点であるオーディオＰＥＳパケットＫにAAUの全体が格納されているAAUのうち、図中のＡで示される最初のAAUの先頭からオーディオＰＥＳパケットＫの最後までの音声データを始点であるオーディオＰＥＳパケットから削除する。すなわち、図１４中のオーディオＰＥＳパケットＫから、網掛けされて表示されている、図中のＡで示される最初のAAUの先頭からオーディオＰＥＳパケットＫの最後までの音声データが削除される。
【０１７２】
ステップＳ１７５において、音声データ削除部１４６は、終点であるオーディオＰＥＳパケット（Ｋ＋８）の先頭から、終点であるオーディオＰＥＳパケット（Ｋ＋８）にAAUの全体が格納されているAAUのうち、図中のＢで示される最初のAAUの先頭の前までの音声データを削除する。すなわち、図１４中のオーディオＰＥＳパケット（Ｋ＋８）から、網掛けされて表示されている、終点であるオーディオＰＥＳパケット（Ｋ＋８）の先頭から、終点であるオーディオＰＥＳパケット（Ｋ＋８）にAAUの全体が格納されているAAUのうち、最初のAAUの先頭の前までの音声データが削除される。
【０１７３】
図１５および図１６は、画像データの削除および音声データの削除を説明する図である。図１５および図１６において、実線で囲まれたそれぞれの四角は、オーディオＰＥＳパケットを示し、点線で囲まれたそれぞれの四角は、ビデオＰＥＳパケットを示す。図１５および図１６において、音声出力タイムスタンプおよび表示タイムスタンプで示される時刻は、１ｍｓを単位として示す。例えば、図１５および図１６中の、２４８５である時刻は、２４８５ｍｓを示す。
【０１７４】
始点であるオーディオＰＥＳパケットに時刻４４５ｍｓを示す音声出力タイムスタンプが付加されている場合、ステップＳ１５１における閾値が２０００ｍｓとされているとき、ステップＳ１５１において、終点決定部１２５の音声パケット検索部１４４は、音声出力タイムスタンプで示される時刻までの始点からの音声の出力の時間が、予め定めた閾値である２０００ｍｓを超える音声出力タイムスタンプを検索する。すなわち、音声パケット検索部１４４は、４４５＋２０００＝２４４５を超える時刻を示す音声出力タイムスタンプを検索する。さらに、音声パケット検索部１４４は、２４４５を超える時刻を示す音声出力タイムスタンプの中から、始点である時刻４４５からの時間が最も短い、時刻２４８５を示す音声出力タイムスタンプが付加されているオーディオＰＥＳパケットを検索する。
【０１７５】
なお、ステップＳ１３４の処理において、オーディオバッファ１０２に記憶されているオーディオＰＥＳパケットから、始点の候補であるビデオＰＥＳパケットに付加されている表示タイムスタンプで示される時刻と同じ時刻または前の時刻を示す音声出力タイムスタンプのうち、最も遅い時刻を示す音声出力タイムスタンプが付加されているオーディオＰＥＳパケットが検索されるので、ビデオＰＥＳパケットの始点は、オーディオＰＥＳパケットの始点と同じか後とされる。例えば、図１４において、GOPの最初のフレームを表示させるための画像データを格納する、始点としてのビデオＰＥＳパケットに付加された表示タイムスタンプは、時刻４４５ｍｓより後の時刻４７６ｍｓを示す。
【０１７６】
ステップＳ１５３において、画像パケット検索部１４５は、GOPの最初のフレームの画像データを格納するビデオＰＥＳパケットのうち、終点のオーディオＰＥＳパケットに付加されている音声出力タイムスタンプで示される時刻２４８５と同じ時刻かまたは前の時刻であって、音声出力タイムスタンプで示される時刻に最も近い時刻を示す表示タイムスタンプが付加されているビデオＰＥＳパケットを検索する。
【０１７７】
さらに、ステップＳ１５４において、ステップＳ１５３の処理で検索されたビデオＰＥＳパケットのGOPの１つ前の（直前の）GOPの最初のフレームの画像データを格納するビデオＰＥＳパケットが検索される。例えば、１つのGOPの画像は、５００ｍｓの時間において表示されるので、ステップＳ１５４において、終点のオーディオＰＥＳパケットに付加されている音声出力タイムスタンプで示される時刻２４８５ｍｓより５００ｍｓ以上前である、時刻１９８５ｍｓより前の、例えば、時刻１９７８ｍｓを示す表示タイムスタンプが付加されている、GOPの最初のフレームの画像データを格納するビデオＰＥＳパケットが検索される。
【０１７８】
図１４を参照して説明したように、始点であるオーディオＰＥＳパケットから終点であるオーディオＰＥＳパケットまでの、所定の音声データ（図１５中の白抜きで示される音声データ）が削除される。
【０１７９】
また、ステップＳ１７１において、ビデオバッファ１０１に記憶されているビデオＰＥＳパケットのうち、図１５中の白抜きで示される、ビデオＰＥＳパケットについての始点から、終点の１つ前のビデオＰＥＳパケットまでが削除される。
【０１８０】
図１５において、削除される音声データおよびビデオＰＥＳパケットの前の音声データおよびビデオＰＥＳパケットには、右上がりの斜線を付し、削除される音声データおよびビデオＰＥＳパケットの後の音声データおよびビデオＰＥＳパケットには、右下がりの斜線を付してある。
【０１８１】
図１６で示されるように、ステップＳ１７６において、始点であるオーディオＰＥＳパケットの残りの音声データと、終点であるオーディオＰＥＳパケットの残りの音声データとから１つのオーディオＰＥＳパケットが生成される。
【０１８２】
音声データを削除したオーディオＰＥＳパケットの後のオーディオＰＥＳパケットには、始点の時刻から終点の時刻までの時間を、元の時刻から引き算した時刻を示す音声出力タイムスタンプが付加される。すなわち、オーディオＰＥＳパケットについての始点から終点までの時間は２０４０ｍｓであり、終点のオーディオＰＥＳパケットには、時刻２４８５ｍｓを示す音声出力タイムスタンプが付加されていたので、２４８５ｍｓから２０４０ｍｓを引き算した結果である４４５ｍｓを示す音声出力タイムスタンプが終点であるオーディオＰＥＳパケットに付加される。
【０１８３】
削除したビデオＰＥＳパケットの後のビデオＰＥＳパケットには、オーディオＰＥＳパケットについての始点の時刻から終点の時刻までの時間を、元の時刻から引き算した時刻を示す表示タイムスタンプが付加される。すなわち、オーディオＰＥＳパケットについての始点から終点までの時間は２０４０ｍｓであり、終点のビデオＰＥＳパケットには、時刻１９７８ｍｓを示す表示タイムスタンプが付加されていたので、１９７８ｍｓから２０４０ｍｓを引き算した結果である−６２ｍｓを示す表示タイムスタンプが終点であるビデオＰＥＳパケットに付加される。
【０１８４】
次に、フレームが到着した場合、処理が開始される、フレームコンバータ８４によるフレームレート変換の処理について図１７のフローチャートを参照して説明する。ステップＳ２３１において、フレームコンバータ８４は、出力時刻ｔｏを変換前のフレームの表示タイムスタンプに設定する。
【０１８５】
ステップＳ２３２において、フレームコンバータ８４は、変換前のフレームの表示終了時刻ｔを変換前のフレームの表示タイムスタンプに、復号されたフレームの間隔を加算することにより計算される値に設定する。
【０１８６】
ステップＳ２３３において、フレームコンバータ８４は、出力時刻ｔｏが表示終了時刻ｔより小さいか否かを判定し、出力時刻ｔｏが表示終了時刻ｔより小さいと判定された場合、ステップＳ２３４に進み、記憶されているフレームを出力する。
【０１８７】
ステップＳ２３５において、フレームコンバータ８４は、出力時刻ｔｏに、出力される画像のフレームの間隔を加算して、ステップＳ２３３に戻り、上述した処理を繰り返す。ここで、出力される画像のフレームの間隔は、出力される画像のフレームレートの逆数である。
【０１８８】
ステップＳ２３３において、出力時刻ｔｏが表示終了時刻ｔより小さくないと判定された場合、ステップＳ２３６に進み、フレームコンバータ８４は、表示タイムスタンプと共に、復号されたフレームを取得する。
【０１８９】
ステップＳ２３７において、フレームコンバータ８４は、フレームを記憶する。
【０１９０】
ステップＳ２３８において、フレームコンバータ８４は、表示終了時刻ｔに元の動画のフレーム間隔を加算して、ステップＳ２３３に戻り、上述した処理を繰り返す。
【０１９１】
図１８は、フレームコンバータ８４によるフレームレート変換の処理を説明する図である。図１８において、フレーム１は、時刻０ｍｓから時刻４０ｍｓまで出力され、フレーム２は、時刻４０ｍｓから時刻８０ｍｓまで出力され、フレーム３は、時刻８０ｍｓから時刻１２０ｍｓまで出力され、フレーム４は、時刻１２０ｍｓから時刻１６０ｍｓまで出力され、フレーム５は、時刻１６０ｍｓから時刻２００ｍｓまで出力され、フレーム６は、時刻２００ｍｓから時刻２４０ｍｓまで出力される。
【０１９２】
フレーム１乃至フレーム６の表示開始時刻は、表示タイムスタンプで示され、それぞれ、時刻０ｍｓ、時刻４０ｍｓ、時刻８０ｍｓ、時刻１２０ｍｓ、時刻１６０ｍｓ、時刻２００ｍｓである。
【０１９３】
また、フレーム１の終了時刻は、時刻４０ｍｓであり、フレーム２の終了時刻は、時刻８０ｍｓであり、フレーム３の終了時刻は、時刻１２０ｍｓであり、フレーム４の終了時刻は、時刻１６０ｍｓであり、フレーム５の終了時刻は、時刻２００ｍｓであり、フレーム６の終了時刻は、時刻２４０ｍｓである。
【０１９４】
はじめに、出力時刻ｔｏは、０に設定されるので、０ｍｓである時刻ｔにおいて、フレーム１が出力される。次に、０である出力時刻ｔｏには、３３．３６６７が加算され、出力時刻ｔｏは、３３．３６６７に設定される。フレーム１は、０ｍｓ乃至４０ｍｓまでの間で表示されるので、時刻ｔが３３．３６６７ｍｓになった場合、フレーム１が出力される。
【０１９５】
さらに、３３．３６６７である出力時刻ｔｏには、３３．３６６７が加算され、出力時刻ｔｏは、６６．７３３４に設定される。６６．７３３４である出力時刻ｔｏが４０である表示終了時刻ｔより小さくなくなるので、フレーム２が取得される。フレーム２は、４０ｍｓ乃至８０ｍｓまでの間で表示されるので、時刻ｔが６６．７３３４ｍｓになった場合、フレーム２が出力される。
【０１９６】
６６．７３３４である出力時刻ｔｏには、３３．３６６７が加算され、出力時刻ｔｏは、１００．１００１に設定される。１００．１００１である出力時刻ｔｏが８０である表示終了時刻ｔより小さくなくなるので、フレーム３が取得される。フレーム３は、８０ｍｓ乃至１２０ｍｓまでの間で表示されるので、時刻ｔが１００．１００１ｍｓになった場合、フレーム３が出力される。
【０１９７】
さらに、１００．１００１である出力時刻ｔｏには、３３．３６６７が加算され、出力時刻ｔｏは、１３３．４６６８に設定される。１３３．４６６８である出力時刻ｔｏが１２０である表示終了時刻ｔより小さくなくなるので、フレーム４が取得される。フレーム４は、１２０ｍｓ乃至１６０ｍｓまでの間で表示されるので、時刻ｔが１３３．４６６８ｍｓになった場合、フレーム４が出力される。
【０１９８】
そして、１３３．４６６８である出力時刻ｔｏには、３３．３６６７が加算され、出力時刻ｔｏは、１６６．８３３５に設定される。１６６．８３３５である出力時刻ｔｏが１６０である表示終了時刻ｔより小さくなくなるので、フレーム５が取得される。フレーム５は、１６０ｍｓ乃至２００ｍｓまでの間で表示されるので、時刻ｔが１６６．８３３５ｍｓになった場合、フレーム５が出力される。
【０１９９】
また、１６６．８３３５である出力時刻ｔｏには、３３．３６６７が加算され、出力時刻ｔｏは、２００．２００２に設定される。２００．２００２である出力時刻ｔｏが２００である表示終了時刻ｔより小さくなくなるので、フレーム６が取得される。フレーム６は、２００ｍｓ乃至２４０ｍｓまでの間で表示されるので、時刻ｔが２００．２００２ｍｓになった場合、フレーム６が出力される。
【０２００】
さらに、２００．２００２である出力時刻ｔｏには、３３．３６６７が加算され、出力時刻ｔｏは、２３３．５６６９に設定される。フレーム６は、２００ｍｓ乃至２４０ｍｓまでの間で表示されるので、時刻ｔが２３３．５６６９ｍｓになった場合、フレーム６が出力される。
【０２０１】
このように、フレームレート変換の処理において、フレーム毎の終了時刻までに、時刻ｔが出力時刻ｔｏになると、そのフレームが出力される。
【０２０２】
図１６で例示したように、付け替えられた後の音声出力タイムスタンプで示される時刻は、連続的な出力の時刻を示す。一方、削除された音声データによる音声と同期する画像を表示するためのビデオＰＥＳパケットには、遡った時刻を示す表示タイムスタンプが付加される。
【０２０３】
時刻ｔは単調に増加するので、遡った時刻を示す表示タイムスタンプがビデオＰＥＳパケットに付加されていて、遡った時刻から計算される終了時刻が時刻ｔより前であれば、フレームレート変換の処理において、ステップＳ２３７の処理によって、直ちにステップＳ２３４の処理に戻ることになり、遡った時刻を示す表示タイムスタンプが付加されているビデオＰＥＳパケットを復号して得られたフレームが出力されることがない。すなわち、そのビデオＰＥＳパケットに格納されている画像データで表示されるフレームは無視（削除）されることになる。
【０２０４】
図１９で示されるように、フレームと終了時刻とを用いて、フレームレート変換の処理において、不要なフレームを無視することができる。
【０２０５】
これにより、削除の処理で削除されなかったビデオＰＥＳパケットに格納されている画像データであって、削除された音声データに同期して表示されるはずであった画像がフレームレート変換の処理において削除されることになる。
【０２０６】
したがって、フレームレート変換の処理の後段においては、画像と音声とが完全に同期することになる。
【０２０７】
以上のように、本発明においては、入力側において一時的に記憶されている画像データおよび音声データを削除するようにしたので、画像データおよび音声データの復号段階で削除する場合に比較して、より簡単に、より迅速に、画像データおよび音声データを削除することができるようになる。また、入力側において一時的に記憶されている画像データおよび音声データを削除するようにしたので、復号の段階で削除する場合またはフレームレートを変換した後に削除する場合に比較して、復号などの後段の処理の負荷をより少なくすることができるようになる。
【０２０８】
入力側において先入れ先出しするように一時的に記憶されている画像データおよび音声データを、単に、先頭から削除すると、画像と音声との同期がずれてしまうが、本発明においては、画像の表示の時刻を示す情報および音声の出力の時刻を示す情報を基に、画像データと、この画像データにより表示される画像に同期する音声を出力する音声データとを削除するようにしたので、画像と音声との同期がずれてしまうことがない。
【０２０９】
なお、ＰＴＳを基に、表示タイムスタンプおよび音声出力タイムスタンプを生成し、これをビデオＰＥＳパケットおよびオーディオＰＥＳパケットに付加して、表示タイムスタンプおよび音声出力タイムスタンプを用いて処理を行うと説明したが、これに限らず、ビデオＰＥＳパケットおよびオーディオＰＥＳパケットに格納されているＰＴＳを用いて処理を行うようにしてもよい。
【０２１０】
また、ビデオＰＥＳパケットおよびオーディオＰＥＳパケットを検索すると説明したが、表示タイムスタンプおよび音声出力タイムスタンプを検索するようにしてもよい。この場合、検索された表示タイムスタンプおよび音声出力タイムスタンプが付加されているビデオＰＥＳパケットおよびオーディオＰＥＳパケットが、始点の候補、始点、または終点となる。
【０２１１】
なお、本発明が適用される一例としてトランスコーダを説明したが、これに限るものではなく、画像データおよび音声データを削除した後には、所望の処理を実行することができる。例えば、画像または音声にいわゆるエフェクトをかける処理、画質または音質を高解像度または低解像度に変換する処理などストリームとしての画像データおよび音声データに適用できる処理であれば、任意の処理を実行させることができる。
【０２１２】
また、MPEG２システムストリームの処理を例に説明したが、画像を表示させ、これに同期する音声を出力するためのストリームであって、画像データが所定の数のフレームまたはフィールドを単位として符号化され、表示または出力する時刻を示す情報が付加されていれば足り、MPEG４、またはH.264/AVC（Advanced Video Coding）など所望の方式のストリームに適用できる。
【０２１３】
このように、付加されているタイムスタンプを基に、画像データおよび音声データを削除するようにした場合には、画像と音声との同期を維持することができる。また、入力された画像データおよび音声データをそれぞれ先入れ先出しするように、画像データおよび音声データの一時的な記憶を制御し、記憶されている画像データおよび音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている画像データのうち、１つの符号化の単位または複数の符号化の単位であって連続している単位毎に画像データを削除するとともに、一時的に記憶されている音声データのうち、削除される画像データに付加された表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、第１の時刻に最も近い時刻を示す出力時刻情報が付加されている音声データから、削除される画像データのうちの最後の画像データの次の画像データに付加された表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す出力時刻情報が付加されている音声データの前の音声データまでを削除するようにした場合には、画像と音声との同期を維持したまま、より簡単に、より迅速に、画像データおよび音声データを削除することができる。
【０２１４】
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
【０２１５】
この記録媒体は、図２に示すように、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク４１（フレキシブルディスクを含む）、光ディスク４２（CD-ROM(Compact Disc-Read Only Memory)、ＤＶＤ(Digital Versatile Disc)を含む）、光磁気ディスク４３（ＭＤ(Mini-Disc)（商標）を含む）、若しくは半導体メモリ４４などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM１２や、記録部１８に含まれるハードディスクなどで構成される。
【０２１６】
なお、上述した一連の処理を実行させるプログラムは、必要に応じてルータ、モデムなどのインターフェースを介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を介してコンピュータにインストールされるようにしてもよい。
【０２１７】
また、本明細書において、記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【０２１８】
なお、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【図面の簡単な説明】
【０２１９】
【図１】本発明に係るトランスコードシステムの一実施の形態を示すブロック図である。
【図２】サーバの構成を示すブロック図である。
【図３】トランスコーダの構成を示すブロック図である。
【図４】システムデコーダのより詳細な構成を示すブロック図である。
【図５】トランスコードの処理を説明するフローチャートである。
【図６】表示タイムスタンプの付加の処理を説明するフローチャートである。
【図７】音声出力タイムスタンプの付加の処理を説明するフローチャートである。
【図８】削除の処理を説明するフローチャートである。
【図９】削除の始点の候補の決定の処理を説明するフローチャートである。
【図１０】削除の始点の調整の処理を説明するフローチャートである。
【図１１】削除の終点の決定の処理を説明するフローチャートである。
【図１２】画像データおよび音声データの削除の処理を説明するフローチャートである。
【図１３】表示タイムスタンプおよび音声出力タイムスタンプの付け替えの処理を説明するフローチャートである。
【図１４】オーディオバッファに記憶されているオーディオＰＥＳパケットの例を示す図である。
【図１５】画像データの削除および音声データの削除を説明する図である。
【図１６】画像データの削除および音声データの削除を説明する図である。
【図１７】フレームレート変換の処理を説明するフローチャートである。
【図１８】フレームレート変換の処理を説明する図である。
【図１９】フレームレート変換の処理を説明する図である。
【符号の説明】
【０２２０】
１サーバ，２ネットワーク，１１ＣＰＵ，１２ＲＯＭ，１３ＲＡＭ，１８記録部，１９通信部，４１磁気ディスク，４２光ディスク，４３光磁気ディスク，４４半導体メモリ，８１システムデコーダ，８４フレームコンバータ，９１ MPEGアナライザ，９２入力バッファ，１０１ビデオバッファ，１０２オーディオバッファ，１２１表示タイムスタンプ付加部，１２２音声出力タイムスタンプ付加部，１２３タイムスタンプオフセット量記憶部，１２４始点決定部，１２５終点決定部，１２６削除部，１２７音声出力タイムスタンプ付け替え部，１２８表示タイムスタンプ付け替え部，１４１音声パケット検索部，１４２画像パケット検索部，１４３判定部，１４４音声パケット検索部，１４５画像パケット検索部，１４６音声データ削除部，１４７画像データ削除部

【特許請求の範囲】
【請求項１】
所定の数のフレームを単位として符号化されている、動画像を表示するための画像データであって、表示する時刻を示す表示時刻情報が付加されている画像データと、前記動画像に同期する音声を出力するための音声データであって、出力する時刻を示す出力時刻情報が付加されている音声データとからなるストリームを処理する情報処理装置において、
入力された前記画像データおよび前記音声データをそれぞれ先入れ先出しするように、前記画像データおよび前記音声データの一時的な記憶を制御する記憶制御手段と、
記憶されている前記画像データおよび前記音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている前記画像データのうち、１つの符号化の前記単位または複数の符号化の前記単位であって連続している前記単位毎に前記画像データを削除するとともに、一時的に記憶されている前記音声データのうち、削除される前記画像データに付加された前記表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、前記第１の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データから、削除される前記画像データのうちの最後の前記画像データの次の前記画像データに付加された前記表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す前記出力時刻情報が付加されている前記音声データの前の前記音声データまでを削除する削除手段と
を含むことを特徴とする情報処理装置。
【請求項２】
一時的に記憶されている前記画像データおよび前記音声データであって、削除された前記画像データの後の前記画像データに付加されている前記表示時刻情報で示される時刻、および削除された前記音声データの後の前記音声データに付加されている前記出力時刻情報で示される時刻から、削除された前記音声データによって出力されるべき音声の時間をそれぞれ引き算した時刻を示すように前記表示時刻情報および前記出力時刻情報を付け替える付け替え手段をさらに含む
ことを特徴とする請求項１に記載の情報処理装置。
【請求項３】
前記付け替え手段によって、時間を遡る時刻を示す前記表示時刻情報に付け替えられた前記画像データの処理を抑制するように、前記画像データを処理する処理手段をさらに含む
ことを特徴とする請求項２に記載の情報処理装置。
【請求項４】
前記削除手段は、一時的に記憶されている前記音声データのうち、削除される前記画像データに付加された前記表示時刻情報で示される時刻のうち、最も早い時刻である前記第１の時刻と同じ時刻または前の時刻であって、前記第１の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データから、削除される前記画像データのうちの最後の前記画像データの次の前記画像データに付加された前記表示時刻情報で示される時刻である前記第２の時刻と同じ時刻または後の時刻であって、前記第２の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データの前の前記音声データまでを削除する
ことを特徴とする請求項１に記載の情報処理装置。
【請求項５】
前記削除手段は、一時的に記憶されている前記音声データのうち、削除される前記画像データに付加された前記表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、前記第１の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データから、削除される前記画像データの最後の前記単位の２つ後の前記単位の先頭の前記画像データに付加された前記表示時刻情報で示される時刻である第３の時刻と同じ時刻または後の時刻であって、前記第３の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データの前の前記音声データまでを削除する
ことを特徴とする請求項１に記載の情報処理装置。
【請求項６】
一時的に記憶されている前記音声データに付加されている前記出力時刻情報で示される時刻のうち、最も早い時刻である第３の時刻より後の時刻であって、前記第３の時刻に最も近い時刻である前記第１の時刻を示す前記表示時刻情報が付加されている、符号化の前記単位であるフレームのうちの最初のフレームを表示するための前記画像データを削除の始点として検索するとともに、検索された前記画像データに付加されている前記表示時刻情報で示される前記第１の時刻と同じ時刻または前の時刻であって、前記第１の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データを削除の始点として検索する第１の検索手段と、
検索された前記音声データに付加されている前記出力時刻情報により示される時刻から予め定めた時間を経過した時刻である第４の時刻より後の時刻であって、前記第４の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データを削除の終点として検索するとともに、削除の終点として検索された前記音声データに付加されている前記出力時刻情報で示される時刻と同じ時刻または前の時刻を示す前記表示時刻情報が付加されている、符号化の前記単位であるフレームのうちの最初のフレームを表示するための前記画像データを削除の終点として検索する第２の検索手段と
をさらに含み、
前記削除手段は、検索された始点および終点を基に、前記画像データおよび前記音声データを削除する
ことを特徴とする請求項１に記載の情報処理装置。
【請求項７】
所定の数のフレームを単位として符号化されている、動画像を表示するための画像データであって、表示する時刻を示す表示時刻情報が付加されている画像データと、前記動画像に同期する音声を出力するための音声データであって、出力する時刻を示す出力時刻情報が付加されている音声データとからなるストリームを処理する情報処理方法において、
入力された前記画像データおよび前記音声データをそれぞれ先入れ先出しするように、前記画像データおよび前記音声データの一時的な記憶を制御する記憶制御ステップと、
記憶されている前記画像データおよび前記音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている前記画像データのうち、１つの符号化の前記単位または複数の符号化の前記単位であって連続している前記単位毎に前記画像データを削除するとともに、一時的に記憶されている前記音声データのうち、削除される前記画像データに付加された前記表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、前記第１の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データから、削除される前記画像データのうちの最後の前記画像データの次の前記画像データに付加された前記表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す前記出力時刻情報が付加されている前記音声データの前の前記音声データまでを削除する削除ステップと
を含むことを特徴とする情報処理方法。
【請求項８】
所定の数のフレームを単位として符号化されている、動画像を表示するための画像データであって、表示する時刻を示す表示時刻情報が付加されている画像データと、前記動画像に同期する音声を出力するための音声データであって、出力する時刻を示す出力時刻情報が付加されている音声データとからなるストリームを処理する情報処理を、コンピュータに行わせるプログラムにおいて、
入力された前記画像データおよび前記音声データをそれぞれ先入れ先出しするように、前記画像データおよび前記音声データの一時的な記憶を制御する記憶制御ステップと、
記憶されている前記画像データおよび前記音声データのデータ量が予め定めた閾値を越えた場合、一時的に記憶されている前記画像データのうち、１つの符号化の前記単位または複数の符号化の前記単位であって連続している前記単位毎に前記画像データを削除するとともに、一時的に記憶されている前記音声データのうち、削除される前記画像データに付加された前記表示時刻情報で示される時刻のうち、最も早い時刻である第１の時刻と同じ時刻または前の時刻であって、前記第１の時刻に最も近い時刻を示す前記出力時刻情報が付加されている前記音声データから、削除される前記画像データのうちの最後の前記画像データの次の前記画像データに付加された前記表示時刻情報で示される時刻である第２の時刻と同じ時刻または後の時刻を示す前記出力時刻情報が付加されている前記音声データの前の前記音声データまでを削除する削除ステップと
を含むことを特徴とするプログラム。

【図１】