番組画像配信システム、番組画像配信方法及びプログラム

【目的】例えば撮影現場の出演者とキャラクタが会話をしている画像をリアルタイムに生成することを可能にする番組画像生成システム５１等を提供する。
【構成】同じ音声入力端末５７の音声入力部５９に入力された音声に基づいて、遠隔再生処理装置５３₁及び５３₂では、入力された音声と背景音声データを同期して再生し、さらに、それぞれ異なるキャラクタ要素画像に基づいて生成されたキャラクタ画像と実写データと合成して表示することにより、音声という容易に入力可能な情報を用いて、共通の音声を、複数の場所に、その場に合った番組（コンテンツ）として配信することが可能になる。そのため、リアルタイムなコンテンツ演出と、消費者参加型のコンテンツ作成が可能になり、市場の活性化を図ることができる。さらに、遠隔操作やリアルタイム配信により、イベントや緊急配信に運用することもできる。これにより、注目度・話題性・認知度・臨場感等が向上する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、番組画像配信システム、番組画像配信方法及びプログラムに関し、特に、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システム等に関する。
【背景技術】
【０００２】
従来、テレビやインターネット上で提供される番組（コンテンツ）の中には、人物や背景を実写映像としながら、その一部にコンピュータグラフィックス（ＣＧ）によるアニメーションキャラクタを挿入・合成することなどが行われている（特許文献１参照）。
【０００３】
また、複数のゲーム端末において、音声を発する人の顔を表示することなく、音声データの入力に合わせて、単一のキャラクタを表示することは知られている（特許文献２参照）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平７−１７８２４０号公報
【特許文献２】特開２００３−２４８８３７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、従来の番組は、予算をかけて専門家が制作した素材（写真、ビデオ、音声、音楽、文字等）を組み込み、作成するものであった。これは、一度完成してしまうと、変更はできないものである。そのため、番組の受け手は、配信をする者の都合でのみ作成された単一のコンテンツを受信して表示するにとどまっていた。
【０００６】
また、例えば、特許文献２に、音声を発する人が、表示画面に表示されるキャラクタになりきると記載されている（明細書第０２５１段落参照）ように、ゲームの分野では、多数の参加者が一つのゲームに参加するものであり、各キャラクタは、各参加者に応じて統一されたイメージを保つ必要がある。そのため、仮に各キャラクタをコンテンツとして捉えたとしても、複数のゲーム端末で、情報の発信者である各参加者を基準として、単一のコンテンツを共有する点では、従来の番組配信と同様のものである。
【０００７】
本発明は、このような従来技術における問題点に着目してなされたものであって、配信の受け手の状況に合わせて、様々なキャラクタが、例えば、撮影現場の出演者と会話をしているかのような画像をリアルタイムに生成することを可能にする番組画像配信システム等を提供することを目的とする。
【課題を解決するための手段】
【０００８】
このような課題を解決するための本発明による番組画像配信システムは、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システムであって、前記音声が入力される音声入力手段を有する音声入力端末と、前記各遠隔再生処理装置に対して、入力された前記音声を送信する配信管理手段を備え、前記複数の遠隔再生処理装置には、入力された前記音声に対応して第１のキャラクタ画像を作成する第１の遠隔再生処理装置と、入力された前記音声に対応して前記第１のキャラクタ画像とは異なる第２のキャラクタ画像を作成する第２の遠隔再生処理装置が含まれており、前記配信管理手段は、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化手段と、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信手段と、キャラクタの動作を制御するための制御命令を記憶する制御命令記憶手段と、前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信手段を有し、前記各遠隔再生処理装置は、送信された前記各音声量子を受信する受信手段と、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記キャラクタ画像を作成して前記番組画像を表示する端末番組画像生成手段を有し、前記キャラクタ要素画像は、２種類以上存在し、前記第２の遠隔再生処理装置が有する端末番組画像生成手段は、前記第１の遠隔再生処理装置において用いられた前記キャラクタ要素画像とは異なる種類の前記キャラクタ要素画像から前記第２のキャラクタ画像を作成することを特徴とするものである。
【０００９】
また、本発明において、前記各遠隔再生処理装置の端末番組画像生成手段は、前記各音声量子を、入力された前記音声とは異なる音声を示す背景音声データと同期させる端末音声同期手段と、同期した前記各音声量子と前記背景音声データを再生する音声再生手段と、前記音声再生手段により再生されている前記音声量子の後に再生されるべき前記音声量子の特徴を検出し、前記制御命令及び検出した前記音声量子の特徴に対応して、キャラクタ要素画像から前記キャラクタ画像を作成し、撮像されて得られた実写データと前記キャラクタ画像とを合成して前記番組画像を作成する画像生成手段と、前記音声再生手段により再生されている前記音声量子の特徴を検出して、前記画像生成手段による前記番組画像の作成処理と前記音声再生手段による前記各音声量子の再生処理とを同期させる同期手段を有する、ことが望ましい。
【００１０】
さらに、本発明において、前記配信管理手段は、前記キャラクタ要素画像、前記実写データ及び前記背景音声データを記憶する記憶手段と、前記複数の遠隔再生処理装置の一部又は全部に対して、必要に応じて、前記第１のキャラクタ要素画像又は前記第２のキャラクタ要素画像、前記実写データ及び前記背景音声データを送信するデータ送信手段を有するものであり、動画データを表示する遠隔再生装置と、前記制御命令及び受信した前記各音声量子に対応して前記キャラクタ要素画像から前記キャラクタ画像を作成し、前記各音声量子と合成して動画データを作成して、前記遠隔再生装置に対して前記動画データを送信する動画生成手段を備え、前記遠隔再生装置は、受信した前記動画データを再生するものである、ことが望ましい。
【００１１】
さらに、本発明において、前記動画生成手段は、生成された前記動画データの送信先として、前記音声入力端末、前記複数の遠隔再生処理装置及び前記遠隔再生装置の一部又は全部を指示されるものであり、生成された前記動画データの送信先として、前記複数の遠隔再生処理装置の一部又は全部が指示された場合には、前記配信管理手段の前記音声量子送信手段は、指示された前記遠隔再生処理装置に対して前記各音声量子を送信せず、指示された前記遠隔再生処理装置は、受信した前記動画データを再生する、ことが望ましい。
【００１２】
さらに、本発明による番組画像配信方法は、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信方法であって、前記複数の遠隔再生処理装置には、入力された前記音声に対応して第１のキャラクタ画像を作成する第１の遠隔再生処理装置と、入力された前記音声に対応して、前記第１のキャラクタ画像を生成できるだけでなく、前記第１のキャラクタ画像に代えて、前記第１のキャラクタ画像とは異なる第２のキャラクタ画像を作成できる第２の遠隔再生処理装置が含まれており、音声入力手段に前記音声が入力される音声入力ステップと、配信管理手段が備える音声量子化手段が、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化ステップと、前記配信管理手段が備える音声量子送信手段が、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信ステップと、前記第１の遠隔再生処理装置が備える端末番組画像生成手段が、受信した前記各音声量子を再生しつつ、キャラクタの動作を制御するための制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記第１のキャラクタ画像を作成して前記番組画像を表示し、前記第２の遠隔再生装置が備える端末番組画像再生手段が、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応して、前記第１の遠隔再生処理装置における前記キャラクタ要素画像とは異なるキャラクタ要素画像から前記第２のキャラクタ画像を作成して、又は、前記第１の遠隔再生処理装置における前記キャラクタ要素画像と同じキャラクタ要素画像から前記第１のキャラクタ画像を作成して前記番組画像を表示する番組画像表示ステップを含むことを特徴とするものである。
【００１３】
さらに、本発明によるプログラムは、コンピュータを、請求項５記載の端末番組画像再生手段として機能させるためのものである。
【００１４】
また、本願発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【００１５】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【００１６】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅を検出するための振幅検出手段と、前記振幅検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【００１７】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の周波数成分から前記音声の前記単位時間毎の母音もしくは音素を判定するための母音等判定手段と、前記母音等判定手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【００１８】
さらに、本発明を、実在の出演者を含み略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とを合成して実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成装置であって、少なくとも番組の出演者を撮像するための撮像手段と、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、少なくともキャラクタが話すセリフを示す音声と実在の出演者が話す音声とを入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、番組画像に含まれるべき前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記撮像手段により撮像された実写画像とを合成し、実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成手段と、前記番組画像生成手段により生成された番組画像と前記音声入力手段により入力された番組音声とを前記単位時間毎に互いに同期して出力するための番組画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【００１９】
さらに、本発明を、実在の出演者を含み略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とを合成して実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成装置であって、少なくとも番組の出演者を撮像するための撮像手段と、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、少なくともキャラクタが話すセリフを示す音声と実在の出演者が話す音声とを入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記番組に表示すべき前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記撮像手段により撮像された実写画像とを合成し、実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成手段と、前記番組画像生成手段により生成された番組画像と前記音声入力手段により入力された番組音声とを前記単位時間毎に互いに同期して出力するための番組画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【００２０】
さらに、本発明においては、前記音声入力手段は、マイクからの音声、映画などを記録した記録媒体から再生された音声、又は、番組のセリフを示す文章を音声変換して得られた合成音声を入力するものである、ことが望ましい。
【００２１】
このようにすることにより、入力された音声信号の振幅もしくは周波数成分から音声特徴（音量や母音もしくは音素）を検出し、この検出された音声特徴に基づいて、キャラクタの口元形状が互いに異なる口元画像を含むキャラクタ画像を略リアルタイムにレンダリング処理などにより生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を撮影現場の出演者を含む画像と合成して前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタとが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【００２２】
また、入力された音声信号の振幅もしくは周波数成分から音声特徴（音量や母音もしくは音素）を検出し、この検出された音声特徴に基づいて、キャラクタの口元形状が互いに異なる複数種類の口元画像のデータベースから前記音声特徴に対応する口元画像を選択し、この選択した口元画像に基づいてキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影現場の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【００２３】
また、入力された音声信号の振幅を検出し、この検出された振幅に基づいて、キャラクタの口唇の開き具合が互いに異なるキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影現場の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【００２４】
さらに、入力された音声信号の周波数成分を抽出して母音又は音素を解析し、この解析した母音又は音素に基づいて、キャラクタの口唇の形状が互いに異なる複数種類の口元画像から前記解析結果に対応する口元画像を選択し、この選択した口元画像に基づいてキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影画像の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【発明の効果】
【００２５】
本願の各請求項に係る発明によれば、入力された音声に基づいて容易に番組（コンテンツ）を作成することが可能となる。そのため、複数の遠隔再生処理装置に対して、入力された音声を共通して配信するとともに、各遠隔再生処理装置では、共通の音声の再生と、共通の音声に基づいて作成された異なるキャラクタの画像を用いた映像の表示が可能となる。
【００２６】
このように、音声という容易に入力可能な情報を用いて、共通の音声を、複数の場所に、その場に合った情報として配信することが可能となる。そのため、リアルタイムなコンテンツ演出と、消費者参加型のコンテンツ作成が可能となり、市場の活性化を図ることができる。さらに、遠隔操作やリアルタイム配信により、イベントや緊急配信に運用することもできる。これにより、注目度・話題性・認知度・臨場感が向上する。
【００２７】
さらに、本願請求項２に係る発明にあるように、実写等と組み合わせることにより疑似会話が可能となる。また、各場所の実写と合成することにより隣接エリアへの誘導活用も可能となる。
【００２８】
さらに、本願の請求項３に係る発明にあるように、動画データを再生する遠隔再生装置（例えば、単なるモニタ）に対しては、動画データにより情報を配信することにより、遠隔再生処理装置（例えばパソコン（ＰＣ）の機能を備えたもの）と混在する場合でも、番組配信が可能となる。また、本願請求項４に係る発明にあるように、動画データを作成する場合には、例えば、同じコンテンツを同時に遠隔再生処理装置に対しても表示させる場合には、遠隔再生装置だけでなく、遠隔再生処理装置に対しても配信できるようにしてもよい。これにより、遠隔再生処理装置における処理を軽減することが可能になる。
【図面の簡単な説明】
【００２９】
【図１】本発明の実施例１による番組画像生成システム５１の構成及び動作を説明するための概念ブロック図である。
【図２】図１の端末番組画像生成部８３の構成及び動作を説明するための概念ブロック図である。
【図３】図１の動画データ作成部９３の構成及び動作を説明するための概念ブロック図である。
【図４】本発明の実施例２による番組画像生成送出装置を説明するための概念ブロック図である。
【図５】本実施例２においてキャラクタ画像生成部により生成されるキャラクタ画像の中の顔画像の例を示す図である。
【図６】本実施例２の動作を示すフローチャートである。
【図７】本実施例２により生成・送出される番組画像の一例を示す図である。
【図８】本発明の実施例３による番組画像生成送出装置を説明するための概念ブロック図である。
【図９】本実施例３において口元画像データベースに記録されている口元画像の例を示す図である。
【図１０】本実施例３の動作を示すフローチャートである。
【発明を実施するための形態】
【００３０】
以下、図面を参照して、本発明を実施するための形態について説明する。なお、本発明は、以下の実施例に限定されるものではない。
【実施例１】
【００３１】
図１は、本発明の実施例１による番組画像生成システム５１の構成及び動作を説明するための概念ブロック図である。番組画像生成システム５１は、２つの遠隔再生処理装置５３₁及び５３₂（本願請求項の「遠隔再生処理装置」の一例）並びに遠隔再生装置５５（本願請求項の「遠隔再生装置」の一例）を備える。遠隔再生処理装置５３（以下、添え字は、複数のものを示す場合は省略する。）及び遠隔再生装置５５は、複数あってもよい。遠隔再生処理装置５３は、例えばパソコン（ＰＣ）の機能を備えたもののように、一定の情報処理を行うことが可能である。これは、入力された音声に対して端末機で情報処理を行うことによる配信に適したものである。これにより、各端末が存在する時間・場所に応じて、実写とＣＧキャラクタを組み合わせたコンテンツ等を配信することが可能になる。他方、遠隔再生装置５５は、単に表示機能のみを備えるモニタ等である。遠隔再生装置５５は、動画を再生することは可能である。しかし、入力された音声を配信しただけではコンテンツの配信を実現することができない。このように、端末機に対する配信は、各端末機の性質に応じて、端末機側で情報処理を行い再生するだけでなく、動画運用で再生することも必要になる。そこで、本実施例１では、動画運用を含む場合について説明する。
【００３２】
番組画像生成システム５１は、ＣＧキャラクタの音声（キャラクタを担当する声優が話す音声）が入力される音声入力部５９（本願請求項の「音声入力手段」の一例）を有する音声入力端末５７（本願請求項の「音声入力端末」の一例）と、遠隔再生処理装置５３及び遠隔再生装置５５に対して、入力された音声を送信する配信管理装置６１（本願請求項の「配信管理手段」の一例）と、入力された音声から動画データを作成して送信する動画生成部９１（本願請求項の「動画生成手段」の一例）を備える。
【００３３】
配信管理装置６１は、音声量子化部６３（本願請求項の「音声量子化手段」の一例）と、音声量子記憶部６５と、音声量子送信部６７（本願請求項の「音声量子送信手段」の一例）を備える。音声量子化部６３は、音声入力部５９に入力されたＣＧキャラクタの音声を分割して、その一部又は全部を音声要素として抽出して、量子化して、量子化データを生成する（以下、この量子化データを「音声量子」という。）。音声量子は、例えば、「久しぶりね」というＣＧキャラクタのセリフについて、「ひ」「さ」「し」「ぶ」「り」「ね」のように個々の音声や無音状態を基準にして量子化する。配信管理装置６１が備える音声量子記憶部６５は、生成された各音声量子を記憶する。配信管理装置６１が備える音声量子送信部６７は、各遠隔再生処理装置５３に対して各音声量子を送信する。
【００３４】
また、配信管理装置６１は、キャラクタの動作を制御するための制御命令を記憶する制御命令記憶部６９（本願請求項の「制御命令記憶手段」の一例）と、前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信部７１（本願請求項の「制御命令送信手段」の一例）を備える。さらに、配信管理装置６１は、例えば、キャラクタの口元の形状を示す口元画像及び口元画像以外のキャラクタ背景画像などの要素画像データ、撮像されて得られた実写データ、並びに、入力された音声以外の音声を示す背景音声データ（例えば、ＣＧキャラクタが、撮影現場に居る実在の出演者と会話を行う場合に、この出演者の音声が含まれ、また、ＢＧＭなどの音楽データのように実写画像とは直接関連しないものが含まれる。）を記憶する記憶装置７３（本願請求項の「記憶手段」の一例）と、各遠隔再生処理装置５３に対して、要素画像データ、実写データ及び背景音声データを送信するデータ送信部７５（本願請求項の「データ送信手段」の一例）を有する。データ送信部７５は、遠隔再生処理装置５３のうち、独自に要素画像データ等を保持しているものには送信せず、そうでない場合に、遠隔再生処理装置５３の必要に応じて送信するものであってもよい。
【００３５】
遠隔再生処理装置５３は、音声量子送信部６７、制御命令送信部７１及びデータ送信部７５から送信された情報を受信する受信部８１（本願請求項の「受信手段」の一例）と、スピーカ８６に対して受信した各音声量子を再生させつつ、モニタ８５に対して制御命令及び受信した各音声量子に対応して要素画像データからキャラクタ画像を作成して番組画像を表示させる端末番組画像生成部８３（本願請求項の「端末番組画像生成手段」の一例）を有する。
【００３６】
また、番組画像生成システム５１は、動画生成部９１を備える。動画生成部９１は、動画データを生成する動画データ作成部９３と、動画データを送信する動画データ送信部９５を有する。遠隔再生装置５５は、動画データを受信する動画データ受信部９７と、受信した動画データを再生するモニタ９９を備える。
【００３７】
図２は、図１の端末番組画像生成部８３の構成及び動作を説明するための概念ブロック図である。端末番組画像生成部８３は、受信した制御命令を記憶する制御命令記憶部１０１と、背景音声データを記憶する背景音声記憶部１０３と、要素画像データを記憶する要素画像記憶部１０５と、実写データを記憶する実写記憶部１０７を備える。
【００３８】
要素画像データに関して、少なくとも１つの遠隔再生処理装置は、他の遠隔再生処理装置と異なるものにする。例えば、遠隔再生処理装置５３₁に対しては、特別の種類の要素画像データ（例えばパンダの種類）を送信し、他の遠隔再生処理装置５３₂等には送信せず、別の種類の要素画像データ（例えばネコの種類）を送信する。これは、音声入力端末５７の利用者が指定することにより配信管理装置６１が特別の要素画像データを送信し、他の遠隔再生処理装置に対しては送信させないようにしてもよい。また、遠隔再生処理装置の利用者が指定して、特別の要素画像データを送信させるようにしてもよい。これにより、遠隔再生処理装置５３₁と５３₂では、異なるキャラクタにより同じ音声量子を再生することが可能になる。これは、音声量子による番組配信という一方的な情報の流れに対し、各遠隔再生処理装置の設置場所・再生時間等に合わせた番組画像の配信処理を可能にするものである。また、特別の要素画像データは、各遠隔再生処理装置で用意されたものであってもよい。
【００３９】
まず、端末番組画像生成部８３の音声再生について説明する。端末番組画像生成部８３は、受信した各音声量子を、前記背景音声データと同期させる端末音声同期部１０９（本願請求項の「端末音声同期手段」の一例）と、同期後の各音声量子及び背景音声データを再生させる音声再生部１１１（本願請求項の「音声再生手段」の一例）と、スピーカ８６に対して再生させる音声を送信する音声送出部１１３を備える。
【００４０】
続いて、端末番組画像生成部８３が備える画像生成部１１５（本願請求項の「画像生成手段」の一例）による画像表示について説明する。画像生成部１１５は、受信した各音声量子の特徴を検出する音声特徴検出部１２１と、制御命令及び検出した音声量子の特徴に対応して、３Ｄベクトルデータ処理により、要素画像データからキャラクタ画像を作成するキャラクタ画像生成部１３７と、作成したキャラクタ画像と実写データを合成して番組画像を作成する番組画像生成部１３９を備える。
【００４１】
音声特徴検出部１２１は、音声量子の周波数を解析する画像用周波数解析部１２３と、音量を解析する音量解析部１２５を備える。キャラクタ画像生成部１３７は、例えば、画像用周波数解析部１２３による周波数解析により母音又は「ん」若しくは無音等の分析をして、口元画像の形状を決定し、さらに、音量解析部１２３による音量解析により開度を決定して、口元画像から１つを選択して加工して、キャラクタの口元画像を作成する。また、制御命令（例えば、直立やお辞儀などの動作、上半身の撮影等のカメラの位置など）によりキャラクタの姿勢等を決定し、両者を組み合わせて、要素画像データからキャラクタ画像を生成する（図９参照）。番組画像作成部１３９は、実写記憶部５７に記憶された実写データを合成して番組画像を生成する（図７参照）。制御命令に、合成のタイミング等を含ませ、これを加味して番組画像を作成してもよい。生成された番組画像は、画像送出部１１７により、例えばモニタ等の表示装置に対して送出される。
【００４２】
ある音声量子に対しては、画像生成部１１５による番組画像の作成処理の終了後に、画像の表示と音声の再生が行われることとなる。そのため、音声再生部１１１により再生される音声量子と、画像生成部１１５による番組画像の作成処理の基礎となる音声量子とは異なることとなる。そのため、端末番組画像生成部８３は、音声再生部１１１による再生と、画像生成部１１５による番組画像の表示とを同期させる同期部１１９（本願請求項の「同期手段」の一例）を備える。同期部１１９は、音声再生部１１１で再生される音声量子の周波数を解析して再生時間データを検出する音声用周波数解析部１３１と、画像生成部１１５からの番組画像の生成処理に必要な時間とを比較して、音声再生部１１１に対して再生のタイミングを制御するタイミング制御部１３３を備える。
【００４３】
図３は、図１の動画データ作成部９３の構成及び動作を説明するための概念ブロック図である。動画データ作成部９３は、音声量子記憶部６５に記憶された各音声量子、制御命令記憶部６９に記憶された制御命令、記憶装置７３に記憶された要素画像データ、実写データ及び背景音声データを用いて、動画データを作成する。動画データ生成部９３は、背景音声データと各音声量子を同期する音声同期部１５９と、番組画像を生成する画像生成部１６１（図２の画像生成部１１５参照）と、生成された番組画像に対して２Ｄベクトル処理を行い連続画像である画像１、・・・、画像ｎを生成する２Ｄベクトル量子化部１６３と、連続画像を記憶する連像画像記憶部１６５と、音声同期部１５９により同期された音声と連続画像を合成して動画データを生成する合成部１６７と、生成された動画データを記憶する動画データ記憶部１６９を備える。
【００４４】
なお、遠隔再生処理装置７３は、動画データを再生することは可能である。そのため、音声入力端末５７や遠隔再生処理装置５３の利用者の指示により、遠隔再生装置７５だけでなく、遠隔再生処理装置７３に対しても動画データを送信するようにしてもよい。これにより、例えば音声入力端末５７の利用者が、複数の端末に同時に同じ表示をさせる場合などに、遠隔再生処理装置５３の処理を軽減することが可能になる。ただし、動画データは、送信データ量が大きくなる可能性がある。そのため、例えば音声入力端末５７の利用者が、複数の端末に同時に同じ表示をさせる指示をした場合でも、音声量子送信部８２と動画データ送信部８９が、データ量や通信状況により、音声量子の送信とするか、又は、動画データを送信するかを自動的に選択するようにしてもよい。
【００４５】
また、音声入力端末５７の利用者の指示により、動画データ作成部８７に対して、音声入力端末５７に対して、作成された動画データを送信させるようにしてもよい。これにより、音声入力端末５７の利用者は、遠隔再生装置等に再生されるべき動画データを容易に入手して検証等の処理をすることが可能になる。
【００４６】
さらに、音声量子は、例えば、「ひさしぶりね」という、発声されてから音声が一時的に途切れるまでの一連の音声を基準にして量子化したりするように、入力された音声を基準にして量子化されたものであってもよい。また、音声量子は、一定の時間（例えば、３０分の１秒など）を基準にして量子化されたものであってもよい。
【００４７】
さらに、図２の音声特徴検出部１２１は、入力された音声の振幅を検出し、キャラクタ画像生成部１３７は、この検出結果に基づいて、口の開き具合を検出してキャラクタ画像を生成することも可能である（図５参照）。
【００４８】
このような遠隔再生が可能になることにより、例えば、遠隔再生処理装置５３等の前に人がいたときに、ＣＧキャラクタの音声として「久しぶりね」と入力することにより、遠隔再生処理装置５３等でＣＧキャラクタが「久しぶりね」と話すように表示することができる。これにより、リアルタイムなコンテンツの演出だけでなく、消費者が参加する形でのコンテンツが実現可能になる。さらに、注目度・話題性・認知度も上がり、さらに、実写との連携を図ることから、臨場感が向上する。さらに、疑似的な会話が可能になり、人の誘導など、場面に合ったコンテンツを実現することが可能になる。
【実施例２】
【００４９】
図４は本発明の実施例２による番組画像生成送出装置を説明するための概念ブロック図である。図４において、１は撮影現場に居る実在の出演者の音声とこの出演者と会話を行うＣＧキャラクタの音声（キャラクタのセリフを担当する声優が話す音声）を入力するためのマイク、２は撮影現場の出演者などを撮像するためのカメラ、３は前記マイク１からの音声を一時的に記憶してから所定時間後に後述の番組音声送出部１０に出力するためのバッファ（後述のようにキャラクタの音声の送出とキャラクタの口元画像の送出とを同期させるためのもの）、４は前記マイク１から入力された音声中のキャラクタの音声部分を所定の単位時間毎（例えば１秒間当たり３０コマで番組の動画を作成するときは３０分の１秒毎）にサンプリングしてそのサンプリングした各単位時間毎（各フレーム毎）の音声の振幅をそれぞれ検出して数値化（デジタルデータ化）するための振幅検出部、６は複数のキャラクタ画像を予め記録しておくためのキャラクタ画像データベース、７は撮像現場の近傍に設置されたパソコン（ＣＧキャラクタの画像を操作するためのソフトウエアをインストールしたパソコン）から成り操作者が撮像現場の出演者などの様子を見ながらＣＧキャラクタをリアルタイムに動かすための操作信号（コマンド）を入力するためのキャラクタ操作部、８は前記振幅検出部４からの前記単位時間毎の音声の振幅値と前記キャラクタ画像データベース６からのＣＧキャラクタ画像と前記キャラクタ操作部７からのキャラクタ操作信号とに基づいてレンダリング処理などにより前記各単位時間毎の音声に対応する口元形状及び姿勢を有するＣＧキャラクタ画像を生成するためのキャラクタ画像生成部、９は前記カメラ２からの実写画像と前記キャラクタ画像生成部８からのＣＧキャラクタ画像を合成するための番組画像生成部、１０は前記バッファ３からの音声を送信もしくは出力するための番組音声送出部、１１は前記番組画像生成部９からの画像を（後述のように前記キャラクタの音声の送信もしくは出力と同期して）送信もしくは出力するための番組画像送出部、である。
【００５０】
前述のように、図４のキャラクタ画像生成部８は、前記振幅検出部４からの前記単位時間毎の各音声の振幅値に基づいて対応する口元形状、例えば、口元の口唇の開度が０から１００までの段階で互いに異なる口元形状を、レンダリング処理などによりリアルタイムに生成するようにしている。図５はこのようにして生成された口唇の開度が０から１００までの段階で区別される各口元画像の中の３つを例示したものである。図５において、（ａ）は前記ＣＧキャラクタのセリフを話す人が音声を発していないとき（無音時）の口唇を閉じている場合（又は「ん」の音を出している場合）の口元形状を示す図、（ｂ）はＣＧキャラクタのセリフを話す人が比較的小さい声で話している場合（音声の振幅値が比較的小さく音量が少ない場合）の口唇の形状を示す図で、例えば口唇の開度が４０の場合の口元形状を示す図、（ｃ）はＣＧキャラクタのセリフを話す人が比較的大きい声で話している場合（音声の振幅値が比較的大きく音量が多い場合）の口唇の形状を示す図で、例えば口唇の開度が８０の場合の口元形状を示す図、である。
【００５１】
また、図４において、前記振幅検出部４は、前記マイク１からの音声をサンプリングした各単位時間毎の音声の振幅を例えば０から１００までの段階に区別した振幅を示すデジタルデータに変換する。また、前記キャラクタ画像生成部８は、前記振幅検出部４からの各単位時間毎の振幅データに基づいて、前記各単位時間毎に前記振幅データ（例えば０から１００までの段階を示すデジタルデータ）にそれぞれ対応する口元画像（例えば０から１００までのいずれかの口唇の開度を有する画像）を生成する。このように、前記キャラクタ画像生成部８は、前記キャラクタ画像データベース６からのキャラクタ画像と前記の振幅値データと前記キャラクタ操作部７からの操作信号とに基づいて、リアルタイムに種々のジオメトリ処理やレンダリング（描画）処理を行って、前記各音声に対応する口元形状や姿勢を有する３次元ＣＧキャラクタ画像を生成する。さらに図４において、前記キャラクタ画像生成部８により生成されたＣＧキャラクタ画像は、前記番組画像生成部９で前記カメラ２からの実写画像と合成されて、前記番組画像送出部１１から送信もしくは出力される。前記番組画像送出部１１からの画像の送信もしくは出力は、前記バッファ３の作用により、前記番組音声送出部１０による音声の送信もしくは出力と同期して行われる。
【００５２】
次に、本実施例１による、実在の出演者がＣＧキャラクタと会話している場面を含む番組をリアルタイムに制作しながら生中継する場合の動作を、図６のフローチャートを参照して説明する。まず、撮影現場を撮像するカメラ２からの実写画像を入力し（ステップＳ１）、マイク１からの音声を入力し（ステップＳ２）、キャラクタ操作部７からの操作信号を入力する（ステップＳ３）。前記マイク１から入力された音声は、バッファ３に一時的に記憶される（ステップＳ４）。前記振幅検出部４は、このバッファ３からの音声をサンプリングして単位時間毎に音声の振幅を検出して数値化する（ステップＳ５）。前記キャラクタ画像生成部８は、前記ステップＳ５で得られた振幅データとキャラクタ画像データベース６からの画像データとに基づいてＣＧキャラクタ画像をレンダリング処理などによりリアルタイムに生成する（ステップＳ６）。次に、番組画像生成部９が、ステップＳ６で生成されたＣＧキャラクタ画像と前記カメラ２からの実写画像とを合成して、実在の出演者とキャラクタとが互いに会話をしている場面などを含む番組画像を生成する（ステップＳ７）。そして、この生成された番組画像を、前記バッファ３からの音声と同期させて送出する（ステップＳ８）。以上により、番組画像に含まれるＣＧキャラクタの口元形状が、番組音声に含まれるＣＧキャラクタの音声に対応するように且つこれと同期するように出力もしくは送信される。なお、以上の番組画像を生成する動作は、単位時間毎（例えば１秒間に３０コマの場面を番組画像として送出するならば３０分の１秒が単位時間となる）に繰り返される。
【００５３】
図７はこのようにして送出される番組画像の一例を示す図である。図７に示すように、本実施例１によれば、実在の出演者１２と架空のＣＧキャラクタ１３とが互いに対話しているかのように見える場面をリアルタイムに生成して音声と同期して送出することができる。この場合、ＣＧキャラクタ１３の口元形状１３ａはＣＧキャラクタのセリフを話す人の音声（＝キャラクタの音声）と同期して表示される。
【実施例３】
【００５４】
次に、図８は本発明の実施例２による番組画像生成送出装置を説明するための概念ブロック図である。図８において、２１は撮影現場に居る実在の出演者の音声とこの出演者と会話を行うＣＧキャラクタの音声（キャラクタを担当する声優が話す音声）を入力するためのマイク、２２は撮影現場の出演者などを撮像するためのカメラ、２３は撮像現場の近傍に設置されたパソコン（ＣＧキャラクタの画像を操作するためのソフトウエアをインストールしたパソコン）から成り操作者が撮像現場の出演者などの様子を見ながらＣＧキャラクタをリアルタイムに動かすためのキャラクタ操作信号（コマンド）を入力するためのキャラクタ操作部、２４は音声の周波数成分の特徴と各母音（各音素でもよい）との対応関係を記録しておくための音声特徴データベース、２５は各キャラクタ毎に各母音に対応する口元画像（図９（ａ）〜（ｆ）の符号２０ａ参照）を記録しておくための口元画像データベース、２６は複数のキャラクタ画像（図９の符号２０参照）を予め記録しておくためのキャラクタ画像データベース、である。
【００５５】
図９は前記口元画像データベース２５に記録される一つのキャラクタに関する複数の口元画像の例を示す図である。図９において、２０はキャラクタ画像中の顔の部分を示す顔画像、２０ａはキャラクタの前記顔画像中の口元画像を示している。また、図９において、（ａ）の符号２０ａは「あ」の母音を含む音を発する場合の口元形状、（ｂ）の符号２０ａは「い」の母音を含む音を発する場合の口元形状、（ｃ）の符号２０ａは「う」の母音を含む音を発する場合の口元形状、（ｄ）の符号２０ａは「え」の母音を含む音を発する場合の口元形状、（ｅ）の符号２０ａは「お」の母音を含む音を発する場合の口元形状、（ｆ）の符号２０ａは「無音」の場合（又は「ん」の口を閉じている場合）の口元形状、を示すものである。図９の各口元画像２０ａは前記口元画像データベース２５に記録されている。また、前記キャラクタの顔画像２０及びキャラクタの身体の画像（図示省略）は前記キャラクタ画像データベース２６に記録されている（なお、前記口元画像と顔画像と身体画像とは一つのデータベースに記録されていてもよい）。
【００５６】
また、図８において、２７は前記マイク１からの音声を一時的に記憶してから所定時間後に後述の番組音声送出部３２に出力するためのバッファ（後述のようにキャラクタの音声の送出とキャラクタの口元画像の送出とを同期させるためのもの）、２８は前記マイク２１から入力された音声中のキャラクタの音声部分を所定の単位時間毎にサンプリングしてそのサンプリングした各単位時間毎（各フレーム毎）の音声の周波数成分を抽出するための周波数成分抽出部、２９は前記周波数成分抽出部２８からの周波数成分と前記音声特徴データベース２４からの各母音の特徴とを照合して前記各単位時間毎の各音声の母音を判定しこれにより前記各音声の母音に対応する口元画像を選択するための口元画像判定部、３０は前記口元画像判定部２９からの前記各音声に対応する口元画像データに基づいて前記口元画像データベース２５から抽出される口元画像（例えば前記音声の母音が「あ」なら「あ」に対応する図９（ａ）の口元画像２０ａ）と前記キャラクタ画像データベース２６からのキャラクタ画像と前記キャラクタ操作部２３からのキャラクタ操作信号とに基づいて所定のレンダリング処理などにより前記各音声に対応する口元形状及び姿勢を有するＣＧ３次元キャラクタ画像を生成するためのキャラクタ画像生成部、３１は前記カメラ２２からの実写画像と前記キャラクタ画像生成部３０からのＣＧキャラクタ画像を合成するための番組画像生成部、３２は前記バッファ２７からの音声を送信もしくは出力するための番組音声送出部、３３は前記番組画像生成部３１からの画像を（後述のように前記番組音声送出部３２による音声の送信もしくは出力と同期して）送信もしくは出力するための番組画像送出部、である。
【００５７】
前述のように、図８のキャラクタ画像生成部３０は、前記口元画像判定部２９からの前記単位時間毎の音声の特徴に対応する母音を示す口元画像などに基づいてＣＧキャラクタ画像をリアルタイムに生成するようにしている。また、図８の前記口元画像判定部２９は、前記バッファ２７からの音声をサンプリングした各単位時間毎の音声の特徴に対応する母音を話すときの口元画像を判定・識別する。また、前記キャラクタ画像生成部３０は、前記口元画像判定部２９からの各単位時間毎の音声の母音に対応する口元画像データに基づいて、前記各単位時間毎に前記口元画像を含む３次元ＣＧキャラクタ画像を生成する（前記口元画像判定部２９は本発明の「母音等判定手段」及び「口元画像判定手段」の双方の機能を実現する部分に対応する）。さらに図８において、前記キャラクタ画像生成部３０で生成されたＣＧキャラクタ画像は、前記番組画像生成部３１で前記カメラ２２からの実写画像と合成されて、前記番組画像送出部３３から送信もしくは出力される。前記番組画像送出部３３からの画像の送信もしくは出力は、前記バッファ２７の作用により、前記番組音声送出部３２による音声の送信もしくは出力と同期して行われる。
【００５８】
次に、本実施例２による、実在の出演者がＣＧキャラクタと会話している場面の番組をリアルタイムに制作しながら生中継する場合の動作を、図４０のフローチャートを参照して説明する。まず、撮影現場を撮像するカメラ２２からの実写画像を入力し（ステップＳ１１）、マイク２１からの音声を入力し（ステップＳ１２）、キャラクタ操作部２３からのキャラクタ操作信号を入力する（ステップＳ１３）。前記マイク２１から入力された音声は、バッファ２７に一時的に記憶される（ステップＳ１４）。前記バッファ２７からの音声は、前記周波数成分抽出部２８により抽出された周波数成分の特徴と前記音声特徴データベースからのデータとの照合により前記サンプリングされた音声の母音＝口元画像が判定・識別される（ステップＳ１５）。前記キャラクタ画像生成部３０は、前記ステップＳ１５で判定・識別された口元画像を示すデータとこれに対応する口元画像データベース２５からの口元画像とキャラクタ画像データベース２６からの画像データなどとに基づいてＣＧキャラクタ画像をレンダリング処理などによりリアルタイムに生成する（ステップＳ１６）。次に、番組画像生成部３１が、ステップＳ１６で生成されたＣＧキャラクタ画像と前記カメラ２２からの実写画像とを合成して番組画像を生成する（ステップＳ１７）。そして、この生成された番組画像を、前記バッファ２７からの音声と同期させて送出する（ステップＳ１８）。以上により、番組画像に含まれるＣＧキャラクタの口元画像が、番組音声に含まれるＣＧキャラクタの音声に対応するように且つこれと同期するように出力もしくは送信される。なお、以上の番組画像を生成する動作は、単位時間毎（例えば１秒間に３０コマの場面を番組画像として送出するならば３０分の１秒が単位時間となる）に繰り返される。
【００５９】
以上、本発明の各実施例について説明したが、本発明は前記の各実施例として述べたものに限定されるものではなく、様々な修正及び変更が可能である。例えば、前記実施例１，２においては、前記バッファ３，２７に入力される音声をいずれも出演者や製油が話した内容をマイク１で入力した音声としているが、本発明はこれに限られるものではなく、例えばＤＶＤやハードディスクなどに記録されたデータを再生して得られた音声でもよいし、キャラクタのセリフを書いた文字列を文字音声変換ソフトにより変換して得られた合成音声などでもよい（例えば、番組の撮影現場の近傍に居るスタッフがその場で現場の雰囲気を見ながらリアルタイムにアドリブのセリフをパソコンにキーボード入力し、それをリアルタイムに合成音声に変換して前記バッファ３に入力するようにしてもよい）。また、前記実施例２ではキャラクタの口元形状を５つの母音と無音との計６種類だけ用意するようにしている（図９の（ａ）〜（ｆ）参照）が、本発明では、例えば音素解析により「１０種類と無音」との計１１種類かそれ以上の多数の種類の口元画像を予めデータベースなどに用意して、入力された音声の音素解析によりそれらのいずれかを判定・識別するようにしてもよい。さらに、前記実施例１，２においては、それぞれ、入力された音声の各単位時間毎の音量（振幅）による口元の開き具合又は入力された各単位時間毎の音声を解析して得られた母音（もしくは音素）により、複数種類の口元画像（口元形状）から一つを選択・判定するようにしているが、本発明では、入力された音声の音量（振幅）と音素との双方に基づいて、複数種類の口元画像（口元形状）から一つを選択・判定するようにしてもよい。
【符号の説明】
【００６０】
５１番組画像生成システム、５３₁，５３₂ 遠隔再生処理装置、５５遠隔再生装置、５７音声入力端末、５９音声入力部、６１配信管理装置、６３音声量子化部、６７音声量子送信部、６９制御命令記憶部、７１制御命令送信部、７３記憶装置、７５データ送信部、８１₁，８１₂ 受信部、８３₁，８３₂ 端末番組画像生成部、９１動画生成部、１０９端末音声同期部、１１１音声再生部、１１５画像生成部、１１９同期部

【特許請求の範囲】
【請求項１】
複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システムであって、
前記音声が入力される音声入力手段を有する音声入力端末と、
前記各遠隔再生処理装置に対して、入力された前記音声を送信する配信管理手段を備え、
前記複数の遠隔再生処理装置には、入力された前記音声に対応して第１のキャラクタ画像を作成する第１の遠隔再生処理装置と、入力された前記音声に対応して前記第１のキャラクタ画像とは異なる第２のキャラクタ画像を作成する第２の遠隔再生処理装置が含まれており、
前記配信管理手段は、
入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化手段と、
前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信手段と、
キャラクタの動作を制御するための制御命令を記憶する制御命令記憶手段と、
前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信手段を有し、
前記各遠隔再生処理装置は、
送信された前記各音声量子を受信する受信手段と、
受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記キャラクタ画像を作成して前記番組画像を表示する端末番組画像生成手段を有し、
前記キャラクタ要素画像は、２種類以上存在し、前記第２の遠隔再生処理装置が有する端末番組画像生成手段は、前記第１の遠隔再生処理装置において用いられた前記キャラクタ要素画像とは異なる種類の前記キャラクタ要素画像から前記第２のキャラクタ画像を作成することを特徴とする番組画像配信システム。
【請求項２】
前記各遠隔再生処理装置の端末番組画像生成手段は、
前記各音声量子を、入力された前記音声とは異なる音声を示す背景音声データと同期させる端末音声同期手段と、
同期した前記各音声量子と前記背景音声データを再生する音声再生手段と、
前記音声再生手段により再生されている前記音声量子の後に再生されるべき前記音声量子の特徴を検出し、前記制御命令及び検出した前記音声量子の特徴に対応して、キャラクタ要素画像から前記キャラクタ画像を作成し、撮像されて得られた実写データと前記キャラクタ画像とを合成して前記番組画像を作成する画像生成手段と、
前記音声再生手段により再生されている前記音声量子の特徴を検出して、前記画像生成手段による前記番組画像の作成処理と前記音声再生手段による前記各音声量子の再生処理とを同期させる同期手段を有する、請求項１記載の番組画像配信システム。
【請求項３】
前記配信管理手段は、
前記キャラクタ要素画像、前記実写データ及び前記背景音声データを記憶する記憶手段と、
前記複数の遠隔再生処理装置の一部又は全部に対して、必要に応じて、前記第１のキャラクタ要素画像又は前記第２のキャラクタ要素画像、前記実写データ及び前記背景音声データを送信するデータ送信手段を有するものであり、
動画データを表示する遠隔再生装置と、
前記制御命令及び受信した前記各音声量子に対応して前記キャラクタ要素画像から前記キャラクタ画像を作成し、前記各音声量子と合成して動画データを作成して、前記遠隔再生装置に対して前記動画データを送信する動画生成手段を備え、
前記遠隔再生装置は、受信した前記動画データを再生するものである、
請求項２に記載の番組画像配信システム。
【請求項４】
前記動画生成手段は、生成された前記動画データの送信先として、前記音声入力端末、前記複数の遠隔再生処理装置及び前記遠隔再生装置の一部又は全部を指示されるものであり、
生成された前記動画データの送信先として、前記複数の遠隔再生処理装置の一部又は全部が指示された場合には、
前記配信管理手段の前記音声量子送信手段は、指示された前記遠隔再生処理装置に対して前記各音声量子を送信せず、
指示された前記遠隔再生処理装置は、受信した前記動画データを再生する、
請求項３記載の番組画像配信システム。
【請求項５】
複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信方法であって、
前記複数の遠隔再生処理装置には、入力された前記音声に対応して第１のキャラクタ画像を作成する第１の遠隔再生処理装置と、入力された前記音声に対応して、前記第１のキャラクタ画像を生成できるだけでなく、前記第１のキャラクタ画像に代えて、前記第１のキャラクタ画像とは異なる第２のキャラクタ画像を作成できる第２の遠隔再生処理装置が含まれており、
音声入力手段に前記音声が入力される音声入力ステップと、
配信管理手段が備える音声量子化手段が、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化ステップと、
前記配信管理手段が備える音声量子送信手段が、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信ステップと、
前記第１の遠隔再生処理装置が備える端末番組画像生成手段が、受信した前記各音声量子を再生しつつ、キャラクタの動作を制御するための制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記第１のキャラクタ画像を作成して前記番組画像を表示し、前記第２の遠隔再生装置が備える端末番組画像再生手段が、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応して、前記第１の遠隔再生処理装置における前記キャラクタ要素画像とは異なるキャラクタ要素画像から前記第２のキャラクタ画像を作成して、又は、前記第１の遠隔再生処理装置における前記キャラクタ要素画像と同じキャラクタ要素画像から前記第１のキャラクタ画像を作成して前記番組画像を表示する番組画像表示ステップ
を含むことを特徴とする番組画像配信方法。
【請求項６】
コンピュータを、請求項５記載の端末番組画像再生手段として機能させるためのプログラム。

【図２】