番組画像配信システム、番組画像配信方法及びプログラム
【目的】例えば撮影現場の出演者とキャラクタが会話をしている画像をリアルタイムに生成することを可能にする番組画像生成システム51等を提供する。
【構成】同じ音声入力端末57の音声入力部59に入力された音声に基づいて、遠隔再生処理装置531及び532では、入力された音声と背景音声データを同期して再生し、さらに、それぞれ異なるキャラクタ要素画像に基づいて生成されたキャラクタ画像と実写データと合成して表示することにより、音声という容易に入力可能な情報を用いて、共通の音声を、複数の場所に、その場に合った番組(コンテンツ)として配信することが可能になる。そのため、リアルタイムなコンテンツ演出と、消費者参加型のコンテンツ作成が可能になり、市場の活性化を図ることができる。さらに、遠隔操作やリアルタイム配信により、イベントや緊急配信に運用することもできる。これにより、注目度・話題性・認知度・臨場感等が向上する。
【構成】同じ音声入力端末57の音声入力部59に入力された音声に基づいて、遠隔再生処理装置531及び532では、入力された音声と背景音声データを同期して再生し、さらに、それぞれ異なるキャラクタ要素画像に基づいて生成されたキャラクタ画像と実写データと合成して表示することにより、音声という容易に入力可能な情報を用いて、共通の音声を、複数の場所に、その場に合った番組(コンテンツ)として配信することが可能になる。そのため、リアルタイムなコンテンツ演出と、消費者参加型のコンテンツ作成が可能になり、市場の活性化を図ることができる。さらに、遠隔操作やリアルタイム配信により、イベントや緊急配信に運用することもできる。これにより、注目度・話題性・認知度・臨場感等が向上する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、番組画像配信システム、番組画像配信方法及びプログラムに関し、特に、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システム等に関する。
【背景技術】
【0002】
従来、テレビやインターネット上で提供される番組(コンテンツ)の中には、人物や背景を実写映像としながら、その一部にコンピュータグラフィックス(CG)によるアニメーションキャラクタを挿入・合成することなどが行われている(特許文献1参照)。
【0003】
また、複数のゲーム端末において、音声を発する人の顔を表示することなく、音声データの入力に合わせて、単一のキャラクタを表示することは知られている(特許文献2参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平7−178240号公報
【特許文献2】特開2003−248837号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の番組は、予算をかけて専門家が制作した素材(写真、ビデオ、音声、音楽、文字等)を組み込み、作成するものであった。これは、一度完成してしまうと、変更はできないものである。そのため、番組の受け手は、配信をする者の都合でのみ作成された単一のコンテンツを受信して表示するにとどまっていた。
【0006】
また、例えば、特許文献2に、音声を発する人が、表示画面に表示されるキャラクタになりきると記載されている(明細書第0251段落参照)ように、ゲームの分野では、多数の参加者が一つのゲームに参加するものであり、各キャラクタは、各参加者に応じて統一されたイメージを保つ必要がある。そのため、仮に各キャラクタをコンテンツとして捉えたとしても、複数のゲーム端末で、情報の発信者である各参加者を基準として、単一のコンテンツを共有する点では、従来の番組配信と同様のものである。
【0007】
本発明は、このような従来技術における問題点に着目してなされたものであって、配信の受け手の状況に合わせて、様々なキャラクタが、例えば、撮影現場の出演者と会話をしているかのような画像をリアルタイムに生成することを可能にする番組画像配信システム等を提供することを目的とする。
【課題を解決するための手段】
【0008】
このような課題を解決するための本発明による番組画像配信システムは、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システムであって、前記音声が入力される音声入力手段を有する音声入力端末と、前記各遠隔再生処理装置に対して、入力された前記音声を送信する配信管理手段を備え、前記複数の遠隔再生処理装置には、入力された前記音声に対応して第1のキャラクタ画像を作成する第1の遠隔再生処理装置と、入力された前記音声に対応して前記第1のキャラクタ画像とは異なる第2のキャラクタ画像を作成する第2の遠隔再生処理装置が含まれており、前記配信管理手段は、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化手段と、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信手段と、キャラクタの動作を制御するための制御命令を記憶する制御命令記憶手段と、前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信手段を有し、前記各遠隔再生処理装置は、送信された前記各音声量子を受信する受信手段と、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記キャラクタ画像を作成して前記番組画像を表示する端末番組画像生成手段を有し、前記キャラクタ要素画像は、2種類以上存在し、前記第2の遠隔再生処理装置が有する端末番組画像生成手段は、前記第1の遠隔再生処理装置において用いられた前記キャラクタ要素画像とは異なる種類の前記キャラクタ要素画像から前記第2のキャラクタ画像を作成することを特徴とするものである。
【0009】
また、本発明において、前記各遠隔再生処理装置の端末番組画像生成手段は、前記各音声量子を、入力された前記音声とは異なる音声を示す背景音声データと同期させる端末音声同期手段と、同期した前記各音声量子と前記背景音声データを再生する音声再生手段と、前記音声再生手段により再生されている前記音声量子の後に再生されるべき前記音声量子の特徴を検出し、前記制御命令及び検出した前記音声量子の特徴に対応して、キャラクタ要素画像から前記キャラクタ画像を作成し、撮像されて得られた実写データと前記キャラクタ画像とを合成して前記番組画像を作成する画像生成手段と、前記音声再生手段により再生されている前記音声量子の特徴を検出して、前記画像生成手段による前記番組画像の作成処理と前記音声再生手段による前記各音声量子の再生処理とを同期させる同期手段を有する、ことが望ましい。
【0010】
さらに、本発明において、前記配信管理手段は、前記キャラクタ要素画像、前記実写データ及び前記背景音声データを記憶する記憶手段と、前記複数の遠隔再生処理装置の一部又は全部に対して、必要に応じて、前記第1のキャラクタ要素画像又は前記第2のキャラクタ要素画像、前記実写データ及び前記背景音声データを送信するデータ送信手段を有するものであり、動画データを表示する遠隔再生装置と、前記制御命令及び受信した前記各音声量子に対応して前記キャラクタ要素画像から前記キャラクタ画像を作成し、前記各音声量子と合成して動画データを作成して、前記遠隔再生装置に対して前記動画データを送信する動画生成手段を備え、前記遠隔再生装置は、受信した前記動画データを再生するものである、ことが望ましい。
【0011】
さらに、本発明において、前記動画生成手段は、生成された前記動画データの送信先として、前記音声入力端末、前記複数の遠隔再生処理装置及び前記遠隔再生装置の一部又は全部を指示されるものであり、生成された前記動画データの送信先として、前記複数の遠隔再生処理装置の一部又は全部が指示された場合には、前記配信管理手段の前記音声量子送信手段は、指示された前記遠隔再生処理装置に対して前記各音声量子を送信せず、指示された前記遠隔再生処理装置は、受信した前記動画データを再生する、ことが望ましい。
【0012】
さらに、本発明による番組画像配信方法は、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信方法であって、前記複数の遠隔再生処理装置には、入力された前記音声に対応して第1のキャラクタ画像を作成する第1の遠隔再生処理装置と、入力された前記音声に対応して、前記第1のキャラクタ画像を生成できるだけでなく、前記第1のキャラクタ画像に代えて、前記第1のキャラクタ画像とは異なる第2のキャラクタ画像を作成できる第2の遠隔再生処理装置が含まれており、音声入力手段に前記音声が入力される音声入力ステップと、配信管理手段が備える音声量子化手段が、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化ステップと、前記配信管理手段が備える音声量子送信手段が、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信ステップと、前記第1の遠隔再生処理装置が備える端末番組画像生成手段が、受信した前記各音声量子を再生しつつ、キャラクタの動作を制御するための制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記第1のキャラクタ画像を作成して前記番組画像を表示し、前記第2の遠隔再生装置が備える端末番組画像再生手段が、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応して、前記第1の遠隔再生処理装置における前記キャラクタ要素画像とは異なるキャラクタ要素画像から前記第2のキャラクタ画像を作成して、又は、前記第1の遠隔再生処理装置における前記キャラクタ要素画像と同じキャラクタ要素画像から前記第1のキャラクタ画像を作成して前記番組画像を表示する番組画像表示ステップを含むことを特徴とするものである。
【0013】
さらに、本発明によるプログラムは、コンピュータを、請求項5記載の端末番組画像再生手段として機能させるためのものである。
【0014】
また、本願発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0015】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0016】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅を検出するための振幅検出手段と、前記振幅検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0017】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の周波数成分から前記音声の前記単位時間毎の母音もしくは音素を判定するための母音等判定手段と、前記母音等判定手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0018】
さらに、本発明を、実在の出演者を含み略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とを合成して実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成装置であって、少なくとも番組の出演者を撮像するための撮像手段と、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、少なくともキャラクタが話すセリフを示す音声と実在の出演者が話す音声とを入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、番組画像に含まれるべき前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記撮像手段により撮像された実写画像とを合成し、実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成手段と、前記番組画像生成手段により生成された番組画像と前記音声入力手段により入力された番組音声とを前記単位時間毎に互いに同期して出力するための番組画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0019】
さらに、本発明を、実在の出演者を含み略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とを合成して実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成装置であって、少なくとも番組の出演者を撮像するための撮像手段と、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、少なくともキャラクタが話すセリフを示す音声と実在の出演者が話す音声とを入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記番組に表示すべき前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記撮像手段により撮像された実写画像とを合成し、実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成手段と、前記番組画像生成手段により生成された番組画像と前記音声入力手段により入力された番組音声とを前記単位時間毎に互いに同期して出力するための番組画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0020】
さらに、本発明においては、前記音声入力手段は、マイクからの音声、映画などを記録した記録媒体から再生された音声、又は、番組のセリフを示す文章を音声変換して得られた合成音声を入力するものである、ことが望ましい。
【0021】
このようにすることにより、入力された音声信号の振幅もしくは周波数成分から音声特徴(音量や母音もしくは音素)を検出し、この検出された音声特徴に基づいて、キャラクタの口元形状が互いに異なる口元画像を含むキャラクタ画像を略リアルタイムにレンダリング処理などにより生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を撮影現場の出演者を含む画像と合成して前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタとが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【0022】
また、入力された音声信号の振幅もしくは周波数成分から音声特徴(音量や母音もしくは音素)を検出し、この検出された音声特徴に基づいて、キャラクタの口元形状が互いに異なる複数種類の口元画像のデータベースから前記音声特徴に対応する口元画像を選択し、この選択した口元画像に基づいてキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影現場の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【0023】
また、入力された音声信号の振幅を検出し、この検出された振幅に基づいて、キャラクタの口唇の開き具合が互いに異なるキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影現場の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【0024】
さらに、入力された音声信号の周波数成分を抽出して母音又は音素を解析し、この解析した母音又は音素に基づいて、キャラクタの口唇の形状が互いに異なる複数種類の口元画像から前記解析結果に対応する口元画像を選択し、この選択した口元画像に基づいてキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影画像の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【発明の効果】
【0025】
本願の各請求項に係る発明によれば、入力された音声に基づいて容易に番組(コンテンツ)を作成することが可能となる。そのため、複数の遠隔再生処理装置に対して、入力された音声を共通して配信するとともに、各遠隔再生処理装置では、共通の音声の再生と、共通の音声に基づいて作成された異なるキャラクタの画像を用いた映像の表示が可能となる。
【0026】
このように、音声という容易に入力可能な情報を用いて、共通の音声を、複数の場所に、その場に合った情報として配信することが可能となる。そのため、リアルタイムなコンテンツ演出と、消費者参加型のコンテンツ作成が可能となり、市場の活性化を図ることができる。さらに、遠隔操作やリアルタイム配信により、イベントや緊急配信に運用することもできる。これにより、注目度・話題性・認知度・臨場感が向上する。
【0027】
さらに、本願請求項2に係る発明にあるように、実写等と組み合わせることにより疑似会話が可能となる。また、各場所の実写と合成することにより隣接エリアへの誘導活用も可能となる。
【0028】
さらに、本願の請求項3に係る発明にあるように、動画データを再生する遠隔再生装置(例えば、単なるモニタ)に対しては、動画データにより情報を配信することにより、遠隔再生処理装置(例えばパソコン(PC)の機能を備えたもの)と混在する場合でも、番組配信が可能となる。また、本願請求項4に係る発明にあるように、動画データを作成する場合には、例えば、同じコンテンツを同時に遠隔再生処理装置に対しても表示させる場合には、遠隔再生装置だけでなく、遠隔再生処理装置に対しても配信できるようにしてもよい。これにより、遠隔再生処理装置における処理を軽減することが可能になる。
【図面の簡単な説明】
【0029】
【図1】本発明の実施例1による番組画像生成システム51の構成及び動作を説明するための概念ブロック図である。
【図2】図1の端末番組画像生成部83の構成及び動作を説明するための概念ブロック図である。
【図3】図1の動画データ作成部93の構成及び動作を説明するための概念ブロック図である。
【図4】本発明の実施例2による番組画像生成送出装置を説明するための概念ブロック図である。
【図5】本実施例2においてキャラクタ画像生成部により生成されるキャラクタ画像の中の顔画像の例を示す図である。
【図6】本実施例2の動作を示すフローチャートである。
【図7】本実施例2により生成・送出される番組画像の一例を示す図である。
【図8】本発明の実施例3による番組画像生成送出装置を説明するための概念ブロック図である。
【図9】本実施例3において口元画像データベースに記録されている口元画像の例を示す図である。
【図10】本実施例3の動作を示すフローチャートである。
【発明を実施するための形態】
【0030】
以下、図面を参照して、本発明を実施するための形態について説明する。なお、本発明は、以下の実施例に限定されるものではない。
【実施例1】
【0031】
図1は、本発明の実施例1による番組画像生成システム51の構成及び動作を説明するための概念ブロック図である。番組画像生成システム51は、2つの遠隔再生処理装置531及び532(本願請求項の「遠隔再生処理装置」の一例)並びに遠隔再生装置55(本願請求項の「遠隔再生装置」の一例)を備える。遠隔再生処理装置53(以下、添え字は、複数のものを示す場合は省略する。)及び遠隔再生装置55は、複数あってもよい。遠隔再生処理装置53は、例えばパソコン(PC)の機能を備えたもののように、一定の情報処理を行うことが可能である。これは、入力された音声に対して端末機で情報処理を行うことによる配信に適したものである。これにより、各端末が存在する時間・場所に応じて、実写とCGキャラクタを組み合わせたコンテンツ等を配信することが可能になる。他方、遠隔再生装置55は、単に表示機能のみを備えるモニタ等である。遠隔再生装置55は、動画を再生することは可能である。しかし、入力された音声を配信しただけではコンテンツの配信を実現することができない。このように、端末機に対する配信は、各端末機の性質に応じて、端末機側で情報処理を行い再生するだけでなく、動画運用で再生することも必要になる。そこで、本実施例1では、動画運用を含む場合について説明する。
【0032】
番組画像生成システム51は、CGキャラクタの音声(キャラクタを担当する声優が話す音声)が入力される音声入力部59(本願請求項の「音声入力手段」の一例)を有する音声入力端末57(本願請求項の「音声入力端末」の一例)と、遠隔再生処理装置53及び遠隔再生装置55に対して、入力された音声を送信する配信管理装置61(本願請求項の「配信管理手段」の一例)と、入力された音声から動画データを作成して送信する動画生成部91(本願請求項の「動画生成手段」の一例)を備える。
【0033】
配信管理装置61は、音声量子化部63(本願請求項の「音声量子化手段」の一例)と、音声量子記憶部65と、音声量子送信部67(本願請求項の「音声量子送信手段」の一例)を備える。音声量子化部63は、音声入力部59に入力されたCGキャラクタの音声を分割して、その一部又は全部を音声要素として抽出して、量子化して、量子化データを生成する(以下、この量子化データを「音声量子」という。)。音声量子は、例えば、「久しぶりね」というCGキャラクタのセリフについて、「ひ」「さ」「し」「ぶ」「り」「ね」のように個々の音声や無音状態を基準にして量子化する。配信管理装置61が備える音声量子記憶部65は、生成された各音声量子を記憶する。配信管理装置61が備える音声量子送信部67は、各遠隔再生処理装置53に対して各音声量子を送信する。
【0034】
また、配信管理装置61は、キャラクタの動作を制御するための制御命令を記憶する制御命令記憶部69(本願請求項の「制御命令記憶手段」の一例)と、前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信部71(本願請求項の「制御命令送信手段」の一例)を備える。さらに、配信管理装置61は、例えば、キャラクタの口元の形状を示す口元画像及び口元画像以外のキャラクタ背景画像などの要素画像データ、撮像されて得られた実写データ、並びに、入力された音声以外の音声を示す背景音声データ(例えば、CGキャラクタが、撮影現場に居る実在の出演者と会話を行う場合に、この出演者の音声が含まれ、また、BGMなどの音楽データのように実写画像とは直接関連しないものが含まれる。)を記憶する記憶装置73(本願請求項の「記憶手段」の一例)と、各遠隔再生処理装置53に対して、要素画像データ、実写データ及び背景音声データを送信するデータ送信部75(本願請求項の「データ送信手段」の一例)を有する。データ送信部75は、遠隔再生処理装置53のうち、独自に要素画像データ等を保持しているものには送信せず、そうでない場合に、遠隔再生処理装置53の必要に応じて送信するものであってもよい。
【0035】
遠隔再生処理装置53は、音声量子送信部67、制御命令送信部71及びデータ送信部75から送信された情報を受信する受信部81(本願請求項の「受信手段」の一例)と、スピーカ86に対して受信した各音声量子を再生させつつ、モニタ85に対して制御命令及び受信した各音声量子に対応して要素画像データからキャラクタ画像を作成して番組画像を表示させる端末番組画像生成部83(本願請求項の「端末番組画像生成手段」の一例)を有する。
【0036】
また、番組画像生成システム51は、動画生成部91を備える。動画生成部91は、動画データを生成する動画データ作成部93と、動画データを送信する動画データ送信部95を有する。遠隔再生装置55は、動画データを受信する動画データ受信部97と、受信した動画データを再生するモニタ99を備える。
【0037】
図2は、図1の端末番組画像生成部83の構成及び動作を説明するための概念ブロック図である。端末番組画像生成部83は、受信した制御命令を記憶する制御命令記憶部101と、背景音声データを記憶する背景音声記憶部103と、要素画像データを記憶する要素画像記憶部105と、実写データを記憶する実写記憶部107を備える。
【0038】
要素画像データに関して、少なくとも1つの遠隔再生処理装置は、他の遠隔再生処理装置と異なるものにする。例えば、遠隔再生処理装置531に対しては、特別の種類の要素画像データ(例えばパンダの種類)を送信し、他の遠隔再生処理装置532等には送信せず、別の種類の要素画像データ(例えばネコの種類)を送信する。これは、音声入力端末57の利用者が指定することにより配信管理装置61が特別の要素画像データを送信し、他の遠隔再生処理装置に対しては送信させないようにしてもよい。また、遠隔再生処理装置の利用者が指定して、特別の要素画像データを送信させるようにしてもよい。これにより、遠隔再生処理装置531と532では、異なるキャラクタにより同じ音声量子を再生することが可能になる。これは、音声量子による番組配信という一方的な情報の流れに対し、各遠隔再生処理装置の設置場所・再生時間等に合わせた番組画像の配信処理を可能にするものである。また、特別の要素画像データは、各遠隔再生処理装置で用意されたものであってもよい。
【0039】
まず、端末番組画像生成部83の音声再生について説明する。端末番組画像生成部83は、受信した各音声量子を、前記背景音声データと同期させる端末音声同期部109(本願請求項の「端末音声同期手段」の一例)と、同期後の各音声量子及び背景音声データを再生させる音声再生部111(本願請求項の「音声再生手段」の一例)と、スピーカ86に対して再生させる音声を送信する音声送出部113を備える。
【0040】
続いて、端末番組画像生成部83が備える画像生成部115(本願請求項の「画像生成手段」の一例)による画像表示について説明する。画像生成部115は、受信した各音声量子の特徴を検出する音声特徴検出部121と、制御命令及び検出した音声量子の特徴に対応して、3Dベクトルデータ処理により、要素画像データからキャラクタ画像を作成するキャラクタ画像生成部137と、作成したキャラクタ画像と実写データを合成して番組画像を作成する番組画像生成部139を備える。
【0041】
音声特徴検出部121は、音声量子の周波数を解析する画像用周波数解析部123と、音量を解析する音量解析部125を備える。キャラクタ画像生成部137は、例えば、画像用周波数解析部123による周波数解析により母音又は「ん」若しくは無音等の分析をして、口元画像の形状を決定し、さらに、音量解析部123による音量解析により開度を決定して、口元画像から1つを選択して加工して、キャラクタの口元画像を作成する。また、制御命令(例えば、直立やお辞儀などの動作、上半身の撮影等のカメラの位置など)によりキャラクタの姿勢等を決定し、両者を組み合わせて、要素画像データからキャラクタ画像を生成する(図9参照)。番組画像作成部139は、実写記憶部57に記憶された実写データを合成して番組画像を生成する(図7参照)。制御命令に、合成のタイミング等を含ませ、これを加味して番組画像を作成してもよい。生成された番組画像は、画像送出部117により、例えばモニタ等の表示装置に対して送出される。
【0042】
ある音声量子に対しては、画像生成部115による番組画像の作成処理の終了後に、画像の表示と音声の再生が行われることとなる。そのため、音声再生部111により再生される音声量子と、画像生成部115による番組画像の作成処理の基礎となる音声量子とは異なることとなる。そのため、端末番組画像生成部83は、音声再生部111による再生と、画像生成部115による番組画像の表示とを同期させる同期部119(本願請求項の「同期手段」の一例)を備える。同期部119は、音声再生部111で再生される音声量子の周波数を解析して再生時間データを検出する音声用周波数解析部131と、画像生成部115からの番組画像の生成処理に必要な時間とを比較して、音声再生部111に対して再生のタイミングを制御するタイミング制御部133を備える。
【0043】
図3は、図1の動画データ作成部93の構成及び動作を説明するための概念ブロック図である。動画データ作成部93は、音声量子記憶部65に記憶された各音声量子、制御命令記憶部69に記憶された制御命令、記憶装置73に記憶された要素画像データ、実写データ及び背景音声データを用いて、動画データを作成する。動画データ生成部93は、背景音声データと各音声量子を同期する音声同期部159と、番組画像を生成する画像生成部161(図2の画像生成部115参照)と、生成された番組画像に対して2Dベクトル処理を行い連続画像である画像1、・・・、画像nを生成する2Dベクトル量子化部163と、連続画像を記憶する連像画像記憶部165と、音声同期部159により同期された音声と連続画像を合成して動画データを生成する合成部167と、生成された動画データを記憶する動画データ記憶部169を備える。
【0044】
なお、遠隔再生処理装置73は、動画データを再生することは可能である。そのため、音声入力端末57や遠隔再生処理装置53の利用者の指示により、遠隔再生装置75だけでなく、遠隔再生処理装置73に対しても動画データを送信するようにしてもよい。これにより、例えば音声入力端末57の利用者が、複数の端末に同時に同じ表示をさせる場合などに、遠隔再生処理装置53の処理を軽減することが可能になる。ただし、動画データは、送信データ量が大きくなる可能性がある。そのため、例えば音声入力端末57の利用者が、複数の端末に同時に同じ表示をさせる指示をした場合でも、音声量子送信部82と動画データ送信部89が、データ量や通信状況により、音声量子の送信とするか、又は、動画データを送信するかを自動的に選択するようにしてもよい。
【0045】
また、音声入力端末57の利用者の指示により、動画データ作成部87に対して、音声入力端末57に対して、作成された動画データを送信させるようにしてもよい。これにより、音声入力端末57の利用者は、遠隔再生装置等に再生されるべき動画データを容易に入手して検証等の処理をすることが可能になる。
【0046】
さらに、音声量子は、例えば、「ひさしぶりね」という、発声されてから音声が一時的に途切れるまでの一連の音声を基準にして量子化したりするように、入力された音声を基準にして量子化されたものであってもよい。また、音声量子は、一定の時間(例えば、30分の1秒など)を基準にして量子化されたものであってもよい。
【0047】
さらに、図2の音声特徴検出部121は、入力された音声の振幅を検出し、キャラクタ画像生成部137は、この検出結果に基づいて、口の開き具合を検出してキャラクタ画像を生成することも可能である(図5参照)。
【0048】
このような遠隔再生が可能になることにより、例えば、遠隔再生処理装置53等の前に人がいたときに、CGキャラクタの音声として「久しぶりね」と入力することにより、遠隔再生処理装置53等でCGキャラクタが「久しぶりね」と話すように表示することができる。これにより、リアルタイムなコンテンツの演出だけでなく、消費者が参加する形でのコンテンツが実現可能になる。さらに、注目度・話題性・認知度も上がり、さらに、実写との連携を図ることから、臨場感が向上する。さらに、疑似的な会話が可能になり、人の誘導など、場面に合ったコンテンツを実現することが可能になる。
【実施例2】
【0049】
図4は本発明の実施例2による番組画像生成送出装置を説明するための概念ブロック図である。図4において、1は撮影現場に居る実在の出演者の音声とこの出演者と会話を行うCGキャラクタの音声(キャラクタのセリフを担当する声優が話す音声)を入力するためのマイク、2は撮影現場の出演者などを撮像するためのカメラ、3は前記マイク1からの音声を一時的に記憶してから所定時間後に後述の番組音声送出部10に出力するためのバッファ(後述のようにキャラクタの音声の送出とキャラクタの口元画像の送出とを同期させるためのもの)、4は前記マイク1から入力された音声中のキャラクタの音声部分を所定の単位時間毎(例えば1秒間当たり30コマで番組の動画を作成するときは30分の1秒毎)にサンプリングしてそのサンプリングした各単位時間毎(各フレーム毎)の音声の振幅をそれぞれ検出して数値化(デジタルデータ化)するための振幅検出部、6は複数のキャラクタ画像を予め記録しておくためのキャラクタ画像データベース、7は撮像現場の近傍に設置されたパソコン(CGキャラクタの画像を操作するためのソフトウエアをインストールしたパソコン)から成り操作者が撮像現場の出演者などの様子を見ながらCGキャラクタをリアルタイムに動かすための操作信号(コマンド)を入力するためのキャラクタ操作部、8は前記振幅検出部4からの前記単位時間毎の音声の振幅値と前記キャラクタ画像データベース6からのCGキャラクタ画像と前記キャラクタ操作部7からのキャラクタ操作信号とに基づいてレンダリング処理などにより前記各単位時間毎の音声に対応する口元形状及び姿勢を有するCGキャラクタ画像を生成するためのキャラクタ画像生成部、9は前記カメラ2からの実写画像と前記キャラクタ画像生成部8からのCGキャラクタ画像を合成するための番組画像生成部、10は前記バッファ3からの音声を送信もしくは出力するための番組音声送出部、11は前記番組画像生成部9からの画像を(後述のように前記キャラクタの音声の送信もしくは出力と同期して)送信もしくは出力するための番組画像送出部、である。
【0050】
前述のように、図4のキャラクタ画像生成部8は、前記振幅検出部4からの前記単位時間毎の各音声の振幅値に基づいて対応する口元形状、例えば、口元の口唇の開度が0から100までの段階で互いに異なる口元形状を、レンダリング処理などによりリアルタイムに生成するようにしている。図5はこのようにして生成された口唇の開度が0から100までの段階で区別される各口元画像の中の3つを例示したものである。図5において、(a)は前記CGキャラクタのセリフを話す人が音声を発していないとき(無音時)の口唇を閉じている場合(又は「ん」の音を出している場合)の口元形状を示す図、(b)はCGキャラクタのセリフを話す人が比較的小さい声で話している場合(音声の振幅値が比較的小さく音量が少ない場合)の口唇の形状を示す図で、例えば口唇の開度が40の場合の口元形状を示す図、(c)はCGキャラクタのセリフを話す人が比較的大きい声で話している場合(音声の振幅値が比較的大きく音量が多い場合)の口唇の形状を示す図で、例えば口唇の開度が80の場合の口元形状を示す図、である。
【0051】
また、図4において、前記振幅検出部4は、前記マイク1からの音声をサンプリングした各単位時間毎の音声の振幅を例えば0から100までの段階に区別した振幅を示すデジタルデータに変換する。また、前記キャラクタ画像生成部8は、前記振幅検出部4からの各単位時間毎の振幅データに基づいて、前記各単位時間毎に前記振幅データ(例えば0から100までの段階を示すデジタルデータ)にそれぞれ対応する口元画像(例えば0から100までのいずれかの口唇の開度を有する画像)を生成する。このように、前記キャラクタ画像生成部8は、前記キャラクタ画像データベース6からのキャラクタ画像と前記の振幅値データと前記キャラクタ操作部7からの操作信号とに基づいて、リアルタイムに種々のジオメトリ処理やレンダリング(描画)処理を行って、前記各音声に対応する口元形状や姿勢を有する3次元CGキャラクタ画像を生成する。さらに図4において、前記キャラクタ画像生成部8により生成されたCGキャラクタ画像は、前記番組画像生成部9で前記カメラ2からの実写画像と合成されて、前記番組画像送出部11から送信もしくは出力される。前記番組画像送出部11からの画像の送信もしくは出力は、前記バッファ3の作用により、前記番組音声送出部10による音声の送信もしくは出力と同期して行われる。
【0052】
次に、本実施例1による、実在の出演者がCGキャラクタと会話している場面を含む番組をリアルタイムに制作しながら生中継する場合の動作を、図6のフローチャートを参照して説明する。まず、撮影現場を撮像するカメラ2からの実写画像を入力し(ステップS1)、マイク1からの音声を入力し(ステップS2)、キャラクタ操作部7からの操作信号を入力する(ステップS3)。前記マイク1から入力された音声は、バッファ3に一時的に記憶される(ステップS4)。前記振幅検出部4は、このバッファ3からの音声をサンプリングして単位時間毎に音声の振幅を検出して数値化する(ステップS5)。前記キャラクタ画像生成部8は、前記ステップS5で得られた振幅データとキャラクタ画像データベース6からの画像データとに基づいてCGキャラクタ画像をレンダリング処理などによりリアルタイムに生成する(ステップS6)。次に、番組画像生成部9が、ステップS6で生成されたCGキャラクタ画像と前記カメラ2からの実写画像とを合成して、実在の出演者とキャラクタとが互いに会話をしている場面などを含む番組画像を生成する(ステップS7)。そして、この生成された番組画像を、前記バッファ3からの音声と同期させて送出する(ステップS8)。以上により、番組画像に含まれるCGキャラクタの口元形状が、番組音声に含まれるCGキャラクタの音声に対応するように且つこれと同期するように出力もしくは送信される。なお、以上の番組画像を生成する動作は、単位時間毎(例えば1秒間に30コマの場面を番組画像として送出するならば30分の1秒が単位時間となる)に繰り返される。
【0053】
図7はこのようにして送出される番組画像の一例を示す図である。図7に示すように、本実施例1によれば、実在の出演者12と架空のCGキャラクタ13とが互いに対話しているかのように見える場面をリアルタイムに生成して音声と同期して送出することができる。この場合、CGキャラクタ13の口元形状13aはCGキャラクタのセリフを話す人の音声(=キャラクタの音声)と同期して表示される。
【実施例3】
【0054】
次に、図8は本発明の実施例2による番組画像生成送出装置を説明するための概念ブロック図である。図8において、21は撮影現場に居る実在の出演者の音声とこの出演者と会話を行うCGキャラクタの音声(キャラクタを担当する声優が話す音声)を入力するためのマイク、22は撮影現場の出演者などを撮像するためのカメラ、23は撮像現場の近傍に設置されたパソコン(CGキャラクタの画像を操作するためのソフトウエアをインストールしたパソコン)から成り操作者が撮像現場の出演者などの様子を見ながらCGキャラクタをリアルタイムに動かすためのキャラクタ操作信号(コマンド)を入力するためのキャラクタ操作部、24は音声の周波数成分の特徴と各母音(各音素でもよい)との対応関係を記録しておくための音声特徴データベース、25は各キャラクタ毎に各母音に対応する口元画像(図9(a)〜(f)の符号20a参照)を記録しておくための口元画像データベース、26は複数のキャラクタ画像(図9の符号20参照)を予め記録しておくためのキャラクタ画像データベース、である。
【0055】
図9は前記口元画像データベース25に記録される一つのキャラクタに関する複数の口元画像の例を示す図である。図9において、20はキャラクタ画像中の顔の部分を示す顔画像、20aはキャラクタの前記顔画像中の口元画像を示している。また、図9において、(a)の符号20aは「あ」の母音を含む音を発する場合の口元形状、(b)の符号20aは「い」の母音を含む音を発する場合の口元形状、(c)の符号20aは「う」の母音を含む音を発する場合の口元形状、(d)の符号20aは「え」の母音を含む音を発する場合の口元形状、(e)の符号20aは「お」の母音を含む音を発する場合の口元形状、(f)の符号20aは「無音」の場合(又は「ん」の口を閉じている場合)の口元形状、を示すものである。図9の各口元画像20aは前記口元画像データベース25に記録されている。また、前記キャラクタの顔画像20及びキャラクタの身体の画像(図示省略)は前記キャラクタ画像データベース26に記録されている(なお、前記口元画像と顔画像と身体画像とは一つのデータベースに記録されていてもよい)。
【0056】
また、図8において、27は前記マイク1からの音声を一時的に記憶してから所定時間後に後述の番組音声送出部32に出力するためのバッファ(後述のようにキャラクタの音声の送出とキャラクタの口元画像の送出とを同期させるためのもの)、28は前記マイク21から入力された音声中のキャラクタの音声部分を所定の単位時間毎にサンプリングしてそのサンプリングした各単位時間毎(各フレーム毎)の音声の周波数成分を抽出するための周波数成分抽出部、29は前記周波数成分抽出部28からの周波数成分と前記音声特徴データベース24からの各母音の特徴とを照合して前記各単位時間毎の各音声の母音を判定しこれにより前記各音声の母音に対応する口元画像を選択するための口元画像判定部、30は前記口元画像判定部29からの前記各音声に対応する口元画像データに基づいて前記口元画像データベース25から抽出される口元画像(例えば前記音声の母音が「あ」なら「あ」に対応する図9(a)の口元画像20a)と前記キャラクタ画像データベース26からのキャラクタ画像と前記キャラクタ操作部23からのキャラクタ操作信号とに基づいて所定のレンダリング処理などにより前記各音声に対応する口元形状及び姿勢を有するCG3次元キャラクタ画像を生成するためのキャラクタ画像生成部、31は前記カメラ22からの実写画像と前記キャラクタ画像生成部30からのCGキャラクタ画像を合成するための番組画像生成部、32は前記バッファ27からの音声を送信もしくは出力するための番組音声送出部、33は前記番組画像生成部31からの画像を(後述のように前記番組音声送出部32による音声の送信もしくは出力と同期して)送信もしくは出力するための番組画像送出部、である。
【0057】
前述のように、図8のキャラクタ画像生成部30は、前記口元画像判定部29からの前記単位時間毎の音声の特徴に対応する母音を示す口元画像などに基づいてCGキャラクタ画像をリアルタイムに生成するようにしている。また、図8の前記口元画像判定部29は、前記バッファ27からの音声をサンプリングした各単位時間毎の音声の特徴に対応する母音を話すときの口元画像を判定・識別する。また、前記キャラクタ画像生成部30は、前記口元画像判定部29からの各単位時間毎の音声の母音に対応する口元画像データに基づいて、前記各単位時間毎に前記口元画像を含む3次元CGキャラクタ画像を生成する(前記口元画像判定部29は本発明の「母音等判定手段」及び「口元画像判定手段」の双方の機能を実現する部分に対応する)。さらに図8において、前記キャラクタ画像生成部30で生成されたCGキャラクタ画像は、前記番組画像生成部31で前記カメラ22からの実写画像と合成されて、前記番組画像送出部33から送信もしくは出力される。前記番組画像送出部33からの画像の送信もしくは出力は、前記バッファ27の作用により、前記番組音声送出部32による音声の送信もしくは出力と同期して行われる。
【0058】
次に、本実施例2による、実在の出演者がCGキャラクタと会話している場面の番組をリアルタイムに制作しながら生中継する場合の動作を、図40のフローチャートを参照して説明する。まず、撮影現場を撮像するカメラ22からの実写画像を入力し(ステップS11)、マイク21からの音声を入力し(ステップS12)、キャラクタ操作部23からのキャラクタ操作信号を入力する(ステップS13)。前記マイク21から入力された音声は、バッファ27に一時的に記憶される(ステップS14)。前記バッファ27からの音声は、前記周波数成分抽出部28により抽出された周波数成分の特徴と前記音声特徴データベースからのデータとの照合により前記サンプリングされた音声の母音=口元画像が判定・識別される(ステップS15)。前記キャラクタ画像生成部30は、前記ステップS15で判定・識別された口元画像を示すデータとこれに対応する口元画像データベース25からの口元画像とキャラクタ画像データベース26からの画像データなどとに基づいてCGキャラクタ画像をレンダリング処理などによりリアルタイムに生成する(ステップS16)。次に、番組画像生成部31が、ステップS16で生成されたCGキャラクタ画像と前記カメラ22からの実写画像とを合成して番組画像を生成する(ステップS17)。そして、この生成された番組画像を、前記バッファ27からの音声と同期させて送出する(ステップS18)。以上により、番組画像に含まれるCGキャラクタの口元画像が、番組音声に含まれるCGキャラクタの音声に対応するように且つこれと同期するように出力もしくは送信される。なお、以上の番組画像を生成する動作は、単位時間毎(例えば1秒間に30コマの場面を番組画像として送出するならば30分の1秒が単位時間となる)に繰り返される。
【0059】
以上、本発明の各実施例について説明したが、本発明は前記の各実施例として述べたものに限定されるものではなく、様々な修正及び変更が可能である。例えば、前記実施例1,2においては、前記バッファ3,27に入力される音声をいずれも出演者や製油が話した内容をマイク1で入力した音声としているが、本発明はこれに限られるものではなく、例えばDVDやハードディスクなどに記録されたデータを再生して得られた音声でもよいし、キャラクタのセリフを書いた文字列を文字音声変換ソフトにより変換して得られた合成音声などでもよい(例えば、番組の撮影現場の近傍に居るスタッフがその場で現場の雰囲気を見ながらリアルタイムにアドリブのセリフをパソコンにキーボード入力し、それをリアルタイムに合成音声に変換して前記バッファ3に入力するようにしてもよい)。また、前記実施例2ではキャラクタの口元形状を5つの母音と無音との計6種類だけ用意するようにしている(図9の(a)〜(f)参照)が、本発明では、例えば音素解析により「10種類と無音」との計11種類かそれ以上の多数の種類の口元画像を予めデータベースなどに用意して、入力された音声の音素解析によりそれらのいずれかを判定・識別するようにしてもよい。さらに、前記実施例1,2においては、それぞれ、入力された音声の各単位時間毎の音量(振幅)による口元の開き具合又は入力された各単位時間毎の音声を解析して得られた母音(もしくは音素)により、複数種類の口元画像(口元形状)から一つを選択・判定するようにしているが、本発明では、入力された音声の音量(振幅)と音素との双方に基づいて、複数種類の口元画像(口元形状)から一つを選択・判定するようにしてもよい。
【符号の説明】
【0060】
51 番組画像生成システム、531,532 遠隔再生処理装置、55 遠隔再生装置、57 音声入力端末、59 音声入力部、61 配信管理装置、63 音声量子化部、67 音声量子送信部、69 制御命令記憶部、71 制御命令送信部、73 記憶装置、75 データ送信部、811,812 受信部、831,832 端末番組画像生成部、91 動画生成部、109 端末音声同期部、111 音声再生部、115画像生成部、119 同期部
【技術分野】
【0001】
本発明は、番組画像配信システム、番組画像配信方法及びプログラムに関し、特に、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システム等に関する。
【背景技術】
【0002】
従来、テレビやインターネット上で提供される番組(コンテンツ)の中には、人物や背景を実写映像としながら、その一部にコンピュータグラフィックス(CG)によるアニメーションキャラクタを挿入・合成することなどが行われている(特許文献1参照)。
【0003】
また、複数のゲーム端末において、音声を発する人の顔を表示することなく、音声データの入力に合わせて、単一のキャラクタを表示することは知られている(特許文献2参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平7−178240号公報
【特許文献2】特開2003−248837号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の番組は、予算をかけて専門家が制作した素材(写真、ビデオ、音声、音楽、文字等)を組み込み、作成するものであった。これは、一度完成してしまうと、変更はできないものである。そのため、番組の受け手は、配信をする者の都合でのみ作成された単一のコンテンツを受信して表示するにとどまっていた。
【0006】
また、例えば、特許文献2に、音声を発する人が、表示画面に表示されるキャラクタになりきると記載されている(明細書第0251段落参照)ように、ゲームの分野では、多数の参加者が一つのゲームに参加するものであり、各キャラクタは、各参加者に応じて統一されたイメージを保つ必要がある。そのため、仮に各キャラクタをコンテンツとして捉えたとしても、複数のゲーム端末で、情報の発信者である各参加者を基準として、単一のコンテンツを共有する点では、従来の番組配信と同様のものである。
【0007】
本発明は、このような従来技術における問題点に着目してなされたものであって、配信の受け手の状況に合わせて、様々なキャラクタが、例えば、撮影現場の出演者と会話をしているかのような画像をリアルタイムに生成することを可能にする番組画像配信システム等を提供することを目的とする。
【課題を解決するための手段】
【0008】
このような課題を解決するための本発明による番組画像配信システムは、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システムであって、前記音声が入力される音声入力手段を有する音声入力端末と、前記各遠隔再生処理装置に対して、入力された前記音声を送信する配信管理手段を備え、前記複数の遠隔再生処理装置には、入力された前記音声に対応して第1のキャラクタ画像を作成する第1の遠隔再生処理装置と、入力された前記音声に対応して前記第1のキャラクタ画像とは異なる第2のキャラクタ画像を作成する第2の遠隔再生処理装置が含まれており、前記配信管理手段は、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化手段と、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信手段と、キャラクタの動作を制御するための制御命令を記憶する制御命令記憶手段と、前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信手段を有し、前記各遠隔再生処理装置は、送信された前記各音声量子を受信する受信手段と、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記キャラクタ画像を作成して前記番組画像を表示する端末番組画像生成手段を有し、前記キャラクタ要素画像は、2種類以上存在し、前記第2の遠隔再生処理装置が有する端末番組画像生成手段は、前記第1の遠隔再生処理装置において用いられた前記キャラクタ要素画像とは異なる種類の前記キャラクタ要素画像から前記第2のキャラクタ画像を作成することを特徴とするものである。
【0009】
また、本発明において、前記各遠隔再生処理装置の端末番組画像生成手段は、前記各音声量子を、入力された前記音声とは異なる音声を示す背景音声データと同期させる端末音声同期手段と、同期した前記各音声量子と前記背景音声データを再生する音声再生手段と、前記音声再生手段により再生されている前記音声量子の後に再生されるべき前記音声量子の特徴を検出し、前記制御命令及び検出した前記音声量子の特徴に対応して、キャラクタ要素画像から前記キャラクタ画像を作成し、撮像されて得られた実写データと前記キャラクタ画像とを合成して前記番組画像を作成する画像生成手段と、前記音声再生手段により再生されている前記音声量子の特徴を検出して、前記画像生成手段による前記番組画像の作成処理と前記音声再生手段による前記各音声量子の再生処理とを同期させる同期手段を有する、ことが望ましい。
【0010】
さらに、本発明において、前記配信管理手段は、前記キャラクタ要素画像、前記実写データ及び前記背景音声データを記憶する記憶手段と、前記複数の遠隔再生処理装置の一部又は全部に対して、必要に応じて、前記第1のキャラクタ要素画像又は前記第2のキャラクタ要素画像、前記実写データ及び前記背景音声データを送信するデータ送信手段を有するものであり、動画データを表示する遠隔再生装置と、前記制御命令及び受信した前記各音声量子に対応して前記キャラクタ要素画像から前記キャラクタ画像を作成し、前記各音声量子と合成して動画データを作成して、前記遠隔再生装置に対して前記動画データを送信する動画生成手段を備え、前記遠隔再生装置は、受信した前記動画データを再生するものである、ことが望ましい。
【0011】
さらに、本発明において、前記動画生成手段は、生成された前記動画データの送信先として、前記音声入力端末、前記複数の遠隔再生処理装置及び前記遠隔再生装置の一部又は全部を指示されるものであり、生成された前記動画データの送信先として、前記複数の遠隔再生処理装置の一部又は全部が指示された場合には、前記配信管理手段の前記音声量子送信手段は、指示された前記遠隔再生処理装置に対して前記各音声量子を送信せず、指示された前記遠隔再生処理装置は、受信した前記動画データを再生する、ことが望ましい。
【0012】
さらに、本発明による番組画像配信方法は、複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信方法であって、前記複数の遠隔再生処理装置には、入力された前記音声に対応して第1のキャラクタ画像を作成する第1の遠隔再生処理装置と、入力された前記音声に対応して、前記第1のキャラクタ画像を生成できるだけでなく、前記第1のキャラクタ画像に代えて、前記第1のキャラクタ画像とは異なる第2のキャラクタ画像を作成できる第2の遠隔再生処理装置が含まれており、音声入力手段に前記音声が入力される音声入力ステップと、配信管理手段が備える音声量子化手段が、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化ステップと、前記配信管理手段が備える音声量子送信手段が、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信ステップと、前記第1の遠隔再生処理装置が備える端末番組画像生成手段が、受信した前記各音声量子を再生しつつ、キャラクタの動作を制御するための制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記第1のキャラクタ画像を作成して前記番組画像を表示し、前記第2の遠隔再生装置が備える端末番組画像再生手段が、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応して、前記第1の遠隔再生処理装置における前記キャラクタ要素画像とは異なるキャラクタ要素画像から前記第2のキャラクタ画像を作成して、又は、前記第1の遠隔再生処理装置における前記キャラクタ要素画像と同じキャラクタ要素画像から前記第1のキャラクタ画像を作成して前記番組画像を表示する番組画像表示ステップを含むことを特徴とするものである。
【0013】
さらに、本発明によるプログラムは、コンピュータを、請求項5記載の端末番組画像再生手段として機能させるためのものである。
【0014】
また、本願発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0015】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0016】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅を検出するための振幅検出手段と、前記振幅検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0017】
さらに、本発明を、略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とが合成されて送信もしくは出力される番組などの動画像の作成に適したキャラクタ画像生成装置であって、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、キャラクタのセリフを示す音声を入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の周波数成分から前記音声の前記単位時間毎の母音もしくは音素を判定するための母音等判定手段と、前記母音等判定手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記音声入力手段により入力された前記キャラクタのセリフを示す音声とを前記単位時間毎に互いに同期して出力するためのキャラクタ画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0018】
さらに、本発明を、実在の出演者を含み略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とを合成して実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成装置であって、少なくとも番組の出演者を撮像するための撮像手段と、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、少なくともキャラクタが話すセリフを示す音声と実在の出演者が話す音声とを入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力と前記キャラクタ画像記録手段からのキャラクタ画像とに基づいて、番組画像に含まれるべき前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記撮像手段により撮像された実写画像とを合成し、実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成手段と、前記番組画像生成手段により生成された番組画像と前記音声入力手段により入力された番組音声とを前記単位時間毎に互いに同期して出力するための番組画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0019】
さらに、本発明を、実在の出演者を含み略リアルタイムに撮像され提供される実写画像とコンピュータグラフィックスにより作成されるキャラクタ画像とを合成して実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成装置であって、少なくとも番組の出演者を撮像するための撮像手段と、複数種類のキャラクタ画像を記録しておくためのキャラクタ画像記録手段と、キャラクタの口唇の形状が互いに異なる複数種類の口元画像を予め記録しておくための口元画像記録手段と、少なくともキャラクタが話すセリフを示す音声と実在の出演者が話す音声とを入力するための音声入力手段と、前記音声入力手段により入力された音声信号の単位時間毎の振幅もしくは周波数成分からその特徴を求めるための音声特徴検出手段と、前記音声特徴検出手段からの出力に基づいて、前記口元画像記録手段に記録されている複数種類の口元画像から前記単位時間毎の前記検出結果に応じた口元画像の種類を判定するための口元画像判定手段と、前記口元画像判定手段によりその種類が判定された口元画像と前記キャラクタ画像とに基づいて、前記番組に表示すべき前記単位時間毎のキャラクタ画像を略リアルタイムに生成するためのキャラクタ画像生成手段と、前記キャラクタ画像生成手段により生成されたキャラクタ画像と前記撮像手段により撮像された実写画像とを合成し、実在の出演者とキャラクタとが会話をしている場面を含む番組画像を生成するための番組画像生成手段と、前記番組画像生成手段により生成された番組画像と前記音声入力手段により入力された番組音声とを前記単位時間毎に互いに同期して出力するための番組画像等出力手段と、を備えたことを特徴とするものとして捉えてもよい。
【0020】
さらに、本発明においては、前記音声入力手段は、マイクからの音声、映画などを記録した記録媒体から再生された音声、又は、番組のセリフを示す文章を音声変換して得られた合成音声を入力するものである、ことが望ましい。
【0021】
このようにすることにより、入力された音声信号の振幅もしくは周波数成分から音声特徴(音量や母音もしくは音素)を検出し、この検出された音声特徴に基づいて、キャラクタの口元形状が互いに異なる口元画像を含むキャラクタ画像を略リアルタイムにレンダリング処理などにより生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を撮影現場の出演者を含む画像と合成して前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタとが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【0022】
また、入力された音声信号の振幅もしくは周波数成分から音声特徴(音量や母音もしくは音素)を検出し、この検出された音声特徴に基づいて、キャラクタの口元形状が互いに異なる複数種類の口元画像のデータベースから前記音声特徴に対応する口元画像を選択し、この選択した口元画像に基づいてキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影現場の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【0023】
また、入力された音声信号の振幅を検出し、この検出された振幅に基づいて、キャラクタの口唇の開き具合が互いに異なるキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影現場の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【0024】
さらに、入力された音声信号の周波数成分を抽出して母音又は音素を解析し、この解析した母音又は音素に基づいて、キャラクタの口唇の形状が互いに異なる複数種類の口元画像から前記解析結果に対応する口元画像を選択し、この選択した口元画像に基づいてキャラクタ画像を略リアルタイムに生成し、音声と同期して出力もしくは送信するようにしている。よって、本発明によれば、撮影画像の出演者を含む画像と前記口元画像を備えたキャラクタ画像とを略リアルタイムに合成すると共に前記口元画像が単位時間毎に出力音声と同期して変化するキャラクタ画像を前記出力音声と同期して表示させることができるので、あたかも撮像現場の出演者とキャラクタが自然に会話をしているかのような番組画像をリアルタイムに生成して送信もしくは出力することが可能になる。
【発明の効果】
【0025】
本願の各請求項に係る発明によれば、入力された音声に基づいて容易に番組(コンテンツ)を作成することが可能となる。そのため、複数の遠隔再生処理装置に対して、入力された音声を共通して配信するとともに、各遠隔再生処理装置では、共通の音声の再生と、共通の音声に基づいて作成された異なるキャラクタの画像を用いた映像の表示が可能となる。
【0026】
このように、音声という容易に入力可能な情報を用いて、共通の音声を、複数の場所に、その場に合った情報として配信することが可能となる。そのため、リアルタイムなコンテンツ演出と、消費者参加型のコンテンツ作成が可能となり、市場の活性化を図ることができる。さらに、遠隔操作やリアルタイム配信により、イベントや緊急配信に運用することもできる。これにより、注目度・話題性・認知度・臨場感が向上する。
【0027】
さらに、本願請求項2に係る発明にあるように、実写等と組み合わせることにより疑似会話が可能となる。また、各場所の実写と合成することにより隣接エリアへの誘導活用も可能となる。
【0028】
さらに、本願の請求項3に係る発明にあるように、動画データを再生する遠隔再生装置(例えば、単なるモニタ)に対しては、動画データにより情報を配信することにより、遠隔再生処理装置(例えばパソコン(PC)の機能を備えたもの)と混在する場合でも、番組配信が可能となる。また、本願請求項4に係る発明にあるように、動画データを作成する場合には、例えば、同じコンテンツを同時に遠隔再生処理装置に対しても表示させる場合には、遠隔再生装置だけでなく、遠隔再生処理装置に対しても配信できるようにしてもよい。これにより、遠隔再生処理装置における処理を軽減することが可能になる。
【図面の簡単な説明】
【0029】
【図1】本発明の実施例1による番組画像生成システム51の構成及び動作を説明するための概念ブロック図である。
【図2】図1の端末番組画像生成部83の構成及び動作を説明するための概念ブロック図である。
【図3】図1の動画データ作成部93の構成及び動作を説明するための概念ブロック図である。
【図4】本発明の実施例2による番組画像生成送出装置を説明するための概念ブロック図である。
【図5】本実施例2においてキャラクタ画像生成部により生成されるキャラクタ画像の中の顔画像の例を示す図である。
【図6】本実施例2の動作を示すフローチャートである。
【図7】本実施例2により生成・送出される番組画像の一例を示す図である。
【図8】本発明の実施例3による番組画像生成送出装置を説明するための概念ブロック図である。
【図9】本実施例3において口元画像データベースに記録されている口元画像の例を示す図である。
【図10】本実施例3の動作を示すフローチャートである。
【発明を実施するための形態】
【0030】
以下、図面を参照して、本発明を実施するための形態について説明する。なお、本発明は、以下の実施例に限定されるものではない。
【実施例1】
【0031】
図1は、本発明の実施例1による番組画像生成システム51の構成及び動作を説明するための概念ブロック図である。番組画像生成システム51は、2つの遠隔再生処理装置531及び532(本願請求項の「遠隔再生処理装置」の一例)並びに遠隔再生装置55(本願請求項の「遠隔再生装置」の一例)を備える。遠隔再生処理装置53(以下、添え字は、複数のものを示す場合は省略する。)及び遠隔再生装置55は、複数あってもよい。遠隔再生処理装置53は、例えばパソコン(PC)の機能を備えたもののように、一定の情報処理を行うことが可能である。これは、入力された音声に対して端末機で情報処理を行うことによる配信に適したものである。これにより、各端末が存在する時間・場所に応じて、実写とCGキャラクタを組み合わせたコンテンツ等を配信することが可能になる。他方、遠隔再生装置55は、単に表示機能のみを備えるモニタ等である。遠隔再生装置55は、動画を再生することは可能である。しかし、入力された音声を配信しただけではコンテンツの配信を実現することができない。このように、端末機に対する配信は、各端末機の性質に応じて、端末機側で情報処理を行い再生するだけでなく、動画運用で再生することも必要になる。そこで、本実施例1では、動画運用を含む場合について説明する。
【0032】
番組画像生成システム51は、CGキャラクタの音声(キャラクタを担当する声優が話す音声)が入力される音声入力部59(本願請求項の「音声入力手段」の一例)を有する音声入力端末57(本願請求項の「音声入力端末」の一例)と、遠隔再生処理装置53及び遠隔再生装置55に対して、入力された音声を送信する配信管理装置61(本願請求項の「配信管理手段」の一例)と、入力された音声から動画データを作成して送信する動画生成部91(本願請求項の「動画生成手段」の一例)を備える。
【0033】
配信管理装置61は、音声量子化部63(本願請求項の「音声量子化手段」の一例)と、音声量子記憶部65と、音声量子送信部67(本願請求項の「音声量子送信手段」の一例)を備える。音声量子化部63は、音声入力部59に入力されたCGキャラクタの音声を分割して、その一部又は全部を音声要素として抽出して、量子化して、量子化データを生成する(以下、この量子化データを「音声量子」という。)。音声量子は、例えば、「久しぶりね」というCGキャラクタのセリフについて、「ひ」「さ」「し」「ぶ」「り」「ね」のように個々の音声や無音状態を基準にして量子化する。配信管理装置61が備える音声量子記憶部65は、生成された各音声量子を記憶する。配信管理装置61が備える音声量子送信部67は、各遠隔再生処理装置53に対して各音声量子を送信する。
【0034】
また、配信管理装置61は、キャラクタの動作を制御するための制御命令を記憶する制御命令記憶部69(本願請求項の「制御命令記憶手段」の一例)と、前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信部71(本願請求項の「制御命令送信手段」の一例)を備える。さらに、配信管理装置61は、例えば、キャラクタの口元の形状を示す口元画像及び口元画像以外のキャラクタ背景画像などの要素画像データ、撮像されて得られた実写データ、並びに、入力された音声以外の音声を示す背景音声データ(例えば、CGキャラクタが、撮影現場に居る実在の出演者と会話を行う場合に、この出演者の音声が含まれ、また、BGMなどの音楽データのように実写画像とは直接関連しないものが含まれる。)を記憶する記憶装置73(本願請求項の「記憶手段」の一例)と、各遠隔再生処理装置53に対して、要素画像データ、実写データ及び背景音声データを送信するデータ送信部75(本願請求項の「データ送信手段」の一例)を有する。データ送信部75は、遠隔再生処理装置53のうち、独自に要素画像データ等を保持しているものには送信せず、そうでない場合に、遠隔再生処理装置53の必要に応じて送信するものであってもよい。
【0035】
遠隔再生処理装置53は、音声量子送信部67、制御命令送信部71及びデータ送信部75から送信された情報を受信する受信部81(本願請求項の「受信手段」の一例)と、スピーカ86に対して受信した各音声量子を再生させつつ、モニタ85に対して制御命令及び受信した各音声量子に対応して要素画像データからキャラクタ画像を作成して番組画像を表示させる端末番組画像生成部83(本願請求項の「端末番組画像生成手段」の一例)を有する。
【0036】
また、番組画像生成システム51は、動画生成部91を備える。動画生成部91は、動画データを生成する動画データ作成部93と、動画データを送信する動画データ送信部95を有する。遠隔再生装置55は、動画データを受信する動画データ受信部97と、受信した動画データを再生するモニタ99を備える。
【0037】
図2は、図1の端末番組画像生成部83の構成及び動作を説明するための概念ブロック図である。端末番組画像生成部83は、受信した制御命令を記憶する制御命令記憶部101と、背景音声データを記憶する背景音声記憶部103と、要素画像データを記憶する要素画像記憶部105と、実写データを記憶する実写記憶部107を備える。
【0038】
要素画像データに関して、少なくとも1つの遠隔再生処理装置は、他の遠隔再生処理装置と異なるものにする。例えば、遠隔再生処理装置531に対しては、特別の種類の要素画像データ(例えばパンダの種類)を送信し、他の遠隔再生処理装置532等には送信せず、別の種類の要素画像データ(例えばネコの種類)を送信する。これは、音声入力端末57の利用者が指定することにより配信管理装置61が特別の要素画像データを送信し、他の遠隔再生処理装置に対しては送信させないようにしてもよい。また、遠隔再生処理装置の利用者が指定して、特別の要素画像データを送信させるようにしてもよい。これにより、遠隔再生処理装置531と532では、異なるキャラクタにより同じ音声量子を再生することが可能になる。これは、音声量子による番組配信という一方的な情報の流れに対し、各遠隔再生処理装置の設置場所・再生時間等に合わせた番組画像の配信処理を可能にするものである。また、特別の要素画像データは、各遠隔再生処理装置で用意されたものであってもよい。
【0039】
まず、端末番組画像生成部83の音声再生について説明する。端末番組画像生成部83は、受信した各音声量子を、前記背景音声データと同期させる端末音声同期部109(本願請求項の「端末音声同期手段」の一例)と、同期後の各音声量子及び背景音声データを再生させる音声再生部111(本願請求項の「音声再生手段」の一例)と、スピーカ86に対して再生させる音声を送信する音声送出部113を備える。
【0040】
続いて、端末番組画像生成部83が備える画像生成部115(本願請求項の「画像生成手段」の一例)による画像表示について説明する。画像生成部115は、受信した各音声量子の特徴を検出する音声特徴検出部121と、制御命令及び検出した音声量子の特徴に対応して、3Dベクトルデータ処理により、要素画像データからキャラクタ画像を作成するキャラクタ画像生成部137と、作成したキャラクタ画像と実写データを合成して番組画像を作成する番組画像生成部139を備える。
【0041】
音声特徴検出部121は、音声量子の周波数を解析する画像用周波数解析部123と、音量を解析する音量解析部125を備える。キャラクタ画像生成部137は、例えば、画像用周波数解析部123による周波数解析により母音又は「ん」若しくは無音等の分析をして、口元画像の形状を決定し、さらに、音量解析部123による音量解析により開度を決定して、口元画像から1つを選択して加工して、キャラクタの口元画像を作成する。また、制御命令(例えば、直立やお辞儀などの動作、上半身の撮影等のカメラの位置など)によりキャラクタの姿勢等を決定し、両者を組み合わせて、要素画像データからキャラクタ画像を生成する(図9参照)。番組画像作成部139は、実写記憶部57に記憶された実写データを合成して番組画像を生成する(図7参照)。制御命令に、合成のタイミング等を含ませ、これを加味して番組画像を作成してもよい。生成された番組画像は、画像送出部117により、例えばモニタ等の表示装置に対して送出される。
【0042】
ある音声量子に対しては、画像生成部115による番組画像の作成処理の終了後に、画像の表示と音声の再生が行われることとなる。そのため、音声再生部111により再生される音声量子と、画像生成部115による番組画像の作成処理の基礎となる音声量子とは異なることとなる。そのため、端末番組画像生成部83は、音声再生部111による再生と、画像生成部115による番組画像の表示とを同期させる同期部119(本願請求項の「同期手段」の一例)を備える。同期部119は、音声再生部111で再生される音声量子の周波数を解析して再生時間データを検出する音声用周波数解析部131と、画像生成部115からの番組画像の生成処理に必要な時間とを比較して、音声再生部111に対して再生のタイミングを制御するタイミング制御部133を備える。
【0043】
図3は、図1の動画データ作成部93の構成及び動作を説明するための概念ブロック図である。動画データ作成部93は、音声量子記憶部65に記憶された各音声量子、制御命令記憶部69に記憶された制御命令、記憶装置73に記憶された要素画像データ、実写データ及び背景音声データを用いて、動画データを作成する。動画データ生成部93は、背景音声データと各音声量子を同期する音声同期部159と、番組画像を生成する画像生成部161(図2の画像生成部115参照)と、生成された番組画像に対して2Dベクトル処理を行い連続画像である画像1、・・・、画像nを生成する2Dベクトル量子化部163と、連続画像を記憶する連像画像記憶部165と、音声同期部159により同期された音声と連続画像を合成して動画データを生成する合成部167と、生成された動画データを記憶する動画データ記憶部169を備える。
【0044】
なお、遠隔再生処理装置73は、動画データを再生することは可能である。そのため、音声入力端末57や遠隔再生処理装置53の利用者の指示により、遠隔再生装置75だけでなく、遠隔再生処理装置73に対しても動画データを送信するようにしてもよい。これにより、例えば音声入力端末57の利用者が、複数の端末に同時に同じ表示をさせる場合などに、遠隔再生処理装置53の処理を軽減することが可能になる。ただし、動画データは、送信データ量が大きくなる可能性がある。そのため、例えば音声入力端末57の利用者が、複数の端末に同時に同じ表示をさせる指示をした場合でも、音声量子送信部82と動画データ送信部89が、データ量や通信状況により、音声量子の送信とするか、又は、動画データを送信するかを自動的に選択するようにしてもよい。
【0045】
また、音声入力端末57の利用者の指示により、動画データ作成部87に対して、音声入力端末57に対して、作成された動画データを送信させるようにしてもよい。これにより、音声入力端末57の利用者は、遠隔再生装置等に再生されるべき動画データを容易に入手して検証等の処理をすることが可能になる。
【0046】
さらに、音声量子は、例えば、「ひさしぶりね」という、発声されてから音声が一時的に途切れるまでの一連の音声を基準にして量子化したりするように、入力された音声を基準にして量子化されたものであってもよい。また、音声量子は、一定の時間(例えば、30分の1秒など)を基準にして量子化されたものであってもよい。
【0047】
さらに、図2の音声特徴検出部121は、入力された音声の振幅を検出し、キャラクタ画像生成部137は、この検出結果に基づいて、口の開き具合を検出してキャラクタ画像を生成することも可能である(図5参照)。
【0048】
このような遠隔再生が可能になることにより、例えば、遠隔再生処理装置53等の前に人がいたときに、CGキャラクタの音声として「久しぶりね」と入力することにより、遠隔再生処理装置53等でCGキャラクタが「久しぶりね」と話すように表示することができる。これにより、リアルタイムなコンテンツの演出だけでなく、消費者が参加する形でのコンテンツが実現可能になる。さらに、注目度・話題性・認知度も上がり、さらに、実写との連携を図ることから、臨場感が向上する。さらに、疑似的な会話が可能になり、人の誘導など、場面に合ったコンテンツを実現することが可能になる。
【実施例2】
【0049】
図4は本発明の実施例2による番組画像生成送出装置を説明するための概念ブロック図である。図4において、1は撮影現場に居る実在の出演者の音声とこの出演者と会話を行うCGキャラクタの音声(キャラクタのセリフを担当する声優が話す音声)を入力するためのマイク、2は撮影現場の出演者などを撮像するためのカメラ、3は前記マイク1からの音声を一時的に記憶してから所定時間後に後述の番組音声送出部10に出力するためのバッファ(後述のようにキャラクタの音声の送出とキャラクタの口元画像の送出とを同期させるためのもの)、4は前記マイク1から入力された音声中のキャラクタの音声部分を所定の単位時間毎(例えば1秒間当たり30コマで番組の動画を作成するときは30分の1秒毎)にサンプリングしてそのサンプリングした各単位時間毎(各フレーム毎)の音声の振幅をそれぞれ検出して数値化(デジタルデータ化)するための振幅検出部、6は複数のキャラクタ画像を予め記録しておくためのキャラクタ画像データベース、7は撮像現場の近傍に設置されたパソコン(CGキャラクタの画像を操作するためのソフトウエアをインストールしたパソコン)から成り操作者が撮像現場の出演者などの様子を見ながらCGキャラクタをリアルタイムに動かすための操作信号(コマンド)を入力するためのキャラクタ操作部、8は前記振幅検出部4からの前記単位時間毎の音声の振幅値と前記キャラクタ画像データベース6からのCGキャラクタ画像と前記キャラクタ操作部7からのキャラクタ操作信号とに基づいてレンダリング処理などにより前記各単位時間毎の音声に対応する口元形状及び姿勢を有するCGキャラクタ画像を生成するためのキャラクタ画像生成部、9は前記カメラ2からの実写画像と前記キャラクタ画像生成部8からのCGキャラクタ画像を合成するための番組画像生成部、10は前記バッファ3からの音声を送信もしくは出力するための番組音声送出部、11は前記番組画像生成部9からの画像を(後述のように前記キャラクタの音声の送信もしくは出力と同期して)送信もしくは出力するための番組画像送出部、である。
【0050】
前述のように、図4のキャラクタ画像生成部8は、前記振幅検出部4からの前記単位時間毎の各音声の振幅値に基づいて対応する口元形状、例えば、口元の口唇の開度が0から100までの段階で互いに異なる口元形状を、レンダリング処理などによりリアルタイムに生成するようにしている。図5はこのようにして生成された口唇の開度が0から100までの段階で区別される各口元画像の中の3つを例示したものである。図5において、(a)は前記CGキャラクタのセリフを話す人が音声を発していないとき(無音時)の口唇を閉じている場合(又は「ん」の音を出している場合)の口元形状を示す図、(b)はCGキャラクタのセリフを話す人が比較的小さい声で話している場合(音声の振幅値が比較的小さく音量が少ない場合)の口唇の形状を示す図で、例えば口唇の開度が40の場合の口元形状を示す図、(c)はCGキャラクタのセリフを話す人が比較的大きい声で話している場合(音声の振幅値が比較的大きく音量が多い場合)の口唇の形状を示す図で、例えば口唇の開度が80の場合の口元形状を示す図、である。
【0051】
また、図4において、前記振幅検出部4は、前記マイク1からの音声をサンプリングした各単位時間毎の音声の振幅を例えば0から100までの段階に区別した振幅を示すデジタルデータに変換する。また、前記キャラクタ画像生成部8は、前記振幅検出部4からの各単位時間毎の振幅データに基づいて、前記各単位時間毎に前記振幅データ(例えば0から100までの段階を示すデジタルデータ)にそれぞれ対応する口元画像(例えば0から100までのいずれかの口唇の開度を有する画像)を生成する。このように、前記キャラクタ画像生成部8は、前記キャラクタ画像データベース6からのキャラクタ画像と前記の振幅値データと前記キャラクタ操作部7からの操作信号とに基づいて、リアルタイムに種々のジオメトリ処理やレンダリング(描画)処理を行って、前記各音声に対応する口元形状や姿勢を有する3次元CGキャラクタ画像を生成する。さらに図4において、前記キャラクタ画像生成部8により生成されたCGキャラクタ画像は、前記番組画像生成部9で前記カメラ2からの実写画像と合成されて、前記番組画像送出部11から送信もしくは出力される。前記番組画像送出部11からの画像の送信もしくは出力は、前記バッファ3の作用により、前記番組音声送出部10による音声の送信もしくは出力と同期して行われる。
【0052】
次に、本実施例1による、実在の出演者がCGキャラクタと会話している場面を含む番組をリアルタイムに制作しながら生中継する場合の動作を、図6のフローチャートを参照して説明する。まず、撮影現場を撮像するカメラ2からの実写画像を入力し(ステップS1)、マイク1からの音声を入力し(ステップS2)、キャラクタ操作部7からの操作信号を入力する(ステップS3)。前記マイク1から入力された音声は、バッファ3に一時的に記憶される(ステップS4)。前記振幅検出部4は、このバッファ3からの音声をサンプリングして単位時間毎に音声の振幅を検出して数値化する(ステップS5)。前記キャラクタ画像生成部8は、前記ステップS5で得られた振幅データとキャラクタ画像データベース6からの画像データとに基づいてCGキャラクタ画像をレンダリング処理などによりリアルタイムに生成する(ステップS6)。次に、番組画像生成部9が、ステップS6で生成されたCGキャラクタ画像と前記カメラ2からの実写画像とを合成して、実在の出演者とキャラクタとが互いに会話をしている場面などを含む番組画像を生成する(ステップS7)。そして、この生成された番組画像を、前記バッファ3からの音声と同期させて送出する(ステップS8)。以上により、番組画像に含まれるCGキャラクタの口元形状が、番組音声に含まれるCGキャラクタの音声に対応するように且つこれと同期するように出力もしくは送信される。なお、以上の番組画像を生成する動作は、単位時間毎(例えば1秒間に30コマの場面を番組画像として送出するならば30分の1秒が単位時間となる)に繰り返される。
【0053】
図7はこのようにして送出される番組画像の一例を示す図である。図7に示すように、本実施例1によれば、実在の出演者12と架空のCGキャラクタ13とが互いに対話しているかのように見える場面をリアルタイムに生成して音声と同期して送出することができる。この場合、CGキャラクタ13の口元形状13aはCGキャラクタのセリフを話す人の音声(=キャラクタの音声)と同期して表示される。
【実施例3】
【0054】
次に、図8は本発明の実施例2による番組画像生成送出装置を説明するための概念ブロック図である。図8において、21は撮影現場に居る実在の出演者の音声とこの出演者と会話を行うCGキャラクタの音声(キャラクタを担当する声優が話す音声)を入力するためのマイク、22は撮影現場の出演者などを撮像するためのカメラ、23は撮像現場の近傍に設置されたパソコン(CGキャラクタの画像を操作するためのソフトウエアをインストールしたパソコン)から成り操作者が撮像現場の出演者などの様子を見ながらCGキャラクタをリアルタイムに動かすためのキャラクタ操作信号(コマンド)を入力するためのキャラクタ操作部、24は音声の周波数成分の特徴と各母音(各音素でもよい)との対応関係を記録しておくための音声特徴データベース、25は各キャラクタ毎に各母音に対応する口元画像(図9(a)〜(f)の符号20a参照)を記録しておくための口元画像データベース、26は複数のキャラクタ画像(図9の符号20参照)を予め記録しておくためのキャラクタ画像データベース、である。
【0055】
図9は前記口元画像データベース25に記録される一つのキャラクタに関する複数の口元画像の例を示す図である。図9において、20はキャラクタ画像中の顔の部分を示す顔画像、20aはキャラクタの前記顔画像中の口元画像を示している。また、図9において、(a)の符号20aは「あ」の母音を含む音を発する場合の口元形状、(b)の符号20aは「い」の母音を含む音を発する場合の口元形状、(c)の符号20aは「う」の母音を含む音を発する場合の口元形状、(d)の符号20aは「え」の母音を含む音を発する場合の口元形状、(e)の符号20aは「お」の母音を含む音を発する場合の口元形状、(f)の符号20aは「無音」の場合(又は「ん」の口を閉じている場合)の口元形状、を示すものである。図9の各口元画像20aは前記口元画像データベース25に記録されている。また、前記キャラクタの顔画像20及びキャラクタの身体の画像(図示省略)は前記キャラクタ画像データベース26に記録されている(なお、前記口元画像と顔画像と身体画像とは一つのデータベースに記録されていてもよい)。
【0056】
また、図8において、27は前記マイク1からの音声を一時的に記憶してから所定時間後に後述の番組音声送出部32に出力するためのバッファ(後述のようにキャラクタの音声の送出とキャラクタの口元画像の送出とを同期させるためのもの)、28は前記マイク21から入力された音声中のキャラクタの音声部分を所定の単位時間毎にサンプリングしてそのサンプリングした各単位時間毎(各フレーム毎)の音声の周波数成分を抽出するための周波数成分抽出部、29は前記周波数成分抽出部28からの周波数成分と前記音声特徴データベース24からの各母音の特徴とを照合して前記各単位時間毎の各音声の母音を判定しこれにより前記各音声の母音に対応する口元画像を選択するための口元画像判定部、30は前記口元画像判定部29からの前記各音声に対応する口元画像データに基づいて前記口元画像データベース25から抽出される口元画像(例えば前記音声の母音が「あ」なら「あ」に対応する図9(a)の口元画像20a)と前記キャラクタ画像データベース26からのキャラクタ画像と前記キャラクタ操作部23からのキャラクタ操作信号とに基づいて所定のレンダリング処理などにより前記各音声に対応する口元形状及び姿勢を有するCG3次元キャラクタ画像を生成するためのキャラクタ画像生成部、31は前記カメラ22からの実写画像と前記キャラクタ画像生成部30からのCGキャラクタ画像を合成するための番組画像生成部、32は前記バッファ27からの音声を送信もしくは出力するための番組音声送出部、33は前記番組画像生成部31からの画像を(後述のように前記番組音声送出部32による音声の送信もしくは出力と同期して)送信もしくは出力するための番組画像送出部、である。
【0057】
前述のように、図8のキャラクタ画像生成部30は、前記口元画像判定部29からの前記単位時間毎の音声の特徴に対応する母音を示す口元画像などに基づいてCGキャラクタ画像をリアルタイムに生成するようにしている。また、図8の前記口元画像判定部29は、前記バッファ27からの音声をサンプリングした各単位時間毎の音声の特徴に対応する母音を話すときの口元画像を判定・識別する。また、前記キャラクタ画像生成部30は、前記口元画像判定部29からの各単位時間毎の音声の母音に対応する口元画像データに基づいて、前記各単位時間毎に前記口元画像を含む3次元CGキャラクタ画像を生成する(前記口元画像判定部29は本発明の「母音等判定手段」及び「口元画像判定手段」の双方の機能を実現する部分に対応する)。さらに図8において、前記キャラクタ画像生成部30で生成されたCGキャラクタ画像は、前記番組画像生成部31で前記カメラ22からの実写画像と合成されて、前記番組画像送出部33から送信もしくは出力される。前記番組画像送出部33からの画像の送信もしくは出力は、前記バッファ27の作用により、前記番組音声送出部32による音声の送信もしくは出力と同期して行われる。
【0058】
次に、本実施例2による、実在の出演者がCGキャラクタと会話している場面の番組をリアルタイムに制作しながら生中継する場合の動作を、図40のフローチャートを参照して説明する。まず、撮影現場を撮像するカメラ22からの実写画像を入力し(ステップS11)、マイク21からの音声を入力し(ステップS12)、キャラクタ操作部23からのキャラクタ操作信号を入力する(ステップS13)。前記マイク21から入力された音声は、バッファ27に一時的に記憶される(ステップS14)。前記バッファ27からの音声は、前記周波数成分抽出部28により抽出された周波数成分の特徴と前記音声特徴データベースからのデータとの照合により前記サンプリングされた音声の母音=口元画像が判定・識別される(ステップS15)。前記キャラクタ画像生成部30は、前記ステップS15で判定・識別された口元画像を示すデータとこれに対応する口元画像データベース25からの口元画像とキャラクタ画像データベース26からの画像データなどとに基づいてCGキャラクタ画像をレンダリング処理などによりリアルタイムに生成する(ステップS16)。次に、番組画像生成部31が、ステップS16で生成されたCGキャラクタ画像と前記カメラ22からの実写画像とを合成して番組画像を生成する(ステップS17)。そして、この生成された番組画像を、前記バッファ27からの音声と同期させて送出する(ステップS18)。以上により、番組画像に含まれるCGキャラクタの口元画像が、番組音声に含まれるCGキャラクタの音声に対応するように且つこれと同期するように出力もしくは送信される。なお、以上の番組画像を生成する動作は、単位時間毎(例えば1秒間に30コマの場面を番組画像として送出するならば30分の1秒が単位時間となる)に繰り返される。
【0059】
以上、本発明の各実施例について説明したが、本発明は前記の各実施例として述べたものに限定されるものではなく、様々な修正及び変更が可能である。例えば、前記実施例1,2においては、前記バッファ3,27に入力される音声をいずれも出演者や製油が話した内容をマイク1で入力した音声としているが、本発明はこれに限られるものではなく、例えばDVDやハードディスクなどに記録されたデータを再生して得られた音声でもよいし、キャラクタのセリフを書いた文字列を文字音声変換ソフトにより変換して得られた合成音声などでもよい(例えば、番組の撮影現場の近傍に居るスタッフがその場で現場の雰囲気を見ながらリアルタイムにアドリブのセリフをパソコンにキーボード入力し、それをリアルタイムに合成音声に変換して前記バッファ3に入力するようにしてもよい)。また、前記実施例2ではキャラクタの口元形状を5つの母音と無音との計6種類だけ用意するようにしている(図9の(a)〜(f)参照)が、本発明では、例えば音素解析により「10種類と無音」との計11種類かそれ以上の多数の種類の口元画像を予めデータベースなどに用意して、入力された音声の音素解析によりそれらのいずれかを判定・識別するようにしてもよい。さらに、前記実施例1,2においては、それぞれ、入力された音声の各単位時間毎の音量(振幅)による口元の開き具合又は入力された各単位時間毎の音声を解析して得られた母音(もしくは音素)により、複数種類の口元画像(口元形状)から一つを選択・判定するようにしているが、本発明では、入力された音声の音量(振幅)と音素との双方に基づいて、複数種類の口元画像(口元形状)から一つを選択・判定するようにしてもよい。
【符号の説明】
【0060】
51 番組画像生成システム、531,532 遠隔再生処理装置、55 遠隔再生装置、57 音声入力端末、59 音声入力部、61 配信管理装置、63 音声量子化部、67 音声量子送信部、69 制御命令記憶部、71 制御命令送信部、73 記憶装置、75 データ送信部、811,812 受信部、831,832 端末番組画像生成部、91 動画生成部、109 端末音声同期部、111 音声再生部、115画像生成部、119 同期部
【特許請求の範囲】
【請求項1】
複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システムであって、
前記音声が入力される音声入力手段を有する音声入力端末と、
前記各遠隔再生処理装置に対して、入力された前記音声を送信する配信管理手段を備え、
前記複数の遠隔再生処理装置には、入力された前記音声に対応して第1のキャラクタ画像を作成する第1の遠隔再生処理装置と、入力された前記音声に対応して前記第1のキャラクタ画像とは異なる第2のキャラクタ画像を作成する第2の遠隔再生処理装置が含まれており、
前記配信管理手段は、
入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化手段と、
前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信手段と、
キャラクタの動作を制御するための制御命令を記憶する制御命令記憶手段と、
前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信手段を有し、
前記各遠隔再生処理装置は、
送信された前記各音声量子を受信する受信手段と、
受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記キャラクタ画像を作成して前記番組画像を表示する端末番組画像生成手段を有し、
前記キャラクタ要素画像は、2種類以上存在し、前記第2の遠隔再生処理装置が有する端末番組画像生成手段は、前記第1の遠隔再生処理装置において用いられた前記キャラクタ要素画像とは異なる種類の前記キャラクタ要素画像から前記第2のキャラクタ画像を作成することを特徴とする番組画像配信システム。
【請求項2】
前記各遠隔再生処理装置の端末番組画像生成手段は、
前記各音声量子を、入力された前記音声とは異なる音声を示す背景音声データと同期させる端末音声同期手段と、
同期した前記各音声量子と前記背景音声データを再生する音声再生手段と、
前記音声再生手段により再生されている前記音声量子の後に再生されるべき前記音声量子の特徴を検出し、前記制御命令及び検出した前記音声量子の特徴に対応して、キャラクタ要素画像から前記キャラクタ画像を作成し、撮像されて得られた実写データと前記キャラクタ画像とを合成して前記番組画像を作成する画像生成手段と、
前記音声再生手段により再生されている前記音声量子の特徴を検出して、前記画像生成手段による前記番組画像の作成処理と前記音声再生手段による前記各音声量子の再生処理とを同期させる同期手段を有する、請求項1記載の番組画像配信システム。
【請求項3】
前記配信管理手段は、
前記キャラクタ要素画像、前記実写データ及び前記背景音声データを記憶する記憶手段と、
前記複数の遠隔再生処理装置の一部又は全部に対して、必要に応じて、前記第1のキャラクタ要素画像又は前記第2のキャラクタ要素画像、前記実写データ及び前記背景音声データを送信するデータ送信手段を有するものであり、
動画データを表示する遠隔再生装置と、
前記制御命令及び受信した前記各音声量子に対応して前記キャラクタ要素画像から前記キャラクタ画像を作成し、前記各音声量子と合成して動画データを作成して、前記遠隔再生装置に対して前記動画データを送信する動画生成手段を備え、
前記遠隔再生装置は、受信した前記動画データを再生するものである、
請求項2に記載の番組画像配信システム。
【請求項4】
前記動画生成手段は、生成された前記動画データの送信先として、前記音声入力端末、前記複数の遠隔再生処理装置及び前記遠隔再生装置の一部又は全部を指示されるものであり、
生成された前記動画データの送信先として、前記複数の遠隔再生処理装置の一部又は全部が指示された場合には、
前記配信管理手段の前記音声量子送信手段は、指示された前記遠隔再生処理装置に対して前記各音声量子を送信せず、
指示された前記遠隔再生処理装置は、受信した前記動画データを再生する、
請求項3記載の番組画像配信システム。
【請求項5】
複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信方法であって、
前記複数の遠隔再生処理装置には、入力された前記音声に対応して第1のキャラクタ画像を作成する第1の遠隔再生処理装置と、入力された前記音声に対応して、前記第1のキャラクタ画像を生成できるだけでなく、前記第1のキャラクタ画像に代えて、前記第1のキャラクタ画像とは異なる第2のキャラクタ画像を作成できる第2の遠隔再生処理装置が含まれており、
音声入力手段に前記音声が入力される音声入力ステップと、
配信管理手段が備える音声量子化手段が、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化ステップと、
前記配信管理手段が備える音声量子送信手段が、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信ステップと、
前記第1の遠隔再生処理装置が備える端末番組画像生成手段が、受信した前記各音声量子を再生しつつ、キャラクタの動作を制御するための制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記第1のキャラクタ画像を作成して前記番組画像を表示し、前記第2の遠隔再生装置が備える端末番組画像再生手段が、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応して、前記第1の遠隔再生処理装置における前記キャラクタ要素画像とは異なるキャラクタ要素画像から前記第2のキャラクタ画像を作成して、又は、前記第1の遠隔再生処理装置における前記キャラクタ要素画像と同じキャラクタ要素画像から前記第1のキャラクタ画像を作成して前記番組画像を表示する番組画像表示ステップ
を含むことを特徴とする番組画像配信方法。
【請求項6】
コンピュータを、請求項5記載の端末番組画像再生手段として機能させるためのプログラム。
【請求項1】
複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信システムであって、
前記音声が入力される音声入力手段を有する音声入力端末と、
前記各遠隔再生処理装置に対して、入力された前記音声を送信する配信管理手段を備え、
前記複数の遠隔再生処理装置には、入力された前記音声に対応して第1のキャラクタ画像を作成する第1の遠隔再生処理装置と、入力された前記音声に対応して前記第1のキャラクタ画像とは異なる第2のキャラクタ画像を作成する第2の遠隔再生処理装置が含まれており、
前記配信管理手段は、
入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化手段と、
前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信手段と、
キャラクタの動作を制御するための制御命令を記憶する制御命令記憶手段と、
前記各遠隔再生処理装置に対して、前記制御命令を送信する制御命令送信手段を有し、
前記各遠隔再生処理装置は、
送信された前記各音声量子を受信する受信手段と、
受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記キャラクタ画像を作成して前記番組画像を表示する端末番組画像生成手段を有し、
前記キャラクタ要素画像は、2種類以上存在し、前記第2の遠隔再生処理装置が有する端末番組画像生成手段は、前記第1の遠隔再生処理装置において用いられた前記キャラクタ要素画像とは異なる種類の前記キャラクタ要素画像から前記第2のキャラクタ画像を作成することを特徴とする番組画像配信システム。
【請求項2】
前記各遠隔再生処理装置の端末番組画像生成手段は、
前記各音声量子を、入力された前記音声とは異なる音声を示す背景音声データと同期させる端末音声同期手段と、
同期した前記各音声量子と前記背景音声データを再生する音声再生手段と、
前記音声再生手段により再生されている前記音声量子の後に再生されるべき前記音声量子の特徴を検出し、前記制御命令及び検出した前記音声量子の特徴に対応して、キャラクタ要素画像から前記キャラクタ画像を作成し、撮像されて得られた実写データと前記キャラクタ画像とを合成して前記番組画像を作成する画像生成手段と、
前記音声再生手段により再生されている前記音声量子の特徴を検出して、前記画像生成手段による前記番組画像の作成処理と前記音声再生手段による前記各音声量子の再生処理とを同期させる同期手段を有する、請求項1記載の番組画像配信システム。
【請求項3】
前記配信管理手段は、
前記キャラクタ要素画像、前記実写データ及び前記背景音声データを記憶する記憶手段と、
前記複数の遠隔再生処理装置の一部又は全部に対して、必要に応じて、前記第1のキャラクタ要素画像又は前記第2のキャラクタ要素画像、前記実写データ及び前記背景音声データを送信するデータ送信手段を有するものであり、
動画データを表示する遠隔再生装置と、
前記制御命令及び受信した前記各音声量子に対応して前記キャラクタ要素画像から前記キャラクタ画像を作成し、前記各音声量子と合成して動画データを作成して、前記遠隔再生装置に対して前記動画データを送信する動画生成手段を備え、
前記遠隔再生装置は、受信した前記動画データを再生するものである、
請求項2に記載の番組画像配信システム。
【請求項4】
前記動画生成手段は、生成された前記動画データの送信先として、前記音声入力端末、前記複数の遠隔再生処理装置及び前記遠隔再生装置の一部又は全部を指示されるものであり、
生成された前記動画データの送信先として、前記複数の遠隔再生処理装置の一部又は全部が指示された場合には、
前記配信管理手段の前記音声量子送信手段は、指示された前記遠隔再生処理装置に対して前記各音声量子を送信せず、
指示された前記遠隔再生処理装置は、受信した前記動画データを再生する、
請求項3記載の番組画像配信システム。
【請求項5】
複数の遠隔再生処理装置において、入力された音声を再生しつつ、入力された前記音声に対応してキャラクタ画像を作成して生成された番組画像を表示する番組画像配信方法であって、
前記複数の遠隔再生処理装置には、入力された前記音声に対応して第1のキャラクタ画像を作成する第1の遠隔再生処理装置と、入力された前記音声に対応して、前記第1のキャラクタ画像を生成できるだけでなく、前記第1のキャラクタ画像に代えて、前記第1のキャラクタ画像とは異なる第2のキャラクタ画像を作成できる第2の遠隔再生処理装置が含まれており、
音声入力手段に前記音声が入力される音声入力ステップと、
配信管理手段が備える音声量子化手段が、入力された前記音声を分割して、その一部又は全部を音声量子として抽出する音声量子化ステップと、
前記配信管理手段が備える音声量子送信手段が、前記各遠隔再生処理装置に対して、前記各音声量子を送信する音声量子送信ステップと、
前記第1の遠隔再生処理装置が備える端末番組画像生成手段が、受信した前記各音声量子を再生しつつ、キャラクタの動作を制御するための制御命令及び受信した前記各音声量子に対応してキャラクタ要素画像から前記第1のキャラクタ画像を作成して前記番組画像を表示し、前記第2の遠隔再生装置が備える端末番組画像再生手段が、受信した前記各音声量子を再生しつつ、前記制御命令及び受信した前記各音声量子に対応して、前記第1の遠隔再生処理装置における前記キャラクタ要素画像とは異なるキャラクタ要素画像から前記第2のキャラクタ画像を作成して、又は、前記第1の遠隔再生処理装置における前記キャラクタ要素画像と同じキャラクタ要素画像から前記第1のキャラクタ画像を作成して前記番組画像を表示する番組画像表示ステップ
を含むことを特徴とする番組画像配信方法。
【請求項6】
コンピュータを、請求項5記載の端末番組画像再生手段として機能させるためのプログラム。
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図1】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図1】
【公開番号】特開2011−55483(P2011−55483A)
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願番号】特願2010−174677(P2010−174677)
【出願日】平成22年8月3日(2010.8.3)
【出願人】(509117469)有限会社BOND (3)
【Fターム(参考)】
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願日】平成22年8月3日(2010.8.3)
【出願人】(509117469)有限会社BOND (3)
【Fターム(参考)】
[ Back to top ]