説明

カラオケ装置、カラオケ装置の制御方法及び制御プログラム

【課題】取り込んだ写真データ等の画像データを、カラオケ用の背景動画像として容易に用いる。
【解決手段】カラオケ演奏端末13は、取り込んだ複数の静止画像を解析した結果に基づいて、複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択する。そして、当該エフェクト設定を構成するエフェクトが施された動画像を生成して、カラオケ楽曲の再生に同期させて、生成した動画像を再生する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、カラオケ装置、カラオケ装置の制御方法及び制御プログラムに関する。
【背景技術】
【0002】
従来、カラオケ装置は、カラオケ楽曲データを処理して伴奏音楽としてのカラオケ楽曲をスピーカ等の音響システムを介して出力するとともに、このカラオケ楽曲に同期させて歌詞画像をディスプレイに出力していた。
【0003】
これらと並行して、カラオケ装置は、ビデオCD等に記憶された映像データを処理して、背景映像を再生し、この背景映像に歌詞画像をスーパーインポーズ表示するものが知られている。
また、カラオケ楽曲の演奏時に外部から入力された画像データを歌詞画像の背景映像として表示することも提案されている。
また、静止画像にエフェクトを施して表示する機能を有するものも知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平11−259079号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、ユーザが歌詞画像の背景映像として表示する画像データを持ち込んだ場合には、静止画像に施すべきエフェクトを、例えばユーザによって決定することが考えられる。
【0006】
しかし、静止画像毎にエフェクトを決定する作業はユーザにとって煩雑である。特にカラオケ装置においては、カラオケ楽曲を演奏して、ユーザが歌うことを目的としており、手間をかけて背景動画像の編集を行うことは考えにくい。
【0007】
そこで、本発明の目的は、取り込んだ写真データ等の画像データを、カラオケ用の背景動画像として容易に用いることが可能な動画像を生成するカラオケ装置、カラオケ装置の制御方法および制御プログラムを提供することにある。
【課題を解決するための手段】
【0008】
実施形態のカラオケ装置は、複数の静止画像を解析する解析手段を備え、エフェクト設定選択手段は、解析の結果に基づいて、複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択する。
【0009】
これにより、動画像生成手段は、選択されたエフェクト設定を用いて、当該エフェクト設定を構成するエフェクトが施された動画像を生成し、カラオケ再生手段は、カラオケ楽曲を再生するとともに、カラオケ楽曲の再生に同期させて、生成した前記動画像を再生する。
【図面の簡単な説明】
【0010】
【図1】図1は、実施形態に係るカラオケ装置を備えた通信カラオケシステムの概要構成説明図である。
【図2】図2は、カラオケ演奏端末のブロック図である。
【図3】図3は、カラオケ装置の要部の機能構成説明図である。
【図4】図4は、素材情報の構成説明図である。
【図5】図5は、分析情報の一構成例の説明図である。
【図6】図6は、笑顔度と人数とに基づいて決定されるエフェクトの一例を説明する図である。
【図7】図7は、上述した各エフェクト集に対応する具体的なエフェクト例の説明図である。
【図8】図8は、カラオケ再生処理の処理フローチャートである。
【図9】図9は、素材分析処理の処理フローチャートである。
【発明を実施するための形態】
【0011】
次に実施の形態について図面を参照して説明する。
図1は、実施形態に係るカラオケ装置を備えた通信カラオケシステムの概要構成説明図である。
通信カラオケシステム10は、カラオケ楽曲データ等を格納した図示しないカラオケデータベースを有するカラオケホスト11と、カラオケホスト11に対し、インターネット、VPN等の通信ネットワーク12を介して接続された複数のカラオケ演奏端末13と、各カラオケ演奏端末13に無線通信ネットワークを介して接続される複数のユーザ操作端末14と、を備えている。
【0012】
図2は、カラオケ演奏端末のブロック図である。
カラオケ演奏端末13は、カラオケ演奏端末13全体を制御するコントローラ101と、ユーザによるカラオケ演奏端末13の操作入力を直接あるいはユーザ操作端末14を介して間接に受け付けたり、ユーザ所有のUSB機器あるいはメモリカード等からデータの入力を受け付けたりするユーザインタフェース102と、各種データ及びデータベースを記憶したハードディスクドライブ(HDD)103と、を備えている。
【0013】
また、カラオケ演奏端末13は、通信ネットワーク12を介してカラオケホスト11との間の通信を行う通信インタフェース(I/F)104と、CD、DVD等の光ディスクの記録/再生を行う光ディスクドライブ105と、VRAM106に格納されている表示画像データに基づいてディスプレイ107に各種表示を行う表示コントローラ108と、を備えている。
【0014】
さらに、カラオケ演奏端末13は、マイクロフォン109A、109Bからの入力音声をコントローラ側から入力されるカラオケ音響データに対応するカラオケ音響信号に重畳してスピーカ110に出力するサウンドコントローラ111と、各種画像を撮像するカメラ112と、を備えている。
【0015】
上記構成において、コントローラ101は、当該コントローラ101全体を制御するCPU121と、各種制御プログラムを不揮発的に記憶するROM122と、各種データを一時的に格納し、ワーキングエリアとして機能するRAM123と、を備えている。
【0016】
ユーザI/F102は、ユーザが各種操作を行う図示しない操作子が配置された操作パネル125と、USBコネクタ126を介して接続された外部のUSB機器の制御を行うUSBコントローラ127と、カードコネクタ128を介して接続された外部のメモリカードの制御を行うカードコントローラ129と、ユーザ操作端末14からの無線通信により遠隔操作がなされるリモコンインタフェース(I/F)130と、を備えている。
【0017】
図3は、カラオケ装置の要部の機能構成説明図である。
ここでは、動画像再生アプリケーションプログラム202が有する機能のうち、動画像生成機能を実現するための機能構成について説明する。
【0018】
この動画像生成機能は、ユーザI/F102(上述のUSBコントローラ127、カードコントローラ129等)を介して外部デバイス(USBメモリ、メモリカード等)から格納された素材データ51だけでなく、HDD103内の所定のディレクトリに格納された素材データ51や、通信インタフェース104及び通信ネットワーク12を介して格納された素材データ51に対しても適用できる。
【0019】
ここで、素材データ51とは、例えば、HDD103内の所定のディレクトリに格納された素材データ51を例とすると、静止画像データ301A、音声データ301B、動画像データ301C等である。
【0020】
動画像再生アプリケーションプログラム202は、コントローラ101のRAM123上に展開されており、機能的に見ると、素材入力部21、素材分析部22及び動画再生部23を備えている。
【0021】
素材入力部21は、USBコントローラ127、カードコントローラ129等のユーザI/F102を介して、素材データ51が入力されると、素材データ51をHDD103内のデータベース131を構成する素材データベース301に格納する。ここで、素材データベース301は、生成される動画像に用いられる素材データ51を格納するためのデータベースである。
【0022】
具体的には、素材データベース301には、素材データ51としての静止画像データ301A、音声データ301B、動画像データ301C等が格納される。素材データベース301に格納された素材データ51は、生成すべき動画像の素材候補として用いられる。
【0023】
また、素材入力部21は、素材データ51がHDD103に格納されたことを素材分析部22に通知する。
【0024】
素材分析部22は、素材入力部21からの通知に応答して、素材データ51を分析処理を開始する。
以下の説明においては、分析処理の分析対象である素材データ51として、写真データが入力された場合を説明する。また、分析の目的としては、素材データ51としての写真データに含まれる人物の表情(特に笑顔)及び人数を分析結果として出力するものとする。
【0025】
素材分析部22は、大別すると、顔画像検出部221と、表情検出部222と、人数検出部223と、を備えている。なお、以下の説明においては、分析対象の素材データ51が静止画像データ301Aである場合を想定する。
【0026】
顔画像検出部221は、静止画像データ301Aから顔画像を検出する顔検出処理を実行する。顔画像は、例えば、静止画像データ301Aの特徴を解析し、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって検出することができる。ここで、顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって抽出された特徴データである。
【0027】
顔検出処理の実行がなされると、静止画像データ301A内に含まれる各顔画像の位置(座標)、サイズ、正面度等が検出される。
【0028】
さらに、顔画像検出部221は、静止画像データ301Aから検出された複数の顔画像を、同一の人物と推定される顔画像別のグループに分類する。
【0029】
また、顔画像検出部221は検出された顔画像に対応する人物を識別(特定)してもよい。その場合、顔画像検出部221は、例えば、識別する人物の顔画像特徴サンプルを用いて、検出された顔画像がその人物であるか否かを判定する。顔画像検出部221は、上述の結果に基づき、検出された顔画像に人物毎の顔IDを付与する。顔画像検出部221は、検出した顔画像の情報(顔画像そのものおよび分類結果)を表情検出部222及び人数検出部223に出力する。
【0030】
これにより、顔画像の情報が入力された表情検出部222は、顔画像検出部221によって検出された顔画像に対応する表情を検出する。そして、表情検出部222は、当該顔画像が検出された表情である尤もらしさを示す度合い(尤度)を算出する。
【0031】
本実施形態においては、表情検出部222は、検出された顔画像に対応する表情が「笑顔」であるか否かを判定している。具体的には、表情検出部222は、例えば、「笑顔」の顔画像特徴サンプルに類似する特徴を有する顔画像を「笑顔」であると判定している。
【0032】
そして、表情検出部222は、顔画像に対応する表情を「笑顔」であると判定した場合には、顔画像が笑顔であると推測する尤もらしさの度合いを笑顔度として算出することとなる。この場合において、1枚の静止画像データ301Aから複数の画像が検出されている際には、表情検出部222は、例えば、複数の顔画像の笑顔度の平均を、静止画像データ301Aの笑顔度とする。
【0033】
なお、笑顔度は、数値に限らず、例えば「高い」、「低い」といった相対的な指標で表してもよい。笑顔度を相対的な指標で表す際に、1枚の静止画像データ301Aから複数の顔画像が検出されているときには、表情検出部222は、例えば、より多くの顔画像に設定されている方の指標(例えば、「高い」)を、静止画像データ301Aの笑顔度に決定する。
【0034】
以下の本実施形態の説明では、説明の簡略化のため、笑顔度のみを例として説明するが、表情検出部222は、笑顔に限らず、怒った顔、泣き顔、驚いた顔、無表情等、あらゆる表情である尤度を算出してもよい。
【0035】
一方、人数検出部223は、静止画像データ301Aに含まれる人物の数を検出する。人数検出部223は、例えば、顔画像検出部221によって検出された顔画像の数を、静止画像データ301Aに含まれる人物の数とする。また、人数検出部223は、例えば、顔画像を含む人物の全身や体の一部等を検出することにより、後ろ姿で捉えられた人物等を含む人数を算出してもよい。
【0036】
なお、人数は、数値に限らず、例えば「多い」、「少ない」といった相対的な指標で表してもよい。人数検出部223は、例えば、静止画像データ301Aからしきい値以上の数の顔画像が検出されているとき、静止画像データ301Aの人数を「多い」に決定する。
【0037】
素材分析部22は、素材データ51に付加された後述する素材情報302A及び素材分析部22の分析により生成された分析情報302Bを、HDD103内の素材情報データベース302に格納する。
【0038】
図4は、素材情報の構成説明図である。
素材情報302Aは、素材ID、ファイルパス、ファイルサイズ、ファイル形式、生成日時、生成場所、種類、画像サイズ、再生時間、入力経路を示す情報を含んでいる。
【0039】
ここで、「素材ID」は、素材データ51を特定するために、一意に割り当てられる識別情報である。「ファイルパス」は、素材データ51がHDD103上で、格納される場所を示す。「ファイルサイズ」は、素材データ51のデータサイズを示す。「ファイル形式」は、素材データ51のデータフォーマット(例えば、動画であれば、mpegフォーマット、wmaフォーマット等、静止画であればjpegフォーマット、bmpフォーマット等、音声であればmp3フォーマット、wavフォーマット等)を示す。「生成日時」は、素材データ51が生成された日時を表す情報(例えば、2010年11月10日等)を示す。「生成場所」は、素材データ51が生成された場所を表す位置情報(例えば、GPS測位による経度・移動情報)を示す。「種類」は、素材データ51のデータ内容の種類(例えば、静止画像、音声、動画像等)を示す。「画像サイズ」は、素材データ51が、静止画像データ301A又は動画像データ301Cに対応するものであるときに、それらの表示時の画像サイズ(例えば、1024×768ピクセル等)を示す。「再生時間」は、素材データ51が、音声データ301B又は動画像データ301Cに対応するものであるときに、通常速度で再生時の再生時間を示す。「入力経路」は、素材データ51がカラオケ演奏端末13に入力された経路(例えば、外部記憶メディア、外部記憶装置、ネットワーク上のサーバ等)を示す。
【0040】
図5は、分析情報の一構成例の説明図である。
分析情報302Bは、図5に示すように、例えば、上述した素材ID、笑顔度、人数及び顔画像情報を含む。
【0041】
また、顔画像情報は、上述の顔検出処理による分析結果に基づく情報を示す。したがって、顔画像情報は、例えば、顔画像、サイズ、位置、顔IDを示す情報を含む。また、顔画像情報は、各顔画像の笑顔度を含んでもよい。
なお、分析情報302Bには、1つの静止画像データ301Aから検出された顔画像に対応する数だけ、顔画像情報が格納される。
【0042】
また、素材分析部22は、静止画像データ301Aから人物(顔画像を含む全身や体の一部等)、風景(海、山、花等)、動物(犬、猫、魚等)等のオブジェクトを検出(認識)し、それら分析結果(検出結果)を示す情報を含む分析情報302Bを生成してもよい。
【0043】
さらに、素材分析部22は、素材情報302Aや静止画像データ301Aから撮影時刻、撮影位置等を推定し、それら分析結果(推定結果)を示す情報を含む分析情報302Bを生成してもよい。その場合、図5に示すように、分析情報302Bには、人物画像、サイズ、位置、及び人物IDを含む人物画像情報、風景画像、サイズ、位置、及び属性を含む風景情報、動物画像、サイズ、位置、及び属性を含む動物情報、撮影時刻、並びに撮影位置が含まれる。
【0044】
なお、素材分析部22は、音声データ301Bを分析し、検出された声に対応する人物の情報及び人物の数、検出された音楽の雰囲気及びジャンル等を含む分析情報302Bを生成してもよい。
【0045】
さらに、素材分析部22は、動画像データ301Cに含まれる各画像フレームを、静止画像データ301Aと同様に分析し、上述の笑顔度、人数、顔画像情報等を含む分析情報302Bを生成してもよい。
【0046】
素材分析部22は、入力された素材データ51に対応する素材情報302A及び分析情報302Bが、素材情報データベース302に格納されたことを動画再生部23に通知する。
【0047】
動画再生部23は、素材分析部22からの通知に応答して、素材データ51を用いて合成動画(動画像)を生成し、生成された合成動画を再生(表示)する処理を開始する。その際、動画再生部23は、素材情報データベース302を参照して、所定の条件を満たす素材データ51を素材データベース301から抽出し、合成動画を生成する。
この場合において、動画再生部23は、エフェクト抽出部231と、合成動画生成部232と、合成動画出力部233と、を備えている。
【0048】
エフェクト抽出部231は、エフェクトデータベース303から、取り込んだ素材データ51に適したエフェクトデータ303Aを抽出する。ここで、エフェクトデータ303Aとしては、ズーム、回転、ノイズ追加、モザイク化、輪郭抽出、エンボス等の通常のビデオエフェクトの他、シーン間をつなぐトランジションも含まれるものとする。
【0049】
具体的には、エフェクト抽出部231は、まず、素材情報データベース302から、抽出された素材データ51に対応する分析情報302Bに含まれる笑顔度と人数とを抽出する。
【0050】
そして、エフェクト抽出部231は、抽出した笑顔度と人数とに基づいて、抽出された素材データ51に適したエフェクトデータ303Aを選択する。エフェクト抽出部231は、例えば、抽出された複数の静止画像データ301A(素材データ51)の各々に対応する笑顔度と人数とから、これら複数の静止画像データ301A全体での笑顔度の指標と人数の指標とを算出する。
【0051】
すなわち、エフェクト抽出部231は、例えば、抽出された複数の静止画像データ301Aのうち、笑顔度が第1しきい値以上である顔画像を含む静止画像データ301Aの数を、複数の静止画像データ301A全体での笑顔度の指標に決定する。
【0052】
また、エフェクト抽出部231は、例えば、抽出された複数の静止画像データ301Aの各々に対応する笑顔度の平均を、これら複数の静止画像データ301A全体の笑顔度の指標に決定してもよい。
【0053】
また、エフェクト抽出部231は、例えば、抽出された複数の静止画像データ301Aのうち、人数が第2しきい値以上である静止画像データ301Aのうちの数を、複数の静止画像データ301A全体での人数の指標に決定する。また、エフェクト抽出部231は、例えば、抽出された複数の静止画像データ301Aの各々に対応する人数の平均を、これら複数の静止画像データ301A全体の人数の指標に決定してもよい。
【0054】
なお、上述のように、笑顔度と人数とは相対的な指標で表されてもよい。したがって、例えば、抽出された複数の静止画像データ301Aの各々に「高い」又は「低い」という笑顔度が設定されているとき、エフェクト抽出部231は、より多くの静止画像データ301Aに設定されている方の指標(例えば、「高い」)を、これら複数の静止画像データ301A全体の笑顔度に決定する。また、例えば、抽出された複数の静止画像データ301Aのうち、所定の割合(第1しきい値)以上の静止画像データ301Aに「高い」という笑顔度が設定されているとき、エフェクト抽出部231は、これら複数の静止画像データ301A全体の笑顔度を「高い」に決定する。
【0055】
同様に、例えば、抽出された複数の静止画像データ301Aの各々に「多い」又は「少ない」という人数が設定されているとき、エフェクト抽出部231は、より多くの静止画像データ301Aに設定されている方の指標(例えば、「少ない」)を、これら複数の静止画像データ301A全体の人数に決定する。また、例えば、抽出された複数の静止画像データ301Aのうち、所定の割合(第2しきい値)以上の静止画像データ301Aに「多い」という人数が設定されているとき、エフェクト抽出部231は、これら複数の静止画像データ301A全体の人数を「多い」に決定する。
【0056】
エフェクト抽出部231は、上述のように決定される、抽出された複数の静止画像データ301A全体に対応する笑顔度と人数とに基づいて、これら複数の静止画像データ301Aに適したエフェクトデータ303Aを決定する。
【0057】
図6は、笑顔度と人数とに基づいて決定されるエフェクトの一例を説明する図である。
エフェクト抽出部231は、抽出された複数の静止画像データ301A全体に対応する笑顔度と人数とに応じて、人数が多く、笑顔度が高い素材である場合には、人数が多く、笑顔度が高い素材である場合に適すると考えられるエフェクト集51Aを選択する。
【0058】
また、エフェクト抽出部231は、人数が多く、笑顔度が低い素材である場合には、人数が多く、笑顔度が低い素材である場合に適すると考えられるエフェクト集51Bを選択する。
【0059】
また、エフェクト抽出部231は、人数が少なく、笑顔度が低い素材である場合には、人数が少なく、笑顔度が低い素材に適すると考えられるエフェクト集51Cを選択する。
【0060】
また、エフェクト抽出部231は、人数が少なく、笑顔度が高い素材である場合には、人数が少なく、笑顔度が高い素材に適すると考えられるエフェクト集51Dを選択する。
【0061】
図7は、上述した各エフェクト集に対応する具体的なエフェクト例の説明図である。
人数が多く、笑顔度が高い素材に適したエフェクト集52Aとしては、幸せな印象や元気な印象を想起させる効果(装飾)を有する一群のエフェクトが用いられる。したがって、その場を盛り上げることができるような効果が付与される。
【0062】
また、人数が多く、笑顔度が低い素材に適したエフェクト集52Bとしては、セレモニーを想起させる効果を有する一群のエフェクトが用いられる。したがって、例えば、荘厳な雰囲気を醸し出すような効果が付与される。
【0063】
また、人数が少なく、笑顔度が低い素材に適したエフェクト集52Cとしては、クールな印象や近未来的な印象を想起させる効果を有する一群のエフェクトが用いられる。
また、人数が少なく、笑顔度が高い素材に適したエフェクト集52Dには、ファンタジーや魔法といった印象を想起させる効果を有する一群のエフェクトが用いられる。
【0064】
これらエフェクト集52A〜52Dでは、エフェクトに用いられる色、形状、動き(モーション)、オブジェクト等を変更することによって、ユーザに認識される印象が変化するように設計される。
【0065】
したがって、例えば、幸せな印象や元気な印象を想起させる効果を有するエフェクト集52Aは、明るい色や鮮やかな色を用いたエフェクトを含む。また、例えば、クールな印象や近未来的な印象を想起させる効果を有するエフェクト集52Cは、幾何学的な形状を用いたエフェクトを含む。
【0066】
なお、エフェクト抽出部231は、抽出された複数の静止画像データ301Aに適するエフェクトを、図6及び図7に示すような4種類に分類されたエフェクト集に限らず、さらに細かく分類されたエフェクト集から選択することもできる。その場合、人数及び笑顔度の値(値域)に対応する、所定の種類のエフェクト集が予め規定され、エフェクト抽出部231は、規定された所定の種類のエフェクト集から、抽出された複数の静止画像データ301Aに適したエフェクト集を選択する。
【0067】
また、エフェクト抽出部231は、人数及び笑顔度以外の指標を用いて、抽出された複数の静止画像データ301Aに適したエフェクト集を選択してもよい。
【0068】
次にエフェクト抽出部231は、選択したエフェクト集に対応するエフェクトデータ303Aをエフェクトデータベース303から抽出し、抽出したエフェクトデータ303Aを合成動画生成部232に出力する。
【0069】
これにより、合成動画生成部232は、取り込まれた素材データ51を含むカラオケ背景動画像となる合成動画を生成する。
このとき、合成動画に含まれる素材データ51には、エフェクト抽出部231により抽出されたエフェクトデータ303Aが施されている。
【0070】
また、例えば、合成動画に含まれる静止画像データ301A(素材データ51)に登場する人物の顔画像(オブジェクト)に対して、エフェクト抽出部231により抽出されたエフェクトデータ303Aが施されている。
合成動画生成部232は、例えば、エフェクトデータ303Aによって規定されたタイミングで表示される静止画像データ301Aを含む合成動画を生成する。
【0071】
また、この合成動画は、所定のタイミングで出力される音声データ301Bを含んでもよい。
そして、合成動画生成部232は、生成した合成動画を合成動画出力部233に出力する。
【0072】
なお、エフェクト抽出部231は、取り込まれた素材データ51に対して、表情(例えば、笑顔度)と人数に基づくエフェクトデータ303Aを施してもよい。その場合、合成動画生成部232は、エフェクト抽出部231によってエフェクトが施された複数の静止画像を含む動画像(合成動画)をカラオケ背景動画像として生成する。
【0073】
合成動画出力部233は、合成動画生成部232によって生成された合成動画像を出力する。
合成動画出力部233は、合成動画を再生し、画面(ディスプレイ107)に表示する。
【0074】
また、合成動画出力部233は、合成動画をエンコードし、エンコードした合成動画のファイルを所定の記憶装置(例えば、HDD103等)に格納してもよい。
【0075】
以上の構成により、動画像再生アプリケーションプログラム202は、カラオケ背景動画像としての合成動画に用いられる素材データ51に適したエフェクト(エフェクト群)303Aを決定する。
【0076】
具体的には、エフェクト抽出部231は、例えば、合成動画に用いられる複数の静止画像データ301Aの各々の笑顔度と人数とに基づいて、これら複数の静止画像データ301A全体の笑顔度と人数との指標を決定する。エフェクト抽出部231は、決定した笑顔度と人数との指標に基づいて、カラオケ背景動画像としての合成動画に用いられる複数の静止画像データ301Aに適したエフェクトデータ303Aを選択する。
【0077】
したがって、合成動画に用いられるエフェクトデータ303Aを選択する操作をユーザが行うことなく、合成動画生成部232は、適切なエフェクトデータ303Aが施された複数の静止画像データ301Aを含むカラオケ背景動画像(合成動画像)を生成することができる。
【0078】
次に実施形態のカラオケ背景動画像の生成及び再生処理について説明する。
図8は、カラオケ再生処理の処理フローチャートである。
まず、カラオケ演奏端末13のコントローラ101は、カラオケ背景動画像としての合成動画に用いる素材データ51を取り込む(ステップS11)。
【0079】
素材データ51の取込方法としては、USBコネクタ126を介して外部USB機器から取り込む方法、カードコネクタ128を介して外部のメモリカードから取り込む方法、カメラ112により撮影して取り込む方法、HDD103に記憶されている共用素材データを取り込む方法、カラオケホスト11から通信ネットワーク12を介して共用素材データをダウンロードする方法等が考えられる。
【0080】
一般的なユーザにおける素材データ51の取込方法としては、USBコネクタ126、カードコネクタ128あるいはカメラ112から取り込む方法が採られる。
【0081】
具体的には、USBコネクタ126にUSBメモリ、USB接続ハードディスク、USB接続SSD(Solid State Drive)等の外部記憶装置が接続された場合には、USBコントローラ127を介して、写真データ等の静止画データを素材データ51として取り込む。
【0082】
また、カードコネクタ128に外部のメモリカードが接続された場合には、カードコントローラ129と、カードコントローラ129を介して写真データ等の静止画データを素材データ51として取り込む。
【0083】
また、ユーザの操作によりカメラ112により撮影がなされた場合には、撮影した写真データを素材データ51として取り込む。
【0084】
次にコントローラ101は、動画像再生アプリケーションプログラム202を実行して素材分析処理を行う(ステップS12)。
【0085】
図9は、素材分析処理の処理フローチャートである。
以下では、素材分析対象の素材データ51が写真データ等の静止画像データ301Aである場合を想定する。
【0086】
まず、素材入力部21は、インタフェース部等を介して、静止画像データ301Aが入力されたか否かを判別する(ステップS21)。
ステップS21の判別において、静止画像データ301Aが入力されていない場合には(ステップS21;No)、待機状態となる。
【0087】
ステップS21の判別において、静止画像データ301Aが入力されている場合には(ステップS21;Yes)、素材入力部21は、入力された静止画像データ301Aを素材データベース301に格納する(ステップS22)。そして、素材入力部21は、静止画像データ301Aが入力されたことを素材分析部22(顔画像検出部221)に通知する。
【0088】
次に、顔画像検出部221は、入力された静止画像データ301Aから顔画像を検出する(ステップS23)。
すなわち、顔画像検出部221は、静止画像データ301A内に含まれる各顔画像の位置(座標)、サイズ、正面度等を検出する。この場合において、顔画像検出部221により、検出した顔画像に対応する人物を認識(識別)するようにしてもよい。
そして、顔画像検出部221は、検出した顔画像を示す情報を表情検出部222及び人数検出部223に出力する。
【0089】
これにより、表情検出部222は、顔画像検出部221により検出された顔画像の笑顔度を決定する(ステップS24)。
ここで、笑顔度とは、検出された顔画像が笑顔である尤もらしさの度合い(尤度)を示す指標である。一つの静止画像データ301Aから複数の顔画像が検出されている際には、それら顔画像の笑顔度に基づいて、静止画像データ301Aの笑顔度を決定する。
【0090】
また、人数検出部223は、顔画像検出部221により検出された顔画像の数に基づいて、静止画像データ301Aに含まれる人物の数を決定する(ステップS25)。
これらの結果、素材分析部22は、静止画像データ301Aに対応する笑顔度、人数、顔画像情報等を含む分析情報302Bを素材情報データベース302に格納する(ステップS26)。
【0091】
以上の処理により、入力された静止画像データ301Aに含まれる顔画像の笑顔度と人数とを決定し、これら笑顔度と人数とを含む分析情報302Bが素材情報データベース302に格納される。
【0092】
次にコントローラ101は、動画像再生アプリケーションプログラム202に基づいて、エフェクト抽出部231として機能し、分析結果に基づいて動画像生成に用いる一連のエフェクトを選択する(ステップS13)。すなわち、コントローラ101は、エフェクト抽出部231として機能して、取り込んだ素材データ51に対応する分析情報302Bに基づいて、取り込んだ素材データ51に適したエフェクト集を選択する。そして、コントローラ101は、選択したエフェクト集に対応するエフェクトデータ303Aをエフェクトデータベース303から抽出する。
【0093】
続いて、コントローラ101は、合成動画生成部232として機能し、抽出された素材データ51とエフェクトデータ303Aとを用いて、合成動画を生成する(ステップS14)。ここで、生成された合成動画には、エフェクトデータ303Aが施された素材データ51が含まれる。なお、コントローラ101は、エフェクト抽出部231として機能するに際し、取り込んだ素材データ51に選択したエフェクトデータ303Aを施すようにしてもよい。
これにより、コントローラ101は、合成動画生成部232として機能するに際し、エフェクトデータ303Aが施された素材データ51を含む合成動画を生成する。
【0094】
続いて、コントローラ101は、合成動画出力部233として機能し、合成動画を、カラオケ楽曲の背景動画像として、表示コントローラ108を介して、カラオケ楽曲に対応する歌詞とともにディスプレイ107に表示させる。
【0095】
これと並行して、コントローラ101は、サウンドコントローラ111を制御して、マイクロフォン109A、109Bから入力された、ユーザの入力音声に、カラオケ楽曲をミキシングしてスピーカ110から音響出力する(ステップS15)。
【0096】
この場合において、ユーザにより録画を行う旨の設定がなされ、あるいは、基本設定として録画を行う旨の設定がなされている場合には、カラオケ楽曲の背景動画像として合成動画及びユーザの入力音声にカラオケ楽曲をミキシングした音声をHDD103に録画し、あるいは、予め光ディスクドライブ105にセットされた書き込み可能なCDあるいは書き込み可能なDVD等に録画を行うようになっている。
【0097】
また、コントローラ101は、曲のテンポを変更したり、早送り等、合成動画の再生速度を変更したりするようなトリック再生が行われているか否かを判別し(ステップS16)、トリック再生が行われている場合には(ステップS16;Yes)、カラオケ楽曲の再生終了タイミングを算出して、再生終了タイミングに合わせて、カラオケ楽曲の背景動画像として合成動画の再生終了もなされるように、未再生部分の合成動画の再生成を行い(ステップS17)、処理を再びステップS15に移行する。
【0098】
また、ステップS16の判別において、トリック再生が行われていない場合には(ステップS16;No)、カラオケ楽曲の再生が終了するまで、ステップS15におけるカラオケ楽曲の背景動画像をカラオケ楽曲に対応する歌詞とともにディスプレイ107に表示させるとともに、ユーザの入力音声に、カラオケ楽曲をミキシングしてスピーカ110から音響出力する処理を継続することとなる。
【0099】
以上の処理により、取り込まれた素材データ51と、素材データ51に適したエフェクトデータ303Aとを用いた合成動画をカラオケ楽曲の背景動画像として生成して、カラオケ再生を行うことができる。
【0100】
このように、本実施形態によれば、ユーザは、取り込ませた素材データ51に適したエフェクトデータ303Aを選択するための作業を何ら行わなくても、適切なエフェクトデータ303Aが施された素材データ51を含む合成動画がカラオケ楽曲の背景動画像として生成される。そして生成されたカラオケ楽曲の背景動画像がディスプレイ107に表示されつつ、カラオケ楽曲の再生が行われる状態で、カラオケ演奏端末13を利用することができる。
【0101】
すなわち、ユーザはエフェクトデータ303Aに関する知識を全く有しないにも拘わらず、動画像再生アプリケーションプログラム202は、適切なエフェクトデータ303Aが施された素材データ51を含む合成動画像をカラオケの背景画像として容易に生成できる。
【0102】
なお、本実施形態の合成動画生成処理の手順は全てソフトウェアによって実行することができる。このため、合成動画生成処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。
【0103】
また本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。
【0104】
以上の説明においては、主として、笑顔度と人数とに基づいて、エフェクト、トランジション、シーン切替を選択するように構成していた。
【0105】
しかしながら、カラオケ楽曲の曲調、ビート等を検出し、曲調、ビート等に適合したエフェクト、トランジション、シーン切替を選択するように構成することも可能である。また、カラオケ楽曲における曲間(1番と2番等)、間奏期間等を検出して、表示する静止画像、付加するエフェクト、トランジション、シーンの切り替え等を選択するように構成することも可能である。
【0106】
また、歌詞表示における表示(切替)タイミングの制御データに基づいて、歌詞の表示切替タイミングを抽出し、静止画像、エフェクト、トランジション、シーンの切り替え等を選択するように構成することも可能である。
【0107】
さらには、歌詞データに含まれる歌詞を解析し、歌詞の内容に沿って表示する静止画像、付加するエフェクト、トランジション、シーンの切り替え等を選択するように構成することも可能である。具体的には、歌詞に悲しい単語が多く含まれるような場合には、暗く荘厳なイメージに合致する静止画像を表示し、エフェクトを付加し、トランジション、シーンの切り替え等を行うようにする。また、歌詞に楽しさ、明るさを表すような単語が多く含まれているような場合には、明るく、ポップな感じのイメージに合致する静止画像を表示し、エフェクトを付加し、トランジション、シーンの切り替え等を行うようにする。
【0108】
また、カメラ112により、例えば、カラオケ開始時に参加メンバの写真を撮影し、写真データに対応する写真画像に含まれる人物の年齢層、性別等に応じて、よりそれらの人々に好まれると考えられる静止画像を表示し、エフェクトを付加し、トランジション、シーンの切り替え等を行うように、構成することも可能である。
【0109】
以上の説明においては、ユーザI/F102を介して、素材データ51が入力された場合に全ての素材データ(全ての静止画データ等)を用いて、動画像を生成するものとして説明したが、カラオケ楽曲の曲調、演奏時間等に合わせてその一部を用いて動画像を生成するように構成することも可能である。例えば、カラオケ楽曲の演奏時間に対して、素材データ51の数が多い場合や、設定したシーン数が素材データ51の数を下回るような場合には、適宜素材データを間引くように構成する。また、トリックプレイ時であって、演奏時間が短くなる場合には、動画像の再生成に用いる素材データ51の数を適宜間引くようにすればよい。
【0110】
また、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【0111】
10 通信カラオケシステム
11 カラオケホスト
12 通信ネットワーク
13 カラオケ演奏端末(カラオケ装置)
21 素材入力部
22 素材分析部(解析手段)
23 動画再生部
51 素材データ
101 コントローラ(解析手段、エフェクト設定選択手段、動画像生成手段、カラオケ再生手段)
107 ディスプレイ(カラオケ再生手段)
108 表示コントローラ(カラオケ再生手段)
110 スピーカ(カラオケ再生手段)
111 サウンドコントローラ(カラオケ再生手段)
131 データベース(解析手段)
202 動画像再生アプリケーションプログラム
221 顔画像検出部(解析手段)
222 表情検出部(解析手段)
223 人数検出部(解析手段)
231 エフェクト抽出部(エフェクト設定選択手段)
232 合成動画生成部(動画像生成手段)
233 合成動画出力部(カラオケ再生手段)
302 素材情報データベース(解析手段)
302A 素材情報(解析手段)
302B 分析情報(解析手段)
303 エフェクトデータベース(エフェクト設定選択手段)

【特許請求の範囲】
【請求項1】
複数の静止画像を解析する解析手段と、
前記解析の結果に基づいて、前記複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択するエフェクト設定選択手段と、
前記選択された前記エフェクト設定を用いて、当該エフェクト設定を構成するエフェクトが施された前記動画像を生成する動画像生成手段と、
カラオケ楽曲を再生するとともに、前記カラオケ楽曲の再生に同期させて、生成した前記動画像を再生するカラオケ再生手段と、
を備えたことを特徴とするカラオケ装置。
【請求項2】
前記カラオケ再生手段は、再生中の前記動画像に前記カラオケ楽曲に対応する歌詞画像を、当該カラオケ楽曲の再生に同期させてスーパーインポーズ表示することを特徴とする請求項1記載のカラオケ装置。
【請求項3】
カメラ、記録媒体あるいは通信ネットワークを介して前記複数の静止画像を取り込み前記解析手段に出力する静止画像取込手段を備えたことを特徴とする請求項1又は請求項2記載のカラオケ装置。
【請求項4】
前記動画像生成手段は、前記カラオケ楽曲の再生テンポあるいは再生速度が変更された場合に、前記再生テンポあるいは前記再生速度に対応づけて前記動画像の生成に用いる前記静止画像の数あるいは各静止画像を表示する時間を動的に変更することを特徴とする請求項1乃至請求項3のいずれかに記載のカラオケ装置。
【請求項5】
前記カラオケ再生手段により再生されたカラオケ楽曲及び前記動画像にユーザの入力音声を重畳して記録媒体に記録する記録手段を備えたことを特徴とする請求項1乃至請求項4のいずれかに記載のカラオケ装置。
【請求項6】
前記解析手段は、カラオケ楽曲を解析し、
前記エフェクト設定選択手段は、得られたカラオケ楽曲の曲調、ビート等の解析の結果に基づいて動画像の生成に用いるエフェクト設定を選択する、
ことを特徴とする請求項1乃至請求項5のいずれかに記載のカラオケ装置。
【請求項7】
カラオケ装置において実行されるカラオケ装置の制御方法であって、
複数の静止画像を解析する解析過程と、
前記解析の結果に基づいて、前記複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択するエフェクト設定選択過程と、
前記選択された前記エフェクト設定を用いて、当該エフェクト設定を構成するエフェクトが施された前記動画像を生成する動画像生成過程と、
カラオケ楽曲を再生するとともに、前記カラオケ楽曲の再生に同期させて、生成した前記動画像を再生するカラオケ再生過程と、
を備えたことを特徴とするカラオケ装置の制御方法。
【請求項8】
カラオケ装置をコンピュータにより制御するための制御プログラムであって、
前記コンピュータを、
複数の静止画像を解析する解析手段、
前記解析の結果に基づいて、前記複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択するエフェクト設定選択手段、
前記選択された前記エフェクト設定を用いて、当該エフェクト設定を構成するエフェクトが施された前記動画像を生成する動画像生成手段、
カラオケ楽曲を再生するとともに、前記カラオケ楽曲の再生に同期させて、生成した前記動画像を再生するカラオケ再生手段、
として機能させることを特徴とする制御プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−137560(P2012−137560A)
【公開日】平成24年7月19日(2012.7.19)
【国際特許分類】
【出願番号】特願2010−288843(P2010−288843)
【出願日】平成22年12月24日(2010.12.24)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】