カラオケ装置、カラオケ装置の制御方法及び制御プログラム

【課題】取り込んだ写真データ等の画像データを、カラオケ用の背景動画像として容易に用いる。
【解決手段】カラオケ演奏端末１３は、取り込んだ複数の静止画像を解析した結果に基づいて、複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択する。そして、当該エフェクト設定を構成するエフェクトが施された動画像を生成して、カラオケ楽曲の再生に同期させて、生成した動画像を再生する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、カラオケ装置、カラオケ装置の制御方法及び制御プログラムに関する。
【背景技術】
【０００２】
従来、カラオケ装置は、カラオケ楽曲データを処理して伴奏音楽としてのカラオケ楽曲をスピーカ等の音響システムを介して出力するとともに、このカラオケ楽曲に同期させて歌詞画像をディスプレイに出力していた。
【０００３】
これらと並行して、カラオケ装置は、ビデオＣＤ等に記憶された映像データを処理して、背景映像を再生し、この背景映像に歌詞画像をスーパーインポーズ表示するものが知られている。
また、カラオケ楽曲の演奏時に外部から入力された画像データを歌詞画像の背景映像として表示することも提案されている。
また、静止画像にエフェクトを施して表示する機能を有するものも知られている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平１１−２５９０７９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ところで、ユーザが歌詞画像の背景映像として表示する画像データを持ち込んだ場合には、静止画像に施すべきエフェクトを、例えばユーザによって決定することが考えられる。
【０００６】
しかし、静止画像毎にエフェクトを決定する作業はユーザにとって煩雑である。特にカラオケ装置においては、カラオケ楽曲を演奏して、ユーザが歌うことを目的としており、手間をかけて背景動画像の編集を行うことは考えにくい。
【０００７】
そこで、本発明の目的は、取り込んだ写真データ等の画像データを、カラオケ用の背景動画像として容易に用いることが可能な動画像を生成するカラオケ装置、カラオケ装置の制御方法および制御プログラムを提供することにある。
【課題を解決するための手段】
【０００８】
実施形態のカラオケ装置は、複数の静止画像を解析する解析手段を備え、エフェクト設定選択手段は、解析の結果に基づいて、複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択する。
【０００９】
これにより、動画像生成手段は、選択されたエフェクト設定を用いて、当該エフェクト設定を構成するエフェクトが施された動画像を生成し、カラオケ再生手段は、カラオケ楽曲を再生するとともに、カラオケ楽曲の再生に同期させて、生成した前記動画像を再生する。
【図面の簡単な説明】
【００１０】
【図１】図１は、実施形態に係るカラオケ装置を備えた通信カラオケシステムの概要構成説明図である。
【図２】図２は、カラオケ演奏端末のブロック図である。
【図３】図３は、カラオケ装置の要部の機能構成説明図である。
【図４】図４は、素材情報の構成説明図である。
【図５】図５は、分析情報の一構成例の説明図である。
【図６】図６は、笑顔度と人数とに基づいて決定されるエフェクトの一例を説明する図である。
【図７】図７は、上述した各エフェクト集に対応する具体的なエフェクト例の説明図である。
【図８】図８は、カラオケ再生処理の処理フローチャートである。
【図９】図９は、素材分析処理の処理フローチャートである。
【発明を実施するための形態】
【００１１】
次に実施の形態について図面を参照して説明する。
図１は、実施形態に係るカラオケ装置を備えた通信カラオケシステムの概要構成説明図である。
通信カラオケシステム１０は、カラオケ楽曲データ等を格納した図示しないカラオケデータベースを有するカラオケホスト１１と、カラオケホスト１１に対し、インターネット、ＶＰＮ等の通信ネットワーク１２を介して接続された複数のカラオケ演奏端末１３と、各カラオケ演奏端末１３に無線通信ネットワークを介して接続される複数のユーザ操作端末１４と、を備えている。
【００１２】
図２は、カラオケ演奏端末のブロック図である。
カラオケ演奏端末１３は、カラオケ演奏端末１３全体を制御するコントローラ１０１と、ユーザによるカラオケ演奏端末１３の操作入力を直接あるいはユーザ操作端末１４を介して間接に受け付けたり、ユーザ所有のＵＳＢ機器あるいはメモリカード等からデータの入力を受け付けたりするユーザインタフェース１０２と、各種データ及びデータベースを記憶したハードディスクドライブ（ＨＤＤ）１０３と、を備えている。
【００１３】
また、カラオケ演奏端末１３は、通信ネットワーク１２を介してカラオケホスト１１との間の通信を行う通信インタフェース（Ｉ／Ｆ）１０４と、ＣＤ、ＤＶＤ等の光ディスクの記録／再生を行う光ディスクドライブ１０５と、ＶＲＡＭ１０６に格納されている表示画像データに基づいてディスプレイ１０７に各種表示を行う表示コントローラ１０８と、を備えている。
【００１４】
さらに、カラオケ演奏端末１３は、マイクロフォン１０９Ａ、１０９Ｂからの入力音声をコントローラ側から入力されるカラオケ音響データに対応するカラオケ音響信号に重畳してスピーカ１１０に出力するサウンドコントローラ１１１と、各種画像を撮像するカメラ１１２と、を備えている。
【００１５】
上記構成において、コントローラ１０１は、当該コントローラ１０１全体を制御するＣＰＵ１２１と、各種制御プログラムを不揮発的に記憶するＲＯＭ１２２と、各種データを一時的に格納し、ワーキングエリアとして機能するＲＡＭ１２３と、を備えている。
【００１６】
ユーザＩ／Ｆ１０２は、ユーザが各種操作を行う図示しない操作子が配置された操作パネル１２５と、ＵＳＢコネクタ１２６を介して接続された外部のＵＳＢ機器の制御を行うＵＳＢコントローラ１２７と、カードコネクタ１２８を介して接続された外部のメモリカードの制御を行うカードコントローラ１２９と、ユーザ操作端末１４からの無線通信により遠隔操作がなされるリモコンインタフェース（Ｉ／Ｆ）１３０と、を備えている。
【００１７】
図３は、カラオケ装置の要部の機能構成説明図である。
ここでは、動画像再生アプリケーションプログラム２０２が有する機能のうち、動画像生成機能を実現するための機能構成について説明する。
【００１８】
この動画像生成機能は、ユーザＩ／Ｆ１０２（上述のＵＳＢコントローラ１２７、カードコントローラ１２９等）を介して外部デバイス（ＵＳＢメモリ、メモリカード等）から格納された素材データ５１だけでなく、ＨＤＤ１０３内の所定のディレクトリに格納された素材データ５１や、通信インタフェース１０４及び通信ネットワーク１２を介して格納された素材データ５１に対しても適用できる。
【００１９】
ここで、素材データ５１とは、例えば、ＨＤＤ１０３内の所定のディレクトリに格納された素材データ５１を例とすると、静止画像データ３０１Ａ、音声データ３０１Ｂ、動画像データ３０１Ｃ等である。
【００２０】
動画像再生アプリケーションプログラム２０２は、コントローラ１０１のＲＡＭ１２３上に展開されており、機能的に見ると、素材入力部２１、素材分析部２２及び動画再生部２３を備えている。
【００２１】
素材入力部２１は、ＵＳＢコントローラ１２７、カードコントローラ１２９等のユーザＩ／Ｆ１０２を介して、素材データ５１が入力されると、素材データ５１をＨＤＤ１０３内のデータベース１３１を構成する素材データベース３０１に格納する。ここで、素材データベース３０１は、生成される動画像に用いられる素材データ５１を格納するためのデータベースである。
【００２２】
具体的には、素材データベース３０１には、素材データ５１としての静止画像データ３０１Ａ、音声データ３０１Ｂ、動画像データ３０１Ｃ等が格納される。素材データベース３０１に格納された素材データ５１は、生成すべき動画像の素材候補として用いられる。
【００２３】
また、素材入力部２１は、素材データ５１がＨＤＤ１０３に格納されたことを素材分析部２２に通知する。
【００２４】
素材分析部２２は、素材入力部２１からの通知に応答して、素材データ５１を分析処理を開始する。
以下の説明においては、分析処理の分析対象である素材データ５１として、写真データが入力された場合を説明する。また、分析の目的としては、素材データ５１としての写真データに含まれる人物の表情（特に笑顔）及び人数を分析結果として出力するものとする。
【００２５】
素材分析部２２は、大別すると、顔画像検出部２２１と、表情検出部２２２と、人数検出部２２３と、を備えている。なお、以下の説明においては、分析対象の素材データ５１が静止画像データ３０１Ａである場合を想定する。
【００２６】
顔画像検出部２２１は、静止画像データ３０１Ａから顔画像を検出する顔検出処理を実行する。顔画像は、例えば、静止画像データ３０１Ａの特徴を解析し、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって検出することができる。ここで、顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって抽出された特徴データである。
【００２７】
顔検出処理の実行がなされると、静止画像データ３０１Ａ内に含まれる各顔画像の位置（座標）、サイズ、正面度等が検出される。
【００２８】
さらに、顔画像検出部２２１は、静止画像データ３０１Ａから検出された複数の顔画像を、同一の人物と推定される顔画像別のグループに分類する。
【００２９】
また、顔画像検出部２２１は検出された顔画像に対応する人物を識別（特定）してもよい。その場合、顔画像検出部２２１は、例えば、識別する人物の顔画像特徴サンプルを用いて、検出された顔画像がその人物であるか否かを判定する。顔画像検出部２２１は、上述の結果に基づき、検出された顔画像に人物毎の顔ＩＤを付与する。顔画像検出部２２１は、検出した顔画像の情報（顔画像そのものおよび分類結果）を表情検出部２２２及び人数検出部２２３に出力する。
【００３０】
これにより、顔画像の情報が入力された表情検出部２２２は、顔画像検出部２２１によって検出された顔画像に対応する表情を検出する。そして、表情検出部２２２は、当該顔画像が検出された表情である尤もらしさを示す度合い（尤度）を算出する。
【００３１】
本実施形態においては、表情検出部２２２は、検出された顔画像に対応する表情が「笑顔」であるか否かを判定している。具体的には、表情検出部２２２は、例えば、「笑顔」の顔画像特徴サンプルに類似する特徴を有する顔画像を「笑顔」であると判定している。
【００３２】
そして、表情検出部２２２は、顔画像に対応する表情を「笑顔」であると判定した場合には、顔画像が笑顔であると推測する尤もらしさの度合いを笑顔度として算出することとなる。この場合において、１枚の静止画像データ３０１Ａから複数の画像が検出されている際には、表情検出部２２２は、例えば、複数の顔画像の笑顔度の平均を、静止画像データ３０１Ａの笑顔度とする。
【００３３】
なお、笑顔度は、数値に限らず、例えば「高い」、「低い」といった相対的な指標で表してもよい。笑顔度を相対的な指標で表す際に、１枚の静止画像データ３０１Ａから複数の顔画像が検出されているときには、表情検出部２２２は、例えば、より多くの顔画像に設定されている方の指標（例えば、「高い」）を、静止画像データ３０１Ａの笑顔度に決定する。
【００３４】
以下の本実施形態の説明では、説明の簡略化のため、笑顔度のみを例として説明するが、表情検出部２２２は、笑顔に限らず、怒った顔、泣き顔、驚いた顔、無表情等、あらゆる表情である尤度を算出してもよい。
【００３５】
一方、人数検出部２２３は、静止画像データ３０１Ａに含まれる人物の数を検出する。人数検出部２２３は、例えば、顔画像検出部２２１によって検出された顔画像の数を、静止画像データ３０１Ａに含まれる人物の数とする。また、人数検出部２２３は、例えば、顔画像を含む人物の全身や体の一部等を検出することにより、後ろ姿で捉えられた人物等を含む人数を算出してもよい。
【００３６】
なお、人数は、数値に限らず、例えば「多い」、「少ない」といった相対的な指標で表してもよい。人数検出部２２３は、例えば、静止画像データ３０１Ａからしきい値以上の数の顔画像が検出されているとき、静止画像データ３０１Ａの人数を「多い」に決定する。
【００３７】
素材分析部２２は、素材データ５１に付加された後述する素材情報３０２Ａ及び素材分析部２２の分析により生成された分析情報３０２Ｂを、ＨＤＤ１０３内の素材情報データベース３０２に格納する。
【００３８】
図４は、素材情報の構成説明図である。
素材情報３０２Ａは、素材ＩＤ、ファイルパス、ファイルサイズ、ファイル形式、生成日時、生成場所、種類、画像サイズ、再生時間、入力経路を示す情報を含んでいる。
【００３９】
ここで、「素材ＩＤ」は、素材データ５１を特定するために、一意に割り当てられる識別情報である。「ファイルパス」は、素材データ５１がＨＤＤ１０３上で、格納される場所を示す。「ファイルサイズ」は、素材データ５１のデータサイズを示す。「ファイル形式」は、素材データ５１のデータフォーマット（例えば、動画であれば、ｍｐｅｇフォーマット、ｗｍａフォーマット等、静止画であればｊｐｅｇフォーマット、ｂｍｐフォーマット等、音声であればｍｐ３フォーマット、ｗａｖフォーマット等）を示す。「生成日時」は、素材データ５１が生成された日時を表す情報（例えば、２０１０年１１月１０日等）を示す。「生成場所」は、素材データ５１が生成された場所を表す位置情報（例えば、ＧＰＳ測位による経度・移動情報）を示す。「種類」は、素材データ５１のデータ内容の種類（例えば、静止画像、音声、動画像等）を示す。「画像サイズ」は、素材データ５１が、静止画像データ３０１Ａ又は動画像データ３０１Ｃに対応するものであるときに、それらの表示時の画像サイズ（例えば、１０２４×７６８ピクセル等）を示す。「再生時間」は、素材データ５１が、音声データ３０１Ｂ又は動画像データ３０１Ｃに対応するものであるときに、通常速度で再生時の再生時間を示す。「入力経路」は、素材データ５１がカラオケ演奏端末１３に入力された経路（例えば、外部記憶メディア、外部記憶装置、ネットワーク上のサーバ等）を示す。
【００４０】
図５は、分析情報の一構成例の説明図である。
分析情報３０２Ｂは、図５に示すように、例えば、上述した素材ＩＤ、笑顔度、人数及び顔画像情報を含む。
【００４１】
また、顔画像情報は、上述の顔検出処理による分析結果に基づく情報を示す。したがって、顔画像情報は、例えば、顔画像、サイズ、位置、顔ＩＤを示す情報を含む。また、顔画像情報は、各顔画像の笑顔度を含んでもよい。
なお、分析情報３０２Ｂには、１つの静止画像データ３０１Ａから検出された顔画像に対応する数だけ、顔画像情報が格納される。
【００４２】
また、素材分析部２２は、静止画像データ３０１Ａから人物（顔画像を含む全身や体の一部等）、風景（海、山、花等）、動物（犬、猫、魚等）等のオブジェクトを検出（認識）し、それら分析結果（検出結果）を示す情報を含む分析情報３０２Ｂを生成してもよい。
【００４３】
さらに、素材分析部２２は、素材情報３０２Ａや静止画像データ３０１Ａから撮影時刻、撮影位置等を推定し、それら分析結果（推定結果）を示す情報を含む分析情報３０２Ｂを生成してもよい。その場合、図５に示すように、分析情報３０２Ｂには、人物画像、サイズ、位置、及び人物ＩＤを含む人物画像情報、風景画像、サイズ、位置、及び属性を含む風景情報、動物画像、サイズ、位置、及び属性を含む動物情報、撮影時刻、並びに撮影位置が含まれる。
【００４４】
なお、素材分析部２２は、音声データ３０１Ｂを分析し、検出された声に対応する人物の情報及び人物の数、検出された音楽の雰囲気及びジャンル等を含む分析情報３０２Ｂを生成してもよい。
【００４５】
さらに、素材分析部２２は、動画像データ３０１Ｃに含まれる各画像フレームを、静止画像データ３０１Ａと同様に分析し、上述の笑顔度、人数、顔画像情報等を含む分析情報３０２Ｂを生成してもよい。
【００４６】
素材分析部２２は、入力された素材データ５１に対応する素材情報３０２Ａ及び分析情報３０２Ｂが、素材情報データベース３０２に格納されたことを動画再生部２３に通知する。
【００４７】
動画再生部２３は、素材分析部２２からの通知に応答して、素材データ５１を用いて合成動画（動画像）を生成し、生成された合成動画を再生（表示）する処理を開始する。その際、動画再生部２３は、素材情報データベース３０２を参照して、所定の条件を満たす素材データ５１を素材データベース３０１から抽出し、合成動画を生成する。
この場合において、動画再生部２３は、エフェクト抽出部２３１と、合成動画生成部２３２と、合成動画出力部２３３と、を備えている。
【００４８】
エフェクト抽出部２３１は、エフェクトデータベース３０３から、取り込んだ素材データ５１に適したエフェクトデータ３０３Ａを抽出する。ここで、エフェクトデータ３０３Ａとしては、ズーム、回転、ノイズ追加、モザイク化、輪郭抽出、エンボス等の通常のビデオエフェクトの他、シーン間をつなぐトランジションも含まれるものとする。
【００４９】
具体的には、エフェクト抽出部２３１は、まず、素材情報データベース３０２から、抽出された素材データ５１に対応する分析情報３０２Ｂに含まれる笑顔度と人数とを抽出する。
【００５０】
そして、エフェクト抽出部２３１は、抽出した笑顔度と人数とに基づいて、抽出された素材データ５１に適したエフェクトデータ３０３Ａを選択する。エフェクト抽出部２３１は、例えば、抽出された複数の静止画像データ３０１Ａ（素材データ５１）の各々に対応する笑顔度と人数とから、これら複数の静止画像データ３０１Ａ全体での笑顔度の指標と人数の指標とを算出する。
【００５１】
すなわち、エフェクト抽出部２３１は、例えば、抽出された複数の静止画像データ３０１Ａのうち、笑顔度が第１しきい値以上である顔画像を含む静止画像データ３０１Ａの数を、複数の静止画像データ３０１Ａ全体での笑顔度の指標に決定する。
【００５２】
また、エフェクト抽出部２３１は、例えば、抽出された複数の静止画像データ３０１Ａの各々に対応する笑顔度の平均を、これら複数の静止画像データ３０１Ａ全体の笑顔度の指標に決定してもよい。
【００５３】
また、エフェクト抽出部２３１は、例えば、抽出された複数の静止画像データ３０１Ａのうち、人数が第２しきい値以上である静止画像データ３０１Ａのうちの数を、複数の静止画像データ３０１Ａ全体での人数の指標に決定する。また、エフェクト抽出部２３１は、例えば、抽出された複数の静止画像データ３０１Ａの各々に対応する人数の平均を、これら複数の静止画像データ３０１Ａ全体の人数の指標に決定してもよい。
【００５４】
なお、上述のように、笑顔度と人数とは相対的な指標で表されてもよい。したがって、例えば、抽出された複数の静止画像データ３０１Ａの各々に「高い」又は「低い」という笑顔度が設定されているとき、エフェクト抽出部２３１は、より多くの静止画像データ３０１Ａに設定されている方の指標（例えば、「高い」）を、これら複数の静止画像データ３０１Ａ全体の笑顔度に決定する。また、例えば、抽出された複数の静止画像データ３０１Ａのうち、所定の割合（第１しきい値）以上の静止画像データ３０１Ａに「高い」という笑顔度が設定されているとき、エフェクト抽出部２３１は、これら複数の静止画像データ３０１Ａ全体の笑顔度を「高い」に決定する。
【００５５】
同様に、例えば、抽出された複数の静止画像データ３０１Ａの各々に「多い」又は「少ない」という人数が設定されているとき、エフェクト抽出部２３１は、より多くの静止画像データ３０１Ａに設定されている方の指標（例えば、「少ない」）を、これら複数の静止画像データ３０１Ａ全体の人数に決定する。また、例えば、抽出された複数の静止画像データ３０１Ａのうち、所定の割合（第２しきい値）以上の静止画像データ３０１Ａに「多い」という人数が設定されているとき、エフェクト抽出部２３１は、これら複数の静止画像データ３０１Ａ全体の人数を「多い」に決定する。
【００５６】
エフェクト抽出部２３１は、上述のように決定される、抽出された複数の静止画像データ３０１Ａ全体に対応する笑顔度と人数とに基づいて、これら複数の静止画像データ３０１Ａに適したエフェクトデータ３０３Ａを決定する。
【００５７】
図６は、笑顔度と人数とに基づいて決定されるエフェクトの一例を説明する図である。
エフェクト抽出部２３１は、抽出された複数の静止画像データ３０１Ａ全体に対応する笑顔度と人数とに応じて、人数が多く、笑顔度が高い素材である場合には、人数が多く、笑顔度が高い素材である場合に適すると考えられるエフェクト集５１Ａを選択する。
【００５８】
また、エフェクト抽出部２３１は、人数が多く、笑顔度が低い素材である場合には、人数が多く、笑顔度が低い素材である場合に適すると考えられるエフェクト集５１Ｂを選択する。
【００５９】
また、エフェクト抽出部２３１は、人数が少なく、笑顔度が低い素材である場合には、人数が少なく、笑顔度が低い素材に適すると考えられるエフェクト集５１Ｃを選択する。
【００６０】
また、エフェクト抽出部２３１は、人数が少なく、笑顔度が高い素材である場合には、人数が少なく、笑顔度が高い素材に適すると考えられるエフェクト集５１Ｄを選択する。
【００６１】
図７は、上述した各エフェクト集に対応する具体的なエフェクト例の説明図である。
人数が多く、笑顔度が高い素材に適したエフェクト集５２Ａとしては、幸せな印象や元気な印象を想起させる効果（装飾）を有する一群のエフェクトが用いられる。したがって、その場を盛り上げることができるような効果が付与される。
【００６２】
また、人数が多く、笑顔度が低い素材に適したエフェクト集５２Ｂとしては、セレモニーを想起させる効果を有する一群のエフェクトが用いられる。したがって、例えば、荘厳な雰囲気を醸し出すような効果が付与される。
【００６３】
また、人数が少なく、笑顔度が低い素材に適したエフェクト集５２Ｃとしては、クールな印象や近未来的な印象を想起させる効果を有する一群のエフェクトが用いられる。
また、人数が少なく、笑顔度が高い素材に適したエフェクト集５２Ｄには、ファンタジーや魔法といった印象を想起させる効果を有する一群のエフェクトが用いられる。
【００６４】
これらエフェクト集５２Ａ〜５２Ｄでは、エフェクトに用いられる色、形状、動き（モーション）、オブジェクト等を変更することによって、ユーザに認識される印象が変化するように設計される。
【００６５】
したがって、例えば、幸せな印象や元気な印象を想起させる効果を有するエフェクト集５２Ａは、明るい色や鮮やかな色を用いたエフェクトを含む。また、例えば、クールな印象や近未来的な印象を想起させる効果を有するエフェクト集５２Ｃは、幾何学的な形状を用いたエフェクトを含む。
【００６６】
なお、エフェクト抽出部２３１は、抽出された複数の静止画像データ３０１Ａに適するエフェクトを、図６及び図７に示すような４種類に分類されたエフェクト集に限らず、さらに細かく分類されたエフェクト集から選択することもできる。その場合、人数及び笑顔度の値（値域）に対応する、所定の種類のエフェクト集が予め規定され、エフェクト抽出部２３１は、規定された所定の種類のエフェクト集から、抽出された複数の静止画像データ３０１Ａに適したエフェクト集を選択する。
【００６７】
また、エフェクト抽出部２３１は、人数及び笑顔度以外の指標を用いて、抽出された複数の静止画像データ３０１Ａに適したエフェクト集を選択してもよい。
【００６８】
次にエフェクト抽出部２３１は、選択したエフェクト集に対応するエフェクトデータ３０３Ａをエフェクトデータベース３０３から抽出し、抽出したエフェクトデータ３０３Ａを合成動画生成部２３２に出力する。
【００６９】
これにより、合成動画生成部２３２は、取り込まれた素材データ５１を含むカラオケ背景動画像となる合成動画を生成する。
このとき、合成動画に含まれる素材データ５１には、エフェクト抽出部２３１により抽出されたエフェクトデータ３０３Ａが施されている。
【００７０】
また、例えば、合成動画に含まれる静止画像データ３０１Ａ（素材データ５１）に登場する人物の顔画像（オブジェクト）に対して、エフェクト抽出部２３１により抽出されたエフェクトデータ３０３Ａが施されている。
合成動画生成部２３２は、例えば、エフェクトデータ３０３Ａによって規定されたタイミングで表示される静止画像データ３０１Ａを含む合成動画を生成する。
【００７１】
また、この合成動画は、所定のタイミングで出力される音声データ３０１Ｂを含んでもよい。
そして、合成動画生成部２３２は、生成した合成動画を合成動画出力部２３３に出力する。
【００７２】
なお、エフェクト抽出部２３１は、取り込まれた素材データ５１に対して、表情（例えば、笑顔度）と人数に基づくエフェクトデータ３０３Ａを施してもよい。その場合、合成動画生成部２３２は、エフェクト抽出部２３１によってエフェクトが施された複数の静止画像を含む動画像（合成動画）をカラオケ背景動画像として生成する。
【００７３】
合成動画出力部２３３は、合成動画生成部２３２によって生成された合成動画像を出力する。
合成動画出力部２３３は、合成動画を再生し、画面（ディスプレイ１０７）に表示する。
【００７４】
また、合成動画出力部２３３は、合成動画をエンコードし、エンコードした合成動画のファイルを所定の記憶装置（例えば、ＨＤＤ１０３等）に格納してもよい。
【００７５】
以上の構成により、動画像再生アプリケーションプログラム２０２は、カラオケ背景動画像としての合成動画に用いられる素材データ５１に適したエフェクト（エフェクト群）３０３Ａを決定する。
【００７６】
具体的には、エフェクト抽出部２３１は、例えば、合成動画に用いられる複数の静止画像データ３０１Ａの各々の笑顔度と人数とに基づいて、これら複数の静止画像データ３０１Ａ全体の笑顔度と人数との指標を決定する。エフェクト抽出部２３１は、決定した笑顔度と人数との指標に基づいて、カラオケ背景動画像としての合成動画に用いられる複数の静止画像データ３０１Ａに適したエフェクトデータ３０３Ａを選択する。
【００７７】
したがって、合成動画に用いられるエフェクトデータ３０３Ａを選択する操作をユーザが行うことなく、合成動画生成部２３２は、適切なエフェクトデータ３０３Ａが施された複数の静止画像データ３０１Ａを含むカラオケ背景動画像（合成動画像）を生成することができる。
【００７８】
次に実施形態のカラオケ背景動画像の生成及び再生処理について説明する。
図８は、カラオケ再生処理の処理フローチャートである。
まず、カラオケ演奏端末１３のコントローラ１０１は、カラオケ背景動画像としての合成動画に用いる素材データ５１を取り込む（ステップＳ１１）。
【００７９】
素材データ５１の取込方法としては、ＵＳＢコネクタ１２６を介して外部ＵＳＢ機器から取り込む方法、カードコネクタ１２８を介して外部のメモリカードから取り込む方法、カメラ１１２により撮影して取り込む方法、ＨＤＤ１０３に記憶されている共用素材データを取り込む方法、カラオケホスト１１から通信ネットワーク１２を介して共用素材データをダウンロードする方法等が考えられる。
【００８０】
一般的なユーザにおける素材データ５１の取込方法としては、ＵＳＢコネクタ１２６、カードコネクタ１２８あるいはカメラ１１２から取り込む方法が採られる。
【００８１】
具体的には、ＵＳＢコネクタ１２６にＵＳＢメモリ、ＵＳＢ接続ハードディスク、ＵＳＢ接続ＳＳＤ（Solid State Drive）等の外部記憶装置が接続された場合には、ＵＳＢコントローラ１２７を介して、写真データ等の静止画データを素材データ５１として取り込む。
【００８２】
また、カードコネクタ１２８に外部のメモリカードが接続された場合には、カードコントローラ１２９と、カードコントローラ１２９を介して写真データ等の静止画データを素材データ５１として取り込む。
【００８３】
また、ユーザの操作によりカメラ１１２により撮影がなされた場合には、撮影した写真データを素材データ５１として取り込む。
【００８４】
次にコントローラ１０１は、動画像再生アプリケーションプログラム２０２を実行して素材分析処理を行う（ステップＳ１２）。
【００８５】
図９は、素材分析処理の処理フローチャートである。
以下では、素材分析対象の素材データ５１が写真データ等の静止画像データ３０１Ａである場合を想定する。
【００８６】
まず、素材入力部２１は、インタフェース部等を介して、静止画像データ３０１Ａが入力されたか否かを判別する（ステップＳ２１）。
ステップＳ２１の判別において、静止画像データ３０１Ａが入力されていない場合には（ステップＳ２１；Ｎｏ）、待機状態となる。
【００８７】
ステップＳ２１の判別において、静止画像データ３０１Ａが入力されている場合には（ステップＳ２１；Ｙｅｓ）、素材入力部２１は、入力された静止画像データ３０１Ａを素材データベース３０１に格納する（ステップＳ２２）。そして、素材入力部２１は、静止画像データ３０１Ａが入力されたことを素材分析部２２（顔画像検出部２２１）に通知する。
【００８８】
次に、顔画像検出部２２１は、入力された静止画像データ３０１Ａから顔画像を検出する（ステップＳ２３）。
すなわち、顔画像検出部２２１は、静止画像データ３０１Ａ内に含まれる各顔画像の位置（座標）、サイズ、正面度等を検出する。この場合において、顔画像検出部２２１により、検出した顔画像に対応する人物を認識（識別）するようにしてもよい。
そして、顔画像検出部２２１は、検出した顔画像を示す情報を表情検出部２２２及び人数検出部２２３に出力する。
【００８９】
これにより、表情検出部２２２は、顔画像検出部２２１により検出された顔画像の笑顔度を決定する（ステップＳ２４）。
ここで、笑顔度とは、検出された顔画像が笑顔である尤もらしさの度合い（尤度）を示す指標である。一つの静止画像データ３０１Ａから複数の顔画像が検出されている際には、それら顔画像の笑顔度に基づいて、静止画像データ３０１Ａの笑顔度を決定する。
【００９０】
また、人数検出部２２３は、顔画像検出部２２１により検出された顔画像の数に基づいて、静止画像データ３０１Ａに含まれる人物の数を決定する（ステップＳ２５）。
これらの結果、素材分析部２２は、静止画像データ３０１Ａに対応する笑顔度、人数、顔画像情報等を含む分析情報３０２Ｂを素材情報データベース３０２に格納する（ステップＳ２６）。
【００９１】
以上の処理により、入力された静止画像データ３０１Ａに含まれる顔画像の笑顔度と人数とを決定し、これら笑顔度と人数とを含む分析情報３０２Ｂが素材情報データベース３０２に格納される。
【００９２】
次にコントローラ１０１は、動画像再生アプリケーションプログラム２０２に基づいて、エフェクト抽出部２３１として機能し、分析結果に基づいて動画像生成に用いる一連のエフェクトを選択する（ステップＳ１３）。すなわち、コントローラ１０１は、エフェクト抽出部２３１として機能して、取り込んだ素材データ５１に対応する分析情報３０２Ｂに基づいて、取り込んだ素材データ５１に適したエフェクト集を選択する。そして、コントローラ１０１は、選択したエフェクト集に対応するエフェクトデータ３０３Ａをエフェクトデータベース３０３から抽出する。
【００９３】
続いて、コントローラ１０１は、合成動画生成部２３２として機能し、抽出された素材データ５１とエフェクトデータ３０３Ａとを用いて、合成動画を生成する（ステップＳ１４）。ここで、生成された合成動画には、エフェクトデータ３０３Ａが施された素材データ５１が含まれる。なお、コントローラ１０１は、エフェクト抽出部２３１として機能するに際し、取り込んだ素材データ５１に選択したエフェクトデータ３０３Ａを施すようにしてもよい。
これにより、コントローラ１０１は、合成動画生成部２３２として機能するに際し、エフェクトデータ３０３Ａが施された素材データ５１を含む合成動画を生成する。
【００９４】
続いて、コントローラ１０１は、合成動画出力部２３３として機能し、合成動画を、カラオケ楽曲の背景動画像として、表示コントローラ１０８を介して、カラオケ楽曲に対応する歌詞とともにディスプレイ１０７に表示させる。
【００９５】
これと並行して、コントローラ１０１は、サウンドコントローラ１１１を制御して、マイクロフォン１０９Ａ、１０９Ｂから入力された、ユーザの入力音声に、カラオケ楽曲をミキシングしてスピーカ１１０から音響出力する（ステップＳ１５）。
【００９６】
この場合において、ユーザにより録画を行う旨の設定がなされ、あるいは、基本設定として録画を行う旨の設定がなされている場合には、カラオケ楽曲の背景動画像として合成動画及びユーザの入力音声にカラオケ楽曲をミキシングした音声をＨＤＤ１０３に録画し、あるいは、予め光ディスクドライブ１０５にセットされた書き込み可能なＣＤあるいは書き込み可能なＤＶＤ等に録画を行うようになっている。
【００９７】
また、コントローラ１０１は、曲のテンポを変更したり、早送り等、合成動画の再生速度を変更したりするようなトリック再生が行われているか否かを判別し（ステップＳ１６）、トリック再生が行われている場合には（ステップＳ１６；Ｙｅｓ）、カラオケ楽曲の再生終了タイミングを算出して、再生終了タイミングに合わせて、カラオケ楽曲の背景動画像として合成動画の再生終了もなされるように、未再生部分の合成動画の再生成を行い（ステップＳ１７）、処理を再びステップＳ１５に移行する。
【００９８】
また、ステップＳ１６の判別において、トリック再生が行われていない場合には（ステップＳ１６；Ｎｏ）、カラオケ楽曲の再生が終了するまで、ステップＳ１５におけるカラオケ楽曲の背景動画像をカラオケ楽曲に対応する歌詞とともにディスプレイ１０７に表示させるとともに、ユーザの入力音声に、カラオケ楽曲をミキシングしてスピーカ１１０から音響出力する処理を継続することとなる。
【００９９】
以上の処理により、取り込まれた素材データ５１と、素材データ５１に適したエフェクトデータ３０３Ａとを用いた合成動画をカラオケ楽曲の背景動画像として生成して、カラオケ再生を行うことができる。
【０１００】
このように、本実施形態によれば、ユーザは、取り込ませた素材データ５１に適したエフェクトデータ３０３Ａを選択するための作業を何ら行わなくても、適切なエフェクトデータ３０３Ａが施された素材データ５１を含む合成動画がカラオケ楽曲の背景動画像として生成される。そして生成されたカラオケ楽曲の背景動画像がディスプレイ１０７に表示されつつ、カラオケ楽曲の再生が行われる状態で、カラオケ演奏端末１３を利用することができる。
【０１０１】
すなわち、ユーザはエフェクトデータ３０３Ａに関する知識を全く有しないにも拘わらず、動画像再生アプリケーションプログラム２０２は、適切なエフェクトデータ３０３Ａが施された素材データ５１を含む合成動画像をカラオケの背景画像として容易に生成できる。
【０１０２】
なお、本実施形態の合成動画生成処理の手順は全てソフトウェアによって実行することができる。このため、合成動画生成処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。
【０１０３】
また本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。
【０１０４】
以上の説明においては、主として、笑顔度と人数とに基づいて、エフェクト、トランジション、シーン切替を選択するように構成していた。
【０１０５】
しかしながら、カラオケ楽曲の曲調、ビート等を検出し、曲調、ビート等に適合したエフェクト、トランジション、シーン切替を選択するように構成することも可能である。また、カラオケ楽曲における曲間（１番と２番等）、間奏期間等を検出して、表示する静止画像、付加するエフェクト、トランジション、シーンの切り替え等を選択するように構成することも可能である。
【０１０６】
また、歌詞表示における表示（切替）タイミングの制御データに基づいて、歌詞の表示切替タイミングを抽出し、静止画像、エフェクト、トランジション、シーンの切り替え等を選択するように構成することも可能である。
【０１０７】
さらには、歌詞データに含まれる歌詞を解析し、歌詞の内容に沿って表示する静止画像、付加するエフェクト、トランジション、シーンの切り替え等を選択するように構成することも可能である。具体的には、歌詞に悲しい単語が多く含まれるような場合には、暗く荘厳なイメージに合致する静止画像を表示し、エフェクトを付加し、トランジション、シーンの切り替え等を行うようにする。また、歌詞に楽しさ、明るさを表すような単語が多く含まれているような場合には、明るく、ポップな感じのイメージに合致する静止画像を表示し、エフェクトを付加し、トランジション、シーンの切り替え等を行うようにする。
【０１０８】
また、カメラ１１２により、例えば、カラオケ開始時に参加メンバの写真を撮影し、写真データに対応する写真画像に含まれる人物の年齢層、性別等に応じて、よりそれらの人々に好まれると考えられる静止画像を表示し、エフェクトを付加し、トランジション、シーンの切り替え等を行うように、構成することも可能である。
【０１０９】
以上の説明においては、ユーザＩ／Ｆ１０２を介して、素材データ５１が入力された場合に全ての素材データ（全ての静止画データ等）を用いて、動画像を生成するものとして説明したが、カラオケ楽曲の曲調、演奏時間等に合わせてその一部を用いて動画像を生成するように構成することも可能である。例えば、カラオケ楽曲の演奏時間に対して、素材データ５１の数が多い場合や、設定したシーン数が素材データ５１の数を下回るような場合には、適宜素材データを間引くように構成する。また、トリックプレイ時であって、演奏時間が短くなる場合には、動画像の再生成に用いる素材データ５１の数を適宜間引くようにすればよい。
【０１１０】
また、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【０１１１】
１０通信カラオケシステム
１１カラオケホスト
１２通信ネットワーク
１３カラオケ演奏端末（カラオケ装置）
２１素材入力部
２２素材分析部（解析手段）
２３動画再生部
５１素材データ
１０１コントローラ（解析手段、エフェクト設定選択手段、動画像生成手段、カラオケ再生手段）
１０７ディスプレイ（カラオケ再生手段）
１０８表示コントローラ（カラオケ再生手段）
１１０スピーカ（カラオケ再生手段）
１１１サウンドコントローラ（カラオケ再生手段）
１３１データベース（解析手段）
２０２動画像再生アプリケーションプログラム
２２１顔画像検出部（解析手段）
２２２表情検出部（解析手段）
２２３人数検出部（解析手段）
２３１エフェクト抽出部（エフェクト設定選択手段）
２３２合成動画生成部（動画像生成手段）
２３３合成動画出力部（カラオケ再生手段）
３０２素材情報データベース（解析手段）
３０２Ａ素材情報（解析手段）
３０２Ｂ分析情報（解析手段）
３０３エフェクトデータベース（エフェクト設定選択手段）

【特許請求の範囲】
【請求項１】
複数の静止画像を解析する解析手段と、
前記解析の結果に基づいて、前記複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択するエフェクト設定選択手段と、
前記選択された前記エフェクト設定を用いて、当該エフェクト設定を構成するエフェクトが施された前記動画像を生成する動画像生成手段と、
カラオケ楽曲を再生するとともに、前記カラオケ楽曲の再生に同期させて、生成した前記動画像を再生するカラオケ再生手段と、
を備えたことを特徴とするカラオケ装置。
【請求項２】
前記カラオケ再生手段は、再生中の前記動画像に前記カラオケ楽曲に対応する歌詞画像を、当該カラオケ楽曲の再生に同期させてスーパーインポーズ表示することを特徴とする請求項１記載のカラオケ装置。
【請求項３】
カメラ、記録媒体あるいは通信ネットワークを介して前記複数の静止画像を取り込み前記解析手段に出力する静止画像取込手段を備えたことを特徴とする請求項１又は請求項２記載のカラオケ装置。
【請求項４】
前記動画像生成手段は、前記カラオケ楽曲の再生テンポあるいは再生速度が変更された場合に、前記再生テンポあるいは前記再生速度に対応づけて前記動画像の生成に用いる前記静止画像の数あるいは各静止画像を表示する時間を動的に変更することを特徴とする請求項１乃至請求項３のいずれかに記載のカラオケ装置。
【請求項５】
前記カラオケ再生手段により再生されたカラオケ楽曲及び前記動画像にユーザの入力音声を重畳して記録媒体に記録する記録手段を備えたことを特徴とする請求項１乃至請求項４のいずれかに記載のカラオケ装置。
【請求項６】
前記解析手段は、カラオケ楽曲を解析し、
前記エフェクト設定選択手段は、得られたカラオケ楽曲の曲調、ビート等の解析の結果に基づいて動画像の生成に用いるエフェクト設定を選択する、
ことを特徴とする請求項１乃至請求項５のいずれかに記載のカラオケ装置。
【請求項７】
カラオケ装置において実行されるカラオケ装置の制御方法であって、
複数の静止画像を解析する解析過程と、
前記解析の結果に基づいて、前記複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択するエフェクト設定選択過程と、
前記選択された前記エフェクト設定を用いて、当該エフェクト設定を構成するエフェクトが施された前記動画像を生成する動画像生成過程と、
カラオケ楽曲を再生するとともに、前記カラオケ楽曲の再生に同期させて、生成した前記動画像を再生するカラオケ再生過程と、
を備えたことを特徴とするカラオケ装置の制御方法。
【請求項８】
カラオケ装置をコンピュータにより制御するための制御プログラムであって、
前記コンピュータを、
複数の静止画像を解析する解析手段、
前記解析の結果に基づいて、前記複数の静止画像のうち、少なくとも一部の静止画像を含む動画像の生成に用いるエフェクト設定を選択するエフェクト設定選択手段、
前記選択された前記エフェクト設定を用いて、当該エフェクト設定を構成するエフェクトが施された前記動画像を生成する動画像生成手段、
カラオケ楽曲を再生するとともに、前記カラオケ楽曲の再生に同期させて、生成した前記動画像を再生するカラオケ再生手段、
として機能させることを特徴とする制御プログラム。

【図１】