カラオケ装置

【課題】歌唱者の歌唱の様子を撮影し映像として記録し得るカラオケ装置であって、撮影映像中の顔画像を、歌唱者と聴衆を区別可能なキャラクタ画像に変換し得るカラオケ装置を提供する。
【解決手段】カラオケ装置１は、カメラ６０での撮影を開始すると、顔画像認識部７１により、撮影映像Ｒに含まれる人物の顔画像Ｆ及び顔位置Ｐを特定し（Ｓ２）、マイク位置検出部７２により、撮影映像Ｒに含まれるマイク５０のマイク位置Ｍを特定する（Ｓ３）。カラオケ装置１は、一のマイク５０のマイク位置Ｍと、顔位置Ｐに基づいて、当該マイク５０と各顔画像Ｆに係る人物の顔との距離を算出し、最も距離の短い顔画像Ｆを歌唱者に特定する（Ｓ１０）。カラオケ装置１は、歌唱者に特定された人物の顔画像Ｆを、歌唱キャラクタ画像Ｃｓ又は熱唱キャラクタ画像Ｃｅに変更し（Ｓ１２、Ｓ１３）、他の人物に係る顔画像Ｆを、聴衆キャラクタ画像Ｃａに変更する（Ｓ８）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、歌唱者を含む映像を記録可能なカラオケ装置に関する。
【背景技術】
【０００２】
従来、歌唱者の歌唱内容を記録可能なカラオケ装置が提案されている。例えば、特許文献１記載のカラオケ録音装置は、歌唱者の歌声を伴奏音楽と共に記録する。又、当該カラオケ録音装置は、伴奏音楽のみを記録し得るように構成されている。ここで、カラオケ装置の分野においては、歌唱者の歌声のみならず歌唱者の歌唱の様子を撮影し映像として記録・公開することにより、サービスの多様化、充実化を図り得る。このようなサービスを提供することは、カラオケ事業者にとって、集客力の向上という観点から好ましい。
【０００３】
ここで、上記のように、歌唱者等を撮影した映像を用いたサービスを提供する場合、歌唱者等は、自己の歌唱や振り付け等の撮影・公開を許容することはできても、自己の顔を撮影・公開することには抵抗を感じる場合がある。この場合、当該歌唱者等は、覆面等を被った状態で撮影に及んだり、撮影範囲外まで移動したりして、顔を隠した状態での撮影を行うこととなり、面倒を強いられている。
【０００４】
又、映像編集処理の分野においては、入力映像中に含まれる顔画像を検出し、検出した顔画像を、所定の顔モデル画像にすげ替える技術が知られている（例えば、特許文献２参照）。従って、上述したカラオケ装置に対して、特許文献２記載の技術を適用すれば、公開される映像においては、歌唱者等の顔画像は、顔モデル画像にすげ替えられることとなり、歌唱者等に過度の負担を強いることなく、歌唱者等を撮影した映像を用いたサービスを提供し得る。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００３−１６７５９２号公報
【特許文献２】特開平１１−３０６３１８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
ここで、カラオケ店舗等においては、多くの場合、複数人が同一の部屋内でカラオケに興じる。この時、同一の部屋内においては、カラオケ歌唱を行う歌唱者と、当該歌唱者のカラオケ歌唱を聴く聴衆とに大別される。そして、上述したサービスにおける撮影映像は、主に、歌唱者を対象とするものである為、聴衆よりも歌唱者が目立つことが望ましい。
【０００７】
この点、特許文献２記載の技術により、撮影映像中の顔画像を顔モデル画像にすげ替える場合、撮影映像中の顔画像は、向き等は異なるものの全て共通した顔モデル画像にすげ替えられてしまう。従って、この場合の撮影映像では、歌唱者と聴衆を区別することが困難となり、上記カラオケ装置におけるサービスの質の低下を招いてしまう。
【０００８】
本発明は、上記問題点を解決するためになされたものであり、歌唱者の歌唱の様子を撮影し映像として記録し得るカラオケ装置等であって、撮影映像中の顔画像を、歌唱者と聴衆を区別可能なキャラクタ画像に変換し得るカラオケ装置を提供することを目的とする。
【課題を解決するための手段】
【０００９】
本発明の一側面に係る請求項１記載のカラオケ装置は、音声出力手段、マイク、カメラ、記憶手段、記録手段、顔位置検出手段、マイク位置検出手段、映像編集手段を備えるカラオケ装置であって、前記音声出力手段は、カラオケデータに含まれる楽音情報に基づいて、音声信号を出力し、前記マイクは、前記カラオケデータに基づくカラオケ歌唱に係る歌唱音声信号の入力に用いられ、前記記憶手段は、カラオケ歌唱を行う人物の顔を模した第１歌唱キャラクタ画像と、カラオケ歌唱を聴く人物の顔を模した聴衆キャラクタ画像を記憶し、前記記録手段は、カメラが撮影した映像信号を記録し、前記顔位置検出手段は、前記カメラが撮影した映像信号に含まれる人物の顔画像を検出し、当該映像信号における前記顔画像の位置を特定し、前記マイク位置検出手段は、所定範囲内における前記マイクの位置を検出し、前記映像編集手段は、前記顔位置検出手段により特定された前記顔画像の位置と、前記マイク位置検出手段により検出された前記マイクの位置に基づいて、前記人物の顔と前記マイクとの距離を算出し、前記映像信号において、算出した距離が最も短い人物の顔に係る顔画像を、前記第１歌唱キャラクタ画像に変更し、前記映像信号における他の顔画像を、前記聴衆キャラクタ画像に変更することを特徴とする。
【００１０】
当該カラオケ装置は、マイク位置検出手段により検出されたマイク位置と、顔位置検出手段により特定された顔画像の位置に基づいて、当該顔画像に係る人物の顔と前記マイクとの距離を算出し、当該距離に応じて、記録手段に記録された映像信号における顔画像の変更に用いるキャラクタ画像の種類を決定する。具体的には、当該カラオケ装置は、算出した距離が最も短い人物の顔に係る顔画像を、前記第１歌唱キャラクタ画像に変更し、前記映像信号における他の顔画像を、前記聴衆キャラクタ画像に変更する。一般に、カラオケ歌唱を行う際に、歌唱者は、マイクを自己の口元近傍に位置させる。従って、当該カラオケ装置は、映像信号中の顔画像を、的確に歌唱者と聴衆を区別し、歌唱者及び聴衆の区別に応じたキャラクタ画像（第１歌唱キャラクタ画像、聴衆キャラクタ画像）に変更し得る。これにより、当該カラオケ装置は、歌唱者等の顔が公開されることを防止しつつ、主たる撮影対象である歌唱者を目立たせた映像を用いたサービスを行い得る。
【００１１】
本発明の一側面に係る請求項２記載のカラオケ装置は、請求項１記載のカラオケ装置であって、前記マイク位置検出手段は、所定範囲内における複数のマイクの位置を夫々検出し、前記映像編集手段は、前記マイク位置検出手段により検出された各マイクについて、前記顔位置検出手段により特定された前記顔画像の位置と、当該マイクの位置に基づいて、前記人物の顔と前記マイクとの距離を算出し、前記複数のマイクそれぞれについて、算出した距離が最も短い人物の顔に係る顔画像を、夫々異なる前記第１歌唱キャラクタ画像に変更し、前記映像信号における他の顔画像を、前記聴衆キャラクタ画像に変更することを特徴とする。
【００１２】
当該カラオケ装置は、所定範囲内に複数のマイクが存在する場合、各マイクについて、当該マイクと人物の顔の距離を算出し、複数のマイクそれぞれについて、算出した距離が最も短い人物の顔に係る顔画像を、夫々異なる前記第１歌唱キャラクタ画像に変更し、前記映像信号における他の顔画像を、前記聴衆キャラクタ画像に変更する。即ち、当該カラオケ装置は、撮影映像中におけるマイク毎に異なるキャラクタ画像に変更するので、撮影映像をバラエティに富んだものにすることができ、より良質なサービスを提供し得る。
【００１３】
本発明の一側面に係る請求項３記載のカラオケ装置は、請求項１又は請求項２記載のカラオケ装置であって、前記記憶手段は、前記第１歌唱キャラクタ画像と異なる態様で、カラオケ歌唱を行う人物の顔を模した第２歌唱キャラクタ画像を記憶し、前記映像編集手段は、前記マイクに対する音声入力があった場合に、当該マイクとの距離が最も短い人物の顔に係る顔画像を、前記第２歌唱キャラクタ画像に変更し、前記マイクに対する音声入力がない場合に、当該マイクとの距離が最も短い人物の顔に係る顔画像を、前記第１歌唱キャラクタ画像に変更することを特徴とする。
【００１４】
当該カラオケ装置は、マイクに対する音声入力の有無に応じて、映像編集手段により、当該マイクとの距離が最も短い人物の顔に係る顔画像を、第１歌唱キャラクタ画像、第２歌唱キャラクタ画像の何れかに変更する。即ち、当該カラオケ装置は、歌唱者が歌唱しているか否かに応じて、撮影映像中の歌唱キャラクタ画像の種類を変更することにより、キャラクタ画像に変更した場合であっても、より臨場感のある撮影映像を提供し得る。
【００１５】
本発明の一側面に係る請求項４記載のカラオケ装置は、請求項１乃至請求項３の何れかに記載のカラオケ装置であって、前記マイク位置検出手段は、所定時間毎にマイク位置を検出し、前記カラオケ装置は、前記マイク位置検出手段による前記所定時間毎の検出結果に基づいて、前回検出したマイク位置と、当回検出したマイク位置とを比較し、その位置変化量が所定範囲内であるマイクを特定する特定手段を有し、前記映像編集手段は、前記映像信号における顔画像の変更の基準となるマイクから、前記特定手段により特定された位置変化量が所定範囲内であるマイクを除外することを特徴とする。
【００１６】
当該カラオケ装置は、特定手段により、前記所定時間毎の検出結果に基づいて、前回検出したマイク位置と、当回検出したマイク位置とを比較し、その位置変化量が所定範囲内であるマイクを特定する。ここで、「位置変化量が所定範囲内」とは、マイク位置検出手段による検出誤差を考慮し、所定時間におけるマイクの位置に実質的に変化がないことを意味する。一般に、カラオケ装置においては、マイクを手に持って歌唱することが多いため、マイクの位置変化量が所定範囲内であれば、当該マイクは、カラオケ歌唱に用いられていないものと推定される。従って、当該カラオケ装置は、未使用のマイクに係る顔画像とキャラクタ画像の変更を行うことはなく、撮影映像中における歌唱者と聴衆を、より適切に区別し、キャラクタ画像への変更を行い得る。
【発明の効果】
【００１７】
本発明によれば、カラオケ装置は、歌唱者の歌唱の様子を撮影し、歌唱者等の顔を公開することなく、歌唱者を主たる撮影対象とした映像として記録するという魅力を提供し得る。これにより、本発明は、カラオケ事業におけるサービスの多様化・充実化に貢献し得る。
【図面の簡単な説明】
【００１８】
【図１】カラオケ装置の制御構成に関する説明図である。
【図２】カラオケ装置の撮影映像処理プログラムのフローチャートである。
【図３】カメラによる撮影映像の一例を示す説明図である。
【図４】顔位置検出処理に関する説明図である。
【図５】マイク位置検出処理に関する説明図である。
【図６】初回顔画像変換処理に関する説明図である。
【図７】第１マイクに係る歌唱者特定処理に関する説明図である。
【図８】第２マイクに係る歌唱者特定処理に関する説明図である。
【図９】第１歌唱画像変換処理に関する説明図である。
【図１０】第２歌唱画像変換処理に関する説明図である。
【発明を実施するための最良の形態】
【００１９】
以下、本発明の一実施形態について説明する。
【００２０】
（カラオケ装置の構成）
先ず、本発明の一実施形態に係るカラオケ装置の構成について、図１を参照しつつ説明する。本実施形態に係るカラオケ装置１は、各地のカラオケ店舗等に設置されており、例えば、カラオケ店舗内に設置されるルータを介して、通信網Ｎによってサーバ９０と接続されている。又、当該カラオケ装置１は、カラオケ店舗の客室ごとに設置されている。
【００２１】
図１に示すように、本実施形態に係るカラオケ装置１は、制御部１０と、コントロールパネル２０と、ディスプレイ３０と、スピーカ４０と、マイク５０と、カメラ６０と、画像処理部７０と、通信Ｉ／Ｆ８０を有している。従って、歌唱者は、スピーカ４０から出力される所望の楽曲に係る伴奏に合わせて、マイク５０を用いてカラオケ歌唱を行う。この時、歌詞テロップ及び背景画像が、ディスプレイ３０に表示される。従って、歌唱者は、ディスプレイ３０における歌詞テロップの表示に従って、カラオケ歌唱を行い得る。
【００２２】
そして、カメラ６０は、通常、客室内の所定範囲を撮影可能な位置に配置されている。従って、当該カラオケ装置１は、カラオケ歌唱を行う歌唱者及び聴衆を撮影し得る。尚、当該カメラ６０は、自由に移動させることができる。
【００２３】
制御部１０は、ＣＰＵ、ＲＯＭ、ＲＡＭを有している。制御部１０のＣＰＵは、種々のプログラム（例えば、後述する撮影映像処理プログラム等）を実行する。制御部１０のＲＯＭは、種々のデータを記憶する。具体的には、制御部１０のＲＯＭは、撮影映像処理プログラム等（図２参照）を記憶している。コマンダのＲＡＭは、種々のデータを一時的に記憶する。
【００２４】
そして、カラオケデータ記憶部１５は、カラオケ歌唱に用いられる楽曲に対応するカラオケデータを記憶している。当該カラオケデータは、楽音データ、再生映像データを含んでいる。楽音データは、ある楽曲に係る伴奏音楽データであり、当該楽音データをスピーカ４０から出力することにより、カラオケ歌唱に用いられる。再生映像データは、ディスプレイ３０へ出力される映像データであり、背景映像データと、歌詞テロップデータにより構成される。
【００２５】
背景映像データは、カラオケ歌唱に際し、ディスプレイ３０に表示される画面の背景映像を構成するデータである。尚、カラオケデータに係る楽曲を歌唱するアーティストのプロモーションビデオ映像を、当該背景映像データとすることも可能である。そして、歌詞テロップデータは、カラオケ歌唱に際し、ディスプレイ３０に表示される歌詞テロップを構成し、カラオケデータに係る楽曲の歌詞を示す。
【００２６】
コントロールパネル２０は、カラオケ装置１に関する各種指示の入力を受け付ける。当該コントロールパネル２０は、コントロールパネルに配設された各種操作キーや、リモコン（図示せず）に対するユーザの操作入力を受け付ける。当該リモコンは、コントロールパネル２０を介して、カラオケ装置１との間で、赤外線通信や電波通信可能に無線接続されている。
【００２７】
ディスプレイ３０は、所謂、液晶ディスプレイにより構成される。ディスプレイ３０は、映像再生部３５を介して、制御部１０に接続されており、制御部１０により、カラオケデータに基づいて入力された映像信号に係る映像を画面上に描画・表示する。又、ディスプレイ３０は、制御部１０による制御に基づいて、後述するカメラ６０により撮影された投稿動画データの内容を、画面上に描画・表示し得る。
【００２８】
映像再生部３５は、カラオケデータ記憶部１５に格納されているカラオケデータの再生映像データを読み出し、当該再生映像データに基づく映像の再生を行う。即ち、当該映像再生部３５は、ＭＰＥＧデコーダを有している。ＭＰＥＧデコーダは、ＭＰＥＧフォーマットで生成されている再生映像データ（即ち、背景映像データや歌詞テロップデータ）をデコードし、ビデオ信号を出力する。
【００２９】
スピーカ４０は、ミキシングアンプ４１及び音声再生部４５を介して、制御部１０に接続されており、カラオケ楽曲の伴奏音楽、カラオケ歌唱に係る歌唱音声等を音声出力する。音声再生部４５は、制御部１０の制御により、カラオケデータを構成する楽音データに基づいて、楽曲の伴奏音楽に係る音声信号を、ミキシングアンプ４１へ出力する。
【００３０】
ミキシングアンプ４１は、音声再生部４５により入力された楽曲の伴奏音楽に係る音声信号を増幅して、スピーカ４０へ出力する。又、ミキシングアンプ４１は、マイク５０と接続されており、当該マイク５０に入力されたカラオケ歌唱に係る音声信号を増幅して、スピーカ４０へ出力する。そして、ミキシングアンプ４１は、音声再生部４５及びマイク５０の両者から音声信号が入力された場合、伴奏音楽に係る音声信号と、カラオケ歌唱に係る音声信号を混合した混合音声信号を、スピーカ４０へ出力する。
【００３１】
マイク５０は、歌唱者がカラオケ歌唱を行う際に用いられ、当該歌唱等に基づく音声信号を、ミキシングアンプ４１に入力する。尚、マイク５０の個数は、適宜設定可能である。又、マイク５０は、当該マイク５０本体の所定部分に、マイク位置出力部５１を有している。マイク位置出力部５１は、当該マイク５０固有の発光色で発光するＬＥＤ（Light Emitting Diode）を有して構成されており、当該マイク５０のマイク位置Ｍを検出する際に用いられる。
【００３２】
カメラ６０は、基本的に、所謂、デジタルビデオカメラであり、当該カラオケ装置１によるカラオケ歌唱の様子を撮影可能に構成されている。そして、カメラ６０は、画像形成部、ＣＰＵ、ＲＯＭ、ＲＡＭ、レンズ（図示せず）を有している。画像形成部は、撮像面を有しており、レンズを介して、当該撮像面に入射された光に基づいて、アナログ信号である撮影映像信号を生成する。そして、当該画像形成部は、生成した撮影映像信号を、画像処理部７０へ出力する。当該画像形成部の構成については、既に公知であるため、その詳細な説明を省略する。
【００３３】
画像処理部７０は、制御部１０の制御に基づいて、カメラ６０により撮影された撮影映像Ｒに対して、所定の処理を行う。当該画像処理部７０は、顔画像認識部７１、マイク位置検出部７２、画像編集部７３、キャラクタ画像記憶部７４、撮影映像記録部７５、Ａ／Ｄコンバータ、静止画抽出部、ＭＰＥＧエンコーダを有して構成されている。
【００３４】
画像処理部７０は、カメラ６０により撮影された撮影映像信号（即ち、アナログ信号）を、Ａ／Ｄコンバータによりデジタル信号に変換することで、撮影映像フレームＲｆを、静止画抽出部及び画像編集部７３へ出力する。そして、画像処理部７０は、撮影映像処理プログラム（図２）に基づく所定タイミングで、Ａ／Ｄコンバータから入力された撮影映像フレームＲｆを、静止画である撮影映像Ｒとして抽出する。抽出された撮影映像Ｒは、顔画像認識部７１及びマイク位置検出部７２に対して入力される。
【００３５】
顔画像認識部７１は、静止画抽出部により静止画として抽出された撮影映像Ｒを対象として所定の画像処理を行うことで、撮影映像Ｒ中における人物の顔画像Ｆを認識し、当該人物の顔の位置（以下、顔位置Ｐ）を特定する（図４参照）。具体的には、当該顔画像認識部７１は、所定の肌色テーブルを用いて、撮影映像Ｒを構成する各画素を評価することにより、撮影映像Ｒ中の顔画像Ｆを構成する顔領域と髪領域を特定する。この点については、既に公知であるため（例えば、特許文献２参照）、詳細な説明を省略する。これらの処理を行うことにより、当該カラオケ装置１は、撮影映像Ｒ中に存在する各顔画像Ｆを抽出し得る。そして、顔画像認識部７１は、抽出した顔画像Ｆに基づいて、撮影映像Ｒに撮影されている人物の顔位置Ｐ（例えば、顔画像Ｆの中心位置）を特定する。
【００３６】
マイク位置検出部７２は、静止画抽出部により静止画として抽出された撮影映像Ｒを対象として所定の画像処理を行うことで、撮影映像Ｒ中に含まれるマイク５０のマイク位置Ｍを特定する（図５参照）。具体的には、マイク位置検出部７２は、各マイク５０におけるマイク位置出力部５１の発光色が規定された発光色テーブルに基づいて、撮影映像Ｒから、所定の明度以上の特定色（即ち、発光色テーブルに規定されている色）の画素を特定する。これにより、当該マイク位置検出部７２は、撮影映像Ｒにおける各マイク５０のマイク位置Ｍ（即ち、各マイク位置出力部５１の位置）を特定し得る。
【００３７】
画像編集部７３は、後述する撮影映像処理プログラムに基づいて、撮影映像フレームＲｆ中の各顔画像Ｆを、キャラクタ画像記憶部７４に格納されているキャラクタ画像（後述する聴衆キャラクタ画像Ｃａ、歌唱キャラクタ画像Ｃｓ、熱唱キャラクタ画像Ｃｅ）に変更する（図６、図９、図１０参照）。これにより、当該カラオケ装置１は、撮影映像フレームＲｆに基づき生成される投稿動画データにおいて、撮影映像に含まれる顔画像を隠すことができる。
【００３８】
キャラクタ画像記憶部７４は、上述したように、画像編集部７３による顔画像Ｆの変更処理に用いられるキャラクタ画像を記憶している。キャラクタ画像は、少なくとも、聴衆キャラクタ画像Ｃａ、歌唱キャラクタ画像Ｃｓ、熱唱キャラクタ画像Ｃｅの３種類に分類される。聴衆キャラクタ画像Ｃａは、カラオケ歌唱を聴いている表情を示す顔部分のキャラクタ画像である。歌唱キャラクタ画像Ｃｓは、カラオケ歌唱を行っている表情を示す顔部分のキャラクタ画像である。熱唱キャラクタ画像Ｃｅは、歌唱キャラクタ画像Ｃｓよりも熱心にカラオケ歌唱を行っている表情を示す顔部分のキャラクタ画像である。又、キャラクタ画像記憶部７４は、聴衆キャラクタ画像Ｃａ、歌唱キャラクタ画像Ｃｓ、熱唱キャラクタ画像Ｃｅの組を、当該カラオケ装置１に使用可能なマイク５０の数以上格納している。
【００３９】
ＭＰＥＧエンコーダは、画像編集部７３から入力された撮影映像フレームＲｆと、マイク５０から入力された音声信号を、ＭＰＥＧフォーマットでエンコードし、投稿動画データを生成する。ここで、投稿動画データのフォーマットは適宜選択することができる。
【００４０】
撮影映像記録部７５は、ＭＰＥＧエンコーダで生成された投稿動画データを記憶する。これにより、カメラ６０からの撮影映像信号及びマイク５０からの音声信号は、画像編集部７３による所定の画像処理を経てキャプチャされる。そして、撮影映像記録部７５に記憶された投稿動画データは、後述するサーバ９０へのアップロードの対象となる。即ち、撮影映像記録部７５に記憶された投稿動画データは、コントロールパネル２０に対する所定の操作に基づいて、通信Ｉ／Ｆ８０及び通信網Ｎを介して、サーバ９０の投稿動画データベース９１にアップロードされる。
【００４１】
（サーバの構成）
次に、サーバ９０の構成について、図面を参照しつつ詳細に説明する。図１に示すように、サーバ９０は、通信網Ｎを介して、カラオケ装置１と接続されており、投稿動画データベース９１を有している。投稿動画データベース９１は、カラオケ装置１からアップロードされた投稿動画データを記憶している。又、投稿動画データベース９１は、パーソナルコンピュータ等を介して、アクセスされ得る。投稿された撮影映像（後述する投稿動画データ）の利用者は、パーソナルコンピュータ等を介して、投稿動画データベース９１から投稿動画データを読み出して再生することで、投稿された撮影映像を閲覧できる。
【００４２】
（撮影映像処理プログラムの内容）
次に、本実施形態に係るカラオケ装置１で実行される撮影映像処理プログラムについて、図２を参照しつつ詳細に説明する。尚、当該撮影映像処理プログラムは、制御部１０により実行される。
【００４３】
先ず、Ｓ１においては、制御部１０は、コントロールパネル２０に対して、撮影開始操作が行われたか否かを判断する。撮影開始操作とは、カメラ６０によるカラオケ歌唱等の様子に関する撮影を開始する旨を指示する為の操作である。尚、撮影開始は、カラオケ楽曲の再生開始と連動するように構成することも可能である。撮影開始操作が行われた場合（Ｓ１：ＹＥＳ）、制御部１０は、Ｓ２に処理を移行する。撮影開始操作が行われていない場合（Ｓ１：ＮＯ）、制御部１０は、撮影開始操作が行われるまで、処理を待機する。
【００４４】
Ｓ２に移行すると、制御部１０は、画像処理部７０を制御して、顔位置検出処理を実行する。具体的には、制御部１０は、先ず、画像処理部７０の静止画抽出部を制御し、静止画抽出部に入力された撮影映像フレームＲｆを、撮影映像Ｒ（図３参照）として顔画像認識部７１へ入力する。その後、制御部１０は、顔画像認識部７１を制御することで、撮影映像Ｒに含まれる各顔画像Ｆを特定する。その後、制御部１０は、顔画像認識部７１を制御することで、各顔画像Ｆに係る顔位置Ｐを特定する。撮影映像Ｒに含まれる各顔画像Ｆの顔位置Ｐを特定した後、制御部１０は、Ｓ３に処理を移行する。
【００４５】
例えば、図３に示すように、当該カラオケ装置１によるカラオケに、３人の人物が興じている様子をカメラ６０で撮影した場合、撮影映像Ｒは、第１人物画像Ｓａ、第２人物画像Ｓｂ、第３人物画像Ｓｃを含んでいる。従って、制御部１０は、当該撮影映像Ｒに対して、顔位置検出処理（Ｓ２）を実行した場合、顔画像認識部７１によって、肌色テーブル等に基づいて、第１人物画像Ｓａに係る顔画像Ｆ（第１顔画像Ｆａ）、第２人物画像Ｓｂに係る顔画像Ｆ（第２顔画像Ｆｂ）、第３人物画像Ｓｃに係る顔画像Ｆ（第３顔画像Ｆｃ）を特定し得る（図４参照）。又、制御部１０は、特定した第１顔画像Ｆａ〜第３顔画像Ｆｃの大きさに基づいて、第１顔画像Ｆａに係る人物の顔位置Ｐ（第１顔位置Ｐａ）、第２顔画像Ｆｂに係る人物の顔位置Ｐ（第２顔位置Ｐｂ）、第３顔画像Ｆｃに係る人物の顔位置Ｐ（第３顔位置Ｐｃ）を特定し得る（図４参照）。
【００４６】
Ｓ３では、制御部１０は、画像処理部７０を制御して、マイク位置検出処理を実行する。具体的には、制御部１０は、先ず、画像処理部７０の静止画抽出部を制御し、静止画抽出部に入力された撮影映像フレームＲｆを、撮影映像Ｒ（図３参照）としてマイク位置検出部７２へ入力する。その後、制御部１０は、マイク位置検出部７２を制御することで、発光色テーブルに基づいて、撮影映像Ｒから、所定の明度以上の特定色（即ち、発光色テーブルに規定されている色）の画素を特定する。つまり、特定された画素の位置が、撮影映像Ｒにおけるマイク５０のマイク位置Ｍとなる。撮影映像Ｒに含まれる各マイク５０のマイク位置Ｍを特定すると、制御部１０は、各マイク５０のマイク位置Ｍを、制御部１０のＲＡＭに格納する。その後、制御部１０は、Ｓ４に処理を移行する。
【００４７】
例えば、図３に示すように、当該カラオケ装置１に３本のマイク５０が用いられている場合、撮影映像Ｒは、第１マイク位置Ｍａ、第２マイク位置Ｍｂ、第３マイク位置Ｍｃを含み得る。従って、制御部１０は、当該撮影映像Ｒに対して、マイク位置検出処理（Ｓ３）を実行した場合、マイク位置検出部７２によって、発光色テーブル等に基づいて、第１マイク５０Ａの第１マイク位置出力部５１Ａに係るマイク位置Ｍ（第１マイク位置Ｍａ）、第２マイク５０Ｂの第２マイク位置出力部５１Ｂに係るマイク位置Ｍ（第２マイク位置Ｍｂ）、第３マイク５０Ｃの第３マイク位置出力部５１Ｃに係るマイク位置Ｍ（第３マイク位置Ｍｃ）を特定し得る（図５参照）。その後、制御部１０は、第１マイク位置Ｍａ〜第３マイク位置Ｍｃを、制御部１０のＲＡＭに格納し、Ｓ４に処理を移行する。
【００４８】
Ｓ４においては、制御部１０は、直前に実行された顔位置検出処理（Ｓ２）、マイク位置検出処理（Ｓ３）が、今回の撮影における初回であるか否かを判断する。初回である場合（Ｓ４：ＹＥＳ）、制御部１０は、Ｓ５に処理を移行する。一方、初回でない場合（Ｓ４：ＮＯ）、制御部１０は、Ｓ７に処理を移行する。
【００４９】
Ｓ５に移行すると、制御部１０は初回顔画像変換処理を実行する。初回顔画像変換処理（Ｓ５）では、制御部１０は、顔位置検出処理（Ｓ２）の検出結果に基づいて、画像編集部７３によって、撮影映像フレームＲｆにおける各顔画像Ｆをキャラクタ画像記憶部７４に格納されている聴衆キャラクタ画像Ｃａに変更する。例えば、図４に示すように、撮影映像Ｒ中の第１顔画像Ｆａ〜第３顔画像Ｆｃを検出した場合、制御部１０は、画像編集部７３により、撮影映像フレームＲｆ中の第１顔画像Ｆａ〜第３顔画像Ｆｃを全て聴衆キャラクタ画像Ｃａに変更する（図６参照）。その後、制御部１０は、Ｓ６に処理を移行する。
【００５０】
Ｓ６では、制御部１０は、今回の撮影の終了時期であるか否かを判断する。例えば、制御部１０は、今回の撮影に係るカラオケ楽曲の演奏終了時期をもって、撮影の終了時期となったか否かを判断する。撮影終了時期である場合（Ｓ６：ＹＥＳ）、制御部１０は、撮影映像処理プログラムを終了する。一方、未だ撮影終了時期ではない場合（Ｓ６：ＮＯ）、制御部１０は、Ｓ２に処理を戻す。
【００５１】
Ｓ７においては、制御部１０は、未処理マイクが存在するか否かを判断する。ここで、未処理マイクとは、未だ、歌唱者の特定に関する処理（Ｓ９〜Ｓ１３）を完了していないマイク５０を意味する。未処理マイクが存在する場合（Ｓ７：ＹＥＳ）、制御部１０は、一の未処理マイクを、歌唱者の特定に関する処理（Ｓ９〜Ｓ１３）の処理対象である処理対象マイクに設定し、Ｓ９に処理を移行する。未処理マイクが存在しない場合（Ｓ７：ＮＯ）、制御部１０は、Ｓ８に処理を移行する。
【００５２】
Ｓ８に移行すると、制御部１０は、画像編集部７３を制御し、聴衆画像変換処理を実行する。聴衆画像変換処理（Ｓ８）においては、制御部１０は、画像編集部７３を制御し、撮影映像フレームＲｆに未だ存在する全て顔画像Ｆ（即ち、歌唱キャラクタ画像Ｃｓ、熱唱キャラクタ画像Ｃｅに変更されていない顔画像Ｆ）を、キャラクタ画像記憶部７４に格納されている聴衆キャラクタ画像Ｃａに変更する。その後、制御部１０は、Ｓ６に処理を移行する。
【００５３】
Ｓ９では、制御部１０は、マイク位置変化量が所定値以下であるか否かを判断する。ここで、マイク位置変化量とは、今回のマイク位置検出処理（Ｓ３）で検出された処理対象マイクのマイク位置Ｍと、前回のマイク位置検出処理（Ｓ３）で検出された処理対象マイクのマイク位置Ｍの差（絶対値）を意味する。又、所定値は、マイク位置検出部７２による検出誤差を考慮して設定されるものであり、実質的にマイク位置Ｍの変化がないと判断し得る閾値である。マイク位置変化量が所定値以下である場合（Ｓ９：ＹＥＳ）、制御部１０は、処理対象マイクがカラオケ歌唱に用いられていないものと判断し、当該処理対象マイクに関するＳ１０〜Ｓ１３の処理を実行することなく、Ｓ７に処理を戻す。一方、マイク位置変化量が所定値より大きい場合（Ｓ９：ＮＯ）、制御部１０は、当該処理対象マイクがカラオケ歌唱に用いられているものと判断し、Ｓ１０に処理を移行する。
【００５４】
具体的には、Ｓ９において、制御部１０は、異なる撮影時間の撮影映像Ｒを２枚用いて、マイク位置変化量を判断している。１枚目の撮影映像Ｒ（撮影時間ｔ＝ｎ）でマイク位置Ｍと判断した画素位置と、２枚目の撮影映像Ｒ（撮影時間ｔ＝ｎ＋１）でマイク位置Ｍと判断した画素位置とを比較し、２つの位置の位置変化量が数画素以内（所定値：数画素）であれば、制御部１０は、（Ｓ９：ＹＥＳ）として、マイク位置Ｍの変化がない（つまり、マイク５０は机上等に置かれている状態（例えば、後述する第３マイク５０Ｃ））と判断し得る。カメラ６０が通常のビデオカメラであれば、約３０枚／秒の間隔で撮影映像Ｒを作成し得るので、２枚の異なる撮影時間の撮影映像Ｒは、当回の撮影映像フレームＲｆと、次回の撮影映像フレームＲｆとから作成すればよい。
【００５５】
Ｓ１０においては、制御部１０は、顔位置検出処理（Ｓ２）、マイク位置検出処理（Ｓ３）の検出結果に基づいて、歌唱者特定処理を実行する。歌唱者特定処理（Ｓ１０）では、制御部１０は、撮影映像Ｒに含まれる各顔画像Ｆの顔位置Ｐと、撮影映像Ｒ中における処理対象マイクのマイク位置Ｍに基づいて、処理対象マイクを用いてカラオケ歌唱する歌唱者の顔画像Ｆを特定する。具体的には、制御部１０は、先ず、撮影映像Ｒに含まれる一の顔画像Ｆの顔位置Ｐと、処理対象マイクのマイク位置Ｍとに基づいて、当該顔位置Ｐに係る人物の顔と処理対象マイクの距離（後述する第１算出距離Ｌａ等）を算出する。全ての顔位置Ｐと、処理対象マイクのマイク位置Ｍとの距離の算出を終えると、制御部１０は、算出した距離が最も短い顔位置Ｐに係る顔画像Ｆを、歌唱者に係る顔画像に特定する。一般に、カラオケ歌唱を行う場合、歌唱者は、マイク５０を自己の口元近傍に位置させるため、当該カラオケ装置１は、処理対象マイクを用いてカラオケ歌唱を行う歌唱者の顔画像を、高い精度で特定し得る。その後、制御部１０は、Ｓ１１に処理を移行する。
【００５６】
Ｓ１１に移行すると、制御部１０は、処理対象マイクに対する音声入力があったか否かを判断する。処理対象マイクに対する音声入力があった場合（Ｓ１１：ＹＥＳ）、制御部１０は、Ｓ１３に処理を移行する。一方、処理対象マイクに対する音声入力がない場合（Ｓ１１：ＮＯ）、制御部１０は、Ｓ１２に処理を移行する。
【００５７】
Ｓ１２では、制御部１０は、画像編集部７３を制御し、第１歌唱画像変換処理を実行する。第１歌唱画像変換処理（Ｓ１２）においては、制御部１０は、歌唱者特定処理（Ｓ１０）により、処理対象マイクに係る歌唱者の顔画像Ｆとして特定された顔画像Ｆを、キャラクタ画像記憶部７４に記憶されている歌唱キャラクタ画像Ｃｓに変更する。尚、撮影映像フレームＲｆ中に、別のマイク５０の歌唱者に係る歌唱キャラクタ画像Ｃｓが存在する場合、制御部１０は、当該歌唱キャラクタ画像Ｃｓとは異なるキャラクタに係る歌唱キャラクタ画像Ｃｓを用いて、第１歌唱画像変換処理（Ｓ１２）を実行する（図９参照）。その後、制御部１０は、Ｓ７に処理を戻す。
【００５８】
Ｓ１３では、制御部１０は、画像編集部７３を制御し、第２歌唱画像変換処理を実行する。第２歌唱画像変換処理（Ｓ１３）においては、制御部１０は、歌唱者特定処理（Ｓ１０）により、処理対象マイクに係る歌唱者の顔画像Ｆとして特定された顔画像Ｆを、当該処理対象マイクに音声入力がなされたことに基づいて、キャラクタ画像記憶部７４に記憶されている熱唱キャラクタ画像Ｃｅに変更する。尚、撮影映像フレームＲｆ中に、別のマイク５０の歌唱者に係る熱唱キャラクタ画像Ｃｅが存在する場合、制御部１０は、当該熱唱キャラクタ画像Ｃｅとは異なるキャラクタに係る熱唱キャラクタ画像Ｃｅを用いて、第２歌唱画像変換処理（Ｓ１３）を実行する。その後、制御部１０は、Ｓ７に処理を戻す。
【００５９】
（歌唱者特定処理の具体的内容）
続いて、撮影映像処理プログラムにおける歌唱者特定処理（Ｓ１０）の処理内容について、具体例を用いて詳細に説明する。具体例としては、図３に示す撮影映像Ｒを処理対象として、顔位置検出処理（Ｓ２）、マイク位置検出処理（Ｓ３）が実行された場合を挙げる。従って、図４に示すように、当該撮影映像Ｒに対して、顔位置検出処理（Ｓ２）を実行することにより、制御部１０は、第１顔画像Ｆａ〜第３顔画像Ｆｃ及び第１顔位置Ｐａ〜第３顔位置Ｐｃを特定している。又、図５に示すように、当該撮影映像Ｒに対して、マイク位置検出処理（Ｓ３）を実行することにより、制御部１０は、第１マイク５０Ａ〜第３マイク５０Ｃについて、第１マイク位置Ｍａ〜第３マイク位置Ｍｃを特定している。
【００６０】
先ず、処理対象マイクとして、第１マイク５０Ａが設定された場合について、図７を参照しつつ説明する。先ず、制御部１０は、処理対象マイクのマイク位置Ｍである第１マイク位置Ｍａと、第１顔位置Ｐａに基づいて、処理対象マイクと第１人物画像Ｓａに係る人物の顔の距離（即ち、第１算出距離Ｌａ）を算出する。第１マイク位置Ｍａ及び第１顔位置Ｐａは、何れも撮影映像Ｒという同一平面上の位置を示すため、制御部１０は、第１算出距離Ｌａを算出し得る。同様に、制御部１０は、第１マイク位置Ｍａと第２顔位置Ｐｂに基づいて、処理対象マイクと第２人物画像Ｓｂに係る人物の顔の距離（第２算出距離Ｌｂ）を算出し、第１マイク位置Ｍａと第３顔位置Ｐｃに基づいて、処理対象マイクと第３人物画像Ｓｃに係る人物の顔の距離（第３算出距離Ｌｃ）を算出する。図７に示すように、第１算出距離Ｌａ〜第３算出距離Ｌｃの中では、第１算出距離Ｌａが最も短い。従って、制御部１０は、第１算出距離Ｌａの算出に用いた第１顔位置Ｐａに対応する第１顔画像Ｆａを、第１マイク５０Ａに係る歌唱者の顔画像Ｆと特定する。
【００６１】
次に、処理対象マイクとして、第２マイク５０Ｂが設定された場合について、図８を参照しつつ説明する。この場合、制御部１０は、処理対象マイクのマイク位置Ｍである第２マイク位置Ｍｂと、第１顔位置Ｐａに基づいて、第１算出距離Ｌａを算出する。同様に、制御部１０は、第２マイク位置Ｍｂと第２顔位置Ｐｂに基づいて、第２算出距離Ｌｂを算出し、第２マイク位置Ｍｂと第３顔位置Ｐｃに基づいて、第３算出距離Ｌｃを算出する。図８に示すように、第１算出距離Ｌａ〜第３算出距離Ｌｃの中では、第２算出距離Ｌｂが最も短い。従って、制御部１０は、第２算出距離Ｌｂの算出に用いた第２顔位置Ｐｂに対応する第２顔画像Ｆｂを、第２マイク５０Ｂに係る歌唱者の顔画像Ｆと特定する。
【００６２】
尚、図３〜図１０に示すように、第３マイク５０Ｃは、カラオケ歌唱に用いられておらず、机上に置かれた状態にある。従って、第３マイク５０Ｃに係るマイク位置変化量は所定値以下となり、制御部１０は、第３マイク５０Ｃに係る歌唱者を特定することなく、Ｓ７に処理を戻す。
【００６３】
（第１歌唱画像変換処理の具体的内容）
続いて、撮影映像処理プログラムにおける第１歌唱画像変換処理（Ｓ１２）の処理内容について、具体例を用いて詳細に説明する。具体例としては、上述した歌唱者特定処理（Ｓ１０）に係る具体例と同様の例を用いて説明する。尚、以下の説明では、第１マイク５０Ａ〜第３マイク５０Ｃの何れにおいても、音声入力がなされていないものとする。
【００６４】
上述したように、処理対象マイクを第１マイク５０Ａとする歌唱者特定処理（Ｓ１０）では、第１顔位置Ｐａに係る第１顔画像Ｆａが、第１マイク５０Ａに係る歌唱者の顔画像Ｆとして特定される（図７参照）。従って、処理対象マイクが第１マイク５０Ａである場合の第１歌唱画像変換処理（Ｓ１２）では、制御部１０は、画像編集部７３を制御することにより、撮影映像フレームＲｆにおける第１顔画像Ｆａを、キャラクタ画像記憶部７４に格納されている歌唱キャラクタ画像Ｃｓに変更する（図９参照）。
【００６５】
その後、制御部１０は、Ｓ７に処理を戻すと、未処理マイクである第２マイク５０Ｂを処理対象マイクとした処理（Ｓ９〜Ｓ１１）を行い、処理対象マイクを第２マイク５０Ｂとした第１歌唱画像変換処理（Ｓ１２）に移行する。図８を用いて説明したように、処理対象マイクを第２マイク５０Ｂとする歌唱者特定処理（Ｓ１０）では、第２顔位置Ｐｂに係る第２顔画像Ｆｂが、第２マイク５０Ｂに係る歌唱者の顔画像Ｆとして特定される。従って、処理対象マイクが第２マイク５０Ｂである場合の第１歌唱画像変換処理（Ｓ１２）では、制御部１０は、画像編集部７３を制御することにより、撮影映像フレームＲｆにおける第２顔画像Ｆｂを、キャラクタ画像記憶部７４に格納されている歌唱キャラクタ画像Ｃｓに変更する。この時、制御部１０は、画像編集部７３を制御して、第１顔画像Ｆａを変換した歌唱キャラクタ画像Ｃｓとは異なる歌唱キャラクタ画像Ｃｓに変更する（図９参照）。
【００６６】
又、第３マイク５０Ｃについては、上述のように、Ｓ９の判断処理により、Ｓ１０〜Ｓ１３の処理対象から除外される。従って、撮影映像フレームＲｆ中の第３顔画像Ｆｃに対しては、制御部１０は、聴衆画像変換処理（Ｓ８）を実行し、聴衆キャラクタ画像Ｃａに変更する（図９参照）。
【００６７】
（第２歌唱画像変換処理の具体的内容）
次に、撮影映像処理プログラムにおける第２歌唱画像変換処理（Ｓ１３）の処理内容について、具体例を用いて詳細に説明する。具体例としては、上述した歌唱者特定処理（Ｓ１０）に係る具体例と同様の例を用いて説明する。尚、以下の説明においては、第１マイク５０Ａにおいて、第１人物画像Ｓａに係る人物による音声入力がなされているものとし、第２マイク５０Ｂ、第３マイク５０Ｃへの音声入力はなされていないものとする。
【００６８】
この場合も、上述した第１歌唱画像変換処理（Ｓ１２）の具体例と同様に、処理対象マイクを第１マイク５０Ａとする歌唱者特定処理（Ｓ１０）では、第１顔位置Ｐａに係る第１顔画像Ｆａが、第１マイク５０Ａに係る歌唱者の顔画像Ｆとして特定される（図７参照）。又、上述したように、第１マイク５０Ａには、第１人物画像Ｓａに係る人物による音声入力がなされている。従って、処理対象マイクが第１マイク５０Ａである場合の第２歌唱画像変換処理（Ｓ１３）では、制御部１０は、画像編集部７３を制御することにより、撮影映像フレームＲｆにおける第１顔画像Ｆａを、キャラクタ画像記憶部７４に格納されている熱唱キャラクタ画像Ｃｅに変更する（図１０参照）。
【００６９】
尚、この場合において、処理対象マイクを第２マイク５０Ｂとした場合の処理、及び、処理対象マイクを第３マイク５０Ｃとした場合の処理は、上述した第１歌唱画像変換処理（Ｓ１２）の具体例と同様である（図１０参照）。従って、この点に関する詳細な説明は省略する。
【００７０】
以上、説明したように、本実施形態に係るカラオケ装置１は、顔位置検出処理（Ｓ２）で検出した顔位置Ｐと、マイク位置検出処理（Ｓ３）で検出したマイク位置Ｍに基づいて、カメラ６０で撮影された人物の顔と、マイク５０の間の距離を算出する（Ｓ１０）。そして、当該カラオケ装置１は、算出した距離が最も短い人物の顔に係る顔画像Ｆを、歌唱キャラクタ画像Ｃｓ又は熱唱キャラクタ画像Ｃｅに変更し（Ｓ１２、Ｓ１３）、それ以外の人物の顔画像Ｆを聴衆キャラクタ画像Ｃａに変更する（Ｓ８）。一般に、カラオケ歌唱を行う際に、歌唱者は、マイクを自己の口元近傍に位置させる。従って、当該カラオケ装置１は、撮影映像フレームＲｆ中の顔画像Ｆを、的確に歌唱者と聴衆を区別し、歌唱者及び聴衆の区別に応じたキャラクタ画像に変更し得る。これにより、当該カラオケ装置１は、歌唱者等の顔が公開されることを防止しつつ、主たる撮影対象である歌唱者を目立たせた映像を用いたサービスを行い得る。
【００７１】
又、当該カラオケ装置１は、複数本のマイク５０が用いられている場合、マイク５０毎に、マイク５０と顔の間の距離を算出し、各マイク５０に係る歌唱者の顔画像を特定する。そして、当該カラオケ装置１は、第１歌唱画像変換処理（Ｓ１２）を実行する際に、マイク５０毎に異なる歌唱キャラクタ画像Ｃｓを用いて、各マイク５０に係る歌唱者の顔画像Ｆを変更する。即ち、当該カラオケ装置１は、撮影映像フレームＲｆ中におけるマイク５０毎に、異なる歌唱キャラクタ画像Ｃｓに変更するので、撮影映像フレームＲｆをバラエティに富んだものにすることができ、より良質なサービスを提供し得る。
【００７２】
そして、当該カラオケ装置１は、マイク５０に対する音声入力の有無に応じて、当該マイク５０との距離が最も短い人物（即ち、当該マイク５０を用いた歌唱者）の顔画像Ｆを、歌唱キャラクタ画像Ｃｓ、熱唱キャラクタ画像Ｃｅの何れかに変更する。即ち、当該カラオケ装置１は、歌唱者が歌唱しているか否かに応じて、撮影映像フレームＲｆのキャラクタ画像の種類を変更することにより、実際の顔画像をキャラクタ画像に変更した場合であっても、より臨場感のある撮影映像フレームＲｆを提供し得る。
【００７３】
更に、当該カラオケ装置１は、所定間隔で、マイク位置検出処理（Ｓ３）を実行し、前回のマイク位置Ｍと、今回のマイク位置Ｍに基づいて、マイク位置変化量を算出する。そして、当該カラオケ装置１は、マイク位置変化量が所定範囲内であるマイク５０については、歌唱者特定処理（Ｓ１０）、第１歌唱画像変換処理（Ｓ１２）、第２歌唱画像変換処理（Ｓ１３）を行うことなく、当該マイク５０に対する処理を終了する。一般に、カラオケ装置１においては、マイク５０を手に持って歌唱することが多いため、少なくとも「手ぶれ」による位置変化が、当該マイク５０に生じる。即ち、マイク５０の位置変化量が所定範囲内であれば、当該マイク５０は、カラオケ歌唱に用いられていないものと推定される。従って、当該カラオケ装置１は、未使用のマイク５０に係る処理（Ｓ１０〜Ｓ１３）を省略することで、処理負担を軽減すると共に、撮影映像フレームＲｆにおける歌唱者と聴衆を、より適切に区別し、キャラクタ画像への変更を行い得る。
【００７４】
以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能である。更に、上述した各フローチャートは単なる一例であり、該各フローチャートの処理と同等の結果を得ることできるものであれば、他のフローチャートによって処理を実現してもよい。そして、上述したカラオケ装置のみならず、カラオケシステム、該方法をコンピュータに実行させるためのプログラム、該プログラムを記録した記録媒体等としても本発明は実現可能である。
【符号の説明】
【００７５】
１カラオケ装置
１０制御部
４０スピーカ
５０マイク
５１マイク位置出力部
６０カメラ
７０画像処理部
７１顔画像認識部
７２マイク位置検出部
７３画像編集部
７４キャラクタ画像記憶部
Ｒ撮影映像
Ｍマイク位置
Ｆ顔画像
Ｐ顔位置
Ｃａ聴衆キャラクタ画像
Ｃｓ歌唱キャラクタ画像
Ｃｅ熱唱キャラクタ画像

【特許請求の範囲】
【請求項１】
音声出力手段、マイク、カメラ、記憶手段、記録手段、顔位置検出手段、マイク位置検出手段、映像編集手段を備えるカラオケ装置であって、
前記音声出力手段は、カラオケデータに含まれる楽音情報に基づいて、音声信号を出力し、
前記マイクは、前記カラオケデータに基づくカラオケ歌唱に係る歌唱音声信号の入力に用いられ、
前記記憶手段は、カラオケ歌唱を行う人物の顔を模した第１歌唱キャラクタ画像と、カラオケ歌唱を聴く人物の顔を模した聴衆キャラクタ画像を記憶し、
前記記録手段は、カメラが撮影した映像信号を記録し、
前記顔位置検出手段は、前記カメラが撮影した映像信号に含まれる人物の顔画像を検出し、当該映像信号における前記顔画像の位置を特定し、
前記マイク位置検出手段は、所定範囲内における前記マイクの位置を検出し、
前記映像編集手段は、
前記顔位置検出手段により特定された前記顔画像の位置と、前記マイク位置検出手段により検出された前記マイクの位置に基づいて、前記人物の顔と前記マイクとの距離を算出し、
前記映像信号において、算出した距離が最も短い人物の顔に係る顔画像を、前記第１歌唱キャラクタ画像に変更し、前記映像信号における他の顔画像を、前記聴衆キャラクタ画像に変更する
ことを特徴とするカラオケ装置。
【請求項２】
請求項１記載のカラオケ装置であって、
前記マイク位置検出手段は、所定範囲内における複数のマイクの位置を夫々検出し、
前記映像編集手段は、
前記マイク位置検出手段により検出された各マイクについて、前記顔位置検出手段により特定された前記顔画像の位置と、当該マイクの位置に基づいて、前記人物の顔と前記マイクとの距離を算出し、
前記複数のマイクそれぞれについて、算出した距離が最も短い人物の顔に係る顔画像を、夫々異なる前記第１歌唱キャラクタ画像に変更し、前記映像信号における他の顔画像を、前記聴衆キャラクタ画像に変更する
ことを特徴とするカラオケ装置。
【請求項３】
請求項１又は請求項２記載のカラオケ装置であって、
前記記憶手段は、前記第１歌唱キャラクタ画像と異なる態様で、カラオケ歌唱を行う人物の顔を模した第２歌唱キャラクタ画像を記憶し、
前記映像編集手段は、
前記マイクに対する音声入力があった場合に、当該マイクとの距離が最も短い人物の顔に係る顔画像を、前記第２歌唱キャラクタ画像に変更し、
前記マイクに対する音声入力がない場合に、当該マイクとの距離が最も短い人物の顔に係る顔画像を、前記第１歌唱キャラクタ画像に変更する
ことを特徴とするカラオケ装置。
【請求項４】
請求項１乃至請求項３の何れかに記載のカラオケ装置であって、
前記マイク位置検出手段は、所定時間毎にマイク位置を検出し、
前記カラオケ装置は、
前記マイク位置検出手段による前記所定時間毎の検出結果に基づいて、前回検出したマイク位置と、当回検出したマイク位置とを比較し、その位置変化量が所定範囲内であるマイクを特定する特定手段を有し、
前記映像編集手段は、
前記映像信号における顔画像の変更の基準となるマイクから、前記特定手段により特定された位置変化量が所定範囲内であるマイクを除外する
ことを特徴とするカラオケ装置。

【図１】