表示制御装置

【課題】歌唱者、観客などの人の挙動に応じた演出を、楽曲の進行に伴って表示される歌唱者に対応する画像に対してリアルタイムに施すこと。
【解決手段】本発明の実施形態におけるカラオケ装置１は、カラオケの歌唱中に歌唱者を撮影し、歌唱者の画像を表示画面３００に表示させる。カラオケ装置１は、さらに、歌唱者の歌唱の巧拙を評価値として算出し、評価値に応じて歌唱者の画像の大きさを決定し、表示画面３００に表示される歌唱者の画像の大きさを変化させるように表示制御を行う。また、カラオケ装置１は、デュエット曲など２人の歌唱者による歌唱においては、双方の評価値の比に応じて、２人の歌唱者の画像の大きさを変化させるように表示制御を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、歌唱中に表示される内容を制御する技術に関する。
【背景技術】
【０００２】
近年、カラオケ装置は、歌唱者を撮影するカメラを有しているものがある。このカメラによって撮影された歌唱者の画像は、歌唱中に表示される背景、歌詞テロップなどの画像に合成されて表示画面に表示される。このような技術は、例えば、特許文献１に開示されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２０１０−２７３２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
特許文献１に開示された技術によれば、歌唱者およびその観客は、表示画面に表示される歌唱者の画像を見ることができ、歌唱者の画像が表示されない場合に比べて観客も楽しむことができる。しかしながら、表示画面における表示内容は、歌唱者の画像が追加して表示されただけで、画面全体としては単調なものである。そのため、歌唱者および観客は、その場の雰囲気がどのような状況であっても同じような態様での表示が続くことで、その表示内容に飽きてしまうものであった。
本発明は、上述した事情に鑑みてなされたものであり、歌唱者、観客などの人の挙動に応じた演出を、楽曲の進行に伴って表示される歌唱者に対応する画像に対してリアルタイムに施すことを目的とする。
【課題を解決するための手段】
【０００５】
上述の課題を解決するため、本発明は、楽曲データを再生して、当該楽曲データが示す音を放音手段から放音させる再生手段と、前記楽曲データの再生中に前記放音手段の放音範囲に位置する人の挙動を検出する検出手段と、前記挙動の検出対象となる人に対応付けられた対応画像を示す画像データを取得する画像取得手段と、前記楽曲データの再生中において表示画面に表示させる前記対応画像の表示態様を、前記検出された結果に基づいて決定する決定手段と、前記取得された画像データを用いて、前記対応画像を前記決定された表示態様で前記表示画面に表示させる表示制御手段とを具備することを特徴とする表示制御装置を提供する。
【０００６】
また、別の好ましい態様において、前記放音範囲の少なくとも一部を撮影して、撮影画像を示す画像データを出力する撮影手段をさらに具備し、前記画像取得手段は、前記撮影手段から出力される画像データを、前記対応画像を示す画像データとして取得することを特徴とする。
【０００７】
また、別の好ましい態様において、前記放音範囲の人の位置を特定する位置特定手段をさらに具備し、前記撮影手段は、前記特定された位置に応じて撮影範囲を決定することを特徴とする。
【０００８】
また、別の好ましい態様において、前記検出手段は、前記放音範囲に位置する複数の人の各々の挙動を検出し、前記画像取得手段は、前記複数の人の各々に対応して、前記対応画像を示す画像データを取得し、前記決定手段は、前記各人について前記検出された結果の相対的な関係に基づいて、前記各人に対応する前記対応画像の表示態様を決定することを特徴とする。
【０００９】
また、別の好ましい態様において、前記検出手段は、前記放音範囲に位置する人によって入力される歌唱音声を、前記挙動として検出し、前記決定手段は、前記歌唱音声を解析して評価値を算出し、算出した評価値に基づいて前記表示態様を決定することを特徴とする。
【発明の効果】
【００１０】
本発明によれば、歌唱者、観客などの人の挙動に応じた演出を、楽曲の進行に伴って表示される歌唱者に対応する画像に対してリアルタイムに施すことができる。
【図面の簡単な説明】
【００１１】
【図１】本発明の実施形態におけるカラオケ装置の構成を説明するブロック図である。
【図２】本発明の実施形態におけるカラオケ装置が設置された部屋を説明する図である。
【図３】本発明の実施形態における表示制御機能の構成を説明する機能ブロック図である。
【図４】本発明の実施形態における歌唱練習モードにおける表示画面の表示態様を説明する図である。
【図５】本発明の実施形態におけるデュエットバトルモードにおける表示画面の表示態様を説明する図である。
【図６】本発明の実施形態における客席対抗モードにおける表示画面の表示態様を説明する図である。
【図７】本発明の変形例１における表示制御機能の構成を説明する機能ブロック図である。
【図８】本発明の変形例３における表示制御機能の構成を説明する機能ブロック図である。
【発明を実施するための形態】
【００１２】
＜実施形態＞
[ハードウエア構成]
図１は、本発明の実施形態におけるカラオケ装置１の構成を説明するブロック図である。カラオケ装置１は、歌唱者または観客（以下、総称して参加者という）によって指示された表示モードに応じて、参加者の各々に対応付けられる画像（以下、対応画像という）を、背景画像および歌詞テロップなどに合成して表示画面３００に表示させる。対応画像は、この例においては、撮影された歌唱者の画像、または、歌唱者などを擬似したキャラクタ（以下、アバターという）の画像であり、歌唱者によっていずれにするかが指示される。なお、後述するように、対応画像に対応付けられた参加者は、対応画像を変化させるために挙動が検出される対象となる人であり、対応画像が表す歌唱者とは一致しない場合がある。
【００１３】
また、カラオケ装置１は、参加者によって指示された表示モードに応じた態様で、楽曲データの再生中に表示画面３００に表示される対応画像の大きさを変化させる。なお、表示モードとしては、歌唱練習モード、デュエットバトルモード、および客席対抗モードが存在する。詳細の内容については後述する。まず、カラオケ装置１のハードウエア構成について説明する。
【００１４】
カラオケ装置１は、制御部１０、操作部２０、表示部３０、通信部４０、記憶部５０、音響処理部６０、画像処理部７０を有する。これらの各構成は、バスを介して接続されている。また、カラオケ装置１は、音響処理部６０に接続されたスピーカ６１および３つのマイクロフォン６２１、６２２、６２３、および画像処理部７０に接続された３台のカメラ７２１、７２２、７２３を有する。
【００１５】
制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などを有する。制御部１０は、ＲＯＭまたは記憶部５０に記憶された制御プログラムを実行することにより、バスを介してカラオケ装置１の各部を制御する。この例においては、制御部１０は、制御プログラムを実行することにより、表示制御機能を実現する。この表示制御機能においては、楽曲データを再生して表示画面３００への表示内容を制御し、また、スピーカ６１からの放音内容を制御する。また、表示内容の制御としては、参加者によって指示された表示モードに応じた態様で、表示画面３００に表示される対応画像の大きさの制御が含まれる（図４、図５、図６参照）。
【００１６】
操作部２０は、操作パネルなどに設けられた操作ボタン、リモコンに設けられた操作ボタン、キーボード、マウスなどの操作デバイスであって、参加者の操作を受け付けて、その内容を示す操作信号を制御部１０に出力する。操作部２０への操作によって、参加者の指示が入力される。
表示部３０は、液晶ディスプレイなどの表示デバイスであり、制御部１０の制御に応じた内容を表示画面３００に表示する。この表示の内容は、上述の表示制御機能によって表示される内容、例えば、カラオケの楽曲の進行に応じて表示される背景画像、歌詞テロップ、対応画像が含まれ、さらに、メニュー画面、歌唱音声の評価結果なども含まれる。
【００１７】
通信部４０は、制御部１０の制御に応じて、インターネットなどの通信回線と接続して、サーバ装置などの通信装置と情報のやり取りを行う。また、この例においては、他のカラオケ装置１と接続し、情報のやりとりを行う。制御部１０は、通信部４０を介して取得した情報を用いて、記憶部５０に記憶される情報を更新するようにしてもよい。また、通信部４０は、ネットワークを介した通信に限らず、有線または無線により外部装置と接続可能に構成されたインターフェイスを有していてもよい。
【００１８】
記憶部５０は、ハードディスク、不揮発性メモリなどの記憶手段であり、楽曲データおよびアバター画像データをそれぞれ記憶する記憶領域を有する。
アバター画像データは、表示画面３００に表示される画像のうち、アバターに関連する画像を示すデータである。
楽曲データは、カラオケの歌唱対象となる楽曲に関連するデータが含まれ、例えば、ガイドメロディデータ（以下、ＧＭデータという）、伴奏データ、歌詞データ、背景データ、アバター制御データなどが含まれている。なお、デュエット曲においては、ＧＭデータ、歌詞データは、歌唱パート（この例においては第１パート、第２パートなど）毎に対応するように設けられている。
【００１９】
ＧＭデータは、楽曲のボーカルパートのメロディを示すデータ、すなわち、歌唱すべき構成音の内容が指定されたデータであり、例えば、ＭＩＤＩ（Musical Instrument Digital Interface）形式により記述されている。伴奏データは、楽曲の伴奏の内容を示すデータであり、例えば、ＭＩＤＩ形式により記述されている。
歌詞データは、楽曲の歌詞の内容を示すデータ、および表示画面３００に表示させた歌詞テロップを色替えするためのタイミングを示すデータを有する。背景データは、表示画面３００に表示される背景画像を示すデータである。この背景画像は、楽曲の進行に応じて変化するものであってもよいし、変化しないものであってもよい。
アバター制御データは、表示画面３００に表示させるアバターの動作を、楽曲の進行に応じて規定するデータである。楽曲データの再生中においてアバター画像を表示させる場合には、アバター画像データをアバター制御データに応じて選択することにより、アバター画像の内容が決まるようになっている。
【００２０】
なお、背景画像が各楽曲に対応して決められている必要がない、すなわち、どの楽曲でも同じ背景画像を用いる場合には、背景データは楽曲データ毎に設けられていなくてもよい。また、どの楽曲でもアバターの動作が同じものとする場合にも、アバター制御データが楽曲データ毎に設けられていなくてもよい。
また、楽曲データには、歌唱音声を評価するときに用いられる評価基準となる情報が含まれていてもよい。例えば、様々な歌唱技法を含む複数の評価項目（音高、ビブラート、抑揚、こぶし、フォール、リズムなど）の各々について、楽曲全体のうち評価を行う区間を規定する情報、評価項目の評価値を算出するための基準値などを有していればよい。
【００２１】
楽曲データは、参加者による操作部２０の操作によって指示された楽曲に対応するものが、制御部１０（後述する再生部１１０（図３参照））によって読み出されて再生され、楽曲データに含まれる各データが、カラオケの伴奏音、ガイドメロディ音のスピーカ６１からの出力、歌詞テロップ、背景画像およびアバター画像の表示画面３００への表示に用いられる。なお、楽曲データには、楽曲のサビ部分の位置、メロディの出だし部分の位置など、楽曲の各構成部分の位置を規定する情報も含まれていてもよい。
【００２２】
マイクロフォン６２１、６２２、６２３は、参加者の音声などが入力され、入力された音声などを示すオーディオ信号を音響処理部６０に出力する。スピーカ６１は、音響処理部６０から出力されるオーディオ信号を放音する。
音響処理部６０は、ＤＳＰ（Digital Signal Processor）などの信号処理回路、ＭＩＤＩ形式の信号からオーディオ信号を生成する音源などを有する。音響処理部６０は、マイクロフォン６２１、６２２、６２３から入力されるオーディオ信号をＡ／Ｄ変換（アナログデジタル変換）して、オーディオデータとして制御部１０に出力する。このとき、オーディオデータは、Ａ／Ｄ変換前のオーディオ信号を出力したマイクロフォンを識別する情報を対応付けて出力される。
音響処理部６０は、制御部１０から楽曲データに基づくＭＩＤＩ形式の信号が入力され、その信号に基づいてオーディオデータを生成する。音響処理部６０は、このように生成したオーディオデータ、制御部１０から出力されたオーディオデータなどに、エフェクト処理、Ｄ／Ａ変換（デジタルアナログ変換）、増幅処理などの信号処理を施してからスピーカ６１に出力する。また、音響処理部６０は、マイクロフォン６２１、６２２、６２３のうち制御部１０によって決められたマイクロフォン（この例においては、マイクロフォン６２１、６２２）から入力されたオーディオ信号についても、上記信号処理などを施してスピーカ６１に出力する。
【００２３】
カメラ７２１、７２２、７２３は、予め決められた範囲を撮影し、撮影画像を示す撮影信号を画像処理部７０に出力する。
画像処理部７０は、カメラ７２１、７２２、７２３からの撮影信号をそれぞれ撮影画像データとして出力する。このとき、画像処理部７０は、各カメラを識別する情報を各撮影画像データに対応付けて出力する。
以上が、カラオケ装置１のハードウエア構成についての説明である。
【００２４】
[カラオケ装置１の設置態様]
図２は、本発明の実施形態におけるカラオケ装置１が設置された部屋１０００を説明する図である。この例においては、カラオケ装置１は、部屋１０００ａ、１０００ｂに設置されている。それぞれのカラオケ装置１は通信部４０を介して接続されている。部屋１０００ａに設置されたカラオケ装置１と、部屋１０００ｂに設置されたカラオケ装置１とは、参加者によって指示された表示モードが客席対抗モードである場合に、連携して動作する。この場合には、各部屋のカラオケ装置１は、撮影画像データ、オーディオデータ、および表示制御機能において用いられる各種情報が通信部４０を介して相互にやり取りするようになっている。以下、部屋１０００ａと１０００ｂとを区別しない場合には、単に部屋１０００という。
【００２５】
部屋１０００には、机１１００および客席１２００が設置されている。カラオケ装置１の表示画面３００は、歌唱者および客席１２００に座った観客から見える場所に位置している。表示画面３００を有する筐体ＣＮには、制御部１０などバスに接続された各構成が設けられている。スピーカ６１は、この例においては複数存在し、ステレオによる放音を行う。スピーカ６１の放音範囲は、部屋１０００の内部全体である。また、歌唱者Ａが歌唱すべき範囲として歌唱範囲ＤＡが決められ、歌唱者Ｂが歌唱すべき範囲として歌唱範囲ＤＢが決められている。
【００２６】
マイクロフォン６２１は、予め決められた歌唱範囲ＤＡ近傍に設置されている。以下の説明においては、マイクロフォン６２１を用いる歌唱者を歌唱者Ａといい、マイクロフォン６２１から入力される音声を歌唱音声Ａという。デュエット曲においては、第１パートを歌唱する歌唱者がこのマイクロフォン６２１を用いる。
マイクロフォン６２２は、予め決められた歌唱範囲ＤＢ近傍に設置されている。以下の説明においては、マイクロフォン６２２を用いる歌唱者を歌唱者Ｂといい、マイクロフォン６２２から入力される音声を歌唱音声Ｂという。デュエット曲においては、第２パートを歌唱する歌唱者がこのマイクロフォン６２２を用いる。
マイクロフォン６２３は、机１１００に設置されている。マイクロフォン６２３から入力される音は、客席１２００に位置する観客の音声を含んでいる。以下の説明においては、マイクロフォン６２３から入力された観客の音声を観客音声という。
なお、マイクロフォン６２１，６２２、６２３は、筐体ＣＮとは異なる位置に設置されているが、狭い指向性を有する収音方向のマイクアレイなどを筐体ＣＮに設置し、歌唱範囲ＤＡ、ＤＢ、客席１２００方向からの音が入力されるようにしてもよい。
【００２７】
カメラ７２１は、歌唱範囲ＤＡを含む範囲（カメラ７２１から伸びる破線に対応）を撮影するように設置されている。歌唱中には、カメラ７２１は、歌唱者Ａを撮影することになる。以下、この撮影画像を歌唱者Ａ画像という。
カメラ７２２は、歌唱範囲ＤＢを含む範囲（カメラ７２２から伸びる破線に対応）を撮影するように設置されている。歌唱中には、カメラ７２２は、歌唱者Ｂを撮影することになる。以下、この撮影画像を歌唱者Ｂ画像という。
カメラ７２３は、客席１２００の少なくとも一部の範囲（カメラ７２３から伸びる破線に対応）を撮影するように設置されている。客席１２００に観客がいる場合には、カメラ７２３は、観客を撮影することになる。以下、この撮影画像を観客画像という。
なお、カメラ７２１、７２２、７２３は、図２に示す例においては、筐体ＣＮに取り付けられているが、部屋１０００のいずれかの場所に設置されていてもよい。以上が、カラオケ装置１の部屋１０００への設置態様についての説明である。
【００２８】
[機能構成]
次に、カラオケ装置１の制御部１０が制御プログラムを実行することによって実現される表示制御機能について説明する。なお、以下に説明する表示制御機能を実現するための各構成の一部または全部については、ハードウエアによって実現してもよい。
【００２９】
図３は、本発明の実施形態における表示制御機能の構成を説明する機能ブロック図である。制御部１０は、制御プログラムを実行すると、再生部１１０、取得部１２０、検出部１３０、決定部１４０、および表示制御部１５０を構成する。これらの構成により、制御部１０は表示制御装置として機能する。
【００３０】
再生部１１０は、予め歌唱者による操作部２０の操作などにより指示された楽曲の楽曲データを読み出して再生する。再生部１１０は、楽曲データを再生することにより、楽曲データにおけるＧＭデータおよび伴奏データによって決められた音をスピーカ６１から放音させるためのオーディオ信号を音響処理部６０に出力する。
再生部１１０は、楽曲データにおける背景データ、歌詞データに応じた背景画像、歌詞テロップを表示画面３００に表示させるための画像データを、表示制御部１５０に出力する。なお、再生部１１０は、楽曲データにおけるアバター制御データに従って、アバター画像を対応画像として表示画面３００に表示させるための画像データについても表示制御部１５０に出力する。アバター画像を示す画像データについては、歌唱者によってアバター画像が対応画像として指示された場合にのみ出力されるようにしてもよい。
再生部１１０は、楽曲データにおけるＧＭデータが示す情報（各構成音の音高および期間）を決定部１４０に出力する。決定部１４０に出力されたＧＭデータに基づく情報は、後述するように歌唱音声の評価に用いられる。なお、上述した評価基準となる情報が楽曲データに含まれている場合には、再生部１１０は、この情報についても決定部１４０に出力する。
【００３１】
なお、参加者によって指示された表示モードが歌唱練習モードおよびデュエットバトルモードである場合については、再生部１１０は、上記処理となる一方、客席対抗モードである場合には部屋１０００ａのカラオケ装置１と部屋１０００ｂのカラオケ装置１とは相互に再生タイミングを規定する情報をやり取りして、互いに同期して楽曲データを再生する。
【００３２】
取得部１２０は、画像処理部７０から出力される撮影画像データを取得し、カメラを識別する情報との対応関係を維持したまま、表示制御部１５０に出力する。なお、この撮影画像データについては、歌唱者によって撮影画像が対応画像として指示された場合にのみ出力されるようにしてもよい。以下の例においては、歌唱者によって撮影画像が対応画像として指示された場合を前提として説明するが、アバター画像が対応画像として指示された場合には、対応画像をアバター画像として置き換えればよい。
【００３３】
参加者によって指示された表示モードが歌唱練習モードおよびデュエットバトルモードである場合については、取得部１２０の処理は上記のとおりである。一方、客席対抗モードである場合には部屋１０００ａのカラオケ装置１と部屋１０００ｂのカラオケ装置１とは相互に撮影画像データをやり取りし、一方の部屋１０００のカラオケ装置１における取得部１２０は、他の部屋１０００のカラオケ装置１における取得部１２０において取得される撮影画像データについても取得する。以下、部屋１０００ａの歌唱者Ａおよび観客と、部屋１０００ｂの歌唱者Ａおよび観客とを区別する場合には、それぞれ、部屋１０００ａの歌唱者Ａおよび観客については、歌唱者Ａａおよび観客ａといい、部屋１０００ｂの歌唱者Ａおよび観客については、歌唱者Ａｂおよび観客ｂという。
このようにして撮影画像データをやり取りすることにより、各部屋１０００のカラオケ装置１の取得部１２０は、ともに、歌唱者Ａａおよび観客ａの画像を示す撮影画像データおよび、歌唱者Ａｂおよび観客ｂの画像を示す撮影画像データを取得する。
【００３４】
検出部１３０は、歌唱音声Ａを示すオーディオデータ、歌唱音声Ｂを示すオーディオデータ、および観客音声を示すオーディオデータを音響処理部６０から取得することにより、歌唱者Ａ、歌唱者Ｂおよび観客の音声を各人の挙動として検出する。なお、検出部１３０は、これらのオーディオデータのうち、参加者によって指示された表示モードに応じて、決定部１４０において用いられるオーディオデータのみ取得するようにしてもよい。
検出部１３０は、取得したオーディオデータを、各人の挙動の検出結果として決定部１４０に出力する。
【００３５】
決定部１４０は、参加者によって指示された表示モードが歌唱練習モードおよびデュエットバトルモードである場合には、検出部１３０から出力されたオーディオデータ（検出結果）と再生部１１０から出力されたＧＭデータとに基づいて、音高の一致の程度に応じた評価値を予め決められた期間毎（例えば、構成音毎）に算出する。そして、決定部１４０は、この算出結果に応じて、表示制御部１５０によって表示画面３００に表示させる対応画像の大きさを決定する。
このとき、決定部１４０は、参加者によって指示された表示モードに応じて、検出結果に応じて大きさを変化させる対応画像と、挙動の検出対象の人との対応付けを行っておく。この例においては、歌唱練習モードであれば、決定部１４０は、対応画像Ａに歌唱者Ａを対応付けるように決められている。また、デュエットバトルモードであれば、決定部１４０は、さらに、対応画像Ｂに歌唱者Ｂを対応付けるように決められている。ここで、対応画像Ａとは、カメラ７２１による撮影画像（歌唱者Ａ画像）であり、後述する歌唱者Ａ表示領域ＣＡに表示される画像である。また、対応画像Ｂとは、カメラ７２２による撮影画像（歌唱者Ｂ画像）であり、後述する歌唱者Ｂ表示領域ＣＢに表示される画像である。このように、歌唱練習モードおよびデュエットバトルモードにおいては、対応画像に対応付けられている人は、その対応画像を得るための撮影対象の人と同じである。
【００３６】
また、各表示モードに応じて対応画像の大きさの決定方法が異なる。歌唱練習モードである場合には、決定部１４０は、対応画像Ａの大きさを、対応画像Ａに対応付けられた歌唱者Ａによって入力された歌唱音声Ａを示すオーディオデータとＧＭデータとに基づいて算出した評価値に応じて決定する。この例においては、決定部１４０は、算出した評価値が高いほど対応画像Ａの大きさが大きくなるように決定する。なお、対応画像Ａの大きさは、算出した評価値の、直前の期間において算出された評価値に対する相対的な値に応じて決定されてもよいし、直前の対応画像Ａの大きさに対する変化量として決定されてもよい。
【００３７】
一方、デュエットバトルモードである場合には、決定部１４０は、対応画像Ａの大きさおよび対応画像Ｂの大きさを、対応画像Ａに対応付けられた歌唱者Ａによって入力された歌唱音声Ａに基づいて算出した評価値Ａと、対応画像Ｂに対応付けられた歌唱者Ｂによって入力された歌唱音声Ｂに基づいて算出した評価値Ｂとの相対的な関係（例えば比率）に応じて決定する。評価値Ａは、歌唱音声Ａを示すオーディオデータとＧＭデータ（第１パート）とに基づいて算出し、評価値Ｂは、歌唱音声Ｂを示すオーディオデータとＧＭデータ（第２パート）とに基づいて算出する。
【００３８】
この例においては、決定部１４０は、それぞれの評価値が異なっているほど、それぞれの対応画像の大きさの比率が異なるように、それぞれの大きさを決定する。例えば、評価値Ａの評価値Ｂに対する比が大きいほど、対応画像Ａを大きく、対応画像Ｂを小さくするように決定する。なお、対応画像の大きさは、算出された評価値Ａの評価値Ｂに対する比の、直前の期間において算出された比に対する相対的な値に応じて決定されてもよいし、直前の対応画像の大きさに対する変化量として決定されてもよい。
【００３９】
ここで、決定部１４０は、評価値の算出において、音高の一致の程度については公知の様々な方法を用いることができるが、例えば、以下のようにして行う。まず、決定部１４０は、検出部１３０からのオーディオデータを解析して、歌唱音声の音高（以下、歌唱音高という）を特定する。例えば、各フレームについてオーディオデータが示す音声信号の波形が負から正に変化する際のゼロクロスを検出し、そのゼロクロスの時間間隔を測定することによってフレーム毎の歌唱音高（周波数）を特定する。このとき、この音声信号から、ローパスフィルタによりノイズ成分となる高域成分をカットしたり、ハイパスフィルタにより直流成分をカットしたりしておいてもよい。なお、歌唱音高は、歌唱音声データにＦＦＴ（Fast Fourier Transform）を施して得られるスペクトルから特定してもよい。
【００４０】
そして、決定部１４０は、歌唱音高とＧＭデータが示す構成音の音高（以下、指定音高という）の周波数から一定範囲（この例においては、±５０ｃｅｎｔ）に含まれている期間の割合に応じて評価値を算出する。すなわち、各構成音について歌唱音高と指定音高とが近いほど評価値が高くなる。なお、上述したように楽曲データに評価基準となる情報が含まれている場合には、決定部１４０は、音高以外（例えば、ビブラートなど）の評価を評価値算出に用いてもよく、この場合においても公知の方法を用いて評価値を算出すればよい。なお、このような歌唱音声と基準値との比較により評価値を算出する場合に限られず、決定部１４０は、歌唱音声の音量レベルであったり、周波数分布から得られるパラメータなどを評価値として算出してもよい。すなわち、オーディオデータから得られるパラメータを評価値として用いればよい。
【００４１】
続いて、客席対抗モードである場合についての決定部１４０の処理を説明する。この場合の決定部１４０は、対応画像Ａａに観客ａを対応付け、対応画像Ａｂに観客ｂを対応付けるように決められている。ここで、対応画像Ａａとは、部屋１０００ａのカラオケ装置１におけるカメラ７２１による撮影画像（歌唱者Ａａ画像）であり、後述する歌唱者Ａａ表示領域ＣＡａに表示される画像である。また、対応画像Ａｂとは、部屋１０００ｂのカラオケ装置１におけるカメラ７２１による撮影画像（歌唱者Ａｂ画像）であり、後述する歌唱者Ａｂ表示領域ＣＡｂに表示される画像である。このように、客席対抗モードにおいては、対応画像に対応付けられている人は、その対応画像を得るための撮影対象の人とは異なっている。
決定部１４０は、対応画像に対応付けられた観客によって入力された観客音声の音量レベルを評価値として算出する。部屋１０００ａのカラオケ装置１と部屋１０００ｂのカラオケ装置１とは、この算出結果を相互にやり取りする。
【００４２】
決定部１４０は、観客ａ音声の音量レベルａと観客ｂ音声の音量レベルｂとの相対的な関係（例えば比率）に応じて、対応画像Ａａの大きさと対応画像Ａｂの大きさとを決定する。この例においては、決定部１４０は、それぞれの音量レベルが異なっているほど、それぞれの対応画像の大きさの比率が異なるように、それぞれの大きさを決定する。例えば、音量レベルａの音量レベルｂに対する比が大きいほど、対応画像Ａａを大きく、対応画像Ａｂを小さくするように決定する。
【００４３】
そして、決定部１４０は、上述のように表示モードに応じた方法で決定した対応画像の大きさ示す決定情報を表示制御部１５０に出力する。
【００４４】
表示制御部１５０は、再生部１１０から出力される画像データ、取得部１２０から出力される撮影画像データ、および決定部１４０から出力される決定情報を用いて、表示画面３００の表示内容を制御する。この表示内容は、参加者によって指示された表示モードによっても異なる。続いて、各表示モードにおける表示画面の３００の表示内容について図４、図５、図６を用いて説明する。
【００４５】
[歌唱練習モードの表示例]
図４は、本発明の実施形態における歌唱練習モードにおける表示画面３００の表示態様を説明する図である。歌唱練習モードにおいては、表示画面３００の表示領域は、ステージＳＴなどの背景画像が表示される背景表示領域ＢＡ、歌詞テロップが表示される歌詞表示領域ＬＡ、対応画像Ａ（この例においては歌唱者Ａ画像）が表示される歌唱者Ａ表示領域ＣＡ、およびカメラ７２３の撮影画像である観客画像が表示される観客表示領域ＣＣにより構成される。歌詞表示領域ＬＡおよび歌唱者Ａ表示領域ＣＡは、背景表示領域ＢＡに重畳した位置関係であり、歌詞表示領域ＬＡ、歌唱者Ａ表示領域ＣＡおよび観客表示領域ＣＣに表示される画像は、背景表示領域ＢＡにおける背景画像より優先して表示される。また、歌唱者Ａ表示領域ＣＡに表示される歌唱者Ａ画像は、観客表示領域ＣＣに表示される観客画像よりも優先して表示される。
【００４６】
歌唱者Ａが歌唱を開始する前においては、歌唱者Ａ表示領域ＣＡ（歌唱者Ａ画像）は、図４（ａ）に示す大きさで表示される。その後、楽曲の進行に伴い歌唱者Ａの歌唱が開始されると、歌唱音声Ａの評価値に応じて、歌唱者Ａ表示領域ＣＡの大きさが変更される。歌唱者Ａ画像は、歌唱者Ａ表示領域ＣＡの大きさに合わせて縮小または拡大される。この例においては、歌唱音声Ａの評価値が高くなるほど、図４（ｂ）に示すように歌唱者Ａ表示領域ＣＡが大きくなる。一方、歌唱音声Ａの評価値が低くなるほど、図４（ｃ）に示すように歌唱者Ａ表示領域ＣＡが小さくなる。
【００４７】
このように表示されることにより、参加者は、歌唱者Ａの歌唱の巧拙に応じて、表示画面３００に表示される歌唱者Ａ画像の大きさがリアルタイムに変化するのを見ることができる。したがって、例えば、歌唱者Ａは、自分の画像が大きく表示されるように巧く歌唱しようとすることにより、歌唱中の雰囲気を盛り上げることができる。
【００４８】
[デュエットバトルモードの表示例]
図５は、本発明の実施形態におけるデュエットバトルモードにおける表示画面３００の表示態様を説明する図である。デュエットバトルモードにおいては、表示画面３００の表示領域には、歌唱練習モードの場合の表示態様に追加して、対応画像Ｂ（この例においては歌唱者Ｂ画像）が表示される歌唱者Ｂ表示領域ＣＢが構成される。歌唱者Ｂ表示領域ＣＢに表示される歌唱者Ｂ画像は、背景表示領域ＢＡにおける背景画像、および観客表示領域ＣＣに表示される観客画像よりも優先して表示される。なお、歌唱者Ａ表示領域ＣＡと歌唱者Ｂ表示領域ＣＢとが重なる場合には、大きい方の画像が優先して表示される。
【００４９】
歌唱者Ａおよび歌唱者Ｂが歌唱を開始する前においては、歌唱者Ａ表示領域ＣＡおよび歌唱者Ｂ表示領域ＣＢは、図５（ａ）に示すように同じ大きさで表示される。その後、楽曲の進行に伴い歌唱者Ａおよび歌唱者Ｂの歌唱が開始されると、歌唱音声Ａの評価値および歌唱音声Ｂの評価値に応じて、歌唱者Ａ表示領域ＣＡと歌唱者Ｂ表示領域ＣＢとの大きさが変更される。歌唱者Ａ画像は、歌唱者Ａ表示領域ＣＡの大きさに合わせて縮小または拡大される。また、歌唱者Ｂ画像は、歌唱者Ｂ表示領域ＣＢの大きさに合わせて縮小または拡大される。この例においては、歌唱音声Ａの評価値が歌唱音声Ｂの評価値に比べて高くなるほど、図５（ｂ）に示すように歌唱者Ａ表示領域ＣＡが大きくなり歌唱者Ｂ表示領域ＣＢが小さくなる。すなわち、歌唱者Ｂが巧く歌っても、歌唱者Ａがより巧く歌えば、歌唱者Ｂ画像は小さくなる。一方、歌唱音声Ａの評価値が歌唱音声Ｂの評価値に比べて低くなるほど、図５（ｃ）に示すように歌唱者Ａ表示領域ＣＡが小さくなり歌唱者Ｂ表示領域ＣＢが大きくなる。
【００５０】
このように表示されることにより、参加者は、歌唱者Ａおよび歌唱者Ｂの歌唱の巧拙に応じて、表示画面３００に表示される歌唱者Ａ画像および歌唱者Ｂ画像の大きさがリアルタイムに変化するのを見ることができる。したがって、例えば、歌唱者Ａおよび歌唱者Ｂは、自分の画像が大きく表示されるように相手より巧く歌唱しようとすることにより、歌唱中の雰囲気を盛り上げることができる。
【００５１】
[客席対抗モードの表示例]
図６は、本発明の実施形態における客席対抗モードにおける表示画面３００の表示態様を説明する図である。客席対抗モードにおいては、表示画面３００の表示領域は、ステージＳＴａ、ＳＴｂなどの背景画像が表示される背景表示領域ＢＡ、歌詞テロップが表示される歌詞表示領域ＬＡ、対応画像Ａａ（この例においては歌唱者Ａａ画像）が表示される歌唱者Ａａ表示領域ＣＡａ、部屋１０００ａのカラオケ装置１におけるカメラ７２３の撮影画像である観客ａ画像が表示される観客ａ表示領域ＣＣａ、対応画像Ａｂ（この例においては歌唱者Ａｂ画像）が表示される歌唱者Ａｂ表示領域ＣＡｂ、および部屋１０００ｂのカラオケ装置１におけるカメラ７２３の撮影画像である観客ｂ画像が表示される観客ｂ表示領域ＣＣｂにより構成される。重畳した場合に優先して表示させる画像については、上記の説明と同様である。
部屋１０００ａにおけるカラオケ装置１の表示画面３００に表示される内容と、部屋１０００ｂにおけるカラオケ装置１の表示画面３００に表示される内容とは、同じものが表示されるものとするが、異なる態様で表示されてもよい。
【００５２】
歌唱者Ａａおよび歌唱者Ａｂが歌唱を開始する前においては、歌唱者Ａａ表示領域ＣＡａおよび歌唱者Ａｂ表示領域ＣＡｂは、図６（ａ）に示すように同じ大きさで表示される。その後、楽曲の進行に伴い歌唱者Ａａおよび歌唱者Ａｂの歌唱が開始されると、観客ａ音声の音量レベルａおよび観客ｂ音声の音量レベルｂに応じて、歌唱者Ａａ表示領域ＣＡａと歌唱者Ａｂ表示領域ＣＡｂとの大きさが変更される。歌唱者Ａａ画像は、歌唱者Ａａ表示領域ＣＡａの大きさに合わせて縮小または拡大される。また、歌唱者Ａｂ画像は、歌唱者Ａｂ表示領域ＣＡｂの大きさに合わせて縮小または拡大される。
【００５３】
この例においては、観客ａ音声の音量レベルａが観客ｂ音声の音量レベルｂに比べて高くなるほど、図６（ｂ）に示すように、歌唱者Ａａ表示領域ＣＡａが大きくなり、歌唱者Ａｂ表示領域ＣＡｂが小さくなる。一方、観客ａ音声の音量レベルａが観客ｂ音声の音量レベルｂに比べて低くなるほど、図６（ｃ）に示すように、歌唱者Ａａ表示領域ＣＡａが小さくなり、歌唱者Ａｂ表示領域ＣＡｂが大きくなる。すなわち、歌唱者Ａａおよび歌唱者Ａｂの歌唱の巧さではなく、観客ａおよび観客ｂの盛り上がりの程度によって、歌唱者Ａａ画像と歌唱者Ａｂ画像との大きさが変わる。なお、観客ａ画像および観客ｂ画像の大きさについても、歌唱者Ａａ画像および歌唱者Ａｂ画像の大きさに連動して変化するようにしてもよい。
【００５４】
このように表示されることにより、参加者は、観客ａおよび観客ｂの盛り上がりの程度に応じて、表示画面３００に表示される歌唱者Ａａ画像および歌唱者Ａｂ画像の大きさがリアルタイムに変化するのを見ることができる。したがって、例えば、歌唱者Ａａおよび歌唱者Ａｂは、自分の画像が大きく表示されるように相手より巧く歌唱して観客を盛り上げようとすることにより、歌唱中の雰囲気を盛り上げることができる。また、観客ａおよび観客ｂについても、積極的に歌唱者が巧く歌唱できるように応援しようとすることで、歌唱中の雰囲気を盛り上げることができる。
【００５５】
＜変形例＞
以上、本発明の実施形態について説明したが、本発明は以下のように、さまざまな態様で実施可能である。
[変形例１]
上述した実施形態において、検出部１３０は、歌唱音声、観客音声を示すオーディオデータを音響処理部６０から取得することにより、参加者の音声を各人の挙動として検出していたが、参加者の動きを各人の挙動として検出するようにしてもよい。このような構成を実現するカラオケ装置１Ａについて、図７を用いて説明する。
【００５６】
図７は、本発明の変形例１における表示制御機能の構成を説明する機能ブロック図である。変形例１における制御部１０Ａは、制御プログラムを実行すると、再生部１１０、取得部１２０、検出部１３０Ａ、決定部１４０Ａ、および表示制御部１５０を構成する。また、カラオケ装置１Ａの音響処理部６０Ａは、実施形態における構成と異なり、検出部１３０Ａにオーディオデータを出力しない。一方、画像処理部７０Ａは、取得部１２０に出力する撮影画像データを、検出部１３０Ａに対しても出力する。
【００５７】
検出部１３０Ａは、歌唱者Ａ、歌唱者Ｂおよび観客の画像を示す撮影画像データを画像処理部７０Ａから取得することにより、歌唱者Ａ、歌唱者Ｂおよび観客の動きを各人の挙動として検出する。検出部１３０Ａは、このようにして取得した撮影画像データを、各人の挙動の検出結果として決定部１４０Ａに出力する。
決定部１４０Ａは、検出部１３０Ａから出力された撮影画像データが示す画像を解析し、歌唱者などの人の動きの程度を評価値として算出する。これは、画像の内容の変化の程度を数値化することにより評価値として算出するものであってもよいし、画像の明るさなどを評価値として算出するものであってもよい。決定部１４０Ａは、評価値を用いて対応画像の大きさを変化させる処理については、実施形態と同様に行えばよい。他の構成については、実施形態における構成と同様であるため説明を省略する。
【００５８】
なお、カメラ７２１、７２２、７２３が、深度センサが取り付けられた構成とし、撮影範囲における深度を示す深度データを出力する構成とすれば、検出部１３０Ａは、深度データを取得して決定部１４０Ａに出力し、決定部１４０Ａは、モーションキャプチャなどにおいて用いられる技術により、深度データに基づいて歌唱者などの人の動きの程度を評価値として算出してもよい。
【００５９】
[変形例２]
上述した実施形態において、表示画面３００に表示される歌唱者Ａ画像、歌唱者Ｂ画像は、その大きさが変化することにより表示態様が変化するようになっていたが、他の方法により表示態様が変化するようになっていてもよい。例えば、画像の明度、彩度、色相などを変化させたり、画像の解像度を変化させたり、画像の形状を変化させたり、表示位置を振動させたりして、表示態様を変化させてもよい。
また、表示画面３００が、裸眼またはメガネ等を用いて立体視の表示が可能な構成である場合には、画像の立体化の程度であったり、奥行き方向の位置を変化させることにより表示態様を変化させてもよい。この場合には、カメラ７２１、７２２、７２３の各々についても、複数地点から同時に撮影するなど、立体視可能な撮影方法に対応するようにしてもよい。
【００６０】
[変形例３]
上述した実施形態において、カメラ７２１、７２２、７２３は予め決められた範囲を撮影範囲としていたが、撮影範囲が変更可能に構成され、歌唱者などが移動しても撮影範囲に歌唱者などが含まれるようにしてもよい。このような構成を実現するカラオケ装置１Ｂについて、図８を用いて説明する。
【００６１】
図８は、本発明の変形例３における表示制御機能の構成を説明する機能ブロック図である。変形例３における制御部１０Ｂは、制御プログラムを実行すると、実施形態における表示制御機能の各構成に加えて、位置特定部１６０を構成する。また、カラオケ装置１Ｂは、駆動部７１および位置検出部８０を有する。
駆動部７１は、位置特定部１６０からの制御により、カメラ７２１、７２２、７２３の向きを変更するなどして、撮影範囲を変更させる。
【００６２】
位置検出部８０は、マイクロフォン６２１、６２２、６２３の位置を検出し、検出した位置を示す情報を位置特定部１６０に出力する。この位置の検出方法は、公知の方法を用いればよい。以下、いくつかの態様を例示する。
第１の態様として、位置検出部８０は、部屋１０００に設置され赤外線信号を出力するビーコン、およびマイクロフォン６２１、６２２、６２３に設けられビーコンからの赤外線信号を検出する構成を有するものとすればよい。この場合には、位置検出部８０は、マイクロフォン６２１、６２２、６２３が検出した赤外線信号から、それぞれの位置を検出すればよい。
第２の態様として、位置検出部８０は、マイクロフォン６２１、６２２、６２３に設けられ自身を識別する無線信号を出力する構成、およびカラオケ装置１Ｂの筐体ＣＮに設けられ無線信号が出力される方向を認識する構成を有するものとすればよい。この場合には、位置検出部８０は、認識した無線信号の出力方向をマイクロフォン６２１、６２２、６２３の位置として検出すればよい。
第３の態様として、位置検出部８０は、マイクロフォン６２１、６２２、６２３に設けられ自身を識別する絵柄、およびこれを撮影するカメラ（カメラ７２１、７２２、７２３を用いてもよい）などを有するものとすればよい。この場合には、位置検出部８０は、絵柄が撮影されたカメラの方向を、マイクロフォン６２１、６２２、６２３の位置として検出すればよい。
【００６３】
位置特定部１６０は、位置検出部８０からの情報を用いて、マイクロフォン６２１、６２２、６２３の位置を、歌唱者Ａ、歌唱者Ｂ、観客の位置として特定する。そして、位置特定部１６０は、駆動部７１を制御して、カメラ７２１、７２２、７２３の撮影範囲に、特定した歌唱者Ａ、歌唱者Ｂ、観客のそれぞれの位置が含まれるように、撮影方向を変更させる。これにより、歌唱者などが移動しても、カメラ７２１、７２２、７２３の撮影範囲に含まれるようにすることができる。
【００６４】
なお、上述した位置検出部８０のようにマイクロフォン６２１、６２２、６２３の位置を検出することにより歌唱者などの位置を特定するのではなく、直接的に歌唱者などの位置を特定する構成を用いてもよい。この構成についても、公知の方法を用いればよい。例えば、位置特定部１６０は、マイクアレイを用いて歌唱者などから発生される歌唱音声の方向を認識することにより、歌唱者などの位置を特定してもよい。また、位置特定部１６０は、駆動部７１を制御して撮影範囲が部屋１０００の内部においてスキャンさせ、得られた撮影画像を解析することにより、歌唱者などの位置を特定してもよい。また、深度センサを用いたモーションキャプチャ技術、温度センサを用いた技術などにより歌唱者などの位置を特定してもよい。また、参加者が操作部２０を操作して歌唱者の位置を入力することにより特定するようにしてもよい。
【００６５】
[変形例４]
上述した実施形態において、デュエット曲の第１パートに対応する歌唱音声Ａはマイクロフォン６２１から入力され、第２パートについての歌唱音声Ｂはマイクロフォン６２２から入力されるものとして予め決められていたが、この対応関係は予め決められていなくてもよい。この場合には、マイクロフォン６２１、６２２から入力された歌唱音声が、それぞれ第１パートの歌唱音声Ａであるか第２パートの歌唱音声Ｂであるかを判定する判定部を設ければよい。この判定部は、それぞれのマイクロフォンに対応するオーディオデータを解析して得られる音高と、ＧＭデータの各パートの構成音の音高とを比較し、いずれのパートと一致している程度が高いかに応じて判定すればよい。表示制御機能の各構成については、この判定結果にしたがって歌唱者Ａ、歌唱者Ｂがいずれのマイクロフォンを用いているかが決められたものとして各処理を行えばよい。
【００６６】
また、歌唱者練習モードの場合のように、歌唱者が１人である場合には、それぞれのマイクロフォンに対応するオーディオデータを解析して、音量レベルが一定値以上となるマイクロフォンを歌唱者が用いているものとして各処理を行えばよい。
これらの構成によれば、歌唱者が使用すべきマイクロフォンが予め決められていなくても、実施形態と同様な効果が得られる。
【００６７】
[変形例５]
上述した実施形態において、歌唱者Ａ、歌唱者Ｂおよび観客を撮影するカメラは、それぞれ個別のカメラ７２１、７２２、７２３を用いていたが、部屋１０００の内部全体を撮影範囲とするカメラを用いてもよい。この場合には、画像処理部７０は、撮影画像を解析し、歌唱者Ａ、歌唱者Ｂおよび観客に対応する部分を抽出して、抽出した歌唱者Ａ画像、歌唱者Ｂ画像、観客画像のそれぞれを示す撮影画像データを出力するようにすればよい。
このように観客を抽出する場合であって、客席１２００に観客が複数存在する場合には、観客ごとに撮影画像データが出力されるようにして、表示画面３００には複数の観客画像が表示されるようにしてもよい。
【００６８】
[変形例６]
上述した実施形態におけて、デュエットバトルモードでは、歌唱者Ａ画像と歌唱者Ｂ画像とは、その大きさが歌唱音声Ａおよび歌唱音声Ｂについての評価値の相対的な値に応じて変化していたが、歌唱練習モードにおける場合と同様に、相対的でなくそれぞれ独立して画像の大きさが変化するようにしてもよい。この場合には、歌唱者Ａ画像と歌唱者Ｂ画像との双方が大きくなる場合もある。客席対抗モードにおいても同様である。
【００６９】
[変形例７]
上述した実施形態においては、表示画面３００は、１台のカラオケ装置１について１つ設けられていたが、複数の表示画面が設けられていてもよい。この場合には、実施形態における表示画面３００の表示領域の各構成要素が複数の表示画面に割り当てられていてもよい。例えば、歌唱者Ａ画像と歌唱者Ｂ画像とが別の表示画面に表示されるようにしてもよいし、大きさが変化する画像と変化しない画像とが別の表示画面に表示されるようにしてもよい。また、表示領域の各構成要素のいくつかが複数の表示画面に表示されていてもよい。
【００７０】
[変形例８]
上述した実施形態において、歌唱練習モードでは、歌唱音声Ａの評価値に応じて歌唱者Ａ画像の大きさが変化していたが、客席対抗モードのように観客音声の音量レベルに応じて歌唱者Ａ画像の大きさが変化するようにしてもよい。この場合には、決定部１４０において対応画像Ａに対応付けられる人は、歌唱者Ａではなく観客となる。
また、デュエットバトルモードでは、対応画像Ａに歌唱者Ａが対応付けられ、対応画像Ｂに観客が対応付けられるようにしてもよい。客席対抗モードでは、対応画像Ａａに歌唱者Ａａが対応付けられ、対応画像Ａｂに観客ｂが対応付けられるようにしてもよい。
なお、一つの対応画像に複数の人が対応付けられてもよい。例えば、歌唱練習モードにおいて、対応画像Ａに歌唱者Ａと観客とが対応付けられた場合には、決定部１４０は、歌唱音声Ａに基づいて算出される評価値と観客音声の音量レベルにより算出される評価値とに基づいて、対応画像Ａの大きさを決定すればよい。
【００７１】
[変形例９]
上述した実施形態において、客席対抗モードでは、複数の部屋１０００に設置されたカラオケ装置１を連動させ、楽曲データが同期して再生されるようにしていたが、必ずしも同期していなくてもよい。また、一方の部屋１０００のカラオケ装置１をマスタ装置とし他方のカラオケ装置１をスレーブ装置として、マスタ装置はスレーブ装置を制御して、双方のカラオケ装置１全体を一つのカラオケ装置として取り扱ってもよい。この場合、例えば、カラオケ装置全体としてのスピーカ６１の放音範囲は、部屋１０００ａの内部および部屋１０００ｂの内部の双方の範囲になる。
【００７２】
[変形例１０]
上述した実施形態において、楽曲データに楽曲の各構成部分の位置を規定する情報が含まれている場合には、楽曲の構成部分に応じて、評価値の算出方法を変化させてもよい。例えば、サビの部分では評価値が高く算出されるように変化させればよい。また、デュエットバトルモードにおいては、デュエット曲の全期間にわたって第１パートと第２パートとの双方に構成音が存在するとは限らないため、例えば、第１パートのみの構成部分においては、第２パートに対応する歌唱音声Ｂに基づいて算出される評価値は一定値として固定しておけばよい。この一定値は、予め決められた値であってもよいし、既に算出された各期間の評価値に基づく値、例えば平均値などとしてもよい。
【００７３】
[変形例１１]
上述した実施形態において、音響処理部６０は、マイクロフォン６２１に入力された歌唱音声Ａを示すオーディオデータを出力するときに、他のマイクロフォン６２２、６２３に入力された歌唱音声Ｂおよび観客音声を用いて、マイクロフォン６２１に混入した歌唱音声Ｂおよび観客音声の成分をキャンセルする処理を行ってもよい。また、音響処理部６０は、歌唱音声Ａのスピーカ６１からの成分をキャンセルする、すなわちエコーキャンセル処理を行ってもよい。
上記処理は、歌唱音声Ｂを示すオーディオデータ、観客音声を示すオーディオデータについても同様に適用してもよい。
【００７４】
[変形例１２]
上述した実施形態においては、歌唱者が最大２人の場合について説明したが、３人以上に対応していてもよい。
【００７５】
[変形例１３]
上述した実施形態における制御プログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供し得る。また、カラオケ装置１は、制御プログラムをネットワーク経由でダウンロードしてもよい。
【符号の説明】
【００７６】
１，１Ａ，１Ｂ…カラオケ装置、１０，１０Ａ，１０Ｂ…制御部、２０…操作部、３０…表示部、３００…表示画面、４０…通信部、５０…記憶部、６０，６０Ａ…音響処理部、６１…スピーカ、６２１，６２２，６２３…マイクロフォン、７０，７０Ａ…画像処理部、７１…駆動部、７２１，７２２，７２３…カメラ、８０…位置検出部、１１０…再生部、１２０…取得部、１３０，１３０Ａ…検出部、１４０，１４０Ａ…決定部、１５０…表示制御部、１６０…位置特定部、１０００ａ,１０００ｂ…部屋、１１００…机、１２００…客席

【特許請求の範囲】
【請求項１】
楽曲データを再生して、当該楽曲データが示す音を放音手段から放音させる再生手段と、
前記楽曲データの再生中に前記放音手段の放音範囲に位置する人の挙動を検出する検出手段と、
前記挙動の検出対象となる人に対応付けられた対応画像を示す画像データを取得する画像取得手段と、
前記楽曲データの再生中において表示画面に表示させる前記対応画像の表示態様を、前記検出された結果に基づいて決定する決定手段と、
前記取得された画像データを用いて、前記対応画像を前記決定された表示態様で前記表示画面に表示させる表示制御手段と
を具備することを特徴とする表示制御装置。
【請求項２】
前記放音範囲の少なくとも一部を撮影して、撮影画像を示す画像データを出力する撮影手段をさらに具備し、
前記画像取得手段は、前記撮影手段から出力される画像データを、前記対応画像を示す画像データとして取得する
ことを特徴とする請求項１に記載の表示制御装置。
【請求項３】
前記放音範囲の人の位置を特定する位置特定手段をさらに具備し、
前記撮影手段は、前記特定された位置に応じて撮影範囲を決定する
ことを特徴とする請求項２に記載の表示制御装置。
【請求項４】
前記検出手段は、前記放音範囲に位置する複数の人の各々の挙動を検出し、
前記画像取得手段は、前記複数の人の各々に対応して、前記対応画像を示す画像データを取得し、
前記決定手段は、前記各人について前記検出された結果の相対的な関係に基づいて、前記各人に対応する前記対応画像の表示態様を決定する
ことを特徴とする請求項１乃至請求項３のいずれかに記載の表示制御装置。
【請求項５】
前記検出手段は、前記放音範囲に位置する人によって入力される歌唱音声を、前記挙動として検出し、
前記決定手段は、前記歌唱音声を解析して評価値を算出し、算出した評価値に基づいて前記表示態様を決定する
ことを特徴とする請求項１乃至請求項４のいずれかに記載の表示制御装置。

【図１】