評価装置

【課題】歌唱されるべき基準に対して歌唱者が歌唱した音声が沿っている程度に反応するキャラクターを表示すること。
【解決手段】カラオケ装置においては、歌唱音声の評価結果に応じて様々な表情をするキャラクターＤが表示される。例えば、評価期間Ｘ１における歌唱音声が「普通」と評価された結果、「普通」という感情を表した表情のキャラクターＤ１が表示される。また、評価期間Ｘ２における歌唱音声が「悪い」と評価された結果、「悪い」という感情を表した表情のキャラクターＤ２が表示される。また、評価期間Ｘ３における歌唱音声が「良い」と評価された結果、「良い」という感情を表した表情のキャラクターＤ３が表示される。カラオケ装置においては、このように、歌唱者の歌唱音声が歌唱されるべき基準に沿っている程度に反応するキャラクターが表示される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、歌唱した音声を評価する際にキャラクターを表示する技術に関する。
【背景技術】
【０００２】
従来より、カラオケなどで歌唱している歌唱者が上手に歌えるように補助する際、キャラクターを表示させる技術がある。特許文献１には、合成された歌声（いわゆるガイドボーカル）を出力することによって上記の補助をする場合に、その歌声の音韻、音高及び発音タイミング等に合わせた口の形状又は表情のキャラクターを表示させる技術が記載されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００１−４２８７９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
特許文献１に記載された技術においては、１つの楽曲の中で様々な表情が表示される一方、同じ楽曲であれば表示される表情のパターン及びそれらが表示されるタイミングが決まっている。つまり、歌唱者がどのように歌っても、その内容に対する反応がないため、表示されたキャラクターと一緒に歌っているような臨場感を歌唱者に与えることが難しい。同じ理由で、歌唱者は、上記ガイドボーカル、すなわち、歌唱されるべき基準となる歌声に対して、自分が同じように歌唱しているのかどうかが分からず、楽曲の残り部分を今の調子で歌い続けるべきか、上記ガイドボーカルをもっと参考にすべきか、という判断をすることが難しい。
本発明は、このような事情に鑑みてなされたもので、その目的の１つは、歌唱されるべき基準に対して歌唱者が歌唱した音声が沿っている程度に反応するキャラクターを表示することである。
【課題を解決するための手段】
【０００５】
上述の課題を解決するため、本発明は、再生されると楽曲の歌唱すべき位置を表す位置表示データと、歌唱音声を評価する基準を示すリファレンスデータとを記憶する記憶手段と、前記記憶手段から前記位置表示データを読み出して再生する再生手段と、前記再生手段が前記位置表示データを再生しているときに収音手段から供給されたオーディオ信号が表す歌唱音声と、前記記憶手段から読み出した前記リファレンスデータが示す基準とを比較して当該歌唱音声を評価する評価手段と、前記再生手段が前記位置表示データを再生している間、キャラクターの画像を示す第１画像データを出力し、前記評価手段により前記歌唱音声が評価された場合、前記キャラクターの表情を当該歌唱音声が評価された結果に応じた表情で表した画像を示す第２画像データを出力する出力手段と、を備えることを特徴とする評価装置を提供する。
【０００６】
また、別の好ましい態様において、前記出力手段は、前記位置表示データに応じた表情の前記キャラクターの画像を示す第１画像データを出力することを特徴とする。
【０００７】
また、別の好ましい態様において、前記リファレンスデータは、前記楽曲における複数の期間のそれぞれと対応付けられた前記基準を示し、前記記憶手段から読み出した前記リファレンスデータが示す複数の前記基準に対応づけられた前記期間から、前記評価手段により評価された歌唱音声が比較された基準と特徴が共通する基準に対応づけられた前記期間を特定する特定手段を備え、前記出力手段は、前記特定手段により特定された期間を伝えるための表情をする前記キャラクターの画像を示す前記第２画像データを、当該期間の開始よりも前に出力することを特徴とする。
【０００８】
また、別の好ましい態様において、前記歌唱者の位置を検知する検知手段と、予め定められた領域から見た場合に立体的に見える画像を表示する面を有する表示手段を制御して、前記検知手段が検知した位置が前記領域に入るように前記面の向きを調整し、当該面に前記出力手段が出力する第２画像データが示す前記キャラクターの画像を立体的に表示させる表示制御手段とを備えることを特徴とする。
【０００９】
また、別の好ましい態様において、歌唱者の画像を撮影する撮影手段を備え、前記出力手段は、前記撮影手段が撮影した画像と前記キャラクターを表現した画像とを合成して出力することを特徴とする。
【発明の効果】
【００１０】
本発明によれば、歌唱されるべき基準に対して歌唱者が歌唱した音声が沿っている程度に反応するキャラクターを表示することが可能になる。
【図面の簡単な説明】
【００１１】
【図１】実施形態に係るカラオケ装置の全体構成を示すブロック図である。
【図２】カラオケ装置の制御部の機能的構成を示すブロック図である。
【図３】ディスプレイに表示される画像の一例を示す図である。
【図４】ディスプレイに表示される画像の一例を示す図である。
【図５】ディスプレイに表示される画像の一例を示す図である。
【図６】変形例に係るカラオケ装置の構成を示す図である。
【図７】ディスプレイの方向を調整する様子を説明するための図である。
【発明を実施するための形態】
【００１２】
［実施形態］
以下、本発明の実施形態について図面を参照して説明する。
図１は、カラオケ装置１の全体構成を示すブロック図である。カラオケ装置１は、例えばカラオケ店などに設置され、いわゆるカラオケの機能を利用者に提供すると共に、利用者（歌唱者）が歌唱する音声（歌唱音声）を評価する装置であり、本発明に係る「評価装置」の一例に相当する。カラオケ装置１は、制御部１０と、操作部２１と、音響処理部２２と、収音部２３と、放音部２４と、立体画像表示部２５と、記憶部３０とを備えている。
制御部１０は、ＣＰＵ（Central Processing Unit）とメモリとを備えている。ＣＰＵは、メモリに記憶されているプログラムを実行することにより、カラオケ装置１の各部を制御する。メモリは、ＲＯＭ（Read Only Memory）とＲＡＭ（Random Access Memory）とを備えており、ＣＰＵによって用いられるプログラムやデータを記憶する。
操作部２１は、複数の操作ボタンを備えており、利用者が操作した内容を示す操作データを制御部１０に供給する。
収音部２３は、マイクロホン等の収音手段であり、歌唱者が発した歌唱音声が入力され、歌唱音声を示すオーディオ信号を音響処理部２２に出力する。
放音部２４は、スピーカ等の放音手段であり、音響処理部２２から出力されるオーディオ信号を放音する。
音響処理部２２は、ＤＳＰ（Digital Signal Processor）などの信号処理回路、ＭＩＤＩ（Musical Instrument Digital Interface）形式の信号からオーディオ信号を生成する音源などを有する。音響処理部２２は、収音部２３から入力されるオーディオ信号をＡ／Ｄ変換して制御部１０に出力する。音響処理部２２は、制御部１０からＭＩＤＩ形式のデータが入力され、そのデータに基づいてオーディオ信号を生成する。音響処理部２２は、このように生成したオーディオ信号、制御部１０から出力されたオーディオ信号、収音部２３から入力されたオーディオ信号などを、エフェクト処理、増幅処理などの信号処理を施してから放音部２４に出力する。
立体画像表示部２５は、立体画像に対応したディスプレイを備えており、制御部１０から供給される立体画像を示す画像データに応じた立体画像を表示する。
【００１３】
記憶部３０は、ハードディスクを備えており、楽曲データベース３１０とキャラクターデータベース３２０とを記憶している。
楽曲データベース３１０には、カラオケで再生される楽曲に関するデータが記録されており、詳細には、伴奏データ３１１とリファレンスデータ３１２と歌詞データ３１３とが記録されている。伴奏データ３１１は、楽曲の伴奏の内容を示すデータであり、例えば、ＭＩＤＩ形式により記述されている。リファレンスデータ３１２は、歌唱すべき基準を示すデータであり、詳細には、歌唱すべき各構成音の音高を示している。これらの基準、すなわち、構成音の音高は、伴奏データ３１１が示す伴奏において各構成音が歌唱されるべき期間と対応付けられており、この期間に収音部２３に入力された歌唱音声を評価するために用いられる。以下においては、この期間を「評価期間」という。評価期間の開始と終了とは、伴奏データ３１１が開始されてから経過する時間で表される。リファレンスデータ３１２は、例えば、各構成音の音高と音の長さ（評価期間に相当）とをＭＩＤＩ形式により記述されている。歌詞データ３１３は、楽曲の歌詞の内容を示すデータ、および立体画像表示部２５に表示させた歌詞テロップを色替えするためのタイミングを示すデータを有する。
【００１４】
キャラクターデータベース３２０には、歌唱中に立体画像表示部２５に表示される画像に関するデータが記録されており、詳細には、キャラクター画像データ３２１が記録されている。キャラクター画像データ３２１は、様々なキャラクターの様々な表情の画像を示すデータ（画像データ）である。ここでいうキャラクターは、例えば、絵で表された人、動物又は擬人化された物（ロボットなど）等であり、インターネットのコミュニティサイトで用いられるキャラクター（いわゆるアバター）も含まれる。なお、この絵には、実在の人、動物又は物の写真が用いられても良い。ここにおいて、キャラクターの表情とは、キャラクターの感情又は伝えたい情報等を顔つきや身振りで表したものをいい、例えば、笑っている表情、怒っている表情、悲しげに歩いている動作、うれしそうに跳び上がっている動作、テンポに合わせて手を振る又はあるタイミングを目配せして示す動作等である。
【００１５】
次に、このようなハードウェア構成において、制御部１０が機能プログラムを実行したときに構築される機能ブロックについて、図２を参照して説明する。
図２は、制御部１０の機能的構成を示すブロック図である。制御部１０は、再生部１１１と、評価部１１２と、特定部１１３と、画像生成部１１４と、表示制御部１１５とを有する。
再生部１１１は、操作部２１から楽曲の再生を指示する操作データが供給されると、図１に示したその楽曲の伴奏データ３１１及び歌詞データ３１３を再生する。詳細には、再生部１１１は、楽曲データベース３１０からその楽曲の伴奏データ３１１と歌詞データ３１３とを読み出す。そして、再生部１１１は、伴奏データ３１１を音響処理部２２に供給し、伴奏音を放音させ、また、歌詞データ３１３を表示制御部１１５に供給し、歌詞を表示させる。このとき、再生部１１１は、伴奏音の放音と歌詞の表示とが同じタイミングで開始されるようにこれらのデータを供給する。再生部１１１は、伴奏データ３１１を再生している間、その伴奏データ３１１の再生が開始されてから経過した時間（経過時間）を示すデータを、数ｍｓｅｃ毎に評価部１１２、画像生成部１１４及び表示制御部１１５に供給する。
【００１６】
評価部１１２は、歌唱者の歌唱音声を、リファレンスデータ３１２が示す基準と比較して評価する手段であり、詳細には、以下のとおり動作する。評価部１１２は、再生部１１１から上記経過時間を示すデータが供給されている状態（つまり、伴奏データ３１１が再生されている状態）において、音響処理部２２を介して図１に示した収音部２３からオーディオ信号が供給されることで動作する。まず、評価部１１２は、操作部２１から供給された操作データが示す楽曲のリファレンスデータ３１２を楽曲データベース３１０から読み出す。次に、評価部１１２は、再生部１１１から上記経過時間を示すデータが供給された時刻に供給されたオーディオ信号が表す歌唱音声の音高と、リファレンスデータ３１２が示す基準（構成音の音高）のうちこの経過時間を含む評価期間に対応付けられたものとを比較し、その差の値を例えばセント値で算出する。評価部１１２は、この差の値を、経過時間を示すデータが再生部１１１から供給される度（数ｍｓｅｃ毎）に算出する。そして、評価部１１２は、評価期間に算出された差の値を合計したものを評価値として算出し、その値が第１閾値よりも大きい場合に、評価点の基礎となる点数から減じる（減点する）。評価部１１２は、伴奏データ３１１の再生が終了するまで評価値の算出を行い、その結果の点数を最終的な評価点として算出する。このように、評価点は、評価値の値が大きいほど、すなわち、音高が基準から離れるほど、また、減点される評価期間が多いほど、すなわち、音高が基準から離れる回数が多いほど、低くなる。なお、第１閾値は、歌唱音声と構成音の音声との音高のずれを許容する程度を示す値であり、例えば、歌唱を厳しく評価する場合に小さくし、優しく評価する場合に大きくすれば良い。
【００１７】
また、評価部１１２は、評価値が第１閾値以下の歌唱音声を「良い」と評価し、第１閾値より大きく第２閾値以下の歌唱音声を「普通」と評価し、第２閾値より大きい歌唱音声を「悪い」と評価する。この第２閾値は、減点が大きく評価が悪かったところ、すなわち、歌唱者が“苦手なところ”を判定するための値である。第２閾値も、第１閾値同様、歌唱を厳しく評価する場合に小さくし、優しく評価する場合に大きくすれば良い。評価部１１２は、画像生成部１１４に対して、評価期間が終了する度にこれらの評価結果（「良い」、「普通」、「悪い」）を示すデータを供給し、最後の基準に対する評価値を算出したときにこの評価値まで含めて算出した評価点を供給する。また、評価部１１２は、評価結果が「悪い」である場合は、この評価において比較された基準を示すデータと共に特定部１１３に供給する。
【００１８】
特定部１１３は、リファレンスデータ３１２により示される基準に対応づけられた期間のうち、評価部１１２により供給されたデータが示す基準と音高が共通する基準に対応づけられた期間を特定し、特定した期間を示すデータ（例えば、評価期間が開始する時間及び終了する時間を示すデータ）を画像生成部１１４に供給する。
画像生成部１１４は、操作部２１から楽曲を示す操作データが供給されると、その楽曲の伴奏データに応じたキャラクターの画像データをキャラクターデータベース３２０から読み出す。そして、画像生成部１１４は、読み出した画像を編集又は合成等した画像データを生成して表示制御部１１５に供給する。この読み出した画像データは、例えば、サビでは盛り上がりを表す表情となり、ビブラートさせたいところではビブラートする歌い方を喚起する表情となるキャラクターの画像を示す画像データである。これらの画像は、伴奏データの再生中に表情が変化するが、その変化の仕方は一定であり、伴奏データが同じであれば、毎回同じように表情が変化する。このキャラクターの画像を示す画像データは、本発明に係る「第１画像データ」の一例に相当する。画像生成部１１４は、評価部１１２及び特定部１１３からデータが供給されない間は、上記のとおり動作する。
【００１９】
一方、画像生成部１１４は、評価部１１２から評価結果を示すデータが供給された場合、この評価結果に応じた表情のキャラクターを表す画像の画像データをキャラクターデータベース３２０から読み出す。また、画像生成部１１４は、特定部１１３から評価期間を示すデータが供給された場合、この評価期間に応じた表情のキャラクターを表す図１に示したキャラクター画像データ３２１をキャラクターデータベース３２０から読み出す。そして、それぞれの場合において、画像生成部１１４は、これらのキャラクターの画像を編集又は合成等した画像データを生成して表示制御部１１５に供給する。これらの場合に生成される画像データは、いずれの場合も、評価部１１２により歌唱が評価された結果に応じた表情のキャラクターの画像を示すものであり、本発明に係る「第２画像データ」の一例に相当する。これらの場合、画像生成部１１４は、生成した画像データを、上述した伴奏データに応じたキャラクターの画像データに代えて表示制御部１１５に供給する。表示制御部１１５は、立体画像表示部２５の動作を制御して、画像生成部１１４から供給された画像データが表す画像を、再生部１１１から供給されるデータが示す経過時間に合わせて上述したディスプレイに表示させる。
【００２０】
以上の各部の動作により表示される画像について、図３、図４、図５を参照して詳細に説明する。これらの各図は、カラオケ装置１においてディスプレイに表示される画像の一例を示す図である。また、図３、図４では、時間が経過したときにそれぞれディスプレイに表示される画像を（ａ）、（ｂ）、（ｃ）の順番に示している。
図３は、歌唱を評価した結果に応じたキャラクターが表示されている画像の一例を示す図である。これらの画像には、歌詞Ａと、基準画像Ｂと、歌唱結果線Ｃ（Ｃ１、Ｃ２、Ｃ３）と、キャラクターＤ（Ｄ１、Ｄ２、Ｄ３）とが表示されている。歌詞Ａは、図１に示した歌詞データ３１３が示す歌詞が表示されている。
歌詞Ａは、図１に示した伴奏データ３１１が再生されている部分に対応する部分が白抜きの文字から黒い文字に画像が変化することで、現在歌唱者が歌唱するべき位置が分かるように表示されている。
基準画像Ｂは、上述した歌唱音声の基準を示す画像であり、詳細には、各構成音の音高とその評価期間を表す棒状の画像である。基準画像Ｂは、五線譜に重ねて表示されており、この五線譜は、各線に沿った矢印Ｒ１が示す方向に時刻が規定されている。基準画像Ｂは、この五線譜のどこに表示されているかによって音高を表し、矢印Ｒ１に沿った方向の長さによって評価時間を表す。基準画像Ｂは、図１に示したリファレンスデータ３１２が示す音高とこれに対応付けられた評価期間とに基づき表示される。
【００２１】
歌唱結果線Ｃは、歌唱音声の音高の軌跡を示す線が、基準画像Ｂと共に表示された五線譜に重ねて示されたものであり、以下の図において、二点鎖線で示されている。詳細には、歌唱結果線Ｃは、図１に示した収音部２３から出力されたオーディオ信号により表される音声の音高と、それが供給されたときの時刻とが上記五線譜において示す点を順番に結んだ線である。
キャラクターＤは、歌唱の音声が評価された結果に応じて表示される画像である。図３（ａ）では、歌唱結果線Ｃ１のうち、評価期間Ｘ１に示される部分が「普通」と評価された結果、「普通」という感情を表した表情のキャラクターＤ１が表示されている。図３（ｂ）では、歌唱結果線Ｃ２のうち、評価期間Ｘ２に示される部分が「悪い」と評価された結果、「悪い」という感情を表した表情のキャラクターＤ２が表示されている。図３（ｃ）では、歌唱結果線Ｃ３のうち、評価期間Ｘ３に示される部分が「良い」と評価された結果、「良い」という感情を表した表情のキャラクターＤ３が表示されている。これらキャラクターＤの画像は、各評価期間が経過し、評価結果を示すデータが図１に示した評価部１１２から画像生成部１１４に供給されることで表示される。
【００２２】
図４は、特定部１１３により特定された評価期間に応じた表情のキャラクターが表示されている画像の一例を示す図である。図４では、図３と異なる点を中心に説明する。図４では、キャラクターＥ（Ｅ１、Ｅ２、Ｅ３）は、上述した「苦手なところ」を伝えるための表情をしている。この例では、図３（ｂ）において「悪い」と評価された評価期間Ｘ２における基準（音高がＧ）と音高が共通する基準の評価期間が、時刻ｔ３から始まる評価期間Ｙ１である。図４（ａ）、（ｂ）は、時刻ｔ３よりも、時間Ｔ１前の時点又は時間Ｔ２前の時点に表示されている画像をそれぞれ示し、図４（ｃ）は、時刻ｔ３に表示されている画像を示している。
【００２３】
図４（ａ）に示すキャラクターＥ１は、「苦手なところ」までもうすぐであることと、そのときにどのように歌唱するべきかを示した画像である。詳細には、キャラクターＥ１は、左腕Ｅ１Ｌを上げることで、「苦手なところ」が近づいてきたことを示している。また、キャラクターＥ１は、右腕Ｅ１Ｒを上げることで、その音声を発するときには、声を少し高めに出すと良いことを示している。図４（ｂ）に示すキャラクターＥ２は、左腕Ｅ２Ｌを矢印Ｒ２の方向に少しずつ下げることで、「苦手なところ」が近づいていることを示している。図４（ｃ）に示すキャラクターＥ３は、左腕Ｅ３Ｌを矢印Ｒ３の方向に一気に下げることで、「苦手なところ」に到達したことを示している。以上のとおり、これらのキャラクターＥは、「苦手なところ」、すなわち、評価期間Ｙが開始するタイミングである時刻ｔ３よりも前に表示され、その表情の変化でこのタイミングが近づいていることを示す。これにより、歌唱者は、評価期間Ｙの開始に合わせて音声を発することが容易になり、カラオケ装置１は、歌唱者が上手に歌うことを補助することができる。
【００２４】
図５は、キャラクターの様々な表情を表す画像の例を示す図である。図５（ａ）は、音高をどのように修正するべきか（修正方法）を歌唱者に伝えるための画像である。キャラクターＧ（Ｇ１、Ｇ２）は、右腕の上げ方で音高を上げるか下げるかを伝えており、右腕を上げたキャラクターＧ１が表示されたときは、「音高を上げる」べきであることを伝え、右腕を下げたキャラクターＧ２が表示されたときは、「音高を下げる」べきであることを伝えている。なお、手の指を立てる本数で、上げる（又は下げる）べきである音高の程度を表しても良く、例えば、指１本なら半音、指２本なら１音音高を上げる（又は下げる）ことを示しても良い。また、右腕を上げる角度によって、音高の程度を表しても良い。
図５（ｂ）は、音量の修正方法を歌唱者に伝えるための画像である。キャラクターＨ（Ｈ１、Ｈ２、Ｈ３）は、口の開け方で音量をどうするべきかを伝えている。この例では、口を小さく開けたキャラクターＨ１が表示されたときは、「音量を小さくする」べきであることを伝え、口を大きく開けたキャラクターＨ２が表示されたときは、「音量を大きくする」べきであることを伝え、口を閉じたキャラクターＨ３が表示されたときは、「発声するべきではない」ことを伝えている。
【００２５】
図５（ｃ）は、音量の修正方法を、立体画像で歌唱者に伝えるための画像である。キャラクターＪ（Ｊ１、Ｊ２、Ｊ３）は、画像の飛び出し方で音量をどの程度大きくすべきかを伝えるための画像である。説明の便宜上、各キャラクターＪが飛び出して見える程度を、立体でない画像との水平方向のずれＫ１、Ｋ２、Ｋ３（Ｋ１＜Ｋ２＜Ｋ３）を仮想的に示し、このずれが大きいほど飛び出して見えているものとした。この例では、飛び出して見える度合いが最も小さい（Ｋ１）キャラクターＪ１が表示されたときは、「音量をやや大きくする」べきであることを伝え、飛び出して見える度合いが最も大きい（Ｋ３）キャラクターＪ３が表示されたときは、「音量をとても大きくする」べきであることを伝え、飛び出して見える度合いがこれらの間（Ｋ２）のキャラクターＪ２が表示されたときは、「音量を大きくする」べきであることを伝えている。
【００２６】
カラオケ装置１においては、図５に示した表情が伝える様々な内容について、それらを実行すべきタイミングを図４に示した左腕の表情により伝えることで、歌唱者は、自分が苦手とする音声をいつ、どのように発するべきかを知ることができる。このため、歌唱者は、苦手な音声であっても、予めそれを改善するための準備をして発するため、評価を向上させる可能性が高まる。また、カラオケ装置１は、伴奏データ３１１を再生しているときに、キャラクターを表した画像を表示し、かつ、歌唱を評価した結果に応じてそのキャラクターの表示を変化させて表示する。これにより、カラオケ装置１は、歌唱されるべき基準に対して歌唱音声が沿っている程度に反応するキャラクターを表示することができ、このキャラクターと一緒に歌っているような臨場感を歌唱者に与えることができる。
【００２７】
また、カラオケ装置１は、図５（ｃ）に示すとおり、キャラクターの画像を立体的に表示して、その画像が飛び出す程度によって歌唱者に歌い方を伝えることができる。図１に示す立体画像表示部２５が有するディスプレイは、画像を表示する面（表示面）に対して、予め定められた領域から見た場合に画像が立体的に見えるものである。例えば、カラオケルームのステージから歌唱者が見るディスプレイは、歌唱者以外の者からは見えない又は見にくい場合が多い。このディスプレイに上述したキャラクターを表示させて、それが飛び出して見える度合いで歌い方を伝えれば、キャラクターから歌い方を伝えられていることが歌唱者以外には分かりにくくすることができる。これにより、歌唱者は、他の者には気づかれにくい方法でキャラクターから歌い方を伝えてもらい、歌唱が高く評価されるように歌い方を改善することができる。
【００２８】
［変形例］
上述した実施形態は、本発明の実施の一例に過ぎず、次のように種々の応用・変形が可能であり、また、必要に応じて組み合わせることも可能である。
【００２９】
（変形例１）
本発明に係るカラオケ装置は、歌唱者にはキャラクターが立体的に見えるように画像を表示させても良い。例えば、カラオケ装置が表示部に複数のディスプレイを備えている場合に、歌唱者いる位置を検知して、その位置から見ることができるディスプレイにだけキャラクターを表示させても良いし、そのディスプレイだけキャラクターを立体的に表示させても良い。また、カラオケ装置は、ディスプレイをモータ等で回転させ、検知した位置から見ることができるように向きを調整したディスプレイにキャラクターを表示させても良い。
【００３０】
図６は、本変形例に係るカラオケ装置１ａの構成を示す図である。収音部２３は、２つのマイクロホン２３１（２３１ａ、２３１ｂ）を有し、放音部２４は、２つのスピーカ２４１（２４１ａ、２４１ｂ）を有する。立体画像表示部２５は、２つのディスプレイ２５１（２５１ａ、２５１ｂ）を有し、各ディスプレイには、それぞれモータ２５３（２５３ａ、２５３ｂ）が設けられている。モータ２５３は、各ディスプレイをそれぞれ回転させる。各ディスプレイは、各モータにより回転させられることで、画像を表示する向きを変えられる。記憶部３０ａは、ディスプレイデータ３３０ａを記憶する。ディスプレイデータ３３０ａは、各ディスプレイが設置されている位置と、これらが画像を表示する向きとを示すデータである。これらの位置及び向きは、各ディスプレイを設置する際、図１に示す操作部２１の操作により入力され、ディスプレイデータ３３０ａとして記憶される。
【００３１】
制御部１０ａは、位置検知部１１７ａと、方向算出部１１８ａと、モータ制御部１１９ａとを有する。位置検知部１１７ａは、歌唱者が歌唱している位置（歌唱位置）を検知する手段である。詳細には、位置検知部１１７ａは、マイクロホン２３１の位置を測定するための音（測定音）を示すデータを、音響処理部２２を介して２つのスピーカ２４１に出力し、これらのスピーカ２４１から測定音を放音させる。このとき、位置検知部１１７ａは、スピーカ２４１が測定音を放音した時刻を取得する。続いて、位置検知部１１７ａは、各マイクロホン２３１が収音した音を表すオーディオ信号から、測定音が収音された時刻を算出する。位置検知部１１７ａは、測定音が放音されてから収音されるまでの時間から、その測定音を放音したスピーカから収音したマイクロホンまでの距離を算出し、これを２つのスピーカ２４１について算出することで、マイクロホン２３１の位置を測定する。位置検知部１１７ａは、測定した各マイクロホンの位置のうち、評価部１１２により評価されている音声が収集されたマイクロホンの位置を歌唱位置として検知する。位置検知部１１７ａは、検知した歌唱位置を示すデータを、方向算出部１１８ａに供給する。マイクロホン２３１、スピーカ２４１及び位置検知部１１７ａが協働することで、歌唱位置を検知する検知手段として機能する。
方向算出部１１８ａは、供給されたデータが示す位置と記憶部３０ａから読み出したディスプレイデータ３３０ａが示す位置及び向きから、キャラクターを表示するべきディスプレイを判断し、そのディスプレイが画像を表示すべき方向を算出する。方向算出部１１８ａの動作の詳細については、後に示す図７を参照しながら説明する。方向算出部１１８ａは、算出した方向とその方向に画像を表示すべきディスプレイとを示す算出結果データを、画像生成部１１４ａ、表示制御部１１５ａ及びモータ制御部１１９ａに供給する。
【００３２】
画像生成部１１４ａは、上述したキャラクターを表す画像を含む画像データと、この画像を含まない画像データとを生成し、これらの画像データを表示制御部１１５ａに供給する。
表示制御部１１５ａは、画像生成部１１４ａから供給された画像データのうち、キャラクターを表す画像を含む画像データが示す画像を、方向算出部１１８ａから供給された算出結果データが示すディスプレイに対して表示させ、この画像を含まない画像データが示す画像を、このディスプレイ以外のディスプレイに表示させる。
モータ制御部１１９ａは、方向算出部１１８ａから供給された算出結果データが示すディスプレイに設けられたモータ２５３の動作を制御し、そのディスプレイが算出結果データが示す方向を向くように調整する。表示制御部１１５ａ、方向算出部１１８ａ及びモータ制御部１１９ａが協働することで、本発明に係る「表示制御手段」として機能する。
【００３３】
図７は、ディスプレイの方向を調整する様子を説明するための図である。図７では、各ディスプレイと、歌唱者を含む利用者Ｍ１、Ｍ２、Ｍ３を鉛直方向上方から見た様子を模式的に示している。ディスプレイ２５１ａ、２５１ｂは、それぞれ、表示面２５２ａ、２５２ｂに画像を表示する。図７では、各表示面に表示される画像を立体的に見える第１領域とそれ以外の第２領域との境界を、点線Ｘａ、Ｘｂでそれぞれ示している。つまり、第１領域は、２本の点線Ｘａに挟まれた領域であり、同じく２本の点線Ｘｂに挟まれた領域である。
図７（ａ）では、利用者Ｍ１が歌唱者であり、マイクロホン２３１ａから音声を入力している。この場合、図６に示した位置検知部１１７ａは、歌唱者が用いているマイクロホン２３１ａの位置を歌唱位置として検知する。そして、図６に示した方向算出部１１８ａは、検知された歌唱位置が点線Ｘａで示される領域に含まれることから、キャラクターを表示するべきディスプレイをディスプレイ２５１ａと判断し、そのディスプレイが画像を表示すべき方向として、現在向いている方向を算出する。これにより、図６に示した表示制御部１１５ａは、ディスプレイ２５１ａにキャラクターを含む画像を表示させ、ディスプレイ２５１ｂにはキャラクターを含まない画像を表示させる。また、図６に示したモータ制御部１１９ａは、算出された向きが現在向いている向きであるため、モータを回転させない。
【００３４】
図７（ｂ）では、図７（ａ）の状態から歌唱者が利用者Ｍ３に変わり、利用者Ｍ３がマイクロホン２３１ｂから音声を入力している状態を示している。図７（ａ）の状態では、マイクロホン２３１ｂの位置から画像を立体的に見ることができるディスプレイがなかった。この場合、方向算出部１１８ａは、検知された歌唱位置が点線Ｘａ又は点線Ｘｂで示される領域に含まれるように向けた場合の各ディスプレイの方向を算出する。そして、方向算出部１１８ａは、算出した方向を向くことが可能なディスプレイのうち、その方向に向けるため回転させる角度が最も小さいディスプレイ（図７（ｂ）の例では、ディスプレイ２５１ｂ）を、キャラクターを表示するべきディスプレイとして判断する。続いて、方向算出部１１８ａは、ディスプレイ２５１ｂが画像を表示すべき方向を算出する。そして、表示制御部１１５ａは、ディスプレイ２５１ｂにキャラクターを含む画像を表示し、モータ制御部１１９ａは、ディスプレイ２５１ｂを、図７（ｂ）において二点鎖線で示した状態から実線で示した状態となるまで回転させる。これにより、歌唱者は、自分でディスプレイの向きを変えたり、自分の位置を変えたりしなくとも、ディスプレイに表示されるキャラクターが立体的に見えるようになる。これにより、歌唱者がどの位置で歌っていても、キャラクターの飛び出し具合が他の者からは分かりにくくなり、歌唱者は、他の者に知られることなく、歌唱が高く評価されるように歌い方を改善することができる。
【００３５】
（変形例２）
本発明に係るカラオケ装置は、歌唱者の画像を撮影し、撮影した画像をキャラクターの画像と合成して表示させても良い。この場合、カラオケ装置は、歌唱者の画像を撮影する撮影手段を備え、撮影手段が撮影した画像と上述した各種画像とを合成した画像データを画像生成部が生成し、この画像データを立体画像表示部が有するディスプレイに出力して表示させれば良い。これにより、カラオケ装置は、キャラクターとデュエットをしているような雰囲気を歌唱者に与えることができ、上記合成した画像データを表示しない場合に比べて、臨場感をより高めることができる。
【００３６】
（変形例３）
本発明に係るカラオケ装置は、上述した実施形態で示したキャラクターの表情以外にも、様々な表情で感情等を伝えても良い。例えば、キャラクターに目配せをさせてタイミングを伝えても良いし、上手く歌えたとき（評価が高いとき）に、キャラクターに飛び跳ねさせて歌唱者を盛り上げるようにしても良い。また、基準とは関係なく、例えばビブラートを検出したら表情を変えても良い。また、キャラクターの表情と伝えられる内容とは、歌唱者が対応付けて伝えられる内容を認識することができるものであれば、どのように対応付けられていても良い。例えば、表情とその表情が示す内容を対応付けた表を、予め利用者に提供しておけば良い。これにより、人により表情の受け取り方が異なる場合であっても、伝えるべき感情又は内容を歌唱者に対して伝えることができる。また、この対応を、ユーザが操作部２１の操作などで設定できるようにしても良い。なお、キャラクターの表情に加え、背景により感情等を伝えても良く、例えば、評価が高い状態から低い状態になるに連れて、背景の色を青から赤に変化させ、間違いが増えていることを警告するようにしても良い。また、文字を表示しても良いし、音声を発声させても良い。音声を発声させる際は、発音する音に応じて、口の形を変えてキャラクターを表示させても良い。
【００３７】
（変形例４）
本発明に係るカラオケ装置は、キャラクターの表情を１つ１つ異なる画像で表すものでなくともよく、例えば、表情を形作るいくつかのパーツを組み合わせることで、数通りのパーツから何十種類もの表情を表すものであっても良いし、パラメータを用いて表情を生成するものであっても良い。これにより、表情の数だけ画像を用意する場合よりも、キャラクター画像データの容量を小さくすることができる。
【００３８】
（変形例５）
本発明においては、歌唱音声の様々な特徴を基準として用いて、これを評価しても良い。例えば、基準には、拍の長さ又は音量等の特徴を用いても良いし、「ビブラート」又は「こぶし」等の歌唱技法を特徴としてとらえて用いても良い。
【００３９】
（変形例６）
本発明に係る制御部は、上述した実施形態において説明した方法に限らず、様々な方法で歌唱を評価しても良い。例えば、制御部が算出した評価値が第１閾値以下である場合に２点、第２閾値以下である場合に１点加点し、その合計を評価点とするというように、加点式で評価しても良い。また、評価期間を、構成音が歌唱されるべき期間とは異なる期間としても良く、例えば、１秒や２秒といった一定の時間を評価期間としても良いし、評価期間の長さをユーザが操作部２１の操作などにより設定できるようにしても良い。
【００４０】
（変形例７）
本発明に係るカラオケ装置は、上述した実施形態では、評価部１１２による評価結果に応じた表情のキャラクターを表示し、また、特定部１１３により特定された評価期間を伝えるための表情のキャラクターをそれぞれ異なる画像で表示させたが、これらは、同時に表示させても良いし、いずれか一方だけを表示させても良い。前者を表示させれば、歌唱者に臨場感を与えやすく、後者を表示させれば、歌唱者が上手に歌うことを補助することができる。
【００４１】
（変形例８）
本発明において、特定部１１３により特定された評価期間に、過去に歌唱したときよりも上手に歌うことができたら、評価点を高くするように加点しても良い。詳細には、評価部１１２は、評価期間が特定部１１３により特定されたものであり、かつ、音高が共通する基準のうち、１回前の基準に対する評価値よりも評価値が小さくなった場合、評価点に１点加点する。なお、この際、過去の複数回の評価値の平均値よりも小さくなった場合に加点しても良いし、加点する代わりに減点する点数を減らしても良い。
【００４２】
（変形例９）
本発明に係るカラオケ装置は、上述した実施形態においては、立体画像を表示する手段（立体画像表示部）を備えていたが、２次元の画像を表示する手段を備えていても良い。この場合、画像生成部は、図５（ｃ）に示すような立体的に飛び出して見える画像を、遠近法を用いて２次元の画像で生成すれば良い。また、飛び出して見える画像は表示せずに、図４、図５（ａ）、（ｂ）に示すような平面的に表現されたキャラクターの画像を表示させても良い。この場合でも、カラオケ装置は、歌唱されるべき基準に対して歌唱音声が沿っている程度に反応するキャラクターを表示することができる。
【００４３】
（変形例１０）
本発明に係るカラオケ装置は、上述した実施形態においては、表示制御部及び立体画像表示部を備えたが、これらの各部は、外部の装置に備えられていても良い。この場合、画像生成部は、例えばネットワークを介して、この外部の装置に備えられた表示制御部に画像データを出力すればよい。
【００４４】
（変形例１１）
本発明に係るカラオケ装置は、キャラクターの表情に加え、背景によって感情又は伝えたい情報等を表しても良い。この場合、記憶部にキャラクターの背景として表示させるための画像データである背景データを記憶させれば良い。ここでいう背景には、背後の景色を表したいわゆる背景に加え、上記キャラクターの表情と同様に、キャラクターの感情又は伝えたい情報等を色、形又は文字等で表したものが含まれる。
【００４５】
（変形例１２）
本発明に係るカラオケ装置は、歌唱者が歌唱すべき時刻又は歌唱すべき位置を、伴奏音に限らず、画像等で表しても良い。例えば、上述した実施形態においては、図３に示したように、歌詞Ａの色を変化させて色が変化する境目を現在歌唱すべき位置として表しているので、歌唱者は、伴奏音がなくとも歌唱すべき位置を知ることができる。また、これに限らず、図３に示した五線譜に、現在再生されているところを示すマークを表示させ、矢印Ｒ１の方向に移動させて歌唱すべき位置を知らせても良い。上述した実施形態に係る「伴奏データ３１１」、「歌詞データ３１３」及び本変形例に係るマークを表示させるデータは、いずれも、再生されると楽曲の歌唱すべき位置を表すデータであり、本発明に係る「位置表示データ」の一例に相当する。
【００４６】
（変形例１３）
画像生成部１１４は、上述した実施形態において、生成した画像データ（第２画像データ）を伴奏データに応じたキャラクターの画像データ（第１画像データ）に代えて表示制御部１１５に供給したが、これに限らず、これらの画像データを共に表示制御部１１５に供給してもよい。例えば、画像生成部１１４は、第２画像データとして、第１画像データが示すキャラクターの表情を、上述した評価結果又は特定部１１３により特定された評価期間に応じた表情で表した画像を示すデータを生成し、表示制御部１１５は、第１画像データが示す画像に第２画像データが示す画像を重ねて（オーバーレイさせて）表示させれば良い。この場合であっても、カラオケ装置１は、歌唱されるべき基準に対して歌唱音声が沿っている程度に反応するキャラクターを表示することができる。
【００４７】
（変形例１４）
本発明は、コンピュータを本発明に係る評価装置として機能させるためのプログラムとしても特定され得るものである。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることも可能である。
【符号の説明】
【００４８】
１…カラオケ装置、１０、１０ａ…制御部、２１…操作部、２２…音響処理部、２３…収音部、２４…放音部、２５…立体画像表示部、３０…記憶部、１１１…再生部、１１２…評価部、１１３…特定部、１１４…画像生成部、１１５、１１５ａ…表示制御部、１１７ａ…位置検知部、１１８ａ…方向算出部、１１９ａ…モータ制御部、２３１…マイクロホン、２５１…ディスプレイ、２５２…表示面、２５３…モータ、３１０…楽曲データベース、３１１…伴奏データ、３１２…リファレンスデータ、３１３…歌詞データ、３２０…キャラクターデータベース、３２１…キャラクター画像データ、３３０…ディスプレイデータ

【特許請求の範囲】
【請求項１】
再生されると楽曲の歌唱すべき位置を表す位置表示データと、歌唱音声を評価する基準を示すリファレンスデータとを記憶する記憶手段と、
前記記憶手段から前記位置表示データを読み出して再生する再生手段と、
前記再生手段が前記位置表示データを再生しているときに収音手段から供給されたオーディオ信号が表す歌唱音声と、前記記憶手段から読み出した前記リファレンスデータが示す基準とを比較して当該歌唱音声を評価する評価手段と、
前記再生手段が前記位置表示データを再生している間、キャラクターの画像を示す第１画像データを出力し、前記評価手段により前記歌唱音声が評価された場合、前記キャラクターの表情を当該歌唱音声が評価された結果に応じた表情で表した画像を示す第２画像データを出力する出力手段と、
を備えることを特徴とする評価装置。
【請求項２】
前記出力手段は、前記位置表示データに応じた表情の前記キャラクターの画像を示す第１画像データを出力する
ことを特徴とする請求項１に記載の評価装置。
【請求項３】
前記リファレンスデータは、前記楽曲における複数の期間のそれぞれと対応付けられた前記基準を示し、
前記記憶手段から読み出した前記リファレンスデータが示す複数の前記基準に対応づけられた前記期間から、前記評価手段により評価された歌唱音声が比較された基準と特徴が共通する基準に対応づけられた前記期間を特定する特定手段を備え、
前記出力手段は、前記特定手段により特定された期間を伝えるための表情をする前記キャラクターの画像を示す前記第２画像データを、当該期間の開始よりも前に出力する
ことを特徴とする請求項１又は２に記載の評価装置。
【請求項４】
前記歌唱者の位置を検知する検知手段と、
予め定められた領域から見た場合に立体的に見える画像を表示する面を有する表示手段を制御して、前記検知手段が検知した位置が前記領域に入るように前記面の向きを調整し、当該面に前記出力手段が出力する第２画像データが示す前記キャラクターの画像を立体的に表示させる表示制御手段と
を備えることを特徴とする請求項１ないし３のいずれかに記載の評価装置。
【請求項５】
歌唱者の画像を撮影する撮影手段を備え、
前記出力手段は、前記撮影手段が撮影した画像と前記キャラクターを表現した画像とを合成して出力する
ことを特徴とする請求項１ないし４のいずれかに記載の評価装置。

【図１】