音声入力システム、音声入力システムの制御方法、及びプログラム

【課題】模範音声の高さ（音高）で音声を入力することが困難であるユーザを補助することが可能な音声入力システムを提供すること。
【解決手段】第１案内手段（６３）は模範音声をユーザに案内する。判定手段（６４）は、音声入力手段（３１）を介して入力されたユーザの音声の音高と、模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する。第２案内手段（６５）は、上記のずれの大きさが基準の大きさよりも大きい場合、模範音声の音高を上記のずれに応じて上げて又は下げてなる補正模範音声をユーザに案内する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声入力システム、音声入力システムの制御方法、及びプログラムに関する。
【背景技術】
【０００２】
音楽に合わせてユーザが音声を入力する音声入力システムが知られている。例えば、伴奏音楽に合わせてユーザが歌唱するカラオケシステムが知られている（例えば特許文献１）。一般的に、このようなカラオケシステムでは、伴奏音楽に合わせて歌を歌う場合の模範となる音声（模範音声）があらかじめ定められている。そして、ユーザは模範音声の高さ（音高）で歌を歌うことを目指す。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００５−２０８１９６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、上記のようなカラオケシステムでは、例えば、ユーザの元々の声の高さと模範音声の高さとが大きく異なっていると、ユーザが模範音声の高さで歌を歌うことが困難になってしまう場合がある。例えば、模範音声が比較的高い場合、声の低いユーザは模範音声の高さで歌を歌うことが困難である。このため、上記のようなカラオケシステムでは、模範音声の高さで歌を歌うことが困難であるユーザを補助する機能の実現が強く望まれる。
【０００５】
本発明は上記課題に鑑みてなされたものであって、その目的は、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、模範音声の高さ（音高）で音声を入力することが困難であるユーザを補助することが可能な音声入力システム、音声入力システムの制御方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【０００６】
上記課題を解決するために、本発明に係る音声入力システムは、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、前記ユーザが音声を入力するための音声入力手段と、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段と、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第１案内手段と、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段と、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第２案内手段と、を含むことを特徴とする。
【０００７】
また、本発明に係る音声入力システムの制御方法は、音楽に合わせてユーザが音声を入力する音声入力システムの制御方法において、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得するステップと、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第１案内ステップと、前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定ステップと、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第２案内ステップと、を含むことを特徴とする。
【０００８】
また、本発明に係るプログラムは、音楽に合わせてユーザが音声を入力する音声入力システムとしてコンピュータを機能させるためのプログラムであって、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第１案内手段、前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段、及び、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第２案内手段、として前記コンピュータを機能させるためのプログラムである。
【０００９】
また、本発明に係る情報記憶媒体は、上記プログラムを記録したコンピュータ読み取り可能な情報記憶媒体である。
【００１０】
本発明によれば、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、模範音声の高さ（音高）で音声を入力することが困難であるユーザを補助することが可能になる。
【００１１】
また本発明の一態様では、前記第２案内手段は、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声と前記補正模範音声との両方を前記ユーザに案内するようにしてもよい。
【００１２】
また本発明の一態様では、音高に関する軸が設定された第１画像を表示手段に表示させる表示制御手段を含むようにしてもよい。前記第１案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第１画像上の位置に、第２画像を表示させることによって、前記模範音声の音高を前記ユーザに案内するようにしてもよい。前記第２案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第１画像上の位置に前記第２画像を表示させ、かつ、前記軸方向の座標値が前記補正模範音声の音高に対応する座標値である前記第１画像上の位置に、前記第２画像とは表示態様の異なる第３画像を表示させることによって、前記模範音声と前記補正模範音声との両方の音高を前記ユーザに案内するようにしてもよい。
【００１３】
また本発明の一態様では、前記第１画像は、基本音高と、前記基本音高よりも高い音高である一又は複数の音高と、前記基本音高よりも低い音高である一又は複数の音高と、を含む複数の音高に対応する複数の音高画像が前記軸方向に配列されてなる画像であってもよい。前記複数の音高画像の各々の前記軸方向の幅は、該音高画像に対応する音高と前記基本音高との差に応じた幅に設定されるようにしてもよい。前記複数の音高画像のうちの、第１音高に対応する音高画像の前記軸方向の幅は、前記基本音高との差が前記第１音高よりも小さい第２音高に対応する音高画像の前記軸方向の幅よりも小さく設定されるようにしてもよい。
【００１４】
また本発明の一態様では、前記音声入力手段を介して入力された前記ユーザの音声の音高に基づいて、前記基本音高を設定する設定手段を含むようにしてもよい。
【００１５】
また本発明の一態様では、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第１評価手段と、前記判定手段によって前記ずれの大きさが前記基準の大きさよりも大きいと判定された場合に、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記補正模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第２評価手段と、を含むようにしてもよい。
【００１６】
また本発明の一態様では、前記音声入力システムは、前記音楽に合わせてユーザが歌唱するカラオケシステム、又は、前記音楽に合わせてユーザが音声を入力するゲームを実行するゲームシステムであってもよい。
【図面の簡単な説明】
【００１７】
【図１】本発明の実施形態に係るカラオケシステム（音声入力システム）のハードウェア構成を示す図である。
【図２】カラオケ画面の一例を示す図である。
【図３】ピアノロール画像について説明するための図である。
【図４】カラオケ画面の他の一例を示す図である。
【図５】評価判断基準の一例を示す図である。
【図６】カラオケ画面の他の一例を示す図である。
【図７】カラオケ画面の他の一例を示す図である。
【図８】カラオケシステムの機能ブロック図である。
【図９】楽曲データの一例を示す図である。
【図１０】カラオケシステムで実行される処理の一例を示すフロー図である。
【図１１】カラオケシステムで実行される処理の一例を示すフロー図である。
【発明を実施するための形態】
【００１８】
以下、本発明の実施形態について図面に基づき詳細に説明する。ここでは、音楽に合わせてユーザが音声を入力する音声入力システムの一態様であるカラオケシステムに本発明を適用した場合について説明する。以下では、本発明の実施形態に係るカラオケシステムを家庭用ゲーム機（据置型ゲーム機）を用いて実現する場合について説明する。なお、本発明の実施形態に係るカラオケシステムは、例えば、携帯ゲーム機、業務用ゲーム機、携帯電話機、携帯情報端末、又はパーソナルコンピュータを用いて実現されるようにしてもよい。また、本発明の実施形態に係るカラオケシステムは、カラオケ機能を提供する目的で製造されたカラオケ専用の装置として実現されるようにしてもよい。
【００１９】
図１は、本発明の実施形態に係るカラオケシステム（音声入力システム）のハードウェア構成を示す。図１に示すように、カラオケシステム１０は家庭用ゲーム機１１、表示部３０、音声入力部３１、音声出力部３２、光ディスク３３（情報記憶媒体）、及びメモリカード３４（情報記憶媒体）を含む。
【００２０】
表示部３０、音声入力部３１、及び音声出力部３２は家庭用ゲーム機１１に接続される。例えば、表示部３０は液晶ディスプレイ又はプラズマディスプレイ等の表示装置である。また、音声入力部３１はユーザが音声を入力するためのものである。例えば、音声入力部３１はマイク等の音声入力装置であり、入力された音声を電気信号に変換する。また例えば、音声出力部３２は表示装置に備えられたスピーカ又はヘッドホンである。
【００２１】
家庭用ゲーム機１１はコンピュータシステムであり、バス１２、制御部１３、主記憶１４、画像処理部１５、音声処理部１６、光ディスクドライブ１７、メモリカードスロット１８、通信インタフェース（Ｉ／Ｆ）１９、及び操作部２０を含む。
【００２２】
バス１２はアドレス及びデータを家庭用ゲーム機１１の各部でやり取りするために用いられる。制御部１３、主記憶１４、画像処理部１５、音声処理部１６、光ディスクドライブ１７、メモリカードスロット１８、通信インタフェース１９、及び操作部２０は、バス１２によって相互データ通信可能に接続される。
【００２３】
制御部１３は例えば一又は複数のマイクロプロセッサを含み、例えば光ディスク３３から読み出されるプログラムに基づいて、家庭用ゲーム機１１の各部の制御処理や各種情報処理を実行する。主記憶１４は例えばＲＡＭを含み、光ディスク３３又はメモリカード３４から読み出されたプログラム及びデータが必要に応じて書き込まれる。主記憶１４は制御部１３の作業用としても用いられる。
【００２４】
画像処理部１５はＶＲＡＭを含み、制御部１３から送られる画像データに基づいてＶＲＡＭ上に画面を描画し、その画面を表示部３０に表示する。音声処理部１６はサウンドバッファを含み、光ディスク３３又はメモリカード３４からサウンドバッファに読み出された各種音声データ（音楽、効果音、メッセージ等）を音声出力部３２から出力する。また、音声処理部１６は音声入力部３１から出力される音声信号を制御部１３に供給する。
【００２５】
光ディスクドライブ１７は、光ディスク３３に記録されたプログラムやデータを読み取る。ここではプログラムやデータを家庭用ゲーム機１１に供給するために光ディスク３３を用いることとするが、例えばメモリカード３４等の他のあらゆる情報記憶媒体を用いるようにしてもよい。また、インターネット等のデータ通信網を介して遠隔地からプログラムやデータを家庭用ゲーム機１１に供給するようにしてもよい。
【００２６】
通信インタフェース１９は、インターネットなどのデータ通信網に通信接続するためのインタフェースである。メモリカードスロット１８はメモリカード３４を装着するためのインタフェースである。メモリカード３４は不揮発性メモリ（例えばＥＥＰＲＯＭなど）を含み、各種データを記憶する。なお、カラオケシステム１０はハードディスク装置（補助記憶装置）を備えるようにしてもよい。光ディスク３３又はメモリカード３４に記憶されることとして説明するプログラムやデータはハードディスク装置に記憶されるようにしてもよい。
【００２７】
操作部２０はユーザが操作を行うためのものである。操作部２０は複数の操作部材を備える。操作部２０の各操作部材の状態は一定周期毎（例えば１／６０秒ごと）にスキャンされ、そのスキャン結果を表す操作信号が制御部１３に供給される。制御部１３は操作信号に基づいてユーザの操作を判断する。
【００２８】
カラオケシステム１０ではユーザ（歌唱者）が伴奏音楽に合わせて歌唱する。音声出力部３２からは伴奏音楽とユーザの歌唱音声とが混合されて出力される。また、カラオケシステム１０ではユーザの歌唱に評価が与えられる。
【００２９】
図２は、表示部３０に表示されるカラオケ画面の一例を示す。カラオケ画面４０にはユーザが歌うべき歌詞４１が表示される。図２に示すカラオケ画面４０には「ＡＢＣＤＥＦＧＨＩＪＫＬ」が歌詞４１として表示されている。
【００３０】
また、カラオケ画面４０には、ユーザが歌詞４１を歌うべきタイミング（期間）と、ユーザが発すべき音の高さ（音高）との両方をユーザに案内するためのピアノロール画像４２が表示される。ピアノロール画像４２は、音高の表記方法として一般的に用いられているピアノロールを模した画像になっている。
【００３１】
ピアノロール画像４２には、時間軸であるＴ軸と、音高に関する軸であるＰ軸とが設定されている。図２に示す例では、ピアノロール画像４２の横方向がＴ軸方向になっており、ピアノロール画像４２の縦方向がＰ軸方向になっている。
【００３２】
図３は、ピアノロール画像４２について説明するための図である。図３に示すピアノロール画像４２は、複数の音高に対応する複数の音高画像４３ａ〜４３ｗを含んで構成される。なお、以下では、音高画像４３ａ〜４３ｗのことを総称して「音高画像４３」と記載する場合がある。
【００３３】
音高画像４３は、横方向（Ｔ軸方向）の長さが縦方向（Ｐ軸方向）の長さに比べて長い矩形画像である。なお、白い音高画像４３はピアノの白い鍵盤の音高に対応しており、斜線が付された音高画像４３はピアノの黒い鍵盤の音高に対応している。
【００３４】
音高画像４３ａ〜４３ｗは縦方向（Ｐ軸方向）に配列される。より高い音高に対応する音高画像４３ほど、ピアノロール画像４２内の上方に表示されるようになっている。つまり、ピアノロール画像４２内で最も下に表示されている音高画像４３ａは、複数の音高のうちで最も低い音高に対応している。また、ピアノロール画像４２内で最も上に表示されている音高画像４３ｗは、複数の音高のうちで最も高い音高に対応している。
【００３５】
ピアノロール画像４２は縦方向に５つの領域（第１領域４２ａ、第２領域４２ｂ，４２ｄ、第３領域４２ｃ，４２ｅ）に分けられる。第１領域４２ａはピアノロール画像４２の中央に位置する領域である。第１領域４２ａには、基本音高に対応する音高画像４３ｌと、基本音高より高い３つの音高に対応する３つの音高画像４３ｍ，４３ｎ，４３ｏと、基本音高より低い３つの音高に対応する音高画像４３ｉ，４３ｊ，４３ｋとが配列されている。言い換えれば、第１領域４２ａには、基本音高を中心とする１オクターブの７つの音高に対応する７つの音高画像４３ｉ〜４３ｏが配列されている。
【００３６】
第２領域４２ｂは第１領域４２ａの上側に隣接する領域である。また、第３領域４２ｃは第２領域４２ｂの上側に隣接する領域である。第２領域４２ｂには、音高画像４３ｐに対応する音高より高い４つの音高に対応４つの音高画像４３ｐ，４３ｑ，４３ｒ，４３ｓが配列されている。また、第３領域４２ｃには、音高画像４３ｓに対応する音高よりさらに高い４つの音高に対応する４つの音高画像４３ｔ，４３ｕ，４３ｖ，４３ｗが配列されている。
【００３７】
一方、第２領域４２ｄは第１領域４２ａの下側に隣接している領域である。また、第３領域４２ｅは第２領域４２ｄの下側に隣接している領域である。第２領域４２ｄには、音高画像４３ｉに対応する音高より低い４つの音高に対応する４つの音高画像４３ｅ，４３ｆ，４３ｇ，４３ｈが配列されている。また、第３領域４２ｅには、音高画像４３ｅに対応する音高よりさらに低い４つの音高に対応する４つの音高画像４３ａ，４３ｂ，４３ｃ，４３ｄが配列されている。
【００３８】
なお、ピアノロール画像４２は音高画像４３のＰ軸方向の幅が一定でない点で一般的なピアノロールとは異なっている。音高画像４３ａ〜４３ｗの各々のＰ軸方向の幅は、該音高画像に対応する音高と、基本音高と、の差に応じた幅に設定されている。例えば、基本音高との差が比較的大きい音高に対応する音高画像４３ｓのＰ軸方向の幅は、基本音高との差が比較的小さい音高に対応する音高画像４３ｏのＰ軸方向の幅よりも小さく設定されている。
【００３９】
すなわち、第２領域４２ｂ，４２ｄに配列されている音高画像４３ｅ〜４３ｈ，４３ｐ〜４３ｓのＰ軸方向の幅は、第１領域４２ａに配列されている音高画像４３ｉ〜４３ｏのＰ軸方向の幅よりも狭くなっている。また、第３領域４２ｃ，４２ｅに配列されている音高画像４３ａ〜４３ｄ，４３ｔ〜４３ｗのＰ軸方向の幅は、第２領域４２ｂ，４２ｃに配列されている音高画像４３ｅ〜４３ｈ，４３ｐ〜４３ｓのＰ軸方向の幅よりもさらに狭くなっている。このようにすることによって、比較的限られた画面領域内に、なるべく多くの音高に対応する音高画像４３を表示することが可能になる。
【００４０】
また、図２に示すように、ピアノロール画像４２上には基準ライン４４及び歌唱アイコン４５が表示される。基準ライン４４は、ピアノロール画像４２上の、現時点に対応する位置に表示される。つまり、基準ライン４４は現時点を示している。
【００４１】
一方、歌唱アイコン４５は、ピアノロール画像４２（基準ライン４４）上の、音声入力部３１を介して入力されるユーザの音声の音高に対応する位置に表示される。つまり、歌唱アイコン４５はユーザの音声の音高に対応する音高画像４３上に表示される。つまり、歌唱アイコン４５はユーザの音声の音高をユーザに案内する役割を果たしている。
【００４２】
なお、本実施形態の場合、歌唱アイコン４５が第１領域４２ａ外に移動しようとすると（例えば図２に示す場合であれば、ユーザの音声の音高が、第１領域４２ａに含まれる音高画像４３ｉ〜４３ｏに対応しない音高になると）、ピアノロール画像４２がスクロールし、歌唱アイコン４５がピアノロール画像４２内のＰ軸方向中央の位置上に表示されるようになっている。このため、歌唱アイコン４５は常に第１領域４２ａ内に表示されるようになっている。
【００４３】
さらに、ピアノロール画像４２上には模範音声案内画像４６が表示される。模範音声案内画像４６は、ユーザが歌詞４１を歌うべきタイミング（期間）と、ユーザが発すべき音声（模範音声）の高さ（音高）との両方をユーザに案内する役割を果たす。模範音声案内画像４６の表示位置は、ユーザが歌詞４１を歌うべきタイミングが到来するまでの残り時間と、模範音声の音高との両方に対応する位置に設定される。
【００４４】
例えば、模範音声案内画像４６の表示位置のＰ軸座標値は、模範音声の音高に対応する座標値に設定される。また、模範音声案内画像４６の表示位置のＴ軸座標値は、ユーザが歌詞４１を歌うべきタイミングが到来するまでの残り時間に対応する座標値に設定される。このため、模範音声案内画像４６の表示位置は、ユーザが歌詞４１を歌うべきタイミングが到来するまでの残り時間が少ないほど、基準ライン４４からの距離が短くなるようにして設定されることになる。その結果、模範音声案内画像４６は時間経過に伴って右から左へと移動し、基準ライン４４に接近する。そして、ユーザが歌うべきタイミングにおいて模範音声案内画像４６は基準ライン４４上に重なる。例えば、ユーザが歌詞４１を歌い始めるべきタイミングにおいて模範音声案内画像４６の先頭４６ａが基準ライン４４に到達する。
【００４５】
図２に示す時点から所定時間経過した時点におけるカラオケ画面４０の一例を図４に示す。図４に示すカラオケ画面４０では、模範音声案内画像４６の一部が基準ライン４４を通過している。すなわち、図４は、歌詞４１の最初の部分がすでに歌われている状態を示している。
【００４６】
図４に示すカラオケ画面４０では、歌詞４１が、黒字部分４１ａと、白字部分４１ｂとを含んでいる。黒字部分４１ａは、歌うべきタイミングが既に経過している部分を示している。すなわち、黒字部分４１ａは、ユーザが既に歌い終わっているはずの部分を示している。一方、白字部分４１ｂは、歌うべきタイミングがこれから到来する部分を示している。すなわち、白字部分４１ｂは、ユーザがこれから歌う部分を示している。白字部分４１ｂのうちの先頭の文字はユーザが次に発すべき音声に相当する。
【００４７】
歌詞４１の色の変化と模範音声案内画像４６の移動とは同期している。このため、ユーザは歌詞４１と模範音声案内画像４６との両方を参照することによって、歌うべき歌詞と、その歌詞を歌うべきタイミング（期間）と、その歌詞をどの音高で歌うべきかと、を把握することができる。
【００４８】
また、ユーザは歌唱アイコン４５と模範音声案内画像４６とを参照することによって、ユーザが発すべき音声（模範音声）の音高と、ユーザが実際に発している音声の音高と、が一致しているか否かも把握することができる。
【００４９】
カラオケシステム１０ではユーザの歌唱に評価が与えられる。例えば、ユーザが歌唱すべき音声（模範音声）の音高と、ユーザの歌唱音声の音高との間のずれ（Δｐ）に基づいて、「ＥＸＣＥＬＬＥＮＴ」、「ＧＲＥＡＴ」、「ＧＯＯＤ」、「ＡＬＭＯＳＴ」、及び「ＢＯＯ」のうちのいずれかの評価が与えられる。「ＥＸＣＥＬＬＥＮＴ」が最も高い評価であり、「ＢＯＯ」が最も低い評価である。図５は評価判断基準の一例を示す図であり、音高のずれ（Δｐ）と評価との関係の一例を示す。音高のずれ（Δｐ）が小さいほど、ユーザに与えられる評価が高くなる。
【００５０】
図４に示すカラオケ画面４０では、歌唱アイコン４５と模範音声案内画像４６とが重なっている。この場合、音高のずれ（Δｐ）が小さいことになり、比較的高い評価（例えば「ＥＸＣＥＬＬＥＮＴ」又は「ＧＲＥＡＴ」）がユーザに与えられる。一方、例えば、図６に示すカラオケ画面４０では、歌唱アイコン４５と模範音声案内画像４６とが離れている。具体的には、模範音声の音高とユーザの歌唱音声の音高とが１オクターブ異なっている。この場合、かなり低い評価（例えば「ＢＯＯ」）がユーザに与えられる。
【００５１】
図４及び図６に示すように、カラオケ画面４０には、ユーザに与えられた評価を示すメッセージ５０が表示される。また、カラオケ画面４０には得点４７が表示される。ユーザに与える評価が決定された場合、その評価に対応する評価点がユーザの得点に加算される。評価と評価点との関係は図５に示す通りである。図５に示すように、評価が高いほど、評価点も高くなる。
【００５２】
さらに、カラオケ画面４０にはコンボ数４８が表示される。コンボ数４８は、ユーザが比較的高い評価（例えばＥＸＣＥＬＬＥＮＴ」又は「ＧＲＥＡＴ」）を連続して得た回数である。また、カラオケ画面４０にはゲージ４９が表示される。ゲージ４９の長さはユーザに与えられた評価に基づいて変化する。例えば、ユーザに与えられた評価が比較的高い「ＥＸＣＥＬＬＥＮＴ」、「ＧＲＥＡＴ」、又は「ＧＯＯＤ」であった場合にゲージ４９は伸張し、評価が比較的低い「ＡＬＭＯＳＴ」又は「ＢＯＯ」であった場合にゲージ４９は収縮する。
【００５３】
ところで、図６に示すカラオケ画面４０では、ユーザの歌唱音声の高さが模範音声の高さよりも１オクターブ低くなっている。このような場合、ユーザの元々の声の高さが模範音声に比べてかなり低いが故にユーザが模範音声の高さで歌を歌うことが困難であると考えられる。このような場合、カラオケシステム１０では、模範音声を１オクターブだけ低くしてなる模範音声（以下「補正模範音声」と記載する。）がユーザに案内されるようになっている。図７はその場合のカラオケ画面４０の一例を示す。
【００５４】
図７に示すカラオケ画面４０には、模範音声案内画像４６とともに、補正模範音声案内画像５１が表示されている。補正模範音声案内画像５１は模範音声案内画像４６とは異なる色で表示される。図７に示すカラオケ画面４０では、模範音声案内画像４６が黒色であるのに対し、補正模範音声案内画像５１は白色になっている。
【００５５】
例えば、補正模範音声案内画像５１の表示位置のＰ軸座標値は、補正模範音声の音高に対応する座標値に設定される。ここでは、補正模範音声が模範音声よりも１オクターブだけ低い音声であるため、補正模範音声案内画像５１は、模範音声案内画像４６の表示位置よりも１オクターブ分だけ下方に移動してなる位置に表示されている。
【００５６】
また、補正模範音声案内画像５１の表示位置のＴ軸座標値は、模範音声案内画像４６と同様、ユーザが歌詞４１を歌うべきタイミングが到来するまでの残り時間に対応する座標値に設定される。このため、補正模範音声案内画像５１の表示位置も、ユーザが歌詞４１を歌うべきタイミングが到来するまでの残り時間が少ないほど、基準ライン４４からの距離が短くなるようにして設定されることになる。その結果、模範音声案内画像４６と同様に、補正模範音声案内画像５１も時間経過に伴って右から左へと移動し、基準ライン４４に接近する。そして、ユーザが歌うべきタイミングにおいて補正模範音声案内画像５１は基準ライン４４上に重なる。
【００５７】
また、この場合、ユーザの歌唱音声の評価は、模範音声ではなく、補正模範音声に基づいて判断される。すなわち、補正模範音声の音高とユーザの歌唱音声の音高との間のずれ（Δｐ）に基づいて、「ＥＸＣＥＬＬＥＮＴ」、「ＧＲＥＡＴ」、「ＧＯＯＤ」、「ＡＬＭＯＳＴ」、及び「ＢＯＯ」のうちのいずれかの評価が与えられる。当然のことながら、音高のずれ（Δｐ）が小さいほど、ユーザに与えられる評価が高くなる。
【００５８】
なお、ユーザの歌唱音声を補正模範音声に基づいて評価する場合と模範音声に基づいて評価する場合とで評価判断基準を変えるようにしてもよい。例えば、ユーザの歌唱音声を補正模範音声に基づいて評価する場合には、模範音声に基づいて評価する場合に比べて、「ＥＸＣＥＬＬＥＮＴ」、「ＧＲＥＡＴ」、「ＧＯＯＤ」、及び「ＡＬＭＯＳＴ」の各々の評価に対応する評価点を所定点数（例えば１点）だけ下げるようにしてもよい。
【００５９】
また例えば、ユーザの歌唱音声を補正模範音声に基づいて評価する場合と模範音声に基づいて評価する場合とで、音高のずれ（Δｐ）と評価との対応関係を変えるようにしてもよい。例えば図５に示す評価判断基準では、「ＥＸＣＥＬＬＥＮＴ」の評価に対応づけられた音高のずれ（Δｐ）の範囲が「｜Δｐ｜＜Ｐ１」に設定されている。このため、図５に示す評価判断基準の場合、ユーザは「ＥＸＣＥＬＬＥＮＴ」の評価を受けるために、音高のずれ（Δｐ）を「Ｐ１」未満に抑える必要がある。これに対し、ユーザの歌唱音声を補正模範音声に基づいて評価する場合の評価判断基準では、「ＥＸＣＥＬＬＥＮＴ」の評価に対応づけられる音高のずれ（Δｐ）の範囲を「｜Δｐ｜＜Ｐ０」（Ｐ０：Ｐ１よりも小さい値）に設定するようにしてもよい。こうすることによって、ユーザの歌唱音声を補正模範音声に基づいて評価する場合には、ユーザが「ＥＸＣＥＬＬＥＮＴ」の評価を受けるために、音高のずれ（Δｐ）を、「Ｐ１」よりも小さい「Ｐ０」未満に抑えなければならないようにしてもよい。
【００６０】
ところで、以上では、ユーザの歌唱音声の音高が模範音声の音高よりも１オクターブ低くなっているような場合の例について説明したが、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも１オクターブ高くなっているような場合についても同様である。すなわち、この場合、模範音声を１オクターブだけ高くしてなる補正模範音声がユーザに案内される。つまり、模範音声を１オクターブだけ高くしてなる補正模範音声を案内する補正模範音声案内画像５１がカラオケ画面４０に表示される。
【００６１】
以上のように、カラオケシステム１０では、ユーザの元々の声の高さと模範音声の高さとが大きく異なっているが故にユーザが模範音声の高さで歌を歌うことが困難である場合に、ユーザが補助されるようになっている。以下、この機能を実現するための構成について説明する。
【００６２】
図８は、カラオケシステム１０で実現される機能を示す機能ブロック図である。図８に示すように、カラオケシステム１０は、記憶部６０、音声出力制御部６１、案内部６２、及び評価部６６を含む。
【００６３】
記憶部６０は例えば光ディスク３３、メモリカード３４、及び主記憶１４によって実現される。なお、記憶部６０は、家庭用ゲーム機１１と通信ネットワークを介してデータ授受可能な装置に備えられる補助記憶装置（例えばハードディスク装置）によって実現されるようにしてもよい。すなわち、記憶部６０に記憶されることとして説明するデータの全部又は一部は上記の補助記憶装置に記憶されるようにしてもよい。一方、記憶部６０以外の機能ブロックは、例えば制御部１３が光ディスク３３に記憶されたプログラムを実行することによって実現される。
【００６４】
記憶部６０は各種データを記憶する。本実施形態の場合、記憶部６０は複数の楽曲データを記憶する。図９は、一の楽曲に対応する楽曲データの一例を示す図である。図９に示すように、楽曲データは、伴奏音楽データ、歌詞データ、模範音声データ、及び背景画像データを含む。伴奏音楽データは楽曲の伴奏パートの音楽を所定のデータ形式で保存したものである。伴奏音楽データは例えばＭＩＤＩデータ等である。歌詞データは楽曲の歌詞を示すデータである。背景画像データは、カラオケ画面４０の背景として表示される画像を表すものである。
【００６５】
模範音声データは、音楽に合わせて音声を入力する場合の模範音声を示すデータである。すなわち、模範音声データは、音楽に合わせてユーザが音声を入力すべきタイミング（期間）と、音楽に合わせてユーザが入力すべき音声（模範音声）とを示す。具体的には、模範音声データは、伴奏音楽に合わせてユーザが歌詞を歌うべきタイミング（期間）と、伴奏音楽に合わせて歌を歌うユーザが模範とすべき音声（模範音声）とを示す。
【００６６】
歌詞データと模範音声データとは関連づけられている。このため、歌詞の各部分をどのタイミング（期間）において歌うべきかと、歌詞の各部分をどの音高で歌うべきかとの両方が歌詞データと模範音声データとに基づいて特定されるようになっている。
【００６７】
また、記憶部６０は、模範音声と、音声入力部３１を介して入力されたユーザの音声との比較結果に基づいて、ユーザの音声に対する評価を判断するための評価判断基準を記憶する。評価判断基準は、上記比較結果に関する比較結果条件と、ユーザの音声に対する評価に関する評価情報と、を関連づけてなる情報である。本実施形態の場合、図５に示すような情報が評価判断基準として記憶部６０に記憶される。図５における「音高のずれ（Δｐ）」フィールドが「比較結果条件」に相当する。また、「評価」及び「評価値」フィールドが「評価情報」に相当する。
【００６８】
音声出力制御部６１は、伴奏音楽データに基づいて伴奏音楽を音声出力部３２から出力する。例えば、音声出力制御部６１は音源を有し、この音源と伴奏音楽データ（ＭＩＤＩデータ）とに基づいて伴奏音楽を再生する。なお、音声出力制御部６１は、伴奏音楽と、音声入力部３１を介して入力されたユーザの歌唱音声と、を合成して音声出力部３２から出力させる。
【００６９】
案内部６２は第１案内部６３を含む。第１案内部６３は模範音声データに基づいて模範音声をユーザに案内する。
【００７０】
本実施形態の場合、案内部６２（表示制御手段）は、音高に関する軸（Ｐ軸）が設定された第１画像を表示部３０に表示させる。第１案内部６３は第１画像上に第２画像を表示させる。この場合、第１案内部６３は、第２画像を、模範音声の音高に対応する位置に表示させることによって、模範音声の音高をユーザに案内する。具体的には、第１案内部６３は、第２画像の表示位置のＰ軸座標値を模範音声の音高に対応する座標値に設定する。
【００７１】
本実施形態の場合、ピアノロール画像４２が「第１画像」に相当し、模範音声案内画像４６が「第２画像」に相当する。
【００７２】
また、案内部６２は判定部６４と第２案内部６５とをさらに含む。判定部６４は、音声入力部３１を介して入力されたユーザの音声の音高と、模範音声の音高との間のずれの大きさが基準の大きさよりも大きいか否かを判定する。「基準の大きさ」は、例えば、３／４オクターブ又は１オクターブに設定される。
【００７３】
音声入力部３１を介して入力されたユーザの音声の音高と、模範音声の音高との間のずれの大きさが基準の大きさよりも大きいと判定部６４によって判定された場合、第２案内部６５は、模範音声の音高を上記ずれに応じて上げて又は下げてなる補正模範音声をユーザに案内する。
【００７４】
例えば、上記ずれの大きさが基準の大きさよりも大きく、かつ、ユーザの音声の音高が模範音声の音高よりも低い場合、第２案内部６５は、模範音声の音高を１オクターブ下げてなる補正模範音声をユーザに案内する。一方、上記ずれの大きさが基準の大きさよりも大きく、かつ、ユーザの音声の音高が模範音声の音高よりも高い場合、第２案内部６５は、模範音声の音高を１オクターブ上げてなる補正模範音声をユーザに案内する。
【００７５】
本実施形態の場合、第２案内部６５は、第１案内部６３によって表示される第２画像と同様の第２画像と、第２画像とは表示態様の異なる第３画像との両方を第１画像上に表示させることによって、模範音声と補正模範音声との両方をユーザに案内する。ここで、「表示態様」とは、例えば色又は模様等である。
【００７６】
第１案内部６３と同様、第２案内部６５は、第２画像を、模範音声の音高に対応する位置に表示させることによって、模範音声の音高をユーザに案内する。具体的には、第２案内部６５は、第２画像の表示位置のＰ軸座標値を模範音声の音高に対応する座標値に設定する。さらに、第２案内部６５は、第３画像を、補正模範音声の音高に対応する位置に表示させることによって、補正模範音声の音高をユーザに案内する。具体的には、第２案内部６５は、第３画像の表示位置のＰ軸座標値を補正模範音声の音高に対応する座標値に設定する。
【００７７】
本実施形態の場合、ピアノロール画像４２が「第１画像」に相当し、模範音声案内画像４６が「第２画像」に相当し、補正模範音声案内画像５１が「第３画像」に相当する。
【００７８】
評価部６６はユーザの音声を評価する。評価部６６は第１評価部６７と第２評価部６８とを含む。
【００７９】
第１評価部６７は、音声入力部３１を介して入力されたユーザの音声の音高と模範音声の音高との比較結果に基づいて、ユーザの音声を評価する。一方、第２評価部６８は、音声入力部３１を介して入力されたユーザの音声の音高と模範音声の音高とのずれの大きさが基準の大きさよりも大きいと判定部６４によって判定された場合に、ユーザの音声の音高と補正模範音声の音高との比較結果に基づいて、ユーザの音声を評価する。
【００８０】
次に、カラオケシステム１０で実行される処理について説明する。図１０及び図１１はカラオケシステム１０で実行される処理のうちの、本発明に関連する処理を主に示すフロー図である。制御部１３は光ディスク３３に記憶されるプログラムに従って、図１０及び図１１に示す処理を実行する。制御部１３が図１０及び図１１に示す処理を実行することによって、図８に示す機能ブロックが実現される。
【００８１】
図１０に示すように、まず制御部１３は案内モードフラグを「０」に初期化する（Ｓ１０１）。案内モードフラグは、模範音声のみを案内するか（図２，４，６参照）、又は模範音声及び補正模範音声の両方を案内するか（図７参照）を示す数値情報である。例えば、案内モードフラグは「０」又は「１」の値をとる。値「０」は模範音声のみを案内することを示す。一方、値「１」は模範音声及び補正模範音声の両方を案内することを示す。
【００８２】
そして、制御部１３はカラオケ画面４０の表示と伴奏音楽の再生とを開始する（Ｓ１０２）。以降、制御部１３（音声出力制御部６１）は、伴奏音楽と、音声入力部３１を介して入力されるユーザの歌唱音声とを合成して音声出力部３２から出力させる。また、制御部１３は、伴奏音楽の再生が終了するまでの間、ステップＳ１０３〜Ｓ１１８の処理を所定時間（例えば１／６０秒）ごとに繰り返し実行する。
【００８３】
その後、制御部１３は案内モードフラグが「０」であるか否かを判定する（Ｓ１０３）。そして、案内モードフラグが「０」である場合、制御部１３（判定部６４）は、ユーザの歌唱音声の音高と模範音声の音高との間のずれ（Δｐ）の大きさが基準の大きさよりも大きい状態が所定時間（例えば３秒間）にわたって継続しているか否かを判定する（Ｓ１０４）。ここで、「基準の大きさ」とは例えば３／４オクターブである。
【００８４】
なお、このステップＳ１０４において、制御部１３は模範音声データに基づいて模範音声の音高を取得する。また、制御部１３は、音声入力部３１を介して入力されたユーザの歌唱音声を分析することによって、ユーザの歌唱音声の音高を判断する。そして、制御部１３はユーザの歌唱音声の音高と模範音声の音高との間のずれ（Δｐ）の大きさが基準の大きさよりも大きいか否かを判定する。
【００８５】
上記のずれ（Δｐ）の大きさが基準の大きさよりも大きい状態が所定時間にわたって継続している場合、制御部１３は案内モードフラグを「１」に設定する（Ｓ１０５）。また、制御部１３は補正模範音声データを取得する（Ｓ１０６）。
【００８６】
ステップＳ１０６において、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも高い場合、制御部１３は、模範音声データが示す模範音声の音高を上げてなる補正模範音声を示す補正模範音声データを取得する。具体的には、制御部１３は、模範音声の音高を所定の音程（１オクターブ）上げてなる補正模範音声を示す補正模範音声データを取得する。
【００８７】
またステップＳ１０６において、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも低い場合、制御部１３は、模範音声データが示す模範音声の音高を下げてなる補正模範音声を示す補正模範音声データを取得する。具体的には、制御部１３は、模範音声の音高を所定の音程（１オクターブ）下げてなる補正模範音声を示す補正模範音声データを取得する。
【００８８】
なお、上記のような補正模範音声データはあらかじめ記憶部６０に記憶されていてもよいし、その都度、模範音声データに基づいて生成されるようにしてもよい。
【００８９】
補正模範音声データが取得された後、制御部１３は後述のステップＳ１０９の処理を実行する。一方、ステップＳ１０４において上記のずれ（Δｐ）の大きさが基準の大きさよりも大きい状態が所定時間にわたって継続していないと判定された場合、制御部１３は案内モードフラグを「０」のままとし、後述のステップＳ１０９の処理を実行する。
【００９０】
一方、ステップＳ１０３において案内モードフラグが「０」でないと判定された場合、すなわち、案内モードフラグが「１」である場合、制御部１３は、ユーザの歌唱音声の音高と模範音声の音高とのずれ（Δｐ）の大きさが基準の大きさよりも小さい状態が所定時間（例えば３秒間）にわたって継続しているか否かを判定する（Ｓ１０７）。ここで、「基準の大きさ」とは例えば１／４オクターブである。
【００９１】
上記のずれ（Δｐ）の大きさが基準の大きさよりも小さい状態が所定時間にわたって継続している場合、制御部１３は案内モードフラグを「０」に戻し（Ｓ１０８）、後述のステップＳ１０９の処理を実行する。一方、上記のずれ（Δｐ）の大きさが基準の大きさよりも小さい状態が所定時間にわたって継続していない場合、制御部１３は案内モードフラグを「１」のままとし、後述のステップＳ１０９の処理を実行する。
【００９２】
ステップＳ１０３〜Ｓ１０８の処理が実行された後、制御部１３（評価部６６）はユーザの歌唱音声を評価するための処理（Ｓ１０９〜Ｓ１１２）を実行する。すなわち、制御部１３は案内モードフラグが「０」であるか否かを判定する（Ｓ１０９）。
【００９３】
案内モードフラグが「０」である場合、制御部１３（第１評価部６７）は、模範音声データと、音声入力部３１を介して入力されたユーザの歌唱音声とに基づいて、ユーザの歌唱音声と模範音声とを比較する（Ｓ１１０）。例えば、制御部１３は、ユーザの歌唱音声の音高と模範音声の音高との間のずれ（Δｐ）を取得する。
【００９４】
一方、案内モードフラグが「０」でない場合、すなわち、案内モードフラグが「１」である場合、制御部１３（第２評価部６８）は、補正模範音声データと、音声入力部３１を介して入力されたユーザの歌唱音声とに基づいて、ユーザの歌唱音声と補正模範音声とを比較する（Ｓ１１１）。例えば、制御部１３は、ユーザの歌唱音声の音高と補正模範音声の音高との間のずれ（Δｐ）を取得する。
【００９５】
ステップＳ１１０又はＳ１１１の処理が実行された後、制御部１３（第１評価部６７及び第２評価部６８）は、ステップＳ１１０又はＳ１１１における比較結果と、図５に示す評価判断基準と、に基づいて、ユーザの歌唱音声の評価を決定する（Ｓ１１２）。また、この場合、制御部１３は主記憶１４に記憶される得点を更新する。例えば、制御部１３は、ステップＳ１１２で決定された評価に対応づけられた評価点を、主記憶１４に記憶される得点に加算する。
【００９６】
ユーザの歌唱音声を評価するための処理（Ｓ１０９〜Ｓ１１２）が実行された後、図１１に示すように、制御部１３（案内部６２）はカラオケ画面４０を更新するための処理（Ｓ１１３〜Ｓ１１７）を実行する。
【００９７】
まず、制御部１３は、音声入力部３１を介して入力されているユーザの歌唱音声の音高が基本範囲に含まれているか否かを判定する（Ｓ１１３）。ここで、「基本範囲」とは、例えば、ピアノロール画像４２における基本音高を中心とする１オクターブの範囲である。例えば図２に示すピアノロール画像４２の場合であれば、「基本範囲」とは、ピアノロール画像４２の第１領域４２ａに含まれる音高画像４３ｉに対応する音高から、第１領域４２ａに含まれる音高画像４３ｏに対応する音高までの範囲である。なお、ステップＳ１１３の処理は、ユーザの歌唱音声の音高が、ピアノロール画像４２における基本音高と、の差が基準差以下であるか否かを判定する処理と言い換えることができる。
【００９８】
ユーザの歌唱音声の音高が基本範囲に含まれていない場合とは、ユーザの音声の音高が、第１領域４２ａに含まれる音高画像４３に対応する音高でなくなった場合である。この場合、制御部１３（設定手段）は、ユーザの歌唱音声の音高に基づいて、ピアノロール画像４２における基本音高を変更し（Ｓ１１４）、後述のステップＳ１１５の処理を実行する。ステップＳ１１４では、例えば、ユーザの歌唱音声の音高がピアノロール画像４２における基本音高として設定される。
【００９９】
一方、ユーザの歌唱音声の音高が基本範囲に含まれている場合、制御部１３は、ピアノロール画像４２における基本音高を変更せずに、後述のステップＳ１１５の処理を実行する。
【０１００】
ステップＳ１１５では、制御部１３は案内モードフラグの値が「０」であるか否かを判定する（Ｓ１１５）。案内モードフラグの値が「０」である場合、制御部１３（第１案内部６３）はカラオケ画面４０を更新する（Ｓ１１６）。この場合、模範音声がユーザに案内され、補正模範音声はユーザに案内されない。
【０１０１】
ステップＳ１１４でピアノロール画像４２の基本音高が変更された場合、ステップＳ１１６では、例えば、変更後の基本音高に基づいて、ピアノロール画像４２が更新される。この場合、ピアノロール画像４２の基本音高が上がる又は下がる結果として、ピアノロール画像４２がスクロールすることになる。
【０１０２】
また、ステップＳ１１６では、音声入力部３１を介して入力されているユーザの歌唱音声の音高に基づいて、歌唱アイコン４５が表示される。すなわち、ユーザの歌唱音声の音高に対応する音高画像４３上に歌唱アイコン４５が表示される。
【０１０３】
また、ステップＳ１１６では、歌詞データ及び模範音声データに基づいて、歌詞４１や模範音声案内画像４６が表示される。さらに、ステップＳ１１６では得点４７、コンボ数４８及びゲージ４９も更新される。さらに、ステップＳ１１２で決定された評価を示すメッセージ５０が表示される。
【０１０４】
一方、ステップＳ１１５において案内モードフラグの値が「０」でないと判定された場合、すなわち、案内モードフラグの値が「１」である場合、制御部１３（第２案内部６５）はカラオケ画面４０を更新する（Ｓ１１７）。この場合、模範音声と補正模範音声の両方がユーザに案内される。
【０１０５】
ステップＳ１１７の処理はステップＳ１１６の処理と同様に実行される。ただし、ステップＳ１１７では、歌詞データ、模範音声データ、及び補正模範音声データに基づいて、歌詞４１、模範音声案内画像４６、及び補正模範音声案内画像５１が表示される。
【０１０６】
カラオケ画面４０を更新するための処理（Ｓ１１５〜Ｓ１１７）が実行された後、制御部１３は伴奏音楽の再生が終了したか否かを判定する（Ｓ１１８）。伴奏音楽の再生が終了していない場合、制御部１３はステップＳ１０３の処理を実行する。一方、伴奏音楽の再生が終了した場合、制御部１３は成績画面を表示部３０に表示する（Ｓ１１９）。そして、本処理は終了する。
【０１０７】
以上説明したカラオケシステム１０によれば、ユーザの歌唱音声の音高と模範音声の音高とのずれが比較的大きい場合、模範音声を高く又は低くしてなる補正模範音声がユーザに案内される。そして、ユーザの歌唱音声と補正模範音声との比較結果に基づいて、ユーザの歌唱音声が評価される。カラオケシステム１０によれば、ユーザの元々の声の高さと模範音声の高さとが大きく異なっているが故にユーザが模範音声の高さで歌を歌うことが困難である場合に、ユーザを補助することが可能になる。
【０１０８】
なお、カラオケシステム１０では、補正模範音声が案内される場合、模範音声と補正模範音声の両方が案内されるようになっている。このため、ユーザは、模範音声と補正模範音声との関係を把握できるようになっている。
【０１０９】
また、カラオケシステム１０におけるピアノロール画像４２では、第２領域４２ｂ，４２ｄに配列されている音高画像４３ｅ〜４３ｈ，４３ｐ〜４３ｓのＰ軸方向の幅は、第１領域４２ａに配列されている音高画像４３ｉ〜４３ｏのＰ軸方向の幅よりも狭くなっている。また、第３領域４２ｃ，４２ｅに配列されている音高画像４３ａ〜４３ｄ，４３ｔ〜４３ｗのＰ軸方向の幅は、第２領域４２ｂ，４２ｃに配列されている音高画像４３ｅ〜４３ｈ，４３ｐ〜４３ｓのＰ軸方向の幅よりもさらに狭くなっている。その結果として、比較的限られた画面領域内に、なるべく多くの音高に対応する音高画像４３を表示されるようになっている。
【０１１０】
なお、カラオケシステム１０では、ユーザの歌唱音声の音高を案内する歌唱アイコン４５が、音高画像４３のＰ軸方向の幅が比較的広く設定されている第１領域４２ａ内に表示されるように担保されている。例えば、歌唱アイコン４５が第２領域４２ｂ，４２ｄ及び第３領域４２ｃ，４２ｅに表示されると、第２領域４２ｂ，４２ｄ及び第３領域４２ｃ，４２ｅに配置されている音高画像４３のＰ軸方向の幅が比較的狭く設定されているため、ユーザはユーザの歌唱音声の音高を把握し難くなってしまう。この点、カラオケシステム１０ではそのような不都合が生じないように図られている。
【０１１１】
なお、本発明は以上に説明した実施形態に限定されるものではない。
【０１１２】
（１）例えば、図１０及び図１１に示す処理では、ステップＳ１０６において補正模範音声データが生成されることとして説明したが、ステップＳ１１１，Ｓ１１７の各々において、模範音声データに基づいて補正模範音声が取得されるようにしてもよい。
【０１１３】
（２）また例えば、ユーザが歌唱すべきタイミングと、ユーザが実際に歌唱したタイミングとの間のずれ（Δｔ）に基づいて、ユーザの歌唱が評価されるようにしてもよい。すなわち、タイミングのずれ（Δｔ）に基づいて、「ＥＸＣＥＬＬＥＮＴ」、「ＧＲＥＡＴ」、「ＧＯＯＤ」、「ＡＬＭＯＳＴ」、及び「ＢＯＯ」のうちのいずれかの評価がユーザに与えられるようにしてもよい。この場合、タイミングのずれ（Δｔ）が小さいほど、ユーザに与えられる評価が高くなるようにすればよい。
【０１１４】
（３）また例えば、本発明は、ユーザが音楽に合わせてゲーム操作と音声入力とを行うようなゲームを実行するゲームシステム（音声入力システム）にも適用することが可能である。例えば、ユーザが音楽に合わせて踊りながら歌を歌うようなゲームや、ユーザが音楽に合わせて踊りながらハミングを行うようなゲームを実行するゲームシステムにも本発明は適用することが可能である。また例えば、ユーザが音楽に合わせて、楽器（例えばドラム又はギター等）の演奏を模したゲーム操作を行いながら歌を歌うようなゲームを実行するゲームシステムにも本発明は適用することが可能である。
【符号の説明】
【０１１５】
１０カラオケシステム、１１家庭用ゲーム機、１２バス、１３制御部、１４主記憶、１５画像処理部、１６音声処理部、１７光ディスクドライブ、１８メモリカードスロット、１９通信インタフェース、２０操作部、３０表示部、３１音声入力部、３２音声出力部、３３光ディスク、３４メモリカード、４０カラオケ画面、４１歌詞、４２ピアノロール画像、４２ａ第１領域、４２ｂ，４２ｄ第２領域、４２ｃ，４２ｅ第３領域、４３ａ〜４３ｗ音高画像、４４基準ライン、４５歌唱アイコン、４６模範音声案内画像、４７得点、４８コンボ数、４９ゲージ、５０メッセージ、５１補正模範音声案内画像、６０記憶部、６１音声出力制御部、６２案内部、６３第１案内部、６４判定部、６５第２案内部、６６評価部、６７第１評価部、６８第２評価部。

【特許請求の範囲】
【請求項１】
音楽に合わせてユーザが音声を入力する音声入力システムにおいて、
前記ユーザが音声を入力するための音声入力手段と、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段と、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第１案内手段と、
前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段と、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第２案内手段と、
を含むことを特徴とする音声入力システム。
【請求項２】
請求項１に記載の音声入力システムにおいて、
前記第２案内手段は、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声と前記補正模範音声との両方を前記ユーザに案内することを特徴とする音声入力システム。
【請求項３】
請求項２に記載の音声入力システムにおいて、
音高に関する軸が設定された第１画像を表示手段に表示させる表示制御手段を含み、
前記第１案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第１画像上の位置に、第２画像を表示させることによって、前記模範音声の音高を前記ユーザに案内し、
前記第２案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第１画像上の位置に前記第２画像を表示させ、かつ、前記軸方向の座標値が前記補正模範音声の音高に対応する座標値である前記第１画像上の位置に、前記第２画像とは表示態様の異なる第３画像を表示させることによって、前記模範音声と前記補正模範音声との両方の音高を前記ユーザに案内する、
ことを特徴とする音声入力システム。
【請求項４】
請求項３に記載の音声入力システムにおいて、
前記第１画像は、基本音高と、前記基本音高よりも高い音高である一又は複数の音高と、前記基本音高よりも低い音高である一又は複数の音高と、を含む複数の音高に対応する複数の音高画像が前記軸方向に配列されてなる画像であり、
前記複数の音高画像の各々の前記軸方向の幅は、該音高画像に対応する音高と前記基本音高との差に応じた幅に設定され、
前記複数の音高画像のうちの、第１音高に対応する音高画像の前記軸方向の幅は、前記基本音高との差が前記第１音高よりも小さい第２音高に対応する音高画像の前記軸方向の幅よりも小さく設定されている、
ことを特徴とする音声入力システム。
【請求項５】
請求項４に記載の音声入力システムにおいて、
前記音声入力手段を介して入力された前記ユーザの音声の音高に基づいて、前記基本音高を設定する設定手段を含むことを特徴とする音声入力システム。
【請求項６】
請求項１乃至５のいずれかに記載の音声入力システムにおいて、
前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第１評価手段と、
前記判定手段によって前記ずれの大きさが前記基準の大きさよりも大きいと判定された場合に、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記補正模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第２評価手段と、
を含むことを特徴とする音声入力システム。
【請求項７】
請求項１乃至６のいずれかに記載の音声入力システムにおいて、
前記音声入力システムは、前記音楽に合わせてユーザが歌唱するカラオケシステム、又は、前記音楽に合わせてユーザが音声を入力するゲームを実行するゲームシステムであることを特徴とする音声入力システム。
【請求項８】
音楽に合わせてユーザが音声を入力する音声入力システムの制御方法において、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得するステップと、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第１案内ステップと、
前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定ステップと、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第２案内ステップと、
を含むことを特徴とする音声入力システムの制御方法。
【請求項９】
音楽に合わせてユーザが音声を入力する音声入力システムとしてコンピュータを機能させるためのプログラムであって、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第１案内手段、
前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段、及び、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第２案内手段、
として前記コンピュータを機能させるためのプログラム。

【図１】