音声入力システム、音声入力システムの制御方法、及びプログラム
【課題】模範音声の高さ(音高)で音声を入力することが困難であるユーザを補助することが可能な音声入力システムを提供すること。
【解決手段】第1案内手段(63)は模範音声をユーザに案内する。判定手段(64)は、音声入力手段(31)を介して入力されたユーザの音声の音高と、模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する。第2案内手段(65)は、上記のずれの大きさが基準の大きさよりも大きい場合、模範音声の音高を上記のずれに応じて上げて又は下げてなる補正模範音声をユーザに案内する。
【解決手段】第1案内手段(63)は模範音声をユーザに案内する。判定手段(64)は、音声入力手段(31)を介して入力されたユーザの音声の音高と、模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する。第2案内手段(65)は、上記のずれの大きさが基準の大きさよりも大きい場合、模範音声の音高を上記のずれに応じて上げて又は下げてなる補正模範音声をユーザに案内する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声入力システム、音声入力システムの制御方法、及びプログラムに関する。
【背景技術】
【0002】
音楽に合わせてユーザが音声を入力する音声入力システムが知られている。例えば、伴奏音楽に合わせてユーザが歌唱するカラオケシステムが知られている(例えば特許文献1)。一般的に、このようなカラオケシステムでは、伴奏音楽に合わせて歌を歌う場合の模範となる音声(模範音声)があらかじめ定められている。そして、ユーザは模範音声の高さ(音高)で歌を歌うことを目指す。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−208196号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記のようなカラオケシステムでは、例えば、ユーザの元々の声の高さと模範音声の高さとが大きく異なっていると、ユーザが模範音声の高さで歌を歌うことが困難になってしまう場合がある。例えば、模範音声が比較的高い場合、声の低いユーザは模範音声の高さで歌を歌うことが困難である。このため、上記のようなカラオケシステムでは、模範音声の高さで歌を歌うことが困難であるユーザを補助する機能の実現が強く望まれる。
【0005】
本発明は上記課題に鑑みてなされたものであって、その目的は、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、模範音声の高さ(音高)で音声を入力することが困難であるユーザを補助することが可能な音声入力システム、音声入力システムの制御方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明に係る音声入力システムは、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、前記ユーザが音声を入力するための音声入力手段と、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段と、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内手段と、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段と、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内手段と、を含むことを特徴とする。
【0007】
また、本発明に係る音声入力システムの制御方法は、音楽に合わせてユーザが音声を入力する音声入力システムの制御方法において、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得するステップと、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内ステップと、前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定ステップと、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内ステップと、を含むことを特徴とする。
【0008】
また、本発明に係るプログラムは、音楽に合わせてユーザが音声を入力する音声入力システムとしてコンピュータを機能させるためのプログラムであって、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内手段、前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段、及び、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内手段、として前記コンピュータを機能させるためのプログラムである。
【0009】
また、本発明に係る情報記憶媒体は、上記プログラムを記録したコンピュータ読み取り可能な情報記憶媒体である。
【0010】
本発明によれば、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、模範音声の高さ(音高)で音声を入力することが困難であるユーザを補助することが可能になる。
【0011】
また本発明の一態様では、前記第2案内手段は、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声と前記補正模範音声との両方を前記ユーザに案内するようにしてもよい。
【0012】
また本発明の一態様では、音高に関する軸が設定された第1画像を表示手段に表示させる表示制御手段を含むようにしてもよい。前記第1案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第1画像上の位置に、第2画像を表示させることによって、前記模範音声の音高を前記ユーザに案内するようにしてもよい。前記第2案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第1画像上の位置に前記第2画像を表示させ、かつ、前記軸方向の座標値が前記補正模範音声の音高に対応する座標値である前記第1画像上の位置に、前記第2画像とは表示態様の異なる第3画像を表示させることによって、前記模範音声と前記補正模範音声との両方の音高を前記ユーザに案内するようにしてもよい。
【0013】
また本発明の一態様では、前記第1画像は、基本音高と、前記基本音高よりも高い音高である一又は複数の音高と、前記基本音高よりも低い音高である一又は複数の音高と、を含む複数の音高に対応する複数の音高画像が前記軸方向に配列されてなる画像であってもよい。前記複数の音高画像の各々の前記軸方向の幅は、該音高画像に対応する音高と前記基本音高との差に応じた幅に設定されるようにしてもよい。前記複数の音高画像のうちの、第1音高に対応する音高画像の前記軸方向の幅は、前記基本音高との差が前記第1音高よりも小さい第2音高に対応する音高画像の前記軸方向の幅よりも小さく設定されるようにしてもよい。
【0014】
また本発明の一態様では、前記音声入力手段を介して入力された前記ユーザの音声の音高に基づいて、前記基本音高を設定する設定手段を含むようにしてもよい。
【0015】
また本発明の一態様では、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第1評価手段と、前記判定手段によって前記ずれの大きさが前記基準の大きさよりも大きいと判定された場合に、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記補正模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第2評価手段と、を含むようにしてもよい。
【0016】
また本発明の一態様では、前記音声入力システムは、前記音楽に合わせてユーザが歌唱するカラオケシステム、又は、前記音楽に合わせてユーザが音声を入力するゲームを実行するゲームシステムであってもよい。
【図面の簡単な説明】
【0017】
【図1】本発明の実施形態に係るカラオケシステム(音声入力システム)のハードウェア構成を示す図である。
【図2】カラオケ画面の一例を示す図である。
【図3】ピアノロール画像について説明するための図である。
【図4】カラオケ画面の他の一例を示す図である。
【図5】評価判断基準の一例を示す図である。
【図6】カラオケ画面の他の一例を示す図である。
【図7】カラオケ画面の他の一例を示す図である。
【図8】カラオケシステムの機能ブロック図である。
【図9】楽曲データの一例を示す図である。
【図10】カラオケシステムで実行される処理の一例を示すフロー図である。
【図11】カラオケシステムで実行される処理の一例を示すフロー図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について図面に基づき詳細に説明する。ここでは、音楽に合わせてユーザが音声を入力する音声入力システムの一態様であるカラオケシステムに本発明を適用した場合について説明する。以下では、本発明の実施形態に係るカラオケシステムを家庭用ゲーム機(据置型ゲーム機)を用いて実現する場合について説明する。なお、本発明の実施形態に係るカラオケシステムは、例えば、携帯ゲーム機、業務用ゲーム機、携帯電話機、携帯情報端末、又はパーソナルコンピュータを用いて実現されるようにしてもよい。また、本発明の実施形態に係るカラオケシステムは、カラオケ機能を提供する目的で製造されたカラオケ専用の装置として実現されるようにしてもよい。
【0019】
図1は、本発明の実施形態に係るカラオケシステム(音声入力システム)のハードウェア構成を示す。図1に示すように、カラオケシステム10は家庭用ゲーム機11、表示部30、音声入力部31、音声出力部32、光ディスク33(情報記憶媒体)、及びメモリカード34(情報記憶媒体)を含む。
【0020】
表示部30、音声入力部31、及び音声出力部32は家庭用ゲーム機11に接続される。例えば、表示部30は液晶ディスプレイ又はプラズマディスプレイ等の表示装置である。また、音声入力部31はユーザが音声を入力するためのものである。例えば、音声入力部31はマイク等の音声入力装置であり、入力された音声を電気信号に変換する。また例えば、音声出力部32は表示装置に備えられたスピーカ又はヘッドホンである。
【0021】
家庭用ゲーム機11はコンピュータシステムであり、バス12、制御部13、主記憶14、画像処理部15、音声処理部16、光ディスクドライブ17、メモリカードスロット18、通信インタフェース(I/F)19、及び操作部20を含む。
【0022】
バス12はアドレス及びデータを家庭用ゲーム機11の各部でやり取りするために用いられる。制御部13、主記憶14、画像処理部15、音声処理部16、光ディスクドライブ17、メモリカードスロット18、通信インタフェース19、及び操作部20は、バス12によって相互データ通信可能に接続される。
【0023】
制御部13は例えば一又は複数のマイクロプロセッサを含み、例えば光ディスク33から読み出されるプログラムに基づいて、家庭用ゲーム機11の各部の制御処理や各種情報処理を実行する。主記憶14は例えばRAMを含み、光ディスク33又はメモリカード34から読み出されたプログラム及びデータが必要に応じて書き込まれる。主記憶14は制御部13の作業用としても用いられる。
【0024】
画像処理部15はVRAMを含み、制御部13から送られる画像データに基づいてVRAM上に画面を描画し、その画面を表示部30に表示する。音声処理部16はサウンドバッファを含み、光ディスク33又はメモリカード34からサウンドバッファに読み出された各種音声データ(音楽、効果音、メッセージ等)を音声出力部32から出力する。また、音声処理部16は音声入力部31から出力される音声信号を制御部13に供給する。
【0025】
光ディスクドライブ17は、光ディスク33に記録されたプログラムやデータを読み取る。ここではプログラムやデータを家庭用ゲーム機11に供給するために光ディスク33を用いることとするが、例えばメモリカード34等の他のあらゆる情報記憶媒体を用いるようにしてもよい。また、インターネット等のデータ通信網を介して遠隔地からプログラムやデータを家庭用ゲーム機11に供給するようにしてもよい。
【0026】
通信インタフェース19は、インターネットなどのデータ通信網に通信接続するためのインタフェースである。メモリカードスロット18はメモリカード34を装着するためのインタフェースである。メモリカード34は不揮発性メモリ(例えばEEPROMなど)を含み、各種データを記憶する。なお、カラオケシステム10はハードディスク装置(補助記憶装置)を備えるようにしてもよい。光ディスク33又はメモリカード34に記憶されることとして説明するプログラムやデータはハードディスク装置に記憶されるようにしてもよい。
【0027】
操作部20はユーザが操作を行うためのものである。操作部20は複数の操作部材を備える。操作部20の各操作部材の状態は一定周期毎(例えば1/60秒ごと)にスキャンされ、そのスキャン結果を表す操作信号が制御部13に供給される。制御部13は操作信号に基づいてユーザの操作を判断する。
【0028】
カラオケシステム10ではユーザ(歌唱者)が伴奏音楽に合わせて歌唱する。音声出力部32からは伴奏音楽とユーザの歌唱音声とが混合されて出力される。また、カラオケシステム10ではユーザの歌唱に評価が与えられる。
【0029】
図2は、表示部30に表示されるカラオケ画面の一例を示す。カラオケ画面40にはユーザが歌うべき歌詞41が表示される。図2に示すカラオケ画面40には「ABCDEFGHIJKL」が歌詞41として表示されている。
【0030】
また、カラオケ画面40には、ユーザが歌詞41を歌うべきタイミング(期間)と、ユーザが発すべき音の高さ(音高)との両方をユーザに案内するためのピアノロール画像42が表示される。ピアノロール画像42は、音高の表記方法として一般的に用いられているピアノロールを模した画像になっている。
【0031】
ピアノロール画像42には、時間軸であるT軸と、音高に関する軸であるP軸とが設定されている。図2に示す例では、ピアノロール画像42の横方向がT軸方向になっており、ピアノロール画像42の縦方向がP軸方向になっている。
【0032】
図3は、ピアノロール画像42について説明するための図である。図3に示すピアノロール画像42は、複数の音高に対応する複数の音高画像43a〜43wを含んで構成される。なお、以下では、音高画像43a〜43wのことを総称して「音高画像43」と記載する場合がある。
【0033】
音高画像43は、横方向(T軸方向)の長さが縦方向(P軸方向)の長さに比べて長い矩形画像である。なお、白い音高画像43はピアノの白い鍵盤の音高に対応しており、斜線が付された音高画像43はピアノの黒い鍵盤の音高に対応している。
【0034】
音高画像43a〜43wは縦方向(P軸方向)に配列される。より高い音高に対応する音高画像43ほど、ピアノロール画像42内の上方に表示されるようになっている。つまり、ピアノロール画像42内で最も下に表示されている音高画像43aは、複数の音高のうちで最も低い音高に対応している。また、ピアノロール画像42内で最も上に表示されている音高画像43wは、複数の音高のうちで最も高い音高に対応している。
【0035】
ピアノロール画像42は縦方向に5つの領域(第1領域42a、第2領域42b,42d、第3領域42c,42e)に分けられる。第1領域42aはピアノロール画像42の中央に位置する領域である。第1領域42aには、基本音高に対応する音高画像43lと、基本音高より高い3つの音高に対応する3つの音高画像43m,43n,43oと、基本音高より低い3つの音高に対応する音高画像43i,43j,43kとが配列されている。言い換えれば、第1領域42aには、基本音高を中心とする1オクターブの7つの音高に対応する7つの音高画像43i〜43oが配列されている。
【0036】
第2領域42bは第1領域42aの上側に隣接する領域である。また、第3領域42cは第2領域42bの上側に隣接する領域である。第2領域42bには、音高画像43pに対応する音高より高い4つの音高に対応4つの音高画像43p,43q,43r,43sが配列されている。また、第3領域42cには、音高画像43sに対応する音高よりさらに高い4つの音高に対応する4つの音高画像43t,43u,43v,43wが配列されている。
【0037】
一方、第2領域42dは第1領域42aの下側に隣接している領域である。また、第3領域42eは第2領域42dの下側に隣接している領域である。第2領域42dには、音高画像43iに対応する音高より低い4つの音高に対応する4つの音高画像43e,43f,43g,43hが配列されている。また、第3領域42eには、音高画像43eに対応する音高よりさらに低い4つの音高に対応する4つの音高画像43a,43b,43c,43dが配列されている。
【0038】
なお、ピアノロール画像42は音高画像43のP軸方向の幅が一定でない点で一般的なピアノロールとは異なっている。音高画像43a〜43wの各々のP軸方向の幅は、該音高画像に対応する音高と、基本音高と、の差に応じた幅に設定されている。例えば、基本音高との差が比較的大きい音高に対応する音高画像43sのP軸方向の幅は、基本音高との差が比較的小さい音高に対応する音高画像43oのP軸方向の幅よりも小さく設定されている。
【0039】
すなわち、第2領域42b,42dに配列されている音高画像43e〜43h,43p〜43sのP軸方向の幅は、第1領域42aに配列されている音高画像43i〜43oのP軸方向の幅よりも狭くなっている。また、第3領域42c,42eに配列されている音高画像43a〜43d,43t〜43wのP軸方向の幅は、第2領域42b,42cに配列されている音高画像43e〜43h,43p〜43sのP軸方向の幅よりもさらに狭くなっている。このようにすることによって、比較的限られた画面領域内に、なるべく多くの音高に対応する音高画像43を表示することが可能になる。
【0040】
また、図2に示すように、ピアノロール画像42上には基準ライン44及び歌唱アイコン45が表示される。基準ライン44は、ピアノロール画像42上の、現時点に対応する位置に表示される。つまり、基準ライン44は現時点を示している。
【0041】
一方、歌唱アイコン45は、ピアノロール画像42(基準ライン44)上の、音声入力部31を介して入力されるユーザの音声の音高に対応する位置に表示される。つまり、歌唱アイコン45はユーザの音声の音高に対応する音高画像43上に表示される。つまり、歌唱アイコン45はユーザの音声の音高をユーザに案内する役割を果たしている。
【0042】
なお、本実施形態の場合、歌唱アイコン45が第1領域42a外に移動しようとすると(例えば図2に示す場合であれば、ユーザの音声の音高が、第1領域42aに含まれる音高画像43i〜43oに対応しない音高になると)、ピアノロール画像42がスクロールし、歌唱アイコン45がピアノロール画像42内のP軸方向中央の位置上に表示されるようになっている。このため、歌唱アイコン45は常に第1領域42a内に表示されるようになっている。
【0043】
さらに、ピアノロール画像42上には模範音声案内画像46が表示される。模範音声案内画像46は、ユーザが歌詞41を歌うべきタイミング(期間)と、ユーザが発すべき音声(模範音声)の高さ(音高)との両方をユーザに案内する役割を果たす。模範音声案内画像46の表示位置は、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間と、模範音声の音高との両方に対応する位置に設定される。
【0044】
例えば、模範音声案内画像46の表示位置のP軸座標値は、模範音声の音高に対応する座標値に設定される。また、模範音声案内画像46の表示位置のT軸座標値は、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間に対応する座標値に設定される。このため、模範音声案内画像46の表示位置は、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間が少ないほど、基準ライン44からの距離が短くなるようにして設定されることになる。その結果、模範音声案内画像46は時間経過に伴って右から左へと移動し、基準ライン44に接近する。そして、ユーザが歌うべきタイミングにおいて模範音声案内画像46は基準ライン44上に重なる。例えば、ユーザが歌詞41を歌い始めるべきタイミングにおいて模範音声案内画像46の先頭46aが基準ライン44に到達する。
【0045】
図2に示す時点から所定時間経過した時点におけるカラオケ画面40の一例を図4に示す。図4に示すカラオケ画面40では、模範音声案内画像46の一部が基準ライン44を通過している。すなわち、図4は、歌詞41の最初の部分がすでに歌われている状態を示している。
【0046】
図4に示すカラオケ画面40では、歌詞41が、黒字部分41aと、白字部分41bとを含んでいる。黒字部分41aは、歌うべきタイミングが既に経過している部分を示している。すなわち、黒字部分41aは、ユーザが既に歌い終わっているはずの部分を示している。一方、白字部分41bは、歌うべきタイミングがこれから到来する部分を示している。すなわち、白字部分41bは、ユーザがこれから歌う部分を示している。白字部分41bのうちの先頭の文字はユーザが次に発すべき音声に相当する。
【0047】
歌詞41の色の変化と模範音声案内画像46の移動とは同期している。このため、ユーザは歌詞41と模範音声案内画像46との両方を参照することによって、歌うべき歌詞と、その歌詞を歌うべきタイミング(期間)と、その歌詞をどの音高で歌うべきかと、を把握することができる。
【0048】
また、ユーザは歌唱アイコン45と模範音声案内画像46とを参照することによって、ユーザが発すべき音声(模範音声)の音高と、ユーザが実際に発している音声の音高と、が一致しているか否かも把握することができる。
【0049】
カラオケシステム10ではユーザの歌唱に評価が与えられる。例えば、ユーザが歌唱すべき音声(模範音声)の音高と、ユーザの歌唱音声の音高との間のずれ(Δp)に基づいて、「EXCELLENT」、「GREAT」、「GOOD」、「ALMOST」、及び「BOO」のうちのいずれかの評価が与えられる。「EXCELLENT」が最も高い評価であり、「BOO」が最も低い評価である。図5は評価判断基準の一例を示す図であり、音高のずれ(Δp)と評価との関係の一例を示す。音高のずれ(Δp)が小さいほど、ユーザに与えられる評価が高くなる。
【0050】
図4に示すカラオケ画面40では、歌唱アイコン45と模範音声案内画像46とが重なっている。この場合、音高のずれ(Δp)が小さいことになり、比較的高い評価(例えば「EXCELLENT」又は「GREAT」)がユーザに与えられる。一方、例えば、図6に示すカラオケ画面40では、歌唱アイコン45と模範音声案内画像46とが離れている。具体的には、模範音声の音高とユーザの歌唱音声の音高とが1オクターブ異なっている。この場合、かなり低い評価(例えば「BOO」)がユーザに与えられる。
【0051】
図4及び図6に示すように、カラオケ画面40には、ユーザに与えられた評価を示すメッセージ50が表示される。また、カラオケ画面40には得点47が表示される。ユーザに与える評価が決定された場合、その評価に対応する評価点がユーザの得点に加算される。評価と評価点との関係は図5に示す通りである。図5に示すように、評価が高いほど、評価点も高くなる。
【0052】
さらに、カラオケ画面40にはコンボ数48が表示される。コンボ数48は、ユーザが比較的高い評価(例えばEXCELLENT」又は「GREAT」)を連続して得た回数である。また、カラオケ画面40にはゲージ49が表示される。ゲージ49の長さはユーザに与えられた評価に基づいて変化する。例えば、ユーザに与えられた評価が比較的高い「EXCELLENT」、「GREAT」、又は「GOOD」であった場合にゲージ49は伸張し、評価が比較的低い「ALMOST」又は「BOO」であった場合にゲージ49は収縮する。
【0053】
ところで、図6に示すカラオケ画面40では、ユーザの歌唱音声の高さが模範音声の高さよりも1オクターブ低くなっている。このような場合、ユーザの元々の声の高さが模範音声に比べてかなり低いが故にユーザが模範音声の高さで歌を歌うことが困難であると考えられる。このような場合、カラオケシステム10では、模範音声を1オクターブだけ低くしてなる模範音声(以下「補正模範音声」と記載する。)がユーザに案内されるようになっている。図7はその場合のカラオケ画面40の一例を示す。
【0054】
図7に示すカラオケ画面40には、模範音声案内画像46とともに、補正模範音声案内画像51が表示されている。補正模範音声案内画像51は模範音声案内画像46とは異なる色で表示される。図7に示すカラオケ画面40では、模範音声案内画像46が黒色であるのに対し、補正模範音声案内画像51は白色になっている。
【0055】
例えば、補正模範音声案内画像51の表示位置のP軸座標値は、補正模範音声の音高に対応する座標値に設定される。ここでは、補正模範音声が模範音声よりも1オクターブだけ低い音声であるため、補正模範音声案内画像51は、模範音声案内画像46の表示位置よりも1オクターブ分だけ下方に移動してなる位置に表示されている。
【0056】
また、補正模範音声案内画像51の表示位置のT軸座標値は、模範音声案内画像46と同様、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間に対応する座標値に設定される。このため、補正模範音声案内画像51の表示位置も、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間が少ないほど、基準ライン44からの距離が短くなるようにして設定されることになる。その結果、模範音声案内画像46と同様に、補正模範音声案内画像51も時間経過に伴って右から左へと移動し、基準ライン44に接近する。そして、ユーザが歌うべきタイミングにおいて補正模範音声案内画像51は基準ライン44上に重なる。
【0057】
また、この場合、ユーザの歌唱音声の評価は、模範音声ではなく、補正模範音声に基づいて判断される。すなわち、補正模範音声の音高とユーザの歌唱音声の音高との間のずれ(Δp)に基づいて、「EXCELLENT」、「GREAT」、「GOOD」、「ALMOST」、及び「BOO」のうちのいずれかの評価が与えられる。当然のことながら、音高のずれ(Δp)が小さいほど、ユーザに与えられる評価が高くなる。
【0058】
なお、ユーザの歌唱音声を補正模範音声に基づいて評価する場合と模範音声に基づいて評価する場合とで評価判断基準を変えるようにしてもよい。例えば、ユーザの歌唱音声を補正模範音声に基づいて評価する場合には、模範音声に基づいて評価する場合に比べて、「EXCELLENT」、「GREAT」、「GOOD」、及び「ALMOST」の各々の評価に対応する評価点を所定点数(例えば1点)だけ下げるようにしてもよい。
【0059】
また例えば、ユーザの歌唱音声を補正模範音声に基づいて評価する場合と模範音声に基づいて評価する場合とで、音高のずれ(Δp)と評価との対応関係を変えるようにしてもよい。例えば図5に示す評価判断基準では、「EXCELLENT」の評価に対応づけられた音高のずれ(Δp)の範囲が「|Δp|<P1」に設定されている。このため、図5に示す評価判断基準の場合、ユーザは「EXCELLENT」の評価を受けるために、音高のずれ(Δp)を「P1」未満に抑える必要がある。これに対し、ユーザの歌唱音声を補正模範音声に基づいて評価する場合の評価判断基準では、「EXCELLENT」の評価に対応づけられる音高のずれ(Δp)の範囲を「|Δp|<P0」(P0:P1よりも小さい値)に設定するようにしてもよい。こうすることによって、ユーザの歌唱音声を補正模範音声に基づいて評価する場合には、ユーザが「EXCELLENT」の評価を受けるために、音高のずれ(Δp)を、「P1」よりも小さい「P0」未満に抑えなければならないようにしてもよい。
【0060】
ところで、以上では、ユーザの歌唱音声の音高が模範音声の音高よりも1オクターブ低くなっているような場合の例について説明したが、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも1オクターブ高くなっているような場合についても同様である。すなわち、この場合、模範音声を1オクターブだけ高くしてなる補正模範音声がユーザに案内される。つまり、模範音声を1オクターブだけ高くしてなる補正模範音声を案内する補正模範音声案内画像51がカラオケ画面40に表示される。
【0061】
以上のように、カラオケシステム10では、ユーザの元々の声の高さと模範音声の高さとが大きく異なっているが故にユーザが模範音声の高さで歌を歌うことが困難である場合に、ユーザが補助されるようになっている。以下、この機能を実現するための構成について説明する。
【0062】
図8は、カラオケシステム10で実現される機能を示す機能ブロック図である。図8に示すように、カラオケシステム10は、記憶部60、音声出力制御部61、案内部62、及び評価部66を含む。
【0063】
記憶部60は例えば光ディスク33、メモリカード34、及び主記憶14によって実現される。なお、記憶部60は、家庭用ゲーム機11と通信ネットワークを介してデータ授受可能な装置に備えられる補助記憶装置(例えばハードディスク装置)によって実現されるようにしてもよい。すなわち、記憶部60に記憶されることとして説明するデータの全部又は一部は上記の補助記憶装置に記憶されるようにしてもよい。一方、記憶部60以外の機能ブロックは、例えば制御部13が光ディスク33に記憶されたプログラムを実行することによって実現される。
【0064】
記憶部60は各種データを記憶する。本実施形態の場合、記憶部60は複数の楽曲データを記憶する。図9は、一の楽曲に対応する楽曲データの一例を示す図である。図9に示すように、楽曲データは、伴奏音楽データ、歌詞データ、模範音声データ、及び背景画像データを含む。伴奏音楽データは楽曲の伴奏パートの音楽を所定のデータ形式で保存したものである。伴奏音楽データは例えばMIDIデータ等である。歌詞データは楽曲の歌詞を示すデータである。背景画像データは、カラオケ画面40の背景として表示される画像を表すものである。
【0065】
模範音声データは、音楽に合わせて音声を入力する場合の模範音声を示すデータである。すなわち、模範音声データは、音楽に合わせてユーザが音声を入力すべきタイミング(期間)と、音楽に合わせてユーザが入力すべき音声(模範音声)とを示す。具体的には、模範音声データは、伴奏音楽に合わせてユーザが歌詞を歌うべきタイミング(期間)と、伴奏音楽に合わせて歌を歌うユーザが模範とすべき音声(模範音声)とを示す。
【0066】
歌詞データと模範音声データとは関連づけられている。このため、歌詞の各部分をどのタイミング(期間)において歌うべきかと、歌詞の各部分をどの音高で歌うべきかとの両方が歌詞データと模範音声データとに基づいて特定されるようになっている。
【0067】
また、記憶部60は、模範音声と、音声入力部31を介して入力されたユーザの音声との比較結果に基づいて、ユーザの音声に対する評価を判断するための評価判断基準を記憶する。評価判断基準は、上記比較結果に関する比較結果条件と、ユーザの音声に対する評価に関する評価情報と、を関連づけてなる情報である。本実施形態の場合、図5に示すような情報が評価判断基準として記憶部60に記憶される。図5における「音高のずれ(Δp)」フィールドが「比較結果条件」に相当する。また、「評価」及び「評価値」フィールドが「評価情報」に相当する。
【0068】
音声出力制御部61は、伴奏音楽データに基づいて伴奏音楽を音声出力部32から出力する。例えば、音声出力制御部61は音源を有し、この音源と伴奏音楽データ(MIDIデータ)とに基づいて伴奏音楽を再生する。なお、音声出力制御部61は、伴奏音楽と、音声入力部31を介して入力されたユーザの歌唱音声と、を合成して音声出力部32から出力させる。
【0069】
案内部62は第1案内部63を含む。第1案内部63は模範音声データに基づいて模範音声をユーザに案内する。
【0070】
本実施形態の場合、案内部62(表示制御手段)は、音高に関する軸(P軸)が設定された第1画像を表示部30に表示させる。第1案内部63は第1画像上に第2画像を表示させる。この場合、第1案内部63は、第2画像を、模範音声の音高に対応する位置に表示させることによって、模範音声の音高をユーザに案内する。具体的には、第1案内部63は、第2画像の表示位置のP軸座標値を模範音声の音高に対応する座標値に設定する。
【0071】
本実施形態の場合、ピアノロール画像42が「第1画像」に相当し、模範音声案内画像46が「第2画像」に相当する。
【0072】
また、案内部62は判定部64と第2案内部65とをさらに含む。判定部64は、音声入力部31を介して入力されたユーザの音声の音高と、模範音声の音高との間のずれの大きさが基準の大きさよりも大きいか否かを判定する。「基準の大きさ」は、例えば、3/4オクターブ又は1オクターブに設定される。
【0073】
音声入力部31を介して入力されたユーザの音声の音高と、模範音声の音高との間のずれの大きさが基準の大きさよりも大きいと判定部64によって判定された場合、第2案内部65は、模範音声の音高を上記ずれに応じて上げて又は下げてなる補正模範音声をユーザに案内する。
【0074】
例えば、上記ずれの大きさが基準の大きさよりも大きく、かつ、ユーザの音声の音高が模範音声の音高よりも低い場合、第2案内部65は、模範音声の音高を1オクターブ下げてなる補正模範音声をユーザに案内する。一方、上記ずれの大きさが基準の大きさよりも大きく、かつ、ユーザの音声の音高が模範音声の音高よりも高い場合、第2案内部65は、模範音声の音高を1オクターブ上げてなる補正模範音声をユーザに案内する。
【0075】
本実施形態の場合、第2案内部65は、第1案内部63によって表示される第2画像と同様の第2画像と、第2画像とは表示態様の異なる第3画像との両方を第1画像上に表示させることによって、模範音声と補正模範音声との両方をユーザに案内する。ここで、「表示態様」とは、例えば色又は模様等である。
【0076】
第1案内部63と同様、第2案内部65は、第2画像を、模範音声の音高に対応する位置に表示させることによって、模範音声の音高をユーザに案内する。具体的には、第2案内部65は、第2画像の表示位置のP軸座標値を模範音声の音高に対応する座標値に設定する。さらに、第2案内部65は、第3画像を、補正模範音声の音高に対応する位置に表示させることによって、補正模範音声の音高をユーザに案内する。具体的には、第2案内部65は、第3画像の表示位置のP軸座標値を補正模範音声の音高に対応する座標値に設定する。
【0077】
本実施形態の場合、ピアノロール画像42が「第1画像」に相当し、模範音声案内画像46が「第2画像」に相当し、補正模範音声案内画像51が「第3画像」に相当する。
【0078】
評価部66はユーザの音声を評価する。評価部66は第1評価部67と第2評価部68とを含む。
【0079】
第1評価部67は、音声入力部31を介して入力されたユーザの音声の音高と模範音声の音高との比較結果に基づいて、ユーザの音声を評価する。一方、第2評価部68は、音声入力部31を介して入力されたユーザの音声の音高と模範音声の音高とのずれの大きさが基準の大きさよりも大きいと判定部64によって判定された場合に、ユーザの音声の音高と補正模範音声の音高との比較結果に基づいて、ユーザの音声を評価する。
【0080】
次に、カラオケシステム10で実行される処理について説明する。図10及び図11はカラオケシステム10で実行される処理のうちの、本発明に関連する処理を主に示すフロー図である。制御部13は光ディスク33に記憶されるプログラムに従って、図10及び図11に示す処理を実行する。制御部13が図10及び図11に示す処理を実行することによって、図8に示す機能ブロックが実現される。
【0081】
図10に示すように、まず制御部13は案内モードフラグを「0」に初期化する(S101)。案内モードフラグは、模範音声のみを案内するか(図2,4,6参照)、又は模範音声及び補正模範音声の両方を案内するか(図7参照)を示す数値情報である。例えば、案内モードフラグは「0」又は「1」の値をとる。値「0」は模範音声のみを案内することを示す。一方、値「1」は模範音声及び補正模範音声の両方を案内することを示す。
【0082】
そして、制御部13はカラオケ画面40の表示と伴奏音楽の再生とを開始する(S102)。以降、制御部13(音声出力制御部61)は、伴奏音楽と、音声入力部31を介して入力されるユーザの歌唱音声とを合成して音声出力部32から出力させる。また、制御部13は、伴奏音楽の再生が終了するまでの間、ステップS103〜S118の処理を所定時間(例えば1/60秒)ごとに繰り返し実行する。
【0083】
その後、制御部13は案内モードフラグが「0」であるか否かを判定する(S103)。そして、案内モードフラグが「0」である場合、制御部13(判定部64)は、ユーザの歌唱音声の音高と模範音声の音高との間のずれ(Δp)の大きさが基準の大きさよりも大きい状態が所定時間(例えば3秒間)にわたって継続しているか否かを判定する(S104)。ここで、「基準の大きさ」とは例えば3/4オクターブである。
【0084】
なお、このステップS104において、制御部13は模範音声データに基づいて模範音声の音高を取得する。また、制御部13は、音声入力部31を介して入力されたユーザの歌唱音声を分析することによって、ユーザの歌唱音声の音高を判断する。そして、制御部13はユーザの歌唱音声の音高と模範音声の音高との間のずれ(Δp)の大きさが基準の大きさよりも大きいか否かを判定する。
【0085】
上記のずれ(Δp)の大きさが基準の大きさよりも大きい状態が所定時間にわたって継続している場合、制御部13は案内モードフラグを「1」に設定する(S105)。また、制御部13は補正模範音声データを取得する(S106)。
【0086】
ステップS106において、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも高い場合、制御部13は、模範音声データが示す模範音声の音高を上げてなる補正模範音声を示す補正模範音声データを取得する。具体的には、制御部13は、模範音声の音高を所定の音程(1オクターブ)上げてなる補正模範音声を示す補正模範音声データを取得する。
【0087】
またステップS106において、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも低い場合、制御部13は、模範音声データが示す模範音声の音高を下げてなる補正模範音声を示す補正模範音声データを取得する。具体的には、制御部13は、模範音声の音高を所定の音程(1オクターブ)下げてなる補正模範音声を示す補正模範音声データを取得する。
【0088】
なお、上記のような補正模範音声データはあらかじめ記憶部60に記憶されていてもよいし、その都度、模範音声データに基づいて生成されるようにしてもよい。
【0089】
補正模範音声データが取得された後、制御部13は後述のステップS109の処理を実行する。一方、ステップS104において上記のずれ(Δp)の大きさが基準の大きさよりも大きい状態が所定時間にわたって継続していないと判定された場合、制御部13は案内モードフラグを「0」のままとし、後述のステップS109の処理を実行する。
【0090】
一方、ステップS103において案内モードフラグが「0」でないと判定された場合、すなわち、案内モードフラグが「1」である場合、制御部13は、ユーザの歌唱音声の音高と模範音声の音高とのずれ(Δp)の大きさが基準の大きさよりも小さい状態が所定時間(例えば3秒間)にわたって継続しているか否かを判定する(S107)。ここで、「基準の大きさ」とは例えば1/4オクターブである。
【0091】
上記のずれ(Δp)の大きさが基準の大きさよりも小さい状態が所定時間にわたって継続している場合、制御部13は案内モードフラグを「0」に戻し(S108)、後述のステップS109の処理を実行する。一方、上記のずれ(Δp)の大きさが基準の大きさよりも小さい状態が所定時間にわたって継続していない場合、制御部13は案内モードフラグを「1」のままとし、後述のステップS109の処理を実行する。
【0092】
ステップS103〜S108の処理が実行された後、制御部13(評価部66)はユーザの歌唱音声を評価するための処理(S109〜S112)を実行する。すなわち、制御部13は案内モードフラグが「0」であるか否かを判定する(S109)。
【0093】
案内モードフラグが「0」である場合、制御部13(第1評価部67)は、模範音声データと、音声入力部31を介して入力されたユーザの歌唱音声とに基づいて、ユーザの歌唱音声と模範音声とを比較する(S110)。例えば、制御部13は、ユーザの歌唱音声の音高と模範音声の音高との間のずれ(Δp)を取得する。
【0094】
一方、案内モードフラグが「0」でない場合、すなわち、案内モードフラグが「1」である場合、制御部13(第2評価部68)は、補正模範音声データと、音声入力部31を介して入力されたユーザの歌唱音声とに基づいて、ユーザの歌唱音声と補正模範音声とを比較する(S111)。例えば、制御部13は、ユーザの歌唱音声の音高と補正模範音声の音高との間のずれ(Δp)を取得する。
【0095】
ステップS110又はS111の処理が実行された後、制御部13(第1評価部67及び第2評価部68)は、ステップS110又はS111における比較結果と、図5に示す評価判断基準と、に基づいて、ユーザの歌唱音声の評価を決定する(S112)。また、この場合、制御部13は主記憶14に記憶される得点を更新する。例えば、制御部13は、ステップS112で決定された評価に対応づけられた評価点を、主記憶14に記憶される得点に加算する。
【0096】
ユーザの歌唱音声を評価するための処理(S109〜S112)が実行された後、図11に示すように、制御部13(案内部62)はカラオケ画面40を更新するための処理(S113〜S117)を実行する。
【0097】
まず、制御部13は、音声入力部31を介して入力されているユーザの歌唱音声の音高が基本範囲に含まれているか否かを判定する(S113)。ここで、「基本範囲」とは、例えば、ピアノロール画像42における基本音高を中心とする1オクターブの範囲である。例えば図2に示すピアノロール画像42の場合であれば、「基本範囲」とは、ピアノロール画像42の第1領域42aに含まれる音高画像43iに対応する音高から、第1領域42aに含まれる音高画像43oに対応する音高までの範囲である。なお、ステップS113の処理は、ユーザの歌唱音声の音高が、ピアノロール画像42における基本音高と、の差が基準差以下であるか否かを判定する処理と言い換えることができる。
【0098】
ユーザの歌唱音声の音高が基本範囲に含まれていない場合とは、ユーザの音声の音高が、第1領域42aに含まれる音高画像43に対応する音高でなくなった場合である。この場合、制御部13(設定手段)は、ユーザの歌唱音声の音高に基づいて、ピアノロール画像42における基本音高を変更し(S114)、後述のステップS115の処理を実行する。ステップS114では、例えば、ユーザの歌唱音声の音高がピアノロール画像42における基本音高として設定される。
【0099】
一方、ユーザの歌唱音声の音高が基本範囲に含まれている場合、制御部13は、ピアノロール画像42における基本音高を変更せずに、後述のステップS115の処理を実行する。
【0100】
ステップS115では、制御部13は案内モードフラグの値が「0」であるか否かを判定する(S115)。案内モードフラグの値が「0」である場合、制御部13(第1案内部63)はカラオケ画面40を更新する(S116)。この場合、模範音声がユーザに案内され、補正模範音声はユーザに案内されない。
【0101】
ステップS114でピアノロール画像42の基本音高が変更された場合、ステップS116では、例えば、変更後の基本音高に基づいて、ピアノロール画像42が更新される。この場合、ピアノロール画像42の基本音高が上がる又は下がる結果として、ピアノロール画像42がスクロールすることになる。
【0102】
また、ステップS116では、音声入力部31を介して入力されているユーザの歌唱音声の音高に基づいて、歌唱アイコン45が表示される。すなわち、ユーザの歌唱音声の音高に対応する音高画像43上に歌唱アイコン45が表示される。
【0103】
また、ステップS116では、歌詞データ及び模範音声データに基づいて、歌詞41や模範音声案内画像46が表示される。さらに、ステップS116では得点47、コンボ数48及びゲージ49も更新される。さらに、ステップS112で決定された評価を示すメッセージ50が表示される。
【0104】
一方、ステップS115において案内モードフラグの値が「0」でないと判定された場合、すなわち、案内モードフラグの値が「1」である場合、制御部13(第2案内部65)はカラオケ画面40を更新する(S117)。この場合、模範音声と補正模範音声の両方がユーザに案内される。
【0105】
ステップS117の処理はステップS116の処理と同様に実行される。ただし、ステップS117では、歌詞データ、模範音声データ、及び補正模範音声データに基づいて、歌詞41、模範音声案内画像46、及び補正模範音声案内画像51が表示される。
【0106】
カラオケ画面40を更新するための処理(S115〜S117)が実行された後、制御部13は伴奏音楽の再生が終了したか否かを判定する(S118)。伴奏音楽の再生が終了していない場合、制御部13はステップS103の処理を実行する。一方、伴奏音楽の再生が終了した場合、制御部13は成績画面を表示部30に表示する(S119)。そして、本処理は終了する。
【0107】
以上説明したカラオケシステム10によれば、ユーザの歌唱音声の音高と模範音声の音高とのずれが比較的大きい場合、模範音声を高く又は低くしてなる補正模範音声がユーザに案内される。そして、ユーザの歌唱音声と補正模範音声との比較結果に基づいて、ユーザの歌唱音声が評価される。カラオケシステム10によれば、ユーザの元々の声の高さと模範音声の高さとが大きく異なっているが故にユーザが模範音声の高さで歌を歌うことが困難である場合に、ユーザを補助することが可能になる。
【0108】
なお、カラオケシステム10では、補正模範音声が案内される場合、模範音声と補正模範音声の両方が案内されるようになっている。このため、ユーザは、模範音声と補正模範音声との関係を把握できるようになっている。
【0109】
また、カラオケシステム10におけるピアノロール画像42では、第2領域42b,42dに配列されている音高画像43e〜43h,43p〜43sのP軸方向の幅は、第1領域42aに配列されている音高画像43i〜43oのP軸方向の幅よりも狭くなっている。また、第3領域42c,42eに配列されている音高画像43a〜43d,43t〜43wのP軸方向の幅は、第2領域42b,42cに配列されている音高画像43e〜43h,43p〜43sのP軸方向の幅よりもさらに狭くなっている。その結果として、比較的限られた画面領域内に、なるべく多くの音高に対応する音高画像43を表示されるようになっている。
【0110】
なお、カラオケシステム10では、ユーザの歌唱音声の音高を案内する歌唱アイコン45が、音高画像43のP軸方向の幅が比較的広く設定されている第1領域42a内に表示されるように担保されている。例えば、歌唱アイコン45が第2領域42b,42d及び第3領域42c,42eに表示されると、第2領域42b,42d及び第3領域42c,42eに配置されている音高画像43のP軸方向の幅が比較的狭く設定されているため、ユーザはユーザの歌唱音声の音高を把握し難くなってしまう。この点、カラオケシステム10ではそのような不都合が生じないように図られている。
【0111】
なお、本発明は以上に説明した実施形態に限定されるものではない。
【0112】
(1)例えば、図10及び図11に示す処理では、ステップS106において補正模範音声データが生成されることとして説明したが、ステップS111,S117の各々において、模範音声データに基づいて補正模範音声が取得されるようにしてもよい。
【0113】
(2)また例えば、ユーザが歌唱すべきタイミングと、ユーザが実際に歌唱したタイミングとの間のずれ(Δt)に基づいて、ユーザの歌唱が評価されるようにしてもよい。すなわち、タイミングのずれ(Δt)に基づいて、「EXCELLENT」、「GREAT」、「GOOD」、「ALMOST」、及び「BOO」のうちのいずれかの評価がユーザに与えられるようにしてもよい。この場合、タイミングのずれ(Δt)が小さいほど、ユーザに与えられる評価が高くなるようにすればよい。
【0114】
(3)また例えば、本発明は、ユーザが音楽に合わせてゲーム操作と音声入力とを行うようなゲームを実行するゲームシステム(音声入力システム)にも適用することが可能である。例えば、ユーザが音楽に合わせて踊りながら歌を歌うようなゲームや、ユーザが音楽に合わせて踊りながらハミングを行うようなゲームを実行するゲームシステムにも本発明は適用することが可能である。また例えば、ユーザが音楽に合わせて、楽器(例えばドラム又はギター等)の演奏を模したゲーム操作を行いながら歌を歌うようなゲームを実行するゲームシステムにも本発明は適用することが可能である。
【符号の説明】
【0115】
10 カラオケシステム、11 家庭用ゲーム機、12 バス、13 制御部、14 主記憶、15 画像処理部、16 音声処理部、17 光ディスクドライブ、18 メモリカードスロット、19 通信インタフェース、20 操作部、30 表示部、31 音声入力部、32 音声出力部、33 光ディスク、34 メモリカード、40 カラオケ画面、41 歌詞、42 ピアノロール画像、42a 第1領域、42b,42d 第2領域、42c,42e 第3領域、43a〜43w 音高画像、44 基準ライン、45 歌唱アイコン、46 模範音声案内画像、47 得点、48 コンボ数、49 ゲージ、50 メッセージ、51 補正模範音声案内画像、60 記憶部、61 音声出力制御部、62 案内部、63 第1案内部、64 判定部、65 第2案内部、66 評価部、67 第1評価部、68 第2評価部。
【技術分野】
【0001】
本発明は音声入力システム、音声入力システムの制御方法、及びプログラムに関する。
【背景技術】
【0002】
音楽に合わせてユーザが音声を入力する音声入力システムが知られている。例えば、伴奏音楽に合わせてユーザが歌唱するカラオケシステムが知られている(例えば特許文献1)。一般的に、このようなカラオケシステムでは、伴奏音楽に合わせて歌を歌う場合の模範となる音声(模範音声)があらかじめ定められている。そして、ユーザは模範音声の高さ(音高)で歌を歌うことを目指す。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−208196号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記のようなカラオケシステムでは、例えば、ユーザの元々の声の高さと模範音声の高さとが大きく異なっていると、ユーザが模範音声の高さで歌を歌うことが困難になってしまう場合がある。例えば、模範音声が比較的高い場合、声の低いユーザは模範音声の高さで歌を歌うことが困難である。このため、上記のようなカラオケシステムでは、模範音声の高さで歌を歌うことが困難であるユーザを補助する機能の実現が強く望まれる。
【0005】
本発明は上記課題に鑑みてなされたものであって、その目的は、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、模範音声の高さ(音高)で音声を入力することが困難であるユーザを補助することが可能な音声入力システム、音声入力システムの制御方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明に係る音声入力システムは、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、前記ユーザが音声を入力するための音声入力手段と、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段と、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内手段と、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段と、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内手段と、を含むことを特徴とする。
【0007】
また、本発明に係る音声入力システムの制御方法は、音楽に合わせてユーザが音声を入力する音声入力システムの制御方法において、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得するステップと、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内ステップと、前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定ステップと、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内ステップと、を含むことを特徴とする。
【0008】
また、本発明に係るプログラムは、音楽に合わせてユーザが音声を入力する音声入力システムとしてコンピュータを機能させるためのプログラムであって、前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段、前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内手段、前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段、及び、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内手段、として前記コンピュータを機能させるためのプログラムである。
【0009】
また、本発明に係る情報記憶媒体は、上記プログラムを記録したコンピュータ読み取り可能な情報記憶媒体である。
【0010】
本発明によれば、音楽に合わせてユーザが音声を入力する音声入力システムにおいて、模範音声の高さ(音高)で音声を入力することが困難であるユーザを補助することが可能になる。
【0011】
また本発明の一態様では、前記第2案内手段は、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声と前記補正模範音声との両方を前記ユーザに案内するようにしてもよい。
【0012】
また本発明の一態様では、音高に関する軸が設定された第1画像を表示手段に表示させる表示制御手段を含むようにしてもよい。前記第1案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第1画像上の位置に、第2画像を表示させることによって、前記模範音声の音高を前記ユーザに案内するようにしてもよい。前記第2案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第1画像上の位置に前記第2画像を表示させ、かつ、前記軸方向の座標値が前記補正模範音声の音高に対応する座標値である前記第1画像上の位置に、前記第2画像とは表示態様の異なる第3画像を表示させることによって、前記模範音声と前記補正模範音声との両方の音高を前記ユーザに案内するようにしてもよい。
【0013】
また本発明の一態様では、前記第1画像は、基本音高と、前記基本音高よりも高い音高である一又は複数の音高と、前記基本音高よりも低い音高である一又は複数の音高と、を含む複数の音高に対応する複数の音高画像が前記軸方向に配列されてなる画像であってもよい。前記複数の音高画像の各々の前記軸方向の幅は、該音高画像に対応する音高と前記基本音高との差に応じた幅に設定されるようにしてもよい。前記複数の音高画像のうちの、第1音高に対応する音高画像の前記軸方向の幅は、前記基本音高との差が前記第1音高よりも小さい第2音高に対応する音高画像の前記軸方向の幅よりも小さく設定されるようにしてもよい。
【0014】
また本発明の一態様では、前記音声入力手段を介して入力された前記ユーザの音声の音高に基づいて、前記基本音高を設定する設定手段を含むようにしてもよい。
【0015】
また本発明の一態様では、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第1評価手段と、前記判定手段によって前記ずれの大きさが前記基準の大きさよりも大きいと判定された場合に、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記補正模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第2評価手段と、を含むようにしてもよい。
【0016】
また本発明の一態様では、前記音声入力システムは、前記音楽に合わせてユーザが歌唱するカラオケシステム、又は、前記音楽に合わせてユーザが音声を入力するゲームを実行するゲームシステムであってもよい。
【図面の簡単な説明】
【0017】
【図1】本発明の実施形態に係るカラオケシステム(音声入力システム)のハードウェア構成を示す図である。
【図2】カラオケ画面の一例を示す図である。
【図3】ピアノロール画像について説明するための図である。
【図4】カラオケ画面の他の一例を示す図である。
【図5】評価判断基準の一例を示す図である。
【図6】カラオケ画面の他の一例を示す図である。
【図7】カラオケ画面の他の一例を示す図である。
【図8】カラオケシステムの機能ブロック図である。
【図9】楽曲データの一例を示す図である。
【図10】カラオケシステムで実行される処理の一例を示すフロー図である。
【図11】カラオケシステムで実行される処理の一例を示すフロー図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について図面に基づき詳細に説明する。ここでは、音楽に合わせてユーザが音声を入力する音声入力システムの一態様であるカラオケシステムに本発明を適用した場合について説明する。以下では、本発明の実施形態に係るカラオケシステムを家庭用ゲーム機(据置型ゲーム機)を用いて実現する場合について説明する。なお、本発明の実施形態に係るカラオケシステムは、例えば、携帯ゲーム機、業務用ゲーム機、携帯電話機、携帯情報端末、又はパーソナルコンピュータを用いて実現されるようにしてもよい。また、本発明の実施形態に係るカラオケシステムは、カラオケ機能を提供する目的で製造されたカラオケ専用の装置として実現されるようにしてもよい。
【0019】
図1は、本発明の実施形態に係るカラオケシステム(音声入力システム)のハードウェア構成を示す。図1に示すように、カラオケシステム10は家庭用ゲーム機11、表示部30、音声入力部31、音声出力部32、光ディスク33(情報記憶媒体)、及びメモリカード34(情報記憶媒体)を含む。
【0020】
表示部30、音声入力部31、及び音声出力部32は家庭用ゲーム機11に接続される。例えば、表示部30は液晶ディスプレイ又はプラズマディスプレイ等の表示装置である。また、音声入力部31はユーザが音声を入力するためのものである。例えば、音声入力部31はマイク等の音声入力装置であり、入力された音声を電気信号に変換する。また例えば、音声出力部32は表示装置に備えられたスピーカ又はヘッドホンである。
【0021】
家庭用ゲーム機11はコンピュータシステムであり、バス12、制御部13、主記憶14、画像処理部15、音声処理部16、光ディスクドライブ17、メモリカードスロット18、通信インタフェース(I/F)19、及び操作部20を含む。
【0022】
バス12はアドレス及びデータを家庭用ゲーム機11の各部でやり取りするために用いられる。制御部13、主記憶14、画像処理部15、音声処理部16、光ディスクドライブ17、メモリカードスロット18、通信インタフェース19、及び操作部20は、バス12によって相互データ通信可能に接続される。
【0023】
制御部13は例えば一又は複数のマイクロプロセッサを含み、例えば光ディスク33から読み出されるプログラムに基づいて、家庭用ゲーム機11の各部の制御処理や各種情報処理を実行する。主記憶14は例えばRAMを含み、光ディスク33又はメモリカード34から読み出されたプログラム及びデータが必要に応じて書き込まれる。主記憶14は制御部13の作業用としても用いられる。
【0024】
画像処理部15はVRAMを含み、制御部13から送られる画像データに基づいてVRAM上に画面を描画し、その画面を表示部30に表示する。音声処理部16はサウンドバッファを含み、光ディスク33又はメモリカード34からサウンドバッファに読み出された各種音声データ(音楽、効果音、メッセージ等)を音声出力部32から出力する。また、音声処理部16は音声入力部31から出力される音声信号を制御部13に供給する。
【0025】
光ディスクドライブ17は、光ディスク33に記録されたプログラムやデータを読み取る。ここではプログラムやデータを家庭用ゲーム機11に供給するために光ディスク33を用いることとするが、例えばメモリカード34等の他のあらゆる情報記憶媒体を用いるようにしてもよい。また、インターネット等のデータ通信網を介して遠隔地からプログラムやデータを家庭用ゲーム機11に供給するようにしてもよい。
【0026】
通信インタフェース19は、インターネットなどのデータ通信網に通信接続するためのインタフェースである。メモリカードスロット18はメモリカード34を装着するためのインタフェースである。メモリカード34は不揮発性メモリ(例えばEEPROMなど)を含み、各種データを記憶する。なお、カラオケシステム10はハードディスク装置(補助記憶装置)を備えるようにしてもよい。光ディスク33又はメモリカード34に記憶されることとして説明するプログラムやデータはハードディスク装置に記憶されるようにしてもよい。
【0027】
操作部20はユーザが操作を行うためのものである。操作部20は複数の操作部材を備える。操作部20の各操作部材の状態は一定周期毎(例えば1/60秒ごと)にスキャンされ、そのスキャン結果を表す操作信号が制御部13に供給される。制御部13は操作信号に基づいてユーザの操作を判断する。
【0028】
カラオケシステム10ではユーザ(歌唱者)が伴奏音楽に合わせて歌唱する。音声出力部32からは伴奏音楽とユーザの歌唱音声とが混合されて出力される。また、カラオケシステム10ではユーザの歌唱に評価が与えられる。
【0029】
図2は、表示部30に表示されるカラオケ画面の一例を示す。カラオケ画面40にはユーザが歌うべき歌詞41が表示される。図2に示すカラオケ画面40には「ABCDEFGHIJKL」が歌詞41として表示されている。
【0030】
また、カラオケ画面40には、ユーザが歌詞41を歌うべきタイミング(期間)と、ユーザが発すべき音の高さ(音高)との両方をユーザに案内するためのピアノロール画像42が表示される。ピアノロール画像42は、音高の表記方法として一般的に用いられているピアノロールを模した画像になっている。
【0031】
ピアノロール画像42には、時間軸であるT軸と、音高に関する軸であるP軸とが設定されている。図2に示す例では、ピアノロール画像42の横方向がT軸方向になっており、ピアノロール画像42の縦方向がP軸方向になっている。
【0032】
図3は、ピアノロール画像42について説明するための図である。図3に示すピアノロール画像42は、複数の音高に対応する複数の音高画像43a〜43wを含んで構成される。なお、以下では、音高画像43a〜43wのことを総称して「音高画像43」と記載する場合がある。
【0033】
音高画像43は、横方向(T軸方向)の長さが縦方向(P軸方向)の長さに比べて長い矩形画像である。なお、白い音高画像43はピアノの白い鍵盤の音高に対応しており、斜線が付された音高画像43はピアノの黒い鍵盤の音高に対応している。
【0034】
音高画像43a〜43wは縦方向(P軸方向)に配列される。より高い音高に対応する音高画像43ほど、ピアノロール画像42内の上方に表示されるようになっている。つまり、ピアノロール画像42内で最も下に表示されている音高画像43aは、複数の音高のうちで最も低い音高に対応している。また、ピアノロール画像42内で最も上に表示されている音高画像43wは、複数の音高のうちで最も高い音高に対応している。
【0035】
ピアノロール画像42は縦方向に5つの領域(第1領域42a、第2領域42b,42d、第3領域42c,42e)に分けられる。第1領域42aはピアノロール画像42の中央に位置する領域である。第1領域42aには、基本音高に対応する音高画像43lと、基本音高より高い3つの音高に対応する3つの音高画像43m,43n,43oと、基本音高より低い3つの音高に対応する音高画像43i,43j,43kとが配列されている。言い換えれば、第1領域42aには、基本音高を中心とする1オクターブの7つの音高に対応する7つの音高画像43i〜43oが配列されている。
【0036】
第2領域42bは第1領域42aの上側に隣接する領域である。また、第3領域42cは第2領域42bの上側に隣接する領域である。第2領域42bには、音高画像43pに対応する音高より高い4つの音高に対応4つの音高画像43p,43q,43r,43sが配列されている。また、第3領域42cには、音高画像43sに対応する音高よりさらに高い4つの音高に対応する4つの音高画像43t,43u,43v,43wが配列されている。
【0037】
一方、第2領域42dは第1領域42aの下側に隣接している領域である。また、第3領域42eは第2領域42dの下側に隣接している領域である。第2領域42dには、音高画像43iに対応する音高より低い4つの音高に対応する4つの音高画像43e,43f,43g,43hが配列されている。また、第3領域42eには、音高画像43eに対応する音高よりさらに低い4つの音高に対応する4つの音高画像43a,43b,43c,43dが配列されている。
【0038】
なお、ピアノロール画像42は音高画像43のP軸方向の幅が一定でない点で一般的なピアノロールとは異なっている。音高画像43a〜43wの各々のP軸方向の幅は、該音高画像に対応する音高と、基本音高と、の差に応じた幅に設定されている。例えば、基本音高との差が比較的大きい音高に対応する音高画像43sのP軸方向の幅は、基本音高との差が比較的小さい音高に対応する音高画像43oのP軸方向の幅よりも小さく設定されている。
【0039】
すなわち、第2領域42b,42dに配列されている音高画像43e〜43h,43p〜43sのP軸方向の幅は、第1領域42aに配列されている音高画像43i〜43oのP軸方向の幅よりも狭くなっている。また、第3領域42c,42eに配列されている音高画像43a〜43d,43t〜43wのP軸方向の幅は、第2領域42b,42cに配列されている音高画像43e〜43h,43p〜43sのP軸方向の幅よりもさらに狭くなっている。このようにすることによって、比較的限られた画面領域内に、なるべく多くの音高に対応する音高画像43を表示することが可能になる。
【0040】
また、図2に示すように、ピアノロール画像42上には基準ライン44及び歌唱アイコン45が表示される。基準ライン44は、ピアノロール画像42上の、現時点に対応する位置に表示される。つまり、基準ライン44は現時点を示している。
【0041】
一方、歌唱アイコン45は、ピアノロール画像42(基準ライン44)上の、音声入力部31を介して入力されるユーザの音声の音高に対応する位置に表示される。つまり、歌唱アイコン45はユーザの音声の音高に対応する音高画像43上に表示される。つまり、歌唱アイコン45はユーザの音声の音高をユーザに案内する役割を果たしている。
【0042】
なお、本実施形態の場合、歌唱アイコン45が第1領域42a外に移動しようとすると(例えば図2に示す場合であれば、ユーザの音声の音高が、第1領域42aに含まれる音高画像43i〜43oに対応しない音高になると)、ピアノロール画像42がスクロールし、歌唱アイコン45がピアノロール画像42内のP軸方向中央の位置上に表示されるようになっている。このため、歌唱アイコン45は常に第1領域42a内に表示されるようになっている。
【0043】
さらに、ピアノロール画像42上には模範音声案内画像46が表示される。模範音声案内画像46は、ユーザが歌詞41を歌うべきタイミング(期間)と、ユーザが発すべき音声(模範音声)の高さ(音高)との両方をユーザに案内する役割を果たす。模範音声案内画像46の表示位置は、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間と、模範音声の音高との両方に対応する位置に設定される。
【0044】
例えば、模範音声案内画像46の表示位置のP軸座標値は、模範音声の音高に対応する座標値に設定される。また、模範音声案内画像46の表示位置のT軸座標値は、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間に対応する座標値に設定される。このため、模範音声案内画像46の表示位置は、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間が少ないほど、基準ライン44からの距離が短くなるようにして設定されることになる。その結果、模範音声案内画像46は時間経過に伴って右から左へと移動し、基準ライン44に接近する。そして、ユーザが歌うべきタイミングにおいて模範音声案内画像46は基準ライン44上に重なる。例えば、ユーザが歌詞41を歌い始めるべきタイミングにおいて模範音声案内画像46の先頭46aが基準ライン44に到達する。
【0045】
図2に示す時点から所定時間経過した時点におけるカラオケ画面40の一例を図4に示す。図4に示すカラオケ画面40では、模範音声案内画像46の一部が基準ライン44を通過している。すなわち、図4は、歌詞41の最初の部分がすでに歌われている状態を示している。
【0046】
図4に示すカラオケ画面40では、歌詞41が、黒字部分41aと、白字部分41bとを含んでいる。黒字部分41aは、歌うべきタイミングが既に経過している部分を示している。すなわち、黒字部分41aは、ユーザが既に歌い終わっているはずの部分を示している。一方、白字部分41bは、歌うべきタイミングがこれから到来する部分を示している。すなわち、白字部分41bは、ユーザがこれから歌う部分を示している。白字部分41bのうちの先頭の文字はユーザが次に発すべき音声に相当する。
【0047】
歌詞41の色の変化と模範音声案内画像46の移動とは同期している。このため、ユーザは歌詞41と模範音声案内画像46との両方を参照することによって、歌うべき歌詞と、その歌詞を歌うべきタイミング(期間)と、その歌詞をどの音高で歌うべきかと、を把握することができる。
【0048】
また、ユーザは歌唱アイコン45と模範音声案内画像46とを参照することによって、ユーザが発すべき音声(模範音声)の音高と、ユーザが実際に発している音声の音高と、が一致しているか否かも把握することができる。
【0049】
カラオケシステム10ではユーザの歌唱に評価が与えられる。例えば、ユーザが歌唱すべき音声(模範音声)の音高と、ユーザの歌唱音声の音高との間のずれ(Δp)に基づいて、「EXCELLENT」、「GREAT」、「GOOD」、「ALMOST」、及び「BOO」のうちのいずれかの評価が与えられる。「EXCELLENT」が最も高い評価であり、「BOO」が最も低い評価である。図5は評価判断基準の一例を示す図であり、音高のずれ(Δp)と評価との関係の一例を示す。音高のずれ(Δp)が小さいほど、ユーザに与えられる評価が高くなる。
【0050】
図4に示すカラオケ画面40では、歌唱アイコン45と模範音声案内画像46とが重なっている。この場合、音高のずれ(Δp)が小さいことになり、比較的高い評価(例えば「EXCELLENT」又は「GREAT」)がユーザに与えられる。一方、例えば、図6に示すカラオケ画面40では、歌唱アイコン45と模範音声案内画像46とが離れている。具体的には、模範音声の音高とユーザの歌唱音声の音高とが1オクターブ異なっている。この場合、かなり低い評価(例えば「BOO」)がユーザに与えられる。
【0051】
図4及び図6に示すように、カラオケ画面40には、ユーザに与えられた評価を示すメッセージ50が表示される。また、カラオケ画面40には得点47が表示される。ユーザに与える評価が決定された場合、その評価に対応する評価点がユーザの得点に加算される。評価と評価点との関係は図5に示す通りである。図5に示すように、評価が高いほど、評価点も高くなる。
【0052】
さらに、カラオケ画面40にはコンボ数48が表示される。コンボ数48は、ユーザが比較的高い評価(例えばEXCELLENT」又は「GREAT」)を連続して得た回数である。また、カラオケ画面40にはゲージ49が表示される。ゲージ49の長さはユーザに与えられた評価に基づいて変化する。例えば、ユーザに与えられた評価が比較的高い「EXCELLENT」、「GREAT」、又は「GOOD」であった場合にゲージ49は伸張し、評価が比較的低い「ALMOST」又は「BOO」であった場合にゲージ49は収縮する。
【0053】
ところで、図6に示すカラオケ画面40では、ユーザの歌唱音声の高さが模範音声の高さよりも1オクターブ低くなっている。このような場合、ユーザの元々の声の高さが模範音声に比べてかなり低いが故にユーザが模範音声の高さで歌を歌うことが困難であると考えられる。このような場合、カラオケシステム10では、模範音声を1オクターブだけ低くしてなる模範音声(以下「補正模範音声」と記載する。)がユーザに案内されるようになっている。図7はその場合のカラオケ画面40の一例を示す。
【0054】
図7に示すカラオケ画面40には、模範音声案内画像46とともに、補正模範音声案内画像51が表示されている。補正模範音声案内画像51は模範音声案内画像46とは異なる色で表示される。図7に示すカラオケ画面40では、模範音声案内画像46が黒色であるのに対し、補正模範音声案内画像51は白色になっている。
【0055】
例えば、補正模範音声案内画像51の表示位置のP軸座標値は、補正模範音声の音高に対応する座標値に設定される。ここでは、補正模範音声が模範音声よりも1オクターブだけ低い音声であるため、補正模範音声案内画像51は、模範音声案内画像46の表示位置よりも1オクターブ分だけ下方に移動してなる位置に表示されている。
【0056】
また、補正模範音声案内画像51の表示位置のT軸座標値は、模範音声案内画像46と同様、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間に対応する座標値に設定される。このため、補正模範音声案内画像51の表示位置も、ユーザが歌詞41を歌うべきタイミングが到来するまでの残り時間が少ないほど、基準ライン44からの距離が短くなるようにして設定されることになる。その結果、模範音声案内画像46と同様に、補正模範音声案内画像51も時間経過に伴って右から左へと移動し、基準ライン44に接近する。そして、ユーザが歌うべきタイミングにおいて補正模範音声案内画像51は基準ライン44上に重なる。
【0057】
また、この場合、ユーザの歌唱音声の評価は、模範音声ではなく、補正模範音声に基づいて判断される。すなわち、補正模範音声の音高とユーザの歌唱音声の音高との間のずれ(Δp)に基づいて、「EXCELLENT」、「GREAT」、「GOOD」、「ALMOST」、及び「BOO」のうちのいずれかの評価が与えられる。当然のことながら、音高のずれ(Δp)が小さいほど、ユーザに与えられる評価が高くなる。
【0058】
なお、ユーザの歌唱音声を補正模範音声に基づいて評価する場合と模範音声に基づいて評価する場合とで評価判断基準を変えるようにしてもよい。例えば、ユーザの歌唱音声を補正模範音声に基づいて評価する場合には、模範音声に基づいて評価する場合に比べて、「EXCELLENT」、「GREAT」、「GOOD」、及び「ALMOST」の各々の評価に対応する評価点を所定点数(例えば1点)だけ下げるようにしてもよい。
【0059】
また例えば、ユーザの歌唱音声を補正模範音声に基づいて評価する場合と模範音声に基づいて評価する場合とで、音高のずれ(Δp)と評価との対応関係を変えるようにしてもよい。例えば図5に示す評価判断基準では、「EXCELLENT」の評価に対応づけられた音高のずれ(Δp)の範囲が「|Δp|<P1」に設定されている。このため、図5に示す評価判断基準の場合、ユーザは「EXCELLENT」の評価を受けるために、音高のずれ(Δp)を「P1」未満に抑える必要がある。これに対し、ユーザの歌唱音声を補正模範音声に基づいて評価する場合の評価判断基準では、「EXCELLENT」の評価に対応づけられる音高のずれ(Δp)の範囲を「|Δp|<P0」(P0:P1よりも小さい値)に設定するようにしてもよい。こうすることによって、ユーザの歌唱音声を補正模範音声に基づいて評価する場合には、ユーザが「EXCELLENT」の評価を受けるために、音高のずれ(Δp)を、「P1」よりも小さい「P0」未満に抑えなければならないようにしてもよい。
【0060】
ところで、以上では、ユーザの歌唱音声の音高が模範音声の音高よりも1オクターブ低くなっているような場合の例について説明したが、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも1オクターブ高くなっているような場合についても同様である。すなわち、この場合、模範音声を1オクターブだけ高くしてなる補正模範音声がユーザに案内される。つまり、模範音声を1オクターブだけ高くしてなる補正模範音声を案内する補正模範音声案内画像51がカラオケ画面40に表示される。
【0061】
以上のように、カラオケシステム10では、ユーザの元々の声の高さと模範音声の高さとが大きく異なっているが故にユーザが模範音声の高さで歌を歌うことが困難である場合に、ユーザが補助されるようになっている。以下、この機能を実現するための構成について説明する。
【0062】
図8は、カラオケシステム10で実現される機能を示す機能ブロック図である。図8に示すように、カラオケシステム10は、記憶部60、音声出力制御部61、案内部62、及び評価部66を含む。
【0063】
記憶部60は例えば光ディスク33、メモリカード34、及び主記憶14によって実現される。なお、記憶部60は、家庭用ゲーム機11と通信ネットワークを介してデータ授受可能な装置に備えられる補助記憶装置(例えばハードディスク装置)によって実現されるようにしてもよい。すなわち、記憶部60に記憶されることとして説明するデータの全部又は一部は上記の補助記憶装置に記憶されるようにしてもよい。一方、記憶部60以外の機能ブロックは、例えば制御部13が光ディスク33に記憶されたプログラムを実行することによって実現される。
【0064】
記憶部60は各種データを記憶する。本実施形態の場合、記憶部60は複数の楽曲データを記憶する。図9は、一の楽曲に対応する楽曲データの一例を示す図である。図9に示すように、楽曲データは、伴奏音楽データ、歌詞データ、模範音声データ、及び背景画像データを含む。伴奏音楽データは楽曲の伴奏パートの音楽を所定のデータ形式で保存したものである。伴奏音楽データは例えばMIDIデータ等である。歌詞データは楽曲の歌詞を示すデータである。背景画像データは、カラオケ画面40の背景として表示される画像を表すものである。
【0065】
模範音声データは、音楽に合わせて音声を入力する場合の模範音声を示すデータである。すなわち、模範音声データは、音楽に合わせてユーザが音声を入力すべきタイミング(期間)と、音楽に合わせてユーザが入力すべき音声(模範音声)とを示す。具体的には、模範音声データは、伴奏音楽に合わせてユーザが歌詞を歌うべきタイミング(期間)と、伴奏音楽に合わせて歌を歌うユーザが模範とすべき音声(模範音声)とを示す。
【0066】
歌詞データと模範音声データとは関連づけられている。このため、歌詞の各部分をどのタイミング(期間)において歌うべきかと、歌詞の各部分をどの音高で歌うべきかとの両方が歌詞データと模範音声データとに基づいて特定されるようになっている。
【0067】
また、記憶部60は、模範音声と、音声入力部31を介して入力されたユーザの音声との比較結果に基づいて、ユーザの音声に対する評価を判断するための評価判断基準を記憶する。評価判断基準は、上記比較結果に関する比較結果条件と、ユーザの音声に対する評価に関する評価情報と、を関連づけてなる情報である。本実施形態の場合、図5に示すような情報が評価判断基準として記憶部60に記憶される。図5における「音高のずれ(Δp)」フィールドが「比較結果条件」に相当する。また、「評価」及び「評価値」フィールドが「評価情報」に相当する。
【0068】
音声出力制御部61は、伴奏音楽データに基づいて伴奏音楽を音声出力部32から出力する。例えば、音声出力制御部61は音源を有し、この音源と伴奏音楽データ(MIDIデータ)とに基づいて伴奏音楽を再生する。なお、音声出力制御部61は、伴奏音楽と、音声入力部31を介して入力されたユーザの歌唱音声と、を合成して音声出力部32から出力させる。
【0069】
案内部62は第1案内部63を含む。第1案内部63は模範音声データに基づいて模範音声をユーザに案内する。
【0070】
本実施形態の場合、案内部62(表示制御手段)は、音高に関する軸(P軸)が設定された第1画像を表示部30に表示させる。第1案内部63は第1画像上に第2画像を表示させる。この場合、第1案内部63は、第2画像を、模範音声の音高に対応する位置に表示させることによって、模範音声の音高をユーザに案内する。具体的には、第1案内部63は、第2画像の表示位置のP軸座標値を模範音声の音高に対応する座標値に設定する。
【0071】
本実施形態の場合、ピアノロール画像42が「第1画像」に相当し、模範音声案内画像46が「第2画像」に相当する。
【0072】
また、案内部62は判定部64と第2案内部65とをさらに含む。判定部64は、音声入力部31を介して入力されたユーザの音声の音高と、模範音声の音高との間のずれの大きさが基準の大きさよりも大きいか否かを判定する。「基準の大きさ」は、例えば、3/4オクターブ又は1オクターブに設定される。
【0073】
音声入力部31を介して入力されたユーザの音声の音高と、模範音声の音高との間のずれの大きさが基準の大きさよりも大きいと判定部64によって判定された場合、第2案内部65は、模範音声の音高を上記ずれに応じて上げて又は下げてなる補正模範音声をユーザに案内する。
【0074】
例えば、上記ずれの大きさが基準の大きさよりも大きく、かつ、ユーザの音声の音高が模範音声の音高よりも低い場合、第2案内部65は、模範音声の音高を1オクターブ下げてなる補正模範音声をユーザに案内する。一方、上記ずれの大きさが基準の大きさよりも大きく、かつ、ユーザの音声の音高が模範音声の音高よりも高い場合、第2案内部65は、模範音声の音高を1オクターブ上げてなる補正模範音声をユーザに案内する。
【0075】
本実施形態の場合、第2案内部65は、第1案内部63によって表示される第2画像と同様の第2画像と、第2画像とは表示態様の異なる第3画像との両方を第1画像上に表示させることによって、模範音声と補正模範音声との両方をユーザに案内する。ここで、「表示態様」とは、例えば色又は模様等である。
【0076】
第1案内部63と同様、第2案内部65は、第2画像を、模範音声の音高に対応する位置に表示させることによって、模範音声の音高をユーザに案内する。具体的には、第2案内部65は、第2画像の表示位置のP軸座標値を模範音声の音高に対応する座標値に設定する。さらに、第2案内部65は、第3画像を、補正模範音声の音高に対応する位置に表示させることによって、補正模範音声の音高をユーザに案内する。具体的には、第2案内部65は、第3画像の表示位置のP軸座標値を補正模範音声の音高に対応する座標値に設定する。
【0077】
本実施形態の場合、ピアノロール画像42が「第1画像」に相当し、模範音声案内画像46が「第2画像」に相当し、補正模範音声案内画像51が「第3画像」に相当する。
【0078】
評価部66はユーザの音声を評価する。評価部66は第1評価部67と第2評価部68とを含む。
【0079】
第1評価部67は、音声入力部31を介して入力されたユーザの音声の音高と模範音声の音高との比較結果に基づいて、ユーザの音声を評価する。一方、第2評価部68は、音声入力部31を介して入力されたユーザの音声の音高と模範音声の音高とのずれの大きさが基準の大きさよりも大きいと判定部64によって判定された場合に、ユーザの音声の音高と補正模範音声の音高との比較結果に基づいて、ユーザの音声を評価する。
【0080】
次に、カラオケシステム10で実行される処理について説明する。図10及び図11はカラオケシステム10で実行される処理のうちの、本発明に関連する処理を主に示すフロー図である。制御部13は光ディスク33に記憶されるプログラムに従って、図10及び図11に示す処理を実行する。制御部13が図10及び図11に示す処理を実行することによって、図8に示す機能ブロックが実現される。
【0081】
図10に示すように、まず制御部13は案内モードフラグを「0」に初期化する(S101)。案内モードフラグは、模範音声のみを案内するか(図2,4,6参照)、又は模範音声及び補正模範音声の両方を案内するか(図7参照)を示す数値情報である。例えば、案内モードフラグは「0」又は「1」の値をとる。値「0」は模範音声のみを案内することを示す。一方、値「1」は模範音声及び補正模範音声の両方を案内することを示す。
【0082】
そして、制御部13はカラオケ画面40の表示と伴奏音楽の再生とを開始する(S102)。以降、制御部13(音声出力制御部61)は、伴奏音楽と、音声入力部31を介して入力されるユーザの歌唱音声とを合成して音声出力部32から出力させる。また、制御部13は、伴奏音楽の再生が終了するまでの間、ステップS103〜S118の処理を所定時間(例えば1/60秒)ごとに繰り返し実行する。
【0083】
その後、制御部13は案内モードフラグが「0」であるか否かを判定する(S103)。そして、案内モードフラグが「0」である場合、制御部13(判定部64)は、ユーザの歌唱音声の音高と模範音声の音高との間のずれ(Δp)の大きさが基準の大きさよりも大きい状態が所定時間(例えば3秒間)にわたって継続しているか否かを判定する(S104)。ここで、「基準の大きさ」とは例えば3/4オクターブである。
【0084】
なお、このステップS104において、制御部13は模範音声データに基づいて模範音声の音高を取得する。また、制御部13は、音声入力部31を介して入力されたユーザの歌唱音声を分析することによって、ユーザの歌唱音声の音高を判断する。そして、制御部13はユーザの歌唱音声の音高と模範音声の音高との間のずれ(Δp)の大きさが基準の大きさよりも大きいか否かを判定する。
【0085】
上記のずれ(Δp)の大きさが基準の大きさよりも大きい状態が所定時間にわたって継続している場合、制御部13は案内モードフラグを「1」に設定する(S105)。また、制御部13は補正模範音声データを取得する(S106)。
【0086】
ステップS106において、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも高い場合、制御部13は、模範音声データが示す模範音声の音高を上げてなる補正模範音声を示す補正模範音声データを取得する。具体的には、制御部13は、模範音声の音高を所定の音程(1オクターブ)上げてなる補正模範音声を示す補正模範音声データを取得する。
【0087】
またステップS106において、例えば、ユーザの歌唱音声の音高が模範音声の音高よりも低い場合、制御部13は、模範音声データが示す模範音声の音高を下げてなる補正模範音声を示す補正模範音声データを取得する。具体的には、制御部13は、模範音声の音高を所定の音程(1オクターブ)下げてなる補正模範音声を示す補正模範音声データを取得する。
【0088】
なお、上記のような補正模範音声データはあらかじめ記憶部60に記憶されていてもよいし、その都度、模範音声データに基づいて生成されるようにしてもよい。
【0089】
補正模範音声データが取得された後、制御部13は後述のステップS109の処理を実行する。一方、ステップS104において上記のずれ(Δp)の大きさが基準の大きさよりも大きい状態が所定時間にわたって継続していないと判定された場合、制御部13は案内モードフラグを「0」のままとし、後述のステップS109の処理を実行する。
【0090】
一方、ステップS103において案内モードフラグが「0」でないと判定された場合、すなわち、案内モードフラグが「1」である場合、制御部13は、ユーザの歌唱音声の音高と模範音声の音高とのずれ(Δp)の大きさが基準の大きさよりも小さい状態が所定時間(例えば3秒間)にわたって継続しているか否かを判定する(S107)。ここで、「基準の大きさ」とは例えば1/4オクターブである。
【0091】
上記のずれ(Δp)の大きさが基準の大きさよりも小さい状態が所定時間にわたって継続している場合、制御部13は案内モードフラグを「0」に戻し(S108)、後述のステップS109の処理を実行する。一方、上記のずれ(Δp)の大きさが基準の大きさよりも小さい状態が所定時間にわたって継続していない場合、制御部13は案内モードフラグを「1」のままとし、後述のステップS109の処理を実行する。
【0092】
ステップS103〜S108の処理が実行された後、制御部13(評価部66)はユーザの歌唱音声を評価するための処理(S109〜S112)を実行する。すなわち、制御部13は案内モードフラグが「0」であるか否かを判定する(S109)。
【0093】
案内モードフラグが「0」である場合、制御部13(第1評価部67)は、模範音声データと、音声入力部31を介して入力されたユーザの歌唱音声とに基づいて、ユーザの歌唱音声と模範音声とを比較する(S110)。例えば、制御部13は、ユーザの歌唱音声の音高と模範音声の音高との間のずれ(Δp)を取得する。
【0094】
一方、案内モードフラグが「0」でない場合、すなわち、案内モードフラグが「1」である場合、制御部13(第2評価部68)は、補正模範音声データと、音声入力部31を介して入力されたユーザの歌唱音声とに基づいて、ユーザの歌唱音声と補正模範音声とを比較する(S111)。例えば、制御部13は、ユーザの歌唱音声の音高と補正模範音声の音高との間のずれ(Δp)を取得する。
【0095】
ステップS110又はS111の処理が実行された後、制御部13(第1評価部67及び第2評価部68)は、ステップS110又はS111における比較結果と、図5に示す評価判断基準と、に基づいて、ユーザの歌唱音声の評価を決定する(S112)。また、この場合、制御部13は主記憶14に記憶される得点を更新する。例えば、制御部13は、ステップS112で決定された評価に対応づけられた評価点を、主記憶14に記憶される得点に加算する。
【0096】
ユーザの歌唱音声を評価するための処理(S109〜S112)が実行された後、図11に示すように、制御部13(案内部62)はカラオケ画面40を更新するための処理(S113〜S117)を実行する。
【0097】
まず、制御部13は、音声入力部31を介して入力されているユーザの歌唱音声の音高が基本範囲に含まれているか否かを判定する(S113)。ここで、「基本範囲」とは、例えば、ピアノロール画像42における基本音高を中心とする1オクターブの範囲である。例えば図2に示すピアノロール画像42の場合であれば、「基本範囲」とは、ピアノロール画像42の第1領域42aに含まれる音高画像43iに対応する音高から、第1領域42aに含まれる音高画像43oに対応する音高までの範囲である。なお、ステップS113の処理は、ユーザの歌唱音声の音高が、ピアノロール画像42における基本音高と、の差が基準差以下であるか否かを判定する処理と言い換えることができる。
【0098】
ユーザの歌唱音声の音高が基本範囲に含まれていない場合とは、ユーザの音声の音高が、第1領域42aに含まれる音高画像43に対応する音高でなくなった場合である。この場合、制御部13(設定手段)は、ユーザの歌唱音声の音高に基づいて、ピアノロール画像42における基本音高を変更し(S114)、後述のステップS115の処理を実行する。ステップS114では、例えば、ユーザの歌唱音声の音高がピアノロール画像42における基本音高として設定される。
【0099】
一方、ユーザの歌唱音声の音高が基本範囲に含まれている場合、制御部13は、ピアノロール画像42における基本音高を変更せずに、後述のステップS115の処理を実行する。
【0100】
ステップS115では、制御部13は案内モードフラグの値が「0」であるか否かを判定する(S115)。案内モードフラグの値が「0」である場合、制御部13(第1案内部63)はカラオケ画面40を更新する(S116)。この場合、模範音声がユーザに案内され、補正模範音声はユーザに案内されない。
【0101】
ステップS114でピアノロール画像42の基本音高が変更された場合、ステップS116では、例えば、変更後の基本音高に基づいて、ピアノロール画像42が更新される。この場合、ピアノロール画像42の基本音高が上がる又は下がる結果として、ピアノロール画像42がスクロールすることになる。
【0102】
また、ステップS116では、音声入力部31を介して入力されているユーザの歌唱音声の音高に基づいて、歌唱アイコン45が表示される。すなわち、ユーザの歌唱音声の音高に対応する音高画像43上に歌唱アイコン45が表示される。
【0103】
また、ステップS116では、歌詞データ及び模範音声データに基づいて、歌詞41や模範音声案内画像46が表示される。さらに、ステップS116では得点47、コンボ数48及びゲージ49も更新される。さらに、ステップS112で決定された評価を示すメッセージ50が表示される。
【0104】
一方、ステップS115において案内モードフラグの値が「0」でないと判定された場合、すなわち、案内モードフラグの値が「1」である場合、制御部13(第2案内部65)はカラオケ画面40を更新する(S117)。この場合、模範音声と補正模範音声の両方がユーザに案内される。
【0105】
ステップS117の処理はステップS116の処理と同様に実行される。ただし、ステップS117では、歌詞データ、模範音声データ、及び補正模範音声データに基づいて、歌詞41、模範音声案内画像46、及び補正模範音声案内画像51が表示される。
【0106】
カラオケ画面40を更新するための処理(S115〜S117)が実行された後、制御部13は伴奏音楽の再生が終了したか否かを判定する(S118)。伴奏音楽の再生が終了していない場合、制御部13はステップS103の処理を実行する。一方、伴奏音楽の再生が終了した場合、制御部13は成績画面を表示部30に表示する(S119)。そして、本処理は終了する。
【0107】
以上説明したカラオケシステム10によれば、ユーザの歌唱音声の音高と模範音声の音高とのずれが比較的大きい場合、模範音声を高く又は低くしてなる補正模範音声がユーザに案内される。そして、ユーザの歌唱音声と補正模範音声との比較結果に基づいて、ユーザの歌唱音声が評価される。カラオケシステム10によれば、ユーザの元々の声の高さと模範音声の高さとが大きく異なっているが故にユーザが模範音声の高さで歌を歌うことが困難である場合に、ユーザを補助することが可能になる。
【0108】
なお、カラオケシステム10では、補正模範音声が案内される場合、模範音声と補正模範音声の両方が案内されるようになっている。このため、ユーザは、模範音声と補正模範音声との関係を把握できるようになっている。
【0109】
また、カラオケシステム10におけるピアノロール画像42では、第2領域42b,42dに配列されている音高画像43e〜43h,43p〜43sのP軸方向の幅は、第1領域42aに配列されている音高画像43i〜43oのP軸方向の幅よりも狭くなっている。また、第3領域42c,42eに配列されている音高画像43a〜43d,43t〜43wのP軸方向の幅は、第2領域42b,42cに配列されている音高画像43e〜43h,43p〜43sのP軸方向の幅よりもさらに狭くなっている。その結果として、比較的限られた画面領域内に、なるべく多くの音高に対応する音高画像43を表示されるようになっている。
【0110】
なお、カラオケシステム10では、ユーザの歌唱音声の音高を案内する歌唱アイコン45が、音高画像43のP軸方向の幅が比較的広く設定されている第1領域42a内に表示されるように担保されている。例えば、歌唱アイコン45が第2領域42b,42d及び第3領域42c,42eに表示されると、第2領域42b,42d及び第3領域42c,42eに配置されている音高画像43のP軸方向の幅が比較的狭く設定されているため、ユーザはユーザの歌唱音声の音高を把握し難くなってしまう。この点、カラオケシステム10ではそのような不都合が生じないように図られている。
【0111】
なお、本発明は以上に説明した実施形態に限定されるものではない。
【0112】
(1)例えば、図10及び図11に示す処理では、ステップS106において補正模範音声データが生成されることとして説明したが、ステップS111,S117の各々において、模範音声データに基づいて補正模範音声が取得されるようにしてもよい。
【0113】
(2)また例えば、ユーザが歌唱すべきタイミングと、ユーザが実際に歌唱したタイミングとの間のずれ(Δt)に基づいて、ユーザの歌唱が評価されるようにしてもよい。すなわち、タイミングのずれ(Δt)に基づいて、「EXCELLENT」、「GREAT」、「GOOD」、「ALMOST」、及び「BOO」のうちのいずれかの評価がユーザに与えられるようにしてもよい。この場合、タイミングのずれ(Δt)が小さいほど、ユーザに与えられる評価が高くなるようにすればよい。
【0114】
(3)また例えば、本発明は、ユーザが音楽に合わせてゲーム操作と音声入力とを行うようなゲームを実行するゲームシステム(音声入力システム)にも適用することが可能である。例えば、ユーザが音楽に合わせて踊りながら歌を歌うようなゲームや、ユーザが音楽に合わせて踊りながらハミングを行うようなゲームを実行するゲームシステムにも本発明は適用することが可能である。また例えば、ユーザが音楽に合わせて、楽器(例えばドラム又はギター等)の演奏を模したゲーム操作を行いながら歌を歌うようなゲームを実行するゲームシステムにも本発明は適用することが可能である。
【符号の説明】
【0115】
10 カラオケシステム、11 家庭用ゲーム機、12 バス、13 制御部、14 主記憶、15 画像処理部、16 音声処理部、17 光ディスクドライブ、18 メモリカードスロット、19 通信インタフェース、20 操作部、30 表示部、31 音声入力部、32 音声出力部、33 光ディスク、34 メモリカード、40 カラオケ画面、41 歌詞、42 ピアノロール画像、42a 第1領域、42b,42d 第2領域、42c,42e 第3領域、43a〜43w 音高画像、44 基準ライン、45 歌唱アイコン、46 模範音声案内画像、47 得点、48 コンボ数、49 ゲージ、50 メッセージ、51 補正模範音声案内画像、60 記憶部、61 音声出力制御部、62 案内部、63 第1案内部、64 判定部、65 第2案内部、66 評価部、67 第1評価部、68 第2評価部。
【特許請求の範囲】
【請求項1】
音楽に合わせてユーザが音声を入力する音声入力システムにおいて、
前記ユーザが音声を入力するための音声入力手段と、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段と、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内手段と、
前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段と、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内手段と、
を含むことを特徴とする音声入力システム。
【請求項2】
請求項1に記載の音声入力システムにおいて、
前記第2案内手段は、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声と前記補正模範音声との両方を前記ユーザに案内することを特徴とする音声入力システム。
【請求項3】
請求項2に記載の音声入力システムにおいて、
音高に関する軸が設定された第1画像を表示手段に表示させる表示制御手段を含み、
前記第1案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第1画像上の位置に、第2画像を表示させることによって、前記模範音声の音高を前記ユーザに案内し、
前記第2案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第1画像上の位置に前記第2画像を表示させ、かつ、前記軸方向の座標値が前記補正模範音声の音高に対応する座標値である前記第1画像上の位置に、前記第2画像とは表示態様の異なる第3画像を表示させることによって、前記模範音声と前記補正模範音声との両方の音高を前記ユーザに案内する、
ことを特徴とする音声入力システム。
【請求項4】
請求項3に記載の音声入力システムにおいて、
前記第1画像は、基本音高と、前記基本音高よりも高い音高である一又は複数の音高と、前記基本音高よりも低い音高である一又は複数の音高と、を含む複数の音高に対応する複数の音高画像が前記軸方向に配列されてなる画像であり、
前記複数の音高画像の各々の前記軸方向の幅は、該音高画像に対応する音高と前記基本音高との差に応じた幅に設定され、
前記複数の音高画像のうちの、第1音高に対応する音高画像の前記軸方向の幅は、前記基本音高との差が前記第1音高よりも小さい第2音高に対応する音高画像の前記軸方向の幅よりも小さく設定されている、
ことを特徴とする音声入力システム。
【請求項5】
請求項4に記載の音声入力システムにおいて、
前記音声入力手段を介して入力された前記ユーザの音声の音高に基づいて、前記基本音高を設定する設定手段を含むことを特徴とする音声入力システム。
【請求項6】
請求項1乃至5のいずれかに記載の音声入力システムにおいて、
前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第1評価手段と、
前記判定手段によって前記ずれの大きさが前記基準の大きさよりも大きいと判定された場合に、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記補正模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第2評価手段と、
を含むことを特徴とする音声入力システム。
【請求項7】
請求項1乃至6のいずれかに記載の音声入力システムにおいて、
前記音声入力システムは、前記音楽に合わせてユーザが歌唱するカラオケシステム、又は、前記音楽に合わせてユーザが音声を入力するゲームを実行するゲームシステムであることを特徴とする音声入力システム。
【請求項8】
音楽に合わせてユーザが音声を入力する音声入力システムの制御方法において、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得するステップと、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内ステップと、
前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定ステップと、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内ステップと、
を含むことを特徴とする音声入力システムの制御方法。
【請求項9】
音楽に合わせてユーザが音声を入力する音声入力システムとしてコンピュータを機能させるためのプログラムであって、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内手段、
前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段、及び、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内手段、
として前記コンピュータを機能させるためのプログラム。
【請求項1】
音楽に合わせてユーザが音声を入力する音声入力システムにおいて、
前記ユーザが音声を入力するための音声入力手段と、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段と、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内手段と、
前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段と、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内手段と、
を含むことを特徴とする音声入力システム。
【請求項2】
請求項1に記載の音声入力システムにおいて、
前記第2案内手段は、前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声と前記補正模範音声との両方を前記ユーザに案内することを特徴とする音声入力システム。
【請求項3】
請求項2に記載の音声入力システムにおいて、
音高に関する軸が設定された第1画像を表示手段に表示させる表示制御手段を含み、
前記第1案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第1画像上の位置に、第2画像を表示させることによって、前記模範音声の音高を前記ユーザに案内し、
前記第2案内手段は、前記軸方向の座標値が前記模範音声の音高に対応する座標値である前記第1画像上の位置に前記第2画像を表示させ、かつ、前記軸方向の座標値が前記補正模範音声の音高に対応する座標値である前記第1画像上の位置に、前記第2画像とは表示態様の異なる第3画像を表示させることによって、前記模範音声と前記補正模範音声との両方の音高を前記ユーザに案内する、
ことを特徴とする音声入力システム。
【請求項4】
請求項3に記載の音声入力システムにおいて、
前記第1画像は、基本音高と、前記基本音高よりも高い音高である一又は複数の音高と、前記基本音高よりも低い音高である一又は複数の音高と、を含む複数の音高に対応する複数の音高画像が前記軸方向に配列されてなる画像であり、
前記複数の音高画像の各々の前記軸方向の幅は、該音高画像に対応する音高と前記基本音高との差に応じた幅に設定され、
前記複数の音高画像のうちの、第1音高に対応する音高画像の前記軸方向の幅は、前記基本音高との差が前記第1音高よりも小さい第2音高に対応する音高画像の前記軸方向の幅よりも小さく設定されている、
ことを特徴とする音声入力システム。
【請求項5】
請求項4に記載の音声入力システムにおいて、
前記音声入力手段を介して入力された前記ユーザの音声の音高に基づいて、前記基本音高を設定する設定手段を含むことを特徴とする音声入力システム。
【請求項6】
請求項1乃至5のいずれかに記載の音声入力システムにおいて、
前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第1評価手段と、
前記判定手段によって前記ずれの大きさが前記基準の大きさよりも大きいと判定された場合に、前記音声入力手段を介して入力された前記ユーザの音声の音高と、前記補正模範音声の音高と、の比較結果に基づいて、前記音声入力手段を介して入力された前記ユーザの音声を評価する第2評価手段と、
を含むことを特徴とする音声入力システム。
【請求項7】
請求項1乃至6のいずれかに記載の音声入力システムにおいて、
前記音声入力システムは、前記音楽に合わせてユーザが歌唱するカラオケシステム、又は、前記音楽に合わせてユーザが音声を入力するゲームを実行するゲームシステムであることを特徴とする音声入力システム。
【請求項8】
音楽に合わせてユーザが音声を入力する音声入力システムの制御方法において、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得するステップと、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内ステップと、
前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定ステップと、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内ステップと、
を含むことを特徴とする音声入力システムの制御方法。
【請求項9】
音楽に合わせてユーザが音声を入力する音声入力システムとしてコンピュータを機能させるためのプログラムであって、
前記音楽に合わせて音声を入力する場合の模範音声を示す模範音声データを記憶してなる手段に記憶される前記模範音声データを取得する手段、
前記模範音声データに基づいて、前記模範音声を前記ユーザに案内する第1案内手段、
前記ユーザが音声を入力するための音声入力手段を介して入力された前記ユーザの音声の音高と、前記模範音声の音高と、の間のずれの大きさが基準の大きさよりも大きいか否かを判定する判定手段、及び、
前記ずれの大きさが前記基準の大きさよりも大きい場合、前記模範音声の音高を前記ずれに応じて上げて又は下げてなる補正模範音声を前記ユーザに案内する第2案内手段、
として前記コンピュータを機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2011−209319(P2011−209319A)
【公開日】平成23年10月20日(2011.10.20)
【国際特許分類】
【出願番号】特願2010−73883(P2010−73883)
【出願日】平成22年3月26日(2010.3.26)
【出願人】(506113602)株式会社コナミデジタルエンタテインメント (1,441)
【Fターム(参考)】
【公開日】平成23年10月20日(2011.10.20)
【国際特許分類】
【出願日】平成22年3月26日(2010.3.26)
【出願人】(506113602)株式会社コナミデジタルエンタテインメント (1,441)
【Fターム(参考)】
[ Back to top ]