カラオケ装置

【課題】システムを複雑化させることなく、歌唱者が歌詞を正しく覚えているか否かを評価できるようにする。
【解決手段】ＣＰＵ１０２は、手本音声データが表す手本音声の音声波形を複数のフレームに分割する。また、記憶部１０５に記憶された歌唱音声データが表す歌唱音声の音声波形を複数のフレームに分割する。次にＣＰＵ１０２は、手本音声の各フレームの音声波形と、歌唱音声の各フレームの音声波形との対応付けを行う。ＣＰＵ１０２は、対応するフレーム間で音声波形のフォルマント周波数を比較し、手本音声と歌唱音声の一致／不一致を判断する。ＣＰＵ１０２は、手本音声と歌唱音声が一致していないと判断した場合、手本音声データが表す音声に対応した歌詞をモニタ２に表示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、歌唱者の歌唱力を採点する技術に関する。
【背景技術】
【０００２】
楽曲データに基づいて自動演奏を行うカラオケ装置の中には、マイクに入力された歌唱者の音声を解析し、歌唱者の歌唱力を採点するものがある。例えば、特許文献１に開示されたカラオケ装置は、マイクに入力された歌唱者の音声の文言を認識し、楽曲の歌詞の文言とどの程度一致しているかを評価する。このカラオケ装置によれば、歌唱者が歌詞を正しく覚えているか否かを評価することができる。
【特許文献１】特開平１０−９１１７２号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
ところで、特許文献１に開示されているカラオケ装置のように音声の文言を認識するためには、音声認識を行う必要がある。音声認識を行う場合、入力された音声を分析し、音声の音響特徴を抽出する。そして、辞書に記憶されている言葉の中から、言葉の音響特徴が入力音声の音響特徴に最も近い言葉を探して音声認識結果として出力する。ここで、言葉を正しく認識するには、辞書に記憶されている言葉が重要となり、正確に言葉を認識するには多くの言葉を辞書に記憶させておく必要がある。しかしながら、多くの言葉を辞書に記憶させると、多くの言葉の中から最も近い言葉を探し出すのに時間がかかることとなり、直ぐに評価結果を示すことができなくなる。また、カラオケで歌われる楽曲は、日本語だけでなく外国語の楽曲も多数ある。多数の言語について音声認識を行う場合には、言語毎に辞書を用意する必要があり、新たな言語の楽曲をカラオケ装置に追加する場合には、辞書も新たに用意しなければならず、システムが複雑化して簡単に楽曲を追加するのが難しくなるという問題が発生する。
【０００４】
本発明は、上述した背景の下になされたものであり、その目的は、システムを複雑化させることなく、歌唱者が歌詞を正しく覚えているか否かを評価できるようにすることにある。
【課題を解決するための手段】
【０００５】
上述した課題を解決するために本発明は、楽曲を歌詞通りに歌唱したときの手本音声を表す手本音声データを記憶した記憶手段と、歌唱者の歌唱音声が入力される音声入力手段と、前記手本音声データが表す手本音声を複数の音声区間に分割し、前記音声入力手段に入力された歌唱音声において、前記分割された各音声区間に対応する音声区間を特定する特定手段と、前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声とを比較して評価を行う評価手段と、前記評価手段の評価結果を表示する表示手段とを有するカラオケ装置を提供する。
【０００６】
この態様においては、前記評価手段は、前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声との一致度を求め、求めた一致度により評価を行うようにしてもよい。
また、前記記憶手段は、前記楽曲の歌詞を表す歌詞データを記憶し、前記評価手段が求めた前記一致度が所定値未満である場合、前記一致度が所定値未満となった音声区間の音声に対応した歌詞を前記記憶手段に記憶された歌詞データが表す歌詞の中から特定する歌詞特定手段を有し、前記表示手段は、前記歌詞特定手段で特定された歌詞を表示するようにしてもよい。
また、前記評価手段は、前記歌唱音声のフォルマント周波数と前記手本音声のフォルマント周波数の一致度を求めるようにしてもよい。
【発明の効果】
【０００７】
本発明によれば、システムを複雑化させることなく、歌唱者が歌詞を正しく覚えているか否かを評価することができる。
【発明を実施するための最良の形態】
【０００８】
［実施形態の構成］
図１は本発明の実施形態に係わるカラオケ装置の外観を示した図である。同図に示したように、カラオケ装置１にはモニタ２、スピーカ３Ｌ、スピーカ３Ｒ、そしてマイク４が接続されている。カラオケ装置１は、リモコン装置５から送信される赤外線信号により遠隔操作される。
【０００９】
図２は、カラオケ装置１のハードウェア構成を示したブロック図である。バス１０１に接続されている各部は、このバス１０１を介して各部間で通信を行う。ＣＰＵ（Central Processing Unit）１０２は、ＲＡＭ（Random Access Memory）１０４をワークエリアとして利用し、ＲＯＭ（Read Only Memory）１０３に格納されている各種プログラムを実行することでカラオケ装置１の各部を制御する。また、ＲＡＭ１０４には楽曲データを一時記憶する楽曲記憶領域が確保される。記憶部１０５はハードディスク装置を具備しており、後述する楽曲データやマイク４より入力された歌唱音声のデジタルデータ等の各種データを記憶する。
【００１０】
通信部１０８は、楽曲データの配信元であるホストコンピュータ（図示略）から、例えばインターネットなどの通信ネットワーク（図示略）を介して楽曲データを受信し、受信した楽曲データをＣＰＵ１０２の制御のもと記憶部１０５へと転送する。なお、本実施形態においては、楽曲データは予め記憶部１０５に記憶されていてもよい。また、ＣＤ−ＲＯＭやＤＶＤ等の各種記録媒体を読み取る読み取り装置をカラオケ装置１に設け、各種記録媒体に記録された楽曲データを、この読み取り装置により読み取って記憶部１０５に転送して記憶させるようにしてもよい。
ここで、本実施形態において用いられる楽曲データの構造について説明する。本実施形態における楽曲データは、図３に示すように、ヘッダ、カラオケ演奏音の内容を表すＷＡＶＥ形式のデータである楽音データ、楽曲の歌詞を間違えずに正しく歌ったときのお手本の音声の波形を表すＷＡＶＥ形式の手本音声データ、および楽曲の歌詞を表す歌詞データを格納した歌詞テーブルとを有している。
【００１１】
図４は、歌詞テーブルのフォーマットを例示した図である。歌詞テーブルにおいては、演奏される楽曲の歌詞を表す歌詞データと、楽音データに従って楽音が出力されたときに、この歌詞データが表す歌詞を発音すべき時間区間を示す時間区間データとが対応付けて格納される。
例えば、図４に示した歌詞テーブルにおいて、１行目の歌詞データは「かめれおんが」という歌詞を表しており、この歌詞データに対応付けられている時間区間データ「０１：００−０１：０２」は、お手本の音声において、楽曲の演奏が開始されて１分経過した時点から１分２秒経過した時点までの間に、この歌詞「かめれおんが」が発音されることを示している。また、２行目の歌詞データは「やってきたー」という歌詞を表しており、この歌詞データに対応付けられている時間区間データ「０１：０３−０１：０６」は、お手本の音声において、楽曲の演奏が開始されて１分３秒経過した時点から１分６秒経過した時点までの間に、この歌詞「やってきたー」が発音されることを示している。
【００１２】
マイク４は、入力される歌唱者の歌唱音声を音声信号に変換して出力する。マイク４から出力された音声信号は、音声処理用ＤＳＰ（Digital Signal Processor）１１１とアンプ１１２とに入力される。音声処理用ＤＳＰ１１１は、入力される音声信号をＡ／Ｄ変換し、歌唱音声を表す歌唱音声データを生成する。この歌唱音声データは、記憶部１０５に記憶され、手本音声データと比較されて歌唱者の歌唱力の採点に用いられる。
【００１３】
入力部１０６は、カラオケ装置１にある操作パネルまたはリモコン装置５への入力操作により発せられる信号を検出し、この検出結果をＣＰＵ１０２へ出力する。表示制御部１０７は、ＣＰＵ１０２の制御のもと映像や歌唱者の歌唱力の採点結果をモニタ２に表示する。
【００１４】
音源装置１０９は供給される楽音データに対応する楽音信号を生成し、生成した楽音信号をカラオケ演奏音として効果用ＤＳＰ１１０へ出力する。効果用ＤＳＰ１１０は、音源装置１０９で生成された楽音信号に対してリバーブやエコー等の効果を付与する。効果を付与された楽音信号は、効果用ＤＳＰ１１０によってＤ／Ａ変換されてアンプ１１２へ出力される。アンプ１１２は、効果用ＤＳＰ１１０から出力された楽音信号と、マイク４から出力された音声信号とを合成・増幅し、スピーカ３Ｌ、３Ｒへ出力する。これにより、楽曲のメロディと歌唱者の音声とがスピーカ３Ｌ、３Ｒから出力される。
【００１５】
［実施形態の動作］
次に本実施形態の動作について説明する。まず、利用者がリモコン装置５を操作して楽曲を指定する操作を行うと、指定された楽曲の楽曲データがＣＰＵ１０２により記憶部１０５からＲＡＭ１０４の楽曲記憶領域へ転送される。ＣＰＵ１０２は、この楽曲記憶領域に格納された楽曲データに含まれている各種データを順次読み出すことにより、カラオケ伴奏処理を実行する。
【００１６】
具体的には、ＣＰＵ１０２は、楽曲データに含まれている楽音データを読み出し、読み出した楽音データを音源装置１０９へ出力する。音源装置１０９は、供給される楽曲データに基づいて所定の音色の楽音信号を生成し、生成した楽音信号を効果用ＤＳＰ１１０へ出力する。効果用ＤＳＰ１１０においては、音源装置１０９から出力された楽音信号に対してリバーブやエコー等の効果が付与される。効果を付与された楽音信号は、効果用ＤＳＰ１１０によってＤ／Ａ変換されてアンプ１１２へ出力される。アンプ１１２は、効果用ＤＳＰ１１０から出力された楽音信号を増幅してスピーカ３Ｌ、３Ｒへ出力する。これにより、楽曲のメロディがスピーカ３Ｌ、３Ｒから出力される。また、ＣＰＵ１０２は、楽曲データを音源装置１０９へ供給して楽音の出力が開始されると、楽曲の出力が開始されてから経過した経過時間のカウントを開始する。
【００１７】
一方、楽曲の再生に応じて、歌唱者が歌唱すると、歌唱者の音声がマイク４に入力され、マイク４から音声信号が出力される。音声処理用ＤＳＰ１１１は、マイク４から出力された音声信号をＡ／Ｄ変換し、歌唱音声を表す歌唱音声データを生成する。この歌唱音声データは、記憶部１０５に記憶される。
【００１８】
ＣＰＵ１０２は、経過時間のカウントを続け、カウントした時間を時間区間の開始時間として含む時間区間を、歌詞テーブルにおいて検索する。そして、検索した時間区間と、検索した時間区間に対応付けて格納されている歌詞データを読み出す。例えば、カウントされた経過時間が０１：００である場合、図４にした歌詞テーブルにおいては、１行目の時間区間「０１：００−０１：０２」と歌詞データ「かめれおんが」が読み出される。
【００１９】
ＣＰＵ１０２は、時間区間を読み出すと、この時間区間においてマイク４に入力された音声と、この時間区間におけるお手本の音声とを比較し、歌唱者が歌詞を正しく歌ったか否かを判断する。具体的には、ＣＰＵ１０２は、手本音声データが表す音声を解析し、図５に示したように、手本音声データが表す音声波形の時間軸において、読み出した時間区間（０１：００−０１：０２）の間にある音声波形Ａを抽出する。また、ＣＰＵ１０２は、記憶された歌唱音声データを解析し、図５に示したように、歌唱音声データが表す時間軸において、読み出した時間区間の間にある音声波形Ｂを抽出する。そして、抽出した音声波形Ａを、図６（ａ）に示したように所定の時間間隔（例えば、１０ｍｓ）で区切って複数のフレームに分割する。また、抽出した音声波形Ｂを、図６（ｂ）に示したように所定の時間間隔（例えば、１０ｍｓ）で区切って複数のフレームに分割する。
【００２０】
次にＣＰＵ１０２は、手本音声の各フレームの音声波形と、歌唱音声の各フレームの音声波形との対応付けをＤＰ（Dynamic Programming）マッチング法を用いて行う。例えば、図６に例示した波形において、手本音声のフレームＡ１の音声波形と、歌唱音声のフレームＢ１の音声波形とが対応している場合、フレームＡ１とフレームＢ１とが対応付けされる。また、手本音声のフレームＡ２の音声波形と、歌唱音声のフレームＢ２ないしフレームＢ３の音声波形とが対応している場合、フレームＡ２とフレームＢ２ないしフレームＢ３とが対応付けされる。
【００２１】
次にＣＰＵ１０２は、対応するフレーム間で音声波形の特徴を比較する。具体的には、ＣＰＵ１０２は、手本音声の各フレームの音声波形毎に音声波形をフーリエ変換する。そしてＣＰＵ１０２は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を生成する。そしてＣＰＵ１０２は、得られたスペクトル包絡から第１フォルマントの周波数ｆ１１および第２フォルマントの周波数ｆ１２、第３フォルマントの周波数ｆ１３を抽出する。
また、ＣＰＵ１０２は、手本音声の各フレームに対応付けされた歌唱者の音声のフレームの音声波形毎に、音声波形をフーリエ変換する。そしてＣＰＵ１０２は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換してフレームごとのスペクトル包絡を生成する。そしてＣＰＵ１０２は、得られたスペクトル包絡から第１フォルマントの周波数ｆ２１および第２フォルマントの周波数ｆ２２、第３フォルマントの周波数２３を抽出する。
【００２２】
例えば、ＣＰＵ１０２は、手本音声のフレームＡ１のスペクトル包絡を生成し、このスペクトル包絡から第１〜第３フォルマントのフォルマント周波数ｆ１１〜ｆ１３を抽出する。そして、ＣＰＵ１０２は、フレームＡ１に対応付けされているフレームＢ１の音声波形のスペクトル包絡を生成し、このスペクトル包絡から第１〜第３フォルマントのフォルマント周波数ｆ２１〜ｆ２３を抽出する。
また、ＣＰＵ１０２は、手本音声のフレームＡ２のスペクトル包絡を生成し、このスペクトル包絡から第１〜第３フォルマントのフォルマント周波数ｆ１１〜ｆ１３を抽出する。そして、ＣＰＵ１０２は、フレームＡ２に対応付けされているフレームＢ２ないしフレームＢ３の音声波形のスペクトル包絡を生成し、このスペクトル包絡から第１〜第３フォルマントのフォルマント周波数ｆ２１〜ｆ２３を抽出する。
【００２３】
次にＣＰＵ１０２は、手本音声の各フレームから抽出したフォルマント周波数ｆ１１〜ｆ１３と、手本音声の各フレームに対応付けされたフレームから抽出したフォルマント周波数ｆ２１〜ｆ２３とを比較する。そして、ＣＰＵ１０２は、対応する音声波形同士でフォルマント周波数ｆ１１とフォルマント周波数ｆ２１の差、フォルマント周波数ｆ１２とフォルマント周波数ｆ２２の差、フォルマント周波数ｆ１３とフォルマント周波数ｆ２３の差が、所定の値以上である場合には、フォルマント周波数が不一致であったことを示す不一致情報Ｄを手本音声のフレームに付加する。
例えば、ＣＰＵ１０２は、フレームＡ１の音声波形のフォルマント周波数ｆ１１〜ｆ１３と、フレームＢ１の音声波形のフォルマント周波数とが一致している場合、対応するフレーム同士で音声が一致していると判断し、不一致情報ＤをフレームＡ１に付加しない。
一方、フレームＡ２のフォルマント周波数ｆ１１〜ｆ１３と、フレームＢ２ないしフレームＢ３の音声波形のフォルマント周波数ｆ２１〜ｆ２３とで、各周波数の差が所定値以上である場合には、フォルマント周波数が不一致であったことを示す不一致情報ＤをフレームＡ２に付加する。
【００２４】
ＣＰＵ１０２は、手本音声の各フレームの音声波形について、歌唱者の音声波形のフォルマント周波数との一致／不一致を判断すると、不一致情報Ｄが付加されたフレームの数Ｎをカウントする。次にＣＰＵ１０２は、分割した手本音声データのフレームの総数Ｍと、数Ｎの値とを比較し、数Ｎの値がフレーム総数Ｍの半分の以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断し、数Ｎの値がフレーム総数Ｍの半分未満である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが同じであると判断する。例えば、手本音声データが表す「かめれおんが」という音声について、不一致情報の数Ｎがフレーム総数Ｍの半分未満である場合には、ＣＰＵ１０２は、歌唱者の発音した歌詞と、手本音声の歌詞とが同じであると判断する。
なお、本実施形態においては、数Ｎの値がフレーム総数Ｍの半分以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断しているが、フレーム総数Ｍに対する数Ｎの割合が５割以外の所定の割合以上である場合に読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断するようにしてもよい。
【００２５】
ＣＰＵ１０２は、手本音声と歌唱音声の比較に並行して経過時間のカウントを続け、カウントした経過時間が０１：０３になると、図４にした歌詞テーブルの２行目の時間区間「０１：０３−０１：０６」と歌詞データ「やってきたー」を読み出す。また、楽曲の再生に従って歌唱者がこの読み出した時間区間において歌唱を行うと、歌唱音声データが記憶部１０５に記憶される。ここで、例えば、歌唱者が歌詞を間違え、読み出された歌詞データ２が表す歌詞「やってきた」とは異なる「いってくる」という歌詞で歌唱者が歌唱を行うと、「いってくる」という音声を表す歌唱音声データが生成されて記憶部１０５に記憶される。
【００２６】
次にＣＰＵ１０２は、この時間区間においてマイク４に入力された音声の波形と、この時間区間におけるお手本の音声の波形とを複数のフレームに分割する。そして、手本音声の各フレームの音声波形と、歌唱音声の各フレームの音声波形との対応付けを行い、対応付けられたフレーム間で音声波形のフォルマント周波数の比較を行う。そして、ＣＰＵ１０２は、手本音声の各フレームの音声波形について、歌唱者の音声波形のフォルマント周波数との一致／不一致を判断し、不一致情報Ｄを付加した後、分割した手本音声データのフレーム総数Ｍと、不一致情報が付加されたフレームの数Ｎの値とを比較し、歌唱者が歌詞を正しく歌ったか否かを判断する。
【００２７】
ここで、歌唱者は「やってきた」という歌詞に対し、「いってくる」と異なる歌詞で歌唱したため、手本音声の音声波形のフォルマント周波数と、歌唱者の音声波形のフォルマント周波数とを比較すると、フォルマント周波数が一致せず、不一致情報の数Ｎがフレーム総数Ｍ以上となる。ＣＰＵ１０２は、数Ｎの値がフレーム総数Ｍの半分以上である場合には、読み出した歌詞データが表す歌詞について、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断し、読み出した歌詞データが表す歌詞「やってきた」を、表示制御部１０７を制御してモニタ２に表示させ、歌詞を間違った旨を報知する。
【００２８】
以下、ＣＰＵ１０２は楽曲の再生に伴って、上述したように、歌詞データおよび手本音声データの読み出し、歌唱者が歌唱した歌詞の正誤の判断を繰り返す。そして、全ての演奏イベントデータを読み出すとカラオケ伴奏処理を終了する。
【００２９】
以上説明したように、本実施形態によれば、辞書を用いた音声認識を行わなくても、歌唱者が歌詞通りに歌唱したか否かを判断することができる。また、本実施形態では、歌詞どおりに正しく歌唱した音声のデータがあれば、歌詞通りに正しく歌唱したか否か評価することができるので、辞書を用いて言語認識を行う態様のようにシステムを複雑化させることなく、様々な言語の歌詞について、歌唱者が歌詞を正しく覚えているか否かを評価することができる。
【００３０】
［変形例］
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
【００３１】
上述した実施形態においては、歌唱音声データが表す音声波形のピッチが手本音声データが表す音声波形のピッチとなるように、歌唱音声データが表す音声のピッチを補正するようにしてもよい。
【００３２】
また、上述した実施形態においては、手本音声データが表す音声波形のピッチの周期的な変動を検出して手本となる音声にビブラートがかかっているか否かを判断し、ビブラートがかかっていると判断した場合、手本音声データが表す音声波形のピッチ変動と歌唱音声データが表す音声波形のピッチ変動との一致度を判断し、歌唱者が正しくビブラートをかけて歌唱しているか否かを判断するようにしてもよい。
また、手本音声データが表す音声波形のピッチ変動を検出して手本となる音声にしゃくりがあるか否かを判断し、しゃくりがあると判断した場合、手本音声データが表す音声波形のピッチ変動と歌唱音声データが表す音声波形のピッチ変動との一致度を判断し、歌唱者が正しくしゃくりを行って歌唱しているか否かを判断するようにしてもよい。
【００３３】
また、上述した実施形態においては、複数のバンドパスフィルタによって、手本音声データが表す音声波形と歌唱音声データが表す音声波形とを複数の周波数帯域に分割し、周波数帯域毎に音声の特徴量の一致度を判断して歌詞の正否を判断するようにしてもよい。
【００３４】
また、上述した実施形態においては、お手本の音声波形を表す手本音声データを記憶し、この手本音声データが表す音声波形を解析してフォルマント周波数の解析を行っているが、音声波形を複数のフレームに分割したときのフレーム毎のフォルマント周波数を予め記憶部１０５に記憶し、この記憶したフォルマント周波数と、歌唱者の音声波形の各フレームのフォルマント周波数とを比較して一致度を判断するようにしてもよい。
【００３５】
上述した実施形態においては、歌唱者が楽曲を歌い終えた後に歌唱者が歌唱した歌詞の正誤の判断を行うようにしてもよい。また、上述した実施形態においては、歌唱者の発音した歌詞と手本音声の歌詞とが異なると判断した場合、歌詞を表示するのではなく、歌詞を間違った旨を知らせるメッセージや画像をモニタ２に表示するようにしてもよい。
【図面の簡単な説明】
【００３６】
【図１】本発明の実施形態に係るカラオケ装置の外観図である。
【図２】同カラオケ装置のハードウェア構成を示したブロック図である。
【図３】同実施形態における楽曲データのフォーマットを例示した図である。
【図４】歌詞テーブルのフォーマットを例示した図である。
【図５】手本音声の波形と歌唱音声の波形とを例示した図である。
【図６】手本音声の波形と歌唱音声の波形とを複数のフレームに分割した時の図である。
【符号の説明】
【００３７】
１・・・カラオケ装置、２・・・モニタ、３Ｌ，３Ｒ・・・スピーカ、４・・・マイク、５・・・リモコン装置、１０１・・・バス、１０２・・・ＣＰＵ、１０３・・・ＲＯＭ、１０４・・・ＲＡＭ、１０５・・・記憶部、１０６・・・入力部、１０７・・・表示制御部、１０８・・・通信部、１０９・・・音源装置、１１０・・・効果用ＤＳＰ、１１１・・・音声処理用ＤＳＰ、１１２・・・アンプ

【特許請求の範囲】
【請求項１】
楽曲を歌詞通りに歌唱したときの手本音声を表す手本音声データを記憶した記憶手段と、
歌唱者の歌唱音声が入力される音声入力手段と、
前記手本音声データが表す手本音声を複数の音声区間に分割し、前記音声入力手段に入力された歌唱音声において、前記分割された各音声区間に対応する音声区間を特定する特定手段と、
前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声とを比較して評価を行う評価手段と、
前記評価手段の評価結果を表示する表示手段と
を有するカラオケ装置。
【請求項２】
前記評価手段は、前記特定手段で特定された音声区間の歌唱音声と、該音声区間の歌唱音声に対応する手本音声との一致度を求め、求めた一致度により評価を行うこと
を特徴とする請求項１に記載のカラオケ装置。
【請求項３】
前記記憶手段は、前記楽曲の歌詞を表す歌詞データを記憶し、
前記評価手段が求めた前記一致度が所定値未満である場合、前記一致度が所定値未満となった音声区間の音声に対応した歌詞を前記記憶手段に記憶された歌詞データが表す歌詞の中から特定する歌詞特定手段を有し、
前記表示手段は、前記歌詞特定手段で特定された歌詞を表示すること
を特徴とする請求項２に記載のカラオケ装置。
【請求項４】
前記評価手段は、前記歌唱音声のフォルマント周波数と前記手本音声のフォルマント周波数の一致度を求めることを特徴とする請求項２に記載のカラオケ装置。

【図１】