説明

歌唱者がマイクロホンに発した音声により演奏を中止するカラオケ装置

【課題】マイクロホンを手にして歌唱体勢にある歌唱者本人が、音声特徴パラメータ登録といった面倒を意識することなく、そのマイクロホンへの音声指示だけでもって、伴奏音楽を円満かつ円滑に途中終了させられるようにする。
【解決手段】歌唱者のマイクロホン21から得た歌声信号と、歌詞文字データとに基づいて、歌唱者の音声を分析して特徴パラメータを抽出し、カラオケ伴奏音楽の間奏区間において、直前までに音声分析手段が分析した特徴パラメータと、メモリに記憶されている演奏中止指示用単語とに基づいて、直前まで歌っていた歌唱者が演奏中止指示用単語を発話したか否かを分析し、声認識手段が演奏指示用単語を発話したと分析した場合i、演奏中のカラオケ伴奏音楽を途中終了させる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は歌唱者がマイクロホンに発した音声により演奏を中止するカラオケ装置に関し、とくに、演奏中のカラオケ伴奏音楽を歌唱者の音声指示によって途中終了させられるようにしたものに関する。
【背景技術】
【0002】
カラオケ装置では、利用客が自由に選んだ曲目の伴奏音楽を生成および音響再生するとともに、その伴奏音楽の進行に同期した時系列の歌詞文字データを生成し、これを背景映像に重ねてディスプレイ表示させる(たとえば特許文献1や2など)。
【0003】
このカラオケ装置は複数人のグループ単位で利用されることが多い。たとえばカラオケボックスの各部屋に1台ずつ設置されているカラオケ装置はそれぞれ、部屋ごとに複数の客によって共同利用されることが多い。
【0004】
このため、1台のカラオケ装置には複数の客からそれぞれに演奏予約が入って、演奏処理の待ち行列ができる。演奏予約の受付は随時可能であるため、待ち行列は利用客が一人であっても生じる。待ち行列がなくなると、カラオケ装置は次の演奏予約が入るまで待機状態(アイドリング状態)となるが、この待機は時間や料金の無駄になるので回避されることが多い。通常は、常に待ち行列がある状態で利用される。
【0005】
また、1台のカラオケ装置を複数人で利用する場合、その複数の利用者の全員が適宜交代しながら平等に歌唱の機会を持つことが望ましく、そのためには、演奏予約の待ち行列が円滑に捌けるような効率的な利用を個々の利用者がそれぞれに実践する必要がある。
【0006】
カラオケ装置では、利用者が予約した曲目の歌を伴奏音楽に合わせて歌唱するのであるが、歌唱者がその伴奏音楽の全演奏が終了するまで歌唱するとは限らず、たとえば、1番の歌詞だけ歌って2番以降の歌詞は歌唱を省略して次の予約待ち曲目を繰り上げ演奏させたいという場合がある。あるいは、歌詞の好みのフレーズ部分だけを歌唱して次の予約待ちを演奏させたいという場合もある。とくに若者達のカラオケ利用シーンでは、歌いたい曲をつぎつぎとリクエストし、順番が来ると歌いたいところまで歌ってすぐに演奏中止とし、素早くつぎのリクエスト曲の演奏を開始させるという、目まぐるしい遊び方がよく見られる。
【0007】
演奏中の伴奏音楽を途中終了させる場合、その操作を、歌唱を伴わない伴奏音楽の間奏区間で行えば、それほどの違和感を伴うことなく、つまりその場の雰囲気を損なうことなく、自然な流れとして伴奏音楽を途中終了させて次の予約待ち曲目を繰り上げ演奏させることができる。
【0008】
この場合、その伴奏音楽を円満かつ円滑に途中終了させる操作の最適任者は歌唱者本人である。歌唱者本人ならば、伴奏の途中終了の是非およびその終了タイミングを自己判断で自由に見計らうことができるが、歌唱者以外の第三者では、適切なタイミングで操作できなかったりすること、あるいは歌唱者の意に反して操作してしまうことが懸念されるからである。
【0009】
途中終了の操作はリモコンで行えても、演奏中止にしたいと思った歌唱者の手元にリモコンがないと、リモコンを持っている仲間に口頭で依頼して演奏中止の操作をしてもらうこともある。この際に仲間内で誤って情報伝達が行われ、まだ歌おうとしているのに仲間が演奏中止にしてしまうといった事態も発生する。
【0010】
しかし、マイクロホンを手にして歌唱体勢にある歌唱者本人が、頃合いのタイミングで伴奏音楽を途中終了させる操作を行うのは、かなり煩雑で困難なことである。
【0011】
そこで、マイクロホンを持ったままでカラオケ装置を操作できるようにした技術が提案されている(特許文献3)。特許文献3には音声認識リモコン機能付きワイヤレスマイクロホンの技術が記載されているが、このマイクロホンのリモコン機能でカラオケ装置の操作を行わせるようにすれば、マイクロホンを手にして歌唱体勢にある歌唱者本人が無理なく、随意のタイミングで伴奏音楽を途中終了させることが可能になる。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特開2004−317923
【特許文献2】特開2004−4896
【特許文献3】特開2002−062894
【発明の概要】
【発明が解決しようとする課題】
【0013】
特許文献3に開示されている音声認識リモコン機能付きワイヤレスマイクロホンは、そのワイヤレスマイクロホンに音響入力された音声の認識処理を行い、特定の言葉が入力されたと認識したとき、その言葉に対応付けされて記憶されているコードを適宜な無線信号に変調して送出するものであって、必要な構成はすべてワイヤレスマイクロホンに内蔵される。つまり、カラオケ装置からは完全に独立し、ワイヤレスマイクロホン内だけで完結する構成であった。
【0014】
ここで、音声認識には、特定話者の音声だけを認識対象とする特定話者音声認識と、不特定多数の話者の音声を認識対象とする不特定話者音声認識の2種類がある。
特定話者音声認識は、あらかじめメモリに記憶・登録された特定話者の音声特徴パラメータを用いて入力音声の認識処理を行う。この特定話者音声認識は、認識対象者である利用者の音声特徴パラメータをあらかじめ登録しなければならないという面倒はあるが、その代わり認識精度が高く、背景音が大きい環境でも誤動作が少ないという利点がある。
一方、不特定話者音声認識は、話者が限定されず、誰の声でも認識対象とすることができる上に、利用者の音声特徴パラメータをあらかじめ登録するという面倒もない。したがって、たとえば特許文献3の音声認識リモコン機能付きワイヤレスマイクロホンのように、一つの完結した装置系の中で音声認識を行わせるには適している。その代わり、特定話者音声認識に比べると認識精度が大きく劣り、背景音が大きい環境では誤動作しやすいという問題がある。
【0015】
歌声、話し声、歓声などの音声が常に飛び交うカラオケ利用現場は、音声認識の環境としては劣悪であり、このようなところで音声認識による操作を間違いなく行わせるためには、不特定話者音声認識は不適格であり、少なくとも特定話者音声認識とする必要がある。
しかし、不特定多数が利用するカラオケ装置において、話者を限定する特定話者音声認識はカラオケ装置の使用実態に合わず、仮に、その特定話者音声認識による操作を不特定多数の利用客に行わせようとしたら、個々の利用客に特定話者音声認識の機能を十分に理解させた上で、利用客ごとに音声特徴パラメータをあらかじめ登録させる操作を強いる必要があった。
【0016】
本発明は、以上のようなカラオケ特有の技術背景を鑑みてなされたものであって、その目的は、マイクロホンを手にして歌唱体勢にある歌唱者本人が、音声特徴パラメータ登録といった面倒を意識することなく、そのマイクロホンへの音声指示だけでもって、伴奏音楽を円満かつ円滑に途中終了させることができ、これにより、たとえば、カラオケ利用現場の盛り上がった雰囲気を損なうことなく、自然な流れとして次の予約待ち曲目を繰り上げ演奏させることができるようにしたカラオケ装置を提供することにある。
【課題を解決するための手段】
【0017】
この発明に係るカラオケ装置は、つぎの事項(1)〜(4)により特定されるものである。
【0018】
(1)音声分析手段と、音声認識手段と、演奏中止手段を備えたカラオケ装置であること
(2)音声分析手段は、カラオケ伴奏音楽の進行に合わせて歌う歌唱者のマイクロホンから得た歌声信号と、伴奏音楽の進行に同期した時系列の歌詞文字データとに基づいて、歌唱者の音声を分析して特徴パラメータを抽出すること
(3)音声認識手段は、カラオケ伴奏音楽の間奏区間において、直前までに音声分析手段が分析した特徴パラメータと、メモリに記憶されている演奏中止指示用単語とに基づいて、直前まで歌っていた歌唱者が演奏中止指示用単語を発話したか否かを分析すること
(4)演奏中止手段は、音声認識手段が演奏指示用単語を発話したと分析した場合、演奏中のカラオケ伴奏音楽を途中終了させること
【発明の効果】
【0019】
カラオケ装置において、マイクロホンを手にして歌唱体勢にある歌唱者本人が、音声特徴パラメータ登録といった面倒を意識することなく、そのマイクロホンへの音声指示だけでもって、伴奏音楽を円満かつ円滑に途中終了させることができる。これにより、たとえば、カラオケ利用現場の盛り上がった雰囲気を損なうことなく、自然な流れとして次の予約待ち曲目を繰り上げ演奏させることができるようになる。
【図面の簡単な説明】
【0020】
【図1】この発明の一実施例を構成するカラオケ装置の機能ブロック図である。
【図2】中央処理装置に付加されている機能とその動作の概略を示すブロック図である。
【発明を実施するための形態】
【0021】
===カラオケ装置の基本的な構成と動作===
この発明の実施例に係るカラオケ装置の概略構成を図1に例示する。
このカラオケ装置は、周知のパソコン相当のコンピュータ応用機器であって、その中核をなす中央処理装置11は、CPU・RAM・ROMを含むコンピュータ本体を形成する。
【0022】
中央処理装置11の制御管理下に、大容量の外部記憶としてのハードディスク装置12、CD−ROMやDVD−ROMなどの光ディスク再生装置13、光通信回線などの公衆通信回線を介してカラオケホスト装置と通信する通信制御装置14、利用者からの入力と利用者に向けての応答をやりとりする利用者インタフェース装置15、MIDI形式の音楽演奏データに基づいて伴奏音楽の音響信号を生成する音楽生成装置16、伴奏音楽やマイクロホン21からの音響信号を増幅してスピーカ22から発音する音響装置17、LCDやPDPなどを用いたディスプレイ18、このディスプレイ18に表示すべき映像データを処理する映像処理装置19などが設置されている。
【0023】
ハードディスク装置12には多数のカラオケ楽曲について、MIDIデータを主体とした伴奏音楽データと、歌詞画像の生成起源となる歌詞文字データとを含むカラオケデータが蓄積されている。また、所定形式の長時間分の動画データと、動画データの処理シーケンス(処理すべき動画データの格納場所と処理順番など)を規定した台本データや、演奏可能なカラオケ楽曲について、曲名やアーティスト名、発表年、歌詞の歌い出し部分などの目次情報も格納されている。
【0024】
中央処理装置11は、各楽曲のカラオケデータ、台本データ、および目次情報を楽曲番号によって識別し、これをカラオケデータベースとして管理している。
【0025】
中央処理装置11は、利用者インタフェース装置15から演奏予約コマンドを受信すると、その受信コマンドに含まれている楽曲ID(楽曲識別符号)を受け取った順に演奏予約の待ち行列に登録する。そして待ち行列から登録順に楽曲IDを取り出して、カラオケデータベースから該当する楽曲用のカラオケデータを取りだして演奏処理に供する。
【0026】
音楽生成装置16はカラオケデータ中の伴奏音楽データによって伴奏音楽を生成する。歌詞文字データについては、伴奏音楽に同期して歌唱すべき箇所が色変わりする歌詞画像をビデオRAMに順次ビットマップ展開していく。また、台本データに基づいて所定の動画データを所定の順番で映像処理装置19に順次転送して歌詞画像の背景動画を復号させる。
【0027】
音響装置17はミキシングアンプを含み、音楽生成装置16で生成された伴奏音楽と、マイクロホン22に入力された歌声音声とを混合・増幅してスピーカ22より音響出力する。この音響装置17には、マイクロホン21から入力された音声信号をデジタル処理するためのAD変換器171が含まれている。
【0028】
映像処理装置19は、復号した動画映像に歌詞画像をスーパーインポーズ処理してディスプレイ18に表示出力する。歌詞画像は、伴奏音楽の進行に同期した時系列の歌詞文字データから順次作成される。
【0029】
利用者インタフェース装置15には、カラオケ装置本体の操作パネルやカラオケリモコン装置が含まれ、双方向通信が可能な短距離無線通信手段(IrDAトランシーバ・赤外線LED・赤外線受光素子)を備えている。
【0030】
=== 中央処理装置11に付加されている機能とその動作===
この発明に係るカラオケ装置においては、カラオケ装置全体の動作が中央処理装置11の制御管理下で行われるが、この中央処理装置11には、図2に示すように、音声分析、音声認識、間奏区間弁別、および演奏中止等の各機能部がソフトウェア的に付加されている。
【0031】
音声分析機能部は、音楽生成装置16が伴奏音楽を生成し、かつ、その伴奏音楽に同期して歌詞文字データが順次出力される歌唱区間のときに、カラオケ伴奏音楽の進行に合わせて歌う歌唱者のマイクロホン21から得た歌声信号と、伴奏音楽の進行に同期した時系列の歌詞文字データとに基づいて、歌唱者の音声を分析して特徴パラメータを抽出する。
【0032】
この歌唱区間では、歌唱すべき歌詞文字に対応させて歌唱者の音声を分析することにより、その歌唱者の音声認識に必要な特徴パラメータが抽出される。抽出した特徴パラメータはメモリに順次更新しながら蓄積される。メモリには常に最新の特徴パラメータだけが記憶・蓄積される。また、共通する歌詞文字が複数存在した場合には平均化した特徴パラメータを記憶・蓄積するようにしてもよい。
【0033】
歌唱区間と間奏区間は、演奏中の楽曲についてのカラオケデータに含まれている時間データ、あるいは歌詞文字データの時系列上の出力パターンなどに基づいて弁別される。
【0034】
音声認識機能部は、伴奏音楽は継続するが歌詞文字データは出力されない間奏区間のときに、マイクロホン21から得られる歌唱者の発話を、その間奏区間の直前までに音声分析機能部が分析してメモリに記憶した特徴パラメータに基づいて音声認識する。この音声認識の結果と、メモリにあらかじめ記憶されている演奏中止指示用単語とに基づいて、間奏区間の直前まで歌っていた歌唱者が演奏中止指示用単語(たとえば、「オワリ」「チュウシ」「ツギ」「ストップ」「ネックスト」など)を発話したか否かを分析する。
【0035】
ここで、演奏中止指示用単語が発話されたと分析されると、その分析結果が演奏中止指令として音声認識機能部から発信される。中央処理装置11は、その演奏中止指令に応答して伴奏音楽を途中終了させる手順を実行し、次の予約待ち曲目がある場合は、その予約待ち曲目を繰り上げ演奏させる。
【0036】
演奏中止指示用単語が発話されなかったと分析された場合は、そのまま演奏を継続させる。
【0037】
以上のように、この発明に係るカラオケ装置では、マイクロホンを手にして歌唱体勢にある歌唱者本人が、そのマイクロホンへの音声指示だけでもって、伴奏音楽を円満かつ円滑に途中終了させることができるが、このとき、その歌唱者本人の音声指示は、その歌唱者が歌唱中にその歌唱発音から分析・抽出した特徴パラメータに基づいて音声認識される。
【0038】
これにより、その歌唱者を話者に限定した特定話者音声認識が行われ、この認識結果に基づいてその歌唱者が演奏中止指示用単語を発音したか否かが分析される。この特定話者音声認識は、不特定話者音声認識に比べて、認識精度が高く、背景音が大きいカラオケ利用環境でも誤動作が少ない利点があるが、その音声認識を間奏区間に限定することで歌唱者の音声による演奏中止指示は一層確実に行われるようになる。
【0039】
特定話者音声認識のためには特定話者の音声特徴パラメータ登録という面倒な準備操作が必要になるが、この発明に係るカラオケ装置では、歌唱者はそういった面倒をまったく意識する必要がなく、歌唱区間に普通に歌唱するだけで特定話者音声認識に必要な特徴パラメータが抽出されてメモリに記憶・登録される。
【0040】
そして、間奏区間に歌唱者がマイクロホンに音声指示を発話するだけでもって、伴奏音楽を円満かつ円滑に途中終了させることができる。これにより、たとえば、カラオケ利用現場の盛り上がった雰囲気を損なうことなく、自然な流れとして次の予約待ち曲目を繰り上げ演奏させることができる。
【符号の説明】
【0041】
11 中央処理装置
12 ハードディスク装置
13 光ディスク再生装置
14 通信制御装置
15 利用者インタフェース装置
16 音楽生成装置
17 音響装置
171 AD変換器
18 ディスプレイ
19 映像処理装置
21 マイクロホン
22 スピーカ

【特許請求の範囲】
【請求項1】
音声分析手段と、音声認識手段と、演奏中止手段を備えたカラオケ装置であって、
音声分析手段は、カラオケ伴奏音楽の進行に合わせて歌う歌唱者のマイクロホンから得た歌声信号と、伴奏音楽の進行に同期した時系列の歌詞文字データとに基づいて、歌唱者の音声を分析して特徴パラメータを抽出し、
音声認識手段は、カラオケ伴奏音楽の間奏区間において、直前までに音声分析手段が分析した特徴パラメータと、メモリに記憶されている演奏中止指示用単語とに基づいて、直前まで歌っていた歌唱者が演奏中止指示用単語を発話したか否かを分析し、
演奏中止手段は、音声認識手段が演奏指示用単語を発話したと分析した場合、演奏中のカラオケ伴奏音楽を途中終了させる
カラオケ装置。

【図1】
image rotate

【図2】
image rotate