楽曲練習支援装置、動的時間整合モジュールおよびプログラム
【課題】種々の技法が駆使された歌唱や演奏の巧拙を評価することの可能なカラオケ装置を提供する。
【解決手段】模範音声および練習者音声の各々から音響パラメータ(ピッチ、音量およびスペクトル)を検出する。検出された音量が閾値を超える区間を有音区間とし、その有音区間についてDTW(動的時間整合)を施し両音声がどのように対応するのかを決定する。その後、両音声において対応する部分について波形の一致度を評価する。
【解決手段】模範音声および練習者音声の各々から音響パラメータ(ピッチ、音量およびスペクトル)を検出する。検出された音量が閾値を超える区間を有音区間とし、その有音区間についてDTW(動的時間整合)を施し両音声がどのように対応するのかを決定する。その後、両音声において対応する部分について波形の一致度を評価する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの歌唱または演奏をその手本と比較評価するための技術に関する。
【背景技術】
【0002】
従来、カラオケ装置において、歌唱者の歌唱を評価するための採点機能が種々提案されている。この種のカラオケ装置は、マイクロフォンから入力された歌唱者の音声から歌唱者が発生した音声の高さや音量あるいはテンポなどの歌唱特性を示す歌唱データを生成する。そして上記カラオケ装置は、その歌唱データとガイドメロディなどの採点基準データとを比較し、その比較結果に基づいて所定の得点を付与して採点データを生成する。歌唱パートが終了すると、この採点データ中の得点を集計して総合得点を算出する。
たとえば特許文献1には、カラオケのガイドメロディから抽出した音の高さと、歌唱者が発生した音声の高さや音量を検出し、両者の比較により評価を行う一方、歌唱率(実際に歌唱した部分/歌唱すべき部分)を求め、歌唱率を上記の評価に加味する技術が開示されている。これにより、従来の抱えていた問題、すなわち実際に歌唱した部分が少ない場合に、歌唱したわずかな部分の音声だけで総合評価が決まってしまう、という課題が解決される。また、特許文献2には、カラオケボックスなどで歌唱者が録音した音声をネットワークなどにより遠隔の歌唱指導者に送り、歌唱指導者は歌唱指導内容をまたネットワークなどで歌唱者に提供し、個別に歌唱指導を行うことを可能にする通信システムが開示されている。
【特許文献1】特開2005−215493号公報
【特許文献2】特開2003−15673号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、熟練した歌唱者は、楽譜内容に忠実に歌唱するのではなく、歌い始めや歌い終わりを意図的にずらしたり、声質や音量を変化させたり、或いはビブラートやこぶしを用いたりするなど様々な歌唱技法を駆使して情感や味わいを表現する場合がある。このような情感や味わいは歌唱者によって様々に表現され、例えば、フレーズの末尾に必ずビブラートをかけたり、歌い始めを必ずためたりする(歌い始めのタイミングを意図的に遅らせる)など、歌手毎に特徴があることが多い。
一方、カラオケ装置を用いて歌唱練習を行うユーザは、好みの歌手の歌唱技法を真似て歌唱したいと考えていることが多く、カラオケ装置を利用して歌唱練習を行う際には、その歌唱技法をどの程度再現できたのかについても評価を受けたいと望んでいる場合がある。
【0004】
しかしながら、特許文献1や特許文献2に開示された技術では、上記の如きニーズに応えることができないのみならず、歌い始めをためるなどの歌唱技法は、楽譜内容からの逸脱として減点対象となってしまう場合もある。何故ならば、特許文献1や特許文献2に開示された技術にて評価基準となるガイドメロディは楽曲のピッチの変化を楽譜内容に則して忠実に再現するものであり、これら特許文献1や特許文献2に開示された技術は楽譜内容に忠実に歌唱されたか否かを評価することを目的としているからである。なお、これは楽曲の歌唱に限らず、楽器の演奏についても同様である。
【0005】
本発明は、上記の問題に鑑み、種々の歌唱技法が駆使された歌唱や演奏に関する評価をより効率的に実行することを可能にする技術を提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明に係る楽曲練習支援装置の第1の構成は、ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段と、を有する動的時間整合モジュール、を備え、前記第1のオーディオ信号の信号波形と前記第2のオーディオ信号の信号波形とを前記動的時間整合モジュールにより対応付けが為された時間単位毎に比較し、両者の一致の度合いを点数化して出力することを特徴とする。
【0007】
本発明に係る楽曲練習支援装置の第2の構成は、上記第1の構成において、前記区間選択手段は、前記第1および第2のオーディオ信号においてピッチまたは音量の少なくとも一方が予め定められた閾値を下回る無音区間が予め定められた時間を超過して継続する場合に、該当する無音区間を除く区間を前記第1および前記第2のオーディオ信号から選択することを特徴とする。
【0008】
本発明に係る楽曲練習支援装置の第3の構成は、上記第1の構成において、楽曲を一意に識別する楽曲識別子と、前記楽曲識別子により識別される楽曲に対応する前記第2の音響パラメータとの組が1または複数記憶された記憶手段を備え、前記取得手段は、前記ユーザにより選択された楽曲識別子に対応する前記第2の音響パラメータを前記記憶装置から読み出して取得することを特徴とする。
【0009】
本発明に係る動的時間整合モジュールの第1の構成は、ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段とを有することを特徴とする。
【0010】
本発明に係るプログラムの第1の構成は、コンピュータ装置を、ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段として機能させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、種々の技法が駆使された歌唱や演奏に関する評価をより効率的に実行することが可能になる、といった効果を奏する。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照しつつ本発明の1実施形態について説明する。
(A:構成)
図1は、この発明の1実施形態である楽曲練習支援装置としてのカラオケ装置1のハードウェア構成を例示したブロック図である。図1に示すように、カラオケ装置1は、制御部11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、記憶部14、表示部15、操作部16、音声処理部18およびこれらのデータ授受を仲介するバス10を有している。
制御部11は、例えばCPU(Central Processing Unit)であり、ROM12に記憶されている制御プログラムを読み出してRAM13にロードし、これを実行することにより、カラオケ装置1の各部を制御する。
【0013】
記憶部14は、例えばハードディスクなどの大容量の記憶手段であり、伴奏・歌詞データ記憶領域14aと、模範音声データ記憶領域14bと、練習者音声データ記憶領域14cとを有している。
【0014】
表示部15は、例えば液晶ディスプレイとその駆動回路であり、制御部11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。
操作部16は、テンキーなど各種のキーを備えており、押下されたキーに対応した信号を制御部11へ出力する。
【0015】
音声処理部18には、マイクロフォン17とスピーカ19とが接続されている。マイクロフォン17は、カラオケ装置1を利用して歌唱練習を行うユーザ(以下、練習者)の歌唱音を収音し、その歌唱音に応じた音声信号(アナログデータ)を音声処理部18へ出力する。音声処理部18は、マイクロフォン17から出力された音声信号(アナログデータ)を音声データ(デジタルデータ)に変換して制御部11へ出力する一方、制御部11から引渡された音声データを音声信号に変換しスピーカ19へ出力する。スピーカ19は、音声処理部18から出力される音声信号に応じた音声を放音する。
【0016】
記憶部14の伴奏・歌詞データ記憶領域14aには、楽曲の伴奏を行う各種楽器の演奏音(所謂ガイドメロディ)が楽曲の進行順に記された伴奏データと、楽曲の歌詞を示す歌詞データとが互いに関連付けられて1または複数の楽曲について記憶されている。より詳細に説明すると、伴奏・歌詞データ記憶領域14aに記憶されている伴奏データと歌詞データとには、カラオケ楽曲を一意に識別する識別子(例えば、英字や記号、数字などからなる楽曲コード:以下、楽曲識別子)が対応付けられており、この楽曲識別子によって伴奏データと歌詞データとが互いに関連付けられている。伴奏データは、例えばMIDI(Musical Instruments Digital Interface)形式などのデータであり、練習者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部15に表示される。
【0017】
模範音声データ記憶領域14bには、前述した楽曲識別子に対応付けて、その楽曲識別子で識別される楽曲を持ち歌とする歌手によるその楽曲の歌唱音(以下、模範音声)の音声を表すWAVE形式の音声データ(以下、模範音声データ)が記憶されている。この模範音声データは、練習者の歌唱を評価する際の基準として利用される。
【0018】
練習者音声データ記憶領域14cには、マイクロフォン17から音声処理部18を経てA/D変換されることにより生成される音声データ(以下、練習者音声データ)が、例えばWAVE形式で記憶される。
【0019】
次に、図2に示すブロック図を参照しながら、カラオケ装置1の機能構成について説明する。図2に示す基礎分析モジュール21、動的時間整合(Dynamic Time Warping:以下、DTW)モジュール22、および、評価モジュール23は、制御部11が前述した制御プログラムを実行することによって実現されるソフトウェアモジュールである。なお、図中の矢印は、データの流れを概略的に示したものである。また、上記3つのソフトウェアモジュールの他にも、練習者により指定されたカラオケ曲の伴奏データにしたがった伴奏音の再生や、その伴奏音と練習者の歌唱音とを合成して出力するカラオケ演奏モジュールも上記制御プログラムを制御部11が実行することによって実現されるが、係るカラオケ演奏モジュールの機能については従来のカラオケ装置となんら変わるところがないため、図示および詳細な説明については省略する。
【0020】
基礎分析モジュール21は、模範音声データと練習者音声データとについて、それぞれ所定時間長のフレーム単位で音響パラメータ(本実施形態では、ピッチ、音量およびスペクトルに関するパラメータ)を検出する。以下では、それぞれのパラメータについて、時間の早いフレームから順に0からフレーム番号を振り(i番目のフレームを第iフレームと呼ぶ)説明を行う。
なお、本実施形態では、模範音声データおよび練習者音声データの各々から上記音響パラメータを抽出する時間単位を1フレームとする場合について説明するが、1フレームをさらに分割したサブフレーム単位で上記音響パラメータを抽出するとしても良く、また、複数フレーム単位で上記音響パラメータから音響パラメータを抽出するとしても良い。要は、模範音声データから音響パラメータを抽出する際の時間単位と、練習者音声データから音響パラメータを抽出する際の時間単位とが一致していれば良く、その時間単位の長さは問わない。
【0021】
以下では、基礎分析モジュール21について詳細に説明する。図2に示すように、基礎分析モジュール21は、ピッチ検出手段211、音量検出手段212、スペクトル検出手段213、および微分手段214a〜214cを含んでいる。基礎分析モジュール21へ引渡された音声データ(すなわち、模範音声データまたは練習者音声データ)は、図2に示す様に3分流され、ピッチ検出手段211、音量検出手段212およびスペクトル検出手段213の各々へ引渡される。
【0022】
ピッチ検出手段211は、上記所定の時間単位分の音声データについて自己相関を求め、その時間単位におけるピッチを検出し、その検出結果を示すピッチデータを出力する。ピッチ検出手段211から出力されたピッチデータは、図2に示すように、DTWモジュール22へ引渡される。なお、本実施形態では、自己相関を求めることによって、時間単位におけるピッチを検出する場合について説明したが、例えば上記時間単位毎にケプストラを求めてピッチを検出するようにしても勿論良い。
【0023】
音量検出手段212は、上記所定の時間単位分の音声データに含まれる各サンプル(本実施形態では256サンプル:図3参照)について、その振幅の絶対値の加算平均を算出し、その算出結果をそのフレームにおける音量を示す音量データとして出力する。音量検出手段212から出力された音量データは、図2に示すように2分流され、その一方はDTWモジュール22へ引渡され、他方は微分手段214aへ引渡される。
【0024】
微分手段214aは、連続する複数(本動作例では5)の時間単位についての音量データから、音量についての1次微分(以下、「速度」と呼ぶ)を算出し、その算出結果を示す音量速度データを出力する。本実施形態では、微分手段214aは、図3に示すように、連続する5つのフレームについての音量データから音量速度データが生成され、この音量速度データは、図2に示すように2分流されてその一方はDTWモジュール22へ引渡され、他方は、微分手段214bへ引渡される。
【0025】
微分手段214bは、連続する複数(本動作例では5)の時間単位について音量速度データから、その1次微分(すなわち、音量の2次微分:以下、音量の加速度)を算出し、その算出結果を示す音量加速度データを出力する。微分手段214bから出力される音量加速度データはDTWモジュール22へ引渡される。
【0026】
スペクトル検出手段213は、図3に示すように連続する2つの時間単位分の音声データに、高速フーリエ変換(Fast Fourier Transform:以下、FFT)を施した後に、所定の通過域を有するバンドパスフィルタ(本実施形態では、歌唱音の音声データが入力されるのであるから、0から2kHZまでは1/2オクターブバンドパスフィルタで、2から8kHzまでは1/4オクターブバンドパスフィルタ)を通過させ、その出力を上記時間単位のスペクトルを表すスペクトルデータとして出力する。スペクトル検出手段213から出力されたスペクトルデータは、図2に示すように2分流され、その一方はDTWモジュール22へ引渡され、他方は微分手段214cへ引渡される。
【0027】
微分手段214cは、連続する複数(本動作例では5)の時間単位についてのスペクトルデータから、スペクトルの各振動数帯域別に1次微分を算出し、その算出結果を示すスペクトル速度データを図2に示すようにDTWモジュール22へ引渡す。
以上が基礎分析モジュール21の構成である。
【0028】
次いで、DTWモジュール22の機能構成について説明する。DTWモジュール22は、図4に示すように模範音声の時間軸と練習者音声の時間軸との対応関係を特定するためのものであり、図2に示すように、DTW実施区間限定手段220、正規化手段221、差分マトリクス生成手段222、および、最適経路特定手段223を含んでいる。
DTW実施区間限定手段220は、模範音声および練習者音声において、以下に説明する動的時間整合(DTW)処理を施す区間を限定する手段である。その機能を以下に詳細に説明する。
【0029】
DTW実施区間限定手段220は、模範音声データから音量検出手段212により抽出された音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える場合に、その区間をDTW実施区間とする。なぜなら、模範音声データの該当する楽曲部分は実際に歌唱した有音区間だからである。
【0030】
また同様に、音量検出手段212により練習者音声データから抽出された音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える場合に、その区間をDTW実施区間とする。なお模範音声および練習者音声において、有音区間の直前および直後に、上記時間単位を1つ分だけ加え(それらの区間をオフセット区間と呼ぶ)、合わせてDTW実施区間とする。
次いでDTW実施区間限定手段220は、基礎分析モジュール21により抽出された模範音声および練習者音声の各種音響パラメータから、上記DTW実施区間限定手段220により限定されたDTW実施区間のみからなるデータを生成する。
【0031】
正規化手段221は、上記DTW実施区間においてフレーム毎に抽出された、模範音声と練習者音声それぞれの音響パラメータをDTW実施区間限定手段220から受け取り、各々を正規化して差分マトリクス生成手段222へ引渡す。ここで、データの正規化とは、フレーム単位でDTW実施区間限定手段220から引渡される一連の音響パラメータに対し、その加算平均および標準偏差が一定の値になるような変換を施すことであり、本実施形態では、以下の数1にしたがって上記正規化を行う。
(数1) AfterDat[i] =(BeforDat[i]) − AVR)/STD
【0032】
なお、数1において、BeforDat[i]は、DTW実施区間限定手段220から引渡される第iフレームについての音響パラメータであり、SDVはその音響パラメータについての標準偏差、AVRはその音響パラメータについての加算平均であり、AfterDat[i]はi番目のフレームについての正規化後の音響パラメータである。
数1に示す正規化を施すことによって、模範音声と練習者音声とのそれぞれについてDTW実施区間限定手段220から引渡される音響パラメータは、加算平均が“0”で標準偏差が“1”である音響パラメータ(すなわち、標準化された正規分布にしたがうデータ)にそれぞれ変換されることになる。
上記の正規化を施すことにより、収音環境の差異などの要因を取り除いて模範音声と練習者音声とを比較することができる。また、模範音声と練習者音声の間に音量レベル差があったり、ピッチがオクターブ単位で異なったりすることは歌唱の巧拙とは関わりがないことがほとんどであるが、そのような個々の音声が本来的に持っている差異などの要因を取り除くこともできる。
【0033】
差分マトリクス生成手段222は、模範音声の各フレームと練習者音声の各フレームについての音響パラメータ同士のユークリッド距離(以下、差分とも呼ぶ)を求め、その差分を成分とする行列(以下、差分マトリクス)を生成し、RAM13に記憶する。例えば、練習者音声の歌い始めが第0フレームで、その歌い終わりが第Nフレームである一方、模範音声の歌い始めが第0フレームで、その歌い終わりが第Mフレームである場合(N、Mは自然数)、差分マトリクス生成手段222は、以下の数2で示す値を(i、j)成分(ただし、0≦i≦N,0≦j≦M)とする(N+1)行(M+1)列の差分マトリクスを生成する。
(数2)Sqr{ (Σ(GuideSpectrum[j][k]−SingerSpectrum[i][k])^2)*WeightScalar[k]
+(Σ(ΔGuideSpectrum[j][k]−ΔSingerSpectrum[i][k])^2)*WeightVector[k]
+(ΔGuidePower[j]−ΔSingerPower[i])^2)
+(ΔΔGuidePower[j]−ΔΔSingerPower[i])^2)
}/num
【0034】
数2において、
GuideSpectrum[j][k]:模範音声のj番目のフレームのk番目の通過域のスペクトル成分
SingerSpectrum[i][k]:練習者音声のi番目のフレームのk番目の通過域のスペクトル成分
ΔGuideSpectrum[j][k]:模範音声のj番目のフレームのk番目のスペクトル速度
ΔSingerSpectrum[i][k]:練習者音声のi番目のフレームのk番目のスペクトル速度
ΔGuidePower[j]:模範音声のj番目のフレームの音量速度
ΔSingerPower[i]:練習者音声のi番目のフレームの音量速度
ΔΔGuidePower[j]:模範音声のj番目のフレームの音量加速度
ΔΔSingerPower[i]:練習者音声のi番目のフレームの音量加速度
WeightScalar[k]:重み付け係数
WeightVector[k]:重み付け係数
num:ユークリッド距離を求めるパラメータの数(本実施形態では、(N+1)×(M+1))である。
【0035】
ただし、WeightScalar[k]は、時間変化に依存しない音響パラメータへの重み付けを行う係数であり、練習者歌唱音および模範音声が有音(周期的な音声)であるか、無音(非周期的な音声)であるかに応じて適宜選択される値である。具体的には、練習者歌唱音および模範音声がともに有音である場合には、低域のスペクトルに重みが付与されるように値の選択がなされ、練習者歌唱音および模範音声がともに無音である場合には、高域のスペクトルに重みが付与されるように値の選択がなされる。なお、練習者歌唱音および模範音声について有音であるか無音であるかの判定は、各々のピッチおよび音量に基づいて為される。具体的には、差分マトリクス生成手段222は、ピッチが所定の閾値以上であり、かつ、音量も所定の閾値以上である場合に、該当する時間単位について有音であると判定し、その他の場合は無音と判定する。
これに対して、WeightVector[k]は、時間変化に依存する音響パラメータへの重み付けを行う係数であり、中域のスペクトルに重みを付与するための係数である。
なお、数2において、Σ記号は、添え字kについての総和を意味し、“^2”は2乗を意味し、Sqr{}は平方根を意味している。
【0036】
最適経路特定手段223は、差分マトリクス生成手段222により生成された(N+1)×(M+1)個の差分マトリクスの成分から、各成分に対応する模範音声のフレームと練習者音声のフレームのフレーム番号が、規定値を越えない成分を選択する。たとえば図13に示される差分マトリクスにおいては、上記規定値を“2”とした場合について示されており、該差分マトリクスにおいては上記の条件を満たす差分マトリクス成分のみが示されている。
【0037】
続いて最適経路特定手段223について説明する。最適経路特定手段223は、差分マトリクスの限定処理を施された差分マトリクス(図13に示された差分マトリクスなど)について最適経路の特定を行う。以下では、図6に示すような成分の限定処理をされていない差分マトリクスを用いて説明する。図6に示す差分マトリクスにおいて、その左下隅(すなわち、(0、0)成分)からその右上隅(すなわち、(N,M)=(3,4)成分)へ至る経路のうち、その経路上に位置する各成分の値の累積が最小になる経路を、練習者音声と模範音声の各時間単位の対応関係を表す経路として特定し、その経路の示す時間の対応関係を表すデータを評価モジュール23へ引渡す。より詳細に説明すると、最適経路特定手段223は、以下に説明する規則にしたがって上記最適経路を特定する。
【0038】
(規則1)差分マトリクスの左下隅から経路の探索を始め、移動先の成分値を累算した値が最小になるように移動先を選択する処理を右上隅に至るまで繰り返す。ただし、1回の移動は、右、上、または右上の何れかに制限する。例えば、(i、j)成分からの移動は、(i、j+1)成分、(i+1、j)成分、または、(i+1、j+1)成分への移動へ制限する。なお、右へ移動した場合の累積値と上へ移動した場合の累積値が等しい場合には、右への移動を優先する。同様に、右への移動と右上への移動の累積値が等しい場合には、右への移動を優先し、上への移動と右上への移動の累積値が等しい場合には、上への移動を優先する。
(規則2)上記規則1にしたがって選択された経路を右上隅から左下隅まで逆に辿り、最適経路を特定する。
【0039】
図2の評価モジュール23は、DTWモジュール22により時間軸の対応付けが為された模範音声データと練習者音声データとについて、各々の信号波形を比較し、模範音声に対する練習者音声の一致度を点数化して表示部15に表示させるものである。なお、評価モジュール23は、練習者音声の波形と模範音声の波形とを比較する際に、DTWモジュール22により為された動的時間整合の結果にしたがって、模範音声の時間軸に一致するように練習者音声の時間軸を伸縮した後に、両者の波形を比較する。
以上がカラオケ装置1の構成である。このように、本実施形態では、本発明に係る楽音練習支援装置に特徴的な機能を担っている基礎分析モジュール21およびDTWモジュール22がソフトウェアモジュールで実現されている場合について説明したが、これら各モジュールをハードウェアモジュールで実現しても良いことは勿論である。
【0040】
(B:動作)
次いで、カラオケ装置1が行う採点処理のうち、その特徴を顕著に示している動作(すなわち、基礎分析モジュール21およびDTWモジュール22の動作)を中心に図面を参照しつつ説明する。なお、以下に説明する動作例では、カラオケ装置1の電源(図示)が投入済みであり、制御部11はROM12からRAM13へロードした制御プログラムにしたがって作動しているものとする。
【0041】
カラオケ装置1を用いて歌唱練習を行おうとする練習者は、表示部15に表示されるメニュー画面等を参照しながら操作部16を適宜操作することによって、歌唱練習を行う楽曲の楽曲識別子を入力するなど練習対象の楽曲を指定することができる。このようにして練習対象の楽曲が指定されると、制御部11は、その楽曲識別子に対応する伴奏データおよび歌詞データを記憶部14からRAM13へロードする。そして、上記練習者が演奏開始を指示する旨の操作を操作部16に対して行うと、制御部11は、RAM13へ読み出した伴奏データにしたがった伴奏音の再生を音声処理部18に実行させるとともに、歌詞データの表す歌詞テロップを埋め込んだカラオケ画面を表示部15へ表示させ、楽曲の進行に併せてその歌詞のワイプ表示を行う。
【0042】
練習者は、上記カラオケ画面を視認し、スピーカから放音される伴奏音に合わせて楽曲の歌唱を行う。そして、練習者の歌唱音はマイクロフォン17によって収音され、その歌唱音に応じた練習者音声データが練習者音声データ記憶領域14cに順次書き込まれる。このようにして練習者音声データが練習者音声データ記憶領域14cに記憶されると、制御部11は、この練習者音声データと、上記楽曲識別子に対応付けて模範音声データ記憶領域14bに記憶されている模範音声データとを読出し、図5に示す採点処理を実行する。
【0043】
図5は、制御部11が上記制御プログラムにしたがって行う採点処理の流れを示すフローチャートである。図5に示すように、制御部11は、模範音声データおよび練習者音声データを解析して、楽曲のはじめから終わりまでについて、所定の時間単位(本実施形態では、フレーム)毎に音響パラメータを抽出する(ステップSA100)。なお、このステップSA100の処理は、前述した基礎分析モジュール21により実行される。
【0044】
次いで制御部11は、ステップSA100にて抽出した模範音声データにおいて歌唱が行われている部分を、また練習者音声データにおいて、実際に歌唱が行われた部分を動的時間整合(DTW)の処理を行う楽曲区間として特定する(ステップSA110)。次いで、ステップSA100にて抽出した各種音響パラメータに関するデータから、上述のようにして特定されたDTW実施区間のみからなるデータを生成し、該データを正規化手段221に受渡す。このステップSA110の処理は、前述したDTWモジュール22のDTW実施区間限定手段220により実行される。
【0045】
本実施形態に係るカラオケ装置1において、歌唱を行わない間奏部分などについては当然歌唱の評価を行う必要はない。従って、上記のように歌唱を行う部分に対応するデータを生成することにより、以降実行される処理の効率化を図ることができる。
次いで制御部11は、パラメータの種類毎に該音響パラメータに正規化を施し(ステップSA120)、正規化後の音響パラメータから差分マトリクスを生成する(ステップSA130)。なお、このステップSA120の処理は、前述したDTWモジュール22の正規化手段221により実行され、ステップSA130の処理は、同DTWモジュール22の差分マトリクス生成手段222により実行される。なお、本動作例では、ステップSA130までの処理が実行された結果として、図6に示す差分マトリクスが生成されたものとする。
【0046】
ここで、最適経路特定手段223は、上記のように生成された差分マトリクスの成分から、差分マトリクス成分に対応する模範音声のフレームと練習者音声のフレーム番号の差が、予め定められた規定値以下である差分マトリクス成分を選択する。たとえば図13に示される差分マトリクスにおいては、規定値は“2”であり、上記の条件を満たす差分マトリクス成分が限定される(ステップSA140)。
【0047】
次いで、制御部11は、ステップSA140にて限定された差分マトリクスの成分から最適経路を特定する(ステップSA150)。このステップSA150の処理は前述した最適経路特定手段223により実行される処理であり、具体的には、最適経路特定手段223は以下に説明する手順で、最適経路の特定を行う。
【0048】
最適経路特定手段223は、まず、差分マトリクスの第1列に沿った経路について、移動に伴う成分値の累積を行う(図7参照)。例えば、第1列に沿った経路の出発点である(0、0)成分の値は“1”であり、(1,0)成分の値は“4”であるから(図6参照)、(0,0)成分から(1,0)成分への移動に伴う累積値は“5”になる(図7参照)。そして、(2,0)成分の値は“1”であるから、(0,0)成分→(1,0)成分→(2,0)成分という移動に伴う累積値は“6”になる(図7参照)。以下、(3,0)成分に至るまで移動に伴う成分値の累積を行い、図7に示す結果が得られる。
【0049】
次いで、最適経路特定手段223は、前述した第1列の場合と同様に、第2列についても移動に伴う成分値の累積を行う(図8参照)。以下、同様に、差分マトリクスの右上隅(すなわち、(3、4)成分)に至るまで、移動に伴う成分値の累積を繰り返す(図9参照)。
【0050】
図9に示すように、差分マトリクスの右上隅まで移動に伴う成分値の累積を完了すると、最適経路特定手段223は、その右上隅を出発点として、その出発点へ向けての移動が可能な格子点(すなわち、その出発点の左、左下、または、下の格子点)のうち、その格子点に至るまでの経路に沿った成分値の累積が最小である格子点を経路候補として特定する。そして、最適経路特定手段223は、経路候補が左下隅の格子点に一致するまで、上記特定した経路候補を上記出発点として次の経路候補を特定する処理を繰り返す。その結果、図7に示す差分マトリクスについては、図10に示す最適経路候補(すなわち、(3,4)→(2,3)→(1,2)→(1,1)→(0,0))が特定される。
次いで、最適経路特定手段223は、上記のようにして特定した最適経路候補を逆に辿るとともに、その最適経路候補から外れて移動を行う場合には、上記累積値が増加することを確かめ、最適経路を特定する(図11参照)。
【0051】
以上のようにして特定された最適経路は、模範音声の時間軸と練習者音声の時間軸との対応関係を表している。具体的には、図11に示す最適経路は、模範音声についての各フレームと練習者音声についての各フレームとが図12に示すように対応していることを示している。最適経路特定手段223は、図12に示す対応関係を示すデータを生成し、そのデータを評価モジュール23へ出力する(ステップSA160)。
【0052】
以下、評価モジュール23は、最適経路特定手段223により特定された対応関係を満たすように練習者音声データにタイムアラインメントを施した後に模範音声データと比較し、その比較結果を点数化して表示部15に表示する。
【0053】
以上に説明したように、本実施形態に係るカラオケ装置1によれば、練習者による歌唱を評価する過程において、DTW実施区間を前述した有音区間に限定する(換言すれば、無音区間を除外する)。DTW実施区間を限定することにより、また差分マトリクスにおいて成分の限定をすることにより、必要とされる計算量を減らすことができる、といった効果を奏する。
【0054】
(C:変形)
以上、本発明の1実施形態について説明したが、係る実施形態に以下に述べるような変形を加えても良いことは勿論である。
(1)上述した実施形態では、本発明に特徴的な動的時間整合(DTW)処理を行う機能をカラオケ装置へ組み込むことによって、種々の技法を駆使して歌唱が行われた場合に、その手本となる歌唱にて駆使されている技法との相違を評価することを可能にする場合について説明した。しかしながら、上記DTWモジュール22による動的時間整合処理の処理対象は、上記歌唱音に限定されるものではなく、種々の技法を駆使して演奏された楽器の演奏音データとその手本となる模範演奏データであっても良く、また、英会話などの外国語習得にも利用することができる。
【0055】
(2)上述した実施形態では、練習者音声および模範音声のピッチおよび音量に基づいて有音であるか無音であるかを判定し、その判定結果に応じて時間変化に依存しない音響パラメータ(上記実施形態では、スペクトル)に付与する重みを切り替える場合について説明したが、ピッチのみ、或いは、音量のみに基づいて有音/無音の判定をするようにしても勿論良い。また、上記の如き重みの切り替えは必ずしも必須ではないから、係る切り替えを行わない態様においては、ピッチの検出や基礎分析モジュール21からDTWモジュール22への音量データの引渡しを行う必要がないことは言うまでも無い。
【0056】
(3)上述した実施形態では、練習者歌唱音と模範音声との動的時間整合を行う際には、その都度、模範音声データ記憶領域14bに記憶されている模範音声データを基礎分析モジュール21によって分析し、その模範音声データの表す歌唱音についての音響パラメータを算出する場合について説明した。しかしながら、模範音声データについて上記音響パラメータを予め求めておき、その音響パラメータと楽曲識別子とを対応付けて記憶部14に記憶させておくようにしても勿論良い。
また、上述した実施形態では、カラオケ装置1に設けられた記憶部14に模範音声データを記憶させておく場合について説明したが、CD−ROM(Compact Disk-Read Only Memory)やDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に模範音声データや模範音声データから抽出される音響パラメータを書き込んで配布し、このような記録媒体からの模範音声データや音響パラメータの読み出しにより、模範音声データや音響パラメータを取得させるようにしても良く、また、インターネットなどの電気通信回線経由で模範音声についての音響パラメータを取得させるようにしても良い。
【0057】
(4)上述した実施形態では、練習者音声データや模範音声データから音響パラメータの抽出を行う基礎分析モジュール21と、それら音響パラメータに基づいて模範音声と練習者音声との時間軸の対応付けを行うDTWモジュール22とを夫々別個のソフトウェアモジュールとして実現する場合について説明したが、1つのソフトウェアモジュールとして構成しても良いことは勿論である。具体的には、音響パラメータの正規化および正規化後の音響パラメータを用いて動的時間整合を行う動的時間整合モジュールに、練習者音声データから音響パラメータを抽出する機能や、模範音声データからの抽出或いは記録媒体等からの読出しにより模範音声についての音響パラメータの取得を行う機能を担わせるようにすれば良い。
【0058】
(5)上述した実施形態では、本発明に係る楽曲練習支援装置に特徴的な機能を制御部11に実現させるための制御プログラムをROM12に予め書き込んでおく場合について説明したが、CD−ROMやDVDなどのコンピュータ装置読み取り可能な記録媒体に上記制御プログラムを記録して配布するとしても良く、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布するようにしても勿論良い。
【0059】
(6)上述した実施形態では、動的時間整合を行うための音響パラメータとして、ピッチ、音量およびスペクトルと、音量の1次微分および2次微分、スペクトルの1次微分を用いる場合について説明した。これら音響パラメータのうち、音量の1次微分および2次微分は、音量の時間変化の度合いを表すものであるが、2次微分は必ずしも必須ではない。また、スペクトルについても、その時間変化の度合いを動的時間整合により正確に反映させるため、2次微分まで求めるようにしても勿論良い。
【0060】
(7)上述した実施形態では、差分マトリクス生成手段222は、差分マトリクスの成分全てについて値を算出し(ステップSA130)、その後、最適経路特定手段223がそれらの成分から経路の候補となる成分を限定する(ステップSA140)場合について説明した。しかし、ステップSA140において除外される成分については予めステップSA130において差分マトリクス生成手段222が生成しないようにしてもよい。
その理由は以下の通りである。歌唱者は表示部15に表示された歌詞テロップを見ながら歌唱するため、歌詞テロップがまだ表示されていない楽曲部分を歌うことや、歌詞テロップが表示され終わった楽曲部分を遅れて歌うといったように模範音声と極端にずれた歌唱を行う可能性は低い。そのように極端な歌唱を行う場合は、模範音声と練習者音声とでフレーム番号が極端に異なる組み合わせである場合に対応する。従って、差分マトリクスにおいて、たとえば(N,0)成分など、模範音声と練習者音声で番号が極端に異なるフレームについて算出された差分からなる成分については検討する必要性は低い。
【0061】
(8)上述した実施形態では、DTW実施区間限定手段220は、模範音声や練習者音声の音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間を、DTW実施区間とする場合について説明した。しかし、音量に加えてまたは音量の代わりに、模範音声のピッチに基づいてDTW実施区間を決定しても良い。具体的には、(a)模範音声のピッチが予め定められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間、(b)模範音声の音量およびピッチの両方が予め定められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間、(c)模範音声の音量が予め決められた閾値を上回る区間(区間の時間は考慮しない)、(d)模範音声のピッチが予め決められた閾値を上回る区間(区間の時間は考慮しない)、をDTW実施区間としても良い。
【0062】
(9)上述した実施形態では、カラオケ曲を一意に識別する楽曲識別子に対応付けてその楽曲識別子で識別されるカラオケ曲を持ち歌とする歌手によるそのカラオケ曲の歌唱音を表す模範音声データを記憶部14に記憶させておく場合について説明した。
しかしながら、1つの楽曲を複数の歌手が夫々個別に持ち歌としている場合には、その歌手毎に異なる楽曲であるとして、互いに異なる楽曲識別子を付与しても良く、また、その楽曲を一意に識別する楽曲識別子に上記複数の歌手の各々を一意に識別する歌手識別子を対応付け、さらに、この楽曲識別子と歌手識別子の組に、その楽曲識別子で識別される楽曲の、その歌手識別子で識別される歌手による歌唱音を表す模範音声データを対応付けて記憶部14に記憶させておくとしても良い。前述したように、歌手毎にその歌唱技法が異なっていることが一般的であり、同一の楽曲であっても歌い手が異なれば、その歌唱に込められる情感や味わいも異なることが一般的である。上記のように歌い手の識別を可能なように構成すれば、1つの楽曲を複数の歌手が持ち歌としている場合であっても、ユーザは、それら複数の歌手のうちから自身の好みに応じた歌手による歌唱を選択し、その歌唱を真似て歌唱練習を行うことが可能になる。
【図面の簡単な説明】
【0063】
【図1】本発明の1実施形態に係るカラオケ装置1のハードウェア構成の一例を示すブロック図である。
【図2】同カラオケ装置1の機能構成例を示すブロック図である。
【図3】同基礎分析モジュール21により実行される音響パラメータ抽出を説明するための図である。
【図4】同DTWモジュール22により実行される動的時間整合処理の実行結果の一例を示す図である。
【図5】同カラオケ装置1が行う採点処理の流れを示すフローチャートである。
【図6】差分マトリクスの一例を示す図である。
【図7】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図8】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図9】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図10】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図11】最適経路特定処理にて特定される最適経路の一例を示す図である。
【図12】動的時間整合処理の処理結果を説明するための図である。
【図13】成分を限定された差分マトリクスの一例を示す図である。
【符号の説明】
【0064】
1…カラオケ装置、10…バス、11…制御部、12…ROM、13…RAM、14…記憶部(14a;伴奏・歌詞データ記憶領域、14b;模範音声データ記憶領域、14c;練習者音声データ記憶領域)、15…表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ、21…基礎分析モジュール、22…DTWモジュール、23…評価モジュール、211…ピッチ検出手段、212…音量検出手段、213…スペクトル検出手段、214、214a、214b、214c…微分手段、220…DTW実施区間限定手段、221…正規化手段、222…差分マトリクス生成手段、223…最適経路特定手段
【技術分野】
【0001】
本発明は、ユーザの歌唱または演奏をその手本と比較評価するための技術に関する。
【背景技術】
【0002】
従来、カラオケ装置において、歌唱者の歌唱を評価するための採点機能が種々提案されている。この種のカラオケ装置は、マイクロフォンから入力された歌唱者の音声から歌唱者が発生した音声の高さや音量あるいはテンポなどの歌唱特性を示す歌唱データを生成する。そして上記カラオケ装置は、その歌唱データとガイドメロディなどの採点基準データとを比較し、その比較結果に基づいて所定の得点を付与して採点データを生成する。歌唱パートが終了すると、この採点データ中の得点を集計して総合得点を算出する。
たとえば特許文献1には、カラオケのガイドメロディから抽出した音の高さと、歌唱者が発生した音声の高さや音量を検出し、両者の比較により評価を行う一方、歌唱率(実際に歌唱した部分/歌唱すべき部分)を求め、歌唱率を上記の評価に加味する技術が開示されている。これにより、従来の抱えていた問題、すなわち実際に歌唱した部分が少ない場合に、歌唱したわずかな部分の音声だけで総合評価が決まってしまう、という課題が解決される。また、特許文献2には、カラオケボックスなどで歌唱者が録音した音声をネットワークなどにより遠隔の歌唱指導者に送り、歌唱指導者は歌唱指導内容をまたネットワークなどで歌唱者に提供し、個別に歌唱指導を行うことを可能にする通信システムが開示されている。
【特許文献1】特開2005−215493号公報
【特許文献2】特開2003−15673号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、熟練した歌唱者は、楽譜内容に忠実に歌唱するのではなく、歌い始めや歌い終わりを意図的にずらしたり、声質や音量を変化させたり、或いはビブラートやこぶしを用いたりするなど様々な歌唱技法を駆使して情感や味わいを表現する場合がある。このような情感や味わいは歌唱者によって様々に表現され、例えば、フレーズの末尾に必ずビブラートをかけたり、歌い始めを必ずためたりする(歌い始めのタイミングを意図的に遅らせる)など、歌手毎に特徴があることが多い。
一方、カラオケ装置を用いて歌唱練習を行うユーザは、好みの歌手の歌唱技法を真似て歌唱したいと考えていることが多く、カラオケ装置を利用して歌唱練習を行う際には、その歌唱技法をどの程度再現できたのかについても評価を受けたいと望んでいる場合がある。
【0004】
しかしながら、特許文献1や特許文献2に開示された技術では、上記の如きニーズに応えることができないのみならず、歌い始めをためるなどの歌唱技法は、楽譜内容からの逸脱として減点対象となってしまう場合もある。何故ならば、特許文献1や特許文献2に開示された技術にて評価基準となるガイドメロディは楽曲のピッチの変化を楽譜内容に則して忠実に再現するものであり、これら特許文献1や特許文献2に開示された技術は楽譜内容に忠実に歌唱されたか否かを評価することを目的としているからである。なお、これは楽曲の歌唱に限らず、楽器の演奏についても同様である。
【0005】
本発明は、上記の問題に鑑み、種々の歌唱技法が駆使された歌唱や演奏に関する評価をより効率的に実行することを可能にする技術を提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明に係る楽曲練習支援装置の第1の構成は、ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段と、を有する動的時間整合モジュール、を備え、前記第1のオーディオ信号の信号波形と前記第2のオーディオ信号の信号波形とを前記動的時間整合モジュールにより対応付けが為された時間単位毎に比較し、両者の一致の度合いを点数化して出力することを特徴とする。
【0007】
本発明に係る楽曲練習支援装置の第2の構成は、上記第1の構成において、前記区間選択手段は、前記第1および第2のオーディオ信号においてピッチまたは音量の少なくとも一方が予め定められた閾値を下回る無音区間が予め定められた時間を超過して継続する場合に、該当する無音区間を除く区間を前記第1および前記第2のオーディオ信号から選択することを特徴とする。
【0008】
本発明に係る楽曲練習支援装置の第3の構成は、上記第1の構成において、楽曲を一意に識別する楽曲識別子と、前記楽曲識別子により識別される楽曲に対応する前記第2の音響パラメータとの組が1または複数記憶された記憶手段を備え、前記取得手段は、前記ユーザにより選択された楽曲識別子に対応する前記第2の音響パラメータを前記記憶装置から読み出して取得することを特徴とする。
【0009】
本発明に係る動的時間整合モジュールの第1の構成は、ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段とを有することを特徴とする。
【0010】
本発明に係るプログラムの第1の構成は、コンピュータ装置を、ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段として機能させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、種々の技法が駆使された歌唱や演奏に関する評価をより効率的に実行することが可能になる、といった効果を奏する。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照しつつ本発明の1実施形態について説明する。
(A:構成)
図1は、この発明の1実施形態である楽曲練習支援装置としてのカラオケ装置1のハードウェア構成を例示したブロック図である。図1に示すように、カラオケ装置1は、制御部11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、記憶部14、表示部15、操作部16、音声処理部18およびこれらのデータ授受を仲介するバス10を有している。
制御部11は、例えばCPU(Central Processing Unit)であり、ROM12に記憶されている制御プログラムを読み出してRAM13にロードし、これを実行することにより、カラオケ装置1の各部を制御する。
【0013】
記憶部14は、例えばハードディスクなどの大容量の記憶手段であり、伴奏・歌詞データ記憶領域14aと、模範音声データ記憶領域14bと、練習者音声データ記憶領域14cとを有している。
【0014】
表示部15は、例えば液晶ディスプレイとその駆動回路であり、制御部11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。
操作部16は、テンキーなど各種のキーを備えており、押下されたキーに対応した信号を制御部11へ出力する。
【0015】
音声処理部18には、マイクロフォン17とスピーカ19とが接続されている。マイクロフォン17は、カラオケ装置1を利用して歌唱練習を行うユーザ(以下、練習者)の歌唱音を収音し、その歌唱音に応じた音声信号(アナログデータ)を音声処理部18へ出力する。音声処理部18は、マイクロフォン17から出力された音声信号(アナログデータ)を音声データ(デジタルデータ)に変換して制御部11へ出力する一方、制御部11から引渡された音声データを音声信号に変換しスピーカ19へ出力する。スピーカ19は、音声処理部18から出力される音声信号に応じた音声を放音する。
【0016】
記憶部14の伴奏・歌詞データ記憶領域14aには、楽曲の伴奏を行う各種楽器の演奏音(所謂ガイドメロディ)が楽曲の進行順に記された伴奏データと、楽曲の歌詞を示す歌詞データとが互いに関連付けられて1または複数の楽曲について記憶されている。より詳細に説明すると、伴奏・歌詞データ記憶領域14aに記憶されている伴奏データと歌詞データとには、カラオケ楽曲を一意に識別する識別子(例えば、英字や記号、数字などからなる楽曲コード:以下、楽曲識別子)が対応付けられており、この楽曲識別子によって伴奏データと歌詞データとが互いに関連付けられている。伴奏データは、例えばMIDI(Musical Instruments Digital Interface)形式などのデータであり、練習者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部15に表示される。
【0017】
模範音声データ記憶領域14bには、前述した楽曲識別子に対応付けて、その楽曲識別子で識別される楽曲を持ち歌とする歌手によるその楽曲の歌唱音(以下、模範音声)の音声を表すWAVE形式の音声データ(以下、模範音声データ)が記憶されている。この模範音声データは、練習者の歌唱を評価する際の基準として利用される。
【0018】
練習者音声データ記憶領域14cには、マイクロフォン17から音声処理部18を経てA/D変換されることにより生成される音声データ(以下、練習者音声データ)が、例えばWAVE形式で記憶される。
【0019】
次に、図2に示すブロック図を参照しながら、カラオケ装置1の機能構成について説明する。図2に示す基礎分析モジュール21、動的時間整合(Dynamic Time Warping:以下、DTW)モジュール22、および、評価モジュール23は、制御部11が前述した制御プログラムを実行することによって実現されるソフトウェアモジュールである。なお、図中の矢印は、データの流れを概略的に示したものである。また、上記3つのソフトウェアモジュールの他にも、練習者により指定されたカラオケ曲の伴奏データにしたがった伴奏音の再生や、その伴奏音と練習者の歌唱音とを合成して出力するカラオケ演奏モジュールも上記制御プログラムを制御部11が実行することによって実現されるが、係るカラオケ演奏モジュールの機能については従来のカラオケ装置となんら変わるところがないため、図示および詳細な説明については省略する。
【0020】
基礎分析モジュール21は、模範音声データと練習者音声データとについて、それぞれ所定時間長のフレーム単位で音響パラメータ(本実施形態では、ピッチ、音量およびスペクトルに関するパラメータ)を検出する。以下では、それぞれのパラメータについて、時間の早いフレームから順に0からフレーム番号を振り(i番目のフレームを第iフレームと呼ぶ)説明を行う。
なお、本実施形態では、模範音声データおよび練習者音声データの各々から上記音響パラメータを抽出する時間単位を1フレームとする場合について説明するが、1フレームをさらに分割したサブフレーム単位で上記音響パラメータを抽出するとしても良く、また、複数フレーム単位で上記音響パラメータから音響パラメータを抽出するとしても良い。要は、模範音声データから音響パラメータを抽出する際の時間単位と、練習者音声データから音響パラメータを抽出する際の時間単位とが一致していれば良く、その時間単位の長さは問わない。
【0021】
以下では、基礎分析モジュール21について詳細に説明する。図2に示すように、基礎分析モジュール21は、ピッチ検出手段211、音量検出手段212、スペクトル検出手段213、および微分手段214a〜214cを含んでいる。基礎分析モジュール21へ引渡された音声データ(すなわち、模範音声データまたは練習者音声データ)は、図2に示す様に3分流され、ピッチ検出手段211、音量検出手段212およびスペクトル検出手段213の各々へ引渡される。
【0022】
ピッチ検出手段211は、上記所定の時間単位分の音声データについて自己相関を求め、その時間単位におけるピッチを検出し、その検出結果を示すピッチデータを出力する。ピッチ検出手段211から出力されたピッチデータは、図2に示すように、DTWモジュール22へ引渡される。なお、本実施形態では、自己相関を求めることによって、時間単位におけるピッチを検出する場合について説明したが、例えば上記時間単位毎にケプストラを求めてピッチを検出するようにしても勿論良い。
【0023】
音量検出手段212は、上記所定の時間単位分の音声データに含まれる各サンプル(本実施形態では256サンプル:図3参照)について、その振幅の絶対値の加算平均を算出し、その算出結果をそのフレームにおける音量を示す音量データとして出力する。音量検出手段212から出力された音量データは、図2に示すように2分流され、その一方はDTWモジュール22へ引渡され、他方は微分手段214aへ引渡される。
【0024】
微分手段214aは、連続する複数(本動作例では5)の時間単位についての音量データから、音量についての1次微分(以下、「速度」と呼ぶ)を算出し、その算出結果を示す音量速度データを出力する。本実施形態では、微分手段214aは、図3に示すように、連続する5つのフレームについての音量データから音量速度データが生成され、この音量速度データは、図2に示すように2分流されてその一方はDTWモジュール22へ引渡され、他方は、微分手段214bへ引渡される。
【0025】
微分手段214bは、連続する複数(本動作例では5)の時間単位について音量速度データから、その1次微分(すなわち、音量の2次微分:以下、音量の加速度)を算出し、その算出結果を示す音量加速度データを出力する。微分手段214bから出力される音量加速度データはDTWモジュール22へ引渡される。
【0026】
スペクトル検出手段213は、図3に示すように連続する2つの時間単位分の音声データに、高速フーリエ変換(Fast Fourier Transform:以下、FFT)を施した後に、所定の通過域を有するバンドパスフィルタ(本実施形態では、歌唱音の音声データが入力されるのであるから、0から2kHZまでは1/2オクターブバンドパスフィルタで、2から8kHzまでは1/4オクターブバンドパスフィルタ)を通過させ、その出力を上記時間単位のスペクトルを表すスペクトルデータとして出力する。スペクトル検出手段213から出力されたスペクトルデータは、図2に示すように2分流され、その一方はDTWモジュール22へ引渡され、他方は微分手段214cへ引渡される。
【0027】
微分手段214cは、連続する複数(本動作例では5)の時間単位についてのスペクトルデータから、スペクトルの各振動数帯域別に1次微分を算出し、その算出結果を示すスペクトル速度データを図2に示すようにDTWモジュール22へ引渡す。
以上が基礎分析モジュール21の構成である。
【0028】
次いで、DTWモジュール22の機能構成について説明する。DTWモジュール22は、図4に示すように模範音声の時間軸と練習者音声の時間軸との対応関係を特定するためのものであり、図2に示すように、DTW実施区間限定手段220、正規化手段221、差分マトリクス生成手段222、および、最適経路特定手段223を含んでいる。
DTW実施区間限定手段220は、模範音声および練習者音声において、以下に説明する動的時間整合(DTW)処理を施す区間を限定する手段である。その機能を以下に詳細に説明する。
【0029】
DTW実施区間限定手段220は、模範音声データから音量検出手段212により抽出された音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える場合に、その区間をDTW実施区間とする。なぜなら、模範音声データの該当する楽曲部分は実際に歌唱した有音区間だからである。
【0030】
また同様に、音量検出手段212により練習者音声データから抽出された音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える場合に、その区間をDTW実施区間とする。なお模範音声および練習者音声において、有音区間の直前および直後に、上記時間単位を1つ分だけ加え(それらの区間をオフセット区間と呼ぶ)、合わせてDTW実施区間とする。
次いでDTW実施区間限定手段220は、基礎分析モジュール21により抽出された模範音声および練習者音声の各種音響パラメータから、上記DTW実施区間限定手段220により限定されたDTW実施区間のみからなるデータを生成する。
【0031】
正規化手段221は、上記DTW実施区間においてフレーム毎に抽出された、模範音声と練習者音声それぞれの音響パラメータをDTW実施区間限定手段220から受け取り、各々を正規化して差分マトリクス生成手段222へ引渡す。ここで、データの正規化とは、フレーム単位でDTW実施区間限定手段220から引渡される一連の音響パラメータに対し、その加算平均および標準偏差が一定の値になるような変換を施すことであり、本実施形態では、以下の数1にしたがって上記正規化を行う。
(数1) AfterDat[i] =(BeforDat[i]) − AVR)/STD
【0032】
なお、数1において、BeforDat[i]は、DTW実施区間限定手段220から引渡される第iフレームについての音響パラメータであり、SDVはその音響パラメータについての標準偏差、AVRはその音響パラメータについての加算平均であり、AfterDat[i]はi番目のフレームについての正規化後の音響パラメータである。
数1に示す正規化を施すことによって、模範音声と練習者音声とのそれぞれについてDTW実施区間限定手段220から引渡される音響パラメータは、加算平均が“0”で標準偏差が“1”である音響パラメータ(すなわち、標準化された正規分布にしたがうデータ)にそれぞれ変換されることになる。
上記の正規化を施すことにより、収音環境の差異などの要因を取り除いて模範音声と練習者音声とを比較することができる。また、模範音声と練習者音声の間に音量レベル差があったり、ピッチがオクターブ単位で異なったりすることは歌唱の巧拙とは関わりがないことがほとんどであるが、そのような個々の音声が本来的に持っている差異などの要因を取り除くこともできる。
【0033】
差分マトリクス生成手段222は、模範音声の各フレームと練習者音声の各フレームについての音響パラメータ同士のユークリッド距離(以下、差分とも呼ぶ)を求め、その差分を成分とする行列(以下、差分マトリクス)を生成し、RAM13に記憶する。例えば、練習者音声の歌い始めが第0フレームで、その歌い終わりが第Nフレームである一方、模範音声の歌い始めが第0フレームで、その歌い終わりが第Mフレームである場合(N、Mは自然数)、差分マトリクス生成手段222は、以下の数2で示す値を(i、j)成分(ただし、0≦i≦N,0≦j≦M)とする(N+1)行(M+1)列の差分マトリクスを生成する。
(数2)Sqr{ (Σ(GuideSpectrum[j][k]−SingerSpectrum[i][k])^2)*WeightScalar[k]
+(Σ(ΔGuideSpectrum[j][k]−ΔSingerSpectrum[i][k])^2)*WeightVector[k]
+(ΔGuidePower[j]−ΔSingerPower[i])^2)
+(ΔΔGuidePower[j]−ΔΔSingerPower[i])^2)
}/num
【0034】
数2において、
GuideSpectrum[j][k]:模範音声のj番目のフレームのk番目の通過域のスペクトル成分
SingerSpectrum[i][k]:練習者音声のi番目のフレームのk番目の通過域のスペクトル成分
ΔGuideSpectrum[j][k]:模範音声のj番目のフレームのk番目のスペクトル速度
ΔSingerSpectrum[i][k]:練習者音声のi番目のフレームのk番目のスペクトル速度
ΔGuidePower[j]:模範音声のj番目のフレームの音量速度
ΔSingerPower[i]:練習者音声のi番目のフレームの音量速度
ΔΔGuidePower[j]:模範音声のj番目のフレームの音量加速度
ΔΔSingerPower[i]:練習者音声のi番目のフレームの音量加速度
WeightScalar[k]:重み付け係数
WeightVector[k]:重み付け係数
num:ユークリッド距離を求めるパラメータの数(本実施形態では、(N+1)×(M+1))である。
【0035】
ただし、WeightScalar[k]は、時間変化に依存しない音響パラメータへの重み付けを行う係数であり、練習者歌唱音および模範音声が有音(周期的な音声)であるか、無音(非周期的な音声)であるかに応じて適宜選択される値である。具体的には、練習者歌唱音および模範音声がともに有音である場合には、低域のスペクトルに重みが付与されるように値の選択がなされ、練習者歌唱音および模範音声がともに無音である場合には、高域のスペクトルに重みが付与されるように値の選択がなされる。なお、練習者歌唱音および模範音声について有音であるか無音であるかの判定は、各々のピッチおよび音量に基づいて為される。具体的には、差分マトリクス生成手段222は、ピッチが所定の閾値以上であり、かつ、音量も所定の閾値以上である場合に、該当する時間単位について有音であると判定し、その他の場合は無音と判定する。
これに対して、WeightVector[k]は、時間変化に依存する音響パラメータへの重み付けを行う係数であり、中域のスペクトルに重みを付与するための係数である。
なお、数2において、Σ記号は、添え字kについての総和を意味し、“^2”は2乗を意味し、Sqr{}は平方根を意味している。
【0036】
最適経路特定手段223は、差分マトリクス生成手段222により生成された(N+1)×(M+1)個の差分マトリクスの成分から、各成分に対応する模範音声のフレームと練習者音声のフレームのフレーム番号が、規定値を越えない成分を選択する。たとえば図13に示される差分マトリクスにおいては、上記規定値を“2”とした場合について示されており、該差分マトリクスにおいては上記の条件を満たす差分マトリクス成分のみが示されている。
【0037】
続いて最適経路特定手段223について説明する。最適経路特定手段223は、差分マトリクスの限定処理を施された差分マトリクス(図13に示された差分マトリクスなど)について最適経路の特定を行う。以下では、図6に示すような成分の限定処理をされていない差分マトリクスを用いて説明する。図6に示す差分マトリクスにおいて、その左下隅(すなわち、(0、0)成分)からその右上隅(すなわち、(N,M)=(3,4)成分)へ至る経路のうち、その経路上に位置する各成分の値の累積が最小になる経路を、練習者音声と模範音声の各時間単位の対応関係を表す経路として特定し、その経路の示す時間の対応関係を表すデータを評価モジュール23へ引渡す。より詳細に説明すると、最適経路特定手段223は、以下に説明する規則にしたがって上記最適経路を特定する。
【0038】
(規則1)差分マトリクスの左下隅から経路の探索を始め、移動先の成分値を累算した値が最小になるように移動先を選択する処理を右上隅に至るまで繰り返す。ただし、1回の移動は、右、上、または右上の何れかに制限する。例えば、(i、j)成分からの移動は、(i、j+1)成分、(i+1、j)成分、または、(i+1、j+1)成分への移動へ制限する。なお、右へ移動した場合の累積値と上へ移動した場合の累積値が等しい場合には、右への移動を優先する。同様に、右への移動と右上への移動の累積値が等しい場合には、右への移動を優先し、上への移動と右上への移動の累積値が等しい場合には、上への移動を優先する。
(規則2)上記規則1にしたがって選択された経路を右上隅から左下隅まで逆に辿り、最適経路を特定する。
【0039】
図2の評価モジュール23は、DTWモジュール22により時間軸の対応付けが為された模範音声データと練習者音声データとについて、各々の信号波形を比較し、模範音声に対する練習者音声の一致度を点数化して表示部15に表示させるものである。なお、評価モジュール23は、練習者音声の波形と模範音声の波形とを比較する際に、DTWモジュール22により為された動的時間整合の結果にしたがって、模範音声の時間軸に一致するように練習者音声の時間軸を伸縮した後に、両者の波形を比較する。
以上がカラオケ装置1の構成である。このように、本実施形態では、本発明に係る楽音練習支援装置に特徴的な機能を担っている基礎分析モジュール21およびDTWモジュール22がソフトウェアモジュールで実現されている場合について説明したが、これら各モジュールをハードウェアモジュールで実現しても良いことは勿論である。
【0040】
(B:動作)
次いで、カラオケ装置1が行う採点処理のうち、その特徴を顕著に示している動作(すなわち、基礎分析モジュール21およびDTWモジュール22の動作)を中心に図面を参照しつつ説明する。なお、以下に説明する動作例では、カラオケ装置1の電源(図示)が投入済みであり、制御部11はROM12からRAM13へロードした制御プログラムにしたがって作動しているものとする。
【0041】
カラオケ装置1を用いて歌唱練習を行おうとする練習者は、表示部15に表示されるメニュー画面等を参照しながら操作部16を適宜操作することによって、歌唱練習を行う楽曲の楽曲識別子を入力するなど練習対象の楽曲を指定することができる。このようにして練習対象の楽曲が指定されると、制御部11は、その楽曲識別子に対応する伴奏データおよび歌詞データを記憶部14からRAM13へロードする。そして、上記練習者が演奏開始を指示する旨の操作を操作部16に対して行うと、制御部11は、RAM13へ読み出した伴奏データにしたがった伴奏音の再生を音声処理部18に実行させるとともに、歌詞データの表す歌詞テロップを埋め込んだカラオケ画面を表示部15へ表示させ、楽曲の進行に併せてその歌詞のワイプ表示を行う。
【0042】
練習者は、上記カラオケ画面を視認し、スピーカから放音される伴奏音に合わせて楽曲の歌唱を行う。そして、練習者の歌唱音はマイクロフォン17によって収音され、その歌唱音に応じた練習者音声データが練習者音声データ記憶領域14cに順次書き込まれる。このようにして練習者音声データが練習者音声データ記憶領域14cに記憶されると、制御部11は、この練習者音声データと、上記楽曲識別子に対応付けて模範音声データ記憶領域14bに記憶されている模範音声データとを読出し、図5に示す採点処理を実行する。
【0043】
図5は、制御部11が上記制御プログラムにしたがって行う採点処理の流れを示すフローチャートである。図5に示すように、制御部11は、模範音声データおよび練習者音声データを解析して、楽曲のはじめから終わりまでについて、所定の時間単位(本実施形態では、フレーム)毎に音響パラメータを抽出する(ステップSA100)。なお、このステップSA100の処理は、前述した基礎分析モジュール21により実行される。
【0044】
次いで制御部11は、ステップSA100にて抽出した模範音声データにおいて歌唱が行われている部分を、また練習者音声データにおいて、実際に歌唱が行われた部分を動的時間整合(DTW)の処理を行う楽曲区間として特定する(ステップSA110)。次いで、ステップSA100にて抽出した各種音響パラメータに関するデータから、上述のようにして特定されたDTW実施区間のみからなるデータを生成し、該データを正規化手段221に受渡す。このステップSA110の処理は、前述したDTWモジュール22のDTW実施区間限定手段220により実行される。
【0045】
本実施形態に係るカラオケ装置1において、歌唱を行わない間奏部分などについては当然歌唱の評価を行う必要はない。従って、上記のように歌唱を行う部分に対応するデータを生成することにより、以降実行される処理の効率化を図ることができる。
次いで制御部11は、パラメータの種類毎に該音響パラメータに正規化を施し(ステップSA120)、正規化後の音響パラメータから差分マトリクスを生成する(ステップSA130)。なお、このステップSA120の処理は、前述したDTWモジュール22の正規化手段221により実行され、ステップSA130の処理は、同DTWモジュール22の差分マトリクス生成手段222により実行される。なお、本動作例では、ステップSA130までの処理が実行された結果として、図6に示す差分マトリクスが生成されたものとする。
【0046】
ここで、最適経路特定手段223は、上記のように生成された差分マトリクスの成分から、差分マトリクス成分に対応する模範音声のフレームと練習者音声のフレーム番号の差が、予め定められた規定値以下である差分マトリクス成分を選択する。たとえば図13に示される差分マトリクスにおいては、規定値は“2”であり、上記の条件を満たす差分マトリクス成分が限定される(ステップSA140)。
【0047】
次いで、制御部11は、ステップSA140にて限定された差分マトリクスの成分から最適経路を特定する(ステップSA150)。このステップSA150の処理は前述した最適経路特定手段223により実行される処理であり、具体的には、最適経路特定手段223は以下に説明する手順で、最適経路の特定を行う。
【0048】
最適経路特定手段223は、まず、差分マトリクスの第1列に沿った経路について、移動に伴う成分値の累積を行う(図7参照)。例えば、第1列に沿った経路の出発点である(0、0)成分の値は“1”であり、(1,0)成分の値は“4”であるから(図6参照)、(0,0)成分から(1,0)成分への移動に伴う累積値は“5”になる(図7参照)。そして、(2,0)成分の値は“1”であるから、(0,0)成分→(1,0)成分→(2,0)成分という移動に伴う累積値は“6”になる(図7参照)。以下、(3,0)成分に至るまで移動に伴う成分値の累積を行い、図7に示す結果が得られる。
【0049】
次いで、最適経路特定手段223は、前述した第1列の場合と同様に、第2列についても移動に伴う成分値の累積を行う(図8参照)。以下、同様に、差分マトリクスの右上隅(すなわち、(3、4)成分)に至るまで、移動に伴う成分値の累積を繰り返す(図9参照)。
【0050】
図9に示すように、差分マトリクスの右上隅まで移動に伴う成分値の累積を完了すると、最適経路特定手段223は、その右上隅を出発点として、その出発点へ向けての移動が可能な格子点(すなわち、その出発点の左、左下、または、下の格子点)のうち、その格子点に至るまでの経路に沿った成分値の累積が最小である格子点を経路候補として特定する。そして、最適経路特定手段223は、経路候補が左下隅の格子点に一致するまで、上記特定した経路候補を上記出発点として次の経路候補を特定する処理を繰り返す。その結果、図7に示す差分マトリクスについては、図10に示す最適経路候補(すなわち、(3,4)→(2,3)→(1,2)→(1,1)→(0,0))が特定される。
次いで、最適経路特定手段223は、上記のようにして特定した最適経路候補を逆に辿るとともに、その最適経路候補から外れて移動を行う場合には、上記累積値が増加することを確かめ、最適経路を特定する(図11参照)。
【0051】
以上のようにして特定された最適経路は、模範音声の時間軸と練習者音声の時間軸との対応関係を表している。具体的には、図11に示す最適経路は、模範音声についての各フレームと練習者音声についての各フレームとが図12に示すように対応していることを示している。最適経路特定手段223は、図12に示す対応関係を示すデータを生成し、そのデータを評価モジュール23へ出力する(ステップSA160)。
【0052】
以下、評価モジュール23は、最適経路特定手段223により特定された対応関係を満たすように練習者音声データにタイムアラインメントを施した後に模範音声データと比較し、その比較結果を点数化して表示部15に表示する。
【0053】
以上に説明したように、本実施形態に係るカラオケ装置1によれば、練習者による歌唱を評価する過程において、DTW実施区間を前述した有音区間に限定する(換言すれば、無音区間を除外する)。DTW実施区間を限定することにより、また差分マトリクスにおいて成分の限定をすることにより、必要とされる計算量を減らすことができる、といった効果を奏する。
【0054】
(C:変形)
以上、本発明の1実施形態について説明したが、係る実施形態に以下に述べるような変形を加えても良いことは勿論である。
(1)上述した実施形態では、本発明に特徴的な動的時間整合(DTW)処理を行う機能をカラオケ装置へ組み込むことによって、種々の技法を駆使して歌唱が行われた場合に、その手本となる歌唱にて駆使されている技法との相違を評価することを可能にする場合について説明した。しかしながら、上記DTWモジュール22による動的時間整合処理の処理対象は、上記歌唱音に限定されるものではなく、種々の技法を駆使して演奏された楽器の演奏音データとその手本となる模範演奏データであっても良く、また、英会話などの外国語習得にも利用することができる。
【0055】
(2)上述した実施形態では、練習者音声および模範音声のピッチおよび音量に基づいて有音であるか無音であるかを判定し、その判定結果に応じて時間変化に依存しない音響パラメータ(上記実施形態では、スペクトル)に付与する重みを切り替える場合について説明したが、ピッチのみ、或いは、音量のみに基づいて有音/無音の判定をするようにしても勿論良い。また、上記の如き重みの切り替えは必ずしも必須ではないから、係る切り替えを行わない態様においては、ピッチの検出や基礎分析モジュール21からDTWモジュール22への音量データの引渡しを行う必要がないことは言うまでも無い。
【0056】
(3)上述した実施形態では、練習者歌唱音と模範音声との動的時間整合を行う際には、その都度、模範音声データ記憶領域14bに記憶されている模範音声データを基礎分析モジュール21によって分析し、その模範音声データの表す歌唱音についての音響パラメータを算出する場合について説明した。しかしながら、模範音声データについて上記音響パラメータを予め求めておき、その音響パラメータと楽曲識別子とを対応付けて記憶部14に記憶させておくようにしても勿論良い。
また、上述した実施形態では、カラオケ装置1に設けられた記憶部14に模範音声データを記憶させておく場合について説明したが、CD−ROM(Compact Disk-Read Only Memory)やDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に模範音声データや模範音声データから抽出される音響パラメータを書き込んで配布し、このような記録媒体からの模範音声データや音響パラメータの読み出しにより、模範音声データや音響パラメータを取得させるようにしても良く、また、インターネットなどの電気通信回線経由で模範音声についての音響パラメータを取得させるようにしても良い。
【0057】
(4)上述した実施形態では、練習者音声データや模範音声データから音響パラメータの抽出を行う基礎分析モジュール21と、それら音響パラメータに基づいて模範音声と練習者音声との時間軸の対応付けを行うDTWモジュール22とを夫々別個のソフトウェアモジュールとして実現する場合について説明したが、1つのソフトウェアモジュールとして構成しても良いことは勿論である。具体的には、音響パラメータの正規化および正規化後の音響パラメータを用いて動的時間整合を行う動的時間整合モジュールに、練習者音声データから音響パラメータを抽出する機能や、模範音声データからの抽出或いは記録媒体等からの読出しにより模範音声についての音響パラメータの取得を行う機能を担わせるようにすれば良い。
【0058】
(5)上述した実施形態では、本発明に係る楽曲練習支援装置に特徴的な機能を制御部11に実現させるための制御プログラムをROM12に予め書き込んでおく場合について説明したが、CD−ROMやDVDなどのコンピュータ装置読み取り可能な記録媒体に上記制御プログラムを記録して配布するとしても良く、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布するようにしても勿論良い。
【0059】
(6)上述した実施形態では、動的時間整合を行うための音響パラメータとして、ピッチ、音量およびスペクトルと、音量の1次微分および2次微分、スペクトルの1次微分を用いる場合について説明した。これら音響パラメータのうち、音量の1次微分および2次微分は、音量の時間変化の度合いを表すものであるが、2次微分は必ずしも必須ではない。また、スペクトルについても、その時間変化の度合いを動的時間整合により正確に反映させるため、2次微分まで求めるようにしても勿論良い。
【0060】
(7)上述した実施形態では、差分マトリクス生成手段222は、差分マトリクスの成分全てについて値を算出し(ステップSA130)、その後、最適経路特定手段223がそれらの成分から経路の候補となる成分を限定する(ステップSA140)場合について説明した。しかし、ステップSA140において除外される成分については予めステップSA130において差分マトリクス生成手段222が生成しないようにしてもよい。
その理由は以下の通りである。歌唱者は表示部15に表示された歌詞テロップを見ながら歌唱するため、歌詞テロップがまだ表示されていない楽曲部分を歌うことや、歌詞テロップが表示され終わった楽曲部分を遅れて歌うといったように模範音声と極端にずれた歌唱を行う可能性は低い。そのように極端な歌唱を行う場合は、模範音声と練習者音声とでフレーム番号が極端に異なる組み合わせである場合に対応する。従って、差分マトリクスにおいて、たとえば(N,0)成分など、模範音声と練習者音声で番号が極端に異なるフレームについて算出された差分からなる成分については検討する必要性は低い。
【0061】
(8)上述した実施形態では、DTW実施区間限定手段220は、模範音声や練習者音声の音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間を、DTW実施区間とする場合について説明した。しかし、音量に加えてまたは音量の代わりに、模範音声のピッチに基づいてDTW実施区間を決定しても良い。具体的には、(a)模範音声のピッチが予め定められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間、(b)模範音声の音量およびピッチの両方が予め定められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間、(c)模範音声の音量が予め決められた閾値を上回る区間(区間の時間は考慮しない)、(d)模範音声のピッチが予め決められた閾値を上回る区間(区間の時間は考慮しない)、をDTW実施区間としても良い。
【0062】
(9)上述した実施形態では、カラオケ曲を一意に識別する楽曲識別子に対応付けてその楽曲識別子で識別されるカラオケ曲を持ち歌とする歌手によるそのカラオケ曲の歌唱音を表す模範音声データを記憶部14に記憶させておく場合について説明した。
しかしながら、1つの楽曲を複数の歌手が夫々個別に持ち歌としている場合には、その歌手毎に異なる楽曲であるとして、互いに異なる楽曲識別子を付与しても良く、また、その楽曲を一意に識別する楽曲識別子に上記複数の歌手の各々を一意に識別する歌手識別子を対応付け、さらに、この楽曲識別子と歌手識別子の組に、その楽曲識別子で識別される楽曲の、その歌手識別子で識別される歌手による歌唱音を表す模範音声データを対応付けて記憶部14に記憶させておくとしても良い。前述したように、歌手毎にその歌唱技法が異なっていることが一般的であり、同一の楽曲であっても歌い手が異なれば、その歌唱に込められる情感や味わいも異なることが一般的である。上記のように歌い手の識別を可能なように構成すれば、1つの楽曲を複数の歌手が持ち歌としている場合であっても、ユーザは、それら複数の歌手のうちから自身の好みに応じた歌手による歌唱を選択し、その歌唱を真似て歌唱練習を行うことが可能になる。
【図面の簡単な説明】
【0063】
【図1】本発明の1実施形態に係るカラオケ装置1のハードウェア構成の一例を示すブロック図である。
【図2】同カラオケ装置1の機能構成例を示すブロック図である。
【図3】同基礎分析モジュール21により実行される音響パラメータ抽出を説明するための図である。
【図4】同DTWモジュール22により実行される動的時間整合処理の実行結果の一例を示す図である。
【図5】同カラオケ装置1が行う採点処理の流れを示すフローチャートである。
【図6】差分マトリクスの一例を示す図である。
【図7】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図8】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図9】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図10】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図11】最適経路特定処理にて特定される最適経路の一例を示す図である。
【図12】動的時間整合処理の処理結果を説明するための図である。
【図13】成分を限定された差分マトリクスの一例を示す図である。
【符号の説明】
【0064】
1…カラオケ装置、10…バス、11…制御部、12…ROM、13…RAM、14…記憶部(14a;伴奏・歌詞データ記憶領域、14b;模範音声データ記憶領域、14c;練習者音声データ記憶領域)、15…表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ、21…基礎分析モジュール、22…DTWモジュール、23…評価モジュール、211…ピッチ検出手段、212…音量検出手段、213…スペクトル検出手段、214、214a、214b、214c…微分手段、220…DTW実施区間限定手段、221…正規化手段、222…差分マトリクス生成手段、223…最適経路特定手段
【特許請求の範囲】
【請求項1】
ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、
前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、
前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段と
を有する動的時間整合モジュール、を備え、
前記第1のオーディオ信号の信号波形と前記第2のオーディオ信号の信号波形とを前記動的時間整合モジュールにより対応付けが為された時間単位毎に比較し、両者の一致の度合いを点数化して出力する
ことを特徴とする楽曲練習支援装置。
【請求項2】
前記区間選択手段は、前記第1および第2のオーディオ信号においてピッチまたは音量の少なくとも一方が予め定められた閾値を下回る無音区間が予め定められた時間を超過して継続する場合に、該当する無音区間を除く区間を前記第1および前記第2のオーディオ信号から選択する
ことを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項3】
楽曲を一意に識別する楽曲識別子と、前記楽曲識別子により識別される楽曲に対応する前記第2の音響パラメータとの組が1または複数記憶された記憶手段を備え、
前記取得手段は、前記ユーザにより選択された楽曲識別子に対応する前記第2の音響パラメータを前記記憶装置から読み出して取得する
ことを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項4】
ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、
前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、
前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段と
を有することを特徴とする動的時間整合モジュール。
【請求項5】
コンピュータ装置を、
ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、
前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、
前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段
として機能させることを特徴とするプログラム。
【請求項1】
ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、
前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、
前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段と
を有する動的時間整合モジュール、を備え、
前記第1のオーディオ信号の信号波形と前記第2のオーディオ信号の信号波形とを前記動的時間整合モジュールにより対応付けが為された時間単位毎に比較し、両者の一致の度合いを点数化して出力する
ことを特徴とする楽曲練習支援装置。
【請求項2】
前記区間選択手段は、前記第1および第2のオーディオ信号においてピッチまたは音量の少なくとも一方が予め定められた閾値を下回る無音区間が予め定められた時間を超過して継続する場合に、該当する無音区間を除く区間を前記第1および前記第2のオーディオ信号から選択する
ことを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項3】
楽曲を一意に識別する楽曲識別子と、前記楽曲識別子により識別される楽曲に対応する前記第2の音響パラメータとの組が1または複数記憶された記憶手段を備え、
前記取得手段は、前記ユーザにより選択された楽曲識別子に対応する前記第2の音響パラメータを前記記憶装置から読み出して取得する
ことを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項4】
ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、
前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、
前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段と
を有することを特徴とする動的時間整合モジュール。
【請求項5】
コンピュータ装置を、
ユーザによる歌唱音または演奏音の波形を表す第1のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第1の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第2のオーディオ信号を解析することにより前記時間単位毎に得られる第2の音響パラメータであって、前記第2のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第2の音響パラメータを取得する取得手段と、
前記第1のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第1の音響パラメータを参照して選択し、前記第2のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第2の音響パラメータを参照して前記第2のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第1の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第2の音響パラメータに前記正規化を施す正規化手段と、
前記第1のオーディオ信号の時間軸を一方の座標軸とし、前記第2のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第1の音響パラメータと前記正規化された第2の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第1のオーディオ信号における前記時間単位と前記第2のオーディオ信号における時間単位とを対応付ける対応付け手段
として機能させることを特徴とするプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2008−40260(P2008−40260A)
【公開日】平成20年2月21日(2008.2.21)
【国際特許分類】
【出願番号】特願2006−216059(P2006−216059)
【出願日】平成18年8月8日(2006.8.8)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成20年2月21日(2008.2.21)
【国際特許分類】
【出願日】平成18年8月8日(2006.8.8)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]