楽曲練習支援装置、動的時間整合モジュールおよびプログラム

【課題】種々の技法が駆使された歌唱や演奏の巧拙を評価することの可能なカラオケ装置を提供する。
【解決手段】模範音声および練習者音声の各々から音響パラメータ（ピッチ、音量およびスペクトル）を検出する。検出された音量が閾値を超える区間を有音区間とし、その有音区間についてＤＴＷ（動的時間整合）を施し両音声がどのように対応するのかを決定する。その後、両音声において対応する部分について波形の一致度を評価する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ユーザの歌唱または演奏をその手本と比較評価するための技術に関する。
【背景技術】
【０００２】
従来、カラオケ装置において、歌唱者の歌唱を評価するための採点機能が種々提案されている。この種のカラオケ装置は、マイクロフォンから入力された歌唱者の音声から歌唱者が発生した音声の高さや音量あるいはテンポなどの歌唱特性を示す歌唱データを生成する。そして上記カラオケ装置は、その歌唱データとガイドメロディなどの採点基準データとを比較し、その比較結果に基づいて所定の得点を付与して採点データを生成する。歌唱パートが終了すると、この採点データ中の得点を集計して総合得点を算出する。
たとえば特許文献１には、カラオケのガイドメロディから抽出した音の高さと、歌唱者が発生した音声の高さや音量を検出し、両者の比較により評価を行う一方、歌唱率（実際に歌唱した部分／歌唱すべき部分）を求め、歌唱率を上記の評価に加味する技術が開示されている。これにより、従来の抱えていた問題、すなわち実際に歌唱した部分が少ない場合に、歌唱したわずかな部分の音声だけで総合評価が決まってしまう、という課題が解決される。また、特許文献２には、カラオケボックスなどで歌唱者が録音した音声をネットワークなどにより遠隔の歌唱指導者に送り、歌唱指導者は歌唱指導内容をまたネットワークなどで歌唱者に提供し、個別に歌唱指導を行うことを可能にする通信システムが開示されている。
【特許文献１】特開２００５−２１５４９３号公報
【特許文献２】特開２００３−１５６７３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
ところで、熟練した歌唱者は、楽譜内容に忠実に歌唱するのではなく、歌い始めや歌い終わりを意図的にずらしたり、声質や音量を変化させたり、或いはビブラートやこぶしを用いたりするなど様々な歌唱技法を駆使して情感や味わいを表現する場合がある。このような情感や味わいは歌唱者によって様々に表現され、例えば、フレーズの末尾に必ずビブラートをかけたり、歌い始めを必ずためたりする（歌い始めのタイミングを意図的に遅らせる）など、歌手毎に特徴があることが多い。
一方、カラオケ装置を用いて歌唱練習を行うユーザは、好みの歌手の歌唱技法を真似て歌唱したいと考えていることが多く、カラオケ装置を利用して歌唱練習を行う際には、その歌唱技法をどの程度再現できたのかについても評価を受けたいと望んでいる場合がある。
【０００４】
しかしながら、特許文献１や特許文献２に開示された技術では、上記の如きニーズに応えることができないのみならず、歌い始めをためるなどの歌唱技法は、楽譜内容からの逸脱として減点対象となってしまう場合もある。何故ならば、特許文献１や特許文献２に開示された技術にて評価基準となるガイドメロディは楽曲のピッチの変化を楽譜内容に則して忠実に再現するものであり、これら特許文献１や特許文献２に開示された技術は楽譜内容に忠実に歌唱されたか否かを評価することを目的としているからである。なお、これは楽曲の歌唱に限らず、楽器の演奏についても同様である。
【０００５】
本発明は、上記の問題に鑑み、種々の歌唱技法が駆使された歌唱や演奏に関する評価をより効率的に実行することを可能にする技術を提供することを目的としている。
【課題を解決するための手段】
【０００６】
本発明に係る楽曲練習支援装置の第１の構成は、ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、前記第１のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第１の音響パラメータを参照して選択し、前記第２のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第２の音響パラメータを参照して前記第２のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と、を有する動的時間整合モジュール、を備え、前記第１のオーディオ信号の信号波形と前記第２のオーディオ信号の信号波形とを前記動的時間整合モジュールにより対応付けが為された時間単位毎に比較し、両者の一致の度合いを点数化して出力することを特徴とする。
【０００７】
本発明に係る楽曲練習支援装置の第２の構成は、上記第１の構成において、前記区間選択手段は、前記第１および第２のオーディオ信号においてピッチまたは音量の少なくとも一方が予め定められた閾値を下回る無音区間が予め定められた時間を超過して継続する場合に、該当する無音区間を除く区間を前記第１および前記第２のオーディオ信号から選択することを特徴とする。
【０００８】
本発明に係る楽曲練習支援装置の第３の構成は、上記第１の構成において、楽曲を一意に識別する楽曲識別子と、前記楽曲識別子により識別される楽曲に対応する前記第２の音響パラメータとの組が１または複数記憶された記憶手段を備え、前記取得手段は、前記ユーザにより選択された楽曲識別子に対応する前記第２の音響パラメータを前記記憶装置から読み出して取得することを特徴とする。
【０００９】
本発明に係る動的時間整合モジュールの第１の構成は、ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、前記第１のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第１の音響パラメータを参照して選択し、前記第２のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第２の音響パラメータを参照して前記第２のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段とを有することを特徴とする。
【００１０】
本発明に係るプログラムの第１の構成は、コンピュータ装置を、ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、前記第１のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第１の音響パラメータを参照して選択し、前記第２のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第２の音響パラメータを参照して前記第２のオーディオ信号から選択する区間選択手段と、前記区間選択手段により選択された有音区間における前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段として機能させることを特徴とする。
【発明の効果】
【００１１】
本発明によれば、種々の技法が駆使された歌唱や演奏に関する評価をより効率的に実行することが可能になる、といった効果を奏する。
【発明を実施するための最良の形態】
【００１２】
以下、図面を参照しつつ本発明の１実施形態について説明する。
（Ａ：構成）
図１は、この発明の１実施形態である楽曲練習支援装置としてのカラオケ装置１のハードウェア構成を例示したブロック図である。図１に示すように、カラオケ装置１は、制御部１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、記憶部１４、表示部１５、操作部１６、音声処理部１８およびこれらのデータ授受を仲介するバス１０を有している。
制御部１１は、例えばＣＰＵ（Central Processing Unit）であり、ＲＯＭ１２に記憶されている制御プログラムを読み出してＲＡＭ１３にロードし、これを実行することにより、カラオケ装置１の各部を制御する。
【００１３】
記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、伴奏・歌詞データ記憶領域１４ａと、模範音声データ記憶領域１４ｂと、練習者音声データ記憶領域１４ｃとを有している。
【００１４】
表示部１５は、例えば液晶ディスプレイとその駆動回路であり、制御部１１の制御の下で、カラオケ装置１を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。
操作部１６は、テンキーなど各種のキーを備えており、押下されたキーに対応した信号を制御部１１へ出力する。
【００１５】
音声処理部１８には、マイクロフォン１７とスピーカ１９とが接続されている。マイクロフォン１７は、カラオケ装置１を利用して歌唱練習を行うユーザ（以下、練習者）の歌唱音を収音し、その歌唱音に応じた音声信号（アナログデータ）を音声処理部１８へ出力する。音声処理部１８は、マイクロフォン１７から出力された音声信号（アナログデータ）を音声データ（デジタルデータ）に変換して制御部１１へ出力する一方、制御部１１から引渡された音声データを音声信号に変換しスピーカ１９へ出力する。スピーカ１９は、音声処理部１８から出力される音声信号に応じた音声を放音する。
【００１６】
記憶部１４の伴奏・歌詞データ記憶領域１４ａには、楽曲の伴奏を行う各種楽器の演奏音（所謂ガイドメロディ）が楽曲の進行順に記された伴奏データと、楽曲の歌詞を示す歌詞データとが互いに関連付けられて１または複数の楽曲について記憶されている。より詳細に説明すると、伴奏・歌詞データ記憶領域１４ａに記憶されている伴奏データと歌詞データとには、カラオケ楽曲を一意に識別する識別子（例えば、英字や記号、数字などからなる楽曲コード：以下、楽曲識別子）が対応付けられており、この楽曲識別子によって伴奏データと歌詞データとが互いに関連付けられている。伴奏データは、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式などのデータであり、練習者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部１５に表示される。
【００１７】
模範音声データ記憶領域１４ｂには、前述した楽曲識別子に対応付けて、その楽曲識別子で識別される楽曲を持ち歌とする歌手によるその楽曲の歌唱音（以下、模範音声）の音声を表すＷＡＶＥ形式の音声データ（以下、模範音声データ）が記憶されている。この模範音声データは、練習者の歌唱を評価する際の基準として利用される。
【００１８】
練習者音声データ記憶領域１４ｃには、マイクロフォン１７から音声処理部１８を経てＡ／Ｄ変換されることにより生成される音声データ（以下、練習者音声データ）が、例えばＷＡＶＥ形式で記憶される。
【００１９】
次に、図２に示すブロック図を参照しながら、カラオケ装置１の機能構成について説明する。図２に示す基礎分析モジュール２１、動的時間整合（Dynamic Time Warping：以下、ＤＴＷ）モジュール２２、および、評価モジュール２３は、制御部１１が前述した制御プログラムを実行することによって実現されるソフトウェアモジュールである。なお、図中の矢印は、データの流れを概略的に示したものである。また、上記３つのソフトウェアモジュールの他にも、練習者により指定されたカラオケ曲の伴奏データにしたがった伴奏音の再生や、その伴奏音と練習者の歌唱音とを合成して出力するカラオケ演奏モジュールも上記制御プログラムを制御部１１が実行することによって実現されるが、係るカラオケ演奏モジュールの機能については従来のカラオケ装置となんら変わるところがないため、図示および詳細な説明については省略する。
【００２０】
基礎分析モジュール２１は、模範音声データと練習者音声データとについて、それぞれ所定時間長のフレーム単位で音響パラメータ（本実施形態では、ピッチ、音量およびスペクトルに関するパラメータ）を検出する。以下では、それぞれのパラメータについて、時間の早いフレームから順に０からフレーム番号を振り（i番目のフレームを第ｉフレームと呼ぶ）説明を行う。
なお、本実施形態では、模範音声データおよび練習者音声データの各々から上記音響パラメータを抽出する時間単位を１フレームとする場合について説明するが、１フレームをさらに分割したサブフレーム単位で上記音響パラメータを抽出するとしても良く、また、複数フレーム単位で上記音響パラメータから音響パラメータを抽出するとしても良い。要は、模範音声データから音響パラメータを抽出する際の時間単位と、練習者音声データから音響パラメータを抽出する際の時間単位とが一致していれば良く、その時間単位の長さは問わない。
【００２１】
以下では、基礎分析モジュール２１について詳細に説明する。図２に示すように、基礎分析モジュール２１は、ピッチ検出手段２１１、音量検出手段２１２、スペクトル検出手段２１３、および微分手段２１４ａ〜２１４ｃを含んでいる。基礎分析モジュール２１へ引渡された音声データ（すなわち、模範音声データまたは練習者音声データ）は、図２に示す様に３分流され、ピッチ検出手段２１１、音量検出手段２１２およびスペクトル検出手段２１３の各々へ引渡される。
【００２２】
ピッチ検出手段２１１は、上記所定の時間単位分の音声データについて自己相関を求め、その時間単位におけるピッチを検出し、その検出結果を示すピッチデータを出力する。ピッチ検出手段２１１から出力されたピッチデータは、図２に示すように、ＤＴＷモジュール２２へ引渡される。なお、本実施形態では、自己相関を求めることによって、時間単位におけるピッチを検出する場合について説明したが、例えば上記時間単位毎にケプストラを求めてピッチを検出するようにしても勿論良い。
【００２３】
音量検出手段２１２は、上記所定の時間単位分の音声データに含まれる各サンプル（本実施形態では２５６サンプル：図３参照）について、その振幅の絶対値の加算平均を算出し、その算出結果をそのフレームにおける音量を示す音量データとして出力する。音量検出手段２１２から出力された音量データは、図２に示すように２分流され、その一方はＤＴＷモジュール２２へ引渡され、他方は微分手段２１４ａへ引渡される。
【００２４】
微分手段２１４ａは、連続する複数（本動作例では５）の時間単位についての音量データから、音量についての１次微分（以下、「速度」と呼ぶ）を算出し、その算出結果を示す音量速度データを出力する。本実施形態では、微分手段２１４ａは、図３に示すように、連続する５つのフレームについての音量データから音量速度データが生成され、この音量速度データは、図２に示すように２分流されてその一方はＤＴＷモジュール２２へ引渡され、他方は、微分手段２１４ｂへ引渡される。
【００２５】
微分手段２１４ｂは、連続する複数（本動作例では５）の時間単位について音量速度データから、その１次微分（すなわち、音量の２次微分：以下、音量の加速度）を算出し、その算出結果を示す音量加速度データを出力する。微分手段２１４ｂから出力される音量加速度データはＤＴＷモジュール２２へ引渡される。
【００２６】
スペクトル検出手段２１３は、図３に示すように連続する２つの時間単位分の音声データに、高速フーリエ変換(Fast Fourier Transform：以下、ＦＦＴ)を施した後に、所定の通過域を有するバンドパスフィルタ（本実施形態では、歌唱音の音声データが入力されるのであるから、０から２ｋＨＺまでは１／２オクターブバンドパスフィルタで、２から８ｋＨｚまでは１／４オクターブバンドパスフィルタ）を通過させ、その出力を上記時間単位のスペクトルを表すスペクトルデータとして出力する。スペクトル検出手段２１３から出力されたスペクトルデータは、図２に示すように２分流され、その一方はＤＴＷモジュール２２へ引渡され、他方は微分手段２１４ｃへ引渡される。
【００２７】
微分手段２１４ｃは、連続する複数（本動作例では５）の時間単位についてのスペクトルデータから、スペクトルの各振動数帯域別に１次微分を算出し、その算出結果を示すスペクトル速度データを図２に示すようにＤＴＷモジュール２２へ引渡す。
以上が基礎分析モジュール２１の構成である。
【００２８】
次いで、ＤＴＷモジュール２２の機能構成について説明する。ＤＴＷモジュール２２は、図４に示すように模範音声の時間軸と練習者音声の時間軸との対応関係を特定するためのものであり、図２に示すように、ＤＴＷ実施区間限定手段２２０、正規化手段２２１、差分マトリクス生成手段２２２、および、最適経路特定手段２２３を含んでいる。
ＤＴＷ実施区間限定手段２２０は、模範音声および練習者音声において、以下に説明する動的時間整合（ＤＴＷ）処理を施す区間を限定する手段である。その機能を以下に詳細に説明する。
【００２９】
ＤＴＷ実施区間限定手段２２０は、模範音声データから音量検出手段２１２により抽出された音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える場合に、その区間をＤＴＷ実施区間とする。なぜなら、模範音声データの該当する楽曲部分は実際に歌唱した有音区間だからである。
【００３０】
また同様に、音量検出手段２１２により練習者音声データから抽出された音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える場合に、その区間をＤＴＷ実施区間とする。なお模範音声および練習者音声において、有音区間の直前および直後に、上記時間単位を１つ分だけ加え（それらの区間をオフセット区間と呼ぶ）、合わせてＤＴＷ実施区間とする。
次いでＤＴＷ実施区間限定手段２２０は、基礎分析モジュール２１により抽出された模範音声および練習者音声の各種音響パラメータから、上記ＤＴＷ実施区間限定手段２２０により限定されたＤＴＷ実施区間のみからなるデータを生成する。
【００３１】
正規化手段２２１は、上記ＤＴＷ実施区間においてフレーム毎に抽出された、模範音声と練習者音声それぞれの音響パラメータをＤＴＷ実施区間限定手段２２０から受け取り、各々を正規化して差分マトリクス生成手段２２２へ引渡す。ここで、データの正規化とは、フレーム単位でＤＴＷ実施区間限定手段２２０から引渡される一連の音響パラメータに対し、その加算平均および標準偏差が一定の値になるような変換を施すことであり、本実施形態では、以下の数１にしたがって上記正規化を行う。
（数１） AfterDat[i] ＝（BeforDat[i]） − AVR）／STD
【００３２】
なお、数１において、BeforDat[i]は、ＤＴＷ実施区間限定手段２２０から引渡される第ｉフレームについての音響パラメータであり、SDVはその音響パラメータについての標準偏差、AVRはその音響パラメータについての加算平均であり、AfterDat[i]はi番目のフレームについての正規化後の音響パラメータである。
数１に示す正規化を施すことによって、模範音声と練習者音声とのそれぞれについてＤＴＷ実施区間限定手段２２０から引渡される音響パラメータは、加算平均が“０”で標準偏差が“１”である音響パラメータ（すなわち、標準化された正規分布にしたがうデータ）にそれぞれ変換されることになる。
上記の正規化を施すことにより、収音環境の差異などの要因を取り除いて模範音声と練習者音声とを比較することができる。また、模範音声と練習者音声の間に音量レベル差があったり、ピッチがオクターブ単位で異なったりすることは歌唱の巧拙とは関わりがないことがほとんどであるが、そのような個々の音声が本来的に持っている差異などの要因を取り除くこともできる。
【００３３】
差分マトリクス生成手段２２２は、模範音声の各フレームと練習者音声の各フレームについての音響パラメータ同士のユークリッド距離（以下、差分とも呼ぶ）を求め、その差分を成分とする行列（以下、差分マトリクス）を生成し、ＲＡＭ１３に記憶する。例えば、練習者音声の歌い始めが第０フレームで、その歌い終わりが第Ｎフレームである一方、模範音声の歌い始めが第０フレームで、その歌い終わりが第Ｍフレームである場合（Ｎ、Ｍは自然数）、差分マトリクス生成手段２２２は、以下の数２で示す値を（ｉ、ｊ）成分（ただし、０≦ｉ≦Ｎ，０≦ｊ≦Ｍ）とする（Ｎ＋１）行（Ｍ＋１）列の差分マトリクスを生成する。
（数２）Sqr{ (Σ(GuideSpectrum[j][k]−SingerSpectrum[i][k])＾2)*WeightScalar[k]
+(Σ(ΔGuideSpectrum[j][k]−ΔSingerSpectrum[i][k])＾2)*WeightVector[k]
+(ΔGuidePower[j]−ΔSingerPower[i])＾2)
+(ΔΔGuidePower[j]−ΔΔSingerPower[i])＾2)
}/num
【００３４】
数２において、
GuideSpectrum[j][k]：模範音声のｊ番目のフレームのｋ番目の通過域のスペクトル成分
SingerSpectrum[i][k]：練習者音声のｉ番目のフレームのｋ番目の通過域のスペクトル成分
ΔGuideSpectrum[j][k]：模範音声のｊ番目のフレームのｋ番目のスペクトル速度
ΔSingerSpectrum[i][k]：練習者音声のｉ番目のフレームのｋ番目のスペクトル速度
ΔGuidePower[j]：模範音声のｊ番目のフレームの音量速度
ΔSingerPower[i]：練習者音声のｉ番目のフレームの音量速度
ΔΔGuidePower[j]：模範音声のｊ番目のフレームの音量加速度
ΔΔSingerPower[i]：練習者音声のｉ番目のフレームの音量加速度
WeightScalar[k]：重み付け係数
WeightVector[k]：重み付け係数
num：ユークリッド距離を求めるパラメータの数（本実施形態では、（Ｎ＋１）×（Ｍ＋１））である。
【００３５】
ただし、WeightScalar[k]は、時間変化に依存しない音響パラメータへの重み付けを行う係数であり、練習者歌唱音および模範音声が有音（周期的な音声）であるか、無音（非周期的な音声）であるかに応じて適宜選択される値である。具体的には、練習者歌唱音および模範音声がともに有音である場合には、低域のスペクトルに重みが付与されるように値の選択がなされ、練習者歌唱音および模範音声がともに無音である場合には、高域のスペクトルに重みが付与されるように値の選択がなされる。なお、練習者歌唱音および模範音声について有音であるか無音であるかの判定は、各々のピッチおよび音量に基づいて為される。具体的には、差分マトリクス生成手段２２２は、ピッチが所定の閾値以上であり、かつ、音量も所定の閾値以上である場合に、該当する時間単位について有音であると判定し、その他の場合は無音と判定する。
これに対して、WeightVector[k]は、時間変化に依存する音響パラメータへの重み付けを行う係数であり、中域のスペクトルに重みを付与するための係数である。
なお、数２において、Σ記号は、添え字ｋについての総和を意味し、“＾２”は２乗を意味し、Sqr{}は平方根を意味している。
【００３６】
最適経路特定手段２２３は、差分マトリクス生成手段２２２により生成された（Ｎ＋１）×（Ｍ＋１）個の差分マトリクスの成分から、各成分に対応する模範音声のフレームと練習者音声のフレームのフレーム番号が、規定値を越えない成分を選択する。たとえば図１３に示される差分マトリクスにおいては、上記規定値を“２”とした場合について示されており、該差分マトリクスにおいては上記の条件を満たす差分マトリクス成分のみが示されている。
【００３７】
続いて最適経路特定手段２２３について説明する。最適経路特定手段２２３は、差分マトリクスの限定処理を施された差分マトリクス（図１３に示された差分マトリクスなど）について最適経路の特定を行う。以下では、図６に示すような成分の限定処理をされていない差分マトリクスを用いて説明する。図６に示す差分マトリクスにおいて、その左下隅（すなわち、（０、０）成分）からその右上隅（すなわち、（Ｎ，Ｍ）＝（３，４）成分）へ至る経路のうち、その経路上に位置する各成分の値の累積が最小になる経路を、練習者音声と模範音声の各時間単位の対応関係を表す経路として特定し、その経路の示す時間の対応関係を表すデータを評価モジュール２３へ引渡す。より詳細に説明すると、最適経路特定手段２２３は、以下に説明する規則にしたがって上記最適経路を特定する。
【００３８】
（規則１）差分マトリクスの左下隅から経路の探索を始め、移動先の成分値を累算した値が最小になるように移動先を選択する処理を右上隅に至るまで繰り返す。ただし、１回の移動は、右、上、または右上の何れかに制限する。例えば、（ｉ、ｊ）成分からの移動は、（ｉ、ｊ＋１）成分、（ｉ＋１、ｊ）成分、または、（ｉ＋１、ｊ＋１）成分への移動へ制限する。なお、右へ移動した場合の累積値と上へ移動した場合の累積値が等しい場合には、右への移動を優先する。同様に、右への移動と右上への移動の累積値が等しい場合には、右への移動を優先し、上への移動と右上への移動の累積値が等しい場合には、上への移動を優先する。
（規則２）上記規則１にしたがって選択された経路を右上隅から左下隅まで逆に辿り、最適経路を特定する。
【００３９】
図２の評価モジュール２３は、ＤＴＷモジュール２２により時間軸の対応付けが為された模範音声データと練習者音声データとについて、各々の信号波形を比較し、模範音声に対する練習者音声の一致度を点数化して表示部１５に表示させるものである。なお、評価モジュール２３は、練習者音声の波形と模範音声の波形とを比較する際に、ＤＴＷモジュール２２により為された動的時間整合の結果にしたがって、模範音声の時間軸に一致するように練習者音声の時間軸を伸縮した後に、両者の波形を比較する。
以上がカラオケ装置１の構成である。このように、本実施形態では、本発明に係る楽音練習支援装置に特徴的な機能を担っている基礎分析モジュール２１およびＤＴＷモジュール２２がソフトウェアモジュールで実現されている場合について説明したが、これら各モジュールをハードウェアモジュールで実現しても良いことは勿論である。
【００４０】
（Ｂ：動作）
次いで、カラオケ装置１が行う採点処理のうち、その特徴を顕著に示している動作（すなわち、基礎分析モジュール２１およびＤＴＷモジュール２２の動作）を中心に図面を参照しつつ説明する。なお、以下に説明する動作例では、カラオケ装置１の電源（図示）が投入済みであり、制御部１１はＲＯＭ１２からＲＡＭ１３へロードした制御プログラムにしたがって作動しているものとする。
【００４１】
カラオケ装置１を用いて歌唱練習を行おうとする練習者は、表示部１５に表示されるメニュー画面等を参照しながら操作部１６を適宜操作することによって、歌唱練習を行う楽曲の楽曲識別子を入力するなど練習対象の楽曲を指定することができる。このようにして練習対象の楽曲が指定されると、制御部１１は、その楽曲識別子に対応する伴奏データおよび歌詞データを記憶部１４からＲＡＭ１３へロードする。そして、上記練習者が演奏開始を指示する旨の操作を操作部１６に対して行うと、制御部１１は、ＲＡＭ１３へ読み出した伴奏データにしたがった伴奏音の再生を音声処理部１８に実行させるとともに、歌詞データの表す歌詞テロップを埋め込んだカラオケ画面を表示部１５へ表示させ、楽曲の進行に併せてその歌詞のワイプ表示を行う。
【００４２】
練習者は、上記カラオケ画面を視認し、スピーカから放音される伴奏音に合わせて楽曲の歌唱を行う。そして、練習者の歌唱音はマイクロフォン１７によって収音され、その歌唱音に応じた練習者音声データが練習者音声データ記憶領域１４ｃに順次書き込まれる。このようにして練習者音声データが練習者音声データ記憶領域１４ｃに記憶されると、制御部１１は、この練習者音声データと、上記楽曲識別子に対応付けて模範音声データ記憶領域１４ｂに記憶されている模範音声データとを読出し、図５に示す採点処理を実行する。
【００４３】
図５は、制御部１１が上記制御プログラムにしたがって行う採点処理の流れを示すフローチャートである。図５に示すように、制御部１１は、模範音声データおよび練習者音声データを解析して、楽曲のはじめから終わりまでについて、所定の時間単位（本実施形態では、フレーム）毎に音響パラメータを抽出する（ステップＳＡ１００）。なお、このステップＳＡ１００の処理は、前述した基礎分析モジュール２１により実行される。
【００４４】
次いで制御部１１は、ステップＳＡ１００にて抽出した模範音声データにおいて歌唱が行われている部分を、また練習者音声データにおいて、実際に歌唱が行われた部分を動的時間整合（ＤＴＷ）の処理を行う楽曲区間として特定する（ステップＳＡ１１０）。次いで、ステップＳＡ１００にて抽出した各種音響パラメータに関するデータから、上述のようにして特定されたＤＴＷ実施区間のみからなるデータを生成し、該データを正規化手段２２１に受渡す。このステップＳＡ１１０の処理は、前述したＤＴＷモジュール２２のＤＴＷ実施区間限定手段２２０により実行される。
【００４５】
本実施形態に係るカラオケ装置１において、歌唱を行わない間奏部分などについては当然歌唱の評価を行う必要はない。従って、上記のように歌唱を行う部分に対応するデータを生成することにより、以降実行される処理の効率化を図ることができる。
次いで制御部１１は、パラメータの種類毎に該音響パラメータに正規化を施し（ステップＳＡ１２０）、正規化後の音響パラメータから差分マトリクスを生成する（ステップＳＡ１３０）。なお、このステップＳＡ１２０の処理は、前述したＤＴＷモジュール２２の正規化手段２２１により実行され、ステップＳＡ１３０の処理は、同ＤＴＷモジュール２２の差分マトリクス生成手段２２２により実行される。なお、本動作例では、ステップＳＡ１３０までの処理が実行された結果として、図６に示す差分マトリクスが生成されたものとする。
【００４６】
ここで、最適経路特定手段２２３は、上記のように生成された差分マトリクスの成分から、差分マトリクス成分に対応する模範音声のフレームと練習者音声のフレーム番号の差が、予め定められた規定値以下である差分マトリクス成分を選択する。たとえば図１３に示される差分マトリクスにおいては、規定値は“２”であり、上記の条件を満たす差分マトリクス成分が限定される（ステップＳＡ１４０）。
【００４７】
次いで、制御部１１は、ステップＳＡ１４０にて限定された差分マトリクスの成分から最適経路を特定する（ステップＳＡ１５０）。このステップＳＡ１５０の処理は前述した最適経路特定手段２２３により実行される処理であり、具体的には、最適経路特定手段２２３は以下に説明する手順で、最適経路の特定を行う。
【００４８】
最適経路特定手段２２３は、まず、差分マトリクスの第１列に沿った経路について、移動に伴う成分値の累積を行う（図７参照）。例えば、第１列に沿った経路の出発点である（０、０）成分の値は“１”であり、（１，０）成分の値は“４”であるから（図６参照）、（０，０）成分から（１，０）成分への移動に伴う累積値は“５”になる（図７参照）。そして、（２，０）成分の値は“１”であるから、（０，０）成分→（１，０）成分→（２，０）成分という移動に伴う累積値は“６”になる（図７参照）。以下、（３，０）成分に至るまで移動に伴う成分値の累積を行い、図７に示す結果が得られる。
【００４９】
次いで、最適経路特定手段２２３は、前述した第１列の場合と同様に、第２列についても移動に伴う成分値の累積を行う（図８参照）。以下、同様に、差分マトリクスの右上隅（すなわち、（３、４）成分）に至るまで、移動に伴う成分値の累積を繰り返す（図９参照）。
【００５０】
図９に示すように、差分マトリクスの右上隅まで移動に伴う成分値の累積を完了すると、最適経路特定手段２２３は、その右上隅を出発点として、その出発点へ向けての移動が可能な格子点（すなわち、その出発点の左、左下、または、下の格子点）のうち、その格子点に至るまでの経路に沿った成分値の累積が最小である格子点を経路候補として特定する。そして、最適経路特定手段２２３は、経路候補が左下隅の格子点に一致するまで、上記特定した経路候補を上記出発点として次の経路候補を特定する処理を繰り返す。その結果、図７に示す差分マトリクスについては、図１０に示す最適経路候補（すなわち、（３，４）→（２，３）→（１，２）→（１，１）→（０，０））が特定される。
次いで、最適経路特定手段２２３は、上記のようにして特定した最適経路候補を逆に辿るとともに、その最適経路候補から外れて移動を行う場合には、上記累積値が増加することを確かめ、最適経路を特定する（図１１参照）。
【００５１】
以上のようにして特定された最適経路は、模範音声の時間軸と練習者音声の時間軸との対応関係を表している。具体的には、図１１に示す最適経路は、模範音声についての各フレームと練習者音声についての各フレームとが図１２に示すように対応していることを示している。最適経路特定手段２２３は、図１２に示す対応関係を示すデータを生成し、そのデータを評価モジュール２３へ出力する（ステップＳＡ１６０）。
【００５２】
以下、評価モジュール２３は、最適経路特定手段２２３により特定された対応関係を満たすように練習者音声データにタイムアラインメントを施した後に模範音声データと比較し、その比較結果を点数化して表示部１５に表示する。
【００５３】
以上に説明したように、本実施形態に係るカラオケ装置１によれば、練習者による歌唱を評価する過程において、ＤＴＷ実施区間を前述した有音区間に限定する（換言すれば、無音区間を除外する）。ＤＴＷ実施区間を限定することにより、また差分マトリクスにおいて成分の限定をすることにより、必要とされる計算量を減らすことができる、といった効果を奏する。
【００５４】
（Ｃ：変形）
以上、本発明の１実施形態について説明したが、係る実施形態に以下に述べるような変形を加えても良いことは勿論である。
（１）上述した実施形態では、本発明に特徴的な動的時間整合（ＤＴＷ）処理を行う機能をカラオケ装置へ組み込むことによって、種々の技法を駆使して歌唱が行われた場合に、その手本となる歌唱にて駆使されている技法との相違を評価することを可能にする場合について説明した。しかしながら、上記ＤＴＷモジュール２２による動的時間整合処理の処理対象は、上記歌唱音に限定されるものではなく、種々の技法を駆使して演奏された楽器の演奏音データとその手本となる模範演奏データであっても良く、また、英会話などの外国語習得にも利用することができる。
【００５５】
（２）上述した実施形態では、練習者音声および模範音声のピッチおよび音量に基づいて有音であるか無音であるかを判定し、その判定結果に応じて時間変化に依存しない音響パラメータ（上記実施形態では、スペクトル）に付与する重みを切り替える場合について説明したが、ピッチのみ、或いは、音量のみに基づいて有音／無音の判定をするようにしても勿論良い。また、上記の如き重みの切り替えは必ずしも必須ではないから、係る切り替えを行わない態様においては、ピッチの検出や基礎分析モジュール２１からＤＴＷモジュール２２への音量データの引渡しを行う必要がないことは言うまでも無い。
【００５６】
（３）上述した実施形態では、練習者歌唱音と模範音声との動的時間整合を行う際には、その都度、模範音声データ記憶領域１４ｂに記憶されている模範音声データを基礎分析モジュール２１によって分析し、その模範音声データの表す歌唱音についての音響パラメータを算出する場合について説明した。しかしながら、模範音声データについて上記音響パラメータを予め求めておき、その音響パラメータと楽曲識別子とを対応付けて記憶部１４に記憶させておくようにしても勿論良い。
また、上述した実施形態では、カラオケ装置１に設けられた記憶部１４に模範音声データを記憶させておく場合について説明したが、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）やＤＶＤ（Digital Versatile Disk）などのコンピュータ装置読み取り可能な記録媒体に模範音声データや模範音声データから抽出される音響パラメータを書き込んで配布し、このような記録媒体からの模範音声データや音響パラメータの読み出しにより、模範音声データや音響パラメータを取得させるようにしても良く、また、インターネットなどの電気通信回線経由で模範音声についての音響パラメータを取得させるようにしても良い。
【００５７】
（４）上述した実施形態では、練習者音声データや模範音声データから音響パラメータの抽出を行う基礎分析モジュール２１と、それら音響パラメータに基づいて模範音声と練習者音声との時間軸の対応付けを行うＤＴＷモジュール２２とを夫々別個のソフトウェアモジュールとして実現する場合について説明したが、１つのソフトウェアモジュールとして構成しても良いことは勿論である。具体的には、音響パラメータの正規化および正規化後の音響パラメータを用いて動的時間整合を行う動的時間整合モジュールに、練習者音声データから音響パラメータを抽出する機能や、模範音声データからの抽出或いは記録媒体等からの読出しにより模範音声についての音響パラメータの取得を行う機能を担わせるようにすれば良い。
【００５８】
（５）上述した実施形態では、本発明に係る楽曲練習支援装置に特徴的な機能を制御部１１に実現させるための制御プログラムをＲＯＭ１２に予め書き込んでおく場合について説明したが、ＣＤ−ＲＯＭやＤＶＤなどのコンピュータ装置読み取り可能な記録媒体に上記制御プログラムを記録して配布するとしても良く、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布するようにしても勿論良い。
【００５９】
（６）上述した実施形態では、動的時間整合を行うための音響パラメータとして、ピッチ、音量およびスペクトルと、音量の１次微分および２次微分、スペクトルの１次微分を用いる場合について説明した。これら音響パラメータのうち、音量の１次微分および２次微分は、音量の時間変化の度合いを表すものであるが、２次微分は必ずしも必須ではない。また、スペクトルについても、その時間変化の度合いを動的時間整合により正確に反映させるため、２次微分まで求めるようにしても勿論良い。
【００６０】
（７）上述した実施形態では、差分マトリクス生成手段２２２は、差分マトリクスの成分全てについて値を算出し（ステップＳＡ１３０）、その後、最適経路特定手段２２３がそれらの成分から経路の候補となる成分を限定する（ステップＳＡ１４０）場合について説明した。しかし、ステップＳＡ１４０において除外される成分については予めステップＳＡ１３０において差分マトリクス生成手段２２２が生成しないようにしてもよい。
その理由は以下の通りである。歌唱者は表示部１５に表示された歌詞テロップを見ながら歌唱するため、歌詞テロップがまだ表示されていない楽曲部分を歌うことや、歌詞テロップが表示され終わった楽曲部分を遅れて歌うといったように模範音声と極端にずれた歌唱を行う可能性は低い。そのように極端な歌唱を行う場合は、模範音声と練習者音声とでフレーム番号が極端に異なる組み合わせである場合に対応する。従って、差分マトリクスにおいて、たとえば（Ｎ，０）成分など、模範音声と練習者音声で番号が極端に異なるフレームについて算出された差分からなる成分については検討する必要性は低い。
【００６１】
（８）上述した実施形態では、ＤＴＷ実施区間限定手段２２０は、模範音声や練習者音声の音量が予め決められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間を、ＤＴＷ実施区間とする場合について説明した。しかし、音量に加えてまたは音量の代わりに、模範音声のピッチに基づいてＤＴＷ実施区間を決定しても良い。具体的には、(ａ)模範音声のピッチが予め定められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間、（ｂ）模範音声の音量およびピッチの両方が予め定められた閾値を上回り、且つその上回る期間が予め規定された閾値を超える区間、（ｃ）模範音声の音量が予め決められた閾値を上回る区間（区間の時間は考慮しない）、（ｄ）模範音声のピッチが予め決められた閾値を上回る区間（区間の時間は考慮しない）、をＤＴＷ実施区間としても良い。
【００６２】
（９）上述した実施形態では、カラオケ曲を一意に識別する楽曲識別子に対応付けてその楽曲識別子で識別されるカラオケ曲を持ち歌とする歌手によるそのカラオケ曲の歌唱音を表す模範音声データを記憶部１４に記憶させておく場合について説明した。
しかしながら、１つの楽曲を複数の歌手が夫々個別に持ち歌としている場合には、その歌手毎に異なる楽曲であるとして、互いに異なる楽曲識別子を付与しても良く、また、その楽曲を一意に識別する楽曲識別子に上記複数の歌手の各々を一意に識別する歌手識別子を対応付け、さらに、この楽曲識別子と歌手識別子の組に、その楽曲識別子で識別される楽曲の、その歌手識別子で識別される歌手による歌唱音を表す模範音声データを対応付けて記憶部１４に記憶させておくとしても良い。前述したように、歌手毎にその歌唱技法が異なっていることが一般的であり、同一の楽曲であっても歌い手が異なれば、その歌唱に込められる情感や味わいも異なることが一般的である。上記のように歌い手の識別を可能なように構成すれば、１つの楽曲を複数の歌手が持ち歌としている場合であっても、ユーザは、それら複数の歌手のうちから自身の好みに応じた歌手による歌唱を選択し、その歌唱を真似て歌唱練習を行うことが可能になる。
【図面の簡単な説明】
【００６３】
【図１】本発明の１実施形態に係るカラオケ装置１のハードウェア構成の一例を示すブロック図である。
【図２】同カラオケ装置１の機能構成例を示すブロック図である。
【図３】同基礎分析モジュール２１により実行される音響パラメータ抽出を説明するための図である。
【図４】同ＤＴＷモジュール２２により実行される動的時間整合処理の実行結果の一例を示す図である。
【図５】同カラオケ装置１が行う採点処理の流れを示すフローチャートである。
【図６】差分マトリクスの一例を示す図である。
【図７】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図８】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図９】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図１０】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図１１】最適経路特定処理にて特定される最適経路の一例を示す図である。
【図１２】動的時間整合処理の処理結果を説明するための図である。
【図１３】成分を限定された差分マトリクスの一例を示す図である。
【符号の説明】
【００６４】
１…カラオケ装置、１０…バス、１１…制御部、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部（１４ａ；伴奏・歌詞データ記憶領域、１４ｂ；模範音声データ記憶領域、１４ｃ；練習者音声データ記憶領域）、１５…表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ、２１…基礎分析モジュール、２２…ＤＴＷモジュール、２３…評価モジュール、２１１…ピッチ検出手段、２１２…音量検出手段、２１３…スペクトル検出手段、２１４、２１４ａ、２１４ｂ、２１４ｃ…微分手段、２２０…ＤＴＷ実施区間限定手段、２２１…正規化手段、２２２…差分マトリクス生成手段、２２３…最適経路特定手段

【特許請求の範囲】
【請求項１】
ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、
前記第１のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第１の音響パラメータを参照して選択し、前記第２のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第２の音響パラメータを参照して前記第２のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、
前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と
を有する動的時間整合モジュール、を備え、
前記第１のオーディオ信号の信号波形と前記第２のオーディオ信号の信号波形とを前記動的時間整合モジュールにより対応付けが為された時間単位毎に比較し、両者の一致の度合いを点数化して出力する
ことを特徴とする楽曲練習支援装置。
【請求項２】
前記区間選択手段は、前記第１および第２のオーディオ信号においてピッチまたは音量の少なくとも一方が予め定められた閾値を下回る無音区間が予め定められた時間を超過して継続する場合に、該当する無音区間を除く区間を前記第１および前記第２のオーディオ信号から選択する
ことを特徴とする請求項１に記載の楽曲練習支援装置。
【請求項３】
楽曲を一意に識別する楽曲識別子と、前記楽曲識別子により識別される楽曲に対応する前記第２の音響パラメータとの組が１または複数記憶された記憶手段を備え、
前記取得手段は、前記ユーザにより選択された楽曲識別子に対応する前記第２の音響パラメータを前記記憶装置から読み出して取得する
ことを特徴とする請求項１に記載の楽曲練習支援装置。
【請求項４】
ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、
前記第１のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第１の音響パラメータを参照して選択し、前記第２のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第２の音響パラメータを参照して前記第２のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、
前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と
を有することを特徴とする動的時間整合モジュール。
【請求項５】
コンピュータ装置を、
ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位におけるピッチ、音量、スペクトルと、音量とスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、
前記第１のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第１の音響パラメータを参照して選択し、前記第２のオーディオ信号からピッチまたは音量の少なくとも一方が予め定められた閾値を上回る有音区間を前記第２の音響パラメータを参照して前記第２のオーディオ信号から選択する区間選択手段と、
前記区間選択手段により選択された有音区間における前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記区間選択手段により選択された有音区間における前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、
前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値の差が予め定められた値より小さい格子点のみを選択する格子点選択手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、前記格子点選択手段により選択された格子点のみを通り、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段
として機能させることを特徴とするプログラム。

【図１】