楽曲練習支援装置、動的時間整合モジュールおよびプログラム

【課題】種々の技法が駆使された歌唱または演奏を手本として歌唱練習または演奏練習をユーザが行う場合に、それら技法の再現度合いを評価することを可能にする。
【解決手段】ユーザの歌唱音を表す第１のオーディオ信号とその手本となる歌手の歌唱音を表す第２のオーディオ信号とを比較しその一致度を点数化して出力するカラオケ装置に、上記第１のオーディオ信号を解析して得られる第１の音響パラメータと上記第２のオーディオ信号を解析して得られる第２の音響パラメータとを正規化した後にそれら音響パラメータに基づいて動的時間整合を行うＤＴＷモジュールを設け、そのＤＴＷモジュールにより互いに対応付けられた時間単位同士で上記第１および第２のオーディオ信号の一致度を評価させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ユーザの歌唱または演奏をその手本と比較評価するための技術に関する。
【背景技術】
【０００２】
カラオケ装置のなかには、ユーザの歌唱音をマイクロホンにより収音し、その歌唱音のピッチ（音高）の時間変化と、カラオケ伴奏（以下、「ガイドメロディ」）のピッチの時間変化とを比較し、両者の一致の度合いを点数化して出力する機能（以下、採点機能）を備えたものがあり（例えば、特許文献１や特許文献２）、この種のカラオケ装置を利用して手軽に歌唱練習を行うことが可能になっている。
【特許文献１】特開２００５−２１５４９３号公報
【特許文献２】特開２００３−１５６７３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
ところで、熟練した歌唱者は、楽譜内容に忠実に歌唱するのではなく、歌い始めや歌い終わりを意図的にずらしたり、声質や音量を変化させたり、或いはビブラートやこぶしを用いたりするなど様々な歌唱技法を駆使して情感や味わいを表現する場合がある。このような情感や味わいは歌唱者によって様々に表現され、例えば、フレーズの末尾に必ずビブラートをかけたり、歌い始めを必ずためる（歌い始めのタイミングを意図的に遅らせる）など、歌手毎に特徴があることが多い。
一方、カラオケ装置を用いて歌唱練習を行うユーザは、自身の好みの歌手の歌唱技法を真似て歌唱したいと考えていることが多く、カラオケ装置を利用して歌唱練習を行う際には、その歌唱技法をどの程度再現できたのかについても評価を受けたいと望んでいる場合がある。
【０００４】
しかしながら、特許文献１や特許文献２に開示された技術では、上記の如きニーズに応えることができないのみならず、歌い始めを必ずためるなどの歌唱技法は、楽譜内容からの逸脱として減点対象となってしまう場合もある。何故ならば、特許文献１や特許文献２に開示された技術にて評価基準となるガイドメロディは楽曲のピッチの変化を楽譜内容に則して忠実に再現するものであり、これら特許文献１や特許文献２に開示された技術は楽譜内容に忠実に歌唱されたか否かを評価することを目的としているからである。なお、これは楽曲の歌唱に限らず、楽器の演奏についても同様である。
本発明は、上記課題に鑑みて為されたものであり、種々の技法が駆使された歌唱または演奏を手本として歌唱練習または演奏練習をユーザが行う場合に、それら技法の再現度合いを評価することを可能にする技術を提供することを目的としている。
【課題を解決するための手段】
【０００５】
上記課題を解決するために、本発明は、ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と、を有する動的時間整合モジュール、を備え、前記第１のオーディオ信号の信号波形と前記第２のオーディオ信号の信号波形とを前記動的時間整合モジュールにより対応付けが為された時間単位毎に比較し、両者の一致の度合いを点数化して出力することを特徴とする楽曲練習支援装置、を提供する。
【０００６】
より好ましい態様においては、前記抽出手段は、前記第１のオーディオ信号の表す音のピッチを前記時間単位毎に抽出する一方、前記取得手段は、前記第２のオーディオ信号の表す音のピッチを前記時間単位毎に取得し、前記正規化手段は、前記第１のオーディオ信号の前記各時間単位におけるピッチについても前記正規化を施す一方、前記第２のオーディオ信号の前記各時間単位におけるピッチについても前記正規化を施し、前記算出手段は、前記評価値を算出する際に、その評価値が対応付けられる格子点の座標値に対応する時間単位におけるピッチの値に応じた係数を、その時間単位における前記第１のオーディオ信号のスペクトルの時間変化の度合いと前記第２のオーディオ信号のスペクトルの時間変化の度合いとの差に乗算して前記評価値を算出することを特徴としている。
【０００７】
また、別の好ましい態様においては、楽曲を一意に識別する楽曲識別子とその楽曲の模範歌唱または模範演奏の波形を表す前記第１のオーディオ信号との組が１または複数記憶された記憶手段を備え、前記取得手段は、前記ユーザにより指定された楽曲識別子に対応する第２のオーディオデータを前記記憶手段から読出し、その第２のオーディオ信号を解析して前記時間単位毎に前記第２の音響パラメータを取得することを特徴としている。
【０００８】
また、上記課題を解決するために、本発明は、ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と、を有することを特徴とする動的時間整合モジュールを提供する。
【０００９】
また、上記課題を解決するために、本発明は、コンピュータ装置を、ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と、として機能させることを特徴とするプログラムを提供する。
【発明の効果】
【００１０】
本発明によれば、種々の技法が駆使された歌唱または演奏を手本として歌唱練習または演奏練習をユーザが行う場合に、それら技法の再現度合いを評価することが可能になる、といった効果を奏する。
【発明を実施するための最良の形態】
【００１１】
以下、図面を参照しつつ本発明の１実施形態について説明する。
（Ａ：構成）
図１は、本発明に係る楽曲練習支援装置の一実施形態であるカラオケ装置１のハードウェア構成の一例を示すブロック図である。図１に示すように、カラオケ装置１は、制御部１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、記憶部１４、表示部１５、操作部１６、音声処理部１８およびこれらのデータ授受を仲介するバス１０を有している。
制御部１１は、例えばＣＰＵ（Central Processing Unit）であり、ＲＯＭ１２に記憶されている制御プログラムを読み出してＲＡＭ１３にロードし、これを実行することにより、カラオケ装置１の各部を制御する。
【００１２】
記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、伴奏・歌詞データ記憶領域１４ａと、模範音声データ記憶領域１４ｂと、練習者音声データ記憶領域１４ｃとを有している。
【００１３】
表示部１５は、例えば液晶ディスプレイとその駆動回路であり、制御部１１の制御の下で、カラオケ装置１の利用を促すためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部１６は、テンキーなど各種のキーを備えており、押下されたキーに対応した信号を制御部１１へ出力する。
【００１４】
音声処理部１８には、マイクロホン１７とスピーカ１９とが接続されている。マイクロホン１７は、カラオケ装置１を利用して歌唱練習を行うユーザ（以下、練習者）の歌唱音を収音し、その歌唱音に応じた音声信号（アナログデータ）を音声処理部１８へ出力する。音声処理部１８は、マイクロホン１７から出力された音声信号（アナログデータ）を音声データ（デジタルデータ）に変換して制御部１１へ出力する一方、制御部１１から引き渡された音声データを音声信号に変換しスピーカ１９へ出力する。スピーカ１９は、音声処理部１８から出力される音声信号に応じた音声を放音する。
【００１５】
記憶部１４の伴奏・歌詞データ記憶領域１４ａには、１または複数の楽曲の各々について伴奏を行う各種楽器の演奏音（所謂ガイドメロディ）がその楽曲の進行順に記された伴奏データと、その楽曲の歌詞を示す歌詞データとが互いに関連付けられて記憶されている。伴奏データは、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式のデータであり、練習者がカラオケ曲を歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部１５に表示される。
より詳細に説明する伴奏・歌詞データ記憶領域１４ａに記憶されている伴奏データと歌詞データとには、カラオケ曲を一意に識別する識別子（例えば、英字や記号、数字などからなる楽曲コード：以下、楽曲識別子）が対応付けられており、この楽曲識別子によって伴奏データと歌詞データとが互いに関連付けられている。この楽曲識別子は、練習者にその練習対象である楽曲を指定させる際に利用される。
【００１６】
模範音声データ記憶領域１４ｂには、前述した楽曲識別子に対応付けて、その楽曲識別子で識別される楽曲を持ち歌とする歌手によるその楽曲の歌唱音（以下、模範音声）の音声波形を表すＷＡＶＥ形式の音声データ（以下、模範音声データ）が記憶されている。この模範音声データは、練習者の歌唱を評価する際の基準として利用される。
【００１７】
練習者音声データ記憶領域１４ｃには、マイクロホン１７から音声処理部１８を経てＡ／Ｄ変換された音声データ（以下、練習者音声データ）が、例えばＷＡＶＥ形式で記憶される。
【００１８】
次に、図２に示すブロック図を参照しながら、カラオケ装置１の機能構成について説明する。図２に示す基礎分析モジュール２１、動的時間整合（Dynamic Time Warping：以下、ＤＴＷ）モジュール２２、および、評価モジュール２３は、前述した制御プログラムを制御部１１が実行することによって実現されるソフトウェアモジュールである。なお、図中の矢印は、データの流れを概略的に示したものである。また、上記３つのソフトウェアモジュールの他にも、練習者により指定されたカラオケ曲の伴奏音の再生や、その伴奏音と練習者の歌唱音とを合成して出力するカラオケ演奏モジュールも上記制御プログラムを制御部１１が実行することによって実現されるが、係るカラオケ演奏モジュールの機能については従来のカラオケ装置の機能となんら変わるところがないため、図示および詳細な説明を省略する。
【００１９】
基礎分析モジュール２１は、模範音声データ記憶領域１４ｂから読み出された模範音声データと、練習者音声データ記憶領域１４ｃから読み出された練習者音声データの各々について、音響パラメータ（ピッチ、音量、スペクトル、音量の時間変化の度合い、および、スペクトルの時間変化の度合い）を所定の時間単位（本実施形態では、１フレーム単位）毎に抽出する。なお、本実施形態では、模範音声データおよび練習者音声データの各々から上記音響パラメータを抽出する時間単位を１フレームとする場合について説明するが、１フレームをさらに分割したサブフレーム単位で上記音響パラメータを抽出するとしても良く、また、複数フレーム単位で上記音響パラメータを抽出するとしても勿論良い。要は、模範音声データから音響パラメータを抽出する際の時間単位と練習者音声データから音響パラメータを抽出する際の時間単位とが一致していれば良く、その時間単位の長さは問わない。
この基礎分析モジュール２１は、図２に示すように、ピッチ検出手段２１１、音量検出手段２１２、スペクトル検出手段２１３、および、微分手段２１４ａ〜２１４ｃを含んでおり、基礎分析モジュール２１へ引き渡された音声データ（すなわち、模範音声データまたは練習者音声データ）は、図２に示す様に３分流され、ピッチ検出手段２１１、音量検出手段２１２およびスペクトル検出手段２１３の各々へ引き渡される。
【００２０】
ピッチ検出手段２１１は、上記所定の時間単位分の音声データについて自己相関を求め、その時間単位におけるピッチを検出し、その検出結果を示すピッチデータを出力する。ピッチ検出手段２１１から出力されたピッチデータは、図２に示すように、ＤＴＷモジュール２２へ引き渡される。なお、本実施形態では、自己相関を求めることによって、各時間単位におけるピッチの検出を行う場合について説明したが、例えば、上記時間単位毎にケプストラムを求めてピッチの検出を行うようにしても勿論良い。
【００２１】
音量検出手段２１２は、上記所定の時間単位分の音声データに含まれる各サンプル（本実施形態では２５６サンプル：図３参照）について、その振幅の絶対値の加算平均を算出し、その算出結果をその時間単位における音量を示す音量データとして出力する。音量検出手段２１２から出力された音量データは、図２に示すように２分流されてその一方はＤＴＷモジュール２２へ引き渡され、他方は、微分手段２１４ａへ引き渡される。
【００２２】
微分手段２１４ａは、連続する複数の時間単位についての音量データから、音量についての１次微分（以下、「速度」と呼ぶ）を算出し、その算出結果を示す音量速度データを出力する。この音量速度データは、上記音声データの表す音声の音量が上記複数の時間単位に渡って上昇傾向にあるのか、それとも、下降傾向にあるのかを表している。本実施形態では、微分手段２１４ａは、図３に示すように、連続する５つのフレームについての音量データから音量速度データを生成する。この音量速度データは、図２に示すように２分流されてその一方はＤＴＷモジュール２２へ引き渡され、他方は、微分手段２１４ｂへ引き渡される。
【００２３】
微分手段２１４ｂは、連続する複数の時間単位についての音量速度データから、その１次微分（すなわち、音量の２次微分：以下、音量の加速度）を算出し、その算出結果を示す音量加速度データを出力する。この音量加速度データは、上記音量速度データの表す音量速度の変化の度合いが上記連続する複数の時間単位に渡って大きくなる傾向にあるのか、それとも、小さくなる傾向にあるのかを表している。図２に示すように、微分手段２１４ｂから出力される音量加速度データはＤＴＷモジュール２２へ引き渡される。
【００２４】
スペクトル検出手段２１３は、図３に示すように連続する２つの時間単位分の音声データにＦＦＴ（Fast Fourier Transform）を施し、さらに、所定の通過域を有するバンドパスフィルタ（本実施形態では、歌唱音の音声データが入力されるのであるから、０から２ｋＨＺまでは１／２オクターブバンドパスフィルタで、２から８ｋＨｚまでは１／４オクターブバンドパスフィルタ）を通過させ、その出力を上記時間単位におけるスペクトル（すなわち、上記各通過域成分）を表すスペクトルデータとして出力する。スペクトル検出手段２１３から出力されたスペクトルデータは、図２に示すように２分流され、その一方はＤＴＷモジュール２２へ引き渡され、他方は微分手段２１４ｃへ引き渡される。
【００２５】
微分手段２１４ｃは、連続する複数の時間単位（本実施形態では、連続する５フレーム）についてのスペクトルデータから、スペクトルの速度を算出し、その算出結果を示すスペクトル速度データを出力する。微分手段１４ｃから出力されるスペクトル速度データは、図２に示すように、ＤＴＷモジュール２２へ引き渡される。
以上が基礎分析モジュール２１の構成である。
【００２６】
次いで、ＤＴＷモジュール２２の機能構成について説明する。
ＤＴＷモジュール２２は、図４に示すように、練習者音声の各時間単位と模範音声の各時間単位との対応関係を特定するためのものであり、図２に示すように、正規化手段２２１、差分マトリクス生成手段２２２、および、最適経路特定手段２２３を含んでいる。
正規化手段２２１は、模範音声および練習者音声のそれぞれについて、その歌い始めから歌い終わりまでの各時間単位における音響パラメータを基礎分析モジュール２１から受け取り、それら音声毎に正規化して差分マトリクス生成手段２２２へ引き渡す。ここで、データの正規化とは、上記時間単位毎に基礎分析モジュール２１から引き渡されてくる一連の音響パラメータに、その加算平均および標準偏差が一定の値になるような変換を施すことであり、本実施形態では、以下の数１にしたがって上記正規化を行う。
（数１） AfterDat[i] ＝（BeforDat[i]) − AVR）／STD
なお、数１において、BeforDat[i]は、基礎分析モジュール２１から引き渡されるi番目のフレームについての音響パラメータであり、SDVはその音響パラメータについての標準偏差、AVRはその音響パラメータについての加算平均であり、AfterDat[i]はi番目のフレームについての正規化後の音響パラメータである。
数１に示す正規化を施すことによって、基礎分析モジュール２１から引き渡される音響パラメータは、加算平均が“０”で標準偏差が“１”である音響パラメータ（すなわち、標準化された正規分布にしたがうデータ）に変換されることになる。このような正規化を施すことにより、歌唱者音声の収音環境と模範音声の収音環境との差異を取り除いて歌唱者音声と模範音声とを比較することが可能になる。また、模範音声と練習者音声の間に音量レベル差があったり、ピッチがオクターブ単位で異なったりすることは歌唱の巧拙とは関わりがないことがほとんどであるが、そのような個々の音声が本来的に持っている差異などの要因を取り除くことも可能であり、突発的なピッチや音量の変化に起因する影響を緩和することも可能になる。
【００２７】
差分マトリクス生成手段２２２は、練習者音声の各時間単位についての音響パラメータと模範音声の各時間単位についての音響パラメータとのユークリッド距離（以下、「差分」とも呼ぶ）を求め、その差分値を成分とするマトリクス（以下、差分マトリクス）をＲＡＭ１３内に生成する。例えば、練習者音声の歌い始めが第０フレームで、その歌い終わりが第Ｎフレームである一方、模範音声の歌い始めが第０フレームで、その歌い終わりが第Ｍフレームである場合（Ｎ、Ｍは１以上の自然数）、差分マトリクス生成手段２２２は、以下の数２で示す値を（ｉ、ｊ）成分（ただし、０≦ｉ≦Ｎ，０≦ｊ≦Ｍ）とする（Ｎ＋１）行（Ｍ＋１）列の差分マトリクスを生成する。
（数２）Sqr{ (Σ(GuideSpectrum[j][k]−SingerSpectrum[i][k])＾2)*WeightScalar[k]
+(Σ(ΔGuideSpectrum[j][k]−ΔSingerSpectrum[i][k])＾2)*WeightVector[k]
+(ΔGuidePower[j]−ΔSingerPower[i])＾2)
+(ΔΔGuidePower[j]−ΔΔSingerPower[i])＾2)
}/num
この数２において、
GuideSpectrum[j][k]：模範音声のｊ番目のフレームのｋ番目の通過域のスペクトル成分
SingerSpectrum[i][k]：練習者音声のｉ番目のフレームのｋ番目の通過域のスペクトル成分
ΔGuideSpectrum[j][k]：模範音声のｊ番目のフレームのｋ番目のスペクトル速度
ΔSingerSpectrum[i][k]：練習者音声のｉ番目のフレームのｋ番目のスペクトル速度
ΔGuidePower[j]：模範音声のｊ番目のフレームの音量速度
ΔSingerPower[i]：練習者音声のｉ番目のフレームの音量速度
ΔΔGuidePower[j]：模範音声のｊ番目のフレームの音量加速度
ΔΔSingerPower[i]：練習者音声のｉ番目のフレームの音量加速度
WeightScalar[k]：重み付け係数
WeightVector[k]：重み付け係数
num：ユークリッド距離を求めるパラメータの数（例えば、練習者音声が第０フレームから第Ｎフレームに渡っており、模範音声が第０フレームから第Ｍフレームに渡っている場合には、num＝（Ｎ＋１）×（Ｍ＋１））である。
ただし、WeightScalar[k]は、時間変化に依存しない音響パラメータへの重み付けを行う係数であり、練習者歌唱音および模範音声が有音（周期的な音声）であるか、無音（非周期的な音声）であるかに応じて適宜選択される値である。具体的には、練習者歌唱音および模範音声がともに有音である場合には、低域のスペクトルに重みが付与されるようにその値が選択され、練習者歌唱音および模範音声がともに無音である場合には、高域のスペクトルに重みが付与されるようにその値が選択される。なお、練習者歌唱音および模範音声について有音であるか無音であるかの判定は、各々のピッチおよび音量に基づいて為される。具体的には、差分マトリクス生成手段２２２は、ピッチが所定の閾値以上であり、かつ、音量も所定の閾値以上である場合に、該当する時間単位について有音であると判定し、その他の場合は無音と判定する。
これに対して、WeightVector[k]は、時間変化に依存する音響パラメータへの重み付けを行う係数であり、中域のスペクトルに重みを付与するための係数である。
なお、数２において、Σ記号は、添え字ｋについての総和（すなわち、全ての通過域についてのスペクトル成分の総和）を意味し、“＾２”は２乗を意味し、Sqr{}は平方根を意味している。
【００２８】
最適経路特定手段２２３は、差分マトリクス生成手段２２２により生成された差分マトリクスにおいて、その左下隅（すなわち、（０、０）成分）からその右上隅（すなわち、（Ｎ，Ｍ）成分）へ至る経路のうち、その経路上に位置する各成分の累積値が最小になる経路を、練習者音声と模範音声の各時間単位の対応関係を表す最適経路として特定し、その経路の示す時間の対応関係を表すデータを評価モジュール２３へ引き渡す。
より詳細に説明すると、最適経路特定手段２２３は、以下に説明する規則にしたがって上記最適経路を特定する。
（規則１）差分マトリクスの左下隅から経路の探索を始め、移動先の成分を累算した値が最小になるように移動先を選択する処理を右上隅に至るまで繰り返す。
ただし、１回の移動は、右、上、または右上の何れかに制限する。例えば、（ｉ、ｊ）成分からの移動は、（ｉ、ｊ＋１）成分、（ｉ＋１、ｊ）成分、または、（ｉ＋１、ｊ＋１）成分への移動へ制限する。
なお、右へ移動した場合の累積値と上へ移動した場合の累積値が等しい場合には、右への移動を優先する。同様に、右への移動と右上への移動の累積値が等しい場合には、右への移動を優先し、上への移動と右上への移動の累積値が等しい場合には、上への移動を優先する。
（規則２）上記規則１にしたがって選択された経路を右上隅から左下隅まで逆に辿り、最適経路を特定する。
【００２９】
図２の評価モジュール２３は、ＤＴＷモジュール２２により各時間単位の対応付けが為された模範音声と練習者音声とについて、互いに対応する時間単位毎に信号波形を比較し、模範音声に対する練習者音声の一致度を点数化して表示部１５にさせるものである。
以上に説明したように、本実施形態に係るカラオケ装置１のハードウェア構成は、一般的なコンピュータ装置のハードウェア構成と同一であり、本発明に係る楽曲練習支援装置に特徴的な機能はソフトウェアモジュール（すなわち、基礎分析モジュール２１およびＤＴＷモジュール２２）により実現されている。なお、本実施形態では、本発明に係る楽曲練習支援装置に特徴的な基礎分析モジュールおよびＤＴＷモジュールをソフトウェアモジュールで実現する場合について説明したが、これら各モジュールをハードウェアで実現しても良いことは勿論である。
以上がカラオケ装置１の構成である。
【００３０】
（Ｂ：動作）
次いで、カラオケ装置１が行う動作のうち、その特徴を顕著に示している動作（すなわち、基礎分析モジュール２１およびＤＴＷモジュール２２の動作）を中心に図面を参照しつつ説明する。なお、以下に説明する動作例では、カラオケ装置１の電源（図示）は投入済みであり、制御部１１はＲＯＭ１２からＲＡＭ１３へロードした制御プログラムにしたがって作動しているものとする。
【００３１】
カラオケ装置１を用いて歌唱練習を行おうとする練習者は、表示部１５に表示されるメニュー画面等を参照しながら操作部１６を適宜操作することによって、歌唱練習を所望する楽曲の楽曲識別子を入力することにより練習対象の楽曲を指定する。このようにして練習対象の楽曲が指定されると、制御部１１は、その楽曲識別子に対応する伴奏データおよび歌詞データを記憶部１４からＲＡＭ１３へロードする。そして、上記練習者が演奏開始を指示する旨の操作を操作部１６に対して行うと、制御部１１は、ＲＡＭ１３へ読み出した伴奏データにしたがった伴奏音の再生を音声処理部１８に開始させるとともに、歌詞データの表す歌詞テロップを埋め込んだカラオケ画面を表示部１５へ表示させ、楽曲の進行に併せてその歌詞のワイプ表示を行う。
【００３２】
上記カラオケ画面を視認しスピーカから放音される伴奏音を聞いている練習者は、その楽曲の歌い出しタイミングに至ると、その楽曲の歌唱を開始する。そして、練習者の歌唱音は、マイクロホン１７によって収音され、その歌唱音に応じた練習者音声データが練習者音声データ記憶領域１４ｃに順次書き込まれる。このようにして練習者音声データが練習者音声データ記憶領域１４ｃに記憶されると、制御部１１は、この練習者音声データと、メニュー画面にてユーザにより指定された楽曲識別子に対応付けて模範音声データ記憶領域１４ｂに記憶されている模範音声データとを読出し、図５に示す採点処理を実行する。なお、本動作例では、練習者音声は第０フレームから第３フレームまでの４個のフレームに渡っている一方、模範音声は第０フレームから第４フレームまでの５個のフレームに渡っているものとする。
【００３３】
図５は、制御部１１が上記制御プログラムにしたがって行う採点処理の流れを示すフローチャートである。図５に示すように、制御部１１は、練習者音声について、その歌い始めから歌い終わりまでの時間単位毎に音響パラメータを抽出する一方、練習者音声についてもその歌い始めから歌い終わりまでの時間単位毎に音響パラメータを抽出する（ステップＳＡ０１００）。なお、このステップＳＡ０１００の処理は、前述した基礎分析モジュール２１により実行される。
【００３４】
次いで、制御部１１は、ステップＳＡ０１００にて抽出した音響パラメータに正規化を施し（ステップＳＡ０１１０）、正規化後の音響パラメータから差分マトリクスを生成する（ステップＳＡ０１２０）。なお、このステップＳＡ０１１０の処理は、前述した正規化手段２２１により実行され、ステップＳＡ０１２０の処理は差分マトリクス生成手段２２２により実行される。本動作例では、ステップＳＡ０１２０までの処理が実行された結果、図６に示す４行５列の差分マトリクスが生成され、ＲＡＭ１３に記憶されるものとする。
【００３５】
次いで、制御部１１は、ステップＳＡ０１２０にて生成した差分マトリクスから最適経路を特定する（ステップＳＡ０１３０）。このステップＳＡ０１３０の処理は前述した最適経路特定手段２２３により実行される処理であり、具体的には、最適経路特定手段２２３は以下に説明する手順で、最適経路の特定を行う。
最適経路特定手段２２３は、まず、差分マトリクスの第０列（すなわち、左端の列）に属する成分について、前述した（規則１）にしたがった移動に伴う累積値を算出する（図７参照）。例えば、（０、０）成分の値は“１”であり、（１，０）成分の値は“４”であるから（図６参照）、（０，０）成分から（１，０）成分への移動に伴う累積値は“５”になる（図７参照）。そして、（２，０）成分の値は“１”であるから、（０，０）成分→（１，０）成分→（２，０）成分という移動に伴う累積値は“６”になる（図７参照）。以下、（３，０）成分に至るまで移動に伴う成分の累積値を算出し、図７に示す結果が得られる。なお、最適経路特定手段２２３は、移動に伴う累積値を算出する際には、その移動元の成分を一意に示す識別子（本実施形態では、その成分の２つの添え字）とその移動先の成分に示す識別子とを対応付けてＲＡＭ１３に記憶する。例えば、（０、０）成分から（１、１）成分への移動に際しては、“（０，０）→（１，１、）”という文字列データをＲＡＭ１３に記憶する。このようにしてＲＡＭ１３に記憶されるデータは、最適経路を特定する際のトレースバックにてバックポインタとして利用される。
【００３６】
最適経路特定手段２２３は、前述した第０列の場合と同様に、第１列についても移動に伴う成分の累積を行う。具体的には、最適経路特定手段２２３は、まず、（０、０）成分から（０、１）成分への移動に伴う成分の累積を行う。図８に示すように、（０，０）成分の値は“１”であり、（０，１）成分の値は“３”であるから、（０、０）成分から（０、１）成分への移動に伴う累積値は“４”になる。
次いで、最適経路特定手段２２３は、（１，１）成分への移動に伴う成分の累積を行うのであるが、ここで注目すべき点は、（１，１）成分への移動パターンとしては、以下に述べる３つのパターンが有り得る点である。すなわち、（０，１）成分から（１、１）成分への上方向の移動と、（０，０）成分から（１，１）成分への右上方向への移動と、（１、０）成分から（１、１）成分への右方向の移動である。
【００３７】
最適経路特定手段２２３は、上記３つの移動パターンのうち、移動に伴う成分の累積値が最小になる移動パターンを選択し、その移動パターンにしたがって（１，１）成分への移動に伴う累積値を算出する。図７に示すように、（０，１）成分から（１、１）成分への移動に伴う累積値は“５”であり、（０，０）成分から（１，１）成分への移動に伴う累積値は“２”であり、（１、０）成分から（１、１）成分への移動に伴う累積値は“６”であるから、最適経路特定手段２２３は、（１、１）成分への移動に伴う累積値として“２”（すなわち、（０、０）成分からの右上方向への移動に伴う累積値）を採用する。
以下、同様に、最適経路特定手段２２３は、差分マトリクスの右上隅（すなわち、（４、５）成分）に至るまで、移動に伴う成分値の累積を繰り返す（図９参照）。
【００３８】
図９に示すように、差分マトリクスの右上隅まで、移動に伴う成分の累積を完了すると、最適経路特定手段２２３は、その右上隅を出発点として、前述したバックポインタを辿る処理を左下隅の格子点へ到達するまで繰り返し、最適経路候補を特定する。その結果、図７に示す差分マトリクスについては、図１０に示す最適経路候補（すなわち、（４，５）→（３，４）→（２，３）→（２，２）→（１，１））が特定される。
次いで、最適経路特定手段２２３は、上記のようにして特定した最適経路候補を逆に辿るとともに、その最適経路候補から外れて移動を行う場合には、その移動に伴って上記累積値が増加することを確かめ、最適経路を特定する（図１１参照）。
【００３９】
以上のようにして特定された最適経路は、模範音声の時間軸と練習者音声の時間軸との対応関係を表している。具体的には、図１１に示す最適経路は、模範音声についての各時間単位と練習者音声についての各時間単位とが図１２に示すように対応していることを示している。最適経路特定手段２２３は、図１２に示す対応関係を示すデータを生成し、そのデータを評価モジュール２３へ出力する（ステップＳＡ０１４０）。
【００４０】
以下、評価モジュール２３は、最適経路特定手段２２３により特定された対応関係を満たすように練習者音声データにタイムアラインメント（時間軸の伸縮）を施した後に模範音声データと比較し、その比較結果を点数化して表示部１５に表示する。
ここで注目すべき点は、評価モジュール２３による評価の基準となるデータが、ＭＩＤＩデータなどのガイドメロディではなく、練習者が歌唱練習している楽曲を持ち歌とする歌手の歌唱音を表す模範音声データである点である。係る模範音声データには、歌い出しの“ため”などその歌手に特徴的な技法が反映されているのであるが、それら技法が駆使されているが故に歌い出しのタイミングなどが楽譜内容からずれてしまい、練習者の歌唱音と比較することが従来は困難であった。しかしながら、本実施形態に係るカラオケ装置１においては、ＤＴＷモジュール２２による動的時間整合が為された結果、練習者音声の時間軸と模範音声の時間軸とを対応付け、両者を比較評価することが可能になっている。
このように、本実施形態に係るカラオケ装置１によれば、種々の技法が駆使された歌唱を手本としてユーザが歌唱練習を行う場合に、それら技法の再現度合いを評価することが可能になる、といった効果を奏する。
【００４１】
（Ｃ：変形）
以上、本発明の１実施形態について説明したが、係る実施形態に以下に述べるような変形を加えても良いことは勿論である。
（１）上述した実施形態では、基礎分析モジュール２１およびＤＴＷモジュール２２をカラオケ装置へ組み込むことによって、種々の技法を駆使して歌唱が行われた場合に、その手本となる歌唱にて駆使されている技法との一致度を評価することを可能にする場合について説明した。しかしながら、基礎分析モジュール２１による音響パラメータの抽出対象やＤＴＷモジュール２２による動的時間整合処理の処理対象は、上記歌唱音に限定されるものではなく、種々の技法を駆使して演奏された楽器の演奏音データとその手本となる模範演奏データであっても良く、また、英会話などの外国語習得にも利用することができる。
【００４２】
（２）上述した実施形態では、練習者歌唱音と模範音声との動的時間整合を行う際には、その都度、模範音声データ記憶領域１４ｂに記憶されている模範音声データを基礎分析モジュール２１によって分析し、その模範音声データの表す歌唱音についての音響パラメータを算出する場合について説明した。しかしながら、模範音声データについて上記音響パラメータを予め求めておき、その音響パラメータと楽曲識別子とを対応付けて記憶部１４に記憶させておくようにしても勿論良い。
また、上述した実施形態では、カラオケ装置１に設けられた記憶部１４に模範音声データを記憶させておく場合について説明したが、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）やＤＶＤ（Digital Versatile Disk）などのコンピュータ装置読み取り可能な記録媒体に模範音声データや模範音声データから抽出される音響パラメータを書き込んで配布し、このような記録媒体からの模範音声データや音響パラメータの読み出しにより、模範音声データや音響パラメータを取得させるようにしても良く、また、インターネットなどの電気通信回線経由で模範音声についての音響パラメータを取得させるようにしても良い。
【００４３】
（３）上述した実施形態では、練習者音声データや模範音声データから音響パラメータの抽出を行う基礎分析モジュール２１と、それら音響パラメータに基づいて模範音声と練習者音声との時間軸の対応付けを行うＤＴＷモジュール２２とを夫々別個のソフトウェアモジュールとして実現する場合について説明したが、１つのソフトウェアモジュールとして構成しても良いことは勿論である。具体的には、音響パラメータの正規化および正規化後の音響パラメータを用いて動的時間整合を行う動的時間整合モジュールに、練習者音声データから音響パラメータを抽出する機能や、模範音声データからの抽出或いは記録媒体等からの読出しにより模範音声についての音響パラメータの取得を行う機能を担わせるようにすれば良い。
【００４４】
（４）上述した実施形態では、動的時間整合を行うための音響パラメータとして、ピッチ、音量およびスペクトルと、音量の１次微分および２次微分、スペクトルの１次微分を用いる場合について説明した。これら音響パラメータのうち、音量の１次微分および２次微分は、音量の時間変化の度合いを表すものであるが、２次微分は必ずしも必須ではない。また、スペクトルについても、その時間変化の度合いを動的時間整合により正確に反映させるため、２次微分まで求めるようにしても勿論良い。
【００４５】
（５）上述した実施形態では、カラオケ曲を一意に識別する楽曲識別子に対応付けてその楽曲識別子で識別されるカラオケ曲を持ち歌とする歌手によるそのカラオケ曲の歌唱音を表す模範音声データを記憶部１４に記憶させておく場合について説明した。
しかしながら、１つの楽曲を複数の歌手が夫々個別に持ち歌としている場合には、その歌手毎に異なる楽曲であるとして、互いに異なる楽曲識別子を付与しても良く、また、その楽曲を一意に識別する楽曲識別子に上記複数の歌手の各々を一意に識別する歌手識別子を対応付け、さらに、この楽曲識別子と歌手識別子の組に、その楽曲識別子で識別される楽曲の、その歌手識別子で識別される歌手による歌唱音を表す模範音声データを対応付けて記憶部１４に記憶させておくとしても良い。前述したように、歌手毎にその歌唱技法が異なっていることが一般的であり、同一の楽曲であっても歌い手が異なれば、その歌唱に込められる情感や味わいも異なることが一般的である。上記のように歌い手の識別を可能なように構成すれば、１つの楽曲を複数の歌手が持ち歌としている場合であっても、ユーザは、それら複数の歌手のうちから自身の好みに応じた歌手による歌唱を選択し、その歌唱を真似て歌唱練習を行うことが可能になる。
【００４６】
（６）上述した実施形態では、練習者音声および模範音声のピッチおよび音量に基づいて有音であるか無音であるかを判定し、その判定結果に応じて時間変化に依存しない音響パラメータ（上記実施形態では、スペクトル）に付与する重みを切り替える場合について説明したが、ピッチのみ、或いは、音量のみに基づいて有音／無音の判定をするようにしても勿論良い。なお、ピッチのみに基づいて有音／無音の判定を行う場合には、基礎分析モジュール２１からＤＴＷモジュール２２へ音量データを引渡す必要がないことは言うまでもなく、また、音量のみに基づいて有音／無音の判定を行う場合には、基礎分析モジュール２１にてピッチの検出を行う必要がないこと（すなわち、ピッチ検出手段２１１を設ける必要がないこと）は言うまでもない。また、上記の如き重みの切り替えは必ずしも必須ではないから、係る切り替えを行わない態様においては、ピッチの検出や基礎分析モジュール２１からＤＴＷモジュール２２への音量データの引渡しを行う必要がないことは言うまでも無い。
【００４７】
（７）上述した実施形態では、練習者の歌い始めから歌い終わりまでを表す（Ｎ＋１）個のフレームの各々に対して、その手本の歌い始めから歌い終わりまでを表す（Ｍ＋１）個のフレームの各々とのユークリッド距離を算出し、（Ｎ＋１）行（Ｍ＋１）列の差分マトリクスを生成し、その差分マトリクスの総ての成分を用いて最適経路の探索を行う場合について説明した。
しかしながら、カラオケ曲の歌唱はガイドメロディや歌詞テロップのワイプ表示で示される楽曲の進行に則して行われるのであるから、歌唱者音声の進行とその手本の進行とが極端にずれる（例えば、練習者音声の第０フレームが手本の第Ｍフレームに対応するなど）ことはない。このため、最適経路の探索を行う際に、差分マトリクスの成分を一意に表す２つの添え字の差（フレーム番号の差：すなわち、時間差）が所定の範囲内である成分についてのみステップＳＡ０１３０の処理を行うとしても良く、また、差分マトリクスを生成する際に、その成分を一意に表す２つの添え字の差（フレーム番号の差：すなわち、時間差）が所定の範囲内である成分についてのみ数２に示すユークリッド距離を算出し、このようにして算出された成分のみについてステップＳＡ０１３０の処理を実行するようにしても勿論良い。
このようにすると、最適経路の探索に要する計算回数（後者の態様にあっては、さらに、差分マトリクスの生成に要する計算回数）を削減することができ、動的時間整合に要するハードウェアリソース（例えば、ＲＡＭ１３の記憶容量や制御部１１の使用率）を低減させることが可能になる。
【００４８】
（８）上述した実施形態では、本発明に係る楽曲練習支援装置に特徴的な機能を制御部１１に実現させるための制御プログラムをＲＯＭ１２に予め書き込んでおく場合について説明したが、ＣＤ−ＲＯＭやＤＶＤなどのコンピュータ装置読み取り可能な記録媒体に上記制御プログラムを記録して配布するとしても良く、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布するようにしても勿論良い。このようにして配布される制御プログラムを一般的なコンピュータ装置へインストールし、そのコンピュータ装置をその制御プログラムにしたがって作動させることによって、そのコンピュータ装置に本発明に係る動的時間整合モジュールと同一の機能を付与することが可能になる。
【図面の簡単な説明】
【００４９】
【図１】本発明の１実施形態に係るカラオケ装置１のハードウェア構成の一例を示すブロック図である。
【図２】同カラオケ装置１の機能構成例を示すブロック図である。
【図３】同基礎分析モジュール２１により実行される音響パラメータ抽出を説明するための図である。
【図４】同ＤＴＷモジュール２２により実行される動的時間整合処理の実行結果の一例を示す図である。
【図５】同カラオケ装置１が行う採点処理の流れを示すフローチャートである。
【図６】差分マトリクスの一例を示す図である。
【図７】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図８】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図９】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図１０】最適経路特定処理中の差分マトリクスの一例を示す図である。
【図１１】最適経路特定処理にて特定される最適経路の一例を示す図である。
【図１２】動的時間整合処理の処理結果を説明するための図である。
【符号の説明】
【００５０】
１…カラオケ装置、１１…制御部、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５…表示部、１６…操作部、１７…マイクロホン、１８…音声処理部、１９…スピーカ、２１…基礎分析モジュール、２１１…ピッチ検出手段、２１２…音量検出手段、２１３…スペクトル検出手段、２１４ａ，２１４ｂ，２１４ｃ…微分手段、２２…ＤＴＷモジュール、２２１…正規化手段、２２２…差分マトリクス生成手段、２２３…最適経路特定手段、２３…評価モジュール。

【特許請求の範囲】
【請求項１】
ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、
前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、
前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と、
を有する動的時間整合モジュール、を備え、
前記第１のオーディオ信号の信号波形と前記第２のオーディオ信号の信号波形とを前記動的時間整合モジュールにより対応付けが為された時間単位毎に比較し、両者の一致の度合いを点数化して出力する
ことを特徴とする楽曲練習支援装置。
【請求項２】
前記抽出手段は、前記第１のオーディオ信号の表す音のピッチを前記時間単位毎に抽出する一方、前記取得手段は、前記第２のオーディオ信号の表す音のピッチを前記時間単位毎に取得し、
前記正規化手段は、前記第１のオーディオ信号の前記各時間単位におけるピッチについても前記正規化を施す一方、前記第２のオーディオ信号の前記各時間単位におけるピッチについても前記正規化を施し、
前記算出手段は、前記評価値を算出する際に、その評価値が対応付けられる格子点の座標値に対応する時間単位におけるピッチの値に応じた係数を、その時間単位における前記第１のオーディオ信号のスペクトルの時間変化の度合いと前記第２のオーディオ信号のスペクトルの時間変化の度合いとの差に乗算して前記評価値を算出する
ことを特徴とする請求項１に記載の楽曲練習支援装置。
【請求項３】
楽曲を一意に識別する楽曲識別子とその楽曲の模範歌唱または模範演奏の波形を表す前記第１のオーディオ信号との組が１または複数記憶された記憶手段を備え、
前記取得手段は、前記ユーザにより指定された楽曲識別子に対応する第２のオーディオデータを前記記憶手段から読出し、その第２のオーディオ信号を解析して前記時間単位毎に前記第２の音響パラメータを取得する
ことを特徴とする請求項１に記載の楽曲練習支援装置。
【請求項４】
ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、
前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、
前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と、
を有することを特徴とする動的時間整合モジュール。
【請求項５】
コンピュータ装置を、
ユーザによる歌唱音または演奏音の波形を表す第１のオーディオ信号を解析し、所定の時間単位毎にその時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第１の音響パラメータを抽出する抽出手段と、
前記ユーザが手本とする歌唱音または演奏音の波形を表す第２のオーディオ信号を解析することにより前記時間単位毎に得られる第２の音響パラメータであって、前記第２のオーディオ信号の表す音の前記各時間単位における音量の時間変化の度合い、スペクトルおよびスペクトルの時間変化の度合いを表す第２の音響パラメータを取得する取得手段と、
前記各時間単位の前記第１の音響パラメータに、その平均値および標準偏差を所定の値に変換する正規化を施す一方、前記各時間単位の前記第２の音響パラメータに前記正規化を施す正規化手段と、
前記第１のオーディオ信号の時間軸を一方の座標軸とし、前記第２のオーディオ信号の時間軸を他方の座標軸とする座標平面にて、前記正規化された第１の音響パラメータと前記正規化された第２の音響パラメータとの差から算出される評価値を、前記時間単位を座標値とする格子点毎に算出する算出手段と、
前記座標平面上で、両座標値が最小の格子点である始点から、両座標値が最大の格子点である終点に至る経路のうち、その経路上の格子点における前記評価値の総和が最小になる経路を特定する特定手段と、
前記特定手段により特定された経路に沿って、前記第１のオーディオ信号における前記時間単位と前記第２のオーディオ信号における時間単位とを対応付ける対応付け手段と、
として機能させることを特徴とするプログラム。

【図１】