オーディオ信号出力装置およびオーディオ信号出力方法

【課題】良好な高域信号の補間が実現できるオーディオ信号出力装置およびオーディオ信号出力方法を提供すること。
【解決手段】ＰＣＭ信号が入力される信号入力部と、前記信号入力部に入力されたＰＣＭ信号の音の状態情報を取得する音情報取得部と、前記音情報取得部が取得した音の状態情報に基づいて、前記ＰＣＭ信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定部と、決定された補間パラメータに基づいて設定された多項式を前記ＰＣＭ信号に適用して、前記ＰＣＭ信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたＰＣＭオーディオ信号を生成して出力する補間処理部とを備えたオーディオ信号出力装置およびこれを用いたオーディオ信号出力方法。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、例えばＭＰ３のような圧縮を伴うデジタルオーディオ機器や、電話機等に使用することが好適なオーディオ信号出力装置およびオーディオ信号出力方法に関する。詳しくは、圧縮等によって欠落している高域信号を擬似的に補間するようにしたオーディオ信号出力装置およびオーディオ信号出力方法である。
【背景技術】
【０００２】
近年、音楽等の音声を表す音声データを、インターネット等のネットワークを介して配信したり、ＭＤ（ＭｉｎｉＤｉｓｋ）等の記録媒体に記録したりして利用することが盛んになっている。ネットワークで配信されたり記録媒体に記録されたりする音声データは、帯域が過度に広くなることによるデータ量の増大や占有帯域幅の広がりを避けるため、一般に、供給する対象の音楽等のうち一定の周波数以上の成分を除去している。
【０００３】
例えば、ＭＰ３（ＭＰＥＧ１ａｕｄｉｏｌａｙｅｒ３）形式の音声データでは、約１６キロヘルツ以上の周波数成分が除去されている。また、ＡＴＲＡＣ３（ＡｄａｐｔｉｖｅＴＲａｎｓｆｏｒｍＡｃｏｕｓｔｉｃＣｏｄｉｎｇ３）形式の音声データでは、約１４キロヘルツ以上の周波数成分が除去されている。音声通話である電話通信では、３００Ｈｚ〜３．４ｋＨｚの音声信号しか伝送されないため、その通話音声品質は十分とは言えず、聴き取りやすさが阻害されている。
【０００４】
このような問題に対し、従来の高域信号補間では、例えば、特許文献１に示すように、零補間した後、ＦＩＲディジタルフィルタを用いてスプライン関数による補間を行うことにより高域成分を付加する方法が知られている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特許３１９４７５２号
【非特許文献】
【０００６】
【非特許文献１】鹿野ほか著、「音声・音情報のディジタル信号処理」、昭晃堂、１９９７年
【非特許文献２】高橋大輔著、「数値計算」、岩波書店、１９９６年
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、特許文献１に記載の技術では、除去された高域信号を補間可能であるが、単一の補間特性（周波数特性）であるため十分な効果を得ることが出来ないものであった。例えば音声通話の場合、音声信号の音素が母音であれば４ｋＨｚ以下の帯域に主要な成分が分布しているが、子音（特に摩擦音）であれば、４ｋＨｚ以上の帯域に主要な成分が分布している。そのため補間により高域成分を付加する際、その付加量を母音であれば少なく、子音（特に摩擦音）であれば多くすることで、極めて良好な高域信号の補間が行われる。特許文献１に記載の技術で、ＦＩＲディジタルフィルタのフィルタ係数を複数保持し、そのフィルタ係数を切り替えながら使用することで、補間特性を複数実現することは可能であるが、その場合、フィルタ係数を保持するメモリ量が増大し、高価なメモリが必要とされるという問題がある。
【０００８】
この発明は、このような問題点に鑑みて成されたものであって、本発明の目的は、良好な高域信号の補間が実現できるオーディオ信号出力装置およびオーディオ信号出力方法を提供することにある。
【課題を解決するための手段】
【０００９】
上記の課題を解決するために、本発明の請求項１に記載の発明は、ＰＣＭ信号が入力される信号入力部と、前記信号入力部に入力されたＰＣＭ信号の音の状態情報を取得する音情報取得部と、前記音情報取得部が取得した音の状態情報に基づいて、前記ＰＣＭ信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定部と、決定された補間パラメータに基づいて設定された多項式を前記ＰＣＭ信号に適用して、前記ＰＣＭ信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたＰＣＭオーディオ信号を生成して出力する補間処理部とを備えたことを特徴とするオーディオ信号出力装置である。
【００１０】
請求項２に記載の発明は、請求項１に記載のオーディオ信号出力装置において、前記補間パラメータは、ＰＣＭ信号を補間する際に使用する補間関数と、前記補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とのうちの少なくとも１つであることを特徴とする。
【００１１】
請求項３に記載の発明は、請求項２に記載のオーディオ信号出力装置において、前記補間パラメータは、補間位置、補間次数、補間関数の組からなる複数のパラメータセットを含むテーブルから選択されることを特徴とする。
【００１２】
請求項４に記載の発明は、請求項１から３のいずれかに記載のオーディオ信号出力装置において、前記音情報取得部は、外部装置から前記ＰＣＭ信号の音の状態情報が入力される状態情報入力部を備えることを特徴とする。
【００１３】
請求項５に記載の発明は、請求項１から４のいずれかに記載のオーディオ信号出力装置において、前記音情報取得部は、前記ＰＣＭ信号を解析して音の状態情報を取得する解析部を備えることを特徴とする。
【００１４】
請求項６に記載の発明は、ＰＣＭ信号が入力される信号入力ステップと、前記信号入力部に入力されたＰＣＭ信号の音の状態情報を取得する音情報取得ステップと、前記音情報取得部が取得した音の状態情報に基づいて、前記ＰＣＭ信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定ステップと、決定された補間パラメータに基づいて設定された多項式を前記ＰＣＭ信号に適用して、前記ＰＣＭ信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたＰＣＭオーディオ信号を生成して出力する補間処理ステップとを含むことを特徴とするオーディオ信号出力方法である。
【００１５】
請求項７に記載の発明は、請求項６に記載のオーディオ信号出力方法において、前記補間パラメータは、ＰＣＭ信号を補間する際に使用する補間関数と、前記補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とのうちの少なくとも１つであることを特徴とする。
【００１６】
請求項８に記載の発明は、請求項７に記載のオーディオ信号出力方法において、前記補間パラメータは、補間位置、補間次数、補間関数の組からなる複数のパラメータセットを含むテーブルから選択されることを特徴とする。
【００１７】
請求項９に記載の発明は、請求項６から８のいずれかに記載のオーディオ信号出力方法において、前記音情報取得ステップは、外部装置から前記ＰＣＭ信号の音の状態情報が入力される状態情報入力されたＰＣＭ信号の音の状態情報を取得することを特徴とする。
【００１８】
請求項１０に記載の発明は、請求項６から９のいずれかに記載のオーディオ信号出力方法において、前記音情報取得ステップは、前記信号入力部に入力されたＰＣＭ信号を解析することで音の状態情報を取得することを特徴とする。
【図面の簡単な説明】
【００１９】
【図１】本発明にかかるオーディオ信号出力装置の構成の一例を示すブロック図である。
【図２】補間テーブルの構成の一例を示す図である。
【図３】従来の補間方法による周波数特性を示す図である。
【図４】ラグランジュ補間を説明するための図である。
【図５】補間次数固定で補間位置を変化させたラグランジュ補間の周波数特性を示す図である。
【図６】補間位置固定で補間次数を変化させたラグランジュ補間の周波数特性を示す図である。
【図７】補間次数および補間位置を変化させたラグランジュ補間の周波数特性を示す図である。
【図８】補間次数固定で補間位置を変化させたスプライン補間の周波数特性を示す図である。
【図９】補間位置固定で補間次数を変化させたスプライン補間の周波数特性を示す図である。
【図１０】補間次数および補間位置を変化させたスプライン補間の周波数特性を示す図である。
【図１１】本発明にかかるオーディオ信号出力方法の処理流れの一例を示すフロー図である。
【図１２】８ｋＨｚサンプリングの入力信号のスペクトログラムを示す図である。
【図１３】入力信号をダウンサンプルする前の１６ｋＨｚサンプリングのスペクトログラムを示す図である。
【図１４】実施例の方法より処理されたＰＣＭオーディオ信号のスペクトログラムを示す図である。
【図１５】補間次数を３２、補間位置を１５に固定したときのＰＣＭオーディオ信号のスペクトログラムを示す図である。
【図１６】補間次数を４、補間位置を１に固定したときのＰＣＭオーディオ信号のスペクトログラムを示す図である。
【図１７】補間次数を８、補間位置を０に固定したときのＰＣＭオーディオ信号のスペクトログラムを示す図である。
【図１８】補間次数を８、補間位置を３に固定したときのＰＣＭオーディオ信号のスペクトログラムを示す図である。
【発明を実施するための形態】
【００２０】
以下、本発明の実施の形態について詳細に説明する。図１は、オーディオ信号出力装置の構成の一例を示すブロック図である。オーディオ信号出力装置１０は、ＰＣＭ信号などの音声信号が入力される信号入力部１と、入力された音声信号の状態情報を取得する音情報取得部２と、音の状態情報に基づいて入力された音声信号に適用する補間パラメータを決定する補間パラメータ決定部３と、入力された音声信号に対して補間パラメータに基づいて補間処理を行う補間処理部４と、補間処理された音声信号を出力する信号出力部５とを備えて構成される。
【００２１】
信号入力部１には、例えば通話システムのような圧縮処理を伴う機器から受信された高域成分がカットされたＰＣＭ信号などの音声信号が入力信号として供給される。この音声信号が、例えば０Ｈｚ〜４ｋＨｚの周波数帯域に含まれる音声信号である場合、４ｋＨｚ〜８ｋＨｚの周波数帯域に含まれる音声信号の高域成分がカットされているので、オーディオ信号出力装置１０は、擬似的に４ｋＨｚ〜８ｋＨｚの周波数帯域に含まれる音声信号を出力信号として生成することにより、音声信号を高域補間することとなる。入力音声信号の周波数帯域は、０Ｈｚ〜４ｋＨｚに限られず、３００Ｈｚ〜３．４ｋＨｚや５０Ｈｚ〜８ｋＨｚ等の任意の周波数帯域であってもよい。また、オーディオ信号出力装置が擬似的に生成する音声信号成分の周波数帯も、４ｋＨｚ〜８ｋＨｚに限られず、４ｋＨｚ〜１６ｋＨｚの周波数帯域に含まれる音声信号を生成してもよく、２倍以上の帯域を含む音声信号を生成してもよい。
【００２２】
音情報取得部２は、信号入力部１から入力された音声信号の状態情報が入力される状態情報入力部２１と、状態情報入力部２１から音の状態情報が入力されない場合に、入力された音声信号を解析して音の状態情報を得る解析部２２とを有する。取得される音（音声信号）の状態情報としては、入力された音声信号の音素、音素カテゴリ（母音、子音、有声、無声、調音方式や調音位置など）、ＳＮＲ、基本周波数、周期性、発話区間情報、曲調、楽器の種類等の情報が挙げられるが、高域成分がどの程度含まれる音の種類かを識別できる情報であれば特に限定されない。音情報取得部２で取得された音の状態情報は、補間パラメータ決定部３に出力される。
【００２３】
状態情報入力部２１には、音声合成装置や音声圧縮伸張装置等の外部装置から音声信号の状態情報が入力される。信号入力部１に入力される音声信号が音声合成装置等の外部装置で合成した音声信号である場合は、入力された音声信号の状態情報を、外部装置が保持していると考えられる。音声信号と共に音の状態情報を保持する外部装置からは、信号入力部１に音声信号が入力されるとともに、状態情報入力部２１には外部装置から音の状態情報が入力される。
【００２４】
解析部２２は、状態情報入力部２１において外部装置から音の状態情報が入力されない場合に、信号入力部１から入力された音声信号を解析し、音の状態情報を解析結果として生成して補間パラメータ決定部３に出力する。例えばＣＤプレーヤなどの音声再生装置で再生した音声信号は、音の状態情報を持たないため、音の状態情報を得るための解析が必要になる。解析部２２は、音声信号に対して周波数解析や時間波形解析を用いた解析を行うことにより音の解析結果を得ることができる。
【００２５】
まず解析部２２において周波数解析を用いて音の解析結果を得る場合について説明する。ここでは、ケプストラム分析を用いた音の解析について説明する。ケプストラム分析については、非特許文献１に記載されている公知の手法を採用することができる。入力信号を音声とした場合、供給された入力信号にケプストラム分析を施すことで、この入力信号が表す音声の基本周波数及びフォルマント周波数を特定することができる。そして特定された基本周波数及びフォルマント周波数により、あらかじめ記憶されたテーブルから音素や音素カテゴリ、周期性などといった音の解析結果情報を得る。
【００２６】
ケプストラム分析は、まず例えば、高速フーリエ変換の手法により入力信号のスペクトルを求める。なお、入力信号のスペクトルは、高速フーリエ変換の代わりに離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法により求めてもよい。次いで求めたスペクトルの各成分の強度を、それぞれ元の値の対数にあたる値へ変換する。この対数の底は任意であり、例えば常用対数などでよい。さらに、値が変換されたスペクトルに逆フーリエ変換を施してケプストラムを求める。なお逆フーリエ変換は、高速フーリエ変換の手法、あるいは離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法を採用してもよい。
【００２７】
得られたケプストラムにおいて、スペクトル上の微細構造は、ケフレンシの大きい値の部分に集中し、スペクトル包絡は、ケフレンシの小さい部分に集中することになる。したがって低ケフレンシ部分に窓をかけることによりリフタリングし、低ケフレンシ部分のみをフーリエ変換を施した結果を、高速フーリエ変換することによって、対数スペクトル包絡を求めることができる。なお、高速フーリエ変換の代わりに、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法を採用してもよい。
【００２８】
得られた対数スペクトル包絡に基づいて、フォルマント周波数を特定し、特定されたフォルマント周波数を示すデータを生成する。さらに、得られたケプストラムに基づいて、高ケフレンシ部のピーク値のケフレンシの時間から、このケプストラムが表す基本周波数を特定し、特定された基本周波数を示すデータを生成する。予め記憶しておいた基本周波数やフォルマント周波数と、それに対応する音素や音素カテゴリ、周期性を示すテーブルに基づいて、特定された基本周波数やフォルマント周波数により、音素や音素カテゴリ、周期性といった音の解析結果情報を得ることができる。
【００２９】
周波数解析としては、高速フーリエ変換、離散フーリエ変換、線形予測分析等、公知の技術を用いることができる。さらに、得られたスペクトル、対数スペクトル、ケプストラム、メルケプストラム、ＬＰＣ、ＬＳＰ、残差信号等の特徴量をもとに、音の解析結果情報として、ＳＮＲや発話区間情報、曲調、楽器の種類等の情報を得てもよい。また、得られた特徴量をもとに、ＨＭＭ等を用いたパターンマッチングにより、音素や音素カテゴリを得てもよい。
【００３０】
次に、解析部２２において時間波形解析を用いて音の解析結果を得る方法について説明する。ここでは、フィルタリングによるサブバンド分析を用いた音の解析について説明する。入力信号を音声とした場合、入力信号に例えば低域と高域の２帯域のサブバンド分析を施すことで、この入力信号が表す周波数成分の偏りを特定することができる。そして特定された周波数成分の偏りにより、あらかじめ記憶されたテーブルから音素や音素カテゴリ、ＳＮＲなどといった音の解析結果を得る。
【００３１】
具体的にサブバンド分析とは、２帯域に分割する場合、入力信号のサブバンド信号を、ＩＩＲ型やＦＩＲ型のハイパスフィルタリングとローパスフィルタリングの手法により求める。ナイキスト周波数の半分の周波数をカットオフ周波数としたＩＩＲ型ハイパスフィルタとＩＩＲ型ローパスフィルタを設計し、入力信号にそれぞれ２つのフィルタを施し、低域信号と高域信号を求める。それぞれの信号の絶対値を加算し求められた値とその比を求め、入力信号が表す周波数成分の偏りや強度を特定し、特定された周波数成分の偏りや強度を示すデータを生成する。サブバンド数は３以上でもよい。
【００３２】
そして、あらかじめ記憶しておいた周波数成分の偏りや強度と、それに対応する音素や音素カテゴリ、ＳＮＲを示すテーブルに基づいて、特定された周波数成分の偏りと強度より、音素や音素カテゴリ、ＳＮＲといった音の解析情報を得る。
【００３３】
時間波形解析としては、ハイパスフィルタ、ローパスフィルタ、バンドパスフィルタ、波形相関、ゼロクロス等、公知の技術を用いることができる。さらに、得られたサブバンド信号や相関係数等の値を元に、音の解析結果情報として基本周波数や周期性、発話区間情報、曲調、楽器の種類等の情報を得てもよい。
【００３４】
補間パラメータ決定部３は、音情報取得部２で取得したＰＣＭ信号の音の状態情報が供給されると、入力された音の状態情報に応じて、入力されたＰＣＭ信号の所定区間ごとにＰＣＭ信号を生成する際に除去された音の高域成分を補間する際に使用する多項式を設定するための補間パラメータを決定して補間処理部４へ供給する。補間パラメータ決定部３は、音の状態情報に基づいて、ＰＣＭ信号の所定区間ごとに補間パラメータを決定する。音声信号（ＰＣＭ信号）の所定区間は、母音や子音などの音素の区切りに対応した区間とすることができ、例えば発話区間や音素継続長などによって決定することができる。
【００３５】
補間パラメータは、音声信号（ＰＣＭ信号）を多項式補間する際に使用する補間関数と、補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とを設定するためのパラメータであり、これらの設定を変更することで補間特性を変更することができる。因みに、従来の補間方法では、補間特性を変更するためには、音声信号に適用するフィルタ係数の組を、補間特性の種類ごとに複数用意しなければならず、大量のメモリ容量を必要とするものであった。補間パラメータとしては、補間位置を用いることが好ましい。補間次数や補間関数は変更に伴い演算量が変更するのに対し、補間位置の変更は演算量を一定に保ちつつ、補間特性を変化させることが可能だからである。
【００３６】
補間パラメータ決定部３は、補間パラメータを格納した補間テーブルに基づいて補間パラメータを決定する。補間テーブルには、音の状態情報と、音の状態情報に適した多項式補間を設定するための補間位置、補間次数、補間関数の少なくとも１つとが対応づけて格納されている。補間テーブルは、例えば、図２に示すテーブルを採用することができる。補間テーブルは、補間パラメータ決定部３に保持されていてもよいが、オーディオ信号出力装置１０の外部に保持されたテーブルを参照してもよい。図２に示す補間テーブルでは、音の状態情報として音素カテゴリ、ＳＮＲを採用しており、これに対応する補間パラメータとして補間次数（次数）、補間位置（位置）、補間関数が格納されている。
【００３７】
このように本発明のオーディオ信号出力装置１０では、音の状態に応じて音声信号の所定区間ごとに補間パラメータを変えているので、その音の状態に適した補間を行うことができる。例えば、無声摩擦音の子音は母音に比べて周波数成分がより高域に分布することが知られているので、無声摩擦音の子音の音声信号を補間するときは、高域の再現性がよい補間方法に設定する補間パラメータに決定する。一方で主に周波数成分が低域に分布している母音の音声信号を補間するときは、過剰に高域を補間しない補間方法に設定する補間パラメータに決定することができる。この補間テーブルに格納される音の状態情報が多いほど、音声信号に対する補間方法の設定を詳細に変更制御できる。
【００３８】
補間処理部４には、補間パラメータ決定部３において決定した補間パラメータに加えて、信号入力部１からの入力信号である音声信号（ＰＣＭ信号）も供給される。補間処理部４は、予め保持している多項式補間関数のいずれかを使用して、入力された音声信号に対して補間処理を行い、信号出力部５に供給する。補間処理に用いられる多項式補間関数は、補間パラメータである補間位置、補間次数、補間関数に基づいて補間方法が設定される。多項式補間は、ラグランジュ補間、スプライン補間、ニュートン補間、最小２乗法、エルミート補間、バイキュービック補間、バイリニア補間、バーコフ補間等の公知の手法を用いることができるがこれに限定されない。
【００３９】
図３は、周知の補間処理により補間処理した結果の周波数特性を示している。曲線ａは入力信号に４ｋＨｚを遮断周波数とするＬＰＦでアンチエイリアジングを施したアップサンプル処理で得られる周波数特性を示し、曲線ｂは零補間処理により得られる周波数特性を示し、曲線ｃは２点のサンプル点を直線で結んで補間信号を求める線形補間処理により得られる周波数特性を示している。
【００４０】
曲線ａに示すＬＰＦによる補間では、高域成分がカットされてしまうため、高域信号の補間には適さない。これに対し、曲線ｂ、ｃに示す零補間や線形補間では高域成分が８ｋＨｚおよび８ｋＨｚ付近まででている。しかし曲線ｂに示す零補間処理では、高域成分が再現できるが、補間精度が低すぎるので、折り返しノイズの影響を多大に受けてしまう。曲線ｃに示す線形補間ではある程度の高域成分の再現と補間精度が実現できるが、ラグランジェ補間やスプライン補間といった多項式補間関数を用いた方法に比べて補間精度が低いうえに、補間次数と補間位置を変化させることで補間特性を変化させることもできない。
【００４１】
補間処理部４において、多項式補間としてラグランジュ関数を用いたラグランジュ補間を採用した場合を例に挙げて説明する。ラグランジュ補間については、非特許文献２等に記載されている既知の関数を用いることができる。ラグランジュ関数について説明すると、サンプリング点を通る互いに異なる（ｎ＋１）個の点、ｘ₀、ｘ₁、・・・、ｘ_n（ｘ₀＜ｘ₁＜・・・＜ｘ_n）に対して、関数値ｆ（ｘ₀）、ｆ（ｘ₁）、・・・、ｆ（ｘ_n）が与えられているとする。一般的にｎ＋１個のデータの場合、ｎ次関数を用いて補間する。
【００４２】
ここで、ｐ_n（ｘ_i）＝ｆ（ｘ_i）（ｉ＝０、１、・・・、ｎ）を満たす、ｙのｎ次多項式ｐ_n（ｙ）を以下の式で求め、これを用いてｆ（ｙ）の補間を行う。
【００４３】
【数１】

【００４４】
【数２】

【００４５】
式１、式２において、ｙは補間位置、ｎは補間次数を表す。
【００４６】
例えば、入力信号のサンプリング周波数が８ｋＨｚであり、出力音声のサンプリング周波数が１６ｋＨｚである場合は、図４（ａ）に示すサンプリング入力に対し、図４（ｂ）に示すように、隣り合う入力サンプリング点の中点の位置において補間される信号が生成できる。すなわち、（ｎ＋１）個の入力点（補間次数）ｘ₀、ｘ₁、・・・、ｘ_n（ｘ₀＜ｘ₁＜・・・＜ｘ_n）に対して、ｎ個の点ｙ₀、ｙ₁、・・・、ｙ_n-1（ｙ₀＜ｙ₁＜・・・＜ｙ_n-1）で補間信号が生成できる。
【００４７】
本発明にかかる補間処理部４においては、１回の補間処理では、これらｎ個の点ｙ₀、ｙ₁、・・・、ｙ_n-1（ｙ₀＜ｙ₁＜・・・＜ｙ_n-1）の全てを補間信号として採用せずに、補間パラメータである補間位置によって特定された位置の補間点の補間信号のみを採用する。この補間処理を、サンプリング点をずらしながら順次行うことによって、複数のサンプリング点のそれぞれの中点の位置において補間された信号を得ることができる。
【００４８】
図５から図７は、補間処理部４が、補間次数、補間位置を選択的に変化させてラグランジュ関数を適用して補間した場合の周波数特性を示している。
【００４９】
図５に示す４つの曲線は、それぞれ補間次数ｎを８（ｏｒｄ８）に固定し、補間位置ｙをｙ₀（ｐｏｓ０：端部）、ｙ₁（ｐｏｓ１）、ｙ₂（ｐｏｓ２）、ｙ₃（ｐｏｓ３：中央部）に変化させた場合の周波数特性を示している。図５の周波数特性によれば、補間位置が異なると、補間特性を変化することが判る。これは、補間位置を変化させることで補間精度が変化することに起因する。具体的には、補間された信号の中心付近では補間精度が高くなり、補間された信号の両端部では補間精度が低くなることに起因する。補間精度が低くなる程、補間後の信号の周波数が補間前の信号の周波数と大きく異なることとなり、高周波成分が増す。したがって、高域成分の補間が必要な子音などの音素に対して補間する場合は、補間処理部４で補間する際の補間パラメータとして、補間位置を端部に設定するパラメータが採用されている。
【００５０】
図６に示す４つの曲線は、それぞれ補間位置ｙをｎ個の補間された信号の中心付近の点（例えば補間次数が８の場合はｙ₃）に固定し、補間次数ｎを４（ｏｒｄ４）、８（ｏｒｄ８）、１６（ｏｒｄ１６）、３２（ｏｒｄ３２）に変化させた場合の周波数特性を示している。図６の周波数特性によれば、補間次数が異なると、補間特性が変化することが判る。これは、補間次数を変化させることで補間精度が変化することに起因する。具体的には、補間次数が大きくなると補間精度が高くなり、補間次数が小さくなると補間精度が低くなることに起因する。補間精度が低くなる程、補間後の信号の周波数が補間前の信号の周波数と大きく異なることとなり、高周波成分が増す。したがって、高域成分の補間が必要な子音などの音素に対して補間する場合は、補間処理部４で補間する際の補間パラメータとして、補間次数を４などの小さい値に設定するパラメータが採用されている。
【００５１】
図７に示す８つの曲線は、補間位置と補間次数の両方を変化した場合の代表的なパターンの周波数特性を示している。補間位置と補間次数を両方変化させることで、様々な補間特性に変化させることができていることが確認できる。
【００５２】
図８から図１０は、補間処理部４が、補間次数、補間位置を選択的に変化させてスプライン関数を適用して補間した場合の周波数特性を示している。図８に示す４つの曲線は、スプライン関数を用いた補間において、補間次数ｎを８（ｏｒｄ８）に固定し、補間位置ｙをｙ₀（ｐｏｓ０：端部）、ｙ₁（ｐｏｓ１）、ｙ₂（ｐｏｓ２）、ｙ₃（ｐｏｓ３：中央部）と変化させた場合の周波数特性を示している。図９に示す５つの曲線は、スプライン関数を用いた補間において、補間位置ｙをｎ個の補間された信号の中心付近の点に固定し、補間次数ｎを４（ｏｒｄ４）、５（ｏｒｄ５）、６（ｏｒｄ６）、７（ｏｒｄ７）、８（ｏｒｄ８）に変化した場合の周波数特性を示している。図１０に示す８つの曲線は、スプライン関数を用いた補間において、補間位置と補間次数の両方を変化させた場合の代表的なパターンの周波数特性を示している。図８、図９、図１０に示すように、スプライン関数を用いた補間でも、ラグランジェ補間の場合と同様に、補間位置や補間次数、補間位置と補間次数の両方を変化させることで補間特性を変化させることができることが判る。
【００５３】
また図５から図７に示すラグランジェ補間の結果と比較すると、図８から図１０に示すスプライン補間の結果は補間特性が異なっているが、これは、補間関数を変化させることで、補間精度が変化することに起因する。このように補間関数を変化させることによっても、補間特性を変化させることができる。
【００５４】
このように、補間処理部４で補間処理された音声信号は、子音か母音かなどの音の状態に応じた補間特性に設定された多項式で適切に補間処理され、主に周波数成分が低域に分布している母音については過剰に高域が補間されない一方で、高域信号を多く含む子音については、十分に高域成分が補間された出力が得られる。
【００５５】
補間処理部４で補間処理された音声信号は、ＰＣＭオーディオ信号等のオーディオ信号として信号出力部５から出力される。
【００５６】
次にオーディオ信号出力装置１０におけるオーディオ信号出力方法の処理流れについて説明する。図１１はオーディオ信号出力方法の処理流れの一例を示す図である。
【００５７】
オーディオ信号出力装置１０の信号入力部１に音声信号が入力される（Ｓ１）と、状態情報入力部２１に状態情報が入力されているか否かが判断される（Ｓ２）。状態情報が入力されていない場合は、解析部２２が入力された音声信号を解析して音の状態情報を生成する（Ｓ３）。
【００５８】
音の状態情報が得られると、補間パラメータ決定部３が、音の状態情報に基づいて所定区間の音声信号に適応する補間パラメータを決定する(Ｓ４)。補間パラメータは、補間次数、補間位置、補間関数の少なくとも１つを指定するパラメータである。
【００５９】
補間処理部４は、信号入力部１から入力された音声信号に対して補間パラメータ決定部３で決定した補間パラメータに基づいて多項式補間関数を設定して補間処理を行う（Ｓ５）。
【００６０】
補間処理された音声信号はＰＣＭオーディオ信号として信号出力部５から出力される（Ｓ６）。
【００６１】
以上の実施形態にかかるオーディオ信号出力装置およびオーディオ信号出力方法によれば、音情報（音の状態情報）に応じて補間のパラメータを変更し、補間方法を動的に可変に行うようにしたので、音情報に応じて補間特性が変更されることで極めて簡単な構成で良好な高域信号が形成され、メモリ資源の豊かではない（制約のある）環境下において、実用的な高域信号補間を実施することができる。
【００６２】
尚、本実施形態では、解析部２２は、状態情報入力部２１から音の状態情報が入力されない場合に、入力された音声信号を解析して音の状態情報を取得しているが、本発明はこの形態に限定されるものではなく、例えば、状態情報入力部２１と解析部２２の両方で音の状態情報が取得され、どちらか一方で取得された音の状態情報が補間パラメータ決定部３に供給される形態でもよい。
【００６３】
次に、本発明のオーディオ信号出力装置が実用的な高域信号補間ができることを実証するために、図１に示すオーディオ信号出力装置１０を用いてオーディオ信号出力処理を行なった結果を以下に示す。
【００６４】
（実験条件）
入力信号として、サンプリング周波数８ｋＨｚ、量子化精度１６ｂｉｔの音声信号をＨＤＤ（ハードディスク）から入力した。入力信号は、前半部が母音、後半部が無声摩擦音の子音で構成され、雑音は重畳されていないクリーン環境の音声を用いた。
【００６５】
図１２に８ｋＨｚサンプリングの入力信号のスペクトログラムを示す。また、図１３に入力信号をダウンサンプルする前の１６ｋＨｚサンプリングのスペクトログラムを示す。すなわち、図１３に示すスペクトログラムが補間処理後の目標音声となる。
【００６６】
（実施例）
図１のオーディオ信号出力装置１０を用いて入力信号を処理した。状態情報入力部２から音の状態情報が入力されないので、解析部３により音の解析が行われる。音情報の解析には、時間波形解析を使用した。具体的には入力信号に対して、ＬＰＦとＨＰＦにより、低域と高域の２帯域のサブバンド分析を適用した。フィルタとしては、ＩＩＲ型の双２次フィルタを使用した。ここでカットオフ周波数はＬＰＦおよびＨＰＦともに２ｋＨｚとする。入力信号に対して、ＬＰＦおよびＨＰＦをそれぞれ適用し、得られた信号の絶対値を次式により平滑化することで、ＬＰＦおよびＨＰＦ適用後のそれぞれの信号強度を求めた。
Ｓ（ｔ）＝（α×Ｇ（ｔ））＋（１−α）Ｓ（ｔ−１）
【００６７】
ここで、Ｓは平滑化後の信号、Ｇはフィルタ適用後の信号の絶対値、ｔは入力信号のインデックス、αは平滑化係数をそれぞれ示す。α＝０．０３とする。
【００６８】
さらに、ＬＰＦおよびＨＰＦ適用後の信号強度の比を求めることで、その比に基づいて母音部と子音部の判定を行う。ここでは、ＬＰＦ適用後の信号強度よりＨＰＦ適用後の信号強度が大きい場合は子音として、また、ＨＰＦ適用後の信号強度よりＬＰＦ適用後の信号強度が大きい場合は母音として判定した。
【００６９】
また、自己相関関数に基づく解析を行うことにより、音声の基本周波数を特定し、有声音および無声音の判定を行なった。自己相関関数Ｒ（ｋ）を以下に示す。
【００７０】
【数３】

【００７１】
ここで、Ｎは解析に使用するサンプル数、ｎはフレーム化された入力信号、ｋおよびｌはフレーム化された入力信号のインデックスをそれぞれ示す。本実験ではフレーム長を２５６、Ｎを１２８とし、ｋの探索範囲は２０サンプルから１００サンプルとした。これは基本周波数として、８０Ｈｚから４００Ｈｚの範囲となる。Ｒ（ｋ）の最大値を特定し、最大値が閾値より大きい場合は有声音として、また、閾値より小さい場合は無声音として判定する。得られた結果を補間パラメータ決定部３に出力する。
【００７２】
補間パラメータ決定部３は、得られた音の解析結果を元に、図２に示す補間テーブルに基づいて補間パラメータを決定する。母音部および無声子音部に対して補間パラメータを決定して補間処理部５に出力する。母音部では補間次数を３２、補間位置を１５とする補間パラメータが決定され、無声子音部では補間次数を４、補間位置を１とする補間パラメータが決定された。
【００７３】
補間処理部５は、入力信号に対して、２倍のサンプリング周波数へと変換する高域信号補間処理を行なった。補間処理部５は、多項式補間としてはラグランジュ補間を使用し、補間パラメータに基づいて、母音部では補間次数を３２、補間位置を１５とし、無声子音部では補間次数を４、補間位置を１とすることで、入力信号に対して動的に補間次数および補間位置を変更して補間を行った。
【００７４】
得られたＰＣＭオーディオ信号のスペクトログラムを図１４に示す。
【００７５】
（比較例）
比較例として、同じ入力信号に対して、音の解析をせず（すなわち音情報取得部２と補間パラメータ決定部３を機能させず）、補間処理部４において、補間次数および補間位置も固定してラグランジュ関数を用いて補間処理を行なった。この補間処理は、補間次数および補間位置を複数の条件に固定して行った。
【００７６】
図１５は補間次数を３２、補間位置を１５に固定したときのＰＣＭオーディオ信号のスペクトログラムを示し、図１６は補間次数を４、補間位置を１に固定したときのＰＣＭオーディオ信号のスペクトログラムを示し、図１７は補間次数を８、補間位置を０に固定したときのＰＣＭオーディオ信号のスペクトログラムを示し、図１８は補間次数を８、補間位置を３に固定したときのＰＣＭオーディオ信号のスペクトログラムを示す。
【００７７】
（実験結果の評価)
実施例により得られたＰＣＭオーディオ信号のスペクトログラムには図１４に示すように、前半の母音部では不自然な高域成分が観測されないこと、また後半の無声子音部では高域成分が十分に観測できることが判る。実施例により得られた図１４に示すスペクトログラムは、図１３の目標音声であるスペクトログラムに非常に近い結果を得られており、実用的な高域信号補間ができていることがわかる。これに対して、比較例により得られた図１５から図１８に示すスペクトログラムは、図１３のスペクトログラムとは著しく異なる結果であることがわかる。
【００７８】
以上の実施形態では、音情報取得部２が状態情報入力部２１と解析部２２とを有する場合を例に挙げて説明したが、入力音声が音声合成装置からの出力音声や、音声圧縮伸張装置からの出力音声が決まって入力される場合、音声合成装置や音声圧縮伸張装置から音情報を外部情報として状態情報入力部２１へ供給することができるので、解析部２２が不要となる。この場合、図１１において状態情報の入力の有無を判定する処理（Ｓ２）と状態情報を判定する処理（Ｓ３）を省略できる。回路構成を簡単にでき、余計な回路を設けないので、製品価格も安価とすることができる。
【００７９】
本発明のオーディオ信号出力装置は、電話通信装置のためだけに限らず、例えば、ＣＤプレーヤ、ＭＤプレーヤ等の再生装置にも適用可能である。また、音声合成装置や音声圧縮伸張装置、サンプリングレート変換装置にも適用可能である。
【符号の説明】
【００８０】
１信号入力部
２音情報取得部
３補間パラメータ決定部
４補間処理部
５信号出力部
１０オーディオ信号出力装置
２１状態情報入力部
２２解析部

【特許請求の範囲】
【請求項１】
ＰＣＭ信号が入力される信号入力部と、
前記信号入力部に入力されたＰＣＭ信号の音の状態情報を取得する音情報取得部と、
前記音情報取得部が取得した音の状態情報に基づいて、前記ＰＣＭ信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定部と、
決定された補間パラメータに基づいて設定された多項式を前記ＰＣＭ信号に適用して、前記ＰＣＭ信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたＰＣＭオーディオ信号を生成して出力する補間処理部とを備えたことを特徴とするオーディオ信号出力装置。
【請求項２】
前記補間パラメータは、ＰＣＭ信号を補間する際に使用する補間関数と、前記補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とのうちの少なくとも１つであることを特徴とする請求項１に記載のオーディオ信号出力装置。
【請求項３】
前記補間パラメータは、補間位置、補間次数、補間関数の組からなる複数のパラメータセットを含むテーブルから選択されることを特徴とする請求項２に記載のオーディオ信号出力装置。
【請求項４】
前記音情報取得部は、外部装置から前記ＰＣＭ信号の音の状態情報が入力される状態情報入力部を備えることを特徴とする請求項１から３のいずれかに記載のオーディオ信号出力装置。
【請求項５】
前記音情報取得部は、前記ＰＣＭ信号を解析して音の状態情報を取得する解析部を備えることを特徴とする請求項１から４のいずれかに記載のオーディオ信号出力装置。
【請求項６】
ＰＣＭ信号が入力される信号入力ステップと、
前記信号入力部に入力されたＰＣＭ信号の音の状態情報を取得する音情報取得ステップと、
前記音情報取得部が取得した音の状態情報に基づいて、前記ＰＣＭ信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定ステップと、
決定された補間パラメータに基づいて設定された多項式を前記ＰＣＭ信号に適用して、前記ＰＣＭ信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたＰＣＭオーディオ信号を生成して出力する補間処理ステップとを含むことを特徴とするオーディオ信号出力方法。
【請求項７】
前記補間パラメータは、ＰＣＭ信号を補間する際に使用する補間関数と、前記補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とのうちの少なくとも１つであることを特徴とする請求項６に記載のオーディオ信号出力方法。
【請求項８】
前記補間パラメータは、補間位置、補間次数、補間関数の組からなる複数のパラメータセットを含むテーブルから選択されることを特徴とする請求項７に記載のオーディオ信号出力方法。
【請求項９】
前記音情報取得ステップは、外部装置から前記ＰＣＭ信号の音の状態情報が入力されることで、前記信号入力部に入力されたＰＣＭ信号の音の状態情報を取得することを特徴とする請求項６から８のいずれかに記載のオーディオ信号出力方法。
【請求項１０】
前記音情報取得ステップは、前記信号入力部に入力されたＰＣＭ信号を解析することで音の状態情報を取得することを特徴とする請求項６から９のいずれかに記載のオーディオ信号出力方法。

【図１】