説明

オーディオ信号出力装置およびオーディオ信号出力方法

【課題】良好な高域信号の補間が実現できるオーディオ信号出力装置およびオーディオ信号出力方法を提供すること。
【解決手段】PCM信号が入力される信号入力部と、前記信号入力部に入力されたPCM信号の音の状態情報を取得する音情報取得部と、前記音情報取得部が取得した音の状態情報に基づいて、前記PCM信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定部と、決定された補間パラメータに基づいて設定された多項式を前記PCM信号に適用して、前記PCM信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたPCMオーディオ信号を生成して出力する補間処理部とを備えたオーディオ信号出力装置およびこれを用いたオーディオ信号出力方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えばMP3のような圧縮を伴うデジタルオーディオ機器や、電話機等に使用することが好適なオーディオ信号出力装置およびオーディオ信号出力方法に関する。詳しくは、圧縮等によって欠落している高域信号を擬似的に補間するようにしたオーディオ信号出力装置およびオーディオ信号出力方法である。
【背景技術】
【0002】
近年、音楽等の音声を表す音声データを、インターネット等のネットワークを介して配信したり、MD(Mini Disk)等の記録媒体に記録したりして利用することが盛んになっている。ネットワークで配信されたり記録媒体に記録されたりする音声データは、帯域が過度に広くなることによるデータ量の増大や占有帯域幅の広がりを避けるため、一般に、供給する対象の音楽等のうち一定の周波数以上の成分を除去している。
【0003】
例えば、MP3(MPEG1 audio layer 3)形式の音声データでは、約16キロヘルツ以上の周波数成分が除去されている。また、ATRAC3(Adaptive TRansform Acoustic Coding 3)形式の音声データでは、約14キロヘルツ以上の周波数成分が除去されている。音声通話である電話通信では、300Hz〜3.4kHzの音声信号しか伝送されないため、その通話音声品質は十分とは言えず、聴き取りやすさが阻害されている。
【0004】
このような問題に対し、従来の高域信号補間では、例えば、特許文献1に示すように、零補間した後、FIRディジタルフィルタを用いてスプライン関数による補間を行うことにより高域成分を付加する方法が知られている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許3194752号
【非特許文献】
【0006】
【非特許文献1】鹿野ほか著、「音声・音情報のディジタル信号処理」、昭晃堂、1997年
【非特許文献2】高橋大輔著、「数値計算」、岩波書店、1996年
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に記載の技術では、除去された高域信号を補間可能であるが、単一の補間特性(周波数特性)であるため十分な効果を得ることが出来ないものであった。例えば音声通話の場合、音声信号の音素が母音であれば4kHz以下の帯域に主要な成分が分布しているが、子音(特に摩擦音)であれば、4kHz以上の帯域に主要な成分が分布している。そのため補間により高域成分を付加する際、その付加量を母音であれば少なく、子音(特に摩擦音)であれば多くすることで、極めて良好な高域信号の補間が行われる。特許文献1に記載の技術で、FIRディジタルフィルタのフィルタ係数を複数保持し、そのフィルタ係数を切り替えながら使用することで、補間特性を複数実現することは可能であるが、その場合、フィルタ係数を保持するメモリ量が増大し、高価なメモリが必要とされるという問題がある。
【0008】
この発明は、このような問題点に鑑みて成されたものであって、本発明の目的は、良好な高域信号の補間が実現できるオーディオ信号出力装置およびオーディオ信号出力方法を提供することにある。
【課題を解決するための手段】
【0009】
上記の課題を解決するために、本発明の請求項1に記載の発明は、PCM信号が入力される信号入力部と、前記信号入力部に入力されたPCM信号の音の状態情報を取得する音情報取得部と、前記音情報取得部が取得した音の状態情報に基づいて、前記PCM信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定部と、決定された補間パラメータに基づいて設定された多項式を前記PCM信号に適用して、前記PCM信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたPCMオーディオ信号を生成して出力する補間処理部とを備えたことを特徴とするオーディオ信号出力装置である。
【0010】
請求項2に記載の発明は、請求項1に記載のオーディオ信号出力装置において、前記補間パラメータは、PCM信号を補間する際に使用する補間関数と、前記補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とのうちの少なくとも1つであることを特徴とする。
【0011】
請求項3に記載の発明は、請求項2に記載のオーディオ信号出力装置において、前記補間パラメータは、補間位置、補間次数、補間関数の組からなる複数のパラメータセットを含むテーブルから選択されることを特徴とする。
【0012】
請求項4に記載の発明は、請求項1から3のいずれかに記載のオーディオ信号出力装置において、前記音情報取得部は、外部装置から前記PCM信号の音の状態情報が入力される状態情報入力部を備えることを特徴とする。
【0013】
請求項5に記載の発明は、請求項1から4のいずれかに記載のオーディオ信号出力装置において、前記音情報取得部は、前記PCM信号を解析して音の状態情報を取得する解析部を備えることを特徴とする。
【0014】
請求項6に記載の発明は、PCM信号が入力される信号入力ステップと、前記信号入力部に入力されたPCM信号の音の状態情報を取得する音情報取得ステップと、前記音情報取得部が取得した音の状態情報に基づいて、前記PCM信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定ステップと、決定された補間パラメータに基づいて設定された多項式を前記PCM信号に適用して、前記PCM信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたPCMオーディオ信号を生成して出力する補間処理ステップとを含むことを特徴とするオーディオ信号出力方法である。
【0015】
請求項7に記載の発明は、請求項6に記載のオーディオ信号出力方法において、前記補間パラメータは、PCM信号を補間する際に使用する補間関数と、前記補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とのうちの少なくとも1つであることを特徴とする。
【0016】
請求項8に記載の発明は、請求項7に記載のオーディオ信号出力方法において、前記補間パラメータは、補間位置、補間次数、補間関数の組からなる複数のパラメータセットを含むテーブルから選択されることを特徴とする。
【0017】
請求項9に記載の発明は、請求項6から8のいずれかに記載のオーディオ信号出力方法において、前記音情報取得ステップは、外部装置から前記PCM信号の音の状態情報が入力される状態情報入力されたPCM信号の音の状態情報を取得することを特徴とする。
【0018】
請求項10に記載の発明は、請求項6から9のいずれかに記載のオーディオ信号出力方法において、前記音情報取得ステップは、前記信号入力部に入力されたPCM信号を解析することで音の状態情報を取得することを特徴とする。
【図面の簡単な説明】
【0019】
【図1】本発明にかかるオーディオ信号出力装置の構成の一例を示すブロック図である。
【図2】補間テーブルの構成の一例を示す図である。
【図3】従来の補間方法による周波数特性を示す図である。
【図4】ラグランジュ補間を説明するための図である。
【図5】補間次数固定で補間位置を変化させたラグランジュ補間の周波数特性を示す図である。
【図6】補間位置固定で補間次数を変化させたラグランジュ補間の周波数特性を示す図である。
【図7】補間次数および補間位置を変化させたラグランジュ補間の周波数特性を示す図である。
【図8】補間次数固定で補間位置を変化させたスプライン補間の周波数特性を示す図である。
【図9】補間位置固定で補間次数を変化させたスプライン補間の周波数特性を示す図である。
【図10】補間次数および補間位置を変化させたスプライン補間の周波数特性を示す図である。
【図11】本発明にかかるオーディオ信号出力方法の処理流れの一例を示すフロー図である。
【図12】8kHzサンプリングの入力信号のスペクトログラムを示す図である。
【図13】入力信号をダウンサンプルする前の16kHzサンプリングのスペクトログラムを示す図である。
【図14】実施例の方法より処理されたPCMオーディオ信号のスペクトログラムを示す図である。
【図15】補間次数を32、補間位置を15に固定したときのPCMオーディオ信号のスペクトログラムを示す図である。
【図16】補間次数を4、補間位置を1に固定したときのPCMオーディオ信号のスペクトログラムを示す図である。
【図17】補間次数を8、補間位置を0に固定したときのPCMオーディオ信号のスペクトログラムを示す図である。
【図18】補間次数を8、補間位置を3に固定したときのPCMオーディオ信号のスペクトログラムを示す図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態について詳細に説明する。図1は、オーディオ信号出力装置の構成の一例を示すブロック図である。オーディオ信号出力装置10は、PCM信号などの音声信号が入力される信号入力部1と、入力された音声信号の状態情報を取得する音情報取得部2と、音の状態情報に基づいて入力された音声信号に適用する補間パラメータを決定する補間パラメータ決定部3と、入力された音声信号に対して補間パラメータに基づいて補間処理を行う補間処理部4と、補間処理された音声信号を出力する信号出力部5とを備えて構成される。
【0021】
信号入力部1には、例えば通話システムのような圧縮処理を伴う機器から受信された高域成分がカットされたPCM信号などの音声信号が入力信号として供給される。この音声信号が、例えば0Hz〜4kHzの周波数帯域に含まれる音声信号である場合、4kHz〜8kHzの周波数帯域に含まれる音声信号の高域成分がカットされているので、オーディオ信号出力装置10は、擬似的に4kHz〜8kHzの周波数帯域に含まれる音声信号を出力信号として生成することにより、音声信号を高域補間することとなる。入力音声信号の周波数帯域は、0Hz〜4kHzに限られず、300Hz〜3.4kHzや50Hz〜8kHz等の任意の周波数帯域であってもよい。また、オーディオ信号出力装置が擬似的に生成する音声信号成分の周波数帯も、4kHz〜8kHzに限られず、4kHz〜16kHzの周波数帯域に含まれる音声信号を生成してもよく、2倍以上の帯域を含む音声信号を生成してもよい。
【0022】
音情報取得部2は、信号入力部1から入力された音声信号の状態情報が入力される状態情報入力部21と、状態情報入力部21から音の状態情報が入力されない場合に、入力された音声信号を解析して音の状態情報を得る解析部22とを有する。取得される音(音声信号)の状態情報としては、入力された音声信号の音素、音素カテゴリ(母音、子音、有声、無声、調音方式や調音位置など)、SNR、基本周波数、周期性、発話区間情報、曲調、楽器の種類等の情報が挙げられるが、高域成分がどの程度含まれる音の種類かを識別できる情報であれば特に限定されない。音情報取得部2で取得された音の状態情報は、補間パラメータ決定部3に出力される。
【0023】
状態情報入力部21には、音声合成装置や音声圧縮伸張装置等の外部装置から音声信号の状態情報が入力される。信号入力部1に入力される音声信号が音声合成装置等の外部装置で合成した音声信号である場合は、入力された音声信号の状態情報を、外部装置が保持していると考えられる。音声信号と共に音の状態情報を保持する外部装置からは、信号入力部1に音声信号が入力されるとともに、状態情報入力部21には外部装置から音の状態情報が入力される。
【0024】
解析部22は、状態情報入力部21において外部装置から音の状態情報が入力されない場合に、信号入力部1から入力された音声信号を解析し、音の状態情報を解析結果として生成して補間パラメータ決定部3に出力する。例えばCDプレーヤなどの音声再生装置で再生した音声信号は、音の状態情報を持たないため、音の状態情報を得るための解析が必要になる。解析部22は、音声信号に対して周波数解析や時間波形解析を用いた解析を行うことにより音の解析結果を得ることができる。
【0025】
まず解析部22において周波数解析を用いて音の解析結果を得る場合について説明する。ここでは、ケプストラム分析を用いた音の解析について説明する。ケプストラム分析については、非特許文献1に記載されている公知の手法を採用することができる。入力信号を音声とした場合、供給された入力信号にケプストラム分析を施すことで、この入力信号が表す音声の基本周波数及びフォルマント周波数を特定することができる。そして特定された基本周波数及びフォルマント周波数により、あらかじめ記憶されたテーブルから音素や音素カテゴリ、周期性などといった音の解析結果情報を得る。
【0026】
ケプストラム分析は、まず例えば、高速フーリエ変換の手法により入力信号のスペクトルを求める。なお、入力信号のスペクトルは、高速フーリエ変換の代わりに離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法により求めてもよい。次いで求めたスペクトルの各成分の強度を、それぞれ元の値の対数にあたる値へ変換する。この対数の底は任意であり、例えば常用対数などでよい。さらに、値が変換されたスペクトルに逆フーリエ変換を施してケプストラムを求める。なお逆フーリエ変換は、高速フーリエ変換の手法、あるいは離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法を採用してもよい。
【0027】
得られたケプストラムにおいて、スペクトル上の微細構造は、ケフレンシの大きい値の部分に集中し、スペクトル包絡は、ケフレンシの小さい部分に集中することになる。したがって低ケフレンシ部分に窓をかけることによりリフタリングし、低ケフレンシ部分のみをフーリエ変換を施した結果を、高速フーリエ変換することによって、対数スペクトル包絡を求めることができる。なお、高速フーリエ変換の代わりに、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法を採用してもよい。
【0028】
得られた対数スペクトル包絡に基づいて、フォルマント周波数を特定し、特定されたフォルマント周波数を示すデータを生成する。さらに、得られたケプストラムに基づいて、高ケフレンシ部のピーク値のケフレンシの時間から、このケプストラムが表す基本周波数を特定し、特定された基本周波数を示すデータを生成する。予め記憶しておいた基本周波数やフォルマント周波数と、それに対応する音素や音素カテゴリ、周期性を示すテーブルに基づいて、特定された基本周波数やフォルマント周波数により、音素や音素カテゴリ、周期性といった音の解析結果情報を得ることができる。
【0029】
周波数解析としては、高速フーリエ変換、離散フーリエ変換、線形予測分析等、公知の技術を用いることができる。さらに、得られたスペクトル、対数スペクトル、ケプストラム、メルケプストラム、LPC、LSP、残差信号等の特徴量をもとに、音の解析結果情報として、SNRや発話区間情報、曲調、楽器の種類等の情報を得てもよい。また、得られた特徴量をもとに、HMM等を用いたパターンマッチングにより、音素や音素カテゴリを得てもよい。
【0030】
次に、解析部22において時間波形解析を用いて音の解析結果を得る方法について説明する。ここでは、フィルタリングによるサブバンド分析を用いた音の解析について説明する。入力信号を音声とした場合、入力信号に例えば低域と高域の2帯域のサブバンド分析を施すことで、この入力信号が表す周波数成分の偏りを特定することができる。そして特定された周波数成分の偏りにより、あらかじめ記憶されたテーブルから音素や音素カテゴリ、SNRなどといった音の解析結果を得る。
【0031】
具体的にサブバンド分析とは、2帯域に分割する場合、入力信号のサブバンド信号を、IIR型やFIR型のハイパスフィルタリングとローパスフィルタリングの手法により求める。ナイキスト周波数の半分の周波数をカットオフ周波数としたIIR型ハイパスフィルタとIIR型ローパスフィルタを設計し、入力信号にそれぞれ2つのフィルタを施し、低域信号と高域信号を求める。それぞれの信号の絶対値を加算し求められた値とその比を求め、入力信号が表す周波数成分の偏りや強度を特定し、特定された周波数成分の偏りや強度を示すデータを生成する。サブバンド数は3以上でもよい。
【0032】
そして、あらかじめ記憶しておいた周波数成分の偏りや強度と、それに対応する音素や音素カテゴリ、SNRを示すテーブルに基づいて、特定された周波数成分の偏りと強度より、音素や音素カテゴリ、SNRといった音の解析情報を得る。
【0033】
時間波形解析としては、ハイパスフィルタ、ローパスフィルタ、バンドパスフィルタ、波形相関、ゼロクロス等、公知の技術を用いることができる。さらに、得られたサブバンド信号や相関係数等の値を元に、音の解析結果情報として基本周波数や周期性、発話区間情報、曲調、楽器の種類等の情報を得てもよい。
【0034】
補間パラメータ決定部3は、音情報取得部2で取得したPCM信号の音の状態情報が供給されると、入力された音の状態情報に応じて、入力されたPCM信号の所定区間ごとにPCM信号を生成する際に除去された音の高域成分を補間する際に使用する多項式を設定するための補間パラメータを決定して補間処理部4へ供給する。補間パラメータ決定部3は、音の状態情報に基づいて、PCM信号の所定区間ごとに補間パラメータを決定する。音声信号(PCM信号)の所定区間は、母音や子音などの音素の区切りに対応した区間とすることができ、例えば発話区間や音素継続長などによって決定することができる。
【0035】
補間パラメータは、音声信号(PCM信号)を多項式補間する際に使用する補間関数と、補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とを設定するためのパラメータであり、これらの設定を変更することで補間特性を変更することができる。因みに、従来の補間方法では、補間特性を変更するためには、音声信号に適用するフィルタ係数の組を、補間特性の種類ごとに複数用意しなければならず、大量のメモリ容量を必要とするものであった。補間パラメータとしては、補間位置を用いることが好ましい。補間次数や補間関数は変更に伴い演算量が変更するのに対し、補間位置の変更は演算量を一定に保ちつつ、補間特性を変化させることが可能だからである。
【0036】
補間パラメータ決定部3は、補間パラメータを格納した補間テーブルに基づいて補間パラメータを決定する。補間テーブルには、音の状態情報と、音の状態情報に適した多項式補間を設定するための補間位置、補間次数、補間関数の少なくとも1つとが対応づけて格納されている。補間テーブルは、例えば、図2に示すテーブルを採用することができる。補間テーブルは、補間パラメータ決定部3に保持されていてもよいが、オーディオ信号出力装置10の外部に保持されたテーブルを参照してもよい。図2に示す補間テーブルでは、音の状態情報として音素カテゴリ、SNRを採用しており、これに対応する補間パラメータとして補間次数(次数)、補間位置(位置)、補間関数が格納されている。
【0037】
このように本発明のオーディオ信号出力装置10では、音の状態に応じて音声信号の所定区間ごとに補間パラメータを変えているので、その音の状態に適した補間を行うことができる。例えば、無声摩擦音の子音は母音に比べて周波数成分がより高域に分布することが知られているので、無声摩擦音の子音の音声信号を補間するときは、高域の再現性がよい補間方法に設定する補間パラメータに決定する。一方で主に周波数成分が低域に分布している母音の音声信号を補間するときは、過剰に高域を補間しない補間方法に設定する補間パラメータに決定することができる。この補間テーブルに格納される音の状態情報が多いほど、音声信号に対する補間方法の設定を詳細に変更制御できる。
【0038】
補間処理部4には、補間パラメータ決定部3において決定した補間パラメータに加えて、信号入力部1からの入力信号である音声信号(PCM信号)も供給される。補間処理部4は、予め保持している多項式補間関数のいずれかを使用して、入力された音声信号に対して補間処理を行い、信号出力部5に供給する。補間処理に用いられる多項式補間関数は、補間パラメータである補間位置、補間次数、補間関数に基づいて補間方法が設定される。多項式補間は、ラグランジュ補間、スプライン補間、ニュートン補間、最小2乗法、エルミート補間、バイキュービック補間、バイリニア補間、バーコフ補間等の公知の手法を用いることができるがこれに限定されない。
【0039】
図3は、周知の補間処理により補間処理した結果の周波数特性を示している。曲線aは入力信号に4kHzを遮断周波数とするLPFでアンチエイリアジングを施したアップサンプル処理で得られる周波数特性を示し、曲線bは零補間処理により得られる周波数特性を示し、曲線cは2点のサンプル点を直線で結んで補間信号を求める線形補間処理により得られる周波数特性を示している。
【0040】
曲線aに示すLPFによる補間では、高域成分がカットされてしまうため、高域信号の補間には適さない。これに対し、曲線b、cに示す零補間や線形補間では高域成分が8kHzおよび8kHz付近まででている。しかし曲線bに示す零補間処理では、高域成分が再現できるが、補間精度が低すぎるので、折り返しノイズの影響を多大に受けてしまう。曲線cに示す線形補間ではある程度の高域成分の再現と補間精度が実現できるが、ラグランジェ補間やスプライン補間といった多項式補間関数を用いた方法に比べて補間精度が低いうえに、補間次数と補間位置を変化させることで補間特性を変化させることもできない。
【0041】
補間処理部4において、多項式補間としてラグランジュ関数を用いたラグランジュ補間を採用した場合を例に挙げて説明する。ラグランジュ補間については、非特許文献2等に記載されている既知の関数を用いることができる。ラグランジュ関数について説明すると、サンプリング点を通る互いに異なる(n+1)個の点、x0、x1、・・・、xn(x0<x1<・・・<xn)に対して、関数値f(x0)、f(x1)、・・・、f(xn)が与えられているとする。一般的にn+1個のデータの場合、n次関数を用いて補間する。
【0042】
ここで、pn(xi)=f(xi)(i=0、1、・・・、n)を満たす、yのn次多項式pn(y)を以下の式で求め、これを用いてf(y)の補間を行う。
【0043】
【数1】

【0044】
【数2】

【0045】
式1、式2において、yは補間位置、nは補間次数を表す。
【0046】
例えば、入力信号のサンプリング周波数が8kHzであり、出力音声のサンプリング周波数が16kHzである場合は、図4(a)に示すサンプリング入力に対し、図4(b)に示すように、隣り合う入力サンプリング点の中点の位置において補間される信号が生成できる。すなわち、(n+1)個の入力点(補間次数)x0、x1、・・・、xn(x0<x1<・・・<xn)に対して、n個の点y0、y1、・・・、yn-1(y0<y1<・・・<yn-1)で補間信号が生成できる。
【0047】
本発明にかかる補間処理部4においては、1回の補間処理では、これらn個の点y0、y1、・・・、yn-1(y0<y1<・・・<yn-1)の全てを補間信号として採用せずに、補間パラメータである補間位置によって特定された位置の補間点の補間信号のみを採用する。この補間処理を、サンプリング点をずらしながら順次行うことによって、複数のサンプリング点のそれぞれの中点の位置において補間された信号を得ることができる。
【0048】
図5から図7は、補間処理部4が、補間次数、補間位置を選択的に変化させてラグランジュ関数を適用して補間した場合の周波数特性を示している。
【0049】
図5に示す4つの曲線は、それぞれ補間次数nを8(ord8)に固定し、補間位置yをy0(pos0:端部)、y1(pos1)、y2(pos2)、y3(pos3:中央部)に変化させた場合の周波数特性を示している。図5の周波数特性によれば、補間位置が異なると、補間特性を変化することが判る。これは、補間位置を変化させることで補間精度が変化することに起因する。具体的には、補間された信号の中心付近では補間精度が高くなり、補間された信号の両端部では補間精度が低くなることに起因する。補間精度が低くなる程、補間後の信号の周波数が補間前の信号の周波数と大きく異なることとなり、高周波成分が増す。したがって、高域成分の補間が必要な子音などの音素に対して補間する場合は、補間処理部4で補間する際の補間パラメータとして、補間位置を端部に設定するパラメータが採用されている。
【0050】
図6に示す4つの曲線は、それぞれ補間位置yをn個の補間された信号の中心付近の点(例えば補間次数が8の場合はy3)に固定し、補間次数nを4(ord4)、8(ord8)、16(ord16)、32(ord32)に変化させた場合の周波数特性を示している。図6の周波数特性によれば、補間次数が異なると、補間特性が変化することが判る。これは、補間次数を変化させることで補間精度が変化することに起因する。具体的には、補間次数が大きくなると補間精度が高くなり、補間次数が小さくなると補間精度が低くなることに起因する。補間精度が低くなる程、補間後の信号の周波数が補間前の信号の周波数と大きく異なることとなり、高周波成分が増す。したがって、高域成分の補間が必要な子音などの音素に対して補間する場合は、補間処理部4で補間する際の補間パラメータとして、補間次数を4などの小さい値に設定するパラメータが採用されている。
【0051】
図7に示す8つの曲線は、補間位置と補間次数の両方を変化した場合の代表的なパターンの周波数特性を示している。補間位置と補間次数を両方変化させることで、様々な補間特性に変化させることができていることが確認できる。
【0052】
図8から図10は、補間処理部4が、補間次数、補間位置を選択的に変化させてスプライン関数を適用して補間した場合の周波数特性を示している。図8に示す4つの曲線は、スプライン関数を用いた補間において、補間次数nを8(ord8)に固定し、補間位置yをy0(pos0:端部)、y1(pos1)、y2(pos2)、y3(pos3:中央部)と変化させた場合の周波数特性を示している。図9に示す5つの曲線は、スプライン関数を用いた補間において、補間位置yをn個の補間された信号の中心付近の点に固定し、補間次数nを4(ord4)、5(ord5)、6(ord6)、7(ord7)、8(ord8)に変化した場合の周波数特性を示している。図10に示す8つの曲線は、スプライン関数を用いた補間において、補間位置と補間次数の両方を変化させた場合の代表的なパターンの周波数特性を示している。図8、図9、図10に示すように、スプライン関数を用いた補間でも、ラグランジェ補間の場合と同様に、補間位置や補間次数、補間位置と補間次数の両方を変化させることで補間特性を変化させることができることが判る。
【0053】
また図5から図7に示すラグランジェ補間の結果と比較すると、図8から図10に示すスプライン補間の結果は補間特性が異なっているが、これは、補間関数を変化させることで、補間精度が変化することに起因する。このように補間関数を変化させることによっても、補間特性を変化させることができる。
【0054】
このように、補間処理部4で補間処理された音声信号は、子音か母音かなどの音の状態に応じた補間特性に設定された多項式で適切に補間処理され、主に周波数成分が低域に分布している母音については過剰に高域が補間されない一方で、高域信号を多く含む子音については、十分に高域成分が補間された出力が得られる。
【0055】
補間処理部4で補間処理された音声信号は、PCMオーディオ信号等のオーディオ信号として信号出力部5から出力される。
【0056】
次にオーディオ信号出力装置10におけるオーディオ信号出力方法の処理流れについて説明する。図11はオーディオ信号出力方法の処理流れの一例を示す図である。
【0057】
オーディオ信号出力装置10の信号入力部1に音声信号が入力される(S1)と、状態情報入力部21に状態情報が入力されているか否かが判断される(S2)。状態情報が入力されていない場合は、解析部22が入力された音声信号を解析して音の状態情報を生成する(S3)。
【0058】
音の状態情報が得られると、補間パラメータ決定部3が、音の状態情報に基づいて所定区間の音声信号に適応する補間パラメータを決定する(S4)。補間パラメータは、補間次数、補間位置、補間関数の少なくとも1つを指定するパラメータである。
【0059】
補間処理部4は、信号入力部1から入力された音声信号に対して補間パラメータ決定部3で決定した補間パラメータに基づいて多項式補間関数を設定して補間処理を行う(S5)。
【0060】
補間処理された音声信号はPCMオーディオ信号として信号出力部5から出力される(S6)。
【0061】
以上の実施形態にかかるオーディオ信号出力装置およびオーディオ信号出力方法によれば、音情報(音の状態情報)に応じて補間のパラメータを変更し、補間方法を動的に可変に行うようにしたので、音情報に応じて補間特性が変更されることで極めて簡単な構成で良好な高域信号が形成され、メモリ資源の豊かではない(制約のある)環境下において、実用的な高域信号補間を実施することができる。
【0062】
尚、本実施形態では、解析部22は、状態情報入力部21から音の状態情報が入力されない場合に、入力された音声信号を解析して音の状態情報を取得しているが、本発明はこの形態に限定されるものではなく、例えば、状態情報入力部21と解析部22の両方で音の状態情報が取得され、どちらか一方で取得された音の状態情報が補間パラメータ決定部3に供給される形態でもよい。
【0063】
次に、本発明のオーディオ信号出力装置が実用的な高域信号補間ができることを実証するために、図1に示すオーディオ信号出力装置10を用いてオーディオ信号出力処理を行なった結果を以下に示す。
【0064】
(実験条件)
入力信号として、サンプリング周波数8kHz、量子化精度16bitの音声信号をHDD(ハードディスク)から入力した。入力信号は、前半部が母音、後半部が無声摩擦音の子音で構成され、雑音は重畳されていないクリーン環境の音声を用いた。
【0065】
図12に8kHzサンプリングの入力信号のスペクトログラムを示す。また、図13に入力信号をダウンサンプルする前の16kHzサンプリングのスペクトログラムを示す。すなわち、図13に示すスペクトログラムが補間処理後の目標音声となる。
【0066】
(実施例)
図1のオーディオ信号出力装置10を用いて入力信号を処理した。状態情報入力部2から音の状態情報が入力されないので、解析部3により音の解析が行われる。音情報の解析には、時間波形解析を使用した。具体的には入力信号に対して、LPFとHPFにより、低域と高域の2帯域のサブバンド分析を適用した。フィルタとしては、IIR型の双2次フィルタを使用した。ここでカットオフ周波数はLPFおよびHPFともに2kHzとする。入力信号に対して、LPFおよびHPFをそれぞれ適用し、得られた信号の絶対値を次式により平滑化することで、LPFおよびHPF適用後のそれぞれの信号強度を求めた。
S(t)=(α×G(t))+(1−α)S(t−1)
【0067】
ここで、Sは平滑化後の信号、Gはフィルタ適用後の信号の絶対値、tは入力信号のインデックス、αは平滑化係数をそれぞれ示す。α=0.03とする。
【0068】
さらに、LPFおよびHPF適用後の信号強度の比を求めることで、その比に基づいて母音部と子音部の判定を行う。ここでは、LPF適用後の信号強度よりHPF適用後の信号強度が大きい場合は子音として、また、HPF適用後の信号強度よりLPF適用後の信号強度が大きい場合は母音として判定した。
【0069】
また、自己相関関数に基づく解析を行うことにより、音声の基本周波数を特定し、有声音および無声音の判定を行なった。自己相関関数R(k)を以下に示す。
【0070】
【数3】

【0071】
ここで、Nは解析に使用するサンプル数、nはフレーム化された入力信号、kおよびlはフレーム化された入力信号のインデックスをそれぞれ示す。本実験ではフレーム長を256、Nを128とし、kの探索範囲は20サンプルから100サンプルとした。これは基本周波数として、80Hzから400Hzの範囲となる。R(k)の最大値を特定し、最大値が閾値より大きい場合は有声音として、また、閾値より小さい場合は無声音として判定する。得られた結果を補間パラメータ決定部3に出力する。
【0072】
補間パラメータ決定部3は、得られた音の解析結果を元に、図2に示す補間テーブルに基づいて補間パラメータを決定する。母音部および無声子音部に対して補間パラメータを決定して補間処理部5に出力する。母音部では補間次数を32、補間位置を15とする補間パラメータが決定され、無声子音部では補間次数を4、補間位置を1とする補間パラメータが決定された。
【0073】
補間処理部5は、入力信号に対して、2倍のサンプリング周波数へと変換する高域信号補間処理を行なった。補間処理部5は、多項式補間としてはラグランジュ補間を使用し、補間パラメータに基づいて、母音部では補間次数を32、補間位置を15とし、無声子音部では補間次数を4、補間位置を1とすることで、入力信号に対して動的に補間次数および補間位置を変更して補間を行った。
【0074】
得られたPCMオーディオ信号のスペクトログラムを図14に示す。
【0075】
(比較例)
比較例として、同じ入力信号に対して、音の解析をせず(すなわち音情報取得部2と補間パラメータ決定部3を機能させず)、補間処理部4において、補間次数および補間位置も固定してラグランジュ関数を用いて補間処理を行なった。この補間処理は、補間次数および補間位置を複数の条件に固定して行った。
【0076】
図15は補間次数を32、補間位置を15に固定したときのPCMオーディオ信号のスペクトログラムを示し、図16は補間次数を4、補間位置を1に固定したときのPCMオーディオ信号のスペクトログラムを示し、図17は補間次数を8、補間位置を0に固定したときのPCMオーディオ信号のスペクトログラムを示し、図18は補間次数を8、補間位置を3に固定したときのPCMオーディオ信号のスペクトログラムを示す。
【0077】
(実験結果の評価)
実施例により得られたPCMオーディオ信号のスペクトログラムには図14に示すように、前半の母音部では不自然な高域成分が観測されないこと、また後半の無声子音部では高域成分が十分に観測できることが判る。実施例により得られた図14に示すスペクトログラムは、図13の目標音声であるスペクトログラムに非常に近い結果を得られており、実用的な高域信号補間ができていることがわかる。これに対して、比較例により得られた図15から図18に示すスペクトログラムは、図13のスペクトログラムとは著しく異なる結果であることがわかる。
【0078】
以上の実施形態では、音情報取得部2が状態情報入力部21と解析部22とを有する場合を例に挙げて説明したが、入力音声が音声合成装置からの出力音声や、音声圧縮伸張装置からの出力音声が決まって入力される場合、音声合成装置や音声圧縮伸張装置から音情報を外部情報として状態情報入力部21へ供給することができるので、解析部22が不要となる。この場合、図11において状態情報の入力の有無を判定する処理(S2)と状態情報を判定する処理(S3)を省略できる。回路構成を簡単にでき、余計な回路を設けないので、製品価格も安価とすることができる。
【0079】
本発明のオーディオ信号出力装置は、電話通信装置のためだけに限らず、例えば、CDプレーヤ、MDプレーヤ等の再生装置にも適用可能である。また、音声合成装置や音声圧縮伸張装置、サンプリングレート変換装置にも適用可能である。
【符号の説明】
【0080】
1 信号入力部
2 音情報取得部
3 補間パラメータ決定部
4 補間処理部
5 信号出力部
10 オーディオ信号出力装置
21 状態情報入力部
22 解析部

【特許請求の範囲】
【請求項1】
PCM信号が入力される信号入力部と、
前記信号入力部に入力されたPCM信号の音の状態情報を取得する音情報取得部と、
前記音情報取得部が取得した音の状態情報に基づいて、前記PCM信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定部と、
決定された補間パラメータに基づいて設定された多項式を前記PCM信号に適用して、前記PCM信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたPCMオーディオ信号を生成して出力する補間処理部とを備えたことを特徴とするオーディオ信号出力装置。
【請求項2】
前記補間パラメータは、PCM信号を補間する際に使用する補間関数と、前記補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とのうちの少なくとも1つであることを特徴とする請求項1に記載のオーディオ信号出力装置。
【請求項3】
前記補間パラメータは、補間位置、補間次数、補間関数の組からなる複数のパラメータセットを含むテーブルから選択されることを特徴とする請求項2に記載のオーディオ信号出力装置。
【請求項4】
前記音情報取得部は、外部装置から前記PCM信号の音の状態情報が入力される状態情報入力部を備えることを特徴とする請求項1から3のいずれかに記載のオーディオ信号出力装置。
【請求項5】
前記音情報取得部は、前記PCM信号を解析して音の状態情報を取得する解析部を備えることを特徴とする請求項1から4のいずれかに記載のオーディオ信号出力装置。
【請求項6】
PCM信号が入力される信号入力ステップと、
前記信号入力部に入力されたPCM信号の音の状態情報を取得する音情報取得ステップと、
前記音情報取得部が取得した音の状態情報に基づいて、前記PCM信号に適用する多項式を設定するための補間パラメータを決定する補間パラメータ決定ステップと、
決定された補間パラメータに基づいて設定された多項式を前記PCM信号に適用して、前記PCM信号のサンプリング点の間に新たなサンプリング点を補間して、前記高域成分が補間されたPCMオーディオ信号を生成して出力する補間処理ステップとを含むことを特徴とするオーディオ信号出力方法。
【請求項7】
前記補間パラメータは、PCM信号を補間する際に使用する補間関数と、前記補間関数に入力するサンプル数である補間次数と、補間信号として採用する補間信号の位置を示す補間位置とのうちの少なくとも1つであることを特徴とする請求項6に記載のオーディオ信号出力方法。
【請求項8】
前記補間パラメータは、補間位置、補間次数、補間関数の組からなる複数のパラメータセットを含むテーブルから選択されることを特徴とする請求項7に記載のオーディオ信号出力方法。
【請求項9】
前記音情報取得ステップは、外部装置から前記PCM信号の音の状態情報が入力されることで、前記信号入力部に入力されたPCM信号の音の状態情報を取得することを特徴とする請求項6から8のいずれかに記載のオーディオ信号出力方法。
【請求項10】
前記音情報取得ステップは、前記信号入力部に入力されたPCM信号を解析することで音の状態情報を取得することを特徴とする請求項6から9のいずれかに記載のオーディオ信号出力方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2013−85175(P2013−85175A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【出願番号】特願2011−224811(P2011−224811)
【出願日】平成23年10月12日(2011.10.12)
【出願人】(000000033)旭化成株式会社 (901)