説明

音声符号化装置、方法及びプログラム、並びに、コードブックデータ分類集計装置、方法及びプログラム

【課題】 既存の各種標準化との互換性や音質を保ったまま、コード探索に要する処理を軽減できる音声符号化装置を提供する。
【解決手段】 本発明は、固定コードブックを利用する音声符号化装置に関する。そして、符号化対象の音声信号の特性を分析する信号特性分析手段と、その分析結果に応じ、固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段とを有することを特徴とする。符号化対象の音声信号の特性に応じて、固定コードブックのコードのうち、最適コードの探索に使用するコードを限定するようにしたので、符号化の高速化を図ることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声符号化装置、方法及びプログラム、並びに、コードブックデータ分類集計装置、方法及びプログラムに関し、例えば、携帯電話端末に適用し得るものである。
【背景技術】
【0002】
音声通信である電話通信(特に、携帯電話通信)では、伝送する情報量を低減するために音声符号化技術が用いられている。音声符号化には、CELP(Code Excited Linear Prediction)型と呼ばれる手法が広く利用されており、多くの標準として実用化されている。CELP型音声符号化は、コードブック(符号帳)と呼ばれる量子化テーブルを持ち、このテーブルの中から最適なコードを選択することにより符号化を実現する。一般に、CELP型音声符号化では、コードブック内の全てのコードを候補として最適なコードを探索するため、コード探索(コード選択)に多くの処理を要する。そのため、様々な高速化手法が考案されており、例えば、非特許文献1に記載のような高速処理が予め考慮された標準方式も存在する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】ITU−T G.729A
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1の記載技術の他にも、CELP型音声符号化を利用した標準方式は多く存在し、そのような標準方式では、非特許文献1の記載技術を適用することはできない。
【0005】
そのため、多くの方式や規格で適用可能な、音声符号化を高速に実行できる新たな手法が望まれている。
【課題を解決するための手段】
【0006】
第1の本発明は、固定コードブックを利用する音声符号化装置において、(1)符号化対象の音声信号の特性を分析する信号特性分析手段と、(2)上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段とを有することを特徴とする。
【0007】
第2の本発明は、固定コードブックを利用する音声符号化方法において、(1)信号特性分析手段が、符号化対象の音声信号の特性を分析し、(2)候補コード群切替手段が、上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替えることを特徴とする。
【0008】
第3の本発明は、固定コードブックを利用する音声符号化を実行させるための音声符号化プログラムであって、コンピュータを、(1)符号化対象の音声信号の特性を分析する信号特性分析手段と、(2)上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段として機能させることを特徴とする。
【0009】
第4の本発明のコードブックデータ分類集計装置は、(1)音声信号の特性を分析する信号特性分析手段と、(2)固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得るコードブックデータ分類集計手段とを備えることを特徴とする。
【0010】
第5の本発明のコードブックデータ分類集計方法は、(1)信号特性分析手段が、音声信号の特性を分析し、(2)コードブックデータ分類集計手段が、固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得ることを特徴とする。
【0011】
第6の本発明のコードブックデータ分類集計プログラムは、コンピュータを、(1)音声信号の特性を分析する信号特性分析手段と、(2)固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得るコードブックデータ分類集計手段として機能させることを特徴とする。
【発明の効果】
【0012】
本発明によれば、符号化対象の音声信号の特性に応じて、固定コードブックのコードのうち、最適コードの探索に使用するコードを限定するようにしたので、既存の各種標準化との互換性や音質を保ったまま、コード探索に要する処理を軽減することができる。
【図面の簡単な説明】
【0013】
【図1】第1の実施形態に係る音声符号化装置の機能的構成を示すブロック図である。
【図2】第1の実施形態における有声音候補情報及び無声音候補情報の説明図である。
【図3】第2の実施形態に係る音声符号化装置の機能的構成を示すブロック図である。
【発明を実施するための形態】
【0014】
(A)第1の実施形態
以下、本発明による音声符号化装置、方法及びプログラムの第1の実施形態を、図面を参照しながら詳述する。第1の実施形態は、コードブックデータ分類集計装置、方法及びプログラムを備えていない。
【0015】
図1は、第1の実施形態に係る音声符号化装置の機能的構成を示すブロック図である。図1は、最適なコードを探索(選択)するための構成部分を示している。音声符号化装置を搭載する装置が携帯電話端末などの場合には、音声符号化装置は、CPUと、CPUが実行する音声符号化プログラムで実現されることも多いが、このような場合であっても、機能的には、図1で表すことができる。
【0016】
図1において、第1の実施形態に係る音声符号化装置1は、コードブック部2、ゲイン可変部3、合成フィルタ部4、減算部5、聴覚的重み付け部6、最適コード評価部7及び信号特性分析部8を有する。コードブック部2は、コードブック10とコード取出し部11とを有する。
【0017】
第1の実施形態の音声符号化装置1は、コードブック部2及び信号特性分析部8に特徴を有し、その他の構成は、CELP型音声符号化方式に従う構成であれば、図1に示す構成に限定されるものではない。
【0018】
第1の実施形態に係る音声符号化装置1は、例えば、所定時間の音声信号(音声データ)でなるフレーム毎に符号化を行うものであり、フレーム毎に、そのフレームの音声信号について最適なコードを探索するものである。
【0019】
コードブック部2は、予め定められている所定数のコードを固定的に格納しているコードブック10を有し、コード取出し部11は、後述するように、そのコードブック10から、最適コードの探索に適用されるコードの候補を順次取出すものである。
【0020】
コードブック部10から取出されたコードは、ゲイン可変部3によってゲインが調整された後、合成フィルタ部4に与えられる。合成フィルタ部4には、符号化対象の音声信号から図示しない声道係数分析部が得た声道係数を、図示しない声道係数量子化部が量子化した声道係数も与えられる。合成フィルタ部4は、与えられたコード及び声道係数から合成処理し、コード候補を適用して局部復号されたと同様な音声信号(以下、局部復号音声信号)を得る。減算部5によって、符号化対象の音声信号と局部復号音声信号とが求められ、その誤差信号(差分信号)に対し、聴覚的重み付け部6によって聴覚特性に応じた重み付けがなされ、その後、最適コード評価部7によって、重み付けされた誤差信号のパワー(2乗誤差)が計算される。最適コード評価部7は、それぞれのコード候補についての2乗誤差の中から、最小の2乗誤差をとるコードの候補を最適コードに決定する。
【0021】
信号特性分析部8には、符号化対象の音声信号が入力され、信号特性分析部8は、その特性を分析し、特性の分析結果を表すパラメータをコード取出し部11に与える。以下では、信号特性分析部8から出力されるパラメータが有声音か無声音かを指標するものとして説明する。但し、信号特性分析部8による分析特性はこれに限定されない。例えば、有音/無音を判定(分析)するものであっても良い。また例えば、ピッチが、短い、中間、長い、のどの範囲のものかを分析するものであっても良い。
【0022】
コード取出し部11は、有声音のときに候補となり得るコードの情報(有声音候補情報)11aと、無声音のときに候補となり得るコードの情報(無声音候補情報)11bを有している。
【0023】
図2は、有声音候補情報11a及び無声音候補情報11bの説明図である。コードブック10には、所定数(例えば1024種類)のコードが格納されている。符号化対象の音声信号が有声音のときには、コードブック10の全てのコードを最適コードの探索に使用せずに、コードブック10に格納されているコードのうち、有声音候補情報11aに記述されている一部(例えば512種類)のコードを最適コードの探索に使用する。同様に、符号化対象の音声信号が無声音のときには、コードブック10の全てのコードを最適コードの探索に使用せずに、コードブック10に格納されているコードのうち、無声音候補情報11bに記述されている一部(例えば512種類)のコードを最適コードの探索に使用する。
【0024】
有声音候補情報11a及び無声音候補情報11bとしては、例えば、コードブック10に格納されているコードの順に、そのコードを使用するか否かを表すビットの系列を適用する。
【0025】
図2の例では、コードブック10の1番目に格納されているコードは有声音では候補とならず、無声音では候補となるものである。コードブック10の2番目に格納されているコードは有声音では候補となり、無声音では候補とならないものである。コードブック10の4番目に格納されているコードは有声音でも無声音でも候補となるものである。コードブック10の6番目に格納されているコードは有声音でも無声音でも候補とならないものである。
【0026】
コード取出し部11は、符号化対象の音声信号(フレーム)が有声音のときには、有声音候補情報11aに従い、コードブック10から、候補となり得るコードを順次取出して出力し、一方、符号化対象の音声信号(フレーム)が無声音のときには、無声音候補情報11bに従い、コードブック10から、候補となり得るコードを順次取出して出力する。
【0027】
コード取出し部11に格納しておく有声音候補情報11a及び無声音候補情報11bの形成方法については、後述する第2の実施形態の説明で明らかにする。なお、有声音候補情報11aに記述されているコードは、有声音のフレームで最適コードになったことが多いコードであり、無声音候補情報11bに記述されているコードは、無声音のフレームで最適コードになったことが多いコードである。
【0028】
なお、音声復号装置には、最適コードの情報が与えられ、それに基づいて復号するので、第1の実施形態のように、音声符号化装置に特徴的な構成を盛り込んでも、音声復号装置は既存の構成で動作することができる。
【0029】
第1の実施形態によれば、符号化対象の音声信号(フレーム)の特性に応じて、コードブックのコードのうち、最適コードの探索に使用するコードを限定するようにしたので、既存の各種標準化との互換性や音質を保ったまま、コード探索(コード選択)に要する処理(処理量や処理時間など)を軽減することができる。
【0030】
(B)第2の実施形態
次に、本発明による音声符号化装置、方法及びプログラム、並びに、コードブックデータ分類集計装置、方法及びプログラムの第2の実施形態を、図面を参照しながら詳述する。ここで、第2の実施形態に係る音声符号化装置は、第2の実施形態に係るコードブックデータ分類集計装置を包含するものである。
【0031】
図3は、第2の実施形態に係る音声符号化装置の機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一符号(但し、装置に対する符号を除く)を付して示している。
【0032】
図3において、第2の実施形態に係る音声符号化装置1Aは、第1の実施形態と同様なコードブック部2、ゲイン可変部3、合成フィルタ部4、減算部5、聴覚的重み付け部6、最適コード評価部7及び信号特性分析部8に加え、コードブックデータ分類集計部20及び分類集計起動スイッチ21を有する。
【0033】
分類集計起動スイッチ21は、コードブック10の全てのコードを、有声音候補情報11aに属するか、無声音候補情報11bに属するか、分類することを起動するスイッチである。第2の実施形態の音声符号化装置1Aが携帯電話端末に搭載されている例で説明する。携帯電話端末の販売店では、携帯電話端末の販売時に各種の設定を行うが、その際の1つの設定項目として、有声音候補情報及び無声音候補情報の設定項目を設ける。電池収容部の空間など、端末の内部に設けられた分類集計起動スイッチ21を操作することで、有声音候補情報及び無声音候補情報の設定動作、言い換えると、コードブック10の全てのコードを、有声音候補情報11aに属するか、無声音候補情報11bに属するか分類する動作を開始する。また、携帯電話端末の利用者に、例えば、携帯電話端末に向かって所定時間だけ発話させる。
【0034】
このような分類集計モードでは、コード取出し部11は、コードブック10の全てのコードを、候補のコードとして順次出力させ、最適コードを決定させる。
【0035】
このような符号化対象のフレーム毎の最適コードは、コードブックデータ分類集計部20に与えられ、また、そのフレームの特性分析結果もコードブックデータ分類集計部20に与えられる。コードブックデータ分類集計部20は、有声音のフレームについて、コードブック10の全てのコードのそれぞれが、最適コードとなった回数を集計すると共に、無声音のフレームについて、コードブック10の全てのコードのそれぞれが、最適コードとなった回数を集計する。
【0036】
例えば、分類集計モードが所定時間で終了すると、コードブックデータ分類集計部20は、有声音のフレームについて最適コードとなった回数が多い方の所定個数のコードの情報を有声音候補情報11aに書き込み、無声音のフレームについて最適コードとなった回数が多い方の所定個数のコードの情報を無声音候補情報11bに書き込む。これ以降の符号化では、符号化対象の音声信号(フレーム)の特性に応じて、コードブックから取出される候補コードは切り替わる。
【0037】
第2の実施形態によれば、第1の実施形態と同様な効果を奏することができ、さらに、利用者に応じた有声音候補情報11a及び無声音候補情報11bを準備することができ、利用者の音声に応じた適切な符号化を行うことができるという効果を奏することができる。
【0038】
第2の実施形態では、音声符号化装置1Aに設けられているコードブックデータ分類集計部20が有声音候補情報11a及び無声音候補情報11bの作成を行う。第1の実施形態の場合、例えば、メーカーなどが備えるコードブックデータ分類集計装置(例えば、コンピュータでなる)が有声音候補情報11a及び無声音候補情報11bの作成を行い(作成方法は第2の実施形態と同様である)、コード取出し部11に書き込む。
【0039】
(C)他の実施形態
第2の実施形態では、所定時間の分類集計モードの終了時の頻度で、有声音候補情報11a及び無声音候補情報11bを定めるものを示したが、有声音候補情報11a及び無声音候補情報11bの決定方法は、最適コードになった回数が多い方から決定できるのであれば、これに限定されるものではない。例えば、有声音のフレームについて、最適コードとなった回数が所定回数に達したコードを有声音候補情報11aに書き込み、書き込んだコード数が所定個数になったときに、有声音候補情報11aへの書き込みを終了させるようにしても良く、無声音候補情報11bについても同様に形成すれば良い。
【0040】
上記では、信号特性分析部8による分析特性が有声音か無声音かに限定されず、他の特性でも良いことを説明した。信号特性分析部8による分析特性は、複数の特性の組み合わせであっても良い。例えば、有声音でピッチが短い、有声音でピッチが長い、無声音、というような分析結果であっても良く、これら3種類の結果に応じて、候補となるコードを切り替えるようにすれば良い。
【0041】
また、無声音を判定する閾値を2段階用意し、無声音の段階が高いときと、無声音の段階が低いとき(有声音に近いとき)とで、コードの候補数を変えるようにしても良い。
【0042】
さらに、限定する候補数を、操作者が選択できるようにしても良い。例えば、コードブックのコード数の半分に制限するか、コードブックのコード数の1/4に制限するかを、操作者が選択できるようにしても良い。すなわち、品質重視か、処理時間重視かを操作者に選択させるようにしても良い。
【0043】
本発明は、コードを固定的に格納しているコードブックを備えた音声符号化装置に広く適用することができる。例えば、適応コードブックと固定コードブックとを備えた音声符号化装置であれば、そのうちの固定コードブックに対して、本発明の技術的思想を適用することができる。また例えば、2種類以上のコードブックを備えた音声符号化装置であれば、全ての固定コードブックに対して、本発明の技術的思想を適用することができ、また、一部の固定コードブックに対して、本発明の技術的思想を適用することができる。複数の固定コードブックに対して、候補を限定する場合において、固定コードブックによって、候補群を切り替える特性を異なるようにしても良い。
【符号の説明】
【0044】
1、1A…音声符号化装置、2…コードブック部、7…最適コード評価部、8…信号特性分析部、10…コードブック、11…コード取出し部、20…コードブックデータ分類集計部、21…分類集計起動スイッチ。

【特許請求の範囲】
【請求項1】
固定コードブックを利用する音声符号化装置において、
符号化対象の音声信号の特性を分析する信号特性分析手段と、
上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段と
を有することを特徴とする音声符号化装置。
【請求項2】
上記固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記候補コード群切替手段が切り替える候補コード群の情報を得るコードブックデータ分類集計手段をさらに備えることを特徴とする請求項1に記載の音声符号化装置。
【請求項3】
固定コードブックを利用する音声符号化方法において、
信号特性分析手段が、符号化対象の音声信号の特性を分析し、
候補コード群切替手段が、上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える
ことを特徴とする音声符号化方法。
【請求項4】
固定コードブックを利用する音声符号化を実行させるための音声符号化プログラムであって、
コンピュータを、
符号化対象の音声信号の特性を分析する信号特性分析手段と、
上記信号特性分析手段の分析結果に応じ、上記固定コードブックにおけるコードのうち、符号化情報に含める最適コードの探索に用いるコード群を切り替える候補コード群切替手段と
して機能させることを特徴とする音声符号化プログラム。
【請求項5】
音声信号の特性を分析する信号特性分析手段と、
固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得るコードブックデータ分類集計手段と
を備えることを特徴とするコードブックデータ分類集計装置。
【請求項6】
信号特性分析手段が、音声信号の特性を分析し、
コードブックデータ分類集計手段が、固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得る
ことを特徴とするコードブックデータ分類集計方法。
【請求項7】
コンピュータを、
音声信号の特性を分析する信号特性分析手段と、
固定コードブックにおける全てのコードを候補とした最適コードの探索で最適コードとなった頻度情報を、上記信号特性分析手段の分析結果ごとに集計し、上記固定コードブックのコードのうち、分析結果毎に、その分析結果のときの音声符号化で利用する候補コード群の情報を得るコードブックデータ分類集計手段と
して機能させることを特徴とするコードブックデータ分類集計プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2011−170259(P2011−170259A)
【公開日】平成23年9月1日(2011.9.1)
【国際特許分類】
【出願番号】特願2010−36195(P2010−36195)
【出願日】平成22年2月22日(2010.2.22)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】