音処理装置
【課題】比較的簡素な演算プロセスを用いて音環境の分類を行い、その結果を音処理に反映させる。
【解決手段】音処理装置(補聴器)10は、マイクロホン14を通じて入力された音データを前処理するデータ処理部32と、音データから特徴パラメータを演算する特徴パラメータ演算部36と、特徴パラメータを用いて判別分析による分類演算を行う分類クラス演算部38と、分類演算の結果に基づいて音環境を識別する識別部40と、識別された音環境に応じて信号処理のパラメータを設定するパラメータ設定部24と、設定されたパラメータを用いてイヤホン18に出力する音の出力特性を調整する信号処理部22とを備える。
【解決手段】音処理装置(補聴器)10は、マイクロホン14を通じて入力された音データを前処理するデータ処理部32と、音データから特徴パラメータを演算する特徴パラメータ演算部36と、特徴パラメータを用いて判別分析による分類演算を行う分類クラス演算部38と、分類演算の結果に基づいて音環境を識別する識別部40と、識別された音環境に応じて信号処理のパラメータを設定するパラメータ設定部24と、設定されたパラメータを用いてイヤホン18に出力する音の出力特性を調整する信号処理部22とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、出力しようとする音の特性を各種の音環境に応じて自動的に調整する機能を有した音処理装置に関する。ここで、音環境とは、マイクロホンに入力される全ての音について、聴取したい音声の有無、その他の音の発生源の種類と数、距離、分布状態等の音の発生状況や、障害物の有無、風、気温等の音に伝達に影響を与える要素の状況を総合した環境をいう。
【背景技術】
【0002】
例えば従来、音声処理の技術分野において、ロバストな音声分類を実現するための方法が知られている(例えば、特許文献1参照。)。この先行技術は、各種の条件下で音声についての複数の特徴パラメータを評価し、各種の音声モードを高精度で分類しようとするものである。この先行技術で分類しようとする各種の音声モードには、例えば会話の過渡部、活動状態の音声への遷移、単語の終端部における有声音、無声音、そして無音といった数多くの態様が含まれる。さらに先行技術は、周囲のノイズレベルが変化する音環境においても、各種の音声モードを分類する手法について開示している。
【0003】
上記の先行技術に示されているように、音声モードを分類し、その結果に応じた音声処理を行うことは、音声そのものの伝達を目的とした通信手段(例えば電話)にとって有用であると考えられる。このような通信手段とは別に、音声を含めた周囲音(環境として存在する雑音を含む)をも伝達しようとする音処理技術にとっては、音声モードの分類とはまた違った観点が要求される。
【0004】
例えば、補聴器における信号処理(以降、「補聴処理」という。)の技術分野において、補聴器における音の分類に有用な音環境の分析手法に関する報告がなされている(例えば、非特許文献1参照。)。この報告では、補聴器に入力されてくる音データを時間帯で分割し、各時間帯別に抽出した周波数成分の分布態様から音環境としての特徴量を求めることが示されている。この場合、求めた特徴量を事前に用意しておいたデータと比較すれば、現在の音環境をある程度まで分析することが可能である。このようにして分析された音環境の結果は、補聴器で行われる補聴処理にも反映させることができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2004−515809号公報
【非特許文献】
【0006】
【非特許文献1】”Sound Classification in Hearing Aids Inspired by Auditory Scene Analysis” EURASIP Journal on Applied Signal Processing 2005:18,第2991−3002頁
【発明の概要】
【発明が解決しようとする課題】
【0007】
先に挙げた先行技術(特許文献1)の手法は、特に音声モードの分類に特化したものであるから、音声のみの伝達に関しては有効であると考えられる。しかし、補聴処理のように音環境をも含めた音の伝達に関して、音声モードだけの分類を行うだけでは不充分である。
【0008】
一方、後に挙げた報告(非特許文献1)は、補聴処理等の音処理技術にとって直接的に有用なものであると考えられる。しかし、上記の報告で示されている分析手法は、特徴量を求める過程で極めて複雑かつ膨大な量の演算処理を必要とするという問題がある。
【0009】
そこで本発明は、比較的簡素な演算プロセスを用いて音環境の分類を行い、その結果を音処理に反映させることができる技術の提供を課題とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するため、本発明は以下の解決手段を採用する。
すなわち本発明は、音環境の識別に際して判別分析の手法を採用している。判別分析の手法には、入力音から抽出した複数の特徴パラメータを用いることができる。特に判別分析の手法は、一般的に線形のベクトル演算プロセスが中心であるため、比較的簡素な演算処理で音環境を識別することができる。その結果、識別した音環境に応じて出力音の出力特性を調整すれば、各種の音環境に応じて適切な音処理を迅速に実現することができる。
【0011】
また出力特性の調整には、予め音環境別に記憶しておいたパラメータを用いることができる。すなわち、入力音から音環境を識別すると、予め記憶しているパラメータの中から識別された音環境に対応する適切なパラメータの設定を調節して、出力音の出力特性を調整する。これにより、識別された音環境に合わせて出力特性を自動的に最適化することができる。
【0012】
本発明において、入力音から抽出される複数の特徴パラメータには、少なくとも第1の特徴パラメータ群、及び第2の特徴パラメータ群が含まれる。このとき識別される複数の音環境には、少なくとも単独に分類される特定の音環境、及びその他として複数に分類される特定以外の音環境が含まれることとする。この場合、第1の特徴パラメータ群を用いて判別分析を行った結果、その入力音が特定の音環境であると識別できた場合、第2の特徴パラメータを用いて判別分析を行うことなく、音環境の識別を終了するこができる。
【0013】
この場合、全ての音環境について同時並行的に識別を行う必要がなく、特定の音環境についての識別が得られた場合、その時点で以後の処理をキャンセルすることができる。これにより、音環境の識別に要する処理負担を軽減し、作業の効率化(限られたハードウエア資源の有効活用)を図ることができる。
【0014】
特徴パラメータは、所定時間内に入力された入力音の時間帯を表す「時間」の要素と、前記時間帯別の周波数スペクトルを表す「周波数」の要素と、前記周波数帯別の音圧レベルを表す「音圧」の要素とから構成される三次元のデータから算出することができる。
【0015】
上記の三次元データを用いることで、上記の報告(非特許文献1)に示されるようなある時点における周波数特性データを用いる場合に比較して、周波数特性の時間変化をより一層考慮した音環境の識別をさせることができる。これにより、出力特性の調整をより最適化しつつ、利用者にとって快適な出力音を得ることができる。
【0016】
本発明による判別分析に用いる分類関数は、予め複数の既知である音環境からそれぞれ発せられた入力音のスペクトログラムを画像処理して抽出された複数の特徴パラメータに基づいて、予め設定しておく。
【0017】
判別分析に画像処理の手法を使って抽出した特徴量を用いることで、音環境の特徴を画像の特徴量として捉えることができる。またスペクトログラムは、1つ1つの画素が二次元の座標を表すだけでなく、画素の値(濃度値)を表すことができるため、三次元データを視覚的に捉える対象(媒体)として好適である。これにより、判別分析に用いる分類関数を構築する作業(オフライン作業)においても、作業者にとって直感的で捉えやすい作業を行うことができる。
【発明の効果】
【0018】
本発明の音処理装置によれば、演算プロセスを簡略化して処理負担を軽減しつつ、より正確な音環境の識別結果を得ることができる。
【図面の簡単な説明】
【0019】
【図1】音処理装置の第1実施形態である補聴器の構成例を概略的に示す斜視図である。
【図2】補聴器に内蔵されている各種電装品とその機能上の構成を概略的に示したブロック図である。
【図3】前処理された入力音データの構造例とその可視画像の例を示した図である。
【図4】特徴パラメータ演算部で実行される特徴パラメータ演算処理の手順例を示すフローチャートである。
【図5】特徴パラメータ演算処理の中で実行される二値化処理の様子を可視画像として表した図である。
【図6】特徴パラメータ演算処理の中で作成される垂直方向ヒストグラムの例を可視画像として表した図である。
【図7】特徴パラメータ演算処理での特徴パラメータf3の算出手法を模式的に表した図である。
【図8】特徴パラメータ演算処理の中で作成される濃度ヒストグラムの例を可視画像として表した図である。
【図9】特徴パラメータf7〜f15の演算用に取得される二値変換後のデータを可視画像として表した図である。
【図10】特徴パラメータf1〜f15を用いた判別分析の手順例を示すフローチャートである。
【図11】第2実施形態となる補聴器の構成例を概略的に示したブロック図である。
【図12】音処理装置を録音装置として実施した場合の構成例を示すブロック図である。
【図13】音処理装置をオーディオプレーヤーとして実施した場合の構成例を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態について図面を参照しながら説明する。
【0021】
〔第1実施形態〕
図1は、音処理装置の第1実施形態である補聴器10の構成例を概略的に示す斜視図である。この補聴器10は耳かけ型であり、補聴器10はその本体10aのフック部分にジョイント付きチューブ10b及び耳せん10cを接続して使用することができる。本体10aには、図示しないマイクロホンやイヤホン、電池の他に、音処理用ICが内蔵されている。なお、ここでは耳かけ型の補聴器10を例に挙げているが、耳あな型やポケット型の補聴器を第1実施形態としてもよい。
【0022】
また、本体10aには通信コネクタ10dが内蔵されており、この通信コネクタ10dは本体10aの内部で上記の音処理用ICに接続されている。通信コネクタ10dは通常、コネクタカバー10eで覆われているが、図1に示されているように、コネクタカバー10eを開くと通信コネクタ10dが露出し、そこに通信ケーブル12を接続することができる。通信ケーブル12は、例えば図示しないパーソナルコンピュータ(以下、「パソコン」と略称)に接続されており、これによりパソコンと音処理用ICとの間でデータ通信(例えばシリアル通信)が可能となる。
【0023】
図2は、補聴器10に内蔵されている各種電装品とその機能上の構成を概略的に示したブロック図である。補聴器10は主に、マイクロホン14、音処理用IC16及びイヤホン18から構成されている。このうちマイクロホン14は、図1に示される本体10aの内部で、例えば前方向(前よりの斜め上方向)から入力音を捕捉することができる位置に設けられている。またイヤホン18は、同じく本体10aの内部で、フック部分に連通して出力音を発することができる位置に設けられている。
【0024】
〔音処理用ICの概要〕
音処理用IC16は、例えば半導体集積回路(ICチップ)を用いて実現されている。音処理用IC16の構成には機能上、大きく分けて補聴処理部20及び判別分析部30が含まれている。また音処理用IC16は、ADC26及びDAC28を有している。また、その他に、音処理用IC16はデータ処理部32及びワークメモリ34を有している。なお、ここでは特に図示していないが、ADC26の前段(マイクロホン14との間)とDAC28の後段(イヤホン18との間)には、それぞれアンプが設けられている。
【0025】
〔補聴処理部〕
補聴処理部20は、信号処理部22及びパラメータ設定部24から構成されている。このうち信号処理部22は、ADC26でデジタル変換された音信号を補聴処理する。具体的には、音信号の周波数帯域毎の増幅やダイナミックレンジの圧縮、ノイズリダクション、指向性(マイクロホン14が複数ある場合)、ハウリング除去、出力制限等の信号処理が信号処理部22で行われる。これら信号処理の内容は、使用者の聞こえ具合や用途(自宅用、会議用、雑踏用、音楽観賞用等)等に応じて決定される。
【0026】
パラメータ設定部24は、信号処理部22で行われる信号処理に必要な各種パラメータを設定する。すなわち、パラメータ設定部24は記憶領域を有しており、この記憶領域には、予め使用者の聞こえ具合や上記の用途別に、信号処理で用いられる各種パラメータ(例えば増幅率、圧縮率、ノイズリダクション機能の有無、指向性機能の有無、ハウリング除去機能の有無、出力制限機能の有無)を予め定めた設定情報が記憶されている。
【0027】
設定情報は、例えばパソコン44からパラメータ設定部24に書き込むことができる。例えば、補聴器10を店頭や工場で調整する場合、パソコン44を接続してデータ通信を行い、上記の通信ケーブル12及びI/O(入出力ドライバ)42を通じてパラメータ設定部24にアクセスすることができる。パソコン44には調整用のアプリケーションが実装されており、この調整用アプリケーションを用いて各種のパラメータを調整し、パラメータ設定部24に調整済みのパラメータを反映させることができる。
【0028】
また各種パラメータは、例えば用途別に何通りかの「プリセットメモリ」として予めセットで記憶しておくことができる。識別部40(後述)がいずれかの「プリセットメモリ」を選択することで、使用者の用途に応じて最適なパラメータの組み合わせを設定することができる。また選択される「プリセットメモリ」は、例えば図示しない操作スイッチ等の操作に応じて切り替えることができる。
【0029】
〔判別分析部〕
判別分析部30は、主に特徴パラメータ演算部36、分類クラス演算部38及び識別部40から構成されている。判別分析部30は、入力音のデータを用いて各種の演算を行い、その結果として最終的に現在の音環境を識別する機能を有している。前段のデータ処理部32は、ADC26でデジタル変換された音信号の前処理を行い、判別分析部30での演算に必要な構造の入力音データに加工する。
【0030】
データ処理部32で前処理された音信号は、例えば「時間」、「周波数」、「音圧」の三次元の入力音データに加工される。具体的には、データ処理部32は入力された音信号をスペクトル分析し、これを時分割(例えば毎10ms分割)して各時間帯における各周波数帯の音圧レベルをデータ化する。これにより、時系列を表す時間帯(時間x)、周波数帯(周波数y)、そして、各周波数帯の音圧レベル(音圧I[x][y])からなる三次元の入力音データが得られる。データ処理部32は音信号のスペクトル分析や三次元データを構築するため、適宜ワークメモリ34のメモリ空間を使用することができる。なおワークメモリ34は、例えばRAM、RWM等の半導体メモリで構成されている。
【0031】
〔特徴パラメータ演算部〕
特徴パラメータ演算部36は、三次元の入力音データから特徴パラメータf1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f11,f12,f13,f14,f15を算出する。なお、これら特徴パラメータf1〜f15の算出手法については、具体例を挙げてさらに後述する。本実施形態では、特徴パラメータf1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f11,f12,f13,f14,f15を用いて説明するが、特徴パラメータの選択は適宜なされればよく、権利範囲はこれに限定されない。
【0032】
〔分類クラス演算部〕
分類クラス演算部38は、特徴パラメータf1〜f15を用いて分類関数による分類クラス演算を行う。このとき演算に使用される分類関数は、例えばパソコン44から予め分類クラス演算部38に設定されている。また分類関数は、特徴パラメータf1〜f15を説明変量としたマハラノビス距離による判別分析(正準判別分析)を行うための関数として、その定義が予め判別分析の手法に則って定められている。
【0033】
〔識別部〕
識別部40は、分類クラスの演算結果から入力音がいずれの音環境であるかを識別する。この実施形態において音環境は、例えば以下の4つに予め分類されているものとする。
(1)「静かな環境での会話」・・・例えば、居室内等の静かな場所で会話が行われる音環境である。この実施形態では、会話の音声に対して、例えばS/N比が30dB〜58dBのホワイトノイズ又はマルチトーカーノイズが付加される程度の音環境とする。
(2)「うるさい環境での会話」・・・例えば、駅構内や交通量の多い路上等で会話が行われる音環境である。この実施形態では、会話の音声に対して、例えばS/N比が0dB〜28dBのホワイトノイズ又はマルチトーカーノイズが付加される程度の音環境とする。
(3)「うるさい環境」・・・例えば、駅構内や交通量の多い路上、工場内、工事現場等で特に音声が発せられていない音環境である。
(4)「音楽」・・・例えば、コンサートホールや室内での音楽鑑賞、再生された音楽の鑑賞が行われる音環境である。この実施形態では、例えばホワイトノイズやマルチトーカーノイズ等が存在しない音環境とする。
【0034】
〔識別結果の反映〕
識別部40で識別された音環境(1)〜(4)の結果は、補聴処理部20に対して反映させることができる。すなわち、パラメータ設定部24には、音環境(1)〜(4)のそれぞれについて最適なパラメータが予め設定されており、識別部40から現在の音環境の情報が伝達されると、パラメータ設定部24で音環境(1)〜(4)に応じたパラメータが選択される。これを受けて、信号処理部22は現在使用しているパラメータを変更して信号処理を行う。
【0035】
〔出力音の出力特性〕
これにより、イヤホン18から出力される出力音は、使用者の聞こえ具合や用途に加え、補聴器10の使用者が居る場所の音環境に応じて最適化された出力特性を有したものとなる。このとき得られる出力特性には、予め用途に応じて「プリセットメモリ」に設定されていたパラメータの他に、識別された音環境に応じてカスタマイズされたパラメータを用いた信号処理の結果が反映されている。
【0036】
〔特徴パラメータの算出手法〕
次に、特徴パラメータf1〜f15の算出例について説明する。特徴パラメータ演算部36で行われる特徴パラメータf1〜f15の算出には、上記のようにデータ処理部32で前処理された三次元の入力音データが用いられる。
【0037】
〔入力音データ〕
図3は、前処理された入力音データの構造例とその可視画像(スペクトログラム)の例を示した図である。なお図3中(A)は入力音データの構造例を示し、図3中(B)はその可視画像の例を示している。
【0038】
〔データ範囲〕
図3中(A):前処理された入力音データは、上記のように「時間x」、「周波数y」、「音圧I[x][y]」の三次元で表される。この構造例では、左カラムに「時間x」の数値を配置し、中カラムには「周波数y」の数値を配置し、そして右カラムには「音圧I[x][y]」の数値を配置している。なお図中の数値はいずれも16進表記である。このとき、データの範囲をそれぞれ以下に規定する。
0≦x≦499(毎10ms分割で5.00秒間分)
0≦y≦31(毎125kHzの帯域分割で0〜4000Hz)
0≦I[x][y]≦255(音圧レベルを256段階)
上記のデータ範囲から、(500×32)行×3列のデータを構成することができる。
【0039】
〔可視画像〕
次に図3中(B)は、三次元構造の入力音データを可視化して表したグレースケール画像の例である。このグレースケール画像は、例えばx方向が時間の経過(1ピクセルが100ms)を表しており、また、y方向が周波数帯(1ピクセルが125kHz)を表すとともに、各画素の濃度値I[x][y]が各時間帯及び各周波数帯の音圧(256階調)を表している。なお音圧については、濃度値I[x][y]が0のときを無音とし、濃度値I[x][y]が255のときを最大音圧とする。また、ここでは日本人女性の話し声から得られた入力音データを例に用いている。
【0040】
ここで可視画像を例に挙げているのは、以下の背景による。すなわち、本発明の発明者等は、予め既知である各種の音環境から発せられた入力音の信号を上記のように三次元にデータ化し、これを可視画像として表すと、その画像データを画像処理することによって得られる数値を特徴パラメータとし、音環境を判別分析で識別するための分類関数を作成することが可能となることを見出した。すなわち、実際に得られた可視画像には、既知である音環境の違いによって見た目上にも顕著な差異が現れる。このような音環境別の差異は、それぞれの画像データから抽出した特徴量(特徴パラメータ)の傾向にも顕著に現れる。したがって、未知の音環境から発せられた入力音についても、これを三次元構造のデータに加工し、擬似的な画像と見立てた上で特徴量を抽出すれば、その特徴量を用いて音環境を判別分析する手法を確立することができる。
【0041】
上記のような発明者等の知見に基づき、この実施形態で使用する判別分析には、潜在的に画像データへの変換が可能な構造の入力音データ(図3中(A))を用いることとしている。ただし、この実施形態において、実際に補聴器10内で可視画像(図3中(B)等)を作成する必要はない。データ処理部32等において入力音データを三次元構造に加工しているのは、あくまで今回の判別分析の手法に則って予め定義されている分類関数に対して特徴パラメータを適用するためである。
【0042】
図4は、特徴パラメータ演算部36で実行される特徴パラメータ演算処理の手順例を示すフローチャートである。特徴パラメータ演算処理を行う前に、予め既知である各種の音環境から発せられた入力音の信号を用いて分類関数をパソコン44で作成し、この分類関数を分類クラス演算部38に設定しておく。以下、特徴パラメータ演算処理について順を追って説明する。
【0043】
ステップS10:先ず特徴パラメータ演算部36は、処理済データを取得する。具体的には、上記のようにデータ処理部32にて前処理がなされた入力音データを取得する。なお処理済データの取得は、ワークメモリ34のアドレスを指定するだけでもよい。この場合、音処理用IC16のハードウエア構成上、特徴パラメータ演算部36からワークメモリ34へのアクセスが可能なアーキテクチャを採用していればよい。
【0044】
ステップS12:次に特徴パラメータ演算部36は、二値化処理を実行する。この処理では、取得した処理済データに基づき、「音圧I[x][y]」の値を0又は1に二値変換する。具体的には、以下の手順を実行する。
(1)例えば10ms間隔でサンプリングされた5秒間分のデータについて、I[x][y]の値が0であるデータを除いて全音圧データI[x][y]の平均値μを求める。このとき平均値μは、5秒間分のデータを蓄積した後に算出するだけでなく、サンプリングのたびに(10ms周期で)逐次更新してもよい。
(2)二値変換する際の閾値Tとして、平均値μに所定値α(例えば10程度、または0でもよい。)を加算した値(T=μ+α)を用いる。そして、閾値以上の音圧データを「1」、閾値未満の音圧データを「0」に変換し、I1[x][y]とする。なお、所定値α=10は実験的に定められる値であり、その他の値を採用してもよい。
(3)二値変換後のデータを擬似的に(メモリ空間上の)画像データに見立てたとき、孤立点となる画素を4近傍法により消去する。具体的には、孤立点の画素に相当する値「1」の音圧データを「0」に書き換える。
【0045】
ステップS14:特徴パラメータ演算部36は二値化処理から復帰すると、二値変換されたデータから垂直方向ヒストグラムH[y]を作成する。入力音データに無音区間(32行全ての濃度値が「0」の区間)がある場合、その無音期間を除いた区間を5秒分(500ピクセル分)に引き延ばす。このためH[y]は、例えば次式(1)で求められる。
【数1】
ここに、
t:入力データから無音区間を除いた区間の秒数
とする。
【0046】
〔特徴パラメータf1の算出〕
ステップS16:次に特徴パラメータ演算部36は、垂直方向ヒストグラムH[y]から特徴パラメータf1を算出する。f1は、例えば次式(2)で求められる。
【数2】
ここに、
H[y−1]<H[y]>H[y+1]であれば、
g(y)=H[y]−H[y−1](H[y+1]−H[y−1]≧0のとき)
g(y)=H[y]−H[y+1](上記以外のとき)
とする。
またH[y−1]<H[y]>H[y+1]でなければ、
g(y)=0
とする。
【0047】
〔特徴パラメータf2の算出〕
ステップS18:また特徴パラメータ演算部36は、垂直方向ヒストグラムH[y]から特徴パラメータf2を算出する。f2は、例えば次式(3)で求められる。
f2=H[max]−H[min] (3)
ここに、
max:H[y]が最大のときのy
min:H[y]が最小のときのy
とする。
【0048】
〔特徴パラメータf3の算出〕
ステップS20:さらに特徴パラメータ演算部36は、二値変換後のデータから特徴パラメータf3を算出する。f3は、例えば次式(4)で求められる。
【数3】
ここに、
I1[x−1][y+1]=0、かつ
I1[x+1][y+1]=0、かつ
I1[x−1][y]=0、かつ
I1[x][y]=1、かつ
I1[x+1][y]=0、かつ
I1[x−1][y−1]=0、かつ
I1[x][y−1]=1、かつ
I1[x+1][y−1]=0
の場合、
J[x][y]=1、
その他の場合、
J[x][y]=0
とする。
【0049】
ステップS22:次に特徴パラメータ演算部36は、二値化処理(ステップS12)前の処理済データから濃度ヒストグラムを作成する。濃度ヒストグラムは、擬似的な画像データでみたとき、0〜255の濃度値I1[x][y]ごとにカウントした画素数で表される。なお、特徴パラメータ演算部36が行う演算処理では、実際の画像データとしては現れてこない。
【0050】
〔特徴パラメータf4〜f6算出〕
ステップS24:特徴パラメータ演算部36は、濃度ヒストグラムから特徴パラメータf4〜f6を算出する。
先ず、f4は、例えば次式(5)で求められる。
niが最大値をとるとき、f4=i (5)
ここに、
i:濃度値(0〜255)
ni:濃度値iの画素数
とする。
【0051】
次にf5は、例えば次式(6)で求められる。
f4=iのとき、f5=ni (6)
【0052】
またf6は、例えば次式(7)で求められる。
【数4】
ここに、
k:ni≠0のiの個数
とする。
【0053】
ステップS26:次に特徴パラメータ演算部36は、先のステップS12で二値化処理を行ったときと同様の手順で二値化処理を実行する。ただし、二値化する際の閾値Tは、平均値μに所定値β(0でもよい。またはαと同じ値でもよい。α=βとする場合は、ステップS26を省略可。)を加算した値(T=μ+β)を用い、二値化したデータはI2[x][y]とする。
【0054】
〔特徴パラメータf7算出〕
ステップS28:特徴パラメータ演算部36は、ステップS26のデータログ(ステップS26を省略した場合は、ステップS12で二値化処理を行ったときのデータログを取得する。)から特徴パラメータf7を算出する。具体的には、データログの内容として4近傍で消去した孤立点の白画素数をカウントし、その値をf7とする。
【0055】
〔特徴パラメータf8〜f15算出〕
ステップS32:特徴パラメータ演算部36は、二値変換後のデータから特徴パラメータf8〜f15を算出する。
〔特徴パラメータf8算出〕
具体的には、値「1」のI2[x][y]をカウントし、その値をf8とする。このためf8は、例えば次式(8)で求められる。
【数5】
【0056】
〔特徴パラメータf9算出〕
次に、y方向について下半分領域の値「1」のI2[x][y]の数と上半分の値「1」のI2[x][y]の数との差を求め、その値をf9とする。このためf9は、例えば次式(9)で求められる。
【数6】
【0057】
〔特徴パラメータf10算出〕
また、y方向について下半分領域の値「1」のI2[x][y]をカウントし、その値をf10とする。このためf10は、例えば次式(10)で求められる。
【数7】
【0058】
〔特徴パラメータf11算出〕
x方向のランレングスの数X[x][y]をカウントし、その値をf11とする。f11は、例えば次式(11)で求められる。
【数8】
ここに、
I2[x][y]+I2[x+1][y]=1の場合、
X[x][y]=1、
その他の場合、
X[x][y]=0
とする。
【0059】
〔特徴パラメータf12算出〕
また、y方向のランレングスの数Y[x][y]をカウントし、その値をf12とする。f12は、例えば次式(12)で求められる。
【数9】
ここに、
I2[x][y]+I2[x][y+1]=1の場合、
Y[x][y]=1、
その他の場合、
Y[x][y]=0
とする。
【0060】
〔特徴パラメータf13算出〕
次に、y方向について上4分の1領域の値「0」のI2[x][y]をカウントし、その値をf13とする。このためf13は、例えば次式(13)で求められる。
【数10】
【0061】
〔特徴パラメータf14算出〕
また、y方向について下4分の1領域の値「0」のI2[x][y]をカウントし、その値をf14とする。このためf14は、例えば次式(14)で求められる。
【数11】
【0062】
〔特徴パラメータf15算出〕
そして、y方向について下4行の値「0」のI2[x][y]をカウントし、その値をf15とする。このためf15は、例えば次式(15)で求められる。
【数12】
【0063】
ステップS34:最後に特徴パラメータ演算部36は、算出した特徴パラメータf1〜f15を保存し、演算処理を終了する。特徴パラメータf1〜f15の保存場所は、例えば図示しないバッファ領域とする。
【0064】
なお、ステップS12において平均値μを逐次処理で更新する場合、特徴パラメータ演算部36により図4の処理をサンプリング周期(10ms割り込み)で実行し、特徴パラメータf1〜f15をその都度更新する。
【0065】
〔二値化処理の例〕
図5は、上記の特徴パラメータ演算処理の中で実行される二値化処理(ステップS12)の様子をスペクトログラムとして表した図である。
【0066】
〔二値化処理前〕
図5中(A):ここでは先と別の例として、クラッシック音楽の入力音から得られたデータを用いている。この場合、データ処理部32から取得した処理済データをスペクトログラムとして表すと、上記のようにx方向に時間、y方向に周波数、グレー階調として音圧I[x][y]が可視化される。この画像例からも明らかなように、音環境が「音楽」である場合、話し声の入力音から得られた画像(図3中(B))とは、見た目上でも大きな差違を有していることが分かる。クラッシック音楽の入力音から得られた画像の特徴は、y方向の低周波域で音圧が定常的に大きく現れるとともに、x方向(時間軸)全域にわたって広範囲の周波数スペクトルが観測されることである。
【0067】
〔二値化処理後〕
図5中(B):二値化処理(ステップS12)で二値化及び4近傍での孤立点消去を行うと、上記の特徴がより視覚的にも強調される。もちろん、特徴パラメータf1〜f9の演算に視覚情報を用いるわけではないが、このようにスペクトログラムとして表すことで、音環境の特徴を視覚的に捉えることができ、分類関数を作成に際し、適切な特徴パラメータ選択することができる。
【0068】
〔垂直方向ヒストグラムの例〕
次に図6は、上記の特徴パラメータ演算処理(ステップS14)の中で作成される垂直方向ヒストグラムの例を可視画像として表した図である。
【0069】
図6中(A):垂直方向(y方向)のヒストグラムは、時間内で各周波数帯別に閾値以上の音圧が現れたデータ数(画素数)を表している。この例からも明らかなように、クラッシック音楽の入力音から得られた画像には、低周波域での頻度が高いという傾向が顕著である。
【0070】
図6中(B):ヒストグラム上で隣接する頻度同士の差を集積した結果も画像の特徴として顕著に表れる。この例は、特徴パラメータf1の算出式(2)で表したように、H[y−1]<H[y]>H[y+1]であって、H[y+1]−H[y−1]≧0のときはg(y)=H[y]−H[y−1]とし、上記以外のときはg(y)=H[y]−H[y+1]とすることを視覚的に表している。
【0071】
図7は、上記の特徴パラメータ演算処理(ステップS20)での特徴パラメータf3の算出条件を模式的に表した図である。すなわちこの例は、特徴パラメータf3の算出式(4)で表したように、ある画素の濃度値I[x][y]が「1(白画素)」の場合は、両隣の列の濃度値が「0」で、かつ真下の画素の濃度値が「1」ならば、J[x][y]=1とし、その他の場合はJ[x][y]=0とすることを模式的に表している。なお特徴パラメータf3は、画像としての太さが1ピクセルである線の画素数をカウントした結果に相当する。
【0072】
〔濃度ヒストグラムの例〕
また図8は、上記の特徴パラメータ演算処理(ステップS22)の中で作成される濃度ヒストグラムの例を可視画像として表した図である。濃度ヒストグラムは、全データ内の音圧分布を表している。クラッシック音楽の入力音から得られた画像には、濃度値がある程度の正規分布を示す傾向にあることが分かる。
【0073】
濃度ヒストグラムからは、上記のように特徴パラメータf4〜f6を算出することができる。図8中に示されているように、f4はヒストグラムの最頻値であって、f5はその最大度数である。なおf6は度数の平均である。
【0074】
図9は、特徴パラメータf8〜f15の演算用に取得される二値変換後のデータを可視画像として表した図である。
特徴パラメータf8については、画像中の白画素(二値変換後のデータで値「1」を有するデータ)の総数から算出することができる。
また特徴パラメータf9については、画像の下半分の領域内にある白画素(二値変換後のデータで値「1」を有するデータ)数から、上半分の領域内にある白画素(二値変換後のデータで値「1」を有するデータ)数を差し引いて算出することができる。
特徴パラメータf10については、画像の下半分の領域内にある黒画素(二値変換後のデータで値「1」を有するデータ)の総数から算出することができる。
【0075】
次に、特徴パラメータf11については、画像の値を横方向へ順に追っていったとき、各行(0〜31まで)で白画素から黒画素、又は黒画素から白画素に変化した回数の合計(横方向のランレングスの数X[x][y])から算出することができる。
また、特徴パラメータf12については、画像の値を縦方向へ順に追っていったとき、各列(0〜499まで)で白画素から黒画素、又は黒画素から白画素に変化した回数の合計(縦方向のランレングスの数Y[x][y])から算出することができる。
【0076】
特徴パラメータf13については、画像の上4分の1の領域内にある白画素(二値変換後のデータで値「0」を有するデータ)の総数から算出することができる。
また、特徴パラメータf14については、画像の下4分の1の領域内にある白画素(二値変換後のデータで値「0」を有するデータ)の総数から算出することができる。
そして、特徴パラメータf15については、画像の下4行の領域内にある白画素(二値変換後のデータで値「0」を有するデータ)の総数から算出することができる。
【0077】
上記のように既知の音環境についてスペクトログラム及びスペクトログラムを画像処理した画像から音環境の特徴を捉えることで、分類関数の作成に際し、適切な特徴パラメータを選択できる。余分な特徴パラメータを無くすことで、後述の判別分析処理における補聴処理用IC16の負担が軽減される。
【0078】
〔判別分析の例〕
図10は、特徴パラメータf1〜f15を用いた判別分析の手順例を示すフローチャートである。判別分析の手順は、特徴パラメータf1〜f15の演算を実行した後に実行することができる。以下、順を追って説明する。
【0079】
ステップS100:判別分析部30の分類クラス演算部38にて、先ず特徴パラメータf1〜f3,f10〜f12(第1群の特徴パラメータ)を取得する。
ステップS102:次に分類クラス演算部38は、特徴パラメータf1〜f3,f10〜f12を説明変量としたマハラノビス距離の分類演算を行う。なお分類演算には、予めこの実施形態で用いる判別分析の手法に則って定義された分類関数を用いることができる。
【0080】
ステップS104:分類クラス演算部38による演算結果に基づき、識別部40で「音楽クラス」に分類されるか否かを識別、つまり判別分析を行う。具体的には、予め「音楽クラス」の音環境について得られたデータ特徴パラメータf1〜f3,f10〜f12の分布を既知としておき、その分布に対して補聴器使用時の入力音の特徴パラメータf1〜f3,f10〜f12から分類演算したマハラノビス距離を算出する。このとき、分類演算したマハラノビス距離が小さいほど、その特徴パラメータf1〜f3,f10〜f12がマハラノビス空間において既知の分布に近いことを意味する。このため、例えば予め「音楽クラス」に分類できるマハラノビス距離についての閾値を設定しておき、演算結果が閾値以下の場合は音環境が「音楽」であると識別し、閾値を超えてしまう場合は音環境が「音楽」以外であると識別することができる。
【0081】
〔音楽クラスと識別した場合〕
ステップS106:音環境が「音楽クラス」であると識別した場合(ステップS114:Yes)、識別部40は「音環境(4)」の結果をパラメータ設定部24に反映させる。音環境(4)は、上記のように「音楽」の音環境に応じて予め最適化されたパラメータの設定情報である。そしてこの場合、ここで識別部40による音環境の識別は完了しているため、これ移行の判別分析の手順を終了することができる。
【0082】
〔音楽クラス以外と識別した場合〕
ステップS108:これに対し、識別部40で音環境が「音楽クラス」以外であると識別した場合(ステップS104:No)、分類クラス演算部38は、その他の特徴パラメータf4〜f9,f11〜f15(第2群の特徴パラメータ)を取得する。なお、この中で特徴パラメータf11,f12については、上記のように「音楽クラス」の判別分析だけでなく、それ以外のクラスの判別分析にも用いることができる。このため特徴パラメータf11,f12は、第1群の特徴パラメータ、第2群の特徴パラメータの両方に該当する。
【0083】
ステップS110:そして分類クラス演算部38は、今度は特徴パラメータf4〜f9,f11〜f15を説明変量としたマハラノビス距離の分類演算を行う。ここでも分類演算には、予めこの実施形態で用いる判別分析の手法に則って定義された分類関数を用いることができる。
【0084】
ステップS112:分類クラス演算部38による演算結果に基づき、識別部40で分類クラスが上記の音環境(1)〜(3)のいずれに分類されるかを識別、つまり判別分析を行う。具体的には、予め音環境(1)〜(3)についてそれぞれ得られたデータから特徴パラメータf4〜f9,f11〜f15の分布を音環境別で既知としておく。したがって、ここでのマハラノビス空間には、予め3つの既知のグループが存在することになる。そしてマハラノビス空間内にて、補聴器使用時の入力音の特徴パラメータf4〜f9,f11〜f15から分類演算したマハラノビス距離をあてはめる。そして、このとき分類演算したマハラノビス距離が最も近いグループが音環境(1)〜(3)のいずれであるかを識別する。
【0085】
〔音環境(1)のクラスと識別した場合〕
ステップS114:先のステップS112で音環境(1)のクラスであると識別した場合、識別部40は「音環境(1)」の結果をパラメータ設定部24に反映させる。音環境(1)は、上記のように「静かな環境での会話」の音環境に応じて予め最適化されたパラメータの設定情報である。
【0086】
〔音環境(2)のクラスと識別した場合〕
ステップS116:また、先のステップS112で音環境(2)のクラスであると識別した場合、識別部40は「音環境(2)」の結果をパラメータ設定部24に反映させる。音環境(2)は、上記のように「うるさい環境での会話」の音環境に応じて予め最適化されたパラメータの設定情報である。
【0087】
〔音環境(3)のクラスと識別した場合〕
ステップS118:あるいは、先のステップS112で音環境(3)のクラスであると識別した場合、識別部40は「音環境(3)」の結果をパラメータ設定部24に反映させる。音環境(3)は、上記のように「うるさい環境」の音環境に応じて予め最適化されたパラメータの設定情報である。
【0088】
以上の手順を実行すると、判別分析部30(分類クラス演算部38、識別部40)はひとまず処理を終了する。この後、例えばある程度の時間が経過したり、あるいは入力音が大きく変化したりすると、判別分析部30は特徴パラメータf1〜f9の演算処理(図4)をリトライする。そして、判別分析部30はリトライ後の特徴パラメータf1〜f9を用いて判別分析の手順を実行し、改めて現在の音環境を識別する。識別結果は、同様にパラメータ設定部24に対して反映されるので、音環境の変化に応じてイヤホン18から出力される音の出力特性を自動調整することができる。
【0089】
〔第2実施形態〕
次に、音処理装置の第2実施形態を説明する。図11は、第2実施形態となる補聴器50の構成例を概略的に示したブロック図である。第2実施形態の補聴器50は、補聴処理部20の構成が第1実施形態の補聴器10と異なっている。以下、第1実施形態との相違点を中心として説明する。その他の第1実施形態と共通する構成には図中に同じ符号を付し、その重複した説明を省略するものとする。
【0090】
第2実施形態の補聴器50は、音環境(1)〜(4)のそれぞれに対応して第1〜第4補聴処理部52〜58を有している。これら第1〜第4補聴処理部52〜58には、予め環境(1)〜(4)に応じて最適化されたパラメータの設定情報が格納されている。第1〜第4補聴処理部52〜58は、設定されたパラメータを用いて出力音の信号処理を行う機能を有している。なお第2実施形態においても、第1〜第4補聴処理部52〜58のそれぞれに対し、パソコン44からパラメータを書き換えることができる。
【0091】
また第2実施形態の補聴器50は選択部51を有しており、この選択部51は、識別された音環境(1)〜(4)に応じて第1〜第4補聴処理部52〜58のいずれかを選択する。したがって、識別部40により識別された音環境に変化が生じた場合、その識別結果に基づき、選択部51は第1〜第4補聴処理部52〜58の選択を切り替える。これにより、第1実施形態と同じく音環境の変化に応じてイヤホン18から出力される音の出力特性をダイナミックに自動調整することができる。
【0092】
上述した第1,第2実施形態によれば、補聴器10,50の使用者を取り巻く音環境が変化した場合であっても、これを判別分析部30で自動的に識別し、その結果に応じて信号処理に必要なパラメータを自動的に設定することができる。
また、「時間」−「周波数」−「音圧レベル」の三次元のデータから抽出した値を判別分析の特徴パラメータに用いているため、従来の一般的なある時点での周波数特性を基礎とした分析手法に比較して、周波数特性の時間変化をより一層考慮した音環境の識別を実行することができる。これにより、実際の音環境に応じて補聴処理の内容を最適な状態に維持することができる。
【0093】
また、判別分析で設定している分類クラスを追加・変更することで、より多様な音環境にも対応することができる。これにより、補聴器の用途や使用場所についての選択の幅を広げ、より高性能な補聴動作を実現することができる。
【0094】
さらに、パラメータ設定部24や第1〜第4補聴処理部52〜58に設定されている音環境に応じたパラメータは、パソコン44を通じてカスタマイズすることができる。これにより、各音環境についても、使用者の聞こえ具合や嗜好に合わせた補聴処理をきめ細かく設定することができる。
【0095】
〔その他の実施形態〕
ここまでに挙げた第1,第2実施形態は、音処理装置を補聴器10,50等として構成するものであったが、音処理装置の実施形態は、補聴器以外であってもよい。
【0096】
〔録音装置としての実施形態〕
図12は、音処理装置を録音装置60として実施した場合の構成例を示すブロック図である。録音装置60は、マイクロホン14で捕捉した入力音をADC26でデジタル信号に変換し、これを信号処理して記憶部62にデジタルデータとして記憶(録音)することができる。記憶部62は、例えば内蔵の半導体メモリや、ハードディスク、外部メモリ等の大容量記憶媒体である。
【0097】
このような録音装置60は、例えばボイスレコーダ、ICレコーダ等として一般に実用化されている。なお録音装置60については、これまでの補聴処理部20が録音処理部20に置き換わるものとする。その他の構成については、第1,第2実施形態と共通であり、ここではその重複した説明を省略する。
【0098】
音処理装置を録音装置60として実施する場合、パラメータ設定部24には、予め音環境に応じて最適な録音時の信号処理に必要なパラメータを設定しておくことができる。そして判別分析部30は、入力音のデータから特徴パラメータf1〜f15を演算して判別分析の手順を実行し、録音場所についての音環境を識別する。識別結果は、これまでと同様にパラメータ設定部24に対して反映されるので、音環境の変化に応じて記憶部62に記録される音の特性(記録のための出力特性)をダイナミックに自動調整することができる。
【0099】
〔オーディオプレーヤーとしての実施形態〕
図13は、音処理装置をオーディオプレーヤー70として実施した場合の構成例を示すブロック図である。オーディオプレーヤー70は、例えばデジタル音源となる音データ72を信号処理部22にて読み出し、これを再生(出力)用に信号処理して出力音データを生成すると、DAC28でアナログ信号に変換してイヤホン18(スピーカ)を駆動することができる。なお音データ72は、例えば内蔵の半導体メモリや、ハードディスク、光ディスク、外部メモリ等の大容量記憶媒体に格納されている。このようなオーディオプレーヤー70は、例えば携帯型音楽プレーヤーとして一般に実用化されている。なおオーディオプレーヤー70については、これまでの補聴処理部20が再生処理部20に置き換わるものとする。その他の構成については、第1,第2実施形態と共通であり、ここではその重複した説明を省略する。
【0100】
音処理装置をオーディオプレーヤー70として実施する場合、パラメータ設定部24には、予め音環境に応じて最適な再生時の信号処理に必要なパラメータを設定しておくことができる。一方でオーディオプレーヤー70は、マイクロホン14で捕捉した周囲の入力音をADC26でデジタル信号に変換し、これをデータ処理部32で加工して判別分析部30に提供する。そして判別分析部30は、入力音のデータから特徴パラメータf1〜f15を演算して判別分析の手順を実行し、音楽の再生場所についての音環境を識別する。識別結果は、これまでと同様にパラメータ設定部24に対して反映されるので、音環境の変化に応じて再生される音の出力特性をダイナミックに自動調整することができる。
【0101】
本発明は上述した実施形態に制約されることなく、種々に変形して実施することができる。例えば、全ての実施形態において判別分析の手順は、例えば2段階に分けて行うことができる。例えば、1段階目で特徴パラメータf1〜f3,f10〜f12の合計6つだけを演算し、その上で「音楽クラス」又はそれ以外の識別を実行する。このとき、識別結果が「音楽クラス」であれば、そこで判別分析の手順を終了する。識別結果が「音楽クラス以外」となった場合、さらに2段階目に進んで残りの特徴パラメータf4〜f9,f13〜f15を演算し、その上で音環境の識別を実行する。これにより、1段階目で「音楽クラス」と識別できた場合、その後は判別分析の手順を実行する必要がなくなるため、それだけ判別分析に要する処理負担を軽減することができる。
【0102】
特徴パラメータf1〜f15は、その一部(例えばf1〜f9)だけを用いて判別分析を行うこともできる。例えば、図10のステップS100で特徴パラメータf1〜f3を取得しておき、ステップS104で「音楽クラス」の判別分析を行うこととしてもよい。また、ステップS108では残りの特徴パラメータf4〜f9を取得し、ステップS112で「音環境(1)」〜「音環境(3)」の判別分析を行うこととしてもよい。
【0103】
また、実施形態で挙げた音環境の分類はあくまで一例に過ぎず、その他に分類される音環境を判別分析によって識別することとしてもよい。
【符号の説明】
【0104】
10 補聴器
12 通信ケーブル
14 マイクロホン
16 音処理用IC
18 イヤホン
20 補聴処理部
30 判別分析部
44 パソコン
【技術分野】
【0001】
本発明は、出力しようとする音の特性を各種の音環境に応じて自動的に調整する機能を有した音処理装置に関する。ここで、音環境とは、マイクロホンに入力される全ての音について、聴取したい音声の有無、その他の音の発生源の種類と数、距離、分布状態等の音の発生状況や、障害物の有無、風、気温等の音に伝達に影響を与える要素の状況を総合した環境をいう。
【背景技術】
【0002】
例えば従来、音声処理の技術分野において、ロバストな音声分類を実現するための方法が知られている(例えば、特許文献1参照。)。この先行技術は、各種の条件下で音声についての複数の特徴パラメータを評価し、各種の音声モードを高精度で分類しようとするものである。この先行技術で分類しようとする各種の音声モードには、例えば会話の過渡部、活動状態の音声への遷移、単語の終端部における有声音、無声音、そして無音といった数多くの態様が含まれる。さらに先行技術は、周囲のノイズレベルが変化する音環境においても、各種の音声モードを分類する手法について開示している。
【0003】
上記の先行技術に示されているように、音声モードを分類し、その結果に応じた音声処理を行うことは、音声そのものの伝達を目的とした通信手段(例えば電話)にとって有用であると考えられる。このような通信手段とは別に、音声を含めた周囲音(環境として存在する雑音を含む)をも伝達しようとする音処理技術にとっては、音声モードの分類とはまた違った観点が要求される。
【0004】
例えば、補聴器における信号処理(以降、「補聴処理」という。)の技術分野において、補聴器における音の分類に有用な音環境の分析手法に関する報告がなされている(例えば、非特許文献1参照。)。この報告では、補聴器に入力されてくる音データを時間帯で分割し、各時間帯別に抽出した周波数成分の分布態様から音環境としての特徴量を求めることが示されている。この場合、求めた特徴量を事前に用意しておいたデータと比較すれば、現在の音環境をある程度まで分析することが可能である。このようにして分析された音環境の結果は、補聴器で行われる補聴処理にも反映させることができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2004−515809号公報
【非特許文献】
【0006】
【非特許文献1】”Sound Classification in Hearing Aids Inspired by Auditory Scene Analysis” EURASIP Journal on Applied Signal Processing 2005:18,第2991−3002頁
【発明の概要】
【発明が解決しようとする課題】
【0007】
先に挙げた先行技術(特許文献1)の手法は、特に音声モードの分類に特化したものであるから、音声のみの伝達に関しては有効であると考えられる。しかし、補聴処理のように音環境をも含めた音の伝達に関して、音声モードだけの分類を行うだけでは不充分である。
【0008】
一方、後に挙げた報告(非特許文献1)は、補聴処理等の音処理技術にとって直接的に有用なものであると考えられる。しかし、上記の報告で示されている分析手法は、特徴量を求める過程で極めて複雑かつ膨大な量の演算処理を必要とするという問題がある。
【0009】
そこで本発明は、比較的簡素な演算プロセスを用いて音環境の分類を行い、その結果を音処理に反映させることができる技術の提供を課題とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するため、本発明は以下の解決手段を採用する。
すなわち本発明は、音環境の識別に際して判別分析の手法を採用している。判別分析の手法には、入力音から抽出した複数の特徴パラメータを用いることができる。特に判別分析の手法は、一般的に線形のベクトル演算プロセスが中心であるため、比較的簡素な演算処理で音環境を識別することができる。その結果、識別した音環境に応じて出力音の出力特性を調整すれば、各種の音環境に応じて適切な音処理を迅速に実現することができる。
【0011】
また出力特性の調整には、予め音環境別に記憶しておいたパラメータを用いることができる。すなわち、入力音から音環境を識別すると、予め記憶しているパラメータの中から識別された音環境に対応する適切なパラメータの設定を調節して、出力音の出力特性を調整する。これにより、識別された音環境に合わせて出力特性を自動的に最適化することができる。
【0012】
本発明において、入力音から抽出される複数の特徴パラメータには、少なくとも第1の特徴パラメータ群、及び第2の特徴パラメータ群が含まれる。このとき識別される複数の音環境には、少なくとも単独に分類される特定の音環境、及びその他として複数に分類される特定以外の音環境が含まれることとする。この場合、第1の特徴パラメータ群を用いて判別分析を行った結果、その入力音が特定の音環境であると識別できた場合、第2の特徴パラメータを用いて判別分析を行うことなく、音環境の識別を終了するこができる。
【0013】
この場合、全ての音環境について同時並行的に識別を行う必要がなく、特定の音環境についての識別が得られた場合、その時点で以後の処理をキャンセルすることができる。これにより、音環境の識別に要する処理負担を軽減し、作業の効率化(限られたハードウエア資源の有効活用)を図ることができる。
【0014】
特徴パラメータは、所定時間内に入力された入力音の時間帯を表す「時間」の要素と、前記時間帯別の周波数スペクトルを表す「周波数」の要素と、前記周波数帯別の音圧レベルを表す「音圧」の要素とから構成される三次元のデータから算出することができる。
【0015】
上記の三次元データを用いることで、上記の報告(非特許文献1)に示されるようなある時点における周波数特性データを用いる場合に比較して、周波数特性の時間変化をより一層考慮した音環境の識別をさせることができる。これにより、出力特性の調整をより最適化しつつ、利用者にとって快適な出力音を得ることができる。
【0016】
本発明による判別分析に用いる分類関数は、予め複数の既知である音環境からそれぞれ発せられた入力音のスペクトログラムを画像処理して抽出された複数の特徴パラメータに基づいて、予め設定しておく。
【0017】
判別分析に画像処理の手法を使って抽出した特徴量を用いることで、音環境の特徴を画像の特徴量として捉えることができる。またスペクトログラムは、1つ1つの画素が二次元の座標を表すだけでなく、画素の値(濃度値)を表すことができるため、三次元データを視覚的に捉える対象(媒体)として好適である。これにより、判別分析に用いる分類関数を構築する作業(オフライン作業)においても、作業者にとって直感的で捉えやすい作業を行うことができる。
【発明の効果】
【0018】
本発明の音処理装置によれば、演算プロセスを簡略化して処理負担を軽減しつつ、より正確な音環境の識別結果を得ることができる。
【図面の簡単な説明】
【0019】
【図1】音処理装置の第1実施形態である補聴器の構成例を概略的に示す斜視図である。
【図2】補聴器に内蔵されている各種電装品とその機能上の構成を概略的に示したブロック図である。
【図3】前処理された入力音データの構造例とその可視画像の例を示した図である。
【図4】特徴パラメータ演算部で実行される特徴パラメータ演算処理の手順例を示すフローチャートである。
【図5】特徴パラメータ演算処理の中で実行される二値化処理の様子を可視画像として表した図である。
【図6】特徴パラメータ演算処理の中で作成される垂直方向ヒストグラムの例を可視画像として表した図である。
【図7】特徴パラメータ演算処理での特徴パラメータf3の算出手法を模式的に表した図である。
【図8】特徴パラメータ演算処理の中で作成される濃度ヒストグラムの例を可視画像として表した図である。
【図9】特徴パラメータf7〜f15の演算用に取得される二値変換後のデータを可視画像として表した図である。
【図10】特徴パラメータf1〜f15を用いた判別分析の手順例を示すフローチャートである。
【図11】第2実施形態となる補聴器の構成例を概略的に示したブロック図である。
【図12】音処理装置を録音装置として実施した場合の構成例を示すブロック図である。
【図13】音処理装置をオーディオプレーヤーとして実施した場合の構成例を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態について図面を参照しながら説明する。
【0021】
〔第1実施形態〕
図1は、音処理装置の第1実施形態である補聴器10の構成例を概略的に示す斜視図である。この補聴器10は耳かけ型であり、補聴器10はその本体10aのフック部分にジョイント付きチューブ10b及び耳せん10cを接続して使用することができる。本体10aには、図示しないマイクロホンやイヤホン、電池の他に、音処理用ICが内蔵されている。なお、ここでは耳かけ型の補聴器10を例に挙げているが、耳あな型やポケット型の補聴器を第1実施形態としてもよい。
【0022】
また、本体10aには通信コネクタ10dが内蔵されており、この通信コネクタ10dは本体10aの内部で上記の音処理用ICに接続されている。通信コネクタ10dは通常、コネクタカバー10eで覆われているが、図1に示されているように、コネクタカバー10eを開くと通信コネクタ10dが露出し、そこに通信ケーブル12を接続することができる。通信ケーブル12は、例えば図示しないパーソナルコンピュータ(以下、「パソコン」と略称)に接続されており、これによりパソコンと音処理用ICとの間でデータ通信(例えばシリアル通信)が可能となる。
【0023】
図2は、補聴器10に内蔵されている各種電装品とその機能上の構成を概略的に示したブロック図である。補聴器10は主に、マイクロホン14、音処理用IC16及びイヤホン18から構成されている。このうちマイクロホン14は、図1に示される本体10aの内部で、例えば前方向(前よりの斜め上方向)から入力音を捕捉することができる位置に設けられている。またイヤホン18は、同じく本体10aの内部で、フック部分に連通して出力音を発することができる位置に設けられている。
【0024】
〔音処理用ICの概要〕
音処理用IC16は、例えば半導体集積回路(ICチップ)を用いて実現されている。音処理用IC16の構成には機能上、大きく分けて補聴処理部20及び判別分析部30が含まれている。また音処理用IC16は、ADC26及びDAC28を有している。また、その他に、音処理用IC16はデータ処理部32及びワークメモリ34を有している。なお、ここでは特に図示していないが、ADC26の前段(マイクロホン14との間)とDAC28の後段(イヤホン18との間)には、それぞれアンプが設けられている。
【0025】
〔補聴処理部〕
補聴処理部20は、信号処理部22及びパラメータ設定部24から構成されている。このうち信号処理部22は、ADC26でデジタル変換された音信号を補聴処理する。具体的には、音信号の周波数帯域毎の増幅やダイナミックレンジの圧縮、ノイズリダクション、指向性(マイクロホン14が複数ある場合)、ハウリング除去、出力制限等の信号処理が信号処理部22で行われる。これら信号処理の内容は、使用者の聞こえ具合や用途(自宅用、会議用、雑踏用、音楽観賞用等)等に応じて決定される。
【0026】
パラメータ設定部24は、信号処理部22で行われる信号処理に必要な各種パラメータを設定する。すなわち、パラメータ設定部24は記憶領域を有しており、この記憶領域には、予め使用者の聞こえ具合や上記の用途別に、信号処理で用いられる各種パラメータ(例えば増幅率、圧縮率、ノイズリダクション機能の有無、指向性機能の有無、ハウリング除去機能の有無、出力制限機能の有無)を予め定めた設定情報が記憶されている。
【0027】
設定情報は、例えばパソコン44からパラメータ設定部24に書き込むことができる。例えば、補聴器10を店頭や工場で調整する場合、パソコン44を接続してデータ通信を行い、上記の通信ケーブル12及びI/O(入出力ドライバ)42を通じてパラメータ設定部24にアクセスすることができる。パソコン44には調整用のアプリケーションが実装されており、この調整用アプリケーションを用いて各種のパラメータを調整し、パラメータ設定部24に調整済みのパラメータを反映させることができる。
【0028】
また各種パラメータは、例えば用途別に何通りかの「プリセットメモリ」として予めセットで記憶しておくことができる。識別部40(後述)がいずれかの「プリセットメモリ」を選択することで、使用者の用途に応じて最適なパラメータの組み合わせを設定することができる。また選択される「プリセットメモリ」は、例えば図示しない操作スイッチ等の操作に応じて切り替えることができる。
【0029】
〔判別分析部〕
判別分析部30は、主に特徴パラメータ演算部36、分類クラス演算部38及び識別部40から構成されている。判別分析部30は、入力音のデータを用いて各種の演算を行い、その結果として最終的に現在の音環境を識別する機能を有している。前段のデータ処理部32は、ADC26でデジタル変換された音信号の前処理を行い、判別分析部30での演算に必要な構造の入力音データに加工する。
【0030】
データ処理部32で前処理された音信号は、例えば「時間」、「周波数」、「音圧」の三次元の入力音データに加工される。具体的には、データ処理部32は入力された音信号をスペクトル分析し、これを時分割(例えば毎10ms分割)して各時間帯における各周波数帯の音圧レベルをデータ化する。これにより、時系列を表す時間帯(時間x)、周波数帯(周波数y)、そして、各周波数帯の音圧レベル(音圧I[x][y])からなる三次元の入力音データが得られる。データ処理部32は音信号のスペクトル分析や三次元データを構築するため、適宜ワークメモリ34のメモリ空間を使用することができる。なおワークメモリ34は、例えばRAM、RWM等の半導体メモリで構成されている。
【0031】
〔特徴パラメータ演算部〕
特徴パラメータ演算部36は、三次元の入力音データから特徴パラメータf1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f11,f12,f13,f14,f15を算出する。なお、これら特徴パラメータf1〜f15の算出手法については、具体例を挙げてさらに後述する。本実施形態では、特徴パラメータf1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f11,f12,f13,f14,f15を用いて説明するが、特徴パラメータの選択は適宜なされればよく、権利範囲はこれに限定されない。
【0032】
〔分類クラス演算部〕
分類クラス演算部38は、特徴パラメータf1〜f15を用いて分類関数による分類クラス演算を行う。このとき演算に使用される分類関数は、例えばパソコン44から予め分類クラス演算部38に設定されている。また分類関数は、特徴パラメータf1〜f15を説明変量としたマハラノビス距離による判別分析(正準判別分析)を行うための関数として、その定義が予め判別分析の手法に則って定められている。
【0033】
〔識別部〕
識別部40は、分類クラスの演算結果から入力音がいずれの音環境であるかを識別する。この実施形態において音環境は、例えば以下の4つに予め分類されているものとする。
(1)「静かな環境での会話」・・・例えば、居室内等の静かな場所で会話が行われる音環境である。この実施形態では、会話の音声に対して、例えばS/N比が30dB〜58dBのホワイトノイズ又はマルチトーカーノイズが付加される程度の音環境とする。
(2)「うるさい環境での会話」・・・例えば、駅構内や交通量の多い路上等で会話が行われる音環境である。この実施形態では、会話の音声に対して、例えばS/N比が0dB〜28dBのホワイトノイズ又はマルチトーカーノイズが付加される程度の音環境とする。
(3)「うるさい環境」・・・例えば、駅構内や交通量の多い路上、工場内、工事現場等で特に音声が発せられていない音環境である。
(4)「音楽」・・・例えば、コンサートホールや室内での音楽鑑賞、再生された音楽の鑑賞が行われる音環境である。この実施形態では、例えばホワイトノイズやマルチトーカーノイズ等が存在しない音環境とする。
【0034】
〔識別結果の反映〕
識別部40で識別された音環境(1)〜(4)の結果は、補聴処理部20に対して反映させることができる。すなわち、パラメータ設定部24には、音環境(1)〜(4)のそれぞれについて最適なパラメータが予め設定されており、識別部40から現在の音環境の情報が伝達されると、パラメータ設定部24で音環境(1)〜(4)に応じたパラメータが選択される。これを受けて、信号処理部22は現在使用しているパラメータを変更して信号処理を行う。
【0035】
〔出力音の出力特性〕
これにより、イヤホン18から出力される出力音は、使用者の聞こえ具合や用途に加え、補聴器10の使用者が居る場所の音環境に応じて最適化された出力特性を有したものとなる。このとき得られる出力特性には、予め用途に応じて「プリセットメモリ」に設定されていたパラメータの他に、識別された音環境に応じてカスタマイズされたパラメータを用いた信号処理の結果が反映されている。
【0036】
〔特徴パラメータの算出手法〕
次に、特徴パラメータf1〜f15の算出例について説明する。特徴パラメータ演算部36で行われる特徴パラメータf1〜f15の算出には、上記のようにデータ処理部32で前処理された三次元の入力音データが用いられる。
【0037】
〔入力音データ〕
図3は、前処理された入力音データの構造例とその可視画像(スペクトログラム)の例を示した図である。なお図3中(A)は入力音データの構造例を示し、図3中(B)はその可視画像の例を示している。
【0038】
〔データ範囲〕
図3中(A):前処理された入力音データは、上記のように「時間x」、「周波数y」、「音圧I[x][y]」の三次元で表される。この構造例では、左カラムに「時間x」の数値を配置し、中カラムには「周波数y」の数値を配置し、そして右カラムには「音圧I[x][y]」の数値を配置している。なお図中の数値はいずれも16進表記である。このとき、データの範囲をそれぞれ以下に規定する。
0≦x≦499(毎10ms分割で5.00秒間分)
0≦y≦31(毎125kHzの帯域分割で0〜4000Hz)
0≦I[x][y]≦255(音圧レベルを256段階)
上記のデータ範囲から、(500×32)行×3列のデータを構成することができる。
【0039】
〔可視画像〕
次に図3中(B)は、三次元構造の入力音データを可視化して表したグレースケール画像の例である。このグレースケール画像は、例えばx方向が時間の経過(1ピクセルが100ms)を表しており、また、y方向が周波数帯(1ピクセルが125kHz)を表すとともに、各画素の濃度値I[x][y]が各時間帯及び各周波数帯の音圧(256階調)を表している。なお音圧については、濃度値I[x][y]が0のときを無音とし、濃度値I[x][y]が255のときを最大音圧とする。また、ここでは日本人女性の話し声から得られた入力音データを例に用いている。
【0040】
ここで可視画像を例に挙げているのは、以下の背景による。すなわち、本発明の発明者等は、予め既知である各種の音環境から発せられた入力音の信号を上記のように三次元にデータ化し、これを可視画像として表すと、その画像データを画像処理することによって得られる数値を特徴パラメータとし、音環境を判別分析で識別するための分類関数を作成することが可能となることを見出した。すなわち、実際に得られた可視画像には、既知である音環境の違いによって見た目上にも顕著な差異が現れる。このような音環境別の差異は、それぞれの画像データから抽出した特徴量(特徴パラメータ)の傾向にも顕著に現れる。したがって、未知の音環境から発せられた入力音についても、これを三次元構造のデータに加工し、擬似的な画像と見立てた上で特徴量を抽出すれば、その特徴量を用いて音環境を判別分析する手法を確立することができる。
【0041】
上記のような発明者等の知見に基づき、この実施形態で使用する判別分析には、潜在的に画像データへの変換が可能な構造の入力音データ(図3中(A))を用いることとしている。ただし、この実施形態において、実際に補聴器10内で可視画像(図3中(B)等)を作成する必要はない。データ処理部32等において入力音データを三次元構造に加工しているのは、あくまで今回の判別分析の手法に則って予め定義されている分類関数に対して特徴パラメータを適用するためである。
【0042】
図4は、特徴パラメータ演算部36で実行される特徴パラメータ演算処理の手順例を示すフローチャートである。特徴パラメータ演算処理を行う前に、予め既知である各種の音環境から発せられた入力音の信号を用いて分類関数をパソコン44で作成し、この分類関数を分類クラス演算部38に設定しておく。以下、特徴パラメータ演算処理について順を追って説明する。
【0043】
ステップS10:先ず特徴パラメータ演算部36は、処理済データを取得する。具体的には、上記のようにデータ処理部32にて前処理がなされた入力音データを取得する。なお処理済データの取得は、ワークメモリ34のアドレスを指定するだけでもよい。この場合、音処理用IC16のハードウエア構成上、特徴パラメータ演算部36からワークメモリ34へのアクセスが可能なアーキテクチャを採用していればよい。
【0044】
ステップS12:次に特徴パラメータ演算部36は、二値化処理を実行する。この処理では、取得した処理済データに基づき、「音圧I[x][y]」の値を0又は1に二値変換する。具体的には、以下の手順を実行する。
(1)例えば10ms間隔でサンプリングされた5秒間分のデータについて、I[x][y]の値が0であるデータを除いて全音圧データI[x][y]の平均値μを求める。このとき平均値μは、5秒間分のデータを蓄積した後に算出するだけでなく、サンプリングのたびに(10ms周期で)逐次更新してもよい。
(2)二値変換する際の閾値Tとして、平均値μに所定値α(例えば10程度、または0でもよい。)を加算した値(T=μ+α)を用いる。そして、閾値以上の音圧データを「1」、閾値未満の音圧データを「0」に変換し、I1[x][y]とする。なお、所定値α=10は実験的に定められる値であり、その他の値を採用してもよい。
(3)二値変換後のデータを擬似的に(メモリ空間上の)画像データに見立てたとき、孤立点となる画素を4近傍法により消去する。具体的には、孤立点の画素に相当する値「1」の音圧データを「0」に書き換える。
【0045】
ステップS14:特徴パラメータ演算部36は二値化処理から復帰すると、二値変換されたデータから垂直方向ヒストグラムH[y]を作成する。入力音データに無音区間(32行全ての濃度値が「0」の区間)がある場合、その無音期間を除いた区間を5秒分(500ピクセル分)に引き延ばす。このためH[y]は、例えば次式(1)で求められる。
【数1】
ここに、
t:入力データから無音区間を除いた区間の秒数
とする。
【0046】
〔特徴パラメータf1の算出〕
ステップS16:次に特徴パラメータ演算部36は、垂直方向ヒストグラムH[y]から特徴パラメータf1を算出する。f1は、例えば次式(2)で求められる。
【数2】
ここに、
H[y−1]<H[y]>H[y+1]であれば、
g(y)=H[y]−H[y−1](H[y+1]−H[y−1]≧0のとき)
g(y)=H[y]−H[y+1](上記以外のとき)
とする。
またH[y−1]<H[y]>H[y+1]でなければ、
g(y)=0
とする。
【0047】
〔特徴パラメータf2の算出〕
ステップS18:また特徴パラメータ演算部36は、垂直方向ヒストグラムH[y]から特徴パラメータf2を算出する。f2は、例えば次式(3)で求められる。
f2=H[max]−H[min] (3)
ここに、
max:H[y]が最大のときのy
min:H[y]が最小のときのy
とする。
【0048】
〔特徴パラメータf3の算出〕
ステップS20:さらに特徴パラメータ演算部36は、二値変換後のデータから特徴パラメータf3を算出する。f3は、例えば次式(4)で求められる。
【数3】
ここに、
I1[x−1][y+1]=0、かつ
I1[x+1][y+1]=0、かつ
I1[x−1][y]=0、かつ
I1[x][y]=1、かつ
I1[x+1][y]=0、かつ
I1[x−1][y−1]=0、かつ
I1[x][y−1]=1、かつ
I1[x+1][y−1]=0
の場合、
J[x][y]=1、
その他の場合、
J[x][y]=0
とする。
【0049】
ステップS22:次に特徴パラメータ演算部36は、二値化処理(ステップS12)前の処理済データから濃度ヒストグラムを作成する。濃度ヒストグラムは、擬似的な画像データでみたとき、0〜255の濃度値I1[x][y]ごとにカウントした画素数で表される。なお、特徴パラメータ演算部36が行う演算処理では、実際の画像データとしては現れてこない。
【0050】
〔特徴パラメータf4〜f6算出〕
ステップS24:特徴パラメータ演算部36は、濃度ヒストグラムから特徴パラメータf4〜f6を算出する。
先ず、f4は、例えば次式(5)で求められる。
niが最大値をとるとき、f4=i (5)
ここに、
i:濃度値(0〜255)
ni:濃度値iの画素数
とする。
【0051】
次にf5は、例えば次式(6)で求められる。
f4=iのとき、f5=ni (6)
【0052】
またf6は、例えば次式(7)で求められる。
【数4】
ここに、
k:ni≠0のiの個数
とする。
【0053】
ステップS26:次に特徴パラメータ演算部36は、先のステップS12で二値化処理を行ったときと同様の手順で二値化処理を実行する。ただし、二値化する際の閾値Tは、平均値μに所定値β(0でもよい。またはαと同じ値でもよい。α=βとする場合は、ステップS26を省略可。)を加算した値(T=μ+β)を用い、二値化したデータはI2[x][y]とする。
【0054】
〔特徴パラメータf7算出〕
ステップS28:特徴パラメータ演算部36は、ステップS26のデータログ(ステップS26を省略した場合は、ステップS12で二値化処理を行ったときのデータログを取得する。)から特徴パラメータf7を算出する。具体的には、データログの内容として4近傍で消去した孤立点の白画素数をカウントし、その値をf7とする。
【0055】
〔特徴パラメータf8〜f15算出〕
ステップS32:特徴パラメータ演算部36は、二値変換後のデータから特徴パラメータf8〜f15を算出する。
〔特徴パラメータf8算出〕
具体的には、値「1」のI2[x][y]をカウントし、その値をf8とする。このためf8は、例えば次式(8)で求められる。
【数5】
【0056】
〔特徴パラメータf9算出〕
次に、y方向について下半分領域の値「1」のI2[x][y]の数と上半分の値「1」のI2[x][y]の数との差を求め、その値をf9とする。このためf9は、例えば次式(9)で求められる。
【数6】
【0057】
〔特徴パラメータf10算出〕
また、y方向について下半分領域の値「1」のI2[x][y]をカウントし、その値をf10とする。このためf10は、例えば次式(10)で求められる。
【数7】
【0058】
〔特徴パラメータf11算出〕
x方向のランレングスの数X[x][y]をカウントし、その値をf11とする。f11は、例えば次式(11)で求められる。
【数8】
ここに、
I2[x][y]+I2[x+1][y]=1の場合、
X[x][y]=1、
その他の場合、
X[x][y]=0
とする。
【0059】
〔特徴パラメータf12算出〕
また、y方向のランレングスの数Y[x][y]をカウントし、その値をf12とする。f12は、例えば次式(12)で求められる。
【数9】
ここに、
I2[x][y]+I2[x][y+1]=1の場合、
Y[x][y]=1、
その他の場合、
Y[x][y]=0
とする。
【0060】
〔特徴パラメータf13算出〕
次に、y方向について上4分の1領域の値「0」のI2[x][y]をカウントし、その値をf13とする。このためf13は、例えば次式(13)で求められる。
【数10】
【0061】
〔特徴パラメータf14算出〕
また、y方向について下4分の1領域の値「0」のI2[x][y]をカウントし、その値をf14とする。このためf14は、例えば次式(14)で求められる。
【数11】
【0062】
〔特徴パラメータf15算出〕
そして、y方向について下4行の値「0」のI2[x][y]をカウントし、その値をf15とする。このためf15は、例えば次式(15)で求められる。
【数12】
【0063】
ステップS34:最後に特徴パラメータ演算部36は、算出した特徴パラメータf1〜f15を保存し、演算処理を終了する。特徴パラメータf1〜f15の保存場所は、例えば図示しないバッファ領域とする。
【0064】
なお、ステップS12において平均値μを逐次処理で更新する場合、特徴パラメータ演算部36により図4の処理をサンプリング周期(10ms割り込み)で実行し、特徴パラメータf1〜f15をその都度更新する。
【0065】
〔二値化処理の例〕
図5は、上記の特徴パラメータ演算処理の中で実行される二値化処理(ステップS12)の様子をスペクトログラムとして表した図である。
【0066】
〔二値化処理前〕
図5中(A):ここでは先と別の例として、クラッシック音楽の入力音から得られたデータを用いている。この場合、データ処理部32から取得した処理済データをスペクトログラムとして表すと、上記のようにx方向に時間、y方向に周波数、グレー階調として音圧I[x][y]が可視化される。この画像例からも明らかなように、音環境が「音楽」である場合、話し声の入力音から得られた画像(図3中(B))とは、見た目上でも大きな差違を有していることが分かる。クラッシック音楽の入力音から得られた画像の特徴は、y方向の低周波域で音圧が定常的に大きく現れるとともに、x方向(時間軸)全域にわたって広範囲の周波数スペクトルが観測されることである。
【0067】
〔二値化処理後〕
図5中(B):二値化処理(ステップS12)で二値化及び4近傍での孤立点消去を行うと、上記の特徴がより視覚的にも強調される。もちろん、特徴パラメータf1〜f9の演算に視覚情報を用いるわけではないが、このようにスペクトログラムとして表すことで、音環境の特徴を視覚的に捉えることができ、分類関数を作成に際し、適切な特徴パラメータ選択することができる。
【0068】
〔垂直方向ヒストグラムの例〕
次に図6は、上記の特徴パラメータ演算処理(ステップS14)の中で作成される垂直方向ヒストグラムの例を可視画像として表した図である。
【0069】
図6中(A):垂直方向(y方向)のヒストグラムは、時間内で各周波数帯別に閾値以上の音圧が現れたデータ数(画素数)を表している。この例からも明らかなように、クラッシック音楽の入力音から得られた画像には、低周波域での頻度が高いという傾向が顕著である。
【0070】
図6中(B):ヒストグラム上で隣接する頻度同士の差を集積した結果も画像の特徴として顕著に表れる。この例は、特徴パラメータf1の算出式(2)で表したように、H[y−1]<H[y]>H[y+1]であって、H[y+1]−H[y−1]≧0のときはg(y)=H[y]−H[y−1]とし、上記以外のときはg(y)=H[y]−H[y+1]とすることを視覚的に表している。
【0071】
図7は、上記の特徴パラメータ演算処理(ステップS20)での特徴パラメータf3の算出条件を模式的に表した図である。すなわちこの例は、特徴パラメータf3の算出式(4)で表したように、ある画素の濃度値I[x][y]が「1(白画素)」の場合は、両隣の列の濃度値が「0」で、かつ真下の画素の濃度値が「1」ならば、J[x][y]=1とし、その他の場合はJ[x][y]=0とすることを模式的に表している。なお特徴パラメータf3は、画像としての太さが1ピクセルである線の画素数をカウントした結果に相当する。
【0072】
〔濃度ヒストグラムの例〕
また図8は、上記の特徴パラメータ演算処理(ステップS22)の中で作成される濃度ヒストグラムの例を可視画像として表した図である。濃度ヒストグラムは、全データ内の音圧分布を表している。クラッシック音楽の入力音から得られた画像には、濃度値がある程度の正規分布を示す傾向にあることが分かる。
【0073】
濃度ヒストグラムからは、上記のように特徴パラメータf4〜f6を算出することができる。図8中に示されているように、f4はヒストグラムの最頻値であって、f5はその最大度数である。なおf6は度数の平均である。
【0074】
図9は、特徴パラメータf8〜f15の演算用に取得される二値変換後のデータを可視画像として表した図である。
特徴パラメータf8については、画像中の白画素(二値変換後のデータで値「1」を有するデータ)の総数から算出することができる。
また特徴パラメータf9については、画像の下半分の領域内にある白画素(二値変換後のデータで値「1」を有するデータ)数から、上半分の領域内にある白画素(二値変換後のデータで値「1」を有するデータ)数を差し引いて算出することができる。
特徴パラメータf10については、画像の下半分の領域内にある黒画素(二値変換後のデータで値「1」を有するデータ)の総数から算出することができる。
【0075】
次に、特徴パラメータf11については、画像の値を横方向へ順に追っていったとき、各行(0〜31まで)で白画素から黒画素、又は黒画素から白画素に変化した回数の合計(横方向のランレングスの数X[x][y])から算出することができる。
また、特徴パラメータf12については、画像の値を縦方向へ順に追っていったとき、各列(0〜499まで)で白画素から黒画素、又は黒画素から白画素に変化した回数の合計(縦方向のランレングスの数Y[x][y])から算出することができる。
【0076】
特徴パラメータf13については、画像の上4分の1の領域内にある白画素(二値変換後のデータで値「0」を有するデータ)の総数から算出することができる。
また、特徴パラメータf14については、画像の下4分の1の領域内にある白画素(二値変換後のデータで値「0」を有するデータ)の総数から算出することができる。
そして、特徴パラメータf15については、画像の下4行の領域内にある白画素(二値変換後のデータで値「0」を有するデータ)の総数から算出することができる。
【0077】
上記のように既知の音環境についてスペクトログラム及びスペクトログラムを画像処理した画像から音環境の特徴を捉えることで、分類関数の作成に際し、適切な特徴パラメータを選択できる。余分な特徴パラメータを無くすことで、後述の判別分析処理における補聴処理用IC16の負担が軽減される。
【0078】
〔判別分析の例〕
図10は、特徴パラメータf1〜f15を用いた判別分析の手順例を示すフローチャートである。判別分析の手順は、特徴パラメータf1〜f15の演算を実行した後に実行することができる。以下、順を追って説明する。
【0079】
ステップS100:判別分析部30の分類クラス演算部38にて、先ず特徴パラメータf1〜f3,f10〜f12(第1群の特徴パラメータ)を取得する。
ステップS102:次に分類クラス演算部38は、特徴パラメータf1〜f3,f10〜f12を説明変量としたマハラノビス距離の分類演算を行う。なお分類演算には、予めこの実施形態で用いる判別分析の手法に則って定義された分類関数を用いることができる。
【0080】
ステップS104:分類クラス演算部38による演算結果に基づき、識別部40で「音楽クラス」に分類されるか否かを識別、つまり判別分析を行う。具体的には、予め「音楽クラス」の音環境について得られたデータ特徴パラメータf1〜f3,f10〜f12の分布を既知としておき、その分布に対して補聴器使用時の入力音の特徴パラメータf1〜f3,f10〜f12から分類演算したマハラノビス距離を算出する。このとき、分類演算したマハラノビス距離が小さいほど、その特徴パラメータf1〜f3,f10〜f12がマハラノビス空間において既知の分布に近いことを意味する。このため、例えば予め「音楽クラス」に分類できるマハラノビス距離についての閾値を設定しておき、演算結果が閾値以下の場合は音環境が「音楽」であると識別し、閾値を超えてしまう場合は音環境が「音楽」以外であると識別することができる。
【0081】
〔音楽クラスと識別した場合〕
ステップS106:音環境が「音楽クラス」であると識別した場合(ステップS114:Yes)、識別部40は「音環境(4)」の結果をパラメータ設定部24に反映させる。音環境(4)は、上記のように「音楽」の音環境に応じて予め最適化されたパラメータの設定情報である。そしてこの場合、ここで識別部40による音環境の識別は完了しているため、これ移行の判別分析の手順を終了することができる。
【0082】
〔音楽クラス以外と識別した場合〕
ステップS108:これに対し、識別部40で音環境が「音楽クラス」以外であると識別した場合(ステップS104:No)、分類クラス演算部38は、その他の特徴パラメータf4〜f9,f11〜f15(第2群の特徴パラメータ)を取得する。なお、この中で特徴パラメータf11,f12については、上記のように「音楽クラス」の判別分析だけでなく、それ以外のクラスの判別分析にも用いることができる。このため特徴パラメータf11,f12は、第1群の特徴パラメータ、第2群の特徴パラメータの両方に該当する。
【0083】
ステップS110:そして分類クラス演算部38は、今度は特徴パラメータf4〜f9,f11〜f15を説明変量としたマハラノビス距離の分類演算を行う。ここでも分類演算には、予めこの実施形態で用いる判別分析の手法に則って定義された分類関数を用いることができる。
【0084】
ステップS112:分類クラス演算部38による演算結果に基づき、識別部40で分類クラスが上記の音環境(1)〜(3)のいずれに分類されるかを識別、つまり判別分析を行う。具体的には、予め音環境(1)〜(3)についてそれぞれ得られたデータから特徴パラメータf4〜f9,f11〜f15の分布を音環境別で既知としておく。したがって、ここでのマハラノビス空間には、予め3つの既知のグループが存在することになる。そしてマハラノビス空間内にて、補聴器使用時の入力音の特徴パラメータf4〜f9,f11〜f15から分類演算したマハラノビス距離をあてはめる。そして、このとき分類演算したマハラノビス距離が最も近いグループが音環境(1)〜(3)のいずれであるかを識別する。
【0085】
〔音環境(1)のクラスと識別した場合〕
ステップS114:先のステップS112で音環境(1)のクラスであると識別した場合、識別部40は「音環境(1)」の結果をパラメータ設定部24に反映させる。音環境(1)は、上記のように「静かな環境での会話」の音環境に応じて予め最適化されたパラメータの設定情報である。
【0086】
〔音環境(2)のクラスと識別した場合〕
ステップS116:また、先のステップS112で音環境(2)のクラスであると識別した場合、識別部40は「音環境(2)」の結果をパラメータ設定部24に反映させる。音環境(2)は、上記のように「うるさい環境での会話」の音環境に応じて予め最適化されたパラメータの設定情報である。
【0087】
〔音環境(3)のクラスと識別した場合〕
ステップS118:あるいは、先のステップS112で音環境(3)のクラスであると識別した場合、識別部40は「音環境(3)」の結果をパラメータ設定部24に反映させる。音環境(3)は、上記のように「うるさい環境」の音環境に応じて予め最適化されたパラメータの設定情報である。
【0088】
以上の手順を実行すると、判別分析部30(分類クラス演算部38、識別部40)はひとまず処理を終了する。この後、例えばある程度の時間が経過したり、あるいは入力音が大きく変化したりすると、判別分析部30は特徴パラメータf1〜f9の演算処理(図4)をリトライする。そして、判別分析部30はリトライ後の特徴パラメータf1〜f9を用いて判別分析の手順を実行し、改めて現在の音環境を識別する。識別結果は、同様にパラメータ設定部24に対して反映されるので、音環境の変化に応じてイヤホン18から出力される音の出力特性を自動調整することができる。
【0089】
〔第2実施形態〕
次に、音処理装置の第2実施形態を説明する。図11は、第2実施形態となる補聴器50の構成例を概略的に示したブロック図である。第2実施形態の補聴器50は、補聴処理部20の構成が第1実施形態の補聴器10と異なっている。以下、第1実施形態との相違点を中心として説明する。その他の第1実施形態と共通する構成には図中に同じ符号を付し、その重複した説明を省略するものとする。
【0090】
第2実施形態の補聴器50は、音環境(1)〜(4)のそれぞれに対応して第1〜第4補聴処理部52〜58を有している。これら第1〜第4補聴処理部52〜58には、予め環境(1)〜(4)に応じて最適化されたパラメータの設定情報が格納されている。第1〜第4補聴処理部52〜58は、設定されたパラメータを用いて出力音の信号処理を行う機能を有している。なお第2実施形態においても、第1〜第4補聴処理部52〜58のそれぞれに対し、パソコン44からパラメータを書き換えることができる。
【0091】
また第2実施形態の補聴器50は選択部51を有しており、この選択部51は、識別された音環境(1)〜(4)に応じて第1〜第4補聴処理部52〜58のいずれかを選択する。したがって、識別部40により識別された音環境に変化が生じた場合、その識別結果に基づき、選択部51は第1〜第4補聴処理部52〜58の選択を切り替える。これにより、第1実施形態と同じく音環境の変化に応じてイヤホン18から出力される音の出力特性をダイナミックに自動調整することができる。
【0092】
上述した第1,第2実施形態によれば、補聴器10,50の使用者を取り巻く音環境が変化した場合であっても、これを判別分析部30で自動的に識別し、その結果に応じて信号処理に必要なパラメータを自動的に設定することができる。
また、「時間」−「周波数」−「音圧レベル」の三次元のデータから抽出した値を判別分析の特徴パラメータに用いているため、従来の一般的なある時点での周波数特性を基礎とした分析手法に比較して、周波数特性の時間変化をより一層考慮した音環境の識別を実行することができる。これにより、実際の音環境に応じて補聴処理の内容を最適な状態に維持することができる。
【0093】
また、判別分析で設定している分類クラスを追加・変更することで、より多様な音環境にも対応することができる。これにより、補聴器の用途や使用場所についての選択の幅を広げ、より高性能な補聴動作を実現することができる。
【0094】
さらに、パラメータ設定部24や第1〜第4補聴処理部52〜58に設定されている音環境に応じたパラメータは、パソコン44を通じてカスタマイズすることができる。これにより、各音環境についても、使用者の聞こえ具合や嗜好に合わせた補聴処理をきめ細かく設定することができる。
【0095】
〔その他の実施形態〕
ここまでに挙げた第1,第2実施形態は、音処理装置を補聴器10,50等として構成するものであったが、音処理装置の実施形態は、補聴器以外であってもよい。
【0096】
〔録音装置としての実施形態〕
図12は、音処理装置を録音装置60として実施した場合の構成例を示すブロック図である。録音装置60は、マイクロホン14で捕捉した入力音をADC26でデジタル信号に変換し、これを信号処理して記憶部62にデジタルデータとして記憶(録音)することができる。記憶部62は、例えば内蔵の半導体メモリや、ハードディスク、外部メモリ等の大容量記憶媒体である。
【0097】
このような録音装置60は、例えばボイスレコーダ、ICレコーダ等として一般に実用化されている。なお録音装置60については、これまでの補聴処理部20が録音処理部20に置き換わるものとする。その他の構成については、第1,第2実施形態と共通であり、ここではその重複した説明を省略する。
【0098】
音処理装置を録音装置60として実施する場合、パラメータ設定部24には、予め音環境に応じて最適な録音時の信号処理に必要なパラメータを設定しておくことができる。そして判別分析部30は、入力音のデータから特徴パラメータf1〜f15を演算して判別分析の手順を実行し、録音場所についての音環境を識別する。識別結果は、これまでと同様にパラメータ設定部24に対して反映されるので、音環境の変化に応じて記憶部62に記録される音の特性(記録のための出力特性)をダイナミックに自動調整することができる。
【0099】
〔オーディオプレーヤーとしての実施形態〕
図13は、音処理装置をオーディオプレーヤー70として実施した場合の構成例を示すブロック図である。オーディオプレーヤー70は、例えばデジタル音源となる音データ72を信号処理部22にて読み出し、これを再生(出力)用に信号処理して出力音データを生成すると、DAC28でアナログ信号に変換してイヤホン18(スピーカ)を駆動することができる。なお音データ72は、例えば内蔵の半導体メモリや、ハードディスク、光ディスク、外部メモリ等の大容量記憶媒体に格納されている。このようなオーディオプレーヤー70は、例えば携帯型音楽プレーヤーとして一般に実用化されている。なおオーディオプレーヤー70については、これまでの補聴処理部20が再生処理部20に置き換わるものとする。その他の構成については、第1,第2実施形態と共通であり、ここではその重複した説明を省略する。
【0100】
音処理装置をオーディオプレーヤー70として実施する場合、パラメータ設定部24には、予め音環境に応じて最適な再生時の信号処理に必要なパラメータを設定しておくことができる。一方でオーディオプレーヤー70は、マイクロホン14で捕捉した周囲の入力音をADC26でデジタル信号に変換し、これをデータ処理部32で加工して判別分析部30に提供する。そして判別分析部30は、入力音のデータから特徴パラメータf1〜f15を演算して判別分析の手順を実行し、音楽の再生場所についての音環境を識別する。識別結果は、これまでと同様にパラメータ設定部24に対して反映されるので、音環境の変化に応じて再生される音の出力特性をダイナミックに自動調整することができる。
【0101】
本発明は上述した実施形態に制約されることなく、種々に変形して実施することができる。例えば、全ての実施形態において判別分析の手順は、例えば2段階に分けて行うことができる。例えば、1段階目で特徴パラメータf1〜f3,f10〜f12の合計6つだけを演算し、その上で「音楽クラス」又はそれ以外の識別を実行する。このとき、識別結果が「音楽クラス」であれば、そこで判別分析の手順を終了する。識別結果が「音楽クラス以外」となった場合、さらに2段階目に進んで残りの特徴パラメータf4〜f9,f13〜f15を演算し、その上で音環境の識別を実行する。これにより、1段階目で「音楽クラス」と識別できた場合、その後は判別分析の手順を実行する必要がなくなるため、それだけ判別分析に要する処理負担を軽減することができる。
【0102】
特徴パラメータf1〜f15は、その一部(例えばf1〜f9)だけを用いて判別分析を行うこともできる。例えば、図10のステップS100で特徴パラメータf1〜f3を取得しておき、ステップS104で「音楽クラス」の判別分析を行うこととしてもよい。また、ステップS108では残りの特徴パラメータf4〜f9を取得し、ステップS112で「音環境(1)」〜「音環境(3)」の判別分析を行うこととしてもよい。
【0103】
また、実施形態で挙げた音環境の分類はあくまで一例に過ぎず、その他に分類される音環境を判別分析によって識別することとしてもよい。
【符号の説明】
【0104】
10 補聴器
12 通信ケーブル
14 マイクロホン
16 音処理用IC
18 イヤホン
20 補聴処理部
30 判別分析部
44 パソコン
【特許請求の範囲】
【請求項1】
入力音から抽出した複数の特徴パラメータを用いて判別分析を行い、その入力音が予め複数に分類された音環境のいずれであるかを識別する識別手段と、
前記識別手段により識別された音環境に応じて出力音の出力特性を調整する調整手段と
を備えた音処理装置。
【請求項2】
マイクロホンを通じて入力された入力音の信号から複数の特徴パラメータを抽出するパラメータ抽出手段と、
前記パラメータ抽出手段により抽出された複数の特徴パラメータを用いて、予め判別分析の手法に基づいて定められた分類関数から分類クラスを演算する分類クラス演算手段と、
前記分類クラス演算手段による分類クラスの演算結果に基づき、入力音が予め複数に分類された音環境のいずれであるかを識別する識別手段と、
前記識別手段により識別された音環境に応じて出力音の出力特性を調整する調整手段と
を備えた音処理装置。
【請求項3】
請求項1又は2に記載の音処理装置において、
前記調整手段は、
複数の音環境別に出力音の出力特性を調整するためのパラメータを予め記憶するとともに、その記憶しているパラメータの中から、識別された音環境に対応するパラメータを設定して出力音の出力特性を調整することを特徴とする音処理装置。
【請求項4】
請求項1から3のいずれかに記載の音処理装置において、
入力音から抽出される複数の特徴パラメータには、少なくとも第1の特徴パラメータ群、及び第2の特徴パラメータ群を含み、
識別される複数の音環境には、少なくとも単独に分類される特定の音環境、及びその他として複数に分類される特定以外の音環境を含み、
前記識別手段は、
前記第1の特徴パラメータ群を用いて判別分析を行い、その入力音が前記特定の音環境であると識別できた場合、前記第2の特徴パラメータを用いて判別分析を行うことなく音環境の識別を終了することを特徴とする音処理装置。
【請求項5】
請求項1から4のいずれかに記載の音処理装置において、
前記特徴パラメータは、
所定時間内に入力された入力音の時間帯を表す「時間」の要素と、前記時間帯別の周波数スペクトルを表す「周波数」の要素と、前記周波数帯別の音圧レベルを表す「音圧」の要素とから構成される三次元のデータから算出されることを特徴とする音処理装置。
【請求項6】
請求項5に記載の音処理装置において、
前記判別分析に用いる分類関数は、
予め複数の既知である音環境からそれぞれ発せられた入力音のスペクトログラムを画像処理して抽出された複数の特徴パラメータに基づいて、予め設定されることを特徴とする音処理装置。
【請求項1】
入力音から抽出した複数の特徴パラメータを用いて判別分析を行い、その入力音が予め複数に分類された音環境のいずれであるかを識別する識別手段と、
前記識別手段により識別された音環境に応じて出力音の出力特性を調整する調整手段と
を備えた音処理装置。
【請求項2】
マイクロホンを通じて入力された入力音の信号から複数の特徴パラメータを抽出するパラメータ抽出手段と、
前記パラメータ抽出手段により抽出された複数の特徴パラメータを用いて、予め判別分析の手法に基づいて定められた分類関数から分類クラスを演算する分類クラス演算手段と、
前記分類クラス演算手段による分類クラスの演算結果に基づき、入力音が予め複数に分類された音環境のいずれであるかを識別する識別手段と、
前記識別手段により識別された音環境に応じて出力音の出力特性を調整する調整手段と
を備えた音処理装置。
【請求項3】
請求項1又は2に記載の音処理装置において、
前記調整手段は、
複数の音環境別に出力音の出力特性を調整するためのパラメータを予め記憶するとともに、その記憶しているパラメータの中から、識別された音環境に対応するパラメータを設定して出力音の出力特性を調整することを特徴とする音処理装置。
【請求項4】
請求項1から3のいずれかに記載の音処理装置において、
入力音から抽出される複数の特徴パラメータには、少なくとも第1の特徴パラメータ群、及び第2の特徴パラメータ群を含み、
識別される複数の音環境には、少なくとも単独に分類される特定の音環境、及びその他として複数に分類される特定以外の音環境を含み、
前記識別手段は、
前記第1の特徴パラメータ群を用いて判別分析を行い、その入力音が前記特定の音環境であると識別できた場合、前記第2の特徴パラメータを用いて判別分析を行うことなく音環境の識別を終了することを特徴とする音処理装置。
【請求項5】
請求項1から4のいずれかに記載の音処理装置において、
前記特徴パラメータは、
所定時間内に入力された入力音の時間帯を表す「時間」の要素と、前記時間帯別の周波数スペクトルを表す「周波数」の要素と、前記周波数帯別の音圧レベルを表す「音圧」の要素とから構成される三次元のデータから算出されることを特徴とする音処理装置。
【請求項6】
請求項5に記載の音処理装置において、
前記判別分析に用いる分類関数は、
予め複数の既知である音環境からそれぞれ発せられた入力音のスペクトログラムを画像処理して抽出された複数の特徴パラメータに基づいて、予め設定されることを特徴とする音処理装置。
【図1】
【図2】
【図4】
【図7】
【図10】
【図11】
【図12】
【図13】
【図3】
【図5】
【図6】
【図8】
【図9】
【図2】
【図4】
【図7】
【図10】
【図11】
【図12】
【図13】
【図3】
【図5】
【図6】
【図8】
【図9】
【公開番号】特開2012−83746(P2012−83746A)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2011−202775(P2011−202775)
【出願日】平成23年9月16日(2011.9.16)
【出願人】(000125347)学校法人近畿大学 (389)
【出願人】(000115636)リオン株式会社 (128)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願日】平成23年9月16日(2011.9.16)
【出願人】(000125347)学校法人近畿大学 (389)
【出願人】(000115636)リオン株式会社 (128)
[ Back to top ]