音声信号処理装置、音声信号処理方法、及び、通信端末
【課題】 少ない処理量で受話音声を聞き取り易くする。特に、人の声が雑音源として含まれる環境下での通話時に、受話音声を聞き取り易くする。
【解決手段】
バンドパスフィルタ61は、通話時にマイクロホン22より入力された音声信号から人の音声帯域の信号成分を抽出する。ミュート回路63とミュート制御回路64は、人の音声帯域の信号成分から定常的な信号成分、つまり通話時の話者音声を除いた周囲の他者音声の信号成分を抽出する。ミュート回路63の出力は、コンパレータ66を介してオートレベルコントローラ49のコントロール信号となる。オートレベルコントローラ49では、他者音声の信号成分から作られたコントロール信号により、受話音声信号の入出力特性が制御される。具体的には、他者音声による周囲環境雑音が大きい時、入力レベルに対して出力レベルが大きくなるように入出力特性が制御される。
【解決手段】
バンドパスフィルタ61は、通話時にマイクロホン22より入力された音声信号から人の音声帯域の信号成分を抽出する。ミュート回路63とミュート制御回路64は、人の音声帯域の信号成分から定常的な信号成分、つまり通話時の話者音声を除いた周囲の他者音声の信号成分を抽出する。ミュート回路63の出力は、コンパレータ66を介してオートレベルコントローラ49のコントロール信号となる。オートレベルコントローラ49では、他者音声の信号成分から作られたコントロール信号により、受話音声信号の入出力特性が制御される。具体的には、他者音声による周囲環境雑音が大きい時、入力レベルに対して出力レベルが大きくなるように入出力特性が制御される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、携帯電話網等の通信網を通じて送られてきた受話音声を聞き取り易くするための音声信号処理装置及び音声信号処理方法と、音声による通話が可能な携帯電話端末等の通信端末に関する。
【背景技術】
【0002】
従来より、携帯電話網等の通信網を通じて音声通話が行われる場合に関して、例えば受話側の通話音声信号に所定の信号処理を施すことにより、周囲雑音環境下における通話音声の聞き取り易さを向上させる技術が存在している。
【0003】
例えば、特開平7−221832号の公開特許公報(特許文献1)には、周囲雑音と受話音声の周波数特性を比較し、受話音声の周波数特性を変化させることで聞き取り易さを向上させるようにした技術が開示されている。
【0004】
【特許文献1】特開平7−221832号公報(図1)
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述のように、周囲雑音と受話音声の周波数特性を比較して受話音声の周波数特性を変化させるようなことを行うためには、周囲雑音と受話音声の両方の信号解析を行い、またそれら解析結果を比較するなどの多くの処理が必要になる。このため、例えば携帯電話端末のように処理能力が限られている装置にとっては負担が大きくなってしまうという問題がある。
【0006】
また、携帯電話端末は一般に様々な環境下で使用されるが、その使用環境の中でも特にパーティ会場内や居酒屋内のような環境で使用される場合には、通話中の話者以外の周囲の他者による音声が雑音源となる。しかしながら、このように他者音声による雑音が存在する環境下での使用において、通話音声を聞き取り易くするような技術は現在のところ存在していない。
【0007】
本発明は、このような実情に鑑みて提案されたものであり、少ない処理量で通話音声(受話音声)を聞き取り易くすることを可能とし、特に、話者以外の他者による音声が雑音源となる環境下でも、通話音声を聞き取り易くすることを可能とする、音声信号処理装置、音声信号処理方法、及び、通信端末を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の音声信号処理装置は、帯域信号成分抽出部と、定常信号成分抽出部と、信号調整部と、制御信号生成部とを有することにより、上述した課題を解決する。ここで、帯域信号成分抽出部は、音声通話時に少なくとも送話音声を集音するための音声集音手段より入力された音声信号から、所定周波数帯域の信号成分を抽出する。定常信号成分抽出部は、帯域信号成分抽出部が抽出した信号成分の中から、少なくとも定常的な信号成分を抽出する。制御信号生成部は、定常信号成分抽出部が抽出した定常的な信号成分を少なくとも用いて、信号調整部の入出力特性を変更するための制御信号を生成する。そして、信号調整部は、入力信号レベルに対する出力信号レベルを調整するレベル調整機能と、制御信号によりレベル調整機能におけるレベル調整の際の入出力特性を変更する入出力特性変更機能とを備え、音声通話時の受話音声信号が入力信号となされる。
【0009】
すなわち、本発明によれば、音声集音手段より入力された音声信号から所定周波数帯域の信号成分を抽出している。当該所定周波数帯域としては、人の音声の周波数帯域を挙げることができる。その所定周波数帯域の信号成分の中で、特に定常的な信号成分は、通話中の話者音声を除いた周囲の他者による音声の信号成分と考えることができる。したがって、本発明では、当該定常的な信号成分を用い、通話音声の際の受話音声信号のレベルを調整すること、具体的には、その信号成分の信号レベルの大きさに応じて、受話音声側のダイナミクスを制御するようにしている。
【0010】
また、本発明の音声信号処理装置において、帯域信号成分抽出部は、入力音声信号から第一の周波数帯域の信号波形を抽出する第一のフィルタと、入力音声信号から第二の周波数帯域の信号波形を抽出する第二のフィルタと、第一のフィルタ通過後の信号波形のエンベロープを検波する第一のエンベロープ検波器と、第二のフィルタ通過後の信号波形のエンベロープを検波する第二のエンベロープ検波器とを有する。そして、帯域信号成分抽出部は、第一のエンベロープ検波器によるエンベロープ検波後の信号波形を第一の周波数帯域の信号成分として出力し、第二のエンベロープ検波器によるエンベロープ検波後の信号波形を第二の周波数帯域の信号成分として出力する。また、定常信号成分抽出部は、第一のエンベロープ検波部によるエンベロープ検波後の信号波形をミュートするミュート部と、第一のエンベロープ検波部によるエンベロープ検波後の信号波形の信号レベルが所定閾値を超え且つその状態が所定時間経過した時にミュート部のミュートを解除し、ミュート解除後に信号レベルが所定閾値を下回った時にミュート部のミュートを有効にするミュート制御部とを有し、当該ミュート部の出力波形を定常的な信号成分として出力する。そして、制御信号生成部は、ミュート部から出力された信号波形からなる定常的な信号成分と、第二のエンベロープ検波器によるエンベロープ検波後の信号波形からなる第二の周波数帯域の信号成分とを用いて制御信号を生成する。
【0011】
すなわち、本発明によれば、所定周波数帯域の信号成分として、第一の周波数帯域と第二の周波数帯域の信号成分を抽出している。第一の周波数帯域としては、人の音声の周波数帯域を挙げることができる、第二の周波数帯域としては、人の音声の周波数帯域よりも低い周波数帯域を挙げることができる。そして、本発明によれば、第一の周波数帯域の信号成分についてミュート部を介した信号成分と、第二の周波数帯域の信号成分とに基づいて、制御信号を生成している。
【発明の効果】
【0012】
本発明によれば、入力音声信号から抽出された所定周波数帯域の信号成分に基づいて、音声通話時の受話音声信号のレベルを調整すること、すなわち例えば、周囲環境雑音が大きい時には受話音声信号のレベルを上げるようなレベル調整を行うことにより、少ない処理量で通話音声(特に受話音声)を聞き取り易くすることを可能にしている。特に本発明によれば、所定周波数帯域として、人の音声の周波数帯域を用いることで、人の声が雑音源として含まれる環境下での通話時に、受話音声を聞き取り易くすることが可能となる。
【0013】
また、所定周波数帯域として、例えば人の音声の第一の周波数帯域とそれよりも低い第二の周波数帯域をそれぞれ抽出し、それぞれの帯域での解析に必要な時間的遅延を最小限に抑えて組み合わせることで、広帯域の周囲環境雑音に適応でき、且つ、より反応時間の速い受話音声信号のレベル調整を実現することが可能となる。
【発明を実施するための最良の形態】
【0014】
以下、図面を参照しながら、本発明の一実施形態について説明する。
【0015】
なお、本実施形態では、本発明の一例として、携帯電話端末を挙げているが、勿論、ここで説明する内容はあくまで一例であり、本発明はこの例に限定されないことは言うまでもない。
【0016】
〔携帯電話端末の概略構成〕
図1には、本実施形態の携帯電話端末の概略構成を示す。
【0017】
図1において、通信アンテナ12は、例えば内蔵アンテナであり通話や、電子メール等のパケット通信のための信号電波の送受信を行う。通信回路11は、送受信信号の周波数変換、変調と復調等を行う。
【0018】
制御部10は、CPU(中央処理ユニット)からなり、通信回路11における通信の制御、音声処理の制御、画像処理の制御、その他各種信号処理や各部の制御等を行う。また、制御部10は、メモリ部15に蓄積されている各種の制御プログラムやアプリケーションプログラムの実行及びそれに付随する各種データ処理等を行う。
【0019】
スピーカ21は、携帯電話端末に設けられている受話用のスピーカや、リンガ(着信音)、アラーム音、警告音、再生音楽、ディジタル音声、再生動画像の音声等の出力用スピーカからなり、音声処理部20から供給された音声信号を音響波に変換して空気中に出力する。
【0020】
マイクロホン22は、送話用及び外部音声集音用のマイクロホンであり、音響波を音声信号に変換し、その音声信号を音声処理部20へ入力する。
【0021】
音声処理部20は、復号等の所定の音声処理により生成した音声データをディジタル/アナログ変換した後に増幅し、その増幅後の音声信号を上記スピーカ21へ出力する。また、音声処理部20は、マイクロホン22から供給された入力音声信号を増幅及びアナログ/ディジタル変換し、そのアナログ/ディジタル変換後の音声データの符号化等の所定の音声処理を施す。また特に、本発明実施形態の携帯電話端末の場合、上記音声処理部20は、ノイズ検出部23と受話音声処理部24を備えている。これらノイズ検出部23と受話音声処理部24の詳細な構成及び動作については後述する。
【0022】
操作部13は、本実施形態の携帯電話端末の図示しない筐体上に設けられているテンキーや発話キー、終話/電源キー等の各キーや十字キー,ジョグダイヤル等の各操作子と、それら操作子が操作された時の操作信号を発生する操作信号発生器とからなる。
【0023】
表示部14は、例えば液晶ディスプレイや有機EL(ElectroLuminescent)ディスプレイ等の表示デバイスと、そのディスプレイの表示駆動回路とを含み、画像処理部25から供給された画像信号により、上記ディスプレイ上に例えば電子メール等の各種文字やメッセージを表示したり、静止画像や動画像等の表示を行う。
【0024】
画像処理部25は、表示部14に表示される文字、記号、画像等の画像信号を生成する処理を行う。また、画像処理部25は、制御部10による制御の元で、各種のユーザインターフェース画面の表示やウェブページの表示等をも行う。
【0025】
メモリ部15は、ROM(Read Only Memory)とRAM(Random Access Memory)を含む。ROMは、NAND型フラッシュメモリ(NAND-type flash memory)のような書き換え可能な記憶媒体を含み、例えば、OS(Operating System)のプログラムや制御部10が各部を制御するための制御プログラム、各種のアプリケーションプログラム、例えば圧縮符号化された楽曲データコンテンツや動画像データコンテンツの他、各種の初期設定値、フォントデータ、各辞書データ、機種名情報や端末識別情報などをも記憶する。RAMは、制御部10が各種のデータ処理を行う際の作業領域として、随時データを格納する。
【0026】
その他、図1には図示を省略しているが、本実施形態の携帯電話端末は、写真画像の撮影のためのディジタルカメラ部、キー照明や着信ライト用などのLED(発光ダイオード)とその駆動部、各部へ電力を供給するバッテリとその電力をコントロールするパワーマネージメントIC部、いわゆるブルートゥース方式(Bluetooth:登録商標)やUWB(Ultra Wide Band)方式、無線LAN(Local Area Network)などによる近距離無線通信を行うための近距離無線通信部、非接触ICカード機能とリーダライタ機能とを備えた非接触通信処理部、GPS(Global Positioning System)通信部、外部メモリ用スロット、ディジタル放送の受信チューナ部とAVコーデック部、タイマ(時計部)など、一般的な携帯電話端末に設けられる各構成要素についても備えている。
【0027】
[ノイズ検出部及び受話音声処理部の詳細及び動作の説明]
図2には、本実施形態の携帯電話端末の音声処理部20内に設けられているノイズ検出部23と受話音声処理部24の詳細な構成を示す。なお、以下、説明の都合上、アナログ音声信号を処理する例を挙げているが、本発明はディジタル化された音声信号を処理する場合も適用可能であることは言うまでもない。
【0028】
本実施形態の携帯電話端末において、上記受話音声処理部24は、ダイナミクス調整部50とフォルマント調整部40とを有している。上記ダイナミクス調整部50は、本実施形態の携帯電話端末により通話が行われている時に、通話の相手先から送られてきた受話音声信号の入出力特性(ダイナミクス)を、ノイズ検出部23からのコントロール信号に応じて制御する入出力特性変更機能部である。上記フォルマント調整部40は、上記受話音声信号に含まれる後述するフォルマントのうち、特に周囲環境雑音のピークとは帯域が重なり難い二番目のフォルマントを強調する処理を行うレベル調整機能部、すなわち受話音声の声の輪郭成分を持ち上げるようなイコライザとなされている。
【0029】
上記ノイズ検出部23は、周囲環境雑音レベル検出部とコントロール信号生成部とからなり、本実施形態の携帯電話端末にて通話が行われている時、マイクロホン22にて集音された音声信号に含まれる周囲環境雑音レベルを検出し、その周囲環境雑音レベルから、上記ダイナミクス調整部50の入出力特性を制御するためのコントロール信号を生成する。
【0030】
すなわち、本実施形態の携帯電話端末は、周囲環境雑音レベルに基づいて、音声通話時の受話音声信号のレベルを調整すること、具体的には、例えば周囲環境雑音レベルが大きい時には、受話音声信号のレベルを上げるように受話音声側のダイナミクスを制御することにより、少ない処理量で通話音声(特に受話音声)を聞き取り易くすることを可能にしている。
【0031】
また、本実施形態の携帯電話端末によれば、上記ノイズ検出部23は、例えば通話時の話者音声を除く他者音声による周囲環境雑音についても検出し、当該他者音声による周囲環境雑音に基づいて上記コントロール信号を生成する。
【0032】
これにより、本実施形態の携帯電話端末では、他者音声による周囲環境雑音が存在する場合でも、受話音声を聞き取り易くすることを可能としている。
【0033】
以下、上述したような受話音声を聞き取り易くするための構成とその動作について具体的に説明する。
【0034】
図2において、音声処理部20内に設けられているノイズ検出部23のマイク音声入力端子31には、通話に使用されているマイクロホン22から出力される音声信号が入力される。当該マイク音声入力端子31へ入力された音声信号は、アンプ32により増幅された後、送話音声信号として、送話音声出力端子35から図示しない通常の送話音声処理用の回路部へと出力される。
【0035】
また、本実施形態において、上記アンプ32にて増幅された後の音声信号は、上記送話音声の出力経路から分岐され、それぞれが並列に設けられたローパスフィルタ(LPF)33とバンドパスフィルタ61へ通される。
【0036】
上記ローパスフィルタ33とバンドパスフィルタ61への各分岐経路は、上記マイクロホン22から入力された音声信号に周囲環境雑音がどの程度含まれているかを調べるために設けられている。本実施形態の場合、詳細については後述するが、上記ローパスフィルタ33側の分岐経路は、人間の音声を略々除いた周囲環境雑音について調べるために設けられている。一方、バンドパスフィルタ61側の分岐経路は、通話時の話者音声を除いた他者音声による周囲環境雑音について調べるために設けられている。
【0037】
ここで、人間の声の周波数特性には、図3中の実線で示す特性曲線のように、特定のピーク(フォルマント)が存在している。当該フォルマントの周波数には個人差があるが、概ね300Hz〜3.4kHzの間に大きな二つのピーク(フォルマント)があり、一番目のフォルマントは500kHz〜1kHz、二番目のフォルマントは1.5kHz〜3kHz近辺に存在する。
【0038】
一方で、周囲環境雑音は環境によって様々なものが考えられるが、一般的な携帯電話端末の使用環境での周囲環境雑音の周波数特性は、図3中の点線で示す特性曲線のように、低い帯域から高い帯域に向かって減衰していくようなものが多い。
【0039】
なお、図4には周囲環境雑音が含まれた実測による受話音声信号の振幅−周波数特性図を示し、図5には図4の受話音声信号のうち0Hz〜300Hzまでを拡大して示している。また、図6には実測による受話音声信号のフォルマントの振幅−周波数特性図を示し、図7には図6の受話音声信号のうち0Hz〜300Hzまでを拡大して示している。
【0040】
このようなことから、本実施形態の携帯電話端末は、マイクロホン22からの入力音声信号内に、人間の音声を略々除いた周囲環境雑音がどの程度含まれているかを特定するために、例えば図8及び図9に示すような特性を有するローパスフィルタ33を備えている。なお、図9は、図8のx軸(周波数軸)の縮尺を変えることにより、図8の低周波数帯域部分を拡大して示した図である。すなわち本実施形態では、上記ローパスフィルタ33として、図3のように人間の声の周波数特性における一番目のフォルマントよりも低い帯域をカットオフ周波数(本発明の第二の周波数帯域)とする、例えば図8及び図9に示すような比較的急峻な特性を備えたフィルタを用いている。なお、本実施形態では、当該ローパスフィルタ33として、カットオフ周波数が例えば50Hz〜140Hz(特に図8及び図9の例では100Hz程度)で、四次程度のチェビシェフ特性を有するフィルタを用いている。
【0041】
本実施形態によれば、上述したローパスフィルタ33による低域通過がなされることにより、図10に示すように、マイクロホン22から入力された音声信号波形Bfは、LPF通過後信号波形Alpfとなされる。すなわち、LPF通過後信号波形Alpfは、上記マイクロホン22の出力信号から人間の声の成分が非常に少ない帯域成分(つまり人間の音声を略々除いた周囲環境雑音の信号成分)のみが取り出された信号波形となっている。
【0042】
上述のローパスフィルタ33を通過した信号(つまり人間の音声を略々除いた周囲環境雑音の信号成分)は、図2に示すように、エンベロープ検出器34へ送られる。
【0043】
上記エンベロープ検出器34では、上記ローパスフィルタ33を通過した後の信号のエンベロープ検波を行うこと、具体的には、LPF通過後信号波形Alpfを一定時間間隔毎に平均化してサンプリングすることにより、上記周囲環境雑音の大まかなエネルギー推移を表す信号を生成する。すなわち本実施形態において、当該エンベロープ検出器34の出力信号は、上記マイクロホン22から入力された音声信号内に、人間の音声を略々除いた周囲環境雑音がどの程度含まれているかを調べた結果を表す信号となっている。なお、当該エンベロープ検出器34において、どの程度の刻み(一定時間間隔毎に平均化する周期)で上記エネルギー推移を検出するかについてはここでは特に限定しないが、後段の受話音声処理部24で用いられる処理時間単位(例えば100msec)に応じた時間刻みにすることが望ましい。
【0044】
ところで、上述したローパスフィルタ33により抽出される周囲環境雑音成分は、人間の声の音域よりも低い音域の雑音成分に限られている。但し、携帯電話端末は、例えばパーティ会場内や居酒屋内のような環境で使用されることもある。すなわち、携帯電話端末がそのような環境下で使用されている場合には、通話中の話者以外の周囲の他者による音声も、上記周囲環境雑音に含まれることになる。
【0045】
一方で、人の音声が雑音源となるような環境下で携帯電話端末により通話が行われる場合において、通話音声の聞き取り易さを向上させるために前述のような受話音声信号のレベル調整を行うような処理を実行する際には、通話音声と周囲の他者音声による雑音成分とを区別する必要がある。すなわち、通話音声に基づいて受話音声信号のフォルマントを強調するようなレベル調整が行われてしまうと、受話音声の音質が劣化してしまうことになるため、例えば、通話音声が存在する期間を除き、周囲の他者音声のみが存在している期間において当該他者音声を雑音成分として検出するような処理が必要となる。
【0046】
このようなことから、本実施形態では、マイクロホン22から入力された音声信号内に、通話時の話者音声を除いた他者音声による周囲環境雑音がどの程度含まれているかを特定するために、上記ノイズ検出部23内に、バンドパスフィルタ61の分岐経路を設けている。
【0047】
上記バンドパスフィルタ61は、例えば図11に示すような特性を有している。すなわち、上記バンドパスフィルタ61は、図11に示すように、人間の声の帯域を含む200Hzから数kHz程度の比較的高い帯域(本発明の第1の周波数帯域)を通過させる特性を備えたフィルタとなされている。
【0048】
本実施形態によれば、上述したバンドパスフィルタ61にて帯域通過がなされることにより、図12に示すように、マイクロホン22から入力された音声信号波形Bfは、BPF通過後信号波形Abpfとなされる。すなわち、BPF通過後信号波形Abpfは、上記マイクロホン22の出力信号から人間の声の成分に近い帯域成分(つまり人間の音声による周囲環境雑音を含む信号成分)が抽出された信号波形となっている。
【0049】
ここで、上述のように人間の声の成分に近い周波数帯域成分を周囲環境雑音の検出に使用した場合には、通話時の話者自身の声の成分をも周囲環境雑音として検出してしまうことが問題となる。
【0050】
本実施形態の携帯電話端末は、この問題を解決するため、上記バンドパスフィルタ61側の分岐経路内に、図2に示したようにミュート制御回路64とミュート回路63を備えている。
【0051】
すなわち、通話時の話者音声と、周囲環境雑音としての他者音声とでは、音声周波数帯域については略々同じになると考えられる一方で、時間的連続性には違いがある。具体的に説明すると、通話時には言葉が用いられているため、話者音声は、文の区切れや息継ぎ、通話相手の発話などにより、音声の時間的連続性が少なく、非定常に変化するものとなる。これに対し、周囲環境雑音としての他者音声は、当該他者の人数が増えて騒音が大きくなるほど、時間的な途切れが少ない定常的なものとなる。
【0052】
上記ミュート制御回路64とミュート回路63は、上述したような音声の時間的連続性の違いから双方を識別するために設けられている。
【0053】
図2の説明に戻り、上記バンドパスフィルタ61を通過した信号(人間の音声帯域の信号成分)は、前述のエンベロープ検出器34と同様のエンベロープ検出器62を介して、ミュート回路63とミュート制御回路64へ入力する。
【0054】
上記ミュート回路63は、初期状態では入力信号をミュートする設定(ミュートオン)となされており、ミュート制御回路64からミュートオフ信号が供給された時に、上記ミュートを解除(ミュートオフ)する。
【0055】
上記キュート制御回路64は、上記エンベロープ検出器62からの信号レベルが、予め決められた所定閾値を超え、その状態が予め決められた所定時間(数秒程度)連続した時、上記ミュートオフ信号を上記ミュート回路63へ出力する。すなわち、ミュート制御回路64は、上記エンベロープ検出器62の出力信号レベルが上記閾値を超えている状態の連続時間を測定し、その状態が上記所定時間経過した時に上記ミュートオフ信号を出力する。
【0056】
また、ミュート制御回路64は、上記ミュート回路63のミュートが解除された状態になった後(ミュート解除信号を出力した後)、上記エンベロープ検出器63からの出力信号レベルが上記所定閾値を下回った時には、直ぐに上記ミュート回路63のミュートを有効(ミュートオン)にするためのミュートオン信号を出力する。
【0057】
すなわち、本実施形態において、上記バンドパスフィルタ61の分岐経路では、ミュート制御回路64への入力信号が非定常的で時間的連続性が無い信号、つまり通話者の音声信号に対応した信号である場合には、ミュート回路63がミュートオンとなり、上記エンベロープ検出器62の出力信号はミュート回路63の後段へは出力されない。一方、ミュート制御回路64への入力信号が定常的で時間的連続性を有した信号、つまり周囲環境雑音としての他者音声信号に対応した信号である場合には、ミュート回路63がミュートオフとなり、上記エンベロープ検出器62の出力信号はミュート回路63の後段へ出力される。
【0058】
上記ミュート回路63の出力信号は、コンパレータ66へ送られる。また、当該コンパレータ66へは、前述のローパスフィルタ33側の分岐経路のエンベロープ検出器34の出力信号も供給されている。なお、ミュート回路63とコンパレータ66との間には、ミキシング用ボリューム回路65が設けられている。当該ミキシング用ボリューム回路65は、上記ローパスフィルタ33側の分岐経路とバンドパスフィルタ61側の分岐経路上の双方の信号強度のバランスを調整するために設けられている。
【0059】
上記コンパレータ66は、バンドパスフィルタ61側分岐経路の上記ミュート回路63を介したエンベロープ検出器62の出力信号と、前記ローパスフィルタ33側分岐経路のエンベロープ検出器34の出力信号とのレベルを比較し、大きい方の信号を後段の受話音声処理部24へコントロール信号として出力する。なお、当該コンパレータ66におけるレベル比較は、一例として、上記エンベロープ検出器34とエンベロープ検出器62における前記一定時間間隔の周期に同期して行われる。
【0060】
図13の(A)にはエンベロープ検出器62の出力信号波形の一例を示し、図13の(B)にはミュート回路63の出力信号波形の一例を、図13の(C)にはミキシング用ボリューム回路65の出力信号波形の一例を示す。
【0061】
この図13の例に示すように、上記ミュート回路63及びミュート制御回路64への入力信号が図13の(A)に示すような波形信号であった場合、上記ミュート制御回路64は、当該信号波形のレベルが図13の(A)の所定閾値Lthを超えた状態が所定時間Tth連続した時に、ミュートオフ信号をミュート回路63へ出力する。これにより、ミュートオフになされたミュート回路63からは、図13の(B)に示すような波形信号が出力されることになる。
【0062】
またその後、上記ミュート制御回路64への入力信号が上記所定閾値Tthを下回った場合、ミュート制御回路64は、直ちにミュートオン信号をミュート回路63へ出力する。これにより、ミュートオンになされたミュート回路63からは、図13の(B)に示すように信号波形が出力されないようになる。
【0063】
また、図14の(A)にはローパスフィルタ33の分岐経路側のエンベロープ検出器34の出力信号波形の一例を示し、図14の(B)には上記ミキシング用ボリューム回路65の出力信号波形の一例を、図14の(C)にはコンパレータ66の出力信号波形(コントロール信号)の一例を示す。
【0064】
この図14の例に示すように、コンパレータ66からは、バンドパスフィルタ61側の分岐経路のミキシング用ボリューム回路66からの出力信号と、ローパスフィルタ33側の分岐経路のエンベロープ検出器34の出力信号とのレベル比較により、大きい方となった信号が出力される。
【0065】
上述したように、本実施形態によれば、ローパスフィルタ33側の分岐経路による人間の音声を略々除いた周囲環境雑音に基づくコントロール信号と、バンドパスフィルタ61側の分岐経路による他者音声の周囲環境雑音に基づくコントロール信号のうち、信号レベルの大きい方の信号が、受話音声処理部24へ出力される。
【0066】
これにより、例えば人間の音声を略々除いた周囲環境雑音よりも、人間の音声による周囲環境雑音が大きい場合、受話音声処理部24では、当該人間の音声に起因した周囲環境雑音レベルに応じたコントロール信号により、受話音声信号のレベル調整が行われることになる。一方、人間の音声による周囲環境雑音よりも、人間の音声を略々除いた周囲環境雑音が大きい場合、受話音声処理部24では、当該人間の音声を略々除いた周囲環境雑音レベルに応じたコントロール信号により、受話音声信号のレベル調整が行われることになる。
【0067】
また、本実施形態によれば、通話による話者音声が存在している期間と、他者音声の周囲環境雑音のみが存在している期間を明確に区別できるため、特に通話による話者音声が存在している期間では、人間の音声を略々除いた周囲環境雑音レベルに応じたコントロール信号により、受話音声処理部24で受話音声信号のレベル調整が行われることになる。
【0068】
また、本実施形態によれば、人間の音声を略々除いた周囲環境雑音と人間の音声に起因した周囲環境雑音とを並列に検出可能となされている。そして、人間の音声に起因した周囲環境雑音によるコントロール信号は、バンドパスフィルタ61側分岐経路により少なくとも所定時間分だけ遅延して生成され、その一方で、人間の音声を略々除いた周囲環境雑音に基づくコントロール信号については、ローパスフィルタ33側の分岐経路により常時生成されている。すなわち、本実施形態の受話音声処理部24では、人間の音声を略々除いた周囲環境雑音から常時生成されているコントロール信号による前記レベル調整の際の反応速度の速さを活かしたまま、人間の音声に起因した周囲環境雑音による前記レベル調整も可能となっている。
【0069】
[ダイナミクス調整部の構成及び動作説明]
以下、上述した受話音声処理部24内のダイナミクス調整部50とフォルマント調整部40の詳細な構成及び動作について説明する。
【0070】
先ず、ダイナミクス調整部50から説明し、その後にフォルマント調整部40の説明を行う。
【0071】
当該受話音声処理部24において、受話音声入力端子45には、図示しない通常の受話音声処理用の回路部から送られてきた受話音声信号が入力される。
【0072】
この受話音声信号は、後述するフォルマント調整部40のバンドパスフィルタ(BPF)44へ送られると共に、ディレイ・フェーズシフタ部47へも送られる。
【0073】
後述するディレイ・フェーズシフタ部47を介し、さらに後述する加算器46を介した受話音声信号は、ダイナミクス調整部50のアンプ48にて必要に応じて増幅された後、オートレベルコントローラ(ALC)49へ入力する。
【0074】
また、前記ノイズ検出部23のコンパレータ66から出力されたコントロール信号は、当該ダイナミクス調整部50のリミッタ51により、規定レベルを超える部分についてレベル制限が掛けられ、さらにアンプ52にて必要に応じてレベル調整された後、オートレベルコントローラ49へ送られる。なお、コンパレータ66から出力されたコントロール信号の信号波形が例えば図15に示すような波形であった場合、上記ダイナミクス調整部50のリミッタ51にてレベル制限が掛けられ、アンプ52にてレベル調整がなされた後のコントロール信号波形は、例えば図16に示すような波形となる。
【0075】
上記オートレベルコントローラ49の出力信号は、受話音声出力端子53を介して受話用のスピーカ21へ出力される。なお、本実施形態のオートレベルコントローラ49の詳細な構成については後述する。
【0076】
ここで、一般的なオートレベルコントローラ(ALC)は、入出力特性曲線が一つに決められており、入力レベルと出力レベルが一対一に対応する特性を有するものとなされている。これに対し、本実施形態の受話音声処理部24に設けられているオートレベルコントローラ49は、上記図16に示したようなコントロール信号によって入出力特性そのものを変化させることが可能なものとなされている。具体的には、本実施形態のオートレベルコントローラ49は、図17〜図19に示すような可変ヒンジ点を持った入出力特性を有したものとなされている。なお、図18は図17の可変ヒンジ点近傍を拡大して示す図であり、また、図19はコントロール信号のレベル変化と可変ヒンジ点の変化の関係を示す図である。
【0077】
すなわち、本実施形態のオートレベルコントローラ49は、図17及び図18に示すように、例えば人間の音声による受話音声の信号レベルであると考えられる所定入力レベル範囲内(図17,図18では例えば−30dB以上で且つ上限としての−10dBの範囲内)において、入力レベルに対する出力レベルの値を例えば最大10dB分まで1dB毎に複数段階(一例として1dBステップ毎の11段階)に渡って変更可能となされており、図19に示すように、一つ前のコントロール信号の値に対してその次のコントロール信号の値が大きくなれば上記可変ヒンジ点を出力レベルが大きくなる方向へ一段階のみ移行(1ランクアップ)させる。逆に、一つ前のコントロール信号の値に対してその次のコントロール信号の値が小さくなれば、上記可変ヒンジ点を出力レベルが小さくなる方向に移行(1ランクダウン)させるようなレベル制御を行う。
【0078】
より具体的に説明すると、本実施形態のオートレベルコントローラ49は、入力レベルが上記所定入力レベル範囲内である時に、例えば、上記コントロール信号の値が大きい場合(つまり周辺環境雑音が大きい場合)には、入力レベルに対して出力レベルを上げる方向へ上記可変ヒンジ点を変化させて当該オートレベルコントローラの効果を強くするダイナミクス制御を行う。一方、例えば、上記コントロール信号の値が小さい場合(つまり周辺環境雑音が小さい場合)には、入力レベルに対して出力レベルが一対一の関係となる方向へ近づくように上記可変ヒンジ点を変化させて当該オートレベルコントローラの効果を弱めるダイナミクス制御を行う。
【0079】
言い換えると、本実施形態のオートレベルコントローラ49は、一定レベル以上の受話音声信号が入力されている場合において、前述した周辺環境雑音が大きい時(つまりコントロール信号の値が大きい時)には、オートレベルコントローラの入出力特性を、例えば、入力レベル:出力レベル=1:n(この場合のnは1より大きく上記1dBステップ毎の各可変ヒンジ点に応じた値)となる方向へ調整することにより、例えば図20に示すように受話音声信号の出力レベルを上げて受話音声を聞こえ易くする。一方、周辺環境雑音が小さい時(コントロール信号の値が小さい時)には、オートレベルコントローラの入出力特性を、入力レベル:出力レベル=1:1に近づく方向へ調整することにより、オートレベルコントローラでのダイナミクス制御による受話音声の音質劣化を必要最小限に抑えるようにする。なお、図20中の実線は実際の受話音声信号の振幅波形を表しており、図20中の一点鎖線は本実施形態により出力レベルが上げられた時の受話音声信号の振幅波形を表している。
【0080】
上述のように、本実施形態によれば、例えば、周辺環境雑音が大きくなり、上記オートレベルコントローラ49の入出力特性を上記入力レベル:出力レベル=1:nとなる方向へ調整した場合には、受話音声に多少の音質劣化が生じたとしても、上記周辺環境雑音に対して相対的に受話音声のレベルが大きくなるため、その受話音声は聞き易いものとなる。一方、周辺環境雑音が小さくなり、オートレベルコントローラ49の入出力特性を上記入力レベル:出力レベル=1:1に近づく方向へ調整した場合、受話音声のレベルは大きくならないが、元々の周辺環境雑音のレベルも小さいため、当該周辺環境雑音が通話に悪影響を及ぼす可能性は低くなり、また、受話音声の音質劣化も少なくなるため、当該受話音声は聞き易いものとなる。
【0081】
なお、上述の説明では、図17及び図18のように、入力レベルに対する出力レベルの値を、例えば最大10dB分まで1dB毎に複数段階に渡って変更可能とする可変ヒンジ点を例に挙げたが、可変ヒンジ点は上述のような非連続的に変化するものだけでなく、例えば連続的に変化するものであっても良い。
【0082】
また、上述の例では、説明を簡略にするために、オートレベルコントローラ49における上述の可変ヒンジ点によるダイナミクス制御は、周囲環境雑音の大きさの変化にそのまま追従して行われる例を挙げている。しかしながら、例えば、周囲環境雑音が急激に変化するような場合には、上記ダイナミクス制御後の受話音声が、利用者の聴覚上で違和感を感じるほど急激に変化してしまうようなことも有り得る。このため、本実施形態のオートレベルコントローラ49でのダイナミクス制御は、上述したような急激な変化を防ぐために、例えば可変ヒンジ点の変化に対して或る程度のヒステリシスを設けるように成されている。
【0083】
また、前述の図17及び図18では、オートレベルコントローラ49の入出力特性が変更される部分の特性曲線として、或る所定の入力レベル(図17,図18の例では−20dBの入力レベル)の部分で折れ曲がるような特性曲線(可変ヒンジ点の特性曲線)を例に挙げているが、例えば図21に示すように、入力レベルと出力レベルが一対一となる入出力特性曲線に対して並行で且つ或る程度の長さの線分を有した状態で、複数段階(非連続的)或いは連続的に変更されるような特性曲線を用いることも可能である。
【0084】
すなわち、この図21の例の場合、オートレベルコントローラ49は、人間の音声による受話音声の信号レベルであると考えられる所定入力レベル範囲内において、入力レベルに対する出力レベルの値を最大で例えば10dB分まで1dB毎に複数段階(例えば1dBステップ毎の11段階)に渡って変更可能となされており、一つ前のコントロール信号の値に対してその次のコントロール信号の値が大きくなった時には上記出力レベルが大きくなる方向へゲインを一段階のみ移行させる。逆に、一つ前のコントロール信号の値に対してその次のコントロール信号の値が小さくなった時には、出力レベルが小さくなる方向へゲインを移行させるようなダイナミクス制御を行う。この図21の例の場合、オートレベルコントローラ49が元々有している入出力特性曲線を並行移動させるだけであるため、回路構成の変更が少なく安価且つ容易に実現することができる。なお、ダイナミクス制御の際には、例えば、入出力レベルを検出すると共に、ゲインを調整するアタック時間(ゲインを下げる際の時間)と、リカバリ時間(ゲインを上げる際の時間)を設け、それらアタック時間とリカバリ時間を上記入出力レベルの検出値に応じて調整することで、ゲインの変化が急激にならないようにすることが望ましい。
【0085】
また、上述の説明ではアナログ処理を例に挙げて説明しているが、その他にも、例えばディジタル処理を用いる場合には、コントロール信号と可変ヒンジ点との間に、例えば図22や図23に示すような関係を持たせ、一定時間間隔(例えば100msec間隔)でコントロール信号が入力する毎に、その時点での可変ヒンジ点に対応するコントロール信号の値と上記入力したコントロール信号との比較を行い、上記入力したコントロール信号の値の方が大きければ可変ヒンジ点を出力が大きくなる方向に一段階のみ移行させ、逆に、入力したコントロール信号の値の方が小さければ可変ヒンジ点を出力が小さくなる方向に移行させるようにしても良い。このようにすることで、ディジタル処理を用いる場合であっても、可変ヒンジ点の急激な変化を防ぐことができる。
【0086】
本実施形態によれば、以上のようなことを行うことにより、処理量を増大させることなく、周囲環境雑音下での通話音声の聞き取り易さを向上させることができる。
【0087】
[フォルマント調整部の構成及び動作説明]
次に、受話音声処理部24のフォルマント調整部40について説明する。
【0088】
上記受話音声処理部24のコンパレータ66から出力されたコントロール信号は、フォルマント調整部40のリミッタ41により規定レベルを超える部分についてレベル制限が掛けられ、さらにアンプ42にて必要に応じてレベル調整された後、アンプ43へコントロール信号として送られる。なお、コンパレータ66から出力されたコントロール信号の信号波形が例えば前述の図15に示すような波形であった場合、上記フォルマント調整部40のリミッタ41にてレベル制限が掛けられ、アンプ42にてレベル調整がなされた後のコントロール信号波形は、例えば図24に示すような波形となる。
【0089】
また、受話音声入力端子45からの受話音声信号が入力されるバンドパスフィルタ44は、例えば図25に示すような周波数特性を備えたフィルタである。すなわち、バンドパスフィルタ44は、受話音声信号の周波数帯域のうち、特に周囲環境雑音のピークとは帯域が重なり難い二番目のフォルマントの周波数帯域のみを通過させるフィルタとなされている。なお、図26には、受話音声信号入力端子45から入力された受話音声信号の実測による振幅−周波数測定図を示し、図27には上記バンドパスフィルタ44による帯域通過処理後の受話音声信号の実測による振幅−周波数測定図を示している。
【0090】
上記バンドパスフィルタ44を通過した上記二番目のフォルマントの周波数帯域の受話音声信号は、上記アンプ43へ入力される。
【0091】
ここで、アンプ43は、上記コントロール信号に対して図28に示すような増幅率の関係を有するアンプとなされている。これにより、当該アンプ43では、前述の図3と同様に示す図29の図中一点鎖線で示す特性曲線のように、上記受話音声信号のうち二番目のフォルマントの周波数帯域の信号に対して、上記図28のコントロール信号と増幅率の関係に応じたゲイン調整処理(強調処理)が行われることになる。なお、図30には上記アンプ43によるゲイン調整後の受話音声信号の実測による振幅−周波数測定図を示している。
【0092】
そして、当該アンプ43の出力信号は、加算器46へ送られる。
【0093】
また、上記加算器46には、ディレイ・フェーズシフタ47により遅延及び位相調整がなされた後の受話音声信号が供給されている。なお、ディレイ・フェーズシフタ47は、受話音声入力端子45に入力した受話音声信号に対し、上記フォルマント調整部40のバンドパスフィルタ44での遅延と同様の遅延を与えるために設けられている。
【0094】
上記加算器46では、上記ディレイ・フェーズシフタ部47により時間及び位相調整がなされた後の受話音声信号に、上記アンプ43の出力信号(つまり二番目のフォルマントのゲイン調整がなされた信号)が加算される。すなわち、当該加算器46の出力信号は、前述の図29に示したように、受話音声信号に含まれるフォルマントのうち特に周囲環境雑音のピークとは帯域が重なり難い二番目のフォルマントを強調する処理が行われた信号となる。なお、図31には上記加算器46での加算処理後の受話音声信号の実測による振幅−周波数測定図を示している。
【0095】
そして、上記加算器46から出力された信号は、前述したダイナミクス調整部50のアンプ48に送られることになる。
【0096】
[ノイズ検出部の他の構成例]
図32には、本実施形態の携帯電話端末の音声処理部20内に設けられているノイズ検出部23の他の構成例を示す。なお、この図32において、前述した図2の各構成要素と同一のものには同じ参照符号を付し、それらの説明は省略する。
【0097】
この図32の構成例では、ノイズ検出部23において、前述の図2に示したコンパレータ66に代えて、加算器67が設けられている。
【0098】
すなわちこの図32において、加算器67には、前述したローパスフィルタ33側の分岐経路のエンベロープ検出器34の出力信号と、前述したバンドパスフィルタ61側の分岐経路のミキシング用ボリューム回路66の出力信号が供給される。
【0099】
加算器67では、上記バンドパスフィルタ61側分岐経路の上記ミュート回路63を介したエンベロープ検出器62の出力信号と、ローパスフィルタ33側分岐経路のエンベロープ検出器34の出力信号とが加算される。
【0100】
そして、この図32の例では、当該加算器67による加算信号が後段の受話音声処理部24へコントロール信号として出力される。
【0101】
この図32の構成例によれば、ローパスフィルタ33側の分岐経路による人間の音声を略々除いた周囲環境雑音に基づくコントロール信号と、バンドパスフィルタ61側の分岐経路による他者音声の周囲環境雑音に基づくコントロール信号とを加算した信号が、受話音声処理部24へのコントロール信号として出力される。
【0102】
すなわちこの図32の構成例によれば、通話による話者音声が存在していない期間において、他者音声の周囲環境雑音が存在している場合に、当該他者音声に起因した周囲環境雑音と人間の音声を略々除いた周囲環境雑音との両方を加味したコントロール信号が生成されることになる。
【0103】
したがって、この図32の例によれば、受話音声処理部24では、当該他者音声に起因した周囲環境雑音と人間の音声を略々除いた周囲環境雑音との両方に基づいて、受話音声信号のレベル調整が行われることになる。
【0104】
勿論、この例の場合も前述同様に、受話音声処理部24では、人間の音声を略々除いた周囲環境雑音から常時生成されているコントロール信号によるレベル調整の反応速度の速さを活かしたまま、人間の音声に起因した周囲環境雑音によるレベル調整も可能となっている。
【0105】
[まとめ]
以上説明したように、本実施形態においては、通話の相手先から送られてきた受話音声信号の入出力特性(ダイナミクス)を、人間の音声を略々除いた周囲環境雑音と通話時の話者音声を除く周囲の他者音声による周囲環境雑音の両方を利用して制御する処理を行うようにしている。
【0106】
したがって本実施形態によれば、一般的な様々な使用環境だけでなく、例えばパーティ会場内や居酒屋内のような人の声が騒音源となっている環境で使用される場合であっても、受話音声を聞き取り易くすることが可能となっている。
【0107】
また、受話音声信号のダイナミクスを周囲環境雑音の大きさに応じて制御する処理は、ローパスフィルタ及びエンベロープ検出とオートレベルコントロールのみの非常に少ない処理量で実現可能となっている。
【0108】
更に、本実施形態によれば、上記受話音声信号に対してダイナミクス制御を行うと同時に、受話音声信号に含まれるフォルマントのうち特に周囲環境雑音のピークとは帯域が重なり難い二番目のフォルマントを強調する処理(受話音声の声の輪郭成分を持ち上げるような処理)を行うことにより、受話音声をより聞き取り易くしている。
【0109】
なお、上述した実施形態の説明は、本発明の一例である。このため、本発明は上述した各実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることはもちろんである。
【0110】
例えば、上述した実施形態では、携帯電話端末等の移動体端末を例に挙げたが、本発明は固定電話等の固定通信端末にも適用可能である。その他、本発明は、例えば音声通話機能を備えたPDA(Personal Digital Assistants)等の各種の携帯端末にも適用可能である。
【図面の簡単な説明】
【0111】
【図1】本発明実施形態の携帯電話端末の概略構成を示すブロック図である。
【図2】本実施形態の携帯電話端末の音声処理部内に設けられているノイズ検出部と受話音声処理部の詳細な構成を示すブロック回路図である。
【図3】人間の声の周波数特性の説明に用いる概略図である。
【図4】周囲環境雑音が含まれた実測による受話音声信号の振幅−周波数特性図である。
【図5】図4の受話音声信号のうち0Hz〜300Hzまでを拡大して示す振幅−周波数特性図である。
【図6】実測による受話音声信号のフォルマントの振幅−周波数特性図である。
【図7】図6の受話音声信号のうち0Hz〜300Hzまでを拡大して示す振幅−周波数特性図である。
【図8】ノイズ検出部のローパスフィルタの周波数特性を示す特性図である。
【図9】ノイズ検出部のローパスフィルタの周波数特性のうち、特に低周波数帯域部分を拡大して示す特性図である。
【図10】マイクロホンから入力された音声信号波形と、その音声信号波形がノイズ検出部のローパスフィルタを通過した後のLPF通過後信号波形とを示す波形図である。
【図11】ノイズ検出部のバンドパスフィルタの周波数特性を示す特性図である。
【図12】マイクロホンから入力された音声信号波形と、その音声信号波形がノイズ検出部のバンドパスフィルタを通過した後のBPF通過後信号波形とを示す波形図である。
【図13】バンドパスフィルタの分岐経路側のエンベロープ検出器の出力信号波形例とミュート回路の出力信号波形例とミキシング用ボリューム回路の出力信号波形例とを示す波形図である。
【図14】ローパスフィルタの分岐経路側のエンベロープ検出器の出力信号波形例と、バンドパスフィルタの分岐経路側のミキシング用ボリューム回路の出力信号波形とコンパレータの出力信号波形例を示す波形図である。
【図15】ノイズ検出部から出力されるコントロール信号(周囲環境雑音の大まかなエネルギー推移を表す信号)の波形例を示す波形図である。
【図16】ノイズ検出部から出力されたコントロール信号がダイナミクス調整部のリミッタ及びアンプを通過した後の信号波形例を図18示す波形図である。
【図17】本実施形態にかかる可変ヒンジ点を有したオートレベルコントローラの入出力特性曲線を示す特性図である。
【図18】図17の可変ヒンジ点近傍を拡大して示す特性図である。
【図19】コントロール信号のレベル変化と可変ヒンジ点の変更の関係説明に用いる図である。
【図20】本実施形態にかかるオートレベルコントローラによりレベル調整がなされた後の受話音声信号の概略的な振幅波形を示す波形図である。
【図21】入力レベルと出力レベルが一対一に対応する入出力特性曲線に対して並行な線分を有した状態でオートレベルコントローラの入出力特性を変更する例の説明に用いる特性図である。
【図22】ディジタル処理によりオートレベルコントローラの入出力特性を制御する場合のコントロール信号と可変ヒンジ点との関係の一例を示す図である。
【図23】ディジタル処理によりオートレベルコントローラの入出力特性を制御する場合のコントロール信号と可変ヒンジ点との関係の他の例を示す図である。
【図24】ノイズ検出部から出力された図15のコントロール信号が、フォルマント調整部のリミッタ及びアンプを通過した後の信号波形を示す波形図である。
【図25】フォルマント調整部のバンドパスフィルタの周波数特性を示す特性図である。
【図26】受話音声信号入力端子から入力された受話音声信号の実測による振幅−周波数測定図である。
【図27】フォルマント調整部のバンドパスフィルタによる帯域通過処理後の受話音声信号の実測による振幅−周波数測定図である。
【図28】フォルマント調整部のアンプにおけるコントロール信号と増幅率の関係を示す特性図である。
【図29】フォルマント調整部により人間の声の周波数特性における二番目のフォルマントの周波数特性が調整される状態の説明に用いる概略図である。
【図30】フォルマント調整部のアンプによるゲイン調整後の受話音声信号の実測による振幅−周波数測定図である。
【図31】フォルマント調整部の加算器での加算処理後の受話音声信号の実測による振幅−周波数測定図である。
【図32】本実施形態の携帯電話端末の音声処理部内に設けられているノイズ検出部の他の構成例の説明に用いるブロック回路図である。
【符号の説明】
【0112】
10 制御部、11 通信回路、12 通信用のアンテナ、13 操作部、14 表示部、15 メモリ、20 音声処理部、21 スピーカ、22 マイクロホン、23 ノイズ検出部、24 受話音声処理部、25 画像処理部、31 マイク音声入力端子、32,42,43,48,52 アンプ、33 ローパスフィルタ、34,62 エンベロープ検出器、35 送話音声出力端子、40 フォルマント調整部、41 フォルマント調整部のリミッタ、44,61 バンドパスフィルタ、45 受話音声入力端子、46 、67 加算器、47 ディレイ・フェーズシフタ、 49 オートレベルコントローラ、50 ダイナミクス調整部、51 ダイナミクス調整部のリミッタ、53 受話音声出力端子、63 ミュート回路、 64 ミュート制御回路、 66 コンパレータ
【技術分野】
【0001】
本発明は、携帯電話網等の通信網を通じて送られてきた受話音声を聞き取り易くするための音声信号処理装置及び音声信号処理方法と、音声による通話が可能な携帯電話端末等の通信端末に関する。
【背景技術】
【0002】
従来より、携帯電話網等の通信網を通じて音声通話が行われる場合に関して、例えば受話側の通話音声信号に所定の信号処理を施すことにより、周囲雑音環境下における通話音声の聞き取り易さを向上させる技術が存在している。
【0003】
例えば、特開平7−221832号の公開特許公報(特許文献1)には、周囲雑音と受話音声の周波数特性を比較し、受話音声の周波数特性を変化させることで聞き取り易さを向上させるようにした技術が開示されている。
【0004】
【特許文献1】特開平7−221832号公報(図1)
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述のように、周囲雑音と受話音声の周波数特性を比較して受話音声の周波数特性を変化させるようなことを行うためには、周囲雑音と受話音声の両方の信号解析を行い、またそれら解析結果を比較するなどの多くの処理が必要になる。このため、例えば携帯電話端末のように処理能力が限られている装置にとっては負担が大きくなってしまうという問題がある。
【0006】
また、携帯電話端末は一般に様々な環境下で使用されるが、その使用環境の中でも特にパーティ会場内や居酒屋内のような環境で使用される場合には、通話中の話者以外の周囲の他者による音声が雑音源となる。しかしながら、このように他者音声による雑音が存在する環境下での使用において、通話音声を聞き取り易くするような技術は現在のところ存在していない。
【0007】
本発明は、このような実情に鑑みて提案されたものであり、少ない処理量で通話音声(受話音声)を聞き取り易くすることを可能とし、特に、話者以外の他者による音声が雑音源となる環境下でも、通話音声を聞き取り易くすることを可能とする、音声信号処理装置、音声信号処理方法、及び、通信端末を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の音声信号処理装置は、帯域信号成分抽出部と、定常信号成分抽出部と、信号調整部と、制御信号生成部とを有することにより、上述した課題を解決する。ここで、帯域信号成分抽出部は、音声通話時に少なくとも送話音声を集音するための音声集音手段より入力された音声信号から、所定周波数帯域の信号成分を抽出する。定常信号成分抽出部は、帯域信号成分抽出部が抽出した信号成分の中から、少なくとも定常的な信号成分を抽出する。制御信号生成部は、定常信号成分抽出部が抽出した定常的な信号成分を少なくとも用いて、信号調整部の入出力特性を変更するための制御信号を生成する。そして、信号調整部は、入力信号レベルに対する出力信号レベルを調整するレベル調整機能と、制御信号によりレベル調整機能におけるレベル調整の際の入出力特性を変更する入出力特性変更機能とを備え、音声通話時の受話音声信号が入力信号となされる。
【0009】
すなわち、本発明によれば、音声集音手段より入力された音声信号から所定周波数帯域の信号成分を抽出している。当該所定周波数帯域としては、人の音声の周波数帯域を挙げることができる。その所定周波数帯域の信号成分の中で、特に定常的な信号成分は、通話中の話者音声を除いた周囲の他者による音声の信号成分と考えることができる。したがって、本発明では、当該定常的な信号成分を用い、通話音声の際の受話音声信号のレベルを調整すること、具体的には、その信号成分の信号レベルの大きさに応じて、受話音声側のダイナミクスを制御するようにしている。
【0010】
また、本発明の音声信号処理装置において、帯域信号成分抽出部は、入力音声信号から第一の周波数帯域の信号波形を抽出する第一のフィルタと、入力音声信号から第二の周波数帯域の信号波形を抽出する第二のフィルタと、第一のフィルタ通過後の信号波形のエンベロープを検波する第一のエンベロープ検波器と、第二のフィルタ通過後の信号波形のエンベロープを検波する第二のエンベロープ検波器とを有する。そして、帯域信号成分抽出部は、第一のエンベロープ検波器によるエンベロープ検波後の信号波形を第一の周波数帯域の信号成分として出力し、第二のエンベロープ検波器によるエンベロープ検波後の信号波形を第二の周波数帯域の信号成分として出力する。また、定常信号成分抽出部は、第一のエンベロープ検波部によるエンベロープ検波後の信号波形をミュートするミュート部と、第一のエンベロープ検波部によるエンベロープ検波後の信号波形の信号レベルが所定閾値を超え且つその状態が所定時間経過した時にミュート部のミュートを解除し、ミュート解除後に信号レベルが所定閾値を下回った時にミュート部のミュートを有効にするミュート制御部とを有し、当該ミュート部の出力波形を定常的な信号成分として出力する。そして、制御信号生成部は、ミュート部から出力された信号波形からなる定常的な信号成分と、第二のエンベロープ検波器によるエンベロープ検波後の信号波形からなる第二の周波数帯域の信号成分とを用いて制御信号を生成する。
【0011】
すなわち、本発明によれば、所定周波数帯域の信号成分として、第一の周波数帯域と第二の周波数帯域の信号成分を抽出している。第一の周波数帯域としては、人の音声の周波数帯域を挙げることができる、第二の周波数帯域としては、人の音声の周波数帯域よりも低い周波数帯域を挙げることができる。そして、本発明によれば、第一の周波数帯域の信号成分についてミュート部を介した信号成分と、第二の周波数帯域の信号成分とに基づいて、制御信号を生成している。
【発明の効果】
【0012】
本発明によれば、入力音声信号から抽出された所定周波数帯域の信号成分に基づいて、音声通話時の受話音声信号のレベルを調整すること、すなわち例えば、周囲環境雑音が大きい時には受話音声信号のレベルを上げるようなレベル調整を行うことにより、少ない処理量で通話音声(特に受話音声)を聞き取り易くすることを可能にしている。特に本発明によれば、所定周波数帯域として、人の音声の周波数帯域を用いることで、人の声が雑音源として含まれる環境下での通話時に、受話音声を聞き取り易くすることが可能となる。
【0013】
また、所定周波数帯域として、例えば人の音声の第一の周波数帯域とそれよりも低い第二の周波数帯域をそれぞれ抽出し、それぞれの帯域での解析に必要な時間的遅延を最小限に抑えて組み合わせることで、広帯域の周囲環境雑音に適応でき、且つ、より反応時間の速い受話音声信号のレベル調整を実現することが可能となる。
【発明を実施するための最良の形態】
【0014】
以下、図面を参照しながら、本発明の一実施形態について説明する。
【0015】
なお、本実施形態では、本発明の一例として、携帯電話端末を挙げているが、勿論、ここで説明する内容はあくまで一例であり、本発明はこの例に限定されないことは言うまでもない。
【0016】
〔携帯電話端末の概略構成〕
図1には、本実施形態の携帯電話端末の概略構成を示す。
【0017】
図1において、通信アンテナ12は、例えば内蔵アンテナであり通話や、電子メール等のパケット通信のための信号電波の送受信を行う。通信回路11は、送受信信号の周波数変換、変調と復調等を行う。
【0018】
制御部10は、CPU(中央処理ユニット)からなり、通信回路11における通信の制御、音声処理の制御、画像処理の制御、その他各種信号処理や各部の制御等を行う。また、制御部10は、メモリ部15に蓄積されている各種の制御プログラムやアプリケーションプログラムの実行及びそれに付随する各種データ処理等を行う。
【0019】
スピーカ21は、携帯電話端末に設けられている受話用のスピーカや、リンガ(着信音)、アラーム音、警告音、再生音楽、ディジタル音声、再生動画像の音声等の出力用スピーカからなり、音声処理部20から供給された音声信号を音響波に変換して空気中に出力する。
【0020】
マイクロホン22は、送話用及び外部音声集音用のマイクロホンであり、音響波を音声信号に変換し、その音声信号を音声処理部20へ入力する。
【0021】
音声処理部20は、復号等の所定の音声処理により生成した音声データをディジタル/アナログ変換した後に増幅し、その増幅後の音声信号を上記スピーカ21へ出力する。また、音声処理部20は、マイクロホン22から供給された入力音声信号を増幅及びアナログ/ディジタル変換し、そのアナログ/ディジタル変換後の音声データの符号化等の所定の音声処理を施す。また特に、本発明実施形態の携帯電話端末の場合、上記音声処理部20は、ノイズ検出部23と受話音声処理部24を備えている。これらノイズ検出部23と受話音声処理部24の詳細な構成及び動作については後述する。
【0022】
操作部13は、本実施形態の携帯電話端末の図示しない筐体上に設けられているテンキーや発話キー、終話/電源キー等の各キーや十字キー,ジョグダイヤル等の各操作子と、それら操作子が操作された時の操作信号を発生する操作信号発生器とからなる。
【0023】
表示部14は、例えば液晶ディスプレイや有機EL(ElectroLuminescent)ディスプレイ等の表示デバイスと、そのディスプレイの表示駆動回路とを含み、画像処理部25から供給された画像信号により、上記ディスプレイ上に例えば電子メール等の各種文字やメッセージを表示したり、静止画像や動画像等の表示を行う。
【0024】
画像処理部25は、表示部14に表示される文字、記号、画像等の画像信号を生成する処理を行う。また、画像処理部25は、制御部10による制御の元で、各種のユーザインターフェース画面の表示やウェブページの表示等をも行う。
【0025】
メモリ部15は、ROM(Read Only Memory)とRAM(Random Access Memory)を含む。ROMは、NAND型フラッシュメモリ(NAND-type flash memory)のような書き換え可能な記憶媒体を含み、例えば、OS(Operating System)のプログラムや制御部10が各部を制御するための制御プログラム、各種のアプリケーションプログラム、例えば圧縮符号化された楽曲データコンテンツや動画像データコンテンツの他、各種の初期設定値、フォントデータ、各辞書データ、機種名情報や端末識別情報などをも記憶する。RAMは、制御部10が各種のデータ処理を行う際の作業領域として、随時データを格納する。
【0026】
その他、図1には図示を省略しているが、本実施形態の携帯電話端末は、写真画像の撮影のためのディジタルカメラ部、キー照明や着信ライト用などのLED(発光ダイオード)とその駆動部、各部へ電力を供給するバッテリとその電力をコントロールするパワーマネージメントIC部、いわゆるブルートゥース方式(Bluetooth:登録商標)やUWB(Ultra Wide Band)方式、無線LAN(Local Area Network)などによる近距離無線通信を行うための近距離無線通信部、非接触ICカード機能とリーダライタ機能とを備えた非接触通信処理部、GPS(Global Positioning System)通信部、外部メモリ用スロット、ディジタル放送の受信チューナ部とAVコーデック部、タイマ(時計部)など、一般的な携帯電話端末に設けられる各構成要素についても備えている。
【0027】
[ノイズ検出部及び受話音声処理部の詳細及び動作の説明]
図2には、本実施形態の携帯電話端末の音声処理部20内に設けられているノイズ検出部23と受話音声処理部24の詳細な構成を示す。なお、以下、説明の都合上、アナログ音声信号を処理する例を挙げているが、本発明はディジタル化された音声信号を処理する場合も適用可能であることは言うまでもない。
【0028】
本実施形態の携帯電話端末において、上記受話音声処理部24は、ダイナミクス調整部50とフォルマント調整部40とを有している。上記ダイナミクス調整部50は、本実施形態の携帯電話端末により通話が行われている時に、通話の相手先から送られてきた受話音声信号の入出力特性(ダイナミクス)を、ノイズ検出部23からのコントロール信号に応じて制御する入出力特性変更機能部である。上記フォルマント調整部40は、上記受話音声信号に含まれる後述するフォルマントのうち、特に周囲環境雑音のピークとは帯域が重なり難い二番目のフォルマントを強調する処理を行うレベル調整機能部、すなわち受話音声の声の輪郭成分を持ち上げるようなイコライザとなされている。
【0029】
上記ノイズ検出部23は、周囲環境雑音レベル検出部とコントロール信号生成部とからなり、本実施形態の携帯電話端末にて通話が行われている時、マイクロホン22にて集音された音声信号に含まれる周囲環境雑音レベルを検出し、その周囲環境雑音レベルから、上記ダイナミクス調整部50の入出力特性を制御するためのコントロール信号を生成する。
【0030】
すなわち、本実施形態の携帯電話端末は、周囲環境雑音レベルに基づいて、音声通話時の受話音声信号のレベルを調整すること、具体的には、例えば周囲環境雑音レベルが大きい時には、受話音声信号のレベルを上げるように受話音声側のダイナミクスを制御することにより、少ない処理量で通話音声(特に受話音声)を聞き取り易くすることを可能にしている。
【0031】
また、本実施形態の携帯電話端末によれば、上記ノイズ検出部23は、例えば通話時の話者音声を除く他者音声による周囲環境雑音についても検出し、当該他者音声による周囲環境雑音に基づいて上記コントロール信号を生成する。
【0032】
これにより、本実施形態の携帯電話端末では、他者音声による周囲環境雑音が存在する場合でも、受話音声を聞き取り易くすることを可能としている。
【0033】
以下、上述したような受話音声を聞き取り易くするための構成とその動作について具体的に説明する。
【0034】
図2において、音声処理部20内に設けられているノイズ検出部23のマイク音声入力端子31には、通話に使用されているマイクロホン22から出力される音声信号が入力される。当該マイク音声入力端子31へ入力された音声信号は、アンプ32により増幅された後、送話音声信号として、送話音声出力端子35から図示しない通常の送話音声処理用の回路部へと出力される。
【0035】
また、本実施形態において、上記アンプ32にて増幅された後の音声信号は、上記送話音声の出力経路から分岐され、それぞれが並列に設けられたローパスフィルタ(LPF)33とバンドパスフィルタ61へ通される。
【0036】
上記ローパスフィルタ33とバンドパスフィルタ61への各分岐経路は、上記マイクロホン22から入力された音声信号に周囲環境雑音がどの程度含まれているかを調べるために設けられている。本実施形態の場合、詳細については後述するが、上記ローパスフィルタ33側の分岐経路は、人間の音声を略々除いた周囲環境雑音について調べるために設けられている。一方、バンドパスフィルタ61側の分岐経路は、通話時の話者音声を除いた他者音声による周囲環境雑音について調べるために設けられている。
【0037】
ここで、人間の声の周波数特性には、図3中の実線で示す特性曲線のように、特定のピーク(フォルマント)が存在している。当該フォルマントの周波数には個人差があるが、概ね300Hz〜3.4kHzの間に大きな二つのピーク(フォルマント)があり、一番目のフォルマントは500kHz〜1kHz、二番目のフォルマントは1.5kHz〜3kHz近辺に存在する。
【0038】
一方で、周囲環境雑音は環境によって様々なものが考えられるが、一般的な携帯電話端末の使用環境での周囲環境雑音の周波数特性は、図3中の点線で示す特性曲線のように、低い帯域から高い帯域に向かって減衰していくようなものが多い。
【0039】
なお、図4には周囲環境雑音が含まれた実測による受話音声信号の振幅−周波数特性図を示し、図5には図4の受話音声信号のうち0Hz〜300Hzまでを拡大して示している。また、図6には実測による受話音声信号のフォルマントの振幅−周波数特性図を示し、図7には図6の受話音声信号のうち0Hz〜300Hzまでを拡大して示している。
【0040】
このようなことから、本実施形態の携帯電話端末は、マイクロホン22からの入力音声信号内に、人間の音声を略々除いた周囲環境雑音がどの程度含まれているかを特定するために、例えば図8及び図9に示すような特性を有するローパスフィルタ33を備えている。なお、図9は、図8のx軸(周波数軸)の縮尺を変えることにより、図8の低周波数帯域部分を拡大して示した図である。すなわち本実施形態では、上記ローパスフィルタ33として、図3のように人間の声の周波数特性における一番目のフォルマントよりも低い帯域をカットオフ周波数(本発明の第二の周波数帯域)とする、例えば図8及び図9に示すような比較的急峻な特性を備えたフィルタを用いている。なお、本実施形態では、当該ローパスフィルタ33として、カットオフ周波数が例えば50Hz〜140Hz(特に図8及び図9の例では100Hz程度)で、四次程度のチェビシェフ特性を有するフィルタを用いている。
【0041】
本実施形態によれば、上述したローパスフィルタ33による低域通過がなされることにより、図10に示すように、マイクロホン22から入力された音声信号波形Bfは、LPF通過後信号波形Alpfとなされる。すなわち、LPF通過後信号波形Alpfは、上記マイクロホン22の出力信号から人間の声の成分が非常に少ない帯域成分(つまり人間の音声を略々除いた周囲環境雑音の信号成分)のみが取り出された信号波形となっている。
【0042】
上述のローパスフィルタ33を通過した信号(つまり人間の音声を略々除いた周囲環境雑音の信号成分)は、図2に示すように、エンベロープ検出器34へ送られる。
【0043】
上記エンベロープ検出器34では、上記ローパスフィルタ33を通過した後の信号のエンベロープ検波を行うこと、具体的には、LPF通過後信号波形Alpfを一定時間間隔毎に平均化してサンプリングすることにより、上記周囲環境雑音の大まかなエネルギー推移を表す信号を生成する。すなわち本実施形態において、当該エンベロープ検出器34の出力信号は、上記マイクロホン22から入力された音声信号内に、人間の音声を略々除いた周囲環境雑音がどの程度含まれているかを調べた結果を表す信号となっている。なお、当該エンベロープ検出器34において、どの程度の刻み(一定時間間隔毎に平均化する周期)で上記エネルギー推移を検出するかについてはここでは特に限定しないが、後段の受話音声処理部24で用いられる処理時間単位(例えば100msec)に応じた時間刻みにすることが望ましい。
【0044】
ところで、上述したローパスフィルタ33により抽出される周囲環境雑音成分は、人間の声の音域よりも低い音域の雑音成分に限られている。但し、携帯電話端末は、例えばパーティ会場内や居酒屋内のような環境で使用されることもある。すなわち、携帯電話端末がそのような環境下で使用されている場合には、通話中の話者以外の周囲の他者による音声も、上記周囲環境雑音に含まれることになる。
【0045】
一方で、人の音声が雑音源となるような環境下で携帯電話端末により通話が行われる場合において、通話音声の聞き取り易さを向上させるために前述のような受話音声信号のレベル調整を行うような処理を実行する際には、通話音声と周囲の他者音声による雑音成分とを区別する必要がある。すなわち、通話音声に基づいて受話音声信号のフォルマントを強調するようなレベル調整が行われてしまうと、受話音声の音質が劣化してしまうことになるため、例えば、通話音声が存在する期間を除き、周囲の他者音声のみが存在している期間において当該他者音声を雑音成分として検出するような処理が必要となる。
【0046】
このようなことから、本実施形態では、マイクロホン22から入力された音声信号内に、通話時の話者音声を除いた他者音声による周囲環境雑音がどの程度含まれているかを特定するために、上記ノイズ検出部23内に、バンドパスフィルタ61の分岐経路を設けている。
【0047】
上記バンドパスフィルタ61は、例えば図11に示すような特性を有している。すなわち、上記バンドパスフィルタ61は、図11に示すように、人間の声の帯域を含む200Hzから数kHz程度の比較的高い帯域(本発明の第1の周波数帯域)を通過させる特性を備えたフィルタとなされている。
【0048】
本実施形態によれば、上述したバンドパスフィルタ61にて帯域通過がなされることにより、図12に示すように、マイクロホン22から入力された音声信号波形Bfは、BPF通過後信号波形Abpfとなされる。すなわち、BPF通過後信号波形Abpfは、上記マイクロホン22の出力信号から人間の声の成分に近い帯域成分(つまり人間の音声による周囲環境雑音を含む信号成分)が抽出された信号波形となっている。
【0049】
ここで、上述のように人間の声の成分に近い周波数帯域成分を周囲環境雑音の検出に使用した場合には、通話時の話者自身の声の成分をも周囲環境雑音として検出してしまうことが問題となる。
【0050】
本実施形態の携帯電話端末は、この問題を解決するため、上記バンドパスフィルタ61側の分岐経路内に、図2に示したようにミュート制御回路64とミュート回路63を備えている。
【0051】
すなわち、通話時の話者音声と、周囲環境雑音としての他者音声とでは、音声周波数帯域については略々同じになると考えられる一方で、時間的連続性には違いがある。具体的に説明すると、通話時には言葉が用いられているため、話者音声は、文の区切れや息継ぎ、通話相手の発話などにより、音声の時間的連続性が少なく、非定常に変化するものとなる。これに対し、周囲環境雑音としての他者音声は、当該他者の人数が増えて騒音が大きくなるほど、時間的な途切れが少ない定常的なものとなる。
【0052】
上記ミュート制御回路64とミュート回路63は、上述したような音声の時間的連続性の違いから双方を識別するために設けられている。
【0053】
図2の説明に戻り、上記バンドパスフィルタ61を通過した信号(人間の音声帯域の信号成分)は、前述のエンベロープ検出器34と同様のエンベロープ検出器62を介して、ミュート回路63とミュート制御回路64へ入力する。
【0054】
上記ミュート回路63は、初期状態では入力信号をミュートする設定(ミュートオン)となされており、ミュート制御回路64からミュートオフ信号が供給された時に、上記ミュートを解除(ミュートオフ)する。
【0055】
上記キュート制御回路64は、上記エンベロープ検出器62からの信号レベルが、予め決められた所定閾値を超え、その状態が予め決められた所定時間(数秒程度)連続した時、上記ミュートオフ信号を上記ミュート回路63へ出力する。すなわち、ミュート制御回路64は、上記エンベロープ検出器62の出力信号レベルが上記閾値を超えている状態の連続時間を測定し、その状態が上記所定時間経過した時に上記ミュートオフ信号を出力する。
【0056】
また、ミュート制御回路64は、上記ミュート回路63のミュートが解除された状態になった後(ミュート解除信号を出力した後)、上記エンベロープ検出器63からの出力信号レベルが上記所定閾値を下回った時には、直ぐに上記ミュート回路63のミュートを有効(ミュートオン)にするためのミュートオン信号を出力する。
【0057】
すなわち、本実施形態において、上記バンドパスフィルタ61の分岐経路では、ミュート制御回路64への入力信号が非定常的で時間的連続性が無い信号、つまり通話者の音声信号に対応した信号である場合には、ミュート回路63がミュートオンとなり、上記エンベロープ検出器62の出力信号はミュート回路63の後段へは出力されない。一方、ミュート制御回路64への入力信号が定常的で時間的連続性を有した信号、つまり周囲環境雑音としての他者音声信号に対応した信号である場合には、ミュート回路63がミュートオフとなり、上記エンベロープ検出器62の出力信号はミュート回路63の後段へ出力される。
【0058】
上記ミュート回路63の出力信号は、コンパレータ66へ送られる。また、当該コンパレータ66へは、前述のローパスフィルタ33側の分岐経路のエンベロープ検出器34の出力信号も供給されている。なお、ミュート回路63とコンパレータ66との間には、ミキシング用ボリューム回路65が設けられている。当該ミキシング用ボリューム回路65は、上記ローパスフィルタ33側の分岐経路とバンドパスフィルタ61側の分岐経路上の双方の信号強度のバランスを調整するために設けられている。
【0059】
上記コンパレータ66は、バンドパスフィルタ61側分岐経路の上記ミュート回路63を介したエンベロープ検出器62の出力信号と、前記ローパスフィルタ33側分岐経路のエンベロープ検出器34の出力信号とのレベルを比較し、大きい方の信号を後段の受話音声処理部24へコントロール信号として出力する。なお、当該コンパレータ66におけるレベル比較は、一例として、上記エンベロープ検出器34とエンベロープ検出器62における前記一定時間間隔の周期に同期して行われる。
【0060】
図13の(A)にはエンベロープ検出器62の出力信号波形の一例を示し、図13の(B)にはミュート回路63の出力信号波形の一例を、図13の(C)にはミキシング用ボリューム回路65の出力信号波形の一例を示す。
【0061】
この図13の例に示すように、上記ミュート回路63及びミュート制御回路64への入力信号が図13の(A)に示すような波形信号であった場合、上記ミュート制御回路64は、当該信号波形のレベルが図13の(A)の所定閾値Lthを超えた状態が所定時間Tth連続した時に、ミュートオフ信号をミュート回路63へ出力する。これにより、ミュートオフになされたミュート回路63からは、図13の(B)に示すような波形信号が出力されることになる。
【0062】
またその後、上記ミュート制御回路64への入力信号が上記所定閾値Tthを下回った場合、ミュート制御回路64は、直ちにミュートオン信号をミュート回路63へ出力する。これにより、ミュートオンになされたミュート回路63からは、図13の(B)に示すように信号波形が出力されないようになる。
【0063】
また、図14の(A)にはローパスフィルタ33の分岐経路側のエンベロープ検出器34の出力信号波形の一例を示し、図14の(B)には上記ミキシング用ボリューム回路65の出力信号波形の一例を、図14の(C)にはコンパレータ66の出力信号波形(コントロール信号)の一例を示す。
【0064】
この図14の例に示すように、コンパレータ66からは、バンドパスフィルタ61側の分岐経路のミキシング用ボリューム回路66からの出力信号と、ローパスフィルタ33側の分岐経路のエンベロープ検出器34の出力信号とのレベル比較により、大きい方となった信号が出力される。
【0065】
上述したように、本実施形態によれば、ローパスフィルタ33側の分岐経路による人間の音声を略々除いた周囲環境雑音に基づくコントロール信号と、バンドパスフィルタ61側の分岐経路による他者音声の周囲環境雑音に基づくコントロール信号のうち、信号レベルの大きい方の信号が、受話音声処理部24へ出力される。
【0066】
これにより、例えば人間の音声を略々除いた周囲環境雑音よりも、人間の音声による周囲環境雑音が大きい場合、受話音声処理部24では、当該人間の音声に起因した周囲環境雑音レベルに応じたコントロール信号により、受話音声信号のレベル調整が行われることになる。一方、人間の音声による周囲環境雑音よりも、人間の音声を略々除いた周囲環境雑音が大きい場合、受話音声処理部24では、当該人間の音声を略々除いた周囲環境雑音レベルに応じたコントロール信号により、受話音声信号のレベル調整が行われることになる。
【0067】
また、本実施形態によれば、通話による話者音声が存在している期間と、他者音声の周囲環境雑音のみが存在している期間を明確に区別できるため、特に通話による話者音声が存在している期間では、人間の音声を略々除いた周囲環境雑音レベルに応じたコントロール信号により、受話音声処理部24で受話音声信号のレベル調整が行われることになる。
【0068】
また、本実施形態によれば、人間の音声を略々除いた周囲環境雑音と人間の音声に起因した周囲環境雑音とを並列に検出可能となされている。そして、人間の音声に起因した周囲環境雑音によるコントロール信号は、バンドパスフィルタ61側分岐経路により少なくとも所定時間分だけ遅延して生成され、その一方で、人間の音声を略々除いた周囲環境雑音に基づくコントロール信号については、ローパスフィルタ33側の分岐経路により常時生成されている。すなわち、本実施形態の受話音声処理部24では、人間の音声を略々除いた周囲環境雑音から常時生成されているコントロール信号による前記レベル調整の際の反応速度の速さを活かしたまま、人間の音声に起因した周囲環境雑音による前記レベル調整も可能となっている。
【0069】
[ダイナミクス調整部の構成及び動作説明]
以下、上述した受話音声処理部24内のダイナミクス調整部50とフォルマント調整部40の詳細な構成及び動作について説明する。
【0070】
先ず、ダイナミクス調整部50から説明し、その後にフォルマント調整部40の説明を行う。
【0071】
当該受話音声処理部24において、受話音声入力端子45には、図示しない通常の受話音声処理用の回路部から送られてきた受話音声信号が入力される。
【0072】
この受話音声信号は、後述するフォルマント調整部40のバンドパスフィルタ(BPF)44へ送られると共に、ディレイ・フェーズシフタ部47へも送られる。
【0073】
後述するディレイ・フェーズシフタ部47を介し、さらに後述する加算器46を介した受話音声信号は、ダイナミクス調整部50のアンプ48にて必要に応じて増幅された後、オートレベルコントローラ(ALC)49へ入力する。
【0074】
また、前記ノイズ検出部23のコンパレータ66から出力されたコントロール信号は、当該ダイナミクス調整部50のリミッタ51により、規定レベルを超える部分についてレベル制限が掛けられ、さらにアンプ52にて必要に応じてレベル調整された後、オートレベルコントローラ49へ送られる。なお、コンパレータ66から出力されたコントロール信号の信号波形が例えば図15に示すような波形であった場合、上記ダイナミクス調整部50のリミッタ51にてレベル制限が掛けられ、アンプ52にてレベル調整がなされた後のコントロール信号波形は、例えば図16に示すような波形となる。
【0075】
上記オートレベルコントローラ49の出力信号は、受話音声出力端子53を介して受話用のスピーカ21へ出力される。なお、本実施形態のオートレベルコントローラ49の詳細な構成については後述する。
【0076】
ここで、一般的なオートレベルコントローラ(ALC)は、入出力特性曲線が一つに決められており、入力レベルと出力レベルが一対一に対応する特性を有するものとなされている。これに対し、本実施形態の受話音声処理部24に設けられているオートレベルコントローラ49は、上記図16に示したようなコントロール信号によって入出力特性そのものを変化させることが可能なものとなされている。具体的には、本実施形態のオートレベルコントローラ49は、図17〜図19に示すような可変ヒンジ点を持った入出力特性を有したものとなされている。なお、図18は図17の可変ヒンジ点近傍を拡大して示す図であり、また、図19はコントロール信号のレベル変化と可変ヒンジ点の変化の関係を示す図である。
【0077】
すなわち、本実施形態のオートレベルコントローラ49は、図17及び図18に示すように、例えば人間の音声による受話音声の信号レベルであると考えられる所定入力レベル範囲内(図17,図18では例えば−30dB以上で且つ上限としての−10dBの範囲内)において、入力レベルに対する出力レベルの値を例えば最大10dB分まで1dB毎に複数段階(一例として1dBステップ毎の11段階)に渡って変更可能となされており、図19に示すように、一つ前のコントロール信号の値に対してその次のコントロール信号の値が大きくなれば上記可変ヒンジ点を出力レベルが大きくなる方向へ一段階のみ移行(1ランクアップ)させる。逆に、一つ前のコントロール信号の値に対してその次のコントロール信号の値が小さくなれば、上記可変ヒンジ点を出力レベルが小さくなる方向に移行(1ランクダウン)させるようなレベル制御を行う。
【0078】
より具体的に説明すると、本実施形態のオートレベルコントローラ49は、入力レベルが上記所定入力レベル範囲内である時に、例えば、上記コントロール信号の値が大きい場合(つまり周辺環境雑音が大きい場合)には、入力レベルに対して出力レベルを上げる方向へ上記可変ヒンジ点を変化させて当該オートレベルコントローラの効果を強くするダイナミクス制御を行う。一方、例えば、上記コントロール信号の値が小さい場合(つまり周辺環境雑音が小さい場合)には、入力レベルに対して出力レベルが一対一の関係となる方向へ近づくように上記可変ヒンジ点を変化させて当該オートレベルコントローラの効果を弱めるダイナミクス制御を行う。
【0079】
言い換えると、本実施形態のオートレベルコントローラ49は、一定レベル以上の受話音声信号が入力されている場合において、前述した周辺環境雑音が大きい時(つまりコントロール信号の値が大きい時)には、オートレベルコントローラの入出力特性を、例えば、入力レベル:出力レベル=1:n(この場合のnは1より大きく上記1dBステップ毎の各可変ヒンジ点に応じた値)となる方向へ調整することにより、例えば図20に示すように受話音声信号の出力レベルを上げて受話音声を聞こえ易くする。一方、周辺環境雑音が小さい時(コントロール信号の値が小さい時)には、オートレベルコントローラの入出力特性を、入力レベル:出力レベル=1:1に近づく方向へ調整することにより、オートレベルコントローラでのダイナミクス制御による受話音声の音質劣化を必要最小限に抑えるようにする。なお、図20中の実線は実際の受話音声信号の振幅波形を表しており、図20中の一点鎖線は本実施形態により出力レベルが上げられた時の受話音声信号の振幅波形を表している。
【0080】
上述のように、本実施形態によれば、例えば、周辺環境雑音が大きくなり、上記オートレベルコントローラ49の入出力特性を上記入力レベル:出力レベル=1:nとなる方向へ調整した場合には、受話音声に多少の音質劣化が生じたとしても、上記周辺環境雑音に対して相対的に受話音声のレベルが大きくなるため、その受話音声は聞き易いものとなる。一方、周辺環境雑音が小さくなり、オートレベルコントローラ49の入出力特性を上記入力レベル:出力レベル=1:1に近づく方向へ調整した場合、受話音声のレベルは大きくならないが、元々の周辺環境雑音のレベルも小さいため、当該周辺環境雑音が通話に悪影響を及ぼす可能性は低くなり、また、受話音声の音質劣化も少なくなるため、当該受話音声は聞き易いものとなる。
【0081】
なお、上述の説明では、図17及び図18のように、入力レベルに対する出力レベルの値を、例えば最大10dB分まで1dB毎に複数段階に渡って変更可能とする可変ヒンジ点を例に挙げたが、可変ヒンジ点は上述のような非連続的に変化するものだけでなく、例えば連続的に変化するものであっても良い。
【0082】
また、上述の例では、説明を簡略にするために、オートレベルコントローラ49における上述の可変ヒンジ点によるダイナミクス制御は、周囲環境雑音の大きさの変化にそのまま追従して行われる例を挙げている。しかしながら、例えば、周囲環境雑音が急激に変化するような場合には、上記ダイナミクス制御後の受話音声が、利用者の聴覚上で違和感を感じるほど急激に変化してしまうようなことも有り得る。このため、本実施形態のオートレベルコントローラ49でのダイナミクス制御は、上述したような急激な変化を防ぐために、例えば可変ヒンジ点の変化に対して或る程度のヒステリシスを設けるように成されている。
【0083】
また、前述の図17及び図18では、オートレベルコントローラ49の入出力特性が変更される部分の特性曲線として、或る所定の入力レベル(図17,図18の例では−20dBの入力レベル)の部分で折れ曲がるような特性曲線(可変ヒンジ点の特性曲線)を例に挙げているが、例えば図21に示すように、入力レベルと出力レベルが一対一となる入出力特性曲線に対して並行で且つ或る程度の長さの線分を有した状態で、複数段階(非連続的)或いは連続的に変更されるような特性曲線を用いることも可能である。
【0084】
すなわち、この図21の例の場合、オートレベルコントローラ49は、人間の音声による受話音声の信号レベルであると考えられる所定入力レベル範囲内において、入力レベルに対する出力レベルの値を最大で例えば10dB分まで1dB毎に複数段階(例えば1dBステップ毎の11段階)に渡って変更可能となされており、一つ前のコントロール信号の値に対してその次のコントロール信号の値が大きくなった時には上記出力レベルが大きくなる方向へゲインを一段階のみ移行させる。逆に、一つ前のコントロール信号の値に対してその次のコントロール信号の値が小さくなった時には、出力レベルが小さくなる方向へゲインを移行させるようなダイナミクス制御を行う。この図21の例の場合、オートレベルコントローラ49が元々有している入出力特性曲線を並行移動させるだけであるため、回路構成の変更が少なく安価且つ容易に実現することができる。なお、ダイナミクス制御の際には、例えば、入出力レベルを検出すると共に、ゲインを調整するアタック時間(ゲインを下げる際の時間)と、リカバリ時間(ゲインを上げる際の時間)を設け、それらアタック時間とリカバリ時間を上記入出力レベルの検出値に応じて調整することで、ゲインの変化が急激にならないようにすることが望ましい。
【0085】
また、上述の説明ではアナログ処理を例に挙げて説明しているが、その他にも、例えばディジタル処理を用いる場合には、コントロール信号と可変ヒンジ点との間に、例えば図22や図23に示すような関係を持たせ、一定時間間隔(例えば100msec間隔)でコントロール信号が入力する毎に、その時点での可変ヒンジ点に対応するコントロール信号の値と上記入力したコントロール信号との比較を行い、上記入力したコントロール信号の値の方が大きければ可変ヒンジ点を出力が大きくなる方向に一段階のみ移行させ、逆に、入力したコントロール信号の値の方が小さければ可変ヒンジ点を出力が小さくなる方向に移行させるようにしても良い。このようにすることで、ディジタル処理を用いる場合であっても、可変ヒンジ点の急激な変化を防ぐことができる。
【0086】
本実施形態によれば、以上のようなことを行うことにより、処理量を増大させることなく、周囲環境雑音下での通話音声の聞き取り易さを向上させることができる。
【0087】
[フォルマント調整部の構成及び動作説明]
次に、受話音声処理部24のフォルマント調整部40について説明する。
【0088】
上記受話音声処理部24のコンパレータ66から出力されたコントロール信号は、フォルマント調整部40のリミッタ41により規定レベルを超える部分についてレベル制限が掛けられ、さらにアンプ42にて必要に応じてレベル調整された後、アンプ43へコントロール信号として送られる。なお、コンパレータ66から出力されたコントロール信号の信号波形が例えば前述の図15に示すような波形であった場合、上記フォルマント調整部40のリミッタ41にてレベル制限が掛けられ、アンプ42にてレベル調整がなされた後のコントロール信号波形は、例えば図24に示すような波形となる。
【0089】
また、受話音声入力端子45からの受話音声信号が入力されるバンドパスフィルタ44は、例えば図25に示すような周波数特性を備えたフィルタである。すなわち、バンドパスフィルタ44は、受話音声信号の周波数帯域のうち、特に周囲環境雑音のピークとは帯域が重なり難い二番目のフォルマントの周波数帯域のみを通過させるフィルタとなされている。なお、図26には、受話音声信号入力端子45から入力された受話音声信号の実測による振幅−周波数測定図を示し、図27には上記バンドパスフィルタ44による帯域通過処理後の受話音声信号の実測による振幅−周波数測定図を示している。
【0090】
上記バンドパスフィルタ44を通過した上記二番目のフォルマントの周波数帯域の受話音声信号は、上記アンプ43へ入力される。
【0091】
ここで、アンプ43は、上記コントロール信号に対して図28に示すような増幅率の関係を有するアンプとなされている。これにより、当該アンプ43では、前述の図3と同様に示す図29の図中一点鎖線で示す特性曲線のように、上記受話音声信号のうち二番目のフォルマントの周波数帯域の信号に対して、上記図28のコントロール信号と増幅率の関係に応じたゲイン調整処理(強調処理)が行われることになる。なお、図30には上記アンプ43によるゲイン調整後の受話音声信号の実測による振幅−周波数測定図を示している。
【0092】
そして、当該アンプ43の出力信号は、加算器46へ送られる。
【0093】
また、上記加算器46には、ディレイ・フェーズシフタ47により遅延及び位相調整がなされた後の受話音声信号が供給されている。なお、ディレイ・フェーズシフタ47は、受話音声入力端子45に入力した受話音声信号に対し、上記フォルマント調整部40のバンドパスフィルタ44での遅延と同様の遅延を与えるために設けられている。
【0094】
上記加算器46では、上記ディレイ・フェーズシフタ部47により時間及び位相調整がなされた後の受話音声信号に、上記アンプ43の出力信号(つまり二番目のフォルマントのゲイン調整がなされた信号)が加算される。すなわち、当該加算器46の出力信号は、前述の図29に示したように、受話音声信号に含まれるフォルマントのうち特に周囲環境雑音のピークとは帯域が重なり難い二番目のフォルマントを強調する処理が行われた信号となる。なお、図31には上記加算器46での加算処理後の受話音声信号の実測による振幅−周波数測定図を示している。
【0095】
そして、上記加算器46から出力された信号は、前述したダイナミクス調整部50のアンプ48に送られることになる。
【0096】
[ノイズ検出部の他の構成例]
図32には、本実施形態の携帯電話端末の音声処理部20内に設けられているノイズ検出部23の他の構成例を示す。なお、この図32において、前述した図2の各構成要素と同一のものには同じ参照符号を付し、それらの説明は省略する。
【0097】
この図32の構成例では、ノイズ検出部23において、前述の図2に示したコンパレータ66に代えて、加算器67が設けられている。
【0098】
すなわちこの図32において、加算器67には、前述したローパスフィルタ33側の分岐経路のエンベロープ検出器34の出力信号と、前述したバンドパスフィルタ61側の分岐経路のミキシング用ボリューム回路66の出力信号が供給される。
【0099】
加算器67では、上記バンドパスフィルタ61側分岐経路の上記ミュート回路63を介したエンベロープ検出器62の出力信号と、ローパスフィルタ33側分岐経路のエンベロープ検出器34の出力信号とが加算される。
【0100】
そして、この図32の例では、当該加算器67による加算信号が後段の受話音声処理部24へコントロール信号として出力される。
【0101】
この図32の構成例によれば、ローパスフィルタ33側の分岐経路による人間の音声を略々除いた周囲環境雑音に基づくコントロール信号と、バンドパスフィルタ61側の分岐経路による他者音声の周囲環境雑音に基づくコントロール信号とを加算した信号が、受話音声処理部24へのコントロール信号として出力される。
【0102】
すなわちこの図32の構成例によれば、通話による話者音声が存在していない期間において、他者音声の周囲環境雑音が存在している場合に、当該他者音声に起因した周囲環境雑音と人間の音声を略々除いた周囲環境雑音との両方を加味したコントロール信号が生成されることになる。
【0103】
したがって、この図32の例によれば、受話音声処理部24では、当該他者音声に起因した周囲環境雑音と人間の音声を略々除いた周囲環境雑音との両方に基づいて、受話音声信号のレベル調整が行われることになる。
【0104】
勿論、この例の場合も前述同様に、受話音声処理部24では、人間の音声を略々除いた周囲環境雑音から常時生成されているコントロール信号によるレベル調整の反応速度の速さを活かしたまま、人間の音声に起因した周囲環境雑音によるレベル調整も可能となっている。
【0105】
[まとめ]
以上説明したように、本実施形態においては、通話の相手先から送られてきた受話音声信号の入出力特性(ダイナミクス)を、人間の音声を略々除いた周囲環境雑音と通話時の話者音声を除く周囲の他者音声による周囲環境雑音の両方を利用して制御する処理を行うようにしている。
【0106】
したがって本実施形態によれば、一般的な様々な使用環境だけでなく、例えばパーティ会場内や居酒屋内のような人の声が騒音源となっている環境で使用される場合であっても、受話音声を聞き取り易くすることが可能となっている。
【0107】
また、受話音声信号のダイナミクスを周囲環境雑音の大きさに応じて制御する処理は、ローパスフィルタ及びエンベロープ検出とオートレベルコントロールのみの非常に少ない処理量で実現可能となっている。
【0108】
更に、本実施形態によれば、上記受話音声信号に対してダイナミクス制御を行うと同時に、受話音声信号に含まれるフォルマントのうち特に周囲環境雑音のピークとは帯域が重なり難い二番目のフォルマントを強調する処理(受話音声の声の輪郭成分を持ち上げるような処理)を行うことにより、受話音声をより聞き取り易くしている。
【0109】
なお、上述した実施形態の説明は、本発明の一例である。このため、本発明は上述した各実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることはもちろんである。
【0110】
例えば、上述した実施形態では、携帯電話端末等の移動体端末を例に挙げたが、本発明は固定電話等の固定通信端末にも適用可能である。その他、本発明は、例えば音声通話機能を備えたPDA(Personal Digital Assistants)等の各種の携帯端末にも適用可能である。
【図面の簡単な説明】
【0111】
【図1】本発明実施形態の携帯電話端末の概略構成を示すブロック図である。
【図2】本実施形態の携帯電話端末の音声処理部内に設けられているノイズ検出部と受話音声処理部の詳細な構成を示すブロック回路図である。
【図3】人間の声の周波数特性の説明に用いる概略図である。
【図4】周囲環境雑音が含まれた実測による受話音声信号の振幅−周波数特性図である。
【図5】図4の受話音声信号のうち0Hz〜300Hzまでを拡大して示す振幅−周波数特性図である。
【図6】実測による受話音声信号のフォルマントの振幅−周波数特性図である。
【図7】図6の受話音声信号のうち0Hz〜300Hzまでを拡大して示す振幅−周波数特性図である。
【図8】ノイズ検出部のローパスフィルタの周波数特性を示す特性図である。
【図9】ノイズ検出部のローパスフィルタの周波数特性のうち、特に低周波数帯域部分を拡大して示す特性図である。
【図10】マイクロホンから入力された音声信号波形と、その音声信号波形がノイズ検出部のローパスフィルタを通過した後のLPF通過後信号波形とを示す波形図である。
【図11】ノイズ検出部のバンドパスフィルタの周波数特性を示す特性図である。
【図12】マイクロホンから入力された音声信号波形と、その音声信号波形がノイズ検出部のバンドパスフィルタを通過した後のBPF通過後信号波形とを示す波形図である。
【図13】バンドパスフィルタの分岐経路側のエンベロープ検出器の出力信号波形例とミュート回路の出力信号波形例とミキシング用ボリューム回路の出力信号波形例とを示す波形図である。
【図14】ローパスフィルタの分岐経路側のエンベロープ検出器の出力信号波形例と、バンドパスフィルタの分岐経路側のミキシング用ボリューム回路の出力信号波形とコンパレータの出力信号波形例を示す波形図である。
【図15】ノイズ検出部から出力されるコントロール信号(周囲環境雑音の大まかなエネルギー推移を表す信号)の波形例を示す波形図である。
【図16】ノイズ検出部から出力されたコントロール信号がダイナミクス調整部のリミッタ及びアンプを通過した後の信号波形例を図18示す波形図である。
【図17】本実施形態にかかる可変ヒンジ点を有したオートレベルコントローラの入出力特性曲線を示す特性図である。
【図18】図17の可変ヒンジ点近傍を拡大して示す特性図である。
【図19】コントロール信号のレベル変化と可変ヒンジ点の変更の関係説明に用いる図である。
【図20】本実施形態にかかるオートレベルコントローラによりレベル調整がなされた後の受話音声信号の概略的な振幅波形を示す波形図である。
【図21】入力レベルと出力レベルが一対一に対応する入出力特性曲線に対して並行な線分を有した状態でオートレベルコントローラの入出力特性を変更する例の説明に用いる特性図である。
【図22】ディジタル処理によりオートレベルコントローラの入出力特性を制御する場合のコントロール信号と可変ヒンジ点との関係の一例を示す図である。
【図23】ディジタル処理によりオートレベルコントローラの入出力特性を制御する場合のコントロール信号と可変ヒンジ点との関係の他の例を示す図である。
【図24】ノイズ検出部から出力された図15のコントロール信号が、フォルマント調整部のリミッタ及びアンプを通過した後の信号波形を示す波形図である。
【図25】フォルマント調整部のバンドパスフィルタの周波数特性を示す特性図である。
【図26】受話音声信号入力端子から入力された受話音声信号の実測による振幅−周波数測定図である。
【図27】フォルマント調整部のバンドパスフィルタによる帯域通過処理後の受話音声信号の実測による振幅−周波数測定図である。
【図28】フォルマント調整部のアンプにおけるコントロール信号と増幅率の関係を示す特性図である。
【図29】フォルマント調整部により人間の声の周波数特性における二番目のフォルマントの周波数特性が調整される状態の説明に用いる概略図である。
【図30】フォルマント調整部のアンプによるゲイン調整後の受話音声信号の実測による振幅−周波数測定図である。
【図31】フォルマント調整部の加算器での加算処理後の受話音声信号の実測による振幅−周波数測定図である。
【図32】本実施形態の携帯電話端末の音声処理部内に設けられているノイズ検出部の他の構成例の説明に用いるブロック回路図である。
【符号の説明】
【0112】
10 制御部、11 通信回路、12 通信用のアンテナ、13 操作部、14 表示部、15 メモリ、20 音声処理部、21 スピーカ、22 マイクロホン、23 ノイズ検出部、24 受話音声処理部、25 画像処理部、31 マイク音声入力端子、32,42,43,48,52 アンプ、33 ローパスフィルタ、34,62 エンベロープ検出器、35 送話音声出力端子、40 フォルマント調整部、41 フォルマント調整部のリミッタ、44,61 バンドパスフィルタ、45 受話音声入力端子、46 、67 加算器、47 ディレイ・フェーズシフタ、 49 オートレベルコントローラ、50 ダイナミクス調整部、51 ダイナミクス調整部のリミッタ、53 受話音声出力端子、63 ミュート回路、 64 ミュート制御回路、 66 コンパレータ
【特許請求の範囲】
【請求項1】
音声通話時に少なくとも送話音声を集音するための音声集音手段より入力された音声信号から、所定周波数帯域の信号成分を抽出する帯域信号成分抽出部と、
上記帯域信号成分抽出部が抽出した信号成分の中から、少なくとも定常的な信号成分を抽出する定常信号成分抽出部と、
入力信号レベルに対する出力信号レベルを調整するレベル調整機能と、制御信号により上記レベル調整機能におけるレベル調整の際の入出力特性を変更する入出力特性変更機能とを備え、上記音声通話時の受話音声信号が上記入力信号となされる信号調整部と、
上記定常信号成分抽出部が抽出した上記定常的な信号成分を少なくとも用いて、上記信号調整部の上記入出力特性を変更するための上記制御信号を生成する制御信号生成部と、
を有する音声信号処理装置。
【請求項2】
上記帯域信号成分抽出部は、上記所定周波数帯域の信号成分として、第一の周波数帯域の信号成分と第二の周波数帯域の信号成分を抽出し、
上記定常信号成分抽出部は、上記所定周波数帯域の信号成分のうち上記第一の周波数帯域の信号成分から上記定常的な信号成分を抽出し、
上記制御信号生成部は、上記定常信号成分抽出部にて上記第一の周波数帯域の信号成分から抽出された上記定常的な信号成分と上記帯域信号成分抽出部にて抽出された上記第二の周波数帯域の信号成分の両信号レベルを比較し、何れか大きい方の信号レベルの信号成分を用いて、上記制御信号を生成する請求項1記載の音声信号処理装置。
【請求項3】
上記帯域信号成分抽出部は、上記所定周波数帯域の信号成分として、第一の周波数帯域の信号成分と第二の周波数帯域の信号成分とを抽出し、
上記定常信号成分抽出部は、上記所定周波数帯域の信号成分のうち上記第一の周波数帯域の信号成分から上記定常的な信号成分を抽出し、
上記制御信号生成部は、上記定常信号成分抽出部にて上記第一の周波数帯域の信号成分から抽出された上記定常的な信号成分と上記帯域信号成分抽出部にて抽出された上記第二の周波数帯域の信号成分とを加算した信号成分を用いて、上記制御信号を生成する請求項1記載の音声信号処理装置。
【請求項4】
上記帯域信号成分抽出部は、上記第一の周波数帯域として人の音声帯域の信号成分を抽出し、上記第二の周波数帯域として人の音声帯域を除く周波数帯域の信号成分を抽出する請求項2又は請求項3記載の音声信号処理装置。
【請求項5】
上記帯域信号成分抽出部は、入力音声信号から上記所定周波数帯域の信号波形を抽出するフィルタと、上記フィルタ通過後の信号波形のエンベロープを検波するエンベロープ検波器とを有し、上記エンベロープ検波後の信号波形を上記所定周波数帯域の信号成分として出力し、
上記定常信号成分抽出部は、上記エンベロープ検波後の信号波形をミュートするミュート部と、上記エンベロープ検波後の信号波形の信号レベルが所定閾値を超え且つその状態が所定時間経過した時に上記ミュート部のミュートを解除し、上記ミュート解除後に上記信号レベルが所定閾値を下回った時に上記ミュート部のミュートを有効にするミュート制御部とを有し、
上記制御信号生成部は、上記ミュート部から出力された信号波形からなる上記定常的な信号成分を少なくとも用いて、上記制御信号を生成する請求項1記載の音声信号処理装置。
【請求項6】
上記帯域信号成分抽出部は、入力音声信号から上記第一の周波数帯域の信号波形を抽出する第一のフィルタと、入力音声信号から上記第二の周波数帯域の信号波形を抽出する第二のフィルタと、上記第一のフィルタ通過後の信号波形のエンベロープを検波する第一のエンベロープ検波器と、上記第二のフィルタ通過後の信号波形のエンベロープを検波する第二のエンベロープ検波器とを有し、上記第一のエンベロープ検波器によるエンベロープ検波後の信号波形を上記第一の周波数帯域の信号成分として出力し、上記第二のエンベロープ検波器によるエンベロープ検波後の信号波形を上記第二の周波数帯域の信号成分として出力し、
上記定常信号成分抽出部は、上記第一のエンベロープ検波部によるエンベロープ検波後の信号波形をミュートするミュート部と、上記第一のエンベロープ検波部によるエンベロープ検波後の信号波形の信号レベルが所定閾値を超え且つその状態が所定時間経過した時に上記ミュート部のミュートを解除し、上記ミュート解除後に上記信号レベルが所定閾値を下回った時に上記ミュート部のミュートを有効にするミュート制御部とを有し、当該ミュート部の出力波形を上記定常的な信号成分として出力し、
上記制御信号生成部は、上記ミュート部から出力された信号波形からなる上記定常的な信号成分と、上記第二のエンベロープ検波器によるエンベロープ検波後の信号波形からなる上記第二の周波数帯域の信号成分とを用いて、上記制御信号を生成する請求項2乃至請求項4のうち何れか一項に記載の音声信号処理装置。
【請求項7】
上記制御信号生成部は、上記信号成分の信号レベルの値が規定値より大きい時、当該信号成分から、入力信号レベルに対して出力信号レベルが大きくなる方向に上記信号調整部の入出力特性を変更する上記制御信号を生成する請求項1乃至請求項6のうち何れか一項に記載の音声信号処理装置。
【請求項8】
上記制御信号生成部は、上記信号成分の信号レベルの値が小さくなる方向に変化した時、当該信号成分から、入力信号レベルと出力信号レベルとの関係が一対一に近づく方向へ上記信号調整部の入出力特性を変更する上記制御信号を生成する請求項7記載の音声信号処理装置。
【請求項9】
上記信号調整部は、制御信号により上記入出力特性を段階的若しくは連続的に変更する請求項7記載の音声信号処理装置。
【請求項10】
上記信号調整部は、制御信号による上記入出力特性の変更にヒステリシスを持たせている請求項7記載の音声信号処理装置。
【請求項11】
上記信号調整部は、上記音声通話時の受話音声信号に含まれる所定のフォルマント成分を強調するフォルマント調整機能を有し、上記フォルマント調整機能による所定のフォルマント成分の調整処理後の受話音声信号を上記入力信号とする請求項7記載の音声信号処理装置。
【請求項12】
音声通話時に少なくとも送話音声を集音するための音声集音手段より入力された音声信号から、帯域信号成分抽出部が、所定周波数帯域の信号成分を抽出するステップと、
上記帯域信号成分抽出部が抽出した信号成分の中から、定常信号成分抽出部が、少なくとも定常的な信号成分を抽出するステップと、
上記定常信号成分抽出部が抽出した上記定常的な信号成分を少なくとも用いて、制御信号生成部が、信号調整部の入出力特性を変更する際の制御信号を生成するステップと、
音声通話時の受話音声信号が入力信号となされ、上記制御信号生成部にて生成された制御信号により、信号調整部が、入力信号レベルに対して出力信号レベルを調整する際の入出力特性を変更して上記受話音声信号のレベルを調整するステップと、
を有する音声信号処理方法。
【請求項13】
少なくとも音声通話のための通信を行う通信部と、
音声通話時の少なくとも送話音声を集音するための音声集音部と、
上記音声通話時の受話音声信号を音響波に変換して出力するための音声放音部と、
上記音声集音部より入力された音声信号から、所定周波数帯域の信号成分を抽出する帯域信号成分抽出部と、
上記帯域信号成分抽出部が抽出した信号成分の中から、少なくとも定常的な信号成分を抽出する定常信号成分抽出部と、
入力信号レベルに対する出力信号レベルを調整するレベル調整機能と、制御信号により上記レベル調整機能におけるレベル調整の際の入出力特性を変更する入出力特性変更機能とを備え、上記音声通話時の受話音声信号が上記入力信号となされる信号調整部と、
上記定常信号成分抽出部が抽出した上記定常的な信号成分を少なくとも用いて、上記信号調整部の上記入出力特性を変更する際の上記制御信号を生成する制御信号生成部とを有し、
上記信号調整部から出力された受話音声信号を上記音声放音部へ供給する通信端末。
【請求項1】
音声通話時に少なくとも送話音声を集音するための音声集音手段より入力された音声信号から、所定周波数帯域の信号成分を抽出する帯域信号成分抽出部と、
上記帯域信号成分抽出部が抽出した信号成分の中から、少なくとも定常的な信号成分を抽出する定常信号成分抽出部と、
入力信号レベルに対する出力信号レベルを調整するレベル調整機能と、制御信号により上記レベル調整機能におけるレベル調整の際の入出力特性を変更する入出力特性変更機能とを備え、上記音声通話時の受話音声信号が上記入力信号となされる信号調整部と、
上記定常信号成分抽出部が抽出した上記定常的な信号成分を少なくとも用いて、上記信号調整部の上記入出力特性を変更するための上記制御信号を生成する制御信号生成部と、
を有する音声信号処理装置。
【請求項2】
上記帯域信号成分抽出部は、上記所定周波数帯域の信号成分として、第一の周波数帯域の信号成分と第二の周波数帯域の信号成分を抽出し、
上記定常信号成分抽出部は、上記所定周波数帯域の信号成分のうち上記第一の周波数帯域の信号成分から上記定常的な信号成分を抽出し、
上記制御信号生成部は、上記定常信号成分抽出部にて上記第一の周波数帯域の信号成分から抽出された上記定常的な信号成分と上記帯域信号成分抽出部にて抽出された上記第二の周波数帯域の信号成分の両信号レベルを比較し、何れか大きい方の信号レベルの信号成分を用いて、上記制御信号を生成する請求項1記載の音声信号処理装置。
【請求項3】
上記帯域信号成分抽出部は、上記所定周波数帯域の信号成分として、第一の周波数帯域の信号成分と第二の周波数帯域の信号成分とを抽出し、
上記定常信号成分抽出部は、上記所定周波数帯域の信号成分のうち上記第一の周波数帯域の信号成分から上記定常的な信号成分を抽出し、
上記制御信号生成部は、上記定常信号成分抽出部にて上記第一の周波数帯域の信号成分から抽出された上記定常的な信号成分と上記帯域信号成分抽出部にて抽出された上記第二の周波数帯域の信号成分とを加算した信号成分を用いて、上記制御信号を生成する請求項1記載の音声信号処理装置。
【請求項4】
上記帯域信号成分抽出部は、上記第一の周波数帯域として人の音声帯域の信号成分を抽出し、上記第二の周波数帯域として人の音声帯域を除く周波数帯域の信号成分を抽出する請求項2又は請求項3記載の音声信号処理装置。
【請求項5】
上記帯域信号成分抽出部は、入力音声信号から上記所定周波数帯域の信号波形を抽出するフィルタと、上記フィルタ通過後の信号波形のエンベロープを検波するエンベロープ検波器とを有し、上記エンベロープ検波後の信号波形を上記所定周波数帯域の信号成分として出力し、
上記定常信号成分抽出部は、上記エンベロープ検波後の信号波形をミュートするミュート部と、上記エンベロープ検波後の信号波形の信号レベルが所定閾値を超え且つその状態が所定時間経過した時に上記ミュート部のミュートを解除し、上記ミュート解除後に上記信号レベルが所定閾値を下回った時に上記ミュート部のミュートを有効にするミュート制御部とを有し、
上記制御信号生成部は、上記ミュート部から出力された信号波形からなる上記定常的な信号成分を少なくとも用いて、上記制御信号を生成する請求項1記載の音声信号処理装置。
【請求項6】
上記帯域信号成分抽出部は、入力音声信号から上記第一の周波数帯域の信号波形を抽出する第一のフィルタと、入力音声信号から上記第二の周波数帯域の信号波形を抽出する第二のフィルタと、上記第一のフィルタ通過後の信号波形のエンベロープを検波する第一のエンベロープ検波器と、上記第二のフィルタ通過後の信号波形のエンベロープを検波する第二のエンベロープ検波器とを有し、上記第一のエンベロープ検波器によるエンベロープ検波後の信号波形を上記第一の周波数帯域の信号成分として出力し、上記第二のエンベロープ検波器によるエンベロープ検波後の信号波形を上記第二の周波数帯域の信号成分として出力し、
上記定常信号成分抽出部は、上記第一のエンベロープ検波部によるエンベロープ検波後の信号波形をミュートするミュート部と、上記第一のエンベロープ検波部によるエンベロープ検波後の信号波形の信号レベルが所定閾値を超え且つその状態が所定時間経過した時に上記ミュート部のミュートを解除し、上記ミュート解除後に上記信号レベルが所定閾値を下回った時に上記ミュート部のミュートを有効にするミュート制御部とを有し、当該ミュート部の出力波形を上記定常的な信号成分として出力し、
上記制御信号生成部は、上記ミュート部から出力された信号波形からなる上記定常的な信号成分と、上記第二のエンベロープ検波器によるエンベロープ検波後の信号波形からなる上記第二の周波数帯域の信号成分とを用いて、上記制御信号を生成する請求項2乃至請求項4のうち何れか一項に記載の音声信号処理装置。
【請求項7】
上記制御信号生成部は、上記信号成分の信号レベルの値が規定値より大きい時、当該信号成分から、入力信号レベルに対して出力信号レベルが大きくなる方向に上記信号調整部の入出力特性を変更する上記制御信号を生成する請求項1乃至請求項6のうち何れか一項に記載の音声信号処理装置。
【請求項8】
上記制御信号生成部は、上記信号成分の信号レベルの値が小さくなる方向に変化した時、当該信号成分から、入力信号レベルと出力信号レベルとの関係が一対一に近づく方向へ上記信号調整部の入出力特性を変更する上記制御信号を生成する請求項7記載の音声信号処理装置。
【請求項9】
上記信号調整部は、制御信号により上記入出力特性を段階的若しくは連続的に変更する請求項7記載の音声信号処理装置。
【請求項10】
上記信号調整部は、制御信号による上記入出力特性の変更にヒステリシスを持たせている請求項7記載の音声信号処理装置。
【請求項11】
上記信号調整部は、上記音声通話時の受話音声信号に含まれる所定のフォルマント成分を強調するフォルマント調整機能を有し、上記フォルマント調整機能による所定のフォルマント成分の調整処理後の受話音声信号を上記入力信号とする請求項7記載の音声信号処理装置。
【請求項12】
音声通話時に少なくとも送話音声を集音するための音声集音手段より入力された音声信号から、帯域信号成分抽出部が、所定周波数帯域の信号成分を抽出するステップと、
上記帯域信号成分抽出部が抽出した信号成分の中から、定常信号成分抽出部が、少なくとも定常的な信号成分を抽出するステップと、
上記定常信号成分抽出部が抽出した上記定常的な信号成分を少なくとも用いて、制御信号生成部が、信号調整部の入出力特性を変更する際の制御信号を生成するステップと、
音声通話時の受話音声信号が入力信号となされ、上記制御信号生成部にて生成された制御信号により、信号調整部が、入力信号レベルに対して出力信号レベルを調整する際の入出力特性を変更して上記受話音声信号のレベルを調整するステップと、
を有する音声信号処理方法。
【請求項13】
少なくとも音声通話のための通信を行う通信部と、
音声通話時の少なくとも送話音声を集音するための音声集音部と、
上記音声通話時の受話音声信号を音響波に変換して出力するための音声放音部と、
上記音声集音部より入力された音声信号から、所定周波数帯域の信号成分を抽出する帯域信号成分抽出部と、
上記帯域信号成分抽出部が抽出した信号成分の中から、少なくとも定常的な信号成分を抽出する定常信号成分抽出部と、
入力信号レベルに対する出力信号レベルを調整するレベル調整機能と、制御信号により上記レベル調整機能におけるレベル調整の際の入出力特性を変更する入出力特性変更機能とを備え、上記音声通話時の受話音声信号が上記入力信号となされる信号調整部と、
上記定常信号成分抽出部が抽出した上記定常的な信号成分を少なくとも用いて、上記信号調整部の上記入出力特性を変更する際の上記制御信号を生成する制御信号生成部とを有し、
上記信号調整部から出力された受話音声信号を上記音声放音部へ供給する通信端末。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図31】
【図32】
【公開番号】特開2010−62663(P2010−62663A)
【公開日】平成22年3月18日(2010.3.18)
【国際特許分類】
【出願番号】特願2008−223835(P2008−223835)
【出願日】平成20年9月1日(2008.9.1)
【出願人】(501431073)ソニー・エリクソン・モバイルコミュニケーションズ株式会社 (810)
【Fターム(参考)】
【公開日】平成22年3月18日(2010.3.18)
【国際特許分類】
【出願日】平成20年9月1日(2008.9.1)
【出願人】(501431073)ソニー・エリクソン・モバイルコミュニケーションズ株式会社 (810)
【Fターム(参考)】
[ Back to top ]