説明

信号経路を分離する方法及び電気喉頭を使用して音声を改良するための使用方法

音声信号が適当な手段によってデジタル化される電気喉頭(EL)話者の音声品質を向上させるために、次の工程を実施する:
a)時間領域から離散周波数領域へ単一チャネル音声信号を転送することによって、前記単一チャネル音声信号を一連の周波数チャネルに分割する工程;
b)各周波数チャネルにおいてハイパスフィルタ又はノッチフィルタを用いてELの変調周波数をフィルタ処理して除去する工程;及び
c)フィルタ処理音声信号を周波数領域から時間領域に逆変換し、そして、それを単一チャネル出力信号に結合する工程。

【発明の詳細な説明】
【発明の詳細な説明】
【0001】
本発明は、音声信号が適当な手段によってデジタル化される電気喉頭(EL)話者の音声品質を向上させる方法に関する。本明細書において、適当な手段とは、例えば、関連づけられたアナログ/デジタル変換器を備えたマイクロホン、電話又は電子機器を用いた他の方法を意味するものと理解される。
【0002】
ELは、例えば、喉頭を外科的に切除された患者の人工置換音声を形成する装置である。ELは顎の下側に当てられ;特定の周波数を有する可聴周波数信号発生器が顎の下側の柔らかい部分の上で口腔内の空気を振動させる。次いで、これらの振動は調音器官によって変調され、このようにして話すことが可能になる。しかしながら、可聴周波数信号発生器は通常一つの周波数でのみ作動するので、音声は、「ロボット声」のように、単調で不自然に聞こえる。
【0003】
更に不利なことには、音の部分だけが口腔内で調音されるので、ELの振動が音声の認識を妨げるか又は消してしまうことさえある。デバイスから直接に生じるか又は首の変化部位(Uebergangsstelle)で生じる音の部分が、調音された部分の上に重ねられ、そして、その了解度(Verstaendlichkeit)を低下させる。このことは、首の部位に放射線治療を受け、その結果として組織構造が硬くなった話者の場合に特に当てはまる。従って、干渉信号、すなわち、直接音、及びELの変調されていない振動に対立するものとしての有効な信号、すなわち、調音された振動を増幅させるための種々の方法が開発されてきた。
【0004】
従って、これらの方法は、発せられた音に直接に聞き手がさらされないがその代わりに電子的手段が用いられる状況(例えば、電話で話す場合に、録音において又は一般にマイクロホン及びアンプを介して話す場合)に主として用いられる。
【0005】
US6,359,988B1によれば、EL音声信号はケプストラム(Cepstrum)分析に付されそして正常の話者の音声が重ねられ、それによってELを用いて話す者のピッチ変化をより自然に聞こえるようにすることができ;同時に、それによって発せられた直接音の部分も信号において抑制される。この解決法の不利な点は、とりわけ、EL話者の各口述に対し健常な話者の同じ口述(すなわち、ELを用いない音声)が同期的に要求されるが、このことは実際には実現できそうにないことである。
【0006】
別の解決法がUS6,975,984B2に開示されており、そこでは電話におけるEL音声信号を改良するための解決法が記載されている。この場合に、音声信号はデジタル信号プロセッサによって処理されるので、ELのハム基本ノイズ(brummende Grundgeraeusch)が認識され、そして、音声信号から取り除かれる。この目的のため、音声信号は有声成分と無声成分とに分割され、そして、別々に処理される。有声部分はブロック単位でフーリエ変換され、周波数フィルタ処理され(基本周波数及び高調波は再利用される)、逆変換され(ruecktansformiert)、そして、次に元の信号全体からサブトラクトされる。残るのは、元の信号の無声成分である。これとは別に、ローパスフィルタを通して有声成分をフィルタ処理し、音声休止が認識されるとフィルタ処理によりそれを完全に除去し、そしてその後に無声部分を重ねることも提案されている。
【0007】
文献「Enhancement of Electrolaryngeal Speech by Adaptive Filtering」, Carol Y. Espy-Wilsonet al. (JSLHR, 41: 1253-1264, 1998) には、EL話者の音声品質の改善方法が記載されている。この場合にELの基本ノイズは、適応フィルタ処理によって、EL基本ノイズにより歪ませられた音声信号(及び音声に調音されたEL基本ノイズ)に適応され;更なる工程において信号は相互にサブトラクトされる。残るのは、エラー信号を最小にする目的でフィルタパラメータをチェックしそして適応させるために用いられるエラー信号である。この方法におけるエラー信号は、EL基本ノイズを含まない音声信号である。ここでは、音声信号中の干渉信号はEL基本ノイズと関連づけられるが、目的の音声信号は他の信号から独立しているので、事実上は干渉基本ノイズ(stoerende Grundgeraeusch)と音声信号とは異なるソースに由来するということを前提としている。
【0008】
文献「Enhancement of Electrolarynx Speech Based on Auditory Masking」, Hanjun Liu et al. (IEEE Transactions on Biomedical Engineering, 53(5): 865-874, 2006) には、とりわけ周囲ノイズに関連した、EL話者の信号を改善するためのサブトラクションアルゴリズムが記載されている。
【0009】
固定されたサブトラクションパラメータを含む他の方法とは対照的に、このアルゴリズムでは、サブトラクションパラメータが聴覚マスキングに基づいて周波数範囲に適応される。これに関連して、音声とバックグランドノイズとは相関性がないので、信号からの周波数範囲においてバックグランドノイズを評価してサブトラクトすることができると仮定されている。
【0010】
これらの解決法の共通の特徴は、音声と干渉信号(すなわち、周囲ノイズだけでなくELの基本ノイズも)とが統計的に独立していて相関性がないというモデルに基づいて、方法が用いられていることである。
【0011】
この仮定のために、前記方法の実施はとても複雑な方法で行われる。(適応性の)ノッチフィルタを用いて直接音を抑制しようとする試みが行なわれる場合、それによって音声信号の質も低下して、ささやきのように聞こえる;音声信号と干渉ノイズとは同じ高調波上にある。
【0012】
US2005/0004604A1は、サウンドジェネレータ及びマイクロホンがユーザーの口の前に直接設置され、前記サウンドジェネレータが低い音量レベルの音を発し、そして、更なる処理のために信号がマイクロホンを通してピックアップされるという喉頭解決法(Larynx-Loesung)を開示している。更なる処理では、基本的にコムフィルタを用いて信号をフィルタ処理して、信号の高調波を低減及び/又は除去する。しかしながら、この場合に、音声信号の質がひどく損なわれる。
【0013】
WO2006/099670A1には、呼吸経路のモニタリング用装置が開示されており、そこでは、被験者の呼吸経路中にはっきり聞き取れる周波数範囲の音を導入し、そして、反射及び処理された音から呼吸経路の状態を測定する。従って、例えば、呼吸経路の閉塞を検出することが可能である。発明の変形によれば、FFT(高速フーリエ変換)によって一定の閾値を超えているか否かをチェックし、そこから測定された信号の処理についての結論を得ることができる。
【0014】
本発明の目的は、従来技術の上記欠点を克服し、そして、電子デバイス(例えば、マイクロホン)を用いたときのELユーザーの音声品質を向上させることである。
【0015】
本発明によるとこの目的は、以下の工程:
a)時間領域から離散周波数領域へ単一チャネル音声信号を転送(transfer)することによって前記単一チャネル音声信号を一連の周波数チャネルに分割する工程;
b)各周波数チャネルにおいてハイパスフィルタ又はノッチフィルタを用いてELの変調周波数をフィルタ処理して除去(Herausfiltern)する工程;
c)周波数領域から時間領域にフィルタ処理音声信号を逆変換し、そして、それを単一チャネル出力信号に結合する工程;
を含む導入部に記載されるタイプの方法によって達成される。
【0016】
本発明は、ELの使用の改良されたモデルを用いるものであって、前記モデルによると、音声信号に調音されたEL基本ノイズだけでなく音声信号の認識(Wahrnehmung)に干渉するELの調音されていない部分も共通のソース、すなわち、ELに由来する。変調範囲のELの調音されていない干渉基本ノイズは時不変信号として識別することができるので、適当な手順によって容易にそれをフィルタ処理して除去することができる。従って、このことは、信号源からの分離ではなく、伝播経路からの分離を含む(話者の調音器官を通る伝播経路、話者の首における使用位置から聞き手の耳への直接の伝播経路、あるいはマイクロホン又は録音手段への伝播経路)。
【0017】
デジタル化された単一チャネル信号を周波数領域に変換し、そして、前記単一チャネル信号を一連の周波数チャネルに分割する多数の可能な方法は当業者に知られている。各周波数チャネルにおいて、ELの変調周波数はその値に用いられる適当なフィルタ、例えば、ノッチフィルタ又はハイパスフィルタによって抑制され、そして、それによって調音された信号部分の質が改善される。
【0018】
従来技術からの同様な方法は、調音された部分だけでなく調音されていない部分も異なるソースから来るとみなし、そして、このモデルに対応するアプローチ(例えば、バンドパスフィルタによるフィルタ処理)を選択するが、これでは音声信号も減衰させてしまう。
【0019】
従って、本発明の方法は、ELユーザーの音声の了解度を改善し、そして、その信号をより許容することができるもの及び「人間的」にすることを目的としている。この目的は、電子的手段(例えば、電話)を介してコミュニケーションする際の、ELからの直接音を低減及び除去することである。
【0020】
本発明の方法の実現は、例えば、ソフトウェアプラグインによって、固定された有線での解決法(fest verdrahtete Loesung)として又はアナログ回線としても達成することができる。
【0021】
信号を周波数領域に変換しそして逆変換する多くの公知の方法の中で、有利には、本発明の方法の工程a)における変換をフーリエ変換によって行い、そして、工程c)における逆変換を逆フーリエ変換によって行う。短い間隔(例えば、10msec毎にリフレッシュ(Auffrischung)でブロック単位(例えば、20msecのブロック)に変換を行う。一連の周波数チャネルへの信号の分割は、信号を周波数領域に変換するときに実施する。
【0022】
本発明の変形態様によれば、工程a)の音声信号の変換及び工程c)の逆変換を対応するフィルタバンクを用いて行う。
【0023】
信号圧縮を工程b)のフィルタ処理の前に行い、そして、復元を工程b)の後で行う場合には、本発明の方法の結果を更に改善することができる。圧縮のために、高振幅において、小さな振幅の変化が考慮されないような程度まで後者の変化がドミナントになることを防ぐことができる。このように、圧縮のために、フィルタに対して相対変化がより可視的になる。
【0024】
本発明の方法の更なる実施では、負信号成分の調整(Gleichrichtung)を工程c)の逆変換の前に行う。
【0025】
図面に示された限定的でない態様によって、以下に本発明をより詳細に記載する。
図1は、ELの使用及び生ずる信号経路の単純化した表現を模式的に示す。
図2は、本発明の方法を用いた状態の単純化した表現を模式的に示す。
図3は、本発明の方法の機能的ブロック図を模式的に示す。
【0026】
EL1の信号の種々の伝達経路を図1に示す。EL1は話者2の首に配置される。EL1によって発生された音は、一方では第一の話者2の通常の音声経路(口及び鼻)5を通して伝播され、そして、その音声経路において音声に調音される;この第一の信号3は明らかに変化しやすくそして時変(zeit-variant)である。聞き手の耳4は、この時変信号3の他に、EL1の直接音の形態の第二の信号6(図1に一点鎖線で示す)も受けるが、この信号4は広範囲に定常的であるので時不変(zeitlich invariant)であると考えられる。全信号の第二の部分6(すなわち、EL1の基本ノイズ)は、聞き手4により干渉信号として認識され、そして、話者2の音声の了解度を低下させる。このように、EL1による元の刺激は2つの異なる経路を介して伝えられる。
【0027】
もちろん、本発明は、電子デバイスを用いる場合のEL話者の音声品質の改良に関するので、聞き手による代わりに、例えば、マイクロホンによって信号が受信されるであろう。しかしながら、最初の状態を説明するために、理解のためこの一般的モデルを選択した。
【0028】
図2は、本発明の方法を用いて干渉性の第二の信号6(図1参照)を抑制する状態の単純化した表現を示す。本発明の方法は伝播経路の分離ではなく、信号源の分離を含まないことが容易に理解できる。
【0029】
信号源7からの源信号x(w)は2つの異なる信号経路を介して伝播される。第一の信号経路において、出力信号は時変フィルタH(w,t)によって変調されて時変信号x(w)H(w,t)を形成する。第二の信号経路において、出力信号は時不変フィルタF(w)によってのみ信号x(w)F(w)に変えられる。
【0030】
次いで、2つの経路の信号は、レシーバ8(例えば、聞き手の耳、マイクロホン等)において、測定に利用することができる信号S(w,t)に合計される。このように、信号は次式の通りに各成分の合計からなる。
S(w,t)=x(w)H(w,t)+x(w)F(w)
【0031】
今や、時不変からの信号部分及び時変信号経路からの信号部分は分離することができ、経時的に変化する全ての信号部分又は時不変である全ての信号部分のいずれかが減衰される。従って、例えば、時変部分S1(w,t)〜x(w)H(w,t)だけが結果として得られる。
【0032】
調音されない信号部分x(w)F(w)(すなわち、ELの基本ノイズ)は、ELを用いた音声に使用される場合に、時変音声信号x(w)H(w,t)の上に重ねられ、そして、音声信号の了解度の損失を生じさせる。音声了解度は、時不変信号部分から時変信号部分を分離することによって改善される。
【0033】
図3は、本発明の方法において見込まれる変換を示す。ここで、ELを用いた話者からの任意のデジタル音声信号9は入力位置に存在していることができる。第一の工程10において、音声信号9は短時間フーリエ変換を用いてブロック単位で周波数領域に変換され、そして、一連の周波数チャネルに分割される。ここで、当業者は、時間領域から周波数領域に信号を変換する種々の確立された方法から選択することができ;フーリエ変換のほかに、例えば、離散コサイン変換も用いられるが、本発明によって使用するための前提条件は変換が可逆であるということである。信号は特定のリフレッシュ率(例えば、10msec)で、例えば、20msec長さのブロックに分割され、ブロックはそれぞれの場合に一連の周波数チャネル11に広げられる。従って、最初は単一チャネルであった音声信号9は、経時的に変わる複数の周波数領域に分割される。周波数信号は複合的であるが、その先の過程においては絶対値だけが変更されるのであって、相15は変わらないままである。
【0034】
工程10において、フィルタバンクを用いることもでき、その場合にはフィルタバンクの後に信号のサンプリング率が低減される。この点について、サンプリング率の低減はフーリエ変換を用いる場合のブロック形成と対応する。
【0035】
その先の機能ブロック12において、例えば、ハイパスフィルタ又はノッチフィルタを用いて各周波数チャネル11をフィルタ処理する。このフィルタ処理は一定の周波数をフィルタ処理によって除去することができるようにし、ナローバンド干渉は音響技術によりノッチフィルタを用いたフィルタ処理によって除去される。ELは一定の周波数、例えば、100Hzで振動するので、話者の調音器官によって変化しない干渉信号が、周波数範囲において変調周波数0Hzで100Hzチャネルの振幅を発生させ、すなわち、EL信号の振幅は変わらない。干渉信号は、それが完全に時不変であるという事実を特徴とする。ノッチフィルタ又はハイパスフィルタを用いてELの基本ノイズをフィルタ処理する。この点について、ELの変調周波数はハイパスフィルタに対する制限周波数(Grenzfrequenz)として働き;従って、正にELの変調周波数においてロックするようにノッチフィルタを選択する。
【0036】
もちろん、実際の実施においては、反射、屈折、周囲ノイズ及びELの構造的必然性があるために完全な時不変は達成できない。しかしながら、フィルタも一つの周波数だけに限定されることはなく、特定の周波数範囲、この場合には変調周波数範囲をカバーするので、本発明の方法の機能が保証される。
【0037】
最終の機能ブロック13において、信号は、例えば、逆フーリエ変換によって時間領域に逆変換され、そして周波数チャネル11はoverlap-addによって一つのチャネルに再結合される。このoverlap-add法は、デジタル信号処理からの、当業者に公知の方法である。結果として単一チャネル出力信号14が得られ、この場合、ELの干渉信号はフィルタ処理によって除去されるか又は少なくとも減衰されている。その後、出力信号を更に処理することができる。
【0038】
工程10においてフィルタバンクを用いる場合、工程12のフィルタ処理後の信号のサンプリング率は再び高められ、そして、前記のようにその後更に処理される。
【0039】
原則として、これらの手順は本発明の最も重要な部分のみを表すものであり;ブロック12におけるフィルタ処理の前に信号を圧縮し、そしてフィルタ処理後に復元を行うことができる。同様に、許されていない負値が処理において生ずることがあるので、時間領域への逆変換の前に調整を行うのが有利であることがある。
【0040】
本発明は、例えば、電話で話すときに追加のデバイスとして用いることができる。従来のアナログ電話の場合には、デバイスは簡単にイヤホンに統合される。統合されたデジタル信号プロセッサを備えた電話の場合には、ソフトウェアプラグインを用いて本発明を統合することができる。また、固定された有線での解決の範囲内で、例えば、アナログ回線においても本発明を実現することができる。
【0041】
ELを用いる場合にも本発明の方法を用いることができ、その場合、2つ又は3つ以上の周波数の間で前後に切り替えを行なって音声をよりリアルな音にすることができる。基本信号が分割される周波数帯域内に周波数の切り替えがあると仮定すると、このことは離散周波数ジャンプ(diskrete Frequenzspruenge)だけでなく基本周波数の連続的変化の両方に対して当てはまる。
【0042】
次に、変調周波数フィルタの幅は、如何に速く周波数が変わることが許されるかを決定する。極めて遅速で連続的な変化である場合に、周波数は機能的抑制(funktionierender Unterdrueckung)を伴って周波数帯域の全範囲にわたり変化することがあるので、決定的因子は変化の大きさではなく変化の速度である。ELのスイッチをオン・オフする場合、急速な変化に相当するが、ノッチフィルタがどの程度広いか又はハイパスフィルタの基本周波数がどこに存在するかに応じて、わずか数ミリ秒後に抑制状態に入る。
【0043】
しかしながら、この点について、基本周波数の変化が大き過ぎるものであってはならない。本発明の機能を確実にするために、信号が分割される周波数チャネルが、例えば、その範囲が広げられていること、あるいは、ハイパスフィルタによるフィルタ処理がある程度より高い周波数に設定されていることが必要であろう。
【図1】

【図2】

【図3】


【特許請求の範囲】
【請求項1】
音声信号が適当な手段によってデジタル化される電気喉頭(EL)話者の音声品質を向上させる方法であって、以下の工程:
a)時間領域から離散周波数領域へ単一チャネル音声信号を転送することによって、前記単一チャネル音声信号を一連の周波数チャネルに分割する工程;
b)各周波数チャネルにおいてハイパスフィルタ又はノッチフィルタを用いてELの変調周波数をフィルタ処理して除去する工程;及び
c)処理音声信号を周波数領域から時間領域にフィルタ逆変換し、そして、それを単一チャネル出力信号に結合する工程;
を特徴とする、前記方法。
【請求項2】
工程a)の音声信号の変換をフーリエ変換によって行い、そして、工程c)の逆変換を逆フーリエ変換によって行うことを特徴とする、請求項1に記載の方法。
【請求項3】
工程a)の音声信号の変換と、工程c)の周波数チャネルの合成とを、フィルタバンクを用いて行うことを特徴とする、請求項1に記載の方法。
【請求項4】
信号圧縮を工程b)のフィルタ処理の前に行い、そして、復元を工程b)の後に行うことを特徴とする、請求項1〜3のいずれか一項に記載の方法。
【請求項5】
負信号成分の調整を工程c)の逆変換の前に行うことを特徴とする、請求項1〜4のいずれか一項に記載の方法。

【公表番号】特表2012−517031(P2012−517031A)
【公表日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2011−548504(P2011−548504)
【出願日】平成22年2月1日(2010.2.1)
【国際出願番号】PCT/AT2010/000032
【国際公開番号】WO2010/088709
【国際公開日】平成22年8月12日(2010.8.12)
【出願人】(511189366)ハイモメート ハインツェ ゲー エム ベー ハー ウント コンパニー コマンディートゲゼルシャフト (1)
【氏名又は名称原語表記】HEIMOMED Heinze GmbH & Co. KG
【Fターム(参考)】