信号経路を分離する方法及び電気喉頭を使用して音声を改良するための使用方法

音声信号が適当な手段によってデジタル化される電気喉頭（ＥＬ）話者の音声品質を向上させるために、次の工程を実施する：
ａ）時間領域から離散周波数領域へ単一チャネル音声信号を転送することによって、前記単一チャネル音声信号を一連の周波数チャネルに分割する工程；
ｂ）各周波数チャネルにおいてハイパスフィルタ又はノッチフィルタを用いてＥＬの変調周波数をフィルタ処理して除去する工程；及び
ｃ）フィルタ処理音声信号を周波数領域から時間領域に逆変換し、そして、それを単一チャネル出力信号に結合する工程。

【発明の詳細な説明】
【発明の詳細な説明】
【０００１】
本発明は、音声信号が適当な手段によってデジタル化される電気喉頭（ＥＬ）話者の音声品質を向上させる方法に関する。本明細書において、適当な手段とは、例えば、関連づけられたアナログ／デジタル変換器を備えたマイクロホン、電話又は電子機器を用いた他の方法を意味するものと理解される。
【０００２】
ＥＬは、例えば、喉頭を外科的に切除された患者の人工置換音声を形成する装置である。ＥＬは顎の下側に当てられ；特定の周波数を有する可聴周波数信号発生器が顎の下側の柔らかい部分の上で口腔内の空気を振動させる。次いで、これらの振動は調音器官によって変調され、このようにして話すことが可能になる。しかしながら、可聴周波数信号発生器は通常一つの周波数でのみ作動するので、音声は、「ロボット声」のように、単調で不自然に聞こえる。
【０００３】
更に不利なことには、音の部分だけが口腔内で調音されるので、ＥＬの振動が音声の認識を妨げるか又は消してしまうことさえある。デバイスから直接に生じるか又は首の変化部位（Uebergangsstelle）で生じる音の部分が、調音された部分の上に重ねられ、そして、その了解度（Verstaendlichkeit）を低下させる。このことは、首の部位に放射線治療を受け、その結果として組織構造が硬くなった話者の場合に特に当てはまる。従って、干渉信号、すなわち、直接音、及びＥＬの変調されていない振動に対立するものとしての有効な信号、すなわち、調音された振動を増幅させるための種々の方法が開発されてきた。
【０００４】
従って、これらの方法は、発せられた音に直接に聞き手がさらされないがその代わりに電子的手段が用いられる状況（例えば、電話で話す場合に、録音において又は一般にマイクロホン及びアンプを介して話す場合）に主として用いられる。
【０００５】
ＵＳ６，３５９，９８８Ｂ１によれば、ＥＬ音声信号はケプストラム（Cepstrum）分析に付されそして正常の話者の音声が重ねられ、それによってＥＬを用いて話す者のピッチ変化をより自然に聞こえるようにすることができ；同時に、それによって発せられた直接音の部分も信号において抑制される。この解決法の不利な点は、とりわけ、ＥＬ話者の各口述に対し健常な話者の同じ口述（すなわち、ＥＬを用いない音声）が同期的に要求されるが、このことは実際には実現できそうにないことである。
【０００６】
別の解決法がＵＳ６，９７５，９８４Ｂ２に開示されており、そこでは電話におけるＥＬ音声信号を改良するための解決法が記載されている。この場合に、音声信号はデジタル信号プロセッサによって処理されるので、ＥＬのハム基本ノイズ（brummende Grundgeraeusch）が認識され、そして、音声信号から取り除かれる。この目的のため、音声信号は有声成分と無声成分とに分割され、そして、別々に処理される。有声部分はブロック単位でフーリエ変換され、周波数フィルタ処理され（基本周波数及び高調波は再利用される）、逆変換され（ruecktansformiert）、そして、次に元の信号全体からサブトラクトされる。残るのは、元の信号の無声成分である。これとは別に、ローパスフィルタを通して有声成分をフィルタ処理し、音声休止が認識されるとフィルタ処理によりそれを完全に除去し、そしてその後に無声部分を重ねることも提案されている。
【０００７】
文献「Enhancement of Electrolaryngeal Speech by Adaptive Filtering」, Carol Y. Espy-Wilsonet al. (JSLHR, 41: 1253-1264, 1998) には、ＥＬ話者の音声品質の改善方法が記載されている。この場合にＥＬの基本ノイズは、適応フィルタ処理によって、ＥＬ基本ノイズにより歪ませられた音声信号（及び音声に調音されたＥＬ基本ノイズ）に適応され；更なる工程において信号は相互にサブトラクトされる。残るのは、エラー信号を最小にする目的でフィルタパラメータをチェックしそして適応させるために用いられるエラー信号である。この方法におけるエラー信号は、ＥＬ基本ノイズを含まない音声信号である。ここでは、音声信号中の干渉信号はＥＬ基本ノイズと関連づけられるが、目的の音声信号は他の信号から独立しているので、事実上は干渉基本ノイズ（stoerende Grundgeraeusch）と音声信号とは異なるソースに由来するということを前提としている。
【０００８】
文献「Enhancement of Electrolarynx Speech Based on Auditory Masking」, Hanjun Liu et al. (IEEE Transactions on Biomedical Engineering, 53(5): 865-874, 2006) には、とりわけ周囲ノイズに関連した、ＥＬ話者の信号を改善するためのサブトラクションアルゴリズムが記載されている。
【０００９】
固定されたサブトラクションパラメータを含む他の方法とは対照的に、このアルゴリズムでは、サブトラクションパラメータが聴覚マスキングに基づいて周波数範囲に適応される。これに関連して、音声とバックグランドノイズとは相関性がないので、信号からの周波数範囲においてバックグランドノイズを評価してサブトラクトすることができると仮定されている。
【００１０】
これらの解決法の共通の特徴は、音声と干渉信号（すなわち、周囲ノイズだけでなくＥＬの基本ノイズも）とが統計的に独立していて相関性がないというモデルに基づいて、方法が用いられていることである。
【００１１】
この仮定のために、前記方法の実施はとても複雑な方法で行われる。（適応性の）ノッチフィルタを用いて直接音を抑制しようとする試みが行なわれる場合、それによって音声信号の質も低下して、ささやきのように聞こえる；音声信号と干渉ノイズとは同じ高調波上にある。
【００１２】
ＵＳ２００５／０００４６０４Ａ１は、サウンドジェネレータ及びマイクロホンがユーザーの口の前に直接設置され、前記サウンドジェネレータが低い音量レベルの音を発し、そして、更なる処理のために信号がマイクロホンを通してピックアップされるという喉頭解決法（Larynx-Loesung）を開示している。更なる処理では、基本的にコムフィルタを用いて信号をフィルタ処理して、信号の高調波を低減及び／又は除去する。しかしながら、この場合に、音声信号の質がひどく損なわれる。
【００１３】
ＷＯ２００６／０９９６７０Ａ１には、呼吸経路のモニタリング用装置が開示されており、そこでは、被験者の呼吸経路中にはっきり聞き取れる周波数範囲の音を導入し、そして、反射及び処理された音から呼吸経路の状態を測定する。従って、例えば、呼吸経路の閉塞を検出することが可能である。発明の変形によれば、ＦＦＴ（高速フーリエ変換）によって一定の閾値を超えているか否かをチェックし、そこから測定された信号の処理についての結論を得ることができる。
【００１４】
本発明の目的は、従来技術の上記欠点を克服し、そして、電子デバイス（例えば、マイクロホン）を用いたときのＥＬユーザーの音声品質を向上させることである。
【００１５】
本発明によるとこの目的は、以下の工程：
ａ）時間領域から離散周波数領域へ単一チャネル音声信号を転送（transfer）することによって前記単一チャネル音声信号を一連の周波数チャネルに分割する工程；
ｂ）各周波数チャネルにおいてハイパスフィルタ又はノッチフィルタを用いてＥＬの変調周波数をフィルタ処理して除去（Herausfiltern）する工程；
ｃ）周波数領域から時間領域にフィルタ処理音声信号を逆変換し、そして、それを単一チャネル出力信号に結合する工程；
を含む導入部に記載されるタイプの方法によって達成される。
【００１６】
本発明は、ＥＬの使用の改良されたモデルを用いるものであって、前記モデルによると、音声信号に調音されたＥＬ基本ノイズだけでなく音声信号の認識（Wahrnehmung）に干渉するＥＬの調音されていない部分も共通のソース、すなわち、ＥＬに由来する。変調範囲のＥＬの調音されていない干渉基本ノイズは時不変信号として識別することができるので、適当な手順によって容易にそれをフィルタ処理して除去することができる。従って、このことは、信号源からの分離ではなく、伝播経路からの分離を含む（話者の調音器官を通る伝播経路、話者の首における使用位置から聞き手の耳への直接の伝播経路、あるいはマイクロホン又は録音手段への伝播経路）。
【００１７】
デジタル化された単一チャネル信号を周波数領域に変換し、そして、前記単一チャネル信号を一連の周波数チャネルに分割する多数の可能な方法は当業者に知られている。各周波数チャネルにおいて、ＥＬの変調周波数はその値に用いられる適当なフィルタ、例えば、ノッチフィルタ又はハイパスフィルタによって抑制され、そして、それによって調音された信号部分の質が改善される。
【００１８】
従来技術からの同様な方法は、調音された部分だけでなく調音されていない部分も異なるソースから来るとみなし、そして、このモデルに対応するアプローチ（例えば、バンドパスフィルタによるフィルタ処理）を選択するが、これでは音声信号も減衰させてしまう。
【００１９】
従って、本発明の方法は、ＥＬユーザーの音声の了解度を改善し、そして、その信号をより許容することができるもの及び「人間的」にすることを目的としている。この目的は、電子的手段（例えば、電話）を介してコミュニケーションする際の、ＥＬからの直接音を低減及び除去することである。
【００２０】
本発明の方法の実現は、例えば、ソフトウェアプラグインによって、固定された有線での解決法（fest verdrahtete Loesung）として又はアナログ回線としても達成することができる。
【００２１】
信号を周波数領域に変換しそして逆変換する多くの公知の方法の中で、有利には、本発明の方法の工程ａ）における変換をフーリエ変換によって行い、そして、工程ｃ）における逆変換を逆フーリエ変換によって行う。短い間隔（例えば、１０ｍｓｅｃ毎にリフレッシュ（Auffrischung）でブロック単位（例えば、２０ｍｓｅｃのブロック）に変換を行う。一連の周波数チャネルへの信号の分割は、信号を周波数領域に変換するときに実施する。
【００２２】
本発明の変形態様によれば、工程ａ）の音声信号の変換及び工程ｃ）の逆変換を対応するフィルタバンクを用いて行う。
【００２３】
信号圧縮を工程ｂ）のフィルタ処理の前に行い、そして、復元を工程ｂ）の後で行う場合には、本発明の方法の結果を更に改善することができる。圧縮のために、高振幅において、小さな振幅の変化が考慮されないような程度まで後者の変化がドミナントになることを防ぐことができる。このように、圧縮のために、フィルタに対して相対変化がより可視的になる。
【００２４】
本発明の方法の更なる実施では、負信号成分の調整（Gleichrichtung）を工程ｃ）の逆変換の前に行う。
【００２５】
図面に示された限定的でない態様によって、以下に本発明をより詳細に記載する。
図１は、ＥＬの使用及び生ずる信号経路の単純化した表現を模式的に示す。
図２は、本発明の方法を用いた状態の単純化した表現を模式的に示す。
図３は、本発明の方法の機能的ブロック図を模式的に示す。
【００２６】
ＥＬ１の信号の種々の伝達経路を図１に示す。ＥＬ１は話者２の首に配置される。ＥＬ１によって発生された音は、一方では第一の話者２の通常の音声経路（口及び鼻）５を通して伝播され、そして、その音声経路において音声に調音される；この第一の信号３は明らかに変化しやすくそして時変（zeit-variant）である。聞き手の耳４は、この時変信号３の他に、ＥＬ１の直接音の形態の第二の信号６（図１に一点鎖線で示す）も受けるが、この信号４は広範囲に定常的であるので時不変（zeitlich invariant）であると考えられる。全信号の第二の部分６（すなわち、ＥＬ１の基本ノイズ）は、聞き手４により干渉信号として認識され、そして、話者２の音声の了解度を低下させる。このように、ＥＬ１による元の刺激は２つの異なる経路を介して伝えられる。
【００２７】
もちろん、本発明は、電子デバイスを用いる場合のＥＬ話者の音声品質の改良に関するので、聞き手による代わりに、例えば、マイクロホンによって信号が受信されるであろう。しかしながら、最初の状態を説明するために、理解のためこの一般的モデルを選択した。
【００２８】
図２は、本発明の方法を用いて干渉性の第二の信号６（図１参照）を抑制する状態の単純化した表現を示す。本発明の方法は伝播経路の分離ではなく、信号源の分離を含まないことが容易に理解できる。
【００２９】
信号源７からの源信号ｘ（ｗ）は２つの異なる信号経路を介して伝播される。第一の信号経路において、出力信号は時変フィルタＨ（ｗ，ｔ）によって変調されて時変信号ｘ（ｗ）Ｈ（ｗ，ｔ）を形成する。第二の信号経路において、出力信号は時不変フィルタＦ（ｗ）によってのみ信号ｘ（ｗ）Ｆ（ｗ）に変えられる。
【００３０】
次いで、２つの経路の信号は、レシーバ８（例えば、聞き手の耳、マイクロホン等）において、測定に利用することができる信号Ｓ（ｗ，ｔ）に合計される。このように、信号は次式の通りに各成分の合計からなる。
Ｓ（ｗ，ｔ）＝ｘ（ｗ）Ｈ（ｗ，ｔ）＋ｘ（ｗ）Ｆ（ｗ）
【００３１】
今や、時不変からの信号部分及び時変信号経路からの信号部分は分離することができ、経時的に変化する全ての信号部分又は時不変である全ての信号部分のいずれかが減衰される。従って、例えば、時変部分Ｓ１（ｗ，ｔ）〜ｘ（ｗ）Ｈ（ｗ，ｔ）だけが結果として得られる。
【００３２】
調音されない信号部分ｘ（ｗ）Ｆ（ｗ）（すなわち、ＥＬの基本ノイズ）は、ＥＬを用いた音声に使用される場合に、時変音声信号ｘ（ｗ）Ｈ（ｗ，ｔ）の上に重ねられ、そして、音声信号の了解度の損失を生じさせる。音声了解度は、時不変信号部分から時変信号部分を分離することによって改善される。
【００３３】
図３は、本発明の方法において見込まれる変換を示す。ここで、ＥＬを用いた話者からの任意のデジタル音声信号９は入力位置に存在していることができる。第一の工程１０において、音声信号９は短時間フーリエ変換を用いてブロック単位で周波数領域に変換され、そして、一連の周波数チャネルに分割される。ここで、当業者は、時間領域から周波数領域に信号を変換する種々の確立された方法から選択することができ；フーリエ変換のほかに、例えば、離散コサイン変換も用いられるが、本発明によって使用するための前提条件は変換が可逆であるということである。信号は特定のリフレッシュ率（例えば、１０ｍｓｅｃ）で、例えば、２０ｍｓｅｃ長さのブロックに分割され、ブロックはそれぞれの場合に一連の周波数チャネル１１に広げられる。従って、最初は単一チャネルであった音声信号９は、経時的に変わる複数の周波数領域に分割される。周波数信号は複合的であるが、その先の過程においては絶対値だけが変更されるのであって、相１５は変わらないままである。
【００３４】
工程１０において、フィルタバンクを用いることもでき、その場合にはフィルタバンクの後に信号のサンプリング率が低減される。この点について、サンプリング率の低減はフーリエ変換を用いる場合のブロック形成と対応する。
【００３５】
その先の機能ブロック１２において、例えば、ハイパスフィルタ又はノッチフィルタを用いて各周波数チャネル１１をフィルタ処理する。このフィルタ処理は一定の周波数をフィルタ処理によって除去することができるようにし、ナローバンド干渉は音響技術によりノッチフィルタを用いたフィルタ処理によって除去される。ＥＬは一定の周波数、例えば、１００Ｈｚで振動するので、話者の調音器官によって変化しない干渉信号が、周波数範囲において変調周波数０Ｈｚで１００Ｈｚチャネルの振幅を発生させ、すなわち、ＥＬ信号の振幅は変わらない。干渉信号は、それが完全に時不変であるという事実を特徴とする。ノッチフィルタ又はハイパスフィルタを用いてＥＬの基本ノイズをフィルタ処理する。この点について、ＥＬの変調周波数はハイパスフィルタに対する制限周波数（Grenzfrequenz）として働き；従って、正にＥＬの変調周波数においてロックするようにノッチフィルタを選択する。
【００３６】
もちろん、実際の実施においては、反射、屈折、周囲ノイズ及びＥＬの構造的必然性があるために完全な時不変は達成できない。しかしながら、フィルタも一つの周波数だけに限定されることはなく、特定の周波数範囲、この場合には変調周波数範囲をカバーするので、本発明の方法の機能が保証される。
【００３７】
最終の機能ブロック１３において、信号は、例えば、逆フーリエ変換によって時間領域に逆変換され、そして周波数チャネル１１はoverlap-addによって一つのチャネルに再結合される。このoverlap-add法は、デジタル信号処理からの、当業者に公知の方法である。結果として単一チャネル出力信号１４が得られ、この場合、ＥＬの干渉信号はフィルタ処理によって除去されるか又は少なくとも減衰されている。その後、出力信号を更に処理することができる。
【００３８】
工程１０においてフィルタバンクを用いる場合、工程１２のフィルタ処理後の信号のサンプリング率は再び高められ、そして、前記のようにその後更に処理される。
【００３９】
原則として、これらの手順は本発明の最も重要な部分のみを表すものであり；ブロック１２におけるフィルタ処理の前に信号を圧縮し、そしてフィルタ処理後に復元を行うことができる。同様に、許されていない負値が処理において生ずることがあるので、時間領域への逆変換の前に調整を行うのが有利であることがある。
【００４０】
本発明は、例えば、電話で話すときに追加のデバイスとして用いることができる。従来のアナログ電話の場合には、デバイスは簡単にイヤホンに統合される。統合されたデジタル信号プロセッサを備えた電話の場合には、ソフトウェアプラグインを用いて本発明を統合することができる。また、固定された有線での解決の範囲内で、例えば、アナログ回線においても本発明を実現することができる。
【００４１】
ＥＬを用いる場合にも本発明の方法を用いることができ、その場合、２つ又は３つ以上の周波数の間で前後に切り替えを行なって音声をよりリアルな音にすることができる。基本信号が分割される周波数帯域内に周波数の切り替えがあると仮定すると、このことは離散周波数ジャンプ（diskrete Frequenzspruenge）だけでなく基本周波数の連続的変化の両方に対して当てはまる。
【００４２】
次に、変調周波数フィルタの幅は、如何に速く周波数が変わることが許されるかを決定する。極めて遅速で連続的な変化である場合に、周波数は機能的抑制（funktionierender Unterdrueckung）を伴って周波数帯域の全範囲にわたり変化することがあるので、決定的因子は変化の大きさではなく変化の速度である。ＥＬのスイッチをオン・オフする場合、急速な変化に相当するが、ノッチフィルタがどの程度広いか又はハイパスフィルタの基本周波数がどこに存在するかに応じて、わずか数ミリ秒後に抑制状態に入る。
【００４３】
しかしながら、この点について、基本周波数の変化が大き過ぎるものであってはならない。本発明の機能を確実にするために、信号が分割される周波数チャネルが、例えば、その範囲が広げられていること、あるいは、ハイパスフィルタによるフィルタ処理がある程度より高い周波数に設定されていることが必要であろう。
【図１】

【図２】

【図３】

【特許請求の範囲】
【請求項１】
音声信号が適当な手段によってデジタル化される電気喉頭（ＥＬ）話者の音声品質を向上させる方法であって、以下の工程：
ａ）時間領域から離散周波数領域へ単一チャネル音声信号を転送することによって、前記単一チャネル音声信号を一連の周波数チャネルに分割する工程；
ｂ）各周波数チャネルにおいてハイパスフィルタ又はノッチフィルタを用いてＥＬの変調周波数をフィルタ処理して除去する工程；及び
ｃ）処理音声信号を周波数領域から時間領域にフィルタ逆変換し、そして、それを単一チャネル出力信号に結合する工程；
を特徴とする、前記方法。
【請求項２】
工程ａ）の音声信号の変換をフーリエ変換によって行い、そして、工程ｃ）の逆変換を逆フーリエ変換によって行うことを特徴とする、請求項１に記載の方法。
【請求項３】
工程ａ）の音声信号の変換と、工程ｃ）の周波数チャネルの合成とを、フィルタバンクを用いて行うことを特徴とする、請求項１に記載の方法。
【請求項４】
信号圧縮を工程ｂ）のフィルタ処理の前に行い、そして、復元を工程ｂ）の後に行うことを特徴とする、請求項１〜３のいずれか一項に記載の方法。
【請求項５】
負信号成分の調整を工程ｃ）の逆変換の前に行うことを特徴とする、請求項１〜４のいずれか一項に記載の方法。

【公表番号】特表２０１２−５１７０３１（Ｐ２０１２−５１７０３１Ａ）
【公表日】平成２４年７月２６日（２０１２．７．２６）
【国際特許分類】

【出願番号】特願２０１１−５４８５０４（Ｐ２０１１−５４８５０４）
【出願日】平成２２年２月１日（２０１０．２．１）
【国際出願番号】ＰＣＴ／ＡＴ２０１０／００００３２
【国際公開番号】ＷＯ２０１０／０８８７０９
【国際公開日】平成２２年８月１２日（２０１０．８．１２）
【出願人】（５１１１８９３６６）ハイモメート　ハインツェ　ゲー　エム　ベー　ハー　ウント　コンパニー　コマンディートゲゼルシャフト (1)
【氏名又は名称原語表記】ＨＥＩＭＯＭＥＤ　Ｈｅｉｎｚｅ　ＧｍｂＨ　＆　Ｃｏ．　ＫＧ
【Ｆターム（参考）】

補綴 (46,288)

[ Back to top ]

信号経路を分離する方法及び電気喉頭を使用して音声を改良するための使用方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

信号経路を分離する方法及び電気喉頭を使用して音声を改良するための使用方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク