子音加工装置、音声情報伝達装置及び子音加工方法

【課題】本発明は、アルタイムに近い音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音が聞き取り易く、安価な子音加工装置と音声情報伝達装置及び子音加工方法を提供することを目的とする。
【解決手段】本発明は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部１と、フレーム信号のそれぞれで平均パワーまたは音圧レベルを算出するパワー算出部２と、フレーム信号間で平均パワーまたは音圧レベルを互いに比較する比較部３と、比較部３の比較結果に基づいて音声信号が子音であるか否かを判定する子音判定部４と、子音判定部４が子音と判断した場合は音声信号の増幅対象点または増幅対象幅を増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備えたことを主要な特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、リアルタイムの音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音または音節の端点が聞き取り易く、安価に製造できる子音加工装置と、これを搭載した音声情報伝達装置及び子音加工方法に関する。
【背景技術】
【０００２】
聴力が低下した高齢者や聴覚障害者は、一般の人と比べてどうしても言葉を聞き取る力が低下する。このような高齢者や聴覚障害者にとって、飛行場等の構内放送や電車、バス内の案内放送、自動販売機やＡＴＭのガイド音声など、周囲に騒音の多い公共空間における各種音声の内容を正確に聞き取るのは難しい。中でも緊急時における避難誘導の音声は、内容が理解できないと大きな事故に繋がりかねない。
【０００３】
このような言葉の聞き取り力が衰えた高齢者や聴覚障害者のために、受信機を携帯してもらって電波や赤外線などの通信媒体を介して、音声を送信するワイヤレス放送システムが開発されている。このようなシステムでは、発声者は騒音の少ない静かな場所で、口元近くに配置したマイクに向けて発声し、そのクリアな音声が通信媒体を介して直接使用者に送られる。従って、使用者はどんな騒音環境下においても、常にクリアな音声を聴取できる。
【０００４】
また、補聴器などの聴覚補助機器では、周囲の騒音を抑制する騒音抑制機能（noise reduction）や、後述するような音声の中の子音のみを強調する子音強調機能（consonant enhancement）などを備えた機種が提案されている。とくに子音強調は、音声の子音の振幅が母音に比べて小さいために、高齢者や聴覚障害者が、子音部を聞き取ることが困難であるという事実に着目して開発された技術である。
【０００５】
しかし、このような現象は聴力の低下に由来するものには限られない。聴力が低下していない人間でも、構内放送や案内放送などのアナウンス放送装置、携帯電話、その他の音声情報伝達装置は、騒音の多い環境下では騒音で音声が聞き取れなくなる。これに対して、出力の大きなスピーカやイヤホンを搭載して音量を大きくすればよいが、聴覚の許容限界を越えてしまう可能性がある上に、装置の大きさに限界があり、また、音の歪み等が大きくなる。
【０００６】
このため、音声を聞き取り易くする目的で音声強調の幾つかの手法が提案されるに至った。この音声強調というのは、音声の周波数スペクトルの所定帯域におけるスペクトル振幅を増幅し、聞く側からみて音声の明瞭度を向上させることであり、これは、所定の周波数帯域パワーを増幅すると共に、増幅帯域と異なる帯域のスペクトル振幅を減衰させることである。（特許文献１参照）。
【０００７】
ここで、音声の発生するメカニズムについて説明すると、声帯が振動すると、声帯から唇までの声道で音声波が生成され、この声道で生成された音声波を唇及び舌等とを介して音声として放射する。すなわち、声帯が一定周期（ピッチ周期）の振動をすると、声道は、肺からの空気を喉等の形状（例えば太さ）で共振させて母音を生成する。このとき、喉等の形状を変化させることで「あ」、「い」、「う」等の母音に調音し、音声波として放射する。そして、唇及び舌等では、口内で破裂音や摩擦音、また、鼻音、その他の音を発生して子音とし、通常は子音と母音とが合わさって空間に放射されるものである。
【０００８】
ところで、日本語はＣＶ（Consonant-Vowel）型の言語であり、例えば日本語で「か」という発音は、「くっ」という子音（Ｃ）と「あ」という母音（Ｖ）とから構成され、子音と母音とが合わさって放射される。また、例えば英語はＣＶＣ（Consonant-Vowel- Consonant）型の言語でもあり、子音、母音、子音の順に配列されることが多いことが知られている。
【０００９】
従って、日本語の場合、「ん」「っ」を除いて他の行の発音は、このような子音（Ｃ）と母音（Ｖ）の組合せなどで発音され、言葉を発するときは、多くの場合各音において、まず唇及び舌等を使って声帯からの音が妨げられて子音が調音され、次いで、声帯からの音が妨げられることなく母音が強い音で発声されることになる。
【００１０】
このため、子音は母音に比べて音声の振幅が小さく、音声情報伝達装置の音声は周囲の環境等では雑音に紛れて聞こえなくなる。このため、例えば、音声を明瞭に聞き分けることが可能な補聴器等の音声情報伝達装置が提案された（特許文献２参照）。
【００１１】
特許文献２の音声情報伝達装置は、外部から音声が入力されるマイクロフォンと、入力された音声信号に基づいて子音明瞭化信号を生成する音声信号処理部と、搬送波信号を生成する搬送波信号発生部と、搬送波信号を子音明瞭化信号に基づいて振幅変調する振幅変調部と、振幅変調された出力信号に基づく機械的振動を伝達する振動子とから構成され、この音声信号処理部が、子音抽出部で音声信号に含まれる子音部を抽出すると共に、反復処理部で抽出された子音部子音部が複数回反復されて音声信号に付加して子音明瞭化信号を生成するものである。
【００１２】
音声信号における子音部は、母音部との間にＶＯＴ（Voice Onset Time）が数十ｍｓ程度存在する。このＶＯＴは、子音の破裂から声帯が振動するまでの時間であり、無音に近い状態である。したがって、子音部の立ち上がりや母音に比べて振幅は小さく、適当な基準値を設定し、振幅がこの基準値以下となる状態が所定時間（例えば、１０ｍｓ程度）以上続く領域をＶＯＴとして判別することにより、子音部の残余部分や母音部と区別して、子音部の終期を特定することができるというものである。
【００１３】
同様に、母音部の後、次に続く子音部との間にも、通常は数十ｍｓ以上の無音区間が存在する。従って、ＶＯＴの検出と同様にしてこの無音区間を判別することにより、次の子音部の始期を特定するものである。
【００１４】
また、特許文献２と同様、上述した特許文献１においても、携帯電話等の受話音声の明瞭度を改善し、入力音声に雑音が含まれる場合に音声品質の劣化及び雑音の増加を抑圧する音声強調装置が提案されている。
【００１５】
特許文献１の音声強調装置は、入力音声信号の音声品質を推定し音声品質推定値（推定Ｓ／Ｎ比）を出力する音声品質推定部と、音声品質推定部にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整（ホルマントの増幅、アンチホルマントの減衰）と、入力音声信号の残差信号の強調（ピッチの強調）を行う音声強調処理部とを備えたものである。なお、この残差信号とは、音声波から線形予測可能な部分の除去により分離されたもの音源信号で、これの自己相関を算出することにより、音源のピッチ周期が得られるものである。
【００１６】
【特許文献１】特開２００５−３３１７８３号公報
【特許文献２】特開２００５−２８７６００号公報
【発明の開示】
【発明が解決しようとする課題】
【００１７】
以上説明したように、子音は母音に比べて音が弱く、音声情報伝達装置の音声は周囲の環境等次第で雑音に紛れて聞こえなくなるという問題があった。
【００１８】
上述したワイヤレス放送システムは、そのようなシステムが備えられている限定された公共空間でなければ利用できない上に、使用者が受信機を携帯せねばならない。しかも、この放送システムは大規模で高価であるため、あらゆる公共空間に設けることは難しく、また、使用者全員が受信機を携帯することも困難なため、普及は難しいという問題があった。
【００１９】
また、補聴器等にも問題がある。まず、使用者が装用していなければ役に立たないし、補聴器への入力は音声と周囲の騒音が混在した音となる。従って、騒音抑制機構や子音強調機構によって、この双方の音が混在した中から騒音のみを抑制したり、子音のみを強調したりしなければならない。しかし、これらは騒音の種類など、場合によってうまく動作しないこともあるし、子音強調は静寂下においても難しい。このため従来は振幅エンベロープ、無声閉鎖子音の破裂に伴う無音区間、その他の周波数領域の情報など、複数の手がかりを並列的に利用して子音を検出することで、検出の正確さを上げている。しかし、このための処理は複雑になり、リアルタイム（実時間）若しくはこれに近い時間（準リアルタイム）内に子音強調して音声情報伝達を行うことの障害となっていた。
【００２０】
特許文献１の音声強調装置は、入力音声信号のＳ／Ｎ比を推定し、このＳ／Ｎ比に基づいて、ホルマント周波数を中心とするホルマントの電力（パワー）に正のゲインを与える処理を行うと共に、アンチホルマント周波数を中心とするアンチホルマントの電力（パワー）に負のゲインを与える処理を行い、また、ピッチを強調して聞き取り易くするものである。しかし、処理が複雑で時間がかかり、高コストで、リアルタイムに近い時間内に音声情報伝達処理を行うには課題が多いものであった。そして、この特許文献１の音声強調装置は、日本語の音声は子音と母音の組合せからなり、子音は母音に比べて音が弱いという特性を活かしていない。
【００２１】
これに対して、特許文献２の音声情報伝達装置は、音声信号に含まれる子音部を抽出すると共に、抽出された子音部子音部が複数回反復されて音声信号に付加して子音明瞭化信号を生成する。このため、音声の聞き分けの改善にはなったが、各音で子音部分が繰返され、各音の子音部分で遅れが生じ、これが積み重なって、リアルタイムに近い時間内に音声情報伝達が行えるものではなかった。ＶＯＴや無音区間の判別のためには、このＶＯＴや無音区間の情報が必要で、このため音声信号を一旦記憶してから処理することが必要であり、処理が複雑で時間がかかる点は特許文献１と変わらない。
【００２２】
このように従来の技術は、複数の手がかりを並列的に利用して子音の検出を行い、このためその子音強調処理は非常に複雑であり、リアルタイム若しくはこれに近い時間内に音声情報伝達が行えるものではなかった。また、これらの技術は予め強調処理を施した音を記憶しておく必要があり、柔軟性が要求される音声情報伝達装置においては利用が難しい技術であった。
【００２３】
そこで本発明は、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音や音節の端点が聞き取り易く、安価に製造できる子音加工装置と音声情報伝達装置を提供することを目的とする。
【００２４】
また、本発明は、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音や音節の端点が聞き取り易い子音加工方法を提供することを目的とする。
【課題を解決するための手段】
【００２５】
本発明の子音加工装置は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部と、フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、フレーム信号間で平均パワーを互いに比較する比較部と、比較部の比較結果に基づいて音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定する子音判定部と、子音判定部が子音または音節の端点と判断した場合は音声信号の増幅対象点または増幅対象幅を増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備えたことを主要な特徴とする。
【発明の効果】
【００２６】
本発明の子音加工装置、音声情報伝達装置及び子音加工方法によれば、複数の時間フレームによって複数のフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音または音節の端点が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができる。また、安価に製造できる子音加工装置、音声情報伝達装置を提供することができる。
【発明を実施するための最良の形態】
【００２７】
本発明の第１の形態は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部と、フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、フレーム信号間で平均パワーを互いに比較する比較部と、比較部の比較結果に基づいて音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定する子音判定部と、子音判定部が子音または音節の端点と判断した場合は音声信号の増幅対象点または増幅対象幅を増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備えたことを特徴とする子音加工装置である。この構成により、複数の時間フレームによって複数のフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音または音節の端点が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができ、安価に製造できる子音加工装置を提供することができる。
【００２８】
本発明の第２の形態は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部と、フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、フレーム信号間で平均パワーを互いに比較する比較部と、比較部の比較結果に基づいて音声信号が子音または音節の端点であるか否かを判定する子音判定部と、子音判定部が子音または音節の端点と判断した場合は音声信号の増幅対象点または増幅対象幅の増幅度を増幅方向に決定すると共に、子音または音節の端点でないと判断した場合は音声信号を増幅しない旨決定する増幅度決定部と、増幅度決定部が決定した増幅度に応じて音声信号を増幅する増幅部とを備えたことを特徴とする子音加工装置である。この構成により、前記第1の形態の作用効果に加えて、増幅度決定部によって増幅度を調整でき、さらに聞き取り容易な子音加工装置を提供することができる。
【００２９】
本発明の第３の形態は、第１または第２の形態に従属する形態であって、比較部が、各フレーム信号のデシベル表示した平均パワーの差を算出することにより比較することを特徴とする子音加工装置であり、差を演算するだけであるから容易に信号処理でき、リアルタイムに近い時間内に音声情報伝達が行える。
【００３０】
本発明の第４の形態は、第１または第２の形態に従属する形態であって、比較部が、各フレーム信号の平均パワーの比率を算出することにより比較することを特徴とする子音加工装置であり、比率を演算するだけであるから容易に信号処理でき、リアルタイムに近い時間内に音声情報伝達が行える。
【００３１】
本発明の第５の形態は、第１〜第４のいずれかの形態の子音加工装置において、時間フレームには子音を抽出可能な抽出幅の時間フレームが設けられ、増幅対象点または増幅対象幅がこの時間フレームの抽出幅の中央位置に設定されることを特徴とする子音加工装置であり、ＶＣＶ型の信号処理が好適に行え、構成が簡単で効果的に増幅できる。
【００３２】
本発明の第６の形態は、第１〜第４のいずれかの形態の子音加工装置において、時間フレームに連続する２つの時間フレームが設けられた場合に、増幅対象点または増幅対象幅が２つの時間フレームの境界に設定されることを特徴とする子音加工装置であり、ＣＶ型の信号処理が好適に行え、構成が簡単で効果的に増幅できる。
【００３３】
本発明の第７の形態は、第３の形態の子音加工装置において、デシベル表示した平均パワーの差が０以下の場合には、増幅対象点または増幅対象幅の音声信号の振幅を増幅し、該デシベル表示した差が０より大きい場合には増幅しないことを特徴とする子音加工装置であり、前記形態の作用効果に加えて、さらに信号処理が簡単になる。
【００３４】
本発明の第８の形態は、第３の形態の子音加工装置において、平均パワー間の比率が１以下の場合には、増幅対象点または増幅対象幅の音声信号の振幅を増幅し、該平均パワーの比率が１より大きい場合には増幅しないことを特徴とする請求項４記載の子音加工装置であり、前記形態の作用効果に加えて、さらに信号処理が簡単になる。
【００３５】
本発明の第９の形態は、第１、第３〜第６のいずれかの形態の子音加工装置において、増幅部が、子音判定部が子音または音節の端点と判断した場合は音声信号の増幅対象点または増幅対象幅を増幅するのに代えて、子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅を逆に抑制することを特徴とする子音加工装置である。この構成により、聞き取り難い音声を設けて聴力検査や聞き取り訓練に供することができる。
【００３６】
本発明の第１０の形態は、第２〜第６のいずれかの形態の子音加工装置において、増幅度決定部が、子音判定部が子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅の増幅度を増幅方向に決定するのに代えて、増幅度決定部が、前記子音判定部が子音または音節の端点と判断した場合に前記音声信号の増幅対象点または増幅対象幅の増幅度を逆に抑制方向にする旨の決定を行うことを特徴とする子音加工装置である。この構成により、増幅対象点または増幅対象幅が抑制され、聞き取り難い音声を設けて聴力検査や聞き取り訓練に供することができる。
【００３７】
本発明の第１１の形態は、第１〜８の形態の子音加工装置において、平均パワー間のフレーム分割部に音声信号を入力する前に、所定の周波数成分を通過させるフィルタ部が設けられたことを特徴とする子音加工装置であり、子音強調の明瞭性を増すことができる。
【００３８】
本発明の第１２の形態は、第１〜第１１のいずれかの形態に従属する形態であって、増幅部が、感音性難聴者の感覚量である音の大きさを健聴者の感覚量である音の大きさに一致させる補充現象の補正特性に従って物理的な音圧を増幅することを特徴とする請求項１〜８のいずれかに記載の子音加工装置であり、健聴者の聞き取り易いと感じられる強さに子音または音節の端点を増幅することができる。
【００３９】
本発明の第１３の形態は、第１〜第１２のいずれかの形態に従属する子音加工装置と、該子音加工装置からの子音加工された音声信号に基づいて子音強調された音声を出力するスピーカを備えたことを特徴とする音声情報伝達装置である。この構成により、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音または音節の端点が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができ、安価な音声情報伝達装置を提供することができる。
【００４０】
本発明の第１４の形態は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出し、フレーム信号のそれぞれで平均パワーを算出し、フレーム信号間で平均パワーを互いに比較し、この比較結果に基づいて音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定し、子音または音節の端点と判断される場合は音声信号の増幅対象点または増幅対象幅を増幅し、子音でないと判断した場合は増幅しないことを特徴とする子音加工方法である。この構成により、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音または音節の端点が聞き取り易くなり、これにより音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができる。
【００４１】
本発明の第１５の形態は、第１４の形態の子音加工方法において、子音または音節の端点と判断される場合は音声信号の増幅対象点または増幅対象幅を増幅するのに代えて、子音または音節の端点と判断された場合は音声信号の増幅対象点または増幅対象幅を逆に抑制することを特徴とする子音加工方法である。この構成により、聞き取り難い音声を設けて聴力検査や聞き取り訓練に供することができる。
【００４２】
本発明の第１３の形態は、第１２の形態に従属する形態であって、増幅度が、感音性難聴者の感覚量である音の大きさを健聴者の感覚量である音の大きさに一致させる補充現象の補正特性に従って物理的な音圧を増幅することを特徴とする子音加工方法であり、聴覚正常者の聞き取り易いと感じられる状態に子音または音節の端点を増幅することができる。
【実施例】
【００４３】
（実施例１）
以下、本発明の実施例1における子音加工装置と音声情報伝達装置、子音加工方法について説明する。
【００４４】
実施例１の音強調処理装置が行う子音強調は、日本語のように音節がＣＶ型をもつ言語の構造の場合に、すなわち子音（Ｃの直後に母音（Ｖ）が続く頻度が高い場合の子音強調に好適なものである。なお、本明細書おいて子音強調というが、これは子音だけでなく音節の端点も含めて強調するものである。
【００４５】
図１は本発明の実施例1における子音加工装置とこれを搭載した音声情報伝達装置の構成図、図２は本発明の実施例1における子音加工装置の処理の説明図、図７（ａ）は本発明の実施例1における増幅時の増幅度の説明図である。
【００４６】
図１において、１は音声信号が入力されると図２に示すように複数の時間フレームでそれぞれフレーム信号を抽出するフレーム分割部である。そして、１ａはフレーム分割部１を構成し、子音の長さの１／３程度の幅のフレーム信号を抽出するための第１時間フレーム、また、１ｂは第１時間フレーム１ａを包含し、子音を抽出可能な抽出幅の第２時間フレーム、さらに１ｃは第２時間フレーム１ｂを包含し音節の長さの１〜３倍程度を抽出可能な第３時間フレームである。
【００４７】
第１時間フレーム１ａ、第２時間フレーム１ｂ、第３時間フレーム１ｃは方形窓、ハミング窓等の窓関数を乗じる機能を備えたもので、実施例１においては方形窓が採用されている。
【００４８】
すなわち、ｔ＝Ｔの時点の音声信号に対して、第１時間フレーム１ａは窓関数ｗ_１（ｔ）＝１（ここでＴ−τ_１≦ｔ≦Ｔ＋τ_１）、ｗ_１（ｔ）＝０（それ以外のとき）で構成され、第２時間フレーム１ｂは窓関数ｗ_２（ｔ）＝１（ここでＴ−τ_２≦ｔ≦Ｔ＋τ_２）、ｗ_２（ｔ）＝０（それ以外のとき）、第３時間フレーム１ｃも窓関数ｗ_３（ｔ）＝１（ここでＴ−τ_３≦ｔ≦Ｔ＋τ_３）、ｗ_３（ｔ）＝０（それ以外のとき）で構成される。いずれも単位はｍｓである。
【００４９】
なお、第１時間フレーム１ａ、第２時間フレーム１ｂ、第３時間フレーム１ｃの中央位置（ｔ＝Ｔ）は全て一致する必要はないが、図１に示す音声信号の波形においては中央位置が一致しており、この中央位置がこれらの時間フレームにおける音声信号の増幅対象点である。これは点を増幅するだけでなく、所定の幅を増幅するものであってもよい。この場合、本明細書ではこれを増幅対象幅という。この増幅位置または増幅対象幅は、少なくとも第２時間フレーム１ｂの中央位置に設定されるのが好適である。なお、第２時間フレーム１ｂは第3の時間フレーム１ｃの後端部よりに設けられる方が処理の速さを高める可能性があり、第２時間フレーム１ｂの中央位置をこの後端部よりに配置するのが好適である。
【００５０】
窓関数のτ_１，τ_２，τ_３は、経験的に定められるパラメータであり、実施例１においてはτ_１＝７．５ｍｓ程度、τ_２＝２５ｍｓ程度（子音を抽出可能な長さ）、τ_３＝２００ｍｓ程度（音節の長さの１〜４倍程度を抽出可能な長さ）に設定される。日本語の場合、一般的に子音の長さは数十ｍｓ程度、１音節の長さは１００〜４００ｍｓの程度である。
【００５１】
従って、音声信号ｐ（ｔ）に対して、第１時間フレーム１ａからはｙ_１（ｔ）＝ｗ_１（ｔ）・ｐ（ｔ）が出力され、第２時間フレーム１ｂからはｙ_２（ｔ）＝ｗ_２（ｔ）・ｐ（ｔ）、第３時間フレーム１ｃからはｙ_３（ｔ）＝ｗ_３（ｔ）・ｐ（ｔ）の演算によりフレーム信号が抽出される。デジタル信号の場合は、例えばｙ_３（ｔ）を説明すると、Ｔ−τ_３≦ｔ＜Ｔ、Ｔ＜ｔ≦τ_３＋Ｔの間がそれぞれＮ個の時系列値とｔ＝Ｔの時系列値とからなり、全体で（２Ｎ＋１）個の時系列値で演算される。ｙ_１（ｔ）、ｙ_２（ｔ）の時系列値も同様で、ｙ_３（ｔ）の入力時系列値と重複した値を用いる。
【００５２】
このように本実施例１の子音加工装置は、フレーム分割部１などでＡ／Ｄ変換を行い、後述する増幅度の決定などまで含めてデジタル回路もしくはプロセッサでデジタル処理しているが、アナログ回路を使ってアナログ処理することもできる。なお、プロセッサでデジタル処理するときは、図示はしないが、メモリを設けてプログラムや設定値を格納し、これを読み出して演算する。
【００５３】
次に、図１において、２は第１時間フレーム１ａ、第２時間フレーム１ｂ、第３時間フレーム１ｃで抽出されたフレーム信号ｙ_１（ｔ）、ｙ_２（ｔ）、ｙ_３（ｔ）の平均パワーを計算するパワー算出部である。２ａは第１パワー算出部であり、第１時間フレーム１ａから出力されたｙ_１（ｔ）の振幅の２乗である平均パワーＰ_１をデシベル表示した平均パワーＬ_１を演算する。同様に、２ｂは第２パワー算出部であり、第２時間フレーム１ｂから出力されたｙ_２（ｔ）の平均パワーＰ_２をデシベル表示した平均パワーＬ_２を演算する。さらに、２ｃは第３パワー算出部であって、第３時間フレーム１ｃから出力されたｙ_３（ｔ）の平均パワーＰ_３をデシベル表示した平均パワーＬ_３を演算する。なお、平均パワーＰ_ｉ（ｉ＝１，２，３）は（数１）で表され、２Ｎ＋１は時系列値のそれぞれの総数である。平均パワーＬ_１，Ｌ_２，Ｌ_３の単位はｄＢである。
【００５４】
【数１】

【００５５】
なお、以下、デシベル表示した平均パワーＬ_ｉ（ｉ＝１，２，３）を使って差で説明するが、平均パワーＰ_ｉの比率Ｋ_ij＝Ｐ_ｉ／P_j（ｉ，ｊ＝１，２，３；ｉ＜ｊ）を使用して演算することもできる。この比率Ｋ_ijを使用した場合の説明は後述の実施例４で行う。さらに、平均パワーＰ_ｉの対数をとってデシベル表示のＬ_ｉ（ｉ＝１，２，３）とするのでなく、平均パワーＰ_ｉ自体の差Ｐ_ｉ−P_jを演算しても同様の作用効果が得られる。しかし詳細な説明はデシベル表示の説明に譲って省略する。
【００５６】
続いて、３は各フレーム信号の平均パワーＬ_１，Ｌ_２，Ｌ_３の差を計算して比較する比較部であり、４は比較部３の比較結果に基づいて音声信号が子音であるか否かを判定する子音判定部である。また、５は増幅までの処理に必要な時間だけ音声信号を遅延しあるいはデータをバッファする遅延部、６は子音判定部４が子音と判断したとき音声信号の増幅対象点の増幅度を変更し、子音でないと判断した場合は増幅度を変更しない増幅部である。
【００５７】
そして、１０は音声信号を入力されたとき子音を強調して出力する実施例１の子音加工装置であり、定用途向け集積回路などとして構成される。また、１１は音声を入力するためのマイク、１２は音声を出力するためのスピーカ、２０は子音加工装置１０を搭載した音声情報伝達装置である。
【００５８】
音声情報伝達装置２０は、子音加工装置１０によって子音強調された音声信号をスピーカ１２から出力し、上述のワイヤレス放送システム、構内放送や案内放送などのアナウンス放送装置、携帯端末等の携帯型情報機器、その他の音声情報伝達装置、補聴器などに利用できる。なお、マイク１１を備えていない音声情報伝達装置２０の場合、例えば、自動販売機やＡＴＭのガイド音声などの場合は、予め録音された音信号について子音加工装置１０による音の加工を行えばよい。
【００５９】
さて、実施例１の子音加工装置１０は、日本語のように子音、母音が続くＣＶ型の構造をもつ言語に有効な装置であり、比較部３はこのような構造を利用して以下のような基準で各フレーム信号の平均パワーの比較を行い、子音判定部４が子音または音節の端点か否かを判定する。
【００６０】
すなわち、先ず第１に、デシベル表示の平均パワーＬ_１がデシベル表示の平均パワーＬ_２より所定の閾値（実施例１では５ｄＢ）以上高い場合（すなわちＬ_１＞Ｌ_２＋５）は、１５ｍｓ（子音の長さの約１／３程度）程度のごく狭い幅で振幅が増加しているだけであるから、この増加は雑音の増加とみなす。比較部３はＬ_１−Ｌ_２を計算し、閾値より大きいか、以下かを算出する。閾値より大きい場合、子音判定部４は音声信号を雑音と判断する。閾値以下の場合は、次の基準で判定される。
【００６１】
第２に、Ｌ_１−Ｌ_２が閾値（５ｄＢ）以下であって、Ｌ_２＜Ｌ_３であれば、第２時間フレーム１ｂにおける５０ｍｓ（子音の長さより少し長い）の間の平均パワーＬ_２が、第３時間フレーム１ｃの４００ｍｓ（数音節の長さ）の平均パワーＬ_３より低いことになり、ここには子音または音節の端点があると考えられる。
【００６２】
すなわち、子音、母音と続くとき、子音または音節の端点は母音に比べて平均パワーが小さいため、Ｌ_２とＬ_３のレベルを比較してＬ_２が小さければ第２時間フレーム１ｂに子音または音節の端点があると推定するものである。この状態を図２に示す。
【００６３】
図２において、窓関数ｗ_２（ｔ）で抽出したフレーム信号の平均パワーＬ_２は小さく、窓関数ｗ_３（ｔ）で抽出したフレーム信号の平均パワーＬ_３は平均パワーＬ_２に比べて大きい。それ故、第２時間フレーム１ｂで抽出したフレーム信号は子音または音節の端点であって、前後、あるいは前の部分または後の部分に母音が存在すると推定できる。このとき比較部３はＬ_２−Ｌ_３を計算し、Ｌ_２＜Ｌ_３であれば、子音判定部４は第２時間フレーム１ｂのフレーム信号が子音または音節の端点と判断し、増幅を行う。
【００６４】
これにより実施例１の増幅部６は、以上説明した子音判定部４の判定に基づいて、Ｌ_１−Ｌ_２＞５の場合には増幅を行わず、Ｌ_１−Ｌ_２＜５であって、Ｌ_２−Ｌ_３が０〜−２０ｄＢの範囲内であれば一定の増幅度λ_０、例えば１０ｄＢ増幅する。但し、Ｌ_１−Ｌ_２＜５であっても、Ｌ_２−Ｌ_３＜−２０の条件を充たす場合、雑音との判別が難しくなるため増幅部６は増幅の程度を弱める。なお、このとき子音判定部４がこの判断を行うのでもよい。このような増幅特性を図示すると、図７（ａ）のようになる。きわめて簡単な構成で容易に子音強調が可能になる。なお、図７（ａ）は一例としてあげたもので、急に増幅をやめると、増幅度が不連続に変化して違和感のある音声となるので、一点鎖線のような低減の仕方、若しくは、さらにより滑らかな低減の仕方をするのが好ましい。
【００６５】
このように実施例１の子音加工装置、音声情報伝達装置及び子音加工方法は、複数の時間フレームによって複数のフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、論理判断が少なく信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、境騒音が増加するのを防ぐことができる。また、構成が簡単で安価に製造できる子音強調処理装置等の子音加工装置、音声情報伝達装置を提供することができる。
【００６６】
（実施例２）
以下、本発明の実施例２における子音加工装置と音声情報伝達装置、子音加工方法について説明する。実施例２の子音加工装置と音声情報伝達装置は、子音と判断されたときに、比較部の比較結果に応じて増幅度を調整するものである。そして、実施例２の子音強調もとくにＣＶ型の言語の子音強調に好適なものである。
【００６７】
図３は本発明の実施例２における子音加工装置とこれを搭載した音声情報伝達装置の構成図、図４（ａ）は補充現象の説明図、図４（ｂ）は静寂な環境での音と雑音中での音の比較図、図７（ｂ）は本発明の実施例２における増幅時の増幅度の説明図の説明図である。なお、実施例２と実施例１とで同一符号は同様の構成であり、音声信号の処理も比較結果に応じて増幅度を決定する点を除いては実施例１と同様であるから、これらの説明は省略する。
【００６８】
図３において、１はフレーム分割部、１ａは第１時間フレーム、１ｂは第２時間フレーム、１ｃは第３時間フレームである。また、２はパワー算出部、２ａは第１パワー算出部、２ｂは第２パワー算出部、２ｃは第３パワー算出部、３は比較部であり、４は子音判定部、５は遅延部、６は増幅部である。そして、１０は実施例２の子音加工装置、１１はマイク、１２はスピーカ、２０は実施例２の音声情報伝達装置である。これらは実施例１と同様の構成である。
【００６９】
実施例２の特徴的な点は、実施例１が一定の増幅度λ_０で増幅したのに対して、比較部３の比較結果に応じて増幅度λを調整する点である。図３において、７は増幅度λの値を決定する増幅度決定部である。
【００７０】
増幅度決定部７は、音比較部３が子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅の増幅度を決定し、子音または音節の端点でないと判断した場合は音声信号を増幅しない旨決定する。増幅度λは、デシベル表示でＬ_２＜Ｌ_３であれば、音声信号が雑音ではないと判断されたとき、Ｌ_２とＬ_３のレベル差が大きければ大きいほど大きな値にされる。
【００７１】
ここで、実施例２で行う増幅度λについて説明する。実施例２の増幅度λは感音性難聴者に対する補充現象の補正特性と同様の特性を採用する。この補充現象とは、物理的な刺激音の音圧の増加に対して感覚量である音の大きさの増加が、所定範囲の強さの音に対して健聴者より感音性難聴者の方が大きい現象のことである。
【００７２】
このため、補充現象においては、図４（ａ）に示すように、所定範囲の強さの音に対して、小さい音ほど大きく補正し、大きな音ほど小さく補正する。これにより、人間の聴覚系が対応し、弱くて聞き取りにくい音を聞き取り易い強さの音に補正することができる。図４（ｂ）は、静寂な環境と雑音中と主観的に認識できる音にどれだけの差が生じるのか、実験したものである。図中Ｐは静寂な環境で聞いたときの音の強さであり、Ｎは同一の音を白色雑音中で聞いたときの音の強さである。この結果をみると、Ｎは図４（ａ）の補充現象と同様な特性を示している。
【００７３】
従って、実施例２で行う増幅は、増幅対象点の音声信号の増幅度を以下のように調整する。先ず第１に、デシベル表示の平均パワーＬ_１がデシベル表示の平均パワーＬ_２より所定の閾値（実施例２では５ｄＢ）以上高い場合（すなわちＬ_１＞Ｌ_２＋５）は、１５ｍｓ（子音の長さの約１／３程度）程度のごく狭い範囲で振幅が増加しているだけであるから、この増加は雑音の増加とみなし、Ｌ_１−Ｌ_２を計算して、閾値より大きいか、以下かを算出する。閾値より大きい場合、子音判定部４は音声信号を雑音と判断する。閾値以下の場合は、次の基準で判定する。
【００７４】
第２に、Ｌ_１−Ｌ_２が閾値（５ｄＢ）以下であって、Ｌ_３−２０＜Ｌ_２＜Ｌ_３であれば、子音判定部４は子音または音節の端点と判断して増幅度λをλ＝ｃ・（Ｌ_３−Ｌ_２）として決定する。ここでｃ＝０．９である。なお、デシベル表示した平均パワーの差（Ｌ_３−Ｌ_２）ではなく、平均パワーＰ_２、Ｐ_３の比率Ｋ_２３＝Ｐ_２／Ｐ_３でも表現できる。このときλはλ＝（Ｋ_２３^１／２）^ｄとなる。この係数ｃの意味については図８を用いて実施例４で説明する。このとき、Ｌ_３とＬ_２のレベル差若しくはＫ_２３が大きいときほど大きく増幅することになり、２０ｄＢの差を２ｄＢにまで圧縮することができる。なお、Ｌ_２−Ｌ_３＝−２０ｄＢのときには増幅度λが１８ｄＢで最大となる。
【００７５】
さらに、Ｌ_１−Ｌ_２が閾値（５ｄＢ）以下で、Ｌ_２＜Ｌ_３−２０の場合、Ｌ_２がＬ_３より２０ｄＢ以上低い場合は、前後の音声信号と比べてパワーが小さく、無理に増幅しても雑音との判別が難しくなるため、徐々に増幅度を低下させる。例えば、図７（ｂ）のように、増幅度λをＬ_２−Ｌ_３が１０ｄＢ下がるごとに４．５ｄＢ下げ、Ｌ_２−Ｌ_３が−６０ｄＢのときに増幅度λを０とする。しかし、図７（ｂ）は一例としてあげたもので、ステップ状に低下させると、増幅度が不連続に変化するところで違和感のある音声となるので、より滑らかな一点鎖線のような低減の仕方をするのが好ましい。できれば、急激な変化をしないさらに滑らかな低減の仕方をするのが好ましい。
【００７６】
なお、以上説明した子音加工装置、音声情報伝達装置及び子音加工方法は、子音強調処理装置、それを搭載した音声情報伝達装置、子音強調方法として有効であり、上述したようにＬ_３−２０＜Ｌ_２＜Ｌ_３の場合に増幅度を正の値にして音声信号を増幅方向に増幅したが、逆に増幅度λを負にすることにより音声信号を抑制方向にすることもできる。例えば、聴力障害者などに対する聴力検査、外国語学習者などに対する聞き取り訓練等を行う場合に、騒音を長時間にわたって聞かせ続けると聴力の低下、不快感を招くが、この手段、方法によれば、このような聴力検査装置や聞き取り訓練装置に有効な子音抑制処理装置、子音抑制方法となり、音声の加工が可能になる。
【００７７】
このように実施例２は、日本語のように重要な情報が音節の始まりに存在することが多いＣＶ型の言語のほかに、英語等のような他の多様な言語に対しても、きわめて簡単な構成で容易に子音強調が可能になる。なお、音環境、使用目的に応じて、時間フレーム１の抽出幅、偏りや、最大ゲインなどのパラメータを変えることができる。
【００７８】
実施例２の子音加工装置、音声情報伝達装置及び子音加工方法は、複数の時間フレームによってそれぞれフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、論理判断が少なく信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音が聞き取り易くなり、これにより音声全体の強さを減らすことができ、環境が騒音化するのを防ぐことができる。また、多くの言語の子音強調に汎用的に利用でき、増幅度を簡単に調整できるため構成が簡単で安価な子音強調処理装置等の子音加工装置、音声情報伝達装置を提供することができる。
【００７９】
また、子音抑制処理装置等として利用して増幅度を負にした場合、音声を子音または音節の端点が聞き取り難い音声に加工することができ、聴力検査、聞き取り訓練等に利用できる。
【００８０】
（実施例３）
本発明の実施例３における子音加工装置と音声情報伝達装置、子音加工方法について説明する。実施例３の子音加工装置と音声情報伝達装置も、ＣＶ型の言語の子音強調に好適なものである。
【００８１】
図５は本発明の実施例３における子音加工装置とこれを搭載した音声情報伝達装置の構成図、図６は本発明の実施例３における子音加工装置の処理の説明図、図７（ｃ）は本発明の実施例３における増幅時の増幅度の説明図である。なお、実施例３と実施例２とで同一符号は同様の構成であり、時間フレームの構成が異なるだけで、その余の点は実施例２と同様であるから、子音加工装置と音声情報伝達装置の基本的な構成の説明は実施例２に譲って省略する。
【００８２】
図６は、１はフレーム分割部、１ａは第１時間フレーム、１ｂは第２時間フレームである。また、２はパワー算出部、２ａは第１パワー算出部、２ｂは第２パワー算出部、３は比較部であり、４は子音判定部、５は遅延部、６は増幅部、７は増幅度決定部である。そして、１０は実施例２の子音加工装置、１１はマイク、１２はスピーカ、２０は実施例２の音声情報伝達装置である。これらは実施例２と同様の構成である。
【００８３】
実施例３の特徴的な点は、実施例２が第３時間フレーム１ｃによって１〜３音節分を抽出して前後、あるいは前の部分または後の部分の音節から増幅の判断を行ったのに対して、第２時間フレーム１ｂに連続して第４時間フレーム１ｄを設け、後続の音節と比較することによって増幅度λを調整する点である。
【００８４】
図６において、１ｄは第４時間フレームであり、子音を抽出可能な抽出幅を有して第２時間フレーム１ｂの直後に設けられる。また、２ｄは第３パワー算出部であり、第４時間フレーム１ｄから出力されたフレーム信号ｙ_４（ｔ）の平均パワーＰ_４をデシベル表示した平均パワーＬ_４を演算する。なお、平均パワーＰ_４は（数１）において、ｉ＝４とする。
【００８５】
実施例３の第１時間フレーム１ａは窓関数ｗ_１（ｔ）＝１（ここでＴ−τ_１≦ｔ≦Ｔ＋τ_１）、ｗ_１（ｔ）＝０（それ以外のとき）で構成され、第２時間フレーム１ｂは窓関数ｗ_２（ｔ）＝１（ここでＴ−τ_２≦ｔ≦Ｔ＋τ_２）、ｗ_２（ｔ）＝０（それ以外のとき）、第４時間フレーム１ｄは窓関数ｗ_４（ｔ）＝１（ここでＴ＋τ_２≦ｔ≦Ｔ＋τ_２＋２τ_４）、ｗ_４（ｔ）＝０（それ以外のとき）で構成される。単位はｍｓである。τ_２＝τ_４であるが、τ_２とτ_４を異なったパラメータとすることもできる。
【００８６】
このτ_１，τ_２，τ_４は経験的に定められるもので、実施例２においてはτ_１＝７．５ｍｓ程度、τ_２，τ_４＝２５ｍｓ程度に設定される。従って、ｗ_１（ｔ）＝１（ここでＴ−７．５≦ｔ≦Ｔ＋７．５）、ｗ_１（ｔ）＝０（それ以外のとき）で構成され、第２時間フレーム１ｂは窓関数ｗ_２（ｔ）＝１（ここでＴ−２５≦ｔ≦Ｔ＋２５）、ｗ_２（ｔ）＝０（それ以外のとき）、第４時間フレーム１ｄは窓関数ｗ_４（ｔ）＝１（ここでＴ＋２５≦ｔ≦Ｔ＋７５）、ｗ_４（ｔ）＝０（それ以外のとき）となる。
【００８７】
次に、実施例３で行う増幅について説明する。先ず第１に、平均パワーＬ_１が平均パワーＬ_２より所定の閾値（実施例２では５ｄＢ）以上高い場合（すなわちＬ_１＞Ｌ_２＋５）は、１５ｍｓ程度のごく狭い範囲で振幅が増加しているだけであるから、この増加は雑音の増加とみなし、Ｌ_１−Ｌ_２を計算して、閾値より大きいか、以下かを算出する。閾値より大きい場合、子音判定部４は音声信号を雑音と判断する。閾値以下の場合は、次の基準で判定する。
【００８８】
第２に、Ｌ_１−Ｌ_２が閾値（５ｄＢ）以下であって、Ｌ_４−２０＜Ｌ_２＜Ｌ_４であれば、子音判定部４は子音または音節の端点と判断して増幅度λをλ＝ｃ・（Ｌ_４−Ｌ_２）として決定する。ここでｃ＝０．７２である。なお、デシベル表示した平均パワーの差（Ｌ_４−Ｌ_２）ではなく、平均パワーＰ_２、Ｐ_４の比率Ｋ_２４＝Ｐ_２／Ｐ_４でも表現できる。このときλはλ＝（Ｋ_２４^１／２）^ｄとなる。ｄも係数である。係数ｃの意味については図８を用いて実施例４で説明する。これらは、子音と母音が交互に続く配列のとき、子音または音節の端点は母音に比べて平均パワーが小さいため、Ｌ_２のレベルとＬ_４のレベルを比較してＬ_２が小さければ、第２時間フレーム１ｂに子音あるいは音節の始点があると考え、増幅対象点または増幅対象幅を増幅することを意味する。
【００８９】
なお、図６に示す実施例３の増幅対象点は、第２時間フレーム１ｂ、第４時間フレーム１ｄの境界の点である。実施例１，２と同様に、第１時間フレーム１ａ、第２時間フレーム１ｂの中央位置の音声信号を増幅するのでもよいが、第２時間フレーム１ｂ、第４時間フレーム１ｄを設けた場合、この境界を増幅する方が効果を期待でき、実施例３においてはこの境界を増幅対象点としている。また、第２時間フレーム１ｂ、第４時間フレーム１ｄの双方に跨って第１時間フレーム１ａを配置し、境界または付近の増幅対象点または増幅対象幅を増幅するか否かを決定することもできる。このとき、第１時間フレーム１ａを包含する第５時間フレーム（図示しない）を設けて、音声信号が雑音であるか否かを判断し、雑音でないと判断された場合にのみ増幅対象点または増幅対象幅を増幅するのが好適である。
【００９０】
デシベル表示した平均パワーＬ_４とＬ_２のレベル差が大きいときほど大きく増幅し、２０ｄＢの差を５．６ｄＢにまで圧縮することができる。Ｌ_２−Ｌ_４＝−２０ｄＢのときには増幅度が１４．４ｄＢで最大となる。
【００９１】
なお、以上説明した子音加工装置、音声情報伝達装置及び子音加工方法は、子音強調処理装置、それを搭載した音声情報伝達装置、子音強調方法として有効であり、Ｌ_３−２０＜Ｌ_２＜Ｌ_３の場合に増幅度λを上げたが、逆に増幅を抑制して増幅度λを負にすることもできる。例えば、聴力障害者などに対する聴力検査、聞き取り訓練等を行う場合に、騒音を長時間にわたって聞かせ続けると聴力の低下、不快感を招くが、この手段、方法によれば、このような聴力検査装置や聞き取り訓練装置に有効な子音抑制処理装置、子音抑制方法となり、音声の加工が可能になる。
【００９２】
さらに、Ｌ_１−Ｌ_２が閾値（５ｄＢ）以下で、Ｌ_２＜Ｌ_４−２０の場合、Ｌ_２がＬ_４より２０ｄＢ以上低い場合は、前後の音声信号と比べてパワーが小さく、無理に増幅しても雑音との判別が難しくなるため、徐々に増幅度を低下させる。例えば、図７（ｃ）のように、増幅度λをＬ_２−Ｌ_４が１０ｄＢ下がるごとに３．６ｄＢ下げ、Ｌ_２−Ｌ_３が−６０ｄＢのときに増幅度λを０とするものである。しかし、図７（ｃ）は一例としてあげたもので、ステップ状に低下させると、増幅度が不連続に変化するところで違和感のある音声となるので、より滑らかな一点鎖線のような低減の仕方をするのが好ましい。
【００９３】
このように実施例３は、とくに日本語やイタリア語のように重要な情報が音節の始まりに存在することが多いＣＶ型の言語に対して、きわめて簡単な構成で容易に子音強調が可能になる。なお、音環境、使用目的に応じて、時間フレーム１の抽出幅、偏りや、最大ゲインなどのパラメータを変えることができる。
【００９４】
さらに、実施例１，２のフレーム分割は日本語でも外国語でも子音強調を行える汎用性のあるものであるが、実施例３のフレーム分割は日本語等のＣＶ型の言語の子音強調を効果的に行えるものである。従って、実施例３のフレーム分割を単独で使用しても、実施例１，２のフレーム分割と組合せて使用することもできる。このとき、２つの処理を並行して行い、増幅度の大きい方を選ぶようにすればよい。
【００９５】
なお、実施例３の子音加工装置と音声情報伝達装置は、子音と母音の判断を逆にするだけで、ＶＣ（Vowel- Consonant）型の子音強調処理に応用することができる。子音判定部４が子音または音節の端点でないと判断した場合には、音声信号の増幅対象点または増幅対象幅を増幅せず、子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅を増幅すればよい。この場合、音節の終端部が強調され、音節の終端部が強調され、ＣＶ型言語以外の外国語の子音強調が効果的に行える。日本語においても、撥音「ん」、発声のさいに母音が脱落し無声化した音節などに対して効果がある。
【００９６】
また、増幅度を負にした場合、音声を子音または音節の端点が聞き取り難い音声に加工することができ、聴力検査、聞き取り訓練等に利用できる。
【００９７】
以上説明したように、実施例３の子音加工装置、音声情報伝達装置及び子音加工方法は、フレーム信号の平均パワーの差を比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、論理判断が少なく信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、境騒音が増加するのを防ぐことができる。また、日本語等のＣＶ型の言語の子音強調に好適で、増幅度を簡単に調整できるため構成が簡単で、安価に製造できる音強調処理装置等の子音加工装置、音声情報伝達装置を提供することができる。そして、子音または音節の端点でないと判断した場合には、音声信号の増幅対象点または増幅対象幅を増幅せず、子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅を増幅すると、音節の終端部が強調され、ＣＶ型言語以外の外国語などの子音強調が効果的に行え、また、子音抑制処理装置等として利用すれば、音声を聴力検査、聞き取り訓練等のために加工できる。
【００９８】
（実施例４）
本発明の実施例４における子音加工装置と音声情報伝達装置、子音加工方法について説明する。図８は本発明の実施例４における子音加工装置の増幅特性の説明図、図９は音声刺激のパターン説明図、図１０は音声刺激ごとの子音強調処理前後の正答率の比較図である。
【００９９】
実施例３の比較部３はデシベル表示した平均パワーＬ_ｉ（ｉ＝１，２，４）の差を計算して増幅度を計算したが、実施例４は各時間フレームの平均パワーＰ_ｉ（ｉ＝１，２，４）の比率を計算して増幅度を計算するものである。従って、実施例４と実施例３とで同一符号は同様の構成であり、比較部３の計算方法が異なるだけで、その余の点は実施例３と同様である。これらの詳細な説明は実施例３に譲ってここでは省略する。従って、図５、図６を参照する。
【０１００】
実施例４においては、比較部３が各フレーム信号の平均パワーＰ_ｉ（ｉ＝１，２，４）の比率Ｋ_ij＝Ｐ_ｉ／P_j（ｉ，ｊ＝１，２，４；ｉ＜ｊ）を計算し、増幅度決定部７で増幅度を算出する。Ｌ_１とＬ_２の関係は実施例３と同様に比率で雑音を判別できればよい。そこで、以下Ｌ_２とＬ_４の関係を説明する。
【０１０１】
比較部３は、第２パワー算出部２ｂからの出力であるデシベル表示したＬ_２、第４パワー算出部２ｄからの出力であるデシベル表示したＬ_４の差Ｌ_２−Ｌ_４を算出し、Ｌ_２−Ｌ_４＞０であれば増幅度決定部７は増幅を行わない。比率Ｋ_２４＝Ｐ_２／P_４で判定する場合、Ｋ_２４＞１となる。これは図１０においてＡ点よりＬが大きい場合である。
【０１０２】
これに対し、Ｌ_２−Ｌ_４≦０、あるいは比率Ｋ_２４≦１の場合、増幅度決定部７は増幅を行う。この場合、増幅度λ＝ｃ・（Ｌ_２−Ｌ_４）となる。図８においては、このｃは（線分βγ）／（線分αγ）で表される比で表される。ｃを増やすほど増幅度が大きくなり、ｃ
が０のときには音声信号が増幅されない。破線上のγ点の入力があったとき、Ｌ_２＜Ｌ_４であれば、出力は線分βγ分持ち上げられ、β点にまで増幅されることを意味する。
【０１０３】
図８においてＢ点はニーポイント（増幅度の切り換わり点）であって、これ以下のレベルの入出力信号はノイズと判別が難しくなるので、増幅度を下げている。図８の場合、ニーポイントＢ点を−２０ｄＢとし、ニーポイントＢ点より小さな入出力信号に対しては、増幅度を徐々に下げ、ニーポイントＢ点で増幅度が最大となる。
【０１０４】
また、実施例４の子音加工装置と音声情報伝達装置は、デシベル表示した平均パワーの差Ｌ_２−Ｌ_４がＬ_２−Ｌ_４＞０、Ｌ_２−Ｌ_４≦０、あるいは平均パワーＰ_２，P_４の比率Ｋ_２４＞１とＫ_２４≦１における判断を逆にすることなどで、ＶＣ型の子音強調処理に応用することができる。すなわち、増幅対象点または増幅対象幅の増幅度の判断を逆にすることで、音節の終端部が強調され、ＣＶ型言語以外の外国語の子音強調が効果的に行える。そして、このフレーム分割を実施例１，２，３のフレーム分割と組合せて使用することもできる。組合せる場合、２つの処理を並行して行い、増幅度の大きい方を選ぶようにすればよい。これにより、音節の最終端と判断される場合に比率Ｋ_２４が１以下であれば音声信号を増幅するので、音節の最後を明瞭にすることができる。
【０１０５】
さて、実施例４の子音加工装置の有効性を確認するために、明瞭度を検証した。音声刺激としては、「人工内耳装用による語音聴取評価検査（ＣＩ２００４）」（日本人工内耳研究会編）に収録されている成人用子音検査の音源を用いた。この音源には、「ａｂａ」，「ａｄａ」，「ａｇａ」，「ａｈａ」，「ａｋａ」，「ａｍａ」，「ａｎａ」，「ａｐａ」，「ａｒａ」，「ａｓａ」，「ａｔａ」，「ａｗａ」，「ａｙａ」，「ａｚａ」の１４種類のＶＣＶ音節が設けられている。この音源を４４．１ｋＨｚで、子音強調処理を施したものと処理しないものを用意し、図９に示すように上限、下限周波数が８０００Ｈｚ、５０Ｈｚの背景雑音を加えて、音声刺激とした。背景雑音の継続時間は５０００ｍｓ、５００ｍｓの立ち上がり及び立ち下りを設け、５０００ｍｓの継続時間の中央に子音強調処理を施した音声刺激を配した。次の音声刺激までの時間間隔は２０００ｍｓとした。
【０１０６】
この音声刺激を正常な聴力をもつ１４人の実験参加者に与え、子音強調処理を施したものと処理しないものとで正答率を比較した。図１０は音声刺激ごとの子音強調処理前後の正答率を比較したものである。図１０で両者の全体の平均値を比較すると、子音強調処理を施したものの方が処理しないものより高いことが分かる。実施例１の子音加工装置が有効に機能していることが分かる。
【０１０７】
この中で、とくに「ａｓａ」，「ａｚａ」の正答率が高いのは、「ｓ」や「ｚ」のエネルギーの大半が８０００Ｈｚ以上で背景雑音によってマスクされなかったからと考えられるし、摩擦音は摩擦性の雑音、及び前後の母音との遷移部（ＶＯＴや無音区間）に特徴があるため、「ｓ」や「ｚ」はこの遷移部より雑音部（子音部）に多くの音声情報をもっているとみられることから、実施例１の増幅部６による子音強調処理が有効に機能し、明瞭度を増したと考えられる。
【０１０８】
これに対し、「ａｂａ」，「ａｄａ」，「ａｇａ」は有声閉鎖子音であり、第２ホルマント遷移の形状が音声の識別に大きな影響を与える。有声破裂子音はこの第２ホルマント遷移に多くの音声情報を有しているとみられ、また、第２ホルマント遷移部の振幅は母音に対して大きい値を示すために、実施例１の増幅部６による子音強調処理を行ったものと行わなかったものとで、明瞭度にはそれほど差が出なかったものと考えられる。
【０１０９】
このように実施例４の子音加工装置、音声情報伝達装置及び子音加工方法は、フレーム信号の平均パワーの比率を比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができる。また、日本語等のＣＶ型の言語の子音強調に好適で、増幅度を簡単に調整できるため構成が簡単で、安価に製造できる子音強調処理装置等の子音加工装置、音声情報伝達装置を提供することができる。
【０１１０】
また、実施例３と同様に増幅度を負にした場合、子音抑制処理装置等として音声を子音または音節の端点が聞き取り難い音声に加工することができ、聴力検査、聞き取り訓練等に利用できる。
【０１１１】
（実施例５）
以下、本発明の実施例５における子音加工装置と音声情報伝達装置、子音加工方法について説明する。図１１は本発明の実施例５における子音加工装置とこれを搭載した音声情報伝達装置の構成図である。
【０１１２】
実施例５における子音加工装置は、音声信号の子音あるいは音節の境界をより明瞭に検出するために、予め音声信号を処理して時間フレーム１に入力するものである。
【０１１３】
図１１に示す８はフレーム分割部１の直前に置かれたフィルタ部である。フィルタ部８は、３０００Ｈｚ以下の周波数成分を通過させ１０００Ｈｚ近辺にピークがあるような特性を有しており、これによって子音または音節の境界をより適切に検出することが可能になる。なお、実施例５は、実施例１の子音加工装置１０と音声情報伝達装置２０にフィルタ部８を設けたものを示しているが、フィルタ部８を実施例２〜４の子音加工装置１０と音声情報伝達装置２０に設けるのでも同様である。これらは図示しない。
【０１１４】
このように実施例５の子音加工装置、音声情報伝達装置及び子音加工方法は、簡単に子音若しくは音節の境界を明瞭に検出することができ、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも聞き取り易くなる。
【産業上の利用可能性】
【０１１５】
本発明は、アナウンス放送装置や携帯電話等、補聴器等の音声情報伝達装置に適用できる。
【図面の簡単な説明】
【０１１６】
【図１】本発明の実施例1における子音加工装置とこれを搭載した音声情報伝達装置の構成図
【図２】本発明の実施例1における子音加工装置の処理の説明図
【図３】本発明の実施例２における子音加工装置とこれを搭載した音声情報伝達装置の構成図
【図４】（ａ）補充現象の説明図、（ｂ）静寂な環境での音と雑音中での音の比較図
【図５】本発明の実施例３における子音加工装置とこれを搭載した音声情報伝達装置の構成図
【図６】本発明の実施例３における子音加工装置の処理の説明図
【図７】（ａ）本発明の実施例1における増幅時の増幅度の説明図、（ｂ）本発明の実施例２における増幅時の増幅度の説明図、（ｃ）本発明の実施例３における増幅時の増幅度の説明図
【図８】本発明の実施例４における子音加工装置の増幅特性の説明図
【図９】音声刺激のパターン説明図
【図１０】音声刺激ごとの子音強調処理前後の正答率の比較図
【図１１】本発明の実施例５における子音加工装置とこれを搭載した音声情報伝達装置の構成図
【符号の説明】
【０１１７】
１フレーム分割部
１ａ第１時間フレーム
１ｂ第２時間フレーム
１ｃ第３時間フレーム
１ｄ第４時間フレーム
２パワー算出部
２ａ第１パワー算出部
２ｂ第２パワー算出部
２ｃ第３パワー算出部
２ｄ第４パワー算出部
３比較部
４子音判定部
５遅延部
６増幅部
７増幅度決定部
８フィルタ部
１０子音加工装置
１１マイク
１２スピーカ
２０音声情報伝達装置

【特許請求の範囲】
【請求項１】
入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部と、
前記フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、
前記フレーム信号間で平均パワーを互いに比較する比較部と、
前記比較部の比較結果に基づいて前記音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定する子音判定部と、
前記子音判定部が子音または音節の端点と判断した場合は前記音声信号の増幅対象点または増幅対象幅を増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備えたことを特徴とする子音加工装置。
【請求項２】
入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部と、
前記フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、
前記フレーム信号間で平均パワーを互いに比較する比較部と、
前記比較部の比較結果に基づいて前記音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定する子音判定部と、
前記子音判定部が子音または音節の端点と判断した場合は前記音声信号の増幅対象点または増幅対象幅の増幅度を増幅方向に決定すると共に、子音または音節の端点でないと判断した場合は前記音声信号を増幅しない旨決定する増幅度決定部と、
前記増幅度決定部が決定した増幅度に応じて前記音声信号を増幅する増幅部とを備えたことを特徴とする子音加工装置。
【請求項３】
前記比較部が、各フレーム信号のデシベル表示した平均パワーの差を算出することにより比較することを特徴とする請求項１または２に記載された子音加工装置。
【請求項４】
前記比較部が、各フレーム信号の平均パワーの比率を算出することにより比較することを特徴とする請求項１または２に記載された子音加工装置。
【請求項５】
前記時間フレームには子音を抽出可能な抽出幅の時間フレームが設けられ、前記増幅対象点または増幅対象幅がこの時間フレームの抽出幅の中央位置に設定されることを特徴とする請求項１〜４のいずれかに記載の子音加工装置。
【請求項６】
前記時間フレームに連続する２つの時間フレームが設けられた場合に、前記増幅対象点または増幅対象幅が前記２つの時間フレームの境界に設定されることを特徴とする請求項１〜４のいずれかに記載の子音加工装置。
【請求項７】
前記デシベル表示した平均パワーの差が０以下の場合には、増幅対象点または増幅対象幅の音声信号の振幅を増幅し、該デシベル表示した差が０より大きい場合には増幅しないことを特徴とする請求項３記載の子音加工装置。
【請求項８】
前記平均パワー間の比率が１以下の場合には、増幅対象点または増幅対象幅の音声信号の振幅を増幅し、該平均パワーの比率が１より大きい場合には増幅しないことを特徴とする請求項４記載の子音加工装置。
【請求項９】
請求項１、３〜６のいずれかに記載の子音加工装置において、増幅部が、子音判定部が子音または音節の端点と判断した場合は前記音声信号の増幅対象点または増幅対象幅を増幅するのに代えて、子音または音節の端点と判断した場合に前記音声信号の増幅対象点または増幅対象幅を逆に抑制することを特徴とする子音加工装置。
【請求項１０】
請求項２〜６のいずれかに記載の子音加工装置において、増幅度決定部が、前記子音判定部が子音または音節の端点と判断した場合に前記音声信号の増幅対象点または増幅対象幅の増幅度を増幅方向に決定するのに代えて、増幅度決定部が、前記子音判定部が子音または音節の端点と判断した場合に前記音声信号の増幅対象点または増幅対象幅の増幅度を逆に抑制方向にする旨の決定を行うことを特徴とする子音加工装置。
【請求項１１】
前記フレーム分割部に音声信号を入力する前に、所定の周波数成分を通過させるフィルタ部が設けられたことを特徴とする請求項１〜１０のいずれかに記載の子音加工装置。
【請求項１２】
前記増幅部が、感音性難聴者の感覚量である音の大きさを健聴者の感覚量である音の大きさに一致させる補充現象の補正特性に従って物理的な音圧を増幅することを特徴とする請求項１〜１１のいずれかに記載の子音加工装置。
【請求項１３】
請求項１〜１２のいずれかに記載された子音加工装置と、該子音加工装置からの子音加工された音声信号に基づいて子音強調された音声を出力するスピーカを備えたことを特徴とする音声情報伝達装置。
【請求項１４】
入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出し、前記フレーム信号のそれぞれで平均パワーを算出し、前記フレーム信号間で平均パワーを互いに比較し、この比較結果に基づいて前記音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定し、子音または音節の端点と判断される場合は前記音声信号の増幅対象点または増幅対象幅を増幅し、子音でないと判断した場合は増幅しないことを特徴とする子音加工方法。
【請求項１５】
請求項１４記載の子音加工方法において、子音または音節の端点と判断される場合は前記音声信号の増幅対象点または増幅対象幅を増幅するのに代えて、子音または音節の端点と判断された場合は前記音声信号の増幅対象点または増幅対象幅を逆に抑制することを特徴とする子音加工方法。
【請求項１６】
感音性難聴者の感覚量である音の大きさを健聴者の感覚量である音の大きさに一致させる補充現象の補正特性に従って物理的な音圧を増幅することを特徴とする請求項１４または１５に記載された子音加工方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【公開番号】特開２００７−２１９１８８（Ｐ２００７−２１９１８８Ａ）
【公開日】平成１９年８月３０日（２００７．８．３０）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 他の可聴信号，または不可聴信号への音声信号変換処理，例．特性や... (2,017)
      - 音声の強調，例．雑音低減またはエコー除去 (1,255)
    - 音声認識 (6,879)
      - 音声の識別または探索 (1,500)
        
        未知音声と標準パタンとの距離または歪みを用いるもの (838)
      - 音声認識のための特徴抽出；認識単位の選択 (203)

【出願番号】特願２００６−４０１８７（Ｐ２００６−４０１８７）
【出願日】平成１８年２月１７日（２００６．２．１７）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　２００５年１２月８日　社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告　信学技報Ｖｏｌ．１０５　Ｎｏ．４７９」に発表
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成１８年２月８日　国立大学法人九州大学主催の「修士論文発表会」において文書をもって発表
【出願人】（５０４１４５３４２）国立大学法人九州大学 (960)
【Ｆターム（参考）】

音声認識 (5,191)
- 音声信号の単位 (86)
  - 音韻又は音素、音節 (46)
- パターン照合によらない認識 (78)
  - 子音の識別 (12)

[ Back to top ]

子音加工装置、音声情報伝達装置及び子音加工方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

子音加工装置、音声情報伝達装置及び子音加工方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク