説明

音声処理装置

【課題】発話音声の低音を豊かにして聞きやすい音声にするとともに、内容を聞き取りやすい音色にすることが可能な音声処理装置を提供する。
【解決手段】発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部、口唇から耳介へ音声が回り込む経路の伝達特性を持つ第1フィルタ、口唇の放射特性の逆特性を持つ第2フィルタ、口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つ第3フィルタを備え、第2フィルタと第3フィルタを直列に接続して第2処理部を形成し、入力された発話音声を第1フィルタおよび前記第2処理部に入力し、出力された音声信号を加算して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、話者が発話した音声を処理する音声処理装置に関する。
【背景技術】
【0002】
発話音声を聞き取りやすくするため、音声の特徴を強調する処理が種々提案されている。たとえば、子音は母音に比べてエネルギが小さく聞き取り難いため、子音の周波数帯域を強調し、子音のエネルギを増やすという手法が提案されている(たとえば特許文献1参照)。
【0003】
また、特許文献1の装置では、母音のフォルマント構造のピークとディップの差を広げることにより、聴取者に母音を知覚しやすくする処理も行っている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平07−153188号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記手法は、主として高音域を持ち上げる手法であるため、シャープな音色になり明瞭度は高くなるが、チリチリした耳障りな音になるうえ、軽くいわゆる安っぽい音色になるという問題点があった。
【0006】
この発明は、発話音声の低音を豊かにして聞きやすい音声にするとともに、内容を聞き取りやすい音色にすることが可能な音声処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
請求項1の発明は、発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部と、口唇から耳介へ音声が回り込む空間経路の伝達特性を持つ第1フィルタと、口唇の放射特性の逆特性を持つ第2フィルタと、口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つ第3フィルタと、を備え、
前記第1フィルタは第1処理部を形成し、前記第2フィルタと前記第3フィルタは直列に接続されて第2処理部を形成し、前記音声入力部から入力された発話音声は、前記第1処理部および前記第2処理部に入力され、さらに、前記第1処理部から出力された音声信号および前記第2処理部から出力された音声信号を加算して出力する加算器を備えたことを特徴とする。
【0008】
請求項2の発明は、前記第1処理部から出力された音声信号、および、前記第2処理部から出力された音声信号のゲインを調整するゲイン調整部を備えたことを特徴とする。
【0009】
請求項3の発明は、前記加算器から出力された音声信号に、さらに前記音声入力部から入力された発話音声を加算する第2の加算器を備えたことを特徴とする。
【0010】
請求項4の発明は、前記第1フィルタは、前記発話者の口唇から耳介へ音声が回り込む空間経路の伝達特性を持つものであり、前記第2フィルタは、前記発話者の口唇の放射特性の逆特性を持つものであり、前記第3フィルタは、前記発話者の口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つものであることを特徴とする。
【0011】
請求項5の発明は、発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部と、前記発話音声が入力され、口唇の放射特性の逆特性を持つフィルタと、前記フィルタから出力された音声信号に前記発話音声を加算する加算器と、を備えたことを特徴とする。
【発明の効果】
【0012】
この発明によれば、発話時に発話者自身に聴こえるような音声に処理することにより、低音が豊かな聞きやすい音声であり且つ内容を聞き取りやすい音声にすることができる。
【図面の簡単な説明】
【0013】
【図1】この発明によって模擬される人の発声の原理を説明する図
【図2】この発明の実施形態である音声処理装置のブロック図
【図3】同音声処理装置の変形例を示す図
【図4】同音声処理装置の変形例を示す図
【図5】同音声処理装置の変形例を示す図
【発明を実施するための形態】
【0014】
まず、本発明によって模擬される人の発声の原理について説明する。話者100の肺から吐き出された息が声門(声帯)101を振動させて音(空気振動)を生起し、この音が、口腔を含む声道102で共鳴して音声(口腔内音声)となる。この口腔内音声が口唇103を介して空気中に放射された音声(音声1)が、話し相手が聴いたりマイクで収音される音声である。音声1は、口唇103通過時の伝達特性H1(口唇放射特性)により、口腔内音声とは異なる周波数特性を持つ。なお、口唇放射特性は話者の固体的特徴にそれほど影響されず、一般的に+6dB/octの周波数特性の傾斜で模擬される。
【0015】
一方、話者100自身は、この音声1とは異なる周波数特性の音声を聴いている。話者100は、音声1が自己の頭蓋104に沿って回り込んで耳介105へ到達した音声(音声2)、および、口腔を含む声道102から頭蓋104内の骨や肉を伝達して直接内耳106へ到達した音声(音声3)を合成したものを聴いている。このように、話者100が自分自身で聴く音声(音声2+音声3)と空気中に放射された音声(音声1)すなわち他者が聴く音声とは、周波数特性すなわち声質が相当程度異なっている。録音された自分の声を再生すると、自分の声と全く異なるような印象を受けるのはこのためである。
【0016】
一般的に、話者100自身に聴こえる自分の音声は、空気中に放射される音声よりも、低音域が豊かで良く響く、いわゆるマイルドな声である場合が多い。一般的に良い声と言われるものである。
【0017】
そこで、この発明では、空気中に放射された音声を、話者100自身に聴こえている「良い声」に変換する装置を実現する。
【0018】
図2はこの発明の実施形態である音声処理装置1のブロック図である。入力部INPUTからは音声1が入力される。この音声1は、話者100が発声したものをマイクで収音して直接入力してもよく、一旦録音されたものを再生して入力してもよい。入力した音声1は2つの処理部で並列に処理される。第1処理部111は、図1の伝達経路2を模擬したものであり、話者100の頭蓋104に沿って口唇103から耳介105へ至る空間経路の伝達特性H2を持つフィルタ10が設けられている。第2処理部112は、図1の伝達経路3を模擬したものであり、口唇103による音声の放射特性H1の逆特性H−1を持つフィルタ11、および、口腔を含む声道102から頭蓋104内の骨や肉を介して内耳106に至る経路の伝達特性H3を模した特性を有するフィルタ12が直列に接続された構造を有している。フィルタ11は、口唇放射特性H1の逆特性にされていることにより、空気中に放射された音声1を口腔内音声に戻す機能を有する。なお、フィルタ11およびフィルタ12は、伝達特性が合成された1つのフィルタで構成されていてもよい。
【0019】
そして、これらの2つの処理部で処理され加算器13で加算されたた音声Sが音声出力部OUTPUTから出力される。この音声Sが、話者100が発話したときに自分自身に聴こえる音声に近いものになっている。音声Sは、話者100が自分自身で聴いて違和感がなく、また、他者が聴いても低音の周波数帯域が豊かでよく響き、聞きやすく言語の了解度も高いものになっている。
【0020】
また、図2の実施形態では、第1処理部111と第2処理部112の音量比を調整するため、加算器13の手前に各処理部ごとのゲインを調整するゲイン調整部14(14A,14B)が設けられている。また、加算後の音量を調整するために加算器13の後段にゲイン調整部15が設けられている。ゲイン調整部14は、第1処理部111で処理した音声と第2処理部112で処理した音声の混合比率を調整することで音質を調整する。また、フィルタ10、11、12の設計によっては、入力信号(音声1)と出力信号(音声S)との音量差が大きくなり違和感を生じる場合がある。この場合にゲイン調整部15で入力信号と出力信号とのレベル差を補償する。
【0021】
音声処理装置1で特定の話者100の発話音声(音声1)を変換する場合には、フィルタ10、11、12の伝達特性として、その話者100の口唇103および頭蓋104の伝達特性を設定するのが最良である。特定の話者100の伝達経路2の伝達特性の測定は、たとえば以下のような方法で測定することができる。マイクロフォンを2つ用意し、一方は話者100の外耳道内に入れ、もう一方は口唇103から1メートルほど前方に設置する。話者100に母音を発話させて2つのマイクロフォンで収音し、両者の周波数特性の差を求める。この差が伝達経路2の伝達特性である。
【0022】
特定の話者100の発話音声を変換する場合には、上記のように、その話者100にパーソナライズしたフィルタ特性を設定することが理想的であるが、実際に測定するのは面倒または困難であるため、その顔形状から伝達特性を推定してフィルタを設定してもよい。たとえば、「太っていて丸顔であれば、顔の肉厚が厚いと推定できるので、高域の減衰量を増やし、第2処理部112の出力ゲインが小さくなるように設定する。また、口唇放射特性の逆特性はおおよそ−6dB/octで減衰する周波数特性のフィルタで近似されることが多いが、話者100の口唇103の分厚さに応じてカットオフ周波数を変更する。」などである。
【0023】
以上の説明では、実施形態の音声処理装置1を、特定の話者100の発話音声(音声1)を、発話時に話者100自身に聴こえている音声に変換する装置として説明したが、標準的な頭蓋モデルの伝達特性をフィルタ10、11、12に設定して、音声処理装置1を任意の話者の音声を処理する装置として使用することも可能である。
【0024】
任意の話者の発話音声を上記設定の音声処理装置1で処理することにより、その話者自身に聴こえる音声に完全に似るとは限らないが、自分自身に聴こえる音声に類似した低音が豊かでまろやかな音声にすることが可能である。
【0025】
この場合には、処理する音声に応じて第1処理部111および第2処理部112のゲインを調整する。たとえば、熟練したアナウンサの音声のように、元々低音域の量感が豊かな音声については、過剰に処理すると却って悪影響を与える可能性があるため、第2処理部112のゲインを絞るようにすればよい。
【0026】
また、このような場合に備え、図3に示すように、入力される音声(音声1)の低音域のエネルギを随時測定するエネルギ測定部16を設け、エネルギ測定部16の検出値に応じてゲイン調整部14を制御して第2処理部112のゲインを調整するようにしてもよい。
【0027】
また、図4に示すように、図2に示した音声処理装置1を音声処理部20として設け、処理された音声Sと原音(音声1)とをさらに加算混合する加算器21、および、原音と音声Sのゲインを調整するゲイン調整部22(22A、22B)を設けた構成にしてもよい。
【0028】
また、図2に示した第1処理部111、第2処理部112の処理を全て行うことが理想的であるが、音声1を口唇放射特性の逆特性H−1のフィルタ11で処理するのみでも、口唇103によって削られた低音域が再現された豊かでまろやかな音声にすることが可能である。そこで、図5に示すように、原音(音声1)をフィルタ11で処理し、この処理された音声と原音(音声1)とを加算混合する加算器25、および、両音声のゲインを調整するゲイン調整部26(26A、26B)を設けた構成にすることも可能である。
【0029】
また、第2処理部112に耳介から内耳に至る経路の伝達特性の逆特性を持つフィルタを直列に接続してもよい。これは、頭蓋104の肉や骨を伝搬して直接内耳106に到達する音声は、耳介から内耳の経路を通過しないが、音声処理装置1で処理された音声を聴く聴取者は、この音声を耳介から取り込んで鼓膜を介して聴くからである。
【0030】
この音声処理装置は、以下の適用例に示すように種々の機器に適用が可能である。
【0031】
テレビ:オーディオ信号の処理回路にこの音声処理装置1を組み込んでおき、アナウンスなどの人声を検出したとき、その音声を音声処理装置1に通して聞き取りやすい音声に変換する。これにより、音声が理解しやすくなるとともに、カリカリしたいわゆるヒステリックな音がまろやかになる。
【0032】
カラオケ:歌唱音声をこの音声処理装置1で処理することにより、低音域が豊かな、いわゆる「良い声」に加工することができる。これにより、歌唱者が歌いやすくなるとともに、声が加工されているため聴いていて楽しく、歌唱を盛り上げることができる。
【0033】
携帯電話を含む電話:周波数帯域が高音域、低音域ともにカットされている通話音声を聞き取りやすくするとともに、狭い周波数帯域のなかで自分の声らしい音質にして伝送することが可能になる。
【符号の説明】
【0034】
1 音声処理装置
10、11、12 フィルタ

【特許請求の範囲】
【請求項1】
発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部と、
口唇から耳介へ音声が回り込む空間経路の伝達特性を持つ第1フィルタと、
口唇の放射特性の逆特性を持つ第2フィルタと、
口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つ第3フィルタと、
を備え、
前記第1フィルタは第1処理部を形成し、前記第2フィルタと前記第3フィルタは直列に接続されて第2処理部を形成し、
前記音声入力部から入力された発話音声は、前記第1処理部および前記第2処理部に入力され、
さらに、前記第1処理部から出力された音声信号および前記第2処理部から出力された音声信号を加算して出力する加算器を備えた音声処理装置。
【請求項2】
前記第1処理部から出力された音声信号、および、前記第2処理部から出力された音声信号のゲインを調整するゲイン調整部を備えた請求項1に記載の音声処理装置。
【請求項3】
前記加算器から出力された音声信号に、さらに前記音声入力部から入力された発話音声を加算する第2の加算器を備えた請求項1または請求項2に記載の音声処理装置。
【請求項4】
前記第1フィルタは、前記発話者の口唇から耳介へ音声が回り込む空間経路の伝達特性を持つものであり、
前記第2フィルタは、前記発話者の口唇の放射特性の逆特性を持つものであり、
前記第3フィルタは、前記発話者の口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つものである
請求項1、請求項2または請求項3に記載の音声処理装置。
【請求項5】
発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部と、
前記発話音声が入力され、口唇の放射特性の逆特性を持つフィルタと、
前記フィルタから出力された音声信号に前記発話音声を加算する加算器と、
を備えた音声処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−194510(P2012−194510A)
【公開日】平成24年10月11日(2012.10.11)
【国際特許分類】
【出願番号】特願2011−60345(P2011−60345)
【出願日】平成23年3月18日(2011.3.18)
【出願人】(000004075)ヤマハ株式会社 (5,930)