説明

発声支援方法

【課題】 明瞭な音声でコミュニケーションを図ることが困難な環境、例えば発声機能障害者の食道発声法の発声支援や、高騒音環境に於ける通信補助等において、話者の本来の声に近い形式の声を再現しコミュニケーションを円滑にする方法を提供することを課題とする。
【解決手段】 話者の体内伝導音等の入力信号と出力音声のモデルとする音声データを元にサブワード毎に伝達関数を生成し、話者が発声した際に、入力信号を連続的にサブワード毎に伝達関数にて音質変換し、デジタルフィルタにて音質変換後のサブワードをたたみ込み演算を行い、連続した出力音声を再現することにより、出力音声に近い声質の音声にて発声支援を実現する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通常の発声による意思疎通が困難な状況に於ける発声支援方法に関する。
【背景技術】
【0002】
近年、咽頭癌等の病気により咽頭を全摘出する患者が増加傾向にある。咽頭全摘出手術は咽頭癌に対する一般的な処置の一つであるが、咽頭全摘出により声帯も失う事となり、通常の発声が不可能となる。
【0003】
声帯を除去した患者の多くが、代替発声法として食道発声法を用いているが、食道発声法による音声は必ずしも明瞭ではなく、発声音の基本周波数の低下、及び音量の減少により、屋外等の高騒音環境においてはコミュニケーションに不具合が生じている。
【0004】
高騒音環境に於ける音声コミュニケーションの不具合は声帯摘出者に限った問題ではなく、例えば船舶の機関室のような高騒音環境において、健常者の発声音より周囲の騒音の音量が大きい場合には、音声認識率が著しく低下する。
【0005】
この問題に対して本願発明者は過去に、非特許文献1において骨伝導システムを用いて、骨伝導すなわち体内伝導音を用いた音声認識装置に関する研究を行っている。また同発明者は非特許文献2において、声帯振動信号を音声信号に変換する技術についての研究を行っている。
【0006】
また体内伝導音を使用した咽頭全摘出者のための発声支援方法の一例として、例えば非特許文献3、特許文献1、及び特許文献2に挙げるような装置及び方法が開示されている。非特許文献3は非可聴つぶやき声(Non−Audible Murmur:NAM)を抽出してささやき声への変換を行うことにより音声コミュニケーションを支援する方法に関する論文である。特許文献1は口周辺の筋肉の動きを筋電位により検出し音声を合成する事を特徴とする発声代行装置である。特許文献2は目標発話モデルを文章で登録し、話者が発話した内容と登録された目標発話モデルを突合し、合致するものがあれば出力し、合致する目標発話モデルがない場合は発話の特徴が一致する複数の目標発話モデルから生成して出力すると同時に新たな目標発話モデルとして登録する事を特徴とする会話支援装置である。
【特許文献1】特開平7−181888
【特許文献2】特開2004−287209
【非特許文献1】「舶用機関運転支援のための骨伝導認識システムの検討」日本マリンエンジニアリング学会誌第39巻第4号、P35−40
【非特許文献2】「声道フィルタ特性を用いた声帯振動信号からの音声生成」日本機械学会2003年度年次大会講演論文集、P121−122
【非特許文献3】「肉伝導人工音声の変換に基づく咽頭全摘出者のための音声コミュニケーション支援システム」電子情報通信学会論文誌 D Vol.J90−D No.3、P780−787
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし上記文献に記載の発明はいずれも、話者の声質を残しつつ明瞭な音声を生成するには到っているとは言えず、実用性に乏しい。
【0008】
本願発明者の先行研究となる非特許文献1においては、骨伝導(体内伝導)を抽出することには成功しているが、明瞭な音声に変換する段階までには到っていない。また非特許文献2においては、声帯信号と音声信号を同時に入力する必要があり、通常の音声信号が使用できない状況においては無効である。さらに非特許文献2においては、事前に登録した単語(該文献においては「府中(hutyuu)」)による信号変換の確認であり、登録されていない単語や会話においては考慮されていない。
【0009】
非特許文献3は「非可聴つぶやき声(Non−Audible Murmur:NAM)」からささやき声への変換を行う発明であるが、ささやき声は実際の話音と異なり基本周波数を考慮していないため、男声か女声かの区別もなく、話者の声質を残した音声とは言えない。また該発明はNAMによる入力信号をそのまま変換しているだけであり、入力信号を認識・解析する方法に関しては検討が成されていないため、曖昧性に弱い。
【0010】
特許文献1は、口周辺の筋電位を元に音声を合成し出力する発明であるが、声質は筋肉の動きのみで決定されるわけではなく、声質を再現しているとは言えない。
【0011】
また特許文献2は、事前に目標発話モデルをデータベースとして保持し、話者が発話した内容とデータベース上の目標発話モデルを突合し、変換出力する装置であるが、目標発話モデルとして登録する内容を文章単位としている。目標発話モデルとして登録していない新規な内容を発話した場合も、登録されている発話モデルから自動合成によって対応可能である旨、また新規発話に対応するデータベースを自動的に構築しデータを補完する旨が記載されているが、新規発話に類似する発話モデルがデータベース上にない場合は自動合成ができない。また発話内容も単語も無限大に存在することを考えると、実現性に乏しいと言わざるを得ない。
【課題を解決するための手段】
【0012】
本発明は、話者の体内伝導音あるいは音声を入力信号情報とし、前記入力信号情報と出力する音声信号のモデルを関連づける伝達関数を、単語より短いサブワード毎にクロススペクトル法を用いて事前に作成し記憶保持する工程と、前記話者の体内伝導音あるいは音声を入力し入力信号とする工程と、前記入力信号を前記サブワード毎に識別する工程と、前記サブワード毎に対応する前記伝達関数により前記サブワードの音質を変換する工程と、前記音質変換したサブワードを一連の出力音声信号として合成する工程と、前記一連の出力音声信号を出力する工程とを具備する事を特徴とする。よって本発明により、話者の体内伝導音あるいは音声と出力したい音声のモデルを関連づける伝達関数を事前に生成することにより、実際に話者が発話した時に事前に準備した出力したい音声のモデルに近い音声として出力することができる。
【0013】
また本発明に於いて、前記サブワードは、音素、半音節または音節とすることを特徴とする。よって本発明に於いては単語等の事前登録が不要になり、自由な発話に対応が可能となる。
【0014】
また本発明に於いて、前記伝達関数は、前記入力信号をサブワード単位で出力する音質に変換する関数であり、サブワード毎に関連づけて記憶保持することを特徴とする。よって本発明に於いて保持する伝達関数はサブワードの数だけでよく、データ量を抑えられる。
【0015】
また本発明に於いて、前記伝達関数は、前記入力信号の入力時に、サブワード毎に連続して呼び出されることを特徴とする。よって本発明に於いては、連続した発話に対して連続して変換が行われるため、スムーズ且つリアルタイムの出力が可能となる。
【0016】
また本発明に於いて、前記一連の出力音声として合成する工程は、デジタルフィルタによるたたみ込み演算であることを特徴とする。よって本発明に於いて、サブワード毎に音質変換したデータを一連のスムーズな形式につなぎ合わせることにより、より自然な出力音声を得ることができる。
【発明の効果】
【0017】
本発明によると、話者の発話と平行して伝達関数によりサブワード毎に音質変換を行う事により、伝達関数生成時に使用した出力音声信号のモデルに近い音声として出力することができる。よって、出力音声信号のモデルとして話者自身の声を使用すれば、話者自身の声に近い音声を再現することを可能とする。
【0018】
さらに本発明によると、音質変換の単位をサブワードとすることにより、入力信号を一括変換する場合に比べて緻密な変換を行うことが可能となり、明瞭な音声を出力できるという利点を有する。
【0019】
さらに本発明によると、音質変換の単位をサブワードとすることにより、単語毎や文章毎の変換と比べて保持する伝達関数の数が少なく、データ量を抑えられるという利点を有する。例えばサブワードを音節とした場合、所謂五十音、濁音、半濁音、拗音、促音等、発音に対応する伝達関数を準備するだけでよい。
【0020】
さらに本発明によると、音質変換の単位をサブワードとすることにより、単語や文章モデルという制限が無く、出力音声を柔軟に再現することを可能とする。
【0021】
さらに本発明によると、入力信号が曖昧でサブワード識別を誤った場合に話者の意図と異なる伝達関数が呼び出された場合(例えば「ひ」と発話したつもりが「し」の伝達関数により音質変換された場合)においても、元々の発話音声が曖昧であり、また呼び出される伝達関数も似通ったものであるため、出力音声も似通ったものとなり、よって曖昧性に強い変換を行うことを可能とする。
【0022】
さらに本発明によると、サブワード毎の音質変換を行った後に、デジタルフィルタによってたたみ込み演算を行い、サブワード毎の変換後音質信号の繋がり部分を補う事により、出力音声をスムーズにすることを可能とする。
【0023】
さらに本発明によると、伝達関数の入力信号及び出力音声信号のモデルに制限がない。よって入力信号は食道発声法の体内伝導音、声帯発声時の体内伝導音、健常者の通常の発声音、食道発声法の発声音、非可聴つぶやき声等、また出力音声信号のモデルは話者自身の現在の声、カセットテープ等記録媒体に収録されている過去の話者自身の声、親族の声、有名人の声、話者の理想とする声等、伝達関数を生成する時点で目的に応じて自由に設定することを可能とする。
【発明を実施するための最良の形態】
【0024】
前述の通り、本願発明においては入力信号及び出力音声共に制限はないが、好適な実施例の一つとして、咽頭全摘出による発声機能障害者の発声支援方法を例示する。なお、発明を実施するための装置構成の一例として図1を参照して説明する。
【0025】
まず事前工程として、伝達関数を生成する。実施例においては発声機能障害者の発声支援を目的とするため、入力信号は話者が食道発声法を行う際の体内伝導音とする。また出力音声信号のモデルとして、カセットテープ等記録媒体に収録された声帯を失う前の話者自身の声を準備する。なおサブワードは音節単位とする。
【0026】
信号入力部11として体内伝導音を抽出する機器を話者の身体に装着した状態で、記録媒体に収録された声を再生し、再生音声を音声モデル入力部21にて伝達関数生成部22に入力すると同時に、話者は食道発声法にて再生音声と同時に同一内容を発声し、伝達関数生成部22に入力する。つまり、媒体に収録された声が「あさひ」(/a/sa/hi/)と発話していたら、話者は再生音と同時に「あさひ」と発声する。これにより、収録された声と話者の食道発声法の体内伝導音が伝達関数生成部22内で関連づけられる。
【0027】
再生音声の発話内容は事前に特定できるため、再生音声と体内伝導音を時間軸や振動の特徴などを元に重ね合わせることにより、事前に特定している再生音声の発話内容に従って再生音声をサブワード毎に抽出すると共に、対応する体内伝導音をサブワード毎に抽出できる。
【0028】
サブワード毎に抽出した再生音声と体内伝導音を元に、伝達関数生成部22内で伝達関数を生成する。体内伝導音のオートスペクトルをHxx、再生音声と体内伝導音のクロススペクトルをHxdとした場合、伝達関数H(f)を生成する式は、H(f)=Hxd/Hxxとなる。
【0029】
なお図3に示す通り、同じサブワードに対して複数回情報の採取、また「あさひ」の「さ(/sa/)」と、「さっぽろ」の「さ(/sa/)」のように、異なる単語による同じサブワードの情報を採取することにより、入力信号のぶれに対する伝達関数に柔軟性を持たせることができ、精度が上がる。図3において、「音声」欄及び「体内伝導音」欄の上部の波形は音声波形であり、下部の色の濃淡はスペクトログラムである。
【0030】
上記工程を全てのサブワードに対して行うことにより、全てのサブワードに対応する伝達関数を生成し、伝達関数記憶部13にて記憶保持させることにより事前工程は完了である。
【0031】
なお、図1における音声モデル入力部21及び伝達関数生成部22は、伝達関数を生成する工程でしか使用しないため、その他の装置構成部と切り離しても問題ない。
【0032】
以下、本願発明に於ける、実際に発声を行う際の発声支援方法を記す。なお以下に示す発声支援方法のイメージとして図示したものが図2である。
【0033】
第一の工程として、話者が発話し、その体内伝導音を図1に於ける信号入力部11にて入力し入力信号とする。体内伝導音は抽出する場所により入力信号が変わり、また機器による測定特性も考えられるため、伝達関数を生成する際に使用した機器と同じものを同じ位置に装着することが望ましい。
【0034】
第二の工程として、図1に於ける音声認識部12にて入力信号を前記サブワード毎に識別する。識別は、一般的に知られている音声認識によって行う。
【0035】
第三の工程として、サブワード毎に対応する前述の伝達関数を図1に於ける伝達関数記憶部13から呼び出し、図1に於ける音質変換部14にてサブワード毎に周波数特性を補正することにより音質を変換する。
【0036】
第四の工程として、図1に於けるデジタルフィルタ部15にて音質変換したサブワードを一連の出力音声信号として合成する。
【0037】
サブワード毎に寸断された音質変換結果を一連の連続した出力音声信号として合成する方法として、例えばFIRフィルタ(Finite Impulse Response Filter)を基本とするデジタルフィルタによるたたみ込み演算を行う。これは図2の下部に例示するように、最新のデータ(本願に於いては、図1に於ける音質変換部14にて最後に変換したサブワード)と連続した過去の任意のn個のデータを結ぶ関数を求め、各データ間を補うたたみ込み演算を行い、これをサブワード毎に繰り返すことにより、寸断されたサブワード毎の繋ぎ目部分の差を補い、出力音声信号をスムーズにする。なおデジタルフィルタは、FIRフィルタに限定されない。例えばIIRフィルタ(Infinite Impulse Response Filter)等、たたみ込み演算により各サブワード間を補完するデジタルフィルタであれば種類は問わない。
【0038】
第五の工程として、図1に於ける出力部16から一連の出力音声信号を出力する。出力部16は音声としての出力を目的とするスピーカーあるいは携帯電話等通信機器、また音声認識ソフト等を介して文字データとしての出力を目的とする電子メールやワードプロセッサ等、目的と用途に応じて自由に設定が可能である。
【0039】
本願発明の特徴の一つとして、前述の通り曖昧性に強いことが挙げられるが、以下に一例を記述する。
【0040】
サブワード毎の識別、つまり区切る場所を誤った場合、例えば「あさひ」(/a/sa/hi/)と発話したにも関わらず「あさらひい」(/a/sa/ra/hi/i/)と識別された場合、当然「あ」「さ」「ら」「ひ」「い」に対応する伝達関数が呼び出されることとなる。しかしこの場合は逆に、元々の入力音声をより詳細に解析したことになるため、出力される音声自体は話者の発声に近いものとなる。
【0041】
また区切る場所ではなく発声音を誤認識した場合、例えば前述の通り「あさひ」(/a/sa/hi/)を「あさし」(/a/sa/shi/)と誤認した場合、当然「あ」「さ」「し」に対応した伝達関数が呼ばれることとなる。この場合は、入力音声の「ひ」(/hi/)を「し」(/shi/)と誤認した事になるが、誤認すると言うことは言い換えれば話者の発声が曖昧であった、つまり本来の音声と誤認された音声が似通っていると言え、この場合は伝達関数も似通ったものとなる。よって出力音声も話者の意図したものと大差はなく、話者の意思伝達には支障を来さない。
【0042】
前述の実施形態に於いては、発声機能障害者の発声支援方法という想定で記述しているため、入力信号を話者の食道発生時の体内伝導音とし、出力音声を話者自身の過去の声として記述したが、これに制約されるわけではない。入力信号は健常者の声帯発声時の体内伝導音、実際の発声音、非可聴つぶやき音等、適宜変更可能である。また出力音声も発声者自身の声のサンプルがない場合は他人の声を使用しても同様の方法にて機能する。さらに前述の通り出力方法自体も、スピーカーを通した音声、通信機器、文字出力等自由に設定が可能である。
【0043】
つまり、伝達関数を作成する段階で、使用者と使用目的が明確であれば、好適な入出力方法を選択し、目的に合わせた伝達関数を作成することにより、使用目的に応じた柔軟な対応ができる。
【0044】
例えば声帯発声が可能な話者の声帯発声時体内伝導音を入力信号とし、自身の声で出力し、出力方法を携帯電話等通信機器とした場合、高騒音下にて外部騒音の影響を抑えて明瞭に通信できる方法を提供することができる。
【0045】
また入力信号の普通の音声マイクロフォンとし、出力音声を家族や有名人等他人の声として伝達関数を作成すれば、話者の声を他人の声に変換し、話者の自由発話を他人の声にて再現するボイスチェンジャーとしての音声伝達方法も提供することが可能である。
【実施例】
【0046】
「あさひ」という単語の変換について、健常者の声帯発声時体内伝導音と健常者自身の声を元に音質変換の有効性を検証した。体内伝導音は加速度ピックアップで上唇左上部から抽出した。サンプリング周波数は16kHzである。体内伝導音の抽出位置については、前述の非特許文献1にて有効であることが確認できた位置である。
【0047】
またサブワード毎の切れ目を識別する方法としては、市販のフリーソフト“Julius3.4.2”を使用した。サブワードは音節単位とした。該ソフトウェアを作動させるために必要な音響モデル及び言語モデルは、該ソフトウェアと共に提供されている“Dictation Kit Ver.3.0”付属の不特定話者モデル及びwebベースの6万語bigramを用いた。なお音声識別ソフトについては特に制限はなく、前述のソフト以外でも動作確認ができた。
【0048】
また出力音声信号のモデルとする話者自身の声は、マイクロフォンを用いて話者から30cmの位置で採取した。
【0049】
図4乃至図7に測定結果を示す。各図の上部の波形が音声波形であり、下部の色の濃淡はスペクトログラムである。図4にマイクロフォンから採取した「あさひ」発声時の音声波形及びスペクトログラム、図5に「あさひ」発声時の体内伝導音の音声波形及びスペクトログラムを示す。比較すると、体内伝導音においては主として広域成分の周波数特性が失われていることがわかる。
【0050】
図4に示した声、及び図5に示した体内伝導音により伝達関数を生成し、生成した結果の伝達関数を用いて図5の体内伝導音を音質変換しFIRフィルタを通した出力結果が図6である。図6より、体内伝導音に於いては失われていた高域成分の周波数特性を回復していることがわかる。また図4と図6を比較すると音声波形及びスペクトログラムは類似しており、よって出力音声は音声モデルに類似した声質で、発声内容も類似していることがわかる。なお図6における「/SIL/」は、無発声状態を示す。
【0051】
また参考までに、図7にて、「あ・さ・ひ」という発声に対して、母音も子音も異なる伝達関数「ひ・ひ・あ」にて音質変換を行った結果を示す。音声波形は大きく異なるが、スペクトログラムから高域の周波数特性を回復できていることがわかる。
【産業上の利用可能性】
【0052】
明瞭な音声でコミュニケーションを図ることが困難な環境、例えば発声機能障害者の食道発声法の発声支援や、高騒音環境に於ける携帯電話等通信機器を使用した意思伝達支援等において、より自然且つ明瞭な話音を再現することができる。また母親の声でしゃべる人形等、ボイスチェンジャー的な利用方法も想定できる。
【図面の簡単な説明】
【0053】
【図1】本願発明に於ける、発声支援方法を実現する装置の構成図である。
【図2】本願発明に於ける、発声機能障害者に対する発声支援方法の模式図である。
【図3】本願発明に於ける、伝達関数生成イメージ図である。
【図4】本願発明に於ける、発声者の元の声を示す波形及びスペクトログラムである。
【図5】本願発明に於ける、発声者の体内伝導音を示す波形及びスペクトログラムである。
【図6】本願発明に於ける、正しい伝達関数を用いて体内伝導音から復元した波形及びスペクトログラムである。
【図7】本願発明に於ける、誤った伝達関数を用いて体内伝導音から復元した波形及びスペクトログラムである。
【符号の説明】
【0054】
11 信号入力部
12 音声識別部
13 伝達関数記憶部
14 音質変換部
15 デジタルフィルタ部
16 出力部
21 音声モデル入力部
22 伝達関数生成部

【特許請求の範囲】
【請求項1】
話者の体内伝導音あるいは音声を入力信号情報とし、前記入力信号情報と出力する音声信号のモデルを関連づける伝達関数を、単語より短いサブワード毎にクロススペクトル法を用いて事前に作成し記憶保持する工程と、
前記話者の体内伝導音あるいは音声を入力し入力信号とする工程と、
前記入力信号を前記サブワード毎に識別する工程と、
前記サブワード毎に対応する前記伝達関数により前記サブワードの音質を変換する工程と、
前記音質変換したサブワードを一連の出力音声信号として合成する工程と、
前記一連の出力音声信号を出力する工程とを具備する事を特徴とする発声支援方法。
【請求項2】
前記サブワードは、音素、半音節または音節とすることを特徴とする請求項1に記載の発声支援方法。
【請求項3】
前記伝達関数は、前記入力信号をサブワード単位で出力する音質に変換する関数であり、サブワード毎に関連づけて記憶保持することを特徴とする請求項1に記載の発声支援方法。
【請求項4】
前記伝達関数は、前記入力信号の入力時に、サブワード毎に連続して呼び出されることを特徴とする請求項1に記載の発声支援方法。
【請求項5】
前記一連の出力音声として合成する工程は、デジタルフィルタによるたたみ込み演算であることを特徴とする請求項1に記載の発声支援方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−162879(P2009−162879A)
【公開日】平成21年7月23日(2009.7.23)
【国際特許分類】
【出願番号】特願2007−340381(P2007−340381)
【出願日】平成19年12月28日(2007.12.28)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成19年9月19日 社団法人 日本音響学会発行の「日本音響学会 2007年秋季研究発表会 講演論文集」に発表
【出願人】(803000104)財団法人ひろしま産業振興機構 (70)
【Fターム(参考)】