説明

音声による抑圧状態検出装置およびプログラム

【課題】音声波形に含まれる非言語情報を使って、一般的音声認識を必要とせず、発話者個人の特性を考慮した発話者の抑圧状態すなわち声帯の緊張状態の時の発話を検出する。
【解決手段】入力部101は、入力された音声を受付ける。解析部102は、音声を複数のフレームごとに解析する。演算部103は、解析の結果の平均値を算出すると共に、予め記憶された複数話者ごとの解析結果の平均値および解析結果の累積頻度分布に関する統計データと、算出された平均値とに基づいて閾値を決定し、複数の解析結果のうち閾値よりも大きな値を有する解析結果の出現頻度を演算する。判定部104は、出現頻度に基づいて、音声を発する声帯の緊張状態を判定する。出力部105は、判定の結果を出力する

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声波形に含まれる非言語情報を使って、発話者の抑圧された状態を検出する抑圧状態検出装置およびプログラムに関する。
【背景技術】
【0002】
携帯電話技術やカーナビゲーション技術の発達に伴い、音声認識、話者認識や音声合成等の音声処理技術も応用範囲が広がっている。この応用の一つとして、発話者が発声する音声を解析することで、発話者の精神状態(感情)を判定する技術がある(特許文献1)。これは、周波数信号区間において、音源波形の周波数ゆらぎおよび高域成分ゆらぎから特徴「力み」「かすれ」を検出し、特徴に適した音声認識の音響モデルを選択し、音響モデルと入力された音源とに基づいて、発話者の精神状態を判定する。また、あるフレームにおける平均音量と音量分散に基づいて、発話者の精神状態を分析する技術がある(特許文献2)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許4085130号公報
【特許文献2】特開2004−317822号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
発話者の精神状態として、発話者が抑圧を受けている状態すなわち声帯の緊張状態を検出しようとする場合が考えられる。この場合、従来技術を使えば、音声認識による音韻列(発話者がなんというフレーズを話したか)を検出する処理が必要となる。このため、検出精度が音声認識の性能に左右されてしまうという問題点を有していた。特に、雑音環境や未知語(音声認識に登録されていない単語)が入力された場合では音声認識誤りが発生し、感情の推定精度が落ちる。また、大語彙音声認識を行なわないといけないので、携帯電話上といった省リソース環境での実装は難しい。
【0005】
また、特許文献2の技術は、発話者個人の特性を考慮した検出ができない。
そこで、本願発明は、一般的音声認識を必要とせず、発話者個人の特性を考慮した発話者の抑圧状態すなわち声帯の緊張状態の時の発話を検出することを目的とする。
【課題を解決するための手段】
【0006】
態様の一例では、入力された音声を受付ける入力部と、音声を、複数のフレームごとに解析する解析部と、複数のフレームごとの解析結果に基づいて解析結果の平均値を算出すると共に、予め記憶された複数話者ごとの解析結果の平均値および解析結果の累積頻度分布に関する統計データと、算出した平均値とに基づいて閾値を決定し、複数の解析結果のうち閾値よりも大きな値を有する解析結果の出現頻度を演算する演算部と、出現頻度に基づいて、音声を発する声帯の緊張状態を判定する判定部と、判定の結果を出力する出力部とを有する。
【発明の効果】
【0007】
音声認識を利用せずに、個人差を減らした閾値を用いた判定ができるので、発話者個人の特性を考慮した発話者の抑圧状態すなわち声帯の緊張状態の時の発話を検出することが可能となり、また、小規模のシステムでも動作させることが可能となる。
【図面の簡単な説明】
【0008】
【図1】実施形態の抑圧状態検出装置の機能ブロック図である。
【図2】本実施形態の抑圧状態検出方式の原理を説明するための図である。
【図3】解析部の機能ブロック図である。
【図4】演算部の機能ブロック図である。
【図5】判定部の機能ブロック図である。
【図6】比較例と本実施形態の方式の処理の違いを示す説明図である。
【図7】実施形態の制御処理を示すフローチャートである。
【図8】ピッチ周波数の累積頻度分布の例を示す図(その1)である。
【図9】ピッチ周波数の累積頻度分布の例を示す図(その2)である。
【図10】対数パワーの累積頻度分布の例を示す図(その1)である。
【図11】対数パワーの累積頻度分布の例を示す図(その2)である。
【図12】平均ピッチとαとの関係を示す図である。
【図13】平均ピッチとβとの関係を示す図である。
【図14】スコア統合部の制御処理を示すフローチャートである。
【図15】閾値検出のための一次の近似直線データを算出する処理を実行するブロック図である。
【図16】本実施形態のシステムを実現可能なハードウェアシステムの構成図である。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。
図1は、実施形態のブロック図である。
入力部101は、入力音声を受付ける。
【0010】
解析部102は、入力部101がフレームごとに、入力音声を解析する。例えば、解析部102は、母音区間を抽出してピッチ周波数やパワーを抽出する。なお、フレームとは、入力音声を所定の単位で区切った際の、領域ごとの情報である。解析部102は、音声データをアナログ信号からデジタル信号に変換した後、周波数的にほぼ安定とみなすことができる時間を単位として、入力音声からフレームを切り出す。例えば、フレームは、32ミリ秒程度を単位として、入力音声から切り出された情報を言う。
【0011】
演算部103は、解析部102が解析した結果を用いて、ピッチ周波数の度数分布(フレーム数の分布)やパワーの度数分布を求め、それらの平均値や累積頻度分布を算出する。ここで、平均値とは例えば、ピッチ周波数の平均値や音声のパワーの平均値をいう。続いて、演算部103は、予め記憶された統計データと算出した平均値とに基づいて閾値を決定する。ここで、統計データは例えば、ピッチ周波数の度数分布を与えるデータやパワーの度数分布を与えるデータである。あるいは、ピッチ周波数の平均値やパワーの平均値に基づいて閾値を適応的に決定するための後述する係数パラメータα、β等を与える一次の近似直線を決定するために使われるデータである。もちろん、閾値を決定するために使われる係数パラメータを与えるためには一次の近似直線に限定されるものではなく、様々な関数データ等を採用することができる。演算部103は、この一次の近似直線等のデータを用いて、算出した平均値に対応する閾値を適応的に決定する。この閾値は例えば、ピッチ周波数が平均値から外れている境界のピッチ周波数のフレーム数を全体のフレーム数で割った頻度の閾値、或いは、パワーが平均値から外れている境界のパワーのフレーム数を全体のフレーム数で割った頻度の閾値に対応する。これを以下では、ピッチ周波数の閾値あるいはパワーの閾値とも呼ぶこととする。。そして、演算部103は、解析部102が音声を解析した結果において、閾値との比較に基づいて特徴値を抽出する。例えば、解析されたピッチ周波数の平均値に対して、境界である閾値が示す値以上離れているピッチ周波数をピッチ周波数の外れ値といい、これを特徴値として抽出する。また、解析されたパワーの平均値に対して、境界である閾値が示す値以上離れているパワーをパワーの外れ値といい、これも特徴値として抽出する。
【0012】
図2は、特徴値であるピッチ周波数の外れ値やパワーの対数値の外れ値に基づく、本実施形態の抑圧状態検出方式の原理を説明するための図である。図2(a)に示されるように、抑圧時と非抑圧時(通常時)とのデータを区別した状態で、平均ピッチ周波数に対する倍率ごとのピッチ周波数の累積頻度分布をプロットする。すると、図2(a)の破線丸で囲まれた部分において、抑圧時は、ピッチ周波数の外れ値が少ないため、非抑圧時より累積頻度分布の値が大きくなる傾向がある。従って、ピッチ周波数の外れ値を決定する閾値によって累積頻度分布が飽和する付近に着目すれば、抑圧状態と非抑圧状態とを識別できることを見出した。また、図2(b)に示されるように、抑圧時と非抑圧時(通常時)とのデータを区別した状態で、平均パワーに対する倍率の対数値ごとのパワーの対数値の累積頻度分布をプロットする。すると、図2(b)の破線丸で囲まれた部分において、抑圧時は非抑圧時より累積頻度分布の値が小さくなる傾向がある。従って、この場合も、パワーの外れ値を決定する閾値によって累積頻度分布が飽和する付近に着目すれば、抑圧状態と非抑圧状態とを識別できることを見出した。 以上のことに基づいて、演算部103では、外れ値に当たるピッチ周波数を持つフレームの頻度または外れ値に当たるパワーを持つフレームの頻度を求める。
【0013】
そして、判定部104は、演算部103が抽出した特徴値に基づいて、話者の抑圧状態すなわち音声を発する声帯の緊張状態を判定する。例えば、判定部104は、ピッチ周波数に関しては特徴値としてのピッチ周波数の外れ値の出現頻度が低いほど低くなり、またパワーに関しては特徴としての対数パワーの外れ値の出現頻度が高いほど低くなるようなスコアを計算する。そして、そのスコア値が予め決められた閾値以下であれば、声帯の緊張状態が高いと判定する。
出力部105は、判定部104の判定の結果を出力する。
【0014】
図3は、図1の解析部102のブロック図である。解析部102は、音声分析を実行してピッチ周波数とパワーを抽出する音声分析部301を含む。また、母音区間を判定してその区間のピッチ周波数とパワーを出力する母音区間判定部302を含む。
【0015】
図4は、図1の演算部103のブロック図である。演算部103は、ピッチ周波数やパワーの平均値を算出する平均値算出部401を含む。
(1)、(2)式に示されるように、ピッチ周波数とパワーのそれぞれについて、現在のフレームまでの外れ値の数Npitch 、Npower がそれぞれ、現在のフレームまでの全母音フレーム数Nで除算されることにより得られ、これらをそれぞれの出現頻度Ppitch 、Ppower と呼ぶ。
pitch =Npitch /N ・・・(1)
power =Npower /N ・・・(2)
【0016】
また、母音区間判定部302が出力したピッチ周波数とパワーの値を平均値算出部401が計算するのに必要な予め決まった数の最新の母音フレーム分だけ格納する、例えばリングバッファによって構成される格納部402を含む。さらに、平均値算出部401が算出したピッチ周波数およびパワーの平均値と統計データ記憶部404に記憶されている統計データとに基づいて閾値を決定する閾値決定部403を含む。そして、この閾値に基づいてピッチ周波数やパワーの外れ値を抽出し、それらの外れ値の出現頻度、すなわち閾値以上のピッチ周波数やパワーを有するフレームの出現頻度を算出する外れ値出現頻度算出部405を含む。
【0017】
図5は、図1の判定部104のブロック図である。判定部104は、ピッチ周波数に関しては外れ値の出現頻度が低いほど低くなり、またパワーに関しては外れ値の出現頻度が高いほど低くなるような値(修正累積分布)を計算し、それらを統合してスコア化するスコア統合部501を含む。また、スコア統合部501にて得られるスコアに基づいて、「発話者が抑圧を受けている状態」であるか否かを判定し、その判定結果を出力する総合判定部502を含む。
【0018】
以上の図1から図5のまでの構成を有する実施形態の基本動作について、比較例と比較しながら、以下に詳細に説明する。
図6は、比較例(図6(a))と本実施形態方式(図6(b))の処理の違いを示す説明図である。
【0019】
比較例も本実施形態方式も、音声から、ピッチ周波数やパワーといった特徴パラメータを算出し(ステップS601a、S601b)、それらの平均値(μ)を算出し(ステップS602a、S602b)、処理を実行するという点では同じである。
【0020】
しかし、従来の感情等のユーザの状態を音声から推定する方法としては、図6(a)のグラフに示されるように、統計量として、ピッチ周波数やパワーの平均値(μ)を基準とした分散(偏差)(σ)が用いられることが多い(ステップ503a)。しかし、このように、統計量の利用方式で用いているピッチ周波数やパワーは、声の高さ・大きさによる個人差の影響が出やすい。特許文献2には、対象となる入力音声のパワーを用いて、音声を発声したユーザの感情判定を行なうことが記載されているが、ユーザにとって「抑圧状態に左右されて声が大きくなっているのか」「声が大きいのか」が区別することができない。特許文献2ではパワーを用いた感情判定が記載されているが、図6(a)に示すように、ピッチ周波数で感情判定を行ったとしても同様である。
【0021】
一方、上述したように、閾値以上の値を有する外れ値に着目することで抑圧状態を検出する場合に、一律の閾値を用いたとしても、ユーザの抑圧状態を検出することはできない。なぜなら、声の大きさ(パワー)や音高(ピッチ周波数)は、ユーザごとに異なるためである。
【0022】
そこで、ユーザの個人差に対応するためには、例えば、ユーザ毎に音声を登録し発声内容を固定しなければならない。このように、比較例として示した抑圧状態検出や、一律に設定された閾値を用いた抑圧状態検出では、個人差を加味してユーザの抑圧状態を検出することは困難であった。
【0023】
これに対して、本実施形態方式では、音声の抑圧状態検出に使う統計値は、図6(b)に示されるように、或る閾値以上となる外れ値(特徴値)の累積頻度(出現頻度)Pとする(ステップS603b)。そして、その統計値を算出する区間を、適応的に決定される閾値によって可変にする。閾値を決定するのが、図4の閾値決定部403であり、決定された閾値に基づいて外れ値の出現頻度を算出するのが図4の外れ値出現頻度算出部405である。このときの閾値は、例えば、ピッチ周波数について、係数パラメータαと平均値(μ)に関する関数F(μ)として求める。閾値F(μ)=μ×α、すなわち平均値(μ)のα倍として、αを平均ピッチ周波数に応じて適応的に変更する。このαとしては例えば、累積頻度が例えば1%となるαの値を、平均ピッチ周波数とともに多数の話者について求め、αと平均ピッチの関係を表す一次関数を近似的に求め、これを用いてαを入力信号の平均ピッチ周波数に応じて適応的に決定する。より具体的に言えば直線近似式から、人によって異なる平均ピッチ周波数に対応してα値が適応的に変化し、このαが変わることによって閾値であるF(μ)のピッチ周波数が適応的に変化する。
【0024】
以上のようにして平均ピッチ周波数によって適応的に決定される係数パラメータαに対応する閾値F(μ)を用いることで、前述した図2(a)の破線丸で囲まれた部分において、通常時と抑圧を受けている時とを判別することが可能となる。また、平均対数パワーによって適応的に決定される係数パラメータβに対応する閾値F(μ)を用いることで、前述した図2(b)の破線丸で囲まれた部分において、通常時と抑圧を受けている時とを判別することが可能となる。このような適応的に決定される閾値に基づいて通常時と抑圧を受けている時とを判別するのが、図5のスコア統合部501および総合判定部502である。
【0025】
このような本実施形態方式により、外れ値の出現頻度を用いることにより、ユーザが抑圧を受けている時の発話を精度良く検出できる。また、ピッチ周波数およびパワーそれぞれの入力ごとの平均値を用いた閾値設定により、声が高い人・低い人や声の大きい人・小さい人といった個人差を加味することができる。さらに、パワーの外れ値は大きなパワーを持つことからSNR(信号対雑音比)が高いので、雑音環境下であっても安定に抑圧状態の発話を検出することができるという効果も得られる。
【0026】
続いて、以上の図1から図5のまでの構成を有する実施形態の動作について、以下に詳細に説明する。図7は、上述の構成を有する実施形態の制御処理を示すコンピュータが実行するためのフローチャートである。以下、このフローチャートに沿って説明する。
【0027】
本実施形態は、例えば携帯電話上での動作を想定している。そこで、携帯電話に装備されている通話用マイク等を介してユーザの音声信号が入力すると、まず音声受付部である図1の入力部101において、図7のステップS701に示される処理が実行される。ここではまず、アナログの音声信号に対してローパスフィルタリング処理が実行される。続いて、アナログ信号をデジタル信号に変換するAD変換(アナログ/デジタル変換)処理が実行される。ローパスフィルタリングおよびAD変換の処理は、専用のハードウェアによる処理であってよく、あるいはDSP(デジタルシグナルプロセッサ)などによるソフトウェア処理であってよい。次に、音声分析を実行するために、フレーム処理が実行される。このフレーム化処理では、デジタル化された入力音声サンプル値から、周波数的に安定と見なせる程度の一定時間(例えば32ミリ秒)分の音声サンプル値が切り出され、各サンプル値に分析窓と呼ばれる窓データが乗算される。分析窓の種類としては、例えばハミング窓やハニング窓と呼ばれる、最大値が1でフレームの両端で値が0に近づくような窓データが使用される。この窓データは、分析フレームの両端の振幅変化の大きな音声サンプル値が音声分析処理に悪影響を与えてしまうことを回避するために乗算される。
【0028】
次に、図3の音声分析部301において、図7のステップS702に示される処理が実行される。ここでは、抑圧を受けていることを検出するための特徴パラメータとして、パワーとピッチ周波数が抽出される。ピッチ周波数を抽出するために、自己相関法やケプストラム法、変形自己相関法といった公知の音声分析処理が、入力部101にてフレーム処理された音声データに対して実行される。パワーは、入力部101にてフレーム処理された音声データの各サンプル値の2乗和、またはそれを対数化した値として抽出される。
【0029】
次に、図3の母音区間判定部302において、図7のステップS703に示される処理が実行される。ここでは、現在処理中のフレームが母音フレームであるか否かが判定される。これは母音フレームと判定されたフレームのピッチ周波数とパワーの分布を算出する必要があるからである。より具体的には、ステップS702にて抽出されている、入力部101にてフレーム処理された音声データに対するパワーや自己相関関数のピーク値が、所定の閾値よりも大きいか否かが判定され、閾値よりも大きい場合に母音フレームであると判定される。
【0030】
現在処理中のフレームが母音フレームではないと判定されステップS703の判定がNOの場合には、ステップS701の処理に戻って、次の分析フレームが処理される。
現在処理中のフレームが母音フレームであると判定されステップS703の判定がYESの場合には、図4の平均値算出部401において、図7のステップS704の処理が実行される。ここでは、ステップS702にて算出されたピッチ周波数とパワーのそれぞれについて、平均値が計算される。各平均値としては、現時点までに分析された母音フレーム全体にわたるピッチ周波数およびパワーの各平均値が算出される。平均値の求め方は、全母音フレームを用いて求めて良いが、リングバッファにより構成される図4の格納部402に格納されている現フレームから例えば過去100秒分の母音フレームというように、平均する時間長を固定して平均値を求めても良い。
【0031】
次に、図7のステップS705において、予め決められた数以上の母音フレームが集まったか否かが判定される。この分析フレームの数は、例えば100秒分のフレーム数である。
【0032】
予め決められた数以上の母音フレームが集まっておらずステップS705の判定がNOならば、図7のステップS706で、リングバッファにより構成される図4の格納部402に、現在の分析フレームで算出したピッチ周波数とパワーの各値が格納される。その後、ステップS701の処理に戻って、次の分析フレームが処理される。 予め決められた数以上の母音フレームが集まりステップS705の判定がYESならば、図7のステップS707で、格納部402において、現在の分析フレームで算出したピッチ周波数とパワーの値で、リングバッファの一番古いデータが上書きされる。このようにしてリングバッファに記憶された現在のフレームから過去100秒分の母音フレームのピッチ周波数とパワーの各値に基づいて、前述したように、ステップS704にて、ピッチ周波数とパワーの平均値が算出される。
【0033】
次に、図4の閾値決定部403において、図7のステップS708の処理が実行される。ここでは、ピッチ周波数とパワーのそれぞれについて、外れ値か否かを決める閾値が、ステップS704にて算出された平均値と、図4の統計データ記憶部404に記憶されている統計データとに基づいて決定される。
【0034】
今、ピッチ周波数に関する閾値に対応する係数パラメータαとし、ステップS704にて算出された平均ピッチ周波数をpitch_meanとし、現在のフレームのピッチ周波数をpitchとすれば、次式(3)が成立するときに、pitchは外れ値であると判定する。すなわち、ピッチ周波数の外れ値とは、平均ピッチに対してα倍高くなったピッチ周波数をいう。言い換えれば、ピッチ周波数の外れ値を決める閾値は係数パラメータαと平均ピッチ周波数との積である。
α・pitch_mean<pitch ・・・(3)
【0035】
また、パワーに関する閾値をβとし、ステップS704にて算出された平均パワーをpower_meanとし、現在のフレームのパワーをpowerとすれば、次式(4)が成立するときに、powerは外れ値であると判定する。すなわち、パワーの外れ値とは、正規化された平均パワー(対数パワー)に対してβ以上大きなパワーをいう。言い換えればパワー(対数)の外れ値を決める閾値は、係数パラメータβに平均パワーの対数を加えたものである。
β+log10(power_mean)<log10(power) ・・・(4)
【0036】
ここで、ピッチ周波数の累積頻度分布の例を、図8(男性話者1,2)及び図9(女性話者1,2)に示す。この場合、横軸は、(3)式のαに相当する、各母音フレームのピッチ周波数を平均ピッチで割った値(=pitch/pitch_mean)を示している。すなわち、横軸の値は、平均ピッチに対する倍率を表しており、1.0は平均値を表し、1.5は平均ピッチの1.5倍のピッチ周波数を表している。男性2名、女性2名の結果を示す。男女間でピッチ周波数は大きく異なるが、横軸が平均ピッチ周波数で正規化されることにより、1.4から1.5の付近で、どの話者も、抑圧を受けている状態の累積頻度分布の値が通常時の累積頻度分布の値を上回っている。これは、通常時において閾値以上となる外れ値が多く発生していることを示している。言い換えれば、図8及び図9の例は、ピッチ周波数に関して、外れ値の出現頻度が小さいほど、発話者が抑圧を受けている状態であると判定することができることを示している。よって、閾値F(μ)に基づいて、フレームごとのピッチ周波数が外れ値であるか否かを判定して、そのように判定された外れ値の出現頻度を算出することにより、発話者が抑圧を受けている状態であるか否かを判定できることになる。
【0037】
次に、パワーの累積頻度分布の例を、図10(男性話者1,2)及び図11(女性話者1,2)に示す。この場合、横軸は、(4)式のβに相当する、各母音フレームのパワーの平均パワーに対する対数比(=log10(power/power_mean)を示している。すなわち、横軸の値は、平均パワーに対する倍率を表している。このように横軸が平均パワーで正規化されることにより、0.6付近で、どの話者も、抑圧を受けている状態の累積頻度分布の値が通常時を下回っている。これは、抑圧を受けている状態において外れ値が多く発生していることを示している。言い換えれば、図10及び図11の例は、パワーに関して、外れ値の出現頻度が大きいほど、発話者が抑圧を受けている状態であると判定することができることを示している。よって、閾値に基づいて、各フレームごとのパワーが外れ値であるか否かを判定して、そのように判定された外れ値の出現頻度を算出することにより、発話者が抑圧を受けている状態であるか否かを判定できることになる。
【0038】
さらに、ピッチ周波数の閾値とパワーの閾値のそれぞれについて話者依存性をなくすため、ステップS708において、閾値は次のようにして決定される。まず、累積頻度分布が例えば99%となるα、βの値が、事前に複数の話者について算出される。その結果、図12および図13に例示されるように、平均ピッチとα、βの関係がプロットされ、一次の近似直線が算出される。なお、複数の話者各々が非抑圧状態にある場合に、音声データを取得することが望ましい。非抑圧状態の複数の話者の音声データから統計データを作成することで、非抑圧状態で累積頻度分布が99%となる値を閾値として用いることができる。そして、この事前に算出された一次の近似直線のデータが、図4の統計データ記憶部404に記憶される。ステップS708では、ステップS704にて算出されたピッチ周波数の平均値を入力として、図4の統計データ記憶部404に記憶されている一次の近似直線データが参照され、その平均値に対応する閾値が決定される。このようにして、話者に依存しない閾値を決定することが可能となる。なお、上述の累積頻度分布の99%という値はそれに限定されるものではなく、外れ値の累積頻度の差が最も表れる累積頻度分布の値を網羅的に調べ、その累積頻度分布の値となるα、βの値を用いるようにしてもよい。
【0039】
続いて、図4の外れ値出現頻度算出部405において、図7のステップS709の処理が実行される。
ここではまず、ピッチ周波数とパワーのそれぞれについて、現在処理中のフレームについてステップS702にて抽出された分析値が、ステップS708にて算出されているそれぞれの閾値と比較される。具体的には、ステップ702にて抽出された現在処理中のフレームのピッチ周波数pitchが、前述の(3)式を満たす場合に、現在処理中のフレームのピッチ周波数は外れ値であると判定される。すなわち図6(a)において、αのところで累積頻度分布が抑圧を受けているときに通常時より高くなっているので外れ値を越えたフレーム数は少なくなる。同様に、ステップS702にて抽出された現在処理中のフレームのパワーpowerが、前述の(4)式を満たす場合に、現在処理中のフレームのパワーは外れ値であると判定される。すなわち図6(b)において、βのところで累積頻度分布が抑圧を受けているときの方が通常時より低いので外れ値を越えたフレーム数は多くなる。
【0040】
次に、ピッチ周波数とパワーのそれぞれについて、現在のフレームの直前までの外れ値のカウント数と現在のフレームが外れ値であるか否かの判定結果とが加算されることにより、現在のフレームまでの外れ値の数が算出される。ピッチ周波数に関する現在のフレームまでの外れ値の数をNpitch 、パワーに関する現在のフレームまでの外れ値の数をNpower とする。そして、(1)式、(2)式に示されるようにピッチ周波数をパワーの出現頻度Ppitch Ppowerが得られる。
【0041】
そして、次に、図5のスコア統合部501において、図7のステップS710の処理が実行される。ここでは、ピッチ周波数とパワーのそれぞれの出現頻度Ppitch 、Ppower が統合されてスコア化される。
【0042】
図14は、ステップS710のさらに詳細な制御処理を示すフローチャートである。
まず、ステップS1401において、パワーの修正累積分布が算出される。図10および図11の説明において前述したように、図7のステップS709にて算出されたパワーの外れ値の出現頻度Ppower は、その値が大きいほど、発話者が抑圧を受けている状態であると判定することができる。そこで、これを次式によってスコア化する。すなわち、ある定数(SCORE_NORM)からパワーの外れ値の出現頻度Ppower を減算した結果を、パワーの修正累積分布Pdfpower とする。
Pdfpower =SCORE_NORM−Ppower ・・・(5)
このパワーの修正累積分布Pdfpower は、抑圧を受けている状態ほどパワーの外れ値の出現頻度Ppower が大きくなって、値が小さくなる。SCORE_NORMとしては、例えば0.03を用いる。ただし、Pdfpower の値は0以下にはならないようにする。
【0043】
次に、図14のステップS1402において、ピッチ周波数の修正累積分布が算出される。図8および図9の説明において前述したように、図7のステップS709にて算出されたピッチ周波数の外れ値の出現頻度Ppitch は、その値が小さいほど、発話者が抑圧を受けている状態であると判定することができる。そこで、これを次式によってスコア化する。すなわち、ピッチ周波数の外れ値の出現頻度Ppitch に、(5)式のパワーの修正累積分布Pdfpower にオーダーが整合するように調整するための定数(PITCH_NORM)を乗算した結果を、ピッチ周波数の修正累積分布Pdfpitch とする。
Pdfpitch =PITCH_NORM・Ppitch ・・・(6)
このピッチ周波数の修正累積分布Pdfpitch は、抑圧を受けている状態ほどピッチ周波数の外れ値の出現頻度Ppitch が小さくなって、値が小さくなる。PITCH_NORMとしては、ピッチ周波数とパワーの外れ値の出現頻度のオーダーが同じくらいであれば1.0を用いる。
【0044】
そして、図14のステップS1403において、(5)(6)式で算出されたピッチ周波数とパワーの修正累積分布Pdfpower とPdfpitch について、次式のように2乗和の平方根が計算され、スコア化された結果SCOREを得る。
SCORE=(Pdfpitch 2 +Pdfpower 2 1/2 ・・・(7)
【0045】
以上のようにしてスコアが求まったら、最後に、図5の総合判定部502において、図7のステップS711の処理が実行される。ここでは、ステップS710で算出されたスコアSCOREが、予め決められた閾値以下であるか否かが判定される。なお、ステップS711で用いる閾値は、実験的に設定された値を用いる。
【0046】
スコアSCOREが予め決められた閾値以下でステップS711の判定がYESなら、図7のステップS712で、抑圧を受けている状態であると判定される。
スコアSCOREが予め決められた閾値以下ではなくステップS711の判定がNOなら、図7のステップS713で、抑圧を受けておらず通常時であると判定される。
【0047】
次に、図7のステップS708でピッチ周波数とパワーの平均値からそれぞれの外れ値判定の閾値を決定するための一次の近似直線データの算出方法について説明する。前述したように、この一次の近似直線データは、統計処理によって事前に算出され、図1の演算部103内の図4に示される統計データ記憶部404に記憶される。
【0048】
図15は、この一次の近似直線データの算出処理を実行するシステムのブロック図である。
まず、音声データベース1501に蓄積された複数の話者の各音声データに対して、図3の301,302と同様の音声分析部1502および母音区間判定部1503の処理が実行されることにより、各フレームごとにピッチ周波数が算出される。さらに、平均値算出部1504によって、話者ごとにピッチ周波数の平均値とパワーの平均値がそれぞれ算出される。
【0049】
次に、累積頻度が99%となるα決定部1505によって、図8、図9として示したようなピッチ周波数に関する累積頻度分布が99%となるαの値が、各話者ごとに算出される。
【0050】
近似式算出部1506は、各話者ごとに、平均値算出部1504で算出された平均ピッチ周波数と、累積頻度が99%となるα決定部1505で算出されたαの値の組を複数組入力し、それらに対して最小二乗法による直線回帰分析処理を実行する。この結果、例えば図12のグラフのようにプロットされた平均ピッチ周波数とαの組から、それらを近似する一次の近似直線データが算出される。この一次の近似直線は、
α=Spitch ・pitch_mean+Ipitch ・・・(8)
として表される。図4の統計データ記憶部404には、(8)式のように近似された直線に対応する傾きSpitch と切片Ipitch の各データが記憶される。そして、図4の閾値決定部403(図7のステップS708)は、平均値算出部401(図7のステップS704)にて算出されたピッチ周波数の平均値をpitch_meanとして、統計データ記憶部404から読み出した傾きSpitch と切片Ipitch の各データを用いて(8)式を計算し、αを決定する。
【0051】
一方、累積頻度が99%となるβ決定部1507によって、図10、図11として示したようなパワーに関する累積頻度分布が99%となるβの値が、各話者ごとに算出される。
【0052】
近似式算出部1508は、各話者ごとに、平均値算出部1504で算出された平均ピッチ周波数と、累積頻度が99%となるβ決定部1507で算出されたβの値の組を複数組入力し、それらに対して最小二乗法による直線回帰分析処理を実行する。この結果、例えば図13のグラフのようにプロットされた平均ピッチ周波数とβの組から、それらを近似する一次の近似直線データが算出される。この一次の近似直線は、
β=Spower ・pitch_mean+Ipower ・・・(9)
として表される。図4の統計データ記憶部404には、(9)式のように近似された直線に対応する傾きSpower と切片Ipower の各データが記憶される。そして、図4の閾値決定部403(図7のステップS708)は、平均値算出部401(図7のステップS704)にて算出されたピッチ周波数の平均値をpitch_meanとして、統計データ記憶部404から読み出した傾きSpower と切片Ipower の各データを用いて記(9)式を計算し、βを決定する。
【0053】
以上説明した実施形態では、(3)(4)式として示したように、平均ピッチに対する倍率に相対する係数パラメータを使用したが、統計量として標準偏差も使用してもよい。
例えば、ピッチ周波数の標準偏差をpitch_stdとして(3)式を修正すると、次式のようになる。
α・(pitch_mean+γ・pitch_std)<pitch・・・(10)
γは平均値から何σ離れた場所を基準とするかを決めるパラメータである。
【0054】
同様に、パワーの標準偏差をpower_stdとして(4)式を修正すると、次式のようになる。
β+log10(power_mean+λ・power_std)
<log10(power) ・・・(11)
α、β、γおよびλは多数データで調整して決める。
【0055】
ピッチ周波数の場合、γ=0.0(平均値ピッチのみ)の場合、α=1.0となる値がが平均ピッチのときになる。これに対して、標準偏差を用いることにより、α=1.0となるピッチ周波数の値が、平均値からγ・pitch_std離れた値にすることができ、より自由度の高い外れ値の閾値を設定することが可能となる。
【0056】
パワーの場合も、λ=0.0(平均パワーのみ)の場合、β=0.0となるパワーの値が平均パワーのときになる。これに対して、標準偏差を用いることにより、β=0.0となるパワーの値が、平均値からλ・power_std離れた値にすることができ、より自由度の高い外れ値の閾値を設定することが可能となる。
【0057】
上述した本実施形態によれば、音声のピッチ周波数やパワーの平均値の係数倍に相当する閾値以上の外れ値に基づいて、話者の抑圧状態を検出する。閾値はそれらの各平均値に依存した直線回帰で制御し、適応的に話者の依存性をなくす。
【0058】
図16は、図7、図14のフローチャートの制御処理をソフトウェア処理として実現できるコンピュータのハードウェア構成の一例を示す図である。
図16に示されるコンピュータは、CPU1601、メモリ1602、入力装置1603、出力装置1604、外部記憶装置1605、可搬記録媒体1609が挿入される可搬記録媒体駆動装置1606、及び通信インターフェース1607を有し、これらがバス1608によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
【0059】
CPU1601は、当該コンピュータ全体の制御を行う。メモリ1602は、プログラムの実行、データ更新等の際に、外部記憶装置1605(或いは可搬記録媒体1609)に記憶されているプログラム又はデータを一時的に格納するRAM等のメモリである。CUP1601は、プログラムをメモリ1602に読み出して実行することにより、全体の制御を行う。
【0060】
入力装置1603は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をCPU1601に通知する。出力装置1604は、CPU1601の制御によって送られてくるデータを表示装置や印刷装置に出力する。
【0061】
外部記憶装置1605は、例えばハードディスク記憶装置である。図7、図14のフローチャートの処理を実行するための各種データやプログラムの保存に用いられる。
可搬記録媒体駆動装置1606は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体1609を収容するもので、外部記憶装置1605の補助の役割を有する。
【0062】
通信インターフェース1607は、例えばLAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)または公衆無線通信網の通信回線を接続するための装置である。
【0063】
本実施形態によるシステムは、図7、図14のフローチャートで実現される機能を搭載したプログラムをCPU1601が実行することで実現される。そのプログラムは、例えば外部記憶装置1605や可搬記録媒体1609に記録して配布してもよく、或いはネットワーク接続装置1607によりネットワークから取得できるようにしてもよい。
【0064】
以上説明した実施形態によれば、従来技術のように音声認識を利用する必要がないので、高騒音下においても発話者の抑圧された状態を検出可能である。また音声認識を使わないので、少ないリソースで動作可能であるという点と、音声認識誤りの影響を受けずどのような発声内容の音声でも検出可能という効果がある。
【0065】
また、入力ごとのピッチ周波数やパワーの平均値を用いた閾値設定により、声が高い人・低い人や声の大きい人・小さい人といった個人差を減らし、固定の閾値で判定できるため、ユーザの声や性別等の登録が不要にできる効果がある。また、さらに、パワーの外れ値は大きなパワーを持つことから、SNRが高いので、雑音環境下であっても発話者の抑圧を受けている状態を検出できるという効果がある。
【0066】
また、実施形態では、音声の解析結果としてピッチ周波数とパワーを用いる。発話者が外部から抑圧を受けた場合、その生理的反応として筋肉の緊張や弛緩が起こることが知られている。ピッチ周波数とパワーは筋肉で形成されている声帯や横隔膜における生理的反応の影響が出やすい。図8〜図11で説明したように、抑圧を受けていると声の高さの抑揚がなくなるため、高いピッチ周波数の値が出にくくなり、外れ値の出現頻度が通常時よりも低下する。すなわち、平均値から離れると通常時よりも早く100%に近づく。また、発話者が抑圧を受けていると、安定したパワーの音声を発声することが難しくなり、パワーが揺らぎ、その結果、パワー値の外れ値の出現頻度が増加する。すなわち、平均値から離れると通常時の方が早く100%に近づく。この2つの変化を検出することで、発話者が抑圧を受けている状態を検出することが可能となる。
【0067】
また、多数の学習用発話者の通常時と抑圧を受けている時のピッチ周波数やパワーの分布の情報を用いて、外れ値の累積頻度がある決まったパーセンテージとなるときの値と平均ピッチ周波数との関係を一次の近似直線で近似する。そして、この一次の近似直線のデータと分析時のピッチ周波数の平均値とでピッチ周波数やパワーの外れ値の閾値を決定することにより、さらに個人差による係数パラメータのばらつきをなくし、個人差を減らした閾値を用いた判定が可能となる。
【0068】
本実施形態のシステムは、発声内容にほとんど関係しないピッチ周波数とパワーを分析しているので、音声認識が不要であり、携帯電話に搭載することが容易に可能となる。また、携帯電話の通話用マイクを用いて音声を取得することが可能となる。これにより、例えば携帯電話での通話内容を自動録音し、通話終了後に録音音声から通話者の緊張状態を自動検出して親族にメール通知等することが可能になる。このような機能は、振り込め詐欺などの犯罪の未然防止などに役立つ。
【0069】
或いは、例えば自動車内におけるカーナビゲーションの操作において、音声を通じて運転者のいらいら状態を検出することができれば、状況に応じたカーナビゲーション等が可能になる。さらには、本実施形態のシステムは、対話型ロボットやコールセンタで使用されるコンピュータに搭載される。対話型ロボットは、ユーザの抑圧状態を検出して、状態に応じた対話を行う。また、コールセンタで使用されるコンピュータは、オペレータの抑圧状態を検出した場合に、顧客との会話の録音を開始したり、状況に応じたマニュアルの出力を行う。
【0070】
以上説明した実施形態においては、音声の解析結果として、ピッチ周波数とパワーの両方を用いたが、高騒音下の環境などにおいてピッチ周波数の抽出精度が悪いような場合には、パワーのみを使って抑圧された状態を検出するようにすることも可能である。
【0071】
或いは、例えば(6)式の定数(PITCH_NORM)を調整することにより、パワーとピッチ周波数の状態検出への寄与割合を変更するようにしてもよい。
【符号の説明】
【0072】
101 入力部
102 解析部
103 演算部
104 判定部
105 出力部
301、1502 音声分析部
302、1503 母音区間判定部
401 平均値算出部
402 格納部
403 閾値決定部
404 統計データ記憶部
405 外れ値出現頻度算出部
501 スコア統合部
502 総合判定部
1501 音声データベース
1504 平均値算出部
1505 累積頻度が99%となるα決定部
1506、1508 近似式算出部
1507 累積頻度が99%となるβ決定部

【特許請求の範囲】
【請求項1】
入力された音声を受付ける入力部と、
前記音声を、複数のフレームごとに解析する解析部と、
前記複数のフレームごとの解析結果に基づいて解析結果の平均値を算出すると共に、予め記憶された複数話者ごとの解析結果の平均値および解析結果の累積頻度分布に関する統計データと、算出した前記平均値とに基づいて閾値を決定し、複数の解析結果のうち前記閾値よりも大きな値を有する解析結果の出現頻度を演算する演算部と、
前記出現頻度に基づいて、前記音声を発する声帯の緊張状態を判定する判定部と、
前記判定の結果を出力する出力部と
を有することを特徴とする音声による抑圧状態検出装置。
【請求項2】
前記統計データは、前記複数の話者の各々についての解析結果の平均値と、該解析結果の累積頻度分布が所定のパーセンテージとなる時の前記平均値に対する倍率とを対応付けた情報であって、
前記演算部は、前記統計データおよび算出した平均値に基づいて、算出した平均値に対応する倍率を取得し、取得した倍率に基づいて前記閾値を決定することを特徴とする請求項1に記載の抑圧状態検出装置。
【請求項3】
前記解析部は、前記複数のフレームごとに、ピッチ周波数またはパワーの少なくとも一方を、解析結果として算出し、
前記判定部は、前記ピッチ周波数については、前記出現頻度が少ないほど緊張状態と判定するとともに、前記パワーについては、前記出現頻度が多いほど緊張状態と判定する、
ことを特徴とする請求項1または2に記載の音声による抑圧状態検出装置。
【請求項4】
前記解析部は、前記複数のフレームのおのおのについて、母音フレームであるかを判定すると共に、母音フレームである場合に、解析を行うことを特徴とする請求項1または請求項3に記載の抑圧状態検出装置。
【請求項5】
前記出現頻度が所定のパーセンテージとなる時の前記ピッチ周波数と前記ピッチ周波数の平均値との比に対応する値に関係する前記閾値とピッチ周波数との対応関係を複数の話者について事前に取得し、前記複数の話者についての対応関係に対する直線回帰分析により、前記ピッチ周波数に対応する前記一次近似直線のデータを算出して前記統計データとして事前に記憶し、前記ピッチ周波数の平均値と前記一次の近似直線のデータとから前記閾値を決定することを特徴とする請求項3に記載の音声による抑圧状態検出装置。
【請求項6】
前記ピッチ周波数または前記パワーの平均値に加えさらに標準偏差を入力とする、前記ピッチ周波数または前記パワーの分布における外れ値を決める閾値を決定する、
ことを特徴とする請求項3乃至5のいずれか一項に記載の音声による抑圧状態検出装置。
【請求項7】
前記入力部は携帯電話の通話音声を入力し、
前記出力部が前記緊張状態を出力したときに、前記緊張状態の発生を、前記携帯電話から所定の宛先に通知する、
ことを特徴とする請求項1に記載の音声による抑圧状態検出装置。
【請求項8】
コンピュータに、
入力された音声を受付ける機能と、
前記音声を、複数のフレームごとに解析する機能と、
前記複数のフレームごとの解析結果に基づいて解析結果の平均値を算出すると共に、予め記憶された複数話者ごとの解析結果の平均値および解析結果の累積頻度分布に関する統計データと、算出した前記平均値とに基づいて閾値を決定し、複数の解析結果のうち前記閾値よりも大きな値を有する解析結果の出現頻度を演算する機能と、
前記出現頻度に基づいて、前記音声を発する声帯の緊張状態を判定する機能と、
前記判定の結果を出力する機能と、
を実行させるためのプログラム。
【請求項9】
前記統計データは、前記複数の話者の各々についての解析結果の平均値と、該解析結果の累積頻度分布が所定のパーセンテージとなる時の前記平均値に対する倍率とを対応付けた情報であって、
前記複数の解析結果のうち前記閾値よりも大きな値を有する解析結果の出現頻度の演算において、前記統計データおよび算出した平均値に基づいて、算出した平均値に対応する倍率を取得し、取得した倍率に基づいて前記閾値を決定することを特徴とする請求項8に記載のプログラム。
【請求項10】
前記音声を解析する機能において、前記複数のフレームごとに、ピッチ周波数またはパワーの少なくとも一方を、解析結果として算出し、
前記声帯の緊張状態を判定する機能において、前記ピッチ周波数については、前記出現頻度が少ないほど緊張状態と判定するとともに、前記パワーについては、前記出現頻度が多いほど緊張状態と判定することを特徴とする請求項8または9に記載のプログラム。

【図1】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図2】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2012−168296(P2012−168296A)
【公開日】平成24年9月6日(2012.9.6)
【国際特許分類】
【出願番号】特願2011−27917(P2011−27917)
【出願日】平成23年2月10日(2011.2.10)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、独立行政法人科学技術振興機構、「行動モデルに基づく過信の抑止」のうち、「過信行動検出・抑止の実証実験」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000005223)富士通株式会社 (25,993)