説明

合成音声判別装置、方法及びプログラム

【課題】合成音声に判別情報を付加することなく、入力した音声から事前に設定したテキストに対応する複数の音声を取得し、抽出された特徴量を用いて、取得した各音声同士の類似度合いから、合成音声信号であるか肉声であるかを判別できるようにする。
【解決手段】本発明の合成音声判別装置は、入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置において、入力された音声信号をテキストに変換する音声認識手段と、音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段とを備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、合成音声判別装置、方法及びプログラムに関し、例えば、音声合成装置により合成された合成音声と人間による実際の発声音声とを判別する合成音声判別装置、方法及びプログラムに適用し得るものである。
【背景技術】
【0002】
近年、音声合成技術の進展により、無個性で機械的な合成音声ではなく、個人の特性や感情表現、発話の自然性等といった、より本人性を再現した合成音声を生成することができ、このような音声合成技術は様々な場面において利用されている。
【0003】
しかしながら、音声合成技術を悪用し、電話などを通じて他人への「なりすまし」が容易に可能となり、例えば、音声での発声者の識別や、照合する話者認識あるいは話者照合技術を意味のないものにしてしまい、声紋分析による犯罪捜査などへも影響を与えることが懸念されるため、合成音声と人間による発生音声とを判別する技術が強く求められている。
【0004】
従来、このような合成音声判別技術としては、特許文献1及び特許文献2に記載されるような技術がある。
【0005】
特許文献1の記載技術は、例えば、ある周波数帯域の信号パワーを変更することにより、合成音声であることを示す判別情報を合成音声信号に付加する技術である。
【0006】
特許文献2の記載技術は、例えば、所定周波数の信号について所定周期のパターンを繰り返した情報信号を合成音声信号に付加する技術である。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2002−297199号公報
【特許文献2】特開平11−190996号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上述した特許文献1及び特許文献2の記載技術は、音声信号の伝送前に、合成音声信号であることを判別するための判別情報等を取り除いた場合、合成音声の判別ができなくなってしまい、上記の問題点が生じてしまう課題がある。
【0009】
そこで、本発明は、合成音声に判別情報を付加することなく、例えば、電話等の受信側で、受信した音声(肉声か合成音かが不明な音声のこと)から、事前に設定したテキストに対応する複数の音声を取得し、抽出された特徴量を用いて、取得した各音声同士の類似度合いから、合成音声信号であるか肉声であるかを判別することを目的とする。
【課題を解決するための手段】
【0010】
第1の本発明の合成音声判別装置は、入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置において、(1)入力された音声信号をテキストに変換する音声認識手段と、(2)音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段とを備えることを特徴とする。
【0011】
第2の本発明の合成音声判別方法は、入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置の合成音声判別方法において、(1)音声認識手段が、入力された音声信号をテキストに変換する音声認識工程と、(2)合成音声判別手段が、音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別工程とを有することを特徴とする。
【0012】
第3の本発明の合成音声判別プログラムは、入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置を、(1)入力された音声信号をテキストに変換する音声認識手段、(2)音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段として機能させることを特徴とする。
【発明の効果】
【0013】
本発明によれば、合成音声に判別情報を付加することなく、入力音声から、事前に設定したテキストに対応する複数の音声を取得し、抽出された音声の特徴量を用いて各音声同士の類似度合いから、合成音声信号であるか肉声であるかを判別することができる。
【図面の簡単な説明】
【0014】
【図1】第1の実施形態の合成音声判別装置の機能を示す機能ブロック図である。
【図2】第1の実施形態の合成音声判別処理の動作を示すフローチャートである。
【図3】第1の実施形態の対象テキストに該当する音声を切り出す処理を説明する説明図である。
【図4】第1の実施形態の対象テキストに該当する音声を対応付ける対応表を説明する説明図である。
【図5】第1の実施形態の音声同士の特徴距離に基づくグループ化を説明する説明図である。
【図6】第1の実施形態のグループ個数に基づいて合成音声又は肉声を判別する処理を説明する説明図である。
【発明を実施するための形態】
【0015】
(A)第1の実施形態
以下では、本発明の合成音声判別装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。
【0016】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の合成音声判別装置10の機能を示す機能ブロック図である。
【0017】
ここで、第1の実施形態の合成音声判別装置10は、例えば、電話機(携帯電話機や通話機能を有する携帯端末を含む概念)、いわゆるソフトフォン機能を有するパーソナルコンピュータ等に搭載されるものであり、合成音声判別装置10の機能は、ソフトウェア処理により実現することができ、例えば、CPU、ROM、RAM、EEPROM等のハードウェア構成を備える情報処理装置において、ROMに格納される処理プログラムをCPUが読み出し実行することにより、これらの機能が実現される。
【0018】
図1において、第1の実施形態の合成音声判別装置10は、音声認識部1、音声蓄積部2、特徴抽出部3、判別部4、音響モデル記憶部5、辞書6、対象テキスト記憶部7を少なくとも有するものである。
【0019】
音声認識部1は、音響モデル記憶部5及び辞書6を参照しながら、入力された音声信号を認識し、テキストに変換するものである。ここで、音声認識技術は、既存の技術を広く適用することができ、例えば、入力音声信号と音響モデルとを比較しながら、最も特徴の近い言語列を認識する方法を適用することができる。
【0020】
ここで、音響モデル記憶部5には、音素の周波数特性を示す音響モデルを記憶するものであり、辞書6には、音響モデルに対応する言語列を記憶するものである。音響モデルは、例えば隠れマルコフモデル等の統計的に構築されたものを適用することができる。
【0021】
入力音声信号が音声認識部1に入力される時点では、合成音声の判別前であるため、合成音声信号又は人間による発声音声信号のいずれかである。また、第1の実施形態では、音声認識部1が漢字仮名テキストに変換する場合を示す。
【0022】
対象テキスト記憶部7には、予め設定された1又は複数の対象テキストを記憶するものである。第1の実施形態では、対象テキストが漢字仮名テキストの場合を例示するので、音声認識部1において、音声蓄積部2で音声を切り出す際に、対象テキストと対応すべき箇所を検索するために、入力音声をあらかじめ漢字仮名テキストヘ変換する。
【0023】
音声蓄積部2は、音声認識部1により音声認識されたテキストのうち、対象テキスト記憶部7に事前に記憶されている対象テキストに該当する音声を蓄積するものである。
【0024】
ここで、音声蓄積部2による対象テキストに該当する部分の音声を蓄積する方法としては、音声蓄積部2が、入力音声波形の周波数特性を利用して有音区間及び無音区間を判別し、音声認識部1が認識した各テキストとこれらに対応する音声部分の位置関係を認識しており、音声認識部1の認識したテキストのうち、対象テキストに該当する音声部分を切り出して蓄積する。
【0025】
特徴抽出部3は、音声蓄積部2に蓄積されている音声の特徴量を抽出するものである。
【0026】
ここで、特徴量とは、音声の特性を表すメルケプストラム、声の高さを表す基本周波数、さらに、音の長さを表すための音素の長さをいう。ただし、音素の長さを抽出する際は、音声認識を用いることで自動セグメンテーションを行うことが可能である。
【0027】
判別部4は、特徴抽出部3が求めた対象テキストに該当する音声の各特徴量の距離を求め、各特徴量の距離に応じたグループを構成し、そのグループの個数に基づいて、入力音声が合成音声信号であるか又は人間による発声音声信号(肉声)であるかを判別するものである。
【0028】
ここで、第1の実施形態による合成音声信号の判別方法は、以下の動作の項において詳細に説明するが、例えば受信側が受信した音声を使用して、予め設定した対象テキストと一致した複数の音声同士の類似度合いから、合成音声信号であるか又は肉声であるかを判別するというものである。
【0029】
これは、合成音声に関する技術開発は進んでいるが、限られた情報を用いて合成音声を生成することになるため、肉声に比べて感情やイントネーションなどの特徴のばらつきが小さいものとなる傾向を利用したものである。
【0030】
つまり、肉声の場合、合成音声に比べて、様々な感情やイントネーションを含んだ発声方法を行うため、切り出した音声同士の特徴距離にばらつきが生じやすい。これに対して、合成音声の場合、上記のように限定された感情やイントネーションを用いて生成されるため、切り出した音声同士の特徴距離にばらつきはあまり生じないという相違点がある。そこで、第1の実施形態では、同じ文字列の音声を切り出し、その音声同士の特徴距離を利用して、切り出した音声が肉声か合成音声かを判別する。
【0031】
(A−2)第1の実施形態の動作
次に、第1の実施形態の合成音声判別方法の処理の動作について図面を参照しながら詳細に説明する。
【0032】
図2は、第1の実施形態の合成音声判別処理の動作を示すフローチャートである。
【0033】
まず、音声信号が音声認識部1に入力されると(ステップS101)、音声認識部1は、不特定多数の音声特徴から統計的に構築された音響モデル記憶部5の音響モデル及び辞書6の言語列を用いて、入力音声信号を漢字仮名テキストに変換する(ステップS102)
音声認識部1が入力音声信号を漢字仮名テキストに変換すると、音声蓄積部2により、音声認識部1からの漢字仮名テキストのうち、対象テキストに該当する音声部分が切り出され、この切り出した音声が音声蓄積部2に蓄積される(ステップS103)。
【0034】
ここで、対象テキストに該当する音声部分の切り出しについて図3及び図4を参照しながら説明する。
【0035】
対象テキストは、対象テキスト記憶部7に事前に設定されたテキスト(言語列)である。対象テキストは、例えば、相手と通話中に相手がよく発するキーワードなどの文字列が該当する。
【0036】
図3(A)に示すように、音声認識部1は、入力音声波形について、音声の無音位置を区切り箇所として音声の有音区間を管理する。図3(A)では、黒く塗りつぶした区間が無音区間である。
【0037】
音声蓄積部2は、入力音声波形のうち無音区間を位置に基づいて、「s1−e1」の有音区間、「s2−e2」の有音区間、「s3−e3」の有音区間…のように有音区間の位置関係を認識し、音声認識部1からの漢字仮名テキストを構成する各文字列とこれらに対応する有音区間の位置関係を、図4に例示するような対応表を用いて認識しておく。
【0038】
例えば、図3の例では、音声認識部1からの漢字仮名テキストのうち、最初に出現する「なるほどー。そうですね。」が有音区間「s1−e1」に対応し、「昨日から、…。」が有音区間「s2−e2」に対応し、次に出現する「なるほどー。そうですね。」が有音区間「s3−e3」に対応するものとする。
【0039】
この場合、音声蓄積部2は、図4に示すように、出現した文字列とこれに対応する入力音声波形の位置関係を、最初に出現した「なるほどー。そうですね。」は「開始(位置)s1:終了(位置)e1」の区間の音声に対応し、「昨日から、…。」は「開始(位置)s2:終了(位置)e2」の区間の音声に対応し、次に出現した「なるほどー。そうですね。」は「開始(位置)s3:終了(位置)e3」の区間の音声に対応付けておく。
【0040】
次に、音声蓄積部2は、音声認識部1からの漢字仮名テキストから、対象テキストと完全一致するテキストの有無を判断する。そして、対象テキストと一致するテキストが音声認識部1からの漢字仮名テキストに存在する場合、音声蓄積部2は、図4に示す対応表を用いて、対象テキストに該当する有音区間の音声を切り出して蓄積する。
【0041】
例えば、対象テキストを「なるほど。そうですね。」とする場合、音声蓄積部2は、対象テキスト「なるほど。そうですね。」について、入力音声波形から音声区間「s1:e1」及び音声区間「s3:e3」の音声を切り出して蓄積する。
【0042】
ここで、音声蓄積部2は、予め設定された所定量の切り出し音声を蓄積した場合、終了フラグを立てるようにする。なお、終了フラグは、対象テキストに該当する音声が、合成音声の判別を行うために充分な量が音声蓄積部2に蓄積された場合に立てられるようにすればよい。そのため、例えば、受話者が電話機を操作することにより、終了フラグを立てられるようにしてもよい。
【0043】
音声蓄積部2からの終了フラグが特徴抽出部3により検知されると、音声蓄積部2に蓄積される対象テキストに該当する音声は、特徴抽出部3により特徴量が抽出される(ステップS105)。
【0044】
上述したように、特徴抽出部3は、音声蓄積部2に蓄積される音声の特徴量として、音声の特性を表すメルケプストラム、声の高さを表す基本周波数、さらに、音の長さを表すための音素の長さを抽出する。
【0045】
そして、判別部4は、特徴抽出部3により抽出された音声の特徴量を用いて、音声の特徴量同士の距離を求める。
【0046】
ここで、判別部4が特徴抽出部3からの各音声の特徴量の距離を求める方法の一例を説明する。
【0047】
まず、判別部4は、特徴抽出部3から各音声のメルケプストラムを受け取ると、例えば動的時間伸縮法(DTW:Dynamic Time Warping)等により、音声同士の時間長が同じになるように調整する。
【0048】
そして、メルケプストラムの距離mel−CDは、式(1)のようにして、ユークリッド距離で求め、全フレームの平均値としても求める。
【数1】

【0049】
ここで、tはフレーム、dは次元係数、mcは音声のメルケプストラム、xとyは各音声波形を示す。
【0050】
また、判別部4は、特徴抽出部3から各音声の基本周波数を受け取ると、メルケプストラムと同様にDTW等により、音声同士の時間長が同じになるように調整する。
【0051】
そして、基本周波数の距離は、式(2)及び式(3)のようにして、対数変換されたF0の平均値μの差と、分散σの差とをとることで求める。
【数2】

【0052】
さらに、判別部4は、特徴抽出部3から各音声の音素の長さを受け取ると、式(4)のようにして、各々の差の平均値により音素の長さの距離dを求める。
【数3】

【0053】
ここで、pは音素数、dは音素長、PXとPYは各音素を示す。
【0054】
そして、判別部4は、各音声のメルケプストラムの距離mel−CD、基本周波数の距離μ及びσ、音素の長さの距離dを用いて、全体の音声の特徴量同士の距離を式(5)のようにして求める。
【0055】
D=w・mel−CD+w・μ+w・σ+w・d …(5)
ここで、w、w、w、wは重み係数であり、w1+w2+w3+w4=1の関係がある。
【0056】
次に、判別部4は、式(5)で求めた距離に基づいてグループを構成する(ステップS107)。
【0057】
ここで、判別部4によるグループの構成方法としては、事前に設定した分割閾値と、上記(5)で求めた距離との比較を用いることでグループ分けを行う。つまり、判別部4は、上記のようにして求めた距離が、分割閾値を超えていれば別グループとして、分割閾値以下であれば同一グループとすることで、各音声のグループ化を行う。
【0058】
図5は、判別部4によるグループの構成方法を説明する説明図である。図5では、分割閾値をTHとしたときの3個の音声ファイル(音声)a、b、cのグループ化を例示して説明する。
【0059】
まず、音声ファイルaは距離を求めることができないので、グループAとする(図5(A))。
【0060】
次に、音声ファイルbの場合、音声ファイルb及び音声ファイルa間の距離を求める。ここで、音声ファイルb及び音声ファイルa間の距離d1が分割閾値THを超えているとすると、音声ファイルbをグループBに含める。
【0061】
次に、音声ファイルcの場合、音声ファイルc及び音声ファイルa間の距離と、音声ファイルc及び音声ファイルb間の距離とを求める。
【0062】
このとき、音声ファイルc及び音声ファイルa間の距離d2が分割閾値TH未満であり、かつ、音声ファイルc及び音声ファイルb間の距離d3が分割閾値THを超えているとき、音声ファイルcをグループAに含める。
【0063】
このようにして、音声蓄積部2に蓄積される対象テキストに該当する各音声同士の特徴量の距離を用いた類似度に基づいてグループ化を行う。
【0064】
次に、判別部4は、グループ構成後、グループの個数に基づいて、当該入力音声信号が合成音声信号であるか又は発生音声(肉声)であるかの判別を行う(ステップS108)。
【0065】
この判別部4による判定方法は、事前に設定した判定閾値とグループ個数との比較を行い、グループ個数が、判定閾値以上のとき人間による発声音声であると判定し、判定閾値未満のとき合成音声であると判定する。
【0066】
図6は、判別部4による合成音声判定を説明する説明図である。上述したように、人間による発声音声(肉声)の場合、様々な感情やイントネーションを含んでいるから、音声同士の特徴距離はばらつき易く、図6(A)に示すように、グループ数が多くなる傾向がある。
【0067】
一方、合成音声の場合、限定された感情やイントネーションを用いているから、肉声の場合に比べて、音声同士の特徴距離のばらつきが少なく、図6(B)に示すように、グループ数が少なくなる傾向にある。
【0068】
そのため、判別部4は、グループ個数が、判定閾値以上のとき人間による「発生音声(肉声)」と判定し、判定閾値より少ないとき「合成音声」と判定することができる。
【0069】
例えば、図6において、判定閾値を「4」とした場合、図6(A)のとき、グループ個数が「5(グループA〜E)」であるから肉声と判定し、図6(B)のとき、グループ個数が「2(グループA、B)」であるから合成音声と判定する。
【0070】
そして、判別部4は、入力した音声信号が合成音声であるか又は肉声であるかの判別結果を所定の方法により出力する(ステップS109)。この判別結果の出力方法としては、搭載する電話機やコンピュータ等に応じて異なるが、例えば、表示部に音声合成であることを表示するようにしても良いし、合成音声である旨を示す情報を音や音声などで出力するようにしても良い。
【0071】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態では、音声合成装置による合成音声と人間による実際の発声音声とを判別することが可能なため、音声合成技術を悪用した他人への「なりすまし」を発見できるといった効果がある。
【0072】
(B)他の実施形態
(B−1)第1の実施形態では、合成音声判別装置10による合成音声判別方法を詳細に説明したが、本発明の合成音声判別装置10を電話端末(例えば電話機やソフトフォン搭載のコンピュータ等)に搭載した場合の実施形態を例示する。
【0073】
例えば、ユーザAが所持する電話端末に第1の実施形態の合成音声判別装置10を搭載する。このとき、ユーザBからユーザAに対して、電話がかかってきたとする。
【0074】
この場合、ユーザAはまず、合成音声判別装置10を稼動するためのスイッチを押す(このとき、呼の確立をトリガとして自動的にスイッチが入る構成でもかまわない)。
【0075】
ユーザBとの通話が開始し、ユーザBからの音声が入力されると、音声合成装置10は、ユーザBが発声している音声を認識しはじめる。
【0076】
このとき、ユーザAは予め設定した対象テキストを、出来るだけユーザBに発声させるように会話を進める。
【0077】
ある程度、対象テキストに対応した音声ファイルを蓄積した時点で、ユーザAは終了フラグを発火させる(あらかじめ蓄積する音声ファイル数を設定しておき、その音声ファイル数に達したら自動的に終了フラグが入力される構成でもよい)。
【0078】
その後、音声合成判別装置10は判定処理を行う。ユーザAは電話を切らずに、音声合成判別装置10からの判定結果を待つ。判定結果は音声合成判別装置10に具備される表示手段(図示せず)に表示する。または受話者のみに聞こえる音声信号等で判定結果を知らせるようにしてもよい。
【0079】
ここで、肉声か、合成音声か、または、見知らぬ人が合成音声を使用しているかなどを知ることで、事前に心構えをすることができる。
【0080】
また、判定結果を表示手段に表示する構成の場合は、ユーザAは電話を切った後であってもユーザBが「肉声」であったか「合成音声」であったかを知ることができるようにしてもよい。
【0081】
(B−2)第1の実施形態では、1つの対象テキスト(例えば「なるほどー。そうですね。)の音声同士の特徴距離に基づくグループ化により、判別する場合を例示したが、複数の対象テキストを用いるようにしても良い。
【0082】
この場合、同一の対象テキストの音声同士の特徴距離に基づくグループ化を行うことが望ましいので、1つの対象テキストに対して3個以上の音声の切り出すことが望ましい。
【0083】
また、複数の対象テキストに対するグループ化を行った場合、複数の対象テキストの判別結果のうち、少なくとも1つの対象テキストに合成音声とする判別結果が得られたときに音声合成とするようにしても良いし、また1つの対象テキストだけでなく、所定数以上の対象テキストに関して合成音声とする判別結果が得られた場合に合成音声であると判定するようにしても良い。
【0084】
(B−3)第1の実施形態では、入力音声が日本語の場合を例示したが、言語は日本語に限定されるものではなく、英語、フランス語、ドイツ語、中国語、韓国語などあらゆる言語にも適用できる。
【0085】
(B−4)第1の実施形態では、受信側が入力した音声に対して行う場合を例示したが、録音された音声(例えば、留守番電話の音声等)を入力音声として音声解析や声紋解析する場合にも適用できる。
【符号の説明】
【0086】
1…音声認識部、2…音声蓄積部、3…特徴抽出部、4…判別部、5…音響モデル記憶部、6…辞書、7…対象テキスト記憶部、10…合成音声判別装置。

【特許請求の範囲】
【請求項1】
入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置において、
入力された音声信号をテキストに変換する音声認識手段と、
上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段と
を備えることを特徴とする合成音声判別装置。
【請求項2】
上記合成音声判別手段が、
上記音声認識手段により変換されたテキストから上記対象テキストに該当する音声部分を入力音声信号から切り出し、上記対象テキストに該当する複数の音声を蓄積する音声蓄積部と、
上記音声蓄積手段に蓄積されている複数の音声の特徴を抽出する特徴抽出部と、
上記特徴抽出部により抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別部と
を有することを特徴とする請求項1に記載の合成音声判別装置。
【請求項3】
上記判別部が、上記各音声間の特徴量の距離と分割閾値との比較により上記グループを構成するものであり、上記グループ個数と判別閾値とを比較することにより合成音声信号か否かを判別するものであることを特徴とする請求項2に記載の合成音声判別装置。
【請求項4】
入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置の合成音声判別方法において、
音声認識手段が、入力された音声信号をテキストに変換する音声認識工程と、
合成音声判別手段が、上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別工程と
を有することを特徴とする合成音声判別方法。
【請求項5】
入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置を、
入力された音声信号をテキストに変換する音声認識手段、
上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段
として機能させることを特徴とする合成音声判別プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−237364(P2010−237364A)
【公開日】平成22年10月21日(2010.10.21)
【国際特許分類】
【出願番号】特願2009−84194(P2009−84194)
【出願日】平成21年3月31日(2009.3.31)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】