説明

アクセント型推定装置及びアクセント型推定方法

【課題】従来装置は、人の発声ピッチパターンが、同じアクセント型でも発声速度や音韻継続時間の抑揚変化で異なるため、アクセント型を誤判別したり、発声する音韻環境、話者性、話者の調子、それら組合わせでの抑揚変化で、アクセント型判別精度が低下する。
【解決手段】ピッチパターン抽出手段で音声入力手段の音声データから入力ピッチパターンを抽出し、基準ピッチパターン選択手段で、言語情報入力手段での入力音声データの言語情報を基に、基準ピッチパターンコーパスからアクセント型推定用の基準ピッチパターンをアクセント型ごとに複数選択し、ピッチパターン照合手段で入力ピッチパターンと複数の基準ピッチパターンの類似度を算出、この類似度を基に最も類似する基準ピッチパターンのアクセント型を、入力ピッチパターンのアクセント型としてアクセント型決定部で出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、ユーザの発声した音声から、その音声のアクセント型を推定する装置及び方法に関する。
【背景技術】
【0002】
従来より、ユーザの発声した音声からアクセント型を自動的に判別する技術として、特開平4-005697号公報(特許文献1)及び、特開2009-042509号公報(特許文献2)に示すような技術が知られている。
特許文献1においては、ユーザが発声した音声データを分析してピッチパターンを抽出し、抽出されたピッチパターンと、入力テキストの解析から得られた韻律情報を基に生成された基準ピッチパターンとを照合して類似度を求め、最も類似した基準ピッチパターンのアクセント型をユーザの発声したアクセント型と判別している。
また、特許文献2おいては、ユーザにモーラごとの発声のタイミングを指示する信号を任意の間隔ごとに出力し、ユーザがモーラ同期信号に合わせて発声することで、発声速度や音韻継続時間のバラつきの問題を軽減し、モーラに同期したピッチパターンを抽出し、モーラに同期したピッチパターンを、アクセント型ごとに平均化して生成された基準アクセントパターン(基準ピッチパターン)と照合することにより、アクセント型抽出の精度を向上することについて記述されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平4-005697号公報
【特許文献2】特開2009-042509号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1では、入力テキスト文字列を解析し、入力文字列中の単語を単語辞書の内容と照合して得た韻律情報から、アクセント型ごとに基準ピッチパターンを生成し、この基準ピッチパターンと、ユーザが発声した音声データから抽出された入力ピッチパターンとの類似度を求めている。しかし、特許文献2で述べられているとおり、人間の発声した音声データから抽出した入力ピッチパターンは、同じアクセント型でも発声速度や音韻継続時間により抑揚が変化する。そのため、抽出した入力ピッチパターンが本来とは異なるアクセント型の基準ピッチパターンと類似して、アクセント型を誤判別する課題がある。
特許文献2では、特許文献1における問題を解消するため、ユーザにモーラ同期信号に合わせて発声させ、モーラに同期した入力ピッチパターンを抽出し、モーラに同期した基準アクセントパターンと照合することで、発声速度や音韻継続時間による判別精度の低下を軽減している。しかし、時間的要因以外にも発声する音韻環境、話者性、話者の調子やそれらの組み合わせによって抑揚が変化する場合があり、判別精度が低下するという課題が残っている。また、ユーザが発声時にモーラ同期信号を意識する必要があり、発声に負担がかかり意図した抑揚・アクセント型で発声できない場合があるという課題がある。さらに、モーラ同期信号に合わせた発声から抽出された入力ピッチパターンは、モーラ間のピッチ遷移など自然な発声から抽出された肉声ピッチパターンでは得られるピッチパターンの特徴が欠落してしまうためアクセント型を誤判別する課題がある。
【0005】
さらに、ユーザの発声のモーラ数が大きい場合に、基準ピッチパターンを生成するためのデータが不足し、基準ピッチパターンの精度が悪くなる、あるいは基準ピッチパターンが作れないという課題が想定される。しかし、特許文献1及び特許文献2においては、モーラ数が大きいユーザの発声に対する処理については特に記述がなく考慮されていない。
【0006】
この発明は上記のような課題を解決するためになされたもので、ユーザの発声変動に強いアクセント型推定装置及びアクセント型推定方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
この発明に係るアクセント型推定装置は、
音声を入力し、音声データを出力する音声入力手段と、
前記音声の言語情報を入力する言語情報入力手段と、
前記音声データからピッチパターンを抽出し、入力ピッチパターンとして出力するピッチパターン抽出手段と、
アクセント型ごとに生成、または複数ピッチパターンの平均化により生成され、アクセント型ごとに複数の基準ピッチパターンが格納された基準ピッチパターンコーパスと、
前記言語情報を入力し、言語情報を基に基準ピッチパターンコーパスから、前記入力ピッチパターンのアクセント型推定に利用する基準ピッチパターンをアクセント型ごとに複数個ずつ選択する基準ピッチパターン選択手段と、
前記入力ピッチパターンと前記選択されたアクセント型ごとの複数個の基準ピッチパターンを入力し、その類似度を計算して類似度情報として出力するピッチパターン照合手段と、
前記類似度情報を参照して入力ピッチパターンと最も類似する基準ピッチパターンを検出し、その基準ピッチパターンのアクセント型を入力ピッチパターンのアクセント型として出力するアクセント型決定部を備える。
【発明の効果】
【0008】
この発明のアクセント型推定装置によれば、アクセント型ごとに複数個ずつの基準ピッチパターンを用意し、基準ピッチパターンと入力ピッチパターンとの類似度を計算し、入力ピッチパターンとの類似度が最も高い基準ピッチパターンのアクセント型を、ユーザの発声するアクセント型として選択するように構成する。この構成により、従来はアクセント型ごとに一つの基準ピッチパターンを用意し、発声する音韻環境、話者性、話者の調子やそれらの組み合わせによって抑揚が変化した場合にも同じ基準ピッチパターンを利用した類似度計算を行うので、アクセント型推定の精度が落ちるが、それを改善するため、同一のアクセント型に複数個ずつの基準ピッチパターンを持ち、発声する音韻環境、話者性、話者の調子やそれらの組み合わせによって抑揚の変化に対応した多様な基準ピッチパターンを用意することで、アクセント型の推定精度を改善できるという効果がある。
【図面の簡単な説明】
【0009】
【図1】この発明の実施の形態1に係るアクセント型推定装置の構成を示す図である。
【図2】この発明の実施の形態1によるアクセント型推定装置の動作を示すフローチャートである。
【図3】ピッチパターン照合部における類似度計算手法の説明図である。
【図4】従来技術による基準ピッチパターンの選択手法とこの発明による基準ピッチパターンの選択手法の説明図である。
【図5】特徴空間上で類似度上位複数個の基準ピッチパターンによるアクセント型選択手法の説明図である。
【図6】この発明の実施の形態2に係るアクセント型推定装置の構成を示す図である。
【図7】この発明の実施の形態2によるアクセント型推定装置の動作を示すフローチャートである。
【図8】生成された基準ピッチパターンと肉声ピッチパターンのパターン図である。
【図9】複数ピッチパターンの平均化による基準ピッチパターンと、非平均化の個々の基準ピッチパターンを用いるアクセント型選択手法の説明図である。
【図10】この発明の実施の形態3に係るアクセント型推定装置の構成を示す図である。
【図11】この発明の実施の形態3によるアクセント型推定装置の動作を示すフローチャートである。
【図12】ピッチパターン全体での類似度計算と、アクセント核付近のみでの類似度計算によるアクセント型選択手法の説明図である。
【図13】この発明の実施の形態4に係るアクセント型推定装置の構成を示す図である。
【図14】この発明の実施の形態4によるアクセント型推定装置の動作を示すフローチャートである。
【図15】シフトを用いる基準ピッチパターンの類似度計算の説明図である。
【発明を実施するための形態】
【0010】
実施の形態1.
図1はこの発明の実施の形態1に係るアクセント型推定装置の構成を示す図である。このアクセント型推定装置は、個別の回路、あるいはコンピュータの記録媒体に格納されたプログラムの制御などによって構成されるもので、音声入力部11、ピッチパターン抽出部12、言語情報入力部13、基準ピッチパターンコーパス14、基準ピッチパターン選択部15、ピッチパターン照合部16、アクセント型決定部17から構成される。
【0011】
音声入力部11は、例えばマイクなどからなり、ユーザの発声を入力し、音声データとしてピッチパターン抽出部12に出力する。
ピッチパターン抽出部12は、入力された前記音声データからピッチパターンを抽出し、入力ピッチパターンとしてピッチパターン照合部16に出力する。
言語情報入力部13は、ユーザの発声内容に関する言語情報をユーザから入力し、基準ピッチパターン選択部15に出力する。
基準ピッチパターンコーパス14は、アクセント型ごとに生成された基準ピッチパターンまたは複数のピッチパターンを平均化して生成された基準ピッチパターンが一つのアクセント型につき複数個格納されているメモリである。
【0012】
基準ピッチパターン選択部15は、入力された前記言語情報を基に前記入力ピッチパターンの類似度計算に利用する基準ピッチパターンをアクセント型ごとに複数個ずつ前記基準ピッチパターンコーパス14から選択し、ピッチパターン照合部16に出力する。
ピッチパターン照合部16は、前記ピッチパターン抽出部12からの入力ピッチパターンと、基準ピッチパターン選択部15から出力された複数の基準ピッチパターンの各々との類似度を計算し、類似度情報としてアクセント型決定部17に出力する。
アクセント型決定部17は、前記類似度情報を参照し最も類似度の高い基準ピッチパターンを検出し、その基準ピッチパターンのアクセント型を、ユーザ発声のアクセント型として出力する。
なお、図1のピッチパターン抽出部12、基準ピッチパターン選択部15、ピッチパターン照合部16、アクセント型決定部17はアクセント型推定装置の中央演算装置の動作を制御するプログラムのモジュールに従って前記中央演算装置を便宜的に分割したものである。
【0013】
次に動作について説明する。図2はこの発明の実施の形態1によるアクセント型推定装置の動作を示すフローチャートである。
【0014】
ピッチパターン抽出部12は、マイクなどからなる音声入力部11から入力された前記音声データを解析して、この音声データのピッチパターン(例えば、ピッチを一定時間間隔で抽出したデータ)を抽出し、入力ピッチパターンとして出力する(ステップST1)。
なお、ピッチパターン抽出部12におけるピッチパターン抽出は、ケプストラム法や自己相関関数法などの公知の処理を適用できるので、詳細な説明は省略する。
また、音声入力部11は、発声をマイクから直接収録する他、予め収録した音声データを蓄えた記憶装置から音声データを読み込んだり、ストリームデータから音声データを収集してもよく、何れの方法であっても、発声の音声データが得られればよい。また、音声データはユーザ自身の発声でも良く、他のユーザの発声であっても良い。
【0015】
なお、ピッチパターン抽出部12は一定時間間隔でピッチを抽出するとしたが、有声音区間を等間隔に分割した数点の代表点や、ピッチの変化の激しい点におけるピッチを抽出するなど、用途及びデータに合わせて変更しても良い。
また、言語情報入力部13から入力された言語情報と公知の音声認識技術を用いて、例えば音韻ごとに音声データのセグメンテーションを行い、音韻情報に対応付けられたピッチパターンを抽出しても良い。
【0016】
基準ピッチパターン選択部15は、言語情報入力部13から入力された発声内容に関する言語情報(例えばモーラ数など)を基に、基準ピッチパターンコーパス14内のピッチパターンから、アクセント型ごとに基準ピッチパターンを複数個ずつ選択してピッチパターン照合部16へ出力する(ステップST2)。
基準ピッチパターンは、アクセント型や音韻情報などの言語情報を基に、藤崎モデルや統計的なモデルによる規則生成、特許文献2に示されているような複数のピッチパターンの平均など一般的なピッチパターンの生成方法を用い生成される。
基準ピッチパターン選択部15による基準ピッチパターンの選択方法は、例えば言語情報から得た発声内容のモーラ数と同じモーラ数のピッチパターンを選択する。
【0017】
なお、基準ピッチパターンの選択基準として発声内容のモーラ数を利用するとしたが、抑揚の緩急や音程の高低といったピッチパターンの特徴に影響しやすい言語情報{音韻情報や品詞情報、文中での位置(文頭、文中、文末)、呼気フレーズ内での位置(呼気頭、呼気中、呼気末)やそれに順ずる言語情報}を用いても良いし、平均ピッチ、ピッチ幅、発声時間長などの入力ピッチパターンに関わる情報を用いても良く、それらの情報を組み合わせて選択しても良い。また、ユーザの発声内容のテキストデータを入力として言語解析することで前記言語情報を得ても良い。例えば、発声内容の表記のみが入力された場合に、言語解析により読みや品詞情報などを推定しても良い。
また、基準ピッチパターンコーパス14としてアクセント位置に傾向のある特定の用途(例えば外来語など)を想定した基準ピッチパターンコーパスを利用するようにしても良い。
さらに、選択される基準ピッチパターンのアクセント型ごとの上限数を定めても良い。
【0018】
ピッチパターン照合部16は、基準ピッチパターン選択部15から入力された複数の基準ピッチパターン各々と、ピッチパターン抽出部12から入力された入力ピッチパターンの類似度を各々計算し、類似度情報として出力する(ステップST3)。
類似度の計算は、例えば図3のように、入力ピッチパターンと基準ピッチパターンの対応する区間(例えば有声音区間の単位)におけるピッチの距離やその分布の尤度を計算し、ピッチの距離または分布の尤度を入力ピッチパターンと各基準ピッチパターンとの類似度とする。
なお、入力ピッチパターンと基準ピッチパターンの対応する区間として有声音区間の単位を例にあげたが、モーラ単位や音素単位、一定時間間隔で抽出されたピッチデータ単位であっても良い。
【0019】
距離や尤度の計算には、例えば、ピッチパターンを所定のn次のベクトルに正規化した上でのピッチパターン間の二乗誤差や内積などの他、DP(動的計画法)マッチング手法やHMM(隠れマルコフモデル)を用いた統計的手法などの処理を適用できる。DPマッチング手法やHMMを用いた統計的手法については、公知であり、詳細な説明を省略する。例えば、HMMを利用する場合には、モーラ単位の区間(あるいは音素、有声音区間などの単位)ごとに1つ以上の状態数・ガウス分布を持ったピッチパターンに関するHMMを作成し、尤度の計算に利用する。
【0020】
なお、入力ピッチパターンの時間長にあわせて基準ピッチパターンを時間軸上で伸縮変形した後に類似度を計算することで、基準ピッチパターンと入力ピッチパターンの話速が異なっていても、精度よく類似度の計算を行うようにすることもできる。
なお、入力ピッチパターンの平均ピッチにあわせて基準ピッチパターンの平均ピッチを調整した後に類似度を計算することで、基準ピッチパターンと入力ピッチパターンの声の高さが異なっていても精度よく類似度の計算を行うようにすることもできる。
なお、入力ピッチパターンのピッチの変化幅にあわせて基準ピッチパターンのピッチの変化幅を調整した後に類似度を計算することで、基準ピッチパターンと入力ピッチパターンの抑揚の大きさが異なっていても精度よく類似度の計算を行うようにすることもできる。
なお、ユーザの発声内容と基準ピッチパターンの言語情報を基に、類似度計算時に重みをつけても良い。例えば、有声子音を伴う発声同士の類似度計算であれば重みを大きく、有声子音を伴う発声と無声子音を伴う発声との類似度計算であれば重みを小さくするなどである。
【0021】
アクセント型決定部17は、ピッチパターン照合部16から入力された類似度情報を参照し、入力ピッチパターンとの類似度が最も高い基準ピッチパターンを検索し、検索された基準ピッチパターンのアクセント型をユーザの発声のアクセント型として出力する(ステップST3)。
アクセント型ごとに基準ピッチパターンを一つしか持たない従来技術の場合には、本来とは異なるアクセント型の基準ピッチパターンと類似して、アクセント型を誤判別されやすいのに対し、発声する音韻環境、話者性、話者の調子やそれらの組み合わせによって抑揚の変化に対応した多様な基準ピッチパターンをアクセント型ごとに複数個ずつ用意することで、正しいアクセント型の基準ピッチパターンが選択されやすくしている。例えば図4では、従来技術ではアクセント2型の入力ピッチパターンの形状がアクセント3型の基準ピッチパターンに近いと誤判別されているのに対し、この発明のように複数の基準ピッチパターンを用意し、入力ピッチパターンにより近い基準ピッチパターンを持つことで正しいアクセント型が選択されている。
【0022】
なお、類似度上位の複数個の基準ピッチパターンのアクセント型から入力ピッチパターンアクセント型を推定しても良い。例えば類似度上位複数個の基準ピッチパターンのうち最も多かったアクセント型を選んでも良く、また上位複数個の類似度をアクセント型ごとに正規化(例えば平均をとる)した上で、最も類似度の高いアクセント型を選んでも良い。これにより、図5のように、ある特徴空間上でのアクセント型の境界付近の特徴を示す基準ピッチパターンのデータが少なかった場合に、類似度最大の基準ピッチパターンを選択するとアクセント型を誤判断されていた場合にも、上位複数個の基準ピッチパターンを利用することで正しいアクセント型が選択されやすくしている。
【0023】
以上のように本実施の形態1では、アクセント型ごとに複数個ずつの基準ピッチパターンを用意し、基準ピッチパターンと入力ピッチパターンとの類似度を計算し、入力ピッチパターンとの類似度が最も高い基準ピッチパターンのアクセント型を、ユーザの発声のアクセント型として選択するように構成した。従来技術では、アクセント型ごとに一つの基準ピッチパターンを用意し、発声する音韻環境、話者性、話者の調子やそれらの組み合わせによって抑揚が変化した場合にも同じ基準ピッチパターンを利用した類似度計算を行うため、アクセント型推定の精度が落ちていた。それに対し、本実施の形態1は、同一のアクセント型に複数個ずつの基準ピッチパターンを持つ構成とし、発声する音韻環境、話者性、話者の調子やそれらの組み合わせによって抑揚の変化に対応した多様な基準ピッチパターンを用意することで、アクセント型の推定精度を改善できるという効果がある。
【0024】
また、入力ピッチパターンの抽出において、入力されたテキストデータから音声認識技術を用いて、例えば音韻ごとに発声データのセグメンテーションを行い、音韻情報に対応付けられた入力ピッチパターンを抽出する手段を備えるように構成した場合には、ユーザにモーラ同期信号にあわせた不慣れなタイミングでの発声をさせずに音韻と同期させたピッチパターンの比較によるアクセント型の推定精度の改善効果が得られ、ユーザが意図した抑揚・アクセント型で発声できることによるアクセント型の推定精度の改善も得られるという効果がある。さらに、モーラ間のピッチ遷移などのモーラ同期信号に合わせた発声では表現できないピッチパターンの特徴を得られるため、類似度計算の精度を向上させアクセント型の推定精度を改善できるという効果がある。
【0025】
また、ユーザの発声内容のテキストデータ(例えば表記など)を入力として言語解析し、抑揚の緩急や音程の高低といったピッチパターンの特徴に影響しやすい音韻情報や品詞情報、文中での位置(文頭、文中、文末)、呼気フレーズ内での位置(呼気頭、呼気中、呼気末)やそれに順ずる言語情報を自動で得る手段を備えるように構成した場合には、少ない入力内容でも基準ピッチパターンの選択に有用な言語情報を得ることで類似度計算の精度を向上させ、アクセント型の推定精度を改善できるという効果がある。
また、アクセント位置に傾向のある特定の用途(例えば外来語など)を想定した基準ピッチパターンコーパスを利用するように構成した場合には、基準ピッチパターンコーパスにおいてデータ量の多いアクセント型における類似度計算の精度が高くなり、ピッチパターンがあいまいな発声においてはデータ量の多い(基準ピッチパターンコーパス内のアクセント位置の傾向に沿った)アクセント型が選ばれやすくし、アクセント型の推定精度を改善できるという効果がある。
【0026】
また、基準ピッチパターン選択において、アクセント型ごとに選択される基準ピッチパターンの数の上限を設定できるように構成した場合には、基準ピッチパターンコーパス内に類似度計算の対象となる基準ピッチパターンが大量に含まれている場合に、類似度計算時の処理量が抑えることができるという効果がある。また、基準ピッチパターンコーパス内におけるアクセント型ごとのデータ量に大きな差があり、基準ピッチパターンコーパスが前記に示すアクセント位置に傾向のある特定の用途を想定したものではない場合に、データ量の少ないアクセント型とデータ量の多いアクセント型とで計算される類似度の精度が異なることで意図せずデータ量の多いアクセント型が選択されやすくなり、データ量の少ないアクセント型の推定精度が下がるという劣化を抑制できるという効果がある。
また、ピッチパターン照合において、入力ピッチパターンに合わせて基準ピッチパターンの話速や平均ピッチ、ピッチの変化幅などを加工することで、基準ピッチパターンコーパス内の基準ピッチパターンと大きく異なる入力ピッチパターンでも、類似度計算の精度を向上させアクセント型の推定精度を改善できるという効果がある。
【0027】
また、ピッチパターン照合において、ユーザの発声内容と基準ピッチパターンの言語情報から類似度計算時に重みを加えるように構成した場合には、言語情報の違いによるピッチパターンの変化の影響が少ないピッチパターン同士の類似度を重視することで、アクセント型推定の精度が向上できるという効果がある。
【0028】
また、アクセント型決定部において、類似度上位複数個の基準ピッチパターンのアクセント型から選択できる構成とすることで、アクセント型の境界付近の特徴を示す基準ピッチパターンのデータが少なかった場合に、類似度最大の基準ピッチパターンを選択するとアクセント型を誤判断される場合にも、上位複数個の基準ピッチパターンを利用することでアクセント型の推定精度を改善できるという効果がある。
【0029】
実施の形態2.
以上の実施の形態1では、アクセント型ごとに複数個ずつの基準ピッチパターンを規則生成や複数のピッチパターンを平均するなどの一般的なピッチパターン生成手法で生成したものから、類似度の計算をするようにしたものであるが、次に予め収録された発声から抽出された肉声ピッチパターンを基準ピッチパターンとしてそのまま利用する実施の形態を示す。
【0030】
図6はこの発明の実施の形態2に係るアクセント型推定装置の構成を示す図である。
肉声ピッチパターンコーパス18は、一つのアクセント型につき複数個の肉声ピッチパターンが格納されているメモリである。
基準ピッチパターン選択部15は、前記肉声ピッチパターンコーパス18を参照し、入力された前記言語情報を基に前記入力ピッチパターンの類似度計算に利用する肉声ピッチパターンをアクセント型ごとに複数個ずつ選択し、ピッチパターン照合部16に出力する。
その他の構成に関しては、前記実施の形態1と同様である。
【0031】
次に動作について説明する。図7はこの発明の実施の形態2によるアクセント型推定装置の動作を示すフローチャートである。
基準ピッチパターン選択部15は、言語情報入力部13から入力された発声内容に関する言語情報(例えばモーラ数など)を基に、肉声ピッチパターンコーパス18内のピッチパターンから、アクセント型ごとに肉声ピッチパターンを複数個ずつ選択して、基準ピッチパターンとしてピッチパターン照合部16へ出力する(ステップST5)。
肉声ピッチパターンは、例えば、図8に示す子音部での局所的な変化や音韻の繋がりにおける遷移などといった、モーラ数やアクセント型などの情報から規則生成される基準ピッチパターンや平均化された基準ピッチパターン(図8上側の図)では表現できない人間の発声の細かい特徴を含んだ(図8下側の図)ものである。
【0032】
また、図9に示すとおり、複数のピッチパターンを平均化して基準ピッチパターンとして利用する場合、二つの基準ピッチパターンの特徴の中間付近にあるピッチパターンのアクセント型推定精度を誤ってしまう場合があるのに対し、平均化せずに個々の基準ピッチパターンとして利用することで、正しいアクセント型が選択されやすくしている。
他の動作に関しては、前記実施の形態1と同様である。
【0033】
以上のように本実施の形態2では、基準ピッチパターンとして予め収録された発声から抽出された肉声ピッチパターンをそのまま利用するように構成したので、モーラ数やアクセント型などの情報から規則生成される基準ピッチパターンや複数のピッチパターンを平均化して生成された基準ピッチパターンでは表現できない人間の発声の細かい特徴を基準ピッチパターンに含むことで、類似度計算の精度を向上させアクセント型の推定精度を改善できるという効果がある。
また、複数のピッチパターンを平均化して生成された基準ピッチパターンを利用する場合、二つの基準ピッチパターンの特徴の中間付近にあるピッチパターンのアクセント型推定精度が悪くなるのに対し、平均化せずに個々の基準ピッチパターンとして利用することで、アクセント型推定精度を改善できるという効果がある。
【0034】
実施の形態3.
以上の実施の形態1及び実施の形態2では、入力ピッチパターン全体での類似度の計算結果を類似度情報として、ユーザの発声のアクセント型を判定するようにしたものであるが、次に、ピッチパターン内において特にアクセント型に関わる特徴が出現しやすいアクセント核(音程が大きく下がる位置)付近のピッチパターンを重視した類似度情報からユーザの発声のアクセント型を判別する実施の形態を示す。
【0035】
図10はこの発明の実施の形態3に係るアクセント型推定装置の構成を示す図である。
ピッチパターン照合部16は、前記ピッチパターン抽出部12からの入力ピッチパターンと基準ピッチパターン選択部15から出力された複数の基準ピッチパターン各々との類似度を計算し、類似度情報としてアクセント核位置推定部19に出力する。
アクセント核位置推定部19は、前記ピッチパターン照合部16からの類似度情報を参照し、入力ピッチパターンのアクセント核位置を推定し、アクセント核位置情報としてピッチパターン詳細照合部20に出力する。
【0036】
ピッチパターン詳細照合部20は、推定されたアクセント核位置付近の入力ピッチパターンと基準ピッチパターンの類似度を計算し、詳細類似度情報としてアクセント型決定部17に出力する。
アクセント型決定部17は、前記ピッチパターン詳細照合部20からの詳細類似度情報を参照し、最も類似度の高い基準ピッチパターンのアクセント型を、ユーザの発声のアクセント型として出力する。その他の構成に関しては、前記実施の形態2と同様である。
【0037】
次に動作について説明する。図11はこの発明の実施の形態3によるアクセント型推定装置の動作を示すフローチャートである。
アクセント核位置推定部19は、ピッチパターン照合部16から入力された類似度情報を参照し、入力ピッチパターンとの類似度が最も高い基準ピッチパターンを検索し、検索された基準ピッチパターンのアクセント核位置付近に入力ピッチパターンのアクセント核が存在すると推定し、検索された基準ピッチパターンのアクセント核位置を入力ピッチパターンのアクセント核位置情報としてピッチパターン詳細照合部20へ出力する(ステップST6)。
なお、ここでは入力ピッチパターンとの類似度が最も高い基準ピッチパターンのアクセント核位置を基に入力ピッチパターンのアクセント核位置を推定したが、前記実施の形態1のアクセント型決定部と同様に、類似度上位の複数個の基準ピッチパターンからアクセント核位置を推定しても良く、その効果は前記実施の形態1で示したとおりである。
【0038】
ピッチパターン詳細照合部20は、アクセント核位置推定部19から入力されたアクセント核位置情報を参照し、アクセント核があると推定された付近の入力ピッチパターンと基準ピッチパターンの類似度を再計算し、詳細類似度情報としてアクセント型決定部17へ出力する(ステップST7)。
アクセント核付近の類似度をアクセント型推定に用いることで、アクセント核付近以外のピッチパターン形状の差が原因でアクセント型推定を誤ることが軽減される。例えば図12のように、アクセント型の特徴とは関係が薄い語頭のピッチ形状が他のピッチパターンと大きく異なる基準ピッチパターンが選択されていた場合、ピッチパターン全体で類似度を計算すると他の型の基準ピッチパターンとの類似度の方が高く、別のアクセント型と誤判別されていたのに対し、アクセント核付近のみで類似度計算することで正しいアクセント型に判別されるようになる。
なお、アクセント核があると推定された付近の類似度を再計算しているが、アクセント核位置付近の重みを大きくしてピッチパターン全体の類似度を再計算しても良い。
他の動作に関しては、前記実施の形態2と同様である。
【0039】
以上のように本実施の形態3では、ピッチパターン内において特にアクセント型に関わる特徴が出現しやすい(抑揚が大きく変化する)アクセント核付近のピッチパターンの類似度を重視してアクセント型を推定するように構成したので、アクセント核付近以外のピッチパターン形状の差が原因でアクセント型推定を誤ることが軽減され、アクセント型推定精度を改善できるという効果がある。また、アクセント核が無声的な発声のため、ピッチパターンが抽出できない場合にも、アクセント型に関わる特徴が出現しやすい(抑揚が大きく変化する)アクセント核付近の有声的な発声に着目して類似度を計算することで、アクセント型推定精度を改善できるという効果がある。
なお、本実施の形態3では肉声ピッチパターンコーパスを利用した実施の形態2に係る構成を説明したが、実施の形態1で述べた基準ピッチパターンを利用した構成としても良い。
【0040】
実施の形態4.
上記の実施の形態1乃至実施の形態3では、ユーザの発声とモーラ数の一致する基準ピッチパターンを選択し、類似度の計算を行い、アクセント型を判別するようにしたものであるが、次に、ユーザの発声と比較してモーラ数が異なる基準ピッチパターンを選択し、類似度の計算を行い、アクセント型の判別をする実施の形態を示す。
【0041】
図13はこの発明の実施の形態4に係るアクセント型推定装置の構成を示す図である。
言語情報入力部13は、音声入力部11から音声データを入力し、図示されていないメモリからなる言語情報記憶部から、ユーザの発声内容に関する言語情報を入力し、基準ピッチパターン選択部15及びピッチパターンシフト照合部21に出力する。
ピッチパターンシフト照合部21は、基準ピッチパターン選択部15から出力された基準ピッチパターンをシフトさせながら前記ピッチパターン抽出部12からの入力ピッチパターンとの類似度を計算し、基準ピッチパターンごとに、類似度が最も高かったシフト位置及びそのシフト位置での類似度をシフト位置付き類似度情報としてアクセント型決定部17に出力する。
アクセント型決定部17は、前記シフト位置付き類似度情報を参照し最も類似度の高い基準ピッチパターン及びシフト位置のアクセント核の位置をユーザの発声のアクセント核の位置とし、その場合におけるアクセント型を、ユーザの発声のアクセント型として出力する。
その他の構成に関しては、前記実施の形態2と同様である。
【0042】
次に動作について説明する。図14はこの発明の実施の形態4によるアクセント型推定装置の動作を示すフローチャートである。
基準ピッチパターン選択部15は、言語情報入力部13から入力された発声内容に関する言語情報(例えばモーラ数など)を基に、肉声ピッチパターンコーパス18内のピッチパターンから、アクセント型ごとに複数の肉声ピッチパターンを選択して、基準ピッチパターンとしてピッチパターン照合部16へ出力する(ステップST8)。
【0043】
基準ピッチパターンとしての肉声ピッチパターン選択時に、言語情報から得られたユーザの発声のモーラ数が大きいなどして、そのモーラ数の肉声ピッチパターンが肉声ピッチパターンコーパス18内に存在しない、あるいはデータ数量が少ない場合に、データ量が多い別のモーラ数の肉声ピッチパターンを基準ピッチパターンとして選択する。
例えば、類似度計算に十分な基準ピッチパターンのデータ量として基準ピッチパターン最低データ量を予め指定し、前記基準ピッチパターン最低データ量以上のデータ量が基準ピッチパターンコーパス(肉声ピッチパターンコーパス18)内に含まれるモーラ数で、入力ピッチパターンのモーラ数に最も近いモーラ数である基準ピッチパターン(肉声ピッチパターン)から選択する。
【0044】
あるいは、入力ピッチパターンのモーラ数に最も近いモーラ数に限定せず、前記基準ピッチパターン最低データ量以上のデータ量が得られるモーラ数である基準ピッチパターン(肉声ピッチパターン)から選択しても良い。{例えば入力ピッチパターンが9モーラで、9モーラの基準ピッチパターン(肉声ピッチパターン)のデータ量が基準ピッチパターン最低データ量に届かず、8モーラ及び7モーラの基準ピッチパターン(肉声ピッチパターン)のデータ量が基準ピッチパターン最低データ量以上の時、7モーラの基準ピッチパターン(肉声ピッチパターン)のデータ量が入力ピッチパターンのモーラ数に最も近い8モーラの基準ピッチパターン(肉声ピッチパターン)のデータ量と比べて非常に多ければ、7モーラの基準ピッチパターン(肉声ピッチパターン)から選択しても良い。}
【0045】
また、基準ピッチパターン最低データ量を指定するのではなく、類似度計算に十分なデータ量が得られるモーラ数の最大値として基準ピッチパターン最大モーラ数を予め指定し、入力ピッチパターンのモーラ数が前記基準ピッチパターン最大モーラ数を超える場合には、モーラ数が基準ピッチパターン最大モーラ数である基準ピッチパターンから選択するようにしても良い。あるいは、モーラ数が基準ピッチパターン最大モーラ数以下である基準ピッチパターンから選択するようにしても良い。また、選択される基準ピッチパターンのモーラ数が全て同一としなくても良い。
【0046】
また、語頭にアクセント核がある場合と、語中、語末にアクセント核がある場合、また平板型の場合とでアクセント核付近のピッチパターンの形状は異なるため、語頭、語中、語末のそれぞれの環境に適した基準ピッチパターンを用意する。
ピッチパターンシフト照合部21は、言語情報入力部13から入力された言語情報から入力ピッチパターンのモーラ数を得て、基準ピッチパターン(肉声ピッチパターン)のモーラ数と一致する場合には、実施の形態2におけるステップST2と同様の処理で類似度を算出し、アクセント型決定部17へ出力する。基準ピッチパターン(肉声ピッチパターン)のモーラ数が入力ピッチパターンのモーラ数と一致しない場合には、図15に示すとおり基準ピッチパターン(肉声ピッチパターン)の中でも特にアクセント型に関わる特徴が出現しやすい(抑揚が大きく変化する)アクセント核付近のピッチパターンをシフトさせながら入力ピッチパターンとの類似度を計算し、基準ピッチパターン(肉声ピッチパターン)ごとに、類似度が最も高かったシフト位置及びそのシフト位置での類似度をシフト位置付き類似度情報としてアクセント型決定部17へ出力する。(ステップST9)。
【0047】
アクセント型決定部17は、ピッチパターンシフト照合部21から入力されたシフト位置付き類似度情報を参照し、入力ピッチパターンとの類似度が最も高いシフト位置における基準ピッチパターンのアクセント核の位置を入力ピッチパターンのアクセント核の位置とし、その場合におけるアクセント型を、ユーザの発声のアクセント型として出力する(ステップST10)。
他の動作に関しては、前記実施の形態2と同様である。
【0048】
以上のように本実施の形態4では、入力ピッチパターンのモーラ数が大きいなどで、肉声ピッチパターンコーパス18内にそのモーラ数の肉声ピッチパターンが存在しない、あるいはデータ数が少ない場合において、別のモーラ数の肉声ピッチパターンを基準ピッチパターンとして選び、その基準ピッチパターンのアクセント核付近のピッチパターンをシフトさせながら類似度を計算し、入力ピッチパターンのアクセント核位置及びアクセント型を推定するように構成したので、基準ピッチパターンコーパスや肉声ピッチパターンコーパスに含まれない、あるいはデータ数の少ないモーラ数の入力ピッチパターンに対しても、データ数が十分に多いモーラ数の基準ピッチパターンを代用することで、基準ピッチパターンの精度を落とさずアクセント型の推定を行うことができ、アクセント型が誤判別されるのを抑制できるという効果がある。
なお、本実施の形態4では肉声ピッチパターンコーパスを利用した実施の形態2に係る構成を説明したが、実施の形態1で述べた基準ピッチパターンを利用した構成としても良く、実施の形態3で述べた詳細類似度情報を利用した構成としても良い。
【産業上の利用可能性】
【0049】
この発明を用いるアクセント型推定技術は、音声合成装置において、より自然な音声を生成するためにアクセントを付与する際のアクセント型を推定する装置として利用される可能性がある。
【符号の説明】
【0050】
11;音声入力部、12;ピッチパターン抽出部、13;言語情報入力部、14;基準ピッチパターンコーパス、15;基準ピッチパターン選択部、16;ピッチパターン照合部、17;アクセント型決定部、18;肉声ピッチパターンコーパス、19;アクセント核位置推定部、20;ピッチパターン詳細照合部、21;ピッチパターンシフト照合部。

【特許請求の範囲】
【請求項1】
音声を入力し、音声データを出力する音声入力手段と、
音声の言語情報を入力する言語情報入力手段と、
前記音声データからピッチパターンを抽出し、入力ピッチパターンとして出力するピッチパターン抽出手段と、
アクセント型ごとに生成、または複数ピッチパターンの平均化により生成された基準ピッチパターンがアクセント型ごとに複数個格納された基準ピッチパターンコーパスと、
前記言語情報を入力し、言語情報を基に基準ピッチパターンコーパスから、前記入力ピッチパターンのアクセント型推定に利用する基準ピッチパターンをアクセント型ごとに複数個ずつ選択する基準ピッチパターン選択手段と、
前記入力ピッチパターンと前記選択されたアクセント型ごとの複数個の基準ピッチパターンを入力し、その類似度を計算して類似度情報として出力するピッチパターン照合手段と、
前記類似度情報を参照して入力ピッチパターンと最も類似する基準ピッチパターンを検出し、その基準ピッチパターンのアクセント型を入力ピッチパターンのアクセント型として出力するアクセント型決定部と
を備えるアクセント型推定装置。
【請求項2】
前記アクセント型決定部に代え、前記ピッチパターン照合手段からの類似度情報を参照して入力ピッチパターンと類似度の高い複数の基準ピッチパターンのアクセント型の情報を基に入力ピッチパターンのアクセント型を推定し出力する構成にされたアクセント型決定部を備える請求項1記載のアクセント型推定装置。
【請求項3】
前記基準ピッチパターンコーパスに代えて、人間の発声した音声データから予め抽出し、アクセント型ごとに複数の肉声ピッチパターンを基準ピッチパターンとして格納した肉声ピッチパターンコーパス
を備える請求項1または請求項2記載のアクセント型推定装置。
【請求項4】
前記類似度情報を参照して入力ピッチパターンと類似する基準ピッチパターンのアクセント核位置を検出し、アクセント核位置情報として出力するアクセント核位置推定手段と、
前記アクセント核位置情報を参照して、アクセント核付近のピッチパターンから類似度を計算して詳細類似度情報として前記アクセント型決定部に出力するピッチパターン詳細照合手段と、
前記詳細類似度情報を参照して入力ピッチパターンと類似する基準ピッチパターンのアクセント型を検出し、入力ピッチパターンのアクセント型として出力するアクセント型決定部
を備える請求項1乃至請求項3の何れか1項に記載のアクセント型推定装置。
【請求項5】
前記入力ピッチパターンと前記選択された基準ピッチパターンと前記言語情報を入力し、入力ピッチパターンのモーラ数と選択された基準ピッチパターンのモーラ数を前記言語情報から得、この両者のモーラ数が異なる場合に基準ピッチパターンのアクセント核付近のピッチパターンをシフトさせながら類似度を計算し、シフト量と類似度をシフト位置付き類似度情報として出力するピッチパターンシフト照合手段と、
前記シフト位置付き類似度情報を参照して入力ピッチパターンと類似する基準ピッチパターンのアクセント核位置を検出して入力ピッチパターンのアクセント核位置であるとし、入力ピッチパターンのアクセント型を出力するアクセント型決定部
を備える請求項4記載のアクセント型推定装置。
【請求項6】
音声からの音声データを音声入力手段により入力する音声入力工程と、
前記音声の言語情報を言語情報入力手段より入力する言語情報入力工程と、
前記音声データからピッチパターンを抽出し、入力ピッチパターンとして出力するピッチパターン抽出工程と、
アクセント型ごとに生成、または複数ピッチパターンの平均化により生成された基準ピッチパターンがアクセント型ごとに複数個格納された基準ピッチパターンコーパスより、前記言語情報入力工程から入力された、言語情報を基に前記入力ピッチパターンのアクセント型推定に利用する基準ピッチパターンをアクセント型ごとに複数個ずつ選択する基準ピッチパターン選択工程と、
前記入力ピッチパターンと前記選択されたアクセント型ごとの複数個の基準ピッチパターンを入力し、その類似度を計算して類似度情報として出力するピッチパターン照合工程と、
前記類似度情報を参照して入力ピッチパターンと最も類似する基準ピッチパターンのアクセント型を検出し、入力ピッチパターンのアクセント型として出力するアクセント型決定工程と
を備えるアクセント型推定方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2012−189703(P2012−189703A)
【公開日】平成24年10月4日(2012.10.4)
【国際特許分類】
【出願番号】特願2011−51828(P2011−51828)
【出願日】平成23年3月9日(2011.3.9)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】