文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
【課題】
複数の文から抽出した情報を利用して発話スタイルを推定する文書読み上げ支援装置を提供することである。
【解決手段】
実施形態の文書読み上げ支援装置は、学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、読み上げ対象となる文書を取得する文書取得手段と、前記文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出手段と、前記素性情報抽出手段で抽出された複数文の素性情報と前記モデル格納手段に格納されたモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定手段とを備える。
複数の文から抽出した情報を利用して発話スタイルを推定する文書読み上げ支援装置を提供することである。
【解決手段】
実施形態の文書読み上げ支援装置は、学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、読み上げ対象となる文書を取得する文書取得手段と、前記文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出手段と、前記素性情報抽出手段で抽出された複数文の素性情報と前記モデル格納手段に格納されたモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定手段とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラムに関する。
【背景技術】
【0002】
近年、音声合成システムを用いて電子書籍データを音声波形に変換し、オーディオブックとして聴取する方法が提案されている。この方法によれば、任意の文書を音声波形に変換することができ、ユーザは電子書籍データを朗読音声で楽しむことができる。
【0003】
音声波形による文書の読み上げを支援するために、テキストを音声波形に変換する際の発話スタイルを自動的に付与する方法が提案されている。例えば、単語と感情の対応付けが定義された感情辞書を参照し、読み上げ対象となる文に含まれる単語に感情の種類(喜び、怒りなど)とレベルを割り当て、その割り当て結果を集計することで当該文に対する発話スタイルを推定する技術がある。
【0004】
しかしながら、この技術では、単文から抽出した単語情報しか用いておらず隣接する文との関係(文脈)を考慮していなかった。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−264284号公報
【特許文献2】特開平8−248971号広報
【発明の概要】
【発明が解決しようとする課題】
【0006】
発明が解決しようとする課題は、複数の文から抽出した情報を利用することにより、文脈を考慮した発話スタイルを推定する文書読み上げ支援装置を提供することである。
【課題を解決するための手段】
【0007】
実施形態の文書読み上げ支援装置は、学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、読み上げ対象となる文書を取得する文書取得手段と、前記文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出手段と、前記素性情報抽出手段で抽出された複数文の素性情報と前記モデル格納手段に格納されたモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定手段とを備える。
【図面の簡単な説明】
【0008】
【図1】第1の実施形態の文書読み上げ支援装置を示すブロック図。
【図2】実施形態の文書読み上げ支援装置のフローチャート。
【図3】実施形態の素性情報を抽出するフローチャート。
【図4】実施形態の素性情報を示す図。
【図5】実施形態の発話スタイルを抽出するフローチャート。
【図6】実施形態の素性ベクトルを示す図。
【図7】実施形態の素性ベクトルを連結するフローチャート。
【図8】実施形態の発話スタイルを示す図。
【図9】実施形態の発話スタイル推定モデルを示す図。
【図10】実施形態の音声合成のパラメータを選択するフローチャート。
【図11】実施形態の重要度判別に使用する階層構造を示す図。
【図12】音声キャラクタを提示する際のユーザインタフェース。
【図13】素性情報・発話スタイルと、音声キャラクタの対応付けを示す図。
【図14】変形例1の音声合成のパラメータを示す図。
【図15】変形例2のXML形式の文書を示す図。
【図16】変形例2の書式情報を示す図。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面を参照しながら説明する。
【0010】
(第1の実施形態)
第1の実施形態の文書読み上げ支援装置は、複数の文から抽出した情報を利用して各文を音声波形に変換する際の発話スタイルを推定する。まず、文書読み上げ支援装置は、各文のテキスト表記から素性(そせい)情報を抽出する。素性情報は、文に対して形態素解析や係り受け解析を適用して抽出した品詞や係り受け等の文法情報を表している。次に、文書読み上げ支援装置は、読み上げ対象となる文およびその前後に隣接する文から抽出した素性情報を利用して、感情、口調、性別、年齢などの発話スタイルを推定する。発話スタイルの推定には、予め学習したモデル(発話スタイル推定モデル)と複数文の素性情報との照合結果を用いる。最後に、文書読み上げ支援装置は、当該発話スタイルに適合する音声合成のパラメータ(例えば、音声キャラクタ、音量、話速、ピッチなど)を選択して音声合成器に出力する。
【0011】
このように、本実施形態の文書読み上げ支援装置は、前後に隣接する文を含む複数の文から抽出した素性情報を利用して感情などの発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。
【0012】
(構成)
図1は、第1の実施形態にかかる文書読み上げ支援装置を示すブロック図である。本実施形態の文書読み上げ支援装置は、予め学習した発話スタイル推定モデルを格納するHDD(Hard Disk Drive)等のモデル格納部105と、文書を取得する文書取得部101と、前記文書取得部101で取得された文書の各文から素性情報を抽出する素性情報抽出部102と、読み上げ対象となる文およびその前後に隣接する複数の文から抽出した素性情報とモデル格納部105に格納された発話スタイル推定モデルとを照合して、前記各文を音声波形に変換する際の発話スタイルを推定する発話スタイル推定部103と、前記発話スタイル推定部103で選択された発話スタイルに適合する音声合成のパラメータ選択する合成パラメータ選択部104とを備える。
【0013】
(全体のフローチャート)
図2は、本実施形態にかかる文書読み上げ支援装置のフローチャートである。
【0014】
まず、ステップS21では、文書取得部101は、読み上げ対象となる文書を取得する。ここで、文書は、空行やインデントが保持されたプレーンテキスト形式のほか、HTMLやXMLなど文書の論理要素に関する書式情報がタグで与えられたものも含む。
【0015】
ステップS22では、素性情報抽出部102は、プレーンテキストの各文あるいはHTMLやXMLの各テキストノードから素性情報を抽出する。素性情報は、品詞や文タイプ、係り受け等の文法情報を表しており、各文あるいはテキストノードに対して形態素解析や係り受け解析を適用して抽出する。
【0016】
ステップS23では、発話スタイル推定部103は、素性情報抽出部102で抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定する。本実施形態が対象とする発話スタイルは、感情、口調、性別、年齢であり、モデル格納部105に格納された発話スタイル推定モデルと複数文から抽出した素性情報の照合結果を用いて推定する。
【0017】
ステップS24では、合成パラメータ推定部104は、前述までのステップで推定した発話スタイルに適合する音声合成のパラメータを選択する。本実施形態で対象とする音声合成のパラメータは、音声キャラクタ、音量、話速、ピッチなどである。
【0018】
最後に、ステップS25では、音声合成のパラメータと読み上げ対象文を対応付けて音声合成器(図示なし)に出力する。
【0019】
(ステップS22について)
図3のフローチャートを参照して、文書の各文から素性情報を抽出するステップS22の詳細を説明する。なお、ここでの説明は、ステップS21においてプレーンテキスト形式の文書が入力されたものとして行う。
【0020】
まず、図3のステップS31では、素性情報抽出部102は、文書に含まれる各文を取得する。文の切り出しには、句点(。)やカギカッコ(「」)などの情報を用いることができる。例えば、句点(。)と句点(。)で囲まれた区間、カギカッコ(「)と句点(。)で囲まれた区間を一文として切り出すことができる。
【0021】
ステップS32の形態素解析では、文に含まれる単語とその品詞を抽出する。
【0022】
ステップS33の固有表現抽出処理では、形態素解析結果である品詞列や文字列の出現パターンを利用して、一般的な人名(姓・名)や地名、組織名、数量・金額・日付表現などを抽出する。出現パターンは、手作業で作成するほか、学習用の文書をもとに特定の固有表現が出現する条件を学習して作成することができる。抽出結果は、固有表現ラベル(人名や場所など)とそれに対応する文字列のペアから成る。また、このステップでは、カギカッコ(「」)などの情報から文タイプを抽出することもできる。
【0023】
ステップS34の係り受け解析処理では、形態素解析結果を利用して文節間の係り受け関係を抽出する。
【0024】
ステップS35の口語フレーズ取得では、口語フレーズおよびそれに対応する属性を取得する。このステップでは、予め口語調のフレーズ表現(文字列)とその属性とを対応付けた口語フレーズ辞書を用いる。口語フレーズ辞書は、「だよね」と「若者、両性」、「だわ」と「若者、女性」、「くれよ」と「若者、男性」、「じゃのう」と「老人、男性」といった対応付けを有している。文に含まれる表現が口語フレーズ辞書にマッチした場合は、それぞれの表現と対応する属性を出力する。
【0025】
最後に、ステップS36では、全ての文の処理が終了したか否かを判別し、終了していなければステップS32に進む。
【0026】
図4は、以上の処理を用いて抽出した素性情報の例を示している。例えば、ID4の文からは、動詞フレーズとして「過ぎるんですよ」を、副詞として「だいたい」および「つい」を、接続詞として「だって」を抽出できる。また、ID4の表記に含まれるカギカッコ(」)から、文タイプとして「セリフ」を抽出できる。その他、口語フレーズとして「ですよ」を、係り受け情報(主語)として「先輩は」を抽出できる。
【0027】
(ステップS23について)
図5のフローチャートを参照して、複数文の素性情報から発話スタイルを推定するステップS23の詳細を説明する。
【0028】
まず、図5のステップS51では、発話スタイル推定部103は、各文から抽出した素性情報をN次元の素性ベクトルに変換する。図6に、ID4の素性ベクトルを示す。素性情報から素性ベクトルへの変換は、素性情報の各項目の有無もしくは項目ごとに蓄積されたデータ(蓄積データ)とのマッチングにより行う。例えば、図6においてID4の文は未知語を有していないため、この項目に対応する素性ベクトルの要素には「0」を割り当てる。また、副詞については、蓄積データとのマッチングによって素性ベクトルの要素を割り当てる。例えば、図6の蓄積データ601を有していた場合、各インデックス番号の表現が副詞に含まれているか否かに応じて素性ベクトルの要素を決定する。この例では、「だいたい」と「つい」がID4の副詞に含まれていることから、このインデックスに対応する素性ベクトルの要素に「1」を、それ以外の要素に「0」を割り当てる。
【0029】
素性情報の各項目に対する蓄積データは、予め用意した学習用の文書を用いて生成することができる。例えば、副詞の蓄積データを生成する場合、素性情報抽出部102と同様な処理によって学習用の文書から副詞を抽出する。そして、抽出した副詞をユニークにソート(同じ表記を1つにまとめてソート)して、それぞれの副詞に固有のインデックス番号を付与することで蓄積データを生成できる。
【0030】
次に、ステップS52では、前後に隣接する文の素性ベクトル(N次元)を連結して、3N次元の素性ベクトルを生成する。図7のフローチャートを参照して、ステップS52の詳細を説明する。まず、文のID順に素性ベクトルを取り出す(ステップS71)。次に、ステップS72では、取り出した素性ベクトルが最初の文から抽出されたものであるか否かを判別し、最初の文である場合はi-1番目の素性ベクトルとしてN次元の値に所定値(例えば{0, 0, 0, …, 0}など)を設定する(ステップS73)。一方、最初の文でない場合は、ステップS74に進む。ステップS74では、素性ベクトルが最後の文から抽出されたものであるか否かを判別し、最後の文である場合は、i+1番目の素性ベクトルとしてN次元の値に所定値(例えば{1, 1, 1, …, 1}など)を設定する(ステップS75)。一方、最後の文でない場合は、ステップS76に進む。ステップS76では、i-1番目、i番目、i+1番目の素性ベクトルを連結して3N次元の素性ベクトルを生成する。最後に、ステップS77では、全IDの素性ベクトルについて連結処理が終了したか否かを判定する。以上の処理により、例えば、ID4の文が読み上げ対象となる場合は、ID4だけでなく隣接するID3およびID5の素性ベクトルを連結した3N次元の素性ベクトルを利用して発話スタイルを推定することができる。
【0031】
このように、本実施形態では、読み上げ対象となる文だけでなくその前後に隣接する複数文から抽出した素性ベクトルを連結している。これにより、文脈を加味した素性ベクトルを生成することができる。
【0032】
なお、連結する文は隣接する1つの文に限らず、例えば、前後それぞれ2以上の文を連結したり、読み上げ対象となる文と同一パラグラフや同一章に出現する文から抽出した素性ベクトルを連結したりすることができる。
【0033】
次に、図5のステップS53では、連結した素性ベクトルとモデル格納部105に格納された発話スタイル推定モデルを照合して、各文の発話スタイルを推定する。図8に、連結後の素性ベクトルから推定した発話スタイルを示す。この例では、発話スタイルとして、感情、口調、性別、年齢を推定している。例えば、ID4では、感情として「怒(怒り)」が、口調として「フォーマル」が、性別として「女」が、年齢として「Young」が推定されている。
【0034】
モデル格納部105に格納された発話スタイル推定モデルは、各文に人手で発話スタイル付与した学習用のデータを用いて予め学習しておく。学習時には、まず、連結後の素性ベクトルと人手で付与した発話スタイルのペアで構成される教師データを生成する。図9に教師データの例を示す。そして、この教師データにおける素性ベクトルと発話スタイルの対応付けをNeuralNetworkやSVM、CRFなどで学習する。これにより、素性ベクトルの要素間の重み付けや各発話スタイルの出現確率などを保持した発話スタイル推定モデルを生成することができる。教師データにおける連結後の素性ベクトルの生成には、図7のフローチャートと同様な処理を用いる。本実施形態では、人手で発話スタイルが付与された文および当該文の前後に隣接する文の素性ベクトルを連結する。
【0035】
なお、本実施形態の読み上げ支援装置では、発話スタイル推定モデルを定期的に更新することにより、書籍などに出現する新語や未知語、創作された語などに対応することができる。
【0036】
(ステップS24について)
図10のフローチャートを参照して、推定された発話スタイルに適合した音声合成のパラメータを選択するステップS24の詳細を説明する。
【0037】
まず、図10のステップS1001では、前述までの処理で得られた各文の素性情報および発話スタイルを取得する。
【0038】
次に、ステップS1002では、取得した素性情報および発話スタイルから重要度が高い項目を選択する。この処理では、図11に示すような素性情報および発話スタイルの各項目(文タイプ、年齢、性別、口調)に関する階層構造を予め定義しておく。そして、各項目に属する全ての要素(例えば、項目「性別」であれば「男」、「女」)が読み上げ対象となる文書の素性情報あるいは発話スタイルとして出現する場合は、当該項目の重要度は高いと判別する。一方、出現しない要素がある場合は、当該項目の重要度は低いと判別する。例えば、図4および図8の例では、図11に示す項目のうち「文タイプ」、「性別」、「口調」については全ての要素が素性情報または発話スタイルとして出現していることから、当該項目の重要度は高いと判別される。一方、項目「年齢」については、「Adult」が図8の発話スタイルに出現していないことから、重要度が低いと判別される。重要度が高いと判別された項目が複数個ある場合は、より下位の層(数字の低い層)に位置する項目の重要度の方が高いと判別する。また、同じ階層間では、各層の左に位置する項目の重要度の方が高いと判別する。上述した例では、「文タイプ」、「性別」、「口調」のうち、最終的に「文タイプ」の重要度が最も高いと判別される。
【0039】
ステップS1003では、発話スタイル推定部103は、ステップS1002で重要度が高いと判別された項目の要素に適合する音声合成のパラメータを選択してユーザに提示する。本実施形態では、音声合成のパラメータのうち音声キャラクタを選択する例について説明する。
【0040】
図12(a)は、異なる声質を持つ複数の音声キャラクタを示している。音声キャラクタは、本実施形態の文書読み上げ装置を実装した端末上の音声合成器で使用可能なものだけでなく、当該端末からweb経由でアクセスできるSaaS型の音声合成器で使用可能なものであってもよい。
【0041】
図12(b)は、ユーザに音声キャラクタを提示する際のユーザインタフェースである。この図では、読み上げ対象となる「川崎物語」および「武蔵小杉トライアングル」という2つの電子書籍データに対する音声キャラクタの対応付けを示している。なお、「川崎物語」は図4および図8に示した文で構成されるものとする。
【0042】
ステップS1002より、「川崎物語」については、前段までの処理の結果、重要度が高い項目として素性情報の「文タイプ」が選択されている。この場合、「文タイプ」の要素である「セリフ」および「地の文」に対して音声キャラクタが割り当てられる。ここでは、「セリフ」に対しては「Taro」が、「地の文」に対しては「Hana」が第一候補として割り当てられている。また、「武蔵小杉トライアングル」については、重要度が高い項目として発話スタイルの「性別」が選択されており、その要素である「男」、「女」にそれぞれに所望の音声キャラクタが割り当てられている。
【0043】
図13(a)を参照して、重要度が高いと判別された項目の要素と音声キャラクタの対応付けについて説明する。まず、ステップS1301では、ユーザが利用可能な音声キャラクタの特徴をベクトル表記した第1のベクトルを生成する。図13(b)の1305は、音声キャラクタ「Hana」、「Taro」、「Jane」の特徴から生成した第1のベクトルを表している。例えば、音声キャラクタ「Hana」であれば、性別が「女」であるため、「女」に対応するベクトルの要素を「1」に、「男」に対応するベクトルの要素を「0」に設定する。これと同様な処理で、第1のベクトルの他の要素についても「0」もしくは「1」を割り当てる。なお、第1のベクトルはオフラインで事前に生成することもできる。
【0044】
次に、ステップS1302では、図10のステップS1002で重要度が高いと判別された項目の各要素をベクトル表記して第2のベクトルを生成する。図4および図8の例では、項目「文タイプ」の重要度が高いと判別されていることから、この項目の要素である「セリフ」および「地の文」について第2のベクトルを生成する。図13(b)の1306は、これらの項目について生成した第2のベクトルを表している。例えば「セリフ」の場合、図4の文タイプに「セリフ」を持つID1、ID3、ID4およびID6の発話スタイルを用いて第2のベクトルを生成する。これらの文の性別には、男女どちらも含まれるため、性別に対応するベクトルの要素は「*」(不定)とする。年齢については、すべての文が「Young」であるため、「Young」に対応する要素には「1」を、「Adult」に対応するベクトルの要素には「0」を割り当てる。以上の処理を他の項目についても繰り返すことにより、第2のベクトルを生成することができる。
【0045】
次に、ステップS1303では、第2のベクトルに最も類似する第1のベクトルを探索し、当該第1のベクトルに対応する音声キャラクタを音声合成のパラメータとして選択する。第2のベクトルと第1のベクトルの類似度には、コサイン類似度を用いる。図13(b)は、「セリフ」の第2のベクトルについて類似度を計算した結果、「Taro」の第1のベクトルとの類似度が最も高くなったことを示している。なお、ベクトルの各要素は同じ重み付けである必要はなく、各要素に重みを付けて類似度を計算してもよい。また、要素に不定(「*」)を含む次元は、コサイン類似度を計算する際に除外する。
【0046】
次に、図10のステップS1004では、図12(b)に示すようなユーザインタフェースを介して音声キャラクタの編集の必要性を確認する。編集が不要な場合は(ステップS1004のNo)、処理を終了する。編集が必要な場合は(ステップS1004のYes)、プルダウンメニュー1201によってユーザが所望の音声キャラクタを選択することができる。
【0047】
(ステップS25について)
最後に、図2のステップS25では、端末上の音声合成器あるいはweb経由でアクセスできるSaaS型の音声合成器に、音声キャラクタと各読み上げ対象文を対応付けて出力する。図12(b)の例の場合、ID1、ID3、ID4、ID6の文には音声キャラクタ「Taro」が、ID2、ID5、ID7の文には音声キャラクタ「Hana」が対応付けられており、音声合成器は、それぞれの文に応じた音声キャラクタを用いてこれらのテキストを音声波形に変換する。
【0048】
(効果)
このように、本実施形態にかかる文書読み上げ支援装置は、文書に含まれる複数の文から抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。
【0049】
また、本実施形態にかかる文書読み上げ支援装置は、発話スタイルを推定するためのモデル(発話スタイル推定モデル)を用いて読み上げ対象となる文の発話スタイルを推定している。これにより、発話スタイル推定モデルを更新するだけで、書籍に出現する新語や未知語、創作された語などに対応することができる。
【0050】
(変形例1)
以上の実施形態では、音声合成のパラメータとして音声合成のキャラクタを選択したが、音量、話速、ピッチなどを音声合成のパラメータとして選択することもできる。図14に、図8の発話スタイルに対して選択した音声合成のパラメータを示す。この例では、予め準備した所定のヒューリスティックを用いて音声合成のパラメータを付与している。例えば、音声キャラクタについては、発話スタイルの性別が「男」の文には「Taro」を、「女」の文には「Hana」を、その他の文には「Jane」を一律に付与することをルールとして持つことができる。また、音量については、感情が「恥」の文は「小さく」、「怒」の文は「大きく」、それ他の文は「ノーマル」のように選択することができる。この他にも、感情が「恥」の文は、話速を「速く」かつピッチを「高く」のような選択をすることができる。音声合成器は、これら選択された音声合成のパラメータを利用して各文を音声波形に変換する。
【0051】
(変形例2)
文書取得部101が取得した文書がXMLやHTMLである場合は、各文に対応付けられている要素名(タグ名)や属性名、属性値など、文書の論理要素に関する書式情報を素性情報の一つとして抽出することができる。例えば、同じ「はじめに」という文字列でも、「<title>はじめに</titile>」「<div class=”h1”>はじめに</div>」などの大見出し、「<h2>はじめに</h2>」「<li>はじめに</li>」などの見出し・箇条書きリスト、「<backquote>はじめに</backquote>」などの引用タグ、<section_body>などの節構造の本文に相当する場合がある。このように、書式情報を素性情報として抽出することにより、各文の状況に応じた発話スタイルを推定することができる。
【0052】
図15は文書取得部101が取得したXML文書の例を、図16は当該XML文書から抽出した書式情報を表している。本変形例では、書式情報を素性情報の1つとして利用して発話スタイルを推定する。これにより、”subsection_title”を書式情報として持つ文と”orderedlist”を書式情報として持つ文の口調を切り替えるなど、各文の状況を考慮した発話スタイルを推定することができる。
【0053】
なお、プレーンテキストの場合であっても、インデントとして適用されているスペースの数やタブの数の違いを素性情報として抽出することができる。また、行冒頭に出現する特徴的な文字列(例えば、”第1章”、”(1)”、”1:”、”[I]”、など)の番号と<chapter>や<section>、<li>などを対応付けることにより、素性情報としてXMLやHTMLなどのような書式情報を抽出することができる。
【0054】
(変形例3)
以上の実施形態では、発話スタイル推定モデルをNeuralNetworkやSVM、CRFなどで学習したが、学習方法はこれに限られない。例えば、素性情報の「文タイプ」が「地の文」である場合の「感情」は「平(感情なし)」、のようなヒューリスティックを学習用の文書から決定してもよい。
【0055】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0056】
101 文書取得部
102 素性情報抽出部
103 発話スタイル推定部
104 合成パラメータ選択部
105 モデル格納部
601 副詞の蓄積データ
1201 プルダウンメニュー
1305 第1のベクトル
1306 第2のベクトル
【技術分野】
【0001】
本発明の実施形態は、文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラムに関する。
【背景技術】
【0002】
近年、音声合成システムを用いて電子書籍データを音声波形に変換し、オーディオブックとして聴取する方法が提案されている。この方法によれば、任意の文書を音声波形に変換することができ、ユーザは電子書籍データを朗読音声で楽しむことができる。
【0003】
音声波形による文書の読み上げを支援するために、テキストを音声波形に変換する際の発話スタイルを自動的に付与する方法が提案されている。例えば、単語と感情の対応付けが定義された感情辞書を参照し、読み上げ対象となる文に含まれる単語に感情の種類(喜び、怒りなど)とレベルを割り当て、その割り当て結果を集計することで当該文に対する発話スタイルを推定する技術がある。
【0004】
しかしながら、この技術では、単文から抽出した単語情報しか用いておらず隣接する文との関係(文脈)を考慮していなかった。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−264284号公報
【特許文献2】特開平8−248971号広報
【発明の概要】
【発明が解決しようとする課題】
【0006】
発明が解決しようとする課題は、複数の文から抽出した情報を利用することにより、文脈を考慮した発話スタイルを推定する文書読み上げ支援装置を提供することである。
【課題を解決するための手段】
【0007】
実施形態の文書読み上げ支援装置は、学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、読み上げ対象となる文書を取得する文書取得手段と、前記文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出手段と、前記素性情報抽出手段で抽出された複数文の素性情報と前記モデル格納手段に格納されたモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定手段とを備える。
【図面の簡単な説明】
【0008】
【図1】第1の実施形態の文書読み上げ支援装置を示すブロック図。
【図2】実施形態の文書読み上げ支援装置のフローチャート。
【図3】実施形態の素性情報を抽出するフローチャート。
【図4】実施形態の素性情報を示す図。
【図5】実施形態の発話スタイルを抽出するフローチャート。
【図6】実施形態の素性ベクトルを示す図。
【図7】実施形態の素性ベクトルを連結するフローチャート。
【図8】実施形態の発話スタイルを示す図。
【図9】実施形態の発話スタイル推定モデルを示す図。
【図10】実施形態の音声合成のパラメータを選択するフローチャート。
【図11】実施形態の重要度判別に使用する階層構造を示す図。
【図12】音声キャラクタを提示する際のユーザインタフェース。
【図13】素性情報・発話スタイルと、音声キャラクタの対応付けを示す図。
【図14】変形例1の音声合成のパラメータを示す図。
【図15】変形例2のXML形式の文書を示す図。
【図16】変形例2の書式情報を示す図。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面を参照しながら説明する。
【0010】
(第1の実施形態)
第1の実施形態の文書読み上げ支援装置は、複数の文から抽出した情報を利用して各文を音声波形に変換する際の発話スタイルを推定する。まず、文書読み上げ支援装置は、各文のテキスト表記から素性(そせい)情報を抽出する。素性情報は、文に対して形態素解析や係り受け解析を適用して抽出した品詞や係り受け等の文法情報を表している。次に、文書読み上げ支援装置は、読み上げ対象となる文およびその前後に隣接する文から抽出した素性情報を利用して、感情、口調、性別、年齢などの発話スタイルを推定する。発話スタイルの推定には、予め学習したモデル(発話スタイル推定モデル)と複数文の素性情報との照合結果を用いる。最後に、文書読み上げ支援装置は、当該発話スタイルに適合する音声合成のパラメータ(例えば、音声キャラクタ、音量、話速、ピッチなど)を選択して音声合成器に出力する。
【0011】
このように、本実施形態の文書読み上げ支援装置は、前後に隣接する文を含む複数の文から抽出した素性情報を利用して感情などの発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。
【0012】
(構成)
図1は、第1の実施形態にかかる文書読み上げ支援装置を示すブロック図である。本実施形態の文書読み上げ支援装置は、予め学習した発話スタイル推定モデルを格納するHDD(Hard Disk Drive)等のモデル格納部105と、文書を取得する文書取得部101と、前記文書取得部101で取得された文書の各文から素性情報を抽出する素性情報抽出部102と、読み上げ対象となる文およびその前後に隣接する複数の文から抽出した素性情報とモデル格納部105に格納された発話スタイル推定モデルとを照合して、前記各文を音声波形に変換する際の発話スタイルを推定する発話スタイル推定部103と、前記発話スタイル推定部103で選択された発話スタイルに適合する音声合成のパラメータ選択する合成パラメータ選択部104とを備える。
【0013】
(全体のフローチャート)
図2は、本実施形態にかかる文書読み上げ支援装置のフローチャートである。
【0014】
まず、ステップS21では、文書取得部101は、読み上げ対象となる文書を取得する。ここで、文書は、空行やインデントが保持されたプレーンテキスト形式のほか、HTMLやXMLなど文書の論理要素に関する書式情報がタグで与えられたものも含む。
【0015】
ステップS22では、素性情報抽出部102は、プレーンテキストの各文あるいはHTMLやXMLの各テキストノードから素性情報を抽出する。素性情報は、品詞や文タイプ、係り受け等の文法情報を表しており、各文あるいはテキストノードに対して形態素解析や係り受け解析を適用して抽出する。
【0016】
ステップS23では、発話スタイル推定部103は、素性情報抽出部102で抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定する。本実施形態が対象とする発話スタイルは、感情、口調、性別、年齢であり、モデル格納部105に格納された発話スタイル推定モデルと複数文から抽出した素性情報の照合結果を用いて推定する。
【0017】
ステップS24では、合成パラメータ推定部104は、前述までのステップで推定した発話スタイルに適合する音声合成のパラメータを選択する。本実施形態で対象とする音声合成のパラメータは、音声キャラクタ、音量、話速、ピッチなどである。
【0018】
最後に、ステップS25では、音声合成のパラメータと読み上げ対象文を対応付けて音声合成器(図示なし)に出力する。
【0019】
(ステップS22について)
図3のフローチャートを参照して、文書の各文から素性情報を抽出するステップS22の詳細を説明する。なお、ここでの説明は、ステップS21においてプレーンテキスト形式の文書が入力されたものとして行う。
【0020】
まず、図3のステップS31では、素性情報抽出部102は、文書に含まれる各文を取得する。文の切り出しには、句点(。)やカギカッコ(「」)などの情報を用いることができる。例えば、句点(。)と句点(。)で囲まれた区間、カギカッコ(「)と句点(。)で囲まれた区間を一文として切り出すことができる。
【0021】
ステップS32の形態素解析では、文に含まれる単語とその品詞を抽出する。
【0022】
ステップS33の固有表現抽出処理では、形態素解析結果である品詞列や文字列の出現パターンを利用して、一般的な人名(姓・名)や地名、組織名、数量・金額・日付表現などを抽出する。出現パターンは、手作業で作成するほか、学習用の文書をもとに特定の固有表現が出現する条件を学習して作成することができる。抽出結果は、固有表現ラベル(人名や場所など)とそれに対応する文字列のペアから成る。また、このステップでは、カギカッコ(「」)などの情報から文タイプを抽出することもできる。
【0023】
ステップS34の係り受け解析処理では、形態素解析結果を利用して文節間の係り受け関係を抽出する。
【0024】
ステップS35の口語フレーズ取得では、口語フレーズおよびそれに対応する属性を取得する。このステップでは、予め口語調のフレーズ表現(文字列)とその属性とを対応付けた口語フレーズ辞書を用いる。口語フレーズ辞書は、「だよね」と「若者、両性」、「だわ」と「若者、女性」、「くれよ」と「若者、男性」、「じゃのう」と「老人、男性」といった対応付けを有している。文に含まれる表現が口語フレーズ辞書にマッチした場合は、それぞれの表現と対応する属性を出力する。
【0025】
最後に、ステップS36では、全ての文の処理が終了したか否かを判別し、終了していなければステップS32に進む。
【0026】
図4は、以上の処理を用いて抽出した素性情報の例を示している。例えば、ID4の文からは、動詞フレーズとして「過ぎるんですよ」を、副詞として「だいたい」および「つい」を、接続詞として「だって」を抽出できる。また、ID4の表記に含まれるカギカッコ(」)から、文タイプとして「セリフ」を抽出できる。その他、口語フレーズとして「ですよ」を、係り受け情報(主語)として「先輩は」を抽出できる。
【0027】
(ステップS23について)
図5のフローチャートを参照して、複数文の素性情報から発話スタイルを推定するステップS23の詳細を説明する。
【0028】
まず、図5のステップS51では、発話スタイル推定部103は、各文から抽出した素性情報をN次元の素性ベクトルに変換する。図6に、ID4の素性ベクトルを示す。素性情報から素性ベクトルへの変換は、素性情報の各項目の有無もしくは項目ごとに蓄積されたデータ(蓄積データ)とのマッチングにより行う。例えば、図6においてID4の文は未知語を有していないため、この項目に対応する素性ベクトルの要素には「0」を割り当てる。また、副詞については、蓄積データとのマッチングによって素性ベクトルの要素を割り当てる。例えば、図6の蓄積データ601を有していた場合、各インデックス番号の表現が副詞に含まれているか否かに応じて素性ベクトルの要素を決定する。この例では、「だいたい」と「つい」がID4の副詞に含まれていることから、このインデックスに対応する素性ベクトルの要素に「1」を、それ以外の要素に「0」を割り当てる。
【0029】
素性情報の各項目に対する蓄積データは、予め用意した学習用の文書を用いて生成することができる。例えば、副詞の蓄積データを生成する場合、素性情報抽出部102と同様な処理によって学習用の文書から副詞を抽出する。そして、抽出した副詞をユニークにソート(同じ表記を1つにまとめてソート)して、それぞれの副詞に固有のインデックス番号を付与することで蓄積データを生成できる。
【0030】
次に、ステップS52では、前後に隣接する文の素性ベクトル(N次元)を連結して、3N次元の素性ベクトルを生成する。図7のフローチャートを参照して、ステップS52の詳細を説明する。まず、文のID順に素性ベクトルを取り出す(ステップS71)。次に、ステップS72では、取り出した素性ベクトルが最初の文から抽出されたものであるか否かを判別し、最初の文である場合はi-1番目の素性ベクトルとしてN次元の値に所定値(例えば{0, 0, 0, …, 0}など)を設定する(ステップS73)。一方、最初の文でない場合は、ステップS74に進む。ステップS74では、素性ベクトルが最後の文から抽出されたものであるか否かを判別し、最後の文である場合は、i+1番目の素性ベクトルとしてN次元の値に所定値(例えば{1, 1, 1, …, 1}など)を設定する(ステップS75)。一方、最後の文でない場合は、ステップS76に進む。ステップS76では、i-1番目、i番目、i+1番目の素性ベクトルを連結して3N次元の素性ベクトルを生成する。最後に、ステップS77では、全IDの素性ベクトルについて連結処理が終了したか否かを判定する。以上の処理により、例えば、ID4の文が読み上げ対象となる場合は、ID4だけでなく隣接するID3およびID5の素性ベクトルを連結した3N次元の素性ベクトルを利用して発話スタイルを推定することができる。
【0031】
このように、本実施形態では、読み上げ対象となる文だけでなくその前後に隣接する複数文から抽出した素性ベクトルを連結している。これにより、文脈を加味した素性ベクトルを生成することができる。
【0032】
なお、連結する文は隣接する1つの文に限らず、例えば、前後それぞれ2以上の文を連結したり、読み上げ対象となる文と同一パラグラフや同一章に出現する文から抽出した素性ベクトルを連結したりすることができる。
【0033】
次に、図5のステップS53では、連結した素性ベクトルとモデル格納部105に格納された発話スタイル推定モデルを照合して、各文の発話スタイルを推定する。図8に、連結後の素性ベクトルから推定した発話スタイルを示す。この例では、発話スタイルとして、感情、口調、性別、年齢を推定している。例えば、ID4では、感情として「怒(怒り)」が、口調として「フォーマル」が、性別として「女」が、年齢として「Young」が推定されている。
【0034】
モデル格納部105に格納された発話スタイル推定モデルは、各文に人手で発話スタイル付与した学習用のデータを用いて予め学習しておく。学習時には、まず、連結後の素性ベクトルと人手で付与した発話スタイルのペアで構成される教師データを生成する。図9に教師データの例を示す。そして、この教師データにおける素性ベクトルと発話スタイルの対応付けをNeuralNetworkやSVM、CRFなどで学習する。これにより、素性ベクトルの要素間の重み付けや各発話スタイルの出現確率などを保持した発話スタイル推定モデルを生成することができる。教師データにおける連結後の素性ベクトルの生成には、図7のフローチャートと同様な処理を用いる。本実施形態では、人手で発話スタイルが付与された文および当該文の前後に隣接する文の素性ベクトルを連結する。
【0035】
なお、本実施形態の読み上げ支援装置では、発話スタイル推定モデルを定期的に更新することにより、書籍などに出現する新語や未知語、創作された語などに対応することができる。
【0036】
(ステップS24について)
図10のフローチャートを参照して、推定された発話スタイルに適合した音声合成のパラメータを選択するステップS24の詳細を説明する。
【0037】
まず、図10のステップS1001では、前述までの処理で得られた各文の素性情報および発話スタイルを取得する。
【0038】
次に、ステップS1002では、取得した素性情報および発話スタイルから重要度が高い項目を選択する。この処理では、図11に示すような素性情報および発話スタイルの各項目(文タイプ、年齢、性別、口調)に関する階層構造を予め定義しておく。そして、各項目に属する全ての要素(例えば、項目「性別」であれば「男」、「女」)が読み上げ対象となる文書の素性情報あるいは発話スタイルとして出現する場合は、当該項目の重要度は高いと判別する。一方、出現しない要素がある場合は、当該項目の重要度は低いと判別する。例えば、図4および図8の例では、図11に示す項目のうち「文タイプ」、「性別」、「口調」については全ての要素が素性情報または発話スタイルとして出現していることから、当該項目の重要度は高いと判別される。一方、項目「年齢」については、「Adult」が図8の発話スタイルに出現していないことから、重要度が低いと判別される。重要度が高いと判別された項目が複数個ある場合は、より下位の層(数字の低い層)に位置する項目の重要度の方が高いと判別する。また、同じ階層間では、各層の左に位置する項目の重要度の方が高いと判別する。上述した例では、「文タイプ」、「性別」、「口調」のうち、最終的に「文タイプ」の重要度が最も高いと判別される。
【0039】
ステップS1003では、発話スタイル推定部103は、ステップS1002で重要度が高いと判別された項目の要素に適合する音声合成のパラメータを選択してユーザに提示する。本実施形態では、音声合成のパラメータのうち音声キャラクタを選択する例について説明する。
【0040】
図12(a)は、異なる声質を持つ複数の音声キャラクタを示している。音声キャラクタは、本実施形態の文書読み上げ装置を実装した端末上の音声合成器で使用可能なものだけでなく、当該端末からweb経由でアクセスできるSaaS型の音声合成器で使用可能なものであってもよい。
【0041】
図12(b)は、ユーザに音声キャラクタを提示する際のユーザインタフェースである。この図では、読み上げ対象となる「川崎物語」および「武蔵小杉トライアングル」という2つの電子書籍データに対する音声キャラクタの対応付けを示している。なお、「川崎物語」は図4および図8に示した文で構成されるものとする。
【0042】
ステップS1002より、「川崎物語」については、前段までの処理の結果、重要度が高い項目として素性情報の「文タイプ」が選択されている。この場合、「文タイプ」の要素である「セリフ」および「地の文」に対して音声キャラクタが割り当てられる。ここでは、「セリフ」に対しては「Taro」が、「地の文」に対しては「Hana」が第一候補として割り当てられている。また、「武蔵小杉トライアングル」については、重要度が高い項目として発話スタイルの「性別」が選択されており、その要素である「男」、「女」にそれぞれに所望の音声キャラクタが割り当てられている。
【0043】
図13(a)を参照して、重要度が高いと判別された項目の要素と音声キャラクタの対応付けについて説明する。まず、ステップS1301では、ユーザが利用可能な音声キャラクタの特徴をベクトル表記した第1のベクトルを生成する。図13(b)の1305は、音声キャラクタ「Hana」、「Taro」、「Jane」の特徴から生成した第1のベクトルを表している。例えば、音声キャラクタ「Hana」であれば、性別が「女」であるため、「女」に対応するベクトルの要素を「1」に、「男」に対応するベクトルの要素を「0」に設定する。これと同様な処理で、第1のベクトルの他の要素についても「0」もしくは「1」を割り当てる。なお、第1のベクトルはオフラインで事前に生成することもできる。
【0044】
次に、ステップS1302では、図10のステップS1002で重要度が高いと判別された項目の各要素をベクトル表記して第2のベクトルを生成する。図4および図8の例では、項目「文タイプ」の重要度が高いと判別されていることから、この項目の要素である「セリフ」および「地の文」について第2のベクトルを生成する。図13(b)の1306は、これらの項目について生成した第2のベクトルを表している。例えば「セリフ」の場合、図4の文タイプに「セリフ」を持つID1、ID3、ID4およびID6の発話スタイルを用いて第2のベクトルを生成する。これらの文の性別には、男女どちらも含まれるため、性別に対応するベクトルの要素は「*」(不定)とする。年齢については、すべての文が「Young」であるため、「Young」に対応する要素には「1」を、「Adult」に対応するベクトルの要素には「0」を割り当てる。以上の処理を他の項目についても繰り返すことにより、第2のベクトルを生成することができる。
【0045】
次に、ステップS1303では、第2のベクトルに最も類似する第1のベクトルを探索し、当該第1のベクトルに対応する音声キャラクタを音声合成のパラメータとして選択する。第2のベクトルと第1のベクトルの類似度には、コサイン類似度を用いる。図13(b)は、「セリフ」の第2のベクトルについて類似度を計算した結果、「Taro」の第1のベクトルとの類似度が最も高くなったことを示している。なお、ベクトルの各要素は同じ重み付けである必要はなく、各要素に重みを付けて類似度を計算してもよい。また、要素に不定(「*」)を含む次元は、コサイン類似度を計算する際に除外する。
【0046】
次に、図10のステップS1004では、図12(b)に示すようなユーザインタフェースを介して音声キャラクタの編集の必要性を確認する。編集が不要な場合は(ステップS1004のNo)、処理を終了する。編集が必要な場合は(ステップS1004のYes)、プルダウンメニュー1201によってユーザが所望の音声キャラクタを選択することができる。
【0047】
(ステップS25について)
最後に、図2のステップS25では、端末上の音声合成器あるいはweb経由でアクセスできるSaaS型の音声合成器に、音声キャラクタと各読み上げ対象文を対応付けて出力する。図12(b)の例の場合、ID1、ID3、ID4、ID6の文には音声キャラクタ「Taro」が、ID2、ID5、ID7の文には音声キャラクタ「Hana」が対応付けられており、音声合成器は、それぞれの文に応じた音声キャラクタを用いてこれらのテキストを音声波形に変換する。
【0048】
(効果)
このように、本実施形態にかかる文書読み上げ支援装置は、文書に含まれる複数の文から抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。
【0049】
また、本実施形態にかかる文書読み上げ支援装置は、発話スタイルを推定するためのモデル(発話スタイル推定モデル)を用いて読み上げ対象となる文の発話スタイルを推定している。これにより、発話スタイル推定モデルを更新するだけで、書籍に出現する新語や未知語、創作された語などに対応することができる。
【0050】
(変形例1)
以上の実施形態では、音声合成のパラメータとして音声合成のキャラクタを選択したが、音量、話速、ピッチなどを音声合成のパラメータとして選択することもできる。図14に、図8の発話スタイルに対して選択した音声合成のパラメータを示す。この例では、予め準備した所定のヒューリスティックを用いて音声合成のパラメータを付与している。例えば、音声キャラクタについては、発話スタイルの性別が「男」の文には「Taro」を、「女」の文には「Hana」を、その他の文には「Jane」を一律に付与することをルールとして持つことができる。また、音量については、感情が「恥」の文は「小さく」、「怒」の文は「大きく」、それ他の文は「ノーマル」のように選択することができる。この他にも、感情が「恥」の文は、話速を「速く」かつピッチを「高く」のような選択をすることができる。音声合成器は、これら選択された音声合成のパラメータを利用して各文を音声波形に変換する。
【0051】
(変形例2)
文書取得部101が取得した文書がXMLやHTMLである場合は、各文に対応付けられている要素名(タグ名)や属性名、属性値など、文書の論理要素に関する書式情報を素性情報の一つとして抽出することができる。例えば、同じ「はじめに」という文字列でも、「<title>はじめに</titile>」「<div class=”h1”>はじめに</div>」などの大見出し、「<h2>はじめに</h2>」「<li>はじめに</li>」などの見出し・箇条書きリスト、「<backquote>はじめに</backquote>」などの引用タグ、<section_body>などの節構造の本文に相当する場合がある。このように、書式情報を素性情報として抽出することにより、各文の状況に応じた発話スタイルを推定することができる。
【0052】
図15は文書取得部101が取得したXML文書の例を、図16は当該XML文書から抽出した書式情報を表している。本変形例では、書式情報を素性情報の1つとして利用して発話スタイルを推定する。これにより、”subsection_title”を書式情報として持つ文と”orderedlist”を書式情報として持つ文の口調を切り替えるなど、各文の状況を考慮した発話スタイルを推定することができる。
【0053】
なお、プレーンテキストの場合であっても、インデントとして適用されているスペースの数やタブの数の違いを素性情報として抽出することができる。また、行冒頭に出現する特徴的な文字列(例えば、”第1章”、”(1)”、”1:”、”[I]”、など)の番号と<chapter>や<section>、<li>などを対応付けることにより、素性情報としてXMLやHTMLなどのような書式情報を抽出することができる。
【0054】
(変形例3)
以上の実施形態では、発話スタイル推定モデルをNeuralNetworkやSVM、CRFなどで学習したが、学習方法はこれに限られない。例えば、素性情報の「文タイプ」が「地の文」である場合の「感情」は「平(感情なし)」、のようなヒューリスティックを学習用の文書から決定してもよい。
【0055】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0056】
101 文書取得部
102 素性情報抽出部
103 発話スタイル推定部
104 合成パラメータ選択部
105 モデル格納部
601 副詞の蓄積データ
1201 プルダウンメニュー
1305 第1のベクトル
1306 第2のベクトル
【特許請求の範囲】
【請求項1】
学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、
読み上げ対象となる文書を取得する文書取得手段と、
前記文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出手段と、
前記素性情報抽出手段で抽出された複数文の素性情報と前記モデル格納手段に格納されたモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定手段と、
を備える文書読み上げ支援装置。
【請求項2】
前記モデル格納手段に格納されたモデルを学習する際に使用した前記複数文の素性情報が、発話スタイルが対応付けられた学習対象の文から抽出された素性情報を含み、
前記発話スタイル推定手段における前記複数文の素性情報が、発話スタイルの推定対象となる文から抽出された素性情報を含む請求項1記載の文書読み上げ支援装置。
【請求項3】
前記モデル格納手段に格納されたモデルを学習する際に使用した前記複数文の素性情報が、発話スタイルが対応付けられた学習対象の文および当該文の前後に隣接する文から抽出された素性情報であり、
前記発話スタイル推定手段における前記複数文の素性情報が、発話スタイルの推定対象となる文および当該文の前後に隣接する文から抽出された素性情報である請求項1記載の文書読み上げ支援装置。
【請求項4】
前記素性情報が、前記文書から抽出した書式情報を含む請求項1から請求項3の何れか1項に記載の文書読み上げ支援装置。
【請求項5】
前記発話スタイルが、性別、年齢、口調、感情のうちの少なくとも1つまたはその組み合わせである請求項1から請求項4の何れか1項に記載の文書読み上げ支援装置。
【請求項6】
前記発話スタイル推定手段で推定された発話スタイルに適合する音声合成のパラメータを選択する合成パラメータ選択手段を更に備える請求項1から請求項5の何れか1項に記載の文書読み上げ支援装置。
【請求項7】
前記合成パラメータ選択手段で選択される合成パラメータが、音声キャラクタ、音量、話速、ピッチのうちの少なくとも1つまたはその組み合わせである請求項6記載の文書読み上げ支援装置。
【請求項8】
読み上げ対象となる文書を取得する文書取得工程と、
前記文書取得工程で取得した文書の各文から素性情報を抽出する素性情報抽出工程と、
前記素性情報抽出工程で抽出した複数文の素性情報と、学習用の文書から抽出した複数文の素性情報と発話スタイルの対応付けを学習したモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定工程と、
を備える文書読み上げ支援方法。
【請求項9】
文書読み上げ支援装置に、
読み上げ対象となる文書を取得する文書取得工程と、
前記文書取得工程で取得した文書の各文から素性情報を抽出する素性情報抽出工程と、
前記素性情報抽出工程で抽出した複数文の素性情報と、学習用の文書から抽出した複数文の素性情報と発話スタイルの対応付けを学習したモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定工程と、
を実現させるための文書読み上げ支援プログラム。
【請求項1】
学習用の文書から抽出された複数文の素性情報と発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、
読み上げ対象となる文書を取得する文書取得手段と、
前記文書取得手段で取得された文書の各文から素性情報を抽出する素性情報抽出手段と、
前記素性情報抽出手段で抽出された複数文の素性情報と前記モデル格納手段に格納されたモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定手段と、
を備える文書読み上げ支援装置。
【請求項2】
前記モデル格納手段に格納されたモデルを学習する際に使用した前記複数文の素性情報が、発話スタイルが対応付けられた学習対象の文から抽出された素性情報を含み、
前記発話スタイル推定手段における前記複数文の素性情報が、発話スタイルの推定対象となる文から抽出された素性情報を含む請求項1記載の文書読み上げ支援装置。
【請求項3】
前記モデル格納手段に格納されたモデルを学習する際に使用した前記複数文の素性情報が、発話スタイルが対応付けられた学習対象の文および当該文の前後に隣接する文から抽出された素性情報であり、
前記発話スタイル推定手段における前記複数文の素性情報が、発話スタイルの推定対象となる文および当該文の前後に隣接する文から抽出された素性情報である請求項1記載の文書読み上げ支援装置。
【請求項4】
前記素性情報が、前記文書から抽出した書式情報を含む請求項1から請求項3の何れか1項に記載の文書読み上げ支援装置。
【請求項5】
前記発話スタイルが、性別、年齢、口調、感情のうちの少なくとも1つまたはその組み合わせである請求項1から請求項4の何れか1項に記載の文書読み上げ支援装置。
【請求項6】
前記発話スタイル推定手段で推定された発話スタイルに適合する音声合成のパラメータを選択する合成パラメータ選択手段を更に備える請求項1から請求項5の何れか1項に記載の文書読み上げ支援装置。
【請求項7】
前記合成パラメータ選択手段で選択される合成パラメータが、音声キャラクタ、音量、話速、ピッチのうちの少なくとも1つまたはその組み合わせである請求項6記載の文書読み上げ支援装置。
【請求項8】
読み上げ対象となる文書を取得する文書取得工程と、
前記文書取得工程で取得した文書の各文から素性情報を抽出する素性情報抽出工程と、
前記素性情報抽出工程で抽出した複数文の素性情報と、学習用の文書から抽出した複数文の素性情報と発話スタイルの対応付けを学習したモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定工程と、
を備える文書読み上げ支援方法。
【請求項9】
文書読み上げ支援装置に、
読み上げ対象となる文書を取得する文書取得工程と、
前記文書取得工程で取得した文書の各文から素性情報を抽出する素性情報抽出工程と、
前記素性情報抽出工程で抽出した複数文の素性情報と、学習用の文書から抽出した複数文の素性情報と発話スタイルの対応付けを学習したモデルとを照合して、前記各文の発話スタイルを推定する発話スタイル推定工程と、
を実現させるための文書読み上げ支援プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2012−198277(P2012−198277A)
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願番号】特願2011−60702(P2011−60702)
【出願日】平成23年3月18日(2011.3.18)
【出願人】(000003078)株式会社東芝 (54,554)
【公開日】平成24年10月18日(2012.10.18)
【国際特許分類】
【出願日】平成23年3月18日(2011.3.18)
【出願人】(000003078)株式会社東芝 (54,554)
[ Back to top ]