説明

音声合成装置、音声合成方法、および音声合成用プログラム

【課題】合成音声を聞いたユーザが、その合成音声に対応づけられたオブジェクトとの位置関係やそのオブジェクトの状況や発話の意図を想起しやすい合成音声を生成する。
【解決手段】合成パラメータ決定部21は、少なくとも方向C、距離r、相対角度のいずれか、またはその組み合わせによって示される位置関係もしくはオブジェクト01の周囲の環境に応じて、音声合成パラメータを決定する。音声合成部22は、合成パラメータ決定部21が決定した合成音声パラメータに従って、オブジェクト01に対応づける音声を合成する。合成パラメータ決定部21は、例えば、所定の制御方針に基づき各入力パラメータの値に対応する合成音声パラメータの値を登録したパラメータ決定テーブルを備え、各入力パラメータの値に応じてパラメータ決定テーブルを参照することによって、合成音声パラメータを決定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成技術に関し、特に、ロボットやゲームキャラクタ等の物理的な音声発声器官を持たないオブジェクトに対応づけた音声を合成する音声合成技術に関する。
【背景技術】
【0002】
例えば、特許文献1には、発話オブジェクトと視聴者とが共に同じ方向を向いている場合に、音声合成の出力をLPFに通して高域を抑制することで、互いに向き合っている場合の発声音よりも不明瞭にする技術が記載されている。
【0003】
また、特許文献2には、ウェブページの内容を発話する際に、現在の読み上げ位置が全体のどれくらいの割合かによって、音声の高低や、長さ、強さ等の音の属性を変化させる技術が記載されている。
【0004】
また、特許文献3には、案内対象物までの距離を的確に把握させるために、距離と方位とを仰角と水平角とに変換して、立体音響を生成する技術が記載されている。
【0005】
また、一般に、楽器などのオブジェクトの位置を立体音響の位置情報に対応させるといった立体音響技術が知られている。
【0006】
【特許文献1】特開2006−109295号公報
【特許文献2】特開2006−171544号公報
【特許文献3】特開2005−333621号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、合成音声の多くは、口の動きなどの物理現象と直接対応しないことが多いため、ユーザが合成音声とその合成音声に対応づけられているオブジェクトとをうまく関連付けられない場合がある。
【0008】
例えば、音声合成機能を有するロボットがある平面上を動いている時、ロボットが合成音声を発声し、同じ平面上に居る人間であるところのユーザはその声を聞くことができる。ところが、ロボットは口を持っていなかったり、人間の口とは音響放射特性の異なるスピーカから合成音声を出力したりするので、ユーザはロボットの声から位置の情報を把握しづらいという問題がある。
【0009】
また、ロボットとユーザとの位置関係が異なっても合成音声の聞こえ方が同じであると、情報伝達の意図が不明確になってしまうという問題がある。例えば、ロボットとユーザとが向き合っているからうれしさを表現したいときと、ロボットとユーザが遠く離れているから寂しさを表現したいときとで同じ調子で発声したのでは、ロボットが何をつたえたいのかが不明瞭になってしまう。
【0010】
こうした問題は、ロボットに限らず、おもちゃ、携帯電話機、パソコンなど、存在位置が常に固定でない物体(オブジェクト)に対応づけた合成音声についても、同様に生じ得る問題である。なお、ビデオゲームのキャラクタなどの仮想空間上のオブジェクトに対応づけた合成音声については、そのオブジェクトが物理的な実体を持たない為に、上述したような物理的な実体を持つオブジェクトに対応づけた合成音声以上に不明確となる。
【0011】
そこで、本発明は、合成音声を聞いたユーザが、その合成音声に対応づけられたオブジェクトとの位置関係やそのオブジェクトの状況や発話の意図を想起しやすい合成音声を生成することができる音声合成装置、音声合成方法、および音声合成用プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明による音声合成装置は、オブジェクトに対応づけた音声を合成する音声合成装置であって、オブジェクトを観察する主体であるユーザと前記オブジェクトの位置関係に応じて、前記オブジェクトに対応づけた音声として、どのような合成音声を生成するかを示す音声合成パラメータを変化させる合成パラメータ決定部と、前記合成パラメータ決定部が変化させた音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する音声合成部とを備えたことを特徴とする。
【0013】
また、合成パラメータ決定部は、ユーザとオブジェクトを結ぶ線と予め定められた設定方法に従って定められる所定の方向基準とのなす角で示されるユーザとオブジェクトの位置関係に応じて、音声合成パラメータを変化させてもよい。
【0014】
また、合成パラメータ決定部は、ユーザとオブジェクトを結ぶ線と予め定められた設定方法に従って定められる所定の方向基準とのなす角で示されるユーザとオブジェクトとの位置方向、ユーザとオブジェクトとの間の距離、ユーザの正面方向とオブジェクトの正面方向とによる相対角度のいずれかまたはその組み合わせによって示されるユーザとオブジェクトとの位置関係に応じて、音声合成パラメータを変化させてもよい。
【0015】
また、音声合成装置は、オブジェクトの周囲の環境に応じて、前記オブジェクトに対応づけられる音声として、どのような合成音声を生成するかを示す合成パラメータを変化させる合成パラメータ決定部と、前記合成パラメータ決定部が変化させた音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する音声合成部とを備えていてもよい。
【0016】
また、音声合成装置は、オブジェクトを観察する主体であるユーザと前記オブジェクトの位置関係と、前記オブジェクトの周囲の環境とに応じて、前記オブジェクトに対応づけられる音声として、どのような合成音声を生成するかを示す合成パラメータを変化させる合成パラメータ決定部と、前記合成パラメータ決定部が変化させた音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する音声合成部とを備えていてもよい。
【0017】
また、合成パラメータ決定部は、少なくとも周囲の明るさ、周囲の音の大きさ、近傍に他のオブジェクトが存在するか否か、当該オブジェクトに接しているまたは当該オブジェクトが保有している他のオブジェクトの種類のいずれかによって示されるオブジェクトの周囲の環境に応じて、音声合成パラメータを変化させてもよい。
【0018】
また、合成パラメータ決定部は、音声合成パラメータとして、声質、発話速度、声の大きさのいずれかを変化させてもよい。
【0019】
また、合成パラメータ決定部は、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定し、音声合成部は、前記合成パラメータ決定部によって決定される詳細度に従って、前記オブジェクトの発話内容が示されたテキストを要約する発話テキスト編集部と、前記発話テキスト編集部によって要約されたテキストを発話内容とする合成音声を生成するテキスト音声合成部とを含んでいてもよい。
【0020】
また、合成パラメータ決定部は、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定し、音声合成部は、前記合成パラメータ決定部によって決定される詳細度に従って、与えられた事項が発話内容として表現されたテキストを生成する発話テキスト生成部と、前記発話テキスト生成部によって生成されたテキストを発話内容とする合成音声を生成するテキスト音声合成部とを含んでいてもよい。
【0021】
また、合成パラメータ決定部は、オブジェクトとは独立した位置から合成音声が出力されることを前提にして、合成音声パラメータを変化させてもよい。
【0022】
また、合成パラメータ決定部は、ユーザの近傍から合成音声が出力されることを前提にして、合成音声パラメータを変化させてもよい。
【0023】
また、方向基準として、ユーザが向いている方向を用いてもよい。
【0024】
また、方向基準として、ユーザの視線方向を用いてもよい。
【0025】
また、合成パラメータ決定部は、オブジェクトがユーザの正面方向に近いか否かに応じて、声質を変化させてもよい。
【0026】
また、合成パラメータ決定部は、オブジェクトがユーザの正面方向に近いか否かに応じて、音の大きさを変化させてもよい。
【0027】
また、合成パラメータ決定部は、方向基準として絶対方向を用いることによって極座標系で表現される位置関係によって特定されるオブジェクトの周囲の環境に応じて、合成音声パラメータを変化させてもよい。
【0028】
また、合成パラメータ決定部は、位置関係が所定の条件を満たしている場合にのみ、周囲の環境に応じて、合成音声パラメータを変化させてもよい。
【0029】
また、合成パラメータ決定部は、合成音声を対応づけるオブジェクトが仮想空間上にのみ存在する仮想オブジェクトである場合に、合成音声パラメータをより極端に変化させてもよい。
【0030】
また、合成パラメータ決定部は、オブジェクトがユーザの正面方向に近いか否かに応じて、詳細度を変化させてもよい。
【0031】
また、合成パラメータ決定部は、オブジェクトがユーザの正面方向に近いか否かに応じて、詳細度および発話速度を変化させてもよい。
【0032】
また、本発明による音声合成方法は、オブジェクトに対応づけた音声を合成するための音声合成方法であって、オブジェクトを観察する主体であるユーザと前記オブジェクトの位置関係に応じて、前記オブジェクトに対応づけた音声として、どのような合成音声を生成するかを示す音声合成パラメータを変化させ、変化させた前記音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成することを特徴とする。
【0033】
また、音声合成方法は、ユーザとオブジェクトを結ぶ線と予め定められた設定方法に従って定められる所定の方向基準とのなす角で示されるユーザとオブジェクトとの位置方向、ユーザとオブジェクトとの間の距離、ユーザの正面方向とオブジェクトの正面方向とによる相対角度のいずれかまたはその組み合わせによって示されるユーザとオブジェクトとの位置関係に応じて、音声合成パラメータを変化させてもよい。
【0034】
また、音声合成方法は、オブジェクトの周囲の環境に応じて、音声合成パラメータを変化させ、変化させた前記音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成してもよい。
【0035】
また、音声合成方法は、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定し、前記決定された詳細度に従って、前記オブジェクトの発話内容が示されたテキストを要約し、前記要約されたテキストを発話内容とする合成音声を生成してもよい。
【0036】
また、音声合成方法は、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定し、前記決定された詳細度に従って、与えられた事項が発話内容として表現されたテキストを生成し、前記生成されたテキストを発話内容とする合成音声を生成してもよい。
【0037】
また、本発明による音声合成用プログラムは、オブジェクトに対応づけた音声を合成するための音声合成用プログラムであって、コンピュータに、オブジェクトを観察する主体であるユーザと前記オブジェクトの位置関係に応じて、前記オブジェクトに対応づけた音声として、どのような合成音声を生成するかを示す音声合成パラメータを変化させるパラメータ決定処理、および変化させた前記音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する合成処理を実行させることを特徴とする。
【0038】
また、音声合成用プログラムは、コンピュータに、パラメータ決定処理で、ユーザとオブジェクトを結ぶ線と予め定められた設定方法に従って定められる所定の方向基準とのなす角で示されるユーザとオブジェクトとの位置方向、ユーザとオブジェクトとの間の距離、ユーザの正面方向とオブジェクトの正面方向とによる相対角度のいずれかまたはその組み合わせによって示されるユーザとオブジェクトとの位置関係に応じて、音声合成パラメータを変化させてもよい。
【0039】
また、音声合成用プログラムは、コンピュータに、オブジェクトの周囲の環境に応じて、前記オブジェクトに対応づけた音声として、どのような合成音声を生成するかを示す音声合成パラメータを変化させるパラメータ決定処理、および変化させた前記音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する音声合成処理を実行させてもよい。
【0040】
また、音声合成用プログラムは、コンピュータに、パラメータ決定処理で、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定させ、音声合成処理で、前記決定された詳細度に従って、前記オブジェクトの発話内容が示されたテキストを要約させて、前記要約されたテキストを発話内容とする合成音声を生成させてもよい。
【0041】
また、音声合成用プログラムは、コンピュータに、パラメータ決定処理で、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定させ、音声合成処理で、前記決定された詳細度に従って、与えられた事項が発話内容として表現されたテキストを生成させ、前記生成されたテキストを発話内容とする合成音声を生成させてもよい。
【発明の効果】
【0042】
第1の効果は、合成パラメータ決定部がユーザとオブジェクトの位置関係または周囲の環境に応じて合成音声のパラメータを変化させるので、生成される合成音声に対応づけられたオブジェクトを的確に表現することができ、ユーザが、合成音声とオブジェクトとの結び付きを理解しやすくする。
【0043】
第2の効果は、ユーザに対し、生成される合成音声に対応づけられたオブジェクトとの位置関係や状況や、合成音声による情報伝達の意図をわかりやすく提示することができる。
【0044】
第3の効果は、たとえ合成音声に対応づけられたオブジェクトがユーザの視野に直接入っていない場合でも、視野に入っているのと同様に、ユーザにそのオブジェクトとの位置関係や状況、合成音声による情報伝達の意図を想起させることができる。
【発明を実施するための最良の形態】
【0045】
以下、本発明の実施の形態を図面を参照して説明する。
【0046】
実施の形態1.
図1は、本発明の第1の実施の形態による音声合成装置の構成例を示すブロック図である。図1に示すように、本実施の形態による音声合成装置は、方向入力手段11と、距離入力手段12と、合成パラメータ決定部21と、音声合成部22とを備える。
【0047】
ここで、本施の形態における位置関係を以下のように定める。図2は、本実施の形態におけるオブジェクト01とユーザ02との位置関係を定義した説明図である。ここで、ユーザ02は、オブジェクト01を観察する主体である。また、オブジェクト01は、本音声合成装置が合成する音声を発生元として対応づけられているオブジェクトであって、ここでは実体をもったロボットを想定している。こうした実体を持つオブジェクトには、ロボットだけでなく、おもちゃや携帯電話機なども該当し、これらを実体オブジェクトと呼ぶこととする。なお、図2に示す例では、オブジェクト01に対応づけられた合成音声は、オブジェクト01が備えるスピーカ装置などの合成音声出力部03によって、オブジェクト01と同じ位置から出力される。音声合成装置は、例えば、実体オブジェクトの音声出力用装置として、オブジェクト01に組み込まれた形態で実現されたり、実体オブジェクトを展示している部屋のスピーカ制御装置に組み込まれた形態で実現されたりする。
【0048】
図2に示すように、本実施の形態では、オブジェクト01とユーザ02との位置関係を、方向Cと距離rとによって定義する。方向Cは、ユーザ02に対して、予め定義しておいた空間上における任意の角度である方向基準C0と、ユーザ02からオブジェクト01が見える方向とのなす角である。距離rは、ユーザ02とオブジェクト01との間の距離で示される情報である。図2では、ユーザ02の正面となる方向を方向基準05とした例を示している。
【0049】
方向入力手段11は、方向Cを入力する。距離入力手段12は、距離rを入力する。処理部13は、オブジェクト01が合成音声を発する際に考慮される条件とする周囲の環境を示す周囲条件を入力する。
【0050】
合成パラメータ決定部21は、方向入力手段11によって入力される方向Cと、距離入力手段12によって入力される距離rと、処理部13によって入力される周囲条件とに基づいて、オブジェクト01に対応づけた合成音声を生成するための音声合成パラメータを決定する。ここで、音声合成パラメータとは、どのような合成音声を生成するかを示すパラメータである。例えば、生成される合成音声に含まれる属性の値を直接示す情報であってもよいし、合成音声に含まれる属性に対し類型化された特徴を示す情報であってもよい。
【0051】
音声合成部22は、合成パラメータ決定部21によって決定される音声合成パラメータに従って、音声を合成する。
【0052】
次に、図3を参照して本実施の形態の動作を説明する。図3は、本実施の形態による音声合成装置の動作例を示すフローチャートである。
【0053】
まず、方向入力手段11、距離入力手段12、周囲条件入力手段13は、それぞれ方向C、距離r、周辺条件を入力する(ステップS101)。
【0054】
方向入力手段11と距離入力手段12とは、例えば、次のように動作する。オブジェクト01およびユーザ02をカメラで撮影した画像データからそれぞれの位置を認識し、方眼紙上に配置することによって、オブジェクト01の平面座標(x1,y1)と、ユーザ02の平面座標(x2,y2)を得る。なお、カメラで撮影する代わりに、GPSやジャイロスコープ(ジャイロセンサ)を用いて座標を特定してもよい。
【0055】
この時、方向入力手段11は、方向Cを、方向基準05が方眼紙上のx軸となす角C0を用いて、以下の式(1)によって求めればよい。
【0056】
C=arctan((y1−y2)/(x1−x2))−C0 ・・・式(1)
【0057】
また、距離入力手段12は、距離rを、以下の式(2)によって求めればよい。
【0058】
【数1】

【0059】
ここでは、オブジェクト01とユーザ02との位置関係を示す情報として、直交座標系における両者の位置座標に基づく方向Cと距離rを用いているが、他の座標系や位置関係を示す尺度を用いてもよい。また、平面上に限らず、立体角など高次においても同様に用いることができる。例えば、後述するように、ユーザ02の正面方向とオブジェクト01の正面方向とによる相対角度Rを用いてもよい。なお、方向Cは、方向基準C0とのなす角によってオブジェクト01とユーザ02との位置方向を示すのに対し、相対角度Rは、オブジェクト01とユーザ02との向き合わせの角度を示すものである。
【0060】
また、周囲条件入力手段13は、周囲条件として、周囲の明るさ、周囲の音パワー(音の大きさ)、近傍に他のオブジェクトが存在するか否か、オブジェクト01に接したり保有している他のオブジェクトの種類等を示す情報を入力する。周囲条件の入力は、例えば、オブジェクト01がフォトダイオードなどの光センサ、マイクロフォンなどの音センサ、マイクロスイッチや焦電素子などの接触センサや非接触センサ、他オブジェクトの保有状況を示す情報を記憶した保有状況テーブルなどを備え、それらセンサからの入力を検出したり、保有状況テーブルを参照することで実現される。
【0061】
次に、合成パラメータ決定部21は、方向入力手段11、距離入力手段12、周囲条件入力手段13によって所定の入力パラメータ(ここでは、方向Cと距離rと周囲条件)が入力されると、それら入力パラメータによって示されるオブジェクト01とユーザ02との位置関係、およびオブジェクト01の周囲の環境に応じて、音声合成パラメータを決定する(ステップS102)。なお、合成音声パラメータの制御方針によっては、方向Cだけや、距離rだけ、周囲条件だけが入力される場合もある。または、オブジェクト01の正面向きとユーザ02の正面向きによる相対角度Rが入力される場合がある。なお、合成パラメータ決定部21は、少なくとも方向C、距離r、相対角度Rのいずれかまたはその組み合わせによって示されるオブジェクト01とユーザ02の位置関係、またはオブジェクト01の周囲の環境に応じて、音声合成パラメータを決定すればよい。
【0062】
合成パラメータ決定部21は、例えば、各入力パラメータの値に対応する合成音声パラメータの値を登録したパラメータ決定テーブルを備え、各入力パラメータの値に応じてパラメータ決定テーブルを参照することによって、合成音声パラメータを決定してもよい。
【0063】
そして、音声合成部22は、合成パラメータ決定部21が決定した合成音声パラメータに従って、オブジェクト01に対応づける音声を合成し、出力する(ステップS103)。
【0064】
次に、具体的な例を示しながら、合成音声パラメータの決定方法について説明する。図4〜図6は、パラメータ決定テーブルの例を示す説明図である。これらのパラメータ決定テーブルでは、オブジェクト01がユーザ02の正面に近ければ近いほど、オブジェクト01に対するユーザ02の興味が強いと想定して、ユーザ02にオブジェクト01の発話内容がはっきり伝わるように制御して(変化させて)いる。一方、オブジェクト01がユーザ02の正面から遠ざかるほど興味が少ないと想定して、オブジェクト01の発声によってユーザ02の意識をあまり邪魔しないように制御している。また、オブジェクトの周囲条件の一つである明るさに対応して、オブジェクトの存在する位置の雰囲気が伝わるように制御している。なお、ユーザ02の正面を基準に方向Cを求める方法については後述する。
【0065】
図4は、方向Cに基づいて声質および発話速度を示す音声合成パラメータを決定するためのパラメータ決定テーブルの例である。図4では、例えば、ユーザ02の正面を方向基準C0とした際の方向C(すなわち、ユーザ02から見たオブジェクト01が位置する方向)が−45〜45度である場合に、声質を「明瞭」、かつ発話速度を「通常」にすることが示されている。また、例えば、45〜90度または−90度〜−45度である場合には、声質を「やや曖昧」、かつ発話速度を「やや速い」にすることが示されている。また、例えば、90〜180度または−180〜−90度である場合には、声質を「モゴモゴ(不明瞭)」、かつ発話速度を「速い」にすることが示されている。
【0066】
また、図5は、距離rに基づいてパワーを示す音声合成パラメータを決定するためのパラメータ決定テーブルの例である。図5では、例えば、オブジェクト01とユーザ02との距離rが、0〜50cmである場合にパワーを「大」、50〜150cmであればパワーを「中」、150cmを超えていればパワーを「小」にすることが示されている。
【0067】
また、図6は、周囲の明るさに基づいて発話の雰囲気を示す音声合成パラメータを決定するためのパラメータ決定テーブルの例である。図6では、例えば、周囲の明るさが明るい場合には「楽しそうな」雰囲気に、暗い場合には「怖がった」雰囲気にすることが示されている。なお、周囲条件は、例えば、オブジェクト01がユーザ02から遠く離れている場合にその様子を伝えるために用いるというように、方向Cや距離rに応じた限定要素として用いることも可能である。
【0068】
例えば、ユーザ02の視線方向とした方向基準C0を座標軸のx軸にとったとして、オブジェクトの位置が(x1,y1)=(20cm,40cm)、ユーザ02の位置が(x2,y2)=(0cm,0cm)、周囲条件が明るいと観測された場合、方向Cは60度、距離r=44.7cmと計算される。この時、図4〜図6に示したパラメータ決定テーブルに基づいて、音声合成パラメータは、声質「やや曖昧」、発話速度「やや速い」、パワー「小」、雰囲気「楽しそうな」が、選択される。これらの音声合成パラメータは、音声合成部22に送られ、該当するパラメータによって合成音声が生成され、出力される。
【0069】
これによって、オブジェクト01がユーザ02から見て斜め60度方向、距離44.7cmの位置に存在するという条件から、ユーザの興味は正面近傍ほど強くないとみなして、「やや曖昧」かつ「やや速い」発声でパワーが「小」の発声を行い、ただしロボットの存在する位置は明るいので「楽しそうな雰囲気」を伝えるように、ユーザとオブジェクトの位置関係に応じた特徴を持つ合成音声が出力される。
【0070】
なお、本例では、方向C、距離r、周囲条件から音声合成パラメータを求める手段として、図4〜図6に示すようなパラメータ決定テーブルを用いる例を示したが、このようなパラメータ決定テーブルに限定されるものではない。また、上記例では、各テーブルに記述する入力パラメータは独立しているが、各入力パラメータを組み合わせた値と合成音声パラメータとを対応づけてもよい。例えば、方向Cと距離rの組合せによってパワーを決定するように設計することも可能である。また、例えば、ユーザ02との距離が近い場合や、ユーザの視野に入っていない場合にだけ、周囲条件に応じた制御を行うといった方法をとることも可能である。また、テーブル参照によらず、各入力パラメータの値を演算した結果を用いてパラメータを定めてもよい。
【0071】
また、周囲条件の例として、明るさに対応させて音声合成パラメータを制御する例に説明したが、例えば、周囲条件として周囲の音パワーを入力するようにし、周囲の音パワーに対応させてその音よりも大きくなるようにベースの音パワーを決定してもよい。また、例えば、周囲条件としてオブジェクト01の近傍に他のオブジェクトが存在するか否かや、オブジェクト01に接したり保有している他のオブジェクトが存在するか否か、また存在する場合にそのオブジェクトの情報(例えば、種類や重さやレベル等)を入力するようにし、オブジェクトの情報に対応させて、怖がった声にしたり、重たそうな声にしたり、うれしそうな声にするといった制御を行ってもよい。
【0072】
また、音声合成パラメータとして、声質、発話速度、パワー、雰囲気を用いているが、これらに限るものではなく、話者、ピッチ周波数、アクセント強度などを制御するようにしてもよい。
【0073】
また、本実施の形態において、音声合成部22は、適用されるシステムに応じて、録音再生、CELPなどのコーデック、テキスト音声合成などの形態を取り得るが、テキスト音声合成のように前記パラメータの全てを変更可能なものと、録音再生と発速変換技術の組み合わせのように高々発話速度程度しか可変できないものが存在する。ここでは、全てのパラメータを取り扱えるものを用いるが、取り扱うことのできないパラメータを無視する構成を採ることも可能である。
【0074】
また、合成音声パラメータは、次に示すよう決定方法によって決定してもよい。図7は、本例における合成音声出力部03の位置の例を示す説明図である。図7に示すように、本例では、オブジェクト01に対応づけられた合成音声は、オブジェクト01の位置とは無関係に、別の位置から発せられることとする。ここでは、ユーザ02の十分近傍から出力されることを想定している。
【0075】
なお、本例では、合成音声がユーザ02の充分近傍から出力されるので、オブジェクト01が複数存在する場合には、各オブジェクトの合成音声が出力される位置はそれぞれ十分に近傍または完全に同じになる。
【0076】
図8は、本例におけるパラメータ決定テーブルの例を示す説明図である。図8は、距離rに基づいてパワーを決定するためのパラメータ決定テーブルの例を示している。図8に示すように、ユーザ02から見てオブジェクト01が近い場合には合成音声のパワーを大きく、遠い場合には合成音声のパワーを小さくするように制御してもよい。
【0077】
これにより、ユーザから見てオブジェクトが近い場合には合成音声のパワーを大きく、遠い場合には合成音声のパワーを小さくすることで、より臨場感のある合成音声を得ることができる。また、図9は、オブジェクト01とユーザ02との位置関係の例を示す説明図である。図9に示すように、オブジェクト01がユーザ02の視野の外に存在するような場合であっても、対応する合成音声の特徴から、大まかな位置を推定することが可能になる。
【0078】
また、図8に示すような距離rに基づくパラメータ決定テーブルを使う代わりに、入力された距離rを用いて、次の式(3)によってパワーp(r)を求めることも可能である。ここで、Kは負の定数とする。
【0079】
p(r)=r ・・・式(3)
【0080】
ここで、K=−(2/3)とすることで、感覚に即した効果を得ることが可能である。
【0081】
また、距離rに基づくパラメータの決定方法として、位置を推定できるようにするのではなく、情報伝達の意図をよりわかりやすくするために、図10に示すようなパラメータ決定テーブルに従って、音声合成パラメータを決定してもよい。図10は、距離rに基づいてパワーを決定するためのパラメータ決定テーブルの他の例を示す説明図である。図10に示すように、、遠いところでは情報が伝わるようにパワーを大きくして、近いところではやかましさを感じさせないようにパワーを小さくするといった制御をすることも可能である。
【0082】
なお、ここでは、距離rに対応させてパワーを制御する例だけを示したが、上述のように方向Cや周囲条件を組み合わせて声質や雰囲気も制御するようにしてもよい。
【0083】
次に、方向基準C0の設定例を示す。まず、方向基準C0を絶対方向として定義する例を示す。図11は、本例における方向基準C0を示す説明図である。図11に示すように、方向基準C0を、ユーザ02とオブジェクト01が存在する部屋の中に絶対方向として定義してもよい。図11に示す例では、ユーザ02の位置から部屋の長辺に並行な方向を方向基準C0と定義している。
【0084】
これにより、部屋の長辺と、ユーザ02とオブジェクト01を結ぶ線分とのなす角を計ることにより、方向Cを簡単に求めることができる。また、方向基準C0を絶対方向として定義することによって、オブジェクト01とユーザ02との位置関係を、ユーザ位置を原点とする極座標系で表現することができる。極座標系で示される位置関係に基づいて、例えば、オブジェクト01がユーザ02よりも北側にいる場合には寒そうな表現にしたり、また、例えば、ユーザ02と比較してオブジェクト01の方がある場所に対しより近い位置にいる場合に怖がった雰囲気になるようにしたりといった制御を行うことによって、オブジェクトの周囲の状況や情報伝達の意図をよりわかりやすく伝えることができる。なお、本例は、ユーザ02とオブジェクト01との位置関係によって特定づけられるオブジェクト01の周囲の環境に応じて、音声合成パラメータを制御する例でもある。
【0085】
また、方向基準C0を次のように定めてもよい。本例は、オブジェクト01とユーザ02との位置関係に、ユーザ02の目線方向を加味する例である。図12は、本例における音声合成装置の構成例および方向基準C0を示す説明図である。図12に示すように、音声合成装置は、ユーザ視野検出手段16と、ユーザ位置検出手段15と、オブジェクト位置検出手段14と通信可能に接続されていてもよい。なお、図12において音声合成装置は、オブジェクト01に含まれているものとする。
【0086】
オブジェクト位置検出手段14は、オブジェクト01に装着され、オブジェクト01の位置を検出する。また、ユーザ位置検出手段15は、ユーザ02に装着され、ユーザ02の位置を検出する。オブジェクト位置検出手段14およびユーザ位置検出手段15は、例えば、GPS受信機によって実現される。
【0087】
また、ユーザ視野検出手段16は、例えば、カメラ装置と画像解析手段とから構成され、ユーザ01の視線方向を検出する。具体的には、ユーザ02が装着するメガネに取り付けられたカメラ装置が、ユーザ02の黒目位置を撮影し、画像解析手段が画像データを解析して、黒目位置の基準値からの偏差を求めることによって、ユーザの目線方向を検出すればよい。なお、ユーザの目線方法が実際のどの方角かを向いているかは、例えば、メガネに装着されたジャイロセンサを用いて測定される顔の正面方向を基準にすればよい。また、例えば、ユーザ02を少なくとも2方向から撮影できる固定カメラ装置が撮影した画像データを画像解析手段が解析し、それら画像データから顔の正面を示す特徴や黒目位置を検出して、画像内における顔の正面方向および顔の正面方向に対する目線方向を特定し、それら方向と、その画像を撮影したカメラ装置の位置とから実際の目線方向を算出してもよい。
【0088】
方向入力手段11および距離入力手段12は、これら検出手段によって検出されるオブジェクト位置を示す情報、ユーザ位置を示す情報、ユーザ視線方向を示す情報を、例えば、入力ポートや通信ネットワークを介してそれぞれ受け取って、方向Cや距離rを算出すればよい。その際、方向入力手段11は、ユーザ視野検出手段16によって検出された視線方向を、方向基準C0として定義する。このような場合には、方向基準C0はユーザの向いている方向に依存するものとなる。
【0089】
これにより、ユーザ02が動きまわり、位置や視線方向が刻一刻と変化することにリアルタイムに対応して、合成音声の特徴を変化させることも可能である。ユーザは、必要に応じて自らの向きや位置を変えることで、情報の受け取り方を変えることができる。
【0090】
また視線方向に限らず、顔の向いている方向(正面方向)や体の向いている方向(正面方向)などを検出することで、より安定な方向を用いてもよい。なお、顔の正面方向や体の正面方向については、例えば、ユーザの両手や両耳、両目など顔の正面や体の正面がわかるような部位に対応して装着される装着物(例えば、メガネやイヤホンマイク)に取り付けたジャイロセンサを用いて測定したり、2方向からの画像データから顔や体の正面を示す特徴を検出して、特定すればよい。
【0091】
図13は、本例におけるパラメータ決定テーブルの例を示す説明図である。図13は、ユーザ02の正面方向を方向基準C0とする方向Cに基づいて声質を決定するためのパラメータ決定テーブルの例を示している。なお、本例は、距離rによって、オブジェクト01とユーザ02との距離が十分近傍であることが示されていることを前提としている。図13に示すように、ユーザ02から見てオブジェクト01が正面付近に存在する場合、つまり正面からの角度が0度付近の場合は、声質を「明瞭」とし、逆に、側面方向や背面方向に存在する場合は、声質を「ささやき声」とするように制御してもよい。
【0092】
これによって、正面付近以外ではユーザに対しささやくように発話させることで、ユーザの注意を引きつけ、ユーザ02に正面を向いてもらう効果を期待できる。また、明瞭とささやき声の中間段階を用意してもよい。同様の効果を、図14のようにパワーを変更して、側面や背後方向では大きなパワーで意識を向けてもらうようにすることによっても実現してもよい。図14は、ユーザ02の正面方向を方向基準C0とする方向Cに基づいてパワーを決定するためのパラメータ決定テーブルの例を示している。
【0093】
また、ユーザ02の正面方向だけでなく、オブジェクト01にも正面方向がある場合には、オブジェクト01とユーザ02との位置関係に、お互いの向き(目線、顔、体の正面方向)による相対角度Rを加味してもよい。なお、オブジェクト01の正面方向をオブジェクト01が管理していない場合には、ユーザ02の正面方向を検出する方法と同様の方法を用いて、オブジェクト01の正面方向を検出すればよい。
【0094】
そして、方向入力手段11が、オブジェクト位置を示す情報と、ユーザ位置を示す情報とともに、ユーザ02の正面方向を示す情報と、オブジェクト01の正面方向を示す情報とを入力ポートや通信ネットワークを介して受け取り、方向Cと相対角度Rとを求めればよい。
【0095】
このような場合、合成パラメータ決定部21は、例えば、オブジェクト01がユーザ02の背面寄りにいる場合であっても距離が近くほぼ同じ方向を向いていれば連れだって移動していると見なして、楽しげな雰囲気になるように音声合成パラメータを制御してもよい。また、例えば、距離が近くてもお互いにそっぽを向いていれば、無関心な雰囲気になるように制御してもよい。また、オブジェクトがユーザの方を向いている場合に限定して、上述のささやき声の制御を行うといったことも可能である。このように、方向Cと距離rと相対角度Rとで示される位置関係に基づいて合成音声パラメータを制御することによって、より臨場感をもった発話が可能になる。
【0096】
図15は、本例におけるパラメータ決定テーブルの例を示す説明図である。図15は、方向Cと距離rと相対角度Rとに基づいてピッチ周波数の高低さ、抑揚の強弱、雰囲気(パタン)を決定するためのパラメータ決定テーブルの例を示している。なお、図15(a)は距離rが100cmより小さい場合に参照されるパラメータ決定テーブルの例であり、図15(b)は距離rが100cm以上の場合に参照されるパラメータ決定テーブルの例であるが、3つの要素を組み合わせたパラメータの決定は、このようにテーブルを2つに分けて登録することには限定されない。図15では、例えば、距離rが近距離(100cmより小さい)で、相対方向Rが正対方向(0〜+90度または0〜−90度)であって、方向Cが正面方向(0〜+45度または0〜−45度)である場合には、ピッチ周波数の高低を高めに、抑揚の強弱は強く、またとても楽しい雰囲気となるように制御する例が示されている。また、例えば、距離rが遠距離(100cm以上)で、相対方向Rが正対方向とは逆方向(+90〜+180度または−90〜−180度)であって、方向Cが背面方向(+90〜+180度または−90〜−180度)である場合には、ピッチ周波数の高低を中くらいに、、抑揚の強弱は弱く、また険しい雰囲気(疎遠な感じ)となるように制御する例が示されている。
【0097】
なお、上記例では、オブジェクト01が実体オブジェクトである場合を例に説明したが、オブジェクト01は、ビデオゲームキャラクタのように仮想空間上にのみ存在する仮想オブジェクトであっても、本発明を適用することが可能である。ただし、オブジェクト01には、仮想区間上における位置の概念および位置情報を有するものとする。
【0098】
このような場合には、オブジェクト01と同じ仮想空間上に、ユーザ02の仮想的な位置と方向基準C0とを設定し、仮想空間上におけるオブジェクト01とユーザ02との方向Cや距離rを求めればよい。方向基準C0は、例えば、ある絶対方向やユーザ02の顔の向きや進行方向に設定すればよい。また、例えば、オブジェクト01やユーザ02の進行方向をそれぞれの正面向きとして、お互いの正面向きによる相対角度Rを求めることも可能である。
【0099】
オブジェクト01の位置やユーザ02の位置は、ビデオディスプレイに投影するなどの方法でユーザに提示してもよいし、提示しないでもよい。また、ユーザ02の仮想的な位置は、ユーザ02によるコントローラ上のボタンやマウス操作に応じて移動させてもよい。なお、本例におけるパラメータの決定方法は、既に示した方法と同様に、例えば、オブジェクト01がユーザ02の正面に近ければ近いほど、ユーザ02にオブジェクト01の発話内容がはっきり伝わるように制御したり、オブジェクトの周囲条件の一つである明るさに対応して、オブジェクトの存在する位置の雰囲気が伝わるように制御したりしてもよい。また、例えば、距離感をつかませるために、ユーザ02から見てオブジェクト01が近い場合には音パワーを大きく、遠い場合には音パワーを小さくするように制御してもよい。また、発話内容が十分聞こえるように、ユーザ02から見てオブジェクト01が遠い場合には音パワーを大きく、近い場合には音パワーを小さくするように制御してもよい。また、例えば、極座標系で示される位置関係に基づいて、寒そうにしたり、固定的に位置する環境を利用する等の用途で、音パワーを制御したりしてもよい。また、例えば、オブジェクト01が正面以外の付近に存在する場合に、ささやき声になるように声質を制御したり、注意を引きつけるような音パワーに制御してもよい。また、例えば、さらに相対角度Rを加味した位置関係に基づいて、楽しげな雰囲気にしたり、無関心な雰囲気にするように制御したりしてもよい。
【0100】
なお、仮想オブジェクトに対応づけた合成音声の合成音声パラメータを制御する場合には、パラメータの変化幅を大きくして、より極端に変化させてもよい。
【0101】
なお、本例における音声合成装置は、例えば、仮想オブジェクトを動作させるためのプログラムの一機能として音声合成機能が記述されたプログラムを読み込み、そのプログラムに従って動作するCPU等によって実現される。
【0102】
これにより、位置の提示有無に関わらず、合成音声の特徴(声質やパワーや)によって、ユーザが仮想空間上での位置や、状態伝達の意図を容易に推定できるようになる。
【0103】
以上のように、本実施の形態によれば、少なくとも方向Cと距離rと相対角度Rのいずれか、またはその組み合わせによって示されるオブジェクト01とユーザ02との位置関係や周囲の環境に基づいて、所定の制御方針に基づき予め定めれられている決定方法に従って、合成音声パラメータを決定することによって、制御方針によっては生成される合成音声に対応づけられたオブジェクトをより的確に表現することができ、また、生成される合成音声に対応づけられたオブジェクトとの位置関係や状況や、合成音声による情報伝達の意図をよりわかりやすく提示することができ、また、たとえ合成音声に対応づけられたオブジェクトがユーザの視野に直接入っていない場合でも、視野に入っているのと同様に、ユーザにそのオブジェクトとの位置関係や状況、合成音声による情報伝達の意図をより想起させることができる。
【0104】
実施の形態2.
次に、本発明の第2の実施の形態について説明する。図16は、第2の実施の形態による音声合成装置の構成例を示すブロック図である。図16に示すように、本実施の形態による音声合成装置は、音声合成部22が、発話テキスト編集部221と、テキスト音声合成部222とを含む。また、本実施の形態における音声合成装置は、合成パラメータ決定部21が、音声合成パラメータとして、少なくとも発話内容の詳細度を決定する。
【0105】
発話テキスト編集部221は、合成パラメータ決定部21が決定した詳細度に基づいて、入力されたテキスト(発話内容を示すテキスト)を編集する。具体的には、合成パラメータ決定部21が決定した詳細度に応じて、発話内容を要約する。
【0106】
テキスト音声合成部222は、発話テキスト編集部221によって編集された内容で、合成音声を生成する。
【0107】
次に、図17を参照して本実施の形態の動作を説明する。図17は、本実施の形態による音声合成装置の動作例を示すフローチャートである。なお、図17におけるステップS101の動作は、図2に示す第1の実施の形態におけるステップS101と同様のため、説明省略する。
【0108】
合成パラメータ決定部21は、方向入力手段11、距離入力手段12、周囲条件入力手段13によって所定の入力パラメータ(例えば、方向Cや、距離r、相対角度R、周囲条件等)が入力されると、それら入力パラメータに基づいて、少なくとも発話内容の詳細度を示す合成音声パラメータを決定する(ステップS201)。
【0109】
合成パラメータ決定部21は、例えば、図18に示すようなパラメータ決定テーブルを参照することによって、「入力全て」「少しだけ要約する」「ほとんど要約する」の3値を取る詳細度パラメータを決定してもよい。図18は、方向Cに基づいて詳細度を示す音声合成パラメータを決定するためのパラメータ決定テーブルの例である。図18に示すパラメータ決定テーブルでは、オブジェクト01がユーザ02の正面にある場合にはオブジェクト01に対するユーザ02の関心が大きいと見なして詳細な情報を伝達するように制御し、逆に、全く違う方向を向いている場合には関心が少ないと見なして概要だけを伝達するように制御している。
【0110】
次に、発話テキスト編集部221は、詳細度パラメータに従って入力されたテキストを編集(要約)する(ステップS202)。テキストの要約は、例えば、非特許文献「Inderjeet Mani著(奥村学他訳),”自動翻訳”,共立出版,2003年6月,p.14−21」に開示されているように、テキストを解析して内部表現を生成し、内部表現を詳細度パラメータに応じて要約の表現に変形し、要約の表現を自然言語に戻すことによって行ってもよい。
【0111】
そして、テキスト音声合成部222は、発話テキスト編集部221によって編集された内容で、オブジェクト01に対応づける音声を合成し、出力する(ステップS203)。
【0112】
なお、上記例では、与えられた発話内容を示すテキストを編集する発話テキスト編集部221を用いたが、これに限らず、詳細度と発話内容を入力として、これらから発話内容を生成するようにしてもよい。例えば、発話内容として、家からの経路およびかかる時間が「バス/15分+電車/1時間+待ち合わせ/15分+電車/30分+バス/30分」である旨の情報、および概要だけを説明する旨の詳細度が与えられた場合には、「家からバスと電車を使って来ました」という発話内容を生成するようにしてもよい。なお、詳細度とともに、「ですます調」「である調」「だ調」といった丁寧度を与えるようにし、丁寧度で示される口調で発話内容を生成するようにしてもよい。
【0113】
また、発話全体の概略の時間長を与えることによって、例えば美術館の収蔵品案内を音声合成で行う際に、ユーザが向いている方向にある絵は長い時間を掛けて説明し、向いていない方向の絵は短時間で説明を終えるなどの使い方もできる。
【0114】
また、テキスト再生に限らず、録音再生による音声合成の場合、発話対象の一部だけを飛ばし飛ばしに再生することや、一つの発話対象が複数の部分音声から構成されている場合には見出しなどの重要部分音声だけを選択的に再生することで、合成音声による情報伝達の意図をよりわかりやすく提示することができる。
【0115】
なお、方向Cに応じて詳細度を制御するだけでなく、例えば、図19に示すように距離rに応じて詳細度を制御しても同様の効果を得ることができる。
【0116】
また、各テーブルに記述する入力パラメータを独立させずに、各入力パラメータを組み合わせた値と合成音声パラメータ(詳細度)とを対応づけてもよい。例えば、方向Cと距離rの組合せによって詳細度を決定するように設計することも可能である。また、テーブル参照によらず、各入力パラメータの値を演算した結果を用いてパラメータ(例えば、発話時間)を定めてもよい。
【0117】
図20は、本例におけるパラメータ決定テーブルの例を示す説明図である。図20は、距離rと方向Cとに基づいて詳細度を示す音声合成パラメータを決定するためのパラメータ決定テーブルの例である。図20では、例えば、距離rが近距離(0〜50cm)であっても、方向Cが正面方向(0〜+45度または0〜−45度)である場合には、短く簡潔に話すように制御し、逆に、方向Cが背面方向(+90〜+180度または−90〜−180度)である場合には、詳細に話すように制御する例が示されている。これは、関心が少ないと見られる人でも近くにいる場合には、その人の興味を引きつけるように少しでも長く耳に入るような制御を行う例である。
【0118】
なお、図21は、本実施の形態による音声合成装置の他の動作例を示すフローチャートである。図21に示すように、テキスト音声合成部222は、発話テキスト編集部221によって編集(または生成)された内容で、かつ合成パラメータ決定部21によって決定された声質やパワー等の音声合成パラメータに従って、オブジェクト01の音声を合成するようにしてもよい(ステップS301)。なお、他の動作は、図3および図17に示す動作と同様である。
【0119】
以上のように、本実施の形態によれば、オブジェクト01とユーザ02との位置関係や周囲条件に基づいて、発話内容の詳細度を決定することによって、ユーザ02の関心度に応じて詳細な内容を出力(発話や、再生)したり、概要だけを出力させたりすることができ、合成音声による情報伝達の意図をより想起させることができる。
【産業上の利用可能性】
【0120】
本発明は、例えばロボットやおもちゃなどにおける音声対話に適用可能である。また、位置や状況が時時刻刻と変化する交通システム、オブジェクトが実体を持たないビデオゲームキャラクタや仮想現実感システムなどにも適用可能である。特に、音声合成のパラメータ設定の自由度が一般的に高い、テキスト音声合成を利用したこれらのシステムへの適用に好適である。
【図面の簡単な説明】
【0121】
【図1】第1の実施の形態による音声合成装置の構成例を示すブロック図である。
【図2】オブジェクト01とユーザ02との位置関係を定義した説明図である。
【図3】第1の実施の形態による音声合成装置の動作例を示すフローチャートである。
【図4】パラメータ決定テーブルの例を示す説明図である。
【図5】パラメータ決定テーブルの例を示す説明図である。
【図6】パラメータ決定テーブルの例を示す説明図である。
【図7】合成音声出力部03の位置の例を示す説明図である。
【図8】パラメータ決定テーブルの例を示す説明図である。
【図9】オブジェクト01とユーザ02との位置関係の例を示す説明図である。
【図10】パラメータ決定テーブルの例を示す説明図である。
【図11】方向基準C0を示す説明図である。
【図12】音声合成装置の構成例および方向基準C0を示す説明図である。
【図13】パラメータ決定テーブルの例を示す説明図である。
【図14】パラメータ決定テーブルの例を示す説明図である。
【図15】パラメータ決定テーブルの例を示す説明図である。
【図16】第2の実施の形態による音声合成装置の構成例を示すブロック図である。
【図17】第2の実施の形態による音声合成装置の動作例を示すフローチャートである。
【図18】パラメータ決定テーブルの例を示す説明図である。
【図19】パラメータ決定テーブルの例を示す説明図である。
【図20】パラメータ決定テーブルの例を示す説明図である。
【図21】第2の実施の形態による音声合成装置の他の動作例を示すフローチャートである。
【符号の説明】
【0122】
11 方向入力手段
12 距離入力手段
13 周囲条件入力手段
14 オブジェクト位置検出手段
15 ユーザ位置検出手段
16 ユーザ視野検出手段
21 合成パラメータ決定部
22 音声合成部
221 発話テキスト編集部
222 テキスト音声合成部

【特許請求の範囲】
【請求項1】
オブジェクトに対応づけた音声を合成する音声合成装置であって、
オブジェクトを観察する主体であるユーザと前記オブジェクトの位置関係に応じて、前記オブジェクトに対応づけた音声として、どのような合成音声を生成するかを示す音声合成パラメータを変化させる合成パラメータ決定部と、
前記合成パラメータ決定部が変化させた音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する音声合成部とを備えた
ことを特徴とする音声合成装置。
【請求項2】
合成パラメータ決定部は、ユーザとオブジェクトを結ぶ線と予め定められた設定方法に従って定められる所定の方向基準とのなす角で示されるユーザとオブジェクトの位置関係に応じて、音声合成パラメータを変化させる
請求項1に記載の音声合成装置。
【請求項3】
合成パラメータ決定部は、ユーザとオブジェクトを結ぶ線と予め定められた設定方法に従って定められる所定の方向基準とのなす角で示されるユーザとオブジェクトとの位置方向、ユーザとオブジェクトとの間の距離、ユーザの正面方向とオブジェクトの正面方向とによる相対角度のいずれかまたはその組み合わせによって示されるユーザとオブジェクトとの位置関係に応じて、音声合成パラメータを変化させる
請求項1または請求項2に記載の音声合成装置。
【請求項4】
オブジェクトに対応づけた音声を合成する音声合成装置であって、
オブジェクトの周囲の環境に応じて、前記オブジェクトに対応づけられる音声として、どのような合成音声を生成するかを示す合成パラメータを変化させる合成パラメータ決定部と、
前記合成パラメータ決定部が変化させた音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する音声合成部とを備えた
ことを特徴とする音声合成装置。
【請求項5】
オブジェクトに対応づけた音声を合成する音声合成装置であって、
オブジェクトを観察する主体であるユーザと前記オブジェクトの位置関係と、前記オブジェクトの周囲の環境とに応じて、前記オブジェクトに対応づけられる音声として、どのような合成音声を生成するかを示す合成パラメータを変化させる合成パラメータ決定部と、
前記合成パラメータ決定部が変化させた音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する音声合成部とを備えた
ことを特徴とする音声合成装置。
【請求項6】
合成パラメータ決定部は、少なくとも周囲の明るさ、周囲の音の大きさ、近傍に他のオブジェクトが存在するか否か、当該オブジェクトに接しているまたは当該オブジェクトが保有している他のオブジェクトの種類のいずれかによって示されるオブジェクトの周囲の環境に応じて、音声合成パラメータを変化させる
請求項4または請求項5に記載の音声合成装置。
【請求項7】
合成パラメータ決定部は、音声合成パラメータとして、声質、発話速度、声の大きさのいずれかを変化させる
請求項1から請求項5のうちのいずれか1項に記載の音声合成装置。
【請求項8】
合成パラメータ決定部は、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定し、
音声合成部は、
前記合成パラメータ決定部によって決定される詳細度に従って、前記オブジェクトの発話内容が示されたテキストを要約する発話テキスト編集部と、
前記発話テキスト編集部によって要約されたテキストを発話内容とする合成音声を生成するテキスト音声合成部とを含む
請求項1から請求項3のうちのいずれか1項に記載の音声合成装置。
【請求項9】
合成パラメータ決定部は、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定し、
音声合成部は、
前記合成パラメータ決定部によって決定される詳細度に従って、与えられた事項が発話内容として表現されたテキストを生成する発話テキスト生成部と、
前記発話テキスト生成部によって生成されたテキストを発話内容とする合成音声を生成するテキスト音声合成部とを含む
請求項1から請求項3のうちのいずれか1項に記載の音声合成装置。
【請求項10】
合成パラメータ決定部は、オブジェクトとは独立した位置から合成音声が出力されることを前提にして、合成音声パラメータを変化させる
請求項1から請求項4に記載の音声合成装置。
【請求項11】
合成パラメータ決定部は、ユーザの近傍から合成音声が出力されることを前提にして、合成音声パラメータを変化させる
請求項10に記載の音声合成装置。
【請求項12】
方向基準として、ユーザが向いている方向を用いる
請求項2または請求項3に記載の音声合成装置。
【請求項13】
方向基準として、ユーザの視線方向を用いる
請求項2または請求項3に記載の音声合成装置。
【請求項14】
合成パラメータ決定部は、オブジェクトがユーザの正面方向に近いか否かに応じて、声質を変化させる
請求項3に記載の音声合成装置。
【請求項15】
合成パラメータ決定部は、オブジェクトがユーザの正面方向に近いか否かに応じて、音の大きさを変化させる
請求項3に記載の音声合成装置。
【請求項16】
合成パラメータ決定部は、方向基準として絶対方向を用いることによって極座標系で表現される位置関係によって特定されるオブジェクトの周囲の環境に応じて、合成音声パラメータを変化させる
請求項3に記載の音声合成装置。
【請求項17】
合成パラメータ決定部は、位置関係が所定の条件を満たしている場合にのみ、周囲の環境に応じて、合成音声パラメータを変化させる
請求項5に記載の音声合成装置。
【請求項18】
合成パラメータ決定部は、合成音声を対応づけるオブジェクトが仮想空間上にのみ存在する仮想オブジェクトである場合に、合成音声パラメータをより極端に変化させる
請求項1または請求項4に記載の音声合成装置。
【請求項19】
合成パラメータ決定部は、オブジェクトがユーザの正面方向に近いか否かに応じて、詳細度を変化させる
請求項8または請求項9に記載の音声合成装置。
【請求項20】
合成パラメータ決定部は、オブジェクトがユーザの正面方向に近いか否かに応じて、詳細度および発話速度を変化させる
請求項8または請求項9に記載の音声合成装置。
【請求項21】
オブジェクトに対応づけた音声を合成するための音声合成方法であって、
オブジェクトを観察する主体であるユーザと前記オブジェクトの位置関係に応じて、前記オブジェクトに対応づけた音声として、どのような合成音声を生成するかを示す音声合成パラメータを変化させ、
変化させた前記音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する
ことを特徴とする音声合成方法。
【請求項22】
ユーザとオブジェクトを結ぶ線と予め定められた設定方法に従って定められる所定の方向基準とのなす角で示されるユーザとオブジェクトとの位置方向、ユーザとオブジェクトとの間の距離、ユーザの正面方向とオブジェクトの正面方向とによる相対角度のいずれかまたはその組み合わせによって示されるユーザとオブジェクトとの位置関係に応じて、音声合成パラメータを変化させる
請求項21に記載の音声合成方法。
【請求項23】
オブジェクトに対応づけた音声を合成するための音声合成方法であって、
オブジェクトの周囲の環境に応じて、音声合成パラメータを変化させ、
変化させた前記音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する
ことを特徴とする音声合成方法。
【請求項24】
ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定し、
前記決定された詳細度に従って、前記オブジェクトの発話内容が示されたテキストを要約し、
前記要約されたテキストを発話内容とする合成音声を生成する
請求項21から請求項23のうちのいずれか1項に記載の音声合成方法。
【請求項25】
ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定し、
前記決定された詳細度に従って、与えられた事項が発話内容として表現されたテキストを生成し、
前記生成されたテキストを発話内容とする合成音声を生成する
請求項21から請求項23のうちのいずれか1項に記載の音声合成方法。
【請求項26】
オブジェクトに対応づけた音声を合成するための音声合成用プログラムであって、
コンピュータに、
オブジェクトを観察する主体であるユーザと前記オブジェクトの位置関係に応じて、前記オブジェクトに対応づけた音声として、どのような合成音声を生成するかを示す音声合成パラメータを変化させるパラメータ決定処理、および
変化させた前記音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する合成処理
を実行させるための音声合成用プログラム。
【請求項27】
コンピュータに、
パラメータ決定処理で、ユーザとオブジェクトを結ぶ線と予め定められた設定方法に従って定められる所定の方向基準とのなす角で示されるユーザとオブジェクトとの位置方向、ユーザとオブジェクトとの間の距離、ユーザの正面方向とオブジェクトの正面方向とによる相対角度のいずれかまたはその組み合わせによって示されるユーザとオブジェクトとの位置関係に応じて、音声合成パラメータを変化させる
請求項26に記載の音声合成用プログラム。
【請求項28】
オブジェクトに対応づけた音声を合成するための音声合成用プログラムであって、
コンピュータに、
オブジェクトの周囲の環境に応じて、前記オブジェクトに対応づけた音声として、どのような合成音声を生成するかを示す音声合成パラメータを変化させるパラメータ決定処理、および
変化させた前記音声合成パラメータに従って、前記オブジェクトに対応づけた音声としての合成音声を生成する音声合成処理
を実行させるための音声合成用プログラム。
【請求項29】
コンピュータに、
パラメータ決定処理で、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定させ、
音声合成処理で、前記決定された詳細度に従って、前記オブジェクトの発話内容が示されたテキストを要約させて、前記要約されたテキストを発話内容とする合成音声を生成させる
請求項26から請求項28のうちのいずれか1項に記載の音声合成方法。
【請求項30】
コンピュータに、
パラメータ決定処理で、ユーザとオブジェクトの位置関係に応じて、前記オブジェクトが発話する内容の詳細度を決定させ、
音声合成処理で、前記決定された詳細度に従って、与えられた事項が発話内容として表現されたテキストを生成させ、前記生成されたテキストを発話内容とする合成音声を生成させる
請求項26から請求項28のうちのいずれか1項に記載の音声合成方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2008−299135(P2008−299135A)
【公開日】平成20年12月11日(2008.12.11)
【国際特許分類】
【出願番号】特願2007−145930(P2007−145930)
【出願日】平成19年5月31日(2007.5.31)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】