説明

音声合成装置、音声処理装置、およびプログラム

【課題】従来の音声合成装置においては、場面に適した韻律が付与された音声の出力ができない、という課題があった。
【解決手段】語彙情報と、語彙の印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納している印象付語彙情報格納部と、印象情報と、語彙の韻律情報の関係を示す情報である印象韻律関係情報を格納している印象韻律関係情報格納部と、1以上の語彙情報を有する出力情報を格納している出力情報格納部と、前記出力情報が有する語彙情報と対になる印象群情報を、前記語彙情報格納部から取得する印象群情報取得部と、前記印象韻律関係情報と前記印象群情報に基づいて、語彙の韻律情報を決定する韻律情報決定部と、前記韻律情報に基づいて、前記出力情報を出力する音声出力部と、を具備する音声合成装置により、場面に適した韻律が付与された音声を出力できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成装置等に関するものである。
【背景技術】
【0002】
従来の音声合成装置において、コーパスベース音声合成装置があった(非特許文献1、非特許文献2、非特許文献3、非特許文献4参照)。かかる音声合成装置では、読み上げ音声としての音声品質は向上している。
【非特許文献1】Riley M.D., Tree-based modeling of segmental durations, Talking Machines edited by G.Bailly et al, North-Holland, ,1992, pp.265-274
【非特許文献2】Sagisaka Y., On the prediction of global F0 shape for Japanese text-to-speech, Proc. ICASSP, 1990, pp.325-328
【非特許文献3】Tokuda, K., Masuko, T., Miyazaki, N., and Kobayashi, T., Hidden Markov models based on multispace probability distribution for pitch pattern modeling, Proc. ICASSP, 1999, pp.229-232
【非特許文献4】Traber C., SVOX: The implementation of a Text-to-Speech System for German, 1992, TIK-Schriftenreihe Nr 7
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、従来の音声合成装置においては、与えられたテキストを読み上げるだけである。そのため、音声自体の品質は満たされたとしても、その使用場面は限られる。また、従来の音声合成装置においては、音韻明瞭度などで考慮される音声品質が向上している分、対話音声としての韻律の不備はより顕著に認識される。
【0004】
一方、現在、ゲームやコールセンターなど、利用者に対して親近感を持たせる事が必要となってくるような、双方向の情報伝達が不可欠な場面に適した韻律が付与された音声の出力が求められている。しかしながら、どのような入力制御因子が存在し、また、それらが、どのように韻律を変動させているのかを解明することは、困難である。そのため、従来の音声合成装置においては、場面に適した韻律が付与された音声の出力ができなかった。
【課題を解決するための手段】
【0005】
上記課題を解決するために、韻律のバリエーションが、「何」によって、「どのように」制御されているかを解明した。そして、本発明の音声合成装置、音声処理装置等は、かかる解明の結果を用いた装置である。具体的には、本発明の音声合成装置等は、以下の構成である。
【0006】
本第一の発明の音声合成装置は、語彙を示す情報である語彙情報と、前記語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納している印象付語彙情報格納部と、印象情報と、語彙を出力する際の韻律に関する情報である韻律情報の関係を示す情報である印象韻律関係情報を格納している印象韻律関係情報格納部と、音声出力する対象であり、1以上の語彙情報を有する出力情報を格納している出力情報格納部と、前記出力情報が有する語彙情報と対になる印象群情報を、前記語彙情報格納部から取得する印象群情報取得部と、前記印象韻律関係情報と、前記印象群情報取得部が取得した印象群情報に基づいて、前記1以上の語彙情報が示す1以上の語彙の韻律情報を決定する韻律情報決定部と、前記韻律情報決定部が決定した1以上の語彙の韻律情報に基づいて、前記出力情報を出力する音声出力部と、を具備する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。
【0007】
また、本第二の発明の音声合成装置は、第一の発明に対して、印象群情報は、確信または疑念の度合いを示す情報、否定または肯定の度合いを示す情報、好印象または悪印象の度合いを示す情報のうち1以上の情報である音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。
【0008】
また、本第三の発明の音声合成装置は、第一、第二いずれかの発明に対して、前記韻律情報は、基本周波数の平均的高さに関する情報である周波数高低情報、基本周波数の時間変化形状に関する情報である時間変化情報、発話時間長に関する情報である発話時間情報のうちの1以上の情報である音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。
【0009】
また、本第四の発明の音声合成装置は、第三の発明に対して、前記韻律情報決定部は、印象群情報が確信または疑念の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または/および発話時間情報を決定する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。
【0010】
また、本第五の発明の音声合成装置は、第三の発明に対して、前記韻律情報決定部は、印象群情報が否定または肯定の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または/および発話時間情報を決定する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。
【0011】
また、本第六の発明の音声合成装置は、第三の発明に対して、前記韻律情報決定部は、印象群情報が好印象または悪印象の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の周波数高低情報を決定する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。
【0012】
また、本第七の発明の音声合成装置は、語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納しており、前記印象群情報に基づいて決定される語彙の韻律情報を用いて、前記語彙情報を出力する音声合成装置である。
かかる構成により、場面に適した韻律が付与された音声が出力できる。
【0013】
また、本第八の発明の音声処理装置は、語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納している印象付語彙情報格納部と、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声を認識し、音声情報を取得する音声認識部と、前記音声情報が有する語彙情報に対応する印象群情報を取得する印象群情報取得部と、前記印象群情報取得部が取得した印象群情報に基づいて、所定の処理を行う処理部と、を具備する音声処理装置である。
かかる構成により、受け付けた音声の語彙から受ける印象に応じた処理ができる。
また、本第九の発明の音声処理装置は、第八の発明に対して、前記処理部は、前記印象群情報が示す印象に対応する情報を視覚的に出力する音声処理装置である。
かかる構成により、受け付けた音声の語彙から受ける印象を示すことができる。
また、本第十の発明の音声処理装置は、第八の発明に対して、前記処理部は、前記印象群情報が示す印象に対応する情報を音出力する音声処理装置である。
かかる構成により、受け付けた音声の語彙から受ける印象を示すことができる。
【0014】
また、本第十一の発明は、音声処理に利用する語彙に関する情報のデータ構造であって、語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を1以上有する印象群情報とが対になる印象付語彙情報のデータ構造である。ここで、「対になる」とは、両情報がポインタでリンク付けられていても良いし、一つの配列やテーブルの一レコードに格納されていても良い。その他、対になっている態様は問わない。また、かかるデータ構造を有するデータを記録媒体に記録しておいても良い。かかる記憶媒体は、例えば、音声合成装置の辞書となり得る。
かかるデータ構造は、音声処理に適したデータ構造である。
【発明の効果】
【0015】
本発明による音声合成装置によれば、場面に適した韻律が付与された音声の出力ができる。
【発明を実施するための最良の形態】
【0016】
以下、音声合成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、場面に適した韻律が付与された音声の出力ができる音声合成装置について説明する。
図1は、本実施の形態における音声合成装置のブロック図である。
音声合成装置は、印象付語彙情報格納部11、印象韻律関係情報格納部12、出力情報格納部13、印象群情報取得部14、韻律情報決定部15、音声出力部16を具備する。
【0017】
印象付語彙情報格納部11は、語彙を示す情報である語彙情報と、語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納している。印象情報は、例えば、確信または疑念の度合いを示す情報、否定または肯定の度合いを示す情報、好印象または悪印象の度合いを示す情報である。度合いを示す情報は、数値でも、「A」「B」「C」などのランク等でも良い。印象情報が確信等の度合いを示す情報である場合、通常、印象群情報は、ベクトルデータとなる。また、印象情報は、例えば、語彙をその印象から分類する情報、例えば、「確信」、「疑念」、「否定」、「肯定」、「好印象」、「悪印象」などである。印象情報が分類を示す情報の場合には、印象群情報と印象情報は同じであると考えられる。なお、印象群情報は、2以上の印象情報(例えば、「確信」と「肯定」)を有しても良い。語彙情報、印象群情報、印象付語彙情報のデータ構造は問わない。印象付語彙情報格納部11は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0018】
印象韻律関係情報格納部12は、印象情報または印象群情報と、語彙を出力する際の韻律に関する情報である韻律情報の関係を示す情報である印象韻律関係情報を格納している。ここでの印象情報は、1以上の印象情報である印象群情報でも良い。韻律情報は、例えば、基本周波数の平均的高さに関する情報である周波数高低情報、基本周波数の時間変化形状に関する情報である時間変化情報、発話時間長に関する情報である発話時間情報のうちの1以上の情報である。また、韻律情報は、例えば、最高周波数を示す最高周波数情報や、最低周波数を示す最低周波数情報等でも良い。印象韻律関係情報は、例えば、印象情報と、当該印象情報に対応する印象韻律関係情報を有するレコードを1以上有する。印象韻律関係情報のデータ構造は、問わない。印象韻律関係情報格納部は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0019】
出力情報格納部13は、音声出力する対象であり、1以上の語彙情報を有する出力情報を格納している。出力情報は、印象付語彙情報格納部11に格納されている1以上の語彙情報のみから構成されていても良いし、印象付語彙情報格納部11に格納されていない語彙情報を含んでも良い。出力情報格納部13に格納されている出力情報は、例えば、キーボード212や、マウス213等の入力手段により入力される。出力情報は、音声出力される情報であり、その構造は問わない。出力情報格納部13は、不揮発性の記録媒体、または揮発性の記録媒体で実現され得る。
【0020】
印象群情報取得部14は、出力情報が有する語彙情報と対になる印象群情報を、印象付語彙情報格納部11から取得する。印象群情報取得部14は、通常、出力情報を1以上の語彙情報に分解し、当該語彙情報と対になる印象群情報を、印象付語彙情報格納部11から取得する。なお、かかる場合、印象群情報取得部14が出力情報を分解して得た語彙情報の全てが、印象付語彙情報格納部11に格納されている必要はない。また、出力情報を1以上の語彙情報に分解する技術は公知技術であるので、詳細な説明は省略する。印象群情報取得部14は、通常、MPUやメモリ等から実現され得る。印象群情報取得部の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0021】
韻律情報決定部15は、印象韻律関係情報格納部12の印象韻律関係情報と、印象群情報取得部14が取得した印象群情報に基づいて、1以上の語彙情報が示す1以上の語彙の韻律情報を決定する。韻律情報決定部15は、印象群情報が確信または疑念の度合いを示す情報である場合、または、確信または疑念を示す場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または/および発話時間情報を決定することは好適である。韻律情報決定部15は、印象群情報が否定または肯定の度合いを示す情報である場合、または、否定または肯定を示す場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または/および発話時間情報を決定することは好適である。韻律情報決定部15は、印象群情報が好印象または悪印象の度合いを示す情報である場合、または、好印象または悪印象を示す場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の周波数高低情報を決定することは好適である。韻律情報決定部15は、印象群情報取得部14が印象群情報を取得しなかった語彙の韻律情報を、例えば、デフォルトの韻律情報(例えば、読み上げ調)に決定しても良い。韻律情報決定部15は、一の語彙ごとに韻律情報を決定しても良いし、2以上の語彙の韻律情報を、一の情報として取得しても良い。かかる場合、例えば、韻律情報決定部15は、2以上の語彙の各韻律情報を演算して、一の韻律情報を決定する。かかる演算式は問わない。韻律情報決定部15は、通常、MPUやメモリ等から実現され得る。韻律情報決定部15の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0022】
音声出力部16は、韻律情報決定部15が決定した語彙の韻律情報に基づいて、出力情報を音声出力する。音声出力部16は、出力情報が有するすべての語彙情報が示す語彙に対して、韻律情報決定部15が決定した韻律情報を用いる必要はない。韻律情報決定部15は、出力情報が有するすべての語彙の韻律情報を決定しない場合もある。すべての語彙の韻律情報を決定しない場合、音声出力部16は、当該語彙の韻律を、例えば、デフォルトの韻律(例えば、読み上げ調)で、音声出力する。ここで、出力とは、音出力、音出力を行う外部装置への送信等を含む概念である。音声出力部16は、スピーカー216等の出力デバイスを含むと考えても含まないと考えても良い。音声出力部16は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声合成装置の動作について図2のフローチャートを用いて説明する。
(ステップS201)印象群情報取得部14は、出力情報格納部13の出力情報を取得する。
【0023】
(ステップS202)印象群情報取得部14は、ステップS201で取得した出力情報を語彙情報に分解し、1以上の語彙情報を得る。文章などの出力情報を、語彙情報に分解する(区分する)技術は公知技術であるので、詳細は省略する。
(ステップS203)印象群情報取得部14は、カウンタiに1を代入する。
【0024】
(ステップS204)印象群情報取得部14は、ステップS202で得られた語彙情報の中に、i番目の語彙情報が存在するか否かを判断する。i番目の語彙情報が存在すればステップS205に行き、i番目の語彙情報が存在しなければ処理を終了する。
(ステップS205)印象群情報取得部14は、i番目の語彙情報に対応する印象群情報を、印象付語彙情報格納部11から取得する。
【0025】
(ステップS206)韻律情報決定部15は、ステップS205で取得した印象群情報が存在するか(NULLでないか)否かを判断する。印象群情報が存在すればステップS207に行き、印象群情報が存在しなければステップS210に行く。
(ステップS207)韻律情報決定部15は、i番目の語彙情報が示す語彙の韻律情報を決定する。韻律情報を決定するアルゴリズムの詳細は、図3のフローチャートを用いて説明する。
(ステップS208)音声出力部16は、ステップS207またはステップS210で決定した韻律情報に基づいて、i番目の語彙情報を音声出力する。
(ステップS209)音声出力部16は、カウンタiを1、インクリメントする。ステップS204に行く。
(ステップS210)韻律情報決定部15は、デフォルトの韻律情報を取得する。デフォルトの韻律情報は、例えば、韻律情報決定部15が予め保持している。
次に、上記のステップS207の韻律情報を決定するアルゴリズムの具体例について、図3のフローチャートを用いて説明する。
【0026】
(ステップS301)韻律情報決定部15は、ステップS205で取得した印象群情報が、「確信」または「疑念」を示す情報であるか否かを判断する。印象群情報が「確信」または「疑念」を示す情報である場合ステップS302に行き、印象群情報が「確信」または「疑念」を示す情報でない場合ステップS305に行く。
【0027】
(ステップS302)韻律情報決定部15は、ステップS205で取得した印象群情報が示す情報(「確信」または「疑念」)に対応する時間変化情報(韻律情報の一種)を、印象韻律関係情報格納部12から取得する。
【0028】
(ステップS303)韻律情報決定部15は、ステップS205で取得した印象群情報が示す情報(「確信」または「疑念」)に対応する発話時間情報(韻律情報の一種)を、印象韻律関係情報格納部12から取得する。
【0029】
(ステップS304)韻律情報決定部15は、周波数情報(韻律情報の一種)をデフォルト値に設定する。なお、ここでは、韻律情報は、時間変化情報、発話時間情報、および周波数情報である、とする。また、時間変化情報、発話時間情報、および周波数情報のデフォルト値は、例えば、韻律情報決定部15が予め保持している、とする。上位関数にリターンする。
【0030】
(ステップS305)韻律情報決定部15は、ステップS205で取得した印象群情報が、「肯定」または「否定」を示す情報であるか否かを判断する。印象群情報が「肯定」または「否定」を示す情報である場合ステップS306に行き、印象群情報が「肯定」または「否定」を示す情報でない場合ステップS308に行く。なお、ステップS305で、ステップS205で取得した印象群情報が、「肯定」または「否定」を示す情報でない場合、ここでは、ステップS205で取得した印象群情報は、「好印象」または「悪印象」を示す情報である。
【0031】
(ステップS306)韻律情報決定部15は、ステップS205で取得した印象群情報が示す情報(「肯定」または「否定」)に対応する時間変化情報(韻律情報の一種)を、印象韻律関係情報格納部12から取得する。
【0032】
(ステップS307)韻律情報決定部15は、ステップS205で取得した印象群情報が示す情報(「肯定」または「否定」)に対応する発話時間情報(韻律情報の一種)を、印象韻律関係情報格納部12から取得する。ステップS304に行く。
【0033】
(ステップS308)韻律情報決定部15は、ステップS205で取得した印象群情報が示す情報(「好印象」または「悪印象」)に対応する周波数高低情報(韻律情報の一種)を、印象韻律関係情報格納部12から取得する。
(ステップS309)韻律情報決定部15は、時間変化情報(韻律情報の一種)をデフォルト値に設定する。
(ステップS310)韻律情報決定部15は、発話時間情報(韻律情報の一種)をデフォルト値に設定する。上位関数にリターンする。
【0034】
なお、図3のフローチャートにおいて、例えば、以下のようにして韻律情報を決定しても良い。印象群情報が、(確信,疑念,肯定,否定,好印象,悪印象)のベクトルデータの構造を有する、とする。そして、例えば、印象群情報が、(6,0,0,0,4,0)の場合つまり、「確信」の度合いが「6」、好印象の度合いが「4」)である場合)、韻律情報決定部15は、「「確信」に対応する時間変化情報の影響度合いを「0.6」、「好印象」に対応する時間変化情報の影響度合いを「0.4」」として、語彙情報の時間変化情報を決定しても良い。また、かかる場合、韻律情報決定部15は、算出式「「確信」に対応する発話時間情報×0.6+「好印象」に対応する発話時間情報×0.4」により、語彙情報の発話時間情報を決定しても良い。つまり、韻律情報決定部15は、ベクトルデータである印象群情報と、印象韻律関係情報が有する韻律情報を用いて、語彙情報の韻律情報を決定しても良い。
以下、本実施の形態における音声合成装置の具体的な動作について説明する。
図4は、印象群情報のデータ構造例を説明する図である。図4(a)は印象群情報のデータ構造例であり、図4(b)はデータ構造例が示すデータの意義を説明する図である。
【0035】
図4(a)において、各語彙に関して、「確信」の度合い、「疑念」の度合い、「肯定」の度合い、「否定」の度合い、「好印象」の度合い、「悪印象」の度合いを数値で示している。また、「確信」の度合いは、(1)「納得」の度合い、(2)「確信」の度合いの情報からなる。かかることは、図4(b)に示されている。また、「疑念」の度合いは、(1)「迷い」の度合い、(2)「疑い」の度合いの情報からなる。かかることも、図4(b)に示されている。また、「肯定」の度合いは、(1)「同意」の度合い、(2)「賛成」の度合いの情報からなる。また、「否定」の度合いは、(1)「反対」の度合い、(2)「反論」の度合いの情報からなる。また、「好印象」の度合いは、(1)「楽しみ」の度合い、(2)「明るい」の度合い、(3)「嬉しい」の度合い、(4)「軽い」の度合いの情報からなる。さらに、「悪印象」の度合いは、(1)「落胆」の度合い、(2)「暗い」の度合い、(3)「悲しい」の度合い、(4)「重い」の度合いの情報からなる。以上のことも、図4(b)に示されている。
【0036】
そして、図4(a)において、語彙情報「絶対」の印象群情報は、(4.7,6,0,0,1,1,1,1,1,0,0,0,0,0,0,2)のベクトルデータである。かかるベクトルデータは、発話印象「確信」を示す。また、図4(a)のベクトルデータ(印象群情報)は、16の印象情報を有する。また、発話印象とは、語彙情報が示す語彙の印象を示す情報である。発話印象は、ここでは、印象群情報と考えても良い。つまり、印象群情報は、ベクトルデータでも良いし、ベクトルデータから抽象される一の印象を示す情報等でも良い。また、印象群情報が一の印象を示す情報である場合、印象群情報は印象情報と同じである。ここで、発話印象を印象情報として説明する。
【0037】
図5は、第一の印象韻律関係情報管理表である。第一の印象韻律関係情報管理表は、印象情報(印象群情報)と、時間変化情報を有するレコード(印象韻律関係情報)を1以上有する。図5において、時間変化情報はグラフで表されているが、データ構造は問わない。時間変化情報は、例えば、グラフを構成する数字列でも良い。つまり、時間変化情報は、基本周波数の時間変化形状に関する情報であれば良い。なお、図5において、時間変化情報のグラフの横軸は時間(msec)、縦軸は基本周波数(Hz)である。図5において、印象群情報「確信」、「疑念」、「肯定」、「否定」、「好印象」に対応する時間変化情報が管理されている。
【0038】
図6は、第二の印象韻律関係情報管理表である。第二の印象韻律関係情報管理表は、印象情報(印象群情報)と、発話時間情報を有するレコード(印象韻律関係情報)を1以上有する。図6において、印象情報「確信」の場合の発話時間情報は「70」である。
【0039】
図7は、第三の印象韻律関係情報管理表である。第三の印象韻律関係情報管理表は、印象情報(印象群情報)と、周波数高低情報を有するレコード(印象韻律関係情報)を1以上有する。図6において、印象情報「好印象」の場合の周波数高低情報は「90」である。
【0040】
図8は、印象付語彙情報格納部11の印象付語彙辞書である。図8において、「絶対(4.7,6,0,0,1,1,1,1,1,0,0,0,0,0,0,2)」が、一つの印象付語彙情報である。図8の印象付語彙辞書は、5の印象付語彙情報を有する。
かかる場合、本音声合成装置は、図示しない手段により、出力情報「それは、絶対違う。」の入力を受け付けた、とする。かかる出力情報は、例えば、キーボードにより、入力された情報である。
そして、音声合成装置の出力情報格納部13は、出力情報「それは、絶対違う。」を格納している、とする。
次に、印象群情報取得部14は、出力情報格納部13の出力情報「それは、絶対違う。」を読み出す。
次に、印象群情報取得部14は、出力情報「それは、絶対違う。」を語彙情報に分解し、1以上の語彙情報(「それは」「絶対」「違う」)を得る。
【0041】
次に、印象群情報取得部14は、1番目の語彙情報「それは」に対応する印象群情報を、図8の印象付語彙辞書から取得しようとする。図8の印象付語彙辞書に、語彙情報「それは」を有する印象付語彙情報は存在しないので、印象群情報取得部14は、1番目の語彙情報「それは」に対応する印象群情報を取得できない。次に、韻律情報決定部15は、1番目の語彙情報「それは」に対応する韻律情報をデフォルトの韻律情報(例えば、読み上げ調)とする。
次に、音声出力部16は、読み上げ調で、1番目の語彙情報「それは」を出力する。
【0042】
次に、印象群情報取得部14は、2番目の語彙情報「絶対」に対応する印象群情報「絶対(4.7,6,0,0,1,1,1,1,1,0,0,0,0,0,0,2)」を、図8の印象付語彙辞書から取得する。そして、印象群情報取得部14は、印象群情報「絶対(4.7,6,0,0,1,1,1,1,1,0,0,0,0,0,0,2)」に基づいて、発話印象「確信」(これを印象情報または印象群情報と考えても良い)を得る。
【0043】
次に、韻律情報決定部15は、「確信」をキーとして、図5の印象韻律関係情報管理表を検索し、語彙情報「絶対」に対応する時間変化情報(図5の第一レコードの時間変化情報)を取得する。次に、韻律情報決定部15は、「確信」をキーとして、図6の印象韻律関係情報管理表を検索し、語彙情報「絶対」に対応する発話時間情報「70」を取得する。次に、韻律情報決定部15は、デフォルトの周波数高低情報を取得する。以上より、語彙情報「絶対」に対応する韻律情報(時間変化情報、発話時間情報、周波数高低情報)が得られた。
次に、音声出力部16は、取得した韻律情報(時間変化情報、発話時間情報、周波数高低情報)に基づいて、2番目の語彙情報「絶対」を出力する。
【0044】
次に、印象群情報取得部14は、3番目の語彙情報「違う」に対応する印象群情報「違う(0,0,0.3,0.6,0,0,5,5,0,0,0,0,0,0,0,0)」を、図8の印象付語彙辞書から取得する。そして、印象群情報取得部14は、印象群情報「違う(0,0,0.3,0.6,0,0,5,5,0,0,0,0,0,0,0,0)」に基づいて、発話印象「否定」(これを印象情報または印象群情報と考えても良い)を得る。
【0045】
次に、韻律情報決定部15は、韻律情報決定部15は、「否定」をキーとして、図5の印象韻律関係情報管理表を検索し、語彙情報「違う」に対応する時間変化情報(図5の第四レコードの時間変化情報)を取得する。次に、韻律情報決定部15は、「否定」をキーとして、図6の印象韻律関係情報管理表を検索し、語彙情報「違う」に対応する発話時間情報「110」を取得する。次に、韻律情報決定部15は、デフォルトの周波数高低情報を取得する。以上より、語彙情報「違う」に対応する韻律情報(時間変化情報、発話時間情報、周波数高低情報)が得られた。
次に、音声出力部16は、取得した韻律情報(時間変化情報、発話時間情報、周波数高低情報)に基づいて、3番目の語彙情報「違う」を出力する。
以上の処理により、本音声合成装置は、出力情報「それは、絶対違う。」を、場面に適した韻律が付与された音声で出力できた。
以上、本実施の形態によれば、場面に適した韻律が付与された音声を出力する音声合成装置を提供できる。
【0046】
なお、本実施の形態によれば、印象付語彙辞書は、語彙情報と、ベクトルデータである印象群情報を有した(図8参照)が、図9に示すように、印象付語彙辞書は、語彙情報と印象情報(一の印象情報を有する印象群情報)を有するレコードを1以上有するものでも良い。つまり、印象付語彙情報は、語彙情報と印象情報を有する情報でも良い。
【0047】
また、本実施の形態によれば、出力情報格納部13の出力情報を出力したが、印象付語彙情報が有する語彙情報を、印象付語彙情報が有する印象群情報に対応する韻律情報が示す韻律で音声出力すれば良い。つまり、本音声合成装置は、語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納しており、前記印象群情報に基づいて決定される語彙の韻律情報を用いて、前記語彙情報を出力する音声合成装置、である。
また、本実施の形態において、音声合成装置は、2以上の語彙に対応する2以上の印象群情報から、文や句などの所定の語彙群の情報の印象群情報を構成し、当該構成した印象群情報に基づいて文や句の韻律情報を決定し、文や句を出力しても良い。つまり、本音声合成装置は、語彙を示す情報である語彙情報と、前記語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納している印象付語彙情報格納部と、印象群情報または印象情報と、語彙を出力する際の韻律に関する情報である韻律情報の関係を示す情報である印象韻律関係情報を格納している印象韻律関係情報格納部と、音声出力する対象であり、1以上の語彙情報を有する出力情報を格納している出力情報格納部と、前記出力情報が有する語彙情報と対になる印象群情報を、前記印象付語彙情報格納部から取得する印象群情報取得部と、前記印象韻律関係情報と、前記印象群情報取得部が取得した印象群情報に基づいて、前記1以上の語彙情報が示す1以上の語彙の韻律情報を決定する韻律情報決定部と、前記韻律情報決定部が決定した1以上の語彙の韻律情報に基づいて、前記出力情報を出力する音声出力部と、を具備する音声合成装置、である。ここで、韻律情報決定部の処理である「前記1以上の語彙情報が示す1以上の語彙の韻律情報を決定する」とは、語彙ごとに韻律情報を決定する必要はなく、2以上の語彙からなる文や句の韻律情報を決定することも含む。また、「韻律情報決定部が決定した1以上の語彙の韻律情報に基づいて、前記出力情報を出力する」とは、文や句全体の韻律情報に基づいて、出力情報を出力することも含む。
また、本実施の形態の具体例によれば、印象韻律関係情報は、印象情報(印象群情報)と、時間変化情報等を有するレコード(事例の情報)であったが、印象情報(印象群情報)を適用して韻律情報を生成するためのルールや演算式等でも良い。印象韻律関係情報がルールや演算式等の場合、韻律情報決定部は、取得した印象情報(印象群情報)に、ルールや演算式を適用して韻律情報を得る。
【0048】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、格納している出力情報が有する語彙情報と対になる印象群情報を、格納している印象付語彙情報から取得する印象群情報取得ステップと、格納している印象韻律関係情報と、前記印象群情報取得ステップで取得した印象群情報に基づいて、前記語彙情報が示す語彙の韻律情報を決定する韻律情報決定ステップと、前記韻律情報決定ステップで決定した語彙の韻律情報に基づいて、前記出力情報を出力する音声出力ステップと、を実行するためのプログラム、である。
(実施の形態2)
本実施の形態において、受け付けた音声から受ける印象に対応した処理ができる音声処理装置について説明する。
図10は、本実施の形態における音声処理装置のブロック図である。
音声処理装置は、印象付語彙情報格納部11、音声受付部101、音声認識部102、印象群情報取得部14、処理部103を具備する。
音声受付部101は、音声を受け付ける。音声の入力手段は、例えば、マイク215である。音声受付部101は、マイク215等の入力手段のデバイスドライバー等で実現され得る。
【0049】
音声認識部102は、音声受付部101が受け付けた音声を認識し、音声情報を取得する。なお、音声情報は、1以上の語彙情報を有する。音声情報は、例えば、実施の形態1における出力情報と同様のデータ構造である。音声認識部102は、公知技術であるので詳細な説明は省略する。音声認識部102は、通常、MPUやメモリ等から実現され得る。音声認識部102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0050】
処理部103は、印象群情報取得部14が取得した印象群情報に基づいて、所定の処理を行う。処理部103は、例えば、印象群情報取得部14が取得した印象群情報が示す印象に対応する情報を視覚的に出力する。処理部103は、例えば、印象群情報が示す印象が「確信」であれば、「青」の背景色をディスプレイ214に表示する。処理部103は、例えば、印象群情報取得部14が取得した印象群情報が示す印象に対応する情報を音出力する。処理部103は、例えば、印象群情報が示す印象が「疑念」であれば、ベートーベンの「運命」をバックグラウンドミュージックとして出力する。処理部103は、通常、MPUやメモリ等から実現され得る。処理部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、音声処理装置の動作について図11のフローチャートを用いて説明する。
(ステップS1101)音声受付部101は、音声を受け付けたか否かを判断する。音声を受け付ければステップS1102に行き、音声を受け付けなければステップS1101に戻る。
(ステップS1102)音声認識部102は、ステップS1101で受け付けた音声を認識し、音声情報を取得する。音声情報は、例えば、文字コードの集合である。
(ステップS1103)印象群情報取得部14は、ステップS1102で取得した音声情報を語彙情報に分解し、1以上の語彙情報を得る。
(ステップS1104)印象群情報取得部14は、カウンタiに1を代入する。
【0051】
(ステップS1105)印象群情報取得部14は、ステップS1103で得た語彙情報の中で、i番目の語彙情報が存在するか否かを判断する。i番目の語彙情報が存在すればステップS1106に行き、i番目の語彙情報が存在しなければステップS1101に戻る。
(ステップS1106)印象群情報取得部14は、i番目の語彙情報に対応する印象群情報を、印象付語彙情報格納部11から取得する。
【0052】
(ステップS1107)処理部103は、ステップS1106で取得した印象群情報が存在するか否か(NULLでないか否か)を判断する。印象群情報が存在すればステップS1108に行き、印象群情報が存在しなければステップS1110に行く。
(ステップS1108)処理部103は、ステップS1106で取得した印象群情報に対応する処理を決定する。
(ステップS1109)処理部103は、ステップS1108で決定した処理を実行する。
(ステップS1110)処理部103は、カウンタiを1、インクリメントする。ステップS1105に行く。
なお、図11のフローチャートにおいて、印象群情報が存在しない場合、例えば、処理部103は、デフォルトの処理を行っても良い。
なお、図11のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音声処理装置の具体的な動作について説明する。
【0053】
図12は、処理部103が保持している出力イメージ管理表である。出力イメージ管理表は、「印象情報」と「出力イメージ」を有するレコードを1以上保持している。「出力イメージ」は、「印象情報」に対応するイメージである。
かかる場合、ユーザは、本音声処理装置に対して、「それは、絶対違う。」と音声入力した、とする。
次に、音声受付部101は、音声「それは、絶対違う。」を受け付ける。
次に、音声認識部102は、音声「それは、絶対違う。」を音声認識し、音声情報「それは、絶対違う。」を得る。
次に、印象群情報取得部14は、取得した音声情報「それは、絶対違う。」を語彙情報に分解し、1以上の語彙情報(「それは」「絶対」「違う」)を得る。
【0054】
次に、印象群情報取得部14は、1番目の語彙情報「それは」に対応する印象群情報を、図8の印象付語彙辞書から取得しようとする。図8の印象付語彙辞書に、語彙情報「それは」を有する印象付語彙情報は存在しないので、印象群情報取得部14は、1番目の語彙情報「それは」に対応する印象群情報を取得できない。この段階では、処理部103は、何ら動作しない。
【0055】
次に、印象群情報取得部14は、2番目の語彙情報「絶対」に対応する印象群情報「絶対(4.7,6,0,0,1,1,1,1,1,0,0,0,0,0,0,2)」を、図8の印象付語彙辞書から取得する。そして、印象群情報取得部14は、印象群情報「絶対(4.7,6,0,0,1,1,1,1,1,0,0,0,0,0,0,2)」に基づいて、発話印象「確信」(これを印象情報または印象群情報と考えても良い)を得る。
【0056】
次に、処理部103は、「確信」をキーとして、図12の出力イメージ管理表を検索する。そして、語彙情報「絶対」に対応する出力イメージ(図12の第一レコードの出力イメージ)を取得する。そして、処理部103は、ディスプレイに出力イメージを出力する(図13(a)参照)。
【0057】
次に、印象群情報取得部14は、3番目の語彙情報「違う」に対応する印象群情報「違う(0,0,0.3,0.6,0,0,5,5,0,0,0,0,0,0,0,0)」を、図8の印象付語彙辞書から取得する。そして、印象群情報取得部14は、印象群情報「違う(0,0,0.3,0.6,0,0,5,5,0,0,0,0,0,0,0,0)」に基づいて、発話印象「否定」(これを印象情報または印象群情報と考えても良い)を得る。
【0058】
次に、処理部103は、「否定」をキーとして、図12の出力イメージ管理表を検索する。そして、語彙情報「違う」に対応する出力イメージ(図12の第四レコードの出力イメージ)を取得する。そして、処理部103は、ディスプレイに出力イメージを出力する(図13(b)参照)。
【0059】
以上、本実施の形態によれば、受け付けた音声から受ける印象に対応した処理ができる。本具体例において、例えば、受け付けた音声から受ける印象に対応したイメージが表示され、例えば、聴覚に障害を有する人でも、他の人が発した音声のイメージを掴むことができる。
なお、本実施の形態の具体例によれば、処理部はイメージを出力したが、音声の印象を色で出力しても良い。
また、本実施の形態の具体例によれば、処理部はイメージを出力したが、語彙が示す印象に対応した韻律で音声出力しても良い。かかる場合、例えば、外国人が発声した音声をより自然に補正できる。
【0060】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を認識し、音声情報を取得する音声認識ステップと、前記音声情報が有する語彙情報に対応する印象群情報を、格納されている印象付語彙情報から取得する印象群情報取得ステップと、前記印象群情報取得ステップで取得した印象群情報に基づいて、所定の処理を行う処理ステップと、を実行するためのプログラム、である。
(実施の形態3)
【0061】
本実施の形態において、言語内容に表出されない発話態度に対する韻律制御の可能性を探るために行った各種実験の内容に関して説明する。上記実施の形態1、2における装置等は、本実験により明らかになった事項に基づいている。
(実験概要)
【0062】
まず、言語内容として陽に表せない韻律情報の規定を目的として、基本周波数(F0)パタンの分析を行った。発話内容情報による直接的な影響を除いた分析を行うため、会話に頻繁に用いられ、韻律情報による受け渡しに大きな役割を果たしていると考えられる一語発話「ん」を分析対象とした。さらに、発話内容の語彙特性による韻律制御の可能性を探るために、韻律によって伝達される発話態度によって規定される語彙を用いて、会話音声における韻律制御の可能性を調べた。
(F0の平均的高さと時間変化形状に基づく発話印象の分類)
以下、まず、実際の対話場面音声で観察された一語発話「ん」を対象としたF0の平均的高さと時間変化形状に基づく発話印象表現の分類について述べる。
【0063】
発話語彙そのものが内在的に持つ情報による制御だけではなく、会話状況に応じてあらわされる発話言語表現に独立な韻律制御が必要である。発話言語表現外の音声情報が伝達する情報の規定を目指して、友人同士の親しい関係である成人女性4名の30分間弱にわたる実際の対話を録音し、分析した。この対話中では一語発話「ん」が多用され(42サンプル)対話を進めてゆく上での種々の情報を伝達していることが観察された。とりわけ、話者が聞き手に対して意識的・無意識的に示す「驚き」、「聞き返し」、「否定(いいえ)」、「了承(はい)」、「躊躇」、「相槌」といった、相手の発言に対しての返答、心的状況、問いかけなどを伝達しており、これらの情報は他の発話内容でも共通に用いられている。これらの伝達情報は共通に用いられる韻律的特徴により分類され、文脈や、次発話の言語内容から推察できることが期待される。42サンプルのF0を観察した結果、F0の平均的高さ・時間変化形状によってこれらの情報が担われていることが判明した。以上の観察に基づく伝達情報の印象表現を、図14に示す。これらの観察結果の妥当性を確認し、より一般的、定量的な記述を目指して以降に示す検討を行った。
(韻律伝達情報を示す印象基本表現の規定)
ここで、図14に示す分類の妥当性を検証するために行う主観評価実験のための印象表現語についての検討を述べる。
【0064】
対話音声の韻律により言語表現として表出されない情報を伝達するためには、まず、韻律によって伝達される情報の規定が必要である。伝達内容のより一般的で精確な規定を行うため、聞き手が受ける発話態度・意図に関する主観に基づく印象表現を調べた。まず、先の分析でみられたF0の平均的高さと時間変化形状だけを制御対象として考えるため、平均的高さと時間変化形状だけが異なる一語発話「ん」を12種類(平均的高さ3種類(高・中・低)×時間変化形状 4種類(上昇・平坦・下降・上昇+下降))用意した。音声発話は第1著者が行い、F0の平均的高さと時間変化形状が12種類の典型例になるように注意し、また意図的な感情表出を避けるため、特定の発話状況を意識しない発話を心掛けた。
これらのF0の平均的高さと時間変化形状の異なる12種類の異なる音声を用いて評定実験を行った。評定は日本語母語話者の成人5名(男性2名、女性3名)が行った。評定実験では、図14の表の作成時の経験を参考に、次に続く事が予想される句表現、またそれらから想定される発話者の発話態度を、極力、形容詞または副詞で直感的に表現してもらうように指示した。
【0065】
印象評定実験で得られた全67表現の中から複数回答のあった26表現を、印象基本表現として選択した。次に示すようにこれらを、「確信−疑念」「肯定−否定」「好印象−悪印象」の3グループに分けた。具体的には、「確信−疑念」のカテゴリとして、「納得、了承、疑い、迷い、疑問」、「肯定−否定」のカテゴリとして、「同意、否定、反論」、「好印象−悪印象」のカテゴリとして、「元気な、楽しい、優しそう、機嫌が良い、わくわく、嬉しい、軽い、興味がある、明るい、暗い、弱々しい、興味がない、機嫌が悪い、重い、面倒くさい、ふてぶてしい、怒っている、うざい」の印象基本表現語を用意した。
(印象基本表現による伝達情報ベクトル表示)
【0066】
ここでは、主観評価実験の詳細と結果を述べる。つまり、上記で得られた26の印象基本表現により、伝達内容を近似的にベクトル表示し、制御対象として考えたF0の平均的な高さと時間変化形状との関係を求める。このため、前章で用いたものと同一の一語発話「ん」を用いた評定実験を行った。12サンプルの一語発話「ん」の各々に対し、26基本表現に、0(全く当てはまらない)〜7(非常に良く当てはまっている)の8段階評定、計312評定を求めた。被験者としては先の評定者とは異なる、聴覚レベルに問題のない、日本語を母語とする、成人5名(男性1名、女性4名)を用いた。また、評定に際しては、反復聴取可能な形で刺激提示した。
(F0の平均的高さ・時間変化形状と韻律伝達情報のMDS分析)
【0067】
ここでは、多次元尺度構成法を用いた実験結果の解析を行う。つまり、各刺激間の評定値差によって得られる距離行列を入力データとして、多次元尺度構成法(MDS)分析を行った。MDSを用いることにより、類似度を表すデータを基に独立な次元を求め、各サンプルが従う構造や制約の多次元表現・理解を期待した。また、評定者が複数の場合に有効である、個人差を考慮に入れたINDSCALアルゴリズムによってMDSを実施した。
【0068】
本分析では、比較的低次元で説明できる分散の割合(VAF)が高く、印象基本表現との対応が良い、3次元を採用した。また各軸の解釈を行うために、重回帰分析を用いて、それぞれの印象基本表現語に対する平均評定値を、3次元空間に射影させた。図15に結果を示す。分析の結果、「確信−疑念」「好印象−悪印象」の軸が、第1次元,第2次元による平面上、「肯定−否定」「確信−疑念」の軸が、第1次元,第3次元による平面上、「肯定−否定」「好印象−悪印象」の軸が、第2次元,第3次元による平面上へ、それぞれ投影可能であった。つまり、評定は、それぞれ単独の印象基本表現に対して行われたにも関わらず、先に3分類した印象基本表現が、それぞれ対となって出現した。またF0の平均的高さと時間変化形状は、それらの印象基本表現語の組によって特徴付けられる印象軸と相関していた。
音声刺激の分布については、「疑念」を表す発話態度の方向から、「確信」の方に向かって、上昇,平坦,上昇+下降,下降の順に配置されている。またF0の平均的高さが高くなるにつれて「好印象」を、また低くなるにつれて「悪印象」を表す事が分かる。更に、「否定」を示す方向から、「肯定」に向けて、上昇+下降,上昇,平坦,下降の時間変化形状をもつ刺激が布置されている。
以上の結果を、基本周波数の制御の観点から見直すと、「確信−疑念」、「肯定−否定」といった発話態度はF0の時間変化形状により、「好印象−悪印象」はF0の平均的高さにより制御する事が考えられる。
(対話音声データ)
ここでは、得られた発話態度を示す語彙と、出力された韻律特徴の関係性を探るために行う、対話音声の分析に用いるサンプル収集のための手続きについて述べる。
【0069】
これまでの分析から、対話音声生成における、入力としての語彙特性の有効性と、出力される韻律特徴を特定する聴覚印象が明らかとなった。そこで、対話音声合成の韻律制御において、これら聴覚印象で表現される語彙特性を直接用いる事が出来る可能性を調べるために、対話音声サンプルの収集を行った。発話内容には、発話態度を示す3次元(好印象/悪印象、疑念/確信、否定/肯定)の発話態度を表す、日常よく使用される日本語の語句を選んだ。これらの語句自体が、発話態度の3次元を、それぞれ確実に表現出来ているかどうかを確認するために、評価実験を行った。25の語句の各々に対して、16の基本印象語に、0(全く当てはまらない)〜6(非常に良く当てはまっている)の7段階で、計400評定を求めた。16の印象基本表現としては、好印象/悪印象として、「落胆」、「暗い」、「悲しい」、「重い」、「楽しみ」、「明るい」、「嬉しい」、「軽い」、疑念/確信として、「迷い」、「疑い」、「納得」、「確信」、否定/肯定として、「反論」、「反対」、「同意」、「賛成」を設定した。被験者としては、日本語を母語とする、成人4名(男性1名、女性3名)を用いた。実験に用いた語句を、それぞれの語句が属する3次元の分類と平均評価得点を被験者間相関と共に、図16に示す。図16が示すように、それぞれの語句が属する分類に対して高い得点が得られ、また被験者間の相関も高かった。従って、これらの語句は3次元の発話態度を示していると言える。
【0070】
出来るだけ自然な対話音声を収集する為に、それぞれの発話語句に適した状況の設定を行った。発話者が発話内容に沿った状況を十分に想像する事により、自発的に自然な対話音声を発話する事を期待した。例えば、「絶対」という語句に対しては、「相手の不安を払拭するための発話」というような発話状況を提示した。発話者は、日本語を母語とする成人4名(男性2名、女性2名)で、それぞれの発話は静かな環境で録音された。また、対話音声の録音後に、同一発話内容で読み上げ調発話の録音も行った。
【0071】
次に、得られた対話音声が、自然な発話であったかを確認するために、自然評価実験を行った。それぞれの発話から、どれくらい、またどのような発話者態度が知覚されるかを、0(全く当てはまらない)〜6(とても良く当てはまっている)の7段階評定を求めた。評定項目としては、6.1と同様に16の印象表現を用いた。被験者は、先の発話者とは異なる、日本語母語話者の成人5名(男性3名、女性2名)を用いた。また刺激は、反復聴取可能な形で提示した。その結果、得られた100発話のうち、24発話において、高い被験者間相関(0.70以上)が見られた。従って、次の分析では、この24発話を自然な対話音声サンプルとして用いる事にした。
(韻律特徴と語彙特性)
【0072】
ここでは、収集した対話音声の分析結果について述べる。つまり、語彙特性による韻律変化を調べるために、対話調と読み上げ調の発話を比較した。その結果、F0の平均的高さ、発話時間長、そしてF0の時間変化形状の3要因が、対話における韻律特性と関わっている事が分かった。
F0の平均的高さ:図17に示すように、F0の平均的高さは「好印象」な発話態度を示す際に用いられるようであった。今回の対話音声収集では、「悪印象」が知覚された発話を得る事が出来なかった。作られた一時的な状況では、「悪印象」を表出する事が困難であったと考えられる。しかしながら、先の分析結果[8]を考慮すると、「悪印象」は、「好印象」と反対の符号を付与すると想像される。
発話時間長:図18に示すように、疑念/確信、否定/肯定の2次元の発話者態度が、発話時間長に影響を与えているようであった。発話時間長が長いほど、より「疑念」、「否定」な発話態度を示すようで、「確信」、「肯定」は、短い時間長で表現されるようであった。一方、「好印象」を表す発話態度には、あまり影響していないようであった。人々は、長い時間長で躊躇を、短い時間長で寛容を表現すると考えられる。
F0時間変化形状:F0時間変化形状を比較するために、同一発話内容のサンプル内で、発話時間長の短い発話を、長いものに合せた。図19に示すように、F0時間変化形状は、2次元の発話態度(疑念/確信、否定/肯定)と関わっているようである事が分かった。一方、「好印象」では、F0時間変化形状に一貫した変化は認められなかった。「疑念」を示す発話態度に関しては、質問として発話された場合、文末が常に上がっていた(上昇)。その他の「疑念」を示す発話に関しては、読み上げ調発話と比較して、平坦になっているようであった(平坦)。また、「確信」は、下降、もしくは上昇+下降、「否定」は、上昇+下降、そして、「肯定」は、下降へと、それぞれのF0時間変化形状を変化させているようであった。
【0073】
以上の本実験によれば、「疑念/確信」、「否定/肯定」といった発話態度が、F0の時間形状および発話時間長を、「好印象/悪印象」な発話態度がF0の高さを、それぞれ制御していると考えられる。また入力語彙が、それぞれの発話態度を直接表していた事から、語彙特性による対話音声の韻律制御の可能性が示唆されたと言える。
【0074】
なお、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0075】
また、図20は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声合成装置または音声処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図20は、このコンピュータシステム210の概観図であり、図21は、システム210のブロック図である。
【0076】
図20において、コンピュータシステム210は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ211と、キーボード212と、マウス213と、モニタ214と、マイク215と、スピーカー216とを含む。
【0077】
図21において、コンピュータ211は、FDドライブ2111、CD−ROMドライブ2112に加えて、CPU(Central Processing Unit)2113と、CPU2113、CD−ROMドライブ2112及びFDドライブ2111に接続されたバス2114と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)2115と、CPU2113に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)2116と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク2117とを含む。ここでは、図示しないが、コンピュータ211は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0078】
コンピュータシステム210に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM2201、またはFD2202に記憶されて、CD−ROMドライブ2112またはFDドライブ2111に挿入され、さらにハードディスク2117に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ211に送信され、ハードディスク2117に記憶されても良い。プログラムは実行の際にRAM2116にロードされる。プログラムは、CD−ROM2201、FD2202またはネットワークから直接、ロードされても良い。
【0079】
プログラムは、コンピュータ211に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム210がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0080】
以上のように、本発明にかかる音声合成装置は、場面に適した韻律が付与された音声を出力という効果を有し、優れた音声合成装置等として有用である。
【図面の簡単な説明】
【0081】
【図1】実施の形態1における音声合成装置のブロック図
【図2】同音声合成装置の動作について説明するフローチャート
【図3】同音声合成装置の動作について説明するフローチャート
【図4】同印象群情報のデータ構造例を説明する図
【図5】同印象韻律関係情報管理表を示す図
【図6】同印象韻律関係情報管理表を示す図
【図7】同印象韻律関係情報管理表を示す図
【図8】同印象付語彙辞書を示す図
【図9】同印象付語彙辞書を示す図
【図10】実施の形態2における音声処理装置のブロック図
【図11】同音声処理装置の動作について説明するフローチャート
【図12】同出力イメージ管理表を示す図
【図13】同処理部における処理例を説明する図
【図14】同伝達情報の印象表現を示す図
【図15】同3次元空間における印象基本表現の投影を示す図
【図16】同対話音声サンプル収集に用いた発話語句に関する情報を示す図
【図17】同読み上げ調と比較した際のF0の平均的高さの違いを示す図
【図18】同読み上げ調と比較した際の発話時間長の違いを示す図
【図19】同読み上げ調と比較した際のF0時間変化形状の違いを示す図
【図20】同音声合成装置または音声処理装置を実現するコンピュータの外観を示す図
【図21】同音声合成装置等のブロック図
【符号の説明】
【0082】
11 印象付語彙情報格納部
12 印象韻律関係情報格納部
13 出力情報格納部
14 印象群情報取得部
15 韻律情報決定部
16 音声出力部
101 音声受付部
102 音声認識部
103 処理部

【特許請求の範囲】
【請求項1】
語彙を示す情報である語彙情報と、前記語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納している印象付語彙情報格納部と、
印象群情報または印象情報と、語彙を出力する際の韻律に関する情報である韻律情報の関係を示す情報である印象韻律関係情報を格納している印象韻律関係情報格納部と、
音声出力する対象であり、1以上の語彙情報を有する出力情報を格納している出力情報格納部と、
前記出力情報が有する語彙情報と対になる印象群情報を、前記印象付語彙情報格納部から取得する印象群情報取得部と、
前記印象韻律関係情報と、前記印象群情報取得部が取得した印象群情報に基づいて、前記1以上の語彙情報が示す1以上の語彙の韻律情報を決定する韻律情報決定部と、
前記韻律情報決定部が決定した1以上の語彙の韻律情報に基づいて、前記出力情報を出力する音声出力部と、を具備する音声合成装置。
【請求項2】
印象群情報は、
確信または疑念の度合いを示す情報、否定または肯定の度合いを示す情報、好印象または悪印象の度合いを示す情報のうち1以上の情報である請求項1記載の音声合成装置。
【請求項3】
前記韻律情報は、
基本周波数の平均的高さに関する情報である周波数高低情報、基本周波数の時間変化形状に関する情報である時間変化情報、発話時間長に関する情報である発話時間情報のうちの1以上の情報である請求項1または請求項2記載の音声合成装置。
【請求項4】
前記韻律情報決定部は、
印象群情報が確信または疑念の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または/および発話時間情報を決定する請求項3記載の音声合成装置。
【請求項5】
前記韻律情報決定部は、
印象群情報が否定または肯定の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の時間変化情報、または/および発話時間情報を決定する請求項3記載の音声合成装置。
【請求項6】
前記韻律情報決定部は、
印象群情報が好印象または悪印象の度合いを示す情報である場合に、当該印象群情報と対になる語彙情報が示す語彙の韻律情報の中の周波数高低情報を決定する請求項3記載の音声合成装置。
【請求項7】
語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納しており、前記印象群情報に基づいて決定される語彙の韻律情報を用いて、前記語彙情報を出力する音声合成装置。
【請求項8】
語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を1以上有する印象群情報を含む印象付語彙情報を1以上格納している印象付語彙情報格納部と、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を認識し、音声情報を取得する音声認識部と、
前記音声情報が有する語彙情報に対応する印象群情報を、前記印象付語彙情報格納部から取得する印象群情報取得部と、
前記印象群情報取得部が取得した印象群情報に基づいて、所定の処理を行う処理部と、を具備する音声処理装置。
【請求項9】
前記処理部は、
前記印象群情報が示す印象に対応する情報を視覚的に出力する請求項8記載の音声処理装置。
【請求項10】
前記処理部は、
前記印象群情報が示す印象に対応する情報を音出力する請求項8記載の音声処理装置。
【請求項11】
音声処理に利用する語彙に関する情報のデータ構造であって、
語彙を示す情報である語彙情報と、当該語彙の印象に関する情報である印象情報を1以上有する印象群情報とが対になる印象付語彙情報のデータ構造。
【請求項12】
コンピュータに、
格納されている出力情報が有する語彙情報と対になる印象群情報を、格納されている印象付語彙情報から取得する印象群情報取得ステップと、
格納されている印象韻律関係情報と、前記印象群情報取得ステップで取得した印象群情報に基づいて、前記1以上の語彙情報が示す1以上の語彙の韻律情報を決定する韻律情報決定ステップと、
前記韻律情報決定ステップで決定した1以上の語彙の韻律情報に基づいて、前記出力情報を出力する音声出力ステップと、を実行するためのプログラム。
【請求項13】
コンピュータに、
音声を受け付ける音声受付ステップと、
前記音声受付ステップで受け付けた音声を認識し、音声情報を取得する音声認識ステップと、
前記音声情報が有する語彙情報に対応する印象群情報を、格納されている印象付語彙情報から取得する印象群情報取得ステップと、
前記印象群情報取得ステップで取得した印象群情報に基づいて、所定の処理を行う処理ステップと、を実行するためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図16】
image rotate

【図20】
image rotate

【図21】
image rotate

【図5】
image rotate

【図15】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2006−330060(P2006−330060A)
【公開日】平成18年12月7日(2006.12.7)
【国際特許分類】
【出願番号】特願2005−149423(P2005−149423)
【出願日】平成17年5月23日(2005.5.23)
【出願人】(899000068)学校法人早稲田大学 (602)
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)