説明

音声対話コンテンツ作成方法、装置、プログラム、記録媒体

【課題】音声対話装置で用いる各種コンテンツの作成方法を簡素化する。
【解決手段】開発すべきアプリケーションに適合した対話の順序及び画像の表示順序を定めたシナリオテンプレートと、開発すべきアプリケーションで定められる入力項目名を表わす複数のスロット名及びこれらのスロット名に付したスロットIDと、予めスロットIDが埋め込まれ、このスロットIDの埋め込み位置に従ってスロット名を代入することにより対話相手に対し入力を促し、適正な入力を誘導する複数の対話文のテンプレートとを用意し、対話文のテンプレートに埋め込まれたスロットIDに従ってスロット名を代入し、スロット名が埋め込まれた対話文のそれぞれをシナリオテンプレートに代入し、シナリオファイル及びプロンプト音声ファイルを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、利用者の音声を認識し、その内容を理解した上で必要な処理を行い音声や画面にその結果を表示することで応答を返す音声対話システム用プログラムの開発に用いる音声対話コンテンツ作成方法、装置、プログラム、このプログラムを記録した記録媒体に関する。
【背景技術】
【0002】
画面上に擬人化して表現されたアニメーションエージェントキャラクタを表示させ、ユーザーがそのエージェントに対して話しかけるように発声した音声を認識し、応答をあらかじめ録音された音声や合成音で再生したり画面上にテキストで表示するなどして言葉として出力したり、応答のニュアンスをエージェントの仕草としてアニメーションで表示させたりすることで通知しながら対話を進める装置が提案されている(特許文献1)。
音声対話システムの作成においては、音声認識、音声合成、音声再生、音声理解、対話理解、対話制御といった多岐にわたる部位の動作に関して詳細な記述を行う必要がある。
【0003】
通常この動作の詳細な記述作業(プログラミング)においては、作ろうとしている音声対話システムの設計情報の他に、各部位で用いる音声認識、音声合成等の技術要素の技術的特性を把握している必要があるなど専門的な知識を有している必要があった。また、音声を認識しながら音声を再生するといった各部位間を連携させるなどの処理を記述する必要があった。これらの要求から音声対話システムの設計及び記述は非常に複雑な作業となっていた。
この複雑さのために、従来から音声対話システムプログラム(以後音声対話シナリオ)記述においては(特許文献2)の中で示されているように、音声対話シナリオの中でよく利用される個所を部品化しておき、それらを対話の順序(対話フロー)に合わせて順番につなぎ合わせることで音声対話シナリオを設計及び記述を簡略化していた。
【0004】
また、音声認識を行うためには、その対話システムに対して利用者が発する音声を受理し認識結果として出力するための文法や言語モデル、辞書などを作成する必要がある。この過程においては(特許文献3及び特許文献4)により、クラス統計言語モデルと呼ばれる被覆率の高い言語モデルと辞書を少数のコーパス(電子化された音声・言語データ)から作成し、音声認識を実行する技術が提案されている。
また近年では音声出力、音声入力といった音声モーダル(音声対話形式)のみならず、音声入力に対する応答内容を画面に描画し、また、その描画された画面の上にあるリンク等の項目のうちマウス等で選択された項目について音声により応答するといったマルチモーダル(多機能)なシステムが提案されている。このようなシステムでは、システムが検索結果などを返すために必要な項目に対してそれぞれの項目が「入力済み」・「未入力」等どのような状態にあるかといった、音声対話の途中の状態や対話の結果を画面上で表現することでより利用者にとってわかりやすい対話システムを提供することができる。このために画像やハイパーテキスト等のドキュメントファイルなども準備する。このとき、既に入力されている項目に関しての情報を受け取ることで、未入力の項目(スロット)についての候補を表示したりする上記のドキュメントを動的に生成する装置を作成しておくことで、ドキュメント作成のコストを下げる方法なども提案されている。
【特許文献1】特開2004−295837号公報
【特許文献2】特開2004−310628号公報
【特許文献3】特開2004−69858号公報
【特許文献4】特開2004−053745号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
音声対話シナリオの開発について(特許文献2)にあるように部分的な音声対話シナリオの接続という手法をとることで開発の負担を低減できる。しかし、音声対話シナリオのフロー設計においては、非常に高い専門性が必要とされ音声対話シナリオを短期間に多数を量産することは困難であった。なぜなら、一般的に音声対話において結果出力に必要な入力項目をどのような順で入力させるか、そしてその手順通りにユーザを誘導するにはシステムからの応答としてどのような言語表現(プロンプト)を用いるかに関しては慎重な設計が必要だからである。
【0006】
また、音声認識を行った後に発話理解(発話の中から、対話の目的を達成するためにユーザから聞き出すことが必要な項目(スロット)に代入すべきキーワードを抽出する処理)を行う必要があるが、クラス言語モデルを作成する段階においてそのキーワードとなる単語を辞書に登録する際には、その言語の(1)表記、(2)読みと、その単語をクラス言語モデルにおけるどのクラス記号に割り当てるのかという(3)情報(クラス情報)に加えて、発話理解処理の中で意味を表わす(4)代入先スロットを付与する必要がある。すなわち、4種類の情報を登録する必要があり煩雑であった。
【0007】
また、対話の最中、または対話の結果から情報を提供する段階にあたって動的に画面を表示するためのドキュメントを生成する装置を準備する場合、通常、対話処理装置以外の別の装置(例えばWebサーバ上のCGIプログラム)を作成する必要がある。音声対話シナリオ以外のプログラムを作成することは単なるドキュメントを作成することに比べると経験の浅い音声対話シナリオ作成者には困難である。しかしながら、動的にドキュメントを生成するのではなく、静的にすべての入力状態に応じたドキュメントを準備することは非常に手間のかかる作業であった。
【0008】
上記のとおり、マルチモーダルな音声対話シナリオの問題点として以下の問題があり、これらの作業コストや難易度を下げることが課題であった。
(1)音声対話シナリオのフロー(筋書)自体を決定することも専門的知識が必要で作成が困難
(2)対話の最中の状態に応じた応答(プロンプト)内容を作文することが困難
(3)キーワードとなる単語を登録する際の作業に手間がかかる
(4)画面に結果表示するためのドキュメントやプログラムの作成が困難
【課題を解決するための手段】
【0009】
本発明は上記問題を鑑みなされたものである。
上記(1)に関しては、部分的な音声対話シナリオを部品化して開発者が検索やオンラインショッピングといったアプリケーションや交通、小売、証券といったドメイン(話題)に合わせてフローを検討しながら各部品間を接続するのではなく、例えば、2つの項目に関して入力を求め、その2つの情報から導かれる結果を返すアプリケーション(「場所」「業種」から店舗を表示する、「発駅」「着駅」からその間の経路の乗り換え案内情報を表示する等)の全体のフローをテンプレートとして準備しておくことで、フロー設計を不要とさせる。このとき、作成しようとしているアプリケーションのドメインに合わせて応答内容となるテキスト(画面中にエージェントの噴出し内やテロップとして表示)や応答音声を準備させる。
【0010】
上記ドメインにあわせた応答を準備させる際の問題である上記(2)に関しては、上記で準備したシナリオのフロー内の各場面での状況(あるスロットは入力済みであり、他方のスロットはいまだ入力済みでない等)に応じて、スロット名称を示す部分を空欄にした応答テキストとの雛形(テンプレート)を準備しておく。そして、スロットの名称を指示することで、その名称を雛形中の空欄に埋め込み、プロンプト文を動的に生成し、シナリオテンプレートの中にプロンプト文を埋め込み、必要であれば音声合成器や、人間がそのテキストを読み上げた音を録音装置で録音することで音声ファイルを作成する手段を設ける。
【0011】
上記(3)の問題に関して、そのキーワードを入力すべきスロットの名前をそのままクラスとして読み替えるスロット・クラス読み替え手段を設ける。
上記(4)の問題に関しては、作成しようとしている音声対話アプリケーションにおけるスロットに入るキーワードの全ての組合せ(あるスロットにはキーワードが入っていない組み合わせも含む)について列挙したリストを自動的に作成する手段を設ける。そして、スロットにキーワードが入っていない組み合わせについては、既にスロットに入っている値と、まだ値が入っていないスロットに入るキーワードのリストを画面に表示することで利用者に提示するドキュメントのファイルを自動的に作成する手段を設ける。作成したドキュメントのファイル名は対応するキーワードの組み合わせと関連付けられてリストに追加する。
【0012】
さらに対話シナリオが実行される環境、つまり、音声対話装置においては、対話シナリオが実行され、ユーザからの入力がある毎にスロットに入力されているキーワード情報を受け取り、このキーワードとドキュメントの対応をリストを参照して入力されているキーワードの組み合わせに関連付けられているドキュメントのパス、ファイル名を取り出して、そのファイルを読み込み表示する結果表示実行手段及び画面表示手段を設ける。
【発明の効果】
【0013】
本発明により以下の効果がえられる。
1.音声対話シナリオの専門的知識が要求される音声対話シナリオのフロー開発を開発ア
プリの開発者自身が行わずにすむため、適切なフローを持つ音声対話アプリケーショ
ンの非専門家でも容易に音声対話コンテンツの開発を行うことができる。
2.上記と同じく、音声対話シナリオの専門的知識が要求されたシステム応答プロンプト内容の作文において、
開発アプリ毎にはじめから作文する必要が無くなりテンプレートによって自動生成さ
れるため、適切な対話を行う非専門家による音声対話コンテンツの開発が容易になる。
3.途中結果ドキュメントファイルの生成を自動的に行うために、マルチモーダル音声対
話コンテンツの開発作業量を低減することができる。
4.クラス言語モデルの作成に必要な、クラス情報の付与をキーワードに対して行う必要
がなくなるため、音声対話コンテンツの開発作業量を低減することができる。
5.スロット名のリストと、単語情報のリストの準備だけで、マルチモーダル音声対話コ
ンテンツの実行に必要な要素全てについて、その全体または雛形が半自動作成可能と
なるため、開発作業量が従来に比してはるかに削減される。
【発明を実施するための最良の形態】
【0014】
本発明による音声対話コンテンツ作成装置は全てをハードウェアによって構成することができるが、それより更に簡易に実現するには本発明で提案する音声対話コンテンツ作成プログラムをコンピュータにインストールし、コンピュータに備えられているCPU(中央演算処理装置)によりプログラムを解読させ、コンピュータを音声対話コンテンツ作成装置として機能させる実施形態が最良の形態である。
コンピュータに本発明による音声対話コンテンツ作成装置として機能させる場合、コンピュータには、開発すべきアプリケーションに適合した対話の順序及び画像の表示順序を定めたシナリオの雛形を格納したシナリオテンプレートと、開発すべきアプリケーションで定められる入力項目を表わす複数のスロット名及びこれらのスロット名に付したスロットIDを格納したスロット名リスト格納部と、予めスロットIDが埋め込まれ、このスロットIDの埋め込み位置に従って上記スロット名を代入することにより対話相手に対し入力を促し、適正な入力を誘導する複数の対話文の雛形を格納したプロンプトテンプレートと、プロンプトテンプレートに格納した対話文の雛形に埋め込まれた上記スロットIDに従って上記スロット名を代入し、プロンプト文リストを生成するプロンプトテキスト作成手段と、スロット名が埋め込まれた対話文のそれぞれを上記シナリオテンプレートに代入し、シナリオファイルを生成するシナリオ生成手段と、スロット名が埋め込まれた対話文のそれぞれを上記プロンプト文リストに代入し、プロンプト音声ファイルを生成するプロンプト音声生成手段とが構築され音声対話コンテンツ作成装置として機能する。
【0015】
この発明では更に、この音声対話コンテンツ作成装置として機能するコンピュータに、途中結果ドキュメント設置位置情報格納部と、単語情報リスト格納と、これら途中結果ドキュメント設置位置情報格納部に格納された途中結果ドキュメント設置位置情報と単語リスト格納部に格納された単語リストとから対話の結果を表わす画面を表示するための結果表示ドキュメントリストを生成する結果表示ドキュメントリスト生成手段と、スロット名リスト格納部に格納したスロット名リストと、単語情報リストとから対話途中の状況を表わすための途中結果ドキュメントファイルを作成する途中結果ドキュメントファイル生成手段とを構築し音声対話コンテンツ作成装置として機能させる。
【実施例】
【0016】
図1に本発明による音声対話コンテンツ作成装置の実施例を示す。図中100は本発明による音声対話コンテンツ作成装置を示す。この音声対話コンテンツ作成装置100に対し、予め用意した入力情報10を入力し、入力情報10に基づいて音声対話コンテンツ20が生成される。
入力情報10はここではスロット名リスト11、途中結果ドキュメント設置位置情報12、単語情報リスト13、追加例文コーパスファイル14等とした場合を示す。また、生成される音声対話コンテンツ20としてはシナリオファイル21と、プロンプト音声ファイル22、結果表示ドキュメントリスト23、途中結果ドキュメントファイル24、キーワードリスト25、クラス言語モデル26、認識辞書27等とした場合を示す。
【0017】
音声対話コンテンツ作成装置100は筋書きが各種用意されたシナリオテンプレートの雛形を多数格納したシナリオテンプレート群101と、対話文の雛形を多数格納したプロンプトテンプレート群102、シナリオ生成手段103、プロンプトテキスト生成手段104、プロンプト音声生成手段105、結果表示ドキュメントリスト生成手段106、途中結果ドキュメントファイル生成手段107、スロット・クラス読み替え手段108、クラス言語モデルおよび認識辞書生成手段109、例文コーパス110等で構成される。
本実施例を用いて、音声対話アプリケーションを開発する場合、まず、開発するシナリオテンプレート群101の中からアプリケーション(以下、開発アプリと呼ぶ)の種類に応じて音声対話シナリオの雛形であるシナリオテンプレート(図2:シナリオテンプレートについては後段で説明する)を選択する。以下、本実施例ではプロ野球の成績情報を「リーグ」と「成績」という二つの項目を音声により入力させ、入力内容に応じた画面を表示するアプリケーションを作成する例を説明する。リーグには“パリーグ”“セリーグ”、成績には“順位”“打率”というキーワードが入力できるようにするものとする。この場合、シナリオテンプレートとしてはスロット(対話により入力する項目の埋め込み位置)を2つもち、この2つのスロットを入力させるというフローが記述されたシナリオテンプレートを選択する。
【0018】
選択したシナリオテンプレートが扱うスロットに対して、それぞれの名前を決め、スロット名リスト11(図1)を用意する。ここで決めた名前は対話の中で開発アプリが利用者に入力を求める際に応答時の言語表現として用いられる。スロット名リスト11の例を図4に挙げる。11Aはスロット名、11BはスロットIDを示す。各スロット名11Aは、スロットを識別するために付与されたID記号であるスロットID11Bと対にして記述される。
次に、プロンプトテキスト生成手段104にスロット名リスト11を入力し、対話の各場面でのシステム応答文となるプロンプトテキストを列挙したプロンプト文リスト104A(図1)を作成する。プロンプト文リストを生成するためにプロンプトテキスト生成手段104は、この入力とシナリオテンプレート群101と対応したプロンプトテンプレート群102を用いる。
【0019】
プロンプトテンプレート群102に格納されているプロンプト文リストの例を図5に示す。プロンプトテンプレート群102内には対話中の各場面でシステムが応答する際の応答文の雛形がテキストとして列挙されている。列挙されている1文1文をプロンプトテンプレートテキストと呼ぶ。
各テンプレートテキストでスロット名称が再生されるべき部分は、空欄とされ、<条件1>、<条件2>で示されるスロットIDが付与されている。
また、各プロンプトテンプレートテキストはシナリオテンプレート群101中に挿入すべき個所との対応を示すためにプロンプトIDと対応付けられている。
【0020】
プロンプトテキスト生成手段104の処理手順を図6に示す。図6に示すステップSP61ではスロット名リストの読み込みを実行し、ステップSP62ではプロンプトテンプレートの読み込みを実行し、ステップSP63ではプロンプトテンプレートテキスト中の空欄部分にスロットIDに従ってスロットの名称を挿入し、プロンプト文とする動作をプロンプトテンプレートのテキスト分を繰り返し実行する。ステップSP64ではプロンプトリストファイルとして出力する動作を実行する。ここまでの処理により、図7に例示されるプロンプト分リスト104Aが生成される。
【0021】
次に、プロンプト文リスト104Aをシナリオ生成手段103に入力し、シナリオファイル21を出力する。シナリオ生成手段103の処理手順を図8に示す。シナリオ生成処理中のステップSP83では、シナリオテンプレート101Aの中を走査してプロンプトIDを対応付ける空欄を発見したならば、その対応するプロンプトIDと対応するプロンプト文をプロンプトリスト104Aより取り出し空欄部分に挿入することを繰り返す。図2に示したシナリオテンプレート101Aと、図7のプロンプト文リスト104Aの例によると、図3の例で示すようなシナリオファイル21が生成される。
【0022】
ここで、図2にその一部を示すシナリオテンプレート101Aについて説明する。シナリオテンプレート101Aは最終的に本手法で生成されるシナリオファイル21の雛形になるファイルである。
このシナリオテンプレート101Aにはある特定のアプリケーション向けに対話を実行し完了するまでに必要なシステム側の制御内容のほとんど全てをあらかじめシナリオファイルを記述するプログラム言語で記述されていることが特徴である。完全なシナリオファイルと異なる点は、応答として言語表現を用いる個所、例えば文字を表示したり(エージェントキャラクトの動作と同期させて音声再生する際に同時にフクダシを画面に描画して音声再生内容の文章をそのフキダシ内部に表示する場合)、音声合成したりする際の、表示・合成内容となるテキストを指示する個所が空欄になっており各空欄はプロンプトIDが対応付けされている点である。
【0023】
また、そのプロンプトIDは上述のプロンプトテキスト生成手段104が用いるプロンプトテンプレート102A内の各プロンプトIDと対応付けて記述されている。図2では、3行目L3に示すエージェントキャラクタによるアニメーションによる“RestPose”という動作の再生と同時にフキダシの内容を表示するが、そこが空欄となっていてprompt001というIDで対応付けられていることを示す(<!--prompt001--><!--/prompt001-->という箇所)。
更に、開発アプリにおける応答プロンプト音声の再生に、システム実行時の処理能力などの問題点から対話中におけるリアルタイム音声合成処理による音声再生ではなくあらかじめ録音されたファイルを使うように選択した場合、そのプロンプト音声ファイルを作るために図9に示すプロンプト音声生成処理手順を利用する。
【0024】
図9−Aでは、ステップSP91とSP92を実行し、音声合成技術を用いて自動的に音声ファイルを生成する場合である。対話中にリアルタイムに合成音声を作製する場合に比べて合成するための処理時間の制約がなくなるために、より高品質な合成音声の作成が可能である。また、図9−BではステップSP93とSP94を実行し、プロンプト文リスト104Aを予め一文一文人間が読み上げた音声を収録する。この場合、画面にプロンプト文リスト104Aの各プロンプトテキスト表示させる機能と、音声をマイクなどで収音し波形をファイルとして記録する機能をもつ装備を準備すればよい。なお、プロンプトテキストを画面に表示する際に、対話状況の端的な説明文も表示すると音声を発声する人間がどのような韻律でそのテキストを発声すればよいのかを示すことができる。この説明文もプロンプトテンプレート102A中でプロンプトIDと対応付けて記述しておけばよい。
【0025】
次に、単語情報リスト13を用意する(図10)単語情報リスト13とは、開発アプリ内の各スロットの入力値となる単語(キーワード)のリストであり、その単語の表記と音声認識で用いるための読みと、入力先となるスロットのIDを組にしてリストにしたものである。
作成した単語情報リスト13は、まず結果表示ドキュメントリスト生成手段106に入力され、図11にステップSP111〜SP116で示される結果表示ドキュメントリスト生成処理手順により処理されて結果表示ドキュメントリストのテンプレートを生成し、このテンプレートが結果表示ドキュメントリストテンプレート106A(図12)となる。結果表示ドキュメントリストテンプレート106Aとは、各スロットに入ったキーワードの組み合わせに応じて、開発アプリがどのドキュメントを画面に表示するかを示したリストである。結果表示ドキュメントリスト生成手段106はこのキーワードと途中結果ドキュメント設定位置情報との組み合わせのリストを自動的に作成してファイルにする。画面表示には途中結果ドキュメント設置位置情報12で指定されるWebブラウザ等を利用することで、開発アプリを実行するパーソナルコンピュータ上に接続された記憶装置やネットワークに接続されたサーバ内のドキュメントを読み込んで表示することができる。
【0026】
全てのスロットにキーワードが入力された場合の画面としてはネットワーク上のサーバなどに散在しているドキュメントなどを表示する。そのため、結果表示ドキュメントリストテンプレート106Aに対して、そのドキュメントを保持しているサーバのアドレスと記憶装置内でのファイルのある位置(パス情報)、ファイル名を例えばURLなどの型式で結果表示ドキュメントリスト生成手段106で記述する。記述をするには、あらかじめ全てのスロットにキーワードが入力された場合のキーワードの組み合わせと、表示するドキュメントのURLの対応表をコンテンツ作成者があらかじめ作成し、結果表示ドキュメントリスト生成手段106への入力とする。結果表示ドキュメントリスト生成手段106は、そのリストを元にステップSP114の直後にURLを記述することが出来る。
【0027】
一方、一部のスロットに値が入っていない対話途中の状態において、どのスロットのキーワードがまだ未入力でどのスロットにどのキーワードが入力されているかを示すために画面に表示する内容については途中結果ドキュメントファイル生成手段107で途中結果ドキュメントファイルを生成する。そのファイルを開発アプリの記憶装置内の保存位置とファイル名を記述する(図11中ステップSP114からSP115)。途中結果ドキュメント保存位置については途中結果ドキュメントファイルを保存するサーバのネットワーク上のアドレスやパス情報を記した途中結果ドキュメント設置位置情報12として用意する。結果表示ドキュメントリスト生成手段106が各キーワードの組み合わせと一緒にその途中結果ドキュメント設置位置情報12と次段落に述べる途中結果ドキュメントファイル生成手段107が生成する各途中結果ドキュメントファイルの規則的なファイル名を組み合わせた完全なパス情報を生成して追記しても良い。さらに、途中結果のみならず最終的な結果についても表示すべきドキュメントのURL等が機械的に生成可能な場合は、生成し自動的に付与しても良い。
【0028】
図13に途中結果ドキュメントファイル生成手段107の処理手順を示す。途中結果ドキュメントファイル生成手段107は、ステップSP131でスロット名リスト11からスロットIDとスロット名の対応を読み込み、ステップSP133で各スロットに入るキーワードの組み合わせのうち一つ以上のスロットにキーワードがない組み合わせを生成し、ステップSP134で各組み合わせにおいて図14で例示するように、現在の各スロットの状態について入力済みキーワードと入力候補となるキーワードのリストを示すドキュメントファイル(途中結果ドキュメントファイル)を生成する。生成したファイルは、ステップSP135で一定の規則にしたがってファイル名を付与して保存される。規則としては、各スロットに入るキーワードについて単語情報リスト中に現れる順に番号を付与し、各スロットの入力キーワードの番号の組で示すなどの方法がある。例えば図12の結果表示ドキュメントリストテンプレート例の1行目L1では、“C-1-.html”というファイル名が付与されている。これは、条件1スロットでは1番のキーワード入力状態にあり条件2スロットについてはキーワードが入力されていない状態である場合に表示する途中結果ドキュメントファイルであることを示すファイル名である。
【0029】
つまりハイフンに続く数字が有ればその番号で示されるキーワードが入っており、数字が無ければ対応するスロットには値が無いことを示す。図12の8行目L8の“C--2.html”は条件2スロットに2番目のキーワードが入力されており、条件1スロットは未入力の状態での画面表示内容であることを示す。途中結果ドキュメントファイルのファイル形式は図12の本実施例ではHTML形式で記述しているが、画面表示手段が表示可能なファイル形式(例えば画像ファイル形式)であればよい。さらに、HTML形式の場合、CSS(カスケーディングスタイルシート)のファイルをリンクしておき、途中結果ドキュメントが表示される際の背景画像や文字の書体、大きさ、色などを予めCSSファイルとして準備することで容易に変更できるようにしてあっても良い。
【0030】
次に、スロット・クラス読み替え手段108に単語情報リスト13を入力してキーワードリスト25を作成し、さらにクラス言語モデル及び認識辞書生成手段109によりクラス言語モデル26と認識辞書27を生成する。
クラス言語モデル生成手法においては、その作成過程において、例文コーパスを形態素解析して単語列に分解した上で、その単語列中でクラス化すべき単語があれば、その単語をクラスに置き換えるという処理を行う。そのとき、どの単語がどのクラスに属するかを示す対応表が必要である。本実施例では各キーワードの単語クラスとして入力先スロットIDをクラス情報として用いる。図15にスロット・クラス読み替え手段が生成したキーワードリスト25を、また、図16にステップSP161〜SP163で示されるスロット・クラス読み替え処理手順の一例を例示する。
【0031】
例文コーパスは各開発アプリが対象とする話題(ドメイン)に依存しないような一般的な表現からなる発話例文を集めたものである。しかしながら、開発アプリにおける音声認識率を向上させるためにはドメインに依存した表現を用いた発話例を言語モデル作成時に準備することが望ましい。本実施例では、クラス言語モデル作成段階で開発者が集めたドメインに依存した発話例文集である追加例文コーパス14を取り込み、各例文を形態素解析後、キーワードリスト25を用いてキーワード部分をクラス名に置き換える。
クラス言語モデルおよび認識辞書生成手段109は、あらかじめ準備されている例文コーパスと上記追加例文コーパス14とを用いて、クラス言語モデル26と認識辞書27を生成する。この手段の詳細については従来の技術で述べた特許文献3、4に詳しく説明されている。この手段が利用する例文コーパスは開発者が選択するシナリオテンプレート名に合わせて用意される。この例文コーパスの各例文はあらかじめ形態素解析された上、クラス部分がスロットIDと同じ名前のクラスとして置き換えられている。
【0032】
図17に対話シナリオ実行装置の実施例を示す。図中200は対話シナリオ実行装置を示す。対話シナリオ実行装置200はマイク201と、スピーカ202と、音声認識手段203と、発話理解手段204、対話シナリオ実行手段205、音声再生手段206、結果表示実行手段208、画面表示手段209とを備えて構成される。
対話シナリオ実行手段205は音声対話コンテンツ作成装置100で生成したシナリオファイル21の内容を解釈し実行する。つまり、対話シナリオ実行手段205はシナリオファイル21の内容に応じて各部位に指示を出力する。音声を再生すべき時点では音声再生手段206に対してプロンプト音声22を再生するように指示し、エージェントアニメーションの動作を一緒に応答テキストをフキダシ等に表示するように指示する。さらに、音声認識手段203に対してクラス言語モデル26と認識辞書27を用いて音声認識するように指示する。
【0033】
発話理解手段204に対しては、認識単語列を音声認識手段203から受け取り、その中からキーワードを取り出して各キーワードがどのスロットに入力されるべきかをキーワードリスト25中のクラス名をスロットIDとして読み替えて照らし合わせ、該当するスロットへの入力値として出力するように指示する。
そして、スロットの入力状態を結果表示実行手段208に送信し、結果表示実行手段208は画面にその入力状態に応じた画面内容として表示すべきファイルの情報を結果表示ドキュメントリスト23から取り出して、画面表示手段209に表示するように指示する。
【0034】
画面表示手段209によって、途中結果ドキュメントファイルであれば途中結果ドキュメント設置位置が示す記憶領域に保存してある途中結果ドキュメントファイルを読み込み表示し、全てのスロットに値があれば、ネットワーク300などを経由して外部のサーバ等から結果ドキュメントを読み込み結果となる情報を表示する。
以上説明した音声対話コンテンツ作成装置100及び対話シナリオ実行装置200はプログラム言語によって記述された音声対話コンテンツ作成プログラム及び音声対話プログラムをコンピュータにインストールし、コンピュータに備えられたCPU(中央演算処理装置)に解読させ、実行させることにより実現される。
【0035】
音声対話コンテンツ作成プログラム及び音声対話プログラムはそれぞれコンピュータが読み取り可能な記録媒体に記録され、この記録媒体又は通信回線を通じてコンピュータにインストールされる。
【産業上の利用可能性】
【0036】
この発明による音声対話コンテンツ作成方法、装置、プログラムはそれぞれ音声対話コンテンツ作成現場で活用される。
【図面の簡単な説明】
【0037】
【図1】本発明の音声対話コンテンツ作成装置の実施例を説明するためのブロック図。
【図2】本発明で用いるシナリオテンプレートの一部を例示した図。
【図3】本発明による音声対話コンテンツ作成装置で生成されるシナリオファイルの一例を示す図。
【図4】本発明で用いるスロット名リストの一例を示す図。
【図5】本発明で用いるプロンプトテンプレート群の一例を示す図。
【図6】本発明で用いるプロンプトテキスト生成手順の一例を説明するためのフローチャート。
【図7】図6に示したプロンプトテキスト生成手順で生成されるプロンプト文リストを説明するための図。
【図8】本発明で用いるシナリオ生成処理手順を説明するためのフローチャート。
【図9】本発明で用いるプロンプト音声生成処理手順を説明するためのフローチャート。
【図10】本発明で用いる単語情報リストを説明するための図。
【図11】本発明で用いる結果表示ドキュメントリスト生成処理手順を説明するためのフローチャート。
【図12】本発明で用いる結果表示ドキュメントリストテンプレートを説明するための図。
【図13】本発明で用いる途中結果ドキュメントファイル生成処理手順を説明するためのフローチャート。
【図14】本発明で用いる途中結果ドキュメントファイルと、その表示結果を説明するための図。
【図15】本発明で用いるキーワードリストの一例を説明するための図。
【図16】本発明で用いるスロット・クラス読み替え処理手順を説明するためのフローチャート。
【図17】本発明の音声対話コンテンツ作成装置で生成した各コンテンツを利用して音声対話を実行する対話シナリオ実行装置の一例を説明するためのブロック図。
【符号の説明】
【0038】
10 入力情報 100 音声対話コンテンツ作成装置
11 スロット名リスト 101 シナリオテンプレート群
12 途中結果ドキュメント設置位置情報 102 プロンプトテンプレート群
13 単語情報リスト 103 シナリオ生成手段
14 追加例文コーパスファイル 104 プロンプトテキスト生成手段
20 音声対話コンテンツ 104A プロンプト文リスト
21 シナリオファイル 105 プロンプト音声生成手段
22 プロンプト音声ファイル 106 結果表示ドキュメントリスト
23 結果表示ドキュメントリスト 生成手段
24 途中結果ドキュメントファイル 107 途中結果ドキュメント
25 キーワードリスト ファイル生成手段
26 クラス言語モデル 108 スロット・クラス
27 認識辞書 読み替え手段
109 クラス言語モデルおよび
認識辞書生成手段
110 例文コーパス


【特許請求の範囲】
【請求項1】
開発すべきアプリケーションに適合した対話の順序及び画像の表示順序を定めたシナリオを作成するためのシナリオテンプレートと、
開発すべきアプリケーションで定められる入力項目名を表わす複数のスロット名及びこれらのスロット名に付したスロットIDと、
予めスロットIDが埋め込まれ、このスロットIDの埋め込み位置に従って上記スロット名を代入することにより対話相手に対し入力を促し、適正な入力を誘導する複数の対話文を作成するためのプロンプトテンプレートと、
を用意し、プロンプトテンプレートに埋め込まれた上記スロットIDに従って上記スロット名を代入し、スロット名が埋め込まれた対話文のそれぞれを上記シナリオテンプレートに代入し、シナリオファイル及びプロンプト音声ファイルを生成することを特徴とする音声対話コンテンツ作成方法。
【請求項2】
請求項1記載の音声対話コンテンツ作成方法において、上記シナリオファイル及びプロンプト音声ファイルの作成に加えて開発すべきアプリケーションに用いられる単語のリストと、対話の結果を表わす文例データの格納位置情報及び対話途中の状況を表わす文例データの格納位置情報とを用いて結果表示ドキュメントリスト及び途中結果ファイルドキュメントファイルとを作成することを特徴とする音声対話コンテンツ作成方法。
【請求項3】
開発すべきアプリケーションに適合した対話の順序及び画像の表示順序を定めたシナリオの雛形を格納したシナリオテンプレートと、
開発すべきアプリケーションで定められる入力項目を表わす複数のスロット名及びこれらのスロット名に付したスロットIDを格納したスロット名リスト格納部と、
予めスロットIDが埋め込まれ、このスロットIDの埋め込み位置に従って上記スロット名を代入することにより対話相手に対し入力を促し、適正な入力を誘導する複数の対話文の雛形を格納したプロンプトテンプレートと、
上記プロンプトテンプレートに格納した対話文の雛形に埋め込まれた上記スロットIDに従って上記スロット名を代入し、プロンプト文リストを生成するプロンプトテキスト作成手段と、
スロット名が埋め込まれた対話文のそれぞれを上記シナリオテンプレートに代入し、シナリオファイルを生成するシナリオ生成手段と、
スロット名が埋め込まれた対話文のそれぞれを上記プロンプト文リストに代入し、プロンプト音声ファイルを生成するプロンプト音声生成手段と、
を備えることを特徴とする音声対話コンテンツ作成装置。
【請求項4】
請求項3記載の対話コンテンツ作成装置において、途中結果ドキュメント設置位置情報格納部と、単語情報リスト格納部と、これら途中結果ドキュメント設置位置情報格納部に格納された途中結果ドキュメント設置位置情報と単語リスト格納部に格納された単語リストとから対話の結果を表わす画面を表示するための結果表示ドキュメントリストを生成する結果表示ドキュメントリスト生成手段と、
スロット名リスト格納部に格納したスロット名リストと、単語情報リストとから対話途中の状況を表わすための途中結果ドキュメントファイルを作成する途中結果ドキュメントファイル生成手段と、
を備えることを特徴とする音声対話コンテンツ作成装置。
【請求項5】
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項3又は4の何れかに記載の音声対話コンテンツ作成装置として機能させる音声対話コンテンツ作成プログラム。
【請求項6】
コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項5記載の音声対話コンテンツ作成プログラムを記録した記録媒体。























【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2006−236037(P2006−236037A)
【公開日】平成18年9月7日(2006.9.7)
【国際特許分類】
【出願番号】特願2005−50358(P2005−50358)
【出願日】平成17年2月25日(2005.2.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】