説明

音声処理装置及び音声処理装置の検査方法

【課題】実装された状態遷移モデルの評価において、時間などの要件に対するコストバランスを考慮した評価が可能な音声処理装置を提供する。
【解決手段】音声処理装置が、音声認識部と、状態遷移モデルと、前記音声認識部の認識結果を用いて前記状態遷移モデルの状態遷移を制御する第1の制御部と、を含み、前記第1の制御部は、第1の実行モードと第2の実行モードとを有し、前記第1の実行モードは、前記状態遷移モデルにおける分岐ノードの実行が1回であり、前記第2の実行モードは、前記分岐ノードの実行がすべての分岐に対して行われることが可能であることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置及び音声処理装置の検査方法に関する。
【背景技術】
【0002】
従来、美術館等で用いられる解説や案内の装置や電話における自動応答に用いられる装置などのように、音声を利用する様々な装置が開発され、使用されている。このような音声を利用する処理装置(以降、音声処理装置と呼ぶ)の中には、利用者の音声を認識し、認識した内容に応じて適切な応答を出力するように開発された音声処理装置が存在する。利用者に対する音声による自動応答が可能な音声処理装置の多くは、利用者との対話を想定した所謂シナリオを形成する状態遷移モデルに類する対象を制御する機能を有し、該状態遷移モデルに類する対象の各々の状態(シーン)に規定された動作を行うことで利用者に対する応答処理を進行させる。
【0003】
従って、利用者との対話を想定した音声処理装置においては、音声出力部、音声認識部、状態遷移モデルなどが正しく実装されているかどうかが音声処理装置の機能を果たすために重要なことになる。特許文献1には、評価項目に従い合成音を生成し、該合成音を音声認識部入力させ、音声認識部の認識結果を評価することが記載されている。また、音声認識の評価を様々なバリエーションの観点から行うことが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−84102号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、状態遷移モデルに類する対象は多くの状態(シーン)を有し、この中には複数の分岐条件を持つ状態が存在するため、状態遷移モデルにおけるすべての状態遷移を評価することにすると、評価に多大な時間を有する可能性が出てくる。状態遷移モデルに類する対象が装置への実装以前に何らかの評価がなされている場合においては、すべての状態遷移の評価を行うことは、評価意義と評価コストとのバランスを考慮すると必ずしも好ましいとはいえない場合が想定できる。
【課題を解決するための手段】
【0006】
本発明は、上述した問題若しくは課題の少なくともひとつを解決するためになされたものであり、以下の適用例若しくは実施形態として実現することが可能である。尚、以降の説明において、状態遷移モデルに類する対象に含まれる各々の状態を定義するものとしてノードという表現を用いる。また、ノードという表現を用いる場合において、状態遷移モデルの状態遷移における機能を示す言葉を付加して用いる場合がある。例えば、分岐ノードは、ノードの中で状態遷移先が複数あるノードのことを示すものである。また、例えば、終点ノードは、状態遷移先がないノードのことを示すものである。ノードは、これら機能を示す言葉が付加されたノード、付加されていないノードの双方を含むものである。
【0007】
[適用例1]
本適用例にかかる音声処理装置は、音声認識部と、状態遷移モデルと、前記音声認識部の認識結果を用いて前記状態遷移モデルの状態遷移を制御する第1の制御部と、を含み、前記第1の制御部は、第1の実行モードと第2の実行モードとを有し、前記第1の実行モードは、前記状態遷移モデルにおける分岐ノードの実行が1回であり、前記第2の実行モードは、前記分岐ノードの実行がすべての分岐に対して行われることが可能であることを特徴とする。
【0008】
この構成によれば、音声処理装置が、音声認識部と、状態遷移モデルと、音声認識部の認識結果を用いて状態遷移モデルの状態遷移を制御する第1の制御部とを含み、第1の制御部が第1の実行モードと第2の実行モードとを有し、第1の実行モードが状態遷移モデルの分岐ノードの実行が1回であり、第2の実行モードが該分岐ノードのすべての分岐に対して行われることで、第1の実行モードと第2の実行モードとを使い分けることで、音声認識部及び状態遷移モデルの評価を、許容される時間などの制限事項による状況に応じて効率よく行うことができる。
【0009】
[適用例2]
上記適用例にかかる音声処理装置において、前記状態遷移モデルは、第1の終点ノード及び第2の終点ノードを有し、前記第2の実行モードにおいて、前記状態遷移モデルの状態遷移が第1のノードを経由して前記第1の終点ノードに達した後は、前記第2の終点ノードに至る第2のノードの実行を行うことが好ましい。
【0010】
この構成によれば、第1の制御部が、第2の実行モードにおいて、第1のノードを経由して第1の終点ノードに達した後、第2の終点ノードに至る第2のノードの実行を行うことで、第1の終点ノードにいたる状態遷移の評価を1回とする評価を行うことができる。ひとつの終点ノードにいたる状態遷移の評価が1回であることから、状態遷移モデルが有する終点ノードの数により評価されるノードの経路数が決定される。また、終点ノードにいたる経路の少なくとも1つの経路に異常がないことを確認することができる。
【0011】
また、第2の実行モードにおいては、終点ノードを状態遷移モデルそのものにおける終点に位置するノードに限定する必要はない。このようにすることで、評価者の設定する所定のノードを終点ノードと見做した評価を行うことができる。終点ノードの設定は評価者が行うことでもよく、繰り返し評価を行う中で、例えば分岐先のノードのすべてが実行されうるノードでなくなったノードを終点ノードと見做すなど、自動的に設定されることでもよい。
【0012】
[適用例3]
本適用例にかかる音声処理装置は、音声認識部と、音声合成部と、状態遷移モデルと、前記状態遷移モデルの状態遷移を制御する第1の制御部と、第1の音声データと、第2の音声データと、を含み、前記第1の音声データ及び前記第2の音声データは、前記音声合成部の入力となるデータであり、前記第1の制御部は、前記音声合成部の出力に対する前記音声認識部の認識結果に基づき前記状態遷移モデルの状態遷移を制御し、前記状態遷移モデルの分岐ノードにおける前記第1の音声データの分岐の実行は1回であり、前記分岐ノードにおける前記第2の音声データの分岐の実行は、すべての分岐に対して行われることが可能であることを特徴とする。
【0013】
この構成によれば、音声処理装置に、音声認識部と、音声合成部と、状態遷移モデルと、状態遷移モデルの状態遷移を制御する第1の制御部と、第1の音声データと、第2の音声データとが含まれ、状態遷移モデルの分岐ノードにおける第1の音声データの分岐の実行は1回であり、分岐ノードにおける第2の音声データの分岐の実行がすべての分岐に対して行われることが可能であることで、第1の音声データ及び第2の音声データのいずれかを選択し使い分けて状態遷移モデルの状態遷移を行わせることで、音声認識部、音声合成部及び状態遷移モデルの評価を、評価の状況に応じて効率よく行うことができる。
【0014】
第1の音声データを用いて状態遷移モデルの評価を行う場合のひとつとして、既に出荷前検査などにより状態遷移モデル自体の検査は行われていることを前提とした、簡易な動作確認を行う場合が考えられる。例えば、音声処理装置を実際に使用する場所に設置した後の、装置の動作確認などである。
【0015】
上述したように、第2の音声データは状態遷移モデルに含まれる複数の分岐ノード各々のすべての分岐が実行可能なデータである。これにより、第2の音声データを用いることで、状態遷移モデルのすべてのノードを実行することができる。しかしながら、すべてのノードの実行が行われることから、第2の音声データによる評価には所定の時間を要することになる。評価としては第2の音声データによる評価を行えば確実なものになるものの、音声処理装置の設置時の評価などでは所定の時間を確保できない場合がある。このようなときに第1の音声データを用いて評価を行うことで、評価の時間を短くできると共に、評価結果に問題がなければ状態遷移モデルが正しく実装されていると推定することができる。
【0016】
状態遷移モデルは、ソフトウェア的に形成される場合が多く、実質的には音声処理装置に設けられた所定の記憶装置に実装(記憶)される。この場合、状態遷移モデルの連続したノードの情報は該所定の記憶装置の連続した領域に展開されていると考えられる。これに対して、分岐ノードにおける分岐先のノードの情報は、該分岐ノードの情報が記憶された領域から離れた領域に展開されている場合が多い。このような場合、連続していない領域に展開されたノードの連続した実行は、連続した領域に展開されるノードの連続した実行に比較して実行上の問題が発生する可能性が高いと考えられる。このため、一度状態遷移モデルのすべてのノードの実行の評価がなされていれば、各々の分岐ノードに対してひとつの分岐の評価を行えば、離れた記憶領域に問題なくノードの情報が展開されていると推測することができ、すべての分岐先ノードに対する分岐の評価を行わなくても、状態遷移モデルが異常なく実装されているとしても差し障りがないと判断することが可能である。
【0017】
また、第1の音声データ及び第2の音声データは、音声合成部の入力となるデータである。第1の音声データ及び第2の音声データは音声合成部において音声信号に合成され、該音声信号はスピーカーにより音声として出力される。スピーカーに出力された音声はマイクから取り込まれ音声認識部に伝達され、該音声認識部で認識された結果が第1の制御部に伝達され、第1の制御部により状態遷移モデルの状態遷移が制御される。しかしながら、音声処理装置の評価を行う環境によっては、スピーカーによる発声を伴う評価が好ましくない場合も考えられる。このような場合は、音声合成部の出力である音声信号を直接音声認識部の入力とすることにより、スピーカー及びマイクを使用せずに音声合成部及び音声認識部を用いた評価を行うことができる。
【0018】
[適用例4]
上記適用例にかかる音声処理装置において、前記状態遷移モデルは、第1の終点ノード及び第2の終点ノードを有し、前記第2の音声データは、前記状態遷移モデルの状態遷移が第1のノードを経由して前記第1の終点ノードに達した後は、前記第2の終点ノードに至る第2のノードの実行を行うデータであることが好ましい。
【0019】
この構成によれば、第2の音声データによるノードの実行が、第1のノードを経由して第1の終点ノードに達した後、第2の終点ノードに至る第2のノードに対して行われることで、第1の終点ノードにいたる状態遷移の評価を1回にすることができる。ひとつの終点ノードにいたる状態遷移の評価が1回であることから、状態遷移モデルが有する終点ノードの数により評価されるノードの経路数が決定されるため、終点ノードにいたる経路の少なくとも1つの経路に異常がないことを確認することができる。
【0020】
また、第2の音声データにおいては、終点ノードを状態遷移モデルそのものにおける終点に位置するノードに限定する必要はない。これにより、評価者の設定する所定のノードを終点ノードと見做した評価を行うことができる。
【0021】
[適用例5]
上記適用例にかかる音声処理装置において、前記第2のノードは、前記第2の終点ノードまでのノード数を指定することにより選択することができることが好ましい。
【0022】
この構成によれば、第2のノードの指定を第2の終点ノードまでのノード数により指定することで、状態遷移モデルの評価の程度を変えることができる。該ノード数が多ければ第2の終点ノードに至るまでに評価されるノード数が多くなり、より深いレベルの評価を行うこができる。状態遷移モデルの実装は、終点ノードに近いほど所定の記憶装置に記憶される各々のノードの記憶領域が離れる可能性が高い。一般的に記憶領域が離れれば離れるほど異常が発生しやすいと考えることができる。このため、評価するノードの深さを終点ノードから指定することにより、異常の発生する可能性のより高いノード間の繋がりの評価を残したまま、評価に要する時間を短縮することができる。
【0023】
尚、上述した所定の記憶装置に記憶される状態遷移モデルの異常は、所定の記憶装置の記憶状態における異常だけとは限らない。第1の制御部が所定の記憶装置から実行するノードの情報を正しく取得できないことも考えられる。この場合、所定の記憶装置に対する第1の制御部の領域の指定が正しくできないなど、音声処理装置内部のシステム制御自体に異常がある場合がある。システム制御における異常の検出は、所定の記憶装置の離れた領域にアクセスする場合に発生する可能性が他の場合よりも多くされると想定ができる。従って、上述したように終点ノードに近いほど所定の記憶装置に記憶される各々のノードの領域が離れる可能性が高く、終点までのノード数を小さくした場合においてもより異常が発生しやすいノードの繋がりの評価を実行することができる。
【0024】
[適用例6]
本適用例にかかる音声処理装置の検査方法は、音声認識部及び状態遷移モデルが実装される場合において、前記音声処理装置は、前記状態遷移モデルの状態遷移を前記音声認識部の結果を用いて行う第1の制御部を含み、前記第1の制御部は、第1の実行モードと第2の実行モードとを有し、前記第1の実行モードにおいて、前記状態遷移モデルの分岐ノードにおける分岐の実行は1回であり、前記第2の実行モードにおいて、前記分岐ノードにおける分岐の実行は、すべての分岐に対して行われることが可能であり、前記音声処理装置の検査の実行は前記第1の実行モード又は前記第2の実行モードのいずれかを選択し、前記音声認識部の認識結果により行われることを特徴とする。
【0025】
この方法によれば、音声処理装置に実装された状態遷移モデルの評価を、第1の実行モード又は第2の実行モードのいずれかのモードで行うことができ、音声認識部及び状態遷移モデルの評価を状況に応じて効率よく行うことができる。
【0026】
[適用例7]
上記適用例にかかる音声処理装置の検査方法において、前記状態遷移モデルは、第1の終点ノード及び第2の終点ノードを有し、前記第1の制御部は、前記第2の実行モードにおいて、前記状態遷移モデルの状態遷移が前記第1のノードを経由して前記第1の終点ノードに達した後は、前記第2の終点ノードに至る第2のノードの実行を行うことが好ましい。
【0027】
この方法によれば、第1の制御部が、第2の実行モードにおいて、第1のノードを経由して第1の終点ノードに達した後、第2の終点ノードに至る第2のノードの実行を行うことで、第1の終点ノードにいたる状態遷移の評価を1回とする評価を行うことができる。ひとつの終点ノードにいたる状態遷移の評価が1回であることから、状態遷移モデルが有する終点ノードの数により評価されるノードの経路数が決定される。また、終点ノードにいたる経路の少なくとも1つの経路に異常がないことを確認することができる。
【0028】
[適用例8]
本適用例にかかる音声処理装置の検査方法は、音声認識部、音声合成部及び状態遷移モデルが実装される場合において、第1の検査モードで用いられる第1の音声データと、第2の検査モードで用いられる第2の音声データと、を含み、前記第1の音声データ及び前記第2の音声データは、前記音声合成部の入力であり、前記状態遷移モデルの分岐ノードにおける前記第1の音声データの分岐の実行は1回であり、前記分岐ノードにおける前記第2の音声データの分岐の実行は、すべての分岐に対して行われ、前記音声処理装置の検査の実行は、前記第1の検査モード又は前記第2の検査モードのいずれかを選択し、前記音声合成部により生成された前記第1の音声データ又は前記第2の音声データの音声信号を前記音声認識部により認識した結果に基づき行われることを特徴とする。
【0029】
この方法によれば、音声処理装置に実装された状態遷移モデルの評価を、第1の音声データを用いる第1の検査モード又は第2の音声データを用いる第2の検査モードのいずれかのモードで行うことができ、音声認識部、音声合成部及び状態遷移モデルの評価を状況に応じて効率よく行うことができる。
【0030】
[適用例9]
上記適用例にかかる音声処理装置の検査方法において、前記状態遷移モデルは、第1の終点ノード及び第2の終点ノードを有し、前記第1の音声データは、前記状態遷移モデルの状態遷移が第1のノードを経由して前記第1の終点ノードに達した後は、前記第2の終点ノードに至る第2のノードの実行を行うデータであることが好ましい。
【0031】
この方法によれば、第1の音声データによる実行が、第1のノードを経由して第1の終点ノードに達した後、第2の終点ノードに至る第2のノードに対して行われることで、第1の終点ノードにいたる状態遷移の評価を1回にすることができる。ひとつの終点ノードにいたる状態遷移の評価が1回であることから、状態遷移モデルが有する終点ノードの数により評価されるノードの経路数が決定される。終点ノードにいたる経路の少なくとも1つの経路に異常がないことを確認することができる。
【0032】
[適用例10]
上記適用例にかかる音声処理装置の検査方法において、前記第2のノードは、前記第2の終点ノードまでのノード数を指定することにより選択することができることが好ましい。
【0033】
この方法によれば、第2のノードの指定を第2の終点ノードまでのノード数により指定することで、状態遷移モデルの評価の程度を変えることができる。
【図面の簡単な説明】
【0034】
【図1】第1実施形態における音声処理装置の概略ブロック図。
【図2】シナリオ(状態遷移モデル)の状態遷移図。
【図3】ノードにおける処理内容の記載イメージ図。
【図4】第1実行モードにおける状態遷移図の例。
【図5】第1実行モードにおける状態遷移図の例。
【図6】第2実施形態における音声処理装置の概略ブロック図。
【図7】第4実行モードの状態遷移図。
【図8】第4実行モードの状態遷移図。
【発明を実施するための形態】
【0035】
以下、図を用いて本発明の実施形態について説明する。尚、説明に用いる図は、説明に必要な部分を記載した便宜上のものである。実際の装置には、図示していない構成要素が含まれる。
【0036】
(第1実施形態)
図1に、本発明を適用した音声処理装置100を示す。音声処理装置100は、利用者の発する音声を用いて処理を行う装置であり、利用者の返答内容により次に行う処理を決定する機能を有する。具体的には、対話ボットや、複数の選択肢を示し利用者の選んだ選択肢の内容に応じて物事の案内を行う案内装置などを想定したものである。このような処理を行うために、音声処理装置100の内部には、処理内容に応じた所謂シナリオと呼ばれるデータ(以降、状態遷移モデルと呼ぶ)が実装されている。尚、処理内容により複数の状態遷移モデルが実装される場合があるが、本実施形態においては後述する状態遷移モデル141が実装されている。
【0037】
音声処理装置100は、音声認識部110、第1制御部120及び記憶部140を有する。記憶部140には、状態遷移モデル141が実装されている。また、音声処理装置100には、マイク190が接続されている。図示はしないが、マイク190は、アナログ−デジタル変換器及び所定のアンプなど、適切なインターフェイスを介して音声処理装置100に接続されているものとする。また、これらインターフェイス並びにインターフェイスの整合を取るための機器は音声処理装置100内部に組み込まれていても、音声処理装置100の外部に存在してもよい。尚、図1においては、マイク190以外のユーザーインターフェイス(モニター及びキーボードなど)の図示は省略している。
【0038】
第1制御部120は、信号線121を介して記憶部140に接続されている。信号線121には、記憶部140にアクセスするための制御信号線及びデータ転送のためのデータ線が含まれる。第1制御部120は、信号線121を用いて状態遷移モデル141のデータを取得すると共に、処理に必要な中間データなどの一時記憶などの用途として記憶部140を使用する。また、第1制御部120は、信号線122を介して音声認識部110の制御を行う。信号線122には、音声認識部110に対するコマンドを送信する信号線、音声認識部110からのコマンドに対する応答並びに割込み処理のための信号線、音声認識結果の取得などのためのデータ線などが含まれる。
【0039】
音声認識部110は、マイク190から入力された音声に対する音声認識処理を行う部分である。音声認識部110は、第1制御部120の指示により音声認識処理を開始し、音声認識処理が終了すると割込みを発生させることで第1制御部120に音声認識処理の終了を知らせる。音声認識の結果は音声認識部110内の所定のレジスターに保持され、第1制御部120は割込み処理の中で信号線122を介して該音声認識の結果を取得することができる。音声の解析に必要なデータは記憶部140に記憶されており、音声認識部110は信号線111を介して記憶部140にアクセスし、必要なデータを取得して音声認識処理に用いることができる。また、音声認識の結果が上記所定のレジスターに収まりきれない場合は、記憶部140の所定の領域に格納し、該所定の領域の場所を第1制御部120に伝達することにより、第1制御部120に音声認識の結果を伝えることができる。
【0040】
音声処理装置100は、利用者により電源が投入され、その後状態遷移モデル141の実行が指示されると、第1制御部120は記憶部140から状態遷移モデル141の開始ノードの情報を読み出し、処理を開始する。状態遷移モデル141の実行は、所定の開始ノードから状態遷移が開始されて所定の終点ノードに至ることで状態遷移が終了することがひとつの処理単位ということができる。第1制御部120は、開始ノードから順次ノードを実行していき、音声認識の必要なノードがあれば音声認識部110に処理の開始を指示してその結果を取得し、ノードの分岐等を判断して処理を進め、状態遷移モデル141に設定されている終点ノードに至るまで処理を進めることになる。
【0041】
図2に、状態遷移モデル141の状態遷移図200を示す。状態遷移図200における1つ1つの○がノードを示し、○の中にはノードの名称を記載している。例えば、ノードS00は、状態遷移モデル141全体の開始ノードである。状態遷移図200における矢印は、状態遷移の方向を示す。例えば、ノードS00の後はノードN01に状態が遷移し、ノードN01の後はノードN11、ノードN12又はノードN13のいずれかに状態遷移する。ノードN01のように、複数の行き先をもつノードを分岐ノードと呼ぶ。また、ノードN12のように矢印が自分自身に向いているものは、所定の条件が成立するまでは状態が自分自身にとどまるノードである。例えば、一定の時間を経過するまで次のノードに状態が遷移しないようにするときなどに用いるノードである。このようなノードを本実施形態においては条件付ノードと呼ぶことにする。
【0042】
状態遷移モデル141の終点ノードが、ノードE01、ノードE02、ノードE03及びノードE04である。ノードS00から始まった状態遷移はいくつかの分岐ノードにより分岐(状態遷移)が行われた後にいずれかの終点ノードに達し、状態遷移モデル141の動作、即ちシナリオの実行が終了する。一度終了したシナリオの実行は、動作モードの設定や利用者の指示などがあれば第1制御部120により制御され、該指示などに従った所定のノードから状態遷移が実行されることになる。該所定のノードは、状態遷移モデル141全体の開始ノードでもよく、状態遷移モデル141全体の開始ノードでなくてもよい。いずれのノードから実行されるかは利用者の選択により行われるようにすることは容易である。尚、当然ながら、開始に指定されたノードが同じであったとしても、その後の分岐ノードで異なる分岐が実行されれば、到達する終点ノードは異なったものになる可能性がある。
【0043】
分岐ノードにおける動作の記載例を図3−(a)に示す。図3−(a)は、ノードN01の記載である。ノードN01は、開始ノードであるノードS00の後に実行されるノードであり、分岐先が三箇所である。srは、分岐先を判断するための変数であり、例えば利用者の返答の認識結果が代入される。図3−(a)の記載から明らかなように、srが“A”であればノードN11に状態遷移し、srが“B”であればノードN12に状態遷移し、“A”及び“B”以外であればノードN13に状態遷移する。
【0044】
条件付ノードにおける動作の記載例を図3−(b)に示す。図3−(b)は、ノードN12の記載である。trmはノードN12に設定された所定の条件に関する値(以降、比較値と呼ぶ)を格納する変数で、conは比較値と比較を行う定数(以降、条件値と呼ぶ)を格納する変数である。条件値は、固定値であってもよいし、ノードN12が実行される毎に決定される所定の値であってもよい。比較値は、例えばタイマーなどによるカウント値やセンサーなどの検出値が代入される。trmがconよりも大きいか又は等しいことが判定されると、ノードN23に状態遷移する。
【0045】
状態遷移モデル141は、上述したノードの記載の集合体により構成されているということができる。尚、本実施形態における記載例は説明の便宜上のものであり、実際の装置における処理手続の記載方法を限定するものではない。
【0046】
状態遷移モデル141の状態遷移の実行がノードS00から開始する場合、すべての終点ノードに至る状態遷移が存在する。また、ノードN01から開始する場合もすべての終点ノードに至る状態遷移が存在する。しかしながら、利用者による開始ノードの選択がノードN11であった場合には、ノードE03及びノードE04に到達する状態遷移は存在しない。状態遷移モデル141においては、利用者が開始ノードとしていずれのノードを選択するかにより到達する終点ノードが限られることになる。しかしながら、これは状態遷移モデル141で定義されている状態遷移によることであり、異なる状態遷移モデルを実装することで音声処理装置100の動作は別な動作となる。
【実施例1】
【0047】
本実施例は、第1制御部120が行う状態遷移の制御において、分岐ノードの実行制限がなされる場合のひとつ(以降、本実施形態における実行制限による実行モードを第1実行モードと呼ぶ)である。
【0048】
第1実行モードは、状態遷移モデル141の実行が繰り返し行われる場合、1回実行された分岐ノードにおいて、開始ノード、終点ノード、開始ノードから直接状態遷移するノード及び終点ノードに直接状態遷移するノード以外の分岐ノードの実行が次の実行において抑止されるモードである。状態遷移モデル141においては、ノードS00、ノードN01、ノードN37、ノードN41〜N48及びノードE01〜E04以外のノードの実行が抑止される可能性がある。
【0049】
例えば、状態遷移モデル141における状態遷移が、まず、S00→N01→N11→N22→N32→N44→E03、のように行われた場合、次の実行における状態遷移は、図4に示す状態遷移図210の中で行われることになる。尚、状態遷移図210においては、実行の抑止された分岐ノードにより状態遷移が起こらなくなった終点ノードに至る経路を削除してある。しかしながら、実行するノードが制限されることにより、ノードN35のように実行可能な分岐先がひとつになるノードが出る場合がある。このような場合は、第1制御部120により次の状態遷移先であるノードに状態遷移する制御が行われる。即ちノードN35に状態遷移が行われた場合は、第1制御部120は、状態をノードN46に状態を遷移させる。
【0050】
次に、状態遷移モデル141における状態遷移図が状態遷移図210であるときにおいて、状態遷移が、S00→N01→N12→N23→N33→N43→E02、のように行われた場合、次の実行における状態遷移は、図5に示す状態遷移図220の中で行われることになる。次の実行が開始ノードであるノードS00から行われた場合、既にノードN01の分岐先として残されているのはノードN13のみである。従って、次の実行で終点ノードに至ると、開始ノードから終点ノードに至る状態遷移の経路がなくなることになり、第1実行モードによる実行が終了したことになる。
【0051】
状態遷移モデル141は、音声処理装置100に実装される前にモデルとしての検証がなされているのが通常である。従って、音声処理装置100として正常に動作するかどうかの検証は、状態遷移モデル141自体の検証というよりは状態遷移モデルが正しく実装されているかどうかの検証となる。この場合、図2で示した状態遷移図200のすべての状態遷移を行わなくても、いくつかの状態遷移の経路が正しく動作していればすべての状態遷移が正しく行われると見做してよいことが実務上あり得る。第1実行モードはこのような場合に用いることができる実行モードである。
【0052】
本実施例は、分岐ノードを1回しか実行しないものとして記載しているが、上述した実行削除の対象でないすべてのノードを1回しか実施しないとする制御を第1制御部120に行わせることは可能である。このような状態遷移の制御も、本実施例の観念に含まれるものである。
【実施例2】
【0053】
本実施例は、第1制御部120が行う状態遷移の制御において、ノードの実行自体の制限がなされない場合(以降、第2実行モードと呼ぶ)である。ノードの実行自体の制限がないとは、選択されたノードの実行に制限がないのであって、ノードの選択に制限がないことを示しているものではない。状態遷移モデル141の実行が開始されると、利用者の音声がマイク190を介して音声処理装置100に入力され、音声認識部110による音声認識結果が第1制御部120に伝達される。第1制御部120は、分岐ノードに関しては伝達された音声認識結果に従い状態遷移を実行し、条件付ノードに関しては所定の条件の成立に従い状態遷移を実行して終点ノードに至る。第1制御部120は、終点ノードに至ると状態遷移モデル141の実行終了を認識し、至った終点ノードに関する情報を利用者に提示する。
【0054】
状態遷移モデル141が第2実行モードで繰り返し実行される場合において、実行されるノードの実行内容の制限はなされない。従って、利用者の返答に従い状態遷移図200で示されているすべての状態遷移を行うことができるが、開始するノードを変更することで、第1実行モードを用いるのと同様な場合に用いることができる。
【0055】
まず、最初(1回目)にノードS00からノードE01に至る状態遷移が実行されたとする。この場合、次の実行(2回目)の開始ノードをノードN12若しくはノードN13とすればノードE01以外の終点ノードに至る状態遷移を実行することができる。2回目の実行で到達した終点ノードがノードE04である場合には、次の実行(3回目)の開始ノードをノードN23とすることにより、3回目の実行の終点ノードをノードE02とすることができる。更に、次の実行(4回目)の開始ノードをノードN34とすることで、4回目の実行の終点ノードをノードE03とすることができ、状態遷移モデル141の実装において、すべての終点ノードに至る状態遷移の経路の一部の検証を行うことができる。
【0056】
本実施例における開始ノードの指定は、利用者が状態遷移図200を知ることにより指定することでよい。この場合、例えば図示しない表示部などを用い表示し、既に実行した状態遷移の経路の部分の表示を消すなどして、利用者の選択をしやすくするなどの工夫があることが好ましい。また、より複雑な構造を有する状態遷移モデルにおいて、状態遷移図の利用者による内容把握が難しい場合は、選択可能な開始ノードを利用者に明示することで選択させるようにしてもよい。
【実施例3】
【0057】
本実施例は、第1制御部120が行う状態遷移の実行の開始ノードを、終点ノードからのノード数(以降、ノード閾値と呼ぶ)で指定する場合(以降、第3実行モードと呼ぶ)である。第3実行モードは、利用者がノード閾値を指定することで実行される。状態遷移モデル141においては、状態遷移図200から分かるように、ノード閾値が1から6の範囲で設定することが可能である。第3実行モードの実行においては、このような設定可能なノード閾値を利用者に表示し選択可能とすることでよい。尚、第3実行モードは、第1実行モード又は第2実行モードのいずれかと組み合わせて実行されることでよい。ノード閾値を最大とした場合は、第2実行モードにおいて開始ノードをノードS00とした場合と同等となる。
【0058】
本実施形態は、利用者の返答内容に対する音声認識を行い、該音声認識の結果により状態遷移モデルの状態遷移が実行される実施形態である。状態遷移モデルが複雑な構成を有する場合には、すべての状態遷移の実行を行うには所定の時間を要することになる。状態遷移モデル自体の検証が既に行われており、状態遷移モデルの装置への実装の確認をするのであれば、すべての状態遷移の実行を行うことの必要性は低下する。このようなときは、上記の第1実行モード、第2実行モード若しくは第3実行モードを適宜実行することにより、時間効率のよい検証を行うことができる。また、利用者の返答を用いるのであるから、音声認識部110の音声認識の評価も平行して行うことができる。
【0059】
(第2実施形態)
図6に、本発明を適用した音声処理装置300を示す。尚、本実施形態も含め以降の実施形態の説明において第1実施形態で説明した構成要素と同様の構成要素に関しては、その説明を省略する。
【0060】
音声処理装置300は、音声認識部310、第1制御部320、音声合成部330及び記憶部340を有する。音声認識部310にはマイク390が接続されている。記憶部340には、第1実施形態と同じように状態遷移モデル141が実装されている。また、記憶部340には、第1音声データ342及び第2音声データ343が記憶されている。第1音声データ342は状態遷移モデル141の各々の分岐ノードにおける実行が1回であるように作成されたデータであり、第2音声データ343は各々の分岐ノードにおける分岐のすべてが実行できるように作成されたデータである。
【0061】
音声合成部330は、信号線323を介して第1制御部320に接続され、信号線331を介して記憶部340に接続され、信号線332を介して音声認識部310に接続されている。尚、スピーカー391は、図示しない適切なインターフェイスを介して音声合成部330に接続されているものとする。尚、マイク390の接続の場合と同様に、スピーカー391とのインターフェイス並びに該インターフェイスの整合を取るための機器は音声処理装置300内部に組み込まれていても、音声処理装置300の外部に存在してもよい。
【0062】
音声合成部330は、第1音声データ342及び第2音声データ343を記憶部340から読み出して音声を合成する部分であり、合成された音声はスピーカー391から出力される。第1音声データ342及び第2音声データ343のデータ形式はテキストデータのようなものでもよく、特に限定しない。第1音声データ342及び第2音声データ343は、音声合成部330により適切に処理され、スピーカー391から音声として出力される。また、音声合成部330は、第1音声データ342及び第2音声データ343を音声認識部310で認識可能な音声データ信号に変換する機能を有し、該音声データ信号は信号332を介して音声認識部310に伝達される。音声認識部310は、マイク390から入力された音声信号の代わりに該音声データ信号を使用することができる。
【0063】
音声認識部310が音声認識に用いる信号をマイク390からの音声信号にするか音声合成部330からの音声データ信号にするかの切り替えは第1制御部320により行われる。また、音声合成部330における音声認識部310で用いる音声データ信号への変換処理は常に行われていてもよく、スピーカー391から音声を出力しないときに行われることでもよい。これらの制御は、信号線323を介して第1制御部320により行われる。
【実施例4】
【0064】
本実施例は、第1音声データ342を用いる場合である。本実施例における音声処理装置300の実行モードは、第1実施形態において説明した第2実行モードである。上記したように、第1音声データ342は、状態遷移モデル141の各々の分岐ノードにおける実行が1回であるように作成されたデータである。第1音声データ342を音声合成部330により処理し音声としてスピーカー391から出力し、マイク390から入力して音声認識部310の認識結果を用いることで、第1実施形態における第1実行モードと同様の動作を音声処理装置300で行うことができる。
【0065】
第1実施形態においては、利用者が発する音声により分岐先、即ち状態遷移先が決まる。従って、利用者の返答内容によっては状態遷移に用いられるノードが実装された領域が、状態遷移モデル141の実装領域の偏った領域となる場合があると想定される。これに対して、本実施例の場合は予め作成したデータの内容により状態遷移先が決定されることから、使用されるノードの実装領域を状態遷移モデル141の実装領域の偏りが少なくなるように設定することができる。これにより、より確かな状態遷移モデル141の実装の検証を行うことができる。
【0066】
また、第1音声データ342を、第1のノードを経由して第1の終点ノードに達した後、第2の終点ノードに至る第2の分岐ノードの実行を行うように記載すれば、第1の終点ノードにいたる状態遷移の評価を1回にすることができる。更に、第1音声データ342に、第2の終点ノードに至る評価の後の実行として、該第2の終点ノードを上述した第1の終点ノードと見做し該第1の終点ノード及び該第2の終点ノード以外の終点ノードを上述した第2の終点ノードと見做して同様の実行を行う記載があれば、該第2の終点ノードに至る状態遷移の評価を1回にすることができる。第1音声データ342においてすべての終点ノードに対して同様な記載の仕方がなされることで、ひとつの終点ノードにいたる状態遷移の評価が1回は行われることから、ノードすべての動作をさせることなく、終点ノードにいたる経路の少なくとも1つの経路に異常がないことを確認することができる。
【0067】
また、第1制御部320の制御により、音声合成部330のスピーカー391への信号出力が停止され、音声認識部310における音声認識処理に対する入力信号が信号332に切り替えられることにより、音声を用いることなく状態遷移モデル141の実装の検証を行うことができる。これにより音を発したくない環境における検証が可能となる。
【実施例5】
【0068】
本実施例は、第2音声データ343を用いる場合である。本実施例における音声処理装置300の実行モードは、第1実施形態において説明した第1実行モード、第2実行モード及び第3実行モードのいずれでもよい。上記したように、第2音声データ343は各々の分岐ノードにおける分岐のすべてを実行するように作成されたデータである。従って、それぞれの実行モードに従い第1制御部320により実行されるノードが選択され、状態遷移の処理が実行される。実行されているモードによっては、実行対象となるノードの実行が抑止される場合もあるが、第1制御部320により適切に処理されることになる。
【0069】
しかしながら、第2音声データ343は予め作成されたデータであるから、音声処理装置300の実行モードを選択した時点で、実行されるノード及び実行されるノードの順番が一義的に決定される。従って、第2音声データ343により実行されるノードの順番を考慮することで、状態遷移モデル141の実装領域における実行されるノードの実装位置の偏りが少なくなるように設定することができ、これにより、より確かな状態遷移モデル141の実装の検証を行うことができる。尚、実施例4と同様に、第1制御部320の制御によりマイク390及びスピーカー391を用いずに実行することが可能である。
【0070】
(第3実施形態)
本実施形態は、本来のノードに設定されている実行可能な状態遷移のいくつかを制限した状態遷移図により実行される実施形態である。本実施形態における実行モードを第4実行モードと呼ぶことにする。状態遷移の制限の例を状態遷移図401(図7、実施例6)、状態遷移図402(図8、実施例7)に示す。それぞれの状態遷移図において、実線で表されているのが状態遷移可能な部分であり、破線で表されているのが状態遷移の制限がなされている(実行されない)部分である。実施例6及び実施例7は、破線で示した分岐先ノードに対応する選択肢の利用者に対する提示が制限されることにより実行されることが可能であり、このような制御は、第1制御部120及び第1制御部320により行われる。
【0071】
実施例6の場合には、制限のないときの終点ノードであるノードE01、ノードE02、ノードE03及びノードE04に加えて、ノードN34、ノードN37、ノードN39、ノードN45、ノードN47、及びノードN48が終点ノードとして扱われることになる。同様に実施例7の場合には、制限のないときの終点ノードであるノードE01、ノードE02、ノードE03及びノードE04に加えて、ノードN38、ノードN42、ノードN44、ノードN46及びノードN48が終点ノードとして扱われることになる。実施例6及び実施例7は、終点ノードに至る状態遷移の経路をひとつに限定したものとなっている。従って、すべての終点ノードに至る状態遷移が行われれば、すべてのノードの実行が行われたことになる。
【0072】
以上、本発明について説明を行ったが、本発明の実施は上記の実施形態もしくは実施例に限定されるものではない。たとえば、第1音声データ342若しくは第2音声データ343による評価の実行中に利用者による音声の評価に切り替えて状態遷移モデル141の実装の評価を行ってもよい。また、音声処理装置100及び音声処理装置300は、内部の構成要素を個別の信号線で接続する形態をとっているが、内部にバスを設け該バスを介して内部の構成要素を接続することでもよい。本発明は、趣旨を逸脱しない範囲において広く適用が可能である。
【符号の説明】
【0073】
100…音声処理装置、110…音声認識部、111…信号線、120…第1制御部、121…信号線、122…信号線、140…記憶部、141…状態遷移モデル、190…マイク、200…状態遷移図、210…状態遷移図、220…状態遷移図、300…音声処理装置、310…音声認識部、320…第1制御部、323…信号線、330…音声合成部、331…信号線、332…信号線、340…記憶部、342…第1音声データ、343…第2音声データ、390…マイク、391…スピーカー。401…状態遷移図、402…状態遷移図。

【特許請求の範囲】
【請求項1】
音声認識部と、
状態遷移モデルと、
前記音声認識部の認識結果を用いて前記状態遷移モデルの状態遷移を制御する第1の制御部と、を含み、
前記第1の制御部は、第1の実行モードと第2の実行モードとを有し、
前記第1の実行モードは、前記状態遷移モデルにおける分岐ノードの実行が1回であり、
前記第2の実行モードは、前記分岐ノードの実行がすべての分岐に対して行われることが可能であることを特徴とする音声処理装置。
【請求項2】
前記状態遷移モデルは、第1の終点ノード及び第2の終点ノードを有し、
前記第2の実行モードにおいて、前記状態遷移モデルの状態遷移が第1のノードを経由して前記第1の終点ノードに達した後は、前記第2の終点ノードに至る第2のノードの実行を行うことを特徴とする請求項1に記載の音声処理装置。
【請求項3】
音声認識部と、
音声合成部と、
状態遷移モデルと、
前記状態遷移モデルの状態遷移を制御する第1の制御部と、
第1の音声データと、
第2の音声データと、を含み、
前記第1の音声データ及び前記第2の音声データは、前記音声合成部の入力となるデータであり、
前記第1の制御部は、前記音声合成部の出力に対する前記音声認識部の認識結果に基づき前記状態遷移モデルの状態遷移を制御し、
前記状態遷移モデルの分岐ノードにおける前記第1の音声データの分岐の実行は1回であり、
前記分岐ノードにおける前記第2の音声データの分岐の実行は、すべての分岐に対して行われることが可能であることを特徴とする音声処理装置。
【請求項4】
前記状態遷移モデルは、第1の終点ノード及び第2の終点ノードを有し、
前記第2の音声データは、前記状態遷移モデルの状態遷移が第1のノードを経由して前記第1の終点ノードに達した後は、前記第2の終点ノードに至る第2のノードの実行を行うデータであることを特徴とする請求項3に記載の音声処理装置。
【請求項5】
前記第2のノードは、前記第2の終点ノードまでのノード数を指定することにより選択することができることを特徴とする請求項2又は4に記載の音声処理装置。
【請求項6】
音声認識部及び状態遷移モデルが実装された音声処理装置の検査方法であって、
前記音声処理装置は、前記状態遷移モデルの状態遷移を前記音声認識部の結果を用いて行う第1の制御部を含み、
前記第1の制御部は、第1の実行モードと第2の実行モードとを有し、
前記第1の実行モードにおいて、前記状態遷移モデルの分岐ノードにおける分岐の実行は1回であり、
前記第2の実行モードにおいて、前記分岐ノードにおける分岐の実行は、すべての分岐に対して行われることが可能であり、
前記音声処理装置の検査の実行は前記第1の実行モード又は前記第2の実行モードのいずれかを選択し、前記音声認識部の認識結果により行われることを特徴とする音声処理装置の検査方法。
【請求項7】
前記状態遷移モデルは、第1の終点ノード及び第2の終点ノードを有し、
前記第1の制御部は、前記第2の実行モードにおいて、前記状態遷移モデルの状態遷移が第1のノードを経由して前記第1の終点ノードに達した後は、前記第2の終点ノードに至る第2のノードの実行を行うことを特徴とする請求項6に記載の音声処理装置の検査方法。
【請求項8】
音声認識部、音声合成部及び状態遷移モデルが実装された音声処理装置の検査方法にであって、
第1の検査モードで用いられる第1の音声データと、
第2の検査モードで用いられる第2の音声データと、を含み、
前記第1の音声データ及び前記第2の音声データは、前記音声合成部の入力であり、
前記状態遷移モデルの分岐ノードにおける前記第1の音声データの分岐の実行は1回であり、
前記分岐ノードにおける前記第2の音声データの分岐の実行は、すべての分岐に対して行われ、
前記音声処理装置の検査の実行は、前記第1の検査モード又は前記第2の検査モードのいずれかを選択し、前記音声合成部により生成された前記第1の音声データ又は前記第2の音声データの音声信号を前記音声認識部により認識した結果に基づき行われることを特徴とする音声処理装置の検査方法。
【請求項9】
前記状態遷移モデルは、第1の終点ノード及び第2の終点ノードを有し、
前記第1の音声データは、前記状態遷移モデルの状態遷移が第1のノードを経由して前記第1の終点ノードに達した後は、前記第2の終点ノードに至る第2のノードの実行を行うデータであることを特徴とする請求項8に記載の音声処理装置の検査方法。
【請求項10】
前記第2のノードは、前記第2の終点ノードまでのノード数を指定することにより選択することができることを特徴とする請求項7又は9に記載の音声処理装置の検査方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−73034(P2013−73034A)
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2011−212178(P2011−212178)
【出願日】平成23年9月28日(2011.9.28)
【出願人】(000002369)セイコーエプソン株式会社 (51,324)
【Fターム(参考)】