説明

音声処理装置

【課題】対話シナリオを実行する音声処理装置を使用している利用者が居眠りに陥った場合に、利用者を目覚めさせることが可能な音声処理装置を提供する。
【解決手段】音声出力部と、音声認識部と、第1の制御部と、対話シナリオ及び音声出力データが記憶された第1の記憶部と、を含み、前記第1の制御部は、前記対話シナリオに基づき前記音声出力データを用いて前記音声出力部から音声を発声させると共に、前記音声認識部からの音声認識結果に基づき前記対話シナリオを進行させ、前記対話シナリオにおける返答待ちの場面において、前記音声認識結果が所定の時間を経過しても前記第1の制御部に伝達されないときは、前記第1の制御部は前記音声出力部を用いて警告を示す音声を発声させることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置に関し、特に利用者との対話処理を行う音声処理システムに関する。
【背景技術】
【0002】
従来、人との会話を行うものとして会話ボット若しくはおしゃべりボットと呼ばれるものが存在する。会話ボットは人との会話をシミュレーションする装置であるが、会話の内容は理解しない。このため、会話ボットは人工無能とも呼ばれる。たとえば、利用者の音声をそのまま繰り返して利用者に話しかける、特許文献1に記載されたおしゃべりオウムのようなものも会話ボットである。しかしながら、その歴史は古く、1966年にジョセフ・ワイゼンハイムが開発したELIZAと呼ばれる会話ボットシステムが発端とされる。ELIZAは、セラピストを装い患者の言葉を質問に変換して鸚鵡返しするものである。その後、このような会話ボットシステムは、上記したような治療は基より、高齢者等の話し相手や自動車等の運転における居眠り防止などの用途に用いられるようになってきている。
【0003】
上述したように、会話ボットは利用者の発する単語と同じ単語を発声することから、利用者にとって飽き易いという欠点もある。これを解決するために、特許文献2では、利用者にとって好ましいと思える会話の特性/話題等を把握し対話処理を行うことで、運転者等の利用者の退屈の解消や利用者の居眠り防止等を実現することができることが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平11−9487号公報
【特許文献2】特開2011−125900号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、利用者にとって好ましいと思える会話の特性/話題等を行うことが、逆に利用者に対してある種の緊張感の低下を招き、場合によっては利用者が居眠りしてしまうことがあると想定される。
【課題を解決するための手段】
【0006】
本発明は、上述した問題若しくは課題の少なくともひとつを解決するためになされたものであり、以下の適用例若しくは実施形態として実現することが可能である。
【0007】
[適用例1]
本適用例にかかる音声処理装置は、音声出力部と、音声認識部と、第1の制御部と、対話シナリオ及び音声出力データが記憶された第1の記憶部と、を含み、前記第1の制御部は、前記対話シナリオに基づき前記音声出力データを用いて前記音声出力部から音声を発声させると共に、前記音声認識部からの音声認識結果に基づき前記対話シナリオを進行させ、前記対話シナリオにおける返答待ちの場面において、前記音声認識結果が所定の時間を経過しても前記第1の制御部に伝達されないときは、前記第1の制御部は前記音声出力部を用いて警告を示す音声を発声させることを特徴とする。
【0008】
この構成によれば、音声処理装置が、音声出力部と、音声認識部と、第1の制御部と、対話シナリオ及び音声出力データが記憶された第1の記憶部とを含み、前記対話シナリオにおける返答待ちの場面において、前記音声認識結果が所定の時間を経過しても前記第1の制御部に伝達されないときは、前記第1の制御部は前記音声出力部を用いて警告を示す音声を発声させることで、該音声処理装置を利用しながら居眠りに陥ってしまった人若しくは居眠りに陥ろうとしている人に注意を喚起することができる。
【0009】
[適用例2]
上記適用例にかかる音声処理装置において、前記第1の制御部は、前記所定の時間を計測するための計測カウンターを有し、前記所定の時間を計測するためのカウント値は、前記返答待ちの場面毎に設定されることが好ましい。
【0010】
この構成によれば、第1の制御部が所定の時間を計測するための計測カウンターを有し、該所定の時間を計測するためのカウント値を返答待ちの場面毎に設定することで、返答待ちの場面に応じた待ち時間の設定を行うことができる。対話シナリオにおける返答待ちの場面は、利用者が即座に返答できる場面や利用者が思考若しくは確認などを必要とする場面などの様々な場面があると考えられる。このため、例えば単に利用者の応答の平均時間で待ち時間を設定している場合、即答可能な対話の後で思考の必要な対話が出現した場合、思考中に待ち時間が経過してしまう可能性がある。返答待ちの場面における待ち時間を、その場面に応じて思考時間を加味して設定することで、利用者に対してより自然で好ましい対話環境を設定することができる。
【0011】
[適用例3]
上記適用例にかかる音声処理装置において、前記対話シナリオにおける最初の前記返答待ちの場面において、前記所定の時間は前記計測カウンターで計測ができる最大値がカウント値として設定されることが好ましい。
【0012】
この構成によれば、対話シナリオにおける最初の返答待ちの場面において所定の時間を計測カウンターで計測できる最大の時間とすることで、最初の返答待ちの場面において所定の時間が経過するという状況が発生する可能性の低下を図ることができる。対話シナリオがスタートしての最初の返答待ちの場面は、利用者が居眠りをしている状態にあることや退屈している状態にあることは他の場面と比較して少なく、利用者が自身にとって適切なタイミングで応答してくれることを期待することできる。従って、所定の時間の設定を計測カウンターで計測できる最大値としても該計測カウンターがカウントアップする可能性は低く、対話シナリオの実質的な進行に対する影響はないと判断でき、不用意な警告を発することを防ぐことができる。
【0013】
[適用例4]
上記適用例にかかる音声処理装置において、前記所定の時間は、前記返答待ちの場面において、前記第1の制御部が前記音声認識結果を認識するまでに要した時間を基に変更されることが好ましい。
【0014】
この構成によれば、所定の時間の変更が、返答待ちの場面に移行してから音声認識結果が伝達されるまでに要した時間を基に変更されることで、利用者にとって、所定の時間が適切な時間の長さとなるようにしていくことができる。上記したように、所定の時間は返答待ちの場面によって異なってくる。対話シナリオの中には返答待ちの時間が複数あり、該複数の返答待ちの場面は、例えば利用者が即答可能な返答待ちの場面や利用者が思考した上で返答することが必要な返答待ちの場面など、複数の種類分けが可能である。この種類毎に第1の制御部が音声認識結果を認識するまでに要した時間を基にそれぞれの返答待ちの場面における所定の時間のカウント値を変更していくことで、装置の対応をより利用者に適したものとすることができる。
【0015】
[適用例5]
上記適用例にかかる音声処理装置において、前記第1の制御部は、前記対話シナリオに関連付けて、前記音声認識結果の履歴を前記第1の記憶部に記憶することが好ましい。
【0016】
この構成によれば、第1の制御部が対話シナリオに関連付けて音声認識結果を第1の記憶部に記憶することで、該音声認識結果を該対話シナリオの履歴として用いることができる。該履歴は、利用者が患者である場合において後の治療に用いることも可能となる。
【0017】
[適用例6]
上記適用例にかかる音声処理装置において、前記対話シナリオは異なる内容のものが複数存在し、対話者によりいずれの前記対話シナリオを用いるかの選択が可能であることが好ましい。
【0018】
この構成によれば、複数の対話シナリオを用意し、利用者がいずれの対話シナリオを用いるかを選択可能とすることにより、利用者が繰り返し同じ対話シナリオを用いることをなくすことができる。複数の対話シナリオは、第1の記憶部に最初から記憶されていてもよく、外部記憶装置やネットワークなどを用いて第1の記憶部に新たに記憶させるようにしてもよい。いずれにしても、複数の対話シナリオを有することにより、利用者が装置の使用に飽きることを防ぐことができる。
【図面の簡単な説明】
【0019】
【図1】音声処理装置の概略ブロック図。
【図2】第1実施形態における処理のフローチャートの一部。
【図3】第1実施形態における処理のフローチャートの一部。
【図4】音声シナリオのチャート図の例。
【図5】音声シナリオのチャート図の例。
【図6】音声処理装置の一形態の概略ブロック図。
【発明を実施するための形態】
【0020】
以下、図を用いて本発明の実施形態について説明する。本実施形態の説明に用いる図は、説明の便宜上、説明に不要な部分についての記載を省略若しくは簡単化して記載を行っている。尚、以降の記載において、2進数のデータは数値の末尾にbをつけて表し、16進数のデータは数字の末尾にhをつけて表すものとする。
【0021】
(第1実施形態)
図1に本実施形態における音声処理装置10の概略ブロック図を示す。音声処理装置10は、対話ボットの機能を有する装置であり、マイク21とスピーカー22が接続されている。利用者は、スピーカー22から出力される音声を聞き、マイク21に話しかけることで音声処理装置10と対話を行う。尚、本実施形態において、マイク21及びスピーカー22は、音声処理装置10とのインターフェイスが適切に取られているものとする。
【0022】
音声処理装置10は、音声認識部11、第1制御部12、第1記憶部13及び音声出力部14を有する。また、第1制御部12は、計測カウンター31を有する。また、第1記憶部13には、対話シナリオ、スピーカー22から出力する音声を合成するための音声データ、及び、音声認識のために必要なデータ(音声特徴データ)などが記憶されている。対話シナリオは、複数用意されているものとする。
【0023】
音声認識部11は、音声処理装置10に取り込まれた音声を処理し、所定の記号列に変換する機能を有する。図示はしないが、音声認識部11には、マイク21からのアナログ信号をデジタル信号に変換するAD変換器が含まれる。音声認識部11は、デジタル変換された音声の所定の記号列の中から意味のあるフレーズを抽出し、第1制御部12に伝搬する。該意味のあるフレーズの抽出には第1記憶部13に記憶されている音声特徴データが用いられる。
【0024】
音声出力部14は、第1制御部12の指示に従い、対話シナリオに定義された音声データの合成を行い、スピーカー22を介して音声を出力する機能を有する。
【0025】
第1制御部12は、第1記憶部13に記憶された対話シナリオに基づき音声認識部11及び音声出力部14の制御を行う部分である。図示しない操作手段により音声処理装置10の電源が投入され利用者の操作により対話のスタートが指示されると、音声処理装置10は、第1記憶部13の対話シナリオを参照して音声認識部11及び音声出力部14に必要な処理を行わせることで、該対話シナリオを進行させる。
【0026】
図2に、音声処理装置10における処理の一部をフローチャート100として示す。利用者により音声処理装置10の電源の投入が行われると、ハードウェア動作としてのパワーオンリセットが実行される。その後、音声処理装置10において必要な初期設定が行われる(S001)。初期設定は音声処理装置10が適切な動作を行うために必要な動作モード等の設定を行うことであり、これにより第1制御部12、音声認識部11及び音声出力部14がそれぞれの機能を果たすにために適切な状態におかれることになる。
【0027】
次にユーザーインターフェイス(UI)の起動が行われ、利用者が音声処理装置10の操作ができるようになる(S002)。これにより、音声処理装置10は利用者からの指示待ちの状態となる(S003)。本実施形態においては、説明の便宜上、利用者の操作は音声処理装置10の処理を終了させるか対話シナリオの選択を行うことに限られるものとする。尚、特に言及しないが、初期設定若しくはUIの起動を実行する部分は、図1に図示しない音声処理装置10の構成要素が行うことでもよく、第1制御部12が行うことでもよい。
【0028】
利用者により操作が行われると、まず終了指示かどうかの判断が行われる(S004)。終了指示の場合、所定の終了処理を行い音声処理装置10の処理は終了する。終了処理でない場合は利用者により対話シナリオの選択がされているので、シナリオ選択の処理を行う(S005)。次いで、第1制御部12は、対応する対話シナリオの該当場面(この場合はスタートの場面)のデータを読み出し、以降、対話シナリオの進行に必要な処理を行う(S006、S007及びS009など)。該当場面が音声出力を行う場面である場合は、音声出力の処理を実行(S008)し、シナリオが終了したかどうかを判断(S015)し、終了でない場合は次の場面の実行を行うためにシナリオ進行の処理(S006)に戻る。また、該当場面が音声入力を行う場面である場合は音声認識の処理(S010〜S014)に進み、そうでない場合はシナリオが終了したかどうかを判断(S015)し、終了でない場合はシナリオ進行の処理(S006)に戻る。尚、対話シナリオが終了したと判断した場合(S015)は、利用者の指示待ちの状態(S003)に戻る。
【0029】
第1制御部12における音声認識の処理(S010〜S014)は、以下のように実行される。まず、第1制御部12は、音声認識部11の動作をオンとし、返答待ちの時間を監視するための計測カウンター31に所定の値を設定し計測カウンター31を起動させる(S010)。次に、音声認識部11及び計測カウンター31の割込みを許可とする(S011)。その後、音声認識部11の割込み処理の中でオンにされる処理フラグの監視(S012)、計測カウンター31の割込み処理の中でオンにされるカウントアップフラグの監視(S013)を行う。
【0030】
処理フラグがオンの場合は、利用者からの返答があり音声認識処理が正常に行われたことを示す。この場合は、シナリオが終了したかどうかを判断(S015)し、終了でない場合はシナリオ進行の処理(S006)に戻る。カウントアップフラグがオンの場合は、返答待ちの時間として設定した時間内に利用者の返答がなかった場合である。この場合は、利用者に返答を促すための警告処理(S014)が行われる。その後、計測カウンター31の割込み処理は割込み不許可の状態で終了していることから、割込みを許可し(S011)し、割込み処理の終了を監視する上記の処理(S012、S013)を繰り返す。
【0031】
対話シナリオの進行の上で正常な形で割込み処理の監視(S012、S013)の状態を抜けるのは、処理フラグがオンと判断(S012)されて抜ける場合である。これは、利用者から返答があり、該返答の内容を所定の時間経過前に認識することができたことを示す。この場合、対話シナリオを進行させるためにフローチャート100のS015に処理が進むことになる。
【0032】
対話シナリオの進行の上で正常でない形で割込み処理の監視(S012、S013)の状態を抜けるのは、利用者からの返答による音声認識結果が、計測カウンター31で計測する所定の時間を経過しても得られないときである。この場合が、計測カウンター31の割込み処理でカウントアップフラグがオンとなった場合である。この場合は、フローチャート100のS013でフラグのオンが判断され、警告処理(S014)に進む。尚、警告処理(S014)については後述する。警告処理(S014)は、割込みマスクの状態で行われることから、警告処理(S014)の後は割込み許可(S011)に進み、利用者の返答を待つ状態に移行し、割込み処理の終了を監視する上記の処理(S012、S013)を繰り返す。尚、利用者からの返答の音声認識結果が得られない場合は、割込み処理の終了を監視する処理、警告処理が繰り返されることになる。
【0033】
音声認識部11からの割込みは、音声認識部11が認識すべき所定のフレーズを認識したときに発生する。この割込みが発生したときは、第1制御部12は、利用者の返答があり、該返答が正常に認識されたと判断する。
【0034】
音声認識部11の割込み処理の概略フローチャートを図3−(a)に示す。割込み処理に入ると、まず多重割込みとならないように割込みをマスクする(S101)。次に、第1制御部12は、音声認識部11の音声認識結果を確認し(S102)、その結果を第1記憶部13の所定の領域に保存する(S103)。該認識結果は、対話シナリオのシーンナンバー(説明は後述)と関連付けて記憶され、該対話シナリオの終了後に対話シナリオと認識結果とを絡めて再構成することで、履歴として利用することが可能となる。その後、音声認識処理の終了を示す処理フラグをオン(S104)にして音声認識部11の割込み処理を終了する。上述したように、フローチャート100のS012において処理フラグがオンと判断されると、S012の処理及びS013の処理で構成される割込み監視のループを抜けて対話シナリオの終了の判断(S015)に進むことになる。
【0035】
次に、計測カウンター31の割込み処理について説明する。計測カウンター31の割込みは、計測カウンター31のカウントがカウントアップしたときに発生する。この割込みの発生は、返答待ちの場面において利用者の返答が所定の時間を経過してもなかったことを意味し、利用者が居眠り状態にあると推測される状態を示している。計測カウンター31の割込み処理の概略フローチャートを図3−(b)に示す。本割込み処理に入ると、まず、多重割込みとならないように割込みをマスクする(S201)。次に、カウントアップフラグをオンとして(S202)、割込み処理を終了する。上述したように、カウントアップフラグがオンであるかどうかは、フローチャート100のS013で監視されている。カウントアップフラグがオンの場合は、警告処理(S014)に進むことになる。
【0036】
警告処理の概略フローチャートを図3−(d)に示す。第1制御部12は、対話シナリオの場面を警告場面に移行させる(S401)。警告場面の説明は後述する。次に、該警告場面に設定された警告の音声を再生する指示を音声出力部14に対して行い(S402)、計測カウンター31にカウント値を再設定して(S403)警告処理を終了する。
【0037】
また、音声認識部11は、第1制御部12により動作の開始が指示される(S010)と、マイク21から入力される音の解析を開始する。音声認識部11の処理の概略のフローチャートを図3−(c)に示す。マイク21からの音は音声認識部11のAD変換器によりデジタルデータに変換され、該デジタルデータは所定の記号列として音声認識部11内において処理される。該所定の記号列を認識データとして取得(S301)し、認識データにおける特徴を第1記憶部13に記憶された音声特徴データと比較することにより認識データの分析を行う(S302)。次に、認識データに対話シナリオの場面に応じた認証フレーズがあるかどうかを判断し(S303)、認証フレーズがない場合は認証データの取得を継続し(S301)、認証フレーズが抽出できた場合は所定のレジスターなどに保持し(S304)、割込み信号を発生させ(S305)、音声認識の処理を終了する。第1制御部12は、音声認識部11の割込み処理(図3−(a))において、音声認識の処理(図3−(c))のS304で保持された認証フレーズを認識結果として取得する(S102、S103)。認証フレーズについては後述する。
【0038】
次に、対話シナリオについて説明する。対話シナリオは、場面の実行内容を記載した場面情報が、会話の進行順にリンクされたものと考えてよい。例として、図4及び図5に対話シナリオのひとつの形式を示す。本実施形態においては3種類の場面情報を定義している。場面情報のひとつ目は、音声処理装置10が利用者に話をする場面(以降、第1の場面と呼ぶ)の場面情報(以降、第1の場面情報と呼ぶ)である。第1の場面情報は、図4及び図5において、DS001、DS003及びDS101で示したものである。場面情報のふたつ目は、利用者が返答をする場面即ち音声処理装置10が音声認識を行う場面(以降、第2の場面と呼ぶ)の場面情報(以降、第2の場面情報と呼ぶ)である。第2の場面情報は、図4及び図5において、DS002で示したものである。場面情報のみっつ目は、音声処理装置10が利用者の返答待ちの場面において所定の時間を経過した後の場面(以降、第3の場面と呼ぶ)の場面情報(以降、第3の場面情報と呼ぶ)である。第3の場面情報は、図5においてDS002Wで示したものである。尚、上述した警告場面とは第3の場面のことである。それぞれの場面情報について以下に説明する。尚、それぞれの場面情報の具体的なデータ形式については特に言及しない。
【0039】
第1の場面情報には、シーンナンバー(シーンNo)、音声出力フラグ、音声認識フラグ及び音声フレーズの情報が含まれる。第1の場面情報及び第2の場面情報におけるシーンNoは共通のルールで割振られ、対話シナリオの種類を表すアルファベットと連続した数字で表される。本実施形態においては、便宜上、アルファベット1文字と数字4桁で構成されている。基本的に対話シナリオにおける場面の進行は、同一アルファベット文字において数字が1増加する場面の順番に行われる。即ち、シーンNoがA0100の場面が実行された後は、シーンNoがA0101の場面が基本的に実行されることになる。
【0040】
音声出力フラグは、音声の出力を指示するためのフラグである。本実施形態においては、2ビットのコード“01b”と定義した。入力された音声は、音声認識部11により分析が行われる。音声フレーズは、出力する音声を定義するものである。
【0041】
第2の場面情報には、シーンNo、音声出力フラグ、音声認識フラグ、カウンター設定値及び認証フレーズ・シーンNoの情報が含まれる。シーンNo、音声出力フラグ及び音声認識フラグの定義は、第1の場面情報と同じである。カウンター設定値は、返答待ちの時間を計測するためのカウント値であり、計測カウンター31に設定される。計測カウンター31はカウントの起動が指示される(S010)と、所定のクロックでカウントされる。カウントはインクリメント若しくはデクリメントのいずれでもよく、カウンター設定値は該所定のクロックの周波数及び計測カウンター31の使用形態を考慮して決定されることでよい。また、キャリー又はボローにより計測カウンター31のカウントアップを検出してもよく、比較レジスターなどを設け該比較レジスターの値との一致によりカウントアップを定義してもよい。上述したように、計測カウンター31のカウントアップによる割込み処理の中でカウントアップフラグがオンにされ、フローチャート100のS013でフラグのオンが判断されることにより、警告処理(S014)が実行される。
【0042】
認証フレーズ・シーンNoの情報は、本場面において有効と判断する認証フレーズと該認証フレーズが認識された場合の次に実行する場面のシーンNoとを示したものである。例えば、図4のDS002は、音声認識部11の音声認識結果として“はい”が認識された場合は、次に実行する場面のシーンNoはA0102であることを定義している。同様に、DS002は、音声認識部11の音声認識結果が“だめ”であった場合には、次に実行する場面のシーンNoはB0100であることを定義している。
【0043】
第3の場面情報には、シーンNo、音声出力フラグ、音声認識フラグ、カウンター設定値、音声フレーズ及び認証フレーズ・シーンNoの情報が含まれる。第3の場面情報は、第1の場面情報における情報と第2の場面情報における情報の両方の情報を有することになる。シーンNo以外の情報の定義は、第1の場面情報及び第2の場面情報で説明した内容と同じである。第3の場面情報のシーンNoは、返答待ちの場面のシーンNoの末尾にWを付加したコードとして定義されている。上述したように、第3の場面情報は警告処理(S104)における場面である。利用者に警告を発した後は、直前の第2の場面と同じように利用者の返答を認識しなくてはいけない。従って、音声を発することと返答を認識することの両方を行う場面であることから、第1の場面情報における情報と第2の場面情報における情報の双方の情報を有している。尚、認証フレーズ・シーンNoの情報は直前の第2の場面と同じものである。
【0044】
図4のDS001以降の対話シナリオの処理の流れは次のようになる。
【0045】
まず、図2のS006において、第1制御部12により図4のDS001の情報が読み出され、場面情報の解釈が行われる。第1制御部12は、音声出力フラグの設定があることから(図2のS007)、第1制御部12は音声出力部14に音声フレーズにある音声データ“昔の話をしましょう”の出力を指示する(図2のS008に含まれる)。音声出力部14は、第1制御部12の指示により該音声データを出力する(図2のS008に含まれる)。
【0046】
対話シナリオにはDS001の次の場面情報DS002があることから(図2のS015)、第1制御部12はDS002の情報を読み出し、場面情報の解釈を行う(図2のS006)。DS002には音声出力フラグの設定がなく(図2のS007)、音声認識フラグの設定があることから(図2のS009)、第1制御部12は音声認識部11の動作を開始をすると共にカウンター設定値の値を計測カウンター31にセットして計測カウンターを起動させる(図2のS010)。つづいて、第1制御部12は音声認識部11及び計測カウンター31からの割込みを許可し(図2のS011)、割込み処理により設定される各種フラグの確認待ちの状態となる(図2のS012、S013)。この状態も第2の場面(シーンNoがA0101)が実行されている状態に含まれる。
【0047】
第2の場面(シーンNoがA0101)において、計測カウンター31のカウントアップ前に利用者から“昔の話はいやだな”と返答があったとする。音声認識部11は、利用者からの返答の認識データ(図3−(c)のS301)の内容を分析し(図3−(c)のS302)、DS002に定義された認証フレーズに該当するものがあるかどうかを確認して該当するものがあった場合(図3−(c)のS303)には、確認できた認証フレーズを認識データの中から抽出し(図3−(c)のS304)、第1制御部12がアクセス可能な所定の場所に抽出したフレーズを保持する。今回の返答の場合、“いや”というフレーズが抽出される。その後、音声認識部11は割込みを発生させ、処理を終了する。
【0048】
音声認識部11からの割込みが発生したことで、音声認識割込み処理(図3−(a))が実行され、処理フラグがオンとなる(図3−(a)のS104)。処理フラグがオンとなったことが確認される(図2のS012)と、実行した場面が終了場面かどうかの確認を行い(図2のS015)、次に実行する場面の処理(図2のS006)に進む。本対話シナリオの場合、シーンNoがA0101の場面で認識されたフレーズが“いや”であったことから、次に実行される場面は、図4のDS002に記載されているように、シーンNoがB0100の場面である。第1制御部12が実行するのは、図4のDS101で示した第1の場面となる。
【0049】
次に、第2の場面(シーンNoがA0101)において、音声認識部11が認証フレーズの抽出を行う前に計測カウンター31のカウントアップの割込みが発生した場合について説明する。この場合、計測カウンター割込み処理(図3−(b))においてカウントアップフラグがオンとなる(図3−(b)のS202)。カウントアップフラグがオンとなることにより(図2のS013)、警告処理(図2のS014)が実行される。第2の場面(シーンNoがA0101)における警告処理であることから、実行される場面の第3の場面のシーンNoは、A0101W(図5のDS002W)となる。
【0050】
DS002Wの音声出力フラグが“01b”であることから、第1制御部12は、音声出力部14に対してDS002Wに定義された音声フレーズ“起きてるぅ〜”の出力を指示する(図3−(d)のS402)。第1制御部12は、DS002Wに定義されたカウンター設定値を計測カウンター31に設定して(図3−(d)のS403)警告処理を終える。シーンNoがA0101Wの場面は、シーンNoがA0101の場面の延長と解される場面であることから、音声認識フラグには“10b”が設定されている。
【0051】
所定の時間を経過しても返答がない場合は、上述したように警告処理が実行され、第3の場面情報に定義された音声フレーズが出力され、利用者に対して注意を促すことができる。これにより、利用者が居眠り状態にあった場合若しくは居眠りに陥ろうとしている状態にあった場合に、利用者を目覚めさせる効果が期待できることになる。
【0052】
また、対話シナリオにおける最初の返答待ちの場面において所定の時間を計測カウンターで計測できる最大の時間とすることで、最初の返答待ちの場面において所定の時間が経過するという状況が発生する可能性の低下を図ることができる。対話シナリオがスタートしての最初の返答待ちの場面は、利用者が居眠りをしている状態にあることや退屈している状態にあることは他の場面と比較して少なく、利用者が自身にとって適切なタイミングで応答してくれることを期待することできる。従って、所定の時間の設定を計測カウンターで計測できる最大値としても該計測カウンターがカウントアップする可能性は低く、対話シナリオの実質的な進行に対する影響はないと判断でき、不用意な警告を発することを防ぐことができる。
【0053】
尚、音声処理装置10の同じ問いに対する返答に要する時間は、人によって様々である。従って、計測カウンター31への設定値を、対話シナリオの進行が進むにつれ変更することで、タイムアップするまでの時間を利用者に適したものに変更することができる。上記したように、返答待ちの時間は、第2の場面毎に設定されている。複数に種類分けした中の、所定の種類の第2の場面において設定したカウンター設定値と該所定の種類の第2の場面においての音声認識に要した時間との平均を次回の該所定の種類の第2の場面のカウンター設定値とすることで、該所定の種類の第2の場面における返答待ち時間の計測を利用者に適したものとすることを図ることできる。
【0054】
以上、本発明の実施形態について説明を行ったが、本発明は上記の実施形態に限られたものではい。例えば、対話シナリオの場面情報の定義の仕方には様々な方法が考えられる。また、音声処理装置10を、図6に示すようにマイコンの形で構成(音声処理装置50)してもよい。音声処理装置50は、CPU部、リセット制御部(Reset)、クロック生成部(Clock)、システムバス60、ワークメモリー部、タイマー部51、ペリフェラル部52、記憶部53、アナログ−デジタル変換器(A/D変換)及びデジタル−アナログ変換器(D/A変換)を備えている。本発明は、上記の適用例及び実施形態に限られず、趣旨を逸脱しない範囲において広く適用が可能である。
【符号の説明】
【0055】
10…音声処理装置、11…音声認識部、12…第1制御部、13…第1記憶部、14…音声出力部、21…マイク、22…スピーカー、31…計測カウンター、50…音声処理装置、51…タイマー部、52…ペリフェラル部、53…記憶部、60…システムバス、100…フローチャート。

【特許請求の範囲】
【請求項1】
音声出力部と、
音声認識部と、
第1の制御部と、
対話シナリオ及び音声出力データが記憶された第1の記憶部と、を含み、
前記第1の制御部は、前記対話シナリオに基づき前記音声出力データを用いて前記音声出力部から音声を発声させると共に、前記音声認識部からの音声認識結果に基づき前記対話シナリオを進行させ、
前記対話シナリオにおける返答待ちの場面において、前記音声認識結果が所定の時間を経過しても前記第1の制御部に伝達されないときは、前記第1の制御部は前記音声出力部を用いて警告を示す音声を発声させることを特徴とする音声処理装置。
【請求項2】
前記第1の制御部は、前記所定の時間を計測するための計測カウンターを有し、
前記所定の時間を計測するためのカウント値は、前記返答待ちの場面毎に設定されることを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記対話シナリオにおける最初の前記返答待ちの場面において、前記所定の時間は前記計測カウンターで計測ができる最大値がカウント値として設定されることを特徴とする請求項1または2に記載の音声処理装置。
【請求項4】
前記所定の時間は、前記返答待ちの場面において、前記第1の制御部が前記音声認識結果を認識するまでに要した時間を基に変更されることを特徴とする請求項1乃至3のいずれか一項に記載の音声処理装置。
【請求項5】
前記第1の制御部は、前記対話シナリオに関連付けて、前記音声認識結果の履歴を前記第1の記憶部に記憶することを特徴とする請求項1乃至4のいずれか一項に記載の音声処理装置。
【請求項6】
前記対話シナリオは異なる内容のものが複数存在し、対話者によりいずれの前記対話シナリオを用いるかの選択が可能であることを特徴とする請求項1乃至5のいずれか一項に記載の音声処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−37097(P2013−37097A)
【公開日】平成25年2月21日(2013.2.21)
【国際特許分類】
【出願番号】特願2011−171621(P2011−171621)
【出願日】平成23年8月5日(2011.8.5)
【出願人】(000002369)セイコーエプソン株式会社 (51,324)
【Fターム(参考)】