対話装置
【課題】専用のセンサやマイクを新たに設ける必要がなく操作者までの距離検出を行い、適切なゲインで対話処理を行う。
【解決手段】受付端末20は、音声を入力するためのマイク207と、音声を出力するためのスピーカ208と有し、マイク207を介し入力された雑音により対応する雑音情報を取得し、取得した雑音情報に基づき生成された疑似雑音をスピーカ208を介し出力し、マイク207を介し入力された疑似雑音の対象物での反射音により対応する反射音情報を取得し、取得された反射音情報に基づき所定の演算処理を行い対象物が来訪者Mであると推測して来訪者Mまでの距離を検出し、この検出結果に基づき、マイク207のゲインを調整する。
【解決手段】受付端末20は、音声を入力するためのマイク207と、音声を出力するためのスピーカ208と有し、マイク207を介し入力された雑音により対応する雑音情報を取得し、取得した雑音情報に基づき生成された疑似雑音をスピーカ208を介し出力し、マイク207を介し入力された疑似雑音の対象物での反射音により対応する反射音情報を取得し、取得された反射音情報に基づき所定の演算処理を行い対象物が来訪者Mであると推測して来訪者Mまでの距離を検出し、この検出結果に基づき、マイク207のゲインを調整する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、操作者が音声による対話方式により操作可能な対話装置に関する。
【背景技術】
【0002】
例えば建造物への来訪者に対する受付業務を行う受付装置等、操作者が対話方式によって操作可能な対話装置が、従来より既に知られている。このような対話装置においては、操作者の発話内容をマイク等の音声入力手段により入力し、適宜のゲインで増幅した後に音声認識する。この際、発話音声レベルに対してゲインが小さすぎると誤認識が生じ、発話音声レベルに対してゲインが大きすぎると音割れにより認識不能となる。一般に、対話処理においては、原則として(特に要請しない限り)操作者は同一内容を一度しか発話しないため、上記のような場合は発話内容の認識漏れが生じる。このような認識漏れを防止するためには、上記ゲインの適正化が必要である。一般に、装置から操作者までの距離が遠いと音声入力手段に入力される発話音声レベルが小さく(言い換えればゲインを大きくする必要がある)、装置から操作者までの距離が近いと音声入力手段に入力される発話音声レベルが大きい(言い換えればゲインを小さくする必要がある)。したがって、ゲインの適正化のためには、装置から操作者までの距離を非接触で精度よく検出し、その距離に応じた適切なゲインで対話処理を行うことが好ましい。
【0003】
このような非接触距離検出に関しては、例えば特許文献1記載の従来技術が知られている。この従来技術では、超音波パルスを生成して対象物(物体)に対して出力し、検出対象物での反射波(エコーパルス)を探知する。そして超音波パルスの伝達時間を算出することにより、その伝達時間に基づいて対象物までの距離を検出するようになっている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−351897号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、対話装置に対し、上記従来技術のような超音波を用いた距離検出手法を適用しようとする場合、距離検出専用のセンサやマイクを新たに設ける必要が生じるという問題があった。
【0006】
本発明の目的は、専用のセンサやマイクを新たに設ける必要がなく操作者までの距離検出を行い、適切なゲインで対話処理を行える対話装置を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するために、第1の発明は、操作者が対話方式により操作可能な対話装置であって、音声を入力するための音声入力手段と、音声を出力するための音声出力手段と、前記音声入力手段を介し入力され、距離検出用の検出音の生成元となるソース音により、対応する振幅あるいは周波数を含むソース音情報を取得するソース音取得手段と、前記音声入力手段が前記音を入力してから所定時間以内に、前記ソース音取得手段が取得した前記ソース音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する検出音出力手段と、前記音声入力手段を介し入力された、前記検出音の前記対象物での反射音により、対応する反射音情報を取得する反射音取得手段と、前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推定して当該操作者までの距離を検出する距離検出手段と、前記距離検出手段での検出結果に基づき、前記音声入力手段のゲインを調整する感度調整手段とを有することを特徴とする。
【0008】
本願第1発明の対話装置においては、距離検出用の検出音を用いて操作者との距離を検出する。すなわち、検出音生成時の生成元となるソース音が音声入力手段を介して入力され、対応するソース音情報がソース音取得手段で取得される。すると、このソース音情報に基づき、検出音出力手段が、検出音を音声出力手段を介し出力する。出力された検出音が対象物に向かって伝搬し対象物で反射すると、その反射音が音声入力手段を介して入力され、対応する反射音情報が反射音取得手段で取得される。検出音が発せられてからその反射音が戻ってくるまでの時間は、装置から対象物までの距離に比例することから、距離検出手段が、上記反射音情報に基づき、対象物が操作者であると推定して操作者までの距離を検出する。そして、この検出された距離に基づき、感度調整手段が音声入力手段のゲインを調整する。これにより、操作者までの距離が比較的近い場合には対話時の操作者の発話音声が比較的大きいレベルで入力されることから音声入力手段のゲインを低くし、操作者までの距離が比較的遠い場合には対話時の操作者の発話音声が比較的小さいレベルで入力されることから音声入力手段のゲインを高くすることで、適切な信号レベルで対話処理を行うことが可能となる。この結果、認識漏れのない、確実な対話処理を行うことができる。
【0009】
以上のようにして、本願第1発明においては、音声入力手段及び音声出力手段を介して入出力する音を用いて、操作者までの距離を検出することができる。すなわち、対話処理のためにもともと備わっている音声入力手段(マイク等)や音声出力手段(スピーカ等)を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく距離検出を行うことができ、それに基づく適切なゲインで確実な対話処理を行うことができる。
【0010】
第2発明は、上記第1発明において、前記ソース音取得手段は、操作者が前記対話装置の対話処理において発声し前記音声入力手段で入力された前記ソース音としての発話音声により、前記ソース音情報としての発話音声情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記発話音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【0011】
ソース音に基づき検出音を生成するとき、元となるソース音のレベルがあまりに小さいと、出力した検出音のレベルも小さく、その反射音を検出することが困難となる。通常、対話方式で操作を行おうとする操作者は、自己の発話音声をなるべく確実に認識してもらおうという意図が働き、ゆっくりと大きめの音量で発話を行う。したがって、距離検出時に、そのような操作者の発話音声に基づいて検出音(疑似発話音)を生成し利用することで、精度の高い確実な距離検出を行うことができる。また、操作者自らが発声している発話音声を利用することにより、音を用いて検出していることを操作者に比較的悟られにくいという効果や、予め操作者の位置を予想してゲインを調整可能となるので(オートゲインコントロールによって調整を行う場合に比べ)より適切な調節を行える効果もある。
【0012】
第3発明は、上記第1発明において、前記ソース音取得手段は、操作者との対話処理において前記音声出力手段が出力し前記音声入力手段で入力された前記ソース音としての装置音声又は当該装置音声の反射音により、前記ソース音情報としての装置音声情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記装置音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【0013】
ソース音に基づき検出音を生成するとき、元となるソース音のレベルがあまりに小さいと、出力した検出音のレベルも小さく、その反射音を検出することが困難となる。一般に、対話方式で操作者に操作してもらう対話装置では、操作者にわかりやすく説明や案内を行うために、操作者に向かってゆっくりと大きめの音量で発声を行う。したがって、距離検出時に、そのような装置発声に基づいて検出音(疑似装置音声)を生成し利用することで、精度の高い確実な距離検出を行うことができる(なおこの場合には検出タイミングは、装置発話の終了時が好ましい)。また、装置が対話用に発声している音声を利用することにより、音を用いて検出していることを操作者に比較的悟られにくいという効果や、距離算出に都合のよい音情報(周波数や振幅)を選択することで音声入力後の解析を速くできる効果もある。
【0014】
第4発明は、上記第1発明において、前記ソース音取得手段は、装置周囲で発生し前記音声入力手段で入力された前記ソース音としての周囲音により、前記ソース音情報としての周囲音情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記周囲音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【0015】
距離検出時に、音声入力手段で入力した周囲音に基づいて検出音(疑似周囲音)を生成し利用することにより、音を用いて検出していることを操作者に悟られることなく、距離検出を行うことができる。
【0016】
第5発明は、上記第1乃至第4発明のいずれかにおいて、前記距離検出手段で検出された前記操作者までの距離が所定値以下となったら、前記感度調整手段による前記ゲインの調整を開始させる、開始制御手段を有することを特徴とする。
【0017】
対話方式で操作を行う対話装置の場合、操作者は、装置に比較的近づいてから発話を行うのが一般的である。したがって、装置から操作者までの距離が遠い場合には、操作者が操作を開始する可能性は低い。本願第5発明ではこれに対応して、開始制御手段が、操作者までの距離が比較的近くなってから音声入力手段のゲインの調整を開始する。これにより、無駄な調整動作を回避し、効率的な処理を行うことができる。
【0018】
第6発明は、上記第5発明において、前記距離検出手段で検出された前記操作者までの距離が前記所定値より大きい場合、前記音声入力手段のゲインを所定値以上に設定する設定制御手段を有することを特徴とする。
【0019】
前述したように、装置から操作者までの距離が遠い場合には、操作者が対話による操作を開始する可能性は低い。しかしながら、操作者によっては(あるいは状況によっては)比較的遠い距離のまま、操作者が発話を行う可能性もある。この場合、装置から操作者までの距離が遠いため、そのままでは操作者の発話音声が比較的小さいレベルで音声入力手段より入力されることとなる。そこで、本願第6発明においては、設定制御手段が音声入力手段のゲインを所定値以上に設定し、信号レベルを増大させる。これにより、このような遠方からの操作時においても、認識漏れの可能性を低減することができる。
【0020】
第7発明は、上記第6発明において、前記感度調整手段でゲインが調整された前記音声入力手段を用いて対話処理が終了した後、所定期間が経過したら、前記感度調整手段による前記音声入力手段のゲイン調整を終了する終了制御手段を有することを特徴とする。
【0021】
操作者との距離に応じた音声入力手段の感度調整後に対話処理が行われ、その対話処理が終了してしばらくたった場合には、対話していた操作者は既に別の場所に移動し、装置近傍に誰もいない状態になっている可能性が高い。そこで本願第7発明においてはこれに応じ、終了制御手段が、対話処理終了後所定期間が経過したら、音声入力手段のゲイン調整を終了し行わないようにする。これにより、その時点でのゲインの値により次の操作者を待ち受ける状態を確実に実現することができる。
【発明の効果】
【0022】
本発明によれば、専用のセンサやマイクを新たに設ける必要がなく操作者までの距離検出を行い、適切なゲインで対話処理を行うことができる。
【図面の簡単な説明】
【0023】
【図1】本発明の一実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
【図2】来訪者受付システムのシステム全体の機能構成を表す機能ブロック図である。
【図3】表示部における表示画面の一例を表す図である。
【図4】受付端末の機能的構成を示す機能ブロック図である。
【図5】DBサーバの機能的構成を表す機能ブロック図である。
【図6】スピーカより疑似雑音を出力するまでの手順の概要を説明した説明図である。
【図7】来訪者までの距離を検出する手法の概要、及び、検出した距離が所定値よりも大きかった場合のゲイン制御の内容を説明した図である。
【図8】検出した距離が所定値以下であった場合のゲイン制御の内容を説明した図である。
【図9】受付端末による受付処理終了後の状態を模式的に表した図である。
【図10】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図11】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図12】ソース音として来訪者の発話音声を利用する変形例において、スピーカより疑似発話音声を出力するまでの手順の概要を説明した説明図である。
【図13】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図14】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図15】ソース音として受付端末の案内音声を利用する変形例において、スピーカより疑似案内音声を出力するまでの手順の概要を説明した説明図である。
【発明を実施するための形態】
【0024】
以下、本発明の一実施の形態を図面を参照しつつ説明する。本実施形態では、本発明の対話装置を、例えば、ビルや会社その他の建造物への来訪者に対する受付業務を行う来訪者受付システムに適用した場合を表している。
【0025】
(A)システムの基本構成
図1は、本実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
【0026】
図1において、来訪者受付システム1は、例えば会社の入口付近に設置され、操作者(この例では、会社への来訪者)Mが対話方式により操作可能な受付端末20(対話装置)を有している。受付端末20には、音声を入力するためのマイク207(音声入力手段)と、音声を出力するためのスピーカ208(音声出力手段)とが設けられている。
【0027】
受付端末20は、来訪者Mとの対話処理(この例では、来訪者Mとの対話による受付処理)や、マイク207及びスピーカ208に入出力される音声を用いた来訪者Mまでの距離の検出を行い、その検出した距離に基づき、マイク207のゲイン(後述)の調整を行う。本実施形態では、受付端末20から来訪者Mまでの距離を検出する方法として、スピーカ208から距離検出用の検出音(この例では、後述の疑似雑音)を出力させて、その疑似雑音が来訪者Mで反射し、その反射音がマイク207に入力されるまでの所要時間を測定する。そして、この所要時間が、来訪者Mまでの距離に比例するという関係から、来訪者Mまでの距離を検出する。すなわち、来訪者Mまでの距離をL、上記所要時間をtとすると、
L=c×t/2 ・・・(式1)
で表される関係が成り立つ(詳細は図7で後述する)。なお、cは音速(約340[m/s]。但し、媒体である空気の密度や圧力により異なる)である。
【0028】
上記(式1)を解くことによって、来訪者Mまでの距離が検出できる。そして、検出した距離に基づき、マイク207のゲインを調整(設定)する(詳細は後述する)。
また、図1に示すように、受付端末20は、表示部210、上記マイク207、及び上記スピーカ208を有している。表示部210は、例えば液晶ディスプレイで構成され、この例では水平に設置されるベース212に対してアーム211を介し支持され、来訪者Mの視線に対して直角となるように面方向が斜め上方を向いている。マイク207は、ベース212に対し先端を来訪者M側へ向けるようにして略円弧状に配置されている。
【0029】
なお、表示部210をタッチパネルで構成し、表示される表示画面を来訪者Mが直接画面に触れながら操作できるようにしてもよい。
【0030】
図2は、来訪者受付システム1のシステム全体の機能構成を表す機能ブロック図である。
【0031】
図2において、来訪者受付システム1は、上記受付端末20と、周知のパーソナルコンピュータにより構成されるDBサーバ10と、会社の従業員それぞれに対応して設けられた複数の(この例では2つの)IP電話機60と、それら複数のIP電話機60の回線交換を行う周知の交換装置であるIP−PBX(Intenet Protocol Private Branch eXchange)50とを有し、これらはすべてルータ40を介して接続されている。
【0032】
受付端末20は、端末本体20Aと、この端末本体20Aに接続された、上記表示部210、ゲイン可変アンプ217、及び上記スピーカ208と、上記ゲイン可変アンプ217に接続された上記マイク207とを有している。
【0033】
マイク207は、入力された音声を音声情報に変換し、ゲイン可変アンプ217へ出力する。
【0034】
ゲイン可変アンプ217は、マイク207から入力された音声情報を増幅(この例では後述のCPU201からの制御信号によってマイク207のゲインが決定される増幅)して、端末本体20Aへ出力する。上記マイク207のゲインとは、入力と出力との比(出力/入力)、すなわち、CPU201の制御によりゲイン可変アンプ217が行う増幅の度合い(=増幅度)のことである。
【0035】
スピーカ208は、端末本体20Aから入力された音声信号を、来訪者Mに対する報知音(案内音声)や距離検出用の検出音(この例では後述の疑似雑音。あるいは、疑似装置発声音や疑似発話音声でもよい。後述の(1)及び(2)の変形例参照)に変換して出力する。
【0036】
図3は、表示部210における表示画面の一例を表す図である。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物IMが、後述の受付処理が開始されると、オフィス風の背景Gとともに表示される。また、スピーカ208から発話される音声に対応する文章B(図中では「***」で略記している)が併せて表示される。
【0037】
(B)受付端末の詳細機能
図4は、受付端末20の機能的構成を示す機能ブロック図である。
【0038】
図4において、受付端末20の端末本体20Aは、制御回路部200と、入出力(I/O)インタフェイス204と、ハードディスク装置(HDD)205と、計時手段であるタイマ209とを有している。
【0039】
制御回路部200は、CPU201と、受付端末20の基本的な動作に必要なプログラムやそのための設定値を記憶したROM202と、各種データを一時的に記憶するRAM203とを備えている。CPU201は、ROM202や、HDD205に記憶されたプログラムに従って、受付端末20全体の動作を制御する。
【0040】
I/Oインタフェイス204には、上記CPU201と、上記ハードディスク装置205と、上記タイマ209と、上記表示部210と、上記ゲイン可変アンプ217と、上記スピーカ208と、ネットワーク(NW)カード206とが接続されている。
【0041】
HDD205には、音声認識に使用するための言語モデル記憶エリア252、単語辞書記憶エリア253、来訪者を特定するための音声認識に使用される来訪者辞書記憶エリア254、及びプログラム記憶エリア256を含む複数の記憶エリアを備えている。
【0042】
プログラム記憶エリア256には、例えば、受付端末20の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末20の基本的な動作を制御するシステムプログラム、DBサーバ10との通信を制御する通信プログラム、表示部210に表示する画像を生成する描画プログラム、上述した音声認識を実行する音声認識プログラム、DBサーバ10のデータベースにアクセスし照合を行うためのDB照合プログラム、音声合成プログラム、対話制御プログラム、IP電話機60とIP−PBX50との接続に係わる電話接続プログラム、前述した距離検出を制御する距離検出プログラム、前述したマイク207のゲインの調整を制御する感度調整プログラム等がある。
【0043】
なお、図示はされていないが、HDD205には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴(例えば、周波数特性)と対応する音素とで表現されている。
【0044】
NWカード206は、上記ルータ40に接続され、DBサーバ10などとの間でデータの送受信を可能とするための拡張カードである。
【0045】
(C)DBサーバの詳細機能
図5は、DBサーバ10の機能的構成を表す機能ブロック図である。
【0046】
図5に示すように、DBサーバ10は、CPU101と、CPU101に各々接続されたROM102及びRAM103と、CPU101に接続された入出力(I/O)インタフェイス104と、I/Oインタフェイス104にそれぞれ接続された、マウスコントローラ106、キーコントローラ107、ビデオコントローラ108、通信装置109、及びハードディスク装置(HDD)150とを有している。
【0047】
ROM102は、BIOSを含む、DBサーバ10を動作させるための各種のプログラムを記憶している。RAM103は、各種データを一時的に記憶する。CPU101は、ROM102や、後述するHDD150に記憶されたプログラムに従って、DBサーバ10の全体の制御を司る。
【0048】
マウスコントローラ106、キーコントローラ107、及びビデオコントローラ108には、それぞれマウス116、キーボード117、及びディスプレイ118が接続されている。通信装置109は、ルータ40に接続され、受付端末20等、外部機器との間でデータの送受信を行うことを可能とする。
【0049】
HDD150は、予定された来訪者Mに関する来訪情報を格納する来訪者予約データベース(DB)記憶エリア151、社員情報を格納する社員データベース(DB)記憶エリア155、及びプログラム記憶エリア156を含む複数の記憶エリアを備えている。
【0050】
プログラム記憶エリア156には、システムプログラム、通信プログラム等、各種処理をDBサーバ10に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示せず)を介してインストールされ、プログラム記憶エリア156に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
【0051】
(D)ゲインの調節の流れ
以上のような構成の本実施形態の最大の特徴は、マイク207を介し取得された雑音情報に基づき距離検出用の疑似雑音を生成しスピーカ208を介し出力することと、マイク207を介して取得した上記疑似雑音の反射音情報に基づき来訪者Mまでの距離を検出することと、その距離検出結果に基づきマイク207のゲインを調整することである。以下、その詳細を順を追って説明する。
【0052】
図6は、スピーカ208より疑似雑音を出力するまでの手順の概要を説明した説明図である。
【0053】
図6(a)には、マイク207に入力された雑音より、疑似雑音情報を生成する手順を模式的に示している。図6(a)に示すように、受付端末20の周囲で、疑似雑音の生成元となるソース音としての雑音(周囲音。この例では、会社内の所定の場所に設置されたドア30が閉まる音)が発生すると、この雑音が伝搬してマイク207に入力される。これにより、入力した雑音に対応する振幅(あるいは周波数でもよい。以下同様)を含むソース音情報としての雑音情報(周囲音情報)が取得され、この雑音情報に基づき、疑似雑音情報が生成される。なお、このとき、疑似雑音情報のサンプリング周波数が16[kHz]以上となるように生成してもよい。その場合、市販の音響モデルとの互換性を確保できるので、より利便性・応用性が高くなる。
【0054】
図6(b)には、スピーカ208より疑似雑音が出力された状態を模式的に示している。図6(b)に示すように、上記図6(a)のようにして疑似雑音情報が生成されると、この疑似雑音情報に基づき、距離検出用の疑似雑音がスピーカ208より出力される。なお、疑似雑音は、当該疑似雑音の生成元となった雑音がマイク207に入力されてから所定時間(例えば、1[msec])以内にスピーカ208より出力される。
【0055】
また、スピーカ208より疑似雑音が出力されるのとほぼ同時に、タイマ209(図4参照)が起動される。これにより、スピーカ208より疑似雑音が出力されてから、この疑似雑音が対象物に反射し、その反射音がマイク207に入力されるまでの所要時間(以下、単に「所要時間」という)の測定(計測)が開始される。本実施形態では、上記疑似雑音の反射音の反射元となった対象物が、来訪者Mであるとみなし(推測し)、後述のようにして来訪者Mまでの距離を検出する。
【0056】
図7は、来訪者Mまでの距離を検出する手法の概要、及び、検出した距離に応じたゲイン制御の内容を説明した図である。
【0057】
図7において、上記図6(b)のようにしてスピーカ208より出力された疑似雑音は、所定の距離範囲(伝搬可能な距離範囲。パワーによって異なる)に伝搬される。このとき、当該範囲内に来訪者Mが存在すると、上記疑似雑音は、来訪者Mにより反射し、その反射音が伝搬してマイク207に入力される。これにより、対応する反射音情報が取得される。そして、マイク207に反射音が入力されると、タイマ209によって行われていた上記所要時間の測定が終了する。すなわち、このときのタイマ209の測定値が上記所要時間となる。
【0058】
また、この例では、上記タイマ209による計時を開始してから予め定められた所定の最小音波受音時間を経過するまでは上記反射音情報の取得は開始されないようになっている。上記最小音波受音時間とは、スピーカ208より出力された疑似雑音が、来訪者Mに反射することなく、直接マイク207に入力されるまで(=いわゆる疑似雑音のスピーカ208からマイク207への周り込み)の所要時間である。例えば、スピーカ208とマイク207との間の距離が30[cm]であるとすると、最小音波受音時間は1.73[msec]となる。タイマ209の測定時間が最小音波受音時間を経過するまで、マイク207には、疑似雑音の反射音は入力されない。したがって、最小音波受音時間が経過するまで反射音情報の取得を開始せずに待つことで、マイク207に入力する不要な音声(上記周り込みした疑似雑音)を除外することができる。
【0059】
さらに、この例では、上記タイマ209による計時を開始してから予め定められた所定の最大音波受音時間を経過すると、反射音情報の取得は終了され、再び雑音情報の取得が開始されるようになっている。上記最大音波受音時間とは、スピーカ208より出力された疑似雑音が、所定の距離(例えば、受付端末20による受付処理が行われる可能性がある最大距離)より反射され、その反射音がマイク207に入力されるまでの所要時間である。例えば、上記最大距離を100[cm]とすると、最大音波受音時間は5.77[msec]となる。この最大音波受音時間を経過した後、マイク207に入力された疑似雑音の反射音は、上記所定の距離より遠い(受付をするには遠い)位置に存在する対象物(来訪者Mとは限らない)により反射されたものである。タイマ209の測定時間が最大音波受音時間を経過すると、反射音情報の取得を終了とすることで、不要な反射音を除外することができる。
【0060】
また、上記疑似雑音及びその反射音は、共に音波であるので受付端末20と来訪者Mとの間を音速で伝搬している。また、上記所要時間は、上記疑似雑音及びその反射音、すなわち音波が、受付端末20と来訪者Mとの間を往復する往復伝搬時間である(詳細にはスピーカ208→来訪者M間の疑似雑音の伝搬時間と、来訪者M→マイク207間の反射音の伝搬時間との合計時間)。すなわち、音速と、上記所要時間の半分(=片道の伝搬時間に相当)との積の値が、受付端末20から来訪者Mまでの距離となる。このようなことから、上記の(式1)(図1参照)を解くことによって、受付端末20から来訪者Mまでの距離を検出(算出)することができるのである。
【0061】
例えば、音速を346.5[m/s]とし、タイマ209の測定値(=上記所要時間)を2.0[msec]とすると、来訪者Mまでの距離Lは、
L=346.5×2.0×10−3/2=346.5×10−3[m]≒35[cm]
となる。
【0062】
そして、図7の下段に示すように、上記の方法により検出された受付端末20から来訪者Mまでの距離Lが所定値L0(例えば80[cm])よりも大きかった(L>L0)場合には、マイク207のゲイン(=上記ゲイン可変アンプ217での増幅度)を、所定値以上に(この例では固定的に)設定するようになっている。
【0063】
一方、上記検出した距離Lが所定値L0以下であった場合のゲイン制御の内容を図8を用いて説明する。この図8は上記図7に対応する図である。
【0064】
図8において、この例では、来訪者Mが、上記図7の状態に比べて少し受付端末20に近づき、これによって受付端末20から来訪者Mまでの距離Lが上記所定値L0以下となっている。そして、このL≦L0が検出されたことに応じて、マイク207のゲインの調整が開始され、検出された距離に応じて上記ゲインの値が制御されるようになっている。
【0065】
本実施形態の受付端末20では、例えば前述のようにしてマイク207のゲインの調整が開始されるのとほぼ同じタイミングで(すなわち上記L≦L0となったときに)受付処理が開始される(あるいは、所定の開始操作が行われることにより受付処理が開始されるようにしてもよい。後述の(1)及び(2)の変形例参照)。受付処理は、表示部210に所定の表示画面を表示しつつ、対話方式により行われる。
【0066】
すなわち、受付処理では、スピーカ208より所定の案内音声(例えば、「いらっしゃいませ。どちら様でしょうか」等)が出力され、さらにこれに併せて表示部210に所定の表示画面が表示される(例えば、前述した図3参照)。来訪者Mがこれら案内音声や表示に応じて、受付端末20に対して発話すると、対応する来訪者Mの発話音声がマイク207によって入力される。
【0067】
このとき、マイク207に入力された来訪者Mの発話音声の情報は、上記ゲイン可変アンプ217で、上記検出された距離に基づいて調整されたゲイン(増幅度)に応じて増幅される。そして、増幅された音声情報は、端末本体20A(図2等参照)に入力され、上記来訪者辞書記憶エリア254に記憶された来訪者辞書を用いて、音声認識が行われる(詳細は図11で後述する)。また、来訪者Mが、受付端末20を操作(発話による操作)している期間も、来訪者M(すなわち受付端末20を操作中の来訪者M)の距離検出(図6〜図8参照)は引き続き行われ、その検出距離の結果に基づき上記ゲインの調整も随時行われている。
【0068】
図9(a)及び図9(b)は、受付端末20による受付処理終了後の状態を模式的に表した図である。受付端末20による受付処理が終了した直後では、来訪者Mは、まだ対話操作を行っていた受付端末20の近傍に存在している(図9(a)に示した状態)。そして、受付処理が終了した後、所定期間(例えば10秒)が経過すると、受付端末20の近傍に存在した来訪者Mは、受付処理での応対結果(例えば担当者の指示により待合室で待機するよう応対される等)に応じて、受付端末20から離れ、別の場所(例えば、待合室や担当者のいる居室等)に移動し、受付端末20の近傍には誰もいない状態となる(図9(b)に示した状態)。
【0069】
本実施形態では、上記図9(b)に示した状態、すなわち、受付処理が終了した後、所定期間が経過したら、上記マイク207のゲインを、現在設定されているゲイン(受付処理終了後、所定期間が経過する直前のゲイン)にこの例では固定的に設定し、上記受付処理中に行われていたゲインの調整を終了させる。そして、このようにゲインが固定された状態で、上記図6(a)の状態に戻り、次の来訪者Mが来るのを待つようになっている。
【0070】
(E)制御手順
図10は、以上説明した内容を実現するために、受付端末20の制御回路部200により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、HDD205のプログラム記憶エリア256に記憶された来訪者受付処理用のプログラム群(前述のシステムプログラム、描画プログラム、音声認識プログラム、対話制御プログラム、距離検出プログラム、感度調整プログラム等)に従って、CPU201が実行するものである。
【0071】
図10において、例えば受付端末20の電源ONによって、このフローが開始される(「START」位置)。
【0072】
まずステップS10で、所定の初期化処理を実行する(このとき、マイク207のゲインの調整を開始したことを表す調整開始フラグFsをFs=0への初期化も併せて行う)。
【0073】
そして、ステップS20において、距離検出用の疑似雑音の生成元となる雑音をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し、雑音情報を取得する(ソース音取得手段としての機能)。
【0074】
その後、ステップS30で、上記ステップS20で取得した雑音情報に所定の処理を行い、疑似雑音情報を生成する。
【0075】
そして、ステップS40に移り、I/Oインタフェイス204を介してスピーカ208に上記生成した疑似雑音情報を出力し、疑似雑音を出力させる(検出音出力手段としての機能)。
【0076】
その後、ステップS50で、I/Oインタフェイス204を介してタイマ209に制御信号を出力し、タイマ209を起動させる。これにより、上記ステップS40で出力した疑似雑音が対象物(来訪者M)に反射し、後述のステップS70でその反射音がマイク207に入力されるまでの所要時間の測定(計時測定)が開始される。
【0077】
そして、ステップS60に移り、タイマ209の測定時間に基づき、測定時間が前述の最小音波受音時間を経過したか否かを判定する。最小音波受音時間を経過するまでは判定が満たされずループ待機し、最小音波受音時間を経過したら判定が満たされて、ステップS70に移る。
【0078】
ステップS70では、マイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して、上記疑似雑音の(対象物での)反射音を入力した否かを判定する。この判定は、上記疑似雑音情報とマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力した音声の情報とのパワースペクトルを比較する等の公知の手法により行えば足りる。上記疑似雑音の反射音を入力していない場合には、判定が満たされずステップS80に移る。
【0079】
ステップS80では、タイマ209の測定時間に基づき、測定時間が前述の最大音波受音時間を経過したか否かを判定する。最大音波受音時間を経過していない場合には、判定が満たされず上記ステップS70に戻り、同様の手順を繰り返す。最大音波受音時間を経過した場合には、判定が満たされて、上記ステップS20に戻り、同様の手順を繰り返す。
【0080】
一方、上記ステップS70において、上記疑似雑音の反射音を入力していた場合には、ステップS70の判定が満たされてステップS90に移る。
【0081】
ステップS90では、上記ステップS70でマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力された上記疑似雑音の反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する。
【0082】
その後、ステップS100で、上記ステップS90で取得された反射音情報と、上記ステップS60より計時開始されたタイマ209のこの時点での計測時間とに基づき、所定の演算処理(この例では、前述の図1や図7等で説明した上記の式1を用いる手法)を行い、上記反射音の反射元となった対象物が来訪者Mであると推測して、来訪者Mまでの距離Lを検出する(距離検出手段としての機能)。
【0083】
そして、ステップS110で、上記ステップS100での距離検出結果に基づき、検出した来訪者Mまでの距離Lが上記所定値L0以下であるか否かを判定する。L>L0の場合には、判定が満たされずステップS120に移る。
【0084】
ステップS120では、マイク207のゲインを、予め定められた所定値以上に固定的に設定する(設定制御手段としての機能)。例えば、マイク207のゲインとして制御可能な範囲中の最大値としてもよい。これにより、マイク207を介し入力した音声情報は、ゲイン可変アンプ217によって、当該設定されたゲインの値により増幅される。その後、上記ステップS20に戻り、同様の手順を繰り返す。
【0085】
一方、上記ステップS110において、L≦L0であった場合には、判定が満たされてステップS130に移る。
【0086】
ステップS130では、上記ステップS100での距離検出結果に基づき、適切な(最良の)マイク207のゲインを算出する。
【0087】
そして、ステップS140では、上記ステップS130での算出結果に基づき、マイク207のゲインを調整して設定する(感度調整手段としての機能)。これにより、マイク207を介し入力した音声情報は、ゲイン可変アンプ217によって、当該設定されたゲインにより増幅される。
【0088】
その後、ステップS150で、上記調整開始フラグFsを、ゲインの調整開始を表すFs=1とし、ステップS160に移る。
【0089】
ステップS160では、受付処理が終了したことを表す受付終了フラグFtがFt=1であるか否かを判定する。Ft=0のままである場合(=受付処理が終了していない場合)は、判定が満たされず上記ステップS20に戻り、同様の手順を繰り返す。そして、Ft=1になったら(=受付処理が終了したら)、判定が満たされてステップS180に移る。
【0090】
ステップS180では、上記ステップS140でゲインが調整されたマイク207を用いて受付処理が終了した後、言い換えれば、後述の図11のステップS360で上記受付終了フラグFtが受付処理の終了を表すFt=1になった後、所定期間が経過したか否かを判定する。Ft=1になった後、所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップS190に移る。
【0091】
ステップS190では、マイク207のゲインを、直前の上記ステップS140で設定したゲインに(つまりこの時点でのゲインの値に)固定し、上記ステップS140での上記ゲインの調整を終了させる(終了制御手段としての機能)。その後、ステップS195に移る。
【0092】
ステップS195では、上記調整開始フラグFsをFs=0とする。そして、このフローを終了する。なお、このフローは、例えば受付端末20の電源がONの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔(例えば2秒間隔)で繰り返し継続して実行される。
【0093】
なお、以上において、ステップS70及びステップS90が、各請求項記載の反射音取得手段として機能し、ステップS110が、開始制御手段として機能する。
【0094】
図11は、上記図10のフローと並行して、受付端末20の制御回路部200により実行する制御手順を表すフローチャートである。上記図10のフローが来訪者Mまでの距離に基づくマイク207のゲインの調整に関するものであるのに対し、この図11のフローは、受付処理に関するものである。なお、これら図10及び図11の2つのフローは、例えばコンピュータのOS等でしばしば行われる「マルチタスク処理」と同様の公知の手法により、前述の来訪者受付処理用のプログラム群に従って、CPU201によって同時並行処理されるようになっている。
【0095】
図11において、例えば受付端末20の電源ONによって、このフローが開始される(「START」位置)。
【0096】
まずステップS200で、上記受付終了フラグFtをFt=0に初期化する。
【0097】
その後、ステップS210で、上記調整開始フラグFsがゲインの調整開始を表すFs=1であるか否かを判定する。Fs=0のままである場合(=ゲインの調整が開始されていない場合)には、判定が満たされずループ待機する。Fs=1になったら(=ゲインの調整が開始されたら)、判定が満たされてステップS220に移る。
【0098】
ステップS220では、来訪者Mの発話音声を認識するために、DBサーバ10の来訪者予約データベース1510を参照しつつHDD205の来訪者辞書記憶エリア254に記憶された来訪者辞書を取得し、辞書更新を行う。すなわち、前述したように、受付処理が開始された時刻、言い換えれば、上記ステップS210の判定が満たされた時刻を基準とし、来訪者予約データベース1510の全予約データのうちその前後所定時間以内(例えば1時間以内等)を訪問予定日時とする予約データに基づいて作成された辞書を取得する。
【0099】
そして、ステップS230に移り、I/Oインタフェイス204を介してスピーカ208へ音声信号を出力し、”いらっしゃいませ。どちら様でしょうか。(マイクに向かってお名前を入力してください)”という来訪者氏名を問いかける台詞を含む案内音声を出力させる。なお、このとき、表示部210に台詞と同様の内容のテキストを含む表示画面を表示させてもよい(後述のステップS260、ステップS310、ステップS330、及びステップS340についても同様)。
【0100】
その後、ステップS240で、この問いかけに対応して発話した来訪者Mの発話音声の情報をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し(このときのゲイン可変アンプ217での増幅は、上記図10のステップS140で調整されたゲインにより実行される)、上記ステップS220で取得した来訪者辞書を用いて音声認識を行う。
【0101】
そして、ステップS250に移り、上記入力した来訪者Mの発話音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップS250の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かってお名前を入力してください”という音声認識ができなかったことを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS240に戻り、同様の手順を繰り返す。なお、この図11では図示を省略しているが、上記案内音声の出力は、予め定められた設定回数だけ行われ、その間に音声認識できない場合には、対応する処理(例えば部署代表やその他の受付担当者等に取り次ぐ等)を行う(後述のステップS280、ステップS300、ステップS330、及びステップS340についても同様)。一方、言語として音声認識できた場合には、ステップS250の判定が満たされステップS260に移る。
【0102】
ステップS260では、I/Oインタフェイス204を介してスピーカ208へ音声信号を出力し、”マイクに向かって担当者名を入力してください”という担当者名を問いかける台詞を含む案内音声を出力させる。
【0103】
その後、ステップS270で、この問いかけに対応して発話した来訪者Mの発話音声情報をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し(上記同様、このときのゲイン可変アンプ217での増幅は、上記図10のステップS140で調整されたゲインにより実行される)、上記ステップS240と同様の方法により音声認識を行う。
【0104】
そして、ステップS280に移り、上記入力した来訪者Mの発話音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップS250の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かって担当者名を入力してください”という音声認識ができなかったことを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS270に戻り、同様の手順を繰り返す。言語として音声認識できた場合には、判定が満たされステップS290に移る。
【0105】
ステップS290では、DBサーバ10の来訪者予約データベース1510にアクセスし、上記ステップS240及びステップS270において音声情報の音声認識により取得した来訪者名及び担当者名が、来訪者予約データベース1510のいずれかの予約データの「来訪者名」「担当者名」と一致するか否かを照合する。なお、完全な一致ではなく、ある類似幅、許容幅を持たせた範囲内で適合するかどうかを照合するようにしてもよい。
【0106】
その後、ステップS300では、上記ステップS290での照合結果が一致したか(適合したか)否かを判定する。ステップS290での照合結果が一致しなかった(該当する来訪者名及び担当者名の予約データが存在しなかった)場合には判定が満たされず、”予約がされていませんでした。もう一度マイクに向かってお名前を入力してください”という予約データが存在しなかったことを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS240に戻り、同様の手順を繰り返す。ステップS290での照合結果が一致した(該当する来訪者名及び担当者名の予約データが存在した)場合には、判定が満たされステップS310に移る。
【0107】
ステップS310では、I/Oインタフェイス204を介してスピーカ208へ音声信号を出力し、予約内容とともに、”この内容でよろしいでしょうか。(よろしければ、「はい」を、間違っていたら、「いいえ」をマイクに向かって入力してください)”という最終確認を問いかける台詞を含む案内音声を出力させる。
【0108】
そして、ステップS320に移り、この問いかけに対応して発話した来訪者Mの音声情報をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し(上記同様、このときのゲイン可変アンプ217での増幅は、上記図10のステップS140で調整されたゲインにより実行される)、上記ステップS240と同様の方法により音声認識を行う。
【0109】
その後、ステップS330で、上記入力した来訪者Mからの音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップS330の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かって「はい」、「いいえ」を入力してください”という音声認識ができなかったことを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS320に戻り、同様の手順を繰り返す。言語として音声認識できた場合には、判定が満たされステップS340に移る。
【0110】
ステップS340では、上記ステップS320において音声情報の音声認識により取得した情報(「はい」又は「いいえ」)が、「はい」であったか否かを判定する。「いいえ」であった場合には判定が満たされず、”操作を最初からやり直します。もう一度マイクに向かってお名前を入力してください”という操作のやり直しを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS230に戻り、同様の手順を繰り返す。「はい」であった場合には、判定が満たされステップS350に移る。
【0111】
ステップS350では、正当な来訪者Mが訪ねてきたことが確認できたことに対応して、対応する担当者のIP電話機60に発信(コール)を行う。具体的には、担当者への通知文を作成し、その通知文のテキストデータを音声データに変換し、上記予約データにより特定された担当者の電話番号を用いて、IP−PBX50を介し、担当者の使用するIP電話機60に、音声データを発信する。
【0112】
そして、ステップS360で、上記受付終了フラグFtを受付処理の終了を表すFt=1にした後、このフローを終了する。なお、このフローは、例えば受付端末20の電源がONの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔(例えば2秒間隔)で繰り返し継続して実行される。
【0113】
以上説明したように、本実施形態の受付端末20においては、距離検出用の検出音(上記の例では疑似雑音)を用いて来訪者Mとの距離を検出する。すなわち、疑似雑音生成時の生成元となる雑音がマイク207を介して入力されると、対応する振幅を含む雑音情報を取得し(図10のステップS20参照)、これに基づく疑似雑音をスピーカ208を介し出力する(図10のステップS40参照)。そして、出力された疑似雑音の反射音情報に基づき、来訪者Mまでの距離を検出する(図10のステップS100参照)。
【0114】
そして、検出された来訪者Mまでの距離に基づき、距離に応じた適切な(最良の)マイク207のゲインを算出し、ゲイン調整を行う(図10のステップS140参照)。すなわち、来訪者Mまでの距離が比較的近い場合には、対話時の来訪者Mの発話音声が比較的大きいレベルで入力されることから、上記ゲインを低く設定する。一方、来訪者Mまでの距離が比較的遠い場合には、対話時の来訪者Mの発話音声が比較的小さいレベルで入力されることから、上記ゲインを高く設定する。これにより、適切な信号レベルで受付処理を行うことができる。この結果、認識漏れのない、確実な受付処理を行うことができる。
【0115】
以上のように、本実施形態の受付端末20によれば、マイク207及びスピーカ208を介して入出力する音を用いて、来訪者Mまでの距離を検出することができる。すなわち、受付処理のためにもともと備わっているマイク207やスピーカ208を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく距離検出を行うことができ、それに基づく適切なゲインで確実な受付処理を行うことができる。
【0116】
また、本実施形態では特に、マイク207で入力された雑音により、雑音情報を取得し、この取得した雑音情報に基づき生成した疑似雑音を、スピーカ208を介し出力する。このように、距離検出時に、マイク207で入力した雑音に基づいて疑似雑音を生成し利用することにより、音を用いて検出していることを来訪者Mに悟られることなく、距離検出を行うことができる。
【0117】
また、受付端末20において対話方式で操作を行うとき、来訪者Mは、受付端末20に比較的近づいてから発話を行うのが一般的であり、受付端末20から来訪者Mまでの距離が遠い場合には、来訪者Mが操作を開始する可能性は低い。そこでこれに対応し、本実施形態では特に、上記図10のステップS100で検出した来訪者Mまでの距離Lが所定値L0以下となってから、上記ゲインの調整を開始する。すなわち、検出した来訪者Mまでの距離が比較的近くなってから上記ゲインの調整を開始することにより、無駄な調整動作を回避し、効率的な処理を行うことができる。
【0118】
また、受付端末20から来訪者Mまでの距離が遠い場合、来訪者Mが対話操作を行う可能性は低いが、来訪者Mによっては(あるいは状況によっては)比較的遠い距離のまま、発話を行う可能性もある。このとき、受付端末20から来訪者Mまでの距離が遠いため、そのままでは来訪者Mの発話音声が比較的小さいレベルでマイク207より入力されることとなる。そこでこれに対応して、本実施形態では特に、上記図10のステップS100で検出した来訪者Mまでの距離Lが所定値L0より大きい場合、マイク207のゲインを所定値以上に設定し(図10のステップS120参照)、信号レベルをある程度まで増大させる。これにより、上記のような遠方からの対話操作時においても、認識漏れの可能性を低減することができる。
【0119】
また、来訪者Mとの距離に応じたマイク207のゲイン調整後に受付処理が行われ、その受付処理が終了してしばらくたった場合には、対話していた来訪者Mは既に別の場所に移動し、受付端末20近傍に誰もいない状態(図9(b)の状態)になっている可能性が高い。これに対応して、本実施形態では特に、ゲインが調整されたマイク207を用いて受付処理が終了した後、所定期間が経過したら、上記ゲインの調整を終了する(図10のステップS190参照)。すなわち、この場合、受付処理終了後所定期間が経過したら、直前に設定した上記ゲインに固定して、上記ゲインの調整を終了し、調整を行わないようにする。これにより、この時点でのゲインの値により次の来訪者Mの待ち受け状態を確実に実現することができる。
【0120】
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。
【0121】
(1)ソース音として来訪者の発話音声を利用する場合
上記実施形態においては、距離検出用の検出音(上記の例では疑似雑音)の生成元となるソース音として、受付端末20の周囲で発生した雑音を利用していたが、これに限られない。すなわち、上記ソース音として、受付処理において来訪者Mが発声した発話音声を利用するようにしてもよい。
【0122】
図12(a)及び図12(b)は、本変形例において、スピーカ208より疑似発話音声を出力するまでの手順の概要を説明した説明図である。
【0123】
本変形例の受付端末20では、上記実施形態と異なり、例えば来訪者Mによって図示しない操作部が適宜に操作されることにより、受付処理が開始される。そして、図12(a)に示すように、受付処理中において、来訪者Mが受付端末20に対して発話すると、来訪者Mより発声されたソース音としての発話音声が伝搬してマイク207に入力される。これにより、入力した来訪者Mの発話音声に対応する振幅(又は周波数でもよい)を含むソース音情報としての発話音声情報が取得され、この発話音声情報に基づき、疑似発話音声情報が生成される。
【0124】
そして、図12(b)に示すように、上記のようにして疑似発話音声情報が生成されると、この疑似発話音声情報に基づき、疑似発話音声(検出音)がスピーカ208より出力される。なお、疑似発話音声は、当該疑似発話音声の生成元となった来訪者Mの発話音声がマイク207に入力されてから所定時間(例えば、1[msec])以内にスピーカ208より出力されるようになっている。その後の処理は上記実施形態の図7及び図8とほぼ同様であり、疑似発話音声の反射音が入力されることで、対応する反射音情報が取得され、来訪者Mまでの距離検出が行われる。そして、検出された距離に応じてマイク207のゲインが調整される。
【0125】
図13は、本変形例における受付端末20の制御回路部200により実行する制御手順を表すフローチャートであり、前述の図10に対応する図である。図10と同等の部分には同符号を付し適宜説明を省略する。
【0126】
図13において、まず、上記図10のステップS10に対応したステップS10′で、所定の初期化処理を実行する(フラグFsを用いないためFs=0の初期化がない点が図10のステップS10と異なる)。そして、新たに設けたステップS15に移り、受付処理が開始されたことを表す前述の受付開始フラグFmがFm=1であるか否かを判定する。Fm=0のままである場合(=受付処理が開始されていない又は終了されている場合)は、判定が満たされずループ待機し、Fm=1になったら(=受付処理が開始されたら)、判定が満たされて、上記図10のステップS20に対応したステップS20′に移る。
【0127】
ステップS20′では、来訪者Mにより受付端末20の受付処理(後述の図14参照)において発声され、距離検出用の疑似発話音声の生成元となる発話音声をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し、対応する振幅あるいは周波数を含む発話音声情報を取得する(ソース音取得手段としての機能)。
【0128】
その後、上記図10のステップS30に対応したステップS30′で、上記ステップS20′で取得した発話音声情報に所定の処理を行い、疑似発話音声情報を生成する。
【0129】
そして、上記図10のステップS40に対応したステップS40′に移り、I/Oインタフェイス204を介してスピーカ208に上記生成した疑似発話音声情報を出力し、スピーカ208より疑似発話音声を出力させる(検出音出力手段としての機能)。
【0130】
その後のステップS50及びステップS60は、前述の図10と同様であり、タイマ209を起動させ、タイマ209の測定時間が上記最小音波受音時間を経過するまで待機し、最小音波受音時間を経過したら、上記図10のステップS70に対応したステップS70′に移る。
【0131】
ステップS70′では、マイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して、上記疑似発話音声の(対象物での)反射音を入力した否かを判定する。この判定は、上記疑似発話音声とマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力した音声の情報とのパワースペクトルを比較する等の公知の手法により行えば足りる。上記疑似発話音声の反射音を入力していない場合には、判定が満たされずステップS80に移る。
【0132】
ステップS80は、前述の図10と同様であり、タイマ209の測定時間が上記最大音波受音時間を経過したか否かを判定し、最大音波受音時間を経過していない場合には、上記ステップS70′に戻り、最大音波受音時間を経過した場合には、上記ステップS20′に戻る。
【0133】
一方、上記ステップS70′において、上記疑似発話音声の反射音を入力していた場合には、ステップS70′の判定が満たされて、上記図10のステップS90に対応したステップS90′に移る。
【0134】
ステップS90′では、上記ステップS70′でマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力された上記疑似発話音声の反射音により、対応する反射音情報を取得する。
【0135】
その後のステップS100〜ステップS140は、前述の図10と同様である。ステップS140で、マイク207のゲインを調整したら、上記図10のステップS160に対応したステップS160′に移る。
【0136】
ステップS160′では、上記受付開始フラグFmがFm=0に戻っているか否かを判定する。Fm=1のままである場合(=受付処理がまだ実行中である場合)は、判定が満たされず上記ステップS20′に戻り、同様の手順を繰り返す。そして、Fm=0に戻ったら(=受付処理が終了したら)、判定が満たされて上記図10のステップS180に対応したステップS180′に移る。
【0137】
ステップS180′では、上記ステップS140でゲインが調整されたマイク207を用いて受付処理が終了した後、言い換えれば、後述の図14のステップS365で上記受付開始フラグFmがFm=0になった後、所定期間が経過したか否かを判定する。Fm=0になった後、所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップS190に移る。
【0138】
ステップS190は、前述の図10と同様であるので説明を省略する。
【0139】
なお、以上において、ステップS70′及びステップS90′が、各請求項記載の反射音取得手段として機能する。
【0140】
図14は、上記図13のフローと並行して、受付端末20の制御回路部200により実行する制御手順を表すフローチャートであり、前述の図11に対応する図である。図11と同等の部分には同符号を付し適宜説明を省略する。
【0141】
図14において、まず図11のステップS200に代えて設けたステップS205で、受付処理が開始されたことを表す上記受付開始フラグFmをFm=0に初期化する。
【0142】
その後、新たに設けたステップS212で、受付処理を開始する操作が、来訪者Mにより図示しない操作部を介して行われたか否かを判定する。来訪者Mにより受付処理を開始する操作が行われるまでループ待機し、来訪者Mにより受付処理を開始する操作が行われた場合には、判定が満たされ、新たに設けたステップS214に移る。
【0143】
ステップS214では、上記受付開始フラグFmを受付処理の開始を表すFm=1とし、ステップS220に移る。
【0144】
その後のステップS220〜ステップS350は、前述の図11と同様である。ステップS350において、正当な来訪者Mが訪ねてきたことが確認できたことに対応して、対応する担当者のIP電話機60に発信(コール)を行ったら、図11のステップS360に代えて設けたステップS365に移る。
【0145】
ステップS365では、上記受付開始フラグFmをFm=0とした後、このフローを終了する。
【0146】
本変形例によれば、以下のような効果が得られる。
【0147】
すなわち、距離検出用の検出音の生成元となるソース音に基づき、検出音を生成するとき、ソース音のレベルがあまりにも小さいと、スピーカ208を介し出力する検出音のレベルも小さく、その反射音を検出することが困難となる場合があり得る。
【0148】
本変形例では、上記のような場合に対応することができる。すなわち、通常、受付端末20において対話方式で操作を行おうとする来訪者Mは、自己の発話音声をなるべく認識してもらおうという意図が働き、ゆっくりと大きめの音量で発話を行う。したがって、距離検出時に、マイク207で入力した、上記のような来訪者Mの発話音声に基づいて疑似発話音声を生成し利用することで、精度の高い確実な距離検出を行うことができる。また、来訪者M自らが発声している発話音声を利用することにより、音を用いて検出していることを来訪者Mに比較的悟られにくいという効果もある。
【0149】
(2)ソース音として受付端末の案内音声を利用する場合
以上においては、上記ソース音として、受付端末20の周囲で発生した雑音や来訪者Mの発話音声を利用していたが、これに限られない。すなわち、上記ソース音として、受付処理においてスピーカ208を介し出力した案内音声を利用するようにしてもよい。
【0150】
図15は、本変形例において、スピーカ208より疑似案内音声を出力するまでの手順の概要を説明した説明図である。
【0151】
本変形例の受付端末20では、上記(1)の変形例と同様に、例えば来訪者Mによって図示しない操作部が適宜に操作されることにより、受付処理が開始される。そして、図15(a)に示すように、受付処理中において、スピーカ208よりソース音としての案内音声(装置音声)が出力されると、この案内音声が伝搬してマイク207に入力される(いわゆる案内音声のスピーカ208からマイク207へのまわり込み)。これにより、入力した案内音声に対応する振幅(又は周波数でもよい)を含むソース音情報としての案内音声情報(装置音声情報)が取得され、この案内音声情報に基づき、疑似案内音声情報が生成される。
【0152】
そして、図15(b)に示すように、上記のようにして疑似案内音声情報が生成されると、この疑似案内音声情報に基づき、疑似案内音声(検出音)がスピーカ208より出力される。なお、疑似案内音声は、当該疑似案内音声の生成元となった案内音声がマイク207に入力されてから所定時間(例えば、1[msec])以内にスピーカ208より出力される。
【0153】
なお、このとき特に、上記疑似案内音声が出力されるタイミングを、疑似案内音声の生成元となった案内音声の出力が終了する時としてもよい。すなわち、受付端末20を対話による操作をしている来訪者Mは、スピーカ208より案内音声が出力されているときは、その案内音声の内容を聞いているため発話せず、案内音声の出力が終了した後に、その案内音声の内容に沿って発話するのが一般的である。したがって、このように疑似案内音声を出力するタイミングを、案内音声の出力が終了する時(来訪者Mが発話する前)とした場合には、発話しているときの来訪者Mまでの距離を、より正確に検出することができるという効果がある。
【0154】
その後の処理は上記実施形態の図7及び図8とほぼ同様であり、疑似案内音声の反射音がマイク207に入力されることで、対応する反射音情報が取得され、来訪者Mまでの距離検出が行われる。そして、検出された距離に応じてマイク207のゲインが調整される。
【0155】
このように、本変形例においては、来訪者Mとの受付処理においてスピーカ208が出力しマイク207で入力された案内音声(又は後述のように当該案内音声の反射音でもよい)により、案内音声情報を取得し、この取得した案内音声情報に基づき生成された疑似案内音声を、スピーカ208を介し出力する。これにより、上記(1)の変形例と同様、精度の高い確実な距離検出を行うことができ、音を用いて検出していることを来訪者Mに比較的悟られにくいという効果を得る。
【0156】
また、スピーカ208を介し出力した、言い換えれば、受付端末20の内部で生成した案内音声を、ソース音として利用しているので、距離検出に都合のよい振幅(周波数)を含む案内音声情報に基づき、疑似案内音声(情報)を生成することができる。すなわち、このような案内音声情報に基づき、疑似案内音声(情報)を生成するときには、例えば案内音声情報の振幅が大きいものを選択して用いることで、解析(例えばフィルタリング解析等)の処理速度を速くすることができる。
【0157】
なお、上記の例では、ソース音として上記案内音声を利用した例を示したが、上記案内音声の反射音を適宜利用してもよい。
【0158】
(3)その他
上記来訪者受付システム1においては、来訪者Mまでの距離検出やマイク207のゲインの調整を行う受付端末20と、DBサーバ10とは、別個の装置であった。しかしながらこれに限られず、マイク、スピーカを備えたサーバを会社の入口付近に設置し、サーバのみで、来訪者Mまでの距離検出、マイク207のゲインの調整、受付処理のすべてを行うようにしてもよい。また、来訪者予約DB151や社員DB155等、HDD150に記憶されている情報を受付端末20側のHDD205に記憶するようにしてもよいし、さらにはネットワークを介して受付端末20に接続可能な別個の記憶装置に記憶させておき、受付処理中に、必要な情報を読み出す構成としてもよい。
【0159】
また、上記において、音声入力手段は、1つのマイク207で構成されていたが、これに限らず、複数の(例えば、2つの)マイクで構成してもよい(いわゆるアレー型のマイクロホン装置)。
【0160】
また、上記においては、所定の演算処理として、スピーカ208を介し検出音を出力してから、その反射音がマイク207に入力されるまでの所要時間を測定し、この所要時間が、来訪者Mまでの距離に比例するという関係(上記の式1を参照)から来訪者Mまでの距離を検出した。しかしながら、これに限らず、所定の演算処理として、出力した検出音と入力した反射音との位相差から来訪者Mまでの距離を検出するようにしてもよい。
【0161】
なお、以上において、図4及び図5等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
【0162】
また、図10、図11、図13、及び図14に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
【0163】
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
【0164】
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
【符号の説明】
【0165】
20 受付端末(対話装置)
201 CPU
207 マイク(音声入力手段)
208 スピーカ(音声出力手段)
217 ゲイン可変アンプ
M 来訪者(操作者)
【技術分野】
【0001】
本発明は、操作者が音声による対話方式により操作可能な対話装置に関する。
【背景技術】
【0002】
例えば建造物への来訪者に対する受付業務を行う受付装置等、操作者が対話方式によって操作可能な対話装置が、従来より既に知られている。このような対話装置においては、操作者の発話内容をマイク等の音声入力手段により入力し、適宜のゲインで増幅した後に音声認識する。この際、発話音声レベルに対してゲインが小さすぎると誤認識が生じ、発話音声レベルに対してゲインが大きすぎると音割れにより認識不能となる。一般に、対話処理においては、原則として(特に要請しない限り)操作者は同一内容を一度しか発話しないため、上記のような場合は発話内容の認識漏れが生じる。このような認識漏れを防止するためには、上記ゲインの適正化が必要である。一般に、装置から操作者までの距離が遠いと音声入力手段に入力される発話音声レベルが小さく(言い換えればゲインを大きくする必要がある)、装置から操作者までの距離が近いと音声入力手段に入力される発話音声レベルが大きい(言い換えればゲインを小さくする必要がある)。したがって、ゲインの適正化のためには、装置から操作者までの距離を非接触で精度よく検出し、その距離に応じた適切なゲインで対話処理を行うことが好ましい。
【0003】
このような非接触距離検出に関しては、例えば特許文献1記載の従来技術が知られている。この従来技術では、超音波パルスを生成して対象物(物体)に対して出力し、検出対象物での反射波(エコーパルス)を探知する。そして超音波パルスの伝達時間を算出することにより、その伝達時間に基づいて対象物までの距離を検出するようになっている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−351897号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、対話装置に対し、上記従来技術のような超音波を用いた距離検出手法を適用しようとする場合、距離検出専用のセンサやマイクを新たに設ける必要が生じるという問題があった。
【0006】
本発明の目的は、専用のセンサやマイクを新たに設ける必要がなく操作者までの距離検出を行い、適切なゲインで対話処理を行える対話装置を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するために、第1の発明は、操作者が対話方式により操作可能な対話装置であって、音声を入力するための音声入力手段と、音声を出力するための音声出力手段と、前記音声入力手段を介し入力され、距離検出用の検出音の生成元となるソース音により、対応する振幅あるいは周波数を含むソース音情報を取得するソース音取得手段と、前記音声入力手段が前記音を入力してから所定時間以内に、前記ソース音取得手段が取得した前記ソース音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する検出音出力手段と、前記音声入力手段を介し入力された、前記検出音の前記対象物での反射音により、対応する反射音情報を取得する反射音取得手段と、前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推定して当該操作者までの距離を検出する距離検出手段と、前記距離検出手段での検出結果に基づき、前記音声入力手段のゲインを調整する感度調整手段とを有することを特徴とする。
【0008】
本願第1発明の対話装置においては、距離検出用の検出音を用いて操作者との距離を検出する。すなわち、検出音生成時の生成元となるソース音が音声入力手段を介して入力され、対応するソース音情報がソース音取得手段で取得される。すると、このソース音情報に基づき、検出音出力手段が、検出音を音声出力手段を介し出力する。出力された検出音が対象物に向かって伝搬し対象物で反射すると、その反射音が音声入力手段を介して入力され、対応する反射音情報が反射音取得手段で取得される。検出音が発せられてからその反射音が戻ってくるまでの時間は、装置から対象物までの距離に比例することから、距離検出手段が、上記反射音情報に基づき、対象物が操作者であると推定して操作者までの距離を検出する。そして、この検出された距離に基づき、感度調整手段が音声入力手段のゲインを調整する。これにより、操作者までの距離が比較的近い場合には対話時の操作者の発話音声が比較的大きいレベルで入力されることから音声入力手段のゲインを低くし、操作者までの距離が比較的遠い場合には対話時の操作者の発話音声が比較的小さいレベルで入力されることから音声入力手段のゲインを高くすることで、適切な信号レベルで対話処理を行うことが可能となる。この結果、認識漏れのない、確実な対話処理を行うことができる。
【0009】
以上のようにして、本願第1発明においては、音声入力手段及び音声出力手段を介して入出力する音を用いて、操作者までの距離を検出することができる。すなわち、対話処理のためにもともと備わっている音声入力手段(マイク等)や音声出力手段(スピーカ等)を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく距離検出を行うことができ、それに基づく適切なゲインで確実な対話処理を行うことができる。
【0010】
第2発明は、上記第1発明において、前記ソース音取得手段は、操作者が前記対話装置の対話処理において発声し前記音声入力手段で入力された前記ソース音としての発話音声により、前記ソース音情報としての発話音声情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記発話音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【0011】
ソース音に基づき検出音を生成するとき、元となるソース音のレベルがあまりに小さいと、出力した検出音のレベルも小さく、その反射音を検出することが困難となる。通常、対話方式で操作を行おうとする操作者は、自己の発話音声をなるべく確実に認識してもらおうという意図が働き、ゆっくりと大きめの音量で発話を行う。したがって、距離検出時に、そのような操作者の発話音声に基づいて検出音(疑似発話音)を生成し利用することで、精度の高い確実な距離検出を行うことができる。また、操作者自らが発声している発話音声を利用することにより、音を用いて検出していることを操作者に比較的悟られにくいという効果や、予め操作者の位置を予想してゲインを調整可能となるので(オートゲインコントロールによって調整を行う場合に比べ)より適切な調節を行える効果もある。
【0012】
第3発明は、上記第1発明において、前記ソース音取得手段は、操作者との対話処理において前記音声出力手段が出力し前記音声入力手段で入力された前記ソース音としての装置音声又は当該装置音声の反射音により、前記ソース音情報としての装置音声情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記装置音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【0013】
ソース音に基づき検出音を生成するとき、元となるソース音のレベルがあまりに小さいと、出力した検出音のレベルも小さく、その反射音を検出することが困難となる。一般に、対話方式で操作者に操作してもらう対話装置では、操作者にわかりやすく説明や案内を行うために、操作者に向かってゆっくりと大きめの音量で発声を行う。したがって、距離検出時に、そのような装置発声に基づいて検出音(疑似装置音声)を生成し利用することで、精度の高い確実な距離検出を行うことができる(なおこの場合には検出タイミングは、装置発話の終了時が好ましい)。また、装置が対話用に発声している音声を利用することにより、音を用いて検出していることを操作者に比較的悟られにくいという効果や、距離算出に都合のよい音情報(周波数や振幅)を選択することで音声入力後の解析を速くできる効果もある。
【0014】
第4発明は、上記第1発明において、前記ソース音取得手段は、装置周囲で発生し前記音声入力手段で入力された前記ソース音としての周囲音により、前記ソース音情報としての周囲音情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記周囲音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【0015】
距離検出時に、音声入力手段で入力した周囲音に基づいて検出音(疑似周囲音)を生成し利用することにより、音を用いて検出していることを操作者に悟られることなく、距離検出を行うことができる。
【0016】
第5発明は、上記第1乃至第4発明のいずれかにおいて、前記距離検出手段で検出された前記操作者までの距離が所定値以下となったら、前記感度調整手段による前記ゲインの調整を開始させる、開始制御手段を有することを特徴とする。
【0017】
対話方式で操作を行う対話装置の場合、操作者は、装置に比較的近づいてから発話を行うのが一般的である。したがって、装置から操作者までの距離が遠い場合には、操作者が操作を開始する可能性は低い。本願第5発明ではこれに対応して、開始制御手段が、操作者までの距離が比較的近くなってから音声入力手段のゲインの調整を開始する。これにより、無駄な調整動作を回避し、効率的な処理を行うことができる。
【0018】
第6発明は、上記第5発明において、前記距離検出手段で検出された前記操作者までの距離が前記所定値より大きい場合、前記音声入力手段のゲインを所定値以上に設定する設定制御手段を有することを特徴とする。
【0019】
前述したように、装置から操作者までの距離が遠い場合には、操作者が対話による操作を開始する可能性は低い。しかしながら、操作者によっては(あるいは状況によっては)比較的遠い距離のまま、操作者が発話を行う可能性もある。この場合、装置から操作者までの距離が遠いため、そのままでは操作者の発話音声が比較的小さいレベルで音声入力手段より入力されることとなる。そこで、本願第6発明においては、設定制御手段が音声入力手段のゲインを所定値以上に設定し、信号レベルを増大させる。これにより、このような遠方からの操作時においても、認識漏れの可能性を低減することができる。
【0020】
第7発明は、上記第6発明において、前記感度調整手段でゲインが調整された前記音声入力手段を用いて対話処理が終了した後、所定期間が経過したら、前記感度調整手段による前記音声入力手段のゲイン調整を終了する終了制御手段を有することを特徴とする。
【0021】
操作者との距離に応じた音声入力手段の感度調整後に対話処理が行われ、その対話処理が終了してしばらくたった場合には、対話していた操作者は既に別の場所に移動し、装置近傍に誰もいない状態になっている可能性が高い。そこで本願第7発明においてはこれに応じ、終了制御手段が、対話処理終了後所定期間が経過したら、音声入力手段のゲイン調整を終了し行わないようにする。これにより、その時点でのゲインの値により次の操作者を待ち受ける状態を確実に実現することができる。
【発明の効果】
【0022】
本発明によれば、専用のセンサやマイクを新たに設ける必要がなく操作者までの距離検出を行い、適切なゲインで対話処理を行うことができる。
【図面の簡単な説明】
【0023】
【図1】本発明の一実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
【図2】来訪者受付システムのシステム全体の機能構成を表す機能ブロック図である。
【図3】表示部における表示画面の一例を表す図である。
【図4】受付端末の機能的構成を示す機能ブロック図である。
【図5】DBサーバの機能的構成を表す機能ブロック図である。
【図6】スピーカより疑似雑音を出力するまでの手順の概要を説明した説明図である。
【図7】来訪者までの距離を検出する手法の概要、及び、検出した距離が所定値よりも大きかった場合のゲイン制御の内容を説明した図である。
【図8】検出した距離が所定値以下であった場合のゲイン制御の内容を説明した図である。
【図9】受付端末による受付処理終了後の状態を模式的に表した図である。
【図10】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図11】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図12】ソース音として来訪者の発話音声を利用する変形例において、スピーカより疑似発話音声を出力するまでの手順の概要を説明した説明図である。
【図13】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図14】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図15】ソース音として受付端末の案内音声を利用する変形例において、スピーカより疑似案内音声を出力するまでの手順の概要を説明した説明図である。
【発明を実施するための形態】
【0024】
以下、本発明の一実施の形態を図面を参照しつつ説明する。本実施形態では、本発明の対話装置を、例えば、ビルや会社その他の建造物への来訪者に対する受付業務を行う来訪者受付システムに適用した場合を表している。
【0025】
(A)システムの基本構成
図1は、本実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
【0026】
図1において、来訪者受付システム1は、例えば会社の入口付近に設置され、操作者(この例では、会社への来訪者)Mが対話方式により操作可能な受付端末20(対話装置)を有している。受付端末20には、音声を入力するためのマイク207(音声入力手段)と、音声を出力するためのスピーカ208(音声出力手段)とが設けられている。
【0027】
受付端末20は、来訪者Mとの対話処理(この例では、来訪者Mとの対話による受付処理)や、マイク207及びスピーカ208に入出力される音声を用いた来訪者Mまでの距離の検出を行い、その検出した距離に基づき、マイク207のゲイン(後述)の調整を行う。本実施形態では、受付端末20から来訪者Mまでの距離を検出する方法として、スピーカ208から距離検出用の検出音(この例では、後述の疑似雑音)を出力させて、その疑似雑音が来訪者Mで反射し、その反射音がマイク207に入力されるまでの所要時間を測定する。そして、この所要時間が、来訪者Mまでの距離に比例するという関係から、来訪者Mまでの距離を検出する。すなわち、来訪者Mまでの距離をL、上記所要時間をtとすると、
L=c×t/2 ・・・(式1)
で表される関係が成り立つ(詳細は図7で後述する)。なお、cは音速(約340[m/s]。但し、媒体である空気の密度や圧力により異なる)である。
【0028】
上記(式1)を解くことによって、来訪者Mまでの距離が検出できる。そして、検出した距離に基づき、マイク207のゲインを調整(設定)する(詳細は後述する)。
また、図1に示すように、受付端末20は、表示部210、上記マイク207、及び上記スピーカ208を有している。表示部210は、例えば液晶ディスプレイで構成され、この例では水平に設置されるベース212に対してアーム211を介し支持され、来訪者Mの視線に対して直角となるように面方向が斜め上方を向いている。マイク207は、ベース212に対し先端を来訪者M側へ向けるようにして略円弧状に配置されている。
【0029】
なお、表示部210をタッチパネルで構成し、表示される表示画面を来訪者Mが直接画面に触れながら操作できるようにしてもよい。
【0030】
図2は、来訪者受付システム1のシステム全体の機能構成を表す機能ブロック図である。
【0031】
図2において、来訪者受付システム1は、上記受付端末20と、周知のパーソナルコンピュータにより構成されるDBサーバ10と、会社の従業員それぞれに対応して設けられた複数の(この例では2つの)IP電話機60と、それら複数のIP電話機60の回線交換を行う周知の交換装置であるIP−PBX(Intenet Protocol Private Branch eXchange)50とを有し、これらはすべてルータ40を介して接続されている。
【0032】
受付端末20は、端末本体20Aと、この端末本体20Aに接続された、上記表示部210、ゲイン可変アンプ217、及び上記スピーカ208と、上記ゲイン可変アンプ217に接続された上記マイク207とを有している。
【0033】
マイク207は、入力された音声を音声情報に変換し、ゲイン可変アンプ217へ出力する。
【0034】
ゲイン可変アンプ217は、マイク207から入力された音声情報を増幅(この例では後述のCPU201からの制御信号によってマイク207のゲインが決定される増幅)して、端末本体20Aへ出力する。上記マイク207のゲインとは、入力と出力との比(出力/入力)、すなわち、CPU201の制御によりゲイン可変アンプ217が行う増幅の度合い(=増幅度)のことである。
【0035】
スピーカ208は、端末本体20Aから入力された音声信号を、来訪者Mに対する報知音(案内音声)や距離検出用の検出音(この例では後述の疑似雑音。あるいは、疑似装置発声音や疑似発話音声でもよい。後述の(1)及び(2)の変形例参照)に変換して出力する。
【0036】
図3は、表示部210における表示画面の一例を表す図である。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物IMが、後述の受付処理が開始されると、オフィス風の背景Gとともに表示される。また、スピーカ208から発話される音声に対応する文章B(図中では「***」で略記している)が併せて表示される。
【0037】
(B)受付端末の詳細機能
図4は、受付端末20の機能的構成を示す機能ブロック図である。
【0038】
図4において、受付端末20の端末本体20Aは、制御回路部200と、入出力(I/O)インタフェイス204と、ハードディスク装置(HDD)205と、計時手段であるタイマ209とを有している。
【0039】
制御回路部200は、CPU201と、受付端末20の基本的な動作に必要なプログラムやそのための設定値を記憶したROM202と、各種データを一時的に記憶するRAM203とを備えている。CPU201は、ROM202や、HDD205に記憶されたプログラムに従って、受付端末20全体の動作を制御する。
【0040】
I/Oインタフェイス204には、上記CPU201と、上記ハードディスク装置205と、上記タイマ209と、上記表示部210と、上記ゲイン可変アンプ217と、上記スピーカ208と、ネットワーク(NW)カード206とが接続されている。
【0041】
HDD205には、音声認識に使用するための言語モデル記憶エリア252、単語辞書記憶エリア253、来訪者を特定するための音声認識に使用される来訪者辞書記憶エリア254、及びプログラム記憶エリア256を含む複数の記憶エリアを備えている。
【0042】
プログラム記憶エリア256には、例えば、受付端末20の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末20の基本的な動作を制御するシステムプログラム、DBサーバ10との通信を制御する通信プログラム、表示部210に表示する画像を生成する描画プログラム、上述した音声認識を実行する音声認識プログラム、DBサーバ10のデータベースにアクセスし照合を行うためのDB照合プログラム、音声合成プログラム、対話制御プログラム、IP電話機60とIP−PBX50との接続に係わる電話接続プログラム、前述した距離検出を制御する距離検出プログラム、前述したマイク207のゲインの調整を制御する感度調整プログラム等がある。
【0043】
なお、図示はされていないが、HDD205には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴(例えば、周波数特性)と対応する音素とで表現されている。
【0044】
NWカード206は、上記ルータ40に接続され、DBサーバ10などとの間でデータの送受信を可能とするための拡張カードである。
【0045】
(C)DBサーバの詳細機能
図5は、DBサーバ10の機能的構成を表す機能ブロック図である。
【0046】
図5に示すように、DBサーバ10は、CPU101と、CPU101に各々接続されたROM102及びRAM103と、CPU101に接続された入出力(I/O)インタフェイス104と、I/Oインタフェイス104にそれぞれ接続された、マウスコントローラ106、キーコントローラ107、ビデオコントローラ108、通信装置109、及びハードディスク装置(HDD)150とを有している。
【0047】
ROM102は、BIOSを含む、DBサーバ10を動作させるための各種のプログラムを記憶している。RAM103は、各種データを一時的に記憶する。CPU101は、ROM102や、後述するHDD150に記憶されたプログラムに従って、DBサーバ10の全体の制御を司る。
【0048】
マウスコントローラ106、キーコントローラ107、及びビデオコントローラ108には、それぞれマウス116、キーボード117、及びディスプレイ118が接続されている。通信装置109は、ルータ40に接続され、受付端末20等、外部機器との間でデータの送受信を行うことを可能とする。
【0049】
HDD150は、予定された来訪者Mに関する来訪情報を格納する来訪者予約データベース(DB)記憶エリア151、社員情報を格納する社員データベース(DB)記憶エリア155、及びプログラム記憶エリア156を含む複数の記憶エリアを備えている。
【0050】
プログラム記憶エリア156には、システムプログラム、通信プログラム等、各種処理をDBサーバ10に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示せず)を介してインストールされ、プログラム記憶エリア156に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
【0051】
(D)ゲインの調節の流れ
以上のような構成の本実施形態の最大の特徴は、マイク207を介し取得された雑音情報に基づき距離検出用の疑似雑音を生成しスピーカ208を介し出力することと、マイク207を介して取得した上記疑似雑音の反射音情報に基づき来訪者Mまでの距離を検出することと、その距離検出結果に基づきマイク207のゲインを調整することである。以下、その詳細を順を追って説明する。
【0052】
図6は、スピーカ208より疑似雑音を出力するまでの手順の概要を説明した説明図である。
【0053】
図6(a)には、マイク207に入力された雑音より、疑似雑音情報を生成する手順を模式的に示している。図6(a)に示すように、受付端末20の周囲で、疑似雑音の生成元となるソース音としての雑音(周囲音。この例では、会社内の所定の場所に設置されたドア30が閉まる音)が発生すると、この雑音が伝搬してマイク207に入力される。これにより、入力した雑音に対応する振幅(あるいは周波数でもよい。以下同様)を含むソース音情報としての雑音情報(周囲音情報)が取得され、この雑音情報に基づき、疑似雑音情報が生成される。なお、このとき、疑似雑音情報のサンプリング周波数が16[kHz]以上となるように生成してもよい。その場合、市販の音響モデルとの互換性を確保できるので、より利便性・応用性が高くなる。
【0054】
図6(b)には、スピーカ208より疑似雑音が出力された状態を模式的に示している。図6(b)に示すように、上記図6(a)のようにして疑似雑音情報が生成されると、この疑似雑音情報に基づき、距離検出用の疑似雑音がスピーカ208より出力される。なお、疑似雑音は、当該疑似雑音の生成元となった雑音がマイク207に入力されてから所定時間(例えば、1[msec])以内にスピーカ208より出力される。
【0055】
また、スピーカ208より疑似雑音が出力されるのとほぼ同時に、タイマ209(図4参照)が起動される。これにより、スピーカ208より疑似雑音が出力されてから、この疑似雑音が対象物に反射し、その反射音がマイク207に入力されるまでの所要時間(以下、単に「所要時間」という)の測定(計測)が開始される。本実施形態では、上記疑似雑音の反射音の反射元となった対象物が、来訪者Mであるとみなし(推測し)、後述のようにして来訪者Mまでの距離を検出する。
【0056】
図7は、来訪者Mまでの距離を検出する手法の概要、及び、検出した距離に応じたゲイン制御の内容を説明した図である。
【0057】
図7において、上記図6(b)のようにしてスピーカ208より出力された疑似雑音は、所定の距離範囲(伝搬可能な距離範囲。パワーによって異なる)に伝搬される。このとき、当該範囲内に来訪者Mが存在すると、上記疑似雑音は、来訪者Mにより反射し、その反射音が伝搬してマイク207に入力される。これにより、対応する反射音情報が取得される。そして、マイク207に反射音が入力されると、タイマ209によって行われていた上記所要時間の測定が終了する。すなわち、このときのタイマ209の測定値が上記所要時間となる。
【0058】
また、この例では、上記タイマ209による計時を開始してから予め定められた所定の最小音波受音時間を経過するまでは上記反射音情報の取得は開始されないようになっている。上記最小音波受音時間とは、スピーカ208より出力された疑似雑音が、来訪者Mに反射することなく、直接マイク207に入力されるまで(=いわゆる疑似雑音のスピーカ208からマイク207への周り込み)の所要時間である。例えば、スピーカ208とマイク207との間の距離が30[cm]であるとすると、最小音波受音時間は1.73[msec]となる。タイマ209の測定時間が最小音波受音時間を経過するまで、マイク207には、疑似雑音の反射音は入力されない。したがって、最小音波受音時間が経過するまで反射音情報の取得を開始せずに待つことで、マイク207に入力する不要な音声(上記周り込みした疑似雑音)を除外することができる。
【0059】
さらに、この例では、上記タイマ209による計時を開始してから予め定められた所定の最大音波受音時間を経過すると、反射音情報の取得は終了され、再び雑音情報の取得が開始されるようになっている。上記最大音波受音時間とは、スピーカ208より出力された疑似雑音が、所定の距離(例えば、受付端末20による受付処理が行われる可能性がある最大距離)より反射され、その反射音がマイク207に入力されるまでの所要時間である。例えば、上記最大距離を100[cm]とすると、最大音波受音時間は5.77[msec]となる。この最大音波受音時間を経過した後、マイク207に入力された疑似雑音の反射音は、上記所定の距離より遠い(受付をするには遠い)位置に存在する対象物(来訪者Mとは限らない)により反射されたものである。タイマ209の測定時間が最大音波受音時間を経過すると、反射音情報の取得を終了とすることで、不要な反射音を除外することができる。
【0060】
また、上記疑似雑音及びその反射音は、共に音波であるので受付端末20と来訪者Mとの間を音速で伝搬している。また、上記所要時間は、上記疑似雑音及びその反射音、すなわち音波が、受付端末20と来訪者Mとの間を往復する往復伝搬時間である(詳細にはスピーカ208→来訪者M間の疑似雑音の伝搬時間と、来訪者M→マイク207間の反射音の伝搬時間との合計時間)。すなわち、音速と、上記所要時間の半分(=片道の伝搬時間に相当)との積の値が、受付端末20から来訪者Mまでの距離となる。このようなことから、上記の(式1)(図1参照)を解くことによって、受付端末20から来訪者Mまでの距離を検出(算出)することができるのである。
【0061】
例えば、音速を346.5[m/s]とし、タイマ209の測定値(=上記所要時間)を2.0[msec]とすると、来訪者Mまでの距離Lは、
L=346.5×2.0×10−3/2=346.5×10−3[m]≒35[cm]
となる。
【0062】
そして、図7の下段に示すように、上記の方法により検出された受付端末20から来訪者Mまでの距離Lが所定値L0(例えば80[cm])よりも大きかった(L>L0)場合には、マイク207のゲイン(=上記ゲイン可変アンプ217での増幅度)を、所定値以上に(この例では固定的に)設定するようになっている。
【0063】
一方、上記検出した距離Lが所定値L0以下であった場合のゲイン制御の内容を図8を用いて説明する。この図8は上記図7に対応する図である。
【0064】
図8において、この例では、来訪者Mが、上記図7の状態に比べて少し受付端末20に近づき、これによって受付端末20から来訪者Mまでの距離Lが上記所定値L0以下となっている。そして、このL≦L0が検出されたことに応じて、マイク207のゲインの調整が開始され、検出された距離に応じて上記ゲインの値が制御されるようになっている。
【0065】
本実施形態の受付端末20では、例えば前述のようにしてマイク207のゲインの調整が開始されるのとほぼ同じタイミングで(すなわち上記L≦L0となったときに)受付処理が開始される(あるいは、所定の開始操作が行われることにより受付処理が開始されるようにしてもよい。後述の(1)及び(2)の変形例参照)。受付処理は、表示部210に所定の表示画面を表示しつつ、対話方式により行われる。
【0066】
すなわち、受付処理では、スピーカ208より所定の案内音声(例えば、「いらっしゃいませ。どちら様でしょうか」等)が出力され、さらにこれに併せて表示部210に所定の表示画面が表示される(例えば、前述した図3参照)。来訪者Mがこれら案内音声や表示に応じて、受付端末20に対して発話すると、対応する来訪者Mの発話音声がマイク207によって入力される。
【0067】
このとき、マイク207に入力された来訪者Mの発話音声の情報は、上記ゲイン可変アンプ217で、上記検出された距離に基づいて調整されたゲイン(増幅度)に応じて増幅される。そして、増幅された音声情報は、端末本体20A(図2等参照)に入力され、上記来訪者辞書記憶エリア254に記憶された来訪者辞書を用いて、音声認識が行われる(詳細は図11で後述する)。また、来訪者Mが、受付端末20を操作(発話による操作)している期間も、来訪者M(すなわち受付端末20を操作中の来訪者M)の距離検出(図6〜図8参照)は引き続き行われ、その検出距離の結果に基づき上記ゲインの調整も随時行われている。
【0068】
図9(a)及び図9(b)は、受付端末20による受付処理終了後の状態を模式的に表した図である。受付端末20による受付処理が終了した直後では、来訪者Mは、まだ対話操作を行っていた受付端末20の近傍に存在している(図9(a)に示した状態)。そして、受付処理が終了した後、所定期間(例えば10秒)が経過すると、受付端末20の近傍に存在した来訪者Mは、受付処理での応対結果(例えば担当者の指示により待合室で待機するよう応対される等)に応じて、受付端末20から離れ、別の場所(例えば、待合室や担当者のいる居室等)に移動し、受付端末20の近傍には誰もいない状態となる(図9(b)に示した状態)。
【0069】
本実施形態では、上記図9(b)に示した状態、すなわち、受付処理が終了した後、所定期間が経過したら、上記マイク207のゲインを、現在設定されているゲイン(受付処理終了後、所定期間が経過する直前のゲイン)にこの例では固定的に設定し、上記受付処理中に行われていたゲインの調整を終了させる。そして、このようにゲインが固定された状態で、上記図6(a)の状態に戻り、次の来訪者Mが来るのを待つようになっている。
【0070】
(E)制御手順
図10は、以上説明した内容を実現するために、受付端末20の制御回路部200により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、HDD205のプログラム記憶エリア256に記憶された来訪者受付処理用のプログラム群(前述のシステムプログラム、描画プログラム、音声認識プログラム、対話制御プログラム、距離検出プログラム、感度調整プログラム等)に従って、CPU201が実行するものである。
【0071】
図10において、例えば受付端末20の電源ONによって、このフローが開始される(「START」位置)。
【0072】
まずステップS10で、所定の初期化処理を実行する(このとき、マイク207のゲインの調整を開始したことを表す調整開始フラグFsをFs=0への初期化も併せて行う)。
【0073】
そして、ステップS20において、距離検出用の疑似雑音の生成元となる雑音をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し、雑音情報を取得する(ソース音取得手段としての機能)。
【0074】
その後、ステップS30で、上記ステップS20で取得した雑音情報に所定の処理を行い、疑似雑音情報を生成する。
【0075】
そして、ステップS40に移り、I/Oインタフェイス204を介してスピーカ208に上記生成した疑似雑音情報を出力し、疑似雑音を出力させる(検出音出力手段としての機能)。
【0076】
その後、ステップS50で、I/Oインタフェイス204を介してタイマ209に制御信号を出力し、タイマ209を起動させる。これにより、上記ステップS40で出力した疑似雑音が対象物(来訪者M)に反射し、後述のステップS70でその反射音がマイク207に入力されるまでの所要時間の測定(計時測定)が開始される。
【0077】
そして、ステップS60に移り、タイマ209の測定時間に基づき、測定時間が前述の最小音波受音時間を経過したか否かを判定する。最小音波受音時間を経過するまでは判定が満たされずループ待機し、最小音波受音時間を経過したら判定が満たされて、ステップS70に移る。
【0078】
ステップS70では、マイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して、上記疑似雑音の(対象物での)反射音を入力した否かを判定する。この判定は、上記疑似雑音情報とマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力した音声の情報とのパワースペクトルを比較する等の公知の手法により行えば足りる。上記疑似雑音の反射音を入力していない場合には、判定が満たされずステップS80に移る。
【0079】
ステップS80では、タイマ209の測定時間に基づき、測定時間が前述の最大音波受音時間を経過したか否かを判定する。最大音波受音時間を経過していない場合には、判定が満たされず上記ステップS70に戻り、同様の手順を繰り返す。最大音波受音時間を経過した場合には、判定が満たされて、上記ステップS20に戻り、同様の手順を繰り返す。
【0080】
一方、上記ステップS70において、上記疑似雑音の反射音を入力していた場合には、ステップS70の判定が満たされてステップS90に移る。
【0081】
ステップS90では、上記ステップS70でマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力された上記疑似雑音の反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する。
【0082】
その後、ステップS100で、上記ステップS90で取得された反射音情報と、上記ステップS60より計時開始されたタイマ209のこの時点での計測時間とに基づき、所定の演算処理(この例では、前述の図1や図7等で説明した上記の式1を用いる手法)を行い、上記反射音の反射元となった対象物が来訪者Mであると推測して、来訪者Mまでの距離Lを検出する(距離検出手段としての機能)。
【0083】
そして、ステップS110で、上記ステップS100での距離検出結果に基づき、検出した来訪者Mまでの距離Lが上記所定値L0以下であるか否かを判定する。L>L0の場合には、判定が満たされずステップS120に移る。
【0084】
ステップS120では、マイク207のゲインを、予め定められた所定値以上に固定的に設定する(設定制御手段としての機能)。例えば、マイク207のゲインとして制御可能な範囲中の最大値としてもよい。これにより、マイク207を介し入力した音声情報は、ゲイン可変アンプ217によって、当該設定されたゲインの値により増幅される。その後、上記ステップS20に戻り、同様の手順を繰り返す。
【0085】
一方、上記ステップS110において、L≦L0であった場合には、判定が満たされてステップS130に移る。
【0086】
ステップS130では、上記ステップS100での距離検出結果に基づき、適切な(最良の)マイク207のゲインを算出する。
【0087】
そして、ステップS140では、上記ステップS130での算出結果に基づき、マイク207のゲインを調整して設定する(感度調整手段としての機能)。これにより、マイク207を介し入力した音声情報は、ゲイン可変アンプ217によって、当該設定されたゲインにより増幅される。
【0088】
その後、ステップS150で、上記調整開始フラグFsを、ゲインの調整開始を表すFs=1とし、ステップS160に移る。
【0089】
ステップS160では、受付処理が終了したことを表す受付終了フラグFtがFt=1であるか否かを判定する。Ft=0のままである場合(=受付処理が終了していない場合)は、判定が満たされず上記ステップS20に戻り、同様の手順を繰り返す。そして、Ft=1になったら(=受付処理が終了したら)、判定が満たされてステップS180に移る。
【0090】
ステップS180では、上記ステップS140でゲインが調整されたマイク207を用いて受付処理が終了した後、言い換えれば、後述の図11のステップS360で上記受付終了フラグFtが受付処理の終了を表すFt=1になった後、所定期間が経過したか否かを判定する。Ft=1になった後、所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップS190に移る。
【0091】
ステップS190では、マイク207のゲインを、直前の上記ステップS140で設定したゲインに(つまりこの時点でのゲインの値に)固定し、上記ステップS140での上記ゲインの調整を終了させる(終了制御手段としての機能)。その後、ステップS195に移る。
【0092】
ステップS195では、上記調整開始フラグFsをFs=0とする。そして、このフローを終了する。なお、このフローは、例えば受付端末20の電源がONの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔(例えば2秒間隔)で繰り返し継続して実行される。
【0093】
なお、以上において、ステップS70及びステップS90が、各請求項記載の反射音取得手段として機能し、ステップS110が、開始制御手段として機能する。
【0094】
図11は、上記図10のフローと並行して、受付端末20の制御回路部200により実行する制御手順を表すフローチャートである。上記図10のフローが来訪者Mまでの距離に基づくマイク207のゲインの調整に関するものであるのに対し、この図11のフローは、受付処理に関するものである。なお、これら図10及び図11の2つのフローは、例えばコンピュータのOS等でしばしば行われる「マルチタスク処理」と同様の公知の手法により、前述の来訪者受付処理用のプログラム群に従って、CPU201によって同時並行処理されるようになっている。
【0095】
図11において、例えば受付端末20の電源ONによって、このフローが開始される(「START」位置)。
【0096】
まずステップS200で、上記受付終了フラグFtをFt=0に初期化する。
【0097】
その後、ステップS210で、上記調整開始フラグFsがゲインの調整開始を表すFs=1であるか否かを判定する。Fs=0のままである場合(=ゲインの調整が開始されていない場合)には、判定が満たされずループ待機する。Fs=1になったら(=ゲインの調整が開始されたら)、判定が満たされてステップS220に移る。
【0098】
ステップS220では、来訪者Mの発話音声を認識するために、DBサーバ10の来訪者予約データベース1510を参照しつつHDD205の来訪者辞書記憶エリア254に記憶された来訪者辞書を取得し、辞書更新を行う。すなわち、前述したように、受付処理が開始された時刻、言い換えれば、上記ステップS210の判定が満たされた時刻を基準とし、来訪者予約データベース1510の全予約データのうちその前後所定時間以内(例えば1時間以内等)を訪問予定日時とする予約データに基づいて作成された辞書を取得する。
【0099】
そして、ステップS230に移り、I/Oインタフェイス204を介してスピーカ208へ音声信号を出力し、”いらっしゃいませ。どちら様でしょうか。(マイクに向かってお名前を入力してください)”という来訪者氏名を問いかける台詞を含む案内音声を出力させる。なお、このとき、表示部210に台詞と同様の内容のテキストを含む表示画面を表示させてもよい(後述のステップS260、ステップS310、ステップS330、及びステップS340についても同様)。
【0100】
その後、ステップS240で、この問いかけに対応して発話した来訪者Mの発話音声の情報をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し(このときのゲイン可変アンプ217での増幅は、上記図10のステップS140で調整されたゲインにより実行される)、上記ステップS220で取得した来訪者辞書を用いて音声認識を行う。
【0101】
そして、ステップS250に移り、上記入力した来訪者Mの発話音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップS250の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かってお名前を入力してください”という音声認識ができなかったことを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS240に戻り、同様の手順を繰り返す。なお、この図11では図示を省略しているが、上記案内音声の出力は、予め定められた設定回数だけ行われ、その間に音声認識できない場合には、対応する処理(例えば部署代表やその他の受付担当者等に取り次ぐ等)を行う(後述のステップS280、ステップS300、ステップS330、及びステップS340についても同様)。一方、言語として音声認識できた場合には、ステップS250の判定が満たされステップS260に移る。
【0102】
ステップS260では、I/Oインタフェイス204を介してスピーカ208へ音声信号を出力し、”マイクに向かって担当者名を入力してください”という担当者名を問いかける台詞を含む案内音声を出力させる。
【0103】
その後、ステップS270で、この問いかけに対応して発話した来訪者Mの発話音声情報をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し(上記同様、このときのゲイン可変アンプ217での増幅は、上記図10のステップS140で調整されたゲインにより実行される)、上記ステップS240と同様の方法により音声認識を行う。
【0104】
そして、ステップS280に移り、上記入力した来訪者Mの発話音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップS250の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かって担当者名を入力してください”という音声認識ができなかったことを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS270に戻り、同様の手順を繰り返す。言語として音声認識できた場合には、判定が満たされステップS290に移る。
【0105】
ステップS290では、DBサーバ10の来訪者予約データベース1510にアクセスし、上記ステップS240及びステップS270において音声情報の音声認識により取得した来訪者名及び担当者名が、来訪者予約データベース1510のいずれかの予約データの「来訪者名」「担当者名」と一致するか否かを照合する。なお、完全な一致ではなく、ある類似幅、許容幅を持たせた範囲内で適合するかどうかを照合するようにしてもよい。
【0106】
その後、ステップS300では、上記ステップS290での照合結果が一致したか(適合したか)否かを判定する。ステップS290での照合結果が一致しなかった(該当する来訪者名及び担当者名の予約データが存在しなかった)場合には判定が満たされず、”予約がされていませんでした。もう一度マイクに向かってお名前を入力してください”という予約データが存在しなかったことを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS240に戻り、同様の手順を繰り返す。ステップS290での照合結果が一致した(該当する来訪者名及び担当者名の予約データが存在した)場合には、判定が満たされステップS310に移る。
【0107】
ステップS310では、I/Oインタフェイス204を介してスピーカ208へ音声信号を出力し、予約内容とともに、”この内容でよろしいでしょうか。(よろしければ、「はい」を、間違っていたら、「いいえ」をマイクに向かって入力してください)”という最終確認を問いかける台詞を含む案内音声を出力させる。
【0108】
そして、ステップS320に移り、この問いかけに対応して発話した来訪者Mの音声情報をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し(上記同様、このときのゲイン可変アンプ217での増幅は、上記図10のステップS140で調整されたゲインにより実行される)、上記ステップS240と同様の方法により音声認識を行う。
【0109】
その後、ステップS330で、上記入力した来訪者Mからの音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップS330の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かって「はい」、「いいえ」を入力してください”という音声認識ができなかったことを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS320に戻り、同様の手順を繰り返す。言語として音声認識できた場合には、判定が満たされステップS340に移る。
【0110】
ステップS340では、上記ステップS320において音声情報の音声認識により取得した情報(「はい」又は「いいえ」)が、「はい」であったか否かを判定する。「いいえ」であった場合には判定が満たされず、”操作を最初からやり直します。もう一度マイクに向かってお名前を入力してください”という操作のやり直しを来訪者Mに通知する台詞を含む案内音声をスピーカ208に出力させ、上記ステップS230に戻り、同様の手順を繰り返す。「はい」であった場合には、判定が満たされステップS350に移る。
【0111】
ステップS350では、正当な来訪者Mが訪ねてきたことが確認できたことに対応して、対応する担当者のIP電話機60に発信(コール)を行う。具体的には、担当者への通知文を作成し、その通知文のテキストデータを音声データに変換し、上記予約データにより特定された担当者の電話番号を用いて、IP−PBX50を介し、担当者の使用するIP電話機60に、音声データを発信する。
【0112】
そして、ステップS360で、上記受付終了フラグFtを受付処理の終了を表すFt=1にした後、このフローを終了する。なお、このフローは、例えば受付端末20の電源がONの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔(例えば2秒間隔)で繰り返し継続して実行される。
【0113】
以上説明したように、本実施形態の受付端末20においては、距離検出用の検出音(上記の例では疑似雑音)を用いて来訪者Mとの距離を検出する。すなわち、疑似雑音生成時の生成元となる雑音がマイク207を介して入力されると、対応する振幅を含む雑音情報を取得し(図10のステップS20参照)、これに基づく疑似雑音をスピーカ208を介し出力する(図10のステップS40参照)。そして、出力された疑似雑音の反射音情報に基づき、来訪者Mまでの距離を検出する(図10のステップS100参照)。
【0114】
そして、検出された来訪者Mまでの距離に基づき、距離に応じた適切な(最良の)マイク207のゲインを算出し、ゲイン調整を行う(図10のステップS140参照)。すなわち、来訪者Mまでの距離が比較的近い場合には、対話時の来訪者Mの発話音声が比較的大きいレベルで入力されることから、上記ゲインを低く設定する。一方、来訪者Mまでの距離が比較的遠い場合には、対話時の来訪者Mの発話音声が比較的小さいレベルで入力されることから、上記ゲインを高く設定する。これにより、適切な信号レベルで受付処理を行うことができる。この結果、認識漏れのない、確実な受付処理を行うことができる。
【0115】
以上のように、本実施形態の受付端末20によれば、マイク207及びスピーカ208を介して入出力する音を用いて、来訪者Mまでの距離を検出することができる。すなわち、受付処理のためにもともと備わっているマイク207やスピーカ208を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく距離検出を行うことができ、それに基づく適切なゲインで確実な受付処理を行うことができる。
【0116】
また、本実施形態では特に、マイク207で入力された雑音により、雑音情報を取得し、この取得した雑音情報に基づき生成した疑似雑音を、スピーカ208を介し出力する。このように、距離検出時に、マイク207で入力した雑音に基づいて疑似雑音を生成し利用することにより、音を用いて検出していることを来訪者Mに悟られることなく、距離検出を行うことができる。
【0117】
また、受付端末20において対話方式で操作を行うとき、来訪者Mは、受付端末20に比較的近づいてから発話を行うのが一般的であり、受付端末20から来訪者Mまでの距離が遠い場合には、来訪者Mが操作を開始する可能性は低い。そこでこれに対応し、本実施形態では特に、上記図10のステップS100で検出した来訪者Mまでの距離Lが所定値L0以下となってから、上記ゲインの調整を開始する。すなわち、検出した来訪者Mまでの距離が比較的近くなってから上記ゲインの調整を開始することにより、無駄な調整動作を回避し、効率的な処理を行うことができる。
【0118】
また、受付端末20から来訪者Mまでの距離が遠い場合、来訪者Mが対話操作を行う可能性は低いが、来訪者Mによっては(あるいは状況によっては)比較的遠い距離のまま、発話を行う可能性もある。このとき、受付端末20から来訪者Mまでの距離が遠いため、そのままでは来訪者Mの発話音声が比較的小さいレベルでマイク207より入力されることとなる。そこでこれに対応して、本実施形態では特に、上記図10のステップS100で検出した来訪者Mまでの距離Lが所定値L0より大きい場合、マイク207のゲインを所定値以上に設定し(図10のステップS120参照)、信号レベルをある程度まで増大させる。これにより、上記のような遠方からの対話操作時においても、認識漏れの可能性を低減することができる。
【0119】
また、来訪者Mとの距離に応じたマイク207のゲイン調整後に受付処理が行われ、その受付処理が終了してしばらくたった場合には、対話していた来訪者Mは既に別の場所に移動し、受付端末20近傍に誰もいない状態(図9(b)の状態)になっている可能性が高い。これに対応して、本実施形態では特に、ゲインが調整されたマイク207を用いて受付処理が終了した後、所定期間が経過したら、上記ゲインの調整を終了する(図10のステップS190参照)。すなわち、この場合、受付処理終了後所定期間が経過したら、直前に設定した上記ゲインに固定して、上記ゲインの調整を終了し、調整を行わないようにする。これにより、この時点でのゲインの値により次の来訪者Mの待ち受け状態を確実に実現することができる。
【0120】
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。
【0121】
(1)ソース音として来訪者の発話音声を利用する場合
上記実施形態においては、距離検出用の検出音(上記の例では疑似雑音)の生成元となるソース音として、受付端末20の周囲で発生した雑音を利用していたが、これに限られない。すなわち、上記ソース音として、受付処理において来訪者Mが発声した発話音声を利用するようにしてもよい。
【0122】
図12(a)及び図12(b)は、本変形例において、スピーカ208より疑似発話音声を出力するまでの手順の概要を説明した説明図である。
【0123】
本変形例の受付端末20では、上記実施形態と異なり、例えば来訪者Mによって図示しない操作部が適宜に操作されることにより、受付処理が開始される。そして、図12(a)に示すように、受付処理中において、来訪者Mが受付端末20に対して発話すると、来訪者Mより発声されたソース音としての発話音声が伝搬してマイク207に入力される。これにより、入力した来訪者Mの発話音声に対応する振幅(又は周波数でもよい)を含むソース音情報としての発話音声情報が取得され、この発話音声情報に基づき、疑似発話音声情報が生成される。
【0124】
そして、図12(b)に示すように、上記のようにして疑似発話音声情報が生成されると、この疑似発話音声情報に基づき、疑似発話音声(検出音)がスピーカ208より出力される。なお、疑似発話音声は、当該疑似発話音声の生成元となった来訪者Mの発話音声がマイク207に入力されてから所定時間(例えば、1[msec])以内にスピーカ208より出力されるようになっている。その後の処理は上記実施形態の図7及び図8とほぼ同様であり、疑似発話音声の反射音が入力されることで、対応する反射音情報が取得され、来訪者Mまでの距離検出が行われる。そして、検出された距離に応じてマイク207のゲインが調整される。
【0125】
図13は、本変形例における受付端末20の制御回路部200により実行する制御手順を表すフローチャートであり、前述の図10に対応する図である。図10と同等の部分には同符号を付し適宜説明を省略する。
【0126】
図13において、まず、上記図10のステップS10に対応したステップS10′で、所定の初期化処理を実行する(フラグFsを用いないためFs=0の初期化がない点が図10のステップS10と異なる)。そして、新たに設けたステップS15に移り、受付処理が開始されたことを表す前述の受付開始フラグFmがFm=1であるか否かを判定する。Fm=0のままである場合(=受付処理が開始されていない又は終了されている場合)は、判定が満たされずループ待機し、Fm=1になったら(=受付処理が開始されたら)、判定が満たされて、上記図10のステップS20に対応したステップS20′に移る。
【0127】
ステップS20′では、来訪者Mにより受付端末20の受付処理(後述の図14参照)において発声され、距離検出用の疑似発話音声の生成元となる発話音声をマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力し、対応する振幅あるいは周波数を含む発話音声情報を取得する(ソース音取得手段としての機能)。
【0128】
その後、上記図10のステップS30に対応したステップS30′で、上記ステップS20′で取得した発話音声情報に所定の処理を行い、疑似発話音声情報を生成する。
【0129】
そして、上記図10のステップS40に対応したステップS40′に移り、I/Oインタフェイス204を介してスピーカ208に上記生成した疑似発話音声情報を出力し、スピーカ208より疑似発話音声を出力させる(検出音出力手段としての機能)。
【0130】
その後のステップS50及びステップS60は、前述の図10と同様であり、タイマ209を起動させ、タイマ209の測定時間が上記最小音波受音時間を経過するまで待機し、最小音波受音時間を経過したら、上記図10のステップS70に対応したステップS70′に移る。
【0131】
ステップS70′では、マイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して、上記疑似発話音声の(対象物での)反射音を入力した否かを判定する。この判定は、上記疑似発話音声とマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力した音声の情報とのパワースペクトルを比較する等の公知の手法により行えば足りる。上記疑似発話音声の反射音を入力していない場合には、判定が満たされずステップS80に移る。
【0132】
ステップS80は、前述の図10と同様であり、タイマ209の測定時間が上記最大音波受音時間を経過したか否かを判定し、最大音波受音時間を経過していない場合には、上記ステップS70′に戻り、最大音波受音時間を経過した場合には、上記ステップS20′に戻る。
【0133】
一方、上記ステップS70′において、上記疑似発話音声の反射音を入力していた場合には、ステップS70′の判定が満たされて、上記図10のステップS90に対応したステップS90′に移る。
【0134】
ステップS90′では、上記ステップS70′でマイク207、ゲイン可変アンプ217、及びI/Oインタフェイス204を介して入力された上記疑似発話音声の反射音により、対応する反射音情報を取得する。
【0135】
その後のステップS100〜ステップS140は、前述の図10と同様である。ステップS140で、マイク207のゲインを調整したら、上記図10のステップS160に対応したステップS160′に移る。
【0136】
ステップS160′では、上記受付開始フラグFmがFm=0に戻っているか否かを判定する。Fm=1のままである場合(=受付処理がまだ実行中である場合)は、判定が満たされず上記ステップS20′に戻り、同様の手順を繰り返す。そして、Fm=0に戻ったら(=受付処理が終了したら)、判定が満たされて上記図10のステップS180に対応したステップS180′に移る。
【0137】
ステップS180′では、上記ステップS140でゲインが調整されたマイク207を用いて受付処理が終了した後、言い換えれば、後述の図14のステップS365で上記受付開始フラグFmがFm=0になった後、所定期間が経過したか否かを判定する。Fm=0になった後、所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップS190に移る。
【0138】
ステップS190は、前述の図10と同様であるので説明を省略する。
【0139】
なお、以上において、ステップS70′及びステップS90′が、各請求項記載の反射音取得手段として機能する。
【0140】
図14は、上記図13のフローと並行して、受付端末20の制御回路部200により実行する制御手順を表すフローチャートであり、前述の図11に対応する図である。図11と同等の部分には同符号を付し適宜説明を省略する。
【0141】
図14において、まず図11のステップS200に代えて設けたステップS205で、受付処理が開始されたことを表す上記受付開始フラグFmをFm=0に初期化する。
【0142】
その後、新たに設けたステップS212で、受付処理を開始する操作が、来訪者Mにより図示しない操作部を介して行われたか否かを判定する。来訪者Mにより受付処理を開始する操作が行われるまでループ待機し、来訪者Mにより受付処理を開始する操作が行われた場合には、判定が満たされ、新たに設けたステップS214に移る。
【0143】
ステップS214では、上記受付開始フラグFmを受付処理の開始を表すFm=1とし、ステップS220に移る。
【0144】
その後のステップS220〜ステップS350は、前述の図11と同様である。ステップS350において、正当な来訪者Mが訪ねてきたことが確認できたことに対応して、対応する担当者のIP電話機60に発信(コール)を行ったら、図11のステップS360に代えて設けたステップS365に移る。
【0145】
ステップS365では、上記受付開始フラグFmをFm=0とした後、このフローを終了する。
【0146】
本変形例によれば、以下のような効果が得られる。
【0147】
すなわち、距離検出用の検出音の生成元となるソース音に基づき、検出音を生成するとき、ソース音のレベルがあまりにも小さいと、スピーカ208を介し出力する検出音のレベルも小さく、その反射音を検出することが困難となる場合があり得る。
【0148】
本変形例では、上記のような場合に対応することができる。すなわち、通常、受付端末20において対話方式で操作を行おうとする来訪者Mは、自己の発話音声をなるべく認識してもらおうという意図が働き、ゆっくりと大きめの音量で発話を行う。したがって、距離検出時に、マイク207で入力した、上記のような来訪者Mの発話音声に基づいて疑似発話音声を生成し利用することで、精度の高い確実な距離検出を行うことができる。また、来訪者M自らが発声している発話音声を利用することにより、音を用いて検出していることを来訪者Mに比較的悟られにくいという効果もある。
【0149】
(2)ソース音として受付端末の案内音声を利用する場合
以上においては、上記ソース音として、受付端末20の周囲で発生した雑音や来訪者Mの発話音声を利用していたが、これに限られない。すなわち、上記ソース音として、受付処理においてスピーカ208を介し出力した案内音声を利用するようにしてもよい。
【0150】
図15は、本変形例において、スピーカ208より疑似案内音声を出力するまでの手順の概要を説明した説明図である。
【0151】
本変形例の受付端末20では、上記(1)の変形例と同様に、例えば来訪者Mによって図示しない操作部が適宜に操作されることにより、受付処理が開始される。そして、図15(a)に示すように、受付処理中において、スピーカ208よりソース音としての案内音声(装置音声)が出力されると、この案内音声が伝搬してマイク207に入力される(いわゆる案内音声のスピーカ208からマイク207へのまわり込み)。これにより、入力した案内音声に対応する振幅(又は周波数でもよい)を含むソース音情報としての案内音声情報(装置音声情報)が取得され、この案内音声情報に基づき、疑似案内音声情報が生成される。
【0152】
そして、図15(b)に示すように、上記のようにして疑似案内音声情報が生成されると、この疑似案内音声情報に基づき、疑似案内音声(検出音)がスピーカ208より出力される。なお、疑似案内音声は、当該疑似案内音声の生成元となった案内音声がマイク207に入力されてから所定時間(例えば、1[msec])以内にスピーカ208より出力される。
【0153】
なお、このとき特に、上記疑似案内音声が出力されるタイミングを、疑似案内音声の生成元となった案内音声の出力が終了する時としてもよい。すなわち、受付端末20を対話による操作をしている来訪者Mは、スピーカ208より案内音声が出力されているときは、その案内音声の内容を聞いているため発話せず、案内音声の出力が終了した後に、その案内音声の内容に沿って発話するのが一般的である。したがって、このように疑似案内音声を出力するタイミングを、案内音声の出力が終了する時(来訪者Mが発話する前)とした場合には、発話しているときの来訪者Mまでの距離を、より正確に検出することができるという効果がある。
【0154】
その後の処理は上記実施形態の図7及び図8とほぼ同様であり、疑似案内音声の反射音がマイク207に入力されることで、対応する反射音情報が取得され、来訪者Mまでの距離検出が行われる。そして、検出された距離に応じてマイク207のゲインが調整される。
【0155】
このように、本変形例においては、来訪者Mとの受付処理においてスピーカ208が出力しマイク207で入力された案内音声(又は後述のように当該案内音声の反射音でもよい)により、案内音声情報を取得し、この取得した案内音声情報に基づき生成された疑似案内音声を、スピーカ208を介し出力する。これにより、上記(1)の変形例と同様、精度の高い確実な距離検出を行うことができ、音を用いて検出していることを来訪者Mに比較的悟られにくいという効果を得る。
【0156】
また、スピーカ208を介し出力した、言い換えれば、受付端末20の内部で生成した案内音声を、ソース音として利用しているので、距離検出に都合のよい振幅(周波数)を含む案内音声情報に基づき、疑似案内音声(情報)を生成することができる。すなわち、このような案内音声情報に基づき、疑似案内音声(情報)を生成するときには、例えば案内音声情報の振幅が大きいものを選択して用いることで、解析(例えばフィルタリング解析等)の処理速度を速くすることができる。
【0157】
なお、上記の例では、ソース音として上記案内音声を利用した例を示したが、上記案内音声の反射音を適宜利用してもよい。
【0158】
(3)その他
上記来訪者受付システム1においては、来訪者Mまでの距離検出やマイク207のゲインの調整を行う受付端末20と、DBサーバ10とは、別個の装置であった。しかしながらこれに限られず、マイク、スピーカを備えたサーバを会社の入口付近に設置し、サーバのみで、来訪者Mまでの距離検出、マイク207のゲインの調整、受付処理のすべてを行うようにしてもよい。また、来訪者予約DB151や社員DB155等、HDD150に記憶されている情報を受付端末20側のHDD205に記憶するようにしてもよいし、さらにはネットワークを介して受付端末20に接続可能な別個の記憶装置に記憶させておき、受付処理中に、必要な情報を読み出す構成としてもよい。
【0159】
また、上記において、音声入力手段は、1つのマイク207で構成されていたが、これに限らず、複数の(例えば、2つの)マイクで構成してもよい(いわゆるアレー型のマイクロホン装置)。
【0160】
また、上記においては、所定の演算処理として、スピーカ208を介し検出音を出力してから、その反射音がマイク207に入力されるまでの所要時間を測定し、この所要時間が、来訪者Mまでの距離に比例するという関係(上記の式1を参照)から来訪者Mまでの距離を検出した。しかしながら、これに限らず、所定の演算処理として、出力した検出音と入力した反射音との位相差から来訪者Mまでの距離を検出するようにしてもよい。
【0161】
なお、以上において、図4及び図5等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
【0162】
また、図10、図11、図13、及び図14に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
【0163】
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
【0164】
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
【符号の説明】
【0165】
20 受付端末(対話装置)
201 CPU
207 マイク(音声入力手段)
208 スピーカ(音声出力手段)
217 ゲイン可変アンプ
M 来訪者(操作者)
【特許請求の範囲】
【請求項1】
操作者が対話方式により操作可能な対話装置であって、
音声を入力するための音声入力手段と、
音声を出力するための音声出力手段と、
前記音声入力手段を介し入力され、距離検出用の検出音の生成元となるソース音により、対応する振幅あるいは周波数を含むソース音情報を取得するソース音取得手段と、
前記音声入力手段が前記音を入力してから所定時間以内に、前記ソース音取得手段が取得した前記ソース音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する検出音出力手段と、
前記音声入力手段を介し入力された、前記検出音の前記対象物での反射音により、対応する反射音情報を取得する反射音取得手段と、
前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推定して当該操作者までの距離を検出する距離検出手段と、
前記距離検出手段での検出結果に基づき、前記音声入力手段のゲインを調整する感度調整手段と
を有することを特徴とする対話装置。
【請求項2】
前記ソース音取得手段は、
操作者が前記対話装置の対話処理において発声し前記音声入力手段で入力された前記ソース音としての発話音声により、前記ソース音情報としての発話音声情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記発話音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項1記載の対話装置。
【請求項3】
前記ソース音取得手段は、
操作者との対話処理において前記音声出力手段が出力し前記音声入力手段で入力された前記ソース音としての装置音声又は当該装置音声の反射音により、前記ソース音情報としての装置音声情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記装置音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項1記載の対話装置。
【請求項4】
前記ソース音取得手段は、
装置周囲で発生し前記音声入力手段で入力された前記ソース音としての周囲音により、前記ソース音情報としての周囲音情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記周囲音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項1記載の対話装置。
【請求項5】
前記距離検出手段で検出された前記操作者までの距離が所定値以下となったら、前記感度調整手段による前記ゲインの調整を開始させる、開始制御手段を有することを特徴とする請求項1乃至請求項4のいずれか1項記載の対話装置。
【請求項6】
前記距離検出手段で検出された前記操作者までの距離が前記所定値より大きい場合、前記音声入力手段のゲインを所定値以上に設定する設定制御手段を有することを特徴とする請求項5記載の対話装置。
【請求項7】
前記感度調整手段でゲインが調整された前記音声入力手段を用いて対話処理が終了した後、所定期間が経過したら、前記感度調整手段による前記音声入力手段のゲイン調整を終了する終了制御手段を有することを特徴とする請求項6記載の対話装置。
【請求項1】
操作者が対話方式により操作可能な対話装置であって、
音声を入力するための音声入力手段と、
音声を出力するための音声出力手段と、
前記音声入力手段を介し入力され、距離検出用の検出音の生成元となるソース音により、対応する振幅あるいは周波数を含むソース音情報を取得するソース音取得手段と、
前記音声入力手段が前記音を入力してから所定時間以内に、前記ソース音取得手段が取得した前記ソース音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する検出音出力手段と、
前記音声入力手段を介し入力された、前記検出音の前記対象物での反射音により、対応する反射音情報を取得する反射音取得手段と、
前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推定して当該操作者までの距離を検出する距離検出手段と、
前記距離検出手段での検出結果に基づき、前記音声入力手段のゲインを調整する感度調整手段と
を有することを特徴とする対話装置。
【請求項2】
前記ソース音取得手段は、
操作者が前記対話装置の対話処理において発声し前記音声入力手段で入力された前記ソース音としての発話音声により、前記ソース音情報としての発話音声情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記発話音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項1記載の対話装置。
【請求項3】
前記ソース音取得手段は、
操作者との対話処理において前記音声出力手段が出力し前記音声入力手段で入力された前記ソース音としての装置音声又は当該装置音声の反射音により、前記ソース音情報としての装置音声情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記装置音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項1記載の対話装置。
【請求項4】
前記ソース音取得手段は、
装置周囲で発生し前記音声入力手段で入力された前記ソース音としての周囲音により、前記ソース音情報としての周囲音情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記周囲音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項1記載の対話装置。
【請求項5】
前記距離検出手段で検出された前記操作者までの距離が所定値以下となったら、前記感度調整手段による前記ゲインの調整を開始させる、開始制御手段を有することを特徴とする請求項1乃至請求項4のいずれか1項記載の対話装置。
【請求項6】
前記距離検出手段で検出された前記操作者までの距離が前記所定値より大きい場合、前記音声入力手段のゲインを所定値以上に設定する設定制御手段を有することを特徴とする請求項5記載の対話装置。
【請求項7】
前記感度調整手段でゲインが調整された前記音声入力手段を用いて対話処理が終了した後、所定期間が経過したら、前記感度調整手段による前記音声入力手段のゲイン調整を終了する終了制御手段を有することを特徴とする請求項6記載の対話装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2010−206365(P2010−206365A)
【公開日】平成22年9月16日(2010.9.16)
【国際特許分類】
【出願番号】特願2009−47873(P2009−47873)
【出願日】平成21年3月2日(2009.3.2)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】
【公開日】平成22年9月16日(2010.9.16)
【国際特許分類】
【出願日】平成21年3月2日(2009.3.2)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】
[ Back to top ]