対話装置

【課題】専用のセンサやマイクを新たに設ける必要がなく操作者までの距離検出を行い、適切なゲインで対話処理を行う。
【解決手段】受付端末２０は、音声を入力するためのマイク２０７と、音声を出力するためのスピーカ２０８と有し、マイク２０７を介し入力された雑音により対応する雑音情報を取得し、取得した雑音情報に基づき生成された疑似雑音をスピーカ２０８を介し出力し、マイク２０７を介し入力された疑似雑音の対象物での反射音により対応する反射音情報を取得し、取得された反射音情報に基づき所定の演算処理を行い対象物が来訪者Ｍであると推測して来訪者Ｍまでの距離を検出し、この検出結果に基づき、マイク２０７のゲインを調整する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、操作者が音声による対話方式により操作可能な対話装置に関する。
【背景技術】
【０００２】
例えば建造物への来訪者に対する受付業務を行う受付装置等、操作者が対話方式によって操作可能な対話装置が、従来より既に知られている。このような対話装置においては、操作者の発話内容をマイク等の音声入力手段により入力し、適宜のゲインで増幅した後に音声認識する。この際、発話音声レベルに対してゲインが小さすぎると誤認識が生じ、発話音声レベルに対してゲインが大きすぎると音割れにより認識不能となる。一般に、対話処理においては、原則として（特に要請しない限り）操作者は同一内容を一度しか発話しないため、上記のような場合は発話内容の認識漏れが生じる。このような認識漏れを防止するためには、上記ゲインの適正化が必要である。一般に、装置から操作者までの距離が遠いと音声入力手段に入力される発話音声レベルが小さく（言い換えればゲインを大きくする必要がある）、装置から操作者までの距離が近いと音声入力手段に入力される発話音声レベルが大きい（言い換えればゲインを小さくする必要がある）。したがって、ゲインの適正化のためには、装置から操作者までの距離を非接触で精度よく検出し、その距離に応じた適切なゲインで対話処理を行うことが好ましい。
【０００３】
このような非接触距離検出に関しては、例えば特許文献１記載の従来技術が知られている。この従来技術では、超音波パルスを生成して対象物（物体）に対して出力し、検出対象物での反射波（エコーパルス）を探知する。そして超音波パルスの伝達時間を算出することにより、その伝達時間に基づいて対象物までの距離を検出するようになっている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００５−３５１８９７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、対話装置に対し、上記従来技術のような超音波を用いた距離検出手法を適用しようとする場合、距離検出専用のセンサやマイクを新たに設ける必要が生じるという問題があった。
【０００６】
本発明の目的は、専用のセンサやマイクを新たに設ける必要がなく操作者までの距離検出を行い、適切なゲインで対話処理を行える対話装置を提供することにある。
【課題を解決するための手段】
【０００７】
上記目的を達成するために、第１の発明は、操作者が対話方式により操作可能な対話装置であって、音声を入力するための音声入力手段と、音声を出力するための音声出力手段と、前記音声入力手段を介し入力され、距離検出用の検出音の生成元となるソース音により、対応する振幅あるいは周波数を含むソース音情報を取得するソース音取得手段と、前記音声入力手段が前記音を入力してから所定時間以内に、前記ソース音取得手段が取得した前記ソース音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する検出音出力手段と、前記音声入力手段を介し入力された、前記検出音の前記対象物での反射音により、対応する反射音情報を取得する反射音取得手段と、前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推定して当該操作者までの距離を検出する距離検出手段と、前記距離検出手段での検出結果に基づき、前記音声入力手段のゲインを調整する感度調整手段とを有することを特徴とする。
【０００８】
本願第１発明の対話装置においては、距離検出用の検出音を用いて操作者との距離を検出する。すなわち、検出音生成時の生成元となるソース音が音声入力手段を介して入力され、対応するソース音情報がソース音取得手段で取得される。すると、このソース音情報に基づき、検出音出力手段が、検出音を音声出力手段を介し出力する。出力された検出音が対象物に向かって伝搬し対象物で反射すると、その反射音が音声入力手段を介して入力され、対応する反射音情報が反射音取得手段で取得される。検出音が発せられてからその反射音が戻ってくるまでの時間は、装置から対象物までの距離に比例することから、距離検出手段が、上記反射音情報に基づき、対象物が操作者であると推定して操作者までの距離を検出する。そして、この検出された距離に基づき、感度調整手段が音声入力手段のゲインを調整する。これにより、操作者までの距離が比較的近い場合には対話時の操作者の発話音声が比較的大きいレベルで入力されることから音声入力手段のゲインを低くし、操作者までの距離が比較的遠い場合には対話時の操作者の発話音声が比較的小さいレベルで入力されることから音声入力手段のゲインを高くすることで、適切な信号レベルで対話処理を行うことが可能となる。この結果、認識漏れのない、確実な対話処理を行うことができる。
【０００９】
以上のようにして、本願第１発明においては、音声入力手段及び音声出力手段を介して入出力する音を用いて、操作者までの距離を検出することができる。すなわち、対話処理のためにもともと備わっている音声入力手段（マイク等）や音声出力手段（スピーカ等）を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく距離検出を行うことができ、それに基づく適切なゲインで確実な対話処理を行うことができる。
【００１０】
第２発明は、上記第１発明において、前記ソース音取得手段は、操作者が前記対話装置の対話処理において発声し前記音声入力手段で入力された前記ソース音としての発話音声により、前記ソース音情報としての発話音声情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記発話音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【００１１】
ソース音に基づき検出音を生成するとき、元となるソース音のレベルがあまりに小さいと、出力した検出音のレベルも小さく、その反射音を検出することが困難となる。通常、対話方式で操作を行おうとする操作者は、自己の発話音声をなるべく確実に認識してもらおうという意図が働き、ゆっくりと大きめの音量で発話を行う。したがって、距離検出時に、そのような操作者の発話音声に基づいて検出音（疑似発話音）を生成し利用することで、精度の高い確実な距離検出を行うことができる。また、操作者自らが発声している発話音声を利用することにより、音を用いて検出していることを操作者に比較的悟られにくいという効果や、予め操作者の位置を予想してゲインを調整可能となるので（オートゲインコントロールによって調整を行う場合に比べ）より適切な調節を行える効果もある。
【００１２】
第３発明は、上記第１発明において、前記ソース音取得手段は、操作者との対話処理において前記音声出力手段が出力し前記音声入力手段で入力された前記ソース音としての装置音声又は当該装置音声の反射音により、前記ソース音情報としての装置音声情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記装置音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【００１３】
ソース音に基づき検出音を生成するとき、元となるソース音のレベルがあまりに小さいと、出力した検出音のレベルも小さく、その反射音を検出することが困難となる。一般に、対話方式で操作者に操作してもらう対話装置では、操作者にわかりやすく説明や案内を行うために、操作者に向かってゆっくりと大きめの音量で発声を行う。したがって、距離検出時に、そのような装置発声に基づいて検出音（疑似装置音声）を生成し利用することで、精度の高い確実な距離検出を行うことができる（なおこの場合には検出タイミングは、装置発話の終了時が好ましい）。また、装置が対話用に発声している音声を利用することにより、音を用いて検出していることを操作者に比較的悟られにくいという効果や、距離算出に都合のよい音情報（周波数や振幅）を選択することで音声入力後の解析を速くできる効果もある。
【００１４】
第４発明は、上記第１発明において、前記ソース音取得手段は、装置周囲で発生し前記音声入力手段で入力された前記ソース音としての周囲音により、前記ソース音情報としての周囲音情報を取得し、前記検出音出力手段は、前記ソース音取得手段が取得した前記周囲音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力することを特徴とする。
【００１５】
距離検出時に、音声入力手段で入力した周囲音に基づいて検出音（疑似周囲音）を生成し利用することにより、音を用いて検出していることを操作者に悟られることなく、距離検出を行うことができる。
【００１６】
第５発明は、上記第１乃至第４発明のいずれかにおいて、前記距離検出手段で検出された前記操作者までの距離が所定値以下となったら、前記感度調整手段による前記ゲインの調整を開始させる、開始制御手段を有することを特徴とする。
【００１７】
対話方式で操作を行う対話装置の場合、操作者は、装置に比較的近づいてから発話を行うのが一般的である。したがって、装置から操作者までの距離が遠い場合には、操作者が操作を開始する可能性は低い。本願第５発明ではこれに対応して、開始制御手段が、操作者までの距離が比較的近くなってから音声入力手段のゲインの調整を開始する。これにより、無駄な調整動作を回避し、効率的な処理を行うことができる。
【００１８】
第６発明は、上記第５発明において、前記距離検出手段で検出された前記操作者までの距離が前記所定値より大きい場合、前記音声入力手段のゲインを所定値以上に設定する設定制御手段を有することを特徴とする。
【００１９】
前述したように、装置から操作者までの距離が遠い場合には、操作者が対話による操作を開始する可能性は低い。しかしながら、操作者によっては（あるいは状況によっては）比較的遠い距離のまま、操作者が発話を行う可能性もある。この場合、装置から操作者までの距離が遠いため、そのままでは操作者の発話音声が比較的小さいレベルで音声入力手段より入力されることとなる。そこで、本願第６発明においては、設定制御手段が音声入力手段のゲインを所定値以上に設定し、信号レベルを増大させる。これにより、このような遠方からの操作時においても、認識漏れの可能性を低減することができる。
【００２０】
第７発明は、上記第６発明において、前記感度調整手段でゲインが調整された前記音声入力手段を用いて対話処理が終了した後、所定期間が経過したら、前記感度調整手段による前記音声入力手段のゲイン調整を終了する終了制御手段を有することを特徴とする。
【００２１】
操作者との距離に応じた音声入力手段の感度調整後に対話処理が行われ、その対話処理が終了してしばらくたった場合には、対話していた操作者は既に別の場所に移動し、装置近傍に誰もいない状態になっている可能性が高い。そこで本願第７発明においてはこれに応じ、終了制御手段が、対話処理終了後所定期間が経過したら、音声入力手段のゲイン調整を終了し行わないようにする。これにより、その時点でのゲインの値により次の操作者を待ち受ける状態を確実に実現することができる。
【発明の効果】
【００２２】
本発明によれば、専用のセンサやマイクを新たに設ける必要がなく操作者までの距離検出を行い、適切なゲインで対話処理を行うことができる。
【図面の簡単な説明】
【００２３】
【図１】本発明の一実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
【図２】来訪者受付システムのシステム全体の機能構成を表す機能ブロック図である。
【図３】表示部における表示画面の一例を表す図である。
【図４】受付端末の機能的構成を示す機能ブロック図である。
【図５】ＤＢサーバの機能的構成を表す機能ブロック図である。
【図６】スピーカより疑似雑音を出力するまでの手順の概要を説明した説明図である。
【図７】来訪者までの距離を検出する手法の概要、及び、検出した距離が所定値よりも大きかった場合のゲイン制御の内容を説明した図である。
【図８】検出した距離が所定値以下であった場合のゲイン制御の内容を説明した図である。
【図９】受付端末による受付処理終了後の状態を模式的に表した図である。
【図１０】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図１１】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図１２】ソース音として来訪者の発話音声を利用する変形例において、スピーカより疑似発話音声を出力するまでの手順の概要を説明した説明図である。
【図１３】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図１４】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図１５】ソース音として受付端末の案内音声を利用する変形例において、スピーカより疑似案内音声を出力するまでの手順の概要を説明した説明図である。
【発明を実施するための形態】
【００２４】
以下、本発明の一実施の形態を図面を参照しつつ説明する。本実施形態では、本発明の対話装置を、例えば、ビルや会社その他の建造物への来訪者に対する受付業務を行う来訪者受付システムに適用した場合を表している。
【００２５】
（Ａ）システムの基本構成
図１は、本実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
【００２６】
図１において、来訪者受付システム１は、例えば会社の入口付近に設置され、操作者（この例では、会社への来訪者）Ｍが対話方式により操作可能な受付端末２０（対話装置）を有している。受付端末２０には、音声を入力するためのマイク２０７（音声入力手段）と、音声を出力するためのスピーカ２０８（音声出力手段）とが設けられている。
【００２７】
受付端末２０は、来訪者Ｍとの対話処理（この例では、来訪者Ｍとの対話による受付処理）や、マイク２０７及びスピーカ２０８に入出力される音声を用いた来訪者Ｍまでの距離の検出を行い、その検出した距離に基づき、マイク２０７のゲイン（後述）の調整を行う。本実施形態では、受付端末２０から来訪者Ｍまでの距離を検出する方法として、スピーカ２０８から距離検出用の検出音（この例では、後述の疑似雑音）を出力させて、その疑似雑音が来訪者Ｍで反射し、その反射音がマイク２０７に入力されるまでの所要時間を測定する。そして、この所要時間が、来訪者Ｍまでの距離に比例するという関係から、来訪者Ｍまでの距離を検出する。すなわち、来訪者Ｍまでの距離をＬ、上記所要時間をｔとすると、
Ｌ＝ｃ×ｔ／２・・・（式１）
で表される関係が成り立つ（詳細は図７で後述する）。なお、ｃは音速（約３４０［ｍ／ｓ］。但し、媒体である空気の密度や圧力により異なる）である。
【００２８】
上記（式１）を解くことによって、来訪者Ｍまでの距離が検出できる。そして、検出した距離に基づき、マイク２０７のゲインを調整（設定）する（詳細は後述する）。
また、図１に示すように、受付端末２０は、表示部２１０、上記マイク２０７、及び上記スピーカ２０８を有している。表示部２１０は、例えば液晶ディスプレイで構成され、この例では水平に設置されるベース２１２に対してアーム２１１を介し支持され、来訪者Ｍの視線に対して直角となるように面方向が斜め上方を向いている。マイク２０７は、ベース２１２に対し先端を来訪者Ｍ側へ向けるようにして略円弧状に配置されている。
【００２９】
なお、表示部２１０をタッチパネルで構成し、表示される表示画面を来訪者Ｍが直接画面に触れながら操作できるようにしてもよい。
【００３０】
図２は、来訪者受付システム１のシステム全体の機能構成を表す機能ブロック図である。
【００３１】
図２において、来訪者受付システム１は、上記受付端末２０と、周知のパーソナルコンピュータにより構成されるＤＢサーバ１０と、会社の従業員それぞれに対応して設けられた複数の（この例では２つの）ＩＰ電話機６０と、それら複数のＩＰ電話機６０の回線交換を行う周知の交換装置であるＩＰ−ＰＢＸ（ＩｎｔｅｎｅｔＰｒｏｔｏｃｏｌＰｒｉｖａｔｅＢｒａｎｃｈｅＸｃｈａｎｇｅ）５０とを有し、これらはすべてルータ４０を介して接続されている。
【００３２】
受付端末２０は、端末本体２０Ａと、この端末本体２０Ａに接続された、上記表示部２１０、ゲイン可変アンプ２１７、及び上記スピーカ２０８と、上記ゲイン可変アンプ２１７に接続された上記マイク２０７とを有している。
【００３３】
マイク２０７は、入力された音声を音声情報に変換し、ゲイン可変アンプ２１７へ出力する。
【００３４】
ゲイン可変アンプ２１７は、マイク２０７から入力された音声情報を増幅（この例では後述のＣＰＵ２０１からの制御信号によってマイク２０７のゲインが決定される増幅）して、端末本体２０Ａへ出力する。上記マイク２０７のゲインとは、入力と出力との比（出力／入力）、すなわち、ＣＰＵ２０１の制御によりゲイン可変アンプ２１７が行う増幅の度合い（＝増幅度）のことである。
【００３５】
スピーカ２０８は、端末本体２０Ａから入力された音声信号を、来訪者Ｍに対する報知音（案内音声）や距離検出用の検出音（この例では後述の疑似雑音。あるいは、疑似装置発声音や疑似発話音声でもよい。後述の（１）及び（２）の変形例参照）に変換して出力する。
【００３６】
図３は、表示部２１０における表示画面の一例を表す図である。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物ＩＭが、後述の受付処理が開始されると、オフィス風の背景Ｇとともに表示される。また、スピーカ２０８から発話される音声に対応する文章Ｂ（図中では「＊＊＊」で略記している）が併せて表示される。
【００３７】
（Ｂ）受付端末の詳細機能
図４は、受付端末２０の機能的構成を示す機能ブロック図である。
【００３８】
図４において、受付端末２０の端末本体２０Ａは、制御回路部２００と、入出力（Ｉ／Ｏ）インタフェイス２０４と、ハードディスク装置（ＨＤＤ）２０５と、計時手段であるタイマ２０９とを有している。
【００３９】
制御回路部２００は、ＣＰＵ２０１と、受付端末２０の基本的な動作に必要なプログラムやそのための設定値を記憶したＲＯＭ２０２と、各種データを一時的に記憶するＲＡＭ２０３とを備えている。ＣＰＵ２０１は、ＲＯＭ２０２や、ＨＤＤ２０５に記憶されたプログラムに従って、受付端末２０全体の動作を制御する。
【００４０】
Ｉ／Ｏインタフェイス２０４には、上記ＣＰＵ２０１と、上記ハードディスク装置２０５と、上記タイマ２０９と、上記表示部２１０と、上記ゲイン可変アンプ２１７と、上記スピーカ２０８と、ネットワーク（ＮＷ）カード２０６とが接続されている。
【００４１】
ＨＤＤ２０５には、音声認識に使用するための言語モデル記憶エリア２５２、単語辞書記憶エリア２５３、来訪者を特定するための音声認識に使用される来訪者辞書記憶エリア２５４、及びプログラム記憶エリア２５６を含む複数の記憶エリアを備えている。
【００４２】
プログラム記憶エリア２５６には、例えば、受付端末２０の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末２０の基本的な動作を制御するシステムプログラム、ＤＢサーバ１０との通信を制御する通信プログラム、表示部２１０に表示する画像を生成する描画プログラム、上述した音声認識を実行する音声認識プログラム、ＤＢサーバ１０のデータベースにアクセスし照合を行うためのＤＢ照合プログラム、音声合成プログラム、対話制御プログラム、ＩＰ電話機６０とＩＰ−ＰＢＸ５０との接続に係わる電話接続プログラム、前述した距離検出を制御する距離検出プログラム、前述したマイク２０７のゲインの調整を制御する感度調整プログラム等がある。
【００４３】
なお、図示はされていないが、ＨＤＤ２０５には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴（例えば、周波数特性）と対応する音素とで表現されている。
【００４４】
ＮＷカード２０６は、上記ルータ４０に接続され、ＤＢサーバ１０などとの間でデータの送受信を可能とするための拡張カードである。
【００４５】
（Ｃ）ＤＢサーバの詳細機能
図５は、ＤＢサーバ１０の機能的構成を表す機能ブロック図である。
【００４６】
図５に示すように、ＤＢサーバ１０は、ＣＰＵ１０１と、ＣＰＵ１０１に各々接続されたＲＯＭ１０２及びＲＡＭ１０３と、ＣＰＵ１０１に接続された入出力（Ｉ／Ｏ）インタフェイス１０４と、Ｉ／Ｏインタフェイス１０４にそれぞれ接続された、マウスコントローラ１０６、キーコントローラ１０７、ビデオコントローラ１０８、通信装置１０９、及びハードディスク装置（ＨＤＤ）１５０とを有している。
【００４７】
ＲＯＭ１０２は、ＢＩＯＳを含む、ＤＢサーバ１０を動作させるための各種のプログラムを記憶している。ＲＡＭ１０３は、各種データを一時的に記憶する。ＣＰＵ１０１は、ＲＯＭ１０２や、後述するＨＤＤ１５０に記憶されたプログラムに従って、ＤＢサーバ１０の全体の制御を司る。
【００４８】
マウスコントローラ１０６、キーコントローラ１０７、及びビデオコントローラ１０８には、それぞれマウス１１６、キーボード１１７、及びディスプレイ１１８が接続されている。通信装置１０９は、ルータ４０に接続され、受付端末２０等、外部機器との間でデータの送受信を行うことを可能とする。
【００４９】
ＨＤＤ１５０は、予定された来訪者Ｍに関する来訪情報を格納する来訪者予約データベース（ＤＢ）記憶エリア１５１、社員情報を格納する社員データベース（ＤＢ）記憶エリア１５５、及びプログラム記憶エリア１５６を含む複数の記憶エリアを備えている。
【００５０】
プログラム記憶エリア１５６には、システムプログラム、通信プログラム等、各種処理をＤＢサーバ１０に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばＣＤ−ＲＯＭに記憶されたものがＣＤ−ＲＯＭドライブ（図示せず）を介してインストールされ、プログラム記憶エリア１５６に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
【００５１】
（Ｄ）ゲインの調節の流れ
以上のような構成の本実施形態の最大の特徴は、マイク２０７を介し取得された雑音情報に基づき距離検出用の疑似雑音を生成しスピーカ２０８を介し出力することと、マイク２０７を介して取得した上記疑似雑音の反射音情報に基づき来訪者Ｍまでの距離を検出することと、その距離検出結果に基づきマイク２０７のゲインを調整することである。以下、その詳細を順を追って説明する。
【００５２】
図６は、スピーカ２０８より疑似雑音を出力するまでの手順の概要を説明した説明図である。
【００５３】
図６（ａ）には、マイク２０７に入力された雑音より、疑似雑音情報を生成する手順を模式的に示している。図６（ａ）に示すように、受付端末２０の周囲で、疑似雑音の生成元となるソース音としての雑音（周囲音。この例では、会社内の所定の場所に設置されたドア３０が閉まる音）が発生すると、この雑音が伝搬してマイク２０７に入力される。これにより、入力した雑音に対応する振幅（あるいは周波数でもよい。以下同様）を含むソース音情報としての雑音情報（周囲音情報）が取得され、この雑音情報に基づき、疑似雑音情報が生成される。なお、このとき、疑似雑音情報のサンプリング周波数が１６［ｋＨｚ］以上となるように生成してもよい。その場合、市販の音響モデルとの互換性を確保できるので、より利便性・応用性が高くなる。
【００５４】
図６（ｂ）には、スピーカ２０８より疑似雑音が出力された状態を模式的に示している。図６（ｂ）に示すように、上記図６（ａ）のようにして疑似雑音情報が生成されると、この疑似雑音情報に基づき、距離検出用の疑似雑音がスピーカ２０８より出力される。なお、疑似雑音は、当該疑似雑音の生成元となった雑音がマイク２０７に入力されてから所定時間（例えば、１［ｍｓｅｃ］）以内にスピーカ２０８より出力される。
【００５５】
また、スピーカ２０８より疑似雑音が出力されるのとほぼ同時に、タイマ２０９（図４参照）が起動される。これにより、スピーカ２０８より疑似雑音が出力されてから、この疑似雑音が対象物に反射し、その反射音がマイク２０７に入力されるまでの所要時間（以下、単に「所要時間」という）の測定（計測）が開始される。本実施形態では、上記疑似雑音の反射音の反射元となった対象物が、来訪者Ｍであるとみなし（推測し）、後述のようにして来訪者Ｍまでの距離を検出する。
【００５６】
図７は、来訪者Ｍまでの距離を検出する手法の概要、及び、検出した距離に応じたゲイン制御の内容を説明した図である。
【００５７】
図７において、上記図６（ｂ）のようにしてスピーカ２０８より出力された疑似雑音は、所定の距離範囲（伝搬可能な距離範囲。パワーによって異なる）に伝搬される。このとき、当該範囲内に来訪者Ｍが存在すると、上記疑似雑音は、来訪者Ｍにより反射し、その反射音が伝搬してマイク２０７に入力される。これにより、対応する反射音情報が取得される。そして、マイク２０７に反射音が入力されると、タイマ２０９によって行われていた上記所要時間の測定が終了する。すなわち、このときのタイマ２０９の測定値が上記所要時間となる。
【００５８】
また、この例では、上記タイマ２０９による計時を開始してから予め定められた所定の最小音波受音時間を経過するまでは上記反射音情報の取得は開始されないようになっている。上記最小音波受音時間とは、スピーカ２０８より出力された疑似雑音が、来訪者Ｍに反射することなく、直接マイク２０７に入力されるまで（＝いわゆる疑似雑音のスピーカ２０８からマイク２０７への周り込み）の所要時間である。例えば、スピーカ２０８とマイク２０７との間の距離が３０［ｃｍ］であるとすると、最小音波受音時間は１．７３［ｍｓｅｃ］となる。タイマ２０９の測定時間が最小音波受音時間を経過するまで、マイク２０７には、疑似雑音の反射音は入力されない。したがって、最小音波受音時間が経過するまで反射音情報の取得を開始せずに待つことで、マイク２０７に入力する不要な音声（上記周り込みした疑似雑音）を除外することができる。
【００５９】
さらに、この例では、上記タイマ２０９による計時を開始してから予め定められた所定の最大音波受音時間を経過すると、反射音情報の取得は終了され、再び雑音情報の取得が開始されるようになっている。上記最大音波受音時間とは、スピーカ２０８より出力された疑似雑音が、所定の距離（例えば、受付端末２０による受付処理が行われる可能性がある最大距離）より反射され、その反射音がマイク２０７に入力されるまでの所要時間である。例えば、上記最大距離を１００［ｃｍ］とすると、最大音波受音時間は５．７７［ｍｓｅｃ］となる。この最大音波受音時間を経過した後、マイク２０７に入力された疑似雑音の反射音は、上記所定の距離より遠い（受付をするには遠い）位置に存在する対象物（来訪者Ｍとは限らない）により反射されたものである。タイマ２０９の測定時間が最大音波受音時間を経過すると、反射音情報の取得を終了とすることで、不要な反射音を除外することができる。
【００６０】
また、上記疑似雑音及びその反射音は、共に音波であるので受付端末２０と来訪者Ｍとの間を音速で伝搬している。また、上記所要時間は、上記疑似雑音及びその反射音、すなわち音波が、受付端末２０と来訪者Ｍとの間を往復する往復伝搬時間である（詳細にはスピーカ２０８→来訪者Ｍ間の疑似雑音の伝搬時間と、来訪者Ｍ→マイク２０７間の反射音の伝搬時間との合計時間）。すなわち、音速と、上記所要時間の半分（＝片道の伝搬時間に相当）との積の値が、受付端末２０から来訪者Ｍまでの距離となる。このようなことから、上記の（式１）（図１参照）を解くことによって、受付端末２０から来訪者Ｍまでの距離を検出（算出）することができるのである。
【００６１】
例えば、音速を３４６．５［ｍ／ｓ］とし、タイマ２０９の測定値（＝上記所要時間）を２．０［ｍｓｅｃ］とすると、来訪者Ｍまでの距離Ｌは、
Ｌ＝３４６．５×２．０×１０^−３／２＝３４６．５×１０^−３［ｍ］≒３５［ｃｍ］
となる。
【００６２】
そして、図７の下段に示すように、上記の方法により検出された受付端末２０から来訪者Ｍまでの距離Ｌが所定値Ｌ０（例えば８０［ｃｍ］）よりも大きかった（Ｌ＞Ｌ０）場合には、マイク２０７のゲイン（＝上記ゲイン可変アンプ２１７での増幅度）を、所定値以上に（この例では固定的に）設定するようになっている。
【００６３】
一方、上記検出した距離Ｌが所定値Ｌ０以下であった場合のゲイン制御の内容を図８を用いて説明する。この図８は上記図７に対応する図である。
【００６４】
図８において、この例では、来訪者Ｍが、上記図７の状態に比べて少し受付端末２０に近づき、これによって受付端末２０から来訪者Ｍまでの距離Ｌが上記所定値Ｌ０以下となっている。そして、このＬ≦Ｌ０が検出されたことに応じて、マイク２０７のゲインの調整が開始され、検出された距離に応じて上記ゲインの値が制御されるようになっている。
【００６５】
本実施形態の受付端末２０では、例えば前述のようにしてマイク２０７のゲインの調整が開始されるのとほぼ同じタイミングで（すなわち上記Ｌ≦Ｌ０となったときに）受付処理が開始される（あるいは、所定の開始操作が行われることにより受付処理が開始されるようにしてもよい。後述の（１）及び（２）の変形例参照）。受付処理は、表示部２１０に所定の表示画面を表示しつつ、対話方式により行われる。
【００６６】
すなわち、受付処理では、スピーカ２０８より所定の案内音声（例えば、「いらっしゃいませ。どちら様でしょうか」等）が出力され、さらにこれに併せて表示部２１０に所定の表示画面が表示される（例えば、前述した図３参照）。来訪者Ｍがこれら案内音声や表示に応じて、受付端末２０に対して発話すると、対応する来訪者Ｍの発話音声がマイク２０７によって入力される。
【００６７】
このとき、マイク２０７に入力された来訪者Ｍの発話音声の情報は、上記ゲイン可変アンプ２１７で、上記検出された距離に基づいて調整されたゲイン（増幅度）に応じて増幅される。そして、増幅された音声情報は、端末本体２０Ａ（図２等参照）に入力され、上記来訪者辞書記憶エリア２５４に記憶された来訪者辞書を用いて、音声認識が行われる（詳細は図１１で後述する）。また、来訪者Ｍが、受付端末２０を操作（発話による操作）している期間も、来訪者Ｍ（すなわち受付端末２０を操作中の来訪者Ｍ）の距離検出（図６〜図８参照）は引き続き行われ、その検出距離の結果に基づき上記ゲインの調整も随時行われている。
【００６８】
図９（ａ）及び図９（ｂ）は、受付端末２０による受付処理終了後の状態を模式的に表した図である。受付端末２０による受付処理が終了した直後では、来訪者Ｍは、まだ対話操作を行っていた受付端末２０の近傍に存在している（図９（ａ）に示した状態）。そして、受付処理が終了した後、所定期間（例えば１０秒）が経過すると、受付端末２０の近傍に存在した来訪者Ｍは、受付処理での応対結果（例えば担当者の指示により待合室で待機するよう応対される等）に応じて、受付端末２０から離れ、別の場所（例えば、待合室や担当者のいる居室等）に移動し、受付端末２０の近傍には誰もいない状態となる（図９（ｂ）に示した状態）。
【００６９】
本実施形態では、上記図９（ｂ）に示した状態、すなわち、受付処理が終了した後、所定期間が経過したら、上記マイク２０７のゲインを、現在設定されているゲイン（受付処理終了後、所定期間が経過する直前のゲイン）にこの例では固定的に設定し、上記受付処理中に行われていたゲインの調整を終了させる。そして、このようにゲインが固定された状態で、上記図６（ａ）の状態に戻り、次の来訪者Ｍが来るのを待つようになっている。
【００７０】
（Ｅ）制御手順
図１０は、以上説明した内容を実現するために、受付端末２０の制御回路部２００により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、ＨＤＤ２０５のプログラム記憶エリア２５６に記憶された来訪者受付処理用のプログラム群（前述のシステムプログラム、描画プログラム、音声認識プログラム、対話制御プログラム、距離検出プログラム、感度調整プログラム等）に従って、ＣＰＵ２０１が実行するものである。
【００７１】
図１０において、例えば受付端末２０の電源ＯＮによって、このフローが開始される（「ＳＴＡＲＴ」位置）。
【００７２】
まずステップＳ１０で、所定の初期化処理を実行する（このとき、マイク２０７のゲインの調整を開始したことを表す調整開始フラグＦｓをＦｓ＝０への初期化も併せて行う）。
【００７３】
そして、ステップＳ２０において、距離検出用の疑似雑音の生成元となる雑音をマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力し、雑音情報を取得する（ソース音取得手段としての機能）。
【００７４】
その後、ステップＳ３０で、上記ステップＳ２０で取得した雑音情報に所定の処理を行い、疑似雑音情報を生成する。
【００７５】
そして、ステップＳ４０に移り、Ｉ／Ｏインタフェイス２０４を介してスピーカ２０８に上記生成した疑似雑音情報を出力し、疑似雑音を出力させる（検出音出力手段としての機能）。
【００７６】
その後、ステップＳ５０で、Ｉ／Ｏインタフェイス２０４を介してタイマ２０９に制御信号を出力し、タイマ２０９を起動させる。これにより、上記ステップＳ４０で出力した疑似雑音が対象物（来訪者Ｍ）に反射し、後述のステップＳ７０でその反射音がマイク２０７に入力されるまでの所要時間の測定（計時測定）が開始される。
【００７７】
そして、ステップＳ６０に移り、タイマ２０９の測定時間に基づき、測定時間が前述の最小音波受音時間を経過したか否かを判定する。最小音波受音時間を経過するまでは判定が満たされずループ待機し、最小音波受音時間を経過したら判定が満たされて、ステップＳ７０に移る。
【００７８】
ステップＳ７０では、マイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して、上記疑似雑音の（対象物での）反射音を入力した否かを判定する。この判定は、上記疑似雑音情報とマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力した音声の情報とのパワースペクトルを比較する等の公知の手法により行えば足りる。上記疑似雑音の反射音を入力していない場合には、判定が満たされずステップＳ８０に移る。
【００７９】
ステップＳ８０では、タイマ２０９の測定時間に基づき、測定時間が前述の最大音波受音時間を経過したか否かを判定する。最大音波受音時間を経過していない場合には、判定が満たされず上記ステップＳ７０に戻り、同様の手順を繰り返す。最大音波受音時間を経過した場合には、判定が満たされて、上記ステップＳ２０に戻り、同様の手順を繰り返す。
【００８０】
一方、上記ステップＳ７０において、上記疑似雑音の反射音を入力していた場合には、ステップＳ７０の判定が満たされてステップＳ９０に移る。
【００８１】
ステップＳ９０では、上記ステップＳ７０でマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力された上記疑似雑音の反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する。
【００８２】
その後、ステップＳ１００で、上記ステップＳ９０で取得された反射音情報と、上記ステップＳ６０より計時開始されたタイマ２０９のこの時点での計測時間とに基づき、所定の演算処理（この例では、前述の図１や図７等で説明した上記の式１を用いる手法）を行い、上記反射音の反射元となった対象物が来訪者Ｍであると推測して、来訪者Ｍまでの距離Ｌを検出する（距離検出手段としての機能）。
【００８３】
そして、ステップＳ１１０で、上記ステップＳ１００での距離検出結果に基づき、検出した来訪者Ｍまでの距離Ｌが上記所定値Ｌ０以下であるか否かを判定する。Ｌ＞Ｌ０の場合には、判定が満たされずステップＳ１２０に移る。
【００８４】
ステップＳ１２０では、マイク２０７のゲインを、予め定められた所定値以上に固定的に設定する（設定制御手段としての機能）。例えば、マイク２０７のゲインとして制御可能な範囲中の最大値としてもよい。これにより、マイク２０７を介し入力した音声情報は、ゲイン可変アンプ２１７によって、当該設定されたゲインの値により増幅される。その後、上記ステップＳ２０に戻り、同様の手順を繰り返す。
【００８５】
一方、上記ステップＳ１１０において、Ｌ≦Ｌ０であった場合には、判定が満たされてステップＳ１３０に移る。
【００８６】
ステップＳ１３０では、上記ステップＳ１００での距離検出結果に基づき、適切な（最良の）マイク２０７のゲインを算出する。
【００８７】
そして、ステップＳ１４０では、上記ステップＳ１３０での算出結果に基づき、マイク２０７のゲインを調整して設定する（感度調整手段としての機能）。これにより、マイク２０７を介し入力した音声情報は、ゲイン可変アンプ２１７によって、当該設定されたゲインにより増幅される。
【００８８】
その後、ステップＳ１５０で、上記調整開始フラグＦｓを、ゲインの調整開始を表すＦｓ＝１とし、ステップＳ１６０に移る。
【００８９】
ステップＳ１６０では、受付処理が終了したことを表す受付終了フラグＦｔがＦｔ＝１であるか否かを判定する。Ｆｔ＝０のままである場合（＝受付処理が終了していない場合）は、判定が満たされず上記ステップＳ２０に戻り、同様の手順を繰り返す。そして、Ｆｔ＝１になったら（＝受付処理が終了したら）、判定が満たされてステップＳ１８０に移る。
【００９０】
ステップＳ１８０では、上記ステップＳ１４０でゲインが調整されたマイク２０７を用いて受付処理が終了した後、言い換えれば、後述の図１１のステップＳ３６０で上記受付終了フラグＦｔが受付処理の終了を表すＦｔ＝１になった後、所定期間が経過したか否かを判定する。Ｆｔ＝１になった後、所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップＳ１９０に移る。
【００９１】
ステップＳ１９０では、マイク２０７のゲインを、直前の上記ステップＳ１４０で設定したゲインに（つまりこの時点でのゲインの値に）固定し、上記ステップＳ１４０での上記ゲインの調整を終了させる（終了制御手段としての機能）。その後、ステップＳ１９５に移る。
【００９２】
ステップＳ１９５では、上記調整開始フラグＦｓをＦｓ＝０とする。そして、このフローを終了する。なお、このフローは、例えば受付端末２０の電源がＯＮの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔（例えば２秒間隔）で繰り返し継続して実行される。
【００９３】
なお、以上において、ステップＳ７０及びステップＳ９０が、各請求項記載の反射音取得手段として機能し、ステップＳ１１０が、開始制御手段として機能する。
【００９４】
図１１は、上記図１０のフローと並行して、受付端末２０の制御回路部２００により実行する制御手順を表すフローチャートである。上記図１０のフローが来訪者Ｍまでの距離に基づくマイク２０７のゲインの調整に関するものであるのに対し、この図１１のフローは、受付処理に関するものである。なお、これら図１０及び図１１の２つのフローは、例えばコンピュータのＯＳ等でしばしば行われる「マルチタスク処理」と同様の公知の手法により、前述の来訪者受付処理用のプログラム群に従って、ＣＰＵ２０１によって同時並行処理されるようになっている。
【００９５】
図１１において、例えば受付端末２０の電源ＯＮによって、このフローが開始される（「ＳＴＡＲＴ」位置）。
【００９６】
まずステップＳ２００で、上記受付終了フラグＦｔをＦｔ＝０に初期化する。
【００９７】
その後、ステップＳ２１０で、上記調整開始フラグＦｓがゲインの調整開始を表すＦｓ＝１であるか否かを判定する。Ｆｓ＝０のままである場合（＝ゲインの調整が開始されていない場合）には、判定が満たされずループ待機する。Ｆｓ＝１になったら（＝ゲインの調整が開始されたら）、判定が満たされてステップＳ２２０に移る。
【００９８】
ステップＳ２２０では、来訪者Ｍの発話音声を認識するために、ＤＢサーバ１０の来訪者予約データベース１５１０を参照しつつＨＤＤ２０５の来訪者辞書記憶エリア２５４に記憶された来訪者辞書を取得し、辞書更新を行う。すなわち、前述したように、受付処理が開始された時刻、言い換えれば、上記ステップＳ２１０の判定が満たされた時刻を基準とし、来訪者予約データベース１５１０の全予約データのうちその前後所定時間以内（例えば１時間以内等）を訪問予定日時とする予約データに基づいて作成された辞書を取得する。
【００９９】
そして、ステップＳ２３０に移り、Ｉ／Ｏインタフェイス２０４を介してスピーカ２０８へ音声信号を出力し、”いらっしゃいませ。どちら様でしょうか。（マイクに向かってお名前を入力してください）”という来訪者氏名を問いかける台詞を含む案内音声を出力させる。なお、このとき、表示部２１０に台詞と同様の内容のテキストを含む表示画面を表示させてもよい（後述のステップＳ２６０、ステップＳ３１０、ステップＳ３３０、及びステップＳ３４０についても同様）。
【０１００】
その後、ステップＳ２４０で、この問いかけに対応して発話した来訪者Ｍの発話音声の情報をマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力し（このときのゲイン可変アンプ２１７での増幅は、上記図１０のステップＳ１４０で調整されたゲインにより実行される）、上記ステップＳ２２０で取得した来訪者辞書を用いて音声認識を行う。
【０１０１】
そして、ステップＳ２５０に移り、上記入力した来訪者Ｍの発話音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップＳ２５０の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かってお名前を入力してください”という音声認識ができなかったことを来訪者Ｍに通知する台詞を含む案内音声をスピーカ２０８に出力させ、上記ステップＳ２４０に戻り、同様の手順を繰り返す。なお、この図１１では図示を省略しているが、上記案内音声の出力は、予め定められた設定回数だけ行われ、その間に音声認識できない場合には、対応する処理（例えば部署代表やその他の受付担当者等に取り次ぐ等）を行う（後述のステップＳ２８０、ステップＳ３００、ステップＳ３３０、及びステップＳ３４０についても同様）。一方、言語として音声認識できた場合には、ステップＳ２５０の判定が満たされステップＳ２６０に移る。
【０１０２】
ステップＳ２６０では、Ｉ／Ｏインタフェイス２０４を介してスピーカ２０８へ音声信号を出力し、”マイクに向かって担当者名を入力してください”という担当者名を問いかける台詞を含む案内音声を出力させる。
【０１０３】
その後、ステップＳ２７０で、この問いかけに対応して発話した来訪者Ｍの発話音声情報をマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力し（上記同様、このときのゲイン可変アンプ２１７での増幅は、上記図１０のステップＳ１４０で調整されたゲインにより実行される）、上記ステップＳ２４０と同様の方法により音声認識を行う。
【０１０４】
そして、ステップＳ２８０に移り、上記入力した来訪者Ｍの発話音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップＳ２５０の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かって担当者名を入力してください”という音声認識ができなかったことを来訪者Ｍに通知する台詞を含む案内音声をスピーカ２０８に出力させ、上記ステップＳ２７０に戻り、同様の手順を繰り返す。言語として音声認識できた場合には、判定が満たされステップＳ２９０に移る。
【０１０５】
ステップＳ２９０では、ＤＢサーバ１０の来訪者予約データベース１５１０にアクセスし、上記ステップＳ２４０及びステップＳ２７０において音声情報の音声認識により取得した来訪者名及び担当者名が、来訪者予約データベース１５１０のいずれかの予約データの「来訪者名」「担当者名」と一致するか否かを照合する。なお、完全な一致ではなく、ある類似幅、許容幅を持たせた範囲内で適合するかどうかを照合するようにしてもよい。
【０１０６】
その後、ステップＳ３００では、上記ステップＳ２９０での照合結果が一致したか（適合したか）否かを判定する。ステップＳ２９０での照合結果が一致しなかった（該当する来訪者名及び担当者名の予約データが存在しなかった）場合には判定が満たされず、”予約がされていませんでした。もう一度マイクに向かってお名前を入力してください”という予約データが存在しなかったことを来訪者Ｍに通知する台詞を含む案内音声をスピーカ２０８に出力させ、上記ステップＳ２４０に戻り、同様の手順を繰り返す。ステップＳ２９０での照合結果が一致した（該当する来訪者名及び担当者名の予約データが存在した）場合には、判定が満たされステップＳ３１０に移る。
【０１０７】
ステップＳ３１０では、Ｉ／Ｏインタフェイス２０４を介してスピーカ２０８へ音声信号を出力し、予約内容とともに、”この内容でよろしいでしょうか。（よろしければ、「はい」を、間違っていたら、「いいえ」をマイクに向かって入力してください）”という最終確認を問いかける台詞を含む案内音声を出力させる。
【０１０８】
そして、ステップＳ３２０に移り、この問いかけに対応して発話した来訪者Ｍの音声情報をマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力し（上記同様、このときのゲイン可変アンプ２１７での増幅は、上記図１０のステップＳ１４０で調整されたゲインにより実行される）、上記ステップＳ２４０と同様の方法により音声認識を行う。
【０１０９】
その後、ステップＳ３３０で、上記入力した来訪者Ｍからの音声情報が音声認識できたか否かを判定する。言語として音声認識できなかった場合にはステップＳ３３０の判定が満たされず、”音声を認識できませんでした。もう一度マイクに向かって「はい」、「いいえ」を入力してください”という音声認識ができなかったことを来訪者Ｍに通知する台詞を含む案内音声をスピーカ２０８に出力させ、上記ステップＳ３２０に戻り、同様の手順を繰り返す。言語として音声認識できた場合には、判定が満たされステップＳ３４０に移る。
【０１１０】
ステップＳ３４０では、上記ステップＳ３２０において音声情報の音声認識により取得した情報（「はい」又は「いいえ」）が、「はい」であったか否かを判定する。「いいえ」であった場合には判定が満たされず、”操作を最初からやり直します。もう一度マイクに向かってお名前を入力してください”という操作のやり直しを来訪者Ｍに通知する台詞を含む案内音声をスピーカ２０８に出力させ、上記ステップＳ２３０に戻り、同様の手順を繰り返す。「はい」であった場合には、判定が満たされステップＳ３５０に移る。
【０１１１】
ステップＳ３５０では、正当な来訪者Ｍが訪ねてきたことが確認できたことに対応して、対応する担当者のＩＰ電話機６０に発信（コール）を行う。具体的には、担当者への通知文を作成し、その通知文のテキストデータを音声データに変換し、上記予約データにより特定された担当者の電話番号を用いて、ＩＰ−ＰＢＸ５０を介し、担当者の使用するＩＰ電話機６０に、音声データを発信する。
【０１１２】
そして、ステップＳ３６０で、上記受付終了フラグＦｔを受付処理の終了を表すＦｔ＝１にした後、このフローを終了する。なお、このフローは、例えば受付端末２０の電源がＯＮの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔（例えば２秒間隔）で繰り返し継続して実行される。
【０１１３】
以上説明したように、本実施形態の受付端末２０においては、距離検出用の検出音（上記の例では疑似雑音）を用いて来訪者Ｍとの距離を検出する。すなわち、疑似雑音生成時の生成元となる雑音がマイク２０７を介して入力されると、対応する振幅を含む雑音情報を取得し（図１０のステップＳ２０参照）、これに基づく疑似雑音をスピーカ２０８を介し出力する（図１０のステップＳ４０参照）。そして、出力された疑似雑音の反射音情報に基づき、来訪者Ｍまでの距離を検出する（図１０のステップＳ１００参照）。
【０１１４】
そして、検出された来訪者Ｍまでの距離に基づき、距離に応じた適切な（最良の）マイク２０７のゲインを算出し、ゲイン調整を行う（図１０のステップＳ１４０参照）。すなわち、来訪者Ｍまでの距離が比較的近い場合には、対話時の来訪者Ｍの発話音声が比較的大きいレベルで入力されることから、上記ゲインを低く設定する。一方、来訪者Ｍまでの距離が比較的遠い場合には、対話時の来訪者Ｍの発話音声が比較的小さいレベルで入力されることから、上記ゲインを高く設定する。これにより、適切な信号レベルで受付処理を行うことができる。この結果、認識漏れのない、確実な受付処理を行うことができる。
【０１１５】
以上のように、本実施形態の受付端末２０によれば、マイク２０７及びスピーカ２０８を介して入出力する音を用いて、来訪者Ｍまでの距離を検出することができる。すなわち、受付処理のためにもともと備わっているマイク２０７やスピーカ２０８を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく距離検出を行うことができ、それに基づく適切なゲインで確実な受付処理を行うことができる。
【０１１６】
また、本実施形態では特に、マイク２０７で入力された雑音により、雑音情報を取得し、この取得した雑音情報に基づき生成した疑似雑音を、スピーカ２０８を介し出力する。このように、距離検出時に、マイク２０７で入力した雑音に基づいて疑似雑音を生成し利用することにより、音を用いて検出していることを来訪者Ｍに悟られることなく、距離検出を行うことができる。
【０１１７】
また、受付端末２０において対話方式で操作を行うとき、来訪者Ｍは、受付端末２０に比較的近づいてから発話を行うのが一般的であり、受付端末２０から来訪者Ｍまでの距離が遠い場合には、来訪者Ｍが操作を開始する可能性は低い。そこでこれに対応し、本実施形態では特に、上記図１０のステップＳ１００で検出した来訪者Ｍまでの距離Ｌが所定値Ｌ０以下となってから、上記ゲインの調整を開始する。すなわち、検出した来訪者Ｍまでの距離が比較的近くなってから上記ゲインの調整を開始することにより、無駄な調整動作を回避し、効率的な処理を行うことができる。
【０１１８】
また、受付端末２０から来訪者Ｍまでの距離が遠い場合、来訪者Ｍが対話操作を行う可能性は低いが、来訪者Ｍによっては（あるいは状況によっては）比較的遠い距離のまま、発話を行う可能性もある。このとき、受付端末２０から来訪者Ｍまでの距離が遠いため、そのままでは来訪者Ｍの発話音声が比較的小さいレベルでマイク２０７より入力されることとなる。そこでこれに対応して、本実施形態では特に、上記図１０のステップＳ１００で検出した来訪者Ｍまでの距離Ｌが所定値Ｌ０より大きい場合、マイク２０７のゲインを所定値以上に設定し（図１０のステップＳ１２０参照）、信号レベルをある程度まで増大させる。これにより、上記のような遠方からの対話操作時においても、認識漏れの可能性を低減することができる。
【０１１９】
また、来訪者Ｍとの距離に応じたマイク２０７のゲイン調整後に受付処理が行われ、その受付処理が終了してしばらくたった場合には、対話していた来訪者Ｍは既に別の場所に移動し、受付端末２０近傍に誰もいない状態（図９（ｂ）の状態）になっている可能性が高い。これに対応して、本実施形態では特に、ゲインが調整されたマイク２０７を用いて受付処理が終了した後、所定期間が経過したら、上記ゲインの調整を終了する（図１０のステップＳ１９０参照）。すなわち、この場合、受付処理終了後所定期間が経過したら、直前に設定した上記ゲインに固定して、上記ゲインの調整を終了し、調整を行わないようにする。これにより、この時点でのゲインの値により次の来訪者Ｍの待ち受け状態を確実に実現することができる。
【０１２０】
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。
【０１２１】
（１）ソース音として来訪者の発話音声を利用する場合
上記実施形態においては、距離検出用の検出音（上記の例では疑似雑音）の生成元となるソース音として、受付端末２０の周囲で発生した雑音を利用していたが、これに限られない。すなわち、上記ソース音として、受付処理において来訪者Ｍが発声した発話音声を利用するようにしてもよい。
【０１２２】
図１２（ａ）及び図１２（ｂ）は、本変形例において、スピーカ２０８より疑似発話音声を出力するまでの手順の概要を説明した説明図である。
【０１２３】
本変形例の受付端末２０では、上記実施形態と異なり、例えば来訪者Ｍによって図示しない操作部が適宜に操作されることにより、受付処理が開始される。そして、図１２（ａ）に示すように、受付処理中において、来訪者Ｍが受付端末２０に対して発話すると、来訪者Ｍより発声されたソース音としての発話音声が伝搬してマイク２０７に入力される。これにより、入力した来訪者Ｍの発話音声に対応する振幅（又は周波数でもよい）を含むソース音情報としての発話音声情報が取得され、この発話音声情報に基づき、疑似発話音声情報が生成される。
【０１２４】
そして、図１２（ｂ）に示すように、上記のようにして疑似発話音声情報が生成されると、この疑似発話音声情報に基づき、疑似発話音声（検出音）がスピーカ２０８より出力される。なお、疑似発話音声は、当該疑似発話音声の生成元となった来訪者Ｍの発話音声がマイク２０７に入力されてから所定時間（例えば、１［ｍｓｅｃ］）以内にスピーカ２０８より出力されるようになっている。その後の処理は上記実施形態の図７及び図８とほぼ同様であり、疑似発話音声の反射音が入力されることで、対応する反射音情報が取得され、来訪者Ｍまでの距離検出が行われる。そして、検出された距離に応じてマイク２０７のゲインが調整される。
【０１２５】
図１３は、本変形例における受付端末２０の制御回路部２００により実行する制御手順を表すフローチャートであり、前述の図１０に対応する図である。図１０と同等の部分には同符号を付し適宜説明を省略する。
【０１２６】
図１３において、まず、上記図１０のステップＳ１０に対応したステップＳ１０′で、所定の初期化処理を実行する（フラグＦｓを用いないためＦｓ＝０の初期化がない点が図１０のステップＳ１０と異なる）。そして、新たに設けたステップＳ１５に移り、受付処理が開始されたことを表す前述の受付開始フラグＦｍがＦｍ＝１であるか否かを判定する。Ｆｍ＝０のままである場合（＝受付処理が開始されていない又は終了されている場合）は、判定が満たされずループ待機し、Ｆｍ＝１になったら（＝受付処理が開始されたら）、判定が満たされて、上記図１０のステップＳ２０に対応したステップＳ２０′に移る。
【０１２７】
ステップＳ２０′では、来訪者Ｍにより受付端末２０の受付処理（後述の図１４参照）において発声され、距離検出用の疑似発話音声の生成元となる発話音声をマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力し、対応する振幅あるいは周波数を含む発話音声情報を取得する（ソース音取得手段としての機能）。
【０１２８】
その後、上記図１０のステップＳ３０に対応したステップＳ３０′で、上記ステップＳ２０′で取得した発話音声情報に所定の処理を行い、疑似発話音声情報を生成する。
【０１２９】
そして、上記図１０のステップＳ４０に対応したステップＳ４０′に移り、Ｉ／Ｏインタフェイス２０４を介してスピーカ２０８に上記生成した疑似発話音声情報を出力し、スピーカ２０８より疑似発話音声を出力させる（検出音出力手段としての機能）。
【０１３０】
その後のステップＳ５０及びステップＳ６０は、前述の図１０と同様であり、タイマ２０９を起動させ、タイマ２０９の測定時間が上記最小音波受音時間を経過するまで待機し、最小音波受音時間を経過したら、上記図１０のステップＳ７０に対応したステップＳ７０′に移る。
【０１３１】
ステップＳ７０′では、マイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して、上記疑似発話音声の（対象物での）反射音を入力した否かを判定する。この判定は、上記疑似発話音声とマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力した音声の情報とのパワースペクトルを比較する等の公知の手法により行えば足りる。上記疑似発話音声の反射音を入力していない場合には、判定が満たされずステップＳ８０に移る。
【０１３２】
ステップＳ８０は、前述の図１０と同様であり、タイマ２０９の測定時間が上記最大音波受音時間を経過したか否かを判定し、最大音波受音時間を経過していない場合には、上記ステップＳ７０′に戻り、最大音波受音時間を経過した場合には、上記ステップＳ２０′に戻る。
【０１３３】
一方、上記ステップＳ７０′において、上記疑似発話音声の反射音を入力していた場合には、ステップＳ７０′の判定が満たされて、上記図１０のステップＳ９０に対応したステップＳ９０′に移る。
【０１３４】
ステップＳ９０′では、上記ステップＳ７０′でマイク２０７、ゲイン可変アンプ２１７、及びＩ／Ｏインタフェイス２０４を介して入力された上記疑似発話音声の反射音により、対応する反射音情報を取得する。
【０１３５】
その後のステップＳ１００〜ステップＳ１４０は、前述の図１０と同様である。ステップＳ１４０で、マイク２０７のゲインを調整したら、上記図１０のステップＳ１６０に対応したステップＳ１６０′に移る。
【０１３６】
ステップＳ１６０′では、上記受付開始フラグＦｍがＦｍ＝０に戻っているか否かを判定する。Ｆｍ＝１のままである場合（＝受付処理がまだ実行中である場合）は、判定が満たされず上記ステップＳ２０′に戻り、同様の手順を繰り返す。そして、Ｆｍ＝０に戻ったら（＝受付処理が終了したら）、判定が満たされて上記図１０のステップＳ１８０に対応したステップＳ１８０′に移る。
【０１３７】
ステップＳ１８０′では、上記ステップＳ１４０でゲインが調整されたマイク２０７を用いて受付処理が終了した後、言い換えれば、後述の図１４のステップＳ３６５で上記受付開始フラグＦｍがＦｍ＝０になった後、所定期間が経過したか否かを判定する。Ｆｍ＝０になった後、所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップＳ１９０に移る。
【０１３８】
ステップＳ１９０は、前述の図１０と同様であるので説明を省略する。
【０１３９】
なお、以上において、ステップＳ７０′及びステップＳ９０′が、各請求項記載の反射音取得手段として機能する。
【０１４０】
図１４は、上記図１３のフローと並行して、受付端末２０の制御回路部２００により実行する制御手順を表すフローチャートであり、前述の図１１に対応する図である。図１１と同等の部分には同符号を付し適宜説明を省略する。
【０１４１】
図１４において、まず図１１のステップＳ２００に代えて設けたステップＳ２０５で、受付処理が開始されたことを表す上記受付開始フラグＦｍをＦｍ＝０に初期化する。
【０１４２】
その後、新たに設けたステップＳ２１２で、受付処理を開始する操作が、来訪者Ｍにより図示しない操作部を介して行われたか否かを判定する。来訪者Ｍにより受付処理を開始する操作が行われるまでループ待機し、来訪者Ｍにより受付処理を開始する操作が行われた場合には、判定が満たされ、新たに設けたステップＳ２１４に移る。
【０１４３】
ステップＳ２１４では、上記受付開始フラグＦｍを受付処理の開始を表すＦｍ＝１とし、ステップＳ２２０に移る。
【０１４４】
その後のステップＳ２２０〜ステップＳ３５０は、前述の図１１と同様である。ステップＳ３５０において、正当な来訪者Ｍが訪ねてきたことが確認できたことに対応して、対応する担当者のＩＰ電話機６０に発信（コール）を行ったら、図１１のステップＳ３６０に代えて設けたステップＳ３６５に移る。
【０１４５】
ステップＳ３６５では、上記受付開始フラグＦｍをＦｍ＝０とした後、このフローを終了する。
【０１４６】
本変形例によれば、以下のような効果が得られる。
【０１４７】
すなわち、距離検出用の検出音の生成元となるソース音に基づき、検出音を生成するとき、ソース音のレベルがあまりにも小さいと、スピーカ２０８を介し出力する検出音のレベルも小さく、その反射音を検出することが困難となる場合があり得る。
【０１４８】
本変形例では、上記のような場合に対応することができる。すなわち、通常、受付端末２０において対話方式で操作を行おうとする来訪者Ｍは、自己の発話音声をなるべく認識してもらおうという意図が働き、ゆっくりと大きめの音量で発話を行う。したがって、距離検出時に、マイク２０７で入力した、上記のような来訪者Ｍの発話音声に基づいて疑似発話音声を生成し利用することで、精度の高い確実な距離検出を行うことができる。また、来訪者Ｍ自らが発声している発話音声を利用することにより、音を用いて検出していることを来訪者Ｍに比較的悟られにくいという効果もある。
【０１４９】
（２）ソース音として受付端末の案内音声を利用する場合
以上においては、上記ソース音として、受付端末２０の周囲で発生した雑音や来訪者Ｍの発話音声を利用していたが、これに限られない。すなわち、上記ソース音として、受付処理においてスピーカ２０８を介し出力した案内音声を利用するようにしてもよい。
【０１５０】
図１５は、本変形例において、スピーカ２０８より疑似案内音声を出力するまでの手順の概要を説明した説明図である。
【０１５１】
本変形例の受付端末２０では、上記（１）の変形例と同様に、例えば来訪者Ｍによって図示しない操作部が適宜に操作されることにより、受付処理が開始される。そして、図１５（ａ）に示すように、受付処理中において、スピーカ２０８よりソース音としての案内音声（装置音声）が出力されると、この案内音声が伝搬してマイク２０７に入力される（いわゆる案内音声のスピーカ２０８からマイク２０７へのまわり込み）。これにより、入力した案内音声に対応する振幅（又は周波数でもよい）を含むソース音情報としての案内音声情報（装置音声情報）が取得され、この案内音声情報に基づき、疑似案内音声情報が生成される。
【０１５２】
そして、図１５（ｂ）に示すように、上記のようにして疑似案内音声情報が生成されると、この疑似案内音声情報に基づき、疑似案内音声（検出音）がスピーカ２０８より出力される。なお、疑似案内音声は、当該疑似案内音声の生成元となった案内音声がマイク２０７に入力されてから所定時間（例えば、１［ｍｓｅｃ］）以内にスピーカ２０８より出力される。
【０１５３】
なお、このとき特に、上記疑似案内音声が出力されるタイミングを、疑似案内音声の生成元となった案内音声の出力が終了する時としてもよい。すなわち、受付端末２０を対話による操作をしている来訪者Ｍは、スピーカ２０８より案内音声が出力されているときは、その案内音声の内容を聞いているため発話せず、案内音声の出力が終了した後に、その案内音声の内容に沿って発話するのが一般的である。したがって、このように疑似案内音声を出力するタイミングを、案内音声の出力が終了する時（来訪者Ｍが発話する前）とした場合には、発話しているときの来訪者Ｍまでの距離を、より正確に検出することができるという効果がある。
【０１５４】
その後の処理は上記実施形態の図７及び図８とほぼ同様であり、疑似案内音声の反射音がマイク２０７に入力されることで、対応する反射音情報が取得され、来訪者Ｍまでの距離検出が行われる。そして、検出された距離に応じてマイク２０７のゲインが調整される。
【０１５５】
このように、本変形例においては、来訪者Ｍとの受付処理においてスピーカ２０８が出力しマイク２０７で入力された案内音声（又は後述のように当該案内音声の反射音でもよい）により、案内音声情報を取得し、この取得した案内音声情報に基づき生成された疑似案内音声を、スピーカ２０８を介し出力する。これにより、上記（１）の変形例と同様、精度の高い確実な距離検出を行うことができ、音を用いて検出していることを来訪者Ｍに比較的悟られにくいという効果を得る。
【０１５６】
また、スピーカ２０８を介し出力した、言い換えれば、受付端末２０の内部で生成した案内音声を、ソース音として利用しているので、距離検出に都合のよい振幅（周波数）を含む案内音声情報に基づき、疑似案内音声（情報）を生成することができる。すなわち、このような案内音声情報に基づき、疑似案内音声（情報）を生成するときには、例えば案内音声情報の振幅が大きいものを選択して用いることで、解析（例えばフィルタリング解析等）の処理速度を速くすることができる。
【０１５７】
なお、上記の例では、ソース音として上記案内音声を利用した例を示したが、上記案内音声の反射音を適宜利用してもよい。
【０１５８】
（３）その他
上記来訪者受付システム１においては、来訪者Ｍまでの距離検出やマイク２０７のゲインの調整を行う受付端末２０と、ＤＢサーバ１０とは、別個の装置であった。しかしながらこれに限られず、マイク、スピーカを備えたサーバを会社の入口付近に設置し、サーバのみで、来訪者Ｍまでの距離検出、マイク２０７のゲインの調整、受付処理のすべてを行うようにしてもよい。また、来訪者予約ＤＢ１５１や社員ＤＢ１５５等、ＨＤＤ１５０に記憶されている情報を受付端末２０側のＨＤＤ２０５に記憶するようにしてもよいし、さらにはネットワークを介して受付端末２０に接続可能な別個の記憶装置に記憶させておき、受付処理中に、必要な情報を読み出す構成としてもよい。
【０１５９】
また、上記において、音声入力手段は、１つのマイク２０７で構成されていたが、これに限らず、複数の（例えば、２つの）マイクで構成してもよい（いわゆるアレー型のマイクロホン装置）。
【０１６０】
また、上記においては、所定の演算処理として、スピーカ２０８を介し検出音を出力してから、その反射音がマイク２０７に入力されるまでの所要時間を測定し、この所要時間が、来訪者Ｍまでの距離に比例するという関係（上記の式１を参照）から来訪者Ｍまでの距離を検出した。しかしながら、これに限らず、所定の演算処理として、出力した検出音と入力した反射音との位相差から来訪者Ｍまでの距離を検出するようにしてもよい。
【０１６１】
なお、以上において、図４及び図５等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
【０１６２】
また、図１０、図１１、図１３、及び図１４に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
【０１６３】
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
【０１６４】
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
【符号の説明】
【０１６５】
２０受付端末（対話装置）
２０１ＣＰＵ
２０７マイク（音声入力手段）
２０８スピーカ（音声出力手段）
２１７ゲイン可変アンプ
Ｍ来訪者（操作者）

【特許請求の範囲】
【請求項１】
操作者が対話方式により操作可能な対話装置であって、
音声を入力するための音声入力手段と、
音声を出力するための音声出力手段と、
前記音声入力手段を介し入力され、距離検出用の検出音の生成元となるソース音により、対応する振幅あるいは周波数を含むソース音情報を取得するソース音取得手段と、
前記音声入力手段が前記音を入力してから所定時間以内に、前記ソース音取得手段が取得した前記ソース音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する検出音出力手段と、
前記音声入力手段を介し入力された、前記検出音の前記対象物での反射音により、対応する反射音情報を取得する反射音取得手段と、
前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推定して当該操作者までの距離を検出する距離検出手段と、
前記距離検出手段での検出結果に基づき、前記音声入力手段のゲインを調整する感度調整手段と
を有することを特徴とする対話装置。
【請求項２】
前記ソース音取得手段は、
操作者が前記対話装置の対話処理において発声し前記音声入力手段で入力された前記ソース音としての発話音声により、前記ソース音情報としての発話音声情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記発話音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項１記載の対話装置。
【請求項３】
前記ソース音取得手段は、
操作者との対話処理において前記音声出力手段が出力し前記音声入力手段で入力された前記ソース音としての装置音声又は当該装置音声の反射音により、前記ソース音情報としての装置音声情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記装置音声情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項１記載の対話装置。
【請求項４】
前記ソース音取得手段は、
装置周囲で発生し前記音声入力手段で入力された前記ソース音としての周囲音により、前記ソース音情報としての周囲音情報を取得し、
前記検出音出力手段は、
前記ソース音取得手段が取得した前記周囲音情報に基づき生成された前記検出音を、前記音声出力手段を介し出力する
ことを特徴とする請求項１記載の対話装置。
【請求項５】
前記距離検出手段で検出された前記操作者までの距離が所定値以下となったら、前記感度調整手段による前記ゲインの調整を開始させる、開始制御手段を有することを特徴とする請求項１乃至請求項４のいずれか１項記載の対話装置。
【請求項６】
前記距離検出手段で検出された前記操作者までの距離が前記所定値より大きい場合、前記音声入力手段のゲインを所定値以上に設定する設定制御手段を有することを特徴とする請求項５記載の対話装置。
【請求項７】
前記感度調整手段でゲインが調整された前記音声入力手段を用いて対話処理が終了した後、所定期間が経過したら、前記感度調整手段による前記音声入力手段のゲイン調整を終了する終了制御手段を有することを特徴とする請求項６記載の対話装置。

【図１】