対話装置

【課題】対話処理のためにもともと備わっている音声入力手段や音声出力手段を活用して、操作者までの距離検出を行う。
【解決手段】受付端末２０は、音声を入力するためのマイク２０７と、音声を出力するためのスピーカ２０８とを有し、周囲で発生しマイク２０７で取得された雑音情報に基づきスピーカ２０８を介し距離検出用の疑似雑音を出力し、マイク２０７を介し入力された疑似雑音の対象物での反射音により対応する振幅あるいは周波数を含む反射音情報を取得し、取得された反射音情報に基づき所定の演算処理を行い、対象物が来訪者Ｍであると推測して来訪者Ｍまでの距離を検出し、この検出結果に基づき来訪者Ｍとの対話による受付処理を開始する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、操作者が音声による対話方式により操作可能な対話装置に関する。
【背景技術】
【０００２】
例えば建造物への来訪者に対する受付業務を行う受付装置等、操作者が対話方式によって操作可能な対話装置が、従来より既に知られている。このような対話装置においては、操作者の所定距離範囲内への存在・不存在を処理開始・終了のトリガーとしたり、操作者の発話内容の音声認識精度を向上する等のために、装置から操作者までの距離を非接触で精度よく検出できることが好ましい。
【０００３】
このような非接触距離検出に関しては、例えば特許文献１記載の従来技術が知られている。この従来技術では、超音波パルスを生成して対象物（物体）に対して出力し、検出対象物での反射波（エコーパルス）を探知する。そして超音波パルスの伝達時間を算出することにより、その伝達時間に基づいて対象物までの距離を検出するようになっている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００５−３５１８９７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、対話装置に対し、上記従来技術のような超音波を用いた距離検出手法を適用しようとする場合、距離検出専用のセンサやマイクを新たに設ける必要が生じるという問題があった。
【０００６】
本発明の目的は、専用のセンサやマイクを新たに設ける必要がなく、操作者までの距離検出を行える対話装置を提供することにある。
【課題を解決するための手段】
【０００７】
上記目的を達成するために、第１の発明は、操作者が対話方式により操作可能な対話装置であって、音声を入力するための音声入力手段と、音声を出力するための音声出力手段と、前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、前記音声入力手段が前記音を入力してから所定時間以内に、当該音取得手段で取得された前記音情報に基づき、前記音声出力手段を介し距離検出用の疑似音を出力する疑似音出力手段と、前記音声入力手段を介し入力された、前記疑似音の対象物での反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する反射音取得手段と、前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推測して当該操作者までの距離を検出する距離検出手段と、前記距離検出手段での検出結果に基づき、前記操作者との対話処理を開始する対話処理制御手段とを有することを特徴とする。
【０００８】
本願第１発明の対話装置においては、音を用いて操作者との距離を検出する。すなわち、装置の周囲で発生した音（いわゆる雑音）が音声入力手段を介して入力され、対応する音情報が音取得手段で取得される。すると、この音情報に基づき、疑似音出力手段が、距離検出用の疑似音を音声出力手段を介し出力する。出力された疑似音は対象物に向かって伝搬しその反射音が音声入力手段を介して入力される、対応する反射音情報が反射音取得手段で取得される。疑似音が発せられてからその反射音が戻ってくるまでの時間は、装置から対象物までの距離に比例するが、操作者が存在している場合は対象物としての操作者で反射した反射音が音声入力手段を介して入力され、上記時間は装置から操作者までの距離に比例する。したがって、距離検出手段は、上記反射音情報に基づき、前記対象物が前記操作者であると推測して操作者までの距離を検出する。この距離検出が終わった後に、当該検出結果に基づき、対話処理制御手段が操作者との対話処理を開始することで、確実な対話処理を行うことができる。
【０００９】
以上のようにして、本願第１発明においては、音声入力手段及び音声出力手段を介して入出力する音を用いて、操作者までの距離を検出することができる。すなわち、対話処理のためにもともと備わっている音声入力手段（マイク等）や音声出力手段（スピーカ等）を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく、距離検出を行うことができる。
【００１０】
またこのとき、距離検出のために、装置の周囲で発生した音（いわゆる雑音）に基づく疑似音を用いることにより、音を用いて検出していることを操作者に悟られることなく、距離検出を行える効果もある。
【００１１】
第２発明は、上記第１発明において、前記音取得手段で取得された前記音情報に所定の処理を行い、対応する前記疑似音を生成する疑似音生成手段を有し、前記疑似音出力手段は、前記疑似音生成手段で生成された前記疑似音を出力することを特徴とする。
【００１２】
これにより、装置の周囲で発生した音（いわゆる雑音）をそのまま用いて距離検出を行う以外に、雑音のうちの所定範囲（レベル範囲や時間範囲）のものを用いたり、雑音に各種の加工を施したものを用いたりすることが可能となる。この結果、距離検出に使用可能な音のバリエーションを拡張できるので、種々の用途への応用性を向上することができる。
【００１３】
第３発明は、上記第２発明において、前記疑似音生成手段は、前記音情報のうち所定のしきい値レベルを超えたものに基づき、前記疑似音を生成することを特徴とする。
【００１４】
雑音に基づき疑似音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力した疑似音のレベルも小さく、その反射音を検出することが困難となる。そこで、本願第３発明においては、所定のしきい値レベルを超えた雑音のみに限定して疑似音を生成することにより、上記のレベル不足による不都合を回避し、確実な距離検出を行うことができる。
【００１５】
第４発明は、上記第３発明において、前記疑似音生成手段は、所定の時間範囲の前記音情報に基づき、前記疑似音を生成することを特徴とする。
【００１６】
音情報に基づき疑似音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力する疑似音のレベルも小さく、その反射音を検出することが困難となる。そこで、本願第４発明においては、所定の時間範囲の雑音のみに限定して疑似音を生成する。これにより、例えばドアをしめた音や物を置いた音等、最初に大きく立ち上がって急激に減衰していく雑音のうち減衰するまでの最初のレベルの大きな部分のみを時間的に切り取り、その切り取った部分に基づいて疑似音を生成することが可能となる。これにより、前述のようなレベル不足による不都合を回避し、確実な距離検出を行うことができる。
【００１７】
第５発明は、上記第１乃至第４発明のいずれかにおいて、前記対話処理制御手段の制御に基づく前記対話処理が終了した後、所定期間が経過したら、疑似音の出力を再び実行するように制御する出力制御手段を有することを特徴とする。
【００１８】
操作者との距離を確定して対話処理が行われ、その対話処理が終了してしばらくたった場合には、対話していた操作者は既に別の場所に移動し、装置近傍に誰もいない（あるいは別の操作者がいる）状態になっている可能性が高い。そこで本願第５発明においてはこれに応じ、出力制御手段が、対話処理終了後所定期間が経過したら、疑似音の出力を再び実行するように制御する。これにより、次の操作者に対する距離検出を確実に実行することができる。
【発明の効果】
【００１９】
本発明によれば、専用のセンサやマイクを新たに設ける必要がなく、操作者までの距離検出を行うことができる。
【図面の簡単な説明】
【００２０】
【図１】本発明の一実施形態における来訪者受付システムの全体構成を示すシステム構成図である。
【図２】来訪者受付システムのシステム全体の機能構成を表す機能ブロック図である。
【図３】表示部における表示画面の一例を表す図である。
【図４】受付端末の機能的構成を示す機能ブロック図である。
【図５】ＤＢサーバの機能的構成を表す機能ブロック図である。
【図６】スピーカより疑似雑音を出力するまでの手順の概要を説明した説明図である。
【図７】来訪者までの距離を検出する手法の概要を説明した説明図である。
【図８】雑音情報の取得を再開するまでの手順の概要を説明した説明図である。
【図９】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図１０】所定の時間範囲の雑音情報に限定して疑似雑音情報を生成する変形例を説明するための説明図である。
【発明を実施するための形態】
【００２１】
以下、本発明の一実施の形態を図面を参照しつつ説明する。本実施形態では、本発明の対話装置を、例えば、ビルや会社その他の建造物への来訪者に対する受付業務を行う来訪者受付システムに適用した場合を表している。
【００２２】
（Ａ）システムの基本構成
図１は、本実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
【００２３】
図１において、来訪者受付システム１は、例えば会社の入口付近に設置され、操作者（この例では、会社への来訪者）Ｍが対話方式により操作可能な受付端末２０（対話装置）を有している。受付端末２０には、音声を入力するためのマイク２０７（音声入力手段）と、音声を出力するためのスピーカ２０８（音声出力手段）とが設けられている。
【００２４】
受付端末２０は、来訪者Ｍとの対話処理（この例では、来訪者Ｍとの対話による受付処理）や、音声（雑音、疑似雑音、反射音等。後述）を用いた来訪者Ｍまでの距離の検出を行う。本実施形態では、受付端末２０から来訪者Ｍまでの距離を検出する方法として、スピーカ２０８から距離検出用の音（後述する疑似雑音）を出力させて、その疑似雑音が来訪者Ｍで反射し、その反射音がマイク２０７に入力されるまでの所要時間を測定する。そして、この所要時間が、来訪者Ｍまでの距離に比例するという関係から、来訪者Ｍまでの距離を検出する。すなわち、来訪者Ｍまでの距離をＬ、上記所要時間をｔとすると、
Ｌ＝ｃ×ｔ／２・・・（式１）
で表される関係が成り立つ（詳細は図７で後述する）。なお、ｃは音速（約３４０［ｍ／ｓ］。但し、媒体である空気の密度や圧力により異なる）である。
【００２５】
上記（式１）を解くことによって、来訪者Ｍまでの距離が検出できる。そして、検出した距離が所定値（受付処理可能な距離に相当。例えば、１［ｍ］）以下となったら、受付処理を開始する（詳細は後述する）。
【００２６】
また、図１に示すように、受付端末２０は、表示部２１０、上記マイク２０７、及び上記スピーカ２０８を有している。表示部２１０は、例えば液晶ディスプレイで構成され、この例では水平に設置されるベース２１２に対してアーム２１１を介し支持され、来訪者Ｍの視線に対して直角となるように面方向が斜め上方を向いている。マイク２０７は、ベース２１２に対し先端を来訪者Ｍ側へ向けるようにして略円弧状に配置されている。
【００２７】
なお、表示部２１０をタッチパネルで構成し、表示される表示画面を来訪者Ｍが直接画面に触れながら操作できるようにしてもよい。
【００２８】
図２は、来訪者受付システム１のシステム全体の機能構成を表す機能ブロック図である。
【００２９】
図２において、来訪者受付システム１は、上記受付端末２０と、周知のパーソナルコンピュータにより構成されるＤＢサーバ１０と、会社の従業員それぞれに対応して設けられた複数の（この例では２つの）ＩＰ電話機６０と、それら複数のＩＰ電話機６０の回線交換を行う周知の交換装置であるＩＰ−ＰＢＸ（ＩｎｔｅｎｅｔＰｒｏｔｏｃｏｌＰｒｉｖａｔｅＢｒａｎｃｈｅＸｃｈａｎｇｅ）５０とを有し、これらはすべてルータ４０を介して接続されている。
【００３０】
受付端末２０は、端末本体２０Ａと、この端末本体２０Ａに接続された、上記表示部２１０、上記マイク２０７、及び上記スピーカ２０８とを有している。
【００３１】
マイク２０７は、入力された音声を音声情報に変換し、端末本体２０Ａへ出力する。入力音声としては、本実施形態では、例えば来訪者Ｍが発話した音声や、受付端末２０の周囲で発生した雑音（例えば空調の音、ドアを閉めた音、物を置いた音、足音等）等がある。
【００３２】
スピーカ２０８は、端末本体２０Ａから入力された音声信号を、来訪者Ｍに対する報知音（案内音声）や距離検出用の疑似雑音（疑似音。詳細は後述する）に変換して出力する。
【００３３】
図３は、表示部２１０における表示画面の一例を表す図である。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物ＩＭが、後述の受付処理が開始されると、オフィス風の背景Ｇとともに表示される。また、スピーカ２０８から発話される音声に対応する文章Ｂ（図中では「＊＊＊」で略記している）が併せて表示される。
【００３４】
図４は、受付端末２０の機能的構成を示す機能ブロック図である。
【００３５】
図４において、受付端末２０の端末本体２０Ａは、制御回路部２００と、入出力（Ｉ／Ｏ）インタフェイス２０４と、ハードディスク装置（ＨＤＤ）２０５と、計時手段であるタイマ２０９とを有している。
【００３６】
制御回路部２００は、ＣＰＵ２０１と、受付端末２０の基本的な動作に必要なプログラムやそのための設定値を記憶したＲＯＭ２０２と、各種データを一時的に記憶するＲＡＭ２０３とを備えている。ＣＰＵ２０１は、ＲＯＭ２０２や、ＨＤＤ２０５に記憶されたプログラムに従って、受付端末２０全体の動作を制御する。
【００３７】
Ｉ／Ｏインタフェイス２０４には、上記ＣＰＵ２０１と、上記ハードディスク装置２０５と、上記タイマ２０９と、上記表示部２１０と、上記マイク２０７と、上記スピーカ２０８と、ネットワーク（ＮＷ）カード２０６とが接続されている。
【００３８】
ＨＤＤ２０５には、言語モデル記憶エリア２５２、辞書記憶エリア２５３、及びプログラム記憶エリア２５６を含む複数の記憶エリアを備えている。
【００３９】
言語モデル記憶エリア２５２には、来訪者Ｍによる発話の認識に使用するための受理可能な文のパターンが、受付端末２０と来訪者Ｍとの対話で想定される様々な場面に応じて予め作成され、言語モデルとして記憶されている。
【００４０】
辞書記憶エリア２５３には、上記言語モデルとともに音声認識に使用される単語辞書や、上記言語モデル及び単語辞書とともに来訪者Ｍの身元を特定するための音声認識に適宜使用される来訪者辞書等が、記憶されている。
【００４１】
プログラム記憶エリア２５６には、例えば、受付端末２０の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末２０の基本的な動作を制御するシステムプログラム、ＤＢサーバ１０との通信を制御する通信プログラム、表示部２１０に表示する画像を生成する描画プログラム、上述した音声認識を実行する音声認識プログラム、ＤＢサーバ１０のデータベースにアクセスし照合を行うためのＤＢ照合プログラム、音声合成プログラム、対話制御プログラム、ＩＰ電話機６０とＩＰ−ＰＢＸ５０との接続に係わる電話接続プログラム、前述した距離検出を制御する距離検出プログラム等がある。
【００４２】
なお、図示はされていないが、ＨＤＤ２０５には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴（例えば、周波数特性）と対応する音素とで表現されている。
【００４３】
ＮＷカード２０６は、上記ルータ４０に接続され、ＤＢサーバ１０などとの間でデータの送受信を可能とするための拡張カードである。
【００４４】
図５は、ＤＢサーバ１０の機能的構成を表す機能ブロック図である。
【００４５】
図５に示すように、ＤＢサーバ１０は、ＣＰＵ１０１と、ＣＰＵ１０１に各々接続されたＲＯＭ１０２及びＲＡＭ１０３と、ＣＰＵ１０１に接続された入出力（Ｉ／Ｏ）インタフェイス１０４と、Ｉ／Ｏインタフェイス１０４にそれぞれ接続された、マウスコントローラ１０６、キーコントローラ１０７、ビデオコントローラ１０８、通信装置１０９、及びハードディスク装置（ＨＤＤ）１５０とを有している。
【００４６】
ＲＯＭ１０２は、ＢＩＯＳを含む、ＤＢサーバ１０を動作させるための各種のプログラムを記憶している。ＲＡＭ１０３は、各種データを一時的に記憶する。ＣＰＵ１０１は、ＲＯＭ１０２や、後述するＨＤＤ１５０に記憶されたプログラムに従って、ＤＢサーバ１０の全体の制御を司る。
【００４７】
マウスコントローラ１０６、キーコントローラ１０７、及びビデオコントローラ１０８には、それぞれマウス１１６、キーボード１１７、及びディスプレイ１１８が接続されている。通信装置１０９は、ルータ４０に接続され、受付端末２０等、外部機器との間でデータの送受信を行うことを可能とする。
【００４８】
ＨＤＤ１５０は、来訪者情報を格納する来訪者予約データベース（ＤＢ）記憶エリア１５１、社員情報を格納する社員データベース（ＤＢ）記憶エリア１５５、及びプログラム記憶エリア１５６を含む複数の記憶エリアを備えている。
【００４９】
プログラム記憶エリア１５６には、システムプログラム、通信プログラム等、各種処理をＤＢサーバ１０に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばＣＤ−ＲＯＭに記憶されたものがＣＤ−ＲＯＭドライブ（図示せず）を介してインストールされ、プログラム記憶エリア１５６に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
【００５０】
（Ｂ）受付処理の開始までの流れ
以上のような構成の本実施形態の最大の特徴は、マイク２０７を介し入力された雑音に対応する雑音情報に基づき距離検出用の疑似雑音をスピーカ２０８を介し出力すること、マイク２０７を介し入力された上記疑似雑音の来訪者Ｍでの反射音に対応する反射音情報に基づき来訪者Ｍまでの距離を検出すること、及び、検出した距離が所定値以下となったら受付処理を開始すること、である。以下、図６及び図７を用いて、その詳細を順を追って説明する。
【００５１】
図６は、スピーカ２０８より疑似雑音を出力するまでの手順の概要を説明した説明図である。
【００５２】
図６（ａ）には、マイク２０７に入力された雑音より、疑似雑音を生成する手順を模式的に示している。図６（ａ）に示すように、受付端末２０の周囲で雑音（この例では、会社内の所定の場所に設置されているドア３０が閉まる音）が発生すると、この雑音が伝搬してマイク２０７に入力され、対応する振幅あるいは周波数を含む雑音情報（音情報）が取得される。このとき、取得された雑音情報が、所定のしきい値レベルを超えているかどうかの確認が行われる（例えば、短時間フーリエ変換によりパワーに変換して確認すればよい）。そして、取得された雑音情報が、上記しきい値レベルを超える（パワーが大きい）ものであれば、当該雑音情報に基づき、距離検出用の疑似雑音（疑似音）が生成される。
【００５３】
なお、取得された雑音情報が、上記しきい値レベルを超えない（パワーが小さい）ものであれば、後述する疑似雑音の反射音の検出を行うことが困難であるため、上記のような疑似雑音の生成に用いられずに、再度雑音情報の取得が行われる。このように、上記しきい値レベルを超える（パワーが大きい）雑音情報に限定して、言い換えれば、雑音情報のうち、上記しきい値レベルを超える雑音情報が切り取られて、上記疑似雑音の生成に用いられるのである。
【００５４】
図６（ｂ）には、スピーカ２０８より疑似雑音が出力された状態を模式的に示している。図６（ｂ）に示すように、上記のようにして生成された距離検出用の疑似雑音はスピーカ２０８より出力される。この疑似雑音は、上記図６（ａ）において（ドア３０において）発生した雑音に似た音（又は加工がされた音でもよい）である。また、疑似雑音の出力とほぼ同時に、タイマ２０９（図４参照）が起動される。これにより、スピーカ２０８より疑似雑音が出力されてから、この疑似雑音が来訪者Ｍに反射し、その反射音（＝疑似雑音の来訪者Ｍでの反射音。以下、単に「反射音」という）がマイク２０７に入力されるまでの所要時間（以下、単に「所要時間」という）の測定（計測）が開始される。
【００５５】
図７は、来訪者Ｍまでの距離を検出する手法の概要を説明した説明図である。
【００５６】
前述のようにして疑似雑音がスピーカ２０８より出力されると、この疑似雑音は、所定の距離範囲（伝搬可能な距離範囲。パワーによって異なる）に伝搬される。このとき、当該範囲内に来訪者Ｍが存在すると、上記疑似雑音は、図７に示すように、来訪者Ｍにより反射し、その反射音が伝搬してマイク２０７に入力され、対応する反射音情報が取得される。このようにしてマイク２０７に反射音が入力されると、タイマ２０９によって行われていた上記所要時間の測定が終了する。すなわち、このときのタイマ２０９の測定値が上記所要時間となる。
【００５７】
ここで、上記疑似雑音及びその反射音は、共に音波であるので受付端末２０と来訪者Ｍとの間を音速で伝搬している。また、上記所要時間は、上記疑似雑音及びその反射音、すなわち音波が、受付端末２０と来訪者Ｍとの間を往復する往復伝搬時間である（詳細にはスピーカ２０８→来訪者Ｍ間の疑似雑音の伝搬時間と、来訪者Ｍ→マイク２０７間の反射音の伝搬時間との合計時間）。すなわち、音速と、上記所要時間の半分（＝片道の伝搬時間に相当）との積の値が、受付端末２０から来訪者Ｍまでの距離となる。このようなことから、上記（式１）（図１参照）を解くことによって、受付端末２０から来訪者Ｍまでの距離を検出（算出）することができるのである。
【００５８】
例えば、音速を３４６．５［ｍ／ｓ］とし、タイマ２０９の測定値（＝上記所要時間）を２．０［ｍｓｅｃ］とすると、来訪者Ｍまでの距離Ｌは、
Ｌ＝３４６．５×２．０×１０^−３／２＝３４６．５×１０^−３［ｍ］≒３５［ｃｍ］
となる。
【００５９】
以上のようにして検出された距離Ｌが、所定値（受付処理可能な距離に相当。例えば１［ｍ］）以下となったら、受付処理が開始される。
【００６０】
なお、上記のような距離検出の際、この例では、タイマ計測開始から所定の最小音波受音時間を経過するまでは上記反射音情報の取得は開始されないようになっている。この最小音波受音時間とは、スピーカ２０８より出力された疑似雑音が、来訪者Ｍに反射することなく、直接マイク２０７に入力されるまで（＝いわゆる疑似雑音のスピーカ２０８からマイク２０７への周り込み）の所要時間である。例えば、スピーカ２０８とマイク２０７との間の距離が３０［ｃｍ］であるとすると、最小音波受音時間は１．７３［ｍｓｅｃ］となる。タイマ２０９の測定時間が最小音波受音時間を経過するまで、マイク２０７には、反射音は入力されない。したがって、最小音波受音時間が経過するまで反射音情報の取得を開始せずに待つことで、マイク２０７に入力する不要な音声（上記周り込みした疑似雑音）を、（後述の図９のステップＳ８０で行われる）反射音を入力したか否かの確認の対象から除外することができる。
【００６１】
また、タイマ計測開始から所定の最大音波受音時間が経過すると反射音情報の取得は終了され、再び雑音情報の取得が開始されるようになっている。この最大音波受音時間とは、スピーカ２０８より出力された疑似雑音が、受付端末２０による受付処理を可能とする最大距離にいる来訪者Ｍにより反射し、その反射音がマイク２０７に入力されるまでの所要時間である。例えば、上記最大距離を１００［ｃｍ］とすると、最大音波受音時間は５．７７［ｍｓｅｃ］となる。この最大音波受音時間を経過した後、マイク２０７に入力された反射音は、上記最大距離より遠い位置に存在する対象物（来訪者Ｍとは限らない）により反射されたものである。タイマ２０９の測定時間が最大音波受音時間を経過すると、反射音情報の取得を終了とすることで、不要な反射音、すなわち、上記最大距離を越えた距離に存在する対象物により反射される反射音より取得される反射音情報を（後述の図９のステップＳ１００で行われる）距離検出の対象から除外することができる。
【００６２】
（Ｃ）受付処理の開始後に、雑音情報の取得を再開するまでの流れ
前述のようにして受付処理が開始されると、スピーカ２０８より所定の音声（案内音声。例えば、「いらっしゃいませ。どちら様でしょうか」等）が出力され、さらにこれに併せて表示部２１０に所定の表示画面（例えば前述した図３のようなもの）が表示される。来訪者Ｍがこれら音声や表示に応じて、受付端末２０に対して発話すると、対応する音声がマイク２０７によって入力される。このようにして、来訪者Ｍによって（表示部２１０の表示画面を参照にしつつ）対話方式による受付操作が行われる。
【００６３】
また、このようにして受付処理が開始された場合、（受付処理を行っている間は）、上記図６（ａ）に示した雑音情報の取得が再開されない（あるいは、図６（ａ）のように雑音情報は取得されるが、図６（ｂ）のような疑似雑音の出力は行われない）ようになっている。すなわち、受付処理中においては、先に来訪者Ｍまでの距離検出のために使用していたマイク２０７及びスピーカ２０８が、受付処理（来訪者Ｍとの対話）に使用されることになる。
【００６４】
図８（ａ）〜（ｃ）には、上記の受付処理が終了した後の状態を示している。図８（ａ）に示すように受付処理が終了すると、来訪者Ｍが受付端末２０の近傍から離れて別の場所に移動して受付端末２０の近傍には誰もいない状態となる（図８（ｂ））。すなわち、マイク２０７及びスピーカ２０８は、受付処理が終了された後、しばらくすると、受付処理（来訪者Ｍとの対話）には使用されなくなる。そして、受付処理が終了された後、所定期間（例えば１０秒）が経過したら、図８（ｃ）に示すように、上記雑音情報の取得が再開される（あるいは、上記した雑音情報は取得されるが疑似雑音が出力されない状態から、疑似雑音の出力が再開される）。こうして、上記図６（ａ）の状態に戻る。
【００６５】
（Ｄ）制御手順
図９は、以上説明した内容を実現するために、受付端末２０の制御回路部２００により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、ＨＤＤ２０５のプログラム記憶エリア２５６に記憶された来訪者受付処理用のプログラム群（前述のシステムプログラム、描画プログラム、音声認識プログラム、対話制御プログラム、距離検出プログラム等）に従って、ＣＰＵ２０１が実行するものである。
【００６６】
図９において、例えば受付端末２０の電源ＯＮによって、このフローが開始される（「ＳＴＡＲＴ」位置）。まずステップＳ１０で、所定の初期化処理を実行する。
【００６７】
そして、ステップＳ２０において、マイク２０７及びＩ／Ｏインタフェイス２０４を介して入力した音（雑音）により、対応する振幅あるいは周波数を含む上記雑音情報を取得する（音取得手段としての機能）。
【００６８】
その後、ステップＳ３０で、上記ステップＳ２０で取得した雑音情報のレベルが、所定のしきい値レベルを超えたか否かを判定する。雑音情報がしきい値レベルを超えていない場合には、判定が満たされず上記ステップＳ２０に戻り、同様の手順を繰り返す。雑音情報がしきい値レベルを超えていた場合には、判定が満たされてステップＳ４０に移る。
【００６９】
ステップＳ４０では、所定のしきい値レベルを超えた雑音情報に所定の処理を行い、対応する疑似雑音を生成する。
【００７０】
そして、ステップＳ５０に移り、Ｉ／Ｏインタフェイス２０４及びスピーカ２０８を介し、上記生成した疑似雑音を出力させる（疑似音出力手段としての機能）。このステップＳ５０の後、ステップＳ５５に移り、生成した擬似雑音の出力を停止する。
【００７１】
その後、ステップＳ６０で、Ｉ／Ｏインタフェイス２０４を介してタイマ２０９に制御信号を出力し、タイマ２０９を起動させる。これにより、上記ステップＳ５０で出力した疑似雑音が対象物（来訪者Ｍが存在している場合には来訪者Ｍ）に反射し、後述のステップＳ８０で反射音がマイク２０７に入力されるまでの所要時間の測定（計時測定）が開始される。
【００７２】
そして、ステップＳ７０に移り、タイマ２０９の測定時間に基づき、測定時間が前述の最小音波受音時間を経過したか否かを判定する。最小音波受音時間を経過するまでは判定が満たされずループ待機し、最小音波受音時間を経過したら判定が満たされて、ステップＳ８０に移る。
【００７３】
ステップＳ８０では、マイク２０７及びＩ／Ｏインタフェイス２０４を介して、対象物での反射音を入力した否かを判定する。この判定は、上記疑似雑音と、マイク２０７及びＩ／Ｏインタフェイス２０４を介して入力した音声との、パワースペクトルを比較する等の公知の手法により行えば足りる。反射音を入力していない場合には、判定が満たされずステップＳ８５に移る。
【００７４】
ステップＳ８５では、上記ステップＳ６０で既に計時開始しているタイマ２０９の測定時間に基づき、計時開始してから前述の最大音波受音時間を経過したか否かを判定する。最大音波受音時間を経過していない場合には、判定が満たされず上記ステップＳ８０に戻り、同様の手順を繰り返す。最大音波受音時間を経過した場合には、判定が満たされて、上記ステップＳ２０に戻り、同様の手順を繰り返す。
【００７５】
一方、上記ステップＳ８０において、反射音を入力していた場合には、ステップＳ８０の判定が満たされてステップＳ９０に移る。
【００７６】
ステップＳ９０では、上記ステップＳ８０でマイク２０７及びＩ／Ｏインタフェイス２０４を介して入力された反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する。
【００７７】
ステップＳ１００では、上記ステップＳ９０で取得された反射音情報と、上記ステップＳ６０で既に計時開始しているタイマ２０９のここまでの測定時間とに基づき、所定の演算処理（この例では、前述の図１や図７で説明した上記（式１）を用いる手法）を行い、対象物までの距離（来訪者Ｍがいる場合は来訪者Ｍまでの距離）を検出する（距離検出手段としての機能）。
【００７８】
その後、ステップＳ１１０で、上記ステップＳ１００の距離検出結果に基づき、対象物までの距離が所定値（例えば、１［ｍ］）以下であるか否かを判定する。対象物までの距離が所定値より大きい場合には、判定が満たされず、来訪者Ｍが存在していないと推測して（あるいは来訪者Ｍが存在しているが受付処理するには遠すぎるとみなして）上記ステップＳ２０に戻り、同様の手順を繰り返す。対象物までの距離が所定値以下である場合は判定が満たされ、来訪者Ｍが受付可能な距離に存在していると推測して、ステップＳ１２０に移る。
【００７９】
ステップＳ１２０では、ＨＤＤ２０５のプログラム記憶エリア２５６に記憶された所定のアプリケーションプログラムを読み出し、当該アプリケーションを起動することで、受付処理を開始する。
【００８０】
そして、ステップＳ１３０に移り、上記ステップＳ１２０において開始した受付処理が終了しているか否かを判定する。受付処理が終了するまでは判定が満たされずループ待機し、受付処理が終了したら判定が満たされて、ステップＳ１４０に移る（なお、このとき後述するステップＳ１４０のためにタイマ２０９による計時を開始する）。
【００８１】
ステップＳ１４０では、受付処理が終了した後、所定の期間（例えば、１０秒）経過したか否かを（例えば上記タイマ２０９による計時に基づき）判定する。所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップＳ２０に戻り、同様の手順を繰り返す。この結果、上記のフローは、例えば受付端末２０の電源がＯＮの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔（例えば２秒間隔）で繰り返し継続して実行される。
【００８２】
なお、上記において、ステップＳ３０及びステップＳ４０が、各請求項記載の疑似音生成手段として機能し、ステップＳ８０及びステップＳ９０が、反射音取得手段として機能し、ステップＳ１２０が、対話処理制御手段として機能する。
【００８３】
また、ステップＳ１２０で受付処理が開始された後、ステップＳ１３０の判定が満たされずにループ待機している期間、言い換えれば、受付処理が行われている期間は、ステップＳ１４０に移行せず図９のフローは終了しない。すなわち、受付処理が行われている期間は、上記雑音情報の取得が再び行われることはない。
【００８４】
また、受付処理が終了した後、ステップＳ１４０の判定が満たされると、言い換えれば、所定期間（例えば１０秒）が経過すると図９のフローは終了する。すなわち、フローが再び「ＳＴＡＲＴ」位置から開始され、ステップＳ１０→ステップＳ２０と移り、上記雑音情報の取得を再び実行する。この結果、ステップＳ１４０は、受付処理が終了した後、所定期間経過したら、疑似雑音の出力を再び実行するように制御する出力制御手段として機能している。
【００８５】
以上説明したように、本実施形態の受付端末２０においては、マイク２０７及びスピーカ２０８を介して入出力する音を用いて、来訪者Ｍとの距離を検出する。すなわち、受付端末２０の周囲で発生した雑音（例えば、ドアが閉まる音等）がマイク２０７を介し入力されると、対応する雑音情報を取得し（ステップＳ２０参照）、この取得した雑音情報に基づき、距離検出用の疑似雑音をスピーカ２０８を介し出力する（ステップＳ５０参照）。そして、出力された疑似雑音が伝搬し来訪者Ｍで反射すると、その反射音がマイク２０７を介し入力され、対応する反射音情報を取得する（ステップＳ９０参照）。そして、当該取得した反射音情報に基づき、来訪者Ｍまでの距離を検出する（ステップＳ１００参照）。そして、当該検出した距離が所定値以下であれば、受付処理を開始する（ステップＳ１２０参照）ことで、来訪者Ｍに対して確実な受付処理を行うことができる。
【００８６】
この結果、本実施形態の受付端末２０によれば、マイク２０７及びスピーカ２０８を介して入出力する音を用いて、来訪者Ｍまでの距離を検出することができる。すなわち、受付処理のためにもともと備わっているマイク２０７及びスピーカ２０８を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく、距離検出を行うことができる。
【００８７】
またこのとき、距離検出のために、雑音情報に基づく疑似雑音（周囲で発生した雑音に似ている音）を用いることにより、音を用いて検出していることを来訪者Ｍに悟られることなく、距離検出を行える効果もある。
【００８８】
また、本実施形態では特に、上記雑音情報に所定の処理を行い、対応する疑似雑音を生成し（ステップＳ４０参照）、スピーカ２０８を介し疑似雑音を出力する（ステップＳ５０参照）。これにより、雑音情報をそのまま用いて距離検出を行う以外に、雑音情報のうちの所定範囲（レベル範囲や時間範囲）のものを用いたり（後述の（１）の変形例参照）、雑音情報に各種の加工を施したものを用いたりすることができる（後述の（２）の変形例参照）。この結果、距離検出に使用可能な音のバリエーションを拡張できるので、種々の用途への応用性を向上することができる。
【００８９】
ここで、雑音情報に基づき疑似雑音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力する疑似雑音のレベルも小さく、その反射音を検出することが困難となる。そこで、本実施形態では特に、上記雑音情報のうち所定のしきい値レベルを超えたもの（例えばパワーが大きいもの）に基づき、疑似雑音を生成する（ステップＳ３０参照）。これにより、上記のように、出力する疑似雑音のレベル不足による不都合を回避し、確実な距離検出を行うことができる。
【００９０】
また、距離検出を行って来訪者Ｍとの距離を確定した後、受付処理を開始した場合には、当該来訪者Ｍによって対話方式による操作が安定的に行われているはずである。これに対応し、本実施形態では特に、受付処理が開始された後は、疑似雑音の出力を再び行わないようにする（ステップＳ１３０参照）。これにより、上記のような安定的な操作時に再び疑似雑音の出力を繰り返す無駄を避けることができる。
【００９１】
さらに、来訪者Ｍとの距離を確定して受付処理が行われ、その受付処理が終了してしばらく経過した場合には、対話していた来訪者Ｍは既に別の場所に移動し、受付端末２０の近傍に誰もいない（あるいは別の来訪者Ｍがいる）状態になっている可能性が高い。これに対応し、本実施形態では特に、受付処理が終了した後、所定期間（例えば、１０秒）が経過したら、雑音情報の取得を再び実行するようにする（ステップＳ１４０参照）。したがって、受付処理終了後、所定期間が経過したら、（フローを終了し、再度フローを開始して）疑似雑音の出力を再び行うようにすることで、次の来訪者Ｍに対する距離検出を確実に実行することができる。
【００９２】
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。
【００９３】
（１）所定の時間範囲の雑音情報に限定して疑似雑音を生成する場合
上記実施形態においては、出力する疑似雑音のレベル不足による不都合を回避するために、所定のしきい値レベルを超えた（パワーの大きい）雑音情報に限定して疑似雑音を生成していたが、これに限られない。すなわち、所定の時間範囲（例えば、最初の１［ｍｓｅｃ］）の雑音情報に限定して疑似雑音を生成するようにしてもよい。
【００９４】
本変形例の受付端末２０の制御回路部２００により実行する制御手順は、前述の図９とほぼ同様のもので足りる。但し、ステップＳ３０では、上記ステップＳ２０で取得した雑音情報のうち、所定のしきい値レベルを超えたものから、図１０に示すような所定の時間Ｔの範囲（例えば最初の１［ｍｓｅｃ］）で雑音情報を時間的に抽出する（切り取る）。
【００９５】
そして、ステップＳ４０では、上記のようにしてステップＳ３０で抽出した所定の時間範囲の雑音情報に基づき、対応する疑似雑音を生成する。
【００９６】
本変形例によれば、疑似雑音の生成時に、取得した雑音情報をそのまま用いるのではなく、所定の時間範囲（例えば、最初の１［ｍｓｅｃ］）の雑音情報のみに限定して疑似雑音を生成する。これにより、ドアを閉めた音や物を置いた音等、最初に大きく立ち上がって急激に減衰していく雑音のうち減衰するまでの最初のレベルの大きな部分のみを時間的に切り取り、その切り取った部分に基づいて疑似雑音を生成することができる。これにより、上記実施形態と同様、出力する疑似雑音のレベル不足による不都合を回避し、確実な距離検出を行うことができる。
【００９７】
（２）変調処理を行ってから疑似雑音を生成する場合
以上においては、所定の範囲の雑音情報（しきい値レベルを超えた雑音情報、時間範囲の雑音情報）に限定して疑似雑音を生成していたが、これに限られない。すなわち、雑音情報に変調処理（例えば振幅変調や周波数変調等）を行って疑似雑音を生成するようにしてもよい。この変形例の受付端末２０の制御回路部２００により実行する制御手順では、図９におけるステップＳ３０が省略される。また、図９のステップＳ４０において、上記ステップＳ２０で取得した雑音情報に変調処理（例えば振幅変調）を行い、対応する疑似雑音を生成する（疑似音生成手段としての機能）。その後のステップＳ５０〜ステップＳ１４０は、前述の図９と同様である。
【００９８】
本変形例では、取得した雑音情報に変調処理を行うことにより、マイク２０７に入力した雑音のレベルに対して、適宜の大きさ（例えば５倍）に増幅した疑似雑音をスピーカ２０８を介して出力できるので、確実な距離検出を行うことができる。なお、この場合、元となる雑音情報は、所定のしきい値レベル（上記実施形態）や所定の時間範囲（上記（１）の変形例）等、所定の範囲内のものに限定されないという効果もある。あるいは、上記変調により、検出に都合がよいような周波数に変えて疑似雑音を生成することも可能であり、これによっても確実な距離検出を行うことができる。
【００９９】
（３）その他
以上においては、音声入力手段を、１つのマイク２０７で構成したが、これに限らず、複数の（例えば、２つの）マイクで構成してもよい（いわゆるアレー型のマイクロホン装置）。このような構成とすることで、受付端末２０の周囲で発生した雑音を複数のマイクのそれぞれで入力でき、良好に（感度よく）雑音情報を取得することができる。また、複数のマイクそれぞれの指向性を制御することで雑音発生方向を特定することができる。この結果、雑音発生方向へのマイク感度を高めたり、スピーカにより出力する疑似雑音を当該雑音発生方向に対応した態様とすることで、来訪者Ｍに対しさらに気づかれにくくすることができる、等の効果を得る。
【０１００】
また、以上においては、所定の演算処理として、疑似雑音を出力してから、その反射音が入力されるまでの所要時間を測定し、この所要時間が、来訪者Ｍまでの距離に比例するという関係（上記（式１）を参照）から来訪者Ｍまでの距離を検出した。しかしながら、これに限らず、所定の演算処理として、出力した疑似雑音と入力した反射音との位相差から来訪者Ｍまでの距離を検出するようにしてもよい。この場合でも上記と同様の効果を得る。
【０１０１】
なお、以上において、図４、図５等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
【０１０２】
また、図９に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
【０１０３】
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
【０１０４】
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
【符号の説明】
【０１０５】
２０受付端末（対話装置）
２０１ＣＰＵ
２０７マイク（音声入力手段）
２０８スピーカ（音声出力手段）
Ｍ来訪者（操作者）

【特許請求の範囲】
【請求項１】
操作者が対話方式により操作可能な対話装置であって、
音声を入力するための音声入力手段と、
音声を出力するための音声出力手段と、
前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、
前記音声入力手段が前記音を入力してから所定時間以内に、当該音取得手段で取得された前記音情報に基づき、前記音声出力手段を介し距離検出用の疑似音を出力する疑似音出力手段と、
前記音声入力手段を介し入力された、前記疑似音の対象物での反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する反射音取得手段と、
前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推測して当該操作者までの距離を検出する距離検出手段と、
前記距離検出手段での検出結果に基づき、前記操作者との対話処理を開始する対話処理制御手段と
を有することを特徴とする対話装置。
【請求項２】
前記音取得手段で取得された前記音情報に所定の処理を行い、対応する前記疑似音を生成する疑似音生成手段を有し、
前記疑似音出力手段は、
前記疑似音生成手段で生成された前記疑似音を出力する
ことを特徴とする請求項１記載の対話装置。
【請求項３】
前記疑似音生成手段は、
前記音情報のうち所定のしきい値レベルを超えたものに基づき、前記疑似音を生成することを特徴とする請求項２記載の対話装置。
【請求項４】
前記疑似音生成手段は、
所定の時間範囲の前記音情報に基づき、前記疑似音を生成することを特徴とする請求項３記載の対話装置。
【請求項５】
前記対話処理制御手段の制御に基づく前記対話処理が終了した後、所定期間が経過したら、疑似音の出力を再び実行するように制御する出力制御手段を有する
ことを特徴とする請求項１乃至請求項４のいずれか１項記載の対話装置。

【図１】