説明

対話装置

【課題】対話処理のためにもともと備わっている音声入力手段や音声出力手段を活用して、操作者までの距離検出を行う。
【解決手段】受付端末20は、音声を入力するためのマイク207と、音声を出力するためのスピーカ208とを有し、周囲で発生しマイク207で取得された雑音情報に基づきスピーカ208を介し距離検出用の疑似雑音を出力し、マイク207を介し入力された疑似雑音の対象物での反射音により対応する振幅あるいは周波数を含む反射音情報を取得し、取得された反射音情報に基づき所定の演算処理を行い、対象物が来訪者Mであると推測して来訪者Mまでの距離を検出し、この検出結果に基づき来訪者Mとの対話による受付処理を開始する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、操作者が音声による対話方式により操作可能な対話装置に関する。
【背景技術】
【0002】
例えば建造物への来訪者に対する受付業務を行う受付装置等、操作者が対話方式によって操作可能な対話装置が、従来より既に知られている。このような対話装置においては、操作者の所定距離範囲内への存在・不存在を処理開始・終了のトリガーとしたり、操作者の発話内容の音声認識精度を向上する等のために、装置から操作者までの距離を非接触で精度よく検出できることが好ましい。
【0003】
このような非接触距離検出に関しては、例えば特許文献1記載の従来技術が知られている。この従来技術では、超音波パルスを生成して対象物(物体)に対して出力し、検出対象物での反射波(エコーパルス)を探知する。そして超音波パルスの伝達時間を算出することにより、その伝達時間に基づいて対象物までの距離を検出するようになっている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−351897号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、対話装置に対し、上記従来技術のような超音波を用いた距離検出手法を適用しようとする場合、距離検出専用のセンサやマイクを新たに設ける必要が生じるという問題があった。
【0006】
本発明の目的は、専用のセンサやマイクを新たに設ける必要がなく、操作者までの距離検出を行える対話装置を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するために、第1の発明は、操作者が対話方式により操作可能な対話装置であって、音声を入力するための音声入力手段と、音声を出力するための音声出力手段と、前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、前記音声入力手段が前記音を入力してから所定時間以内に、当該音取得手段で取得された前記音情報に基づき、前記音声出力手段を介し距離検出用の疑似音を出力する疑似音出力手段と、前記音声入力手段を介し入力された、前記疑似音の対象物での反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する反射音取得手段と、前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推測して当該操作者までの距離を検出する距離検出手段と、前記距離検出手段での検出結果に基づき、前記操作者との対話処理を開始する対話処理制御手段とを有することを特徴とする。
【0008】
本願第1発明の対話装置においては、音を用いて操作者との距離を検出する。すなわち、装置の周囲で発生した音(いわゆる雑音)が音声入力手段を介して入力され、対応する音情報が音取得手段で取得される。すると、この音情報に基づき、疑似音出力手段が、距離検出用の疑似音を音声出力手段を介し出力する。出力された疑似音は対象物に向かって伝搬しその反射音が音声入力手段を介して入力される、対応する反射音情報が反射音取得手段で取得される。疑似音が発せられてからその反射音が戻ってくるまでの時間は、装置から対象物までの距離に比例するが、操作者が存在している場合は対象物としての操作者で反射した反射音が音声入力手段を介して入力され、上記時間は装置から操作者までの距離に比例する。したがって、距離検出手段は、上記反射音情報に基づき、前記対象物が前記操作者であると推測して操作者までの距離を検出する。この距離検出が終わった後に、当該検出結果に基づき、対話処理制御手段が操作者との対話処理を開始することで、確実な対話処理を行うことができる。
【0009】
以上のようにして、本願第1発明においては、音声入力手段及び音声出力手段を介して入出力する音を用いて、操作者までの距離を検出することができる。すなわち、対話処理のためにもともと備わっている音声入力手段(マイク等)や音声出力手段(スピーカ等)を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく、距離検出を行うことができる。
【0010】
またこのとき、距離検出のために、装置の周囲で発生した音(いわゆる雑音)に基づく疑似音を用いることにより、音を用いて検出していることを操作者に悟られることなく、距離検出を行える効果もある。
【0011】
第2発明は、上記第1発明において、前記音取得手段で取得された前記音情報に所定の処理を行い、対応する前記疑似音を生成する疑似音生成手段を有し、前記疑似音出力手段は、前記疑似音生成手段で生成された前記疑似音を出力することを特徴とする。
【0012】
これにより、装置の周囲で発生した音(いわゆる雑音)をそのまま用いて距離検出を行う以外に、雑音のうちの所定範囲(レベル範囲や時間範囲)のものを用いたり、雑音に各種の加工を施したものを用いたりすることが可能となる。この結果、距離検出に使用可能な音のバリエーションを拡張できるので、種々の用途への応用性を向上することができる。
【0013】
第3発明は、上記第2発明において、前記疑似音生成手段は、前記音情報のうち所定のしきい値レベルを超えたものに基づき、前記疑似音を生成することを特徴とする。
【0014】
雑音に基づき疑似音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力した疑似音のレベルも小さく、その反射音を検出することが困難となる。そこで、本願第3発明においては、所定のしきい値レベルを超えた雑音のみに限定して疑似音を生成することにより、上記のレベル不足による不都合を回避し、確実な距離検出を行うことができる。
【0015】
第4発明は、上記第3発明において、前記疑似音生成手段は、所定の時間範囲の前記音情報に基づき、前記疑似音を生成することを特徴とする。
【0016】
音情報に基づき疑似音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力する疑似音のレベルも小さく、その反射音を検出することが困難となる。そこで、本願第4発明においては、所定の時間範囲の雑音のみに限定して疑似音を生成する。これにより、例えばドアをしめた音や物を置いた音等、最初に大きく立ち上がって急激に減衰していく雑音のうち減衰するまでの最初のレベルの大きな部分のみを時間的に切り取り、その切り取った部分に基づいて疑似音を生成することが可能となる。これにより、前述のようなレベル不足による不都合を回避し、確実な距離検出を行うことができる。
【0017】
第5発明は、上記第1乃至第4発明のいずれかにおいて、前記対話処理制御手段の制御に基づく前記対話処理が終了した後、所定期間が経過したら、疑似音の出力を再び実行するように制御する出力制御手段を有することを特徴とする。
【0018】
操作者との距離を確定して対話処理が行われ、その対話処理が終了してしばらくたった場合には、対話していた操作者は既に別の場所に移動し、装置近傍に誰もいない(あるいは別の操作者がいる)状態になっている可能性が高い。そこで本願第5発明においてはこれに応じ、出力制御手段が、対話処理終了後所定期間が経過したら、疑似音の出力を再び実行するように制御する。これにより、次の操作者に対する距離検出を確実に実行することができる。
【発明の効果】
【0019】
本発明によれば、専用のセンサやマイクを新たに設ける必要がなく、操作者までの距離検出を行うことができる。
【図面の簡単な説明】
【0020】
【図1】本発明の一実施形態における来訪者受付システムの全体構成を示すシステム構成図である。
【図2】来訪者受付システムのシステム全体の機能構成を表す機能ブロック図である。
【図3】表示部における表示画面の一例を表す図である。
【図4】受付端末の機能的構成を示す機能ブロック図である。
【図5】DBサーバの機能的構成を表す機能ブロック図である。
【図6】スピーカより疑似雑音を出力するまでの手順の概要を説明した説明図である。
【図7】来訪者までの距離を検出する手法の概要を説明した説明図である。
【図8】雑音情報の取得を再開するまでの手順の概要を説明した説明図である。
【図9】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図10】所定の時間範囲の雑音情報に限定して疑似雑音情報を生成する変形例を説明するための説明図である。
【発明を実施するための形態】
【0021】
以下、本発明の一実施の形態を図面を参照しつつ説明する。本実施形態では、本発明の対話装置を、例えば、ビルや会社その他の建造物への来訪者に対する受付業務を行う来訪者受付システムに適用した場合を表している。
【0022】
(A)システムの基本構成
図1は、本実施形態の来訪者受付システムの全体構成を示すシステム構成図である。
【0023】
図1において、来訪者受付システム1は、例えば会社の入口付近に設置され、操作者(この例では、会社への来訪者)Mが対話方式により操作可能な受付端末20(対話装置)を有している。受付端末20には、音声を入力するためのマイク207(音声入力手段)と、音声を出力するためのスピーカ208(音声出力手段)とが設けられている。
【0024】
受付端末20は、来訪者Mとの対話処理(この例では、来訪者Mとの対話による受付処理)や、音声(雑音、疑似雑音、反射音等。後述)を用いた来訪者Mまでの距離の検出を行う。本実施形態では、受付端末20から来訪者Mまでの距離を検出する方法として、スピーカ208から距離検出用の音(後述する疑似雑音)を出力させて、その疑似雑音が来訪者Mで反射し、その反射音がマイク207に入力されるまでの所要時間を測定する。そして、この所要時間が、来訪者Mまでの距離に比例するという関係から、来訪者Mまでの距離を検出する。すなわち、来訪者Mまでの距離をL、上記所要時間をtとすると、
L=c×t/2 ・・・(式1)
で表される関係が成り立つ(詳細は図7で後述する)。なお、cは音速(約340[m/s]。但し、媒体である空気の密度や圧力により異なる)である。
【0025】
上記(式1)を解くことによって、来訪者Mまでの距離が検出できる。そして、検出した距離が所定値(受付処理可能な距離に相当。例えば、1[m])以下となったら、受付処理を開始する(詳細は後述する)。
【0026】
また、図1に示すように、受付端末20は、表示部210、上記マイク207、及び上記スピーカ208を有している。表示部210は、例えば液晶ディスプレイで構成され、この例では水平に設置されるベース212に対してアーム211を介し支持され、来訪者Mの視線に対して直角となるように面方向が斜め上方を向いている。マイク207は、ベース212に対し先端を来訪者M側へ向けるようにして略円弧状に配置されている。
【0027】
なお、表示部210をタッチパネルで構成し、表示される表示画面を来訪者Mが直接画面に触れながら操作できるようにしてもよい。
【0028】
図2は、来訪者受付システム1のシステム全体の機能構成を表す機能ブロック図である。
【0029】
図2において、来訪者受付システム1は、上記受付端末20と、周知のパーソナルコンピュータにより構成されるDBサーバ10と、会社の従業員それぞれに対応して設けられた複数の(この例では2つの)IP電話機60と、それら複数のIP電話機60の回線交換を行う周知の交換装置であるIP−PBX(Intenet Protocol Private Branch eXchange)50とを有し、これらはすべてルータ40を介して接続されている。
【0030】
受付端末20は、端末本体20Aと、この端末本体20Aに接続された、上記表示部210、上記マイク207、及び上記スピーカ208とを有している。
【0031】
マイク207は、入力された音声を音声情報に変換し、端末本体20Aへ出力する。入力音声としては、本実施形態では、例えば来訪者Mが発話した音声や、受付端末20の周囲で発生した雑音(例えば空調の音、ドアを閉めた音、物を置いた音、足音等)等がある。
【0032】
スピーカ208は、端末本体20Aから入力された音声信号を、来訪者Mに対する報知音(案内音声)や距離検出用の疑似雑音(疑似音。詳細は後述する)に変換して出力する。
【0033】
図3は、表示部210における表示画面の一例を表す図である。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物IMが、後述の受付処理が開始されると、オフィス風の背景Gとともに表示される。また、スピーカ208から発話される音声に対応する文章B(図中では「***」で略記している)が併せて表示される。
【0034】
図4は、受付端末20の機能的構成を示す機能ブロック図である。
【0035】
図4において、受付端末20の端末本体20Aは、制御回路部200と、入出力(I/O)インタフェイス204と、ハードディスク装置(HDD)205と、計時手段であるタイマ209とを有している。
【0036】
制御回路部200は、CPU201と、受付端末20の基本的な動作に必要なプログラムやそのための設定値を記憶したROM202と、各種データを一時的に記憶するRAM203とを備えている。CPU201は、ROM202や、HDD205に記憶されたプログラムに従って、受付端末20全体の動作を制御する。
【0037】
I/Oインタフェイス204には、上記CPU201と、上記ハードディスク装置205と、上記タイマ209と、上記表示部210と、上記マイク207と、上記スピーカ208と、ネットワーク(NW)カード206とが接続されている。
【0038】
HDD205には、言語モデル記憶エリア252、辞書記憶エリア253、及びプログラム記憶エリア256を含む複数の記憶エリアを備えている。
【0039】
言語モデル記憶エリア252には、来訪者Mによる発話の認識に使用するための受理可能な文のパターンが、受付端末20と来訪者Mとの対話で想定される様々な場面に応じて予め作成され、言語モデルとして記憶されている。
【0040】
辞書記憶エリア253には、上記言語モデルとともに音声認識に使用される単語辞書や、上記言語モデル及び単語辞書とともに来訪者Mの身元を特定するための音声認識に適宜使用される来訪者辞書等が、記憶されている。
【0041】
プログラム記憶エリア256には、例えば、受付端末20の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末20の基本的な動作を制御するシステムプログラム、DBサーバ10との通信を制御する通信プログラム、表示部210に表示する画像を生成する描画プログラム、上述した音声認識を実行する音声認識プログラム、DBサーバ10のデータベースにアクセスし照合を行うためのDB照合プログラム、音声合成プログラム、対話制御プログラム、IP電話機60とIP−PBX50との接続に係わる電話接続プログラム、前述した距離検出を制御する距離検出プログラム等がある。
【0042】
なお、図示はされていないが、HDD205には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴(例えば、周波数特性)と対応する音素とで表現されている。
【0043】
NWカード206は、上記ルータ40に接続され、DBサーバ10などとの間でデータの送受信を可能とするための拡張カードである。
【0044】
図5は、DBサーバ10の機能的構成を表す機能ブロック図である。
【0045】
図5に示すように、DBサーバ10は、CPU101と、CPU101に各々接続されたROM102及びRAM103と、CPU101に接続された入出力(I/O)インタフェイス104と、I/Oインタフェイス104にそれぞれ接続された、マウスコントローラ106、キーコントローラ107、ビデオコントローラ108、通信装置109、及びハードディスク装置(HDD)150とを有している。
【0046】
ROM102は、BIOSを含む、DBサーバ10を動作させるための各種のプログラムを記憶している。RAM103は、各種データを一時的に記憶する。CPU101は、ROM102や、後述するHDD150に記憶されたプログラムに従って、DBサーバ10の全体の制御を司る。
【0047】
マウスコントローラ106、キーコントローラ107、及びビデオコントローラ108には、それぞれマウス116、キーボード117、及びディスプレイ118が接続されている。通信装置109は、ルータ40に接続され、受付端末20等、外部機器との間でデータの送受信を行うことを可能とする。
【0048】
HDD150は、来訪者情報を格納する来訪者予約データベース(DB)記憶エリア151、社員情報を格納する社員データベース(DB)記憶エリア155、及びプログラム記憶エリア156を含む複数の記憶エリアを備えている。
【0049】
プログラム記憶エリア156には、システムプログラム、通信プログラム等、各種処理をDBサーバ10に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示せず)を介してインストールされ、プログラム記憶エリア156に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
【0050】
(B)受付処理の開始までの流れ
以上のような構成の本実施形態の最大の特徴は、マイク207を介し入力された雑音に対応する雑音情報に基づき距離検出用の疑似雑音をスピーカ208を介し出力すること、マイク207を介し入力された上記疑似雑音の来訪者Mでの反射音に対応する反射音情報に基づき来訪者Mまでの距離を検出すること、及び、検出した距離が所定値以下となったら受付処理を開始すること、である。以下、図6及び図7を用いて、その詳細を順を追って説明する。
【0051】
図6は、スピーカ208より疑似雑音を出力するまでの手順の概要を説明した説明図である。
【0052】
図6(a)には、マイク207に入力された雑音より、疑似雑音を生成する手順を模式的に示している。図6(a)に示すように、受付端末20の周囲で雑音(この例では、会社内の所定の場所に設置されているドア30が閉まる音)が発生すると、この雑音が伝搬してマイク207に入力され、対応する振幅あるいは周波数を含む雑音情報(音情報)が取得される。このとき、取得された雑音情報が、所定のしきい値レベルを超えているかどうかの確認が行われる(例えば、短時間フーリエ変換によりパワーに変換して確認すればよい)。そして、取得された雑音情報が、上記しきい値レベルを超える(パワーが大きい)ものであれば、当該雑音情報に基づき、距離検出用の疑似雑音(疑似音)が生成される。
【0053】
なお、取得された雑音情報が、上記しきい値レベルを超えない(パワーが小さい)ものであれば、後述する疑似雑音の反射音の検出を行うことが困難であるため、上記のような疑似雑音の生成に用いられずに、再度雑音情報の取得が行われる。このように、上記しきい値レベルを超える(パワーが大きい)雑音情報に限定して、言い換えれば、雑音情報のうち、上記しきい値レベルを超える雑音情報が切り取られて、上記疑似雑音の生成に用いられるのである。
【0054】
図6(b)には、スピーカ208より疑似雑音が出力された状態を模式的に示している。図6(b)に示すように、上記のようにして生成された距離検出用の疑似雑音はスピーカ208より出力される。この疑似雑音は、上記図6(a)において(ドア30において)発生した雑音に似た音(又は加工がされた音でもよい)である。また、疑似雑音の出力とほぼ同時に、タイマ209(図4参照)が起動される。これにより、スピーカ208より疑似雑音が出力されてから、この疑似雑音が来訪者Mに反射し、その反射音(=疑似雑音の来訪者Mでの反射音。以下、単に「反射音」という)がマイク207に入力されるまでの所要時間(以下、単に「所要時間」という)の測定(計測)が開始される。
【0055】
図7は、来訪者Mまでの距離を検出する手法の概要を説明した説明図である。
【0056】
前述のようにして疑似雑音がスピーカ208より出力されると、この疑似雑音は、所定の距離範囲(伝搬可能な距離範囲。パワーによって異なる)に伝搬される。このとき、当該範囲内に来訪者Mが存在すると、上記疑似雑音は、図7に示すように、来訪者Mにより反射し、その反射音が伝搬してマイク207に入力され、対応する反射音情報が取得される。このようにしてマイク207に反射音が入力されると、タイマ209によって行われていた上記所要時間の測定が終了する。すなわち、このときのタイマ209の測定値が上記所要時間となる。
【0057】
ここで、上記疑似雑音及びその反射音は、共に音波であるので受付端末20と来訪者Mとの間を音速で伝搬している。また、上記所要時間は、上記疑似雑音及びその反射音、すなわち音波が、受付端末20と来訪者Mとの間を往復する往復伝搬時間である(詳細にはスピーカ208→来訪者M間の疑似雑音の伝搬時間と、来訪者M→マイク207間の反射音の伝搬時間との合計時間)。すなわち、音速と、上記所要時間の半分(=片道の伝搬時間に相当)との積の値が、受付端末20から来訪者Mまでの距離となる。このようなことから、上記(式1)(図1参照)を解くことによって、受付端末20から来訪者Mまでの距離を検出(算出)することができるのである。
【0058】
例えば、音速を346.5[m/s]とし、タイマ209の測定値(=上記所要時間)を2.0[msec]とすると、来訪者Mまでの距離Lは、
L=346.5×2.0×10−3/2=346.5×10−3[m]≒35[cm]
となる。
【0059】
以上のようにして検出された距離Lが、所定値(受付処理可能な距離に相当。例えば1[m])以下となったら、受付処理が開始される。
【0060】
なお、上記のような距離検出の際、この例では、タイマ計測開始から所定の最小音波受音時間を経過するまでは上記反射音情報の取得は開始されないようになっている。この最小音波受音時間とは、スピーカ208より出力された疑似雑音が、来訪者Mに反射することなく、直接マイク207に入力されるまで(=いわゆる疑似雑音のスピーカ208からマイク207への周り込み)の所要時間である。例えば、スピーカ208とマイク207との間の距離が30[cm]であるとすると、最小音波受音時間は1.73[msec]となる。タイマ209の測定時間が最小音波受音時間を経過するまで、マイク207には、反射音は入力されない。したがって、最小音波受音時間が経過するまで反射音情報の取得を開始せずに待つことで、マイク207に入力する不要な音声(上記周り込みした疑似雑音)を、(後述の図9のステップS80で行われる)反射音を入力したか否かの確認の対象から除外することができる。
【0061】
また、タイマ計測開始から所定の最大音波受音時間が経過すると反射音情報の取得は終了され、再び雑音情報の取得が開始されるようになっている。この最大音波受音時間とは、スピーカ208より出力された疑似雑音が、受付端末20による受付処理を可能とする最大距離にいる来訪者Mにより反射し、その反射音がマイク207に入力されるまでの所要時間である。例えば、上記最大距離を100[cm]とすると、最大音波受音時間は5.77[msec]となる。この最大音波受音時間を経過した後、マイク207に入力された反射音は、上記最大距離より遠い位置に存在する対象物(来訪者Mとは限らない)により反射されたものである。タイマ209の測定時間が最大音波受音時間を経過すると、反射音情報の取得を終了とすることで、不要な反射音、すなわち、上記最大距離を越えた距離に存在する対象物により反射される反射音より取得される反射音情報を(後述の図9のステップS100で行われる)距離検出の対象から除外することができる。
【0062】
(C)受付処理の開始後に、雑音情報の取得を再開するまでの流れ
前述のようにして受付処理が開始されると、スピーカ208より所定の音声(案内音声。例えば、「いらっしゃいませ。どちら様でしょうか」等)が出力され、さらにこれに併せて表示部210に所定の表示画面(例えば前述した図3のようなもの)が表示される。来訪者Mがこれら音声や表示に応じて、受付端末20に対して発話すると、対応する音声がマイク207によって入力される。このようにして、来訪者Mによって(表示部210の表示画面を参照にしつつ)対話方式による受付操作が行われる。
【0063】
また、このようにして受付処理が開始された場合、(受付処理を行っている間は)、上記図6(a)に示した雑音情報の取得が再開されない(あるいは、図6(a)のように雑音情報は取得されるが、図6(b)のような疑似雑音の出力は行われない)ようになっている。すなわち、受付処理中においては、先に来訪者Mまでの距離検出のために使用していたマイク207及びスピーカ208が、受付処理(来訪者Mとの対話)に使用されることになる。
【0064】
図8(a)〜(c)には、上記の受付処理が終了した後の状態を示している。図8(a)に示すように受付処理が終了すると、来訪者Mが受付端末20の近傍から離れて別の場所に移動して受付端末20の近傍には誰もいない状態となる(図8(b))。すなわち、マイク207及びスピーカ208は、受付処理が終了された後、しばらくすると、受付処理(来訪者Mとの対話)には使用されなくなる。そして、受付処理が終了された後、所定期間(例えば10秒)が経過したら、図8(c)に示すように、上記雑音情報の取得が再開される(あるいは、上記した雑音情報は取得されるが疑似雑音が出力されない状態から、疑似雑音の出力が再開される)。こうして、上記図6(a)の状態に戻る。
【0065】
(D)制御手順
図9は、以上説明した内容を実現するために、受付端末20の制御回路部200により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、HDD205のプログラム記憶エリア256に記憶された来訪者受付処理用のプログラム群(前述のシステムプログラム、描画プログラム、音声認識プログラム、対話制御プログラム、距離検出プログラム等)に従って、CPU201が実行するものである。
【0066】
図9において、例えば受付端末20の電源ONによって、このフローが開始される(「START」位置)。まずステップS10で、所定の初期化処理を実行する。
【0067】
そして、ステップS20において、マイク207及びI/Oインタフェイス204を介して入力した音(雑音)により、対応する振幅あるいは周波数を含む上記雑音情報を取得する(音取得手段としての機能)。
【0068】
その後、ステップS30で、上記ステップS20で取得した雑音情報のレベルが、所定のしきい値レベルを超えたか否かを判定する。雑音情報がしきい値レベルを超えていない場合には、判定が満たされず上記ステップS20に戻り、同様の手順を繰り返す。雑音情報がしきい値レベルを超えていた場合には、判定が満たされてステップS40に移る。
【0069】
ステップS40では、所定のしきい値レベルを超えた雑音情報に所定の処理を行い、対応する疑似雑音を生成する。
【0070】
そして、ステップS50に移り、I/Oインタフェイス204及びスピーカ208を介し、上記生成した疑似雑音を出力させる(疑似音出力手段としての機能)。このステップS50の後、ステップS55に移り、生成した擬似雑音の出力を停止する。
【0071】
その後、ステップS60で、I/Oインタフェイス204を介してタイマ209に制御信号を出力し、タイマ209を起動させる。これにより、上記ステップS50で出力した疑似雑音が対象物(来訪者Mが存在している場合には来訪者M)に反射し、後述のステップS80で反射音がマイク207に入力されるまでの所要時間の測定(計時測定)が開始される。
【0072】
そして、ステップS70に移り、タイマ209の測定時間に基づき、測定時間が前述の最小音波受音時間を経過したか否かを判定する。最小音波受音時間を経過するまでは判定が満たされずループ待機し、最小音波受音時間を経過したら判定が満たされて、ステップS80に移る。
【0073】
ステップS80では、マイク207及びI/Oインタフェイス204を介して、対象物での反射音を入力した否かを判定する。この判定は、上記疑似雑音と、マイク207及びI/Oインタフェイス204を介して入力した音声との、パワースペクトルを比較する等の公知の手法により行えば足りる。反射音を入力していない場合には、判定が満たされずステップS85に移る。
【0074】
ステップS85では、上記ステップS60で既に計時開始しているタイマ209の測定時間に基づき、計時開始してから前述の最大音波受音時間を経過したか否かを判定する。最大音波受音時間を経過していない場合には、判定が満たされず上記ステップS80に戻り、同様の手順を繰り返す。最大音波受音時間を経過した場合には、判定が満たされて、上記ステップS20に戻り、同様の手順を繰り返す。
【0075】
一方、上記ステップS80において、反射音を入力していた場合には、ステップS80の判定が満たされてステップS90に移る。
【0076】
ステップS90では、上記ステップS80でマイク207及びI/Oインタフェイス204を介して入力された反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する。
【0077】
ステップS100では、上記ステップS90で取得された反射音情報と、上記ステップS60で既に計時開始しているタイマ209のここまでの測定時間とに基づき、所定の演算処理(この例では、前述の図1や図7で説明した上記(式1)を用いる手法)を行い、対象物までの距離(来訪者Mがいる場合は来訪者Mまでの距離)を検出する(距離検出手段としての機能)。
【0078】
その後、ステップS110で、上記ステップS100の距離検出結果に基づき、対象物までの距離が所定値(例えば、1[m])以下であるか否かを判定する。対象物までの距離が所定値より大きい場合には、判定が満たされず、来訪者Mが存在していないと推測して(あるいは来訪者Mが存在しているが受付処理するには遠すぎるとみなして)上記ステップS20に戻り、同様の手順を繰り返す。対象物までの距離が所定値以下である場合は判定が満たされ、来訪者Mが受付可能な距離に存在していると推測して、ステップS120に移る。
【0079】
ステップS120では、HDD205のプログラム記憶エリア256に記憶された所定のアプリケーションプログラムを読み出し、当該アプリケーションを起動することで、受付処理を開始する。
【0080】
そして、ステップS130に移り、上記ステップS120において開始した受付処理が終了しているか否かを判定する。受付処理が終了するまでは判定が満たされずループ待機し、受付処理が終了したら判定が満たされて、ステップS140に移る(なお、このとき後述するステップS140のためにタイマ209による計時を開始する)。
【0081】
ステップS140では、受付処理が終了した後、所定の期間(例えば、10秒)経過したか否かを(例えば上記タイマ209による計時に基づき)判定する。所定期間が経過するまでは判定が満たされずループ待機し、所定期間が経過したら判定が満たされて、ステップS20に戻り、同様の手順を繰り返す。この結果、上記のフローは、例えば受付端末20の電源がONの間、あるいは所定の終了操作がされるまでの間は、所定の時間間隔(例えば2秒間隔)で繰り返し継続して実行される。
【0082】
なお、上記において、ステップS30及びステップS40が、各請求項記載の疑似音生成手段として機能し、ステップS80及びステップS90が、反射音取得手段として機能し、ステップS120が、対話処理制御手段として機能する。
【0083】
また、ステップS120で受付処理が開始された後、ステップS130の判定が満たされずにループ待機している期間、言い換えれば、受付処理が行われている期間は、ステップS140に移行せず図9のフローは終了しない。すなわち、受付処理が行われている期間は、上記雑音情報の取得が再び行われることはない。
【0084】
また、受付処理が終了した後、ステップS140の判定が満たされると、言い換えれば、所定期間(例えば10秒)が経過すると図9のフローは終了する。すなわち、フローが再び「START」位置から開始され、ステップS10→ステップS20と移り、上記雑音情報の取得を再び実行する。この結果、ステップS140は、受付処理が終了した後、所定期間経過したら、疑似雑音の出力を再び実行するように制御する出力制御手段として機能している。
【0085】
以上説明したように、本実施形態の受付端末20においては、マイク207及びスピーカ208を介して入出力する音を用いて、来訪者Mとの距離を検出する。すなわち、受付端末20の周囲で発生した雑音(例えば、ドアが閉まる音等)がマイク207を介し入力されると、対応する雑音情報を取得し(ステップS20参照)、この取得した雑音情報に基づき、距離検出用の疑似雑音をスピーカ208を介し出力する(ステップS50参照)。そして、出力された疑似雑音が伝搬し来訪者Mで反射すると、その反射音がマイク207を介し入力され、対応する反射音情報を取得する(ステップS90参照)。そして、当該取得した反射音情報に基づき、来訪者Mまでの距離を検出する(ステップS100参照)。そして、当該検出した距離が所定値以下であれば、受付処理を開始する(ステップS120参照)ことで、来訪者Mに対して確実な受付処理を行うことができる。
【0086】
この結果、本実施形態の受付端末20によれば、マイク207及びスピーカ208を介して入出力する音を用いて、来訪者Mまでの距離を検出することができる。すなわち、受付処理のためにもともと備わっているマイク207及びスピーカ208を活用することで、それ以外の別途の距離検出用のセンサや専用マイク等を新たに設けることなく、距離検出を行うことができる。
【0087】
またこのとき、距離検出のために、雑音情報に基づく疑似雑音(周囲で発生した雑音に似ている音)を用いることにより、音を用いて検出していることを来訪者Mに悟られることなく、距離検出を行える効果もある。
【0088】
また、本実施形態では特に、上記雑音情報に所定の処理を行い、対応する疑似雑音を生成し(ステップS40参照)、スピーカ208を介し疑似雑音を出力する(ステップS50参照)。これにより、雑音情報をそのまま用いて距離検出を行う以外に、雑音情報のうちの所定範囲(レベル範囲や時間範囲)のものを用いたり(後述の(1)の変形例参照)、雑音情報に各種の加工を施したものを用いたりすることができる(後述の(2)の変形例参照)。この結果、距離検出に使用可能な音のバリエーションを拡張できるので、種々の用途への応用性を向上することができる。
【0089】
ここで、雑音情報に基づき疑似雑音を生成するとき、元となる雑音のレベルがあまりに小さいと、出力する疑似雑音のレベルも小さく、その反射音を検出することが困難となる。そこで、本実施形態では特に、上記雑音情報のうち所定のしきい値レベルを超えたもの(例えばパワーが大きいもの)に基づき、疑似雑音を生成する(ステップS30参照)。これにより、上記のように、出力する疑似雑音のレベル不足による不都合を回避し、確実な距離検出を行うことができる。
【0090】
また、距離検出を行って来訪者Mとの距離を確定した後、受付処理を開始した場合には、当該来訪者Mによって対話方式による操作が安定的に行われているはずである。これに対応し、本実施形態では特に、受付処理が開始された後は、疑似雑音の出力を再び行わないようにする(ステップS130参照)。これにより、上記のような安定的な操作時に再び疑似雑音の出力を繰り返す無駄を避けることができる。
【0091】
さらに、来訪者Mとの距離を確定して受付処理が行われ、その受付処理が終了してしばらく経過した場合には、対話していた来訪者Mは既に別の場所に移動し、受付端末20の近傍に誰もいない(あるいは別の来訪者Mがいる)状態になっている可能性が高い。これに対応し、本実施形態では特に、受付処理が終了した後、所定期間(例えば、10秒)が経過したら、雑音情報の取得を再び実行するようにする(ステップS140参照)。したがって、受付処理終了後、所定期間が経過したら、(フローを終了し、再度フローを開始して)疑似雑音の出力を再び行うようにすることで、次の来訪者Mに対する距離検出を確実に実行することができる。
【0092】
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。
【0093】
(1)所定の時間範囲の雑音情報に限定して疑似雑音を生成する場合
上記実施形態においては、出力する疑似雑音のレベル不足による不都合を回避するために、所定のしきい値レベルを超えた(パワーの大きい)雑音情報に限定して疑似雑音を生成していたが、これに限られない。すなわち、所定の時間範囲(例えば、最初の1[msec])の雑音情報に限定して疑似雑音を生成するようにしてもよい。
【0094】
本変形例の受付端末20の制御回路部200により実行する制御手順は、前述の図9とほぼ同様のもので足りる。但し、ステップS30では、上記ステップS20で取得した雑音情報のうち、所定のしきい値レベルを超えたものから、図10に示すような所定の時間Tの範囲(例えば最初の1[msec])で雑音情報を時間的に抽出する(切り取る)。
【0095】
そして、ステップS40では、上記のようにしてステップS30で抽出した所定の時間範囲の雑音情報に基づき、対応する疑似雑音を生成する。
【0096】
本変形例によれば、疑似雑音の生成時に、取得した雑音情報をそのまま用いるのではなく、所定の時間範囲(例えば、最初の1[msec])の雑音情報のみに限定して疑似雑音を生成する。これにより、ドアを閉めた音や物を置いた音等、最初に大きく立ち上がって急激に減衰していく雑音のうち減衰するまでの最初のレベルの大きな部分のみを時間的に切り取り、その切り取った部分に基づいて疑似雑音を生成することができる。これにより、上記実施形態と同様、出力する疑似雑音のレベル不足による不都合を回避し、確実な距離検出を行うことができる。
【0097】
(2)変調処理を行ってから疑似雑音を生成する場合
以上においては、所定の範囲の雑音情報(しきい値レベルを超えた雑音情報、時間範囲の雑音情報)に限定して疑似雑音を生成していたが、これに限られない。すなわち、雑音情報に変調処理(例えば振幅変調や周波数変調等)を行って疑似雑音を生成するようにしてもよい。この変形例の受付端末20の制御回路部200により実行する制御手順では、図9におけるステップS30が省略される。また、図9のステップS40において、上記ステップS20で取得した雑音情報に変調処理(例えば振幅変調)を行い、対応する疑似雑音を生成する(疑似音生成手段としての機能)。その後のステップS50〜ステップS140は、前述の図9と同様である。
【0098】
本変形例では、取得した雑音情報に変調処理を行うことにより、マイク207に入力した雑音のレベルに対して、適宜の大きさ(例えば5倍)に増幅した疑似雑音をスピーカ208を介して出力できるので、確実な距離検出を行うことができる。なお、この場合、元となる雑音情報は、所定のしきい値レベル(上記実施形態)や所定の時間範囲(上記(1)の変形例)等、所定の範囲内のものに限定されないという効果もある。あるいは、上記変調により、検出に都合がよいような周波数に変えて疑似雑音を生成することも可能であり、これによっても確実な距離検出を行うことができる。
【0099】
(3)その他
以上においては、音声入力手段を、1つのマイク207で構成したが、これに限らず、複数の(例えば、2つの)マイクで構成してもよい(いわゆるアレー型のマイクロホン装置)。このような構成とすることで、受付端末20の周囲で発生した雑音を複数のマイクのそれぞれで入力でき、良好に(感度よく)雑音情報を取得することができる。また、複数のマイクそれぞれの指向性を制御することで雑音発生方向を特定することができる。この結果、雑音発生方向へのマイク感度を高めたり、スピーカにより出力する疑似雑音を当該雑音発生方向に対応した態様とすることで、来訪者Mに対しさらに気づかれにくくすることができる、等の効果を得る。
【0100】
また、以上においては、所定の演算処理として、疑似雑音を出力してから、その反射音が入力されるまでの所要時間を測定し、この所要時間が、来訪者Mまでの距離に比例するという関係(上記(式1)を参照)から来訪者Mまでの距離を検出した。しかしながら、これに限らず、所定の演算処理として、出力した疑似雑音と入力した反射音との位相差から来訪者Mまでの距離を検出するようにしてもよい。この場合でも上記と同様の効果を得る。
【0101】
なお、以上において、図4、図5等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
【0102】
また、図9に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
【0103】
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
【0104】
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
【符号の説明】
【0105】
20 受付端末(対話装置)
201 CPU
207 マイク(音声入力手段)
208 スピーカ(音声出力手段)
M 来訪者(操作者)

【特許請求の範囲】
【請求項1】
操作者が対話方式により操作可能な対話装置であって、
音声を入力するための音声入力手段と、
音声を出力するための音声出力手段と、
前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、
前記音声入力手段が前記音を入力してから所定時間以内に、当該音取得手段で取得された前記音情報に基づき、前記音声出力手段を介し距離検出用の疑似音を出力する疑似音出力手段と、
前記音声入力手段を介し入力された、前記疑似音の対象物での反射音により、対応する振幅あるいは周波数を含む反射音情報を取得する反射音取得手段と、
前記反射音取得手段で取得された前記反射音情報に基づき、所定の演算処理を行い、前記対象物が前記操作者であると推測して当該操作者までの距離を検出する距離検出手段と、
前記距離検出手段での検出結果に基づき、前記操作者との対話処理を開始する対話処理制御手段と
を有することを特徴とする対話装置。
【請求項2】
前記音取得手段で取得された前記音情報に所定の処理を行い、対応する前記疑似音を生成する疑似音生成手段を有し、
前記疑似音出力手段は、
前記疑似音生成手段で生成された前記疑似音を出力する
ことを特徴とする請求項1記載の対話装置。
【請求項3】
前記疑似音生成手段は、
前記音情報のうち所定のしきい値レベルを超えたものに基づき、前記疑似音を生成することを特徴とする請求項2記載の対話装置。
【請求項4】
前記疑似音生成手段は、
所定の時間範囲の前記音情報に基づき、前記疑似音を生成することを特徴とする請求項3記載の対話装置。
【請求項5】
前記対話処理制御手段の制御に基づく前記対話処理が終了した後、所定期間が経過したら、疑似音の出力を再び実行するように制御する出力制御手段を有する
ことを特徴とする請求項1乃至請求項4のいずれか1項記載の対話装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−204260(P2010−204260A)
【公開日】平成22年9月16日(2010.9.16)
【国際特許分類】
【出願番号】特願2009−47872(P2009−47872)
【出願日】平成21年3月2日(2009.3.2)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】