説明

受付装置

【課題】ユーザの発話音声以外の音が混入して入力される場合であっても確実にユーザ情報を取得する。
【解決手段】受付端末20は、タッチパネル210と、マイク207L,207Rとを有し、マイク207L,207Rを介し入力された音により音情報を取得し、マイク207L,207Rに入力された来訪者の発話音声による音声情報か、若しくは、タッチパネル210に入力された操作情報に基づき、来訪者情報を取得し、取得される音情報が所定の音情報を含むかどうかの判断を行い、音情報が所定の音情報を含むと判断された場合に、所定の切替タイミングで、来訪者情報の取得方法を、音声認識か、若しくは、タッチパネル210に切替制御し、この切替制御に対応した、音声情報に基づく来訪者情報、若しくは、操作情報に基づく来訪者情報を取得する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話者の発する発話音声を音声認識可能な受付装置に関する。
【背景技術】
【0002】
例えば建造物への来訪者に対する受付業務を行う受付装置が、従来より既に知られている。このような受付装置においては、ユーザ(来訪者)の発話音声をマイク等の音声入力手段により入力し、その発話内容を音声認識することによってユーザ情報(氏名、会社名等)を取得する。この際、受付装置の周囲環境で雑音や騒音が発生していると、音声入力手段にはそれらの音も併せて入力され混入するため、音声認識時にユーザ情報の誤認識が生じるおそれがある。
【0003】
上記のようなマイクにおける音声認識の適正化に関する従来技術として、例えば特許文献1に記載の音声認識装置が知られている。この従来技術では、入力音声信号中における櫛形雑音の有無を、雑音判定部が判定する。入力音声信号に櫛形雑音が重畳されている場合には、雑音除去部が、所定のフィルタ群を用いて重畳されている櫛形雑音を除去するようになっている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2002−99296号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来技術情報のようなフィルタリングの手法では、雑音除去が十分でなく、ユーザ発話音声の内容を十分に取得できず、ユーザ情報を取得できない場合があった。
【0006】
本発明の目的は、ユーザの発話音声以外の音が混入して入力される場合であっても、確実にユーザ情報を取得できる受付装置を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するために、第1の発明は、ユーザに対し、予め定められた複数の処理手順に沿った受付処理を行う受付装置であって、前記ユーザの手動操作により操作情報を入力可能な操作手段と、音声を入力するための少なくとも1つの音声入力手段と、前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、前記音声入力手段に入力された前記ユーザの発話音声による音声情報か、若しくは、前記操作手段に入力された前記操作情報に基づき、前記ユーザに係わるユーザ情報を取得するユーザ情報取得手段と、前記音取得手段により取得される音情報が所定の音情報を含むかどうかの判断を行う音情報判断手段と、前記音情報判断手段により前記音情報が所定の音情報を含むと判断された場合に、所定の切替タイミングで、前記ユーザ情報取得手段による前記ユーザ情報の取得を、前記音声情報に基づく前記ユーザ情報の取得か、若しくは、前記操作情報に基づく前記ユーザ情報の取得に切替制御可能な取得制御手段とを有し、前記ユーザ情報取得手段は、前記取得制御手段による前記切替制御に対応した、前記音声情報に基づく前記ユーザ情報、若しくは、前記操作情報に基づく前記ユーザ情報を取得することを特徴とする。
【0008】
本願第1発明においては、ユーザが発話することによってその音声が音声入力手段により入力され、さらに音取得手段により振幅あるいは周波数を含む音情報(詳細には音声情報)として取得される。この音声情報に基づき、ユーザ情報取得手段が、音声認識により当該ユーザの氏名や会社名等を含むユーザ情報を取得する。
【0009】
ところで、ユーザが発話音声を入力するとき、音声入力手段に、当該発話音声以外の音、例えば、周囲環境から生じるいわゆる雑音等も混入して入力される場合がある。このような場合、音取得手段により取得される音情報には、発話音声による音声情報以外の所定の音情報が含まれることとなる。この結果、ユーザ情報取得手段が音声情報を音声認識することによってユーザ情報を取得しようとするとき、上記混入した音に基づく所定の音情報の影響で音声認識の精度が低下し、ユーザ情報を精度よく取得できないおそれがある。
【0010】
本願第1発明では上記に対応し、ユーザ情報を、ユーザの発話音声による音声情報か、若しくは、ユーザが操作手段を手動操作した操作情報の、いずれか一方より、選択的に取得可能としている。そして、音情報判断手段が、上記取得された音情報の中に、上記所定の音情報が含まれるかどうかを判断し、音情報に所定の音情報が含まれる場合には、取得制御手段が、所定の切替タイミングでユーザ情報取得手段を制御し、ユーザ情報の取得方法を、音声情報による音声認識から操作手段を介しての手動操作入力へと切り替え可能とする。この結果、ユーザの手動操作に基づいてユーザ情報を取得することができる。
【0011】
以上のように、本願第1発明においては、ユーザの発話音声以外の音が混入して入力される場合であっても確実にユーザ情報を取得できる。
【0012】
第2発明は、上記第1発明において、前記受付処理を開始するための特定条件を検知する検知手段をさらに有し、前記音情報判断手段は、前記検知手段により前記特定条件が検知された場合に、前記音取得手段により取得される前記音情報が前記所定の音情報を含むかどうかの判断を行うことを特徴とする。
【0013】
本願第2発明においては、受付処理開始のための特定条件が予め設定されており、その特定条件を検知するための検知手段が設けられている。取得制御手段は、検知手段によって当該特定条件が検知された場合には、前述の音声情報による音声認識による取得から操作手段を介しての手動操作入力による取得へ、ユーザ情報の取得方法を切替可能である。これにより、一連の受付処理を開始する前の時点で既に周囲環境の雑音等が生じていた場合には、受付処理を開始するより前に、手動操作入力に基づくユーザ情報の取得へと切り替えることができる。
【0014】
第3発明は、上記第1発明において、音声を出力するための音声出力手段と、各処理手順ごとに、対応する装置発話音声を前記音声出力手段を介し出力する発話手段と、複数の前記音声入力手段を介し入力された音に応じて前記音取得手段により取得された音情報に基づき、前記装置発話音声による音声情報と前記所定の音情報としての非音声情報とを識別する情報識別手段とをさらに有し、前記音取得手段は、前記発話手段が前記装置発話音声の出力を行っている間に、複数の前記音声入力手段に入力された音により、前記音情報を取得し、前記音情報判断手段は、前記情報識別手段により識別された前記非音声情報が所定の音情報を含むかどうかの判断を行い、前記取得制御手段は、前記所定の切替タイミングとして、前記発話手段が前記装置発話音声の出力を行っている間に、前記音情報判断手段による判断結果に対応した、前記ユーザ情報取得手段の前記切替制御を行うことを特徴とする。
【0015】
本願第3発明においては、受付処理に関し予め定められた複数の処理手順(いわゆるシナリオ)ごとに、ユーザによる発話音声を誘導するために、発話手段が、当該処理手順に対応した発話音声を音声出力手段を介し出力する。このとき、上記発話音声の出力中において、情報識別手段が、音声入力手段を介し音取得手段で取得された音情報を、装置発話音声による音声情報と、非音声情報とに識別する。そして、音情報判断手段は、当該識別された非音声情報の中に、上記所定の音情報が含まれるかどうかを判断し、取得制御手段は、上記音情報判断手段の判断結果に対応してユーザ情報取得手段の切替制御を行う。この結果、上記発話音声の出力中において、前述の音声情報による音声認識による取得から操作手段を介しての手動操作入力による取得へ、ユーザ情報の取得方法の切替制御を行うことが可能となる。これにより、周囲環境の雑音等が生じていた場合に、一連の受付処理を開始した後の装置からの発話時点で、手動操作入力に基づくユーザ情報の取得へと確実に切り替えることができる。
【0016】
第4発明は、上記第3発明において、前記音情報判断手段は、前記情報識別手段により識別された前記非音声情報が、所定のしきい値未満である音情報を含むかどうかの判断を行うことを特徴とする。
【0017】
これにより、雑音等による非音声情報のレベルが小さく、音声認識精度にあまり影響を与えない場合には、音声情報に基づくユーザ情報の取得を継続し無駄な切り替えを行わないようにすることが可能となる。
【0018】
第5発明は、上記第3又は第4発明において、特定の前記処理手順においては、前記音取得手段により前記非音声情報が取得された場合、及び、前記非音声情報が取得されなかった場合のいずれにおいても、前記ユーザ情報取得手段の前記切替制御を禁止する処理を行う禁止制御手段をさらに有することを特徴とする。
【0019】
これにより、音声情報による音声認識による取得から操作手段を介しての手動操作入力による取得への、ユーザ情報の取得方法の切り替えを行うとユーザに不自然な印象を与えたり混乱を招くような、特定の処理手順については、切替条件を満たしても敢えて切り替えを行わないようにすることで、ユーザにとっての利便性を向上することができる。
【0020】
第6発明は、上記第5発明において、前記音取得手段による前記非音声情報の取得継続時間に応じて、前記禁止制御手段による前記切替制御を禁止する前記処理を解除する処理を行う禁止解除手段をさらに有することを特徴とする。
【0021】
これにより、例えばユーザに不自然な印象を与えたり混乱を招かないように切り替えを行わないようにした場合でも、雑音発生時間が長くなった場合には正確なユーザ情報の取得を優先し、操作情報に基づくユーザ情報の取得へと確実に切り替えることができる。
【0022】
第7発明は、上記第1乃至第6発明のいずれかにおいて、前記取得制御手段による前記切替制御の実行時に、対応する切替報知を前記ユーザに対し行う報知手段をさらに有することを特徴とする。
【0023】
これにより、音声情報による音声認識による取得や操作手段を介しての手動操作入力による取得へユーザ情報の取得方法を切り替えることを、ユーザに確実に認識させることができる。
【発明の効果】
【0024】
本発明によれば、ユーザの発話音声以外の音が混入して入力される場合であっても、確実にユーザ情報を取得することができる。
【図面の簡単な説明】
【0025】
【図1】本発明の一実施の形態の来訪者受付システムの全体構成の概略構成を表すシステム構成図である。
【図2】受付端末の外観構造の一例を表す斜視図である。
【図3】タッチパネルにおける表示画面の一例を表す図である。
【図4】タッチパネルにおける表示画面の他の例を表す図である。
【図5】タッチパネルにおける表示画面のさらに他の例を表す図である。
【図6】受付端末の機能的構成を示す機能ブロック図である。
【図7】DBサーバの機能的構成を表す機能ブロック図である。
【図8】雑音があまり生じていない環境下において、マイクに入力された音による音情報を音波形で表した図である。
【図9】雑音環境下において、マイクに入力された音による音情報を音波形で表した図である。
【図10】各シナリオごとに設定される入力フラグ及び切替フラグを説明した説明図である。
【図11】来訪者情報の取得方法の切替タイミングを説明した説明図である。
【図12】受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【図13】ステップS30の詳細手順を表すフローチャートである。
【図14】ステップS100の詳細手順を表すフローチャートである。
【図15】ステップS200の詳細手順を表すフローチャートである。
【図16】ステップS300の詳細手順を表すフローチャートである。
【図17】切替制御の禁止を解除する変形例において、受付端末制御回路部により実行する制御手順を表すフローチャートである。
【図18】ステップS300′の詳細手順を表すフローチャートである。
【図19】受付開始ボタンが手動操作されたら、所定の音情報を含むかどうかの判断を行う変形例において、受付端末の制御回路部により実行する制御手順を表すフローチャートである。
【発明を実施するための形態】
【0026】
以下、本発明の一実施の形態を図面を参照しつつ説明する。
【0027】
(A)システムの基本構成
図1は、本実施形態の来訪者受付システムの全体構成の概略構成を表すシステム構成図である。図1において、来訪者受付システム1は、例えば、ビルや会社その他の建造物への来訪者(ユーザ)に対する受付業務を行うシステムである。この例では会社へ設置されている場合を例にとって説明する。
【0028】
来訪者受付システム1は、例えば会社の入口付近に設置された受付端末20(受付装置)と、周知のパーソナルコンピュータにより構成されるDBサーバ10と、会社の従業員(社員)それぞれに対応して設けられた複数のIP電話機60と、それら複数のIP電話機60の回線交換を行う周知の交換装置であるIP−PBX(Intenet Protocol Private Branch eXchange)50とを有し、これらは全てルータ40を介して接続されている。
【0029】
受付端末20は、端末本体20Aと、この端末本体20Aに接続された、タッチパネル210、複数の(この例では2つの)マイク207L,207R、及びスピーカ208とを有している。
【0030】
スピーカ208は、音声出力手段として機能し、端末本体20Aから入力された音声信号を所定の案内音声(装置発話音声)に変換して出力する。
【0031】
マイク207L,207Rは、それぞれ音声入力手段として機能し、それぞれ入力された音(来訪者の発話音声、周囲環境で生じるいわゆる雑音、上記案内音声など)を音情報に変換し、端末本体20Aへ出力する。
【0032】
図2は、受付端末20の外観構造の一例を表す斜視図である。
【0033】
図2において、受付端末20は、上記タッチパネル210、上記マイク207L,207R、及び上記スピーカ208を有している。タッチパネル210は、この例では水平に設置されるベース212に対してアーム211を介し支持され、ユーザ(すなわちこの例では来訪者)の視線に対して直角となるように面方向が斜め上方を向いている。マイク207L,207Rは、それぞれ受付端末20の正面側(図中手前側)の上記タッチパネル210の上部に配設され、この例では図中向かって左側にマイク207L、右側にマイク207Rが配置されている。スピーカ208は、受付端末20の正面側(図中手前側)の上記タッチパネル210の下部に配設されている。
【0034】
図3は、タッチパネル210における表示画面の一例を表す図である。この画面においては、後述の描画プログラムによって生成された、受付業務を行う仮想人物Mが、後述の受付処理が開始されると、オフィス風の背景Gとともに表示される。また、スピーカ208から発話される音声に対応する文章L(図中では「***」で略記している)が併せて表示される。
【0035】
図4は、タッチパネル210における表示画面の他の例を表す図である。この画面においては、後述の描画プログラムによって生成された、来訪者が指でタッチすることで操作入力可能な少なくとも1つの操作ボタンBが背景G(図示では上記図3とは異なる背景の表示例を示している)とともに表示される。なお、各ボタンBにはその内容が記載(図中では「***」で略記している)されている。
【0036】
図5は、タッチパネル210における表示画面のさらに他の例を表す図である。この画面においては、後述の描画プログラムによって生成された、来訪者が指でタッチすることで操作入力可能ないわゆるソフトウェアキーボードSBが表示される。ソフトウェアキーボードSBには、平仮名五十音をそれぞれ操作入力するためのかなボタンSB1と、誤入力時に訂正するための「訂正」ボタンSB2と、来訪者が担当者名を知らないときにその旨を操作入力するための「担当者名不明」ボタンSB3と、入力内容を確定させる「決定」ボタンSB4と、現在の入力内容を表示する「担当者名」表示欄SB5とを備えている。
【0037】
タッチパネル210は、上記の例を含む複数の画面を所定の順序で順次切り替えて表示可能となっている(詳細は後述)。このように、タッチパネル210は、来訪者が手動操作可能な操作手段として機能している。
【0038】
以上の構成において、例えば受付端末20の電源がONされた後、この状態で会社への来訪者が上記タッチパネル210を操作することで、受付端末20は来訪者が検出されたと認識して受付処理を開始する。すなわち、来訪者に対し、予め定められた複数の処理手順(以下、シナリオという。詳細は後述)に沿って、端末本体20Aからの音声信号に基づき、各シナリオごとに、スピーカ208から来訪者に関する所定の質問(詳細は後述)を所定の順序で出力する。またこのときタッチパネル210においても、上記出力に対応した所定の表示を行う(詳細は後述)。
【0039】
上記スピーカ208による出力やタッチパネル210における表示に応じて、来訪者が自己の氏名等を発声すると、受付端末20は、対応する音声情報をマイク207L,207Rから入力し、音声認識処理を行う。また、上記スピーカ208の出力やタッチパネル210の表示に応じて、来訪者がタッチパネル210の適宜の画面における各種ボタンを手動操作すると、対応する操作情報を入力する。
【0040】
そして、受付端末20は、上記音声情報の音声認識結果及び上記操作情報の入力結果に応じて、会社の来訪者を対応すべき来訪対応者(以下適宜、単に担当者という)が使用するIP電話機60にIP−PBX50を介して接続し、担当者への通知処理を行う。担当者は、通知された来訪者の身元に関する情報に応じて、受付端末20に対して応対を指示する。この指示に応じて、受付端末20は、来訪者と担当者とが会話できるようにIP電話機60を接続したり、担当者の代理で来訪者に応対したりする。このようにして、本実施形態の来訪者受付システム1は、会社における受付業務を自動的に行うことができる。
【0041】
(B)受付端末の詳細機能
図6は、受付端末20の機能的構成を示す機能ブロック図である。
【0042】
図6において、受付端末20の端末本体20Aは、制御回路部200と、入出力(I/O)インタフェイス204と、ハードディスク装置(HDD)205とを有している。
【0043】
制御回路部200は、CPU201と、受付端末20の基本的な動作に必要なプログラムやそのための設定値を記憶したROM202と、各種データを一時的に記憶するRAM203とを備えている。CPU201は、ROM202や、HDD205に記憶されたプログラムに従って、受付端末20全体の動作を制御する。
【0044】
I/Oインタフェイス204には、上記CPU201と、上記ハードディスク装置205と、上記タッチパネル210と、上記2つのマイク207L,207Rと、上記スピーカ208と、ネットワーク(NW)カード206とが接続されている。
【0045】
HDD205には、来訪者による発話の音声認識に使用するための言語モデル記憶エリア252、上記言語モデルとともに音声認識に使用される辞書記憶エリア253、及びプログラム記憶エリア256を含む複数の記憶エリアを備えている。
【0046】
プログラム記憶エリア256には、例えば、受付端末20の各種動作を制御するための複数のプログラムが記憶されている。記憶されているプログラムとしては、例えば、受付端末20の基本的な動作を制御するシステムプログラム、DBサーバ10との通信を制御する通信プログラム、タッチパネル210に表示する画像を生成する描画プログラム、音声認識を実行する音声認識プログラム、DBサーバ10のデータベースにアクセスし照合を行うためのDB照合プログラム、音声合成プログラム、対話制御プログラム、IP電話機60とIP−PBX50との接続に係わる電話接続プログラム等がある。
【0047】
なお、図示はされていないが、HDD205には、その他、音声認識処理で一般的に使用される周知の音響モデルや、各種処理で使用される設定値等も記憶されている。なお、詳細は説明しないが、音響モデルは、音声の音響的特徴を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、音響的特徴(例えば、周波数特性)と対応する音素とで表現されている。
【0048】
NWカード206は、上記ルータ40に接続され、DBサーバ10などとの間でデータの送受信を可能とするための拡張カードである。
【0049】
(C)DBサーバの詳細機能
図7は、DBサーバ10の機能的構成を表す機能ブロック図である。
【0050】
図7に示すように、DBサーバ10は、CPU101と、CPU101に各々接続されたROM102及びRAM103と、CPU101に接続された入出力(I/O)インタフェイス104と、I/Oインタフェイス104にそれぞれ接続された、マウスコントローラ106、キーコントローラ107、ビデオコントローラ108、通信装置109、及びハードディスク装置(HDD)150とを有している。
【0051】
ROM102は、BIOSを含む、DBサーバ10を動作させるための各種のプログラムを記憶している。RAM103は、各種データを一時的に記憶する。CPU101は、ROM102や、後述するHDD150に記憶されたプログラムに従って、DBサーバ10の全体の制御を司る。
【0052】
マウスコントローラ106、キーコントローラ107、及びビデオコントローラ108には、それぞれマウス116、キーボード117、及びディスプレイ118が接続されている。通信装置109は、ルータ40に接続され、受付端末20等、外部機器との間でデータの送受信を行うことを可能とする。
【0053】
HDD150は、予定された来訪者の予約データを格納する来訪者予約データベース記憶エリア151、社員情報を格納する社員データベース記憶エリア155、会社の全部署の電話番号情報を格納する部署電話番号データベース記憶エリア154、及びプログラム記憶エリア156を含む複数の記憶エリアを備えている。
【0054】
プログラム記憶エリア156には、システムプログラム、通信プログラム等、各種処理をDBサーバ10に実行させるための各種プログラムが記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示せず)を介してインストールされ、プログラム記憶エリア156に記憶される。又は、適宜のネットワークを介してシステム外部からダウンロードされたプログラムが記憶されてもよい。
【0055】
(D)受付処理の流れ
以上のような構成の本実施形態の最大の特徴は、マイク207L,207Rを介し取得した音情報が、所定の音情報(雑音情報など)を含んでいるかを判断し、雑音が含まれている場合には、来訪者情報を来訪者の手動操作で取得するように切り替えることである。以下、その詳細を順を追って説明する。
【0056】
本実施形態においては、後述の受付処理において、マイク207L,207Rに入力された来訪者の発話音声による音声情報か、若しくは、来訪者の手動操作による操作情報のいずれかに基づき、来訪者に係わる来訪者情報(ユーザ情報。例えば会社名や氏名など)を取得することができる。そして、上記来訪者情報の取得を、上記のうちいずれかで行うかを切替制御する。言い換えれば、上記来訪者情報の取得方法を、来訪者の発話音声の音声情報による音声認識、若しくは、来訪者のタッチパネル210を介しての手動操作入力のいずれかに切替制御するのである。
【0057】
まず図8及び図9を用いて、マイク207L,207Rに入力された音により取得される音情報について説明する。
【0058】
図8は、雑音があまり生じていない環境下において、マイク207L,207Rに入力された音による音情報の一例を音波形で表した図である。図9は、雑音環境下において、マイク207L,207Rに入力された音による音情報の一例を音波形で表した図である。また、図8(a)及び図9(a)は、横軸に時間[秒]、縦軸にサンプル値(サンプリングされた値)をとり、図8(b)及び図9(b)は、横軸に時間[秒]、縦軸に音量レベル(音圧レベル)[dB]をとった音波形の一例を示している。
【0059】
図8(a)、図8(b)、図9(a)、及び図9(b)において、この例では来訪者が発話した区間(以下、発話区間という)が、図8では約2.7秒から約3.3秒までの区間あり、図9では約2.4秒から約3.2秒までの区間ある場合を示している。これら発話区間においては、来訪者の発話音声と周囲環境で生じた雑音とを含む音がマイク207L,207Rにより入力され、対応する音情報が取得される。この音情報には、上記発話音声に対応する音声情報と、それ以外の雑音に対応する雑音情報(非音声情報、所定の音情報)とが含まれている。一方、上記発話区間以外の区間においては、雑音を含む(上記発話音声を含まない)音がマイク207L,207Rにより入力され、対応する音情報(すなわち雑音情報)が取得される。
【0060】
図8(a)及び図8(b)に示す、雑音があまり生じていない環境下では、発話区間より前の0秒から約2、7秒までの区間において取得された音情報の音量レベルの平均値は、この例では約−30[dB]ある。一方、発話区間において取得された音情報の音量レベルの平均値は、この例では約−10[dB]である。したがって、当該発話区間における音情報の信号対ノイズ比(S/N比)は、約20[dB]となる。
【0061】
一方、図9(a)及び図9(b)に示す雑音環境下では、発話区間より前の0秒から約2、4秒までの区間において取得された音情報の音量レベルの平均値は、この例では約−15[dB]ある。一方、発話区間において取得された音情報の音量レベルの平均値は、この例では約−5[dB]である。したがって、当該発話区間における音情報のS/N比は、約10[dB]となる。
【0062】
ここで、一般に、音声認識により高い認識率(例えば80%以上の認識率)を得るためには、マイク207L,207Rに入力された来訪者の発話音声による音声情報を含む音情報のS/N比が、約20[dB]以上(あるいは雑音情報の音量レベルが約−20[dB]未満)となることが必要である。図8(a)及び図8(b)に示す音情報におけるS/N比は、上記のように約20[dB]であるので、音声認識により高い認識率を得ることができる。一方、図9(a)及び図9(b)に示す音情報におけるS/N比は、上記のように約10[dB]であるので、音声認識により十分な認識率を得ることができない(音声認識の精度が低い)。
【0063】
このように、マイク207L,207Rに入力された音に、来訪者の発話音声以外の音(=雑音)が混入している場合には、混入した雑音の大小に応じて、音声認識の認識率が影響を受ける。
【0064】
そこで、本実施形態では、後述の受付処理において、来訪者に対しスピーカ208を介し案内音声を出力している間(来訪者が発話又は手動操作を行う前の段階)に、2つのマイク207L,207Rにそれぞれ入力される音により、2つの音情報を取得する。なお、2つのマイク207L,207Rにそれぞれ入力される音には、上記スピーカ208を介し出力された案内音声も含まれている(いわゆる回り込み)ので、上記2つの音情報には、それぞれ当該案内音声による音声情報が少なくとも含まれている。そして、この取得された2つの音情報に基づき、上記案内音声による音声情報とそれ以外の音情報(すなわち、雑音情報)とを分離・識別し、識別された雑音情報の音量レベル(音圧レベル)が所定のしきい値(例えば−20[dB])未満であるかどうかの判断を行う。そして、この判断結果に応じて、来訪者に対しスピーカ208を介し案内音声を出力している間(所定のタイミング)に、上記来訪者情報の取得方法の切替制御を行うのである。
【0065】
但し、上記識別された雑音情報の音量レベルが上記しきい値未満であると判断された場合(=音声認識において雑音の影響をあまり受けない場合。例えば上記図8の場合)は、音声認識により十分に高い認識率を得ることができる。したがって、このような場合は、上記来訪者情報の取得方法を、来訪者の発話音声の音声情報による音声認識とするように切替制御する(但し、後述の切替フラグFcがFc=1であるシナリオに限る。後述)。
【0066】
一方、上記識別された雑音情報の音量レベルが上記しきい値以上であると判断された場合(=音声認識において雑音の影響を受ける場合。例えば上記図9の場合)は、音声認識の精度が低くなる。したがって、このような場合は、上記来訪者情報の取得方法を、来訪者のタッチパネル210を介しての手動操作入力とするように切替制御する(但し、後述の切替フラグFcがFc=1であるシナリオに限る。後述)。
【0067】
なお、本実施形態の受付処理においては、上記来訪者情報の取得は、基本的に、上記音声情報による音声認識により行われる(来訪者が発話するだけで来訪者情報を容易に入力できるため)。上記のように雑音情報の音量レベルが上記しきい値以上となると、音声認識は困難とみなし、上記来訪者情報の取得がタッチパネル210を介しての手動操作入力に切り替えられる。雑音情報の音量レベルが上記しきい値以上である間は上記手動操作入力により来訪者情報の取得を継続し、(後述の切替フラグFcがFc=1であるシナリオにおいて)雑音情報の音量レベルが上記しきい値未満となったら、再び上記音声認識による来訪者情報の取得へと復帰する。
【0068】
図10は、各シナリオごとに設定される入力フラグ及び切替フラグを説明した説明図である。
【0069】
図10において、前述したように、本実施形態における受付処理は、予め定められた複数のシナリオに沿って実行される。この例では、複数のシナリオとして、シナリオSc1、シナリオSc2、シナリオSc3、及びシナリオSc4が設けられている場合を示している。シナリオSc1は、前半シナリオSc1−1及び後半シナリオSc1−2から構成され、シナリオSc2は、前半シナリオSc2−1及び後半シナリオSc2−2から構成され、シナリオSc3は、前半シナリオSc3−1及び後半シナリオSc3−2から構成されている。
【0070】
また、これら複数のシナリオは、シナリオSc1(前半シナリオSc1−1→後半シナリオSc1−2)→シナリオSc2(前半シナリオSc2−1→後半シナリオSc2−2)→シナリオSc3(前半シナリオSc3−1→後半シナリオSc3−2)→シナリオSc4の順序で実行される(後述の図11も参照)。
【0071】
入力フラグFiは、来訪者の発話音声による音声情報(又は手動操作による操作情報)の入力が必要な処理(言い換えれば、来訪者から来訪者情報を取得する処理)があるかないかを表すフラグである。この例では、上記入力が必要な処理がある(=来訪者情報を取得する処理がある)場合をFi=1で表し、上記入力が必要な処理がない(=来訪者情報を取得する処理がない)場合をFi=0で表している。
【0072】
切替フラグFcは、上記来訪者情報の取得方法の切替制御を許可するか、又は、許可しない(=禁止する)かを表すフラグである。この例では上記切替制御を許可する場合をFc=1で表し、上記切替制御を禁止する場合をFc=0で表している。例えば、上記来訪者情報の取得方法の切り替えを行うと来訪者に不自然な印象を与えたり、混乱を招くような特定のシナリオについては、上記切替フラグFcがFc=0に設定されている。この例では、シナリオSc1のみがFc=1に設定され、その他のシナリオSc2,Sc3,Sc4はFc=0に設定されている。
【0073】
対象者は、各シナリオ(前半シナリオ及び後半シナリオ)における対象者(発話主体又は操作主体)であり、受付端末20又は来訪者のどちらかである。なお、基本的には、前半シナリオと、前半シナリオ及び後半シナリオより構成されていないシナリオ(この例ではシナリオSc4)との対象者が受付端末20であり、後半シナリオの対象者は来訪者である。対象者が受付端末20である場合は、受付端末20はスピーカ208を介し所定の案内音声を出力し、対象者が来訪者である場合は、来訪者は(前半シナリオでスピーカ208を介し出力された所定の案内音声に応じて)発話又は手動操作を行う。そして、上記対象者である受付端末20がスピーカ208を介して出力する所定の案内音声の内容の一例、又は、上記対象者である来訪者が(前半シナリオでスピーカ208を介し出力された案内音声の内容に応じた)発話内容又は操作内容の一例を、対応する欄に図示している。
【0074】
図11は、上記来訪者情報の取得方法の切替タイミングを説明した説明図である。この例では横軸に時間をとり(図示右側ほど時間が経過している)、上記した複数のシナリオに沿った受付処理の流れの一例を表している。
【0075】
図11において、この例では、1回の受付処理が、前述の例に沿い、シナリオSc1(前半シナリオSc1−1→後半シナリオSc1−2)→シナリオSc2(前半シナリオSc2−1→後半シナリオSc2−2)→シナリオSc3(前半シナリオSc3−1→後半シナリオSc3−2)→シナリオSc4の順序で実行される場合を示している。
【0076】
本実施形態においては、上記入力フラグFiがFi=1に設定されたシナリオ(この例ではシナリオSc1,Sc2,Sc3)になると、スピーカ208を介し案内音声の出力を行っている間(=各前半シナリオSc1−1,Sc2−1,Sc3−1の間。斜線部参照)に、2つのマイク207L,207Rにそれぞれ入力された音により、2つの音情報が取得される。そして、このとき取得された2つの音情報に基づき、前述の判断(雑音情報の音量レベルが上記しきい値未満であるかどうか)が行われる。
【0077】
そして、上記切替フラグFcがFc=1に設定されたシナリオ(この例ではシナリオSc1)において、スピーカ208を介し案内音声の出力を行っている間(=所定の切替タイミングの一例。この例では前半シナリオSc1−1の間)に、上記判断結果(雑音情報の音量レベルが上記しきい値未満であるかどうか)に応じて、上記来訪者情報の取得方法の切替制御(手動操作入力による取得に切り替えるか、音声取得のままとするか)が行われるのである。なお、逆に手動操作入力による取得から音声取得へと切り替えるようにすることも考えられる。
【0078】
(E)制御手順
図12は、以上説明した内容を実現するために、受付端末20の制御回路部200により実行する制御手順を表すフローチャートである。なお、このフローに示す処理は、HDD205のプログラム記憶エリア256に記憶された来訪者受付処理用のプログラム群(前述のシステムプログラム、通信プログラム、描画プログラム、音声認識プログラム、DB照合プログラム、電話接続プログラム等)に従って、CPU201が実行するものである。
【0079】
図12において、例えば受付端末20の電源ONによって、このフローが開始される(「START」位置)。まずステップS5で、タッチパネル210に表示信号を出力し、「御用の方はこのボタンを押してください」の旨の受付開始ボタンを含む待ち受け状態の画面(初期画面)を表示させる。
【0080】
そして、ステップS10において、上記受付開始ボタンが手動操作されたかどうかを判定する。来訪者によって押下されるまでは判定が満たされずループ待機し、押下されたら判定が満たされて、ステップS20に移る。
【0081】
ステップS20では、上記複数のシナリオに対応する変数XをX=1に設定する(例えばX=1は上記シナリオSc1に対応している)。
【0082】
その後、ステップS30で、上記複数のシナリオに沿った処理を行うシナリオ処理(詳細は後述の図13参照)を実行する。
【0083】
そして、ステップS40で、所定の終了操作(例えば受付端末20の電源OFF)が行われたかどうかを判定する。終了操作が行われていない場合には判定が満たされず、ステップS50に移る。
【0084】
ステップS50では、上記変数Xの値が、予め定められた最後のシナリオに対応するXmax(例えば、上記の例では最後のシナリオはシナリオSc4であるのでXmax=4)になったかどうかを判定する。X=Xmaxになっていない場合(まだ全てのシナリオが終了していない場合)には判定が満たされず、ステップS60に移り、変数Xの値に1を加え、上記ステップS30に戻り同様の手順を繰り返す。そして、X=Xmaxになったら(全てのシナリオが終了したら)、判定が満たされてステップS65に移る。
【0085】
ステップS65では、各シナリオにおいて取得した来訪者情報の取得結果に応じて、対応する担当者が使用するIP電話機60にIP−PBX50を介して接続し、担当者への通知処理を行う。なお、通知先は、担当者が使用するIP電話機60に限られず、担当者が使用する携帯電話やパーソナルコンピュータでもよい。その後、上記ステップS5に戻り、同様の手順を繰り返す。
【0086】
一方、上記ステップS40において、終了操作が行われていた場合には、ステップS40の判定が満たされて、このフローを終了する。
【0087】
図13は、上記図12のステップS30の詳細手順を表すフローチャートである。
【0088】
図13において、まずステップS70で、スピーカ208に音声信号を出力し、各シナリオに対応する案内音声を出力させる(発話手段としての機能)。このとき、タッチパネル210に上記案内音声と同様のテキスト表示を行うようにしてもよい。
【0089】
そして、ステップS80で、当該シナリオが上記入力フラグFi(図10参照)がFi=1に設定されたシナリオであるかどうかを判定する。Fi=0に設定されたシナリオ(来訪者情報を取得する処理がないシナリオ)である場合には判定が満たされず、このルーチンを終了する。一方、Fi=1に設定されたシナリオ(来訪者情報を取得する処理があるシナリオ)である場合には判定が満たされて、ステップS90に移る。
【0090】
ステップS90では、2つのマイク207L,207Rを介し入力されたそれぞれの音、具体的には、上記ステップS70で出力された上記案内音声を少なくとも含む、それぞれの音により、対応する振幅あるいは周波数を含む、2つの音情報を取得する。
【0091】
その後、ステップS100で、上記ステップS90で取得された2つの音情報に基づき、上記案内音声による音声情報と雑音情報とを識別する音情報識別処理(詳細は後述の図14参照)を実行する。
【0092】
そして、ステップS200で、上記ステップS100(詳細には後述の図14のステップS130)で識別結果に基づき、雑音情報が所定のしきい値未満である音情報を含むかどうかの判断を行う判断処理(詳細は後述の図15参照)を実行する。
【0093】
その後、ステップS300で、上記ステップS200での判断結果に対応し、上記来訪者情報の取得を音声情報に基づき行うか操作情報に基づいて行うかの切替制御を行う切替処理(詳細は後述の図16参照)を実行する。
【0094】
そして、ステップS400で、上記ステップS300で切り替えられた上記来訪者情報の取得方法が、発話音声の音声情報による音声認識であるかどうかを判定する。取得方法が発話音声の音声情報による音声認識である場合には判定が満たされて、ステップS410に移る。
【0095】
ステップS410では、マイク207L,207R(いずれか一方でもよいし又は両方でもよい)を介し入力された音、具体的には、上記ステップS70で出力された上記案内音声に対応して来訪者により発話された、来訪者の発話音声を少なくとも含む音により、対応する振幅あるいは周波数を含む音情報を取得する。
【0096】
その後、ステップS420で、HDD205の記憶エリア(言語モデル記憶エリア252、辞書記憶エリア253等)に記憶された前述の音響モデル、言語モデル、及び辞書を読み出し、それらを用いて、上記ステップS410で取得された音情報に対し音声認識を行う。
【0097】
そして、ステップS430で、上記ステップS410で取得された音情報が音声認識できたかどうかを判定する。言語として音声認識できなかった場合には判定が満たされず、音声認識ができなかったことを来訪者に通知する台詞(例えば「音声を認識できませんでした。もう一度マイクに向かってお名前を入力してください」など)を含む案内音声をスピーカ208に出力させる。そして、上記ステップS420に戻り、同様の手順を繰り返す。なお、この図13では図示を省略しているが、上記の案内音声の出力は、予め定められた設定回数だけ行われ、その間に音声認識できない場合には、対応する処理(例えば予め定めた受付担当者に取り次ぐ等。あるいは、後述のステップS450へ移行し、来訪者情報の取得方法をタッチパネル210を介しての手動操作入力に切り替えるようにしてもよい)を行う。一方、言語として音声認識できた場合には、ステップS430の判定が満たされ、ステップS440に移る。
【0098】
ステップS440では、上記ステップS420での音声認識結果(来訪者情報)を(例えばRAM203に)保存し、このルーチンを終了する。
【0099】
一方、上記ステップS400において、上記ステップS300で切り替えられた上記来訪者情報の取得方法が、タッチパネル210を介しての手動操作入力であった場合には、ステップS400の判定が満たされず、ステップS450に移る。
【0100】
ステップS450では、タッチパネル210に表示信号を出力し、各シナリオに対応する入力操作用の画面(例えば前述のソフトウェアキーボードSBを含む画面や前述の仮想人物Mや操作ボタンBを含む画面など)を表示させる。
【0101】
その後、ステップS460で、来訪者の例えばソフトウェアキーボードSBや操作ボタンBなどの手動操作による操作情報を入力し、対応する来訪者情報を(例えばRAM203に)保存する。そして、このルーチンを終了する。
【0102】
図14は、上記図13のステップS100の詳細手順を表すフローチャートである。
【0103】
図14において、まずステップS110で、上記図13のステップS90で取得された2つの音情報を例えば公知のICA(Independent Component Analysis:独立成分分析)を行い、互いに独立した2つの音情報に分離する。ICAとは、多変量の信号を複数の統計的に独立な成分に分離するための計算手法である。
【0104】
その後、ステップS120で、上記ステップS110で分離された2つの音情報それぞれについて、上記図13のステップS70で出力された案内音声の元となった音声信号との相関値(例えば相関係数など)を算出する。
【0105】
そして、ステップS130で、上記ステップS120で算出された相関値に基づき、上記案内音声による音声情報とそれ以外の雑音情報とを識別する。すなわち、上記ステップS110で分離された2つの音情報のうち、上記相関値が大きい方が、上記図13のステップS90で取得された音情報に含まれる上記案内音声による音声情報であると識別できる。また、逆に上記相関値が小さい方が、上記図13のステップS90で取得された音情報に含まれる雑音情報であると識別できる。その後、このルーチンを終了する。
【0106】
図15は、上記図13のステップS200の詳細手順を表すフローチャートである。
【0107】
図15において、まずステップS230で、上記図14のステップS130で識別された雑音情報の音量レベル(音圧レベル)を算出する。
【0108】
その後、ステップS250で、上記ステップS230で算出された音量レベルが所定のしきい値未満になったか(=雑音情報が比較的小さい音情報であったか)どうかを判定する。上記算出された音量レベルがしきい値以上であった場合には判定が満たされず、ステップS260に移る。
【0109】
ステップS260では、周囲で生じている雑音による音声認識の影響の度合いを表す雑音フラグFnを、雑音が音声認識に影響を与えることを表すFn=1とし、このルーチンを終了する。
【0110】
一方、上記ステップS250において、上記ステップS230で算出された音量レベルがしきい値未満であった場合には、ステップS250の判定が満たされて、ステップS270に移る。
【0111】
ステップS270では、上記雑音フラグFnを、周囲で生じている雑音が音声認識にあまり影響を与えないことを表すFn=0とし、このルーチンを終了する。
【0112】
図16は、上記図13のステップS300の詳細手順を表すフローチャートである。
【0113】
図16において、まずステップS310で、上記雑音フラグFnがFn=1であるかどうかを判定する。Fn=1である場合(=周囲で生じている雑音が音声認識に影響を与える場合)には判定が満たされて、ステップS320に移る。
【0114】
ステップS320では、現在の上記来訪者情報の取得方法が、発話音声の音声情報による音声認識であるかどうかを判定する。音声認識でない、すなわち、タッチパネル210を介しての手動操作入力である場合には判定が満たされず、このルーチンを終了する。一方、現在の上記来訪者情報の取得方法が、音声認識である場合には判定が満たされて、ステップS330に移る。
【0115】
ステップS330では、当該シナリオが上記切替フラグFc(図10参照)がFc=1に設定されたシナリオであるかどうかを判定する。Fc=0に設定されたシナリオである場合(上記切替制御が禁止されたシナリオである場合)には判定が満たされず、このルーチンを終了する。一方、当該シナリオがFc=1に設定されたシナリオである場合(上記切替制御が許可されたシナリオである場合)には判定が満たされて、ステップS340に移る。
【0116】
ステップS340では、上記来訪者情報の取得方法を、発話音声の音声情報による音声認識からタッチパネル210を介しての手動操作入力へと切り替える。
【0117】
その後、ステップS350で、スピーカ208に音声信号を出力し、”周囲が騒がしいので、画面上で入力してください”という、来訪者情報の取得方法が、音声認識から手動操作入力へと切り替わった旨の台詞を出力させる。あるいは、タッチパネル210に表示信号を出力し、上記の台詞と同様のテキスト表示を表示させる(台詞の出力とテキスト表示の表示とを両方行うようにしてもよい)。そして、このルーチンを終了する。
【0118】
一方、上記ステップS310において、Fn=0であった場合(=周囲で生じている雑音が音声認識にあまり影響を与えない場合)には判定が満たされず、ステップS360に移る。
【0119】
ステップS360では、現在の上記来訪者情報の取得方法が、タッチパネル210を介しての手動操作入力であるかどうかを判定する。手動操作入力でない、すなわち、発話音声の音声情報による音声認識である場合には判定が満たされず、このルーチンを終了する。一方、現在の上記来訪者情報の取得方法が、手動操作入力である場合には判定が満たされて、ステップS370に移る。
【0120】
ステップS370では、上記ステップS330と同様、当該シナリオが上記切替フラグFcがFc=1に設定されたシナリオであるかどうかを判定する。Fc=0に設定されたシナリオである場合には判定が満たされず、このルーチンを終了し、Fc=1に設定されたシナリオである場合には判定が満たされて、ステップS380に移る。
【0121】
ステップS380では、上記来訪者情報の取得方法を、タッチパネル210を介しての手動操作入力から発話音声の音声情報による音声認識へと切り替える。
【0122】
その後、ステップS390で、スピーカ208に音声信号を出力し、”マイクに入力してください”という来訪者情報の取得方法が、手動操作入力から音声認識へ切り替えられた旨の台詞を出力させる。あるいは、タッチパネル210に表示信号を出力し、上記の台詞と同様のテキスト表示を表示させる(台詞の出力とテキスト表示の表示とを両方行うようにしてもよい)。そして、このルーチンを終了する。
【0123】
なお、上記において、図13に示すステップS90及びステップS410が、各請求項記載の音取得手段として機能し、図13に示すステップS440及びステップS460が、ユーザ情報取得手段として機能する。また、図13に示すステップS100(言い換えれば図14の全手順)が、情報識別手段として機能し、図15に示すステップS250が、音情報判断手段として機能する。
【0124】
また、図16に示すステップS310、ステップS320、ステップS330、ステップS340、ステップS360、ステップS370、及びステップS380が、取得制御手段として機能する。さらにステップS330及びステップS370において判定が満たされない場合は、上記切替制御を禁止する処理を行う禁止制御手段としても機能する。また、図16に示すステップS350及びステップS390が、報知手段として機能する。
【0125】
以上説明したように、本実施形態の受付端末20においては、来訪者が来訪したときは、マイク207L,207Rに入力された来訪者の発話音声による音声情報か、若しくは、来訪者によってタッチパネル210に入力された操作情報に基づき、来訪者情報が取得される。発話音声がマイク207L,207Rに入力されるとき、当該発話音声以外の音(=雑音)も混入して入力されることに対応し、マイク207L,207Rを介して取得された音情報が雑音情報を含むかどうかが判断される。そして、雑音情報が含まれていた場合には、所定の切替タイミングで(上記の例ではスピーカ208より案内音声を出力している間に)、来訪者情報の取得方法を、マイク207,207Rによる音声情報による音声認識から、タッチパネル210を介しての手動操作入力へと切り替える(状況に応じてその逆の手動操作入力から音声認識へと切り替えるようにしてもよい)。これにより、来訪者の発話音声以外の音が混入して入力される場合であっても確実に来訪者情報を取得できるので、来訪者を確実に担当者に対して取り次ぐことができる。
【0126】
また、本実施形態では特に、シナリオに対応した案内音声の出力を行っている間にマイク207L,207Rで取得した音情報に基づき、案内音声による音声情報と雑音情報とを識別する(ステップS100)。そしてこの判断結果に対応して上記来訪者情報の取得方法の切替制御を行う。これにより、周囲環境で雑音が生じていた場合に、受付処理を開始した後の受付端末20からの発話時点で(来訪者が発話又は手動操作する前に)、上記来訪者情報の取得方法を、上記音声情報による音声認識、若しくは、上記タッチパネル210を介しての手動操作入力に確実に切り替えることができる。
【0127】
このとき特に、上記識別された雑音情報の音量レベルが所定のしきい値未満であるかどうかの判断を行い、当該音量レベルが上記しきい値未満である場合(=雑音情報が比較的小さい場合)には、音声情報に基づく来訪者情報の取得を継続するようにする(ステップS250、ステップS270)。この結果、音声認識を十分に高精度に行える場合において無駄な切り替えを行わないようにすることができる。
【0128】
また、本実施形態では特に、特定のシナリオ(上記の例では切替フラグFc=0に設定されたシナリオ)においては、雑音情報が取得されたFn=1の場合でも、雑音情報が取得されなかったFn=0の場合でも、上記のような切替制御を禁止する(ステップS330及びステップS370)。これにより、来訪者情報の取得方法の切り替えを行うと来訪者に不自然な印象を与えたり混乱を招くような、特定のシナリオについては、切替条件を満たしても敢えて切り替えを行わないようにすることで、来訪者にとっての利便性を向上することができる。
【0129】
また、本実施形態では特に、上記のような切替制御の実行時に、対応する切替報知を(上記の例ではスピーカ208より音声を出力する又はタッチパネル210にコメントを表示することで)来訪者に対し行う。これにより、来訪者情報の取得方法を、発話音声の音声情報による音声認識、若しくは、タッチパネル210を介しての手動操作入力に切り替えることを、来訪者に確実に認識させることができる。
【0130】
なお、本発明は、上記実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。以下、そのような変形例を順を追って説明する。
【0131】
(1)切替制御の禁止を解除する場合
上記実施形態においては、特定のシナリオ(上記の例では切替フラグFc=0に設定されたシナリオ)の場合は、来訪者情報の取得方法の切替制御を禁止し、来訪者情報の取得方法の切り替えを行わないようにしていた。しかしながら、そのような特定のシナリオの場合であっても、所定の条件が満たされたら(詳細は後述)、来訪者情報の取得方法の切替制御の禁止を解除し、来訪者情報の取得方法の切り替えを行うようにしてもよい。
【0132】
図17は、本変形例において、受付端末20の制御回路部200により実行する制御手順を表すフローチャートであり、前述の図12に対応する図である。図12と同等の手順には同符号を付し説明を省略する。
【0133】
図17において、前述の図12と異なる点は、ステップS5の前にステップS2及びステップS4を新たに設け、さらにステップS30に代えてステップS30′を設けた点である。すなわち、新たに設けたステップS2において、強制的に上記切替制御を行わせる(切替制御禁止を解除し、切り替え可能な状態とする)強制切替フラグFmを、切替制御禁止を解除しないことを表すFm=0に初期化する。
【0134】
そして、新たに設けたステップS4で、上記切替制御の禁止が設定されたシナリオの個数をカウントする変数Nを、N=0に初期化する。
【0135】
その後のステップS5、ステップS10、及びステップS20は前述の図12と同様であり、タッチパネル210に受付開始ボタンを含む初期画面を表示させ、来訪者によって受付開始ボタンが押下され、上記変数XをX=1に設定したら、ステップS30に代えて設けたステップS30′に移る。
【0136】
ステップS30′では、複数のシナリオを行うシナリオ処理(詳細は後述)を実行する。
【0137】
その後のステップS40以降の手順は、前述の図12とほぼ同様である(但し、ステップS65の手順が終了した後に、前述の図12ではステップS5に戻っていたのに対し、図17ではステップS2に戻る点が異なる)ので、説明を省略する。
【0138】
なお、ステップS30′の詳細手順において、前述の図13と異なる点は、ステップS300のみであり、その他の手順は図13の各手順と同様である。以下、図18を用いて、本変形例におけるステップS300(以下、ステップS300′という)の詳細手順を説明する。
【0139】
図18は、ステップS300′の詳細手順を表すフローチャートであり、前述の図16に対応する図である。図16と同等の手順には同符号を付し説明を省略する。
【0140】
図18において、前述の図16と異なる点は、ステップS320とステップS330との間にステップS325を新たに設け、ステップS360とステップS370との間にステップS365を新たに設け、さらにステップS392、ステップS394、及びステップS396を追加した点である。
【0141】
すなわち、ステップS310は、前述の図16と同様であり、上記雑音フラグFnがFn=1であるかどうかを判定し、Fn=1である場合には判定が満たされて、ステップS320に移る。
【0142】
ステップS320は、前述の図16と同様であり、現在の上記来訪者情報の取得方法が、発話音声の音声情報による音声認識であるかどうかを判定し、タッチパネル210を介しての手動操作入力である場合には判定が満たされず、このルーチンを終了し、音声認識である場合には判定が満たされて、新たに設けたステップS325に移る。
【0143】
ステップS325では、上記強制切替フラグFmがFm=1であるかどうかを判定する。Fm=0である場合には判定が満たされず、ステップS330に移る。
【0144】
ステップS330は、前述の図16と同様であり、当該シナリオが上記切替フラグFcがFc=1に設定されたシナリオであるかどうかを判定する。Fc=1に設定されたシナリオである場合には、判定が満たされてステップS340に移る。
【0145】
一方、上記ステップS325において、Fm=1である場合には判定が満たされて、直接ステップS340に移る。
【0146】
その後のステップS340及びステップS350は、前述の図16と同様であるので、説明を省略する。
【0147】
一方、上記ステップS310において、Fn=0であった場合には判定が満たされず、ステップS360に移る。
【0148】
ステップS360は、前述の図16と同様であり、現在の上記来訪者情報の取得方法が、タッチパネル210を介しての手動操作入力であるかどうかを判定し、発話音声の音声情報による音声認識である場合には判定が満たされず、このルーチンを終了し、手動操作入力である場合には判定が満たされて、新たに設けたステップS365に移る。
【0149】
ステップS365では、上記強制切替フラグFmがFm=1であるかどうかを判定する。Fm=0である場合には判定が満たされず、ステップS370に移る。
【0150】
ステップS370は、前述の図16と同様であり、当該シナリオが上記切替フラグFcがFc=1に設定されたシナリオであるかどうかを判定する。Fc=1に設定されたシナリオである場合には、判定が満たされてステップS380に移る。
【0151】
一方、上記ステップS365において、Fm=1である場合には判定が満たされて、直接ステップS380に移る。
【0152】
その後のステップS380及びステップS390は、前述の図16と同様であるので、説明を省略する。
【0153】
一方、上記ステップS330で、当該シナリオがFc=0に設定されたシナリオであり判定が満たされなかった場合、及び、上記ステップS370で、当該シナリオがFc=0に設定されたシナリオであり判定が満たされなかった場合は、新たに設けたステップS392に移る。
【0154】
ステップS392では、前述の、切替制御の禁止が設定されたシナリオの個数をカウントする変数Nの値に1を加え、ステップS394に移る。
【0155】
ステップS394では、上記変数Nの値が所定値Nm(例えば3)になったかどうかを判定する。まだN=Nmになってない場合には判定が満たされず、このルーチンを終了する。そして、N=Nmになったら、判定が満たされてステップS396に移る。
【0156】
ステップS396では、上記強制切替フラグFmを、強制的に上記切替制御を行わせる(切替制御の禁止を解除する)ことを表すFm=1とし、このルーチンを終了する。
【0157】
このように、ステップS396で、上記強制切替フラグFmがFm=1になることで、当該受付処理の次回のシナリオからは、上記ステップS325あるいはステップS365の判定が満たされ、上記ステップS330あるいはステップS370の手順が行わずに、直接ステップS340あるいはステップS380に移る。これにより、上記切替フラグFcがFc=0に設定されたシナリオ(切替制御が禁止されたシナリオ)であった場合でも、ステップS340あるいはステップS380で来訪者情報の取得方法を切り替えることができる。
【0158】
すなわち、図18に示すステップS330(判定が満たされなかった場合)→ステップS392→ステップS394→ステップS396の手順、及び、ステップS370(判定が満たされなかった場合)→ステップS392→ステップS394→ステップS396の手順が、禁止制御手段による切替制御を禁止する処理を解除する処理を行う禁止解除手段として機能する。
【0159】
以上説明したように、本変形例においては、雑音情報が取得されたFn=1の場合又は取得されなかったFn=0の場合に関係なく、切替制御禁止のシナリオの数のカウント値がN=Nmになった場合には、上記来訪者情報の取得方法の切替制御の禁止を解除する。これにより、前述したように、もともと、来訪者に不自然な印象を与えたり混乱を招かないように来訪者情報の取得方法の切り替えを行わないように禁止した場合でも、例えば雑音発生時間が長くなった場合には、正確な来訪者情報の取得を優先し、来訪者情報の取得方法を確実に切り替えることができる。
【0160】
なお、この例では、切替制御が禁止設定されたシナリオのカウント値Nが所定のNmに達したことをもって、雑音情報の取得継続時間が長くなったことを間接的に検出し、これによって上記切替制御の禁止を解除するようにしたが、これに限られない。すなわち、雑音情報の取得継続時間を直接検出し、上記切替制御の禁止を解除するようにしてもよい。
【0161】
例えば、受付処理において、来訪者情報の取得方法が発話音声の音声情報による音声認識となっている場合に、所定時間(例えば1分間)継続して雑音情報が取得されたら、上記切替制御の禁止を解除し、来訪者情報の取得方法をタッチパネル210を介しての手動操作入力に切り替える。あるいは、来訪者情報の取得方法が手動操作入力となっている場合に、所定時間(例えば1分間)継続して雑音情報が取得されなかったら、来訪者情報の取得方法を音声認識に切り替える。このようにすることで、雑音の発生時間が長くなった場合あるいは雑音が発生しなくなった場合には、適切な来訪者情報の取得方法に確実に切り替えることができる。
【0162】
(2)受付開始ボタンが手動操作されたら、所定の音情報を含むかどうかの判断を行う場合
以上においては、受付処理が開始された後、スピーカ208を介して案内音声を出力している間に音情報を取得して、雑音情報を含むかどうかの判断を行っていた。しかしながら、これに限られず、来訪者により受付処理を開始する特定条件が検知された場合に、前述の判断を行うようにしてもよい。以下、そのような変形例を説明する。
【0163】
図19は、本変形例において、受付端末20の制御回路部200により実行する制御手順を表すフローチャートであり、前述の図12及び図17に対応する図である。図12等と同等の手順には同符号を付し説明を省略する。
【0164】
図19において、ステップS5及びステップS10は、前述の図12と同様であり、タッチパネル210に受付開始ボタンを含む初期画面を表示させ、来訪者によって上記受付開始ボタンが手動操作されたかどうかを判定し、上記受付開始ボタンが押下されたら判定が満たされて、新たに設けたステップS11に移る。
【0165】
ステップS11では、マイク207L,207R(いずれか一方、又は両方でも良い)を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する(音取得手段としての機能)。
【0166】
そして、新たに設けたステップS13で、上記ステップS11で取得された音情報が所定の音情報(この例では雑音情報)を含むかどうかの判定を行う(音情報判断手段としての機能)。雑音情報を含んでいた場合には判定が満たされ、新たに設けたステップS14に移る。
【0167】
ステップS14は、前述の図15のステップS260と同様であり、上記雑音フラグFnをFn=1とし、ステップS300に移る。
【0168】
一方、上記ステップS13において、上記ステップS11で取得された音情報が雑音情報を含まなかった場合は判定が満たされず、新たに設けたステップS15に移る。
【0169】
ステップS15は、前述の図15のステップS270と同様であり、上記雑音フラグFnをFn=0とし、ステップS300に移る。
【0170】
ステップS300は、前述の図13とほぼ同様であり、上記ステップS13での判定結果に対応した、上記来訪者情報の取得方法(発話音声の音声情報による音声認識、若しくは、タッチパネル210を介しての手動操作入力)の切替制御を行う切替処理(詳細は前述の図16参照)を実行する。その後、ステップS20に移る。
【0171】
ステップS20は、前述の図12と同様であり、上記変数XをX=1に設定したら、前述の図12のステップS30に代えて設けたステップS30′に移る。
【0172】
ステップS30′では、複数のシナリオを行うシナリオ処理(詳細は後述)を実行する。
【0173】
その後のステップS40、ステップS50、ステップS60、及びステップS65は、前述の図12と同様であるので、説明を省略する。
【0174】
本変形例におけるステップS30′の詳細手順では、前述の図13に示すステップS30の詳細手順におけるステップS90、ステップS100、ステップS200、及びステップS300が省略される。すなわち、図13のステップS80において、当該シナリオが上記入力フラグFiがFi=1に設定されたシナリオであるかどうかを判定する。Fi=0に設定されたシナリオであり判定が満たされなかった場合には、図13のルーチンを終了し、Fi=1に設定されたシナリオであり判定が満たされた場合には、ステップS400に移る。その後のステップS410〜ステップS460は、前述の図13と同様である。
【0175】
なお、上記において、図19に示すステップS10が、受付処理を開始するための特定条件(この例では来訪者により上記受付開始ボタンが手動操作される)を検知する検知手段として機能する。
【0176】
このように、本変形例においては、受付処理を開始するための特定条件(上記の例では来訪者により上記受付開始ボタンが手動操作される)を検知し、この特定条件が検知された場合に、マイク207L,207Rに入力された音により音情報を取得する。そして、この取得された音情報が雑音情報を含むかどうかの判断を行い、複数のシナリオに沿った受付処理が開始される前に(=図19のステップS30′が実行される前に)、上記判断結果に対応した、来訪者情報の取得方法に切替制御する。これにより、特定条件が検知された時点で既に周囲環境の雑音等が生じていた場合には、複数のシナリオに沿った受付処理が開始される前に、来訪者情報の取得方法を、発話音声の音声情報による音声認識か、若しくは、タッチパネル210を介しての手動操作入力に切り替えることができる。
【0177】
なお、本変形例においては、上記特定条件が、来訪者により上記受付開始ボタンが手動操作されることであった場合を示したが、これに限られず、例えば、周知の人感センサ又はカメラ等により来訪者を検知すること、あるいは、来訪者情報を格納する来訪者予約データベースの来訪者の来訪予約時間を参照し、来訪者が来訪する予定の所定の時間帯(例えば、来訪予約時間の前後15分間など)になること等であってもよい。この場合も、本変形例と同様の効果を得る。
【0178】
(3)音量レベルが所定のしきい値以上である雑音情報を取得したら、切替制御を禁止する処理を解除する場合
すなわち、上記切替フラグFc=0に設定されたシナリオ(切替制御が禁止されたシナリオ)であっても、例えば音量レベルが所定のしきい値(例えば、−5[dB])以上の雑音情報を取得したら、上記切替制御の禁止を解除する。これにより、来訪者情報の取得方法の切り替えを禁止した場合でも、雑音の音量が大きく音声認識精度が著しく低下するような場合には、正確な来訪者情報の取得を優先し、操作情報に基づく来訪者情報の取得へと確実に切り替えることができる。
【0179】
(4)その他
上記においては操作手段がタッチパネル210である場合を示したが、これに限られない。すなわち、通常のキーやボタン等の操作手段を用い、これによって来訪者が上記自己の氏名や会社名等を操作入力するようにしてもよい。
【0180】
なお、以上において、図6、図7等の各図中に示す矢印は信号の流れの一例を示すものであり、信号の流れ方向を限定するものではない。
【0181】
また、図12〜図19に示すフローチャートは本発明を上記フローに示す手順に限定するものではなく、発明の趣旨及び技術的思想を逸脱しない範囲内で手順の追加・削除又は順番の変更等をしてもよい。
【0182】
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
【0183】
その他、一々例示はしないが、本発明は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。
【符号の説明】
【0184】
20 受付端末(受付装置)
207L,R マイク(音声入力手段)
208 スピーカ(音声出力手段)
210 タッチパネル(操作手段)

【特許請求の範囲】
【請求項1】
ユーザに対し、予め定められた複数の処理手順に沿った受付処理を行う受付装置であって、
前記ユーザの手動操作により操作情報を入力可能な操作手段と、
音声を入力するための少なくとも1つの音声入力手段と、
前記音声入力手段を介し入力された音により、対応する振幅あるいは周波数を含む音情報を取得する音取得手段と、
前記音声入力手段に入力された前記ユーザの発話音声による音声情報か、若しくは、前記操作手段に入力された前記操作情報に基づき、前記ユーザに係わるユーザ情報を取得するユーザ情報取得手段と、
前記音取得手段により取得される音情報が所定の音情報を含むかどうかの判断を行う音情報判断手段と、
前記音情報判断手段により前記音情報が所定の音情報を含むと判断された場合に、所定の切替タイミングで、前記ユーザ情報取得手段による前記ユーザ情報の取得を、前記音声情報に基づく前記ユーザ情報の取得か、若しくは、前記操作情報に基づく前記ユーザ情報の取得に切替制御可能な取得制御手段とを有し、
前記ユーザ情報取得手段は、
前記取得制御手段による前記切替制御に対応した、前記音声情報に基づく前記ユーザ情報、若しくは、前記操作情報に基づく前記ユーザ情報を取得する
ことを特徴とする受付装置。
【請求項2】
前記受付処理を開始するための特定条件を検知する検知手段をさらに有し、
前記音情報判断手段は、
前記検知手段により前記特定条件が検知された場合に、前記音取得手段により取得される前記音情報が前記所定の音情報を含むかどうかの判断を行う
ことを特徴とする請求項1記載の受付装置。
【請求項3】
音声を出力するための音声出力手段と、
各処理手順ごとに、対応する装置発話音声を前記音声出力手段を介し出力する発話手段と、
複数の前記音声入力手段を介し入力された音に応じて前記音取得手段により取得された音情報に基づき、前記装置発話音声による音声情報と前記所定の音情報としての非音声情報とを識別する情報識別手段と
をさらに有し、
前記音取得手段は、
前記発話手段が前記装置発話音声の出力を行っている間に、複数の前記音声入力手段に入力された音により、前記音情報を取得し、
前記音情報判断手段は、
前記情報識別手段により識別された前記非音声情報が所定の音情報を含むかどうかの判断を行い、
前記取得制御手段は、
前記所定の切替タイミングとして、前記発話手段が前記装置発話音声の出力を行っている間に、前記音情報判断手段による判断結果に対応した、前記ユーザ情報取得手段の前記切替制御を行う
ことを特徴とする請求項1記載の受付装置。
【請求項4】
前記音情報判断手段は、
前記情報識別手段により識別された前記非音声情報が、所定のしきい値未満である音情報を含むかどうかの判断を行う
ことを特徴とする請求項3記載の受付装置。
【請求項5】
特定の前記処理手順においては、前記音取得手段により前記非音声情報が取得された場合、及び、前記非音声情報が取得されなかった場合のいずれにおいても、前記ユーザ情報取得手段の前記切替制御を禁止する処理を行う禁止制御手段をさらに有する
ことを特徴とする請求項3又は請求項4記載の受付装置。
【請求項6】
前記音取得手段による前記非音声情報の取得継続時間に応じて、前記禁止制御手段による前記切替制御を禁止する前記処理を解除する処理を行う禁止解除手段をさらに有する
ことを特徴とする請求項5記載の受付装置。
【請求項7】
前記取得制御手段による前記切替制御の実行時に、対応する切替報知を前記ユーザに対し行う報知手段をさらに有する
ことを特徴とする請求項1乃至請求項6のいずれか1項記載の受付装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2010−230994(P2010−230994A)
【公開日】平成22年10月14日(2010.10.14)
【国際特許分類】
【出願番号】特願2009−78729(P2009−78729)
【出願日】平成21年3月27日(2009.3.27)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】