音声認識装置、音声認識プログラム、受付装置および受付プログラム

【課題】来訪者の発話を高精度に認識することができる音声認識装置、音声認識プログラム、受付装置および受付プログラムを提供する。
【解決手段】来訪者が検知されると、受付装置から来訪者名および担当者名を質問する音声が出力される（Ｓ１０２）。質問に対する来訪者の応答が、複数のカテゴリに属する単語とその発音に関する情報の対応を示す汎用辞書と、予約データベースに予め記憶されている来訪者の予約に関する予約情報を基に作成された予約辞書を参照して音声認識される。汎用辞書の認識結果と予約辞書の認識結果とに基づいて決定された最終結果が得られる（Ｓ１０４）。最終結果が認識失敗を示す結果であれば（Ｓ１０５：ＹＥＳ）、来訪者に対して再発話が促され（Ｓ１０６）、認識に成功していれば（Ｓ１０５：ＮＯ）、最終結果に含まれる担当者名が特定され（Ｓ１２０）、その担当者への通知処理が行われる（Ｓ１３３）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声認識装置、音声認識プログラム、受付装置および受付プログラムに関する。より具体的には、来訪者の発話の認識結果に応じた受付を行う音声認識装置、音声認識プログラム、受付装置および受付プログラムに関する。
【背景技術】
【０００２】
従来、音声の音響的特徴を示す音響モデル、単語とその単語の発音に関する情報との対応を記述する単語辞書、および単語のつながりに関する制約を定義する言語モデルを用いた音声認識技術が知られている。このような技術では、単語辞書に含まれる単語数が増加するのに伴い、単語の組合せから構成される文の数は膨大となる。その結果、実際に発話されたのと異なる文が出力される誤認識の確率が上がる、すなわち認識精度が低下する傾向がある。
【０００３】
そこで、予測された単語のみにより生成される文のみを認識候補として認識を行うことにより、誤認識を抑制する音声認識装置が提案されている（例えば、特許文献１）。
【特許文献１】特開平６−１８０５９３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、特許文献１に記載の音声認識装置では、予測された単語のみが音声認識に使用されるため、実際に発話された文が、予測された単語から構成されていない場合、すなわち、予測が外れた場合には、認識が不可能な場合がある。
【０００５】
本発明は、上記問題点を解決するためになされたものであり、来訪者の発話を高精度に認識することができる音声認識装置、音声認識プログラム、受付装置および受付プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
上記目的を達成するために、請求項１に係る発明の音声認識装置は、来訪者の発話の認識結果に応じた受付を行う音声認識装置であって、来訪者を検出する来訪者検出手段によって前記来訪者が検出された後、音声入力手段から入力された前記来訪者の発する音声の音声情報を取得する音声情報取得手段と、複数のカテゴリの各々について、複数の単語と前記複数の単語の発音に関する情報との対応を示す辞書である汎用辞書を記憶する汎用辞書記憶手段に記憶された前記汎用辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行う第１の認識手段と、来訪者の予約に関する情報である予約情報を記憶する予約情報記憶手段に記憶された前記予約情報から、前記複数のカテゴリのうち少なくとも１つに属する単語を抽出し、抽出された前記単語の発音に関する情報と対応づけることにより作成された予約辞書を記憶する予約辞書記憶手段に記憶された前記予約辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行う第２の認識手段と、前記第１の認識手段の認識結果である第１の認識結果および前記第２の認識手段の認識結果である第２の認識結果に基づいて、前記音声の認識結果を決定する結果決定手段を備えている。
【０００７】
請求項２に係る発明の音声認識装置では、請求項１に記載の発明の構成に加え、前記結果決定手段は、前記第２の認識手段による前記第２の認識結果が得られた場合には、前記第１の認識結果に優先して、前記第２の認識結果を前記認識結果として決定することを特徴とする。
【０００８】
請求項３に係る発明の音声認識装置では、請求項１または２に記載の発明の構成に加え、前記結果決定手段は、前記第２の認識手段による前記第２の認識結果が得られなかった場合、前記第１の認識手段による前記第１の認識結果を前記認識結果として決定することを特徴とする。
【０００９】
請求項４に係る発明の音声認識装置では、請求項１〜３のいずれかに記載の発明の構成に加え、前記予約辞書は、前記複数のカテゴリのうち、属する単語の数が所定量以下であるカテゴリである基準カテゴリに属する複数の単語を分類し、前記予約情報から、前記複数のカテゴリのうち少なくとも１つに属し、各分類に関連する前記単語をそれぞれ抽出して作成された複数の分割予約辞書を含み、前記第２の認識手段は、前記複数の分割予約辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行うことを特徴とする。
【００１０】
請求項５に係る発明の受付装置は、請求項１〜３のいずれかに記載の音声認識装置と、前記結果決定手段によって決定された前記認識結果に基づいて、前記来訪者の応対を担当する担当者を特定する担当者特定手段と、前記担当者特定手段によって特定された前記担当者に対して、前記結果決定手段によって決定された前記認識結果に基づく通知処理を行う通知手段を備えている。
【００１１】
請求項６に係る発明の受付装置では、請求項５に記載の発明の構成に加え、前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、前記予約情報は、前記来訪者に関する情報、および前記来訪者に関する情報に対応付けられた前記担当者に関する情報を少なくとも含み、前記予約辞書は、前記予約情報から、前記来訪者カテゴリに属する単語をそれぞれ抽出して作成されており、前記担当者特定手段は、前記結果決定手段によって決定された前記認識結果が前記第１の認識結果である場合には、前記第１の認識結果に基づいて前記担当者を特定し、前記結果決定手段によって決定された前記認識結果が前記第２の認識結果である場合には、前記第２の認識結果に含まれる前記来訪者カテゴリに属する単語を含む前記予約情報に含まれる前記担当者に関する情報に基づいて、前記担当者を特定することを特徴とする。
【００１２】
請求項７に係る発明の受付装置は、請求項４に記載の音声認識装置と、前記結果決定手段によって決定された前記認識結果に基づいて、前記来訪者の応対を担当する担当者を特定する担当者特定手段と、前記担当者特定手段によって特定された前記担当者に対して、前記結果決定手段によって決定された前記認識結果に基づく通知処理を行う通知手段を備えている。
【００１３】
請求項８に係る発明の受付装置では、請求項７に記載の発明の構成に加え、前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、前記予約情報は、前記来訪者に関する情報、および前記来訪者に関する情報に対応付けられた前記担当者に関する情報を少なくとも含み、前記分割予約辞書は、前記担当者カテゴリを前記基準カテゴリとして、前記予約情報から前記来訪者カテゴリに属する単語をそれぞれ抽出して作成されており、前記担当者特定手段は、前記結果決定手段によって決定された前記認識結果が前記第１の認識結果である場合には、前記第１の認識結果に基づいて前記担当者を特定し、前記結果決定手段によって決定された前記認識結果が前記第２の認識結果である場合には、前記第２の認識結果の認識に用いられた前記分割予約辞書に対応する前記担当者カテゴリの前記分類に基づいて、前記担当者を特定することを特徴とする。
【００１４】
請求項９に係る発明の受付装置では、請求項５または７に記載の発明の構成に加え、前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、前記予約辞書は、前記来訪者カテゴリに属する単語の発音に関する情報に対応付けられた、前記来訪者カテゴリに属する単語と前記担当者カテゴリに属する単語とを区切り文字を介して連結した単語である連結単語を含み、前記第２の認識手段による前記第２の認識結果には、前記連結単語が含まれており、前記担当者特定手段は、前記第２の認識結果に含まれる前記連結単語に基づいて前記担当者を特定することを特徴とする。
【００１５】
請求項１０に係る発明の音声認識プログラムは、請求項１〜４のいずれかに記載の音声認識装置の各種処理手段としてコンピュータを機能させることを特徴とする。
【００１６】
請求項１１に係る発明の受付プログラムは、請求項５〜９のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させることを特徴とする。
【発明の効果】
【００１７】
請求項１に係る発明の音声認識装置によれば、複数の単語に関する汎用辞書を使用した音声認識の結果（第１の認識結果）と、来訪者の予約に関する予約情報を基に作成された予約辞書を使用した音声認識の結果（第２の認識結果）に基づいて、認識結果が決定される。汎用辞書は、特に制限なく複数の単語を含むため、第１の認識結果は、全体としての信頼性が高いとはいえない。一方、予約辞書は、予約情報記憶手段に記憶された来訪者の予約に関する予約情報を基にして作成されるため、含まれる単語数が絞り込まれている。その上、発話中の来訪者は、予約されている来訪者である可能性が高い。よって、発話内容が予約辞書に含まれる単語に対応していれば、予約辞書を用いた第２の認識結果は、全体としての信頼性が高いと考えられる。したがって、汎用辞書を用いた第１の認識結果と予約辞書を用いた第２の認識結果との両方に基づいて話者の音声の認識結果を決定することにより、最終的に精度の高い認識結果を得ることができる。
【００１８】
請求項２に係る発明の音声認識装置によれば、予約辞書を用いた第２の認識結果がある場合、第２の認識結果が認識結果として決定される。したがって、請求項１に記載の発明の効果に加え、全体としての信頼性がより高い認識結果を得ることができる。
【００１９】
請求項３に係る発明の音声認識装置によれば、予約辞書を用いた第２の認識結果がない場合、すなわち、単語数が汎用辞書よりも絞られた予約辞書での認識が失敗した場合でも、汎用辞書を用いた第１の認識結果が認識結果として決定される。したがって、請求項１または２に記載の発明の効果に加え、発話内容が予約辞書には対応していない場合でも、認識結果が得られない可能性を低減できる。
【００２０】
請求項４に係る発明の音声認識装置では、予約辞書が、基準カテゴリに属する単語をさらに分類した結果に従って作成された複数の分割予約辞書を含む。つまり、分割予約辞書は、含まれる単語数がさらに絞り込まれている。したがって、請求項１〜３のいずれかに記載の発明の効果に加え、分割予約辞書を用いた第２の認識結果が得られた場合、さらに精度が高い認識結果を得ることができる。
【００２１】
請求項５に係る発明の受付装置によれば、請求項１〜３のいずれかに記載の音声認識装置によって決定された精度の高い認識結果に基づいて、来訪者に応対する担当者が特定され、担当者に対する通知処理が行われる。したがって、通知を受けた担当者は、適切な来訪者の応対を行うことができる。
【００２２】
請求項６に係る発明の受付装置では、予約情報記憶手段に記憶された予約情報は、来訪者に関する情報と来訪者の担当者に関する情報を含んでおり、予約辞書は、予約情報から来訪者カテゴリに属する単語を抽出して作成されている。第２の認識結果の信頼性は高いので、第２の認識結果に来訪者カテゴリの単語が含まれていれば、その単語から予約情報を辿ることにより、対応する担当者に関する情報を特定することができる。したがって、請求項５に記載の発明の効果に加え、来訪者が担当者に関する発話をしない場合にも、迅速かつ高精度に担当者を特定することができる。
【００２３】
請求項７に係る発明の受付装置によれば、請求項４に記載の音声認識装置によって決定された精度の高い認識結果認識結果に基づいて、来訪者に応対する担当者が特定され、担当者に対する通知処理が行われる。したがって、通知を受けた担当者は、適切な来訪者の応対を行うことができる。
【００２４】
請求項８に係る発明の受付装置では、予約情報記憶手段に記憶された予約情報は、来訪者に関する情報と来訪者の担当者に関する情報を含んでおり、分割予約辞書は、担当者カテゴリを基準カテゴリとして、つまり担当者による分類に従って、予約情報から来訪者カテゴリに属する単語を抽出して作成されている。第２の認識結果の信頼性は高いので、その認識に用いた分割予約辞書に対応する担当者の分類に基づいて担当者を特定することができる。したがって、請求項７に記載の発明の効果に加え、来訪者が担当者に関する発話をしない場合にも、迅速かつ高精度に担当者を特定することができる。
【００２５】
請求項９に係る発明の受付装置では、予約辞書において、来訪者カテゴリの単語の発音に関する情報に、前記来訪者カテゴリに属する単語と前記担当者カテゴリに属する単語とを区切り文字を介して連結した連結単語が対応付けられており、第２の認識結果には連結単語が含まれる。したがって、請求項５または７に記載の発明の効果に加え、来訪者カテゴリに属する単語のみが発話された場合にも、連結単語に含まれる担当者カテゴリに関する単語に基づいて担当者を特定することができる。
【００２６】
請求項１０に係る発明の音声認識プログラムは、請求項１〜４のいずれかに記載の音声認識装置の各種処理手段としてコンピュータを機能させることができる。したがって、請求項１〜４のいずれかに記載の発明の効果を奏することができる。
【００２７】
請求項１１に係る発明の受付プログラムは、請求項５〜９のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させることができる。したがって、請求項５〜９のいずれかに記載の発明の効果を奏することができる。
【発明を実施するための最良の形態】
【００２８】
以下、本発明を具現化した実施の形態について、図面を参照して説明する。なお、参照する図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
【００２９】
<第１の実施形態>
以下、図１〜図１７を参照して、第１の実施形態について説明する。まず、図１〜図９を参照して、本実施形態に係る受付システム１の全体構成、ならびに、受付システム１の構成要素である受付装置１０およびユーザ端末２０の構成について、順に説明する。
【００３０】
最初に、図１を参照して、受付システム１の全体構成の概略を説明する。図１は、受付システム１の概略構成を示すシステム構成図である。受付システム１は、例えば、ビルや会社に設置され、来訪者に対する受付業務を行うシステムである。なお、本実施形態では、受付システム１は、会社５に設置されているものとして説明する。
【００３１】
図１に示すように、受付システム１は、受付装置１０および複数のユーザ端末２０を備えており、これらはＬＡＮ９によって相互に接続されている。受付装置１０およびユーザ端末２０は、パーソナルコンピュータ等の汎用のコンピュータであってもよいし、専用の装置であってもよい。なお、本実施形態では、専用の装置であるものとして説明する。また、ＬＡＮ９はその他のネットワークであってもよく、有線、無線の別も問わない。
【００３２】
ここで、本実施形態の受付システム１全体で行われる処理の手順について、簡単に説明する。会社５への来訪者が、入口付近に設けられた受付装置１０に近づくと、受付装置１０が備える人感センサ１０９（図２参照）によって検知される。ここで受付装置１０から来訪者および来訪者の応対担当者（以下、単に担当者という）の名前に関する質問が発せられるため、来訪者は受付装置１０に対して応答する。すると、来訪者の応答が音声認識され、認識結果に基づいて、担当者が特定される。そして、受付装置１０から担当者が使用するユーザ端末２０に対して、来訪者が到着したことが通知され、来訪者と担当者との通話が可能とされる。このように、受付装置１０は、会社５における受付業務を自動的に行うことができる。なお、ここまでで簡単に説明した処理については、後で詳述する。
【００３３】
次に、図２〜図８を参照して、受付装置１０の構成について説明する。図２は、受付装置１０の電気的構成を示すブロック図である。図３は、ハードディスク装置１５が備える記憶エリアの説明図である。図４は、予約データベース１５１０の説明図である。図５は、言語モデル１５３１の説明図である。図６は、汎用辞書１５４１の説明図である。図７は、予約辞書１５５１の説明図である。図８は、社員データベース１５６１の説明図である。
【００３４】
まず、図２を参照して、受付装置１０の電気的構成について説明する。図２に示すように、受付装置１０は、ＣＰＵ１０１と、ＣＰＵ１０１に各々接続されたＲＯＭ１０２およびＲＡＭ１０３を含む制御回路部１００を備えている。ＣＰＵ１０１には、入出力（Ｉ／Ｏ）インタフェイス１０４が接続されている。Ｉ／Ｏインタフェイス１０４には、ディスプレイ１０６、マイク１０７、スピーカ１０８、人感センサ１０９、通信装置１１０、およびハードディスク装置（ＨＤＤ）１５０が接続されている。
【００３５】
ＣＰＵ１０１は、受付装置１０全体の制御を司る。ＲＯＭ１０２は、受付装置１０の基本的な動作に必要なプログラムやそのための設定値を記憶している。ＣＰＵ１０１は、ＲＯＭ１０２や、ＨＤＤ１５０に記憶されたプログラムに従って、受付装置１０の動作を制御する。ＲＡＭ１０３は、各種データを一時的に記憶するための記憶装置である。
【００３６】
ディスプレイ１０６は、液晶パネルと駆動回路を備えた表示機器である。ディスプレイ１０６には、例えば、音声案内業務を行っている想定の人物やキャラクタの画像、スピーカ１０８から発話される音声に対応する文章等が表示される。マイク１０７は、音声が入力される機器であり、入力された音声を音声データに変換して出力する。スピーカ１０８は、入力された音声データを音声に変換して出力する機器である。なお、本実施形態では、マイク１０７は、本発明の「音声入力手段」に相当する。
【００３７】
人感センサ１０９は、受付装置１０の正面の所定領域内にある人体、すなわち来訪者を検知するセンサである。人感センサ１０９として、例えば、人体に対して赤外線を発射し、反射された赤外線の受光量の変化に基づいて人体を検知する赤外線センサ等、周知の人感センサを採用することができる。通信装置１１０は、ＬＡＮ９を介して、ユーザ端末２０等の外部機器との間でデータの送受信を行う装置である。なお、本実施形態では、人感センサ１０９は、本発明の「来訪者検出手段」に相当する。
【００３８】
図３〜図７を参照して、ＨＤＤ１５０について説明する。記憶装置であるＨＤＤ１５０には、図３に示すように、複数の記憶エリアが設けられている。複数の記憶エリアは、例えば、予約データベース（ＤＢ）記憶エリア１５１、音響モデル記憶エリア１５２、言語モデル記憶エリア１５３、汎用辞書記憶エリア１５４、予約辞書記憶エリア１５５、社員データベース（ＤＢ）記憶エリア１５６、およびプログラム記憶エリア１５７を含む。なお、本実施形態において、予約ＤＢ記憶エリア１５１は、本発明の「予約情報記憶手段に相当する。汎用辞書記憶エリア１５４は、「汎用辞書記憶手段」に相当する。予約辞書記憶エリア１５５は、「予約辞書記憶手段」に相当する。
【００３９】
予約ＤＢ記憶エリア１５１には、来訪者の予約に関する情報である予約情報を格納する予約ＤＢ１５１０（図４参照）が記憶されている。予約情報は、来訪者の訪問予定が決まった時点で、来訪者１名毎に作成されるものであり、例えば、図４に示すように、会社名、会社名ヨミ、来訪者名、来訪者名ヨミ、訪問予定日時、担当者名、担当者名ヨミ、および連絡先を含む。これらのうち、会社名、会社名ヨミ、来訪者名、および来訪者名ヨミは、それぞれ、来訪者に関する情報である。担当者名、担当者ヨミ、および連絡先は、担当者に関する情報である。
【００４０】
会社名は、来訪者が所属する会社や団体の名前であり、平仮名、片仮名、漢字、アルファベット等による通常の表記で記憶されている。なお、会社名としては、図４に示すように、必ずしも会社等の正式な名称ではなく、通常、身元を名乗る際に用いられる名前（通称）が記憶されていてもよい。例えば「株式会社Ｂ運送」について、「株式会社」を省略した「Ｂ運送」のみを、会社名として記憶しておくことができる。会社名ヨミは、会社名の読み方、すなわち発音であり、片仮名で記憶されている。
【００４１】
来訪者名は、来訪者の名前であり、平仮名、片仮名、漢字、アルファベット等による通常の表記で記憶されている。なお、通常、来訪者は、他社の訪問時に身元を名乗る際、フルネームではなく苗字のみを使用することが多い。よって、来訪者名としては、図４に示すように、苗字のみが記憶されていてもよい。来訪者名ヨミは、来訪者名の読み方、すなわち発音であり、片仮名で記憶されている。
【００４２】
訪問予定日時は、来訪者の訪問が予定されている日時である。担当者名は、来訪者の応対を担当する担当者の名前であり、平仮名、片仮名、漢字、アルファベット等による通常の表記で記憶されている。なお、通常、来訪者は、他社の訪問時に担当者名を発話する際、フルネームではなく苗字のみを使用することが多い。よって、図４に示すように、担当者名として、来訪者名と同様、苗字のみが記憶されていてもよい。担当者名ヨミは、担当者名の読み方、すなわち発音であり、片仮名で記憶されている。
【００４３】
連絡先は、担当者の連絡先である。連絡先として、例えば、担当者が使用するユーザ端末２０のＩＰアドレス、担当者の電子メールアドレス、担当者が使用するＩＰ電話の電話番号等を採用することができる。なお、図４に示す例以外に、会社等の正式名称、来訪者名および担当者のフルネーム等が記憶されていてもよい。
【００４４】
音響モデル記憶エリア１５２（図３参照）には、音声認識処理で使用される周知の音響モデル（図示外）が記憶されている。なお、詳細な説明は省略するが、音響モデルは、音声の音響的特徴（例えば、周波数特性）を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、特徴量と対応する音素とで表現されている。
【００４５】
言語モデル記憶エリア１５３（図３参照）には、音声認識処理で使用される言語モデル１５３１（図５参照）が記憶されている。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法（グラマー）で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデル（例えば、単語Ｎ−ｇｒａｍ）がある。
【００４６】
これらの代表的な言語モデルのうち、記述文法モデルは、想定される文のパターンを、受理可能な文のパターンとして、予め人手で記述して定義するものである。したがって、記述される受理可能な文のパターンの数には限りがあるが、発話が、定義された文のパターンに対応していれば、高精度な音声認識が可能である。本実施形態では、会社５を訪問してきた人物の発話という、比較的限られた状況での発話について音声認識が行われるため、言語モデルとして記述文法モデルを採用している。しかしながら、言語モデルは必ずしも記述文法モデルである必要はなく、統計モデルを使用してもよい。
【００４７】
言語モデル記憶エリア１５３（図３参照）には、受付装置１０と来訪者との対話で想定される様々な場面に応じて予め作成された受理可能な文のパターンが、言語モデルとして記憶されている。例えば、図５に示す言語モデル１５３１は、来訪者名および担当者名の少なくとも一方に関する質問に対する応答として受理可能な文のパターンを示す例である。文のパターンは、例えば、文を構成する単語が属するカテゴリを順に並べることによって定義することができる。
【００４８】
図４の例では、カテゴリ「会社名」、「接続」、「来訪者名」、「末尾１」、「担当者名」、「敬称」、および「末尾２」にそれぞれ属する単語が順に連結された文、カテゴリ「不要語」、「会社名」、「接続」、「来訪者名」、「末尾１」、「担当者名」、「敬称」、および「末尾２」にそれぞれ属する単語が順に連結された文、カテゴリ「来訪者名」、「末尾１」にそれぞれ属する単語が順に連結された文、ならびに、カテゴリ「担当者名」、「敬称」、および「末尾２」にそれぞれ属する単語が順に連結された文、の４種類を含む、複数の受理可能な文のパターンが定義されている。
【００４９】
詳細は後述するが、本実施形態では、受付装置１０から来訪者に対して、来訪者名および担当者名に関する質問、または担当者名に関する質問が発せられる。本来、来訪者名および担当者名に関する質問は、来訪者の名前と担当者の名前の２種類が応答に含まれることを要求するものであり、担当者名に関する質問は、担当者の名前が応答に含まれることを要求するものであ。しかしながら、応答者によっては、前者の質問に対して２種類の答のうち一方のみ、すなわち、来訪者名または担当者名のみを答える場合がある。また、担当者名の質問に対しても、来訪者の名前と担当者の名前の２種類で答える場合がある。
【００５０】
そこで、本実施形態では、いずれの質問に対しても、来訪者名および担当者名のうち少なくとも一方が応答文に含まれていれば受理可能とすることとしている。つまり、カテゴリ「来訪者名」および「担当者名」のいずれか一方を含む文のパターンが、来訪者および担当者の名前に関する質問、ならびに担当者名に関する質問に対する応答の音声認識に使用される言語モデル１５３１に含まれている。
【００５１】
なお、本実施形態では説明しないが、受付装置１０から発せられる質問が、例えば用件に関する質問等、来訪者名および担当者名のうち少なくとも一方に関する質問以外にも用意されている場合が考えられる。このような場合は、言語モデル記憶エリア１５３には、図５に示す言語モデル１５３１以外に、他の質問に対する応答等に対応して予め作成された複数の言語モデルが記憶されていてもよい。
【００５２】
汎用辞書記憶エリア１５４（図３参照）には、音声認識に使用される汎用辞書１５４１（図６参照）が記憶されている。図６に示すように、汎用辞書１５４１は、受付装置１０が発する質問に対する応答に関連する複数のカテゴリ毎に、そのカテゴリに属する単語と、各単語の発音に関する情報とを記述するものである。なお、図６では、表記を簡略化するため、発音に関する情報として片仮名が使用されているが、実際には、汎用辞書１５４１では音素列として記憶されている。例えば、単語「あの」に対応する発音は、図６では片仮名で「アノ」と記載されているが、実際には、音素列にローマ字表記を用いる場合は、「ａｎｏ」と記憶されている。この点は、以下の説明で使用される他の辞書の図でも同様である。
【００５３】
図６は、カテゴリとして、「不要語」、「会社名」、「接続」、「来訪者名」、「末尾１」、「担当者名」、「敬称」、および「末尾２」を含む汎用辞書の例を示している。つまり、前述した言語モデル１５３１で定義されている文に含まれるカテゴリについて、各カテゴリに属する単語およびその発音が記述された辞書である。汎用辞書１５４１中のカテゴリには、カテゴリに属するどの単語を使用しても文全体としての意味には影響しないカテゴリ（以下、非重要カテゴリという）と、それ以外の、カテゴリに属する単語のうちどれを使用するかによって文全体の意味が変化するカテゴリ（以下、重要カテゴリという）とがある。
【００５４】
図５の汎用辞書１５４１の例では、カテゴリ「不要語」、「接続」、「末尾１」、「敬称」、および「末尾２」は非重要カテゴリであり、カテゴリ「会社名」、「来訪者名」および「担当者名」は重要カテゴリである。また、カテゴリ「会社名」および「来訪者名」は、本発明の「来訪者カテゴリ」に相当し、「担当者名」は、「担当者カテゴリ」に相当する。
【００５５】
汎用辞書１５４１において、重要カテゴリである「会社名」に属する単語数は５，０００、「来訪者名」に属する単語数は１０，０００、「担当者名」に属する単語数は１５である。つまり、カテゴリ「担当者名」に比べて、「会社名」および「来訪者名」の単語数は著しく多い。会社５に所属する担当者の数は限られているが、担当者１名に対して、例えば、面会に来る取引先の会社の数は複数あり、さらにこれらの会社に所属する人物が複数名いる場合もある。よって、汎用辞書１５４１では、すべての単語を網羅するために、このように「会社名」および「来訪者名」の単語数が非常に多くなる。なお、図６では、各カテゴリに属する単語の数が示されているのは単に説明目的であり、実際の汎用辞書１５４１には、単語数は含まれなくてよい。
【００５６】
なお、前述したように、言語モデル１５３１（図５参照）以外に、様々な場面に応じて予め作成された他の言語モデルがある場合には、汎用辞書記憶エリア１５４に記憶される汎用辞書は、他の言語モデルに対応するカテゴリ毎の単語と発音に関する情報を含むものとなる。
【００５７】
予約辞書記憶エリア１５５（図３参照）には、汎用辞書１５４１とともに音声認識に使用される予約辞書（図７参照）が記憶されている。予約辞書１５５１は、予約ＤＢ１５１０（図４参照）に格納された予約情報、および汎用辞書１５４１（図６参照）に基づいて作成される。
【００５８】
予約辞書１５５１は、例えば、所定の時間間隔（例えば、１０分間隔）で、予約ＤＢ１５１０に記憶されている予約情報のうち、訪問予定日時が処理時点から所定の関係にある予約情報から、汎用辞書１５４１に含まれる複数のカテゴリのうち少なくとも１つに属する単語を抽出し、各単語とその発音に関する情報とを対応付けることにより作成することができる。予約辞書１５５１は、例えば、プログラム記憶エリア１５７に予め記憶された予約辞書作成用のプログラムが所定の時間間隔で実行されることにより作成される。
【００５９】
図７の例は、２００８年５月１２日の１４：００が処理時点である場合に、図４に示す予約ＤＢ１５１０に記憶された、訪問予定日が処理時点から前後１時間以内にある予約情報を基にして作成された予約辞書１５５１を示している。この例で、予約辞書１５５１の具体的な作成方法について説明する。図４に示すように、２００８年５月１２日の１４：００の前後１時間以内には、２００８年５月１２日の１３：００に予約されたＢ運送の囲氏に関する予約情報から、２００８年５月１２日１５：００に予約されたＫ化学の橋田氏に関する予約情報まで、全部で１０件の予約情報がある。よって、まず、これら１０件の予約情報に含まれる会社名、会社名ヨミ、来訪者名、来訪者名ヨミ、担当者名、および担当者名ヨミが抽出される。
【００６０】
会社名ヨミ、来訪者名ヨミ、および担当者名ヨミが、それぞれ、音素列に変換される。この変換は、例えば、片仮名と音素との対応表を予め作成してＨＤＤ１５０の所定の記憶エリア（図示外）に記憶させておき、この対応表を使用して行えばよい。そして、会社名と会社名ヨミの音素列、来訪者名と来訪者名ヨミの音素列、担当者名と担当者名ヨミの音素列とが互いに対応づけられ、カテゴリ「会社名」、「来訪者名」および「担当者名」に属する単語およびその発音に関する情報として、予約辞書１５５１が作成される。なお、抽出された予約情報に、重複する会社名、来訪者名および担当者名がある場合は、予約辞書１５５１には重複して含めなくてよい。また、汎用辞書１５４１から、非重要カテゴリ（不要語等）の単語とその発音に関する情報が抽出され、予約辞書１５５１に追加される。その結果、図７に示す予約辞書１５５１が作成される。
【００６１】
図７に示すように、予約情報に基づいて作成された予約辞書１５５１に含まれる重要カテゴリ「会社名」、「来訪者名」および「担当者名」に属する単語数は、それぞれ、８、１０、４となる。つまり、予約辞書１５５１では、汎用辞書１５４１と比べ、重要カテゴリの単語数は少なくなる。特に、「会社名」および「来訪者名」の単語数を飛躍的に減少させることができる。また、予約辞書１５５１は、予約がある来訪者およびその担当者に関する情報を基に作成されているため、実際の来訪者とその担当者に関する単語が含まれている可能性が高い。なお、図７では、各カテゴリに属する単語の数が示されているのは単に説明目的であり、実際の予約辞書１５５１には、単語数は含まれなくてよい。
【００６２】
社員ＤＢ記憶エリア１５６（図３参照）には、会社５の社員全員の個人情報（以下、社員情報という）を格納する社員ＤＢ１５６１（図８参照）が記憶されている。社員情報は、社員１名毎に作成されるものであり、例えば、図８に示すように、氏名、苗字、および連絡先を含む。連絡先としては、例えば、社員が使用するユーザ端末２０のＩＰアドレス、社員の電子メールアドレス、電話番号等を採用することができる。なお、社員情報には、図８に示す以外に、各社員を識別する社員コードや、所属する部署等の情報が含まれていてもよい。
【００６３】
プログラム記憶エリア１５７（図３参照）には、例えば、後述する各種処理に使用されるプログラムを含む、受付装置１０の各種動作を制御するためのプログラムおよび設定値等が記憶されている。なお、プログラムは、例えばＣＤ−ＲＯＭに記憶されたものがＣＤ−ＲＯＭドライブ（図示外）を介してインストールされ、プログラム記憶エリア１５７に記憶される。または、通信装置１１０を介してＬＡＮ９または他のネットワーク（図示外）に接続し、外部からダウンロードされたプログラムが記憶されてもよい。また、図示はされていないが、ＨＤＤ１５０には、その他、後述する処理でユーザ端末２０に送信される表示用データや音声データも記憶されている。
【００６４】
次に、図９を参照して、ユーザ端末２０の構成について説明する。図９は、ユーザ端末２０の電気的構成を示すブロック図である。図９に示すように、ユーザ端末２０は、ＣＰＵ２０１と、ＣＰＵ２０１に各々接続されたＲＯＭ２０２およびＲＡＭ２０３を含む制御回路部２００を備えている。ＣＰＵ２０１には、入出力（Ｉ／Ｏ）インタフェイス２０４が接続されている。Ｉ／Ｏインタフェイス２０４には、ディスプレイ２０６、マイク２０７、スピーカ２０８、通信装置２１０、およびハードディスク装置（ＨＤＤ）２５０が接続されている。つまり、人感センサがない以外、ユーザ端末２０の構成は、受付装置１０と同様である。
【００６５】
ＣＰＵ２０１は、ユーザ端末２０全体の制御を司る。ＲＯＭ２０２は、ユーザ端末２０の基本的な動作に必要なプログラムやそのための設定値を記憶している。ＣＰＵ２０１は、ＲＯＭ２０２や、ＨＤＤ２５０に記憶されたプログラムに従って、ユーザ端末２０の動作を制御する。ＲＡＭ２０３は、各種データを一時的に記憶するための記憶装置である。
【００６６】
ディスプレイ２０６は、液晶パネルと駆動回路を備えた表示機器である。ディスプレイ２０６には、例えば、来訪者の到着を告げる通知文等が表示される。マイク２０７は、音声が入力される機器であり、入力された音声を音声データに変換して出力する。スピーカ２０８は、入力された音声データを音声に変換して出力する機器である。例えば、スピーカ２０８からは、来訪者の到着を告げる通知音声が出力される。ＨＤＤ２５０には、ユーザ端末２０の各種動作を制御するためのプログラムおよび設定値等が記憶されている。
【００６７】
以下に、前述のように構成された受付装置１０において行われる各種処理について、図１０〜図１７を参照して順に説明する。図１０は、受付装置１０のメイン処理のフローチャートである。図１１は、図１０に示すメイン処理中に実行されるシナリオ処理のフローチャートである。図１２は、音声認識処理のフローチャートである。図１３は、音声認識処理で実行される認識結果決定処理のフローチャートである。
【００６８】
図１４は、図１１に示すシナリオ処理において、シナリオ別処理として実行される受付シナリオ処理のフローチャートである。図１５は、図１４に示す受付シナリオ処理中に実行される担当者特定処理のフローチャートである。図１６は、図１１に示すシナリオ処理において、シナリオ別処理として実行される担当者名質問シナリオ処理のフローチャートである。図１７は、図１１に示すシナリオ処理において、シナリオ別処理として実行される担当者通知シナリオ処理のフローチャートである。なお、図１０〜図１７に示す処理は、ＨＤＤ１５０のプログラム記憶エリア１５７に記憶されているプログラムに従って、受付装置１０のＣＰＵ１０１が実行する。
【００６９】
まず、図１０および図１１を参照して、受付装置１０のメイン処理について説明する。図１０に示すメイン処理は、受付装置１０の電源がＯＮにされると開始され、電源がＯＦＦにされるまで継続して行われる。処理が開始されるとまず、開始フラグおよび終了フラグがいずれもｆａｌｓｅにセットされ、ＲＡＭ１０３のフラグ記憶エリア（図示外）に記憶される（Ｓ１）。開始フラグは、後述する音声認識処理（図１２参照）において、受付装置１０のマイク１０７から入力される来訪者の発話の認識を行う期間を規定するフラグである。具体的には、開始フラグがｔｒｕｅとされている間は発話の認識が行われ、ｆａｌｓｅとされると認識が中止される。終了フラグは、音声認識処理を終了させるか否かを示すフラグである。具体的には、終了フラグがｆａｌｓｅである間は音声認識処理が継続され、ｔｒｕｅとされると終了する。
【００７０】
続いて、音声認識処理が起動される（Ｓ２）。具体的には、ＨＤＤ１５０のプログラム記憶エリア１５７に記憶されている音声認識プログラムが起動されることにより、音声認識処理（図１２参照）が開始され、メイン処理と並行して実行されることになる。なお、音声認識処理については、後で詳述する。続いて、シナリオ処理が実行される（Ｓ３および図１１）。シナリオ処理が終了すると、図１０に示すメイン処理は終了する。
【００７１】
図１１を参照して、シナリオ処理について説明する。シナリオ処理は、場面に応じて予め用意された複数のシナリオ別処理を、必要に応じて切り替える処理である。具体的には、現在シナリオとしてセットされたシナリオに対応するプログラムが適宜プログラム記憶エリア１５７から読み込まれ、シナリオ別処理が実行される。本実施形態では、初回シナリオ、受付シナリオ、担当者名質問シナリオ、担当者通知シナリオ、代表者通知シナリオ、および通話シナリオに対応する各処理が用意されているものとする。
【００７２】
まず、現在シナリオとして初回シナリオがセットされ、ＲＡＭ１０３に記憶される（Ｓ１１）。人感センサ１０９により、来訪者が検知されたか否かが判断される（Ｓ１２）。来訪者が検知されない間は、来訪者が検知されるまで待機状態となる（Ｓ１２：ＮＯ）。そして、人感センサ１０９により来訪者が検知されると（Ｓ１２：ＹＥＳ）、シナリオ別処理が行われる（Ｓ１３）。シナリオ別処理では、この時点でＲＡＭ１０３に現在シナリオとして記憶されているシナリオに応じた処理（以下、シナリオ名に応じて「〜シナリオ処理」という）が行われる。例えば、最初のシナリオ処理では、ステップＳ１１で現在シナリオとして初回シナリオがセットされているため、ステップＳ１３では、初回シナリオ処理が行われる。初回シナリオ処理では、次に現在シナリオにセットされるシナリオである次シナリオとして、受付シナリオをセットし、ＲＡＭ１０３に記憶する処理のみが行われる。
【００７３】
シナリオ別処理の後（Ｓ１３）、ＲＡＭ１０３に記憶されている次シナリオが初回シナリオであるか否かが判断される（Ｓ１４）。次シナリオが初回シナリオではなく、受付シナリオ等、他のシナリオの場合は（Ｓ１４：ＮＯ）、まだ他のシナリオに沿って同じ来訪者への対応を行う必要がある。よって、この時点でＲＡＭ１０３に記憶されている次シナリオが現在シナリオにセットされ（Ｓ１５）、処理はステップＳ１３に戻って、切り替えられた現在シナリオに対応するシナリオ別処理が行われる。
【００７４】
来訪者への対応が一通り終了し、現在シナリオが初回シナリオとなった時点で（Ｓ１４：ＹＥＳ）、この来訪者への対応は済んだことになる。よって、受付装置１０の電源がＯＦＦとされたか否かが判断され（Ｓ１６）、電源がＯＦＦにされていなければ（Ｓ１６：ＮＯ）、処理はステップＳ１１に戻り、前述したように、次の来訪者に対応する処理がステップＳ１１〜Ｓ１５で繰り返される。そして、受付装置１０の電源がＯＦＦにされると（Ｓ１６：ＹＥＳ）、並行して実行されている音声認識処理も終了させるために、ＲＡＭ１０３のフラグ記憶エリアに記憶されている終了フラグがｆａｌｓｅからｔｒｕｅに変更され（Ｓ１７）、シナリオ処理は終了して、図１０に示すメイン処理に戻る。なお、受付シナリオ処理以外のシナリオ処理については、音声認識処理が関係するため、音声認識処理の説明後に詳述する。
【００７５】
以下、図１２を参照して、図１０に示すメイン処理のステップＳ２で起動され、メイン処理と並行して実行される音声認識処理について説明する。図１２に示すように、音声認識処理では、まず、音響モデル、言語モデルおよび辞書が、ＨＤＤ１５０の所定の記憶エリアからそれぞれ読み出される（Ｓ２１）。具体的には、音響モデル（図示外）が音響モデル記憶エリア１５２から読み出される。言語モデル１５３１（図５参照）が言語モデル記憶エリア１５３から読み出される。汎用辞書１５４１（図６参照）が汎用辞書記憶エリア１５４から読み出され、予約辞書１５５１（図７参照）が予約辞書記憶エリア１５５から読み出される。
【００７６】
続いて、ＲＡＭ１０３のフラグ記憶エリアに記憶されている終了フラグがｆａｌｓｅであるか否かが判断される（Ｓ２２）。前述したように、終了フラグは、受付装置１０の電源がＯＦＦにされない限り、ｆａｌｓｅのままである（Ｓ２２：ＹＥＳ）。この場合、フラグ記憶エリアに記憶されている開始フラグがｔｒｕｅか否かが判断される（Ｓ２３）。
【００７７】
詳細は後述するが、開始フラグは、別途シナリオ処理（図１１参照）において実行されるシナリオ別処理において、スピーカ１０８から何らかの質問音声が出力された後、質問に対する応答の認識開始を示すためにｔｒｕｅにされる。つまり、来訪者に対して質問音声が出力されるまでの間は、ｆａｌｓｅのままである（Ｓ２３：ＮＯ）。この場合、終了フラグがｔｒｕｅにされるか、開始フラグがｔｒｕｅにされるまで、待機状態となる（Ｓ２２：ＹＥＳ、Ｓ２３：ＮＯ）。
【００７８】
受付装置１０の電源がＯＦＦにされ、図１１のシナリオ処理のステップＳ１７で終了フラグがｔｒｕｅにされた場合は（Ｓ２２：ＮＯ）、図１２に示す音声認識処理はそのまま終了する。いずれかのシナリオ別処理で開始フラグがｔｒｕｅにされた場合は（Ｓ２３：ＹＥＳ）。質問に対する来訪者の応答の音声がマイク１０７から入力され、その音声データがＲＡＭ１０３に取得される（Ｓ２４）。
【００７９】
取得された音声データの音声認識が行われる（Ｓ２５）。つまり、音声データが、音響モデル、言語モデル１５３１および辞書、すなわち汎用辞書１５４１および予約辞書１５５１を用いて、テキストに変換される。具体的には、例えば、音声データを分析し、特徴量を抽出した後、音響モデルと言語モデル１５３１とのマッチングが行われる。言語モデル１５３１は、辞書として汎用辞書１５４１および予約辞書１５５１を参照する。
【００８０】
マッチングの結果、言語モデル１５３１で受理可能な文毎に尤度が求まり、尤度が最も高い文が認識結果として得られる。なお、尤度が既定の閾値以下の値になった場合は、認識失敗として認識結果は得られない。音声認識に成功した場合には得られた認識結果（テキスト）が、音声認識に失敗した場合には認識失敗を示す情報が、汎用辞書１５４１を参照して得られた結果であるのか、予約辞書１５５１を参照して得られた結果であるのかを識別可能な状態で、結果としてＲＡＭ１０３の記憶エリアに記憶される。
【００８１】
本実施形態では、前述したように、辞書の数は汎用辞書１５４１および予約辞書１５５１の２つであるから、言語モデル１５３１を用いた認識が２通り行われることになる。つまり、両方の辞書で認識に成功すれば、それぞれの辞書に対応して２つの認識結果（テキスト）が得られる。各辞書に対応する結果の識別情報として、例えば、汎用辞書１５４１に対応する結果にはゼロ（０）、予約辞書１５５１に対応する結果には１の番号がそれぞれ付与され、結果（テキストまたは認識失敗を示す情報）と対応付けてＲＡＭ１０３に記憶される。なお、各辞書を参照して行われる２通りの音声認識は、並行して同時に行われても、シーケンシャルに行われてもよい。来訪者の待ち時間を考慮すると、並行して行うことが好ましい。
【００８２】
このようにして音声認識が行われた後（Ｓ２５）、最終的な認識結果として出力される最終結果を決定する認識結果決定処理が行われる（Ｓ２６および図１３）。認識結果決定処理で決定された最終結果は、並行して実行されているシナリオ別処理において、担当者名の特定に使用されることになる（図１４のステップＳ１２０、または図１６のステップＳ２２０）。
【００８３】
認識結果決定処理の後（Ｓ２６）、音声認識を一旦中止して来訪者による次の発話まで待機するために、フラグ記憶エリアにｔｒｕｅとして記憶されている開始フラグがｆａｌｓｅに変更される（Ｓ２７）。そして、処理はステップＳ２２に戻る。受付装置１０の電源がＯＦＦにされ、終了フラグがｔｒｕｅとされた場合は（Ｓ２２：ＮＯ）、図１２に示す音声認識処理は終了する。電源がＯＦＦにされず、終了フラグがｆａｌｓｅの間は（Ｓ２２：ＹＥＳ）、前述したようにステップＳ２２〜Ｓ２７の処理が繰り返される。
【００８４】
図１３を参照して、認識結果決定処理について説明する。なお、以下では、汎用辞書１５４１に対応する結果にはゼロ（０）、予約辞書１５５１に対応する結果には１が、識別番号としてそれぞれ付与されているものとして説明する。
【００８５】
図１３に示すように、処理が開始されるとまず、予約辞書１５５１を参照して得られた認識結果（以下、単に「予約辞書の認識結果」という）があるか否かが判断される（Ｓ２６１）。具体的には、ＲＡＭ１０３に、識別番号１に対応して記憶されている結果が、認識結果（テキスト）であるか認識失敗を示す情報であるか否かが判断される。認識結果が記憶されている場合は、予約辞書の認識結果があると判断され（Ｓ２６１：ＹＥＳ）、予約辞書の認識結果が最終結果として決定され、ＲＡＭ１０３に記憶される（Ｓ２６３）。
【００８６】
一方、識別番号１に対応してＲＡＭ１０３に記憶されている結果が、認識失敗を示す情報の場合には、予約辞書の認識結果はないと判断される（Ｓ２６１：ＮＯ）。そこで、識別番号０に対応してＲＡＭ１０３に記憶されている結果に基づき、汎用辞書１５４１を参照して得られた結果（以下、単に「汎用辞書の認識結果」という）があるか否かが判断される（Ｓ２６２）。汎用辞書の認識結果はあると判断された場合には（Ｓ２６２：ＹＥＳ）、汎用辞書の認識結果が最終結果として決定され、ＲＡＭ１０３に記憶される（Ｓ２６３）。
【００８７】
汎用辞書の認識結果もない場合には（Ｓ２６２：ＮＯ）、予約辞書１５５１を参照した音声認識も、汎用辞書１５４１を参照した音声認識も失敗しているため、最終結果は認識失敗と決定され、ＲＡＭ１０３に記憶される（Ｓ２６５）。ステップＳ２６３、Ｓ２６４、およびＳ２６５のいずれかで最終結果が決定された後、図１３の認識結果決定処理は終了し、図１２の音声認識処理に戻る。
【００８８】
前述したように、予約辞書１５５１に含まれる単語の数は汎用辞書１５４１に比べて絞られているため、予約辞書１５５１の認識結果は、汎用辞書の認識結果よりも全体としての信頼性が高い。よって、このように、予約辞書の認識結果を最終結果として優先して採用することにより、信頼性がより高い最終結果を得ることができる。また、予約辞書１５５１と汎用辞書１５４１を音声認識で併用することにより、発話内容が予約辞書には対応しておらず、予約辞書の認識結果が得られなかった場合でも、汎用辞書の認識結果を最終結果として採用できるので、認識失敗となる可能性を低減することができる。
【００８９】
以下に、図１４〜図１７を参照して、図１１に示すシナリオ処理中にシナリオ別処理として行われる受付シナリオ処理、担当者名質問シナリオ処理、および担当者通知シナリオ処理について、順に説明する。
【００９０】
まず、図１４および図１５を参照して、受付シナリオ処理について説明する。図１４に示すように、受付シナリオ処理が開始されると、まず、再発話フラグがｆａｌｓｅにセットされ、ＲＡＭ１０３のフラグ記憶エリアに記憶される（Ｓ１０１）。再発話フラグは、来訪者の発話の認識に失敗した場合に、来訪者にすでに同じ内容の再発話を促したか否かを示すフラグである。具体的には、再発話フラグがｔｒｕｅの場合は、すでに来訪者に再発話を促したことを示し、ｆａｌｓｅの場合は、まだ再発話を促していないことを示している。
【００９１】
続いて、ＣＰＵ１０１は、来訪者名および担当者名を質問する内容の音声をスピーカ１０８から出力させる（Ｓ１０２）。より具体的には、予め作成され、ＨＤＤ１５０の所定の記憶エリア（図示外）に記憶されている受付シナリオ用の質問文面のテキストデータが読み出される。そして、音声データに変換され、音声データがスピーカ１０８により音声に変換されて出力される。ここでは、例えば、「お客様のお名前と担当者の名前をお願いします」というように、来訪者名と担当者名を尋ねる音声が出力される。
【００９２】
この質問に対して来訪者が応答する際の発話を認識するために、メイン処理の最初でｆａｌｓｅとされた開始フラグが、ｔｒｕｅに変更される（Ｓ１０３）。これにより、並行して実行されている音声認識処理（図１２参照）では、発話の認識が開始される。
【００９３】
音声認識処理において得られた最終結果は、ＲＡＭ１０３の所定の記憶エリアに記憶されている。そこで、ＣＰＵ１０１は、ＲＡＭ１０３に記憶されている最終結果を取得し（Ｓ１０４）、認識失敗を示すものか否かを判断する（Ｓ１０５）。認識失敗を示す最終結果がＲＡＭ１０３に記憶されている場合（Ｓ１０５：ＹＥＳ）、前述した質問に対する応答が認識できなかったことを意味する。したがって、ＣＰＵ１０１は、ＲＡＭ１０３のフラグ記憶エリアに記憶されている再発話フラグがｆａｌｓｅであるか否かを判断する（Ｓ１０６）。
【００９４】
再発話フラグがｆａｌｓｅである場合（Ｓ１０６：ＹＥＳ）、来訪者は質問に対して一度応答をしただけであり、再度同じ応答をしたことはない。よって、再発話を促す内容の音声をスピーカ１０８から出力させる（Ｓ１０７）。ここでも、予め作成され、ＨＤＤ１５０の所定の記憶エリア（図示外）に記憶されている受付シナリオ用の既定の文面のテキストデータが読み出されて音声データに変換され、さらにスピーカ２０８で音声に変換されて出力される。ここでは、例えば、「もう一度、お客様のお名前と担当者の名前をお願いします」というように、来訪者名と担当者名を再度尋ねる音声が出力される。そして、再発話フラグが、来訪者にすでに同じ内容の再発話を促したことを示すｔｒｕｅに変更された後（Ｓ１０８）、処理はステップＳ１０３に戻る。
【００９５】
ステップＳ１０８に続くステップＳ１０３では、並行して実行されている音声認識処理（図１２参照）において最初の応答の認識の後ｆａｌｓｅとされた開始フラグが、来訪者による再発話を認識するために、ｔｒｕｅに変更される（Ｓ１０３）。これにより、音声認識処理では、来訪者の再発話の認識が行われ、最終結果が取得される（Ｓ１０４）。
【００９６】
再発話の最終結果も認識失敗を示すものである場合には（Ｓ１０５：ＹＥＳ）、再発話フラグが前の処理のステップＳ１０８でｔｒｕｅにされている（Ｓ１０６：ＮＯ）。よって、ＣＰＵ１０１は、それ以上来訪者に同じ質問は行わず、受付シナリオ用の既定の文面のテキストデータに基づき、代表者に取次ぎ中であることを示す内容の音声をスピーカ１０８から出力させる（Ｓ１１２）。そして、次シナリオに代表者通知シナリオをセットしてＲＡＭ１０３に記憶させ（Ｓ１１３）、受付シナリオ処理を終了して、図１１に示すシナリオ処理に戻る。なお、シナリオ処理では、次シナリオは初回シナリオではないため（Ｓ１４：ＮＯ）、代表者通知シナリオが現在シナリオとしてセットされて（Ｓ１５）、続くステップＳ１３で、シナリオ別処理として、代表者通知シナリオ処理が行われることになる。
【００９７】
一方、来訪者名および担当者名の質問に対する来訪者の最初の応答の認識が成功した場合（Ｓ１０５：ＮＯ）、または、再発話を促された後の再度の応答の認識が成功した場合（Ｓ１０５：ＮＯ）、最終結果に基づいて担当者を特定する担当者特定処理が行われる（Ｓ１２０および図１５）。
【００９８】
図１５を参照して、担当者特定処理について説明する。図１５に示すように、まず、ＲＡＭ１０３に記憶されている最終結果が、予約辞書の認識結果であるか否かが判断される（Ｓ１２１）。前述したように、本実施形態では、汎用辞書の認識結果には識別番号ゼロ（０）、予約辞書の認識結果には識別番号１があわせて記憶されているので、最終結果がいずれの辞書によるものかを識別できる。識別番号がゼロ（０）であり、最終結果が予約辞書の認識結果ではなく、汎用辞書の結果である場合には（Ｓ１２１：ＮＯ）、最終結果中に担当者名が含まれているか否かが判断される（Ｓ１２６）。
【００９９】
前述したように、来訪者は、来訪者名および担当者名を質問したからといって、担当者名を含む応答をするとは限らない。よって、来訪者が自分の名前のみ名乗っており、最終結果に担当者名が含まれない場合には（Ｓ１２６：ＮＯ）、担当者名は「なし」として、ＲＡＭ１０３に記憶され（Ｓ１２９）、担当者特定処理は終了して、図１４に示す受付シナリオ処理に戻る。一方、最終結果に担当者名が含まれている場合には（Ｓ１２６：ＹＥＳ）、最終結果に含まれる担当者名が抽出され、担当者名としてＲＡＭ１０３に記憶される（Ｓ１２７）。そして、担当者特定処理は終了して、図１４に示す受付シナリオ処理に戻る。
【０１００】
ステップＳ１２１において、ＲＡＭ１０３に識別番号１に対応する結果が記憶されており、予約辞書の認識結果があると判断された場合には（Ｓ１２１：ＹＥＳ）、最終結果に担当者名が含まれるか否かが判断される（Ｓ１２２）。担当者名が含まれていれば（Ｓ１２２：ＹＥＳ）、最終結果に含まれる担当者名が抽出され、担当者名としてＲＡＭ１０３に記憶される（Ｓ１２７）。そして、担当者特定処理は終了して、図１４に示す受付シナリオ処理に戻る。
【０１０１】
一方、最終結果である予約辞書の認識結果に担当者名が含まれていない場合（Ｓ１２２：ＮＯ）、認識には成功しているため、最終結果には、少なくとも来訪者名は含まれていることになる。前述したように、予約辞書１５５１は、予約ＤＢ１５１０（図４参照）に記憶されている来訪者の予約情報を基にして作成されているので、予約辞書１５５１に含まれる来訪者に対応する担当者を、予約情報に基づいて特定することができる。
【０１０２】
具体的には、最終結果に含まれる来訪者名が特定され、予約ＤＢ１５１０において、特定された来訪者名を来訪者名として含む予約情報が検索される（Ｓ１２３）。検索の結果発見された予約情報に含まれる担当者名が、担当者名として特定される（Ｓ１２４）。なお、発見された予約情報が複数ある場合は、例えば、訪問予定日時が現在時刻に最も近い予約情報に含まれる担当者名を採用すればよい。そして、担当者特定処理は終了して、図１４に示す受付シナリオ処理に戻る。
【０１０３】
受付シナリオ処理に戻ると、ＲＡＭ１０３に記憶されている担当者名が「なし」であるか否かが判断される（Ｓ１３１）。汎用辞書１５４１または予約辞書１５５１の認識結果が得られ、前述の担当者特定処理において、担当者名が特定できた場合には（Ｓ１３１：ＮＯ）、ＣＰＵ１０１は、受付シナリオ用の既定の文面のテキストデータに基づき、担当者に取次ぎ中であることを示す内容の音声をスピーカ１０８から出力させる（Ｓ１３２）。そして、次シナリオとして、担当者通知シナリオをセットしてＲＡＭ１０３に記憶させ（Ｓ１３３）、受付シナリオ処理を終了して、図１１に示すシナリオ処理に戻る。なお、シナリオ処理では、次シナリオは初回シナリオではないため（Ｓ１４：ＮＯ）、担当者通知シナリオが現在シナリオとしてセットされて（Ｓ１５）、続くステップＳ１３で、シナリオ別処理として、担当者通知シナリオ処理（図１７参照）が行われることになる。この処理については後述する。
【０１０４】
一方、汎用辞書１５４１でも予約辞書１５５１でも来訪者の発話の認識結果が得られず、前述の担当者特定処理において、担当者名が「なし」とされた場合には（Ｓ１３１：ＹＥＳ）、ＣＰＵ１０１は、次シナリオとして、担当者名質問シナリオをセットしてＲＡＭ１０３に記憶させ（Ｓ１３５）、受付シナリオ処理を終了して、図１１に示すシナリオ処理に戻る。なお、シナリオ処理では、次シナリオは初回シナリオではないため（Ｓ１４：ＮＯ）、担当者名質問シナリオが現在シナリオとしてセットされて（Ｓ１５）、続くステップＳ１３で、シナリオ別処理として、担当者名質問シナリオ処理（図１６参照）が行われることになる。
【０１０５】
図１６を参照して、担当者名質問シナリオ処理について説明する。この処理は、前述の受付シナリオ処理で来訪者名および担当者名を質問しても、その応答が認識できなかった場合に行われる。ここで担当者名のみを質問するのは、担当者名さえ特定できれば、その担当者に対して名前が不明な来訪者が到着したことは通知できるため、また、汎用辞書１５４１でも予約辞書１５５１でも、来訪者名に比べて担当者名の数は少ないので、来訪者名よりも担当者名の方が精度よく認識できるためである。
【０１０６】
図１６に示すように、まず、再発話フラグがｆａｌｓｅにセットされる（Ｓ２０１）。そして、担当者名質問シナリオ用の既定の文面のテキストデータに基づき、担当者名を質問する音声をスピーカ１０８から出力させる（Ｓ２０２）。ここでは、例えば「担当者の名前をお願いします」という音声が発せられる。
【０１０７】
続くステップＳ２０３〜Ｓ２０８の処理は、前述の受付シナリオ処理（図１４参照）のステップＳ１０３〜Ｓ１０８と同様であるため、ここでの説明は省略する。
【０１０８】
ステップＳ２０７で再発話を促しても認識に失敗した場合には（Ｓ２０５：ＹＥＳ）、再発話フラグがすでにｔｒｕｅとされているので（Ｓ２０６：ＮＯ）、ＣＰＵ１０１は、それ以上来訪者に同じ質問をする処理を行わない。担当者名質問シナリオ用の既定の文面のテキストデータに基づき、代表者に取次ぎ中である旨の音声がスピーカ１０８から出力され（Ｓ２１２）、次シナリオに後述する代表者通知シナリオがセットされる（Ｓ２１３）。そして、担当者名質問シナリオ処理は終了し、図１１に示すシナリオ処理に戻る。
【０１０９】
担当者名の質問に対する応答について最終結果が得られた場合は（Ｓ２０５：ＮＯ）、担当者特定処理が行われる（Ｓ２２０）。ステップＳ２２０で行われる担当者特定処理は、受付シナリオ処理に関して図１５を参照して前述した通りであるため、ここでの説明は省略する。担当者特定処理の結果、担当者名が特定されたか否かが判断される（Ｓ２３１）。汎用辞書１５４１でも予約辞書１５５１でも来訪者の発話の認識結果が得られず、担当者特定処理において、担当者名が「なし」とされた場合には（Ｓ２３１：ＹＥＳ）、ＣＰＵ１０１は、それ以上来訪者に同じ質問をする処理を行うことなく、代表者に取り次ぐための処理が行われる（Ｓ２１２〜Ｓ２１３）。そして、担当者名質問シナリオ処理は終了し、図１１に示すシナリオ処理に戻る。
【０１１０】
担当者特定処理において、担当者名が特定できた場合には（Ｓ２３１：ＮＯ）、ＣＰＵ１０１は、担当者名質問シナリオ用の既定の文面のテキストデータに基づき、担当者に取次ぎ中であることを示す内容の音声をスピーカ１０８から出力させる（Ｓ２３２）。そして、次シナリオとして、担当者通知シナリオをセットしてＲＡＭ１０３に記憶させ（Ｓ２３３）、担当者名質問シナリオ処理を終了して、図１１に示すシナリオ処理に戻る。なお、シナリオ処理では、次シナリオは初回シナリオではないため（Ｓ１４：ＮＯ）、担当者通知シナリオが現在シナリオとしてセットされて（Ｓ１５）、続くステップＳ１３で、シナリオ別処理として、担当者通知シナリオ処理（図１７参照）が行われることになる。
【０１１１】
図１７を参照して、担当者通知シナリオ処理について説明する。この処理は、受付シナリオ処理（図１４参照）または担当者名質問処理（図１６参照）で担当者が特定できた場合に、担当者に来訪者の通知を行う処理である。
【０１１２】
図１７に示すように、まず、担当者の連絡先が特定される（Ｓ３０１）。具体的には、ＲＡＭ１０３に記憶されている担当者名が特定され、社員ＤＢ１５６１において、特定された担当者名を苗字として含む社員情報が検索される。そして、発見された社員情報に含まれる連絡先が、担当者の連絡先として特定される。続いて、特定された担当者の連絡先に対して、来訪者の到着を知らせる通知処理が行われる（Ｓ３０２）。
【０１１３】
例えば、連絡先として、担当者の使用するユーザ端末２０のＩＰアドレスが特定された場合、ＣＰＵ１０１は、ユーザ端末２０に来訪者の到着を知らせる内容の音声データを送信し、ユーザ端末２０のスピーカ２０８からその音声を出力させればよい。ここでは、予め定められた通知文に基づいて、例えば「お客様がいらっしゃっています」とのみ通知してもよいし、「Ａ工業の永光様がいらっしゃっています」というように、最終結果に会社名や来訪者名が含まれる場合には、これらをあわせて通知してもよい。また、通知先として電子メールのアドレスが特定された場合は、そのアドレスに通知文のテキストデータを送信してもよい。この場合は、ユーザ端末２０のディスプレイ２０６に、通知文が表示される。
【０１１４】
このような通知処理により、通知を受けた担当者は、直接来訪者と対話しなくても、来訪者が到着したという情報、または誰が来訪したのかという情報を知り、適切な対応をすることができる。その後、次シナリオとして、通話シナリオをセットしてＲＡＭ１０３に記憶させ（Ｓ３０３）、担当者通知シナリオ処理を終了して、図１１に示すシナリオ処理に戻る。なお、図示は省略するが、代表者通知シナリオ処理では、担当者通知処理と同様の流れの処理が行われる。例えば、予め定められ、ＨＤＤ１５０の所定の記憶エリアに記憶された代表者の連絡先が特定され、代表者への通知処理が行われて、次シナリオに通話シナリオがセットされる。
【０１１５】
担当者通知シナリオ処理または代表者通知シナリオ処理後のシナリオ処理（図１１参照）では、次シナリオは通話シナリオである（Ｓ１４：ＮＯ）。よって、通話シナリオが現在シナリオとしてセットされて（Ｓ１５）、続くステップＳ１３で、シナリオ別処理として、通話シナリオ処理が行われることになる。なお、図示は省略するが、通話シナリオ処理では、例えば、マイク２０７から入力される担当者の音声指示に基づいて、受付装置１０のマイク１０７およびスピーカ１０８、ならびにユーザ端末２０のマイク２０７およびスピーカ２０８を用いて、来訪者と担当者の通話が可能とされる。さらに、次シナリオに初回シナリオがセットされる。その結果、図１１に示すシナリオ処理に戻ると、次シナリオは初回シナリオであると判断され（Ｓ１４：ＹＥＳ）、電源がＯＦＦにされていなければ（Ｓ１６：ＮＯ）、ステップＳ１１に戻り、次の来訪者の受付処理が行われることになる。
【０１１６】
以上に説明したように、本実施形態の受付システム１では、受付装置１０で来訪者が検知されると、来訪者名と担当者名を質問する音声が出力される。質問に対して来訪者が応答すると、その音声が汎用辞書１５４１（図６参照）および予約辞書１５５１（図７参照）を参照して音声認識される。汎用辞書１５４１を参照して音声認識が行われた場合の認識結果と、予約辞書１５５１を参照して音声認識が行われた場合の認識結果に基づいて、最終的な認識結果が決定される。最終的な認識結果に含まれる担当者名が特定され、その連絡先に対して、来訪者の到着が通知される。
【０１１７】
汎用辞書１５４１は、特に制限なく多数の単語を含むため、汎用辞書の認識結果は、全体としての信頼性が高いとはいえない。一方、予約辞書１５５１は、予約ＤＢ記憶エリア１５１（図３参照）に記憶された予約ＤＢ１５１０（図４参照）の予約情報を基にして作成されるため、含まれる単語数が絞り込まれている。その上、発話中の来訪者は、予約されている来訪者である可能性が高い。よって、発話内容が予約辞書に含まれる単語に対応していれば、予約辞書の認識結果は、全体としての信頼性が高いと考えられる。したがって、汎用辞書の認識結果と予約辞書の認識結果との両方に基づいて最終結果を決定することにより、信頼性の高い最終結果を得ることができる。
【０１１８】
本実施形態では、受付装置１０は、本発明の「音声認識装置」を備えた受付装置に相当する。また、図１２のステップＳ２４でマイク１０７から入力された音声を取得するＣＰＵ１０１が、本発明の「音声情報取得手段」に相当する。ステップＳ２５で汎用辞書１５４１および予約辞書１５５１を用いて音声認識を行うＣＰＵ１０１が、「第１の認識手段」および「第２の認識手段」に相当する。図１３のステップＳ２６３、Ｓ２６４、およびＳ２６５で最終結果を決定するＣＰＵ１０１が、「結果決定手段」に相当する。図１５のステップＳ１２４、Ｓ１２７、およびＳ１２９で担当者を特定するＣＰＵ１０１が、「担当者特定手段」に相当し、図１７のステップＳ３０２で通知処理を行うＣＰＵ１０１が、「通知手段」に相当する。
【０１１９】
<第２の実施形態>
以下、図１２、図１３、図１８および図１９を参照して、第２の実施形態について説明する。第１の実施形態では、図７に示す予約辞書１５５１は、図４に示す予約ＤＢ１５１０に記憶されている予約情報に基づいて、１つの辞書として作成されている。本実施形態では、予約情報に基づいて、複数の辞書が作成される点が特徴である。なお、以下の説明では、これらの複数の辞書の各々を「分割予約辞書」というものとする。図１８は、分割予約辞書１５５２の説明図である。図１９は、第２の実施形態に係る担当者特定処理のフローチャートである。
【０１２０】
本実施形態に係る受付システム１、ならびに受付システム１の構成要素である受付装置１０およびユーザ端末２０の構成は、受付装置１０の予約辞書記憶エリア１５５に記憶される辞書が異なる以外、第１の実施形態と同一である。よって、ここでは、図１８を参照して、本実施形態で予約辞書記憶エリア１５５に記憶されている分割予約辞書についてのみ説明し、その他の構成の説明については省略する。
【０１２１】
本実施形態で作成される分割予約辞書は、図１８に示すように、第１の実施形態の予約辞書１５５１（図４参照）と同様に、重要カテゴリである「会社名」、「来訪者名」、および「担当者名」、ならびに非重要カテゴリである「不要語」、「接続」、「末尾１」、「敬称」、および「末尾２」にそれぞれ属する単語とその発音に関する情報の対応を示す辞書である。ただし、予約辞書１５５１とは異なり、分割予約辞書は、カテゴリ「担当者名」に１名分の単語しか含まない。つまり、本実施形態の分割予約辞書は、第１の実施形態の予約辞書１５５１を担当者毎に分割した辞書である。
【０１２２】
本実施形態の分割予約辞書は、例えば、次のように作成することができる。まず、予約辞書１５５１と同様、所定の時間間隔で、予約ＤＢ１５１０（図４参照）に記憶されている予約情報のうち、訪問予定日時が処理時点から所定の関係にある予約情報の一部が抽出される。そして、汎用辞書１５４１に含まれる複数のカテゴリのうち、属する単語数が所定量以下のカテゴリに属する単語を分類し、抽出された予約情報から、各分類に関連する少なくとも１つの他のカテゴリの単語がそれぞれ抽出される。さらに、抽出された各単語とその発音に関する情報とを対応付けることにより、分割予約辞書が作成される。なお、以下の説明では、汎用辞書１５４１に含まれる重要カテゴリのうち、分類の基準とされる、属する単語数が所定量以下のカテゴリを「基準カテゴリ」というものとする。
【０１２３】
基準カテゴリは、属する単語の数が所定数以下のカテゴリであってもよいし、他のカテゴリに属する単語の数に対する比率が所定値以下のカテゴリであってもよい。属する単語数が最小の重要カテゴリとすることがより好ましい。この場合、各分割辞書に含まれる単語数を最小とすることができるため、さらに認識精度を高めることができる。また、分割辞書が互いに異なる単語をそれぞれ含むように作成されていることにより、その単語に特有の認識結果を得ることができる。また、属する単語が、各々、他のカテゴリの単語と関連するカテゴリであることが好ましい。さらに、受付装置１０から来訪者に対して提示される質問に対する応答に含まれるカテゴリであることが望ましい。
【０１２４】
本実施形態では、図６に示すように、汎用辞書１５４１に含まれる重要カテゴリ「会社名」、「来訪者名」および「担当者名」のうち、最も単語数が少ないのは「担当者名」である。よって、汎用辞書１５４１のカテゴリ「担当者名」が基準カテゴリとされる。そして、予約ＤＢ１５１０から抽出された担当者名が、担当者１名毎に分類され、各担当者が関係する会社および来訪者に応じて、予約ＤＢ１５１０から抽出された予約情報に含まれる会社名および来訪者名が、各分類に振り分けられる。そして、各分類に属する単語とその発音に関する情報を互いに対応づけることによって分割予約辞書が作成され、予約辞書記憶エリア１５５に記憶される。
【０１２５】
図１８は、２００８年５月１２日の１４：００が処理時点である場合に、訪問予定日が処理時点から前後１時間以内にある予約情報を基に、カテゴリ「担当者名」を基準カテゴリとして、会社５の担当者名が「佐藤」という分類に対して作成された分割予約辞書１５５２の例を示している。この例では、まず、第１の実施形態で予約辞書１５５１が作成される場合と同様に、図４に示す予約ＤＢ１５１０から、１０件の予約情報に含まれる会社名、会社名ヨミ、来訪者名、来訪者名ヨミ、担当者名、および担当者名ヨミが抽出される。抽出される担当者名は「佐藤」、「渡辺」、「鈴木」、および「高橋」の４つである。各担当者名、各担当者名に対応して予約情報に含まれていた会社名および来訪者名と、それぞれの発音に関する情報とを対応付けることにより、４つの分割予約辞書が作成される。なお、非重要カテゴリの扱いは、第１の実施形態で説明した通りである。
【０１２６】
図１８に示すように、担当者名が「佐藤」という分類の分割予約辞書１５５２に含まれる重要カテゴリ「会社名」、「来訪者名」および「担当者名」に属する単語数は、それぞれ、３、４、１となる。つまり、分割予約辞書１５５２では、「会社名」、「来訪者名」および「担当者名」に属する単語数を、第１の実施形態の予約辞書１５５１の単語数からさらに減少させることができる。よって、分割予約辞書の認識結果が得られた場合、さらに精度が高い最終結果を得ることができる。なお、図１８では、各カテゴリに属する単語の数が示されているのは単に説明目的であり、実際の分割予約辞書１５５２には、単語数は含まれなくてよい。
【０１２７】
なお、担当者名を基準として分割予約辞書を作成する場合であっても、必ずしも各分割予約辞書に含まれる担当者名の単語数を１とする必要はない。例えば、会社５で同じ部署に所属する担当者毎、または同じ業務に携わっている担当者毎に分類して、それぞれ１〜数名を含む分割予約辞書を作成することも可能である。この場合、前述の例で作成される分割予約辞書の数は、４よりも少なくなる場合がある。
【０１２８】
以下、本実施形態の受付装置１０において行われる各種処理について、図１２、図１３および図１９を参照して説明する。本実施形態の処理は、基本的には第１の実施形態で行われる処理と同様であるため、同様の処理については説明を適宜省略し、異なる処理を中心に説明する。第１の実施形態と異なるのは、辞書を参照して行われる音声認識処理と、音声認識の最終結果に基づいて行われる担当者特定処理である。
【０１２９】
まず、本実施形態の音声認識処理について、図１２および図１３を参照して説明する。なお、図１３において、「予約辞書」は「分割予約辞書」と読み替えるものとする。図１２に示す音声認識処理が開始されると、音響モデル、言語モデル、および辞書がＨＤＤ１５０の所定の記憶エリアから、それぞれ読み込まれる（Ｓ２１）。本実施形態では、このとき、汎用辞書１５４１（図６参照）とともに、複数の分割予約辞書が読み込まれる。前述の例のように分割予約辞書が作成され、予約辞書記憶エリア１５５に記憶されている場合には、図１８に示す分割予約辞書１５５２を含む４つの分割予約辞書が読み込まれることになる。
【０１３０】
そして、ステップＳ２５では、汎用辞書１５４１および４つの分割予約辞書を参照して来訪者の音声が認識されるため、合わせて５通りの認識が行われることになる。汎用辞書１５４１の認識結果には識別番号ゼロ（０）、分割予約辞書の認識結果には識別番号１〜４が付与されて、ＲＡＭ１０３に記憶される。
【０１３１】
続くステップＳ２６の認識結果決定処理では、図１３に示すように、まず、分割予約辞書の認識結果があるか否かが判断される（Ｓ２６１）。前述したように、分割予約辞書は４つあるため、識別番号１〜４のいずれかに対応する結果として、認識結果（テキスト）が記憶されていれば、分割予約辞書の認識結果があると判断され（Ｓ２６１：ＹＥＳ）、分割予約辞書の認識結果が最終結果として決定される（Ｓ２６３）。なお、分割予約辞書による認識結果が複数ある場合には、すべての認識結果を最終結果とすればよい。
【０１３２】
その他の場合については、第１の実施形態と同様である。すなわち、分割予約辞書の認識結果がすべて認識失敗であった場合には（Ｓ２６１：ＮＯ）、識別番号ゼロ（０）に対応して記憶されている汎用辞書の認識結果があるか否かが判断される（Ｓ２６２）。汎用辞書の認識結果があれば（Ｓ２６２：ＹＥＳ）、それが最終結果とされ（Ｓ２６４）、なければ（Ｓ２６２：ＮＯ）、最終結果は認識失敗とされる（Ｓ２６５）。
【０１３３】
このようにして、音声認識処理で最終結果が決定されると、受付シナリオ処理（図１４参照）のステップＳ１２０または担当者名質問シナリオ処理（図１６参照）のステップＳ２２０では、図１９に示す担当者特定処理が行われる。図１９に示すように、まず、最終結果が分割予約辞書の認識結果であるか否かが判断される（Ｓ１４１）。
【０１３４】
最終結果が分割予約辞書の認識結果である場合（Ｓ１４１：ＹＥＳ）、最終結果に担当者名が含まれているか否かが判断される（Ｓ１４２）。含まれていないと判断された場合には（Ｓ１４２：ＮＯ）、少なくとも、分割予約辞書を参照した来訪者名の認識には成功している。分割予約辞書に含まれる来訪者名の単語数は少ないため、来訪者名の認識に成功している場合、認識結果の信頼性は高い。そこで、複数の分割予約辞書のうち、どの辞書で認識に成功したのかに応じて、担当者が特定される。
【０１３５】
具体的には、まず、最終結果に対応して記憶されている識別番号に基づいて、認識結果が得られた分割予約辞書が特定される。前述したように、本実施形態の分割予約辞書は、担当者１名毎に作成されているため、カテゴリ「担当者名」に含まれる単語は１つである。よって、この担当者名が、来訪者に応対する担当者の担当者名として特定され、ＲＡＭ１０３に記憶されることになる（Ｓ１４３）。
【０１３６】
その他の場合については、第１の実施形態と同様である。すなわち、最終結果が分割予約辞書の認識結果ではなく、汎用辞書の結果である場合には（Ｓ１４１：ＮＯ）、最終結果中に担当者名が含まれているか否かが判断される（Ｓ１４５）。最終結果に担当者名が含まれない場合には（Ｓ１４５：ＮＯ）、担当者名は「なし」として、ＲＡＭ１０３に記憶され（Ｓ１４９）、担当者名が含まれている場合には（Ｓ１４５：ＹＥＳ）、最終結果に含まれる担当者名が抽出され、担当者名としてＲＡＭ１０３に記憶される（Ｓ１４７）。ステップＳ１４３、Ｓ１４７、またはＳ１４９の後、図１９に示す担当者特定処理は終了する。
【０１３７】
なお、最終結果として、分割予約辞書の認識結果が複数ある場合には、例えば、そのうち１つでも担当者名が含まれる最終結果があれば、その最終結果中の担当者名を担当者名とし（Ｓ１４７）、担当者名を含む分割予約辞書の認識結果が１つもない場合に限って、分割予約辞書に含まれる担当者名を担当者名と決定すればよい（Ｓ１４３）。また、ステップＳ１４３またはＳ１４７で複数の担当者名が特定された場合には、その後の担当者通知シナリオ処理（図１７参照）において、複数の担当者すべてに通知処理をおこなってもよいし、代表者通知シナリオ処理（図示外）に移行するようにしてもよい。
【０１３８】
以上に説明したように、本実施形態では、予約ＤＢ１５１０に記憶された予約情報の一部が抽出され、汎用辞書１５４１に含まれる複数のカテゴリのうち、属する単語数が所定量以下のカテゴリに属する単語を分類し、抽出された予約情報から、各分類に関連する少なくとも１つの他のカテゴリの単語がそれぞれ抽出される。さらに、抽出された各単語とその発音に関する情報とを対応付けることにより、複数の分割予約辞書が作成される。来訪者の音声認識の際、汎用辞書１５４１とともに、複数の分割予約辞書が参照される。
【０１３９】
各分割予約辞書に含まれる単語は、予約情報に含まれ、且つ、担当者毎の分類に対応する単語のみに絞られているので、汎用辞書１５４１と分割予約辞書を併用して音声認識を行い、最終結果を決定することにより、さらに精度の高い最終結果を得ることができる。また、本実施形態の分割予約辞書は、担当者毎に作成されている。分割予約辞書の認識結果の信頼性は高いので、認識に成功した分割予約辞書に対応する担当者の分類に基づいて担当者を特定することにより、来訪者が担当者に関する発話をしない場合でも、迅速かつ高精度に担当者を特定することができる。
【０１４０】
本実施形態では、図１９のステップＳ１４３、Ｓ１４７、およびＳ１４９で担当者を特定するＣＰＵ１０１が、「担当者特定手段」に相当する。
【０１４１】
<第３の実施形態>
以下、図１２、図１３、図２０および図２１を参照して、第３の実施形態について説明する。第１の実施形態に係る予約辞書１５５１（図７参照）では、各単語には、その単語そのものの発音に関する情報が対応づけられている。本実施形態では、予約辞書１５５３において、各単語に単語そのものの発音ではない発音の情報が対応付けられている点が特徴である。図２０は、予約辞書１５５３の説明図である。図２１は、第３の実施形態に係る担当者特定処理のフローチャートである。
【０１４２】
本実施形態に係る受付システム１、ならびに受付システム１の構成要素である受付装置１０およびユーザ端末２０の構成は、受付装置１０の予約辞書記憶エリア１５５に記憶される辞書が異なる以外、第１の実施形態と同一である。よって、ここでは、図２０を参照して、本実施形態で予約辞書記憶エリア１５５に記憶されている予約辞書１５５３についてのみ説明し、その他の構成の説明については省略する。
【０１４３】
図２０に示す本実施形態の予約辞書１５５３は、図７に示す第１の実施形態の予約辞書１５５１とは、カテゴリ「来訪者名」に属する単語と発音に関する情報の対応が異なっている。その他のカテゴリの単語およびその発音に関する情報は、図７の予約辞書１５５１と同一であるため、説明および図２０での図示は省略する。
【０１４４】
図２０に示すように、本実施形態の予約辞書１５５３では、カテゴリ「来訪者名」に属する単語は、実際には２つの名前を含む。具体的には、来訪者名および担当者名が、区切り文字（図中の「：」）を介して連結され、カテゴリ「来訪者名」に属する１つの単語として扱われている。これは、後述する担当者特定処理（図２１参照）において、来訪者の発話に来訪者名のみが含まれる場合にも、来訪者名から担当者名を特定できるようにするためである。
【０１４５】
本実施形態の予約辞書１５５３は、例えば、次のように作成することができる。まず、第１の実施形態の予約辞書１５５１（図７参照）と同様に、所定の時間間隔（例えば、１０分間隔）で、予約ＤＢ１５１０に記憶されている予約情報のうち、訪問予定日時が処理時点から所定の関係にある予約情報から、汎用辞書１５４１に含まれる複数のカテゴリのうち少なくとも１つに属する単語を抽出し、各単語とその発音に関する情報とを対応付けることにより作成することができる。ただし、カテゴリ「来訪者名」の単語については、予約情報から抽出された来訪者名そのものではなく、来訪者名および担当者名を区切り文字（：）を介して連結したものを１語として、来訪者名として使用する。
【０１４６】
図２０の例は、２００８年５月１２日の１４：００が処理時点である場合に、訪問予定日が処理時点から前後１時間以内にある予約情報を基にして作成された予約辞書１５５３を示している。この例では、まず、第１の実施形態で予約辞書１５５１が作成される場合と同様に、図４に示す予約ＤＢ１５１０から、１０件の予約情報に含まれる会社名、会社名ヨミ、来訪者名、来訪者名ヨミ、担当者名、および担当者名ヨミが抽出される。
【０１４７】
会社名ヨミ、来訪者名ヨミ、および担当者名ヨミが、それぞれ、音素列に変換される。そして、会社名と会社名ヨミの音素列、来訪者名および担当者名を区切り文字（：）を介して連結した単語と来訪者名ヨミの音素列、担当者名と担当者名ヨミの音素列とが互いに対応づけられ、カテゴリ「会社名」、「来訪者名」および「担当者名」に属する単語およびその発音に関する情報として、予約辞書１５５３が作成される。なお、非重要カテゴリの扱いは、第１の実施形態で説明した通りである。
【０１４８】
抽出された１０件の予約情報に含まれる来訪者名の数は１０あるので、図２０に示すように、作成された予約辞書１５５３には、カテゴリ「来訪者名」に属する単語として、１０の単語が含まれる。例えば、最初に格納されている来訪者名「囲：佐藤」は、図４に示す予約ＤＢ１５１０で２行目に記載されている予約情報の来訪者名「囲」と担当者名「佐藤」が区切り文字（：）を介して連結された単語である。そして、この来訪者名「囲：佐藤」には、同じ予約情報の来訪者名ヨミから得られた「カコイ」という発音に関する情報（音素列）が対応づけられている。
【０１４９】
以下、本実施形態の受付装置１０において行われる処理について、図２１を参照して説明する。本実施形態の処理は、基本的には第１の実施形態で行われる処理と同様であるため、同様の処理については説明を適宜省略し、異なる処理を中心に説明する。第１の実施形態と異なるのは、受付シナリオ処理（図１４参照）のステップＳ１２０または担当者名質問シナリオ処理（図１６参照）のステップＳ２２０で音声認識の最終結果に基づいて行われる担当者特定処理である。
【０１５０】
図２１に示すように、担当者特定処理が開始されると、まず、最終結果が予約辞書の認識結果であるか否かが判断される（Ｓ１５１）。最終結果は、予約辞書の認識結果である場合（Ｓ１５１：ＹＥＳ）、最終結果に担当者名が含まれているか否かが判断される（Ｓ１５２）。含まれていないと判断された場合には（Ｓ１５２：ＮＯ）、少なくとも、予約辞書１５５３を参照した来訪者名の認識には成功している。予約辞書１５５３に含まれる来訪者名の単語数は少ないため、来訪者名の認識に成功している場合、認識結果の信頼性は高い。そこで、最終結果に含まれる来訪者名に基づいて担当者を特定する処理が行われる。
【０１５１】
具体的には、まず、最終結果に含まれる来訪者名が、来訪者名と担当者名とに分けられ（Ｓ１５３）、担当者名が特定される（Ｓ１５４）。音声認識では、予約辞書１５５３の発音に関する情報でマッチングが行われるが、認識結果として出力されるのは対応する単語である。前述したように、予約辞書１５５３のカテゴリ「来訪者名」の単語は、実際には来訪者名と担当者名が連結された単語である。よって、例えば「カコイ」という発音に対する最も尤度が高い場合、「囲：佐藤」という単語が最終結果とされている。この場合、区切り文字（：）の位置で単語を２分割することにより、「囲」と「佐藤」の２つの単語が得られ（Ｓ１５３）、「佐藤」が担当者名として特定されることになる（Ｓ１５４）。
【０１５２】
その他の場合については、第１の実施形態と同様である。すなわち、最終結果が分割予約辞書の認識結果ではなく、汎用辞書の結果である場合には（Ｓ１５１：ＮＯ）、最終結果中に担当者名が含まれているか否かが判断される（Ｓ１５５）。最終結果に担当者名が含まれない場合には（Ｓ１５５：ＮＯ）、担当者名は「なし」として、ＲＡＭ１０３に記憶され（Ｓ１５９）、担当者名が含まれている場合には（Ｓ１５５：ＹＥＳ）、最終結果に含まれる担当者名が抽出され、担当者名としてＲＡＭ１０３に記憶される（Ｓ１５７）。ステップＳ１５４、Ｓ１５７、またはＳ１５９の後、図２１に示す担当者特定処理は終了する。
【０１５３】
以上に説明したように、本実施形態では、予約ＤＢ１５１０に記憶された予約情報の一部が抽出され、抽出された各単語とその発音に関する情報とを対応付けることにより、予約辞書１５５３が作成される。ただし、カテゴリ「来訪者名」については、来訪者名と担当者を区切り文字を介して連結した単語が、来訪者名として使用される。来訪者の音声認識の際、汎用辞書１５４１とともに、予約辞書１５５３が参照される。
【０１５４】
予約辞書１５５３に含まれる単語は、予約情報に含まれる単語のみに絞られているので、汎用辞書１５４１と予約辞書１５５３を併用して音声認識を行い、最終結果を決定することにより、信頼性の高い最終結果を得ることができる。また、本実施形態の予約辞書１５５３では、来訪者名に担当者名が対応付けられている。予約辞書１５５３の認識結果の信頼性は高いので、来訪者名に対応付けられた担当者を特定することにより、来訪者が担当者に関する発話をしない場合でも、迅速かつ高精度に担当者を特定することができる。
【０１５５】
なお、前述の実施形態に示される構成や処理は例示であり、各種の変形が可能なことはいうまでもない。例えば、予約ＤＢ１５１０（図４参照）に格納された予約情報に基づいて作成される辞書には、少なくとも来訪者に関する単語が含まれていればよい。すなわち、例えば、図７に示す予約辞書１５５１において、重要カテゴリは「来訪者名」のみとすることができる。この場合、受付シナリオ処理（図１４参照）のステップＳ１０２では、来訪者に対して来訪者名のみを質問する。そして、その後の担当者特定処理（Ｓ１２０および図１５）では、最終結果が予約辞書の認識結果の場合（図１５のＳ１２１：ＹＥＳ）、担当者名を含むか否かの判断は行わずに、来訪者名を基に予約ＤＢ１５１０の予約情報を参照して、担当者を特定すればよい（Ｓ１２３〜Ｓ１２４）。
【０１５６】
前述の実施形態では、予約辞書１５５１、分割予約辞書１５５２、および予約辞書１５５３のいずれも、訪問予定日時が、辞書が作成される時点の前後１時間以内にある予約情報を基にして作成されている。しかしながら、予約辞書１５５１、分割予約辞書１５５２、および予約辞書１５５３を作成する基となる予約情報は、この条件で抽出されたものに限られない。例えば、訪問予定日時が同日の予約情報や、過去１週間以内にある予約情報を用いてもよい。
【０１５７】
また、予約辞書１５５１、分割予約辞書１５５２、および予約辞書１５５３が作成されるタイミングは、１０分間隔、１時間間隔、毎日午前０時等、所定の時間間隔に限られない。例えば、来訪者が人感センサ１０９によって検知される度に、訪問予定日時が検知時点の前後１時間以内にある予約情報を基に作成されてもよい。この場合、常に来訪者が到着した時間に近い予約情報を基にした辞書が作成されるので、来訪者の発話を高精度に認識することができる。
【０１５８】
前述の実施形態では、汎用辞書１５４１（図６参照）および予約辞書１５５１（図７参照）、分割予約辞書１５５２（図１８参照）および予約辞書１５５３（図２０参照）は、いずれも非重要カテゴリの単語すべてを含んでいる。しかしながら、非重要カテゴリに属する単語は、必ずしも汎用辞書や予約情報に基づく辞書に含める必要はなく、非重要カテゴリの単語のみを含む別の辞書を作成しておき、音声認識の際に汎用辞書または分割辞書とともに参照されるようにしてもよい。
【０１５９】
前述の実施形態では、受付装置１０はマイク１０７、スピーカ１０８および人感センサ１０９を備え、来訪者の検知、音声の入出力、および音声認識等の処理をすべて同一の装置で行っている。しかしながら、前述の実施形態の受付装置１０の構成の一部を別の装置とすることも可能である。例えば、マイク、スピーカおよび人感センサを備え、受付装置１０に接続されたインターホン型の受付端末を会社５の入り口近辺に設置し、受付装置１０は会社５内の別の場所に設置してもよい。そして、受付端末で来訪者の検知や音声の入力を行い、その情報を受付装置１０に送信してもよい。また、受付装置１０から受付端末に音声データを送信し、受付端末のスピーカから音声を出力すればよい。この場合、受付装置１０はマイク１０７、スピーカ１０８および人感センサ１０９を備えている必要はない。
【０１６０】
また、前述の実施形態では、受付装置１０にＨＤＤ１５０が設けられているが、ＨＤＤ１５０に記憶されている情報（汎用辞書１５４１、予約辞書１５５１等予約情報に基づく辞書の、社員ＤＢ１５６１等）は、例えば、ＬＡＮ９を介して受付装置１０に接続可能な別個の記憶装置に記憶させておき、処理中に、必要な情報を読み出す構成としてもよい。
【０１６１】
前述の実施形態では、受付装置１０から来訪者に対する提示される質問や再発話の指示は、スピーカ１０８から音声を出力することにより行われている。しかしながら、質問や再発話の指示は、ディスプレイ１０６に表示させることも可能である。また、音声出力と表示を同時に行ってもよい。
【０１６２】
さらに、前述の実施形態では、担当者の連絡先の特定に、社員ＤＢ１５６１（図７参照）を使用しているが、最終結果が予約辞書１５５１等予約情報に基づく辞書である場合、予約ＤＢ１５１０（図４参照）を参照して連絡先を特定することも可能である。
【図面の簡単な説明】
【０１６３】
【図１】受付システム１の概略構成を示すシステム構成図である。
【図２】受付装置１０の電気的構成を示すブロック図である。
【図３】ハードディスク装置１５が備える記憶エリアの説明図である。
【図４】予約データベース１５１０の説明図である。
【図５】言語モデル１５３１の説明図である。
【図６】汎用辞書１５４１の説明図である。
【図７】予約辞書１５５１の説明図である。
【図８】社員データベース１５６１の説明図である。
【図９】ユーザ端末２０の電気的構成を示すブロック図である。
【図１０】受付装置１０のメイン処理のフローチャートである。
【図１１】図１０に示すメイン処理中に実行されるシナリオ処理のフローチャートである。
【図１２】音声認識処理のフローチャートである。
【図１３】図１２に示す音声認識処理で実行される認識結果決定処理のフローチャートである。
【図１４】図１１に示すシナリオ処理において、シナリオ別処理として実行される受付シナリオ処理のフローチャートである。
【図１５】図１４に示す受付シナリオ処理中に実行される担当者特定処理のフローチャートである。
【図１６】図１１に示すシナリオ処理において、シナリオ別処理として実行される担当者名質問シナリオ処理のフローチャートである。
【図１７】図１１に示すシナリオ処理において、シナリオ別処理として実行される担当者通知シナリオ処理のフローチャートである。
【図１８】分割予約辞書１５５２の説明図である。
【図１９】第２の実施形態に係る担当者特定処理のフローチャートである。
【図２０】予約辞書１５５３の説明図である。
【図２１】第３の実施形態に係る担当者特定処理のフローチャートである。
【符号の説明】
【０１６４】
１０受付装置
１０１ＣＰＵ
１０７マイク
１０９人感センサ
１５０ＨＤＤ
１５４汎用辞書記憶エリア
１５５予約辞書記憶エリア
１５６社員データベース記憶エリア
２０ユーザ端末

【特許請求の範囲】
【請求項１】
来訪者の発話の認識結果に応じた受付を行う音声認識装置であって、
来訪者を検出する来訪者検出手段によって前記来訪者が検出された後、音声入力手段から入力された前記来訪者の発する音声の音声情報を取得する音声情報取得手段と、
複数のカテゴリの各々について、複数の単語と前記複数の単語の発音に関する情報との対応を示す辞書である汎用辞書を記憶する汎用辞書記憶手段に記憶された前記汎用辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行う第１の認識手段と、
来訪者の予約に関する情報である予約情報を記憶する予約情報記憶手段に記憶された前記予約情報から、前記複数のカテゴリのうち少なくとも１つに属する単語を抽出し、抽出された前記単語の発音に関する情報と対応づけることにより作成された予約辞書を記憶する予約辞書記憶手段に記憶された前記予約辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行う第２の認識手段と、
前記第１の認識手段の認識結果である第１の認識結果および前記第２の認識手段の認識結果である第２の認識結果に基づいて、前記音声の認識結果を決定する結果決定手段を備えたことを特徴とする音声認識装置。
【請求項２】
前記結果決定手段は、前記第２の認識手段による前記第２の認識結果が得られた場合には、前記第１の認識結果に優先して、前記第２の認識結果を前記認識結果として決定することを特徴とする請求項１に記載の音声認識装置。
【請求項３】
前記結果決定手段は、前記第２の認識手段による前記第２の認識結果が得られなかった場合、前記第１の認識手段による前記第１の認識結果を前記認識結果として決定することを特徴とする請求項１または２に記載の音声認識装置。
【請求項４】
前記予約辞書は、前記複数のカテゴリのうち、属する単語の数が所定量以下であるカテゴリである基準カテゴリに属する複数の単語を分類し、前記予約情報から、前記複数のカテゴリのうち少なくとも１つに属し、各分類に関連する前記単語をそれぞれ抽出して作成された複数の分割予約辞書を含み、
前記第２の認識手段は、前記複数の分割予約辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行うことを特徴とする請求項１〜３のいずれかに記載の音声認識装置。
【請求項５】
請求項１〜３のいずれかに記載の音声認識装置と、
前記結果決定手段によって決定された前記認識結果に基づいて、前記来訪者の応対を担当する担当者を特定する担当者特定手段と、
前記担当者特定手段によって特定された前記担当者に対して、前記結果決定手段によって決定された前記認識結果に基づく通知処理を行う通知手段を備えたことを特徴とする受付装置。
【請求項６】
前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、
前記予約情報は、前記来訪者に関する情報、および前記来訪者に関する情報に対応付けられた前記担当者に関する情報を少なくとも含み、
前記予約辞書は、前記予約情報から、前記来訪者カテゴリに属する単語をそれぞれ抽出して作成されており、
前記担当者特定手段は、前記結果決定手段によって決定された前記認識結果が前記第１の認識結果である場合には、前記第１の認識結果に基づいて前記担当者を特定し、前記結果決定手段によって決定された前記認識結果が前記第２の認識結果である場合には、前記第２の認識結果に含まれる前記来訪者カテゴリに属する単語を含む前記予約情報に含まれる前記担当者に関する情報に基づいて、前記担当者を特定することを特徴とする請求項５に記載の受付装置。
【請求項７】
請求項４に記載の音声認識装置と、
前記結果決定手段によって決定された前記認識結果に基づいて、前記来訪者の応対を担当する担当者を特定する担当者特定手段と、
前記担当者特定手段によって特定された前記担当者に対して、前記結果決定手段によって決定された前記認識結果に基づく通知処理を行う通知手段を備えたことを特徴とする受付装置。
【請求項８】
前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、
前記予約情報は、前記来訪者に関する情報、および前記来訪者に関する情報に対応付けられた前記担当者に関する情報を少なくとも含み、
前記分割予約辞書は、前記担当者カテゴリを前記基準カテゴリとして、前記予約情報から前記来訪者カテゴリに属する単語をそれぞれ抽出して作成されており、
前記担当者特定手段は、前記結果決定手段によって決定された前記認識結果が前記第１の認識結果である場合には、前記第１の認識結果に基づいて前記担当者を特定し、前記結果決定手段によって決定された前記認識結果が前記第２の認識結果である場合には、前記第２の認識結果の認識に用いられた前記分割予約辞書に対応する前記担当者カテゴリの前記分類に基づいて、前記担当者を特定することを特徴とする請求項７に記載の受付装置。
【請求項９】
前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、
前記予約辞書は、前記来訪者カテゴリに属する単語の発音に関する情報に対応付けられた、前記来訪者カテゴリに属する単語と前記担当者カテゴリに属する単語とを区切り文字を介して連結した単語である連結単語を含み、
前記第２の認識手段による前記第２の認識結果には、前記連結単語が含まれており、
前記担当者特定手段は、前記第２の認識結果に含まれる前記連結単語に基づいて前記担当者を特定することを特徴とする請求項５または７に記載の受付装置。
【請求項１０】
請求項１〜４のいずれかに記載の音声認識装置の各種処理手段としてコンピュータを機能させるための音声認識プログラム。
【請求項１１】
請求項５〜９のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させるための受付プログラム。

【図１】